Gentle Introduction to Statistics for Machine Learning

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


ЧТО ТАКОЕ СТАТИСТИКА?

Статистику также можно определить как науку о сборе, анализе и интерпретации данных. Статистика - это область, которая существует уже давно, и это также обязательная область для каждого специалиста по обработке данных. Она включает в себя изучение данных для получения полезной информации, которая будет использоваться для принятия решений. Таково определение статистики в ее простейшей форме.

В статистике есть некоторые термины, с которыми вы должны быть знакомы, я определю некоторые из них здесь:

1. КОНСТРУКЦИЯ: Конструкция - это любое событие или событие, которое трудно измерить. Например, ощущение счастья, чувство грусти и то, насколько хорошо вы спали. Все эти события не имеют определенного способа измерения.

2. ОПЕРАЦИОННОЕ ОПРЕДЕЛЕНИЕ: Операционное определение обычно вводится для того, чтобы было легко определить конструкцию.

3. НАСЕЛЕНИЕ: Это общее количество людей и вещей, которые не изучаются

4. ВЫБОРКА: Выборка - это часть исследуемой совокупности.

5. ПЕРЕМЕННЫЕ: Это факторы, которые могут вызвать то или иное событие.

6. ГИПОТЕЗА: Это утверждение, описывающее взаимосвязь между переменными

Теперь, когда вы ознакомились с некоторыми основными терминами в области статистики…

давайте кратко рассмотрим определение машинного обучения.

Машинное обучение - это способность компьютеров извлекать закономерности из данных и делать прогнозы. В нем использовались методы data science для анализа данных, а область статистики является одним из подмножеств data science. Многие методы, используемые в машинном обучении, стали возможными благодаря области статистики.

Поэтому знание статистики очень важно для вас как специалиста по обработке данных, чтобы знать, что происходит под капотом. Вы можете быть в состоянии создавать модели как инженер по машинному обучению без знания статистики, но хорошее понимание того, как процесс работает под капотом, очень важно для вашего прогресса, а также для объяснимости ваших кодов, поскольку компании не будут нанимать никого, кто не может предложить правильные объяснения своих кодов. Они предпочтут нанять кого-то, кто имеет правильное представление о том, что делает хеше.

Отрасли статистики

Статистика в основном делится на:

1. Описательная статистика

2. Выводная статистика

Описательная статистика

Фото Люка Чессера на Unsplash

В описательной статистике вы в основном организуете и обобщаете свои данные с помощью цифр и графиков. Например, вы можете суммировать свои данные в виде гистограммы, круговой диаграммы, гистограммы и т.д.

Чтобы описать свои данные с помощью графиков, вы можете использовать следующее:

Гистограмма
Линейный график
Гистограмма
Круговая диаграмма

Чтобы описать свои данные с помощью цифр, вы в основном используете следующее:

1. Мера центра

2. Мера дисперсии

Мера центра

Мера центральной тенденции - это единственное значение, которое пытается сгруппировать значения путем определения центральной позиции в группе данных.

Есть три меры центра, они:

Я Имею в виду

Среднее значение конкретных данных - это сумма выборок, деленная на общее количество выборок. Обычно на него влияют выбросы.

Формула для среднего:

II. Медиана

Медиана - это середина данных. Одним из свойств медианы является то, что на нее обычно не влияют выбросы, в отличие от среднего значения

Формула для медианы:

iii. Режим

Режим показывает нам наиболее часто встречающуюся выборку в дистрибутиве.

Мера дисперсии

Фото Свена Рида на Unsplash

Мера дисперсии помогает вам определить, насколько далеко точки данных находятся друг от друга.

У нас есть три меры дисперсии, а именно:

Диапазон, дисперсия, стандартное отклонение

i. Диапазон

Это разница между максимальным и минимальным значениями в распределении

Формула для диапазона выглядит следующим образом:

ii. Разница

Это сумма всех квадратов отклонения средних значений выборки от средних значений совокупности.

Формула для определения дисперсии:

iii. Стандартное отклонение

Это квадратный корень из дисперсии

Формула для стандартного отклонения равна:

Эмпирическое правило

В статистике мы действительно следуем эмпирическому правилу, которое гласит, что

68% ваших данных находятся в пределах одного стандартного отклонения от среднего значения распределения

95% данных находятся в пределах двух стандартных отклонений от среднего значения распределения

99,7% данных находятся в пределах трех стандартных отклонений от среднего значения распределения.

Эмпирическое правило имеет множество применений в теории вероятностей, но мы не будем углубляться в эти приложения, поскольку эти концепции выходят за рамки данной статьи.

Центральная предельная теорема

Центральная предельная теорема гласит, что

По мере увеличения числа испытаний значение наблюдаемой вероятности приближается к теоретической вероятности.

Z оценка

Z-балл используется в статистике, чтобы определить, насколько далеко с точки зрения стандартного отклонения число находится от среднего значения

Выводная статистика

Фото Скотта Грэма на Unsplash

Эта отрасль статистики осуществляет выборку данных для определения численности населения. В разделе "Статистика выводов" вы узнаете об оценке и о том, как можно получить информацию о совокупности из ее выборки.

В реальных задачах нам может быть немного сложно получить общую совокупность, поэтому в большинстве случаев мы используем выборки.

Взаимосвязь

Корреляция помогает нам определить взаимосвязи между переменными в нашем наборе данных.

Как специалисту по обработке данных, вам очень важно знать, насколько хорошо ваши независимые переменные коррелируют друг с другом, чтобы вы знали, какие переменные следует объединять во время проектирования объектов, и вы также должны знать, как независимые переменные коррелируют с зависимой переменной.

Точно так же, как у нас есть единицы измерения в математике для измерения длины, массы, времени и т.д., У нас также есть мера корреляции в статистике, называемая коэффициентом корреляции (r).

Он используется для количественной оценки силы взаимосвязей между переменными

Есть важный момент, который вы должны отметить

Отсутствие корреляции не подразумевает независимости. Корреляция не равна причинно-следственной связи.

Коэффициенты корреляции;

Близко к 1= большая положительная корреляция

Близко к -1 = большая отрицательная корреляция

Близко к 0= нет связи”

Вывод

Я надеюсь, что вы смогли получить хорошее представление о том, что такое статистика и ее важность для вас как специалиста по обработке данных / инженера по машинному обучению.

Спасибо всем, кто вдохновил меня на это. Свяжитесь со мной в LinkedIn и Twitter и посмотрите, насколько хорошо мы можем сблизиться.


Источник: pub.towardsai.net

Комментарии: