Gentle Introduction to Statistics for Machine Learning |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2022-06-09 17:23 большие данные big data, теория вероятности, актуальная математика ЧТО ТАКОЕ СТАТИСТИКА? Статистику также можно определить как науку о сборе, анализе и интерпретации данных. Статистика - это область, которая существует уже давно, и это также обязательная область для каждого специалиста по обработке данных. Она включает в себя изучение данных для получения полезной информации, которая будет использоваться для принятия решений. Таково определение статистики в ее простейшей форме. В статистике есть некоторые термины, с которыми вы должны быть знакомы, я определю некоторые из них здесь: 1. КОНСТРУКЦИЯ: Конструкция - это любое событие или событие, которое трудно измерить. Например, ощущение счастья, чувство грусти и то, насколько хорошо вы спали. Все эти события не имеют определенного способа измерения. 2. ОПЕРАЦИОННОЕ ОПРЕДЕЛЕНИЕ: Операционное определение обычно вводится для того, чтобы было легко определить конструкцию. 3. НАСЕЛЕНИЕ: Это общее количество людей и вещей, которые не изучаются 4. ВЫБОРКА: Выборка - это часть исследуемой совокупности. 5. ПЕРЕМЕННЫЕ: Это факторы, которые могут вызвать то или иное событие. 6. ГИПОТЕЗА: Это утверждение, описывающее взаимосвязь между переменными Теперь, когда вы ознакомились с некоторыми основными терминами в области статистики… давайте кратко рассмотрим определение машинного обучения. Машинное обучение - это способность компьютеров извлекать закономерности из данных и делать прогнозы. В нем использовались методы data science для анализа данных, а область статистики является одним из подмножеств data science. Многие методы, используемые в машинном обучении, стали возможными благодаря области статистики. Поэтому знание статистики очень важно для вас как специалиста по обработке данных, чтобы знать, что происходит под капотом. Вы можете быть в состоянии создавать модели как инженер по машинному обучению без знания статистики, но хорошее понимание того, как процесс работает под капотом, очень важно для вашего прогресса, а также для объяснимости ваших кодов, поскольку компании не будут нанимать никого, кто не может предложить правильные объяснения своих кодов. Они предпочтут нанять кого-то, кто имеет правильное представление о том, что делает хеше. Отрасли статистики Статистика в основном делится на: 1. Описательная статистика 2. Выводная статистика Описательная статистика Фото Люка Чессера на Unsplash В описательной статистике вы в основном организуете и обобщаете свои данные с помощью цифр и графиков. Например, вы можете суммировать свои данные в виде гистограммы, круговой диаграммы, гистограммы и т.д. Чтобы описать свои данные с помощью графиков, вы можете использовать следующее: Гистограмма Чтобы описать свои данные с помощью цифр, вы в основном используете следующее: 1. Мера центра 2. Мера дисперсии Мера центра Мера центральной тенденции - это единственное значение, которое пытается сгруппировать значения путем определения центральной позиции в группе данных. Есть три меры центра, они: Я Имею в виду Среднее значение конкретных данных - это сумма выборок, деленная на общее количество выборок. Обычно на него влияют выбросы. Формула для среднего: II. Медиана Медиана - это середина данных. Одним из свойств медианы является то, что на нее обычно не влияют выбросы, в отличие от среднего значения Формула для медианы: iii. Режим Режим показывает нам наиболее часто встречающуюся выборку в дистрибутиве. Мера дисперсии Фото Свена Рида на Unsplash Мера дисперсии помогает вам определить, насколько далеко точки данных находятся друг от друга. У нас есть три меры дисперсии, а именно: Диапазон, дисперсия, стандартное отклонение i. Диапазон Это разница между максимальным и минимальным значениями в распределении Формула для диапазона выглядит следующим образом: ii. Разница Это сумма всех квадратов отклонения средних значений выборки от средних значений совокупности. Формула для определения дисперсии: iii. Стандартное отклонение Это квадратный корень из дисперсии Формула для стандартного отклонения равна: Эмпирическое правило В статистике мы действительно следуем эмпирическому правилу, которое гласит, что 68% ваших данных находятся в пределах одного стандартного отклонения от среднего значения распределения 95% данных находятся в пределах двух стандартных отклонений от среднего значения распределения 99,7% данных находятся в пределах трех стандартных отклонений от среднего значения распределения. Эмпирическое правило имеет множество применений в теории вероятностей, но мы не будем углубляться в эти приложения, поскольку эти концепции выходят за рамки данной статьи. Центральная предельная теорема Центральная предельная теорема гласит, что По мере увеличения числа испытаний значение наблюдаемой вероятности приближается к теоретической вероятности. Z оценка Z-балл используется в статистике, чтобы определить, насколько далеко с точки зрения стандартного отклонения число находится от среднего значения Выводная статистика Фото Скотта Грэма на Unsplash Эта отрасль статистики осуществляет выборку данных для определения численности населения. В разделе "Статистика выводов" вы узнаете об оценке и о том, как можно получить информацию о совокупности из ее выборки. В реальных задачах нам может быть немного сложно получить общую совокупность, поэтому в большинстве случаев мы используем выборки. Взаимосвязь Корреляция помогает нам определить взаимосвязи между переменными в нашем наборе данных. Как специалисту по обработке данных, вам очень важно знать, насколько хорошо ваши независимые переменные коррелируют друг с другом, чтобы вы знали, какие переменные следует объединять во время проектирования объектов, и вы также должны знать, как независимые переменные коррелируют с зависимой переменной. Точно так же, как у нас есть единицы измерения в математике для измерения длины, массы, времени и т.д., У нас также есть мера корреляции в статистике, называемая коэффициентом корреляции (r). Он используется для количественной оценки силы взаимосвязей между переменными Есть важный момент, который вы должны отметить Отсутствие корреляции не подразумевает независимости. Корреляция не равна причинно-следственной связи. Коэффициенты корреляции; Близко к 1= большая положительная корреляция Близко к -1 = большая отрицательная корреляция Близко к 0= нет связи” Вывод Я надеюсь, что вы смогли получить хорошее представление о том, что такое статистика и ее важность для вас как специалиста по обработке данных / инженера по машинному обучению. Спасибо всем, кто вдохновил меня на это. Свяжитесь со мной в LinkedIn и Twitter и посмотрите, насколько хорошо мы можем сблизиться. Источник: pub.towardsai.net Комментарии: |
|