Наука о данных простым языком

2021-10-09 15:00

В школьные годы мы изучали историю, потому что она рассказывала о происхождении эволюции, древней цивилизации, сельском хозяйстве, урбанизации и т. д. Данные работают по принципу человеческого поведения: мы учимся друг у друга и ведем себя определенным образом, что помогает сформировать шаблоны и спрогнозировать результаты.

Многим трудно разобраться в науке о данных из-за большого количества технических терминов. Поэтому мы объясним ее основные понятия так, чтобы было понятно каждому.

Мы рассмотрим следующие темы.

Данные
Исследовательский анализ данных
Групповой анализ
Кластеризация
Регрессия или Классификация

Данные

Чтобы узнать аудиторию, нужно начать с вопросов. Большинство ответов относятся к числовым формам данных.

Данные находятся повсюду. Количество людей в спортивном зале выступает одной из форм количественных данных. А такие категории, как легкая атлетика, футбол, баскетбол, бадминтон и т. д., называются качественными данными.

Объяснение должно быть построено на примерах, имеющих отношение к жизни или работе людей.

Исследовательский анализ данных

Теперь мы имеем представление о том, что такое данные. В этом разделе мы разберемся в их поведении, шаблонах, отношениях и ассоциациях.

Итак, прошлый пример показал, сколько всего участников находится в комнате, сколько из них относится к определенной группе, а также средний возраст участников, их полученную квалификацию и многое другое.

Однако если кто-то в группе не соответствует шаблону, сегменту или поведению, то он будет считаться лишним. Другими словами, если в комнате окажется человек с химическим образованием, то он будет восприниматься, как посторонний.

Чтобы установить какую-либо связь или ассоциацию между двумя точками данных, то нельзя просто сказать, что она есть. Нам необходимо предоставить доказательства. В науке о данных это нужно сделать с помощью статистической формулы с определением гипотезы.

Групповой анализ

Представьте, что вы менеджер, и вам нужно выбрать, где проводить мероприятие. Вы провели исследование и отобрали три ресторана: A, B и C. Теперь нужно выбрать один из них и при этом точно аргументировать свое решение.

Если данные параметрические (соответствуют нормальному распределению), то нужно сформулировать гипотезу и выполнить статистический тест, например t-критерий Стьюдента (для двух групп) или Дисперсионный анализ (более двух групп).

Однако если данные непараметрические, то необходимо выполнить такие тесты, как U-критерий Манна-Уитни, t-критерий Уилкоксона или Критерий Краскела-Уоллиса. Но что же такое параметрические данные?

Два приведенных выше графика помогают лучше понять процесс распределения данных. Если атрибут распределен обычным способом, он будет соответствовать рисунку 1, и его можно отнести к параметрическим данным. Рисунок 2 относится к непараметрическим данным.

Кластеризация

Простыми словами, кластеризация подразумевает группировку. Она помогает понять поведение или модель, а также способствует формированию сегментов.

Один из распространенных примеров: в детстве наблюдали за тем, как звезды образуют различные формы. Мы определяли форму и создавали изображение, визуализируя близлежащие звезды. Теперь представьте, что точки данных также являются звездами.

Мы формируем кластер с помощью математической формулы, например вычисления Евклидова метрика или Расстояние городских кварталов. Однако здесь присутствует одна загвоздка — как много кластеров можно сформировать? Вы сможете узнать это при помощи кривой локтя, коэффициента силуэта, оценки силуэта или оценки wss.

Регрессия и классификация

Чтобы понять, что такое регрессия, рассмотрим следующий пример. Мальчик голоден, и он идет к маме за едой. Известно, что он любит только вкусную еду. Поэтому мама пошла на кухню, чтобы ее приготовить. Она знает, что если в продуктах присутствуют ингредиенты x1, x2, x3, x4 и x5, то ее сыну понравится еда, и он будет кушать. Итак, она начала готовить еду из вышеупомянутых ингредиентов, чтобы приготовить блюдо Y.

В данном примере x1, x2, x3, x4 и x5 являются независимыми переменными, а Y зависит от них. Поэтому в будущем можно предсказать не только вкус пищи с помощью этих независимых переменных, но и какие ингредиенты являются наиболее важными.

Мы прогнозируем два исхода событий — понравится ли мальчику еда или нет. Таким образом, здесь содержится такой алгоритм классификации, как логистическая регрессия, дерево решений, случайный лес, LDA и т. д. Затем мы измеряем точность алгоритма с помощью отчета о классификации — AUC и ROC.

Линейная регрессия — один из алгоритмов прогнозирования непрерывной переменной. Обратимся к примеру с мальчиком, который ежедневно ходил по магазинам, чтобы купить конфеты одной марки, например в один день 100, в другой день 66, 71, 78, 86, 99, 45 и т. д.

Мы можем выполнить линейную регрессию, чтобы предсказать, сколько конфет он купит на следующий день. Y_how_many — будет зависимой переменной от прошлой покупки (независимая переменная). RMSE (среднеквадратичная ошибка), R-квадратное значение или R-скорректированное квадратное значение — все эти показатели выступают метрикой для измерения точности модели.



		Наука о данных простым языком
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2021-10-09 15:00 большие данные big data В школьные годы мы изучали историю, потому что она рассказывала о происхождении эволюции, древней цивилизации, сельском хозяйстве, урбанизации и т. д. Данные работают по принципу человеческого поведения: мы учимся друг у друга и ведем себя определенным образом, что помогает сформировать шаблоны и спрогнозировать результаты. Многим трудно разобраться в науке о данных из-за большого количества технических терминов. Поэтому мы объясним ее основные понятия так, чтобы было понятно каждому. Мы рассмотрим следующие темы. Данные Исследовательский анализ данных Групповой анализ Кластеризация Регрессия или Классификация Данные Чтобы узнать аудиторию, нужно начать с вопросов. Большинство ответов относятся к числовым формам данных. Данные находятся повсюду. Количество людей в спортивном зале выступает одной из форм количественных данных. А такие категории, как легкая атлетика, футбол, баскетбол, бадминтон и т. д., называются качественными данными. Объяснение должно быть построено на примерах, имеющих отношение к жизни или работе людей. Исследовательский анализ данных Теперь мы имеем представление о том, что такое данные. В этом разделе мы разберемся в их поведении, шаблонах, отношениях и ассоциациях. Итак, прошлый пример показал, сколько всего участников находится в комнате, сколько из них относится к определенной группе, а также средний возраст участников, их полученную квалификацию и многое другое. Однако если кто-то в группе не соответствует шаблону, сегменту или поведению, то он будет считаться лишним. Другими словами, если в комнате окажется человек с химическим образованием, то он будет восприниматься, как посторонний. Чтобы установить какую-либо связь или ассоциацию между двумя точками данных, то нельзя просто сказать, что она есть. Нам необходимо предоставить доказательства. В науке о данных это нужно сделать с помощью статистической формулы с определением гипотезы. Групповой анализ Представьте, что вы менеджер, и вам нужно выбрать, где проводить мероприятие. Вы провели исследование и отобрали три ресторана: A, B и C. Теперь нужно выбрать один из них и при этом точно аргументировать свое решение. Если данные параметрические (соответствуют нормальному распределению), то нужно сформулировать гипотезу и выполнить статистический тест, например t-критерий Стьюдента (для двух групп) или Дисперсионный анализ (более двух групп). Однако если данные непараметрические, то необходимо выполнить такие тесты, как U-критерий Манна-Уитни, t-критерий Уилкоксона или Критерий Краскела-Уоллиса. Но что же такое параметрические данные? Нормальное распределение Ненормальное распределение Два приведенных выше графика помогают лучше понять процесс распределения данных. Если атрибут распределен обычным способом, он будет соответствовать рисунку 1, и его можно отнести к параметрическим данным. Рисунок 2 относится к непараметрическим данным. Кластеризация Простыми словами, кластеризация подразумевает группировку. Она помогает понять поведение или модель, а также способствует формированию сегментов. Один из распространенных примеров: в детстве наблюдали за тем, как звезды образуют различные формы. Мы определяли форму и создавали изображение, визуализируя близлежащие звезды. Теперь представьте, что точки данных также являются звездами. Мы формируем кластер с помощью математической формулы, например вычисления Евклидова метрика или Расстояние городских кварталов. Однако здесь присутствует одна загвоздка — как много кластеров можно сформировать? Вы сможете узнать это при помощи кривой локтя, коэффициента силуэта, оценки силуэта или оценки wss. Регрессия и классификация Чтобы понять, что такое регрессия, рассмотрим следующий пример. Мальчик голоден, и он идет к маме за едой. Известно, что он любит только вкусную еду. Поэтому мама пошла на кухню, чтобы ее приготовить. Она знает, что если в продуктах присутствуют ингредиенты x1, x2, x3, x4 и x5, то ее сыну понравится еда, и он будет кушать. Итак, она начала готовить еду из вышеупомянутых ингредиентов, чтобы приготовить блюдо Y. В данном примере x1, x2, x3, x4 и x5 являются независимыми переменными, а Y зависит от них. Поэтому в будущем можно предсказать не только вкус пищи с помощью этих независимых переменных, но и какие ингредиенты являются наиболее важными. Мы прогнозируем два исхода событий — понравится ли мальчику еда или нет. Таким образом, здесь содержится такой алгоритм классификации, как логистическая регрессия, дерево решений, случайный лес, LDA и т. д. Затем мы измеряем точность алгоритма с помощью отчета о классификации — AUC и ROC. Линейная регрессия — один из алгоритмов прогнозирования непрерывной переменной. Обратимся к примеру с мальчиком, который ежедневно ходил по магазинам, чтобы купить конфеты одной марки, например в один день 100, в другой день 66, 71, 78, 86, 99, 45 и т. д. Мы можем выполнить линейную регрессию, чтобы предсказать, сколько конфет он купит на следующий день. Y_how_many — будет зависимой переменной от прошлой покупки (независимая переменная). RMSE (среднеквадратичная ошибка), R-квадратное значение или R-скорректированное квадратное значение — все эти показатели выступают метрикой для измерения точности модели. Читайте также: Тестирование больших данных: руководство для начинающих Основы науки о данных Самая лучшая идея в науке о данных Источник: m.vk.com Комментарии:

Наука о данных простым языком

Комментарии: