Три основные концепции в Data Science

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Data Science — сочетание различных инструментов, алгоритмов и принципов машинного обучения для обнаружения скрытых закономерностей в необработанных данных. Разберём три основные концепции науки о данных на простых примерах.

Разделение данных

В машинном обучении данные часто разделяют на наборы: один используется для обучения, а другой — для тестирования модели. Такой подход позволяет использовать тестовый набор данных для оценки ошибки обобщения: проверить, насколько точно модель будет работать на реальных данных.

Представим, что вы разрабатываете модель, которая по записям с камер видеонаблюдения отслеживает кражи в магазинах. Можно обучить её сразу на всём наборе данных и получить много ошибок на наборе, который отличается от обучающей выборки. Но можно разделить данные (например в соотношении 70/30) и обучить модель на первых и проверить на вторых. Если алгоритм будет работать плохо, вы заметите проблему сразу, а не через несколько месяцев.

Контролируемое/неконтролируемое обучение

Это два разных подхода к построению алгоритмов. При контролируемом варианте модель обучается на размеченных данных — такой подход используется, когда нужно классифицировать информацию или создать регрессивную модель. Неконтролируемое предполагает использование алгоритмов машинного обучения для анализа и группирования наборов неразмеченных данных. Этот подход используется, когда нужно кластеризовать информацию, ассоциировать данные и переменные или снизить размерность (или число признаков) данных.

Представим, что модель обнаружения магазинных краж из предыдущего примера должна распознавать лица злоумышленников. В первую очередь ей нужно определять, что такое лицо. В случае с контролируемым обучением модели дадут два набора данных — фотографии в одном будут помечены как лица, а в другом — как «не лица». При таком подходе алгоритм учится отличать лица от всего остального и работает с размеченными данными.

Неконтролируемое обучение предполагает, что алгоритм не знает, на каких фотографиях есть лица, а на каких — нет. Ему остаётся только группировать данные по типам: тут полки с продуктами, которые сильно отличаются от корзин, а здесь — руки, которые сильно отличаются от лиц. Такой алгоритм делит данные на кластеры и вряд ли подойдёт для распознавания лиц.

Обучение с подкреплением

Обучение с подкреплением предполагает, что модель сначала обучается на неразмеченных данных, а затем добавляются положительные и отрицательные примеры. По сути это метод проб и ошибок: если алгоритм правильно решает задачу, он получает сигнал-вознаграждение — или подкрепление.

Например, алгоритм обнаружения магазинных краж учится определять лица на неразмеченных данных. Чтобы понять, действительно ли то, что он определил как лицо, является им, алгоритм запрашивает подтверждение у человека. Если всё верно, модель получает положительный стимул и продолжает обучение на основе новых данных.


Источник: vk.com

Комментарии: