Три основные концепции в Data Science |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2022-03-29 16:05 Data Science — сочетание различных инструментов, алгоритмов и принципов машинного обучения для обнаружения скрытых закономерностей в необработанных данных. Разберём три основные концепции науки о данных на простых примерах. Разделение данных В машинном обучении данные часто разделяют на наборы: один используется для обучения, а другой — для тестирования модели. Такой подход позволяет использовать тестовый набор данных для оценки ошибки обобщения: проверить, насколько точно модель будет работать на реальных данных. Представим, что вы разрабатываете модель, которая по записям с камер видеонаблюдения отслеживает кражи в магазинах. Можно обучить её сразу на всём наборе данных и получить много ошибок на наборе, который отличается от обучающей выборки. Но можно разделить данные (например в соотношении 70/30) и обучить модель на первых и проверить на вторых. Если алгоритм будет работать плохо, вы заметите проблему сразу, а не через несколько месяцев. Контролируемое/неконтролируемое обучение Это два разных подхода к построению алгоритмов. При контролируемом варианте модель обучается на размеченных данных — такой подход используется, когда нужно классифицировать информацию или создать регрессивную модель. Неконтролируемое предполагает использование алгоритмов машинного обучения для анализа и группирования наборов неразмеченных данных. Этот подход используется, когда нужно кластеризовать информацию, ассоциировать данные и переменные или снизить размерность (или число признаков) данных. Представим, что модель обнаружения магазинных краж из предыдущего примера должна распознавать лица злоумышленников. В первую очередь ей нужно определять, что такое лицо. В случае с контролируемым обучением модели дадут два набора данных — фотографии в одном будут помечены как лица, а в другом — как «не лица». При таком подходе алгоритм учится отличать лица от всего остального и работает с размеченными данными. Неконтролируемое обучение предполагает, что алгоритм не знает, на каких фотографиях есть лица, а на каких — нет. Ему остаётся только группировать данные по типам: тут полки с продуктами, которые сильно отличаются от корзин, а здесь — руки, которые сильно отличаются от лиц. Такой алгоритм делит данные на кластеры и вряд ли подойдёт для распознавания лиц. Обучение с подкреплением Обучение с подкреплением предполагает, что модель сначала обучается на неразмеченных данных, а затем добавляются положительные и отрицательные примеры. По сути это метод проб и ошибок: если алгоритм правильно решает задачу, он получает сигнал-вознаграждение — или подкрепление. Например, алгоритм обнаружения магазинных краж учится определять лица на неразмеченных данных. Чтобы понять, действительно ли то, что он определил как лицо, является им, алгоритм запрашивает подтверждение у человека. Если всё верно, модель получает положительный стимул и продолжает обучение на основе новых данных. Источник: vk.com Комментарии: |
|