Три основные концепции в Data Science

2022-03-29 16:05

Data Science — сочетание различных инструментов, алгоритмов и принципов машинного обучения для обнаружения скрытых закономерностей в необработанных данных. Разберём три основные концепции науки о данных на простых примерах.

Разделение данных

В машинном обучении данные часто разделяют на наборы: один используется для обучения, а другой — для тестирования модели. Такой подход позволяет использовать тестовый набор данных для оценки ошибки обобщения: проверить, насколько точно модель будет работать на реальных данных.

Представим, что вы разрабатываете модель, которая по записям с камер видеонаблюдения отслеживает кражи в магазинах. Можно обучить её сразу на всём наборе данных и получить много ошибок на наборе, который отличается от обучающей выборки. Но можно разделить данные (например в соотношении 70/30) и обучить модель на первых и проверить на вторых. Если алгоритм будет работать плохо, вы заметите проблему сразу, а не через несколько месяцев.

Контролируемое/неконтролируемое обучение

Это два разных подхода к построению алгоритмов. При контролируемом варианте модель обучается на размеченных данных — такой подход используется, когда нужно классифицировать информацию или создать регрессивную модель. Неконтролируемое предполагает использование алгоритмов машинного обучения для анализа и группирования наборов неразмеченных данных. Этот подход используется, когда нужно кластеризовать информацию, ассоциировать данные и переменные или снизить размерность (или число признаков) данных.

Представим, что модель обнаружения магазинных краж из предыдущего примера должна распознавать лица злоумышленников. В первую очередь ей нужно определять, что такое лицо. В случае с контролируемым обучением модели дадут два набора данных — фотографии в одном будут помечены как лица, а в другом — как «не лица». При таком подходе алгоритм учится отличать лица от всего остального и работает с размеченными данными.

Неконтролируемое обучение предполагает, что алгоритм не знает, на каких фотографиях есть лица, а на каких — нет. Ему остаётся только группировать данные по типам: тут полки с продуктами, которые сильно отличаются от корзин, а здесь — руки, которые сильно отличаются от лиц. Такой алгоритм делит данные на кластеры и вряд ли подойдёт для распознавания лиц.

Обучение с подкреплением

Обучение с подкреплением предполагает, что модель сначала обучается на неразмеченных данных, а затем добавляются положительные и отрицательные примеры. По сути это метод проб и ошибок: если алгоритм правильно решает задачу, он получает сигнал-вознаграждение — или подкрепление.

Например, алгоритм обнаружения магазинных краж учится определять лица на неразмеченных данных. Чтобы понять, действительно ли то, что он определил как лицо, является им, алгоритм запрашивает подтверждение у человека. Если всё верно, модель получает положительный стимул и продолжает обучение на основе новых данных.

Источник: vk.com



		Три основные концепции в Data Science
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2022-03-29 16:05 большие данные big data Data Science — сочетание различных инструментов, алгоритмов и принципов машинного обучения для обнаружения скрытых закономерностей в необработанных данных. Разберём три основные концепции науки о данных на простых примерах. Разделение данных В машинном обучении данные часто разделяют на наборы: один используется для обучения, а другой — для тестирования модели. Такой подход позволяет использовать тестовый набор данных для оценки ошибки обобщения: проверить, насколько точно модель будет работать на реальных данных. Представим, что вы разрабатываете модель, которая по записям с камер видеонаблюдения отслеживает кражи в магазинах. Можно обучить её сразу на всём наборе данных и получить много ошибок на наборе, который отличается от обучающей выборки. Но можно разделить данные (например в соотношении 70/30) и обучить модель на первых и проверить на вторых. Если алгоритм будет работать плохо, вы заметите проблему сразу, а не через несколько месяцев. Контролируемое/неконтролируемое обучение Это два разных подхода к построению алгоритмов. При контролируемом варианте модель обучается на размеченных данных — такой подход используется, когда нужно классифицировать информацию или создать регрессивную модель. Неконтролируемое предполагает использование алгоритмов машинного обучения для анализа и группирования наборов неразмеченных данных. Этот подход используется, когда нужно кластеризовать информацию, ассоциировать данные и переменные или снизить размерность (или число признаков) данных. Представим, что модель обнаружения магазинных краж из предыдущего примера должна распознавать лица злоумышленников. В первую очередь ей нужно определять, что такое лицо. В случае с контролируемым обучением модели дадут два набора данных — фотографии в одном будут помечены как лица, а в другом — как «не лица». При таком подходе алгоритм учится отличать лица от всего остального и работает с размеченными данными. Неконтролируемое обучение предполагает, что алгоритм не знает, на каких фотографиях есть лица, а на каких — нет. Ему остаётся только группировать данные по типам: тут полки с продуктами, которые сильно отличаются от корзин, а здесь — руки, которые сильно отличаются от лиц. Такой алгоритм делит данные на кластеры и вряд ли подойдёт для распознавания лиц. Обучение с подкреплением Обучение с подкреплением предполагает, что модель сначала обучается на неразмеченных данных, а затем добавляются положительные и отрицательные примеры. По сути это метод проб и ошибок: если алгоритм правильно решает задачу, он получает сигнал-вознаграждение — или подкрепление. Например, алгоритм обнаружения магазинных краж учится определять лица на неразмеченных данных. Чтобы понять, действительно ли то, что он определил как лицо, является им, алгоритм запрашивает подтверждение у человека. Если всё верно, модель получает положительный стимул и продолжает обучение на основе новых данных. Источник: vk.com Комментарии:

Три основные концепции в Data Science

Комментарии: