Наглядное введение в теорию машинного обучения

2016-10-13 22:41

Теория машинного обучения позволяет с помощью статистических и оптимизационных методов автоматически классифицировать и моделировать данные. Метод машинного обучения позволяет давать высоко точные прогнозы для широкого спектра практических задач.

Продолжайте скроллинг. Используя набор данных о домах в Нью Йорке и Сан Франциско мы построим модель машинного обучения для идентификации месторасположения этих домов.

Ниже

Для начала немного интуиции

Представим, что вам нужно определить, где находится данный дом или квартира - в Сан Франциско или Нью Йорке. На языке теории машинного обучения задача, в которой требуется категоризация данных, называется задачей классификации.

Поскольку Сан Франциско находится на холмистой местности, высота основания дома над уровнем моря (возвышение) может служить хорошим признаком, различающим дома этих двух городов.

На основе данных, представленных справа, можно заметить что дом, находящийся на возвышении более 73 метров, видимо должен быть классифицирован, как дом находящийся в Сан Франциско.

Дополнительные признаки

Следующим шагом мы добавим ещё одно измерение. Например, цена квадратного метра квартиры в Нью Йорке может быть очень высокой.

Диаграмма рассеяния комбинирует информацию о высоте основания дома и цены за квадратный метр. Это позволяет различать дома в Сан Франциско и дома в Нью Йорке с одинаково низкой высотой над уровнем моря.

Диаграмма подсказывает, что дома которые располагаются ниже 73 метров, но стоят более $19117 за квадратный метр, находятся в Нью Йорке.

Измерения, характеризующие набор данных, называются признаками или переменными1.

Разделение множеств

На основе диаграммы рассеяния можно разделить все точки по значениям признаков возвышения (>73 м) и цены за квадратный метр (> $19117). Дома и квартиры, представление точками в зелёной и синей областях диаграммы, находится в Сан Франциско и Нью Йорке соответственно.

Разделение множеств данных с использованием математических методов составляет основу теории машинного обучения.

Безусловно понадобится дополнительная информация для разделения множеств домов с низким возвышением и низкой ценной за квадратные метр.

Для более точного моделирования мы будем использовать 7 признаков. Построение модели называется процессом обучения.

Справа представлена матрица рассеяния демонстрирующая взаимоотношения между каждой парой переменных.

Наблюдаются явные закономерности в рассматриваем наборе данных, но критерии для разделения данных на классы не очевидны.

А теперь машинное обучение

Выявление закономерностей в наборе данных - это то с чего начинается теория машинного обучения.

Один из примеров методов теории машинного обучения это дерево классификации. Этот метод анализирует одну переменную на каждом шаге и является довольно доступным (и весьма элементарным) для понимания методом теории машинного обучения.

Улучшение разделения множеств

Возвратимся к рассмотрению разделения данных на основе значения параметра возвышения 73м.

Очевидно это требует другого подхода.

Преобразуя диаграмму в гистограмму, мы можем увидеть частотное распределение домов по значению признака возвышения.

Несмотря на то, что дом с наибольшем уровнем возвышения в Нью Йорке находится на высоте 73 метра, большинство домов располагаются существенно ниже.

Первая точка разделения

Дерево классификации использует оператор условного перехода для определения закономерностей в наборе данных.

Например, если уровень возвышения дома превосходит некоторый порог, то дом вероятно находиться в Сан Франциско.

В методе принятия решения этот условный переход связан с точкой разбиения и выделяет две ветви в дереве классификации на основе порогового значения некоторой переменной.

Дома и квартиры попадают в категории в соответствии с ветвями в дереве принятия решения. Точка разбиения определяет границу разделения данных на множества.

Компромисс

Выбор точки разделения это компромиссное решение. Начальное пороговое значение (73м) ошибочно классифицируют некоторые дома в Сан Франциско как дома расположенные в Нью Йорке.

На круговой диаграмме слева зелёный сектор представляет неправильно классифицированные дома и квартиры в Сан Франциско. Такого типа ошибки в математической статистике называются ошибками второго рода.

С другой стороны, точка разбиения, предназначенная для выявления всех домов в Сан Франциско, также ошибочно определит некоторые дома в Нью Йорке. Такого типа ошибки в математической статистике называются ошибками первого рода.

Оптимальная точка разбиения

Результат оптимального разбиения данных максимизирует уровень однородности совокупности подмножеств. Существует различные методы вычисления оптимальной точки разделения.2

Как легко заметить, даже оптимальная точка разбиения на основе всего лишь одной переменной не может полностью разделить дома в Сан Франциско и Нью Йорке.

Рекурсия

Тот же алгоритм по нахождению точки разбиения повторяется на каждом из подмножеств. Этот процесс повторения называется рекурсией и часто используется в процессе построения модели.

Для каждой переменной гистограмма слева показывает распределение по каждому из двух подмножеств разбиения.

Оптимальное разбиение зависит от подмножества, соответствующего ветке дерева. 3

Для низко расположенных домов цена за квадратный метр, равная $11420, является наилучшей точкой разбиения. В то время, как для высоко расположенных домов, наилучшей точкой разбиения является стоимость дома равная $514500.

Построение дерева

Дополнительные точки разбиения вносят новую информацию повышающую точность предсказания.

Добавление одного уровня дерева принятия решения улучшает точность предсказания до 84%.

Добавив ещё несколько уровней, мы достигнем 96%.

Этот процесс может даже быть продолжен до достижения 100% точности, так что в конце каждой ветки находятся исключительно дома в Сан Франциско или дома в Нью Йорке.

Эти конечные узлы ветки дерева называются листьями. Рассматриваемое дерево принятие решение будет классифицировать дома и квартиры в соответствии с тем, какой класс домов представлен в большинстве на каждом из листьев дерева.

Прогнозирование

Построенное дерево принятий решенный определяет находится ли дом в Сан Франциско или в Нью Йорке, продвигая каждую точку через ветви дерева.

На диаграмме показано, как данные двигаются сверху вниз по дереву.

Этот набор данных называется обучающей выборкой, так как он используется для обучения модели.

Поскольку в процессе построения дерева мы добились 100% точности, каждый элемент обучающей выборки классифицируется правильно.

Проверка модели

Конечно же нас больше интересует поведение модели на новых данных.

Эти новые данные называются тестовой выборкой и помогают нам оценить эффективность модели.

В идеале, эффективность дерева на обучающей выборке должна быть сопоставима с эффективностью дерева на тестовой выборке.

Однако наша построенная модель не идеальна и приводит к некоторым ошибкам классификации на тестовой выборке. 4

Такого типа ошибки на тестовой выборке называются ошибками переобучения. Построенное дерево учитывает некоторые специфические особенности обучающей выборки, которые не являются существенными.

Переобучение - это одна из фундаментальных концепций теории машинного обучения, которую мы обсудим в следующей статье. 5

Выводы

Теория машинного обучения выявляет закономерности определяя границы между классами в пространстве признаков с использованием статистики и вычислительных возможностей компьютеров. Эти границы можно использовать для прогнозирования.
Дерево принятия решения, являясь одним из таких методов, использует последовательность условных переходов.
Переобучение происходит в тех ситуатциях, когда границы между классами определяются на учете факторов специфических для обучающей выборк и не существенных для модели в целом. Ошибки модели на тестовой выборке позволяют выявить переобучение.

Источник: www.r2d3.us

Наглядное введение в теорию машинного обучения

Комментарии: