ОТ БЭГГИНГА К СЛУЧАЙНОМУ ЛЕСУ

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Друзья, помните мы с вами обсуждали бэггинг? Давайте сегодня продолжим наш разговор. Для начала мы обсудим некоторые основные моменты...

И так вспомним, что в бэггинге мы обучаем некоторое число базовых алгоритмов с помощью метода обучения, который работает на подвыборке, сгенерированной бутстрапом, и строим итоговую композицию, как среднее данных алгоритмов.

Теперь давайте вспомним, что такое смещение модели. Смещение указывает насколько хорошее качество может обеспечить модель. Например: мы выбрали линейную модель, а зависимость в данных больше похожа на синусоиду, тогда выбранная модель будет иметь очень высокое смещение, так как не сможет хорошо предсказывать данные.

Что можно сказать про смещение композиции, полученной с помощью бэггинга? Смещение композиции, полученной с помощью бэггинга, совпадает со смещением одного базового алгоритма: то есть, если базовые модели были смещенные, то и композиция будет смещенная, соответственно, если у базовых моделей было смещение близкое к нулю, то и у композиции смещение тоже будет близко к нулю. Из этого следует, что базовые модели стоит брать несмещенные, то есть посложнее. Например, глубокие деревья.

Вспомним, что такое разброс. Разброс показывает, насколько модель чувствительна к обучающей выборке, другими словами, насколько модель склонна к переобучению.

Что можно сказать про разброс композиции, полученной с помощью бэггинга? Такой разброс композиции в n раз меньше разброса отдельных базовых алгоритмов - это хорошее свойство, но оно будет работать только в том случае, если будет отсутствовать корреляция между базовыми моделями. В противном же случае (если базовые модели коррелируют) уменьшение разброса играет в оптимизации не такую существенную роль. Таким образом, получаем, что нужно использовать базовые модели, которые будут «ошибаться по-разному». Это логично, ведь если у нас модели сильно похожи между собой, то усреднять их смысла нет.

Как добиться разнообразия базовых моделей? При выборе очередного лучшего предиката ограничить выбор. То есть выбрать k случайных признаков из всего множества признаков, а затем искать оптимальный предикат только среди этих k.

Только что мы вывели по шагам алгоритм, который называется случайным лесом. Давайте еще раз проговорим его:

- генерируем выборку с помощью бутстрэпа

- строим решающее дерево по сгенерированной выборке с условиями, что дерево строится, пока в каждом листе не окажется не более выбранного минимального числа объектов (глубокое дерево для низкого смещения)

- при каждом разбиении внутри дерева сначала выбираем k случайных признаков из всего множества признаков, а затем ищем оптимальный предикат только среди этих k.

- возвращаем композицию таких моделей


Источник: vk.com

Комментарии: