> Где градиент в градиентом бустинге?

2024-11-23 18:30

Градиентный бустинг — это мощный ансамблевый метод, который использует последовательное добавление деревьев решений для улучшения предсказательной способности модели. Он работает по принципу "учимся на своих ошибках": каждое новое дерево фокусируется на ошибках, допущенных предыдущими деревьями.

Как это происходит?

Инициализация. Начинаем с базовой модели, которая, например, может быть просто средним значением целевой переменной (конечно, модель может быть и более сложной).

Вычисление остатков. На каждом шаге мы вычисляем остатки — антиградиент функции потерь относительно текущих предсказаний. Это демонстрирует направление, в котором нужно изменить предсказание, чтобы минимизировать функцию потерь.

Построение деревьев. На каждом шаге создаётся новое дерево решений, обучающееся на остатках предыдущей модели. Таким образом, новое дерево пытается "исправить" ошибки, сделанные предшествующими деревьями.

Обновление предсказаний. После того, как новое дерево обучено, его предсказания добавляются к текущим, предварительно домножаясь на некоторый коэффициент (learning rate), контролирующий скорость обучения.

Переход к следующей итерации. Процесс повторяется: на каждом шаге мы вычисляем новые остатки, строим новые деревья и обновляем предсказания до тех пор, пока не достигнем заданного числа деревьев или не будет достигнут критерий остановки, например, когда улучшения в качестве модели станут незначительными.

То есть такой итеративный метод основан на градиентах, что и даёт ему имя. Каждый новый шаг делает модель всё более точной, и окончательная комбинация всех деревьев позволяет минимизировать ошибки.

Как считается площадь под кривой ROC?

ROC-кривая (Receiver Operating Characteristic) - одна из самых важных метрик для оценки бинарных классификаторов. ROC-кривая показывает, как соотносятся TPR (True Positive Rate — доля положительных объектов, правильно предсказанных положительными) и FPR (False Positive Rate - доля отрицательных объектов, неправильно предсказанных положительными) при различных порогах вероятности классификации.

Но самое интересное — это площадь под ROC-кривой, которая называется AUC (Area Under Curve). AUC — это число, которое интерпретирует качество классификатора в одном значении. AUC принимает значения от 0 до 1, и чем больше AUC, тем лучше работает ваш классификатор.

Формула для вычисления AUC довольно проста:

AUC = ? (TPR[i] - TPR[i-1]) * (FPR[i] + FPR[i-1]) / 2

Но вычислять AUC по формуле не обязательно — многие библиотеки машинного обучения имеют встроенные функции для расчета AUC по ROC (например, roc_auc_score из sklearn.metrics)

Источник: vk.com

> Где градиент в градиентом бустинге?

Комментарии: