Трек ML. Советы Данилы Савенкова

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


В квалификационном раунде в качестве ответа нужно будет загрузить обработанные данные, причём каждое решение будет оцениваться с помощью заранее определённой метрики. Данные из задания можно будет обработать в офлайне или даже вручную.

На отборочном этапе весь код для реализации разработанного вами подхода будет загружен в тестирующую систему — все решения проверятся в одинаковой инфраструктуре, в условиях ограниченных вычислительных ресурсов.

В финале предстоит решить сложную практическую задачу.

Данила Савенков

Советы участникам VK Cup составил старший программист-разработчик ВКонтакте Данила Савенков, который вошёл в топ участников конкурса от «Мерседес» на kaggle.

  • Для локальной валидации попытайтесь воспроизвести тот же принцип разбиения, который использован при выделении тест-сета организаторами соревнования (обратите внимание на время, если оно есть, и на ID). Если возможно — используйте кросс-валидацию. Этот метод практически из коробки умеет оценивать значимость изменений метрики (habr.com/ru/company/ods/blog/336168). Обязательно фиксируйте сид при разбиении датасета.
  • Обучайте и усредняйте разные модели. Это может работать лучше одной модели — вспомните центральную предельную теорему. XGBoost с разными сидами — это тоже разные модели (главное — не забыть сделать subsample<1 и/или colsample<1). XGBoost, CatBoost и LightGBM — тоже разные модели в этом контексте.
  • Используйте sklearn.Pipeline. Когда model.fit включает в себя весь пайплайн от предобработки данных до получения предиктов, становится намного легче жить и намного меньше шансов ошибиться с локальной валидацией.
  • Если хотите постэкать — обратите внимание на cross_val_predict, эта функция сильно поможет.
  • Делайте фичи. Стэкинг, блэндинг, настройка гиперпараметров — это могут почти все. Побеждают те, кто придумал самые успешные фичи. Ну или те, кто нашёл лик. Или те, кому повезло. А чаще срабатывает комбинация из этих факторов ;)

Источник: m.vk.com

Комментарии: