March Machine Learning Mania 2017 | Kaggle

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2017-03-06 18:22

Семинары

Начинаем занятия по спортивному анализу данных с ближайшей субботы, 11 марта. В этом семестре занятия будут проходить в формате "зарешек" - обсуждений текущих соревнований и рассказов о решениях прошедших контестов.

Соревнование, за которое мы возьмёмся первым в этом семестре:

https://www.kaggle.com/c/march-machine-learning-mania-2017

Интересная постановка задачи, много дополнительных данных на форуме, мало данных в тестовой выборке - соревнование с очень понятными данными, но достаточно непредсказуемыми результатами. Легко придумывать гипотезы и проверять их. Из данных этого соревнования было сформировано отборочное соревнование спортивного направления прошлого семестра https://inclass.kaggle.com/c/data-mining-in-action-2016-competitions-01

Решения отборочного можно посмотреть здесь (есть полезные идеи) https://github.com/vkantor/MIPT_Data_Mining_In_Action_2016/tree/master/sport/hw0

Кроме того, MLMania проводится не первый год, поэтому можно посмотреть и форумы прошлых лет.

Данных в тесте мало, поэтому вот один важный совет: разбивайте данные по времени на три части: трейн, валидация1, валидация2 Старайтесь подбирать все параметры на валидации1, а валидацию2 оставить на совсем редкие проверки - используйте это, например, как дополнительный лидерборд. Конечно, когда вы засылаете модель на лб, обучайте её на всех данных. (а ещё лучше идти скользящим окном - например, обучаетесь на всём до 2012 года, предсказываете на 2013. Потом обучаетесь на всем до 2011, предсказываете на 2012, и так далее. Качество усредняете. А последний доступный год, например, 2015, оставляете в стороне от подбора параметров как "валидацию2").

Ещё, перед тем как делать модели, разберитесь, как собственно данные устроены, удостоверьтесь, что вы понимаете, где можно переобучиться, и почему вы сабмитите предсказания для 2016, а не 2017 года.

ВАЖНО : соревнование заканчивается 16 марта (меньше чем через 10 дней), так что не откладывайте! В эту субботу обсудим кто как решает, а в следующую - какие решения получились в финале).

Предварительное время и место встречи - суббота 11 марта, 18ч, боталка гк. Ближе к субботе уточню)

P.S.: Для тех, кто хочет участвовать в отборе на DSG - хорошие результаты по этому соревнованию (не только позиция на лидерборде, но и качество вашего решения) будут весомым аргументом при отборе.


Источник: www.kaggle.com

Комментарии: