March Machine Learning Mania 2017 | Kaggle |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2017-03-06 18:22 Начинаем занятия по спортивному анализу данных с ближайшей субботы, 11 марта. В этом семестре занятия будут проходить в формате "зарешек" - обсуждений текущих соревнований и рассказов о решениях прошедших контестов. Соревнование, за которое мы возьмёмся первым в этом семестре: https://www.kaggle.com/c/march-machine-learning-mania-2017 Интересная постановка задачи, много дополнительных данных на форуме, мало данных в тестовой выборке - соревнование с очень понятными данными, но достаточно непредсказуемыми результатами. Легко придумывать гипотезы и проверять их. Из данных этого соревнования было сформировано отборочное соревнование спортивного направления прошлого семестра https://inclass.kaggle.com/c/data-mining-in-action-2016-competitions-01 Решения отборочного можно посмотреть здесь (есть полезные идеи) https://github.com/vkantor/MIPT_Data_Mining_In_Action_2016/tree/master/sport/hw0 Кроме того, MLMania проводится не первый год, поэтому можно посмотреть и форумы прошлых лет. Данных в тесте мало, поэтому вот один важный совет: разбивайте данные по времени на три части: трейн, валидация1, валидация2 Старайтесь подбирать все параметры на валидации1, а валидацию2 оставить на совсем редкие проверки - используйте это, например, как дополнительный лидерборд. Конечно, когда вы засылаете модель на лб, обучайте её на всех данных. (а ещё лучше идти скользящим окном - например, обучаетесь на всём до 2012 года, предсказываете на 2013. Потом обучаетесь на всем до 2011, предсказываете на 2012, и так далее. Качество усредняете. А последний доступный год, например, 2015, оставляете в стороне от подбора параметров как "валидацию2"). Ещё, перед тем как делать модели, разберитесь, как собственно данные устроены, удостоверьтесь, что вы понимаете, где можно переобучиться, и почему вы сабмитите предсказания для 2016, а не 2017 года. ВАЖНО : соревнование заканчивается 16 марта (меньше чем через 10 дней), так что не откладывайте! В эту субботу обсудим кто как решает, а в следующую - какие решения получились в финале). Предварительное время и место встречи - суббота 11 марта, 18ч, боталка гк. Ближе к субботе уточню) P.S.: Для тех, кто хочет участвовать в отборе на DSG - хорошие результаты по этому соревнованию (не только позиция на лидерборде, но и качество вашего решения) будут весомым аргументом при отборе. Источник: www.kaggle.com Комментарии: |
|