Долгожданная защита лучших решений RuCode

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Тайминг:

Знакомимся с решениями задачи А – нужно было создать алгоритм, который предсказывает цену недвижимости.

1:45 – 12:51 – своё решение представила команда лиги «Обучающиеся» EXTREMUM (состав: Фаст Георгий, Суслов Ярослав).

Задание оказалось под силу только градиентному бустингу. При решении пригодились библиотеки Sklearn, Catboost, Seaborn и Pandas. Если хочешь узнать параметры модели и полученное значение метрики, смотри подробное описание решения по QR-коду на видео.

14:21 – 19:51 – решение этой же задачи представила команда ML Reference лиги «Продвинутые» (участники: Ларин Иван, Абрамов Георгий, Плюснин Антон).

Занять первое место и получить лучшее решение помогло логарифмирование таргета, Feature Engineering, обучение модели с помощью Catboost и подбор гиперпараметров c Optuna. Смотри презентацию победителей на видео, чтобы узнать финальные результаты.

Переходим к задаче B!

20:50 – 32:00 – в решении этой задачи нужно было обязательно использовать фотографии объектов. Абсолютным победителем стал Иван Савкин из Новосибирска. Как ему это удалось? Он использовал двухступенчатый градиентный бустинг, где первая ступень – LGB-регрессор, а вторая – предобученная нейросеть.

Разберём задачу С, где нужно было классифицировать описания фильмов с сайта КИНОПОИСК по жанрам.

32:32 – 38:00 –решение команды «ML Reference», занявшей второе место (состав: Рыжичкин Кирилл, Хабибуллин Адиль). Ребята дообучали LLM, также использовали правильные ответы из обучающего датасета.

Переходим к сложным задачам. Задача D – от компании МТС по предсказанию оборота сервиса бронирований на месяц.

38:58 – 49:00 – Лучшее решение от команды «Bubble team» (участники: Пузаков Антон, Жолобов Олег, Коробков Юрий). Для каждого региона использовали свою модель, свой P rophet с сезонностью и праздниками и фичу в виде SARIMA. В конце суммировались результаты прогнозирования моделей.

50:00 - 57:00 Задача E «Мастер кадра» от компании МТС – повышенной сложности! Участникам нужно было самостоятельно собрать набор данных и классифицировать фото локаций отелей по нескольким классам. Слушаем все 3 решения.

50:00 – 57:00 Защита решения команды

«Contrast Analytics (0407)» (участники:

Литвинов Вячеслав, Бурлова Альбина). Использовали метод zero-shot классификации, модель CLIP из Hugging Face; для каждого класса написали тестовый промт.

58:00 – 01:04:56 – Решение команды «Ор_11_фей» (состав: Тиунов Александр, Хазова Веста, Григорьева Мария). Использовали Vision transformer, предобученные веса. Сначала нашли готовый датасет с 5000 фото каждого класса, сократили до 500 фото в каждом классе. Сложности: очень общие описания категорий.

01:04:56 – 01:15:00 – Защита решения задачи E от команды-обладателя первого места – MISIS KAIF (Александр Горин, Даниил Зиновьев, Максим Хандусь). Написали парсер, который скачивал данные из открытых источников, и использовали готовые датасеты с размеченными данными, провели дедублицирование. Как осуществлялась разметка: сделали ансамбль из 5-и LLaVA моделей, по результату голосования моделей определяли класс фотографии; экспериментировали с промптами. Лучше всех сработал безлайн, при котором подготовили текстовые эмбеддинги на каждый из классов, брали эмбеддинги фотографии, сравнивали их по косинусному расстоянию и брали ближайший текстовый эмбеддинг, относящийся к классу. Обучение: использовали CLIP-Large Model for Flux, дообученную на большом датасете.

Задача F от компании Сбер – «Моделирование атаки на синтетические данные» – самая сложная в этом сезоне. Участникам нужно было по синтетическим данным Сбера восстановить реальные данные (табличные) пользователей компании. Защиты команд в режиме онлайн слушал сам автор задачи Сбера!

1:16:19 – 1:32:00 – защита решения команды «pip» (Титов Александр, Бирюкова Анастасия Денисова, Лебедкаина Надежда).

Участники заметили, что колонки таблиц данных не одинаковой размерности, есть NaN. Провели понижение размерности и использовали инструмент градиентного бустинга CatBoost np.random.choice. Команда пришла к выводу, что синтетические данные созданы при помощи Генератора псевдослучайных чисел. Остановились на таком решении: любые операции с тестовыми данными ухудшают метрику. При открытом тесте метрика составила всего 27.928, при открытом тесте выросла до 68.977. Основные сложности задачи – разные размерности и типы колонок и абсолютно рандомный порядок данных.

1:32:50 – защита победителя в задаче F, Ивана Савкина!

Сначала Иван провёл распределение обучающих и проверочных тестовых датасетов по стандартному отклонению и выявил датасеты, которые будут больше всего влиять на метрику, и использовал в основном их. Заметил ещё одну полезную зависимость: что у точек в синтетическом датасете с большой плотностью было меньшее расстряние к оригинальному. Это показало, что синтетический датасет представляет собой смесь оригинальных и синтетических данных. Поэтому решением стала фильтрация из синтетического датасета артефакта синтеза до размерности оригинального датасета. Иван построил график зависимости метрики от порога фильтрации. ML состояло в том, чтобы произвести ядерную оценку плотности и отфильтровать точки с низкой плотностью. Была произведена KDE, а затем отфильтрованы точки с плотностью ниже заданной квантили.

Поздравляем ? восхищаемся вами и ждём на следующем RuCode


Источник: vk.com

Комментарии: