Сейчас существует относительно большое количество открытых данных и кодов по различным моделям ожидаемых передач.

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Сейчас существует относительно большое количество открытых данных и кодов по различным моделям ожидаемых передач. Уровень детализации на любой вкус: от одного параметра в “модели” Пола Райли до ‘physics-based’-модели Спирмана (включает уравнение движения, траектории перехвата, трэкинг-данные и прочее).

Наиболее популярными алгоритмами для построения модели являются градиентный бустинг, логистическая регрессия, глубокое обучение и случайный лес. Случайный лес по ROC-анализу кроет логист-регрессию, а сам незначительно уступает глубокому обучению по AUC (показатель количественной интерпретации ROC-анализа): 0.87 vs 0.90 (графики 1 и 2). Но при этом Random Forest в определённых ситуациях проще в реализации + за счёт некоторых корректировок площадь под ROC-кривой (= показатель AUC) случайного леса можно довести до 0.89. Так что случайный лес и глубокое обучение при одинаковых вводных параметрах практически равноценны. Это было прогнозируемо, учитывая, что набор данных является низкоразмерным, но подтверждение полезно, так как могло оказаться, что глубокое обучение менее подходящий алгоритм, чем случайный лес.

К чему эти сравнения? Дело в том, что все алгоритмы машинного обучения имеют одну общую проблему: они основаны на статистических параметрах. Статистических. А даже предоставляемая Оптой статистика не может оценить многие факторы. Совмещать данные разных компаний - изначально сомнительная затея (количество обводок/90 по Инстату и Опте или количество подборов/90 по Опте и Вайскауту иногда различается более чем в два раза), но даже при таком сценарии останется много белых пятен. И в пассинг-моделях это критично.

Немного контекста. Каков вообще принцип работы модели ожидаемых передач? Мы разбиваем игроков на группы по позициям (условным) и разделяем поле на зоны (обычно используются порядка 40 зон: 35 на чужой половине и 5 на своей). Также у нас есть информация о каждой передаче, сделанной из любой одной зоны в любую другую, каждого игрока. Затем мы просто соотносим реальное количество точных передач игрока из каждой зоны в каждую зону либо с аналогичными средними числами в группе, которой принадлежит игрок, либо с результатами прогноза алгоритма (прогнозируется точность передач игрока при заданных вводных. Модель обучается на данных или всей лиги (редко), или каждой группы).

И вот здесь главный момент. Группировка игроков слишком несовершенна: в одну группу попадают, к примеру, Димитров, Жоаозиньо и Бакаев - игроки, действующие в абсолютно разных (как по структуре, так и по по уровню организации) игровых системах и имеющие совершенно разные функции. И это невозможно исправить, так как невозможно оценить через статистику. Алгоритм просто стирает все различия между ролями и установками игроков.

Можно ввести переменную game state, которая позволит адекватнее оценивать числа выходящих на замену игроков. Можно добавить параметр-корректировку на текущий счёт и удаления. Можно добавить крайне много переменных. Но группировку не изменить. Ручная расфасовка по группам тоже не выход. Во-первых, надо хорошо разбираться в распределяемом чемпионате - и как быть с нетоповыми лигами? Во-вторых, подробное разделение приведёт к сокращению выборки - в каждой группе будет по 15-20 игроков - что, в свою очередь, повлечёт за собой снижение точности алгоритма.

Какой выход?

Если введение большого количества дополнительных переменных не решает главную проблему, то почему бы просто от них не отказаться и не сделать выбор в пользу более простой модели, которая позволит отсечь откровенных пассажиров на начальном этапе? При этом за счёт малого количества переменных риск того, что алгоритм низко оценит потенциально неплохо пасующего игрока из-за проседания по одному параметру очень низок. То есть аккуратно моделями ожидаемых передач пользоваться вполне можно - они в любом случае гораздо информативнее обычной точности передач и полезны на начальном этапе анализа/скаутинга. Но вот использовать и интерпретировать их результаты без, как минимум, контекста роли игрока опасно.

Комментарии: