Сейчас существует относительно большое количество открытых данных и кодов по различным моделям ожидаемых передач.

2019-06-27 05:10

Статистика, алгоритмы машинного обучения

Сейчас существует относительно большое количество открытых данных и кодов по различным моделям ожидаемых передач. Уровень детализации на любой вкус: от одного параметра в “модели” Пола Райли до ‘physics-based’-модели Спирмана (включает уравнение движения, траектории перехвата, трэкинг-данные и прочее).

Наиболее популярными алгоритмами для построения модели являются градиентный бустинг, логистическая регрессия, глубокое обучение и случайный лес. Случайный лес по ROC-анализу кроет логист-регрессию, а сам незначительно уступает глубокому обучению по AUC (показатель количественной интерпретации ROC-анализа): 0.87 vs 0.90 (графики 1 и 2). Но при этом Random Forest в определённых ситуациях проще в реализации + за счёт некоторых корректировок площадь под ROC-кривой (= показатель AUC) случайного леса можно довести до 0.89. Так что случайный лес и глубокое обучение при одинаковых вводных параметрах практически равноценны. Это было прогнозируемо, учитывая, что набор данных является низкоразмерным, но подтверждение полезно, так как могло оказаться, что глубокое обучение менее подходящий алгоритм, чем случайный лес.

К чему эти сравнения? Дело в том, что все алгоритмы машинного обучения имеют одну общую проблему: они основаны на статистических параметрах. Статистических. А даже предоставляемая Оптой статистика не может оценить многие факторы. Совмещать данные разных компаний - изначально сомнительная затея (количество обводок/90 по Инстату и Опте или количество подборов/90 по Опте и Вайскауту иногда различается более чем в два раза), но даже при таком сценарии останется много белых пятен. И в пассинг-моделях это критично.

Немного контекста. Каков вообще принцип работы модели ожидаемых передач? Мы разбиваем игроков на группы по позициям (условным) и разделяем поле на зоны (обычно используются порядка 40 зон: 35 на чужой половине и 5 на своей). Также у нас есть информация о каждой передаче, сделанной из любой одной зоны в любую другую, каждого игрока. Затем мы просто соотносим реальное количество точных передач игрока из каждой зоны в каждую зону либо с аналогичными средними числами в группе, которой принадлежит игрок, либо с результатами прогноза алгоритма (прогнозируется точность передач игрока при заданных вводных. Модель обучается на данных или всей лиги (редко), или каждой группы).

И вот здесь главный момент. Группировка игроков слишком несовершенна: в одну группу попадают, к примеру, Димитров, Жоаозиньо и Бакаев - игроки, действующие в абсолютно разных (как по структуре, так и по по уровню организации) игровых системах и имеющие совершенно разные функции. И это невозможно исправить, так как невозможно оценить через статистику. Алгоритм просто стирает все различия между ролями и установками игроков.

Можно ввести переменную game state, которая позволит адекватнее оценивать числа выходящих на замену игроков. Можно добавить параметр-корректировку на текущий счёт и удаления. Можно добавить крайне много переменных. Но группировку не изменить. Ручная расфасовка по группам тоже не выход. Во-первых, надо хорошо разбираться в распределяемом чемпионате - и как быть с нетоповыми лигами? Во-вторых, подробное разделение приведёт к сокращению выборки - в каждой группе будет по 15-20 игроков - что, в свою очередь, повлечёт за собой снижение точности алгоритма.

Какой выход?

Если введение большого количества дополнительных переменных не решает главную проблему, то почему бы просто от них не отказаться и не сделать выбор в пользу более простой модели, которая позволит отсечь откровенных пассажиров на начальном этапе? При этом за счёт малого количества переменных риск того, что алгоритм низко оценит потенциально неплохо пасующего игрока из-за проседания по одному параметру очень низок. То есть аккуратно моделями ожидаемых передач пользоваться вполне можно - они в любом случае гораздо информативнее обычной точности передач и полезны на начальном этапе анализа/скаутинга. Но вот использовать и интерпретировать их результаты без, как минимум, контекста роли игрока опасно.



		Сейчас существует относительно большое количество открытых данных и кодов по различным моделям ожидаемых передач.
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-06-27 05:10 Статистика, алгоритмы машинного обучения Сейчас существует относительно большое количество открытых данных и кодов по различным моделям ожидаемых передач. Уровень детализации на любой вкус: от одного параметра в “модели” Пола Райли до ‘physics-based’-модели Спирмана (включает уравнение движения, траектории перехвата, трэкинг-данные и прочее). Наиболее популярными алгоритмами для построения модели являются градиентный бустинг, логистическая регрессия, глубокое обучение и случайный лес. Случайный лес по ROC-анализу кроет логист-регрессию, а сам незначительно уступает глубокому обучению по AUC (показатель количественной интерпретации ROC-анализа): 0.87 vs 0.90 (графики 1 и 2). Но при этом Random Forest в определённых ситуациях проще в реализации + за счёт некоторых корректировок площадь под ROC-кривой (= показатель AUC) случайного леса можно довести до 0.89. Так что случайный лес и глубокое обучение при одинаковых вводных параметрах практически равноценны. Это было прогнозируемо, учитывая, что набор данных является низкоразмерным, но подтверждение полезно, так как могло оказаться, что глубокое обучение менее подходящий алгоритм, чем случайный лес. К чему эти сравнения? Дело в том, что все алгоритмы машинного обучения имеют одну общую проблему: они основаны на статистических параметрах. Статистических. А даже предоставляемая Оптой статистика не может оценить многие факторы. Совмещать данные разных компаний - изначально сомнительная затея (количество обводок/90 по Инстату и Опте или количество подборов/90 по Опте и Вайскауту иногда различается более чем в два раза), но даже при таком сценарии останется много белых пятен. И в пассинг-моделях это критично. Немного контекста. Каков вообще принцип работы модели ожидаемых передач? Мы разбиваем игроков на группы по позициям (условным) и разделяем поле на зоны (обычно используются порядка 40 зон: 35 на чужой половине и 5 на своей). Также у нас есть информация о каждой передаче, сделанной из любой одной зоны в любую другую, каждого игрока. Затем мы просто соотносим реальное количество точных передач игрока из каждой зоны в каждую зону либо с аналогичными средними числами в группе, которой принадлежит игрок, либо с результатами прогноза алгоритма (прогнозируется точность передач игрока при заданных вводных. Модель обучается на данных или всей лиги (редко), или каждой группы). И вот здесь главный момент. Группировка игроков слишком несовершенна: в одну группу попадают, к примеру, Димитров, Жоаозиньо и Бакаев - игроки, действующие в абсолютно разных (как по структуре, так и по по уровню организации) игровых системах и имеющие совершенно разные функции. И это невозможно исправить, так как невозможно оценить через статистику. Алгоритм просто стирает все различия между ролями и установками игроков. Можно ввести переменную game state, которая позволит адекватнее оценивать числа выходящих на замену игроков. Можно добавить параметр-корректировку на текущий счёт и удаления. Можно добавить крайне много переменных. Но группировку не изменить. Ручная расфасовка по группам тоже не выход. Во-первых, надо хорошо разбираться в распределяемом чемпионате - и как быть с нетоповыми лигами? Во-вторых, подробное разделение приведёт к сокращению выборки - в каждой группе будет по 15-20 игроков - что, в свою очередь, повлечёт за собой снижение точности алгоритма. Какой выход? Если введение большого количества дополнительных переменных не решает главную проблему, то почему бы просто от них не отказаться и не сделать выбор в пользу более простой модели, которая позволит отсечь откровенных пассажиров на начальном этапе? При этом за счёт малого количества переменных риск того, что алгоритм низко оценит потенциально неплохо пасующего игрока из-за проседания по одному параметру очень низок. То есть аккуратно моделями ожидаемых передач пользоваться вполне можно - они в любом случае гораздо информативнее обычной точности передач и полезны на начальном этапе анализа/скаутинга. Но вот использовать и интерпретировать их результаты без, как минимум, контекста роли игрока опасно. Комментарии:

Сейчас существует относительно большое количество открытых данных и кодов по различным моделям ожидаемых передач.

Комментарии: