Цепи Маркова – еще один способ оценки эффективности действий футболистов на поле. Фундамент метрик xT и Сontribution |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2021-03-18 03:01 Немного исторического контекста В далеком 1906 году в Англии стартовал 19-ый сезон Футбольной лиги, победителем которого стал Ньюкасл Юнайтед, набрав 51 очко в 38 турах (сегодня уже мало кто помнит, что до 1981 г в чемпионате Англии, как и других лигах, за победу давали 2 очка, а за ничью 1, и 51 очка при определенном раскладе было достаточно, чтобы занять первое место в чемпионате). В том сезоне Манчестер Юнайтед, четыре года как поменявший свое название с Ньютон Хит, стал восьмым и уже на следующий год взял свой первый чемпионский титул. Ливерпуль же, взявший свой второй титул в предыдущем сезоне, закончил сезон 1906/1907 на 15 месте, обеспечив себе лишь шестиочковый запас от зоны вылета. В то же время русский математик Андрей Андреевич Марков, работающий в Санкт-Петербургском государственном университете, в одной из своих работ впервые описывает математический законы, которые позволяют прогнозировать развитие определенных типов процессов окружающего нас мира. Позже такие процессы, состоящие из последовательности случайных событий с определенными свойствами, стали называть по имени математика – Цепи Маркова или Марковские процессы. В течение 20 века теория цепей Маркова находила применение в различных областях науки, таких как физика, биология, генетика, но одним из самых известных на сегодняшний день примеров применения данной теории стал алгоритм ранжирования web-страниц для поисковых запросов - PageRank, разработанный Сергеем Брином и рядом других авторов в 1998 г., который стал фундаментом поисковой системы Google. Прошло еще немного времени, наступил 21 век, и математическая теория, придуманная более 100 лет назад, удивительным образом нашла еще одно применение, на это раз в индустрии футбола для оценки действий игроков, о чем и будет рассказано в данной статье. Десять лет назад в 2011 году американская компания StatDNA, занимающаяся сбором футбольных данных и статистическим анализом, выложила в свободный доступ данные о событиях 123 матчей АПЛ сезона 2010/2011 и устроила соревнования, в которых мог принять участие любой желающий, и основной задачей которых было получение каких-либо новых инсайтов относительно специфики футбольного процесса. Победителем соревнований стала Сара Радд (Sarah Rudd), которая на тот момент была программистом в Microsoft и работала над поисковой системой Bing (которой не удалось стать настолько же популярной как Google), а в свободное от работы время вела блог футбольной аналитики. Сара разработала модель для тактического анализа и оценки индивидуальных атакующих действий игроков на футбольном поле на основе цепей Маркова. После презентации своей работы Сару позвали работать в StatDNA. Позже в конце 2012 лондонский Арсенал выкупил права на американскую компанию почти за 4 миллиона $, а Сара в последствии стала главой департамента аналитики канониров. На данном моменте можно завершить погружение в исторический контекст относительно того, как описываемая математическая теория оказалась востребованной в индустрии футбола, и приступить к непосредственному разбору построенной на ее основе аналитической модели. Первая модель на основе цепей Маркова (марковская модель) в индустрии футбола На рисунке ниже приводится условный пример, который разбирается в книге Soccermatics Дэвида Самптера, для демонстрации ключевых особенностей марковской модели, которую изначально предложила Сара Все поле разбивается на зоны. Так как изначальная задача модели заключалась в оценке атакующих действий, то основной акцент был уделен финальной трети поля, для которой были выделены 6 зон. Оставшаяся часть поля была помечена отдельной зоной под номером 0. Вводится понятие - состояние игры. Весь игровой процесс рассматривается как последовательность переходов между различными состояниями. Сара предложила рассматривать такие последовательности переходов как марковские цепи, что позволило использовать основное свойство данного подхода - отсутствие памяти о прошлых состояниях (основное свойство марковских моделей). Другими словами можно сказать, что для марковских процессов вероятности будущих состояний определяются только текущим состоянием процесса и не зависят от прошлых состояний. Безусловно вас может смутить применение данного определения к описанию действий на футбольном поле, т.к. мы знаем, что иногда прошлые состояния в игре могут существенно влиять на то, что будет происходить на поле в следующие моменты времени, но принятое допущение позволяет довольно легко оценивать вероятности будущих состояний игры, в частности вероятность гола (xG), опираясь только на текущее состояние, что в свою очередь упрощает процесс оценки действий футболистов. Всего в оригинальной модели выделялось 39 состояний
В рассматриваемом примере используются три состояния, которые определяются исключительно зоной, в которой находится атакующий игрок: M - игрок в центре поля, W - игрок на фланге, B - игрок в штрафной. Также в предлагаемом примере указаны два ключевых состояния: G - гол и L - потеря мяча. Оранжевые линии, выходящие из состояния M, указывают все возможные переходы из текущего состояния и соответствующую вероятность (шансы) данного перехода. Т.е. из состояния M доступно 4 перехода в другие состояния и один "переход" обратно в текущее состояние, который соответствует сохранению мяча атакующим игроком. Общая вероятность всех возможных переходов равна 100% (или единице). В таблице ниже приведены значения вероятностей для различных конечных состояний (колонки с оранжевыми заголовками) в зависимости от исходного состояния (колонки с желтыми заголовками). Данная таблица называется матрицей переходов, значения для которой рассчитываются исходя из статистических данных за рассматриваемый промежуток времени (для рассматриваемого примера статистика может выглядеть следующем образом - все игроки всех команд получали мяч в состоянии M (в центре поля) 100 раз, при этом: 25 раз игрок в данной позиции не отдавал передачи и не бил по воротам (совершал движение с мячом), 20 раз отдавал передачи в штрафную в позицию B, 10 раз на фланг в позицию W, 5 раз бил по воротам и забивал гол и 40 раз команда теряла владение в результате передачи на правый фланг в позицию L. Данный пример - условный, как я говорил ранее, в реальности матрица переходов имела размерность 39 на 39 и учитывала 1521 различный переход. Способ оценки игроков на основе марковских цепей Давайте еще раз рассмотрим матрицу переходов. Первая строка соответствует состоянию M и описывает вероятности возможных переходов в другие состояния. Если предположить, что в предыдущий момент времени мяч был отправлен из состояния M в штрафную в состояние B и теперь исходное состояние игры - B, то распределение вероятностей всех возможных конечных состояний, доступных из текущего состояния, можно наблюдать во второй строке, причем мы можем оценить как изменилась вероятность гола (xG) в результате данного действия - xG для нового состояния B минус xG для предыдущего состояния M, что равно 15 - 5 = 10. Т.е. в результате паса из M в B - вероятность гола увеличилась на 0.1 или 10%. По аналогии мы можем оценить изменение вероятности гола для любой пары состояний и как следствие оценить соответствующие действие игрока по увеличению или уменьшению xG в результате данного действия. Разработанная Сарой модель стала первым инструментом в футбольной аналитике, с помощью которого удалось проводить количественную и качественную оценку атакующих действий футболистов с учетом игрового контекста. Ниже приводится ряд примеров оценивания последовательности действий игроков с помощью модели Маркова. В первом примере рассматриваются 2 передачи и последующий удар. Ранее для такой цепочки действий можно было получить две статистические оценки - голевая передача для игрока 2, и гол для игрока 3. Модель на основе цепей Маркова позволяет:
Безусловно у фанатов Арсенала есть масса (вполне обоснованных) вопросов к трансферной политике канониров за последние десять лет, основанной во многом на влиянии StatDNA на проводимую селекцию, особенно в период работы Арсена Венгера, но нужно понимать, что несмотря на то что описанные в этой статей статистические подходы для оценки эффективности игроков были революционными для того времени (2011/2012 год) в индустрии футбола и сделали огромный шаг вперед в развитии способов оценивания футбольных статистических данных, они охватывали очень мало игрового контекста и опирались на качество и полноту информации от поставщиков данных о событиях, которые предоставлялись в то время, что в значительной мере ограничивало их эффективность. За последние десять лет индустрия развивалась очень бурно по всем фронтам. С одной стороны постоянно совершенствовались и обогащались типы собираемых данных и их качество, появлялись новые крупные игроки на этом рынке (если интересно узнать больше о типах футбольных данных и особенностях инструментов на их основе, то можете найти инфу здесь). С другой стороны развивались сами методы - появлялись более сложные модели на основе уже известных подходов (в частности на основе цепей Маркова, которые будут рассмотрены далее) и совершенно новые подходы на основе машинного обучения, например, метрика VAEP, которая описывалась в одной из моих статей. Современные модели на основе цепей Маркова Февраль 2019 года ознаменовался сразу двумя громкими анонсами в мире футбольной аналитики, которые интересны нам в контексте модели, описанной ранее. 15 февраля Карун Сингх (Karun Singh) презентовал в своем твиттере новую метрику xT (Expected Threat - Ожидаемая угроза), которая подробно была описана в одной из статей на sports.ru, а 21 февраля StatsBomb анонсировали новую модель для оценки атакующих действий игроков, назвав ее Ball Progression Model - модель продвижения мяча и рассчитываемую на ее основе метрику - Attacking contribution (атакующий вклад). Обе предложенные модели основаны на все тех же цепях Маркова, которые мы рассмотрели ранее. Описание модели Ball Progression Model (BPM) и метрики Attacking contribution StatsBomb в своей публикации в явном виде указывают, что их модель является развитием модели разработанной Сарой в 2011 году. На рисунке ниже представлен способ разделения футбольного поля на зоны. Можно наблюдать, что теперь модель оценивает действие совершенное в любой точке поля, а не только в финальной трети, как было в оригинальной модели Сары Ниже будут перечислены основные особенности модели, разработанной StatsBomb.
Результаты применения BPM Описанная выше модель тестировалась на данных о событиях Топ-5 европейских чемпионатов, Чемпионшипа и Первой лиги Англии сезонов 2017-2018 и 2018-2019. Для каждого из 84 переходных состояний были рассчитаны вероятности гола и потери мяча в следующем состоянии и количество действий до соответствующих поглощающих состояний (т.е. количество действий до момента когда вероятность гола или вероятность потери равна единице). В результате данных вычислений удалось выделить следующие состояния (зоны) с наибольшей вероятностью гола:
В качестве состояний с наибольшей вероятностью потери были отмечены зоны 1, 2 и 3 с давлением, для каждой из которых вероятность потери равна 99.5%. На рисунке ниже представлена цепочка владения, которая закончилась голом. Для каждого переходного состояния в данной цепочке приведено значение метрики contribution, которая оценивает атакующий вклад совершенного действия с точки зрения увеличения вероятности гола и рассчитывается как разность xG изначального и конечного состояний. В рассматриваемом примере нулевое значение соответствует сохранению значения xG в результате действия, отрицательные значения - снижению шансов, а положительные - повышению (данный пример - демонстрационный, в нем опущена информация относительно наличия или отсутствия давления для каждого переходного состояния в рассматриваемой цепочке). Для каждого конкретного игрока можно сложить значения contribution по всем действиям и разделить полученный результат на количество сыгранных матчей, в результате чего получить производную метрику - Contribution per game (атакующий вклад игрока за матч в среднем). В таблицах ниже представлены рейтинги пяти лучших игроков для различных позиций (нападающий, полузащитник, защитник и голкипер) по метрике Contribution per game (CPG), полученные на основе марковской модели, разработанной StatsBomb на основе статистики за указанные ранее сезоны. (т.е. актуально на февраль 2019) В данном рейтинге есть ряд футболистов, которых вы можете не знать, это:
Аналитики из StatsBomb преднамеренно не стали нормализовывать метрику CPG на "силу чемпионата" и оставили рассчитанные значения в изначальном (сыром) виде. В результате мы получили пятерку лучших полузащитников полностью состоящую из игроков Чемпионшипа и первой лиги Англии, в которых набрать более высокие балы более легко, чем в топ 5 европейских дивизионов (т.е. contibution для одного и того же действия в разных лигах имеет разную значимость, т.к. отличается класс игроков, уровень давления и скорости игры). Данный подход может быть полезен для поиска молодых талантов в низших лигах. В случае введения поправочных коэффициентов для метрики, рейтинги футболистов из низших дивизионов с большой вероятностью будут перекрыты рейтингами игроков из более сильных лиг. Разработанная StatsBomb модель на основе цепей Маркова довольно хорошо позволяет определять наилучших футболистов по количеству и качеству атакующих действий. Результаты полученные с помощью BPM легко интерпретируемы для людей далеких от статистики и профессиональной аналитики (в отличие от моделей на основе машинного обучения, например, все та же метрика VAEP). Тем не менее у данной модели есть ряд ограничений:
Рассмотренная выше BPM является фундаментом для более полноценной марковской модели, в которой будут разрешены указанные выше ограничения. Не знаю на каком этапе в данный момент находится реализация анонсированной модели (более полноценной BPM), но два года назад StatsBomb активно развивал данный инструмент. xT (Expected Threat - ожидаемая угроза) Как я указывал ранее, метрика xT уже была подробно описана на sports.ru, поэтому я рассмотрю только ключевые моменты данного инструмента, отражающие ее связь с работой Сары и цепями Маркова. Введение в модель, позволяющую оценивать ожидаемую угрозу от совершенного атакующего действия, начинается с общего анализа моментов игры, в которые команда владеет мячом и находится в состоянии атаки (в английском языке данная фаза игры называется - buildup play; для оценки действий в данной фазе игры существует специальная метрика xGBuildup, о которой можно почитать здесь). Проделанный анализ был основан на данных о событиях АПЛ сезона 2017-2018. В проведенном анализе все поле разбивалось на 192 зоны и для каждой зоны на основе собранной статистики была рассчитана вероятность перехода в любую другую зону (т.е. была составлена уже известная нам матрица переходов), в том числе вероятность удара по воротам и непосредственно вероятность гола. На слайде ниже представлен пример работы построенной модели для оценки того, как может развиваться игровая ситуация в атакующей фазе игры, если игрок находится с мячом в зоне А. Можно наблюдать, что с вероятностью 0.3 из зоны А последует удар, и с вероятностью 0.7 будет совершен перевод мяча в одну из выделенных зеленых зон (в результаты паса другому футболисту или продвижению игрока с мячом), причем, чем более ярко выделена зона, тем выше соответственная вероятность перехода. При этом, вероятность гола в данной зоне (xG) составляет 0.02 Как вы могли заметить, в основе построенной модели используется все тот же подход, который ранее был использован в модели Сары - описание игрового процесса в виде последовательности переходов между различными состояниями, вероятность которых рассчитывается для собранной статистики, причем для каждой новой зоны вероятности распределяются независимо от того, как мяч попал в данную зону, т.е. используется все тоже основное свойство простых марковский цепей - отсутствие памяти о прошлых состояниях. На основе рассмотренной модели вычисляется показатель xT для каждой указанной зоны, позволяющий оценивать вероятности того, что через несколько следующих действий будет забит гол (обычно через 4-5 действий), если игрок находится в определенной зоне. Данное значение рассчитывается для каждой зоны. На слайде ниже изображены футбольное поле и соответствующие значения метрики xT для зоны А для моделей, учитывающих различное количество действий до гола. Чем более яркий раскрас имеет зона, тем более высокое значение xT ей соответствует. Можно наблюдать, что:
Метрика xT вычисляется по не совсем простой формуле, детальный разбор которой значительно перегрузит и так не самую легкую для восприятия широкой аудиторией информацию, поэтому опустим объяснения. Основная задача следующего слайда заключается в том, чтобы продемонстрировать, как связаны показатели, которые рассчитываются зонной моделью на основе марковских цепей, и результирующая метрика. Ниже я структурно обозначил основные составляющие, которые используются при вычисления xT для каждой зоны поля. Можно наблюдать, что xT опирается на вероятности удара, вероятности переходов в другие состояния и непосредственно xG (показатели, выделенные цветом) Ниже разбирается пример, в котором демонстрируется способ оценки атакующих действий игроков, опираясь на рассчитанные значения xT для каждой зоны футбольного поля. Для каждого совершенного действия вычисляется разность значений xT (xT Created / созданная опасность) для конечной и начальной зоны, данная разность является финальной оценкой, которую получает игрок за совершенное действие. Также оценка xT для каждого действия позволяет оценивать процентный вклад игроков в созданный голевой момент. В рассмотренном примере из двух передач и последующего удара, который привел к голу, использование метрики xT позволяет выделить действие Игрока 1, вклад которого составил 72% в общую опасность созданную совместно Игроком 1 и Игроком 2, совершившим голевую передачу. Общий вывод: Марковские модели являются одним из самых эффективных способов оценки атакующих действий футболистов на поле. Первая модель на основе цепей Маркова, предложенная широкой аудитории в 2011 году, заложила фундамент для других, более сложных моделей, которые продолжают развиваться в настоящее время (xT, Contribution) Рассмотренные инструменты имеют ряд ограничений, которые снижают качество получаемых оценок из-за потери информации о игровом процессе, что оставляет потенциал для дальнейшего улучшения (дальнейшее усложнение рассмотренных моделей). Основным конкурентом моделей на основе цепей Маркова остается метрика VAEP, полученная на основе применения моделей машинного обучения (сравнение VAEP с метрикой xT было проведено здесь) Автор: Михаил Бородастов Источник: www.sports.ru Комментарии: |
|