Бывший сотрудник Google о покерных ботах

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Эрик Джексон - ученый и разработчик покерных ботов. И так как после создания непобедимого лимитного бота эта деятельность начала набирать популярность, в интервью он рассказывает нам о том, что привело его в эту область покера и о некоторых ньюансах ботоведения.

Расскажи нам о себе и о своем жизненном опыте, не связанным с покером?

Я учился в Стэнфорде, где получил степень доктора в области философии и символических систем. Получив степень, с 1995 по 2006 год я работал инженером-программистом в двух компаниях. Первой была Nuance (с 1995 по 2001) - производитель программного обеспечения для распознавания речи. Второй был Google (с 2001 по 2006).

Я всегда занимался деятельностью, связанной с разработкой искусственного интеллекта, будь то распознавание речи, понимание языка или другие проекты для Google. После ухода из Google я участвовал в различных конкурсах по обучению машин, среди которых были Netflix Prize и Computer Poker Competition. В последнем я принимаю участие уже несколько лет и в различных роялях, в том числе в качестве председателя конкурса и председателя учебного семинара, который проходит наряду с конкурсом.

Тебя всегда интересовал покер?

Я начал играть в покер где-то 2003 году, когда еще работал на Google. Мы устраивали небольшие турниры после работы раз в неделю. В то же время я начал играть онлайн, в основном одностоловые СнГ на Party Poker. В какой-то момент на PokerStars мне дали $5, и я решил попытаться раскрутиться с них, насколько это было возможно. В основном я играл NL Fullring столы. Насколько я помню, я раскрутился до $2000, и некоторое время играл NL200, но потом я сильно залился, и мне пришлось вывeсти дeньги после Черной пятницы.

Почему ты решил работать над созданием покерного искусственного интеллекта?

Я всегда считал эту область интересной, так как она сочетает как теоретические, так и практические задачи.

Ты ушел из Google в 2006 году, т.е. с этого момента прошло уже 8 лет. Сколько из них ты посвятил своей новой работе?

Где-то около шести лет. Это больше похоже на работу с неполным рабочим графиком. На написание кода обычно уходит несколько месяцев. После чего еще несколько месяцев программа самообучается, т.е. "учится" играть. В этот период мне нужно только следить, чтобы она работала корректно. В конце концов, перед самим конкурсом у нас остаётся где-то месяц, чтобы протестить её и привести в надлежащий вид.

Пока что ты работал только с Холдемом. Это исключительно из-за его популярности или были другие причины такого выбора?

Я работал только с Холдемом, а именно с лимитным и безлимитным хедз-апом. На Computer Poker Competition традиционно представлено только три игры – две, что я уже упомянул и лимитный Холдем для трех игроков. Это, в основном, и является причиной моего выбора.

Для разных столов и форматов ты разрабатываешь разных ботов? Или же твой бот более универсальный?

Для разных столов и форматов игры у меня разные боты, и, конечно, они разные для лимитного и безлимитного Холдема. Но основные алгоритмы этих ботов имеют много общего.

Почему не проводятся конкурсы по таким играм, как Омаха, Стад или Дро-покер? Было бы тебе интересно работать в этом направлении?

Не думаю, что такие игры как Омаха или семикарточный стад разительно отличаются от Холдема. Скорее всего, в них я бы применял те же алгоритмы. С Дро-покером, возможно, было бы сложнее, так как в нем есть дополнительные решения, но подход, в целом, отличался бы не особо.

В чем же заключаются эти разительные отличия?

Переходя от фиксированного размера ставок (как в лимитном Холдеме) на переменные (как в безлимитном или пот-лимит Холдеме) размеры дерева решений увеличиваются в разы, так как каждый возможный размер ставки это разный вариант розыгрыша. Мы все еще используем те же алгоритмы, но есть и отличия. Я бы назвал эти игры немного другими. Главным образом потому, что они намного сложнее, из-за чего наши решения будут намного сильнее отходить от идеальной неэксплуатируемой игры.

Переходя от хедз-апа к играм для трех и более игроков, все становится сложнее по многим причинам. Во-первых, дерево решений увеличивается до неописуемых размеров, ведь теперь у нас больше способов разыграть руку, учитывая дополнительных игроков. Во-вторых, как только вы выходите за пределы хедз-апа, используемые алгоритмы уже не могут соответствовать теории.

Ты сказал, что на обучение ботов требуется несколько месяцев. Все это время они играют против себя. Продолжает ли бот обучаться и дальше, или вы закрепляете его стратегию перед конкурсом?

Мои боты не аджастятся во время игры. Перед тем, как они сыграют свою первую руку, они проходят период "обучения", во время которого они пытаются максимально приблизиться к Равновесию Нэша в игре. Но как только они начинают играть с оппонентами, они не адаптируются к каким-либо изменениям в их стратегии.

Что касается процесса обучения бота, то его можно назвать игрой против самого себя. Я использую алгоритм, называемый контрфактуальной минимизацией сожаления, широко известный в последние годы. Мы начинаем с произвольных стратегий для двух позиций (баттон и большой блайнд), а затем позволяем каждой стратегии играть против друг друга. С каждым шагом мы вычисляем новую стратегию для каждой позиции. Финальная стратегия является средним значением всех изученных стратегий на каждой стадии (интерации).

Можешь рассказать нам подробнее про контрфактуальную минимизацию сожаления.

Это довольно техническая область, но, хорошо. Представьте, что стратегия это задача вероятностей всех возможных действий на всех возможных стадиях игры. В стратегии для безлимитного Холдема, например, одна ветка дерева говорит вам, что при игре 3х рейз-колл/чек-чек/чек-чек с KsKh на ривере As-Qh-Jh-7d-2c вы должны чекать с вероятностью P1, ставить половину банка с вероятностью P2, ставить банк с вероятностью Р3 и так далее. У вас могут быть другие вероятности для других возможных размеров ставок. В итоге у вас есть вероятности для всех возможных рук на всех возможных досках с каждой возможной комбинацией ставок до этого момента.

Применяя контрфактуальную минимизацию сожаления, мы многократно рассматриваем одну и ту же ситуацию и для каждой итерации вычисляем стратегию для каждого игрока. Мы работаем со значением, называемым "сожаление", для каждого действия в каждой стадии игры. Сожаление это то, насколько больше вы бы выиграли, разыграв руку определенным образом, отличающимся от предыдущих. Затем мы используем значение сожаления, чтобы настроить все вероятности.

Выполняя все больше и больше итераций, общее сожаление становится ниже, так как средняя стратегия, вычисляемая по всем предыдущим итерациям, становится все лучше и лучше. Это можно показать математически. Чем ниже становится сожаление, тем ближе мы приближаемся к равновесию Нэша, т.е. неэксплуатируемой игре.

Расскажи нам подробнее о конкурсе Computer Poker Competition?

Computer Poker Competition - ежегодный конкурс для людей, увлекающихся созданием покерных ботов, и исследователей в этом направлении. Прошлогодним летом прошел девятый в своей истории конкурс. Традиционно конкурс подразумевает соревнование в трех областях: HU Limit Hold'em, HU No-Limit и Limit Hold'em для трех игроков. Недавно у нас появился конкурс Kuhn Poker для трех игроков [сильно упрощённая версия холдема с колодой из трёх карт]. Участниками конкурса являются как исследователи, так и сами игроки. Особую активность на протяжении последних лет проявляли представители Университетов Альберты и Карнеги-Меллон.

Конкурс стимулирует исследования в различных сферах ботоведения, включая создание статических ботов (каких делаю я, например), которые пытаются максимально приблизиться к равновесию Нэша, и подстраивающихся, которые пытаются эксплуатировать стратегию оппонента.

Kuhn Poker? Версия для двух игроков была специально разработана, как легко решаемая игра. С бОльшим количеством игроков ситуация меняется? Какие были мотивы для ее включения в конкурс?

Несмотря на то, что это простая игра, версия для бОльшего количества игроков не может быть решена в техническом смысле. Если бот играет по стратегии максимально приближенной к равновесию Нэша и не может быть эксплуатируем, он может быть побежден, если два других бота выберут адекватно согласованные стратегии. Так что целью, на мой взгляд, было найти довольно простую игру, на примере которой можно было бы сосредоточиться на различиях между игрой для двух и большим количеством игроков, например, относительно недостатка неэксплуатируемого равновесия и возможности сговора. Несмотря на то, что игра проста, найти лучший способ максимизации прибыли довольно непросто.

Говоря о решениях, недавно появилась новость о том, что Лимитный хедз-ап Холдем был, наконец, решен. Это значит, что больше он не будет представлять интереса для включения в конкурсную программу. Что, на твой взгляд, может заменить его?

На самом деле, для каждой игры у нас есть два соревнования. В первом поощряются боты, максимально приблизившееся к равновесию Нэша, во втором основным критерием оценки является общая прибыль бота, играющего по эксплуатационной стратегии против более слабых оппонентов. Таким образом, да, первое соревнование для Лимитного Холдема теперь становится бессмысленным, но во второе все еще имеет место быть.

Что касается нового соревнования, я бы хотел увидеть что-нибудь на самом деле трудное и особенное, например, fullring или 6max. Но в этом есть некоторые технические трудности. Так, например, я не уверен, что полученные нами результаты будут иметь статистическую значимость.

Итак, некоторые (включая тебя) пишут неэксплуатирующих ГТО-ботов, которые должны играть «идеально» относительно теории игр. Другие же создают ботов, которые стараются эксплуатировать слабости своих оппонентов. Какой из этих подходов более популярен в нерешенных (или решаемых) играх в последнее время?

В нашем конкурсе ГТО-боты, которые максимально близко играют к Равновесию Нэша, как правило, выигрывают эксплуатационных ботов в ХА. Этому есть несколько объяснений. Адаптироваться само по себе трудно. ГТО-боты довольно сильные, а работа в области адаптации, возможно, находится в менее зрелом состоянии, чем работа в области ГТО. Кроме того, конкурсные матчи длятся всего 3000 рук. Такое количество может быть не достаточным, чтобы узнать что-то особенное о своем сопернике, если вы не делаете много предположений и эти предположения оказываются правильными.

Как близко вы находитесь к решению таких игр, как No-Limit Hold'em? ГТО-боты уже готовы или вам все еще предстоит долгий путь?

Помимо лимитного хедз-апа, на данный момент решены только простые игры (такие как Kuhn Poker для двух игроков), которые не представляют интереса. Главным, что помогло решить Лимитный холдем, стала возможность точно измерить эксплуатабельность. Мы не можем сделать то же самое для наших ботов в безлимитном Холдеме, но ребята из Университета Альберты смогли найти, по крайней мере, нижнюю границу эксплуатабельности одного из своих недавних ботов, и выяснилось, что она равнялась, как минимум, 300 большим блайндам на сто рук! Хоть это и кажется шокирующим (в четыре раза хуже, чем просто фолдить каждую руку), помните, что эксплуатабельность - наихудший теоретический показатель. В реальной игре против человека, большинство ликов будут очень тонкими, и боту все равно будет довольно сложно играть. Так что еще одна замечательная новость для людей — Безлимитный Холдем все еще очень далек от решения.

Computer Poker Competition подразумевает соревнования только ботов против ботов? Или же есть подобные конкурсы, где боты соревнуются против людей?

До того, как Лимитный хедз-ап был решен, проводилось несколько матчей «человек против бота». Я думаю, что подобные матчи имели бы большой интерес в попытках решения Безлимитного холдема. Однако для того, чтобы убедиться в статистической значимости результатов, нам потребуются тысячи и тысячи рук и человек, готовых отыграть такие объемы.


Источник: m.vk.com

Комментарии: