"Лошадь Зельтена" и правило Байеса. Убеждения + субъективные вероятности

2020-09-03 19:18

Во всех примерах и наработках, рассмотренных в предыдущих публикациях, предполагалось, что представления игроков о вероятностях в лотереях соответствуют объективным вероятностям. Но в реальных ситуациях интерактивного выбора агентам часто приходится полагаться на свои субъективные оценки или субъективное восприятие вероятностей.

В одном из величайших трудов двадцатого века по поведенческой и социальной науке, Сэвидж (1954) показал, КАК субъективные вероятности и их отношения с предпочтениями по сравнению с риском, включить в рамки теории ожидаемой полезности фон Неймана-Моргенштерна. Действительно, достижение Сэвиджа равносильно формальному завершению EUT. Затем, чуть более десяти лет спустя, Джон Харсаньи (1967) показал, как решать игры, в которых используются максимизаторы ожидаемой полезности Сэвиджа. Эти прорывы многие считают признаком наступления истинной зрелости Теории игр - как инструмента для применения в поведенческих и социальных науках, и были признаны таковыми, когда Харсаньи присоединился к Нэшу и Зельтену в качестве лауреата первой Нобелевской премии, присужденной Теоретикам игр в 1994 году.

Как мы заметили, рассматривая необходимость для людей, играющих в игры, изучать "равновесие слабых рук" и QRE, когда мы моделируем стратегические взаимодействия людей, мы должны учитывать тот факт, что люди обычно не уверены в моделях друг друга. Эта неопределённость отражается на выборе стратегий. Более того, некоторые действия могут быть предприняты специально для того, чтобы узнать о точности предположений одного игрока о других игроках. Расширение Теории игр Харсаньи включает в себя эти важные элементы.

Рассмотрим нижеприведенную игру для троих с несовершенной информацией, известную как "Лошадь Зельтена" (по имени её изобретателя, лауреата Нобелевской премии Рейнхарда Зельтена, а также из-за формы её древа):

В этой игре четыре Равновасия Нэша (РН): (L, l2, l3), (L, r2, l3), (R, r2, l3) и (R, r2, r3). Рассмотрим четвёртое из этих РН.
Оно возникает потому, что когда Игрок I играет R, а Игрок II играет r2, весь набор информации Игрока III выходит за рамки игрового процесса, и для результата не имеет значения, что делает Игрок III. Но Игрок I не играл бы R, если бы Игрок III мог отличить нахождение в узле 13 и нахождение в узле 14. Структура игры стимулирует усилия Игрока I предоставить Игроку III информацию, которая откроет его закрытый информационный набор. Игроку III лучше верить этой информации, потому-что структура игры показывает, что у Игрока I есть стимул сообщать её правдиво. Тогда решением игры будет SPE (теперь уже) идеальной информационной игры: (L, r2, l3).

Теоретики, которые считают Теорию игр частью нормативной теории общей рациональности, например, большинство философов и энтузиасты программ усовершенствования среди экономистов, искали стратегию, которая идентифицировала бы это решение на общих принципах. Обратите внимание на то, о чём может задуматься Игрок III в "Лошади Зельтена", выбирая свою стратегию:

"Учитывая, что я получил ход, был ли мой узел действия достигнут от узла 11 или от узла 12?"

Иными словами, каковы условные вероятности того, что Игрок III находится в узле 13 или 14, учитывая, что у него есть ход? Итак, если Игрок III задаётся вопросом об условных вероятностях, тогда то, о чем Игроки I и II могут делать предположения при выборе своей стратегии, - это убеждения Игрока III об этих условных вероятностях. В этом случае Игрок I должен строить догадки относительно убеждений Игрока II насчёт убеждений Игрока III, и убеждений Игрока III относительно убеждений Игрока II, и так далее. Соответствующие убеждения здесь не просто стратегические, как раньше, поскольку они касаются не только того, что игроки будут делать с заданным набором выплат и игровых структур, но и того, какое понимание условной вероятности им следует ожидать от других игроков.

Не то, чтобы прямо Лошадь Зельтена в кадр попала, зато лучше запомнится.

Каких представлений об условной вероятности игроки могут ожидать друг от друга? Если мы последуем за Сэвиджем (1954), то предложим в качестве нормативного принципа, что они должны рассуждать и ожидать, что другие рассуждают в соответствии с правилом Байеса. Эта теорема говорит им, как вычислить вероятность события F с учетом информации E (записанной как "pr (F / E)"):

pr(F / E) = [pr(E / F) ? pr(F)] / pr(E)

Если мы предположим, что убеждения игроков всегда согласуются с этим уравнением, то мы можем определить последовательное равновесие.

SE состоит из двух частей:

1: профиль стратегии § для каждого игрока, как и раньше,
2: система убеждений ? для каждого игрока.

назначает каждому информационному набору h распределение вероятностей по узлам в h, с интерпретацией, что это убеждения игрока i (h) о том, где он находится в его информационном наборе, учитывая, что информационный набор h был достигнут. Тогда последовательное равновесие - это профиль стратегий § и система убеждений ?, согласующаяся с правилом Байеса, так что, начиная с каждого набора информации h в древе, игрок i (h) играет оптимально (учитывая, что то, что, по его мнению, произошло ранее, задается ? (h), а то, что будет происходить при последующих ходах, задается §).

Давайте применим эту концепцию решения к Лошади Зельтена. Снова рассмотрим РН (R, r2, r3). Предположим, что Игрок III присваивает pr (1) своей уверенности в том, что если он получит ход, то он окажется в узле 13. Тогда Игрок I, учитывая постоянное ? (I), должен верить, что Игрок III сыграет l3, и в этом случае его Стратегия SE - это L. Итак, хотя (R, r2, l3) является РН, это не SE.

Использование требования согласованности в этом примере несколько тривиально, поэтому рассмотрим теперь второй случай (взят у Крепса, 1990):

Предположим, что игрок I играет L, игрок II играет l2, а игрок III играет l3. Предположим также, что ? (II) назначает pr (.3) узлу 16. В этом случае l2 не является стратегией SE для Игрока II, так как l2 возвращает ожидаемый выигрыш в размере .3 (4) + .7 (2) = 2.6, а r2 - ожидаемый выигрыш 3.1. Обратите внимание, что если мы изменим профиль стратегии для игрока III, оставив всё остальное неизменным, l2 может стать стратегией SE для игрока II. Когда § (III) даст игру l3 с pr (.5) и r3 с pr (.5), то если игрок II сыграет r2, его ожидаемый выигрыш будет теперь 2.2, так что (Ll2l3) будет SE. Теперь представьте, что возвращаете ? (III) в прежнее состояние, но изменяете ? (II) так, чтобы Игрок II считал условную вероятность оказаться в узле 16 большей 0,5; в этом случае l2 снова не является стратегией SE.

Мы надеемся, что идея SE теперь ясна. Можно применить то же самое и к игре о переходе через реку, таким образом, чтобы преследователю не приходилось подбрасывать кости, для этого немного модифицируем игру. Предположим теперь, что преследователь может дважды менять мосты во время перехода беглеца, и поймает его в том случае, если встретит его, когда он покидает мост. Тогда стратегия SE преследователя состоит в том, чтобы разделить своё время пребывания у трёх мостов в соответствии с пропорцией, заданной уравнением в предыдущей публикации.

Следует отметить, что, поскольку правило Байеса не может применяться к событиям с вероятностью 0, его применение к SE требует, чтобы игроки присваивали ненулевые вероятности всем действиям, доступным в развёрнутой форме. Это требование достигается путём предположения, что все профили стратегий должны быть строго смешанными, то есть каждое действие в каждом информационном наборе должно выполняться с положительной вероятностью. Вы увидите, что это просто эквивалентно предположению, что все руки иногда "слабые", или, альтернативно, что никакие ожидания не являются вполне определёнными. SE называется совершенной со "слабой рукой", если все стратегии, играемые в состоянии равновесия, являются наилучшим ответом на строго смешанные стратегии. Вы также не должны удивляться, узнав, что никакая стратегия со слабым доминированием не может быть совершенной со "слабыми руками", поскольку сама возможность наличия "слабых рук" даёт игрокам наиболее убедительную причину избегать таких стратегий.

Как может не-психологический теоретик игр понять концепцию РН, которая представляет собой равновесие как действий, так и убеждений? Десятилетия экспериментальных исследований показали, что, когда люди играют в игры, особенно в игры, которые в идеале требуют использования правила Байеса для предположений о убеждениях других игроков, мы должны ожидать значительной неоднородности в стратегических ответах. Множественные типы информационных каналов обычно связывают разных агентов со структурами стимулов в их среде. Некоторые агенты могут фактически вычислять равновесия с большей или меньшей вероятностью. Другие могут останавливаться в пределах ошибок, которые стохастически дрейфуют вокруг значений равновесия в результате более или менее близорукого обусловленного обучения. Третьи могут выбирать паттерны реакции, копируя поведение других агентов или следуя эмпирическим правилам, которые встроены в культурные и институциональные структуры, и представляют собой историческое коллективное обучение. Обратите внимание, что проблема здесь специфична для Теории игр, а не просто повторяет более общую точку зрения, которая применима вообще к любой науке о поведении: конечно, и так общеизвестно, что люди ведут себя вариативно с точки зрения идеальной теории. В данной игре, рациональность следования РН даже обученным, осведомленным, и хорошо оснащённым вычислительными ресурсами агентом, будет зависеть от частоты, с которой он ожидает таких же самых действий от других. Если игрок ожидает, что некоторые другие игроки отклонятся от игры РН, это может дать ему повод тоже отклониться. Вместо того, чтобы прогнозировать, что игроки раскроют строгие стратегии РН, опытный экспериментатор или разработчик моделей старается найти связь между их игрой и ожидаемыми затратами на отход от РН. Следовательно, оценка максимального правдоподобия наблюдаемых действий обычно определяет QRE как обеспечивающее лучшее соответствие, чем любое РН.

Аналитика, который обрабатывает эмпирические данные таким образом, не следует интерпретировать как "проверяющего гипотезы" о том, что анализируемые агенты "рациональны". Скорее, он предполагает, что они являются агентами - то есть, что существует систематическая взаимосвязь между изменениями в статистических паттернах их поведения и некоторыми кардинальными рейтингами возможных целей-состояний, взвешенными с учётом риска. Если агенты - это люди или институционально-структурированные группы людей, которые следят друг за другом и заинтересованы в попытках действовать коллективно, эти предположения часто будут расценены критиками как разумные или даже как прагматически не вызывающие сомнений, даже если они всегда несостоятельны, учитывая отсутствие ограничений. Нулевая возможность странных неизвестных обстоятельств, которые иногда рассматривают философы (например, концепцию о том, что люди - это заранее запрограммированные неразумные механические симуляторы, которые будут раскрыты как таковые, как только среда будет стимулировать их на реакции, не записанные в их программы). Аналитик может предположить, что все агенты реагируют на изменения стимулов в соответствии с теорией ожидаемой полезности Сэвиджа, особенно если агентами являются фирмы, которые привыкли к непредвиденным обстоятельствам, и научились оперативно реагировать в нормативно требовательных условиях рыночной конкуренции со многими другими игроками. Если испытуемыми аналитика являются отдельные люди, и особенно если они находятся в нестандартной среде по сравнению с их культурным и институциональным опытом, будет более мудрым оценить модель смешивания максимального правдоподобия, которая допускает, чтобы ряд различных структур полезности управлял разными подмножествами данных их выбора. Всё это означает, что использование Теории игр не заставляет учёного эмпирически применять модель, которая, вероятно, будет слишком точной и узкой в ??своих спецификациях, и значит не сможет правдоподобно соответствовать запутанным сложностям реального стратегического взаимодействия.

Хороший теоретик прикладных игр должен быть также хорошо подготовленным эконометристом.

Богдан Карасёв, Scorum, 3 сентября 2020 г., на основе материалов Стэнфордского университета.

Источник: scorum.ru

"Лошадь Зельтена" и правило Байеса. Убеждения + субъективные вероятности

Комментарии: