Что такое байесианство

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Среди переведенных на русский язык материалов сайта LessWrong больше половины посвящены преодолению когнитивных искажений - и это не удивительно, поскольку основная работа Элиезера Юдковского связана с ними. Однако, часто упоминается так называемое "байесианство", иногда даже как альернативное название этого направления психологии (наравне с "рациональностью") и как основа всего. Что же это такое?

Простой ответ состоит в том, что это такой вид статистики, основанной на теореме Байеса, которую все изучали в вузе, если вообще изучали там теорию вероятностей. Однако, сама по себе формулировка теоремы почти ничего не дает, нужно уметь ей пользоваться и понимать, почему и зачем кто-то применяет это вместо обычной привычной всем статистики с математическим ожиданием и дисперсией.Мне удобно разделить подробный ответ на три части: как соединять информацию о нескольких наблюдениях, почему нужны априорные знания, и пример того как все работает.

В классической статистике обычно используется в точности один и тот же эксперимент, повторенный огромное число раз в совершенно одинаковых внешних условиях. И тогда его результаты удобнее всего обрабатывать обычными методами усреднения. И это идеально подходит для большинства экспериментов в точных науках.

Однако, рассмотрим ситуацию, когда ставить повторяющийся эксперимент неудобно, и речь идет об обработке ряда наблюдений - их всего лишь десятки, и каждое сделано в несколько разных условиях. Это идеально подходит для некоторых других наук, в том числе некоторых науках о людях, а еще это идеально подходит для ряда бытовых ситуаций - когда есть несколько порций информации о каком-то явлении, предмете или человеке, и надо сделать из них вывод, а не разрабатывать повторяемый эксперимент и повторять его огромное число раз.

Математизированный пример может быть таким: мы наблюдаем за людьми, которые подбрасывают одну и ту же несимметричную монетку. Один подбросил ее 5 раз и получил 2 "орлов". Второй - 55 раз и получил 28 "орлов". Третий подбросил 8 раз и точно помнит, что "орлов" не менее 5, но сколько именно - не помнит. Четвертый подбрасывал монетку 10 раз и запомнил, что у него была серия из ровно 6 "орлов" подряд - и он очень этому удивился, - а больше ничего о результатах он не помнит. Пятый подбросил один раз и выпала "решка". Каждое из свидетельств что-то говорит о степени симметрии монетки, каждое из них наиболее вероятно для какой-то своей конкретной вероятности выпадения орла у именно этой монетки. Очевидно, что результаты (вероятности выпадения орла) для этих пяти измерений нехорошо усреднять чисто арифметически хотя бы потому, что второй и пятый опыты явно дают разное количество информации.

Забавно, что даже разные веса при усреднении не спасают - существует пример, где по-отдельности два свидетельства дают ответы А и Б, а вместе они дают ответ С, такой что С>А и C>Б.Байесовский подход к статистике позволяет все это правильно усреднить. Для этого от каждого опыта надо знать не только мат. ожидание, но больше деталей (так называемые отношения правдоподобия). Байесовский подход "сложнее" обычного усреднения. Более того, нельзя использовать промежуточные ответы. В обычной статистике мы можем обработать сначала 200 измерений и узнать их мат. ожидание и дисперсию, затем отдельно обработать 800 других измерений (сделанных в тех же условиях) и узнать эти величины для них, и затем объединить эти данные и просто из этих шести чисел получить мат. ожидание и дисперсию для 1000 измерений в целом. В общем же случае, когда измерения разные и проведены в разных условиях, их нельзя как-то сгруппировать и посчитать ответ для каждой группы, а потом уже эти ответы, забыв о породивших их опытах, пересчитать в общий итог. Нельзя сказать, что вот у меня была серия из 5 наблюдений из 79 бросков монет, и в целом она дает наиболее вероятную степень выпадения "орла" А%, а у тебя с этой монетой было 2 наблюдения, 10 бросков и вероятность Б%, и мы сможем как-то посчитать итоговую вероятность только из этих данных. Нет, не сможем. Нужно больше деталей.Естественно, в случае с монетой проще провести одинаковые серии и применять обычную статистику. А в жизни мы обычно имеем просто ряд разнородных событий, из которых нужно сделать вывод о чем-то. И события уже разнородные, у нас нет времени (или это вовсе невозможно) ставить серию экспериментов, нам нужно извлечь максимум информации из уже случившегося. И пусть каждое из них относительно интересного нам явления дает какие-то конкретные цифры-прогнозы - для их объединения друг с другом нам нужен байесианский подход.Эта часть байесианства хорошо рассмотрена здесь.

У нас по-прежнему мало наблюдений, возможно ровно одно ("у этого человека сейчас болит голова"), но нужно извлечь максимум информации. И если мы знаем, что 1) голова всегда болит при опухоли мозга; 2) голова редко (дан процент) болит при простуде; 3) простуда встречается во столько раз чаще, чем опухоли мозга; 4) все остальные причины можно отбросить. То из этих данных можно получить совершенно конкретный результат, какова вероятность простуды и вероятность опухоли. А если не думать об априорных данных, то вообще не видно, как из наблюдения получить хоть какой-то численный ответ.Теорема Байеса такова, что всегда включает априорные вероятности. Как так получается, что "обычная статистика" их не использует и при этом "верна"? Как при обычной статистике мы изучаем степень симметрии монеты с множеством повторений одинакового эксперимента, не думаем ни о каком "изначальном" предположении об ее симметрии или несимметрии, и все вроде бы работает?

Ответ в том, что у классической статистики число измерений стремится к бесконечности - и при этом вклад априорной вероятности падает до нуля. А если измерений существенно конечное количество, то в принципе классическая статистика и не обязана работать правильно. Если мы изучаем реальную монету, только что изготовленную на монетном дворе, и провели буквально пару измерений (допустим, небольшое нечетное число измерений) - то в классическом подходе мы автоматически "получим" что она "в среднем" скорее не симметрична, то, чего выпало больше в нашей мини-серии, скорее всего выпадает чаще. А вот если мы вспомним, насколько совершенен этот станок и насколько ничтожная часть из изготовленных им ранее монет имела брак и существенную ассиметрию, - то в байесианском подходе мы просто чуть-чуть скорректируем предсказание, что монета почти наверняка симметрична, и это предсказание почти не изменится, даже если мы бросили монету трижды и нам выпало три "орла", - просто потому что на фоне априорной вероятности это мало на что влияет.

В уже упоминавшейся выше статье про отношения правдоподобия приведен подробный расчет такого рода вычислений.В английской статье более подробно рассмотрено, как именно считать, - там уже три причины и три результата, а затем через теорему Байеса разобрана пара парадоксов. Последнее не менее важно - ведь часто нужно найти качественную ошибку в прямолинейном решении ситуации, а не считать точные цифры.


Источник: valery-vvv.livejournal.com

Комментарии: