Наглядное объяснение теоремы Байеса

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


КЛАССЫ ВЕРОЯТНОСТИ: ПРИЛОЖЕНИЕ

Несколько дней назад я предложил вам тему для очередной заметки, и некоторое количество знаков разной степени ясности говорили в пользу того, что она вам интересна. Поэтому сегодня я вкратце опишу, что такое теорема Байеса, что может дать бытовому мышлению и какое отношение к ней имеют классы вероятности. Сразу оговорюсь, что во многом опираюсь на эссе Элиезера Юдковского, ссылка на которое приведена мною в шапке данной заметки - и, если после этой заметки вы всерьёз заинтересуетесь байесианским мышлением, настоятельно советую его прочитать.

Наконец, о теореме Байеса. Это, в сущности, простая формула из теории вероятностей, которая связывает друг с другом разные вероятности - как "чистые” (как, например, вероятность того, что в колоде туз будет не на своём месте), так и условные (вероятность того, что туз будет не на месте при том условии, что колода была новой). Выглядит она так:

P(A|B) = P(B|A)*P(A)/P(B),

где P(A) - априорная вероятность события А, а P(A|B) - условная вероятность (вероятность А при условии того, что В произошло). Формула спокойно терпит самые разнообразные преобразования, как, например, замена делителя P(B) на его эквивалентное представление P(B) = P(B|A)P(A) + P(B|~A)P(~A), где как ~А обозначается событие “не А” вероятности 1 – P(A).

Но в чём же её прелесть?

Допустим, существует некоторое количество учёных - например, 1% из них - которые считаются самыми уважаемыми учёными на планете. Их авторитет неоспорим, заслуги великолепны, и 90% из них учились в некоем институте с названием CIST. Известно также, что 10% людей, которые не стали в итоге уважаемыми учёными, тоже окончили этот институт. Вопрос: насколько хорошей идеей окажется решиться окончить CIST, если желаешь стать уважаемым учёным? Иначе говоря, какова вероятность того, что, окончив CIST, попадаешь в то самое “некоторое количество”?

Интуиция становится для решающего задачу злейшим другом - известно, что на такую задачу большинство людей даёт неправильный ответ (см. эссе по ссылке). Легко предположить, что если 90% уважаемых учёных окончили CIST, то примерно столько же от окончивших CIST стали в итоге уважаемыми учёными. Однако такой подход в корне неверный, что легко заметить, если посчитать всё в конкретных числах.

Допустим, у нас есть 10000 учёных, и выдающаяся часть составляет ровно сотню. Тогда из уважаемых учёных мы имеем 90 человек, окончивших CIST, а из остальных - уже 990. Тогда из всех выпускников CIST мы имеем всего 90/(90+990) = 1/12 общего числа, кто достиг выдающихся успехов! Ни в какое сравнение с 90%, правда?

Теорема Байеса, помимо всего прочего, может послужить прекрасным инструментом для исправления подобных ошибок интуиции. Действительно, если мы возьмём её в виде

P(A|B) = P(B|A)*P(A)/(P(B|A)P(A) + P(B|~A)P(~A)),

то в результате вычислений получим тот же самый ответ:

P(A|B) = 0.9*0.01/(0.9*0.01+0.1*0.99) = 1/12.

Здесь мы использовали:

А - достижение выдающихся успехов;

В - наличие диплома CIST.

Однако часто крайне сложно считать любую мелочь в точных числах, тем более что конкретные вероятности обычно неизвестны: например, как вычислить вероятность того, что сосед сегодня придёт домой поздно, застряв в пробке? Поэтому система классов вероятности, которую я предлагал некоторое время назад (vk.com/almeriner?w=wall-195839302_179) может оказаться крайне полезной для оценок по Байесу. Для анализа стоит ввести не только сами классы, но и алгебру для них, основанную на их характерных величинах:

A ~ 0.98;

B ~ 0.82;

C ~ 0.5;

D ~ 0.18;

E ~ 0.02.

Оценочная таблица умножения и сложения классов:

A*M = M (М - произвольный класс, кроме E);

B*B = C;

B*C = C;

B*D = D;

C*C = D, C+C = A;

C*D = D, C+D = B;

D*D = E, D+D = C;

M*E = E, M+E = M.

В качестве примера оценки по Байесу рассмотрим всё ту же задачу с учёными и CIST (здесь и далее буквы А и В означают события с определённой вероятностью только в скобках после Р; иначе это классы вероятности):

P(A) -> E (вероятность быть выдающимся учёным достаточно низка);

P(B|A) -> B;

P(B|~A) -> D.

Тогда оценка по Байесу выглядит следующим образом:

P(A|B) = B*E/(B*E+D*A) = 1/(1+(D*A)/(B*E)) = 1/(1+D/E) = 1/(1+0.18/0.2) = 1/10.

Важной деталью, упрощающей работу с классами, является группировка всех величин классов в максимально компактные образования в формуле. Например, в примере вместо того, чтобы сразу умножать и подставлять значения, мы сначала поделили числитель и знаменатель на произведение В*Е. Делается это для того, чтобы максимально уменьшить работу с числами, а взамен пользоваться оценочной алгеброй умножения и деления классов. Таким образом, классы вероятности позволяют значительно упростить работу с теоремой Байеса, когда конкретное значение искомой вероятности не необходимо знать с высокой точностью - как мы увидели, оценка в нашем случае дала результат, достаточно близкий к реальному.

Попробуйте потренироваться в байесианском мышлении на бытовых ситуациях, которые встречаются вам в жизни - оценить классы вероятности очевидных величин и получить какую-нибудь неочевидную. А ещё настоятельно рекомендую ознакомиться с эссе по ссылке в начале этой заметки, тем более, если вы дочитали её до конца.


Источник: lesswrong.ru

Комментарии: