Наглядное объяснение теоремы Байеса

2021-09-22 19:51

актуальная математика, теория вероятности

КЛАССЫ ВЕРОЯТНОСТИ: ПРИЛОЖЕНИЕ

Несколько дней назад я предложил вам тему для очередной заметки, и некоторое количество знаков разной степени ясности говорили в пользу того, что она вам интересна. Поэтому сегодня я вкратце опишу, что такое теорема Байеса, что может дать бытовому мышлению и какое отношение к ней имеют классы вероятности. Сразу оговорюсь, что во многом опираюсь на эссе Элиезера Юдковского, ссылка на которое приведена мною в шапке данной заметки - и, если после этой заметки вы всерьёз заинтересуетесь байесианским мышлением, настоятельно советую его прочитать.

Наконец, о теореме Байеса. Это, в сущности, простая формула из теории вероятностей, которая связывает друг с другом разные вероятности - как "чистые” (как, например, вероятность того, что в колоде туз будет не на своём месте), так и условные (вероятность того, что туз будет не на месте при том условии, что колода была новой). Выглядит она так:

P(A|B) = P(B|A)*P(A)/P(B),

где P(A) - априорная вероятность события А, а P(A|B) - условная вероятность (вероятность А при условии того, что В произошло). Формула спокойно терпит самые разнообразные преобразования, как, например, замена делителя P(B) на его эквивалентное представление P(B) = P(B|A)P(A) + P(B|~A)P(~A), где как ~А обозначается событие “не А” вероятности 1 – P(A).

Но в чём же её прелесть?

Допустим, существует некоторое количество учёных - например, 1% из них - которые считаются самыми уважаемыми учёными на планете. Их авторитет неоспорим, заслуги великолепны, и 90% из них учились в некоем институте с названием CIST. Известно также, что 10% людей, которые не стали в итоге уважаемыми учёными, тоже окончили этот институт. Вопрос: насколько хорошей идеей окажется решиться окончить CIST, если желаешь стать уважаемым учёным? Иначе говоря, какова вероятность того, что, окончив CIST, попадаешь в то самое “некоторое количество”?

Интуиция становится для решающего задачу злейшим другом - известно, что на такую задачу большинство людей даёт неправильный ответ (см. эссе по ссылке). Легко предположить, что если 90% уважаемых учёных окончили CIST, то примерно столько же от окончивших CIST стали в итоге уважаемыми учёными. Однако такой подход в корне неверный, что легко заметить, если посчитать всё в конкретных числах.

Допустим, у нас есть 10000 учёных, и выдающаяся часть составляет ровно сотню. Тогда из уважаемых учёных мы имеем 90 человек, окончивших CIST, а из остальных - уже 990. Тогда из всех выпускников CIST мы имеем всего 90/(90+990) = 1/12 общего числа, кто достиг выдающихся успехов! Ни в какое сравнение с 90%, правда?

Теорема Байеса, помимо всего прочего, может послужить прекрасным инструментом для исправления подобных ошибок интуиции. Действительно, если мы возьмём её в виде

P(A|B) = P(B|A)*P(A)/(P(B|A)P(A) + P(B|~A)P(~A)),

то в результате вычислений получим тот же самый ответ:

P(A|B) = 0.9*0.01/(0.9*0.01+0.1*0.99) = 1/12.

Здесь мы использовали:

А - достижение выдающихся успехов;

В - наличие диплома CIST.

Однако часто крайне сложно считать любую мелочь в точных числах, тем более что конкретные вероятности обычно неизвестны: например, как вычислить вероятность того, что сосед сегодня придёт домой поздно, застряв в пробке? Поэтому система классов вероятности, которую я предлагал некоторое время назад (vk.com/almeriner?w=wall-195839302_179) может оказаться крайне полезной для оценок по Байесу. Для анализа стоит ввести не только сами классы, но и алгебру для них, основанную на их характерных величинах:

A ~ 0.98;

B ~ 0.82;

C ~ 0.5;

D ~ 0.18;

E ~ 0.02.

Оценочная таблица умножения и сложения классов:

A*M = M (М - произвольный класс, кроме E);

B*B = C;

B*C = C;

B*D = D;

C*C = D, C+C = A;

C*D = D, C+D = B;

D*D = E, D+D = C;

M*E = E, M+E = M.

В качестве примера оценки по Байесу рассмотрим всё ту же задачу с учёными и CIST (здесь и далее буквы А и В означают события с определённой вероятностью только в скобках после Р; иначе это классы вероятности):

P(A) -> E (вероятность быть выдающимся учёным достаточно низка);

P(B|A) -> B;

P(B|~A) -> D.

Тогда оценка по Байесу выглядит следующим образом:

P(A|B) = B*E/(B*E+D*A) = 1/(1+(D*A)/(B*E)) = 1/(1+D/E) = 1/(1+0.18/0.2) = 1/10.

Важной деталью, упрощающей работу с классами, является группировка всех величин классов в максимально компактные образования в формуле. Например, в примере вместо того, чтобы сразу умножать и подставлять значения, мы сначала поделили числитель и знаменатель на произведение В*Е. Делается это для того, чтобы максимально уменьшить работу с числами, а взамен пользоваться оценочной алгеброй умножения и деления классов. Таким образом, классы вероятности позволяют значительно упростить работу с теоремой Байеса, когда конкретное значение искомой вероятности не необходимо знать с высокой точностью - как мы увидели, оценка в нашем случае дала результат, достаточно близкий к реальному.

Попробуйте потренироваться в байесианском мышлении на бытовых ситуациях, которые встречаются вам в жизни - оценить классы вероятности очевидных величин и получить какую-нибудь неочевидную. А ещё настоятельно рекомендую ознакомиться с эссе по ссылке в начале этой заметки, тем более, если вы дочитали её до конца.

Источник: lesswrong.ru



		Наглядное объяснение теоремы Байеса
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2021-09-22 19:51 актуальная математика, теория вероятности КЛАССЫ ВЕРОЯТНОСТИ: ПРИЛОЖЕНИЕ Несколько дней назад я предложил вам тему для очередной заметки, и некоторое количество знаков разной степени ясности говорили в пользу того, что она вам интересна. Поэтому сегодня я вкратце опишу, что такое теорема Байеса, что может дать бытовому мышлению и какое отношение к ней имеют классы вероятности. Сразу оговорюсь, что во многом опираюсь на эссе Элиезера Юдковского, ссылка на которое приведена мною в шапке данной заметки - и, если после этой заметки вы всерьёз заинтересуетесь байесианским мышлением, настоятельно советую его прочитать. Наконец, о теореме Байеса. Это, в сущности, простая формула из теории вероятностей, которая связывает друг с другом разные вероятности - как "чистые” (как, например, вероятность того, что в колоде туз будет не на своём месте), так и условные (вероятность того, что туз будет не на месте при том условии, что колода была новой). Выглядит она так: P(A\|B) = P(B\|A)P(A)/P(B), где P(A) - априорная вероятность события А, а P(A\|B) - условная вероятность (вероятность А при условии того, что В произошло). Формула спокойно терпит самые разнообразные преобразования, как, например, замена делителя P(B) на его эквивалентное представление P(B) = P(B\|A)P(A) + P(B\|~A)P(~A), где как ~А обозначается событие “не А” вероятности 1 – P(A). Но в чём же её прелесть? Допустим, существует некоторое количество учёных - например, 1% из них - которые считаются самыми уважаемыми учёными на планете. Их авторитет неоспорим, заслуги великолепны, и 90% из них учились в некоем институте с названием CIST. Известно также, что 10% людей, которые не стали в итоге уважаемыми учёными, тоже окончили этот институт. Вопрос: насколько хорошей идеей окажется решиться окончить CIST, если желаешь стать уважаемым учёным? Иначе говоря, какова вероятность того, что, окончив CIST, попадаешь в то самое “некоторое количество”? Интуиция становится для решающего задачу злейшим другом - известно, что на такую задачу большинство людей даёт неправильный ответ (см. эссе по ссылке). Легко предположить, что если 90% уважаемых учёных окончили CIST, то примерно столько же от окончивших CIST стали в итоге уважаемыми учёными. Однако такой подход в корне неверный, что легко заметить, если посчитать всё в конкретных числах. Допустим, у нас есть 10000 учёных, и выдающаяся часть составляет ровно сотню. Тогда из уважаемых учёных мы имеем 90 человек, окончивших CIST, а из остальных - уже 990. Тогда из всех выпускников CIST мы имеем всего 90/(90+990) = 1/12 общего числа, кто достиг выдающихся успехов! Ни в какое сравнение с 90%, правда? Теорема Байеса, помимо всего прочего, может послужить прекрасным инструментом для исправления подобных ошибок интуиции. Действительно, если мы возьмём её в виде P(A\|B) = P(B\|A)P(A)/(P(B\|A)P(A) + P(B\|~A)P(~A)), то в результате вычислений получим тот же самый ответ: P(A\|B) = 0.90.01/(0.90.01+0.10.99) = 1/12. Здесь мы использовали: А - достижение выдающихся успехов; В - наличие диплома CIST. Однако часто крайне сложно считать любую мелочь в точных числах, тем более что конкретные вероятности обычно неизвестны: например, как вычислить вероятность того, что сосед сегодня придёт домой поздно, застряв в пробке? Поэтому система классов вероятности, которую я предлагал некоторое время назад (vk.com/almeriner?w=wall-195839302_179) может оказаться крайне полезной для оценок по Байесу. Для анализа стоит ввести не только сами классы, но и алгебру для них, основанную на их характерных величинах: A ~ 0.98; B ~ 0.82; C ~ 0.5; D ~ 0.18; E ~ 0.02. Оценочная таблица умножения и сложения классов: AM = M (М - произвольный класс, кроме E); BB = C; BC = C; BD = D; CC = D, C+C = A; CD = D, C+D = B; DD = E, D+D = C; ME = E, M+E = M. В качестве примера оценки по Байесу рассмотрим всё ту же задачу с учёными и CIST (здесь и далее буквы А и В означают события с определённой вероятностью только в скобках после Р; иначе это классы вероятности): P(A) -> E (вероятность быть выдающимся учёным достаточно низка); P(B\|A) -> B; P(B\|~A) -> D. Тогда оценка по Байесу выглядит следующим образом: P(A\|B) = BE/(BE+DA) = 1/(1+(DA)/(BE)) = 1/(1+D/E) = 1/(1+0.18/0.2) = 1/10. Важной деталью, упрощающей работу с классами, является группировка всех величин классов в максимально компактные образования в формуле. Например, в примере вместо того, чтобы сразу умножать и подставлять значения, мы сначала поделили числитель и знаменатель на произведение В*Е. Делается это для того, чтобы максимально уменьшить работу с числами, а взамен пользоваться оценочной алгеброй умножения и деления классов. Таким образом, классы вероятности позволяют значительно упростить работу с теоремой Байеса, когда конкретное значение искомой вероятности не необходимо знать с высокой точностью - как мы увидели, оценка в нашем случае дала результат, достаточно близкий к реальному. Попробуйте потренироваться в байесианском мышлении на бытовых ситуациях, которые встречаются вам в жизни - оценить классы вероятности очевидных величин и получить какую-нибудь неочевидную. А ещё настоятельно рекомендую ознакомиться с эссе по ссылке в начале этой заметки, тем более, если вы дочитали её до конца. Источник: lesswrong.ru Комментарии:

Наглядное объяснение теоремы Байеса

Комментарии: