[Прелесть математики] Теорема Байеса

2020-11-22 16:28

актуальная математика, теория вероятности

Известно, что теорема Байеса, выведенная 150 лет назад английским священником, использовалась для взлома кода нацистских машин во время Великой Отечественной, а теперь помогает ученым в науке, технологиях и медицине. Как эта теорема работает? И почему ее важно знать, дабы не прийти к ложным выводам?

Все статьи из цикла "В чем прелесть предмета" Другие статьи из цикла "В чем прелесть математики":
Визуальные доказательства

Благодаря ей был дешифрован шифр “Энигмы”, благодаря ей работает ваш спам-фильтр, благодаря ей искусственный интеллект может диагностировать диабет. Теорема Байеса – не просто математические символы, которые позволяют нам что-то высчитывать. Теорема Байеса – это записанная в одну строчку философия принятия решений, которой придерживается человечество.

Знакомство с Дариной

Для начала познакомимся с Дариной. Дарина живёт в Америке. Она спокойная, любит проводить время с собой и тишину. Кем, по-вашему, работает Дарина: медсестрой или библиотекарем?

Скажем, (80\%) библиотекарей спокойные и любят тишину прямо как Дарина. А сколько таких среди медсестёр? Скажем, (10\%). Или это много? Тогда пусть будет (5\%). (5\%) медсестёр спокойные, любят проводить время с собой и тишину. Ну тогда всё очевидно! (80\%) против (5\%). Скорее всего Дарина работает библиотекарем.

А вот не совсем!

В Америке медсестёр намного больше, чем библиотекарей, примерно в (30) раз. Для простоты скажем, что в Америке (100) библиотекарей и (3000) медсестёр. Точные числа не так важны, важно лишь их отношение.

Известно, что (80%) библиотекарей подходят под описание самой Дарины. А раз (100cdot 0.80=80), то Дарина может оказаться одной из этих восьмидесяти библиотекарей. Также мы сказали, что среди медсестёр (5\%) имеют схожие с Дариной качества (3000cdot 0.05=150), значит Дарина может быть либо одной из (80) библиотекарей, либо одной из (150) медсестёр.

Таким образом, (frac{80}{80+150}approx 35\%) — вероятность, что Дарина библиотекарь, а (frac{150}{80+150}approx 65\%) — вероятность, что Дарина медсестра.

Байес в жизни и плоская Земля

Так, хорошо. А где же философия принятия решений? На самом деле, обновлять вероятность пребывания Дарины библиотекарем можно бесконечно: учесть процентные соотношения женщин и мужчин в рассматриваемых профессиях, учесть расу, возраст и многое другое. Можно обновлять нашу уверенность в чём-то вновь и вновь. Именно эта идея лежит в сердце теоремы Байеса. Это бесконечное переплетение предположений и новых фактов, которые приводят к выводам.

Давайте познакомимся поближе с математической записью теоремы Байеса:
??[P(A | B)= frac{P(B | A)cdot P(A)}{P(B)}]??
(A) и (B) – это ситуации, некоторые события. ??Знак «|» можно читать как «зная» или «при условии». Таким образом, (P(A | B)) читается как «вероятность события (А), зная, что (B)» или «вероятность (А) при условии, что (B) произошло»??.

В жизни человек применяет теорему Байеса в такой форме:

[P(Гипотеза | Наблюдение)= frac{P(Наблюдение | Гипотеза)cdot P(Гипотеза)}{P(Наблюдение)}]??

Перед тем, как разобрать эту запись теоремы Байеса, давайте взглянем на неё под другим углом.
[P(Гипотеза | Наблюдение)= frac{P(Наблюдение | Гипотеза)}{P(Наблюдение)}cdot P(Гипотеза)]

Теорема Байеса связывает (P(Гипотеза)) и (P(Гипотеза | Наблюдение)) – “изначальную”(априорную) и “обновлённую”(апостериорную) вероятности. Сначала существует некая уверенность в какой-то гипотезе, затем эту гипотезу тестируют. После тестирования новые экспериментальные данные обновляют эту уверенность. Коэффициентом пропорциональности между “изначальной” и “обновлённой” вероятностями выступает (frac{P(Наблюдение | Гипотеза)}{P(Наблюдение)}).

Давайте представим ситуацию из жизни:

Вы верите, что Земля круглая. Однажды решив это подтвердить, вы вышли на улицу искать шарообразность и кривизну. Обойдя кучу мест, выехав даже в широкое поле, кривизны вы так и не заметили – вокруг всё плоское.

Итак, у вас была “изначальная” вероятность, что Земля круглая ((P(Земля: круглая))). Затем, пронаблюдав, что всё вокруг плоское, вы хотите оценить “обновлённую” вероятность, что Земля круглая ((P(Земля:круглая | Всё: плоское)). Ход мыслей:
1) Я всё обошёл, но везде всё плоское.
2) Если бы Земля была круглой, была бы кривизна.
Вывод: видимо, Земля не круглая, вопреки прошлым убеждениям.

Вот так в голове происходит обновление уверенности в теории после получения новой информации. Переведём слова на язык математики:

Вы верите, что Земля круглая = (P(Земля: круглая) = 1)
Вы всё обошли, но везде всё плоское = (P(Окрестности: плоские) = 1)
Если бы Земля была круглой, была бы кривизна, и вы бы это заметили = (P(Окрестности: плоские | Земля: круглая) = 0.01), то есть вероятность того, что всё вокруг будет плоским, если Земля круглая, очень мала

Подставим всё в теорему Байеса и найдём “обновлённую” вероятность:

[P(Земля: круглая | Окрестности: плоские)=] [=frac{P(Окрестности: плоские | Земля: круглая)}{P(Окрестности: плоские)}cdot P(Земля: круглая) = frac{0.01}{1}cdot 1 = 0.01]

Конечно, Земля круглая, и можно сделать много других наблюдений, доказывающих это, но благодаря этому примеру мы увидели, как повседневные мыслительные процессы подчиняются теореме Байеса.

Библиотекари, медсёстры и “тихие”

Теперь вернёмся к Дарине и найдём вероятность, что она работает библиотекарем, всё так же используя теорему Байеса. Что мы знаем про Дарину??? Дарина работает библиотекарем — «Библиотекарь».? Дарина спокойная, любит проводить время с собой и тишину — «Тихая». Мы хотим найти (P(Библиотекарь | Тихая)) — вероятность, что Дарина библиотекарь при условии, что она тихая.?? Чтобы визуально представить это, сохраним отношение библиотекарей к медсёстрам и скажем, что первых всего (10) человек, а вторых – (300).

Сначала выделим зеленым и оранжевым цветами всех, кто попадает под условие «Тихая».?? Вспомним, что среди библиотекарей тихих (80) процентов, то есть (8) человек из (10). Среди медсестёр (5) процентов тихих, то есть (15) человек из (300).

Таким образом, мы имеем (8 + 15) тихих людей — условие «тихости» выполнено. Теперь нужно найти вероятность, что Дарина библиотекарь. Для этого поделим количество библиотекарей среди тихих на общее количество тихих людей.[P(Библиотекарь | Тихая) = frac{8}{8 + 15} approx 35\%]Интуитивно мы разобрались с процессом, и настало время узнать, какая математика скрывается за этими библиотекарями и медсёстрами. Что есть эти (8) и (15)???

Новое "и"

Из школы

Для начала разберёмся с событиями, происходящими вместе, то есть с событиями «и»-типа. В школе учили, что если мы видим «и» между событиями, то нужно перемножить вероятности этих событий, чтобы получить вероятность их одновременного свершения. ??Например, какова вероятность, что выпадут два орла подряд при подбрасывании монетки? Легко! Вероятность выпадения орла в первый раз умножаем на вероятность выпадения орла во второй: ??(frac{1}{2} cdot frac{1}{2} = frac{1}{4})??.

Как оказалось, нельзя всегда так просто ставить знак умножения между двумя вероятностями — нужно быть предельно аккуратным. ??К примеру, вероятность, что пойдёт дождь равна (10\%), а вероятность надеть пальто прямо перед выходом — (20\%). Подметим, что во время дождя вы обычно надеваете пальто. Какова вероятность, что вы наденете пальто, когда на улице идет дождь?

Очевидно, не (0.1cdot 0.2=0.02). Иначе получается, что одновременно вы надели пальто и идёт дождь в (2) днях из (100), а вообще дождь идёт в (10) днях из (100). Получается, (8) из (10) дней, когда идёт дождь, вы ходите без пальто. Что-то не сходится.??

Зависимые события

Но что пошло не так? В примере с дождём события зависимые. Если есть дождь, скорее всего есть и пальто. Пришло время познакомиться с новой формулой для «и»-событий:?? [P(A cap B) = P(A)cdot P(B | A) ag{$1$}]??Здесь запись (P(Acap B)) означает вероятность, что произошли оба события (A) и (B). Прелесть этой формулы заключается в том, что она еще более логична и интуитивно понятна, чем простое перемножение вероятностей. ??

Понимать можно так. События (A) и (B) происходят вместе в том случае, если:

Происходит событие (A)
Происходит событие (B) с учётом, что (A) произошло

Для простоты можно считать, будто события (A) и (B) происходят одно за другим: сначала происходит (A) (вероятность чего (P(A))), а затем происходит (B), вероятность которого обозначаем как (P(B | A)).?? Думать о событиях как о происходящих одно за другим помогает понять формулу, но на деле порядок свершения событий не важен.

Дождь и пальто, орёл и решка

Давайте пересчитаем вероятность дождя и ношения пальто, чтобы закрепить. Добавим условие: если идёт дождь, вы надеваете пальто в (90\%) случаев, то есть (P(Пальто | Дождь)=0.9)[P(Дождь cap Пальто)=][=P(Дождь)cdot P(Пальто | Дождь)=0.1cdot 0.9=0.09]Так-то лучше! Каждые (10) из (100) дней льёт дождь, а каждые (9) из (100) дней льёт дождь и вы носите пальто. (9) из (10) — (90\%). Всё сходится!??

Если вам интересно, что тогда делать с монетками и орлами, то вот ответ: каждое подбрасывание монетки не зависит от предыдущего. На математическом языке это означает ??[P(Орёл второй | Орёл первый) = P(Орёл второй)]??Другими словами, вероятность того, что во второй раз выпадает орёл при условии, что в первый раз выпал орёл, просто равна вероятности, что во второй раз выпал орёл. Это работает так, потому что первый орёл никак не влияет на исход второго подбрасывания. Каждое подбрасывание монетки – независимое событие.?? Таким образом,?? [P(Орёл первый cap Орёл второй)=][=P(Орёл первый)cdot P(Орёл второй | Орёл первый)=][=P(Орёл первый)cdot P(Орёл второй)]??это старое доброе правило «и».

Предоставленная формула ((1)) для высчитывания вероятности происхождения двух событий была не строго выведена из здравого смысла, а определена математиками. Это как с определениями слов в словаре, только у математиков вместо слов формулы.

P.S. Кто-то даже считает формулу ((1)) аксиомой теории вероятности!

Условная вероятность и доказательство теоремы Байеса

Определение условной вероятности:??[P(A | B)=frac{P(A cap B)}{P(B)}] Отсюда и взялась формула ((1)), нужно только перекинуть (P(B)) влево. Теперь используем ту же формулу, но переставим местами (A) и (B):??[P(B | A)=frac{P(Acap B)}{P(A)}]?Выразим из обоих равенств (P(Acap B)):[P(Acap B)=P(A | B)cdot P(B)][P(Acap B)=P(B | A)cdot P(A)]Отсюда, приравняв (P(Acap B)), получим[P(A | B)cdot P(B)=P(B | A)cdot P(A) implies P(A | B)=frac{P(B | A)cdot P(A)}{P(B)}]

Библиотекари, медсёстры, “тихие” и теорема Байеса

Вернёмся к (frac{8}{8 + 15}).?? Здесь (8) – это количество тихих библиотекарей. Количество тихих библиотекарей – это количество всех людей, умноженное на вероятность пребывания тихим библиотекарем. Воспользуемся новым правилом «и»: [8 =310cdot P(Библиотекарь)cdot P(Тихая | Библиотекарь)]??В свою очередь, (15) это количество тихих людей, не являющихся библиотекарями. «Не» в математике записывается как ( eg). (Не библиотекарь = eg Библиотекарь). Количество тихих людей, не являющихся библиотекарями, равно количеству всех людей, умноженному на вероятность пребывания тихим не-библиотекарем.??

Таким образом, [15 = 310 cdot P( eg Библиотекарь)cdot P(Тихая | eg Библиотекарь)]??Подставим всё это в (frac{8}{8+15}) и получим???? [frac{310cdot P(Б)cdot P(Т | Б)}{310cdot P(Б)cdot P(Т | Б) + 310cdot P( eg Б)cdot P(Т | eg Б)}]Сократим (310):??[frac{P(Б)cdot P(Т | Б)}{P(Б)cdot P(Т | Б) + P( eg Б)cdot P(Т | egБ)}]
* "Библиотекарь" = Б, "Тихая" = Т.

Удобно изобразить все графически. В первой картинке площадь синего прямоугольника обозначает вероятность, что Дарина работает библиотекарем – (P(Б)), а площадь красного прямоугольника обозначает вероятность, что Дарина не библиотекарь – (P( eg Б)). Во второй картинке зеленым мы выделили вероятность, что Дарина тихий библиотекарь – (P(Б)cdot P(T | Б)), а оранжевым – вероятность, что Дарина тихий не библиотекарь (P( eg Б)cdot P(Т | eg Б)). Тогда вероятность, что Дарина библиотекарь, зная, что она тихая, будет как раз то, что мы написали сверху.

Последний штрих: заметим, что знаменатель гласит «вероятность, что Дарина тихая и библиотекарь или что она тихая и не библиотекарь». Это просто равно вероятности того, что она тихая. В итоге мы получаем ??[frac{8}{8+15} = P(Библиотекарь | Тихая) = frac{P(Т | Б)cdot P(Б)}{P(Т)}]А это, если приглядеться, и есть теорема Байеса ??[P(A | B)= frac{P(B | A)cdot P(A)}{P(B)}]Сегодня теорема Байеса присутствует везде: и в вычислениях учёных, и в наших головах. Но сам Томас Байес не ожидал такой славы. На деле, он вообще не возлагал на неё никаких надежд. Теорема Байеса пылилась более десяти лет среди других работ британского математика и была обнаружена только после его смерти, когда семья попросила знакомого посмотреть, нет ли в записях Байеса ничего достойного публикации. Таким образом священник и математик Томас Байес, сам того не осознавая, положил начало современной философии теории вероятности.

Кто знает, может и у вас в голове таится какая-то революционная мысль, которую вы не замечаете. Может и у вас есть шанс каким-то маленьким открытием запустить цепочку событий, которая определит будущее человечества.

Применение и задачи

Осталось научиться применять эту теорему. Она полезна, когда вы имеете дело со странными условными вероятностями. Например, “вероятность того, что вы в пальто, если идёт дождь” — интуитивно понятная вещь. Но “вероятность, что идёт дождь, если вы в пальто” — уже не очень. ??

Давайте как раз это и вычислим. Вспомним условия: (P(Дождь)=0.1), (P(Пальто)=0.2), (P(Пальто | Дождь)=0.9)??

По теореме Байеса, [P(Дождь | Пальто)=frac{P(Пальто | Дождь)cdot P(Дождь)}{P(Пальто)}=][=frac{0.9cdot 0.1}{0.2}=0.45]

Задача о гене гениальности

Предположим, учёные выяснили, что ген гениальности существует и есть он у (0.1\%) населения Земли. Чтобы искать гениев, те же учёные изобрели тест, показывающий наличие или отсутствие гена гениальности. Точность этого теста — (99\%). Вы решили из интереса провериться и отдали биоматериал на исследование. Вскоре вам звонят и сообщают, что тест показал, что вы носитель гена гениальности. С какой вероятностью он у вас есть? ??

Решение

На первый взгляд суть вопроса может быть вообще непонятна. Что значит "с какой вероятностью"? Там же написано, что (99\%). ??Что ж, давайте считать.??

Пусть ??(P(Гений)) — вероятность наличия гена гениальности. ????(P(Положительный | Гений)) — вероятность положительного результата теста при условии, что у вас есть ген гениальности.?? ??(P(Положительный)) — вероятность того, что результат теста положительный.

Всё это мы используем в формуле [P(Гений | Положительный)=frac{P(Положительный | Гений)cdot P(Гений)}{P(Положительный)}] и найдём ответ на вопрос нашей задачи.??

Начнём с нахождения (P(Гений)), (P(Положительный | Гений)), (P(Положительный)).??

(P(Гений)=0.001), так как ген гениальности встречается с вероятностью (0.1\%) — у каждого тысячного человека. (P(Положительный | Гений)=0.99), так как точность теста (99\%).?? C (P(Положительный)) чуть сложнее. Сначала нужно расписать эту вероятность как сумму. Тест может показать “+”, когда он правильно определяет наличие гена в (99\%) случаев и когда он ошибается в (1\%) случаев, выдавая ложный положительный результат. Снова, чтобы уместить все в строку заменим "Положительный" на "П", а "Гений" на "Г". Учитывая вышеуказанные выводы, получим: [P(П)=P(Пcap Г) + P(Пcap eg Г)=P(Г)cdot P(П | Г)+P( eg Г)cdot P(П | eg Г)]А последнее выражение посчитать мы можем. (P(Г)=0.001), так как каждый тысячный человек – гений. (P( eg Г)=0.999), так как все остальные (999) человек из тысячи не гении. (P(П | Гений)=99\%), так как это точность теста. (P(П | eg Г)=1\%), так как это вероятность, что тест ошибётся??.

Подставим:[P(Положительный)=0.001cdot 0.99 + 0.999cdot 0.01=0.01098??]Теперь можно и всё подставлять в основную формулу![P(Г | П)=frac{P(П | Г)cdot P(Г)}{P(П)}=frac{0.99cdot 0.001}{0.01098}approx 0.09016%]Следовательно, если тест выдал положительный результат, то вы являетесь гением с вероятностью (9\%)!??

Но почему так? Тест ведь (99)-процентный! Может теорема Байеса не работает???

Давайте поймем на уровне интуиции, почему всё-таки (9\%). Вспомним, что гением является лишь один человек из тысячи. Пусть учёные взяли биоматериал у каждого из этой тысячи и провели тесты. Так как точность теста лишь (99\%), (1\%) людей получили неправильный результат. Грубо говоря, (1000cdot 0.01=10) человек получили положительный результат, не являясь гениями. Если прибавить к ним настоящего гения, получится (11) человек. И лишь один среди них будет гением. Так и получается примерно (9\%). ??

Надо заметить, что здесь всё не так просто: тест мог бы и не выявить гения из-за возможности ошибки. В объяснении учтены не все варианты, но оно выполняет свою работу, давая интуицию.??

Продолжение

Вы уверены в своей гениальности и решили снова сдать тот же тест. Какова вероятность, что вы гений, если во второй раз результат тоже положительный???

Задача о машинках и инспекторе

На заводе производятся игрушечные машинки. (10\%) из них оказываются бракованными. Инспектор, который отвечает за проверку машинок на наличие брака, проверяет их выборочно. Через него проходят (60\%) бракованных и (20\%) исправных машинок. Какова вероятность, что выбранная инспектором машинка окажется бракованной???

Решение

(P(Брак)) - вероятность того, что машинка бракованная.?? По условию, (P(Брак)=10\%)

(P(Тест)) – вероятность того, что инспектор выберет конкретную машинку.

Так сразу (P(Тест)) из условия мы взять не можем, но зато у нас есть (P(Тест | Брак)) и (P(Тест | egБрак)) – вероятности, что бракованная и не бракованная машинки попадут к инспектору.

(P(Тест | Брак) = 60\%)??

(P(Тест | egБрак) = 20\%)??

Мы извлекли из условия все полезные данные, теперь поймём, что нужно найти. Вероятность того, что выбранная машинка окажется бракованной, на математическом языке означает (P(Брак | Тест))

По теореме Байеса

[P(Брак | Тест) = frac{P(Тест | Брак)cdot P(Брак)}{P(Тест)}]

(P(Тест | Брак)) и (P(Брак)) у нас есть, а (P(Тест)) придётся найти. Так как события (Брак) и ( egБрак) взаимоисключающие, [P(Тест) = P(Тест cap Брак) + P(Тест cap egБрак)]

На русском это означает, что вероятность выбора машинки для инспекции равна сумме двух вероятностей: машинка выбрана и бракована, машинка выбрана и не бракована.

Из определения условной вероятности,

[P(Тест cap Брак) = P(Тест | Брак)cdot P(Брак)][P(Тест cap egБрак) = P(Тест | egБрак)cdot P( egБрак)]

Следовательно,

[P(Тест) = P(Тест | Брак)cdot P(Брак) + P(Тест | egБрак)cdot P( egБрак)]

Подставив это в теорему Байеса, получим:

[P(Брак | Тест) = frac{P(Тест | Брак)cdot P(Брак)}{P(Тест | Брак)cdot P(Брак) + P(Тест | egБрак)cdot P( egБрак)}]

Подставим все значения:

[P(Брак | Тест) = frac{0.6cdot 0.1}{0.6cdot 0.1 + 0.2cdot 0.9} = frac{0.06}{0.06 + 0.18} = 0.25]

Задача о красоте картин

Андрей, Борис и Влад написали картины для школьной ярмарки. Они написали разное их количество и имеют разные уровни профессионализма:

Андрей написал (5) картин, (80\%) его картин красивые.

Борис написал (15), (60\%) его картин красивые.

Влад написал (10), (30\%) его картин красивые.

Какова вероятность, что выбранная красивая картина была написана Борисом?

Решение

Из условия:

(P(Красивая | Андрей) = 0.8) – вероятность, что выбранная картина Андрея красивая. Аналогично, (P(Красивая | Борис) = 0.6) и (P(Красивая | Влад) = 0.3)

Найти: (P(Борис | Красивая))

По теореме Байеса [P(Борис | Красивая) = frac{P(Красивая | Борис)cdot P(Борис)}{P(Красивая)}]

Найдём (P(Борис)) и (P(Красивая)):

Всего у нас (5 + 15 + 10 = 30) картин, 15 из которых написал Борис, поэтому [P(Борис) = frac{Написанные Борисом}{Всего картин} = frac{15}{30} = 0.5]

Красивых картин у нас (5cdot0.8 + 15cdot0.6 + 10cdot0.3 = 4 + 9 + 3 = 16). Значит (P(Красивая)=frac{Красивые картины}{Всего картин} = frac{16}{30} = frac{8}{15} = 0.5(3))

Подставим:

[P(Борис | Красивая) = frac{P(Красивая | Борис)cdot P(Борис)}{P(Красивая)} = frac{0.6cdot 0.5}{0.5(3)}=0.562]

Фонд «Beyond Curriculum» публикует цикл материалов «В чем прелесть предмета» в партнерстве с проектом «Караван знаний» при поддержке компании «Шеврон». Караван знаний – инициатива по исследованию и обсуждению передовых образовательных практик с участием ведущих казахстанских и международных экспертов.

Редактор статьи: Дарина Мухамеджанова

Источник: blog.beyondcurriculum.kz

[Прелесть математики] Теорема Байеса

Комментарии: