Простые и малоизвестные способы вероятностных оценок

2021-02-18 21:00

теория вероятности, актуальная математика

Раз уж я начал серию про простые и малоизвестные способы вероятностных оценок, нельзя не рассказать про ещё одну простую, важную, но незаслуженно обделённую вниманием формулу: M[P(X)] = (m + 1)/(n + 2).

Преамбула: мы привыкли оценивать вероятность наступления некоторого события X, приравнивая её к относительной частоте наступления этого же события в прошлом: например, если вы, 100 раз подходя к пешеходному переходу напротив своей остановки, 40 раз встречали зелёный сигнал светофора, то можно заключить, что вероятность в следующий раз вновь прийти как раз к зелёному сигналу (в тех же условиях, разумеется) близка к 40%: P(X) ? f(X) = m/n = 40/100 = 0,4 = 40%.

Вроде бы всё в порядке: через закон больших чисел вероятность события как раз и определяется как предел, к которому стремится его относительная частота при стремлении числа испытаний к бесконечности.

Однако есть один подвох: в реальности число прошлых испытаний никогда не бесконечно (более того, порой про него даже нельзя сказать, что оно "достаточно велико"). И тогда слишком маловероятное событие легко может не произойти ни разу за некоторое количество испытаний (особенно небольшое).

В таком случае относительная частота наступления этого события равна нулю, но как нам оценить его вероятность, если мы знаем, что она точно ненулевая?

Ведь светофор из примера выше может в какой-то момент сломаться, такое событие однозначно не является невозможным, но формула P(X) ? f(X) = m/n в данном случае нас подводит, так как f(X) = 0/100 = 0, а P(X) строго больше нуля.

И вот тут-то и нужна более общая и более правильная формула:

! Математическое ожидание вероятности наступления события, которое в прошлом произошло m раз в серии из n испытаний, равняется (m + 1)/(n + 2) [важное уточнение: только в случае, если нет никаких теоретических соображений, позволяющих обоснованно усомниться в этой оценке и уточнить её].

Формула полезна на практике в двух случаях:

1. Когда необходимо дать адекватную оценку риска возникновения некоторого нежелательного события, которое до сих пор, к счастью, не происходило ещё ни разу за n случаев или происходило, но крайне редко (единичные случаи).

Пример №1: вы работаете из дома за одним и тем же компьютером в течение двух лет с графиком 5/2 и месячным отпуском, и пока что он вас ни разу за примерно 478 рабочих дней не подводил (blue screen of death не вылетает, монитор не гаснет, ничего не висит).

На следующей неделе вам предстоит ряд ежедневных очень важных коллективных рабочих процессов, и любой аппаратный или программный сбой с вашей стороны грозит ощутимыми негативными последствиями для компании.

Ожидаемая вероятность того, что с компьютером может случиться что-то нехорошее и непредвиденное в один из этих пяти дней, равна (0 + 1)/(478 + 2) = 1/480 ? 0,2083% (а вовсе не 0, как можно было бы небрежно подумать), а ожидаемая вероятность того, что это нехорошее непредвиденное случится как минимум один раз за 5 дней, равна уже 1 - (479/480)^5 ? 1,037%.

Мы получили вполне реалистичную оценку риска, который до этих нехитрых расчётов казался вообще не оценимым количественно - теперь можно думать, устраивает ли вас такой риск, или даже, умножив его на ожидаемую величину потенциальных убытков и посмотрев на результат, решить, а не нужно ли на ближайшие 5 дней на всякий случай одолжить у кого-нибудь запасной ноутбук.

Пример №2: ученик средней школы с шестидневной рабочей неделей, впервые оставшись дома один на время двухнедельного отпуска родителей (этакий дядя Фёдор), обедал и ужинал у бабушки, а спал дома один, и один раз проспал на учёбу.

Через месяц родителям придётся вместе уехать в командировку на неделю.

Ожидаемая вероятность того, что школьник проспит в какой-нибудь из 6 дней, составляет (1 + 1)/(12 + 2) = 2/14 = 1/7 ? 14,286%, тогда ожидаемый шанс того, что он не проспит ни разу, равен всего лишь (6/7)^6 ? 39,657%.

Для сравнения - наивные оценки, получаемые из допущения P(X) ? f(X), составляют для этого примера 1/12 ? 8,333% и (11/12)^6 ? 59,329% соответственно, то есть обсуждаемая формула меняет ожидания с "скорее всего, не проспит ни разу" на "скорее всего, хотя бы раз да проспит".

2. Когда необходимо корректно экстраполировать данные, полученные на небольшой выборке, на более объёмную, но пока не известную либо недоступную для исследования. Формула в таком случае умножается на объём новой выборки N.

Пример №1. Вы - владелец круглосуточного ресторана экзотической кухни, в котором обслуживают около 50 человек за сутки. В течение первого месяца работы (допустим, марта) произошёл инцидент - аллергическая реакция на какой-то продукт. Всё обошлось благополучно, но с 1 апреля вы расширяете коллектив и занимаемую площадь и собираетесь принимать по 100 клиентов в сутки, и хотите спрогнозировать, сколько примерно подобных случаев стоит ожидать, скажем, до конца календарного года.

Пожалуйста: ((1 + 1)/(50*31 + 2)) * 100 клиентов/сутки * 275 суток ? 35-36 случаев (в среднем по 4 в месяц), в то время как наивная оценка составила бы 17-18 случаев.

Вполне возможно, что такие данные повлияют на принимаемые решения.

Пример №2. Вы в команде ихтиологов, приехавших на берег огромного озера изучать местных карповых, популяция которых там оценивается в десять тысяч особей [кстати, способ, которым можно это посчитать, также упоминается в книге Дугласа Хаббарда и достоин отдельного поста].

Среди выловленных вами 50 условных карповых попалась парочка представителей довольно редкого вида. Требуется оценить их количество во всём озере.

Вместо наивного (2/50)*10000 = 400 получаем более корректную оценку ((2 + 1)/(50 + 2))*10000 ? 577. Разница впечатляет, не так ли? Особенно если от размера популяции зависит, смогут ли редкие карпы самостоятельно размножиться и процветать, или вымрут.

_________________________________________________________________________________

P.S. Эту формулу я впервые встретил в учебнике, как ни странно, по организации здравоохранения, и больше пока не видел нигде, в том числе и в курсе статистики в университете.

При первом прочтении я в ней усомнился, так как было совершенно непонятно, откуда она взялась и почему выглядит именно так, однако потом, когда в размышлениях над какой-то задачей я вывел её самостоятельно и получил такой же ответ, восхитился её простотой и красотой: вывод этой формулы de facto представляет собой аналог формулы Байеса для случая бесконечного числа гипотез, причём в процессе вычислений выражения с определёнными интегралами и биномиальными коэффициентами элегантно сворачиваются в короткую и понятную простую дробь.

P.P.S. Относительная ошибка, которую мы получаем, заменяя матожидание неизвестной вероятности M[P] = (m + 1)/(n + 2) на относительную частоту f = m/n, составляет (2f - 1)/(f*n + 1).

Отсюда видно, что, во-первых, эта ошибка уменьшается с ростом размера выборки, а во-вторых, ошибка равна нулю при относительной частоте, равной 50%, и стремится к максимумам (по модулю) для крайне частых или крайне редких событий, причём вероятность первых немного переоценивается, а вторых - очень сильно недооценивается. Поэтому если событие не случается практически никогда, то насколько бы большой ни была выборка, добавляйте единицу к числителю и двойку к знаменателю - сложности никакой, а точность прогноза растёт, и порой весьма значительно.

Источник: vk.com

Простые и малоизвестные способы вероятностных оценок

Комментарии: