Иллюзия 95%: гайд по самой частой элементарной ошибке в Data Science |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-12-11 16:50 В математической статистике, чтобы оценить значение какого-то параметра случайного процесса (или, например, истинного значения физического параметра, измеряемого с погрешностью), анализируют конечную выборку значений. Эта выборка всегда случайная, поэтому точно оценить параметр нельзя, а значит нужно оценивать с помощью интервалов. На этом же основана статистическая обработка результатов научных экспериментов. Но что означают эти интервалы? Об этом и поговорим. Представьте классическую ситуацию. Вы — аналитик. Вы только что провели A/B-тест или оценили средний чек. Ваш скрипт на Python выдал результат: Вы приходите к продакт-менеджеру и уверенно говорите:
Менеджер доволен, вы довольны. Все звучит логично. Но у меня для вас новости. В этом утверждении вы допустили фундаментальную ошибку. Если бы в комнате сидел настоящий математик, он бы начал кричать:
Вы бы подумали, что он сумасшедший. Но самое смешное (и страшное) в том, что он прав. Это самая распространенная и устойчивая когнитивная ошибка в Data Science. Она встречается в курсовых, в учебниках и даже в документациях библиотек. Здесь мы напишем симуляцию на Python, увидим, как «прыгают» интервалы, поймем, как тут могут помочь пластмассовые игрушки советских детей, и узнаем, как же тогда математически точно отвечать менеджерам на их вопросы, чтобы они перестали с вами разговаривать. Добро пожаловать в кроличью нору частотной статистики. 1. Тест на интуицию Давайте проверим вашу интуицию на прочность. Забудьте сложные формулы, включите здравый смысл. Дано: Мы провели эксперимент и получили 95% доверительный интервал: Вопрос: Какова вероятность того, что истинное среднее значение находится внутри этого отрезка? Выберите вариант:
Нажмите, чтобы узнать правильный ответПравильный ответ: 3 (0 или 1). Если вы выбрали вариант 1, поздравляю — вы попали в самую массовую ловушку интерпретации данных. Вы приписали вероятность факту, который уже свершился. В чем подвох? Когда мы говорим «вероятность 95%», наш мозг рисует такую картину: границы интервала — это твердые стены, а истинный параметр — это «призрачный шарик», который случайно болтается где-то посередине. Но классическая (частотная) статистика видит мир иначе:
Поскольку вы уже получили числа (5 и 10), рамка нарисована. Гвоздь (истина) либо попал внутрь рамки, либо нет.
Третьего не дано. Гвоздь не может быть «на 95% внутри рамки». 2. Бог не играет в кости (а мы играем) В мире частотной статистики действует жесткое правило: истина одна и она неизменна. Представьте, что мы хотим узнать истинный рост всех людей на Земле. Это число существует. Если бы мы могли остановить время и измерить всех, мы бы получили конкретное число, скажем, Откуда тогда берется 95%? Если камень неподвижен, что тогда движется? Движемся мы. Мы не можем измерить всех, поэтому берем выборку.
Доверительный интервал — это не твердая коробка, в которую мы ловим дрожащий атом истины. Всё ровно наоборот. Истинное значение параметра — это неподвижный атом. А доверительный интервал — это дрожащая коробка, которую мы пытаемся на него накинуть. Давайте увидим это своими глазами. Напишем симуляцию, где истинное математическое ожидание стоит на месте, а мы 10 раз пытаемся её «поймать». Результат: ИСТИНА (скрытая от нас): 100 Exp # | Нижняя | Верхняя | Поймали? 1 | 96.96 | 106.52 | ? ДА Вы видите, что в большинстве случаев мы ловим истину. Но обратите внимание на неудачные попытки (например, Exp #5, зависит от запуска). Там интервал может быть 3. Визуализация проблемы: лес зелёных и красных линий Чтобы окончательно разрушить иллюзию, давайте проведем масштабную симуляцию. Мы запустим 100 независимых исследователей. Каждый построит свой интервал.
Что мы видим на графике? Вы видите много зеленых линий и несколько красных. А теперь представьте, что вы — исследователь, которому досталась красная линия. Вы не видите черную вертикальную черту (Истину). Вы видите только свой красный отрезок. Вы говорите: «Истина внутри с вероятностью 95%». Главный вывод: Если мы будем бесконечно долго рисовать такие линии, то 95% из них будут зелеными. Но как только вы провели свой единственный эксперимент, магия вероятности исчезает. Вы держите в руках либо «победу», либо «промах». И вы никогда не узнаете, что именно. 4. Лучшая аналогия: кольцеброс Почему наш мозг так сопротивляется этой логике? Потому что мы используем неверную ментальную модель «Стрельба по мишени», где мишень (интервал) висит на стене, а природа стреляет в неё истинным значением параметра. Правильная модель — кольцеброс, детская игрушка родом из СССР.
Что означает «95%»? Это ваша меткость. Когда кольцо уже упало (интервал посчитан), оно либо на колышке, либо в траве. Вероятность схлопнулась в факт. Но вы можете доверять своей меткости. Вы говорите: «Я не знаю, попал ли я в этот раз, но я хороший стрелок, я редко мажу». 5. Почему мы все так ошибаемся? Байесовское мышление. Если частотная интерпретация так не интуитивна, почему мы ею пользуемся? Потому что наш мозг работает в Байесовском режиме. Мы хотим знать вероятность события (где истина?), а не свойства инструмента (как часто ошибается метод?). В Байесовской статистике понятие вероятности другое. Там параметр считается случайной величиной, а данные — фиксированным фактом. И там фраза "С вероятностью 95% параметр лежит здесь" — верна (это называется Кредибильный Интервал). Если у нас нет предварительных знаний и много данных, то численно Байесовский интервал почти совпадает с частотным. Мы приходим к правильным выводам («Истина где-то между 5 и 10») неправильным путем. Это работает, пока данных много. Но на малых выборках эта ошибка мышления может стоить вам дорого. 6. Зачем нам тогда доверительные интервалы? Читатель может спросить:
Ответ здесь будет очень прагматичным
Вы не снайпер, вы — владелец казино Представьте, что вы принимаете 100 продуктовых решений в год на основе A/B тестов.
Вы не можете быть уверены в каждом отдельном решении. Но вы можете быть уверены, что ваша система принятия решений генерирует не более 5% ошибок на дистанции. Казино не знает, выиграет ли пьяный турист на этом конкретном спине рулетки. Но казино знает, что на дистанции оно всегда в плюсе. Не будьте туристом, будьте как казино. 7. Шпаргалка: как говорить правильно Теперь вы обладаете знанием, которое отличает профи от новичка. Как это использовать? НИКОГДА не говорите:
ГОВОРИТЕ так (строго):
ГОВОРИТЕ так (для бизнеса):
Это честная позиция. Вы признаете риск, но опираетесь на надежность метода. Это тонкое различие? Да. Важное? Критически. Потому что оно переносит нас от ложной уверенности в конкретном результате к пониманию рисков метода. Как только данных мало, или вы знаете что-то важное до начала эксперимента (например, «конверсия не может быть 90%»), частотный подход начнет давать сбои, а байесовский (с правильно настроенным Prior) спасет ситуацию. Но это уже тема для отдельной статьи. В следующий раз, когда кто-то на митинге скажет:
вы можете вздохнуть и сказать:
Возможно, вас перестанут звать на обеды, будут избегать и даже уволят с работы, зато все данные в ваших отчетах будут кристально честными, а формулировки математически безупречным. Главное, что это единственное, что по-настоящему имеет значение. Источник: habr.com Комментарии: |
|