Фальсификации и закон Бенфорда

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Закон Бенфорда описывает вероятность первой значимой цифры в распределениях величин, взятых из реальной жизни. Вкратце, согласно этому закону, цифра один на первом месте встречается гораздо чаще, чем все остальные, а также вероятность того, что цифра будет стоять на первом месте в числе тем больше, чем меньше цифра.

Иначе говоря, если взять, к примеру площадь всех озер и прудов в квадратных метрах, или высоту нескольких самых высоких зданий в футах, то в этих числах чаще всего на первом месте будет стоять цифра 1 (например, 14874, 100064, 14, и тд). Сначала, это звучит контр-интуитивно, но этому есть вполне логичное объяснение. Также, закон Бенфорда используется для того, чтобы зафиксировать нарушения в бухгалтерском учёте или фальсификации на выборах. На американских выборах 2020-ого года, в некоторых районах голосование за Байдена не соответствует закону Бенфорда, из-за чего многие упрекнули избирательные комиссии некоторых штатов в фальсификациях.

В 1881-м году Саймон Ньюкомб, астроном, работающий в американском университете, заметил, что в тетрадях с логарифмическими таблицами, наиболее истерты те страницы, которые содержат логарифмы чисел, начинающихся с единицы, чуть менее истерты те, которые начинаются с двоек и с троек, и так далее. Тогда, он начал собирать разные данные, и понял, что действительно, числа, которые начинаются на единицу, двойку или тройку намного чаще встречаются в природе чем числа начинающиеся на 7, 8, 9. К примеру, он брал газету, и считывал все числа, которые мог найти на первой странице (цену золота, население, количество больных гриппом в Бельгии, не важно), и получалось что из всех чисел, 30% начинаются на единицу.

Два человека, открывшие данное распределение

Через некоторое время к исследованию вернулся уже Фрэнк Бенфорд, американский физик. Он исследовал таблицы, которые содержали данные о площади бассейна 335 рек, удельной теплоёмкости и молекулярном весе тысяч химических соединений. Это изучение выявило, что единица является первой значащей цифрой с вероятностью не 1/9, как следовало ожидать, а около 1/3.

Формула распределения Бенфорда, и иллюстрация результатов
Примеры распределений данных в реальной жизни, по закону Бенфорда.

Закономерность, сначала, звучит удивительно, однако имеется и очень интуитивное объяснение:

Представьте, что у вас есть мешок с пронумерованными шарами, и вы достаете вслепую оттуда один шар. Если в мешке всего один шар, то на нём будет цифра один, и вы его достанете с вероятностью 100%. Если же там два шара, то вероятность того, что первая цифра на шаре будет 1 – 50%. Если 3 – то 33%, если 4 – то 25%. И так далее. Однако, если шаров 10, то вы можете достать 1 или 10, оба числа начинаются с единицы. Поэтому вероятность того, что вы вытянете шар, где первая цифра 1 начинает увеличиваться. Если шаров 11, то вероятность 3/11, если 12 – то 4/12 = 33%, и так далее. В реальной жизни, статистические данные могут охватывать много порядков, и неизвестно сколько же на самом деле шаров в мешке. Однако с возрастанием порядков, средний показатель вероятности того, что первая цифра в числе будет 1 – примерно 30% (см график).

Вероятность выбора числа, первая цифра которого — единица. В среднем, вероятность равняется 30,1%

Итак, по закону Бендорфа случайные данные должны соответствовать именно такому распределению. Когда люди искусственно вносят информацию в реестр и придумывают величины, они не могут генерировать воистину случайные числа, и поэтому распределение будет другим. И именно так статисты замечают мошенничество. Например, если в бухгалтерском учете большой компании цифры не соответствуют такому распределению, то это повод беспокоиться. Само по себе это не является доказательством мошенничества, но может указать на возможные манипуляции.

Похожий метод используют и при анализе выборов. Если данные по отданным голосам за кандидата не соответствуют распределению Бенфорда, то это повод начать более детальные разбирательства. Однако, стоит заметить, что такой подход не работает во всех выборах. Например, в Британии практически все избирательные районы охватывают одинаковое население, поэтому у победителя в этом районе (constituency) чаще всего 10к - 25к голосов, редко больше, и редко меньше. Это означает что практически невозможно найти выборы, где победитель бы получил число голосов, которое начинается с цифр 5 и 6.

В целом, если избирательные округа примерно одного размера, то такой анализ не работает. Например, если вы знаете, что в мешке примерно 100 шаров, то вероятность того, что вы вытянете шар, число на котором начинается на цифру 1 гораздо меньше 30. Также, если город разбит на округа каждый размером в 1000 избирателей, то вряд ли мы увидим распределение Бенфорда на таких выборах.

Далее, даже если закон Бенфорда не работает, то это еще не является доказательством фальсификации. После применения этого закона, обычно также смотрят на распределение последних цифр – оно должно быть равномерным (потому что в этом случае нет нескольких порядков – есть один).

Итак, приступим к анализу американских выборов. Если посмотреть на результаты в целом, то распределение голосов вполне соответствует закону Бендорфа как в тех штатах, где победил Трамп, так и в тех штатах, где победил Байден.

Однако, есть отдельные районы и города, где это распределение рассыпается. Самый громкий из таких примеров – город Чикаго в штате Иллинойс. График разлетелся по новостным порталам, и действительно, такое распределение даёт повод сомневаться в искренности результатов, и подозревать местное отделение дем. партии в подделке результатов голосования.

В Чикаго результаты не соответствуют распределению Бенфорда, что даёт повод подозревать фальсификации

С другой стороны, если посмотреть поближе, то мы увидим, что округи в Чикаго похожего размера, население 98,7% округов состоят в одном порядке! В такой ситуации логично что результаты не будут следовать распределению Бенфорда. То есть город Чикаго в избирательном плане похож на Британские округа. Также, можно заметить, что и голоса Трампа не совсем соответствуют распределению из-за излишества семёрок, восьмёрок и девяток. Это происходит из-за того, что в Чикаго большая часть населения все-таки за синих, и поддержка Байдена просто следует Распределению Гаусса. Поддержка Трампа же более хаотична из-за того, что есть значительная пропорция округов, где он заметно проигрывает.Более того, в некоторых штатах тоже избирательные округа похожего размера, и из-за этого и там такжее не работает стандартное бенфордское распределение:

Однако во всех случаях при более детальном наблюдении, а также при проверке распределения последних цифр, обнаружилось что фальсификации маловероятны.

В заключении важно сказать, что Дж. Декерт уже написал научную статью в 2011-м году, анализируя прошлые попытки поиска фальсификации на выборах в ряде стран, и сделал соответствующий вывод: «несмотря на очевидную полезность для изучения других явлений, закон Бенфорда проблематичен как инструмент для судебной экспертизы в применении к выборам. Соответствие или отклонение от закона Бенфорда не следует четким моделям. Дело не просто в том, что закон иногда определяет честные выборы сфальсифицированными, а сфальсифицированные выборы честными. Дело в том, что успех такого анализа эквивалентен подбрасыванию монеты.» Итак, анализ распределения Бенфорда весьма интересный и элегантный способ смотреть на результаты выборов, но он не может нам дать однозначный ответ и неоспоримые доказательства касаемо честности выборов.

Frank Benford (1938) — The Law of Anomalous Numbers, Proceedings of the American Philosophical Society;

Joseph Deckert et al (2011) - Benford's Law and the detection of election fraud, Political Analysis;

Gary Cox (1997) - Strategic coordination in the World's electoral systems, Cambridge University Press;

State archives of Arizona, Iowa, Ohio, Connecticut, Illinois and others;

Walter Mebane (2006) - Election Forensics: Vote counts and Benford's Law


Источник: m.vk.com

Комментарии: