Detecting Anomalies in the 2020 US Presidential Election Votes with Benford’s Law by Savva Shanaev,

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Данная заметка – обзор исследования, представленного в двух видео и препринте: Препринт: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3728626

Что произошло и происходит на американских президентских выборах? Почему Байден празднует победу, а Трамп отказывается признать поражение, пытаясь уличить соперников в махинациях и мошенничестве? И почему судьба американской демократии может неиронично лежать в руках математиков? Давайте разбираться.

Тем, кто следил за выборами, сразу бросается в глаза, что во время подсчета голосов в нескольких ключевых колеблющихся штатах (Мичиган, Висконсин, Пеннсильвания, Джорджия, Огайо) происходило что-то странное. В прямом эфире значительный отрыв Трампа в первых четырех штатах сошел на нет, и полностью обратная картина наблюдалась в Огайо. А известная картинка с на первый взгляд очевидным вбросом голосов за Байдена в Мичигане уже успела стать мемом. Но насколько аномальными были результаты выборов? Можно ли объяснить эти странности голосованием по почте, высокой явкой, различиями между политическими предпочтениями жителей разных избирательных округов?

Здесь теоретически может помочь закон Бенфорда – статистическая закономерность, утверждающая, что данные с высоким разбросом (большой разрядностью) и положительным коэффициентом скошенности (толстый правый хвост) куда чаще начинаются с «маленьких» цифр, чем с «больших». Так, вероятность встретить на первом месте единицу по закону Бенфорда больше 30%, а девятку – меньше 5%. Вероятность эта убывает с увеличением цифры. Закон Бенфорда наблюдается в самых разных данных, от населения городов до ВВП стран и корпоративной отчетности. Аналогично, закон Бенфорда можно применить для оценки вероятности появления определенной цифры на втором месте в наблюдении (здесь разрыв не такой большой, единица встречается в 11%, а девятка – в 8% случаев), или даже определенной последовательности из двух, трех, и более первых цифр. Применение закона Бенфорда для обнаружения финансовых махинаций в аудите уже давно стало классическим методом (настолько классическим, что было показано от лица Бена Аффлека в фильме “The Accountant”, который на русский перевели как «Расплата»). Не так давно этот же метод использовали для обнаружения искажений в данных по промышленному выпуску китайских фирм и статистике по заболеваемостью коронавирусом в ряде стран. Тем не менее, когда кто-то пытается применить закон Бенфорда к анализу выборов, не избежать критики по следующему ряду причин:

1) Утверждается, что данные по голосам избирателей не удовлетворяют закону Бенфорда и не будут ему подчиняться даже в отсутствие как-либо аномалий или манипуляций, здесь тонкость в том, что голоса часто распределены в довольно узких интервалах (например, от 100 до 1000) в силу административных причин. Если это так, то анализ на уровне первых цифр не работает, что-то можно обнаружить лишь на уровне вторых цифр.

2) Стратегическое голосование (когда мне больше всего нравится Гэри Джонсон, но я голосую за Трампа, чтобы не победила Клинтон) может привести к нарушениям закона Бенфорда даже при отсутствии иных аномалий.

3) Махинации могут быть централизованными, и тогда у махинатора нет никаких проблем с тем, чтобы подогнать «исправленные» данные под закон Бенфорда.

Понятно, что последний аргумент мало применим к выборам в США, где избирательная система децентрализована по штатам (да и вряд ли утверждение о том, что в выборах 2020 были «перегибы на местах» в Мичигане или Джорджии, будут парировать тем, что перегибы были, но везде). А на первые два аргумента исследование отвечает следующим образом: сравнивает распределение по первым, вторым, и первым двум цифрам с законом Бенфорда, а также с результатами прошлых выборов (2008, 2012, и 2016), и проводит симуляцию Монте-Карло на реальных данных о явке из 2020 года и данных о доле проголосовавших за республиканцев и демократов, замоделированных как случайное распределение, откалиброванное на данных выборов 2008, 2012 и 2016. Чтобы закон Бенфорда был более применим, используются данные по более крупным избирательным округам, чем отдельные участки, и отклонения от Бенфорда оцениваются по всей выборке и группам штатов.

Каковы же результаты?

1) Данные устойчиво отклоняются от закона Бенфорда во всех тестах в отношении распределения голосов за демократов в штатах, где выиграл Байден, голосов за республиканцев в «синих» штатах (штатах, где демократы могли рассчитывать на бесспорную победу), и голосов за демократов в ключевых колеблющихся штатах (причем аномалии есть в колеблющихся штатах, где выиграл Байден, и их нет в колеблющихся штатах, где выиграл Трамп). Никаких отклонений не обнаружено в штатах, где выиграл Трамп, и в «красных» штатах.

2) Нынешние выборы очень аномальные по историческим меркам, если сравнивать с 2008, 2012 и 2016 годом. Некоторые отклонения от Бенфорда наблюдались в 2012 году, но их масштаб не идет ни в какое сравнение с 2020.

3) Симуляции Монте-Карло показывают, что аномалии, происходящие на текущих выборах, особенно в разрезе голосов за демократов в колеблющихся штатах и голосов за республиканцев в «синих» штатах, действительно очень маловероятны.

Следует помнить, что подобный анализ не может сам по себе являться доказательством махинаций или мошенничества. Тем не менее, это можно рассматривать как косвенное свидетельство необходимости дальнейших расследований подсчета голосов и выборного процесса в целом. В частности, можно заподозрить искусственное занижение голосов за республиканцев в синих штатах, где аппарат местных властей контролируется демократами, для гарантирования бесспорной и более легитимной победы Байдена по общему объему голосов, и, что более важно, манипуляции в колеблющихся штатах для обеспечения победы по выборщикам. Но это, разумеется, невозможно доказать с помощью сугубо статистического анализа.

Автор -


Источник: papers.ssrn.com

Комментарии: