Семен Зверев, вылов лобстеров, финансовые махинации и закон Бенфорда

2024-02-26 12:00

Для выявления ложных данных Семен использует закон Бенфорда.

Закон Бенфорда или Ньюкомба-Бенфорда (Benford, or Newcomb-Benford law) характеризует закономерность встречаемости первых цифр в различных числовых множествах, описывающих сущности окружающего мира.

Так, во множестве упомянутых чисел примерно у 30% первой цифрой будет единица, примерно у 18% – двойка, ~13% – тройка, ~10% – четверка и так далее вплоть до девятки, которая будет первой цифрой примерно у 4% чисел. То есть, чем больше цифра, тем меньше вероятность того, что она будет стоять в начале числа.

Похожим образом будут встречаться пары первых цифр: самой частой первой парой будет 10, а самой редкой – 99.

Строгие формулы расчета вероятности нахождения заданной цифры на первом (D1) или втором (D2) месте, или встречи в начале числа пары цифр (D1D2) выглядят так:

Также мы можем вычислить вроятность встречи в начале числа любой последовательности цифр по формуле:

Здесь n - число, составленное из цифр. Например, вероятность того, что в начале мы встретим последовательность цифр 1, 9, 3, 8, как здесь -19387689898; 1938; 1,938210; 0,001938768 и т. п., - будет равна log(1+1/1938) ? 2,24?10^(-4).

Более того, мы можем определить вероятность того, что заданная цифра встретится в записи числа на k месте от начала. Однако это не имеет смысла, потому что для k > 2 встреча любой цифры на любом месте становится практически равновероятной и равной примерно 10%.

***

В искусственно созданном множестве чисел встречаемость первых цифр и пары цифр будет иной. Из этого следует, что для выявления фальшивого (неестественного, ненатурального, искусственного) набора данных следует проанализировать частоты встречаемости первых одной-двух цифр этих чисел.

***

Семен прекрасно знает закон Бенфорда и условия, при которых он не выполняется - он хорошо учился в университете. Поэтому, когда ему приносят сводку данных, он садится за статистическую проверку.

В первую очередь, он выполняет визуальный анализ. Он подсчитывает частоту встречи всех пар цифр в начале чисел и рисует гистограммы.

Вот эти гистограммы натурных данных хорошо соответствуют распределению Бенфорда.

Такие гистограммы не вызывают сильного подозрение Семена.

А вот эти две гистограммы сигнализируют о серъезных манипуляциях с данными.

Они заставляют Семена сильно насторожиться.

Дальнейшая проверка заключается в статистической оценке отклонения наблюдаемого распределения пар чисел от распределения Бенфорда и (не)потверждении его достоверности.

Фактически, на этом шаге мы должны сравнить две гистограммы - два дискретных распределения.

Для сранения двух распределений, в том числе дискретных гистограмм, часто используют тест Колмогорова-Смирнова (КС) и другие тесты: критерий хи-квадрат, метрика землекопа (Earth mover's distance) и расстояние Кульбака-Лейблера (Kullback–Leibler divergence). Сегодня Семен решил использовать только КС, а остальные тесты мы с вами рассмотрим в другой замете про сравнение гистограмм.

Итак, Семену принесли очередные данные о вылове лобстеров за последний месяц. Вот они:

Гистограммы говорят, что вторые данные ложны. Проверим в R при помощи КС.

> ks.test(A, Benf)
Exact two-sample Kolmogorov-Smirnov test  data:  A and Benf D = 0.044444, p-value = 1 alternative hypothesis: two-sided

В первом тесте p = 1 > 0,05. Значит мы принимаем нулевую гипотезу о том, что две выборки равны. То есть распределение A удовлетворяет критерию Бенфорда.

> ks.test(B, Benf)
Exact two-sample Kolmogorov-Smirnov test  data:  B and Benf D = 0.43333, p-value = 5.26e-08 alternative hypothesis: two-sided

Во втором тесте p < 0,05. Значит мы отвергаем нулевую гипотезу. То есть распределение B не удовлетворяет критерию Бенфорда.

Далее Семен смотрит на выбросы в данных (пики на гистограмме), анализирует их причины и делает окончательный вывод, что вторая выборка сфальсифицирована.

Гнев Семена был страшен, виновные были наказаны, но это уж есовсем другая история.

***

В настоящее время Семен ищет заместителей. Семен гарантирует высокую зарплату, комфортные условия труда, свежие тропические фрукты, экзотические морепродукты, бунгало с видом на океан и глубокое уважение туземцев. Взамен Семен просить изучить тексты, прикрепленные к основной заметке, так как по ним он будет проводить отборочный экзамен.

Источник: m.vk.com



		Семен Зверев, вылов лобстеров, финансовые махинации и закон Бенфорда
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2024-02-26 12:00 большие данные big data Для выявления ложных данных Семен использует закон Бенфорда. Закон Бенфорда или Ньюкомба-Бенфорда (Benford, or Newcomb-Benford law) характеризует закономерность встречаемости первых цифр в различных числовых множествах, описывающих сущности окружающего мира. Так, во множестве упомянутых чисел примерно у 30% первой цифрой будет единица, примерно у 18% – двойка, ~13% – тройка, ~10% – четверка и так далее вплоть до девятки, которая будет первой цифрой примерно у 4% чисел. То есть, чем больше цифра, тем меньше вероятность того, что она будет стоять в начале числа. Похожим образом будут встречаться пары первых цифр: самой частой первой парой будет 10, а самой редкой – 99. Строгие формулы расчета вероятности нахождения заданной цифры на первом (D1) или втором (D2) месте, или встречи в начале числа пары цифр (D1D2) выглядят так: Также мы можем вычислить вроятность встречи в начале числа любой последовательности цифр по формуле: Здесь n - число, составленное из цифр. Например, вероятность того, что в начале мы встретим последовательность цифр 1, 9, 3, 8, как здесь -19387689898; 1938; 1,938210; 0,001938768 и т. п., - будет равна log(1+1/1938) ? 2,24?10^(-4). Более того, мы можем определить вероятность того, что заданная цифра встретится в записи числа на k месте от начала. Однако это не имеет смысла, потому что для k > 2 встреча любой цифры на любом месте становится практически равновероятной и равной примерно 10%. * В искусственно созданном множестве чисел встречаемость первых цифр и пары цифр будет иной. Из этого следует, что для выявления фальшивого (неестественного, ненатурального, искусственного) набора данных следует проанализировать частоты встречаемости первых одной-двух цифр этих чисел. * Семен прекрасно знает закон Бенфорда и условия, при которых он не выполняется - он хорошо учился в университете. Поэтому, когда ему приносят сводку данных, он садится за статистическую проверку. В первую очередь, он выполняет визуальный анализ. Он подсчитывает частоту встречи всех пар цифр в начале чисел и рисует гистограммы. Вот эти гистограммы натурных данных хорошо соответствуют распределению Бенфорда. Такие гистограммы не вызывают сильного подозрение Семена. А вот эти две гистограммы сигнализируют о серъезных манипуляциях с данными. Они заставляют Семена сильно насторожиться. Дальнейшая проверка заключается в статистической оценке отклонения наблюдаемого распределения пар чисел от распределения Бенфорда и (не)потверждении его достоверности. Фактически, на этом шаге мы должны сравнить две гистограммы - два дискретных распределения. Для сранения двух распределений, в том числе дискретных гистограмм, часто используют тест Колмогорова-Смирнова (КС) и другие тесты: критерий хи-квадрат, метрика землекопа (Earth mover's distance) и расстояние Кульбака-Лейблера (Kullback–Leibler divergence). Сегодня Семен решил использовать только КС, а остальные тесты мы с вами рассмотрим в другой замете про сравнение гистограмм. Итак, Семену принесли очередные данные о вылове лобстеров за последний месяц. Вот они: A и Benf B и Benf Гистограммы говорят, что вторые данные ложны. Проверим в R при помощи КС. > ks.test(A, Benf) Exact two-sample Kolmogorov-Smirnov test data: A and Benf D = 0.044444, p-value = 1 alternative hypothesis: two-sided В первом тесте p = 1 > 0,05. Значит мы принимаем нулевую гипотезу о том, что две выборки равны. То есть распределение A удовлетворяет критерию Бенфорда. > ks.test(B, Benf) Exact two-sample Kolmogorov-Smirnov test data: B and Benf D = 0.43333, p-value = 5.26e-08 alternative hypothesis: two-sided Во втором тесте p < 0,05. Значит мы отвергаем нулевую гипотезу. То есть распределение B не удовлетворяет критерию Бенфорда. Далее Семен смотрит на выбросы в данных (пики на гистограмме), анализирует их причины и делает окончательный вывод, что вторая выборка сфальсифицирована. Гнев Семена был страшен, виновные были наказаны, но это уж есовсем другая история. *** В настоящее время Семен ищет заместителей. Семен гарантирует высокую зарплату, комфортные условия труда, свежие тропические фрукты, экзотические морепродукты, бунгало с видом на океан и глубокое уважение туземцев. Взамен Семен просить изучить тексты, прикрепленные к основной заметке, так как по ним он будет проводить отборочный экзамен. Источник: m.vk.com Комментарии:

Семен Зверев, вылов лобстеров, финансовые махинации и закон Бенфорда

Комментарии: