Семен Зверев, вылов лобстеров, финансовые махинации и закон Бенфорда |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-02-26 12:00 Для выявления ложных данных Семен использует закон Бенфорда. Закон Бенфорда или Ньюкомба-Бенфорда (Benford, or Newcomb-Benford law) характеризует закономерность встречаемости первых цифр в различных числовых множествах, описывающих сущности окружающего мира. Так, во множестве упомянутых чисел примерно у 30% первой цифрой будет единица, примерно у 18% – двойка, ~13% – тройка, ~10% – четверка и так далее вплоть до девятки, которая будет первой цифрой примерно у 4% чисел. То есть, чем больше цифра, тем меньше вероятность того, что она будет стоять в начале числа. Похожим образом будут встречаться пары первых цифр: самой частой первой парой будет 10, а самой редкой – 99. Строгие формулы расчета вероятности нахождения заданной цифры на первом (D1) или втором (D2) месте, или встречи в начале числа пары цифр (D1D2) выглядят так: Также мы можем вычислить вроятность встречи в начале числа любой последовательности цифр по формуле: Здесь n - число, составленное из цифр. Например, вероятность того, что в начале мы встретим последовательность цифр 1, 9, 3, 8, как здесь -19387689898; 1938; 1,938210; 0,001938768 и т. п., - будет равна log(1+1/1938) ? 2,24?10^(-4). Более того, мы можем определить вероятность того, что заданная цифра встретится в записи числа на k месте от начала. Однако это не имеет смысла, потому что для k > 2 встреча любой цифры на любом месте становится практически равновероятной и равной примерно 10%. *** В искусственно созданном множестве чисел встречаемость первых цифр и пары цифр будет иной. Из этого следует, что для выявления фальшивого (неестественного, ненатурального, искусственного) набора данных следует проанализировать частоты встречаемости первых одной-двух цифр этих чисел. *** Семен прекрасно знает закон Бенфорда и условия, при которых он не выполняется - он хорошо учился в университете. Поэтому, когда ему приносят сводку данных, он садится за статистическую проверку. В первую очередь, он выполняет визуальный анализ. Он подсчитывает частоту встречи всех пар цифр в начале чисел и рисует гистограммы. Вот эти гистограммы натурных данных хорошо соответствуют распределению Бенфорда. Такие гистограммы не вызывают сильного подозрение Семена. А вот эти две гистограммы сигнализируют о серъезных манипуляциях с данными. Они заставляют Семена сильно насторожиться. Дальнейшая проверка заключается в статистической оценке отклонения наблюдаемого распределения пар чисел от распределения Бенфорда и (не)потверждении его достоверности. Фактически, на этом шаге мы должны сравнить две гистограммы - два дискретных распределения. Для сранения двух распределений, в том числе дискретных гистограмм, часто используют тест Колмогорова-Смирнова (КС) и другие тесты: критерий хи-квадрат, метрика землекопа (Earth mover's distance) и расстояние Кульбака-Лейблера (Kullback–Leibler divergence). Сегодня Семен решил использовать только КС, а остальные тесты мы с вами рассмотрим в другой замете про сравнение гистограмм. Итак, Семену принесли очередные данные о вылове лобстеров за последний месяц. Вот они: Гистограммы говорят, что вторые данные ложны. Проверим в R при помощи КС. > ks.test(A, Benf) В первом тесте p = 1 > 0,05. Значит мы принимаем нулевую гипотезу о том, что две выборки равны. То есть распределение A удовлетворяет критерию Бенфорда. > ks.test(B, Benf) Во втором тесте p < 0,05. Значит мы отвергаем нулевую гипотезу. То есть распределение B не удовлетворяет критерию Бенфорда. Далее Семен смотрит на выбросы в данных (пики на гистограмме), анализирует их причины и делает окончательный вывод, что вторая выборка сфальсифицирована. Гнев Семена был страшен, виновные были наказаны, но это уж есовсем другая история. *** В настоящее время Семен ищет заместителей. Семен гарантирует высокую зарплату, комфортные условия труда, свежие тропические фрукты, экзотические морепродукты, бунгало с видом на океан и глубокое уважение туземцев. Взамен Семен просить изучить тексты, прикрепленные к основной заметке, так как по ним он будет проводить отборочный экзамен. Источник: m.vk.com Комментарии: |
|