![]() |
![]() |
![]() |
|||||
![]() |
Дюжина датазавров, квартет Энскомба, одинаковые статистики и разные выборки |
||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-04-03 18:04 ![]() ![]() ![]() ![]() ![]() "Если тебе сказали, что у выборок совпали описательные статистики и поэтому они равны — не верь ушам своим, они разные." (c) Автор под влиянием Козьмы Пруткова. Описательная статистика — это самая первая (и часто — последняя) совокупность статистических характеристик выборки данных, которую используют для сжатого представления о поведении (распределении) этих данных. К описательно статистическим характеристикам относятся: среднее арифметическое, стандартное отклонение, медиана, квартили и некоторые другие величины. Подавляющее большинство научных работ (не очень) молодых ученых, использующих статистические расчеты, приводят только упомянутые статистические значения. То есть эти описательно статистические характеристики часто подменяют собой реальные данные. Однако, исключительное использование описательной статистики без визуализации истинных величин может привести к нежелательно ошибочным выводам. В 1973 году английский математик Френсис Энскомб (Francis Anscombe) опубликовал четыре набора двумерных данных, у которых совпадают значения средних, дисперсий и коэффициентов корреляции Спирмана, тогда как сами данные отличаются. [Слайд 2] Этот пример был назван Квартетом Энскомба. Его упоминают авторы, пишущие про аккуратный подход к статистическим исследованиям. Основной вывод, следующий из примера, заключается в том, что данные нужно видеть. Первый шаг любого анализа обязательно должен включать визуализацию данных. Без нее можно прийти к неверным выводам об их сходстве или различии. Работа Энскомба подтолкнула исследователей к поиску иных наборов данных с похожими свойствами. В 2016 году испанский журналист и графдизайнер Альберто Кайро (Alberto Cairo) создал Энскомбозавра. [Слайд 3] Это множество точек, который при визуализации на плоскости формируют образ тиранозавра. Однако, если мы опишем множество только при помощи описательной статистики, мы не увидим рисунка и даже не догадаемся о его наличии. Своей работой Кайро подчеркнул важность визуализации в анализе данных. Работа Энскомба и Кайро вдохновила Джастина Матейку (Justin Matejka) и Джорджа Фицмориса (George Fitzmaurice). В 2017 году они разработали алгоритм, который преобразовывает набор данных в набор иных данных, описательные статистики которых совпадают с исходными. Причем алгоритм позволяет подогнать картинку, составленную из точек нового набора, к заданному схематичному рисунку. Взяв за основу образ энскомбозавра, исследователи создали двенадцать наборов точек, статистики которых совпадают со статистиками энскомбозавра. Готовые множества точек авторы назвали Дюжиной датазавров. [Слайд 4] Энскомбозавра можно перобразовать в любого датазавра и описательные характеристики данных при этом не поменяются. [Слайд 5] Обратное тоже верно. У предложенного алгоритма есть полезное применение. Он позволяет скрыть истинные значения (секретных или закрытых) данных, оставив их описательно статистические характеристики неизменными. Это важно, когда вам нужно опубликовать результаты, но нельзя показать настоящие данные. Вывод. Никогда не основывайте свои выводы только на описательной статистике. Всегда визуализируйте данные и делайте выводы на основе совместного анализа графических визуализаций и статистических расчетов. > Оригинальная статья Энскомба. > Anscombe F.J. (1973) Graphs in statistical analysis. https://doi.org/10.1080/00031305.1973.10478966 Координаты точек для генерации квартета Энскомба есть в Вики: https://en.wikipedia.org/wiki/Anscombe's_quartet > Статья Матейку и Фицмориса с алгоритмом генерации выборок с заданными стат. характеристиками. > Matejka J., Fitzmaurice G/ (2017). Same stats, different graphs: generating datasets with varied appearance and identical statistics through simulated annealing. https://doi.org/10.1145/3025453.3025912 Источник: doi.org Комментарии: |
||||||