Немного про бигдату и доступность информации.

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


В инфополе муссируется перемога одного из вялых членов проебалтийского троевымирата гребешковых тигров, в частности - первое место Эстонии по всему миру по темпам заболеваемости коронавирусом.

Это правда, второй картинкой мы прикладываем подтверждение.

Но хочется заметить, что этот результат достигнут нужным вариантом сортировки таблицы, которая изначально не про это. Т.е. факт остаётся фактом, но напомним, что у пресловутой "бигдаты" есть такая побочка, про которую обычно не любят говорить - чем больше собираемый массив данных, тем большим числом вариантов его можно "крутить" и выставлять в нужном свете. Не подделывая данные, просто правильно их подбирая. Если у таблицы три колонки - одно дело, если три сотни - ну, совсем другое.

... Люди любят цифры и в головах человечества компьютерной эры есть чёткая связь "если индикаторов-показателей-столбиков-стрелочек в два раза больше, то я в два раза больше информации получаю и на базе её в два раза лучше выводы делаю и у меня в итоге в два раза больше контроль над ситуацией". По факту все эти допущения ложные, одно из другого напрямую не следует. Дополнительные колонки у таблицы могут быть "для массивности" забиты недостаточно точными (никто ж не обещает, что в один массив собираются данные, собранные сопоставимыми методами), вторичными (по факту вычисляемыми из других в этой же строке или из внешних источников), или вообще не относящимися к предмету анализа напрямую (отсюда корни роликов на ютубе "я оналитег, я тут заприметил связь частоты кариеса в Чехии и числа пассажирских автобусов, ну а теперь посмотрим национальность банкиров, которые владеют предприятиями, делающими автобусы, вот как бы и всё по своим местам встало").

Но люди любят цифры, поэтому большая таблица, которую можно посортировать-покрутить на свой вкус, оценивается на подсознании как бы более доверенная; ну раз инфы там больше, то это круче. Этот фактор известен, поэтому отдельным искусством в части публикуемой статистики является разбавление полезных данных дополнительными. Если речь идёт про гос.статистику, то там-то методологии фиксированные, если считают параметры по 18 показателям, то чтобы ввести в подсчёт учёт 19-го, нужны обоснования и объяснения, ну а на публику работает "чем больше, тем лучше".

Мы это к тому, что анализировать всякое надо вдумчиво, и правило "больше = лучше" тут не работает. Ну, если вы не хотите перспектив, романтично отображённых в кинофильме "Игры разума", по-простому - дурки. Любые дополнительные данные, учитываемые в неких интегральных оценках, должны быть обоснованы перед использованием - и не только "насколько они точные", а больше "а нужны ли они вообще и насколько сделают оценку более точной". Потому что сделать её менее точной они могут элементарно - достаточно сверхпродуманную формулу с парой десятков коэффициентов домножать на пару неточных и всё, результат теряет свой смысл.

Более того - при определённом росте числа показателей, участвующих в подсчётах, и их не-идеальной точности, получить осмысленный результат просто не выйдет - кумулятивная ошибка, накапливающаяся из-за каждого из компонентов подсчёта, дойдёт до 100% и тогда можно будет доказать, что погрешность по каждому из наборов данных достаточна для того, чтобы не вылезая за неё повлиять на финальный результат в нужную сторону. То есть весь подсчёт потеряет смысл.

Поэтому да, Эстонию конечно жалко, но переоценивать доступные для аналитики возможности - штука тоже опасная. Местами даже хуже коронавируса.


Источник: vk.com

Комментарии: