Рандомизация, сегментирование, группировка, кластеризация и подобная хрень...

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Вот есть статистическая задача. По выборке сделать некоторое заключение о генеральной совокупности. Генеральная совокупность и, следовательно, выборка неоднородна. Она характеризуется некоторым набором, как это сейчас модно, адресов. Если мы ведем речь о людях (пациентах, респондентах, потребителях и т.д.), то таким типичными адресами являются возраст, пол, место проживания, доход. Причем эти адреса могут быть устойчивыми во времени (например, пол), могут меняться непонятно как (например, доход), могут меняться постепенно (возраст)

Вопрос - можем ли мы подобрать идеальную выборку, воздействуя на которую мы бы получили представление с заданной вероятностью о поведении генеральной совокупности? Ответ нет. Ввиду условности любой из наших группировок.

В институте просто учат. Приходит препод и говорит - делай так. Например, сначала сегментируй по месту жительства, потом по полу, потом по доходу. На другие адреса забей, они не значимы... Почему я должен ему верить? Потому, что он так уже делал и метод типа работает. С погрешностью, но работает. А если мы пересегментируем, например, в качестве первого фактора возьмем доход, то алгоритм будет работать лучше или хуже? Практик ответит - не знаю, проверять надо. И начнутся исследования стандартных отклонений, коэффициентов детерминации и т.п.

На эту тему писал еще Аристотель. Любая группировка условна! Невозможна идеальная каталогизация. Нет, идеальная каталогизация предполагает уникальность каждой книги. Тогда зачем вся эта хрень?

Для выработки дедуктивной гипотезы. Вся эта статистика с эконометрикой вкупе сами по себе ничего особенного не значат. Ну сгруппировали не совсем так, ну и что? Важно то, как меняется наша выборка под воздействием, желательно, одного внешнего фактора. Выборка не может быть устойчивой во времени, если в выборке люди. Поэтому допуски и погрешности будут достаточно великИ, т.е. несопоставимы с критериями естественно-научных дисциплин (химией, физикой, медициной и другими науками). Не в этом задача. Задача состоит в попытке фальсификации модели, т.е. попытке опровергнуть гипотезу о влиянии фактора Х на фактор Y. Посмотрели как люди вели себя до, поставили эксперимент, если возможно, сопоставили результаты в контрольной и экспериментальной группе, сделали вывод. Повторили эксперимент. Не работает? Отбросили дедуктивную гипотезу, сформулировали новую...

А если трудности с экспериментом? Тогда степень достоверности снижается, индукции-то нет, а временной ряд по определению неустойчив. Но это не значит, что нужно ограничится исключительно априорными рассуждениями. Все равно нужно считать, только понимать при этом, что достоверность прогнозов будет ниже. И ничего в этом страшного нет, люди разные и чем они более разные, тем сложнее предсказывать их поведение.

Комментарии: