Рандомизация, сегментирование, группировка, кластеризация и подобная хрень... |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2021-06-06 04:08 Вот есть статистическая задача. По выборке сделать некоторое заключение о генеральной совокупности. Генеральная совокупность и, следовательно, выборка неоднородна. Она характеризуется некоторым набором, как это сейчас модно, адресов. Если мы ведем речь о людях (пациентах, респондентах, потребителях и т.д.), то таким типичными адресами являются возраст, пол, место проживания, доход. Причем эти адреса могут быть устойчивыми во времени (например, пол), могут меняться непонятно как (например, доход), могут меняться постепенно (возраст) Вопрос - можем ли мы подобрать идеальную выборку, воздействуя на которую мы бы получили представление с заданной вероятностью о поведении генеральной совокупности? Ответ нет. Ввиду условности любой из наших группировок. В институте просто учат. Приходит препод и говорит - делай так. Например, сначала сегментируй по месту жительства, потом по полу, потом по доходу. На другие адреса забей, они не значимы... Почему я должен ему верить? Потому, что он так уже делал и метод типа работает. С погрешностью, но работает. А если мы пересегментируем, например, в качестве первого фактора возьмем доход, то алгоритм будет работать лучше или хуже? Практик ответит - не знаю, проверять надо. И начнутся исследования стандартных отклонений, коэффициентов детерминации и т.п. На эту тему писал еще Аристотель. Любая группировка условна! Невозможна идеальная каталогизация. Нет, идеальная каталогизация предполагает уникальность каждой книги. Тогда зачем вся эта хрень? Для выработки дедуктивной гипотезы. Вся эта статистика с эконометрикой вкупе сами по себе ничего особенного не значат. Ну сгруппировали не совсем так, ну и что? Важно то, как меняется наша выборка под воздействием, желательно, одного внешнего фактора. Выборка не может быть устойчивой во времени, если в выборке люди. Поэтому допуски и погрешности будут достаточно великИ, т.е. несопоставимы с критериями естественно-научных дисциплин (химией, физикой, медициной и другими науками). Не в этом задача. Задача состоит в попытке фальсификации модели, т.е. попытке опровергнуть гипотезу о влиянии фактора Х на фактор Y. Посмотрели как люди вели себя до, поставили эксперимент, если возможно, сопоставили результаты в контрольной и экспериментальной группе, сделали вывод. Повторили эксперимент. Не работает? Отбросили дедуктивную гипотезу, сформулировали новую... А если трудности с экспериментом? Тогда степень достоверности снижается, индукции-то нет, а временной ряд по определению неустойчив. Но это не значит, что нужно ограничится исключительно априорными рассуждениями. Все равно нужно считать, только понимать при этом, что достоверность прогнозов будет ниже. И ничего в этом страшного нет, люди разные и чем они более разные, тем сложнее предсказывать их поведение. Источник: vk.com Комментарии: |
|