Дискриминантный анализ |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-10-29 18:13
?
Дискриминантный анализ — раздел многомерного статистического анализа, который используется для принятия решения о том, какие переменные различают (дискриминируют) две или более естественно возникающие совокупности (группы). Исходными данными для дискриминантного анализа является множество объектов, разделенных на группы так, что каждый объект может быть отнесен только к однои? группе (зависимая переменная). Для каждого из объектов имеются данные по ряду количественных переменных. Такие переменные называются дискриминантными переменными или предикторами (независимые переменные). Задачами дискриминантного анализа является определение:
Пример: в отношении клиентов банка существует необходимость на основе некоторого набора переменных (возраст, годовой доход, семейное положение и т.п.) уметь относить их к одной из нескольких взаимоисключающих групп с большими или меньшими рисками не возврата кредита.
Пример: врач может регистрировать различные переменные, относящиеся к состоянию пациента с гастритом, чтобы выяснить, на какой стадии выздоровления находится пациент: выздоровел полностью (группа 1), частично (группа 2) или совсем не выздоровел (группа 3). Врачу важно регистрировать не все переменные, а только те, которые являются дискриминирующими для конкретного заболевания, а также обращать внимание в первую очередь на те, которые оказывают БОЛЬШЕЕ влияние на принадлежность к одной из трех групп. Таким образом, дискриминантный анализ позволяет построить модель, позволяющую лучше всего предсказать, к какой совокупности будет принадлежать тот или иной объект. Рассмотрим каждый из этапов анализа более подробно. 1 ЭТАП 1 шаг: выбираем группирующую переменную с взаимоисключающими значениями (объект может относиться только к одной из групп). 2 шаг: выборку делим на 2 части: анализируемую и проверочную. На анализируемой выборке мы будем вычислять дискриминантную функцию, а на проверочной произведем проверку результатов расчетов на основании анализируемой выборки. 2 ЭТАП 1 шаг: выбираем независимые (дискриминирующие) переменные. 2 шаг: проверяем, удовлетворяют ли имеющиеся данные всем предположениям, необходимым для проведения дискриминантного анализа: 3 шаг: при необходимости производим «чистку» данных для повышения качества модели. Если число переменных достаточно велико (например, несколько сотен), то не представляется возможным применить дискриминантныи? анализ ко всем переменным одновременно. А поскольку целью дискриминантного анализа является составление наилучшего уравнения, дополнительныи? анализ исходных данных никогда не является лишним. Поэтому:
Кроме того: • можно применить серию t-критериев между двумя группами для каждой переменнои? либо однофакторныи? дисперсионныи? анализ, если число групп больше двух. • необходимо проводить дополнительные исследования выбросов, которые могут негативно влиять на результат. Возможно проведение анализа с исключением выбросов. 3 ЭТАП Вычисляем параметры дискриминантнои? функции. Вычисление можно производить двумя основными способами: 1.Метод принудительного включения (direct method) — дискриминантную функцию вычисляют при одновременном введении всех предикторов. В этом случае учитывается каждая независимая переменная. 2.Пошаговый дискриминантныи? анализ (stepwise discriminant analysis): — Пошаговый анализ с включением. В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее, на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу. — Пошаговый анализ с исключением. Можно также двигаться в обратном направлении. В этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только «важные» переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных. — F для включения, F для исключения. Эта пошаговая процедура руководствуется соответствующим значением F для включения и соответствующим значением F для исключения. Значение F-статистики для переменной указывает на её статистическую значимость при дискриминации между совокупностями, то есть она является мерой вклада переменной в предсказание членства в совокупности. При проведении процедуры вычисления важно обращать внимание на коэффициент Уилкса – отношение внутригрупповой суммы квадратов к общеи? сумме квадратов, характеризует долю влияния предиктора на дисперсию критерия. Со значением ? связаны величины F и p, характеризующие его значимость. Так, значение F-статистики для переменной указывает на её статистическую значимость при дискриминации между совокупностями, то есть она является мерой вклада переменной в предсказание членства в совокупности. Пошаговыи? дискриминантныи? анализлучше применять в ситуации, если вы хотите отобрать подмножество предикторов для включения их в дискриминантную функцию. 4 ЭТАП Определяем качество модели и интерпретируем результаты: 1 — Смотрим на расстояние между центроидами (средние значения дискриминантной функции в исследуемых группах). Оно показывает четкость разделенияисследуемых групп. Центроидов столько, сколько групп. Чем больше расстояние, тем лучше разделены группы. 2— Смотрим на ключевые показатели: • показатель Лямбда Уилкса. Если значимость < 0,05 – перед нами значимое различие. • значение F для каждого показателя в модели. Чем оно выше, тем большей дискриминативной способностью обладает показатель. • коэффициент канонической корреляции. Чем больше величина коэффициента, тем лучше разделительная способность дискриминантной функции. • анализируем стандартизированные и структурные коэффициенты дискриминативной функции. Стандартизованные коэффициенты позволяют оценить относительныи? вклад каждои? дискриминантнои? переменнои? в различие двух исследуемых групп. Структурные коэффициенты показывают силу связи дискриминантных переменных со стандартизованными значениями дискриминантнои? функции. 3— Смотрим какой % исходных сгруппированных наблюдений классифицирован правильно. Данный показатель показывает процент верно классифицированных случаев и говорит о точности дискриминирующей способности. 1.Мультиколлинеарность — о ней и о путях решения мы писали выше :) 2.Переобучение —модель полученная на одной выборке может не работать на другой. Такое бывает в том случае, если в выборке были специфические закономерности, которые не свойственны для генеральной совокупности. Путь решения: используем критерии, которые помогут ограничить кол-во факторов, включенных в уравнение (Байесовский информационный критерий, критерий Акаике). Источник: m.vk.com Комментарии: |
|