Дискриминантный анализ

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


?

Дискриминантный анализ — раздел многомерного статистического анализа, который используется для принятия решения о том, какие переменные различают (дискриминируют) две или более естественно возникающие совокупности (группы).

Исходными данными для дискриминантного анализа является множество объектов, разделенных на группы так, что каждый объект может быть отнесен только к однои? группе (зависимая переменная). Для каждого из объектов имеются данные по ряду количественных переменных. Такие переменные называются дискриминантными переменными или предикторами (независимые переменные).

Задачами дискриминантного анализа является определение:

  • решающих правил, позволяющих по значениям дискриминантных переменных(предикторов) отнести каждый объект к одной из известных групп.

Пример: в отношении клиентов банка существует необходимость на основе некоторого набора переменных (возраст, годовой доход, семейное положение и т.п.) уметь относить их к одной из нескольких взаимоисключающих групп с большими или меньшими рисками не возврата кредита.

  • «веса» каждой дискриминантнои? переменной для разделения объектов на группы, т.е. позволяет понять какие из множества дискриминирующих переменных в большей степени определяют принадлежность объекта к группе «Б», а какие в меньшей.

Пример: врач может регистрировать различные переменные, относящиеся к состоянию пациента с гастритом, чтобы выяснить, на какой стадии выздоровления находится пациент: выздоровел полностью (группа 1), частично (группа 2) или совсем не выздоровел (группа 3). Врачу важно регистрировать не все переменные, а только те, которые являются дискриминирующими для конкретного заболевания, а также обращать внимание в первую очередь на те, которые оказывают БОЛЬШЕЕ влияние на принадлежность к одной из трех групп.

Таким образом, дискриминантный анализ позволяет построить модель, позволяющую лучше всего предсказать, к какой совокупности будет принадлежать тот или иной объект.

Рассмотрим каждый из этапов анализа более подробно.

1 ЭТАП

1 шаг: выбираем группирующую переменную с взаимоисключающими значениями (объект может относиться только к одной из групп).

2 шаг: выборку делим на 2 части: анализируемую и проверочную. На анализируемой выборке мы будем вычислять дискриминантную функцию, а на проверочной произведем проверку результатов расчетов на основании анализируемой выборки.

2 ЭТАП

1 шаг: выбираем независимые (дискриминирующие) переменные.

2 шаг: проверяем, удовлетворяют ли имеющиеся данные всем предположениям, необходимым для проведения дискриминантного анализа:

3 шаг: при необходимости производим «чистку» данных для повышения качества модели.

Если число переменных достаточно велико (например, несколько сотен), то не представляется возможным применить дискриминантныи? анализ ко всем переменным одновременно. А поскольку целью дискриминантного анализа является составление наилучшего уравнения, дополнительныи? анализ исходных данных никогда не является лишним.

Поэтому:

  • на начальном этапе дискриминантного анализа для предикторов формируется корреляционная матрица. В данном контексте она имеет особыи? смысл, называется общеи? внутригрупповои? корреляционнои? матрицеи? и содержит средние коэффициенты корреляции для двух или более корреляционных матриц (каждая для однои? группы). На этапе расчета корреляций мы можем исключить какие-либо из коррелирующих переменных, что позволит избежать мультиколлинеарности (наличие корреляционной связи между предикторами, приводящее к ухудшению качества модели), либо дополнительно провести факторный анализ, чтобы объединить такие переменные в одну;
  • помимо общеи? внутригрупповои? корреляционнои? матрицы можно также вычислить ковариационные матрицы для отдельных групп, для всей выборки либо общую внутригрупповую ковариационную матрицу.

Кроме того:

• можно применить серию t-критериев между двумя группами для каждой переменнои? либо однофакторныи? дисперсионныи? анализ, если число групп больше двух.

• необходимо проводить дополнительные исследования выбросов, которые могут негативно влиять на результат. Возможно проведение анализа с исключением выбросов.

3 ЭТАП

Вычисляем параметры дискриминантнои? функции. Вычисление можно производить двумя основными способами:

1.Метод принудительного включения (direct method) — дискриминантную функцию вычисляют при одновременном введении всех предикторов. В этом случае учитывается каждая независимая переменная.

2.Пошаговый дискриминантныи? анализ (stepwise discriminant analysis):

— Пошаговый анализ с включением. В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее, на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

— Пошаговый анализ с исключением. Можно также двигаться в обратном направлении. В этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только «важные» переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных.

— F для включения, F для исключения. Эта пошаговая процедура руководствуется соответствующим значением F для включения и соответствующим значением F для исключения. Значение F-статистики для переменной указывает на её статистическую значимость при дискриминации между совокупностями, то есть она является мерой вклада переменной в предсказание членства в совокупности.

При проведении процедуры вычисления важно обращать внимание на коэффициент Уилкса  – отношение внутригрупповой суммы квадратов к общеи? сумме квадратов, характеризует долю влияния предиктора на дисперсию критерия. Со значением ? связаны величины F и p, характеризующие его значимость.

Так, значение F-статистики для переменной указывает на её статистическую значимость при дискриминации между совокупностями, то есть она является мерой вклада переменной в предсказание членства в совокупности.

Пошаговыи? дискриминантныи? анализлучше применять в ситуации, если вы хотите отобрать подмножество предикторов для включения их в дискриминантную функцию.

4 ЭТАП

Определяем качество модели и интерпретируем результаты:

1 — Смотрим на расстояние между центроидами (средние значения дискриминантной функции в исследуемых группах). Оно показывает четкость разделенияисследуемых групп. Центроидов столько, сколько групп. Чем больше расстояние, тем лучше разделены группы.

Диаграмма дискриминации трех классов для оценки исхода дифтерийных полинейропатий: 1 – первая группа с благоприятной динамикой, 2 – вторая группа с удовлетворительной динамикой, 3 – третья группа с затянувшейся динамикой. Положение центроидов обозначено «+».

2— Смотрим на ключевые показатели:

• показатель Лямбда Уилкса. Если значимость < 0,05 – перед нами значимое различие.

• значение F для каждого показателя в модели. Чем оно выше, тем большей дискриминативной способностью обладает показатель.

• коэффициент канонической корреляции. Чем больше величина коэффициента, тем лучше разделительная способность дискриминантной функции.

• анализируем стандартизированные и структурные коэффициенты дискриминативной функции. Стандартизованные коэффициенты позволяют оценить относительныи? вклад каждои? дискриминантнои? переменнои? в различие двух исследуемых групп. Структурные коэффициенты показывают силу связи дискриминантных переменных со стандартизованными значениями дискриминантнои? функции.

3— Смотрим какой % исходных сгруппированных наблюдений классифицирован правильно. Данный показатель показывает процент верно классифицированных случаев и говорит о точности дискриминирующей способности.

1.Мультиколлинеарность — о ней и о путях решения мы писали выше :)

2.Переобучение —модель полученная на одной выборке может не работать на другой. Такое бывает в том случае, если в выборке были специфические закономерности, которые не свойственны для генеральной совокупности.

Путь решения: используем критерии, которые помогут ограничить кол-во факторов, включенных в уравнение (Байесовский информационный критерий, критерий Акаике).


Источник: m.vk.com

Комментарии: