Кластерный анализ

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Когда человек видит огромное количество объектов, у него возникает вполне логичное желание как-то их структурировать и упорядочить. В связи с этим желанием появилось разделение людей на типы темперамента, систематика растений и животных, всевозможные классификации болезней.

Как процесс классифицирования чего-либо выглядит сейчас?

Представьте, что у вас есть огромная таблица Excel — данные тысяч хорошо обследованных пациентов (объектов) с сепсисом и сотен признаков, характеризующих этих пациентов — как в разборе статьи из вчерашнего поста https://vk.com/clinical_study?w=wall-182541436_26.

В практике мы видим, что сепсис сепсису — рознь. Поэтому мы хотим выделить патогенетические подтипы и посмотреть, различаются ли они по прогнозу. Это можно сделать с помощью кластерного анализа.

Кластерный анализ — это способ создания классификации, в котором мы разбиваем исследуемые признаки и объекты на группы и далее анализируем их.

Источник: #breadcrumbs

Где применяется кластерный анализ, помимо любимой нами медицины? Кластерный анализ очень популярен следующих сферах: в маркетинге для выделения целевых групп потребителей, в социологии для разбиения респондентов на однородные группы, в менеджменте для более эффективного управления персоналом.

Вне зависимости от того, что мы пытаемся классифицировать, кластерный анализ проходит следующие этапы:

Отбор выборки для кластеризации. В нашем случае — это отбор пациентов с сепсисом, описание критериев включения/исключения пациентов в исследование. Чем больше наша выборка, тем более точным и эффективным будет кластерный анализ.

Определение признаков, по которым будут оцениваться объекты в выборке. Какие измерения/анализы будут проводиться у наших пациентов? Какие параметры мы будем вносить в таблицу?

Вычисления значений той или иной степени сходства (или различия) между объектами. Применение метода кластерного анализа для создания групп сходных объектов. Вручную это делать не требуется. Существует большое количество алгоритмов кластеризации: иерархическая кластеризация, метод к-средних, и т.д. Принципиально они работают следующим образом: мы строим обычный график, где смотрим как признак (переменная) Х связан с признаком Y. На графике каждая точка — это пациент и, к примеру, X — это уровень прокальцитонина, а Y — уровень АЛТ. Дальше мы измеряем расстояния между точками и формируем группы по принципу наименьшего расстояния между точками.

Источник: http://www.tidydata.ru/segmentation

Получается, что чем более кучно расположены точки, тем более однородны группы. В данном примере мы рассматриваем кластеризацию только по двум признакам, но обычно проводится многомерный анализ, то есть оценивается много параметров одновременно.

Проверка достоверности результатов кластерного решения. Для того, чтобы проверить, насколько хорошо работает наша классификация, нужно протестировать её на «реальных данных» — то есть на данных НЕ из нашего исследования. Например, можно предложить дружественной больнице воспользоваться нашей классификацией и посмотреть, насколько хорошо она работает. Это называется внешней валидацией классификации.

В целом, кластерный анализ — это очень мощный инструмент для разведочного анализа данных в любой области.

  1. https://medium.com/@breadcrumbszone/%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%BD%D1%8B%D0%B9-%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7-dde8d915677b
  2. https://habr.com/ru/post/228477/

Источник: m.vk.com

Комментарии: