Кластерный анализ

2019-06-04 19:10

Когда человек видит огромное количество объектов, у него возникает вполне логичное желание как-то их структурировать и упорядочить. В связи с этим желанием появилось разделение людей на типы темперамента, систематика растений и животных, всевозможные классификации болезней.

Как процесс классифицирования чего-либо выглядит сейчас?

Представьте, что у вас есть огромная таблица Excel — данные тысяч хорошо обследованных пациентов (объектов) с сепсисом и сотен признаков, характеризующих этих пациентов — как в разборе статьи из вчерашнего поста https://vk.com/clinical_study?w=wall-182541436_26.

В практике мы видим, что сепсис сепсису — рознь. Поэтому мы хотим выделить патогенетические подтипы и посмотреть, различаются ли они по прогнозу. Это можно сделать с помощью кластерного анализа.

Кластерный анализ — это способ создания классификации, в котором мы разбиваем исследуемые признаки и объекты на группы и далее анализируем их.

Где применяется кластерный анализ, помимо любимой нами медицины? Кластерный анализ очень популярен следующих сферах: в маркетинге для выделения целевых групп потребителей, в социологии для разбиения респондентов на однородные группы, в менеджменте для более эффективного управления персоналом.

Вне зависимости от того, что мы пытаемся классифицировать, кластерный анализ проходит следующие этапы:

• Отбор выборки для кластеризации. В нашем случае — это отбор пациентов с сепсисом, описание критериев включения/исключения пациентов в исследование. Чем больше наша выборка, тем более точным и эффективным будет кластерный анализ.

• Определение признаков, по которым будут оцениваться объекты в выборке. Какие измерения/анализы будут проводиться у наших пациентов? Какие параметры мы будем вносить в таблицу?

• Вычисления значений той или иной степени сходства (или различия) между объектами. Применение метода кластерного анализа для создания групп сходных объектов. Вручную это делать не требуется. Существует большое количество алгоритмов кластеризации: иерархическая кластеризация, метод к-средних, и т.д. Принципиально они работают следующим образом: мы строим обычный график, где смотрим как признак (переменная) Х связан с признаком Y. На графике каждая точка — это пациент и, к примеру, X — это уровень прокальцитонина, а Y — уровень АЛТ. Дальше мы измеряем расстояния между точками и формируем группы по принципу наименьшего расстояния между точками.

Источник: http://www.tidydata.ru/segmentation

Получается, что чем более кучно расположены точки, тем более однородны группы. В данном примере мы рассматриваем кластеризацию только по двум признакам, но обычно проводится многомерный анализ, то есть оценивается много параметров одновременно.

•Проверка достоверности результатов кластерного решения. Для того, чтобы проверить, насколько хорошо работает наша классификация, нужно протестировать её на «реальных данных» — то есть на данных НЕ из нашего исследования. Например, можно предложить дружественной больнице воспользоваться нашей классификацией и посмотреть, насколько хорошо она работает. Это называется внешней валидацией классификации.

В целом, кластерный анализ — это очень мощный инструмент для разведочного анализа данных в любой области.

Источник: m.vk.com



		Кластерный анализ
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-06-04 19:10 кластеризация данных Когда человек видит огромное количество объектов, у него возникает вполне логичное желание как-то их структурировать и упорядочить. В связи с этим желанием появилось разделение людей на типы темперамента, систематика растений и животных, всевозможные классификации болезней. Как процесс классифицирования чего-либо выглядит сейчас? Представьте, что у вас есть огромная таблица Excel — данные тысяч хорошо обследованных пациентов (объектов) с сепсисом и сотен признаков, характеризующих этих пациентов — как в разборе статьи из вчерашнего поста https://vk.com/clinical_study?w=wall-182541436_26. В практике мы видим, что сепсис сепсису — рознь. Поэтому мы хотим выделить патогенетические подтипы и посмотреть, различаются ли они по прогнозу. Это можно сделать с помощью кластерного анализа. Кластерный анализ — это способ создания классификации, в котором мы разбиваем исследуемые признаки и объекты на группы и далее анализируем их. Источник: #breadcrumbs Где применяется кластерный анализ, помимо любимой нами медицины? Кластерный анализ очень популярен следующих сферах: в маркетинге для выделения целевых групп потребителей, в социологии для разбиения респондентов на однородные группы, в менеджменте для более эффективного управления персоналом. Вне зависимости от того, что мы пытаемся классифицировать, кластерный анализ проходит следующие этапы: • Отбор выборки для кластеризации. В нашем случае — это отбор пациентов с сепсисом, описание критериев включения/исключения пациентов в исследование. Чем больше наша выборка, тем более точным и эффективным будет кластерный анализ. • Определение признаков, по которым будут оцениваться объекты в выборке. Какие измерения/анализы будут проводиться у наших пациентов? Какие параметры мы будем вносить в таблицу? • Вычисления значений той или иной степени сходства (или различия) между объектами. Применение метода кластерного анализа для создания групп сходных объектов. Вручную это делать не требуется. Существует большое количество алгоритмов кластеризации: иерархическая кластеризация, метод к-средних, и т.д. Принципиально они работают следующим образом: мы строим обычный график, где смотрим как признак (переменная) Х связан с признаком Y. На графике каждая точка — это пациент и, к примеру, X — это уровень прокальцитонина, а Y — уровень АЛТ. Дальше мы измеряем расстояния между точками и формируем группы по принципу наименьшего расстояния между точками. Источник: http://www.tidydata.ru/segmentation Получается, что чем более кучно расположены точки, тем более однородны группы. В данном примере мы рассматриваем кластеризацию только по двум признакам, но обычно проводится многомерный анализ, то есть оценивается много параметров одновременно. •Проверка достоверности результатов кластерного решения. Для того, чтобы проверить, насколько хорошо работает наша классификация, нужно протестировать её на «реальных данных» — то есть на данных НЕ из нашего исследования. Например, можно предложить дружественной больнице воспользоваться нашей классификацией и посмотреть, насколько хорошо она работает. Это называется внешней валидацией классификации. В целом, кластерный анализ — это очень мощный инструмент для разведочного анализа данных в любой области. https://medium.com/@breadcrumbszone/%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%BD%D1%8B%D0%B9-%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7-dde8d915677b https://habr.com/ru/post/228477/ Источник: m.vk.com Комментарии:

Кластерный анализ

Комментарии: