Шаги по использованию модели кластеризации (k-means)

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Поскольку данные становятся все более и более важными для людей из всех слоев общества, в последние годы появляется все больше и больше методов анализа данных. Модель кластеризации выглядит очень простой, но на самом деле она очень важна.

k-means - это алгоритм обучения без учителя. Смысл алгоритма заключается в наблюдении за набором немаркированных данных для автоматического обнаружения скрытой структуры , а также для обнаружения закономерности в немаркированных данных.

Применение модели кластеризации в анализе данных: можно использовать как отдельный процесс для поиска внутренних законов данных или в качестве предварительного исследования для других задач анализа, таких как классификация.

Например, мы хотим изучить, какие группы социального поведения есть на сайте нашего продукта.

В настоящее время пользователи могут быть сгруппированы в соответствии с пользовательскими атрибутами поведения, и каждый кластер может быть определен как тип социальной группы на основе результатов. Последующая модель классификации обучается на основе этих категорий, а пользователи помечаются для индивидуальной рекомендации и работы.

алгоритм k-means и расстояние

Целью кластеризации k-means является разделение n точек данных наблюдений на k кластеров в соответствии с определенным стандартом, а точки данных разделяются в соответствии с подобием. У каждого кластера есть центроид.

Центроид - это точка, полученная усреднением положений всех точек в кластере. Каждая точка наблюдения принадлежит кластеру, представленному ближайшим к ней центроидом. Модель, выберет метод кластеризации с наименьшей суммой квадратов расстояний (функция потерь) от n точек наблюдения до центроида кластера в качестве выходных данных модели. В кластерном анализе K-средних переменная признака должна быть числовой переменной, чтобы рассчитать расстояние.

Мы используем расстояние, чтобы измерить сходство двух образцов. Суть расстояния в том, что оно отображает сравнение двух выборок с многомерными характеристическими данными в число, и расстояние можно измерить по размеру этого числа.

Несколько распространенных методов расчета расстояния:

Суть k-средних состоит в том, чтобы каждый раз перемещать центроид к среднему значению всех точек в группе. Он основан не на расстоянии, а на основе минимизации суммы отклонений. Дисперсия точно евклидова. Квадрат расстояния: если используются другие расстояния, но все же для минимизации суммы дисперсий, весь алгоритм не будет сходиться, поэтому k-means использует метод Евклида.

Принцип алгоритма k-средних

Шаг 1. После нормализации данных и обработки выбросов случайным образом выберите k центроидов кластера. Выбор k будет подробно описан в следующем разделе;

Шаг 2: Все точки данных связаны и разделяются с ближайшими к ним центроидами, и это основной кластер деления; третий шаг: переместить массовую точку в центр (означает), где текущий кластер деления содержит все точки данных;

Повторите второй и третий шаги n раз, пока сумма квадратов расстояний от всех точек до центроида кластера, к которому они принадлежат, не станет наименьшей.

Шаги по использованию модели кластеризации (k-means)

Несколько раз случайным образом: выберите несколько кластеров, а затем случайным образом выберите несколько центроидов кластера на основе различных случайных начальных центроидов (центроидов на первом этапе):

  • Попытка 1: Первый шаг ? второй шаг ? третий шаг… (повторить два или три шага ~ 10 раз) ? метод кластеризации 1
  • Попытка 2: Первый шаг ? второй шаг ? третий шаг… (повторить второй и третий шаги ~ 10 раз) ? метод кластеризации 2

Среди результатов всех попыток выбран метод кластеризации с наименьшей суммой квадратов (суммой дисперсии) от всех точек до центроида кластера, к которому они принадлежат.

Метод выбора значения K

Выбор значения K - очень важный шаг алгоритма k-средних. Методы выбора значения K включают правило локтя, метод выстрела в голову, метод статистики зазора и коэффициент контура. В этой статье в основном представлены два распространенных метода - правило локтя и статистика зазора.

Правило локтя

Мы можем попробовать разные значения K и нарисовать функцию потерь, соответствующую разным значениям K, в виде ломаной линии. По горизонтальной оси отложено значение K, а по вертикальной оси - функция потерь, определяемая суммой квадратов расстояния. Сумма квадратов расстояния увеличивается с увеличением K. И уменьшить.

Когда K = 5, есть точка перегиба, как у человеческого локтя, когда k <5, кривая падает очень быстро, когда K> 5, кривая имеет тенденцию быть стабильной, и точка перегиба является наилучшим значением K .

Шаги по использованию модели кластеризации (k-means)

Статистика разрыва

Метод локтя - это метод, который сильно зависит от опыта, в то время как метод статистики разрыва не сильно зависит от опыта. Вам нужно только найти K, соответствующий статистике наибольшего разрыва. Мы продолжаем использовать указанную выше функцию потерь. При разделении на K групп соответствующая функция потерь равна Dk, тогда статистика разрыва определяется как:

Здесь E (logDk) - это ожидание logDk, которое генерируется симуляцией Монте-Карло. Мы случайным образом генерируем столько случайных выборок, сколько исходных выборок в области, где образцы расположены в соответствии с равномерным распределением, и выполняем k-средние для этих случайных выборок, получаем соответствующую функцию потерь Dk и приближенное значение E ( logDk) можно получить многократным повторением, чтобы можно было окончательно рассчитать статистику разрыва.

K, соответствующий максимальному значению статистики разрыва, является оптимальным количеством групп. Как показано на рисунке ниже, когда K = 3, Gap (K) имеет наибольшее значение, поэтому 3 является лучшим значением K.

Шаги по использованию модели кластеризации (k-means)

Фактический случай анализа данных K-means

История дела: чтобы лучше обслуживать оффлайн-магазин, платформа O2O добавляет дополнительную услугу, то есть использует свои собственные данные о географическом местоположении для выбора местоположения оффлайн-магазина.

Данные следующие: Каждая часть данных представляет собой особенность объекта интереса (POI-Point of Interest), которая конкретно относится к количеству различных предприятий / объектов в круге радиусом 500 метров с центром в этом месте.Мы скрываем каждый POI в данных.

Конкретное имя, координаты и тип. Выбранное место будет пытаться выбрать одно из этих мест в качестве следующего магазина.

Продавец хочет знать, есть ли значительная разница между этими 40 потенциальными магазинами. На сколько категорий мы можем разделить все POI по степени сходства?

шаг:

  • Подготовка данных: сбор данных, очистка данных, преобразование данных и другие шаги с упором на выбор и стандартизацию функций для целей анализа;
  • Моделирование данных: используйте алгоритм k-средних для моделирования данных;
  • Последующий анализ: анализ описания характеристик модели кластеризации, основанный на проблемах бизнеса, дальнейший анализ.

Источник: zen.yandex.ru

Комментарии: