Как сегментировать клиентов с помощью кластеризации KMeans | Неконтролируемого машинного обучения

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Бизнес всегда полагался на данные о своих клиентах, чтобы персонализировать и опыт. Но смотреть на свою аудиторию через призму основных демографических характеристик – метод довольно старый. И вот тут на сцену выходит машинное обучение. Идея сегментации клиентов состоит в том, чтобы объединить «похожих» клиентов вместе и персонализировать маркетинговые усилия в отношении этих кластеров.

В случае алгоритма машинного обучения модель решает (на основе информации, вводимой в модель), какие клиенты являются «похожими», и сегментирует их на кластеры.

На базовом уровне вы можете выполнять группировку RFM (недавность, частота и денежная ценность) для кластеризации ваших клиентов, но когда ситуация может усложняться с несколькими измерениями, мы можем использовать неконтролируемое машинное обучение (кластеризация KMeans) для кластеризации и сегментации клиентов для таргетинга.

Маркетологи всегда полагались на данные, чтобы персонализировать опыт своих клиентов, но смотреть на вашу аудиторию с базовой демографической точки зрения-это уже слишком. Таким образом, на сцену выходит машинное обучение. При сегментации клиентов идея состоит в том, чтобы объединить “похожих” клиентов вместе и персонализировать маркетинговые усилия в отношении этих кластеров.

В случае алгоритма ML модель решает (на основе информации, введенной в модель), какие клиенты “похожи”, и сегментирует их на кластеры.

На базовом уровне вы можете группировать RFM (Недавность, частота и денежная стоимость) для кластеризации ваших клиентов, но когда ситуация может усложниться из-за множества измерений, мы можем использовать Неконтролируемое машинное обучение (кластеризация KME) для кластеризации и сегментации клиентов для таргетинга.
Что такое кластеризация k-средних?

В этом алгоритме неконтролируемого машинного обучения мы начинаем с заданного числа кластеров, представленных буквой “k”. Затем мы назначаем точки данных кластерам на основе их ближайшего кластера.

После этого мы вычисляем среднее значение кластеров и переназначаем ближайшие кластеры на основе вновь найденных средних в качестве центроидов кластеров. Мы повторяем этот процесс до тех пор, пока назначенные кластеры не изменятся. Это видео на k-means объясняет это лучше всего.

https://www.youtube.com/watch?v=4b5d3muPQmA&t=173s
Мусор-в Мусор-Наружу

Как и любой другой алгоритм ML, результаты модели зависят от качества и актуальности данных, поступающих при создании модели. Мы, маркетологи, должны быть очень осведомлены о точках данных, которые мы используем для разработки нашей модели. Это должны быть измерения, которые достаточно хорошо объясняют ваших клиентов, чтобы сегментировать их.

Окончательные назначенные кластеры для ваших данных должны иметь логический смысл, прежде чем вы начнете персонализировать свой маркетинг.

Кластер может представлять различные перестановки и комбинации информации, которая вводится в модель.

Например: Если кластеризация проводится на основе пола, годового дохода и моделей покупок клиентов, кластер 1 может представлять в основном мужчин с годовым доходом более 10 000 долларов США и максимум 10 покупками в год.

Мы начинаем с загрузки набора данных как “customer_data”.

Затем мы отбрасываем такие переменные, как номер SL и идентификатор клиента, которые не имеют значения при построении модели.
Масштабирование Данных

Прежде чем мы начнем процесс моделирования, нам необходимо стандартизировать все непрерывные переменные, чтобы все переменные можно было привести к одинаковому масштабу. Для категориальных переменных нам нужно затем создать фиктивные переменные для тех же самых.

Чтобы определить идеальное количество кластеров для кластеризации K-средних, мы импортируем модель и находим сумму квадратов ошибок (SSE) по отношению к различным значениям “k”. Затем мы используем то, что обычно известно как “Метод локтя”, чтобы определить идеальное значение для поста “k”, при котором SSE не сильно уменьшается с увеличением кластеров. Всегда желательно, чтобы количество кластеров было как можно меньше.

Здесь мы выбрали k=3, потому что если k увеличивается более чем на 3, то мы не видим такого значительного снижения SSE. Затем мы запускаем модель на наших масштабированных данных, чтобы узнать этикетки для каждого клиента. Метки имеют значение либо 0,1,2 и хранятся в массиве под названием “модель.этикетки”

Затем мы можем сопоставить эти метки с исходными данными, чтобы понять, какой идентификатор клиента попадает в какой кластер.
Сопоставление меток с необработанными данными

Здесь мы видим “Ключ клиента”, сопоставленный с метками модели. Кроме того, мы можем объединить данные, чтобы понять 3 кластера с точки зрения заданных размеров данных.

Здесь мы видим, что в кластере 1 наибольшее количество клиентов с самым высоким средним значением. кредитный лимит и средний балл. кредитные карты и средний балл. общее количество посещений банка и среднее. общее количество сделанных звонков. Кластер 2 имеет наименьшую из всех переменных и насчитывает всего 50 клиентов.

Похоже, что наши самые ценные клиенты находятся в кластере 0, за которым следуют 1 и 2. Таким образом, мы должны соответствующим образом расставить приоритеты в нашей деятельности по дисконтированию и маркетингу.
Визуализация в 3D

Мы также можем нарисовать эти кластеры с 3 измерениями одновременно (так как более 3 измерений будет трудно представить в пространстве 2 D) и посмотреть, как эти кластеры сгруппировали точки данных.

Если мы внимательно посмотрим на 3d-график выше, мы увидим, что модель выполнила правильную работу по объединению похожих клиентов (по крайней мере, в 3 измерениях, рассмотренных для графика). Если вы хотите распространить эту идею на другие измерения, вы можете запустить тот же код с другими измерениями и проанализировать результаты.

В то время как существуют другие неконтролируемые алгоритмы машинного обучения, которые вы можете использовать для сегментации клиентов, кластеризация KMeans является наиболее популярной. Если вы хотите получить доступ к необработанным данным и файлам python, вы можете посетить https://github.com/AnkitBagga31/Customer_segmentation.

Чтобы узнать больше об алгоритме кластеризации K-средних на практике, вы можете посмотреть мое видео на YouTube и посетить ankitbagga.com для более продвинутых маркетинговых ресурсов.


Источник: ankitbagga.medium.com

Комментарии: