Шаги по использованию модели кластеризации (k-means) |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-12-21 01:19 Поскольку данные становятся все более и более важными для людей из всех слоев общества, в последние годы появляется все больше и больше методов анализа данных. Модель кластеризации выглядит очень простой, но на самом деле она очень важна. k-means - это алгоритм обучения без учителя. Смысл алгоритма заключается в наблюдении за набором немаркированных данных для автоматического обнаружения скрытой структуры , а также для обнаружения закономерности в немаркированных данных. Применение модели кластеризации в анализе данных: можно использовать как отдельный процесс для поиска внутренних законов данных или в качестве предварительного исследования для других задач анализа, таких как классификация. Например, мы хотим изучить, какие группы социального поведения есть на сайте нашего продукта. В настоящее время пользователи могут быть сгруппированы в соответствии с пользовательскими атрибутами поведения, и каждый кластер может быть определен как тип социальной группы на основе результатов. Последующая модель классификации обучается на основе этих категорий, а пользователи помечаются для индивидуальной рекомендации и работы. алгоритм k-means и расстояние Целью кластеризации k-means является разделение n точек данных наблюдений на k кластеров в соответствии с определенным стандартом, а точки данных разделяются в соответствии с подобием. У каждого кластера есть центроид. Центроид - это точка, полученная усреднением положений всех точек в кластере. Каждая точка наблюдения принадлежит кластеру, представленному ближайшим к ней центроидом. Модель, выберет метод кластеризации с наименьшей суммой квадратов расстояний (функция потерь) от n точек наблюдения до центроида кластера в качестве выходных данных модели. В кластерном анализе K-средних переменная признака должна быть числовой переменной, чтобы рассчитать расстояние. Мы используем расстояние, чтобы измерить сходство двух образцов. Суть расстояния в том, что оно отображает сравнение двух выборок с многомерными характеристическими данными в число, и расстояние можно измерить по размеру этого числа. Несколько распространенных методов расчета расстояния: Суть k-средних состоит в том, чтобы каждый раз перемещать центроид к среднему значению всех точек в группе. Он основан не на расстоянии, а на основе минимизации суммы отклонений. Дисперсия точно евклидова. Квадрат расстояния: если используются другие расстояния, но все же для минимизации суммы дисперсий, весь алгоритм не будет сходиться, поэтому k-means использует метод Евклида. Принцип алгоритма k-средних Шаг 1. После нормализации данных и обработки выбросов случайным образом выберите k центроидов кластера. Выбор k будет подробно описан в следующем разделе; Шаг 2: Все точки данных связаны и разделяются с ближайшими к ним центроидами, и это основной кластер деления; третий шаг: переместить массовую точку в центр (означает), где текущий кластер деления содержит все точки данных; Повторите второй и третий шаги n раз, пока сумма квадратов расстояний от всех точек до центроида кластера, к которому они принадлежат, не станет наименьшей. Несколько раз случайным образом: выберите несколько кластеров, а затем случайным образом выберите несколько центроидов кластера на основе различных случайных начальных центроидов (центроидов на первом этапе):
Среди результатов всех попыток выбран метод кластеризации с наименьшей суммой квадратов (суммой дисперсии) от всех точек до центроида кластера, к которому они принадлежат. Метод выбора значения K Выбор значения K - очень важный шаг алгоритма k-средних. Методы выбора значения K включают правило локтя, метод выстрела в голову, метод статистики зазора и коэффициент контура. В этой статье в основном представлены два распространенных метода - правило локтя и статистика зазора. Правило локтя Мы можем попробовать разные значения K и нарисовать функцию потерь, соответствующую разным значениям K, в виде ломаной линии. По горизонтальной оси отложено значение K, а по вертикальной оси - функция потерь, определяемая суммой квадратов расстояния. Сумма квадратов расстояния увеличивается с увеличением K. И уменьшить. Когда K = 5, есть точка перегиба, как у человеческого локтя, когда k <5, кривая падает очень быстро, когда K> 5, кривая имеет тенденцию быть стабильной, и точка перегиба является наилучшим значением K . Статистика разрыва Метод локтя - это метод, который сильно зависит от опыта, в то время как метод статистики разрыва не сильно зависит от опыта. Вам нужно только найти K, соответствующий статистике наибольшего разрыва. Мы продолжаем использовать указанную выше функцию потерь. При разделении на K групп соответствующая функция потерь равна Dk, тогда статистика разрыва определяется как: Здесь E (logDk) - это ожидание logDk, которое генерируется симуляцией Монте-Карло. Мы случайным образом генерируем столько случайных выборок, сколько исходных выборок в области, где образцы расположены в соответствии с равномерным распределением, и выполняем k-средние для этих случайных выборок, получаем соответствующую функцию потерь Dk и приближенное значение E ( logDk) можно получить многократным повторением, чтобы можно было окончательно рассчитать статистику разрыва. K, соответствующий максимальному значению статистики разрыва, является оптимальным количеством групп. Как показано на рисунке ниже, когда K = 3, Gap (K) имеет наибольшее значение, поэтому 3 является лучшим значением K. Фактический случай анализа данных K-means История дела: чтобы лучше обслуживать оффлайн-магазин, платформа O2O добавляет дополнительную услугу, то есть использует свои собственные данные о географическом местоположении для выбора местоположения оффлайн-магазина. Данные следующие: Каждая часть данных представляет собой особенность объекта интереса (POI-Point of Interest), которая конкретно относится к количеству различных предприятий / объектов в круге радиусом 500 метров с центром в этом месте.Мы скрываем каждый POI в данных. Конкретное имя, координаты и тип. Выбранное место будет пытаться выбрать одно из этих мест в качестве следующего магазина. Продавец хочет знать, есть ли значительная разница между этими 40 потенциальными магазинами. На сколько категорий мы можем разделить все POI по степени сходства? шаг:
Источник: zen.yandex.ru Комментарии: |
|