Дата-майнинг: процесс, типы методики и инструменты |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-05-25 15:18 Дата-майнинг, в основе которого лежат научные и технологические принципы — это стратегический процесс, предназначенный для выявления паттернов, корреляций и трендов, скрывающихся под поверхностью информации. В этой статье мы расскажем о том, что такое дата-майнинг, о его методиках, инструментах, опыте использования и примерах. Что такое дата-майнинг? Дата-майнинг (data mining) — это процесс обработки данных для выявления паттернов, корреляций и аномалий в крупных датасетах. В нём применяются разнообразные методики статистического анализа и машинного обучения для извлечения из данных значимой информации и выводов. Компании могут использовать эти выводы для принятия обоснованных решений, прогнозирования трендов и совершенствования бизнес-стратегий. Этот процесс является неотъемлемой частью преобразования огромных объёмов сырых данных (структурированных, неструктурированных и частично структурированных) в ценные знания, на основании которых можно планировать свои действия. Краткая история дата-майнинга Как отдельная область дата-майнинг возник в 1990-х, но его концепция уходит корнями в середину 20-го века. Изначально дата-майнинг назывался извлечением знаний из баз данных (knowledge discovery in databases, KDD). Эта методика стала реакцией на появление крупномасштабных накопителей данных (например, хранилищ данных и озёр данных). В таких больших репозиториях можно хранить множество данных. Из этого логически проистекает необходимость понимания всей этой информации. Дата-майнинг и машинное обучение Дата-майнинг легко перепутать с другими процессами обработки данных, например, с машинным обучением. Преимущества дата-майнинга Дата-майнинг может быть крайне выгодным для бизнеса. Чтобы доказать это, приведём список его критически важных преимуществ.
Разумеется, есть и другие полезные пункты, о которых мы поговорим ниже. Как работает дата-майнинг: основные этапы процесса дата-майнинга Опубликованная в 1999 году статья Cross Industry Standard Process for Data Mining (CRISP-DM) — это структурированный подход к выполнению дата-майнинга за шесть последовательных этапов. Многие специалисты по-прежнему используют этот всеобъемлющий фреймворк для стандартизации процессов отраслевого дата-майнинга. Давайте подробнее рассмотрим этапы CRISP-DM. Диаграмма процессов, демонстрирующая связи между этапами дата-майнингаПонимание бизнеса (Business understanding). Аналогично тому, как перед приёмом лекарств мы читаем инструкцию, перед началом процесса дата-майнинга необходимо выполнить общие подготовительные действия. Первый этап заключается в анализе целей и требований проекта обработки данных с точки зрения бизнеса. Он включает в себя определение масштабов задачи, выявление основных бизнес-вопросов, на которые должен ответить дата-майнинг, и формулирование первоначального плана по достижению этих целей. Понимание и сбор данных (Data understanding and collection). На этом этапе дата-саентисты начинают собирать и изучать данные, чтобы освоиться в них, выявить проблемы их качества и сделать первые выводы. Этот процесс может включать в себя исследование размеров, природы и паттернов данных, понимание имеющихся источников данных. Подготовка данных (Data preparation). Часто это самый длительный этап, включающий в себя очистку и преобразование сырых данных в формат, подходящий для анализа. Этот процесс заключается в выявлении отсутствующих значений, устранение несоответствий, нормализации данных и потенциальном преобразовании переменных. Его задача заключается в создании из сырых данных готового датасета для моделирования. Моделирование (Modeling). На этом этапе специалисты по дата-майнингу выбирают математические методики, которые будут использоваться для обработки данных. Обычно хорошей практикой является проверка разных алгоритмов и моделей с целью выявления наилучшей методики распознавания паттернов и прогнозирования на основании подготовленных данных. Спектр методик очень широк: от простых регрессионных моделей до сложных нейросетей. Ниже мы расскажем об основных методиках. Оценка (Evaluation). На этом этапе часто выполняется оценка точности, надёжности и валидности модели. При проверке точности определяется, как часто модель выдаёт правильные результаты. Надёжность связана с согласованностью модели: если использовать модель много раз, то выдаёт ли она каждый раз одинаковые результаты? Проверка валидности позволяет понять, действительно ли модель прогнозирует то, что должна. Этап оценки может включать итерации и тонкую настройку модели с целью повышения её производительности. Развёртывание (Deployment). Развёртывание может заключаться и в генерации отчёта с выводами и рекомендациями на основании результатов, и в интеграции модели дата-майнинга в действующие системы компании. Этот последний этап должен гарантировать, что вы можете эффективно преобразовывать выводы, сделанные при дата-майнинге, в бизнес-стратегии или решения. Каждый этап процесса CRISP-DM итеративен, то есть выводы или проблемы, выявленные на поздних этапах, могут привести к пересмотру более ранних. Его циклическая природа обеспечивает непрерывное совершенствование и релевантность проекта дата-майнинга целям бизнеса. Типы дата-майнинга: основные техники и методики дата-майнинга Как я и обещал, здесь мы объясним фундаментальные техники дата-майнинга. Дата-майнинг в общем смысле можно разбить на два основных типа предиктивный и дескриптивный дата-майнинг. Каждый из типов отвечает определённым потребностям бизнеса и предоставляет уникальную информацию. Типы и техники дата-майнингаВпрочем, некоторые методики дата-майнинга гибки: в зависимости от сферы использования специалисты могут применять их в предиктивном и дескриптивном контекстах. Эти гибкие методики можно выделить в отдельный раздел. Предиктивное моделирование Предиктивный дата-майнинг занимается анализом текущих и исторических данных для прогнозирования будущих событий. Особенно полезно это в ситуациях, когда критически важно понимать тренды, паттерны и возможные результаты. Например, в отрасли здравоохранения предиктивный дата-майнинг можно использовать для анализа данных пациентов и медицинских карт с целью прогнозирования будущих эпидемий, выявления факторов риска для определённых заболеваний и совершенствования ухода за пациентом при помощи персонализированных планов лечения.
Классификация — это сортировка данных на заранее выбранные категории. Этот процесс исследует атрибуты данных, чтобы определить, к какому классу относится каждый элемент данных. Идентифицировав ключевые характеристики данных, можно систематически группировать или классифицировать соответствующие данные. Например, авиакомпания может классифицировать клиентов на основании частоты полётов и паттернов трат. Она может идентифицировать частых бизнес-путешественников, покупающих премиальные услуги, и отдыхающих, которые предпочитают лоукостеры. Затем авиакомпания может предлагать программы лояльности и делать персонализированные предложения, чтобы повысить удобство и лояльность клиентов. Регрессия используется для выявления и анализа взаимоотношений между разными переменными в данных. Основная задача регрессии — создание модели, способной вычислять значение одной переменной (зависимая переменная) на основании изменения других переменных (независимые переменные). Например, сеть отелей может использовать регрессию для анализа прошлых анализов бронирования и стратегий ценообразования для прогнозирования дохода в разные сезоны. Анализ временных последовательностей — это специализированная методика анализа и интерпретации данных, собираемых через регулярные промежутки времени. Эта методика особенно полезна при выявлении трендов, сезонных паттернов и циклических поведений. В отличие от других методик дата-майнинга, имеющих дело со статической информацией, анализ временных последовательностей изучает данные, изменяющиеся со временем. Авиакомпании часто используют анализ временных последовательностей для прогнозирования спроса пассажиров. Изучая исторические данные покупки и отмены покупки авиабилетов, количества пассажиров, авиакомпания может определить пиковые периоды полётов, сезонные колебания и тренды спроса на долгую перспективу. Дескриптивное моделирование Дескриптивный дата-майнинг делает упор на создание сводок и понимание характеристик исторических данных. Он старается выявить паттерны, взаимоотношения и структуры в имеющихся данных, что помогает понять внутреннее поведение данных. Методики дескриптивного дата-майнинга:
Кластеризация группирует различные примеры данных на основании их схожести, формируя кластеры, члены которых имеют больше общего, чем находящиеся в других кластерах. В отличие от классификации, при которой данные сортируются в заранее установленные категории на основании известных атрибутов, кластеризация — это исследовательское группирование данных без готовых меток. Например, бизнес по организации круизов может применять кластеризацию для сегментации клиентов с целью более эффективного маркетинга. Изучая такие данные, как история путешествий, траты на борту и демографический состав, круизные компании могут выявлять естественные группы среди своих клиентов. Один кластер может состоять из семей, предпочитающих удобные для детей активности, а другой — из пар пенсионеров, стремящихся к изысканным удовольствиям. Обобщение (Summarization) — это сжатие крупных датасетов в более удобную и понятную форму без потери важной информации. Этот процесс включает в себя извлечение ключевых признаков данных, позволяющих быстро просматривать и понимать их основные характеристики. Возьмём для примера большую сеть отелей со множеством отделений по всему миру. Обобщение можно использовать для консолидации и презентации таких ключевых операционных данных, как коэффициент заполнения номеров, средняя стоимость номеров и демография посетителей. Также это может включать в себя создание краткого отчёта или дэшборда для быстрой оценки показателей. Ассоциативные правила — это методика дескриптивного моделирования данных, нацеленная на выявление интересных взаимосвязей и ассоциаций между разными переменными в крупных датасетах. В отличие от обобщения, конденсирующего данные, и классификации/кластеризации, группирующих схожие элементы, ассоциативные правила выявляют паттерны, связи и совместное появление элементов в данных. Эта методика особенно ценна при выявлении паттернов, которые могут быть неочевидны на первый взгляд. В контексте отелей ассоциативные правила могут помочь в выявлении взаимосвязей между сервисами, используемыми посетителями. Например, анализ может показать, что путешествующие в одиночку часто предпочитают номера, окна которых не выходят на бассейн (и готовы платить за них больше). Этот паттерн может быть показателем того, что эти посетители (возможно, путешествующие с деловыми целями) предпочитают более тихие места, удалённые от потенциальных источников шума. Аналогично, может выясниться, что семьи с детьми часто просят соседние номера и с большой вероятностью будут питаться в удобном для семей ресторане отеля. Методики дата-майнинга двойного назначения Как говорилось выше, существуют методики, которые можно адаптировать и для предиктивного, и для дескриптивного дата-майнинга, поэтому высока их ценность в различных сценариях использования.
Деревья решений, строго говоря, являются алгоритмами машинного обучения, но их можно использовать и в дата-майнинге для принятия решений. Дерево решений можно представить в виде диаграммы, имеющей форму дерева: в каждой точке ветвления дерево задаёт вопрос о данных, и выбираемый маршрут зависит от ответа на этот вопрос. В конце каждой ветви находится прогноз или решение. В задачах классификации эти конечные точки разделяют данные на категории; в задачах регрессии они прогнозируют числовое значение. Компания по прокату автомобилей может использовать деревья решений для оценки риска повреждения или вероятность задержек возвратов арендованных машин. В дереве могут учитываться такие факторы, как длительность проката, арендная история клиента, тип машины и конечная точка. На основании этих входных данных дерево решений может помочь разделить прокатные автомобили на разные группы риска. Например, кратковременный прокат стандартного автомобиля клиентом с чистой историей прокатов может считаться низкорискованным, а прокат на долгий срок мощного автомобиля новым клиентом — иметь повышенный риск. Выявление аномалий — это критически важная методика дата-майнинга, выявляющая примеры данных, существенно отличающиеся от большинства данных. Эти аномалии могут возникать из-за колебаний измерений или быть показателями ошибки экспериментов; в некоторых случаях они могут указывать на важное открытие или на новый тренд. Возьмём для примера компанию, имеющую большой грузовой автопарк и занимающуюся грузоперевозками. Выявление аномалий может помочь в нахождении необычных паттернов в потреблении топлива, времени доставки или техобслуживании автомобиля. Например, если один грузовик регулярно демонстрирует повышенное потребление топлива на одном маршруте по сравнению с другими грузовиками, это может говорить о проблеме в техобслуживании или о неэффективном вождении. Описанные выше методики дата-майнинга — лишь верхушка айсберга. Существует множество других методик и алгоритмов, у которых есть свои уникальные сильные стороны и области применения. Кроме того, важно подчеркнуть растущую роль нейросетей в дата-майнинге. Сегодня модели глубокого обучения всё чаще используются для сложных задач дата-майнинга. Эти модели особенно хорошо справляются с огромными объёмами неструктурированных данных, такими, как изображения, тексты и звуки, расширяя границы возможного в сферах распознавания паттернов, выявления аномалий и предиктивной аналитики. Примеры и сценарии использования дата-майнинга Дата-майнинг может быть полезен во множестве разных сфер. Ниже представлены самые популярные случаи. ПО для дата-майнинга Существуют различное ПО и инструменты, удовлетворяющие разнообразным потребностям компаний. Эти инструменты можно разбить на несколько ключевых категорий. Общие советы и рекомендации по дата-майнингу Запуск проекта дата-майнинга может быть утомительной задачей. Ниже представлено несколько основных рекомендаций, позволяющих сделать всё правильно.
Следуя этим практикам, вы сможете эффективно использовать дата-майнинг для получения ценных выводов, позволяющих принимать обоснованные решения. Понравилась статья? Еще больше контента на темы разметки, Data Mining и ML вы можете найти в нашем Telegram канале “Где данные, Лебовски?”
Обо всем этом читайте в “Где данные, Лебовски?” Источник: habr.com Комментарии: |
|