Классификация, регрессия и другие алгоритмы Data Mining с использованием R |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-11-02 10:42 1.1 Data Mining как направление анализа данных1
1.1.1 От статистического анализа разового эксперимента к Data Mining Экспериментальные данные, представленные в компьютерном формате в виде взаимосвязанных таблиц, нуждаются в таких процедурах их обработки анализа и обработки, которые, во-первых, делают очевидными потенциально возможные закономерности и связи между отдельными компонентами и, во-вторых, дают возможность предсказать новые факты. В узком плане речь может идти об оценке значения целевого признака y (отклика) для любого объекта a по его описанию x – набору независимых переменных (предикторов). Однако в более широком смысле затрагиваются традиционно ключевые вопросы многомерного анализа систем:
До начала 90-х годов основной практикой научного исследования была оценка по Р. Фишеру отдельных “взаимодействий в разовом эксперименте” и, казалось, не было особой нужды кардинально менять ситуацию в этой области. Однако внедрение современных информационных технологий обрушило на людей колоссальные объемы разнородных данных в самых различных областях. Возник вопрос, что делать с этой информацией, поскольку ее осмысление без возможности ее эффективной обработки оказалось невозможным (Дюк, Самойленко, 2001; Барсегян и др., 2009). Время “лоскутных исследований” стремительно проходит, уступая место комплексному (сейчас говорят “системному”) подходу к описанию процессов и явлений. Поэтому актуальной стратегией современной прикладной статистики является обработка массивов постоянно пополняемых и расширяемых данных с целью создания адекватных многофункциональных моделей изучаемых систем. Создались предпосылки для построения адаптируемых моделей, шаг за шагом улучшающихся по мере поступления новых экспериментальных данных или расширения “сферы влияния” модели. Современные информационные технологии предполагают размещение таблиц в сконцентрированном виде в хранилищах данных (Барсегян и др., 2009). В этих системах разрозненная информация представляется в виде многомерного куба, которым можно легко манипулировать, извлекая срезами нужную информацию. Для проверки сложных гипотез и решения стратегических проблем используется аппарат извлечения знаний из обширных баз данных (knowledge discovery in databases), основой которого является интеллектуальный анализ данных – Data Mining. Data Mining - это метафора от горной добычи: разработки пород, извлечение чего-то ценного, откапывание драгоценных крупиц ценных веществ в большом количестве сырого материала, но, соответственно, в применении к данным. По содержанию этот термин достаточно точно определяет Г. Пиатецкий-Шапиро (Piatetsky-Shapiro): “это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей”. К настоящему времени термин Data Mining оформился как собирательное название целой совокупности методов при решении конкретных задач глубокого анализа данных с целью выявления скрытых закономерностей. Ряд направлений имеет достаточно специфический и иногда локальный характер: обработка текстов (Text Mining - Sakurai, 2012), анализ социальных сетей и функции работы с графами (Zafarani et al., 2015), решение проблем работы с большими массивами данных (Leskovec et al., 2014), выделение последовательностей термов (Wang, Yang, 2005) и т.д. В настоящей книге эти алгоритмы рассматриваться не будут. Извлечение научных гипотез (data mining) и их последующий анализ (data analysis) - два комплексных неразрывно связанных процесса. Они протекают по стандартной схеме установления физических законов: сбор экспериментальных данных, организация их в виде таблиц и поиск такого способа обработки, который позволил бы обнаружить в исходных данных новые знания об анализируемом процессе. При этом должно быть ясное понимание того, что эти знания, как всегда для любого сложного явления, остаются в какой-то степени приближенными: чем глубже анализируется реальная сложная система, тем менее определенными становятся наши суждения о ее поведении. 1.1.2 Принципиальная множественность моделей окружающего мира Сложность системы и точность, с которой её можно анализировать, связаны обратной зависимостью: “…исследователь постоянно находится между Сциллой усложненности и Харибдой недостоверности. С одной стороны, построенная им модель должна быть простой в математическом отношении, чтобы её можно было исследовать имеющимися средствами. С другой стороны, в результате всех упрощений она не должна утратить и”рациональное зерно“, существо проблемы” (Самарский, 1979, с. 28). Любая сложная система ведет себя контринтуитивно, т.е. она реагирует на воздействие совсем иным образом, чем это нами интуитивно ожидалось (Форрестер, 1977; Розенберг, 2013). При этом декларируемая нами точность любого математического описания системы - это не абсолютный вердикт, а только принятое нами соглашение о способе отождествления модели и реального мира. В современных исследованиях обычно анализируются результаты пассивных наблюдений, поскольку поставить управляемый рандомизированный эксперимент часто попросту невозможно. Т.к. мы не точно не знаем, какие параметры определяют наш процесс, то для интерпретации данных крайне важно иметь по возможности полный список конкурирующих гипотез. Итогом статистического анализа является тогда уже не некая неоспоримая истина, а полезные (оптимальные в частном смысле) модели исследуемого явления, которые могут быть сопоставлены между собой, а в дальнейшем уточнены, дополнены или заменены на лучшие. “Процедура проверки значимости нулевой гипотезы, основанная на значении Pval, - квинтэссенция традиционной (ортодоксальной) статистической практики и одновременно - ее величайшее недоразумение и заблуждение… Преодоление порогового (критического) уровня Pval<0.05 всего лишь в одной выборке часто необоснованно считается достаточным для вывода о статистической значимости наблюдаемого эффекта (или даже его”достоверности“)” (Хромов-Борисов, 2011). Вероятно, при всей ее категоричности, эта точка зрения вполне заслуживает всяческого внимания. Сразу стоит также подчеркнуть, что идеального метода, который одинаково хорошо покажет себя для любых целей и на любом наборе данных, попросту не существует. Поэтому нельзя игнорировать принцип множественности моделей В. В. Налимова (1971): для объяснения и предсказания структуры и (или) поведения сложной системы возможно построение нескольких моделей, имеющих одинаковое право на существование. Мультимодельный вывод (Anderson, 2008) предполагает также оценку параметров (их ошибок и доверительных интервалов) на основе не единственной модели, а их ряда. И здесь важны тщательная диагностика и широкая верификация построенных моделей, которые мы будем подробно обсуждать в главе 2. Наконец, следует помнить о том, что любой статистический метод будет хорош настолько, насколько качественными являются входные данные для обучения модели (англ. “garbage in - garbage out” или “хлам на входе - хлам на выходе”). Без затраты усилий на подготовку обучающей выборки (фильтрация, трансформация, удаление пропущенных значений, создание производных предикторов и т.д.) и понимания моделируемого процесса чудес не случается. 1.1.3 Нарастающая множественность алгоритмов построения моделей Одна из ключевых проблем, с которой исследователь сталкивается при разработке статистической модели изучаемого явления, заключается в выборе оптимального для конкретного случая алгоритма извлечения закономерностей. За несколько последних десятилетий было разработано огромное множество методов для решения задач классификации и регрессии, что, безусловно, существенно затрудняет этот выбор. Попытки ранжирования статистических методов по их эффективности предпринимались неоднократно. Например, одна из недавно опубликованных статей (Fernandez-Delgado et al., 2014) так и называлась “Do We Need Hundreds of Classifiers to Solve Real World Classification Problems?” (“Нужны ли нам сотни классификаторов для решения практических проблем классификации?”). В этом обстоятельном исследовании была изучена эффективность работы 179 методов классификации из 17 “семейств” на 121 наборе данных. Читатель может рассматривать эту интересную статью даже просто как справочник по методам распознавания. В проведенном исследовании для каждого метода классификации оценивалась общая верность предсказаний (overall accuracy) и другие показатели эффективности моделей. Авторы предложили ограничиться следующими четырьмя семействами методов, обладающими наибольшей точностью прогноза (перечислены в порядке убывания эффективности):
Хотя приведенный выше список касается моделей-классификаторов, можно ожидать, что перечисленные методы будут также хорошо работать и для задач регрессии (т.е. для предсказания количественного отклика). Тем не менее, если количество предикторов невелико и в них отражается реально существующая закономерность, не следует забывать, что хорошие результаты можно получить и с использованием традиционных методов регрессии. Интересное обсуждение того, что простые методы (на примере классификаторов) при решении практических задач часто превосходят более сложные алгоритмы, можно найти также в широко цитируемой работе Д. Xэнда (Hand, 2006). Часто выбор того или иного метода обусловлен предыдущим опытом и уровнем осведомленности исследователя. Так, в определенных областях может существовать своего рода “традиция” по использованию тех или иных методов для решения конкретного круга задач. В силу естественной ограниченности своей специализации исследовать может также просто не знать о существовании методов, которые являются более подходящими для его ситуации. Можно столкнуться и с такими случаями, когда некий разработчик программного обеспечения утверждает, что его новый алгоритм “не имеет аналогов”, превосходя все другие доступные решения. Поэтому важнейшей задачей аналитиков является репрезентативное тестирование и тщательная сравнительная диагностика широкого множества моделей-претендентов. Наличие подобной информации будет особенно полезным при работе над новыми проектами/данными, когда предыдущий опыт, который мог бы подсказать, с чего стоит начинать, отсутствует. 1.1.4 Типы и характеристики групп моделей Data Mining Предварительно, не вторгаясь в терминологические детали, отметим, что все три дисциплины – Data Mining, машинное обучение (Machine Learning) и статистический анализ - работают на одном и том же предметном поле и используют фактически одни и те же алгоритмы. Общие для них черты и темы гораздо обширней, чем различия, которые носят характер того или иного “уклона”: Data Mining включает в сферу своей компетенции практически необходимые приемы работы с большими массивами данных, сетями и проч., машинное обучение склонно к красивой фразеологии по поводу искусственного интеллекта, а статистический анализ ищет обоснование своих процедур в теоретико-вероятностном подходе. В рамках нашего изложения эти дисциплины рассматриваются как синонимы. Представленное выше многообразие методов построения моделей порождает разнообразие подходов к их группировке. По способам решения задачи разделяют на “обучение с учителем” и “обучение без учителя”. Формирование решающих правил без “учителя” объединяет алгоритмы, выявляющие скрытые закономерности без каких-либо предварительных знаний об анализируемых данных. В этом случае результаты наблюдений обычно геометрически интерпретируются как существенно “размытые” сгущения точек (объектов) в многомерном пространстве признаков. Важнейшими методами поиска закономерностей без учителя являются кластеризация и ординация. Кластеризация исходит из принципа “дискретности” (или разделяемости) и пытается найти оптимальное разбиение исходной совокупности на отдельные группы (классы) однородных объектов таким образом, чтобы различия между группами были максимально возможными. Ординация основывается на принципе континуальности (непрерывности) и ищет упорядоченную последовательность проекций изучаемых объектов на главные оси пространства, с которыми потенциально может быть связана интерпретация научных гипотез. Алгоритмы индуктивного распознавания с обучением (Ripley, 1996; Vapnik, 1995; Agresti, 2007; Hastie et al., 2007; Zaki M., Meira, 2014) предполагают наличие априори заданной выборки прецедентов, позволяющей построить модели статистической связи x?y , где
, Y
Источник: ranalytics.github.io Комментарии: |
|