Что означает понятие «дрейф»?

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


«Дрейф понятий — самое нежелательное, но распространенное свойство потоковой передачи данных, поскольку потоки данных очень непредсказуемы. Из-за дрейфа концепций производительность методов интеллектуального анализа, таких как классификация или кластеризация, снижается по мере увеличения вероятности ошибочной классификации. Поэтому становится необходимым выявлять такие отклонения в данных, чтобы получать эффективные и точные результаты». 

(Ссылка: Методы исследования смещения понятий в потоках больших данных )

Рис. 1. Жизненный цикл прогнозной модели.

При прогнозном моделировании (как показано на рисунке выше) мы создаем контролируемую модель на основе исторических данных, а затем используем обученную модель для прогнозирования на основе невидимых данных. В процессе модель изучает взаимосвязь между целевой переменной и входными объектами. 

Рис. 2. Обученная модель не смогла правильно спрогнозировать данные внекорпусного тестирования.

Например, классификатор спама в электронной почте, который прогнозирует, является ли электронное письмо спамом или нет, на основе текстового тела электронного письма. Модель машинного обучения изучает взаимосвязь между целевой переменной (спам или не спам) и набором ключевых слов, которые появляются в спам-сообщении. Эти наборы ключевых слов не могут быть постоянными, их структура меняется со временем . Следовательно, модель, построенная на старом наборе электронных писем, больше не работает с новым шаблоном ключевых слов. Если это так, то необходимо переобучить модель на текущем наборе данных.

Рис. 3. Производительность модели с течением времени ( ссылка ).

На этом рисунке показана производительность модели с течением времени, поскольку вы видите, что производительность модели (измеренная по показателю F1) ухудшается с течением времени. Это явление называется распадом модели. Когда производительность падает ниже порогового значения, модель повторно обучается на перемаркированном наборе данных. Так решается проблема разрушения модели. Если эту проблему не решать и не контролировать, производительность модели будет продолжать ухудшаться, и в какой-то момент модель перестанет служить своей цели. 

В целом распад модели может произойти из-за следующего типа сдвига.

  • Ковариатный сдвиг: сдвиг независимых переменных. 
  • Сдвиг априорной вероятности: сдвиг целевой переменной.
  • Концептуальный дрейф: сдвиг во взаимоотношениях между независимой и целевой переменной.

Дрейф концепции против смещения ковариации

Рассмотрим модель рекомендаций фильмов, обученную на фильмах, которые смотрят пенсионеры. Будет ли она давать хорошую точность, когда эта модель будет использоваться для рекомендации фильмов детям? Я не буду. Причина в том, что между этими двумя группами существует большой разрыв в интересах и деятельности. Значит, в этих условиях модель потерпит неудачу. Такие изменения в распределении данных в обучающих и тестовых наборах называются ковариатным сдвигом. 

Рис. 4. Разница в распределении между обучающим и тестовым наборами данных в случае ковариатного сдвига ( ссылка )

Основной причиной возникновения ковариатного сдвига является систематическая ошибка отбора выборки и нестационарная среда.

  • Смещение выборки: это относится к систематическому недостатку в процессе сбора или маркировки данных, из-за которого обучающие примеры отбираются неравномерно из генеральной совокупности для единообразного моделирования.
  • Нестационарные стационарные среды: появляются, когда обучающая среда отличается от тестовой, будь то из-за временного или пространственного изменения.

Сдвиг ковариации и дрейф понятий являются причиной ухудшения производительности модели, но к обоим следует относиться по-разному. Таким образом, необходимо устранить неоднозначность ковариатного сдвига, связанного с дрейфом концепций, и применять профилактические меры, основанные на наличии ковариатного сдвига или дрейфа концепций, или того и другого. 

Дрейф данных против дрейфа концепции

В мире больших данных в каждый момент времени генерируются миллиарды данных. Поскольку мы собираем данные из источника в течение длительного времени, сами данные могут измениться, и это может быть по нескольким причинам. это может быть связано с динамическим поведением шума в данных или с изменением процесса сбора данных. 

Когда данные изменяются в целом, эта проблема называется дрейфом данных, тогда как изменения в контексте целевой переменной называются дрейфом концепции. Оба эти отклонения приводят к ухудшению качества модели, но их необходимо решать отдельно.

Примеры отклонения концепций

  • Персонализация : будь то электронная коммерция, рекомендации фильмов или система личного помощника, персонализация является ключом к успеху для большинства компаний, ориентированных на клиента. В электронной коммерции система персонализации пытается профилировать модель покупок пользователя и на основе этого предоставлять персонализированные результаты поиска или рекомендовать соответствующие продукты. Из-за непредвиденных обстоятельств покупательское поведение пользователя может со временем измениться, это может быть связано с таким жизненным событием , как брак, переезд в другое географическое место, или из-за пандемии, такой как COVID-19. Это событие кардинально изменило покупательские привычки пользователей . Из-за подобных факторов система персонализации, созданная сегодня, может быть не столь актуальной через несколько лет, и это связано с проблемой дрейфа концепций.
  • Прогнозирование.   Прогнозирование — это область исследований, в которой мы предсказываем будущие тенденции. Он широко используется в финансах, погоде и прогнозировании спроса. Обычно такого рода модели строятся с использованием исторических данных, и ожидается, что они уловят тип тенденции и сезонности, присутствующие в исторических данных, которым можно будет следовать в будущем. Но из-за непредвиденных обстоятельств тенденция может измениться, что может привести к дрейфу концепции. В данных о погоде наблюдаются сезонные изменения, которые происходят очень медленно. В других приложениях подобные изменения обычно происходят гораздо медленнее. Но со временем существующая модель устареет.

Как отслеживать дрейф концепции

Рис. 5. Система мониторинга отклонения концепции

Общий способ отслеживания отклонения концепций показан на следующем изображении:

  • Сначала собирается и обрабатывается набор обучающих данных, 
  • затем модель обучается этому. 
  • модель постоянно отслеживается на основе золотого набора данных, который курируется экспертами. 
  • Если показатель производительности снижается ниже порогового значения, срабатывает сигнал тревоги для повторного обучения модели.

В основном существует три вида отклонения понятий, как показано на рис. 2, и каждый тип явления требует своего метода его обнаружения (и отслеживания изменений). 

Рис. 6. Типы смещения понятий

  • Внезапно : изменение концепции происходит внезапно из-за непредвиденных обстоятельств, таких как пандемия COVID-19, которая затронула несколько секторов, таких как электронная коммерция, здравоохранение, финансы, страхование и многие другие. Такое резкое изменение может произойти всего за несколько недель. Этот вид дрейфа обычно вызван каким-то внешним событием. Если нет активной системы мониторинга для обнаружения отклонения в данных, естественно выполнить быструю оценку наличия отклонения концепции после крупного события.
  • Постепенное:  для возникновения такого рода дрейфа требуется много времени, и во многих случаях использования это вполне естественно. Например, инфляция может повлиять на модель ценообразования, и для того, чтобы оказать существенное влияние, может потребоваться много времени. Постепенные или иногда называемые постепенными изменениями обычно учитываются в модели временных рядов путем учета изменений сезонности. Если их не учитывать, это вызывает беспокойство и требует решения.
  • Повторяющийся:  такого рода дрейф происходит периодически, возможно, в определенное время в году. Например, во время таких событий, как Черная пятница, Хэллоуин и т. д., покупательская активность пользователей отличается от других времен года. Таким образом, во время этого события используется другая модель, специально обученная на данных Черной пятницы. Повторяющиеся закономерности сложно отслеживать, поскольку периодичность закономерностей также может быть динамической. 

В зависимости от типа существующего дрейфа концепций существует разнообразный набор методов мониторинга дрейфа концепций. 

Некоторые из наиболее известных методов:

  • Мониторинг работоспособности модели в течение длительного времени. Например, можно отслеживать показатель F1 как показатель точности, и если показатель ухудшается в течение длительного времени, это может быть сигналом отклонения концепции.
  • Мониторинг достоверности классификации (применимо только к классификации). Показатель достоверности прогноза отражает вероятность принадлежности точки данных прогнозируемому классу.  Значительная разница в среднем показателе достоверности в двух окнах указывает на возникновение отклонения концепции. 

Как предотвратить дрейф концепций

Теперь самый большой вопрос заключается в том, можно ли избежать этой проблемы и каковы способы предотвратить ее возникновение. 

Идеальная концептуальная система управления заносами должна быть способна: 

  • быстро адаптироваться к дрейфу концепций,
  • быть устойчивым к шуму и отличать его от дрейфа концепций,
  • распознавать и лечить значительные отклонения в производительности модели. 

На высоком уровне существует пять способов борьбы с дрейфом концепций. 

  • Онлайн-обучение , при котором учащийся получает обновленную информацию на лету, поскольку модель обрабатывает один образец за раз. В действительности, большинство реальных приложений работают на потоковой передаче данных, и онлайн-обучение является наиболее эффективным способом предотвращения дрейфа концепций.
  • Периодически переобучайте модель, которую можно запускать в разных случаях, например, когда производительность модели снижается ниже заданного порога или когда средний показатель достоверности между двумя окнами данных обнаруживает значительное отклонение. 
  • Периодически повторяйте обучение на репрезентативной подвыборке. Если обнаружено наличие отклонения понятий, выберите подвыборку совокупности, используя такой метод, как выбор экземпляра , где выборка является репрезентативной для совокупности, и следуйте тому же распределению вероятностей, что и исходное распределение данных. Затем явно переименуйте эти точки данных с помощью экспертов и обучите модель на тщательно подобранном наборе данных. 
  • Ансамблевое обучение с взвешиванием моделей , при котором объединяются несколько моделей, а выходные данные обычно представляют собой средневзвешенное значение для выходных данных отдельной модели.
  • Удаление функций — еще один способ справиться с дрейфом концепций. Несколько моделей строятся с использованием одной функции одновременно и исключают те функции, для которых отклик AUC-ROC не на должном уровне. 

Онлайн обучение

В машинном обучении модели часто обучаются в пакетном режиме , когда учащийся оптимизируется на пакете данных за один раз. В результате получается статическая модель, предполагающая статическую связь между независимой и целевой переменной. Таким образом, через долгое время такая модель может потребовать повторного обучения для изучения закономерностей на основе новых данных.

В реальной жизни большая часть приложения работает с потоковой передачей данных в реальном времени , где модель обрабатывает одну выборку за раз и, следовательно, может обновляться на лету. Этот процесс называется онлайн-обучением или дополнительным обучением, который помогает модели избежать дрейфа концепции, поскольку новые данные используются для постоянного обновления гипотезы модели. 

Этот процесс позволяет нам учиться на огромном потоке данных и может легко применяться к таким приложениям, как прогнозирование временных рядов, система рекомендаций фильмов или электронной коммерции, фильтрация спама и многие другие. 

Рис. 6. Типы смещения понятий

При онлайн-обучении наблюдается последовательность примеров, по одному, которые могут быть неравномерно распределены во временном интервале. Итак, в каждой временной метке t мы пометили исторические данные (X 1 ,……X t ). Использование этих исторических данных (X 1 ,…, X t ) или их подвыборки используется для построения модели, скажем, L t .

По мере поступления следующей точки данных X t +1 целевая переменная (y t +1) прогнозируется с использованием L t . Как только прибудет следующий экземпляр X t +2, станет доступен реальный y t +1. Итак, модель обновляется историческими данными (X 1 ,….X t , X t +1). Вероятность отклонения концепции увеличивается, когда данные в разное время генерируются из другого источника. Часто мы не можем отличить дрейф концепций от случайного шума и ошибочно воспринимаем шум как дрейф концепций. Нам следует быть предельно осторожными в обращении с шумом.

Примечание:

Обратите внимание, что периодическая сезонность не считается отклонением концепции, за исключением случаев, когда сезонность неизвестна с уверенностью. Например, пик продаж мороженого связан с летом, но каждый год он может начинаться в разное время в зависимости от температуры и других факторов, поэтому точно неизвестно, когда наступит пик.

Creme — это библиотека Python для онлайн-машинного обучения, где модель обучается на основе одного наблюдения за раз и может использоваться для обучения на основе потоковых данных. Это один из фантастических инструментов, доступных для онлайн-обучения, который помогает нам избежать отклонения концепции от модели.

Переобучение модели

Другой способ справиться с дрейфом концепций — периодически переобучать модель для обучения на исторических данных. Если в модели наблюдается дрейф концепции, модель следует повторно обучить с использованием последних данных. 

Например, приложению в финансовой сфере может потребоваться повторное обучение в первую неделю апреля, чтобы учесть изменения, связанные с концом финансового года. Другим примером может быть внезапное изменение предпочтений пользователей из-за эпидемии.

Сложнее всего определить момент, когда необходимо переобучение модели , но, как мы обсуждали ранее, есть способы сделать это. В любом случае, как только дрейф обнаружен, мы переобучаем модель на новых данных, чтобы учесть изменяющиеся условия. 

Этот процесс может оказаться дорогостоящим , поскольку в контролируемых условиях дополнительные точки данных необходимо перемаркировать. Таким образом, вместо повторного обучения на всем наборе данных можно рассмотреть возможность выборочного создания подвыборки из всей совокупности и повторного обучения на ней. Этот подход обсуждается в следующем разделе.

Повторная выборка с использованием выбора экземпляра

Выбор экземпляра — это концепция выбора подмножества из совокупности путем сохранения основного распределения нетронутым, чтобы выборочные данные были репрезентативными для характеристик всей совокупности данных. 

Проще говоря, идея заключается в том, что мы:

  •  Выберите небольшую, но репрезентативную выборку населения (используя такой метод, как выбор экземпляра).
  • запустить модель на подвыборке 
  • найдите точки данных из подвыборки, где производительность модели не на должном уровне.
  • при выполнении выбора экземпляра мы поддерживаем карту между репрезентативной выборкой и группой точек данных, представленных этой выборкой. После того, как мы определили список наблюдений (из крошечной подвыборки), в которых производительность модели не очень хорошая, мы рассматриваем все точки данных, представленные этими выборками, и повторно обучаем модель на них. 

Ансамблевое обучение с взвешиванием модели

Ансамблевое обучение поддерживает ансамбль из нескольких моделей, которые делают комбинированный прогноз . Обычно окончательный прогноз представляет собой средневзвешенное значение отдельных прогнозов, где вес отражает эффективность отдельной модели на последних данных. 

Мотивация метода ансамблевого обучения заключается в том, что во время изменения данные могут генерироваться из смеси нескольких распределений. Ансамбль из нескольких моделей, в котором каждая модель по отдельности пытается охарактеризовать распределение данных и взаимосвязь между признаком и целевой переменной, должен работать лучше. 

Существуют различные варианты ансамблевого обучения в зависимости от того, как обновляются модели. Один из способов заключается в том, что для каждой новой партии данных новый классификатор обучается и объединяется с использованием стратегии динамически взвешенного большинства.

Удаление функции

Удаление функций — один из самых простых, но эффективных методов борьбы с дрейфом концепций, широко используемый в отрасли. Идея состоит в том, чтобы построить несколько моделей, в которых одновременно используется одна функция, сохраняя целевую переменную неизменной . Для каждой модели после прогнозирования на основе тестовых данных отслеживается ответ AUC-ROC, и если значение AUC-ROC для определенного признака выходит за пределы определенного порога (возможно, 0,8), этот конкретный признак можно рассматривать как дрейфующий и, следовательно, функция может быть удалена. 

Лучшие практики борьбы с дрейфом концепций

В последнее время в этой области проводится много исследований, и не существует единого де-факто стандартного алгоритма или методологии, которым можно было бы противостоять дрейфу концепций. Тем не менее, во время работы над этими проблемами я пришел к следующему комплексному процессу, который может обнаружить и предотвратить наличие отклонения концепций:

Шаг 1. Сбор и предварительная обработка данных:

Этот шаг включает в себя работу с пропущенными значениями, выбросами, кодированием меток для категориальных переменных и т. д. 

Шаг 2: Маркировка данных:

i) Разделите поток данных на ряд окон.

iii) Присвойте метку класса отдельным точкам данных в зависимости от бизнес-контекста.

Шаг 3: Обнаружение отклонения концепции:

i) Точки данных соседних окон анализируются для выявления отклонения концепции. Показатели точности, такие как точность, точность, отзыв, кривая отклика AUC-ROC и время выполнения, ошибка классификации или кластеризации, могут быть проанализированы, чтобы обнаружить отклонение концепции. 

Шаг 4. Избегайте или устраните отклонение концепции:

Если обнаружено наличие отклонения в концепции, следуйте соответствующей методологии, чтобы избавиться от него. 

Последние мысли

Дрейф концепций — важная проблема в машинном обучении и интеллектуальном анализе данных, и к ней следует подходить осторожно. 

Большая проблема заключается в том, как обнаружить наличие отклонения в концепции, поскольку не существует универсального решения. Оно возникает при наличии множества скрытых факторов, разобраться в которых сложно. В большинстве случаев методы, связанные с «дрейфом понятий», очень субъективны в зависимости от характера проблемы . Тем не менее, методы, упомянутые в этой статье, могут стать хорошим справочником для создания базовой системы для обнаружения и предотвращения отклонения концепций. 

По этой теме проводится множество исследований, и в основном они направлены на разработку критериев обнаружения важных изменений. Необходимы дополнительные исследования для создания надежной системы, которая может инициировать оповещение на основе различных видов отклонения концепций и различного уровня шума. 


Источник: neptune.ai

Комментарии: