Как проверить меры по проверке

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Авторы: Людмила Прохоренкова и Алексей Тихонов

В каждой практической задаче машинного обучения возникает проблема с измерением результатов. Для развернутых алгоритмов мы могли бы рассмотреть реальные последствия, такие как рост пользователей или финансовая выгода, но нам нужны более простые показатели производительности во время разработки. Между тем разные меры могут привести к разным результатам оценки и, следовательно, к разным выбранным алгоритмам. Вот почему так важно найти соответствующий показатель качества.

От классификации и кластеризации до задач машинного перевода и сегментации - многие области исследований создали свои собственные устоявшиеся наборы традиционно используемых показателей. За прошедшие годы было предпринято несколько попыток сравнить показатели эффективности, но этой проблеме по-прежнему не хватает системного подхода.

В недавних статьях, опубликованных на ICML 2021 и NeurIPS 2021, мы систематически анализируем меры проверки для кластеризации и классификации.

Показатели эффективности и их несоответствие

Классификация - это типичная задача машинного обучения, реализованная в бесчисленных приложениях. Исследователи обычно сравнивают прогнозируемую маркировку с фактической, чтобы оценить результаты классификации, используя такие показатели производительности, как точность, F-мера и т.д. Однако разные меры ведут себя по-разному. Ниже мы покажем несоответствие некоторых мер задаче прогнозирования осадков (подробнее см. в статье). По этой проблеме разногласия огромны. Следовательно, это может существенно повлиять на принимаемые решения.

Кластеризация - еще одна широко используемая задача, которая полезна в различных приложениях, включая интеллектуальный анализ текста, онлайн-рекламу, обнаружение аномалий и многие другие. Цель состоит в том, чтобы сгруппировать похожие объекты. Здесь проблема с показателями качества становится еще более очевидной: мы должны сравнить прогнозируемое разделение с фактическим, что является нетривиальным. Например, можете ли вы угадать, какое разделение объектов лучше соответствует фактическому, выраженному формами и цветами?

Если вам трудно решить, какой из них лучше, не нужно беспокоиться: известные показатели сходства кластеров расходятся в этом простом примере. Например, широко используемые показатели Ранда, Скорректированного Ранда и Джаккара предпочитают левое разделение, в то время как изменение информации и Нормализованная взаимная информация предпочитают правое. Существует множество других показателей сходства кластеров, и выбор правильного из них является спорным.

Как правильно выбрать меру

Поэтому мы подходим к вопросу: как выбрать подходящую меру? Чтобы ответить на этот вопрос, мы воспользуемся теоретическим подходом. Во-первых, мы определяем некоторые свойства, которые являются желательными для показателей производительности. Например, можно было бы ожидать, что показатель достигнет максимального значения для идеального прогноза, в то время как ожидается, что несовершенные прогнозы будут иметь более низкие оценки.

Постоянная базовая линия является важным свойством. Это требует меры по отсутствию предвзятости в отношении конкретных размеров классов (для классификации) или размеров кластеров (для кластеризации). Такие предпочтения могут привести к непреднамеренному выбору худших алгоритмов для развертывания. Оказывается, что почти все часто используемые показатели подвержены ошибкам, как в задачах классификации, так и в задачах кластеризации.

После формулирования свойств мы формально проверяем каждое из них на наличие нескольких известных показателей. Важно отметить, что наше исследование не предлагает "идеальной меры", которую следует выбирать для всех приложений. Вместо этого мы предоставляем инструмент, который помогает отказаться от некоторых неподходящих мер, когда для конкретного приложения требуются определенные свойства. Ниже приведен пример того, что мы получаем для некоторых двоичных классификационных показателей (включая предлагаемые).

Дополнительные выводы

Наш формальный подход приводит к дальнейшим захватывающим открытиям. Например, мы заметили, что ни один показатель производительности не удовлетворяет всем свойствам одновременно. В частности, не существует мер, обладающих свойством постоянной базовой линии, которые также могут быть линейно преобразованы в метрическое расстояние. Оказывается, это теоретически невозможно, а это значит, что по крайней мере одно из этих двух свойств должно быть отброшено.

Если мы ослабим свойство постоянной базовой линии, но потребуем, чтобы оно сохранялось асимптотически, у нас будет мера, удовлетворяющая всем остальным свойствам. Это расстояние корреляции может быть использовано как для классификации, так и для оценки кластеризации.

Если мы отбросим требование расстояния, остальные свойства также могут быть выполнены одновременно. Симметричная сбалансированная точность — это один из увлекательных показателей - среднее значение между стандартной сбалансированной точностью и ее симметричным аналогом. Эта мера ранее не использовалась для оценки классификации, и ее аналог редко использовался для оценки кластеризации. Интересно, что хорошие свойства симметричной сбалансированной точности сохраняются и для многоклассовой классификации. Это единственная мера, которая имеет такое преимущество.

Мы надеемся, что наша работа подтолкнет к дальнейшему исследованию показателей эффективности для других, более сложных задач.

[1] Мартин Гесгенс, Алексей Тихонов и Людмила Прохоренкова. “Систематический анализ индексов сходства кластеров: как проверить меры валидации”. ICML 2021.[2] Мартин Гесгенс, Антон Жиянов, Алексей Тихонов и Людмила Прохоренкова. “Хорошие меры классификации и как их найти". NeurIPS 2021.


Источник: research.yandex.com

Комментарии: