Распространяющиеся ошибки меток в наборах данных ML дестабилизируют бенчмарки |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2021-04-06 13:40 Никак не можете понять, почему ваша нейросеть ошибается при распознавании объектов? Возможно, ей просто не повезло с «учебниками». Группа исследователей из Массачусетского технологического института провела анализ популярных датасетов и выявила, что примерно в 3,5% случаев объекты на изображениях там размечены неверно. Например, регулярно встречаются ошибки с породами собак, видами рыб и даже с определением цифр. Больше всего проблем было обнаружено в датасете QuickDraw — больше 10% ошибок! Как следствие, эти неточности, допущенные ещё на этапе разметки объектов, приводят к ошибкам во время работы нейросети. К счастью, исследователи не только указали на существующие ошибки, но и исправили их, опубликовав доработанные датасеты. Хорошо известно, что наборы данных ML не имеют идеальной маркировки. Но не было много исследований, чтобы систематически количественно оценить, насколько подвержены ошибкам наиболее часто используемые наборы данных ML в масштабе. Предыдущая работа была сосредоточена на ошибках в поездных наборах наборов данных ML. Но ни в одном исследовании не рассматривалась систематическая ошибка в наиболее цитируемых тестовых наборах ML-наборах, на которые мы полагаемся для оценки прогресса в области машинного обучения. Здесь мы алгоритмически определили и проверили на людях, что действительно существуют распространенные ошибки меток в десяти наиболее цитируемых тестовых наборах, а затем изучили, как они влияют на стабильность тестов ML. Здесь мы суммируем наши выводы вместе с ключевыми выводами для практикующих мл. Ошибки в высоко цитируемых тестовых наборах бенчмарков Просмотрите все ошибки меток во всех наборах данных объемом 10 мл по адресу labelerrors.com (демо-версии ниже): Ключевые выводы из распространяющихся ошибок этикеток Насколько распространенными являются ошибки в тестовых наборах ML?
Из 10 наборов данных мл, которые вы просмотрели, в каком было больше всего ошибок?
Как вы обнаружили ошибки меток в наборах данных vision, text и audio?
Каковы последствия распространяющихся ошибок меток тестовых наборов?
Сколько шума может дестабилизировать бенчмарки ImageNet и CIFAR?
Доступна ли очищенная версия каждого набора тестов?
Могу ли я взаимодействовать с ошибками меток в каждом наборе данных?
Являются ли ошибки маркировки точными на 100%?
Что должны делать практикующие мл по-другому? Традиционно практикующие ML выбирают, какую модель развертывать, основываясь на точности тестов — наши результаты советуют соблюдать осторожность здесь, предполагая, что оценка моделей по правильно помеченным тестовым наборам может быть более полезной, особенно для шумных реальных наборов данных. Мы предлагаем две рекомендации для практикующих мл:
Поиск ошибок меток
Человеческая валидация ошибок меток
Влияние ошибок тестовых меток на контрольные показатели
Нестабильность контрольных показателей мл
Узнать больше Подробное обсуждение этой работы доступно в [нашей статье arXiv]. Эти результаты основаны на обширной работе , проделанной в Массачусетском технологическом институте по созданию уверенного обучения-подполя машинного обучения, которое рассматривает наборы данных для поиска и количественной оценки шума меток. В этом проекте уверенное обучение используется для алгоритмической идентификации всех ошибок метки до проверки человеком. Мы упростили другим исследователям репликацию их результатов и поиск ошибок меток в их собственных наборах данных с помощью cleanlab, пакета python с открытым исходным кодом для машинного обучения с шумными метками. Сопутствующая Работа
Подтверждения Эта работа была частично поддержана финансированием MIT-IBM Watson AI Lab, MIT Quanta Labи MIT Quest for Intelligence. Мы благодарим Джесси Лин за ее помощь с ранними версиями этой работы (принятой в качестве рабочего документа на семинаре NeurIPS 2020 Workshop on Dataset Curation and Security). Была ли эта статья полезной? Можно ли его улучшить? Что тебе понравилось? Комментарий ниже! Источник: l7.curtisnorthcutt.com Комментарии: |
|