Обучающая выборка крупных датасетов с изображениями частично совпала с тестовой |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-04-13 01:47 Немецкие разработчики проанализировали CIFAR-10 и CIFAR-100 — одни из крупнейших датасетов для обучения алгоритмов компьютерного зрения — и обнаружили в них пересечения тренировочной выборки и тестовых примеров. В CIFAR-10 таких дубликатов оказалось 3,3 процента, а в CIFAR-100 — 10 процентов, сообщается в препринте, опубликованном на arXiv.org. При обучении алгоритмов распознавания изображений и других систем компьютерного зрения используются два типа выборок: тренировочная (обучающая) и тестовая. По первой выборке происходит настройка параметров работы системы (обучение), а вторая используется для оценки качества работы построенной модели. При создании датасетов, данные из которых попадут в ту или иную выборку, необходимо следить за тем, чтобы изображения в выборках не пересекались: использование одинаковых изображений в тренировочной выборке и тестовых примерах помешает оценить качество работы модели. Разумеется, в первую очередь это должны учитывать создатели крупных датасетов, публикуемых в открытом доступе, таких, например, как датасеты CIFAR, собранные исследователями из Канадского института передовых технологий: суммарно две версии датасета насчитывают около 80 миллионов изображений (в CIFAR-10 они подразделены на 10 категорий, а в CIFAR-100 — на 100), они используются разработчиками уже почти 10 лет. Бьорн Барц (Bj?rn Barz) и Йоким Денцлер (Joachim Denzler) из Йенского университета имени Фридриха Шиллера проанализировали датасеты CIFAR с помощью сверточной нейросети. Для каждого изображения в тренировочной и тестовой выборке они нашли ближайших соседей — этот метод позволил выделить изображения, которые полностью или частично совпадают в двух выборках. Оказалось, что тестовая выборка CIFAR-10 совпадает с тренировочной на 3,3 процента, а для CIFAR-100 этот показатель достигает 10 процентов. Помимо одних и тех же изображений исследователи обнаружили и те, которые отличаются друг от друга мелкими деталями (например, цветом), а также изображения других, но очень похожих предметов. С помощью того же алгоритма разработчики заменили дубликаты в тестовой выборке на изображения, подпадающие под те же категории, но из другого датасета. Полученные базы данных они выложили в открытый доступ (их датасет получил название ciFAIR), а также дополнили моделями, которые были предварительно на них натренированы. В качества примера моделей, успешно обученных на CIFAR, можно вспомнить недавнюю разработку исследователей из MIT: в 2017 году они создали способ обмана систем классификации изображений, который работает даже на алгоритмах с закрытым исходным кодом. Елизавета Ивтушок Источник: nplus1.ru Комментарии: |
|