Новые датасеты для распознавания объектов в 3D |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-11-08 12:34 Робототехника, дополненная реальность, беспилотное вождение — все эти области основаны на распознавании 3D-свойств объектов по 2D-изображениям. Как следствие, трехмерное распознавание объектов стало одной из центральных задач компьютерного зрения. Заметный прогресс в этой области был достигнут после создания нескольких датасетов с 3D-метками к двумерным объектам (например, IKEA, Pascal3D+). Однако эти датасеты имеют небольшие размеры и включают лишь около десятка категорий объектов. Это крайне мало по сравнению с ImageNet или Microsoft COCO — огромными датасетами, которые помогли добиться значительного прогресса в задаче классификации изображений в последние годы. Крупные датасеты с трехмерными метками способны улучшить распознавание 3D-объектов. В этой статье мы расскажем об одном большом датасете, ObjectNet3D, и нескольких специализированных датасетах для распознавания 3D-объектов: MVTec ITODD и T-LESS — для решения индустриальных задач, и Falling Things — для задач распознавания объектов в робототехнике. ObjectNet3D Количество изображений: 90 127 Количество объектов: 201 888 Количество категорий: 100 Количество 3D-фигур: 44 147 Год выпуска: 2016 ObjectNet3D — это большая база данных, в которой объекты на изображениях помечены трехмерными фигурами. Метки обеспечивают точное соответствие трехмерных фигур и двумерных объектов. Размеры датасета позволяют добиться прогресса в распознавании трехмерных поз и объектов по 2D-изображениям. Чтобы составить этот датасет, исследователи из Стэнфордского университета использовали изображения из существующих репозиториев и предложили метод выравнивания трехмерных фигур (доступных из существующих репозиториев 3D-фигур) для объектов на этих изображениях. В наборе рассмотрены только определенные категории объектов, для которых можно собрать большое количество трехмерных изображений из Интернета. Вот полный список категорий: 2D-изображения были найдены в датасете ImageNet и через Google Image Search для категорий, которые недостаточно охвачены ImageNet. 3D-формы были получены из репозиториев Trimble 3D Warehouse и ShapeNet. Затем для объектов на изображениях были сформированы 3D-фигуры с использованием модели, которая подробно описана в соответствующей статье. Наконец, также всем двумерным изображениям присваивались 3D-метки. Датасет подходит для определения и обнаружения 2D-объектов, совместного определения 2D-объекта и 3D-оценки позы, а также для извлечения 3D-изображений из двумерных. MVTec ITODD Количество сцен: 800 Количество объектов: 28 Количество 3D-преобразований: 3 500 Год выпуска: 2017 MVTec ITODD — это датасет для обнаружения 3D-объектов и оценки позы с упором на применение в промышленных целях. Он содержит 28 объектов, расположенных в более чем 800 сценах и помеченных жестко связанным с объектом 3D-преобразованием. Сцены были захвачены одновременно двумя промышленными 3D-датчиками и тремя черно-белыми камерами, что позволяет проводить оценку методов, работающих с 3D-объектами, изображениями или их комбинациями. Создатели датасета (MVTec Software GmbH) решили использовать черно-белые камеры, потому что они часто используются в промышленности. Как упоминается в описании датасета, объекты были выбраны так, чтобы охватывать диапазон различных факторов: отражательную способность поверхности, симметрию, конструкцию, плоскостность, детализацию, компактность и размер. Вот изображения всех объектов, включенных в MVTec ITODD, вместе с их названиями: Для каждого объекта доступны сцены с одним и несколькими объектами (например, для имитации bin picking). Каждая сцена была получена один раз с каждым из трехмерных датчиков и дважды с каждой из черно-белых камер: с и без искусственного добавления шумов. Наконец, для всех объектов доступны вручную созданные модели CAD для обучения методов обнаружения. Истинные объекты помечены с использованием полуавтоматического подхода, основанного на трехмерных данных 3D-датчика, снимающего в высоком качестве. Датасет является эталонным для определения и оценки 3D-объектов в промышленных задачах. Т-LESS Количество изображений: 39 000 тренировочных + 10 000 тестовых (с каждого из трех датчиков) Количество объектов: 30 Год выпуска: 2017 T-LESS — это новый открытый датасет для оценки 6D-позы, то есть поворотов и вращений нетекстурированных жестких объектов. Датасет содержит 30 промышленных объектов с одинаковыми текстурой, цветом и отражающей способностью. Другим уникальным свойством набора является то, что некоторые объекты являются частями других. Разработчики T-LESS использовали разные подходы к учебным и тестовым изображениям. Учебные изображения в этом датасете представлены отдельными объектами на черном фоне, а тестовые изображения — 20 сценами различной степени сложности. Вот примеры учебных и тестовых изображений: Все обучающие и тренировочные изображения были сняты тремя синхронизованными датчиками. Для каждого объекта представлено два типа 3D-моделей: вручную созданная модель CAD и полуавтоматически реконструированная модель. Датасет полезен для оценки 6D-позы объекта, обнаружения и сегментации 2D-объектов и реконструкции 3D-объектов. Наличие изображений с трех датчиков позволяет изучить влияние различных факторов на эффективность решения перечисленных задач. Falling Things Количество изображений: 61 500 Количество объектов: 21 хозяйственный объект Год выпуска: 2018 Falling Things (FAT) — это искусственный датасет для определения 3D-объектов и оценки позы, разработанный командой NVIDIA. Он был создан путем размещения 3D-моделей предметов домашнего хозяйства (например, бутылки с горчицей, супа, желатина и т. д.) в виртуальных средах. Каждый снимок в датасете включает сегментацию классов по пикселям, 2D/3D границы всех объектов, моно и стерео RGB-изображения, карты глубины и 3D-позы. Большинство этих меток представлены на приведенном выше изображении. Датасет FAT включает в себя множество объектов, фоновых изображений, сочетаний объектов и условий освещения. Ниже приведены примеры: Для получения дополнительной информации о процессе создания набора данных FAT ознакомьтесь с нашей статьей, полностью посвященной этому датасету. Датасет Falling Things предоставляет отличную возможность ускорить исследования в области обнаружения объектов и оценки позы, а также сегментации, оценки глубины и модальности датчиков. Заключение У задачи распознавания 3D объектов есть несколько важных приложений, но прогресс в этой области ограничен качеством доступных датасетов. К счастью, в последние годы появились новые датасеты для распознавания 3D-объектов. Хотя они имеют разный размер и характеристики, каждый из этих датасетов вносит существенный вклад в улучшение существующих систем распознавания 3D-объектов. Источник: neurohive.io Комментарии: |
|