Новые датасеты для распознавания объектов в 3D

2018-11-08 12:34

большие данные big data, распознавание образов

Робототехника, дополненная реальность, беспилотное вождение — все эти области основаны на распознавании 3D-свойств объектов по 2D-изображениям. Как следствие, трехмерное распознавание объектов стало одной из центральных задач компьютерного зрения.

Заметный прогресс в этой области был достигнут после создания нескольких датасетов с 3D-метками к двумерным объектам (например, IKEA, Pascal3D+). Однако эти датасеты имеют небольшие размеры и включают лишь около десятка категорий объектов.

Это крайне мало по сравнению с ImageNet или Microsoft COCO — огромными датасетами, которые помогли добиться значительного прогресса в задаче классификации изображений в последние годы. Крупные датасеты с трехмерными метками способны улучшить распознавание 3D-объектов.

В этой статье мы расскажем об одном большом датасете, ObjectNet3D, и нескольких специализированных датасетах для распознавания 3D-объектов: MVTec ITODD и T-LESS — для решения индустриальных задач, и Falling Things — для задач распознавания объектов в робототехнике.

ObjectNet3D

Количество изображений: 90 127

Количество объектов: 201 888

Количество категорий: 100

Количество 3D-фигур: 44 147

Год выпуска: 2016

Пример изображения из датасета ObjectNet3D с 2D-объектов и 3D-метками

ObjectNet3D — это большая база данных, в которой объекты на изображениях помечены трехмерными фигурами. Метки обеспечивают точное соответствие трехмерных фигур и двумерных объектов. Размеры датасета позволяют добиться прогресса в распознавании трехмерных поз и объектов по 2D-изображениям.

Результаты извлечения 3D формы. Зеленым выделены выбранные формы. В нижнем ряду представлены два случая, в которых похожая форма не найдена среди 5 приведенных выше форм

Чтобы составить этот датасет, исследователи из Стэнфордского университета использовали изображения из существующих репозиториев и предложили метод выравнивания трехмерных фигур (доступных из существующих репозиториев 3D-фигур) для объектов на этих изображениях.

В наборе рассмотрены только определенные категории объектов, для которых можно собрать большое количество трехмерных изображений из Интернета. Вот полный список категорий:

Категории объектов в датасете ObjectNet3D

2D-изображения были найдены в датасете ImageNet и через Google Image Search для категорий, которые недостаточно охвачены ImageNet. 3D-формы были получены из репозиториев Trimble 3D Warehouse и ShapeNet. Затем для объектов на изображениях были сформированы 3D-фигуры с использованием модели, которая подробно описана в соответствующей статье. Наконец, также всем двумерным изображениям присваивались 3D-метки.

Датасет подходит для определения и обнаружения 2D-объектов, совместного определения 2D-объекта и 3D-оценки позы, а также для извлечения 3D-изображений из двумерных.

MVTec ITODD

Количество сцен: 800

Количество объектов: 28

Количество 3D-преобразований: 3 500

Год выпуска: 2017

MVTec ITODD — это датасет для обнаружения 3D-объектов и оценки позы с упором на применение в промышленных целях. Он содержит 28 объектов, расположенных в более чем 800 сценах и помеченных жестко связанным с объектом 3D-преобразованием. Сцены были захвачены одновременно двумя промышленными 3D-датчиками и тремя черно-белыми камерами, что позволяет проводить оценку методов, работающих с 3D-объектами, изображениями или их комбинациями. Создатели датасета (MVTec Software GmbH) решили использовать черно-белые камеры, потому что они часто используются в промышленности.

Как упоминается в описании датасета, объекты были выбраны так, чтобы охватывать диапазон различных факторов: отражательную способность поверхности, симметрию, конструкцию, плоскостность, детализацию, компактность и размер. Вот изображения всех объектов, включенных в MVTec ITODD, вместе с их названиями:

Изображения 28 использованных в датасете объектов

Для каждого объекта доступны сцены с одним и несколькими объектами (например, для имитации bin picking). Каждая сцена была получена один раз с каждым из трехмерных датчиков и дважды с каждой из черно-белых камер: с и без искусственного добавления шумов.

Наконец, для всех объектов доступны вручную созданные модели CAD для обучения методов обнаружения. Истинные объекты помечены с использованием полуавтоматического подхода, основанного на трехмерных данных 3D-датчика, снимающего в высоком качестве.

Датасет является эталонным для определения и оценки 3D-объектов в промышленных задачах.

Т-LESS

Количество изображений: 39 000 тренировочных + 10 000 тестовых (с каждого из трех датчиков)

Количество объектов: 30

Год выпуска: 2017

Примеры тестовых изображений из датасета T-LESS (слева) и их 3D-модели (справа). Экземпляры одного и того же объекта выделены одним цветом

T-LESS — это новый открытый датасет для оценки 6D-позы, то есть поворотов и вращений нетекстурированных жестких объектов. Датасет содержит 30 промышленных объектов с одинаковыми текстурой, цветом и отражающей способностью. Другим уникальным свойством набора является то, что некоторые объекты являются частями других.

Разработчики T-LESS использовали разные подходы к учебным и тестовым изображениям. Учебные изображения в этом датасете представлены отдельными объектами на черном фоне, а тестовые изображения — 20 сценами различной степени сложности. Вот примеры учебных и тестовых изображений:

Все обучающие и тренировочные изображения были сняты тремя синхронизованными датчиками. Для каждого объекта представлено два типа 3D-моделей: вручную созданная модель CAD и полуавтоматически реконструированная модель.

Датасет полезен для оценки 6D-позы объекта, обнаружения и сегментации 2D-объектов и реконструкции 3D-объектов. Наличие изображений с трех датчиков позволяет изучить влияние различных факторов на эффективность решения перечисленных задач.

Сверху: изображения для обучения и 3D-модели 30 объектов. Снизу: тестовые изображения 20 сцен с помеченными цветом истинными 3D-моделями

Falling Things

Количество изображений: 61 500

Количество объектов: 21 хозяйственный объект

Год выпуска: 2018

Falling Things (FAT) — это искусственный датасет для определения 3D-объектов и оценки позы, разработанный командой NVIDIA. Он был создан путем размещения 3D-моделей предметов домашнего хозяйства (например, бутылки с горчицей, супа, желатина и т. д.) в виртуальных средах.

Каждый снимок в датасете включает сегментацию классов по пикселям, 2D/3D границы всех объектов, моно и стерео RGB-изображения, карты глубины и 3D-позы. Большинство этих меток представлены на приведенном выше изображении.

Датасет FAT включает в себя множество объектов, фоновых изображений, сочетаний объектов и условий освещения. Ниже приведены примеры:

Для получения дополнительной информации о процессе создания набора данных FAT ознакомьтесь с нашей статьей, полностью посвященной этому датасету.

Датасет Falling Things предоставляет отличную возможность ускорить исследования в области обнаружения объектов и оценки позы, а также сегментации, оценки глубины и модальности датчиков.

Заключение

У задачи распознавания 3D объектов есть несколько важных приложений, но прогресс в этой области ограничен качеством доступных датасетов. К счастью, в последние годы появились новые датасеты для распознавания 3D-объектов. Хотя они имеют разный размер и характеристики, каждый из этих датасетов вносит существенный вклад в улучшение существующих систем распознавания 3D-объектов.

Источник: neurohive.io



		Новые датасеты для распознавания объектов в 3D
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2018-11-08 12:34 большие данные big data, распознавание образов Робототехника, дополненная реальность, беспилотное вождение — все эти области основаны на распознавании 3D-свойств объектов по 2D-изображениям. Как следствие, трехмерное распознавание объектов стало одной из центральных задач компьютерного зрения. Заметный прогресс в этой области был достигнут после создания нескольких датасетов с 3D-метками к двумерным объектам (например, IKEA, Pascal3D+). Однако эти датасеты имеют небольшие размеры и включают лишь около десятка категорий объектов. Это крайне мало по сравнению с ImageNet или Microsoft COCO — огромными датасетами, которые помогли добиться значительного прогресса в задаче классификации изображений в последние годы. Крупные датасеты с трехмерными метками способны улучшить распознавание 3D-объектов. В этой статье мы расскажем об одном большом датасете, ObjectNet3D, и нескольких специализированных датасетах для распознавания 3D-объектов: MVTec ITODD и T-LESS — для решения индустриальных задач, и Falling Things — для задач распознавания объектов в робототехнике. ObjectNet3D Количество изображений: 90 127 Количество объектов: 201 888 Количество категорий: 100 Количество 3D-фигур: 44 147 Год выпуска: 2016 Пример изображения из датасета ObjectNet3D с 2D-объектов и 3D-метками ObjectNet3D — это большая база данных, в которой объекты на изображениях помечены трехмерными фигурами. Метки обеспечивают точное соответствие трехмерных фигур и двумерных объектов. Размеры датасета позволяют добиться прогресса в распознавании трехмерных поз и объектов по 2D-изображениям. Результаты извлечения 3D формы. Зеленым выделены выбранные формы. В нижнем ряду представлены два случая, в которых похожая форма не найдена среди 5 приведенных выше форм Чтобы составить этот датасет, исследователи из Стэнфордского университета использовали изображения из существующих репозиториев и предложили метод выравнивания трехмерных фигур (доступных из существующих репозиториев 3D-фигур) для объектов на этих изображениях. В наборе рассмотрены только определенные категории объектов, для которых можно собрать большое количество трехмерных изображений из Интернета. Вот полный список категорий: Категории объектов в датасете ObjectNet3D 2D-изображения были найдены в датасете ImageNet и через Google Image Search для категорий, которые недостаточно охвачены ImageNet. 3D-формы были получены из репозиториев Trimble 3D Warehouse и ShapeNet. Затем для объектов на изображениях были сформированы 3D-фигуры с использованием модели, которая подробно описана в соответствующей статье. Наконец, также всем двумерным изображениям присваивались 3D-метки. Датасет подходит для определения и обнаружения 2D-объектов, совместного определения 2D-объекта и 3D-оценки позы, а также для извлечения 3D-изображений из двумерных. MVTec ITODD Количество сцен: 800 Количество объектов: 28 Количество 3D-преобразований: 3 500 Год выпуска: 2017 MVTec ITODD — это датасет для обнаружения 3D-объектов и оценки позы с упором на применение в промышленных целях. Он содержит 28 объектов, расположенных в более чем 800 сценах и помеченных жестко связанным с объектом 3D-преобразованием. Сцены были захвачены одновременно двумя промышленными 3D-датчиками и тремя черно-белыми камерами, что позволяет проводить оценку методов, работающих с 3D-объектами, изображениями или их комбинациями. Создатели датасета (MVTec Software GmbH) решили использовать черно-белые камеры, потому что они часто используются в промышленности. Как упоминается в описании датасета, объекты были выбраны так, чтобы охватывать диапазон различных факторов: отражательную способность поверхности, симметрию, конструкцию, плоскостность, детализацию, компактность и размер. Вот изображения всех объектов, включенных в MVTec ITODD, вместе с их названиями: Изображения 28 использованных в датасете объектов Для каждого объекта доступны сцены с одним и несколькими объектами (например, для имитации bin picking). Каждая сцена была получена один раз с каждым из трехмерных датчиков и дважды с каждой из черно-белых камер: с и без искусственного добавления шумов. Наконец, для всех объектов доступны вручную созданные модели CAD для обучения методов обнаружения. Истинные объекты помечены с использованием полуавтоматического подхода, основанного на трехмерных данных 3D-датчика, снимающего в высоком качестве. Датасет является эталонным для определения и оценки 3D-объектов в промышленных задачах. Т-LESS Количество изображений: 39 000 тренировочных + 10 000 тестовых (с каждого из трех датчиков) Количество объектов: 30 Год выпуска: 2017 Примеры тестовых изображений из датасета T-LESS (слева) и их 3D-модели (справа). Экземпляры одного и того же объекта выделены одним цветом T-LESS — это новый открытый датасет для оценки 6D-позы, то есть поворотов и вращений нетекстурированных жестких объектов. Датасет содержит 30 промышленных объектов с одинаковыми текстурой, цветом и отражающей способностью. Другим уникальным свойством набора является то, что некоторые объекты являются частями других. Разработчики T-LESS использовали разные подходы к учебным и тестовым изображениям. Учебные изображения в этом датасете представлены отдельными объектами на черном фоне, а тестовые изображения — 20 сценами различной степени сложности. Вот примеры учебных и тестовых изображений: Все обучающие и тренировочные изображения были сняты тремя синхронизованными датчиками. Для каждого объекта представлено два типа 3D-моделей: вручную созданная модель CAD и полуавтоматически реконструированная модель. Датасет полезен для оценки 6D-позы объекта, обнаружения и сегментации 2D-объектов и реконструкции 3D-объектов. Наличие изображений с трех датчиков позволяет изучить влияние различных факторов на эффективность решения перечисленных задач. Сверху: изображения для обучения и 3D-модели 30 объектов. Снизу: тестовые изображения 20 сцен с помеченными цветом истинными 3D-моделями Falling Things Количество изображений: 61 500 Количество объектов: 21 хозяйственный объект Год выпуска: 2018 Пример изображения из датасета FAT Falling Things (FAT) — это искусственный датасет для определения 3D-объектов и оценки позы, разработанный командой NVIDIA. Он был создан путем размещения 3D-моделей предметов домашнего хозяйства (например, бутылки с горчицей, супа, желатина и т. д.) в виртуальных средах. Каждый снимок в датасете включает сегментацию классов по пикселям, 2D/3D границы всех объектов, моно и стерео RGB-изображения, карты глубины и 3D-позы. Большинство этих меток представлены на приведенном выше изображении. Датасет FAT включает в себя множество объектов, фоновых изображений, сочетаний объектов и условий освещения. Ниже приведены примеры: Примеры изображений из датасета FAT Для получения дополнительной информации о процессе создания набора данных FAT ознакомьтесь с нашей статьей, полностью посвященной этому датасету. Датасет Falling Things предоставляет отличную возможность ускорить исследования в области обнаружения объектов и оценки позы, а также сегментации, оценки глубины и модальности датчиков. Заключение У задачи распознавания 3D объектов есть несколько важных приложений, но прогресс в этой области ограничен качеством доступных датасетов. К счастью, в последние годы появились новые датасеты для распознавания 3D-объектов. Хотя они имеют разный размер и характеристики, каждый из этих датасетов вносит существенный вклад в улучшение существующих систем распознавания 3D-объектов. Источник: neurohive.io Комментарии:

Новые датасеты для распознавания объектов в 3D

Комментарии: