HybridPose: нейросеть распознает позу объекта в 6D

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости

Новостная лента форума ailab.ru


HybridPose — это нейросетевая модель для распознавания позы объекта в 6D. Модель принимает на вход изображение объекта и предсказывает ключевые точки, векторы границ и отношение позы объекта относительно его стандартного положения. Использование промежуточных представлений позы объекта улучшает устойчивость предсказаний модели. Например, это актуально для случая с наложением объектов друг на друга. На датасете Occlusion Linemod нейросеть обошла предыдущий state-of-the-art на 67.4% в точности предсказанных поз.

Стандартные подходы для 6D распознавания позы используют одно представление для кодирования данных позы объекта. HybridPose использует промежуточное представление, в котором хранится информация о геометрии объекта: ключевые точки, векторы границ (edge vectors) и смещение положения объекта от его стандартного положения (symmetry correspondence).

Архитектура нейросети

На вход HybridPose принимает изображение с объектом известного класса, которое было сделано с помощью стенопа с известными параметрами. На выходе модель отдает 6D расположение объекта относительно камеры. HybridPose использует три предсказательные сети чтобы определить:

  • Набор ключевых точек объекта (keypoints);
  • Набор связей между точками (edges between keypoints);
  • Симметрическое соответствие между пикселями изображения (symmetry correspondences)
Пайплайн обучения модели

Оценка работы модели

Исследователи протестировали модель на датасете Linemod. В качестве метрики использовали ADD(-S) точность. ADD(-S) точность определяется как процент тестовых примеров, для которых средняя дистанция между предсказанием и истинным значением меньше 10%. HybridPose сравнили с базовыми подходами для оценки 6D позы объекта: PoseCNN, Oberweger et al., Hu et al., PVNet и DPOD. Ниже видно, что на сабсете Linemod HybridPose выдает более точные результаты. Occlusion Linemod —  это часть датасета, которая состоит из изображений, на которых объекты перекрывают друг друга.

Точность моделей для разных типов объектов из датасета Occlusion Linemod

Источник: neurohive.io

Комментарии: