DREAM: нейросеть распознает позу робота по одному изображению

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2019-12-01 17:32

роботы новости

DREAM — это нейросетевая модель для распознавания позы робота по одному снимку. Разработкой модели занимались исследователи из CMU и NVIDIA. Модель получает на вход RGB изображение. На выходе нейросеть выдает разметку позы робота. Модель обучалась исключительно на симулированных данных. Perspective-n-point (PnP) затем использовался для восстановления позиции камеры. DREAM не требует ручной настройки камеры.

Описание проблемы

Определение позы внешне установленной камеры — фундаментальная проблема для задачи управления роботом. Поза камеры необходима, чтобы трансформировать измерения из пространства камеры в пространство задачи робота. Эта трансформация обеспечивает устойчивое функционирование робота в неструктурированных динамических средах. Такой навык необходим роботу, чтобы уметь брать предметы, взаимодействовать с людьми и обходить препятствия.

Классический подход к настройке внешней камеры — вручную итеративно настраивать положение робота с помощью фиксации опорного маркера. Этот подход широко используется. Несмотря на это, у такого метода есть недостаток — необходимость вручную менять позицию конечного эффектора. Чтобы избавиться от этого недостатка, исследователи предлагают DREAM.

Что внутри модели

DREAM решает задачу оценки позы робота в два шага:

  1. Сначала нейросеть с архитектурой encoder-decoder принимает на вход RGB изображение робота и выдает n карт доверия (belief maps) для каждой ключевой точки позы;
  2. Perspective-n-Point (PnP) алгоритм использует выход модели на прошлом шаге и данные камеры, чтобы высчитать позу робота по отношению к камере

В картах доверия одной ключевой точки позы каждому пикселю присваивается вероятность, что ключевая точка изображена на пикселе. Кодировщик в нейросети — это сверточные слои предобученной VGG19

Визуализация структуры нейросети

Тестирование работы модели

Ниже видно, что DREAM выдает более устойчивые предсказания, чем конкурирующие подходы DART и ручная настройка (HEC).

Евклидово расстояние между реальной позицией робота и предсказанной

Источник: neurohive.io

Комментарии: