NVIDIA научила роботов-манипуляторов учиться на собственных ошибках при захвате объектов

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью.

Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды.

И вот, похоже, NVIDIA предложила решение этой проблемы.

GraspGen (https://graspgen.github.io/) - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению.

В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием.

Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные.

И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель.

Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь.

Подкреплено все это работой с данными.

Разработчики выпустили симулированный датасет (https://huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GraspGen), содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски.

На практике, в тестах, цифры говорят сами за себя.

В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%.

На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно.

Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%.

NVIDIA выложила в открытый доступ весь инструментарий.

Код (https://github.com/NVlabs/GraspGen), веса моделей (https://huggingface.co/adithyamurali/GraspGenModels) и датасет (https://huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GraspGen) уже доступны на GitHub и Hugging Face.

Авторы позаботились об энтузиастах: есть подробные инструкции по установке (https://github.com/NVlabs/GraspGen?tab=readme-ov-file#installation) через Docker или pip, готовые демо-скрипты (https://github.com/NVlabs/GraspGen?tab=readme-ov-file#inference-demos), позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд.

Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал (https://github.com/NVlabs/GraspGen/blob/main/tutorials/TUTORIAL.md), который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD.

В планах на будущее

Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных.

Лицензирование кода: NVIDIA Research Licensing (https://www.nvidia.com/en-us/research/inquiries/).

Лицензирование датасета : CC-BY-4.0 License.

Страница проекта (https://graspgen.github.io/)

Набор моделей (https://huggingface.co/adithyamurali/GraspGenModels)

Arxiv (https://arxiv.org/pdf/2507.13097)

Датасет (https://huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GraspGen)

GitHub (https://github.com/NVlabs/GraspGen)


Источник: github.com

Комментарии: