NVIDIA научила роботов-манипуляторов учиться на собственных ошибках при захвате объектов

2025-07-26 11:31

роботы новости, машинное обучение python

Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью.

Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды.

И вот, похоже, NVIDIA предложила решение этой проблемы.

GraspGen (https://graspgen.github.io/) - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению.

В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием.

Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные.

И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель.

Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь.

Подкреплено все это работой с данными.

Разработчики выпустили симулированный датасет (https://huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GraspGen), содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски.

На практике, в тестах, цифры говорят сами за себя.

В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%.

На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно.

Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%.

NVIDIA выложила в открытый доступ весь инструментарий.

Код (https://github.com/NVlabs/GraspGen), веса моделей (https://huggingface.co/adithyamurali/GraspGenModels) и датасет (https://huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GraspGen) уже доступны на GitHub и Hugging Face.

Авторы позаботились об энтузиастах: есть подробные инструкции по установке (https://github.com/NVlabs/GraspGen?tab=readme-ov-file#installation) через Docker или pip, готовые демо-скрипты (https://github.com/NVlabs/GraspGen?tab=readme-ov-file#inference-demos), позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд.

Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал (https://github.com/NVlabs/GraspGen/blob/main/tutorials/TUTORIAL.md), который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD.

В планах на будущее

Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных.

Лицензирование кода: NVIDIA Research Licensing (https://www.nvidia.com/en-us/research/inquiries/).

Лицензирование датасета : CC-BY-4.0 License.

Страница проекта (https://graspgen.github.io/)

Набор моделей (https://huggingface.co/adithyamurali/GraspGenModels)

Arxiv (https://arxiv.org/pdf/2507.13097)

Датасет (https://huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GraspGen)

GitHub (https://github.com/NVlabs/GraspGen)

Источник: github.com



		NVIDIA научила роботов-манипуляторов учиться на собственных ошибках при захвате объектов
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2025-07-26 11:31 роботы новости, машинное обучение python Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью. Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды. И вот, похоже, NVIDIA предложила решение этой проблемы. GraspGen (https://graspgen.github.io/) - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению. В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием. Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные. И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель. Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь. Подкреплено все это работой с данными. Разработчики выпустили симулированный датасет (https://huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GraspGen), содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски. На практике, в тестах, цифры говорят сами за себя. В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%. На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно. Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%. NVIDIA выложила в открытый доступ весь инструментарий. Код (https://github.com/NVlabs/GraspGen), веса моделей (https://huggingface.co/adithyamurali/GraspGenModels) и датасет (https://huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GraspGen) уже доступны на GitHub и Hugging Face. Авторы позаботились об энтузиастах: есть подробные инструкции по установке (https://github.com/NVlabs/GraspGen?tab=readme-ov-file#installation) через Docker или pip, готовые демо-скрипты (https://github.com/NVlabs/GraspGen?tab=readme-ov-file#inference-demos), позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд. Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал (https://github.com/NVlabs/GraspGen/blob/main/tutorials/TUTORIAL.md), который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD. В планах на будущее Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных. Лицензирование кода: NVIDIA Research Licensing (https://www.nvidia.com/en-us/research/inquiries/). Лицензирование датасета : CC-BY-4.0 License. Страница проекта (https://graspgen.github.io/) Набор моделей (https://huggingface.co/adithyamurali/GraspGenModels) Arxiv (https://arxiv.org/pdf/2507.13097) Датасет (https://huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GraspGen) GitHub (https://github.com/NVlabs/GraspGen) Источник: github.com Комментарии:

NVIDIA научила роботов-манипуляторов учиться на собственных ошибках при захвате объектов

Комментарии: