OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах.

Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper).

Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных.

OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X).

Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции (https://github.com/openvla/openvla?tab=readme-ov-file#fine-tuning-openvla-via-lora)по самостоятельному дообучению на вашем наборе демонстраций.

Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B:

openvla-7b-prismatic (https://huggingface.co/openvla/openvla-7b-prismatic) - адаптация для использования с Prismatic VLMs project (https://github.com/TRI-ML/prismatic-vlms) codebase;

openvla-7b-finetuned-libero-spatial (https://huggingface.co/openvla/openvla-7b-finetuned-libero-spatia) - - файнтюн с помощью LoRA на датасете LIBERO-Spatial бенчмарка LIBERO (https://libero-project.github.io/main.html);

openvla-7b-finetuned-libero-object (https://huggingface.co/openvla/openvla-7b-finetuned-libero-object) - файнтюн с помощью LoRA на датасете LIBERO-Object;

openvla/openvla-7b-finetuned-libero-10 (https://huggingface.co/openvla/openvla-7b-finetuned-libero-10) - файнтюн с помощью LoRA на датасете LIBERO-10 (Long).

Установка :

# Create venv  

conda create -n openvla python=3.10 -y

conda activate openvla

# Install PyTorch

conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y

# Clone and install the openvla repo

git clone https://github.com/openvla/openvla.git

cd openvla

pip install -e .

# for training only

# Install Flash Attention 2

pip install packaging ninja

ninja —version; echo $? # —> should return code "0"

pip install "flash-attn==2.5.5" —no-build-isolation

Лицензирование : MIT License.

Страница проекта (https://openvla.github.io/)

Arxiv (https://arxiv.org/pdf/2406.09246)

Набор моделей (https://huggingface.co/openvla)

Github (https://github.com/openvla/openvla)


Источник: github.com

Комментарии: