OpenVLA - набор моделей с 7млрд. параметров, которые предназначены для универсального управления роботами |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-09-08 12:10 OpenVLA состоит из комбинации визуальных энкодеров SigLIP, DinoV2 и языковой модели Llama 2, выступающей в качестве основы. Обучение производилось на наборе данных Open-X, который состоит из 970 тыс. траекторий манипуляций в различных средах. Модели принимают на вход языковую инструкцию и изображение рабочей области с камеры робота. Затем, OpenVLA предсказывает нормализированные действия робота, состоящие из 7-DoF дельт конечных эффекторов в виде координатных положений (x, y, z, roll, pitch, yaw, gripper). Для выполнения на реальной роботизированной платформе действия должны быть де-нормализованы с учетом статистики, вычисляемой для каждого робота и каждого набора данных. OpenVLA готовы к использованию для управления роботами в комбинациях действий и обстановках, если они схожи с действиями и задачами, которые присутствуют в Open-X (например, для сред BridgeV2 с роботом Widow-X). Модели не умеют самообучаться на условиях, не представленных в предварительном обучении; для решения таких случаев разработчики подготовили подробные инструкции (https://github.com/openvla/openvla?tab=readme-ov-file#fine-tuning-openvla-via-lora)по самостоятельному дообучению на вашем наборе демонстраций. Семейство OpenVLA состоит из 5 модификаций базовой OpenVLA-7B: openvla-7b-prismatic (https://huggingface.co/openvla/openvla-7b-prismatic) - адаптация для использования с Prismatic VLMs project (https://github.com/TRI-ML/prismatic-vlms) codebase; openvla-7b-finetuned-libero-spatial (https://huggingface.co/openvla/openvla-7b-finetuned-libero-spatia) - - файнтюн с помощью LoRA на датасете LIBERO-Spatial бенчмарка LIBERO (https://libero-project.github.io/main.html); openvla-7b-finetuned-libero-object (https://huggingface.co/openvla/openvla-7b-finetuned-libero-object) - файнтюн с помощью LoRA на датасете LIBERO-Object; openvla/openvla-7b-finetuned-libero-10 (https://huggingface.co/openvla/openvla-7b-finetuned-libero-10) - файнтюн с помощью LoRA на датасете LIBERO-10 (Long). Установка : # Create venv conda create -n openvla python=3.10 -y conda activate openvla # Install PyTorch conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia -y # Clone and install the openvla repo git clone https://github.com/openvla/openvla.git cd openvla pip install -e . # for training only # Install Flash Attention 2 pip install packaging ninja ninja —version; echo $? # —> should return code "0" pip install "flash-attn==2.5.5" —no-build-isolation Лицензирование : MIT License. Страница проекта (https://openvla.github.io/) Arxiv (https://arxiv.org/pdf/2406.09246) Набор моделей (https://huggingface.co/openvla) Github (https://github.com/openvla/openvla) Источник: github.com Комментарии: |
|