ICRT : Внутриконтекстное обучение имитации действия с помощью предсказания следующего токена

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


In-Context Robot Transformer (ICRT) - модель, которая позволяет роботу выполнять новые задачи, интерпретируя контекстную информацию, предоставленную во время демонстрационной фазы, без обновления параметров базовой политики.

ICRT представляет собой причинно-следственный трансформер, который выполняет автоматический прогноз сенсомоторных траекторий без использования лингвистических данных или функции вознаграждения. Он позволяет гибко и без обучения выполнять новые задачи на основе наблюдений изображений, действий и состояний, собранных с помощью телеопераций человека.

Модель состоит из трех частей: предварительно обученного кодировщика изображений, серии проекторов для каждой из входных модальностей и каузального трансформера:

Кодировщик изображений обрабатывает разноплановые наблюдения через трансформер, который был обучен на смеси данных ImageNet и Open X-Embodiment

Проекторы преобразуют наблюдения, состояние робота и действия в общее латентное пространство для последующего моделирования

Трансформер принимает на вход последовательность токенов, представляющих состояние робота и действия, и производит выходные данные, которые используются для управления роботом.

Для предварительного обучения модели использовался датасет DROID и созданный вручную мультизадачный датасет ICRT-Multi-Task (ICRT-MT - 1098 траекторий, 26 задач с 6 примитивами), который использовался в этапе дообучения.

Результаты экспериментов показывают, что ICRT способен обобщать незнакомые задачи и объекты, даже в средах, которые отличаются от демонстрационных.

Установка:

# Create & activate venv  

conda create -n icrt python=3.10 -y

conda activate icrt

# Install torch

conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia

conda install -c conda-forge ffmpeg

# Clone the Repository

git clone https://github.com/Max-Fu/icrt.git

cd icrt

# Install required packages

pip install -e .

# Install git-lfs

sudo apt install git-lfs

git lfs install

# Download checkpoints

git clone git@hf.co:mlfu7/ICRT checkpoints

Пример инференса приведен в ноутбуке inference.ipynb (https://github.com/Max-Fu/icrt/blob/main/tools/inference.ipynb). Перед его запуском обязательно ознакомьтесь с рекомендациями (https://github.com/Max-Fu/icrt/blob/main/DATASET.md) по загрузке и созданию собственного датасета.

Лицензирование : Apache 2.0 License.

Arxiv (https://icrt.dev/files/icrt.pdf)

Dataset (https://huggingface.co/datasets/Ravenh97/ICRT-MT)

Модель (https://huggingface.co/mlfu7/ICRT)

Github (https://github.com/Max-Fu/icrt)


Источник: github.com

Комментарии: