RLtools: самая быстрая библиотека глубокого обучения с подкреплением для задач непрерывного управления

2024-12-01 11:56

машинное обучение python, архитектура нейронных сетей

RLtools - библиотека глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL) с высокой скоростью работы для разработки и исследования алгоритмов DL.

RLtools написана на C++ и позволяет проводить обучение и вывод моделей DRL на РС, мобильных устройствах и embedded-системах. В экспериментальном тестировании, библиотека обучила алгоритм RL непосредственно на микроконтроллере.

Библиотека поддерживает алгоритмы DRL: TD3, PPO, Multi-Agent PPO и SAC и предлагает набор примеров, демонстрирующих использование этих алгоритмов для решения задач управления на примерах управления маятником, гоночным автомобилем и роботом-муравьем MuJoCo.

Код реализации алгоритмов:

TD3 - Pendulum (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/pendulum/td3/cpu/standalone.cpp), Racing Car (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/car/car.cpp), MuJoCo Ant-v4 (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/mujoco/ant/td3/training.h), Acrobot (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/acrobot/td3/acrobot.cpp);

PPO - Pendulum (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/pendulum/ppo/cpu/training.cpp), Racing Car (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/car/training_ppo.h), MuJoCo Ant-v4 (CPU) (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/mujoco/ant/ppo/cpu/training.h), MuJoCo Ant-v4 (CUDA) (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/mujoco/ant/ppo/cuda/training_ppo.cu);

Multi-Agent PPO - Bottleneck (https://github.com/rl-tools/rl-tools/blob/master/src/rl/zoo/ppo/bottleneck-v0.h);

SAC - Pendulum (CPU (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/pendulum/sac/cpu/training.cpp)), Pendulum (CUDA) (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/pendulum/sac/cuda/sac.cu), Acrobot (https://github.com/rl-tools/rl-tools/blob/master/src/rl/environments/acrobot/sac/acrobot.cpp).

Благодаря оптимизации и использования аппаратного ускорения RLtools в 76 раз быстрее других библиотек. Например, на MacBook Pro с M1 RLtools может обучить модель SAC (управление маятником) за 4 секунды.

Библиотеку можно использовать на Linux, macOS, Windows, iOS, Teensy, Crazyflie, ESP32 и PX4.

RLtools предоставляет Python API (https://github.com/rl-tools/python-interface), с которым можно использовать (https://docs.rl.tools/09-Python%20Interface.html) библиотеку из Python-кода. API RLtools совместим с библиотекой симуляции сред Gym.

Проекты, использующие RLtools:

Научиться летать за секунды (https://github.com/arplaboratory/learning-to-fly) (Youtube (https://youtu.be/NRD43ZA1D-4), IEEE Spectrum (https://spectrum.ieee.org/amp/drone-quadrotor-2667196800));

Идентификация системы на основе данных для квадрокоптеров с задержкой двигателя (https://github.com/arplaboratory/data-driven-system-identification) (Youtube (https://youtu.be/G3WGthRx2KE), Project Page (https://sysid.tools/)).

Запуск на примере обучения политике с помощью PPO:

# Clone and checkout

git clone https://github.com/rl-tools/example

cd example

git submodule update —init external/rl_tools

# Build and run

mkdir build

cd build

cmake .. -DCMAKE_BUILD_TYPE=Release

cmake —build .

./my_pendulum

Лицензирование: MIT License.

Документация (https://docs.rl.tools/)

Arxiv (https://arxiv.org/pdf/2306.03530)

RLTools Design Studio (https://studio.rl.tools/)

Demo (https://rl.tools/)

Zoo Experiment Tracking (https://zoo.rl.tools/)

Google Collab (Python Interface) (https://colab.research.google.com/github/rl-tools/documentation/blob/master/docs/09-Python%20Interface.ipynb)

Сообщество в Discord (https://discord.gg/kbvxCavb5h)

GitHub (https://github.com/rl-tools/)

Источник: github.com

RLtools: самая быстрая библиотека глубокого обучения с подкреплением для задач непрерывного управления

Комментарии: