Llama3-SWE-RL: Методика обучения LLM для задач разработки ПО с использованием RL

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

Атаки на ИИ
ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Промпты. Генеративные запросы
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2025-02-28 13:49

ИИ проекты, разработка по

SWE-RL (https://arxiv.org/pdf/2502.18449) – техника обучения LLM для задач разработки программного обеспечения с применением обучения с подкреплением на данных открытых репозиториев Github.

Llama3-SWE-RL наделяет навыкам ризонинга, улучшая результаты на задачах вне общего домена кодинга: функциональное программирование, использование библиотек, планирование кода, математические операции и NLP. В отличие от SFT, SWE-RL позволяет модели улучшать свои общие способности рассуждения.

Пайплайн методики состоит из последовательности этапов:

Первый этап - сбор, модерация и агрегирование pull requests из публичных репозиториев Github, разметка и преобразование этого массива в датасет (описание проблемы-контекст кода - "oracle patch")

Oracle patch - это эталонный вариант исправления кода, используемый для обучения и оценки языковых моделей в задачах, связанных с автоматическим решением проблем в программном обеспечении

Второй этап: обучение LLM навыкам генерации кода на основе задачи и контекста, расчет поощрения для RL (тут используют similarity score между инференсом модели и "oracle patch" с использованием difflib.SequenceMatcher. Неверные ответы получают отрицательный reward)

Третий этап: корректировка и оптимизация политики обучения с помощью GPRO.

Тестовая модель Llama3-SWE-RL-70B, обученная на основе Llama-3.3-70B-Instruct с использованием SWE-RL, показала 41.0% solve rate на SWE-bench Verified, это лучший показатель среди моделей среднего размера (<100B) и сопоставимо с результатом GPT-4o.

Прикладная реализация SWE-RL доступна в репозитории проекта (https://github.com/facebookresearch/swe-rl), где разработчиками представлены шаблоны промптов (https://github.com/facebookresearch/swe-rl/blob/main/src/swerl/core/prompts.py) и реализация функции вознаграждения (https://github.com/facebookresearch/swe-rl/blob/main/src/swerl/core/reward.py) на основе сходства последовательностей.

Локальная установка с примером использования в проекте:

# Install SWE-RL   git clone https://github.com/facebookresearch/swe-rl && cd swe-rl 
  pip install -e ".[dev]" 
  pytest 
  # example on how you can use the reward function in your own project: 
  import swerl 
  file = """ 
  def sort_list(lst): 
      return sorted(lst) 
  """.strip() 
  oracle_file = """ 
  def sort_list(lst: list[int]) -> list[int]: 
      return sorted(lst) 
  """.strip() 
  context = {"example.py": file} 
  oracle = {"example.py": oracle_file} 
  output = """ 
  <think> 
  ...thoughts by LLM 
  </think> 
  <solution> 
  ```python 
  ### example.py 
  <<<<<<< SEARCH 
  def sort_list(lst): 
  ======= 
  def sort_list(lst: list[int]) -> list[int]: 
  >>>>>>> REPLACE 
  </solution> 
  """.strip() 
  reward, metadata = swerl.core.reward.calculate_search_replace_reward(context, oracle, output) 
  assert reward == 1.0 
  print(metadata)

Лицензирование: CC-NC-4.0 License.

Arxiv (https://arxiv.org/pdf/2502.18449)

GitHub (https://github.com/facebookresearch/swe-rl)

Источник: github.com

Llama3-SWE-RL: Методика обучения LLM для задач разработки ПО с использованием RL

Комментарии: