Роадмэп воспроизведения o1 от OpenAI с фокусом на RL

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2024-12-31 12:11

ИИ теория

Fundan University совместно с Shanghai AI Laboratory составили (https://arxiv.org/pdf/2412.14135) дорожную карту, как повторить возможности модели o1 от OpenAI.

Главное – обучение с подкреплением, есть 4 важных условия, которые нужно сделать, чтобы добиться такого же уровня, как у o1:

Инициализация политики

Разработка вознаграждения

Поиск

Обучение

Инициализация политики начинается с предварительного обучения LLM на больших текстовых датасетах. Они должны быть из разных областей и включать помимо классических задач NLP, примеры логического рассуждения, знаний о мире и демонстрировать паттерны навыка сравнения. Это позволит модели освоить базовое понимание языка и навыки рассуждения.

Последующая тонкая настройка на инструкциях преобразует модель из "предсказателя следующего токена" в полноценного агента, который может выполнять задачи. Тут важно добавить в процесс человекоподобных рассуждений через SFT или подсказки, чтобы научить модель исследовать пространство решений. Например, самооценке и самокоррекции, как это происходит у OpenAI o1.

Разработка вознаграждения дает модели четкую и понятную обратную связь не только в конце решения задачи, но и на промежуточных этапах. Правильно спроектированная система с использованием внутренних и внешних функций крайне важна, с ней модель учится лучше.

Поиск - решающий навык для генерации качественных решений на этапах обучения и тестирования. Использование методов Best-of-N, Beam Search, MCTS позволяет получить лучшие из возможных результатов. Например, MCTS подходит для более широкого исследования пространства решений.

Обучение использует данные, полученные в процессе поиска для улучшения политики модели. Чем больше параметров и объем поисковых данных - тем лучше производительность в итоге. По сути, обучение и поиск работают как "суперсила", способствуя развитию модели.

Выводы, сделанные в процессе исследования авторами сводятся к тому, что существующие открытые проекты, которые пытаются воспроизвести o1 - вариации такого метода обучения. Обучение с подкреплением - ключ к созданию "рассуждающей модели".

Arxiv (https://arxiv.org/pdf/2412.14135)


Источник: arxiv.org

Комментарии: