Новое исследование Hunyuan: Reinforcement Learning on Pre-training Data (RLPT)

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Этот метод решает главную проблему масштабирования LLM - ограниченность размеченного текста.

RLPT даёт моделям возможность учиться рассуждениям напрямую на данных предобучения, без дорогой ручной разметки.

Как это работает:

1) Модель во время обучения сама исследует данные и учится более общим стратегиям рассуждений.

2) Никакой дополнительной разметки — награды извлекаются прямо из предобучающих данных.

3) Награды за предсказание следующего сегмента позволяют масштабировать RL на этапе предобучения.

Результаты:

На Qwen3-4B-Base прирост: +3.0 (MMLU), +5.1 (MMLU-Pro), +8.1 (GPQA-Diamond), +6.0 (KOR-Bench), +6.6 (AIME24), +5.3 (AIME25).

Чем больше вычислений, тем сильнее рост.

Технология создаёт базу для дальнейших улучшений в RLVR.

Подробнее: https://arxiv.org/pdf/2509.19249


Источник: arxiv.org

Комментарии: