Qwen2.5-Math-PRM-7B и Qwen2.5-Math-PRM-72B. PRM

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


В дополнение к математической модели вознаграждения за результат (ORM) Qwen2.5-Math-RM-72B, Qwen выпустили модели вознаграждения за процесс (PRM),

Они представляют собой новый подход к наблюдению за процессами в математических рассуждениях больших языковых моделей (LLM), направленный на выявление и устранение промежуточных ошибок в процессах рассуждений.

PRM демонстрируют впечатляющую производительность в оценке Best-of-N (BoN), так и более высокую эффективность нахождения ошибок в ProcessBench.

А вот интересная цитата из технического отчета:

"Мы разрабатываем механизм консенсусной фильтрации, который эффективно объединяет оценку МК с LLM-как-оценку, и выступаем за более комплексную систему оценки, которая объединяет метрики уровня ответа и уровня шага"

» https://huggingface.co/papers/2501.07301


Источник: huggingface.co

Комментарии: