Математические датасет OpenMathReasoning и модели OpenMath-Nemotron - победители олимпиады AIMO-2

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


NVIDIA представила новый подход к обучению моделей для сложных математических задач, заняв первое место (https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/leaderboard) в конкурсе Kaggle AIMO-2.

Секрет — в огромном датасете OpenMathReasoning (https://huggingface.co/datasets/nvidia/OpenMathReasoning), который состоит из 540 тыс. уникальных задач с Art of Problem Solving, 3,2 млн. многошаговых решений (CoT) и 1,7 млн. примеров с интеграцией кода (TIR).

Для сравнения: это в разы больше, чем в популярных аналогах MATH и GSM8K. Все это дополнено 566 тыс. примеров для обучения генеративному выбору решений (GenSelect) — методу, который лучше, чем классическое голосование большинством.

OpenMathReasoning создавался тщательно и ответственно. Сначала задачи фильтровались через Qwen2.5-32B, чтобы убрать простые или дублирующие бенчмарки. Затем DeepSeek-R1 и QwQ-32B генерировали решения, а итеративная тренировка с жесткой фильтрацией улучшала качество. Например, код в TIR-решениях должен был не просто проверять шаги, а давать принципиально новые вычисления — вроде перебора вариантов или численного решения уравнений.

Модели OpenMath-Nemotron (https://huggingface.co/collections/nvidia/openmathreasoning-68072c0154a5099573d2e730) (1,5B–32B параметров), обученные на этом наборе данных показали SOTA-результаты. 14B-версия в режиме TIR решает 76,3% задач AIME24 против 65,8% у базового DeepSeek-R1. А с GenSelect, который анализирует 16 кандидатов за раз, точность взлетает до 90%. Даже 1,5B-модель с GenSelect обгоняет 32B-гиганты в отдельных тестах.

Лицензирование: CC-BY-4.0 License.

Набор моделей (https://huggingface.co/collections/nvidia/openmathreasoning-68072c0154a5099573d2e730)

Arxiv (https://arxiv.org/pdf/2504.16891)

Датасет (https://huggingface.co/datasets/nvidia/OpenMathReasoning)

GitHub (https://github.com/NVIDIA/NeMo-Skills)


Источник: github.com

Комментарии: