Качество математических данных — ключ к развитию reasoning-моделей

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки.

Даже GPT-5 при распознавании путает F с ? (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование.

Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B ? 10B только по качеству повысила результативность.

Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц.

Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый.

Хорошие новости: за последние месяцы open-source модели обошли MathPix.

Marker уже показывает SoTA на бенчмарке *olmocr* по математике.

Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix.

Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался».

Репозитории:

- Marker ? https://github.com/datalab-to/marker

- Surya ? https://github.com/datalab-to/surya

Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу.

Открытые решения для математического OCR двигаются быстрее, чем кажется.


Источник: github.com

Комментарии: