Качество математических данных — ключ к развитию reasoning-моделей |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-09-08 11:20 Но тут есть проблема: лучшие данные скрыты в старых научных статьях, а OCR математики — это настоящий кошмар: куча исключений, форматы, языки. Даже GPT-5 при распознавании путает F с ? (маленькая правка в символе, но огромная смысловая разница) и ломает форматирование. Исследования (*deepseek-math, NVIDIA Nemotron*) подтверждают: предобучение на математике критично для улучшения рассуждений LLM. Работа HuggingFace над *smollm* показала, что фильтрация токенов с 34B ? 10B только по качеству повысила результативность. Для хорошего математического корпуса OCR должен быть почти 100% точным, справляться с разными языками и макетами страниц. Обычно используют MathPix — он неплох, но дорогой, медленный и закрытый. Хорошие новости: за последние месяцы open-source модели обошли MathPix. Marker уже показывает SoTA на бенчмарке *olmocr* по математике. Внутренние тесты в tier-1 AI-лаборатории: лучше MathPix. Минимальные ошибки даже на китайских статьях, где GPT-5 «сдавался». Репозитории: - Marker ? https://github.com/datalab-to/marker - Surya ? https://github.com/datalab-to/surya Персонализация и on-prem кастомизация тоже доступны — разработчики открыты к диалогу. Открытые решения для математического OCR двигаются быстрее, чем кажется. Источник: github.com Комментарии: |
|