OCR-2.0 на подходе, генеративный ИИ и мультимодальные LLM станут его основой!

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


GOT (General OCR Theory) - это модель 580M OCR-2.0, превосходящая все существующие методы оптического распознавания символов.

GOT состоит из Vision-Encoder для преобразования изображений в трансформеры изображений, а затем токены и для распознавания OCR в различных форматах (например, обычный текст, markdown, Mathpix).

GOT разработан для обработки сложных документов, таких как громадные таблици, формулы и геометрические фигуры.

Реализация

1) Vision Предварительное обучение кодировщика: Кодировщик VitDet

2) Совместное обучение: Кодер соединен с декодером (Qwen-0.5B),

3) Фантюнинг модели на конкретных задачах

Encoder-Decoder с 80 М (VitDet) и 500 М (Qwen2) с контекстом 8k

Достигает 0,035 Расстояние Левенштейна (метрика, измеряющая по модулю разность между двумя последовательностями символов.) и оценка BLEU 0,972 для обычного OCR

Превосходит LLaVA-NeXT и Qwen-VL-Max в распознавании текстов документов и сцен

Может извлекать формулы LaTeX из Arxiv и конвертировать их в формат Mathpix

Поддерживает динамическое разрешение и многостраничный OCR

Принимает разрешение до 1024x1024

Статья: https://huggingface.co/papers/2409.01704

Github (обещают скоро): https://github.com/Ucas-HaoranWei/GOT-OCR2.0


Источник: github.com

Комментарии: