olmOCR: инструмент для обработки PDF-документов

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


olmOCR (https://olmocr.allenai.org/blog) — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах.

olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач.

Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема.

Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы.

В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU.

Релиз olmOCR:

Модель olmOCR-7B-0225-preview (https://huggingface.co/allenai/olmOCR-7B-0225-preview) - дообученная Qwen2-VL-7B-Instruct на датасете olmOCR-mix-0225;

Датасет olmOCR-mix-0225 (https://huggingface.co/datasets/allenai/olmOCR-mix-0225) - более 250 тыс. страниц цифровых книг и документов из публичного доступа, распознанные с помощью gpt-4o-2024-08-06 и специальной стратегия промптов, которая сохраняет все цифровое содержимое каждой страницы.

Набор кода (https://github.com/allenai/olmocr) для инференса и обучения.

Рекомендованная среда для инференса:

NVIDIA GPU (RTX 4090 и выше)

30 GB свободного пространства на SSD HDD

установленный пакет poppler-utils

sglang с flashinfer для GPU-инференса

Локальная установка и запуск:

# Install dependencies  

sudo apt-get update

sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

# Set up a conda env

conda create -n olmocr python=3.11

conda activate olmocr

git clone https://github.com/allenai/olmocr.git

cd olmocr

pip install -e .

# Convert a Single PDF

python -m olmocr.pipeline ./localworkspace —pdfs tests/gnarly_pdfs/test.pdf

# Convert Multiple PDFs

python -m olmocr.pipeline ./localworkspace —pdfs tests/gnarly_pdfs/*.pdf

Лицензирование: Apache 2.0 License.

Статья (https://olmocr.allenai.org/blog)

Demo (https://olmocr.allenai.org/)

Модель (https://huggingface.co/allenai/olmOCR-7B-0225-preview)

Arxiv (https://olmocr.allenai.org/papers/olmocr.pdf)

Сообщество в Discord (https://discord.gg/sZq3jTNVNG)

Github (https://github.com/allenai/olmocr)


Источник: github.com

Комментарии: