![]() |
![]() |
![]() |
|||||
![]() |
olmOCR: инструмент для обработки PDF-документов |
||||||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-02-27 15:07 ![]() ![]() olmOCR (https://olmocr.allenai.org/blog) — проект, созданный для преобразования PDF-файлов и изображений документов в структурированный текст Markdown формата. Он способен справляться с уравнениями, таблицами и рукописным текстом, сохраняя правильный порядок чтения даже в самых сложных многоколоночных макетах. olmOCR обучен эвристическим признакам для обработки распространенных ошибок парсинга и метаданных и поддерживает работу в SGLang и vLLM, где может масштабироваться одного до сотен GPU, что что делает его уникальным решением для крупномасштабных задач. Ключевое преимущество olmOCR - его экономическая эффективность. Обработка 1 млн. страниц PDF обойдется всего в $190 (при аренде GPU), что составляет примерно 1/32 от стоимости использования API GPT-4o для того же объема. Команда разработки создала уникальный метод «document anchoring» чтобы улучшить качество извлеченного текста. Он использует текст и метаданные из PDF-файлов для повышения точности обработки. Области изображений и текстовые блоки извлекаются, конкатенируются и вставляются в промпт модели. Когда VLM запрашивает обычную текстовую версию документа, "привязанный" текст используется вместе с растрированным изображением страницы. В тестах olmOCR показал высокие результаты по сравнению с Marker, MinerU и GOT-OCR 2.0. В ходе тестирования olmOCR был предпочтен в 61,3% случаев против Marker, в 58,6% — против GOT-OCR и в 71,4% — против MinerU. Релиз olmOCR: Модель olmOCR-7B-0225-preview (https://huggingface.co/allenai/olmOCR-7B-0225-preview) - дообученная Qwen2-VL-7B-Instruct на датасете olmOCR-mix-0225; Датасет olmOCR-mix-0225 (https://huggingface.co/datasets/allenai/olmOCR-mix-0225) - более 250 тыс. страниц цифровых книг и документов из публичного доступа, распознанные с помощью gpt-4o-2024-08-06 и специальной стратегия промптов, которая сохраняет все цифровое содержимое каждой страницы. Набор кода (https://github.com/allenai/olmocr) для инференса и обучения. Рекомендованная среда для инференса: NVIDIA GPU (RTX 4090 и выше) 30 GB свободного пространства на SSD HDD установленный пакет
Локальная установка и запуск: # Install dependencies Лицензирование: Apache 2.0 License. Статья (https://olmocr.allenai.org/blog) Demo (https://olmocr.allenai.org/) Модель (https://huggingface.co/allenai/olmOCR-7B-0225-preview) Arxiv (https://olmocr.allenai.org/papers/olmocr.pdf) Сообщество в Discord (https://discord.gg/sZq3jTNVNG) Github (https://github.com/allenai/olmocr) Источник: github.com Комментарии: |
||||||