Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики.

Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.

Как работает модель:

1) Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек

2) Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты

Архитектура:

• Визуальный энкодер — Swin Transformer

• Текстовый декодер — MBart

• Управление через промпты

Возможности:

• Постраничная обработка документа

• Точечный парсинг отдельных элементов (например, таблиц)

• Высокая точность и скорость работы модели

• Открытая MIT-лицензия

Установка:

`git clone https://github.com/ByteDance/Dolphin.git

cd Dolphin`

• Github (https://github.com/bytedance/Dolphin)

• HF (https://huggingface.co/ByteDance/Dolphin)

• Demo (https://huggingface.co/spaces/ByteDance/Dolphin)


Источник: huggingface.co

Комментарии: