Нейросеть извлекает структурированную информацию из документов |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2020-07-08 16:51 Google AI опубликовали нейросеть, которая извлекает структурированную информацию из шаблонных документов. В отличие от предыдущих подходов, модель использует знание о типах целевой информации, чтобы отобрать и проранжировать распознанные части текста в документе. Эксперименты на корпусах счетов и чеков показывают, что нейросеть генерализуется на типы документов, на которых не обучалась. В чем проблема Шаблонные документы, как чеки, счета и страховые квоты, имеют множество разных применений в бизнес-сфере. На данный момент обработка таких документов по большей части основывается на ручном труде. При этом существующие автоматизированные системы строятся на эвристиках, которые неустойчивы к ошибкам и расхождениям в формате документов. Исследователи предлагают нейросетевой подход для извлечения информации из шаблонных документов. Как работает модель Предложенный подход позволяет разработчикам обучить и задеплоить систему по извлечению данных из документов определенного типа. Модель принимает на вход целевую схему, в которой содержится список полей для извлечения и их типы, и маленький набор размеченных документов. Модель извлекает данные следующих типов: даты, числа, цифро-буквенные коды, число со знаком валюты, телефонные номера и ссылки. Входной документ сначала проходит через сервис по распознаванию знаков (OCR). На этом этапе документ из формата PDF или изображения переводится в текстовый формат. Полученный текст прогоняется через генератор кандидатов, который отбирает потенциально нужные части текста. Кандидаты затем ранжируются с помощью нейросеть. Оценка работы модели Для обучения и проверки исследователи использовали датасет со счетами разных форматов. Тестировали систему на документах того формата, который модель ранее не видела. ![]() Телеграм: t.me/ainewsline Источник: neurohive.io Комментарии: |
|