Нейросеть извлекает структурированную информацию из документов

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

Атаки на ИИ
ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Промпты. Генеративные запросы
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2020-07-08 16:51

компьютерная лингвистика

Google AI опубликовали нейросеть, которая извлекает структурированную информацию из шаблонных документов. В отличие от предыдущих подходов, модель использует знание о типах целевой информации, чтобы отобрать и проранжировать распознанные части текста в документе. Эксперименты на корпусах счетов и чеков показывают, что нейросеть генерализуется на типы документов, на которых не обучалась.

В чем проблема

Шаблонные документы, как чеки, счета и страховые квоты, имеют множество разных применений в бизнес-сфере. На данный момент обработка таких документов по большей части основывается на ручном труде. При этом существующие автоматизированные системы строятся на эвристиках, которые неустойчивы к ошибкам и расхождениям в формате документов. Исследователи предлагают нейросетевой подход для извлечения информации из шаблонных документов.

Как работает модель

Предложенный подход позволяет разработчикам обучить и задеплоить систему по извлечению данных из документов определенного типа. Модель принимает на вход целевую схему, в которой содержится список полей для извлечения и их типы, и маленький набор размеченных документов.

Модель извлекает данные следующих типов: даты, числа, цифро-буквенные коды, число со знаком валюты, телефонные номера и ссылки. Входной документ сначала проходит через сервис по распознаванию знаков (OCR). На этом этапе документ из формата PDF или изображения переводится в текстовый формат. Полученный текст прогоняется через генератор кандидатов, который отбирает потенциально нужные части текста. Кандидаты затем ранжируются с помощью нейросеть.

Оценка работы модели

Для обучения и проверки исследователи использовали датасет со счетами разных форматов. Тестировали систему на документах того формата, который модель ранее не видела.

F-мера модели на задаче распознавания данных разного типа

Телеграм: t.me/ainewsline

Источник: neurohive.io



		Нейросеть извлекает структурированную информацию из документов
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-07-08 16:51 компьютерная лингвистика Google AI опубликовали нейросеть, которая извлекает структурированную информацию из шаблонных документов. В отличие от предыдущих подходов, модель использует знание о типах целевой информации, чтобы отобрать и проранжировать распознанные части текста в документе. Эксперименты на корпусах счетов и чеков показывают, что нейросеть генерализуется на типы документов, на которых не обучалась. В чем проблема Шаблонные документы, как чеки, счета и страховые квоты, имеют множество разных применений в бизнес-сфере. На данный момент обработка таких документов по большей части основывается на ручном труде. При этом существующие автоматизированные системы строятся на эвристиках, которые неустойчивы к ошибкам и расхождениям в формате документов. Исследователи предлагают нейросетевой подход для извлечения информации из шаблонных документов. Как работает модель Предложенный подход позволяет разработчикам обучить и задеплоить систему по извлечению данных из документов определенного типа. Модель принимает на вход целевую схему, в которой содержится список полей для извлечения и их типы, и маленький набор размеченных документов. Модель извлекает данные следующих типов: даты, числа, цифро-буквенные коды, число со знаком валюты, телефонные номера и ссылки. Входной документ сначала проходит через сервис по распознаванию знаков (OCR). На этом этапе документ из формата PDF или изображения переводится в текстовый формат. Полученный текст прогоняется через генератор кандидатов, который отбирает потенциально нужные части текста. Кандидаты затем ранжируются с помощью нейросеть. Оценка работы модели Для обучения и проверки исследователи использовали датасет со счетами разных форматов. Тестировали систему на документах того формата, который модель ранее не видела. F-мера модели на задаче распознавания данных разного типа Телеграм: t.me/ainewsline Источник: neurohive.io Комментарии:

Нейросеть извлекает структурированную информацию из документов

Комментарии: