Задача разработки системы, осуществляющей суммаризацию текстов

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Data Scientist Антон Гульдинский из EPAM Санкт-Петербург рассказал про один из наших проектов из области NLP (Nature Language Processing – обработка естественного языка). Антон описал задачи команды, трудности, с которыми ей пришлось столкнуться, и используемые инструменты. «Заказчиком является крупная компания из сферы финансовой и экономической аналитики. Перед командой стояла задача разработки системы, осуществляющей суммаризацию текстов (Text Summarization), то есть создание краткой версии текста, содержащей основной смысл, и выделение ключевых слов (Named-Entity Recognition). Целью создания такой системы стало аннотирование и написание синопсиса для текстов в базе данных заказчика.

Задача суммаризации – одна из самых сложных в NLP, так как для её решения недостаточно поверхностной информации о частотности или общей семантике отдельных слов. Для этого требуется понимание глубококонтекстуальных семантических связей в тексте. Поэтому для решения этой задачи применяются современные модели нейронных сетей – Трансформеры (Transformers).

В основу финального решения легла архитектура BertSumExt, показывавшая SoTA результаты в 2019 году. Для получения контекстуальных векторов слов использовалась языковая модель ELECTRA, опубликованная в 2020 году.

Выделение ключевых слов в проекте было осложнено, во-первых, большим разнообразием категорий (автомобили, химические элементы, валюта, медицина и т.п.), а во-вторых – отсутствием размеченного корпуса данных для обучения. Для решения этих проблем мы применили подход шумной разметки Snorkel, когда разметку осуществляет не человек вручную, а ML-модель. Она получает результаты разметки из большого количества других систем (готовых моделей в открытом доступе или написанных вручную эвристик). При этом некоторые из этих результатов могут не совпадать друг с другом, а некоторые совпадают лишь частично.

Данный подход позволяет создать большой аннотированный корпус тренировочных данных с минимальным использованием сил и времени экспертов. В основе NER-решения мы также использовали модель ELECTRA. Для обеих моделей применялся фреймворк PyTorch.

Модели для суммаризации и выделения ключевых слов в составе пайплайна были продукционализированны в инфраструктуре AWS с помощью сервисов AWS Lambda и AWS Fargate.

В первом релизе система обрабатывает тексты только в формате DOC, однако на следующем этапе станет возможной обработка и PDF-документов».

Интересных проектов у нас много, и если вы хотите работать и развиваться в этом направлении, быстрее смотрите вакансии на нашем сайте, тем более что в EPAM присоединиться к подобным проектам можно из любой локации: https://epa.ms/DSvacRu2020

Комментарии: