Задача разработки системы, осуществляющей суммаризацию текстов

2020-12-09 11:35

Data Scientist Антон Гульдинский из EPAM Санкт-Петербург рассказал про один из наших проектов из области NLP (Nature Language Processing – обработка естественного языка). Антон описал задачи команды, трудности, с которыми ей пришлось столкнуться, и используемые инструменты. «Заказчиком является крупная компания из сферы финансовой и экономической аналитики. Перед командой стояла задача разработки системы, осуществляющей суммаризацию текстов (Text Summarization), то есть создание краткой версии текста, содержащей основной смысл, и выделение ключевых слов (Named-Entity Recognition). Целью создания такой системы стало аннотирование и написание синопсиса для текстов в базе данных заказчика.

Задача суммаризации – одна из самых сложных в NLP, так как для её решения недостаточно поверхностной информации о частотности или общей семантике отдельных слов. Для этого требуется понимание глубококонтекстуальных семантических связей в тексте. Поэтому для решения этой задачи применяются современные модели нейронных сетей – Трансформеры (Transformers).

В основу финального решения легла архитектура BertSumExt, показывавшая SoTA результаты в 2019 году. Для получения контекстуальных векторов слов использовалась языковая модель ELECTRA, опубликованная в 2020 году.

Выделение ключевых слов в проекте было осложнено, во-первых, большим разнообразием категорий (автомобили, химические элементы, валюта, медицина и т.п.), а во-вторых – отсутствием размеченного корпуса данных для обучения. Для решения этих проблем мы применили подход шумной разметки Snorkel, когда разметку осуществляет не человек вручную, а ML-модель. Она получает результаты разметки из большого количества других систем (готовых моделей в открытом доступе или написанных вручную эвристик). При этом некоторые из этих результатов могут не совпадать друг с другом, а некоторые совпадают лишь частично.

Данный подход позволяет создать большой аннотированный корпус тренировочных данных с минимальным использованием сил и времени экспертов. В основе NER-решения мы также использовали модель ELECTRA. Для обеих моделей применялся фреймворк PyTorch.

Модели для суммаризации и выделения ключевых слов в составе пайплайна были продукционализированны в инфраструктуре AWS с помощью сервисов AWS Lambda и AWS Fargate.

В первом релизе система обрабатывает тексты только в формате DOC, однако на следующем этапе станет возможной обработка и PDF-документов».

Интересных проектов у нас много, и если вы хотите работать и развиваться в этом направлении, быстрее смотрите вакансии на нашем сайте, тем более что в EPAM присоединиться к подобным проектам можно из любой локации: https://epa.ms/DSvacRu2020



		Задача разработки системы, осуществляющей суммаризацию текстов
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-12-09 11:35 компьютерная лингвистика Data Scientist Антон Гульдинский из EPAM Санкт-Петербург рассказал про один из наших проектов из области NLP (Nature Language Processing – обработка естественного языка). Антон описал задачи команды, трудности, с которыми ей пришлось столкнуться, и используемые инструменты. «Заказчиком является крупная компания из сферы финансовой и экономической аналитики. Перед командой стояла задача разработки системы, осуществляющей суммаризацию текстов (Text Summarization), то есть создание краткой версии текста, содержащей основной смысл, и выделение ключевых слов (Named-Entity Recognition). Целью создания такой системы стало аннотирование и написание синопсиса для текстов в базе данных заказчика. Задача суммаризации – одна из самых сложных в NLP, так как для её решения недостаточно поверхностной информации о частотности или общей семантике отдельных слов. Для этого требуется понимание глубококонтекстуальных семантических связей в тексте. Поэтому для решения этой задачи применяются современные модели нейронных сетей – Трансформеры (Transformers). В основу финального решения легла архитектура BertSumExt, показывавшая SoTA результаты в 2019 году. Для получения контекстуальных векторов слов использовалась языковая модель ELECTRA, опубликованная в 2020 году. Выделение ключевых слов в проекте было осложнено, во-первых, большим разнообразием категорий (автомобили, химические элементы, валюта, медицина и т.п.), а во-вторых – отсутствием размеченного корпуса данных для обучения. Для решения этих проблем мы применили подход шумной разметки Snorkel, когда разметку осуществляет не человек вручную, а ML-модель. Она получает результаты разметки из большого количества других систем (готовых моделей в открытом доступе или написанных вручную эвристик). При этом некоторые из этих результатов могут не совпадать друг с другом, а некоторые совпадают лишь частично. Данный подход позволяет создать большой аннотированный корпус тренировочных данных с минимальным использованием сил и времени экспертов. В основе NER-решения мы также использовали модель ELECTRA. Для обеих моделей применялся фреймворк PyTorch. Модели для суммаризации и выделения ключевых слов в составе пайплайна были продукционализированны в инфраструктуре AWS с помощью сервисов AWS Lambda и AWS Fargate. В первом релизе система обрабатывает тексты только в формате DOC, однако на следующем этапе станет возможной обработка и PDF-документов». Интересных проектов у нас много, и если вы хотите работать и развиваться в этом направлении, быстрее смотрите вакансии на нашем сайте, тем более что в EPAM присоединиться к подобным проектам можно из любой локации: https://epa.ms/DSvacRu2020 Комментарии:

Задача разработки системы, осуществляющей суммаризацию текстов

Комментарии: