Задача разработки системы, осуществляющей суммаризацию текстов |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-12-09 11:35
Data Scientist Антон Гульдинский из EPAM Санкт-Петербург рассказал про один из наших проектов из области NLP (Nature Language Processing – обработка естественного языка). Антон описал задачи команды, трудности, с которыми ей пришлось столкнуться, и используемые инструменты. «Заказчиком является крупная компания из сферы финансовой и экономической аналитики. Перед командой стояла задача разработки системы, осуществляющей суммаризацию текстов (Text Summarization), то есть создание краткой версии текста, содержащей основной смысл, и выделение ключевых слов (Named-Entity Recognition). Целью создания такой системы стало аннотирование и написание синопсиса для текстов в базе данных заказчика.
Задача суммаризации – одна из самых сложных в NLP, так как для её решения недостаточно поверхностной информации о частотности или общей семантике отдельных слов. Для этого требуется понимание глубококонтекстуальных семантических связей в тексте. Поэтому для решения этой задачи применяются современные модели нейронных сетей – Трансформеры (Transformers). В основу финального решения легла архитектура BertSumExt, показывавшая SoTA результаты в 2019 году. Для получения контекстуальных векторов слов использовалась языковая модель ELECTRA, опубликованная в 2020 году. Выделение ключевых слов в проекте было осложнено, во-первых, большим разнообразием категорий (автомобили, химические элементы, валюта, медицина и т.п.), а во-вторых – отсутствием размеченного корпуса данных для обучения. Для решения этих проблем мы применили подход шумной разметки Snorkel, когда разметку осуществляет не человек вручную, а ML-модель. Она получает результаты разметки из большого количества других систем (готовых моделей в открытом доступе или написанных вручную эвристик). При этом некоторые из этих результатов могут не совпадать друг с другом, а некоторые совпадают лишь частично. Данный подход позволяет создать большой аннотированный корпус тренировочных данных с минимальным использованием сил и времени экспертов. В основе NER-решения мы также использовали модель ELECTRA. Для обеих моделей применялся фреймворк PyTorch. Модели для суммаризации и выделения ключевых слов в составе пайплайна были продукционализированны в инфраструктуре AWS с помощью сервисов AWS Lambda и AWS Fargate. В первом релизе система обрабатывает тексты только в формате DOC, однако на следующем этапе станет возможной обработка и PDF-документов». Интересных проектов у нас много, и если вы хотите работать и развиваться в этом направлении, быстрее смотрите вакансии на нашем сайте, тем более что в EPAM присоединиться к подобным проектам можно из любой локации: https://epa.ms/DSvacRu2020Комментарии: |
|