“Большие тексты”: алгоритм научат проверять факты в новостях и юридических документах

2017-07-12 18:45

искусственный интеллект, компьютерная лингвистика

В Образовательном центре “Сириус” команда молодых программистов проекта “Анализ текстов” создает алгоритм, способный “переваривать” большие массивы текстовых данных и находить связи между объектами, описанными в них. Например, общественными деятелями, политиками, учеными, компаниями или абстрактными понятиями. На основе алгоритма ребята планируют сделать чат-бота Telegram, который сможет проверять различные факты на истинность.

В рамках проекта “Анализ текстов” школьники в Центре “Сириус” разрабатывают удобный инструмент, который смог бы разобраться в больших текстовых данных и ответить пользователю, правдив какой-либо факт или нет. Для этого ребята создают алгоритм, способный находить связи между объектами в документах или статьях в интернете.

“Наша система может пригодится банковским, юридическим, займовым организациям для автоматической проверки фактов, а также прочим компаниям, у которых есть call-центры и виртуальные ассистенты, которые должны оперативно отвечать на вопросы клиентов”, — говорит разработчик проекта Александр Мамаев из Челябинска.

Для начала ребята решили потренироваться на Википедии. Так можно в короткие сроки написать алгоритм и протестировать его. Программисты уже выкачали сырые данные из электронной энциклопедии и обработали их. Они выглядят, как структурированные таблицы, где информация об объекте расформирована по определенным ячейкам.

“Например, если посмотреть на данные об олимпиаде в Сочи, там указано, где и когда она проходила, кто ее открывал. Сопоставив эти данные со статьей о Владимире Путине, алгоритм сможет сказать, что Олимпиаду в Сочи открывал именно он”, — разъясняет Александр Мамаев.

На основе данных Википедии исследователи построили граф — сеть, состоящую из вершин, или объектов, связанных ребрами. Для удобства визуализации этот граф построен на тысяче объектов. Но вообще, новый алгоритм способен обработать гораздо больше информации: до 13 000 000 объектов.

Этот граф знаний показывает, что, скажем, Аристотель связан с зоологией. Причем для этого философа зоология — сфера основного интереса (main interest). Об этом гласит надпись, привязанная к ребру между Аристотелем и зоологией: она показывает характер связи.

Сейчас алгоритм обучен собирать неупорядоченные понятия в граф, а вот находить нужные пути в этом графе пока не умеет. Молодые исследователи работают над тем, чтобы программа анализировала связи между объектами и могла отвечать на вопросы пользователей.

“С недавнего времени очень активно развиваются методы факт-чекинга, или проверки фактов. Компании Google, Yandex, Yahoo реализуют различные алгоритмы, позволяющие пользователям находить не только релевантную информацию, но и правдивую. Чат-системы банков учат проверять подлинность информации, предоставленной клиентом. Социальные сети также озаботились этим в свете последних политических выборов в США, когда во время предвыборной кампании множество людей постили у себя в профилях фейковые новости, и это создавало неразбериху. Facebook даже проводил соревнования по определению фейковых новостей”, — рассказывает руководитель проекта Александр Никитин, разработчик, «Яндекс» и ООО «Сбертех».

По его словам, не только проверка фактов является самоцелью проекта, ребята разрабатывают такой алгоритм, который можно адаптировать к системам “вопрос-ответ”. Происходит это так. Человек задает вопрос — голосом или набирает текстом — программа обращается к графу знаний, ищет соответствия и выдает ответ.

“Такая система будет полезна не только в виде чат-бота, но и в голосовых помощниках вроде Amazon Echo или “Алиса” в “Яндекс”, — отмечает Александр Никитин. — “Google внедрил свой факт-чекинг, но пока они нигде не выложили, не сказали, как это сделали, неясно, какую базу знаний они используют”.

После того, как программа сможет самостоятельно выделять связи из графа знаний, ребята хотят научить ее понимать вопросы пользователя. Здесь тоже стоит важная задача — предсказать все возможные предикаты, слова, которыми пользователи формулируют вопросы.

В принципе, подход ребят применим не только для Вики, но и для любых текстовых источников. Можно сопоставлять таким образом юридические и банковские документы: искать в них связи, ошибки, прецеденты. Сейчас в документах разбираются люди, но они могут что-то пропустить, да и просто просматривать огромное количество однотипных текстов — занятие монотонное. Поэтому ребята хотят сделать алгоритм, который поможет автоматизировать этот процесс.

В рамках проекта школьники ставят себе довольно амбициозные задачи, и если за 25 дней удастся сделать хотя бы половину, это будет достижением. Но судя по тому прогрессу, который достигнут сейчас, вполне возможно, что в конце июля мы все сможем спросить у нового чат-бота не только про Олимпиаду.

“Большие тексты”: алгоритм научат проверять факты в новостях и юридических документах

Комментарии: