Открытый доступ к русскому языку: российские лингвисты работают над созданием открытого корпуса русского языка

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Открытый доступ к русскому языку: российские лингвисты работают над созданием открытого корпуса русского языка . Такой размеченный корпус представляет собой набор текстов, где разным частям текста приписана полезная информация — например, к какой части речи относится каждое слово или какой у него падеж в данном предложении. Языковые корпуса необходимы для обучения машин. Используя такой корпус, программист может создавать программы, которые умеют анализировать текст на данном языке.

Размеченные корпуса существуют для многих языков мира, но как правило, скачивать их нельзя — их распространение ограничивает . В частности, для русского языка есть НКРЯ от Яндекса, однако при попытке его использования мы натолкнемся на бюрократические препоны:

«Для получения оффлайновой версии основного корпуса со снятой морфологической омонимией (объёмом около 1 млн словоупотреблений) необходимо подписать лицензионное соглашение и выслать заявку с отсканированными лицензионным соглашением и документом, удостоверяющим личность, по адресу np-rnc@yandex.ru. В заявке укажите цели использования оффлайновой версии»

Вспоминается пародийная картинка «Отечественный Гугол», где для поиска, помимо ключевого слова, необходимо указать ФИО, воинскую часть и номер допуска.

В отличие от закрытых корпусов, «всё, что мы делаем в рамках OpenCorpora, распространяется бесплатно и под свободными лицензиями — это принципиальная позиция и так будет всегда» говорят разработчики. Размеченный корпус создается силами сообщества, принять участие в «великой стройке коммунизма» может любой желающий — специальных знаний для этого не нужно. Чтобы вопрос копирайта не мешал распространению, в корпус включаются только тексты, либо доступные на условиях лицензии Creative Commons, либо находящиеся в общественном достоянии, а разметка создаётся на условиях CC-BY-SA.

Проект был начат в 2009 году и сейчас размеченый корпус насчитывает около ста тысяч предложений, полутора миллиона слов двух миллионов токенов.

Этот корпус потенциально можно применить, например, чтобы тренировать искусственный интеллект выдергивать знания из научных статей на русском языке. В США над этим работает проект Semantic Scholar, но он обрабатывает статьи на английском. Надо сказать, английский и лучше размечен, обгоняя другие языки по количеству доступных корпусов.

Если говорить о более простых вещах, то приходит в голову поиск плагиата в диссертациях и других студенческих и научных работах. Сейчас системы антиплагиата напрямую сравнивают текст, поэтому достаточно переписать его своими словами, чтобы обойти систему. В будущем они могли бы подсчитывать смысловую близость разных текстов. Другое интересное применение — автоматическое придумывание названий для научных статей. На Гитхабе есть код такой программы на рекуррентных нейронных сетях, правда для новостных статей.

Открытый Корпус русского языка: opencorpora.org

Автоматическая генерация заголовков новостей: github.com/udibr/headlines

Комментарии: