Открытый доступ к русскому языку: российские лингвисты работают над созданием открытого корпуса русского языка

МЕНЮ


Новости ИИ
Поиск

ТЕМЫ


Внедрение ИИНовости ИИРобототехника, БПЛАТрансгуманизмЛингвистика, рбработка текстаБиология, теория эволюцииВиртулаьная и дополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

АРХИВ


Июнь 2017
Май 2017
Апрель 2017
Март 2017
Февраль 2017
Январь 2017
Декабрь 2016
Ноябрь 2016
Октябрь 2016
Сентябрь 2016
Август 2016
Июль 2016
Июнь 2016
Май 2016
Апрель 2016
Март 2016
Февраль 2016
Январь 2016
0000

RSS


RSS новости
птичий грипп

Новостная лента форума ailab.ru

2017-03-18 12:31

новости ит

Открытый доступ к русскому языку: российские лингвисты работают над созданием открытого корпуса русского языка . Такой размеченный корпус представляет собой набор текстов, где разным частям текста приписана полезная информация — например, к какой части речи относится каждое слово или какой у него падеж в данном предложении. Языковые корпуса необходимы для обучения машин. Используя такой корпус, программист может создавать программы, которые умеют анализировать текст на данном языке.

Размеченные корпуса существуют для многих языков мира, но как правило, скачивать их нельзя — их распространение ограничивает . В частности, для русского языка есть НКРЯ от Яндекса, однако при попытке его использования мы натолкнемся на бюрократические препоны:

«Для получения оффлайновой версии основного корпуса со снятой морфологической омонимией (объёмом около 1 млн словоупотреблений) необходимо подписать лицензионное соглашение и выслать заявку с отсканированными лицензионным соглашением и документом, удостоверяющим личность, по адресу np-rnc@yandex.ru. В заявке укажите цели использования оффлайновой версии»

Вспоминается пародийная картинка «Отечественный Гугол», где для поиска, помимо ключевого слова, необходимо указать ФИО, воинскую часть и номер допуска.

В отличие от закрытых корпусов, «всё, что мы делаем в рамках OpenCorpora, распространяется бесплатно и под свободными лицензиями — это принципиальная позиция и так будет всегда» говорят разработчики. Размеченный корпус создается силами сообщества, принять участие в «великой стройке коммунизма» может любой желающий — специальных знаний для этого не нужно. Чтобы вопрос копирайта не мешал распространению, в корпус включаются только тексты, либо доступные на условиях лицензии Creative Commons, либо находящиеся в общественном достоянии, а разметка создаётся на условиях CC-BY-SA.

Проект был начат в 2009 году и сейчас размеченый корпус насчитывает около ста тысяч предложений, полутора миллиона слов двух миллионов токенов.

Этот корпус потенциально можно применить, например, чтобы тренировать искусственный интеллект выдергивать знания из научных статей на русском языке. В США над этим работает проект Semantic Scholar, но он обрабатывает статьи на английском. Надо сказать, английский и лучше размечен, обгоняя другие языки по количеству доступных корпусов.

Если говорить о более простых вещах, то приходит в голову поиск плагиата в диссертациях и других студенческих и научных работах. Сейчас системы антиплагиата напрямую сравнивают текст, поэтому достаточно переписать его своими словами, чтобы обойти систему. В будущем они могли бы подсчитывать смысловую близость разных текстов. Другое интересное применение — автоматическое придумывание названий для научных статей. На Гитхабе есть код такой программы на рекуррентных нейронных сетях, правда для новостных статей.

Открытый Корпус русского языка: opencorpora.org

Автоматическая генерация заголовков новостей: github.com/udibr/headlines