Открытый доступ к русскому языку: российские лингвисты работают над созданием открытого корпуса русского языка

2017-03-18 12:31

Открытый доступ к русскому языку: российские лингвисты работают над созданием открытого корпуса русского языка . Такой размеченный корпус представляет собой набор текстов, где разным частям текста приписана полезная информация — например, к какой части речи относится каждое слово или какой у него падеж в данном предложении. Языковые корпуса необходимы для обучения машин. Используя такой корпус, программист может создавать программы, которые умеют анализировать текст на данном языке.

Размеченные корпуса существуют для многих языков мира, но как правило, скачивать их нельзя — их распространение ограничивает . В частности, для русского языка есть НКРЯ от Яндекса, однако при попытке его использования мы натолкнемся на бюрократические препоны:

«Для получения оффлайновой версии основного корпуса со снятой морфологической омонимией (объёмом около 1 млн словоупотреблений) необходимо подписать лицензионное соглашение и выслать заявку с отсканированными лицензионным соглашением и документом, удостоверяющим личность, по адресу np-rnc@yandex.ru. В заявке укажите цели использования оффлайновой версии»

Вспоминается пародийная картинка «Отечественный Гугол», где для поиска, помимо ключевого слова, необходимо указать ФИО, воинскую часть и номер допуска.

В отличие от закрытых корпусов, «всё, что мы делаем в рамках OpenCorpora, распространяется бесплатно и под свободными лицензиями — это принципиальная позиция и так будет всегда» говорят разработчики. Размеченный корпус создается силами сообщества, принять участие в «великой стройке коммунизма» может любой желающий — специальных знаний для этого не нужно. Чтобы вопрос копирайта не мешал распространению, в корпус включаются только тексты, либо доступные на условиях лицензии Creative Commons, либо находящиеся в общественном достоянии, а разметка создаётся на условиях CC-BY-SA.

Проект был начат в 2009 году и сейчас размеченый корпус насчитывает около ста тысяч предложений, полутора миллиона слов двух миллионов токенов.

Этот корпус потенциально можно применить, например, чтобы тренировать искусственный интеллект выдергивать знания из научных статей на русском языке. В США над этим работает проект Semantic Scholar, но он обрабатывает статьи на английском. Надо сказать, английский и лучше размечен, обгоняя другие языки по количеству доступных корпусов.

Если говорить о более простых вещах, то приходит в голову поиск плагиата в диссертациях и других студенческих и научных работах. Сейчас системы антиплагиата напрямую сравнивают текст, поэтому достаточно переписать его своими словами, чтобы обойти систему. В будущем они могли бы подсчитывать смысловую близость разных текстов. Другое интересное применение — автоматическое придумывание названий для научных статей. На Гитхабе есть код такой программы на рекуррентных нейронных сетях, правда для новостных статей.

Открытый Корпус русского языка: opencorpora.org

Автоматическая генерация заголовков новостей: github.com/udibr/headlines



		Открытый доступ к русскому языку: российские лингвисты работают над созданием открытого корпуса русского языка
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2017-03-18 12:31 лингвистика, новости ит Открытый доступ к русскому языку: российские лингвисты работают над созданием открытого корпуса русского языка . Такой размеченный корпус представляет собой набор текстов, где разным частям текста приписана полезная информация — например, к какой части речи относится каждое слово или какой у него падеж в данном предложении. Языковые корпуса необходимы для обучения машин. Используя такой корпус, программист может создавать программы, которые умеют анализировать текст на данном языке. Размеченные корпуса существуют для многих языков мира, но как правило, скачивать их нельзя — их распространение ограничивает . В частности, для русского языка есть НКРЯ от Яндекса, однако при попытке его использования мы натолкнемся на бюрократические препоны: «Для получения оффлайновой версии основного корпуса со снятой морфологической омонимией (объёмом около 1 млн словоупотреблений) необходимо подписать лицензионное соглашение и выслать заявку с отсканированными лицензионным соглашением и документом, удостоверяющим личность, по адресу np-rnc@yandex.ru. В заявке укажите цели использования оффлайновой версии» Вспоминается пародийная картинка «Отечественный Гугол», где для поиска, помимо ключевого слова, необходимо указать ФИО, воинскую часть и номер допуска. В отличие от закрытых корпусов, «всё, что мы делаем в рамках OpenCorpora, распространяется бесплатно и под свободными лицензиями — это принципиальная позиция и так будет всегда» говорят разработчики. Размеченный корпус создается силами сообщества, принять участие в «великой стройке коммунизма» может любой желающий — специальных знаний для этого не нужно. Чтобы вопрос копирайта не мешал распространению, в корпус включаются только тексты, либо доступные на условиях лицензии Creative Commons, либо находящиеся в общественном достоянии, а разметка создаётся на условиях CC-BY-SA. Проект был начат в 2009 году и сейчас размеченый корпус насчитывает около ста тысяч предложений, полутора миллиона слов двух миллионов токенов. Этот корпус потенциально можно применить, например, чтобы тренировать искусственный интеллект выдергивать знания из научных статей на русском языке. В США над этим работает проект Semantic Scholar, но он обрабатывает статьи на английском. Надо сказать, английский и лучше размечен, обгоняя другие языки по количеству доступных корпусов. Если говорить о более простых вещах, то приходит в голову поиск плагиата в диссертациях и других студенческих и научных работах. Сейчас системы антиплагиата напрямую сравнивают текст, поэтому достаточно переписать его своими словами, чтобы обойти систему. В будущем они могли бы подсчитывать смысловую близость разных текстов. Другое интересное применение — автоматическое придумывание названий для научных статей. На Гитхабе есть код такой программы на рекуррентных нейронных сетях, правда для новостных статей. Открытый Корпус русского языка: opencorpora.org Автоматическая генерация заголовков новостей: github.com/udibr/headlines Комментарии:

Открытый доступ к русскому языку: российские лингвисты работают над созданием открытого корпуса русского языка

Комментарии: