Национальный корпус русского языка (НКРЯ) пополнился новым разделом — Генеральным интернет-корпусом русского языка (ГИКРЯ)

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-07-01 11:13

лингвистика

Национальный корпус русского языка (НКРЯ) пополнился новым разделом — Генеральным интернет-корпусом русского языка (ГИКРЯ). В него вошли тексты социальной сети ВКонтакте с 2007 по начало 2022 года. Общий объем НКРЯ вырос с 2,2 до 13,5 млрд словоупотреблений — более чем в шесть раз.

НКРЯ существует с 2004 года и объединяет более 50 корпусов: от древнерусских летописей XI века до современной прессы. В нем есть сбалансированный Основной корпус, дающий общее представление о письменном русском языке последних 200–300 лет, а также множество специализированных корпусов: газетный, синтаксический, поэтический, устный, мультимедийный, диалектный, исторический и другие.

До сих пор НКРЯ уступал по размеру зарубежным мегакорпусам — автоматически собираемым коллекциям объемом свыше 10 млрд слов. ГИКРЯ закрыл этот разрыв, причем у нового корпуса есть особенность, которой нет у конкурентов: социолингвистическая разметка. Каждому тексту приписаны данные об авторе — пол, возраст, город и регион проживания. Это позволяет изучать, как говорят люди разных поколений в разных частях страны, — и делать статистически значимые выводы на огромном массиве данных.

В дальнейшем в ГИКРЯ планируют добавить тексты других платформ, в частности Живого журнала. Разработку НКРЯ на протяжении более чем 20 лет поддерживает компания «Яндекс» — в том числе поисковую платформу и морфологическую разметку, для которой используются нейросетевые модели.

Почему это важно?

Языковые корпусы — основной инструмент современной лингвистики. В них ищут примеры употребления слов, изучают грамматику, отслеживают появление новых выражений. НКРЯ с ГИКРЯ — самый масштабный российский корпус.

Тексты соцсетей фиксируют то, что раньше почти не попадало в академические базы данных: живую разговорную речь, неологизмы, мемы, региональные словечки. Теперь все это доступно не только лингвистам, но и преподавателям, студентам и всем, кому интересно, как на самом деле выглядит современный русский язык.

Ссылка на ГИКРЯ — в комментарии.


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: