Поиск в корпусе. Национальный корпус русского языка

МЕНЮ


Искусственный интеллект. Новости
Поиск
Регистрация на сайте
Сбор средств на аренду сервера для ai-news

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация




RSS


RSS новости

Новостная лента форума ailab.ru


2019-08-11 19:00

лингвистика

КОРПУСНОЕ: КАРТОЧКИ

я их очень долго делал, вы уж оцените мое De$$игн_тФфорчество

Вернувшись в родные пенаты, я очень быстро осознал, что за лето почти не притронулся к разметке текста из старорусского корпуса, в рабочей группе которого я имею счастье участвовать.

Предложение выше сообщает о реальной ситуации, но вот поняли ли вы, о чем оно? Надеюсь, что нет, потому что в этот раз мы будем говорить о корпусах.

О лингвистических корпусах, вестимо.

Что это?

Словом на букву К в лингвистике принято называть обширное собрание текстов, определенным образом обработанных. Так, например, при Институте русского языка им. В. В. Виноградова РАН (ИРЯ РАН) существует весьма известный проект (в смысле, это не нечто проектирующееся, а нечто действительно существующее) Национального корпуса русского языка (или «НКРЯ»).

Что это значит — «корпус языка Х»?

Это обширное собрание текстов на языке Х, определенным образом обработанных.

Да, я вновь повторяю это пресловутое «определенным образом обработанных» — это я так говорю о корпусной разметке.

Чего? «Разметке»?

Разметка — это процесс «навешивания» определенных ярлычков на некоторую языковую единцу. Обычно размечаются словоформы (формы слов, то есть). Под «ярлычками» я подразумеваю некоторые перечни информации — грамматической, лексико-семантической, словообразовательной и так далее.

Возьмем, к примеру, выдуманное мной предложение «Животные ненавидят математику из-за ее невкусности». Как разметим форму «невкусности»? Я бы сделал это так: «сущ., ж., Р., ед., неодуш.», фактически, мною был проведен так называемый в школе морфологический разбор.

В зависимости от целей и задач составителей и пользователей корпусов разметка может быть разной, то есть в наши «ярлычки» может включаться далеко не только такая грамматическая информация.

Существует, например, при НИУ ВШЭ Russian Learning Corpora, где приведены тексты иностранцев, изучающих русский язык: там слова размечены не только по грамматическим показателям, но и в соответствии с классификацией ошибок.

Размечаться могут не только слова, но и тексты, например, в которые эти слова входят. О тексте можно сообщить, когда он был создан, кто его автор, в каком стиле он выдержан и проч.

Например?

Чтобы не быть голословным, зайдем в НКРЯ: http://ruscorpora.ru/old/search-main.html (см. карточку 1). И попробуем в лексико-грамматическом поиске отыскать уже известную нам «невкусность».

Ура! Есть немножко контекстов (см. карточку 2). Хронологически первый пример датируется аж 1846-ым годом! Вот его и посмотрим: «грубые зерна, какими кормят животных, а чаще мука, разболтанная в холодной воде; невкусность этих яств они не всегда могут приправить солью, которая составляет предмет монополии и продается очень дорого!» [Н. Н. Тютчев, А. Стойкович. Ост-Индия, нравы, обычаи и памятники Индустана (1846)]. Интересующее нас «невкусность» подсвечено рыжим.

Если нажать на любую форму в тексте, выползет «ярлычок» с ее разметокой. Проделываем такую процедуру с «невкусностью». Сомневающийся алгоритм сообщает нам два варианта разбора:

1) сущ, неод, ж, ед, вин, disamb

2) сущ, неод, ж, ед, им, disamb

Метка «disamb» служебная, не обращайте на нее внимания.

По контексту мы видим, что корректным вариантом разбора является вариант 1), потому что «невкусность» здесь объект (дополнение), а не субъект (подлежащее).

Всегда ли корпус сомневается?

Нет, конечно. Возьмем из того же контекста форму «мука». Там все хорошо: сущ, неод, ж, ед, им, disamb. Или «составляет»: глаг, перех, нсв, изъяв, действ, наст, 3л, ед, disamb.

Что еще может корпус?

Это я чуть-чуть оттяну, чтобы не публиковать много карточек подряд. О корпусах можно говорить бесконечно!

Чем хороши корпусы?

Самое важное то, что, посмотрев в корпусе, мы можем наверняка решить, говорят так или иначе носители русского языка или нет. Вот, скажем, вы же любите в школе дразниться, мол, что «нет слова "нету"»? А что значит «некоторое слово есть в языке Х»? Разве это значит, что оно должно быть в норме языка, в нормативном словаре? Тогда что, богатейшая русская обсценная (матерная, то бишь) лексика — фантом? А что насчет словечка (?) «репчик»?

Вопрос типа «Есть ли некоторое слово в языке Х?» в известном смысле бесполезен. Гораздо важнее понять, присутствует ли исследуемое слово в речевой практике — говорят ли так носители языка Х?

Очень скоро поговорим о «способностях» НКРЯ и о том, какие в НКРЯ есть подкорпусы о_О, stay tuned!

P.S. Языковой нормы не существует.

P.P.S. Как заявила одна моя ученица в интервью какому-то СМИ на финале всероса по русскому, «Норма для лохов, дескриптивизм для пацанов».

P.P.P.S Вы совсем не участвуете в конкурсе, который находится в закрепленной записи в этом паблике! ?


Источник: www.ruscorpora.ru

Комментарии: