Акцентуаторы. Памяти А.А. Зализняка. Часть III

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2019-10-25 20:00

лингвистика

А.А. Зализняк популяризировал науку по-разному: читал множество открытых лекций, писал очерки, статьи и книги для людей про их родной язык, создавал словари. Сам академик писал о своей работе: «Это же немыслимый абсурд — делать такую работу без компьютера». И продолжал складывать десятки тысяч карточек в лотки для хлеба. Этот огромный труд заложил основу для достижений компьютерной лингвистики.

Как менялось русское ударение и почему его сложно изучать

Историческая акцентология начала развиваться сравнительно недавно. Раньше в распоряжении ученых было слишком мало акцентологических данных: далеко не все древние письменные памятники содержат сведения об ударении. Поэтому не было возможности разработать типологию акцентных систем, установить их происхождение и изучить направление изменений.

Филологические осно­вания реконструкций раньше были скорее сравнительно-сопоставительными, нежели сравни­тельно-историческими. Последние достижения русистики в области тексто­логии, акцентологии, поэтики, критики текста, истории языка позволяют заново пересмотреть многие тексты на древнерусском и старославянском языках.

В праславянском языке ударение было свободным, подвижным и музыкальным. До позднейших времен существования праславянского языка реконструируют два исконных тона: восходящая интонация (акут) и нисходящая интонация (циркумфлекс), а также один инновационный тон — новый акут, появившийся в результате передвижения ударения.

Обращаясь к многострадальному «Слову о полку Игореве», ученые[1] делают такие выводы о древнерусском ударении:

  1. В древнерусском языке самым сильным слогом был слог под ново­акутовой интонацией — всегда подударный слог с восходящим тоном;
  2. Постоянно подударным слогом был также слог с восходящей интонацией, утраченный к XI в. В настоящем времени слова с такими слогами не всегда последовательно сохранили свое постоянное ударение в корне. Например, мы ожидали бы ударение в парадигме склонения: дед, д?да д?ду; но также и во мн. ч.: д?ды, д?дов.Тем не менее, мы встречаем теперь просторечное и диалектное ударение: деды?, дедов?. Подобные изменения делают реконструкцию проблемной.
  3. Сильным по признаку количества был исконно долгий предударный и предконечный слог — в этих позициях сохранялась искон­ная длительность гласного (во вто­ром случае — только перед слогом с редуцированным гласным).
  4. Самыми слабыми («абсолютно слабыми») слогами относительно всех трех просодических характеристик были слоги с редуцированными глас­ными ь и ъ.

Все сопоставления показывают основную особенность древнерусской акцентуации: ударение, восходящее к новоакутовой интонации, стабилизировалось на определенном слоге слова. Одновременно с этим образуются и позиционные условия организации нового ударения как средства, формирующего ритмическую структуру древнего поэтического текста. Именно оно создает основную акцентную решетку текста, выступая в качестве его опорного ритмического центра. Те слова, которые в тексте оставались неакцентованными, в самостоятельном употреблении имели слабое ударение, восходящее к древней нисходящей интонации корневого слога. Эти слова характеризовались, следовательно, подвижным ударением и в некоторых многосложных сочетаниях могли выступать с побочным, дополнительным.

В отрезке текста старыми словесы трудныхъ пов?стии теоретически каждое слово могло иметь свое собственное словесное ударение. Однако это разное ударение. Абсолютно сильным является ударение слова тру?дныхъ — с новоакутовой интонацией корневого слога. Сильным является ударение слова старыми — с акутовой интонацией корневого слога и (вплоть до настоящего времени) неподвижным ударением на корне.

Эти два вида ударения организуют акцентную решетку фрагмента, они определенно устойчивы и в пределах данного текста, и во времени. Такая устойчивость и является ключом нашей реконструкции, хотя в некоторых случаях ученые вынуждены были прибегать к данным современных славянских языков, сохраняющих древние особенности ударения.

Ударение же двух других слов отрывка является неопределенным. Легко представить себе сочетания, в которых эти слова окажутся вообще безударными (ср. б?з пов?cтии); они могут (и, очевидно, на самом деле имели) вариации ударения, связанные с морфологическим оформлением.

К середине XII в. в русском языке утрачиваются редуцированные (постоянно краткие) гласные, и ос­новной просодической характеристикой русского слова и слога становится динамическое ударение. Таким образом, формально авторы первых акцент­ных реконструкций справедливо ориентировались именно на ударение, а не на интонацию. В действительности же они не учиты­вали переходный характер акцентуации в конце XII в. Трудность реконструкции ритмического рисунка «Слова» и заключается в неопре­деленности, неустойчивости просодических характеристик.

Современная акцентуация

Если в таких языках, как французский, финский или чешский дела с ударением обстоят довольно легко, то с русским разобраться не так и просто. Ученые давно работали над вопросом, как создать программу для автоматического расставления ударения в русском тексте. Путь к решению был тернист. Сначала ученые-технари сочиняли сложные алгоритмы, где морфемы были функциями, потом они применяли машинное обучение… Все это описывают ребята из НИУ ВШЭ в своей статье. Почему же было так сложно?

Ударение может быть музыкальным и силовым. О музыкальном ударении говорят, когда отличия в движении тона используются для различения слов (как в литовском). При силовом ударении ударный слог часто бывает более громким и/или более долгим, чем прочие, безударные, слоги. В языках с силовым ударением различия в движении тона не различают слова, но помогают отличать, например, вопрос от утверждения, как в русском языке.

Это яблоко. (нисходящая интонация на ударном гласном) — утверждение
Это яблоко? (восходящая интонация) — вопрос

Ударение, как музыкальное, так и силовое, может располагаться относительно границ слова по-разному. Все типы просодической организации слов связаны друг с другом и могут в ходе языковой эволюции переходить один в другой.

Русское ударение свободно и подвижно. Русское ударение существенным образом связано с морфологиче­ским членением; в частности, оно может быть закреплено за опреде­ленной морфемой. Со­ответственно, можно говорить о корневом, префиксальном, суффик­сальном и флексионном ударении. Кроме того, ударение может быть закреплено на основе: на последнем слоге основы, на одном и том же слоге по счету от начала. Вариантов много, и все эти варианты Зализняк сгруппировал в схемы, описав акцентную систему русского языка. Что для этого нужно было сделать?

Можно было бы создать список, где описывалось бы изменение ударения каждой словоформы. Но представим размер этого списка… Берем около 10000 слов, указываем ударение в исходных словоформах слов, ударение в прочих словоформах «вычисляется» далее по соответствующим ин­дексам и таблицам. Такой вариант Зализняка не устроил. Поэтому нужно было выявить определённые характеристики, чтобы найти типы изменения ударения и объединить по этим схемам словоформы. Например, одна из характеристик:
а — ударение всегда на основе;
b — ударение всегда на окончании.

Определив типы и подтипы, выявив схемы ударения, Зализняк создает таблицы, по которым можно определять, как будет стоять ударение в слове.

Важно, что в современном русском языке есть ряд факторов, от которых может зависеть ударение в слове. Кроме прямого наследования, передачи ударения через устное общение поколений, к этим факторам будут относиться и морфемный состав слова, и его история, и степень освоенности языка говорящим. Многие из свойств слова определяются не строго (например, освоенность), поэтому правила акцентуации неизбежно перестают быть неоспоримыми и становятся относительными.

Вот перечень факторов, которые влияют на современную акцентуацию русского языка:

  1. Производное слово или непроизводное:
    непроизводное: живой, багаж, вода
    производное: проход, колокольчик, загибать
  2. Плотно или неплотно присоединяются морфемы:
    если морфема прилегает неплотно, то слово спокойно существует без неё, и ударение не меняется: межплеменной — племенной; непроезжий — проезжий и т.д.
  3. Освоено слово носителем или нет (насколько оно знакомо):
    до?быча — добы?ча

По этим характеристикам и определяют акцентные типы и схемы ударения, которые строятся в большие таблицы акцентуации. Все эти параметры можно прочитать в двухтомнике «Труды по акцентологии». Таблицы имеют множество маркировок суффиксов, приставок, основ. Важно ещё, что так называемые проклитики и энклитики могут оттягивать ударение на себя: на? небо, со? стола, на? слово.

Современные акцентуаторы

Развивался-развивался наш язык, менял ударения, количество гласных и согласных, а ученым нужно что-то с этим делать. Зализняк мечтал о программе, которая сможет расставлять ударения автоматически. Но за каждой такой программой лежит титанический труд — составление характеристик. Наша серия статей памяти академика Зализняка — история о труде, который сделал возможным создание таких программ.

Уникальным в своем роде является акцентуатор для русского языка sStress ­— детище магистратуры «Высшей школы экономики». sStress — это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения.

В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка. LSTM (или long short-term memory) — это долгая краткосрочная память. В отличие от традиционных рекуррентных нейронных сетей, LSTM-сеть хорошо приспособлена к обучению на задачах классификации, обработки и прогнозирования временных рядов. LSTM особенно крута в распознавании несегментированного слитного рукописного текста. Также LSTM-сети используются в задачах распознавания речи.

Рекуррентные нейронные сети (РНС) — это вид нейронных сетей, где связи между элементами образуют направленную последовательность. Благодаря этому появляется возможность обрабатывать серии событий во времени или последовательные пространственные цепочки.

В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А.А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями. Основное различие между источниками в том, что транскрипция не может содержать все формы слова и, что более важно, отражает использование того или иного слова (его словоформы) в контексте. Принимая во внимание контекст, ученые могут различить, например, слова о?блака и облака? [2], именно контекст в большинстве случаев и покажет, стоит слово в единственном или множественном числе.

На сайте действует два акцентуатора. Один — нейросеть, обученная на большом корпусе. Она быстро и хорошо работающая черная коробка. Если вам нужно быстро проставить в тексте ударения, вам к ней. А второй акцентуатор правиловый, это результат долгого и кропотливого труда. Если вы хотите узнать не только само ударение, но и то, почему его позиция именно такая, выбирайте правиловый.

Мы рассказывали о берестяных грамотах и споре вокруг «Слова о полку Игореве». Читайте в следующих статьях серии о том, как труды академика Зализняка — в частности синхронное описание русской морфологии — используются в технологиях Яндекса.

Ольга Чхотуа

[1] В.В. Колесов. Ударение в «Слове о полку Игореве»
[2] Automated Word Stress Detection in Russian


Источник: m.vk.com

Комментарии: