Языковая сложность |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-01-13 16:15 Лингвист Александр Пиперски о лингвистическом изучении сложности, формализованных языковых описаниях и взаимнооднозначности соответствия между формой и значением У всех нас есть какие-то представления о том, что бывают языки более простые и, наоборот, языки более сложные. Если спросить человека на улице, какие языки самые сложные, обычно получаем в ответ стандартный набор: самые сложные языки — это китайский, корейский, японский, арабский. Ясное дело, что это в первую очередь обусловлено тем, что это языки с непривычными нам письменностями. И точно так же ясно, что это совершенно не то, что интересно лингвисту, потому что письменность вообще по отношению к устному языку вторична. Кроме того, стереотипы о сложности языков часто связаны с представлениями о том, что близкородственные нашему языки — простые, а далекие от нашего языка — сложные. Например, носитель русского языка будет считать, что сербский язык — это очень просто. Он может приехать в Сербию и за неделю как-то начать понимать, что происходит вокруг, и начать объясняться. А, например, эстонский язык — это очень сложно, ничего не понятно, за неделю не выучишь. Но, скажем, финнам, для которых эстонский язык является близкородственным, потому что это тоже один из финно-угорских языков, эстонский язык покажется простым, а сербский — сложным, и мнения окажутся диаметрально противоположными. Лингвистов, конечно, интересует некая объективная оценка сложности. Вообще, хотелось бы узнать, бывают ли на самом деле более простые или более сложные языки в отвлечении от того, как их пишут и кто их учит. То есть, условно говоря, если бы на нашу планету прилетел марсианин, которому надо было бы выучить какие-то разные языки в их устной форме, поскольку это первичная форма языка, то было ли бы ему сложнее учить финский, или сербский, или китайский, или хинди. Вот на этот вопрос, собственно говоря, и пытается ответить лингвистическое изучение языковой сложности. Эта область науки сравнительно молодая, и фактически она начала развиваться активно только в последние 20–25 лет. До того лингвисты имели в качестве аксиомы мнение о том, что все языки имеют равную сложность. Это в каком-то смысле было полезно, потому что позволяло не превозносить одни языки над другими, то есть не выносить ценностных суждений. Но тем не менее, когда все лингвистическое сообщество уже окончательно поняло и осознало, что все шесть-семь тысяч языков, существующих на нашей планете, равноценны как объекты для изучения, мы получили возможность поставить перед собой такой вопрос: «А что же все-таки сложнее или проще?» Как измерять сложность, не совсем очевидно и не вполне понятно. Здесь лингвистика пользуется идеями, которые пришли из теории информации. Отечественный математик Андрей Николаевич Колмогоров ввел формальное определение сложности — то, что называется колмогоровская сложность. Сложность некоторого объекта — это длина наиболее экономного описания этого объекта на каком-то формализованном языке описания. Я, конечно, упрощаю это, не вдаваясь в математические детали формулировок, но так оно устроено. Например, если у нас есть последовательность символов АББВАББВБВБАБА, то эту последовательность никак экономно описать нельзя. Если у нас есть последовательность АБАБАБАБАБАБ, эту последовательность легко экономно описать: АБ шесть раз. И, соответственно, первая последовательность сложная, вторая — более легкая, более простая. Но к реальности это применимо довольно плохо, потому что ясно, что для того, чтобы сравнивать таким образом грамматики естественных языков, нам нужно иметь грамматики, написанные для того самого условного марсианина на некоторых единых принципах, и очевидно, что такого не существует. Таких четко формализованных языков описаний, примененных ко всем языкам мира, нет, и приходится искать какие-то корреляты языковой сложности, которые можно измерить, чтобы вычислить, какие языки все-таки сложнее, а какие проще. Таких коррелятов сложности опять-таки можно найти довольно много. Во-первых, это разнообразие элементов. Например, если в каком-то языке 8 согласных, а в каком-то другом языке 60 согласных, то очевидно, что первый язык по системе согласных проще, чем второй. Во-вторых, важная вещь — это невзаимнооднозначное соответствие между формой и значением на уровне правил, на уровне грамматики языка. Например, если одна и та же форма в некотором языке образуется десятью разными способами, то это сложнее, чем если эта форма образуется одним способом. Скажем, в английском языке множественное число существительных у 99% существительных и даже больше образуется регулярно при помощи одного и того же окончания, а в немецком языке имеется много разных моделей склонения. Например, от слова Baum («дерево») множественное число будет B?ume, от слова Vater («отец») множественное число будет V?ter, от слова Rand («край») множественное число будет R?nder. Все это самые разные вещи, которые, естественно, приводят к тому, что немецкое множественное число существительных сложнее, чем английское. Еще один коррелят сложности — это невзаимнооднозначность соответствия между формой и значением на уровне уже не грамматики, а текста, то есть если одно и то же значение, например, выражается в тексте несколько раз. Скажем, так устроено в языках согласование. Если мы возьмем по-английски словосочетание «новая машина», оно выглядит как the new car, а «новые машины» — the new cars. Там множественное число выражается один раз в окончании существительного. А в русском языке значение множественного числа выражается два раза: и в окончании прилагательного, и в окончании существительного. То есть русский язык в каком-то смысле оказывается сложнее английского, потому что в нем нет этого взаимнооднозначного соответствия между значением множественного числа и его выражением в тексте. Зачем все это нужно? Ясно, что язык — это продукт эволюции. Ему уже примерно 100 000 лет, и если бы это все были какие-то избыточные переусложнения, то они бы уже давно устранились. Наоборот, они иногда возникают, они сохраняются. Оказывается, что языковая сложность так или иначе бывает выгодна и говорящему, и слушающему. Разные аспекты выгодны разным участникам коммуникации. Например, разнообразие элементов позволяет продуцировать более короткие тексты. Скажем, если в языке 8 согласных, то в нем обычно слова будут длиннее, чем в языке, в котором 60 согласных. Хороший пример, позволяющий это проиллюстрировать, — система счисления: если мы одно и то же число запишем в двоичной системе счисления, где символов только два, и в десятичной, где символов десять, то десятичная запись обычно будет примерно в три раза короче двоичной. То есть разнообразие символов позволяет делать более короткие тексты. То же касается обычной нерегулярности. Если мы, например, вернемся к английскому множественному числу и посмотрим, как устроены нерегулярные английские формы, — там нерегулярные формы обычно короче, чем то, как они бы выглядели, если бы они были регулярными. Скажем tooth («зуб»): если бы у нас было бы какое-нибудь там tooths, то оно было бы на один звук длиннее, чем teeth. Слово mouses, если бы у нас было mouse как house, было бы длиннее, чем mice. То есть нерегулярность тоже такой способ делать тексты немного короче. А невзаимнооднозначность соответствия на уровне текста между формой и ее значением позволяет делать сообщения избыточными: это может быть очень полезно слушающему, потому что ясное дело, что в коммуникации постоянно происходят какие-то помехи. Например, если мы воспринимаем английское словосочетание the new cars и на последнем звуке где-то рядом раздался какой-то треск, то мы уже не поняли, какое это число, и ничего с этим поделать не можем. Если мы слышим русское сочетание «новые машины», то мы все-таки как-то понимаем, что к чему, потому что у нас есть еще окончание прилагательного, если считать, что окончание существительного минимально различается на слух. Но даже если мы его не различим, тем не менее все равно все поймем. То есть эта избыточность усложняет язык, зато она выгодна слушающему. Единая количественная мера сложности так и не выработана. Можно, конечно, брать разные параметры: посчитать количество звуков, количество падежей, количество глагольных времен и так далее и попытаться найти какую-то единую взвешенную меру, которая все это учтет и измерит, какие языки самые простые, какие языки самые сложные. Обычно примерно так и поступают, хотя бывают и более нетривиальные подходы. Шкалы такого рода обычно позволяют все-таки довольно легко (поскольку данные про количество падежей, звуков и так далее уже собраны) хотя бы в первом приближении понять, какие языки проще, какие сложнее. Например, известная американская исследовательница Джоанна Николс сделала такой рейтинг. В нем где-то близко к верху по сложности оказались, например, аккадский язык, язык манггараи, на котором говорят в Австралии, а где-то внизу по сложности оказались, например, миштекский язык, на котором говорят в Мексике, нивхский язык, на котором говорят на Дальнем Востоке, и китайский язык. Это для нелингвиста может быть немного удивительно, потому что нелингвисты обычно склонны считать, что раз там иероглифы, то все очень сложно. Но, вообще говоря, если посмотреть на грамматическую систему, то легко понять, почему это так. В китайском языке практически нет морфологии, из чего следует, что китайский язык оказался низко на этой шкале, и, вообще говоря, если бы к нам прилетел марсианин и стал учить китайский язык без иероглифов, он бы наверняка выучил его достаточно быстро. Просто составить рейтинг сложности вообще, конечно, не очень интересно. Интереснее скоррелировать сложность с другими параметрами. И вот недавние исследования показывают, что сложность языка, эта абсолютная лингвистическая сложность, очень тесно связана с ситуацией бытования этого языка, с социолингвистикой. Оказалось, что более простые языки — это обычно языки с бо?льшим количеством носителей, языки международного общения, а вот более сложные языки — это как раз языки, у которых носителей меньше и круг носителей которых ограничен. И когда лингвисты попытались понять, с чем это может быть связано, то было высказано предположение: это объясняется тем, что языки, которые широко распространены, много людей учат во взрослом возрасте. Если это язык типа английского, то многие из нас вынуждены уже не как дети, а в более позднем возрасте усваивать этот язык. И, соответственно, дальше, если, например, окажется, что такие люди что-то недовыучили, потому что сложные явления взрослые обычно плохо усваивают в языке, период освоения языка как родного у них уже давно закончился, и если эти взрослые будут дальше передавать язык своим детям, то он уже будет передаваться в некоторой упрощенной форме, и ровно так, по-видимому, происходит упрощение этих крупных языков межнационального общения. Это, кстати, противоречит традиционной идее, что большие языки с развитой культурой — это что-то сложное, разработанное, а языки одной деревни — это что-то примитивное и простенькое. На самом деле обычно нет. Как раз языки одной деревни чаще всего более сложно устроены, чем языки больших народов. Это только одна из проблем, которая стоит перед лингвистическим изучением сложности: как сложность связана с другими параметрами? Но самая насущная проблема — это, пожалуй, вопрос о том, как сложность измерять. И вот ответа на этот вопрос у лингвистов пока нет, но очень может быть, что по мере изучения этой проблематики с привлечением методов других наук ответ все-таки у нас появится. Источник: postnauka.ru Комментарии: |
|