«Священнику, хозяину дома, мне и людям»

МЕНЮ


Искусственный интеллект. Новости
Поиск

ТЕМЫ


Новости ИИРазработка ИИРабота разумаВнедрение ИИРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

RSS


RSS новости

Авторизация



Новостная лента форума ailab.ru

На прошлой неделе канал CTV News опубликовал сообщение о том, что двум канадским лингвистам удалось определить язык, на котором написана рукопись Войнича. Гжегож Кондрак и Брэдли Хауэр с помощью алгоритма искусственного интеллекта установили, что это скорее всего иврит, и даже сумели прочитать несколько слов и получить относительно осмысленный перевод. Это известие взбудоражило российские СМИ, однако позже выяснилось, что, во-первых, речь идет не о новой, а о старой работе (статья с ее результатами была опубликована еще в 2016 году), а во-вторых, результаты Кондрака и Хауэра оказались ненадежны и никого из серьезных специалистов не убедили. Редакция N + 1 обратилась к лингвисту, лауреату премии «Просветитель» 2017 года Александру Пиперски с просьбой рассказать о том, с помощью каких методов ученые пытаются расшифровать загадочную рукопись, насколько им это удается и какую пользу приносят эти попытки, даже если в итоге все они останутся безуспешными.

Историки и филологи за сто лет пока так и не смогли разрешить загадку манускрипта Войнича — красивейшей рукописи XV века, найденной в 1912 году и содержащей в себе необычные иллюстрации и текст, записанный непонятным алфавитом. Как часто бывает в случаях, когда перед наукой стоит нерешенная задача дешифровки, к делу подключаются люди, которые надеются решить проблему при помощи статистики: это и профессиональные криптографы, и математики, и физики, и просто любители подсчетов. Выводы из статистических исследований манускрипта Войнича обычно бывают трех видов:

(1) некоторое статистическое свойство манускрипта отличает его от текстов на естественных языках — значит, не стоит и пытаться его расшифровать;

(2) некоторое статистическое свойство манускрипта напоминает тексты на естественных языках, но непохоже на неязыковые последовательности (ДНК, программный код, случайные комбинации символов или слов) — значит, это текст на естественном языке, и надо заниматься дешифровкой дальше;

(3) то же, что (2), но при этом еще отмечается, на какой язык / какие языки больше всего похож манускрипт — значит, дальнейшую дешифровку предлагается проводить с опорой на этот язык / эти языки.

Закон Ципфа

Классический аргумент в пользу того, что манускрипт Войнича является текстом на естественном языке, связан с тем, что распределение слов в нем подчиняется закону Ципфа. Этот закон, открытый в середине XX века, гласит, что если мы возьмем достаточно большой объем текста, извлечем из него список слов и упорядочим его по убыванию частотности, то окажется, что частотность обратно пропорциональна номеру слова в списке:

f = k / r,
где f — частотность, k — некоторая константа, а r — номер в частотном списке (ранг).

Так, если для некоторого текста k = 1000, то:
— самое частотное слово, то есть слово, для которого r = 1, встретится в нем f = 1000 / 1 = 1000 раз;
— 2-е по частотности слово (r = 2) встретится f = 1000 / 2 = 500 раз;
— 3-е по частотности слово (r = 3) встретится f = 1000 / 3 = 333 раза;
— ...
— 100-е по частотности слово (r = 100) встретится f = 1000 / 100 = 10 раз
и так далее.

Рисунок 1. Соотношение ранга в частотном списке (по оси x) и частотности слов (по оси y) в манускрипте Войнича (синия линия), в латинском переводе ветхозаветной Книги Есфирь (зеленая) и в латинском тексте «Записок о Галльской войне» Гая Юлия Цезаря (красная).

Rugg & Taylor 2016

На рис. 1 видно, что график для манускрипта Войнича очень похож на графики для настоящих текстов на латинском языке (а говоря шире — и на любом другом). Правда, по целому ряду причин это очень слабое доказательство того, что манускрипт Войнича написан на естественном языке:

— во-первых, в таком простом виде, как это описано выше, закон Ципфа плохо применим к реальности: приходится вводить много дополнительных параметров — например, показатель степени a при r, который показывает, насколько быстро убывает частотность при движении по частотному списку (f = k / ra). Если мы постановим, что f = k / r2, убывание будет стремительным: второе слово вчетверо реже первого, а третье — в девять раз, и так далее. Наоборот, если f = k / r0,5, то второе слово окажется лишь в 1,4 раза реже первого, а третье — в 1,7 раза. Введение параметров позволяет подогнать закон Ципфа почти под любое частотное распределение: если установить a = 0, то окажется, что даже текст, в котором частоты всех слов одинаковы, подчиняется закону Ципфа, поскольку r0 = 1, а значит, f окажется равно константе k.

— во-вторых, можно по-разному трактовать тот факт, что реальность отклоняется от идеальной кривой — не существует единственно правильного ответа на вопрос, при каком условии можно сказать «манускрипт Войнича сильно отличается от идеального распределения Ципфа», а при каком — «манускрипт Войнича чуть-чуть отличается от идеального распределения Ципфа, но несущественно».

— в-третьих, тексты на естественных языках явно подчиняются закону Ципфа, но непонятно, почему это так; общепризнанного объяснения не существует.

— в-четвертых, закон Ципфа описывает почти все, что нас окружает: пусть лингвисты и гордятся тем, что он был открыт на материале естественного языка, но дальше оказалось, что ему подчиняются размеры городов, благосостояние граждан, количество ссылок на интернет-сайты и многое другое — так почему же ему не может подчиняться рукопись, написанная на чем-то отличном от естественного языка?

Неудивительно, что за время исследования манускрипта Войнича появилось множество работ, которые пытались найти (или, наоборот, не найти) в этом тексте какие-то более тонкие лингвистические закономерности, тем самым подтвердив или опровергнув идею, что это текст на человеческом языке. Долгие годы самым важным местом публикации статей о манускрипте Войнича остается журнал Cryptologia; значимые статьи появлялись и в журнале PLOS ONE. О нескольких работах последних пяти лет, которые пытаются пролить свет на манускрипт Войнича, и пойдёт речь дальше.

Ключевые слова

В статье Марсело Монтемурро и Дамиана Санетте (2013) манускрипт Войнича исследуется с точки зрения ключевых слов. Судя по картинкам, манускрипт делится на пять тематических частей: травы, астрология, биология, фармакология и рецепты. Если текст сгенерирован случайно, то слова будут распределены по этим частям равномерно. Если же мы имеем дело с содержательным текстом, то какие-то слова будут особенно характерны для отдельных частей: например, можно ожидать, что слово «планета» будет часто использоваться в астрологической части и совсем редко — в остальных четырех частях рукописи.

Соответственно, слово «планета» очень информативно: открыв текст в произвольном месте и увидев, что там написано «планета», мы можем с большой вероятностью предположить, что попали в астрономическую часть, а не куда-либо еще. Высокочастотные слова типа «и» несут в себе очень мало информации, так как они распределены примерно равномерно в разных частях; низкочастотные слова тоже малоинформативны: ведь если слово встретилось всего 10 раз, распределение типа (1; 2; 4; 1; 2) с преобладанием этого слова в третьей части легко могло получиться случайно. В естественных языках наиболее информативными оказываются слова со средней частотностью, и манускрипт Войнича вполне вписывается в эту картину, как видно на рис. 2: его зеленая линия лежит между линиями для китайского, английского и латинского языков, но заметно отличается от красной линии для языка Fortran и черной линии для кодонов в ДНК пекарских дрожжей Saccharomyces cerevisiae.

Рисунок 2. Информативность слов с различной частотой в текстах на разных языках (F — язык программирования Fortran, C — китайский, V — манускрипт Войнича, E — английский, L — латинский, Y — ДНК пекарских дрожжей Saccharomyces cerevisiae).

Montemurro & Zanette 2013

Случайная последовательность или язык?

В том же 2013 году и в том же журнале PLOS ONE, но 11 днями позже, вышла в свет работа Диего Амансио и др., в которой исследуются 32 статистических параметра, характеризующие тексты на естественных языках. Среди этих параметров — простые меры частотности, свойства графа, который получится, если соединять стрелочками соседние слова в тексте, и величины, связанные с тем, как далеко одинаковые слова отстоят друг от друга. Авторы предлагают очень четкую последовательность экспериментов, призванных ответить на такие вопросы:

  1. отличают ли статистические параметры текст манускрипт Войнича от того же текста, но со случайно перемешанным порядком слов?
  2. отличают ли статистические параметры текст манускрипта Войнича от текстов на естественных языках?
  3. к какому языку ближе всего манускрипт Войнича?

Исследование показывает, что манускрипт Войнича совсем непохож на случайно перемешанные варианты самого себя, но не отличается существенно от естественных языков. Правда, есть один очень бросающийся в глаза параметр, по которому он превосходит оба других класса текстов: количество пар одинаковых слов, идущих подряд. В манускрипте очень часто встречаются последовательности типа okeol okeol или otaiin otaiin. В случайных текстах мы бы тоже ожидали увидеть их в каком-то количестве: например, если известно, что каждое 25-е русское слово — это слово и, то в случайно сгенерированном тексте каждой 252 = 625-й парой слов окажется и и. В реальных текстах, однако, такого почти не бывает, а в манускрипте Войнича таких пар даже больше, чем в случайных текстах, не говоря уж о реальных. Но, как бы то ни было, большинство параметров указывает на то, что статистические особенности распределения слов в манускрипте Войнича совместимы с тем, как устроены естественные языки, а не случайно перемешаенные последовательности.

Правда, от определения языка авторы статьи отказались: убедившись, что выбранные ими параметры принимают португальские тексты за греческие, а английские — за греческие или русские, они воздержались от выводов о языке манускрипта Войнича.

Шифры и анаграммы

В 2016 году канадские исследователи Брэдли Хауэр и Гжегож Кондрак опубликовали статью, в которой анализируется комбинация двух известных задач криптографии и компьютерной лингвистики — дешифровка шифров замены и автоматическое определение языка текста. Шифром замены называется такой шифр, в котором каждой букве ставится во взаимно-однозначное соотвествие буква того же алфавита: например, а меняется на ж, ж — на з, з — на а, б — на ъ и так далее. Взломать такой шифр очень легко: в достаточно длинном зашифрованном тексте частоты букв будут такие же, как частоты букв в обычном языке, а значит, установить соответствия можно без труда. Сложнее, если мы не знаем, на каком языке написан текст, то есть на какое частотное распределение ориентироваться при дешифровке. Но и эта усложненная задача была решена авторами вполне успешно: выбирая из 380 языков, они сумели получить 97,1 процента правильных ответов.

Можно поставить перед собой еще более непростую задачу: а что, если мы имеем дело не только с шифром замены, но и с шифром перестановки, при котором буквы меняются местами в пределах слова (то есть создаются анаграммы)? Эта идея понадобилась потому, что в манускрипте Войнича буквы в словах упорядочены заметно более строго, чем в естественных языках. Авторы вводят так называемое альфаграммное расстояние, которое вычислимо для каждого слова при заданном алфавите: это число пар букв в слове, идущих не в алфавитном порядке. Например, в слове язык таких пар оказывается 4: (я; з), (я; ы), (я; к) и (ы; к). А вот если бы русский алфавит начинался с букв яыкз, то таких пар в слове язык было бы всего 2: (з; ы) и (з; к).

Можно стремиться подобрать оптимальный порядок, который минимизирует среднее альфаграммное расстояние для слов, встречающихся в тексте — но естественные системы письма обычно так не устроены, и средние альфаграммные расстоянияя по принятым алфавитам примерно такие же, как по случайным. Принятого алфавитного порядка для манускрипта Войнича у нас, конечно, нет — но зато авторы вычислили, что можно подобрать такой порядок, который сделает среднее альфаграммное расстояние для слова в манускрипте приближенно равным 1 (то есть в слове будет в среднем только одна пара букв, идущих не в алфавитном порядке). Для естественных языков: английского, итальянского, латинского, иврита и арабского — удается достичь значений от 2 до 4 (рис. 3); а значит, можно предполагать, что в манускрипте Войнича проделаны какие-то специальные манипуляции над порядком букв в слове.

Рисунок 3. Среднее альфаграммное расстояние: синий столбик — для случайного алфавитного порядка, красный столбик — для принятого алфавитного порядка (в манускрипте Войнича его нет), желтый столбик — для оптимального алфавитного порядка, который удалось подобрать программно, зеленый столбик — теоретический минимум, вычисленный исходя из частотного распределения сочетаний букв.

Hauer & Kondrak 2016

Еще одно усложнение задачи, которое проделали исследователи, — они научились разгадывать закодированные шифром замены анаграммы даже в тех случаях, если из них были убраны гласные. Впрочем, это им не пригодилось, поскольку при применении двух из трех методов дешифровки к манускрипту Войнича оказалось, что его текст хорошо идентифицируется как семитский язык, а скорее всего — иврит, в котором гласные и так обычно не пишутся.

Правда, дешифровка не привела к появлению осмысленного текста на иврите. Первое предложение манускрипта Войнича, записанное так называемым алфавитом Карриера, выглядит так:

VAS92 9FAE AR APAM ZOE ZOR9 QOR92 9 FOR ZOE89

На иврит оно было дешифровано таким образом:

????? ???? ?? ???? ??? ???? ????? ? ??? ?????

(если вы хотите установить соответствие букв, следует помнить, что ивритское письмо идет справа налево). К сожалению, этот набор слов не образует связного предложения на иврите, что и подтвердил Хауэру и Кондраку носитель языка. Однако они не отчаялись и перевели фразу на английский с помощью Google Translate, который дал такой результат, исправив несколько мест, которые он счел опечатками:

She made recommendations to the priest, man of the house and me and people.

Она дала рекомендации священнику, хозяину дома, мне и людям.

Как указано в статье, этот перевод был сделан 20 ноября 2015 года. Спустя два года. 29 января 2018 года, Google Translate переводит ту же фразу совсем по-другому:

And the priest made a man for him to his house, and to his men

И священник сделал человека для него к дому и к его людям.

Конечно, на этом месте компьютерный лингвист добродушно улыбнется, а любой традиционный филолог схватится за голову: такая степень приблизительности при интерпретации древнего памятника кажется совсем уж недопустимой. Правда, к чести Хауэра и Кондрака надо сказать, что они могли бы и вовсе не пытаться переводить, а просто сказать «Это больше всего похоже на иврит», и тогда претензий к ним бы не было. Более того, они сами честно признают, что нельзя исключать, что их результаты — это не свидетельство в пользу иврита как языка манускрипта Войнича, а иллюстрация того, что комбинация системы решения анаграмм с языковой моделью, то есть подбором наиболее реалистичных сочетаний слов, позволяет увидеть закономерность там, где ее на самом деле нет.

Смесь языков

В том же 2016 году группа российских ученых из Института прикладной математики имени М. В. Келдыша опубликовала работу под названием «Статистические закономерности европейских языков и анализ рукописи Войнича». Исключив два самых редких символа из транскрипции манускрипта, ученые получили алфавит из 20 букв. Примерно столько согласных используется в большинстве европейских алфавитов. Они сделали предположение, что текст записан без гласных, и обнаружили, что частотное распределение букв в нем больше всего похоже на датский язык. В возможности чтения без огласовок исследователей дополнительно убедило еще и то, что в манускрипте Войнича встречаются сочетания из трех одинаковых букв — такое редко бывает в письме с гласными, но, например, если записать английское слово «bubble» без гласных, получится «bbbl» с тремя буквами «b» подряд.

Затем ученые проанализировали, насколько далеко отстоят друг от друга повторяющиеся буквы, вычисляя так называемый показатель Хёрста, который говорит о том, каким образом значения во временном ряду зависят от предшествующих значений. Это исследование чем-то напоминает работы А.А. Маркова, который именно на основе подсчета букв в русских текстах в начале XX века сформулировал идею марковской цепи — системы, в которой следующее состояние зависит от одного или нескольких предыдущих (например, после согласной буквы вероятнее встретить гласную, а после гласной — согласную, и наоборот). Показатель Хёрста, вычисленный для манускрипта Войнича, оказался плохо совместим с предположением, что он написан на одном языке, — и поэтому ученые предположили, что перед нами смешение языков. Сложные вычисления привели их к выводу, что на 60 процентов текст написан на западногерманском языке (английском или немецком), а на 40 процентов — на романском (испанском или итальянском) или латыни. Но, как бы то ни было, полученные результаты не помогли понять текст — так что пока что мы имеем дело просто с математическим упражнением, а не с содержательным продвижением на пути к дешифровке.

Гипотеза о мистификации: решетки Кардано

Гордон Рагг получил известность как исследователь манускрипта Войнича еще в 2004 году, когда опубликовал статью, в которой утверждал, что манускрипт является мистификацией. На протяжении последующих лет он развивал эту идею; последняя на сегодня его статья вышла в 2017 году в журнале Cryptologia в соавторстве с Гэвином Тейлором. В своей первой работе на эту тему Рагг предположил, что манускрипт Войнича изготовили в конце XVI века британские ученые Джон Келли и Эдвард Ди, которые пользовались так называемой решеткой Кардано (рис. 4).

Рисунок 4. Решетка Кардано

Rugg & Taylor 2016

Если сделать таблицу со слогами и накладывать на нее эту решётку, сдвигая ее определенным образом, можно получать случайные слова и записывать их в рукопись. Допустим, что у нас есть такая таблица:

Накладывая на нее решетку, мы можем получить, например, слово qoky (левая верхняя прорезь на ячейке D2), yt (A1), lsheaiin (D1) и так далее. По мнению Рагга, манускрипт Войнича был порожден примерно таким способом. Использование решеток позволяет объяснить распределение длин слов в манускрипте Войнича: в нем подозрительно много слов из 4–5 букв, причем распределение выглядит очень похоже на симметричное биномиальное распределение, тем самым отличаясь от распределений в естественных текстах (рис. 5–6).

Рисунки 5–6. Распределение длин слов в манускрипте Войнича и в «Гамлете» на английском языке.

Rugg & Taylor 2016

Правда, гипотеза Рагга вызывает много вопросов. Радиоуглеродный анализ манускрипта Войнича, проведенный в 2009 году, показал, что это рукопись XV века — а в то время решетка Кардано еще не была известна. Кроме того, даже когда решетка уже появилась, ею пользовались для шифрования (те, кто читал книгу Якова Перельмана «Живая математика», наверняка помнят, как это делается), но нет ни одного достоверно известного случая ее использования для того, чтобы порождать случайные тексты. Конкретное наполнение таблиц и форму решеток для создания манускрипта Войнича Рагг тоже не описал. Кроме того, можно выдвигать претензии и к математическому аппарату работ Рагга: он практически не оценивает статистическую значимость своих выводов на фоне тщательно подобранных контрольных текстов на естественном языке, ограничиваясь красивыми графиками и довольно случайными сравнениями.

Латинский? Среднеперсидский? ...

Параллельно со статистическими исследованиями манускрипта Войнича продолжаются и вполне традиционные филологические попытки связать его с каким-то известным языком. Возможно, это самый перспективный путь на пути к дешифровке — вспомним, что именно так Майкл Вентрис дешифровал линейное письмо B: он предположил, что имеет дело с известным ему древнегреческим языком.

Однако в случае с манускриптом Войнича надежных результатов на этом пути добиться пока не удалось. Историк-любитель Николас Гиббс в сентябре 2017 года опубликовал статью в Times Literary Supplement, где высказал предположение, что манускрипт Войнича — это просто латинская рукопись, которая использует общеупотребительные сокращения. Он ограничился тем, что предъявил прочтение нескольких фраз в рамках своей гипотезы, но не смог ни в чем убедить научную общественность: его чтения небесспорны, да и дешифрованного текста слишком мало, чтобы судить о гипотезе всерьез. Кроме того, предполагать, что ученые сто лет не могли прочитать текст на латинском языке, который многим хорошо известен, было бы очень странно — хотя пример с линейным письмом B показывает, что и такое бывает.

Примерно тогда же — в сентябре 2017 года — свою гипотезу высказал и информатик из Эдинбурга Михаэль Херманн. Он утверждает, что алфавит манускрипта Войнича похож на иранское письмо пехлеви (рис. 7). В январе 2018 года еще в одной статье он четко заявил, что считает языком рукописи классический персидский (X–XII века нашей эры). Херманн даже утверждает, что обнаружил в манускрипте несколько среднеперсидских слов — но и надежность идентификации букв, и надежность выделения и перевода слов вызывает вопросы. Впрочем, эксперты-иранисты об этой работе не высказывались и, вероятно, ничего даже не знают.

Рисунок 7. Сопоставление алфавита Войнича с письмом пехлеви

Hermann 2017

Подводя итоги

Пока что не кажется, что дешифровка манускрипта Войнича — дело скорого будущего. Усилия, которые на протяжении века предпринимают филологи и историки, так и не дали результата. Статистический анализ текста либо обнадеживает, говоря, что это естественный язык и надо думать дальше, либо, наоборот, расхолаживает, говоря, что это непохоже на естественный язык, — но окончательного ответа, что все-таки содержит манускрипт, мы не получаем. Более того, статистически доказать, что перед нами не текст на человеческом языке, невозможно: даже если продемонстрировать, что он чем-то отличен от текстов на известных языках, всегда остается возможность, что это какой-то совсем необычный шифр или необычная система записи.

Но, как бы то ни было, манускрипт Войнича в любом случае дает отличный повод задуматься о том, как устроен естественный язык, какие бывают алгоритмы шифрования, и усовершенствовать технологии компьютерной лингвистики. Даже прочитав этот краткий обзор, читатель, может быть, задумается: а почему мы не пишем со случайным порядком букв в слове? а какие еще неожиданные статистические закономерности соблюдаются в текстах на естественных языках? а какие бывают способы выделять ключевые слова? Даже если манускрипт Войнича и окажется мистификацией, мы должны поблагодарить его создателей за то, что они навели нас на все эти размышления.

Александр Пиперски


Источник: nplus1.ru