Код Войнича: мнимый триумф искусственного интеллекта

Сфера интересов сотрудников и преподавателей онлайн-школы английского языка EnglishDom намного шире, чем просто английский. Загадки лингвистики нам тоже интересны. Недавно в нашем офисе завязался спор про код Войнича, и мы решили сделать статью на эту тему.

Манускрипт Войнича — одна из самых животрепещущих загадок лингвистики и криптографии, которая не решена и по сегодня. Вот уже 600 лет даже самые лучшие умы мира не могут приблизиться к разгадке этого таинственного текста. В 2016 году исследователи подключили к разгадке нейросеть. Результат был неожиданным — компьютер проанализировал текст и ошибся. Об этом читайте дальше.
Манускрипт Войнича — это иллюстрированный рукописный кодекс, который написан на неизвестном языке или шифре.

По результатам углеродного анализа, книга написана в первой половине XV века. 240 страниц пергамента покрыты странными письменами, которые внешне напоминают текст. Но сложность его расшифровки в том, что в книге используется неизвестный алфавит, который не соотносится ни с одним существующим или изученным существовавшим языком.

Детальный анализ текста позволяет определить, что буквы подчиняются неким грамматическим правилам, но вот сами правила определить не удается. В тексте практически нет одно- и двухбуквенных слов, каких много в языках на основе латиницы, отдельные принципы написания слов отдаленно напоминают арабскую вязь или иврит. Отдельные слова вообще повторяются несколько раз подряд. В общем, структуру языка или шифра даже примерно определить нельзя — она слишком отличается от всех знакомых нам принципов формирования письменной речи.

Единственное, что смогли определить эксперты-лингвисты за почти 600 лет — информационная энтропия кода примерно равна энтропии английского и латинского языков. Это значит, что текст совершенно точно не является набором случайных символов, а несет в себе определенный смысл.

В теории это может быть даже зашифрованный английский, но как это узнать, если исследователи все еще не могут определить, сама рукопись — это шифр или просто какой-то странный язык?

Даже при наличии ключа расшифровка принципов языка требует огромных усилий со стороны лингвистов. Расшифровка Розеттского камня заняла у исследователей 20 лет. И это при условии, что им был известен один из трех языков, на которых был написан текст на камне.

Просто представьте, даже зная перевод древнегреческого текста, исследователям понадобилось больше двух десятилетий, чтобы расшифровать тот же текст, записанный иероглифическим письмом. Демотическое письмо расшифровали раньше, но поражает сам факт того, что имея ключ, суть языка разгадывали так долго.

На рукописи Войнича есть также краткие отрывки текста, которые выбиваются из общего числа. Отдельные слова, написанные латиницей с комбинациями неизвестных символов.

Тем не менее, эти надписи тоже либо зашифрованы, либо написаны по правилам неизвестного языка. Потому что перевести их невозможно. Во всяком случае, так считают исследователи.

Теории насчет расшифровки рукописи Войнича

За 600 лет исследователи наворотили целую кучу теорий происхождения языка и алфавита книги. Есть довольно странные, есть заслуживающие внимания.

Большинство исследователей до XX века считало, что рукопись Войнича скрывает просто зашифрованный особым образом один из европейских языков.

Но вот текст не соответствует шифрам, существовавшим в XV веке. Шифры подстановки, полиалфавитные, номенклаторы и гомофонические не подходят.

Не исключается, что текст был зашифрован одним из вышеуказанных шифров, а потом усложнен с помощью ложных символов и пробелов или еще одного уровня шифрования, но эту гипотезу проверить крайне сложно — ведь в таком случае невозможно отследить, какие символы являются ложными, а какие — истинными.

Вторая популярная гипотеза утверждает, что код Войнича — это банальный шифр по кодовой книге. То есть, отдельная комбинация символов — это отдельное слово на существующем языке. И действительно, форма рукописи позволяет предполагать, что в тексте есть вполне определенный смысл. Но вот подтвердить или опровергнуть эту гипотезу на сегодня невозможно — взломать такой шифр можно только с помощью словаря.

Некоторые исследователи считают, что рукопись написана на реально существовавшем экзотическом языке с уникальным алфавитом. К примеру, на одном из восточных или американских диалектов. Отдельные стилистические особенности текста намекают на это, но доказательств этому все же недостаточно.

Еще есть множество соображений: искусственно созданный уникальный язык, полиязычный зашифрованный текст, протоязык, который предшествовал всем языкам романской группы. Были даже мысли, что рукопись написана сумасшедшим и вообще не несет смысла. Также исследователи пытались доказать, что рукопись — мистификация, но радиоуглеродный анализ все же показывает, что книга действительно написана в XV веке.

Ни одна из гипотез пока что не получила достаточных доказательств своей правоты. Поэтому код Войнича до сих пор не был разгадан.

Нейросеть пытается взломать код Войнича

Итак, после объемного и широкого вступления обратимся к сути статьи. В 2016 году Энигму от мира литературы попытались взломать с помощью нейросети. Да, именно в 2016 — СМИ узнали об этих попытках только в 2018, из-за этого даты часто путают. Вот ссылка на оригинальное исследование. Текст на английском, поэтому нужно хотя бы немного разбираться в научной терминологии. Канадские ученые «натренировали» нейросеть на распознание отдельных элементов алфавита и лексем из 380 существующих или ранее существовавших мировых языков. Как утверждали исследователи, точность анализа нейросети была в пределах 97%.
Система показала, что наиболее вероятный язык рукописи — иврит. Конечно, не простой иврит, а с подвыподвертом. Исследователи предположили, что в книге есть довольно простой шифр, при котором знаки огласовок опускаются или шифруются с помощью других символов, а согласные размещаются в алфавитном или произвольном порядке.

Стоит также уточнить, что система давала также и другие возможные исходники: мазатек (язык аборигенов современного юга Мексики), мозарабский (арабизированный язык Пиренейского полуострова), итальянский и язык ладино (язык евреев Пиренейского полуострова). Также нейросеть нашла элементы стандартного арабского и амхарского языка (территория современной Эфиопии, входит в семитскую группу).

Такой подход вдруг дал результат и нейросеть смогла перевести часть текста книги. Первая фраза была переведена как:

She made recommendations to the priest, man of the house and me and people.
Она дала советы священнику, хозяину дома, мне и людям.

Казалось бы, вот он, триумф искусственного интеллекта! На базе такой трактовки и иллюстраций исследователи даже сделали предположение, что рукопись Войнича была своеобразной фармакопеей — медицинской книгой, в которой описывалось целебное значение трав, способы изготовления и применения лекарственных препаратов, а также строение человеческого тела.

Всего алгоритм «опознал» примерно 80% слов из всей рукописи. За основу анализа было взято то же самое предположение об отсутствии огласовок и произвольном порядке букв в словах.

Но вот повторные проверки первой тестовой фразы показали другой результат:

And the priest made a man for him to his house, and to his men.
И священник сделал человека для него и для его дома, и его людей.

Unleavened bread and made her the priest, and one which leaves his home.
Пресный хлеб и сделал ее священником, и той, кто покидает его дом.

Во фразах меньше смысла, чем в первоначальном варианте, но в теории это можно списать на несовершенство переводческих алгоритмов системы. В целом же лексические основы во всех вариантах перевода остались неизменными: «священник» и «дом».

Можно было бы заявлять об успехе, но есть парочка серьезных «но», которые не делают результаты исследования сенсационными.

Во-первых, настройки нейросети позволяли некую вольность в трактовке слов, ведь даже если учесть, что алфавит — это просто измененное начертание букв иврита, то существует довольно много вариантов слов, которые можно составить при перестановке букв.

Если же предположить, что язык рукописи не иврит, а просто принадлежащий к семитской группе или же родственный с ней, то совершённый анализ не будет иметь смысла — становится слишком много вариантов для анализа даже тех символов, значение которых вроде как уже определили. А неизвестных — еще больше.

В этой ситуации хочется вспомнить теорему о бесконечных обезьянах. Если кто не слышал, вот она:

Допустим, что у нас есть бесконечное число обезьян с печатными машинками, каждая из которых произвольным образом стучит по клавишам неограниченного количества времени.

Рано или поздно одна из обезьян сможет «настучать» любой произвольно заданный текст: будь то короткая записка или «Война и мир».

Эту теорию можно применить в случае интерпретации текста нейросетью. Изначально сама нейросеть создает пул вариантов значения каждого из слова, а затем из всего пула вариантов выбирает наиболее возможные интерпретации, исходя из комбинаций с соседними вариантами.

В результате в предложении из 5-8 предполагаемых слов получаем несколько десятков тысяч вариантов, из которых нейросеть выбирает один, который несет больше всего смысла.

То есть, есть очень большая вероятность, что среди этих разрозненных вариантов случайно найдется один или несколько, которые реально будут иметь смысл. При этом если здесь есть более сложный шифр или иная лексическая структура предложений или слов, то способ оказывается ложно положительным.

По факту какой-то результат есть, его можно «пощупать» и представить публике, но толку от него нет никакого, потому что он ни на шаг не приближает к реальной разгадке шифра.

Да и объективно соединить начертание букв алфавита с ивритом — решение довольно необычное. Тем не менее, большинство исследователей рукописи сомневаются, что исходный язык рукописи — иврит. Лексическая структура довольно сильно не совпадает, а разобрать степень шифрования, если она есть, все еще не представляется возможным.

Более того, некоторые считают, что лингвисты с нейросетью проводили не объективный анализ, а искали подтверждение отдельной теории. Гипотезу о том, что книга является фармакопеей, можно сделать, исходя из рисунков трав, людей и звездных тел, даже без анализа текста.

В итоге результаты исследований не приняли в научном обществе. Потому что они не раскрывают конкретных особенностей и принципов языка, как требуется для полноценного лингвистического исследования наречий. Для того, чтобы результаты исследований признали, банально не хватает доказательной базы. Невозможно проследить четкую логическую цепочку, которой руководствовалась нейронная сеть во время анализа, поэтому результаты нельзя считать научно обоснованными — есть ненулевой шанс, что цепочка окажется ошибочной.

Впрочем, адекватных гипотез насчет манускрипта Войнича больше не было.

Лингвисты предпринимали попытки, но все они больше похожи на фарс. К примеру, в 2019 году один британский ученый заявил, что он разгадал код Войнича. Но теория о «протороманском языке» или вульгарной латыни была резко раскритикована учеными, которые обвинили британца в том, что он искусственно подбирал слова без определения принципов письма и без убедительных доводов о лексических связях между смыслами.

Сейчас уже 2020 и шумиха вокруг «единственной и правильной расшифровки рукописи Войнича» утихла. Он все так же продолжает считаться одной из главных лингвистических и криптологических загадок современности.

Хочется, конечно, верить в то, что когда-нибудь его все-таки разгадают. Если это какая-нибудь разновидность языка, то вполне возможно. Но если это все же шифр с утраченным ключом, то рукопись рискует навсегда остаться просто красивой древней книгой с таинственной историей.

Вообще лингвистические загадки — это очень крутая тема. Кроссворды и филворды — это только верхушка айсберга — есть очень много способов одновременно учить английский и прокачивать логику и мышление. Преподаватели EnglishDom часто используют их на занятиях, чтобы разнообразить процесс обучения и сделать его более интересным.

Код Войнича: мнимый триумф искусственного интеллекта

Комментарии: