Искусственный интеллект определил язык рукописи Войнича. Получился иврит |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-01-30 11:29 Поправка: После того как эта новость уже была опубликована, один из авторов обсуждаемой в ней работы, Гжегож Кондрак, прислал в редакцию N + 1 письмо со ссылкой на научную статью, в которой описываются полученные им и Брэдли Хауэром результаты. Оказалось, что статья была опубликована в 2016 году. Подробнее о том, почему ученым до сих пор не удается расшифровать манускрипт Войнича, вы можете прочитать в этом материале, который лингвист Александр Пиперски написал для N + 1. Канадские лингвисты применили алгоритм искусственного интеллекта для расшифровки рукописи Войнича, написанной на неизвестном языке. Исследователи утверждают, что им удалось прочесть первое предложение, а также определить язык манускрипта — им оказался иврит, сообщает канал CTV News. Публикации в рецензируемом журнале о результатах работы на данный момент нет, и другие ученые относятся к этому заявлению с осторожностью. Рукопись Войнича представляет собой иллюстрированную книгу, созданную в Центральной Европе в XV–XVI веках неизвестным автором. Она была названа по имени коллекционера Уилфрида Войнича (Wilfrid Voynich), который приобрел ее в 1912 году у иезуитов в местечке неподалеку от Рима. Сейчас она хранится в библиотеке Йельского университета. Книга написана на неизвестном языке с помощью алфавита, насчитывающего 20–25 букв: исключение составляют лишь несколько десятков знаков, встречающихся в рукописи всего один-два раза. Рукопись состоит из 240 страниц из тонкого пергамента и поделена на шесть разделов, которые сопровождаются рисунками. Несколько лет назад удалось установить, что текст рукописи Войнича подчиняется закону Ципфа, статистически описывающему встречаемость слов в естественных языках. Это говорит в пользу вполне осмысленного содержания книги. Тем не менее, расшифровать ее язык до сих пор никому не удалось, хотя сделать это пытались многие. В их число вошли такие известные криптологи, как Уильям Фридмен, который во время Второй мировой войны взломал код японской шифровальной машины PURPLE, и британец Джон Тилтмен, считавшийся одним из лучших криптологов времен Второй мировой, — однако они не добились успеха. Гжегож Кондрак (Grzegorz Kondrak) и Брэдли Хауэр (Bradley Hauer) из Альбертского университета попытались разгадать тайну рукописи Войнича с помощью алгоритма искусственного интеллекта. Для обучения алгоритма использовалась Всеобщая декларация прав человека, переведенная на 380 языков. Как заявляют разработчики, их программа научилась определять язык с 97-процентной точностью. При этом как именно проверялся алгоритм, не сообщается. Статистический анализ манускрипта, выполненный алгоритмом, показал, что его текст написан на иврите. Кондрак и Хауэр предположили, что в книге используется шифр, при котором буквы в каждом слове меняются местами, а гласные опускаются. Исходя из этого допущения, они попытались перевести первое предложение рукописи Войнича с иврита. По версии авторов, оно звучит так: «Она дала рекомендации священнику, хозяину дома, и мне, и людям» («She made recommendations to the priest, man of the house and me and people»). Среди первых 72 слов книги, по заявлению авторов, также встречаются слова «крестьянин», «свет», «воздух» и «огонь». Это говорит в пользу гипотезы, что манускрипт Войнича мог служить фармакопеей, то есть сводом правил, которыми руководствуются при изготовлении, хранении и назначении лекарственных препаратов. Кондрак признает, что искусственного интеллекта недостаточно для расшифровки кодекса. В процессе необходимо участие людей, так как только они поймут синтаксис и смысл слов. Эксперты восприняли сообщения о расшифровке скептически. «Пока нет полноценной научной статьи, рассказывающей об исследовании, что-то сказать сложно. По тому, что опубликовано в канадской прессе, создается впечатление, что авторы изучали частотные распределения символов, при этом допуская мысль о том, что буквы в словах могут быть переставлены местами. Это не самая обычная ситуация, которая возникает при автоматическом определении языка по тексту: обычно компьютерная лингвистика имеет дело с текстами, в которых буквы идут в нормальном порядке, и тогда частотность букв и их сочетаний позволяет легко определить, на какой из известных языков больше всего похож текст. Но есть риск, что, допуская произвольные перестановки букв в слове, авторы дали себе слишком много свободы: подозреваю, что так можно обнаружить в манускрипте Войнича почти любой язык. Я верю, что у них были какие-то способы оценивать статистическую значимость результата и ранжировать вероятности для разных языков, но пока нет подробностей, полагаться на это нельзя», — сказал N+1 лингвист Александр Пиперски, научный сотрудник ВШЭ и доцент РГГУ. «Еще одна важная проблема — собственно лингвистическая: нет сомнений, что авторы сравнивали частотность символов с современными языками. Но ведь манускрипт Войнича был написан в XV веке, и понятно, что за это время сильно изменились и языки, и системы письма. Даже если взять русский язык, в современном тексте не будет, например, буквы „ъ“ в конце слов и буквы „?“, а значит, частотное распределение букв совсем не такое, как в XV веке. И, конечно, остаются и филологические вопросы, связанные с интерпретацией. Авторы исследования говорят, что среди первых четырех слов одного из разделов нашлись слова „крестьянин“, „свет“, „воздух“ и „огонь“, которые хорошо вписываются в трактакт по ботанике. Но здесь нет ни одного слова именно про растения — и ясно, что если бы на картинках были изображены не растения, а скажем, виды оружия, мы бы так же легко сказали, что это слова из трактата об оружии, а если бы нашлись другие слова, мы бы и их подогнали под ботанику. Первая фраза — „Она дала советы священнику, хозяину, мне и людям“ без более широкого контекста тоже выглядит как подгонка под ответ», — считает ученый. Недавно испанский издательский дом Silo? получил право на публикацию ограниченной серии копий рукописи Войнича. По мнению сотрудников Библиотеки Бейнеке, где хранится рукопись, публикация поможет приблизиться к прочтению таинственного текста. Кристина Уласович
Источник: nplus1.ru Комментарии: |
|