Искусственный интеллект определил язык рукописи Войнича. Получился иврит

2018-01-30 11:29

Фрагмент рукописи Войнича

Beineke Library

Поправка: После того как эта новость уже была опубликована, один из авторов обсуждаемой в ней работы, Гжегож Кондрак, прислал в редакцию N + 1 письмо со ссылкой на научную статью, в которой описываются полученные им и Брэдли Хауэром результаты. Оказалось, что статья была опубликована в 2016 году. Подробнее о том, почему ученым до сих пор не удается расшифровать манускрипт Войнича, вы можете прочитать в этом материале, который лингвист Александр Пиперски написал для N + 1.

Канадские лингвисты применили алгоритм искусственного интеллекта для расшифровки рукописи Войнича, написанной на неизвестном языке. Исследователи утверждают, что им удалось прочесть первое предложение, а также определить язык манускрипта — им оказался иврит, сообщает канал CTV News. Публикации в рецензируемом журнале о результатах работы на данный момент нет, и другие ученые относятся к этому заявлению с осторожностью.

Рукопись Войнича представляет собой иллюстрированную книгу, созданную в Центральной Европе в XV–XVI веках неизвестным автором. Она была названа по имени коллекционера Уилфрида Войнича (Wilfrid Voynich), который приобрел ее в 1912 году у иезуитов в местечке неподалеку от Рима. Сейчас она хранится в библиотеке Йельского университета. Книга написана на неизвестном языке с помощью алфавита, насчитывающего 20–25 букв: исключение составляют лишь несколько десятков знаков, встречающихся в рукописи всего один-два раза. Рукопись состоит из 240 страниц из тонкого пергамента и поделена на шесть разделов, которые сопровождаются рисунками.

Несколько лет назад удалось установить, что текст рукописи Войнича подчиняется закону Ципфа, статистически описывающему встречаемость слов в естественных языках. Это говорит в пользу вполне осмысленного содержания книги. Тем не менее, расшифровать ее язык до сих пор никому не удалось, хотя сделать это пытались многие. В их число вошли такие известные криптологи, как Уильям Фридмен, который во время Второй мировой войны взломал код японской шифровальной машины PURPLE, и британец Джон Тилтмен, считавшийся одним из лучших криптологов времен Второй мировой, — однако они не добились успеха.

Гжегож Кондрак (Grzegorz Kondrak) и Брэдли Хауэр (Bradley Hauer) из Альбертского университета попытались разгадать тайну рукописи Войнича с помощью алгоритма искусственного интеллекта. Для обучения алгоритма использовалась Всеобщая декларация прав человека, переведенная на 380 языков. Как заявляют разработчики, их программа научилась определять язык с 97-процентной точностью. При этом как именно проверялся алгоритм, не сообщается.

Статистический анализ манускрипта, выполненный алгоритмом, показал, что его текст написан на иврите. Кондрак и Хауэр предположили, что в книге используется шифр, при котором буквы в каждом слове меняются местами, а гласные опускаются. Исходя из этого допущения, они попытались перевести первое предложение рукописи Войнича с иврита. По версии авторов, оно звучит так: «Она дала рекомендации священнику, хозяину дома, и мне, и людям» («She made recommendations to the priest, man of the house and me and people»).

Среди первых 72 слов книги, по заявлению авторов, также встречаются слова «крестьянин», «свет», «воздух» и «огонь». Это говорит в пользу гипотезы, что манускрипт Войнича мог служить фармакопеей, то есть сводом правил, которыми руководствуются при изготовлении, хранении и назначении лекарственных препаратов. Кондрак признает, что искусственного интеллекта недостаточно для расшифровки кодекса. В процессе необходимо участие людей, так как только они поймут синтаксис и смысл слов.

Эксперты восприняли сообщения о расшифровке скептически. «Пока нет полноценной научной статьи, рассказывающей об исследовании, что-то сказать сложно. По тому, что опубликовано в канадской прессе, создается впечатление, что авторы изучали частотные распределения символов, при этом допуская мысль о том, что буквы в словах могут быть переставлены местами. Это не самая обычная ситуация, которая возникает при автоматическом определении языка по тексту: обычно компьютерная лингвистика имеет дело с текстами, в которых буквы идут в нормальном порядке, и тогда частотность букв и их сочетаний позволяет легко определить, на какой из известных языков больше всего похож текст. Но есть риск, что, допуская произвольные перестановки букв в слове, авторы дали себе слишком много свободы: подозреваю, что так можно обнаружить в манускрипте Войнича почти любой язык. Я верю, что у них были какие-то способы оценивать статистическую значимость результата и ранжировать вероятности для разных языков, но пока нет подробностей, полагаться на это нельзя», — сказал N+1 лингвист Александр Пиперски, научный сотрудник ВШЭ и доцент РГГУ.

«Еще одна важная проблема — собственно лингвистическая: нет сомнений, что авторы сравнивали частотность символов с современными языками. Но ведь манускрипт Войнича был написан в XV веке, и понятно, что за это время сильно изменились и языки, и системы письма. Даже если взять русский язык, в современном тексте не будет, например, буквы „ъ“ в конце слов и буквы „?“, а значит, частотное распределение букв совсем не такое, как в XV веке. И, конечно, остаются и филологические вопросы, связанные с интерпретацией. Авторы исследования говорят, что среди первых четырех слов одного из разделов нашлись слова „крестьянин“, „свет“, „воздух“ и „огонь“, которые хорошо вписываются в трактакт по ботанике. Но здесь нет ни одного слова именно про растения — и ясно, что если бы на картинках были изображены не растения, а скажем, виды оружия, мы бы так же легко сказали, что это слова из трактата об оружии, а если бы нашлись другие слова, мы бы и их подогнали под ботанику. Первая фраза — „Она дала советы священнику, хозяину, мне и людям“ без более широкого контекста тоже выглядит как подгонка под ответ», — считает ученый.

Кроме того, жаль, что Грег Кондрак с ходу противопоставляет себя другим специалистам по манускрипту Войнича. «Они боятся, что компьютеры их заменят», — говорит Кондрак — но вообще-то математические методы, а значит, и компьютеры используются в дешифровке уже много лет, в том числе и при анализе манускрипта Войнича. Например, Алиса Кобер в первой половине XX века проделала много технической работы с греческим линейным письмом Б — и наверняка была бы только рада, если бы часть ее взял на себя компьютер. Но алгоритмы-то все равно пока приходится придумывать человеку, так что Кондрак просто стал еще одним из людей, высказавших гипотезу о манускрипте Войнича, а не первопроходцем, который перевернул мир дешифровки», — заключает Пиперски.

Недавно испанский издательский дом Silo? получил право на публикацию ограниченной серии копий рукописи Войнича. По мнению сотрудников Библиотеки Бейнеке, где хранится рукопись, публикация поможет приблизиться к прочтению таинственного текста.

Кристина Уласович

Телеграм: t.me/ainewsline

Источник: nplus1.ru



		Искусственный интеллект определил язык рукописи Войнича. Получился иврит
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2018-01-30 11:29 искусственный интеллект, лингвистика Фрагмент рукописи Войнича Beineke Library Поправка: После того как эта новость уже была опубликована, один из авторов обсуждаемой в ней работы, Гжегож Кондрак, прислал в редакцию N + 1 письмо со ссылкой на научную статью, в которой описываются полученные им и Брэдли Хауэром результаты. Оказалось, что статья была опубликована в 2016 году. Подробнее о том, почему ученым до сих пор не удается расшифровать манускрипт Войнича, вы можете прочитать в этом материале, который лингвист Александр Пиперски написал для N + 1. Канадские лингвисты применили алгоритм искусственного интеллекта для расшифровки рукописи Войнича, написанной на неизвестном языке. Исследователи утверждают, что им удалось прочесть первое предложение, а также определить язык манускрипта — им оказался иврит, сообщает канал CTV News. Публикации в рецензируемом журнале о результатах работы на данный момент нет, и другие ученые относятся к этому заявлению с осторожностью. Рукопись Войнича представляет собой иллюстрированную книгу, созданную в Центральной Европе в XV–XVI веках неизвестным автором. Она была названа по имени коллекционера Уилфрида Войнича (Wilfrid Voynich), который приобрел ее в 1912 году у иезуитов в местечке неподалеку от Рима. Сейчас она хранится в библиотеке Йельского университета. Книга написана на неизвестном языке с помощью алфавита, насчитывающего 20–25 букв: исключение составляют лишь несколько десятков знаков, встречающихся в рукописи всего один-два раза. Рукопись состоит из 240 страниц из тонкого пергамента и поделена на шесть разделов, которые сопровождаются рисунками. Несколько лет назад удалось установить, что текст рукописи Войнича подчиняется закону Ципфа, статистически описывающему встречаемость слов в естественных языках. Это говорит в пользу вполне осмысленного содержания книги. Тем не менее, расшифровать ее язык до сих пор никому не удалось, хотя сделать это пытались многие. В их число вошли такие известные криптологи, как Уильям Фридмен, который во время Второй мировой войны взломал код японской шифровальной машины PURPLE, и британец Джон Тилтмен, считавшийся одним из лучших криптологов времен Второй мировой, — однако они не добились успеха. Гжегож Кондрак (Grzegorz Kondrak) и Брэдли Хауэр (Bradley Hauer) из Альбертского университета попытались разгадать тайну рукописи Войнича с помощью алгоритма искусственного интеллекта. Для обучения алгоритма использовалась Всеобщая декларация прав человека, переведенная на 380 языков. Как заявляют разработчики, их программа научилась определять язык с 97-процентной точностью. При этом как именно проверялся алгоритм, не сообщается. Статистический анализ манускрипта, выполненный алгоритмом, показал, что его текст написан на иврите. Кондрак и Хауэр предположили, что в книге используется шифр, при котором буквы в каждом слове меняются местами, а гласные опускаются. Исходя из этого допущения, они попытались перевести первое предложение рукописи Войнича с иврита. По версии авторов, оно звучит так: «Она дала рекомендации священнику, хозяину дома, и мне, и людям» («She made recommendations to the priest, man of the house and me and people»). Среди первых 72 слов книги, по заявлению авторов, также встречаются слова «крестьянин», «свет», «воздух» и «огонь». Это говорит в пользу гипотезы, что манускрипт Войнича мог служить фармакопеей, то есть сводом правил, которыми руководствуются при изготовлении, хранении и назначении лекарственных препаратов. Кондрак признает, что искусственного интеллекта недостаточно для расшифровки кодекса. В процессе необходимо участие людей, так как только они поймут синтаксис и смысл слов. Эксперты восприняли сообщения о расшифровке скептически. «Пока нет полноценной научной статьи, рассказывающей об исследовании, что-то сказать сложно. По тому, что опубликовано в канадской прессе, создается впечатление, что авторы изучали частотные распределения символов, при этом допуская мысль о том, что буквы в словах могут быть переставлены местами. Это не самая обычная ситуация, которая возникает при автоматическом определении языка по тексту: обычно компьютерная лингвистика имеет дело с текстами, в которых буквы идут в нормальном порядке, и тогда частотность букв и их сочетаний позволяет легко определить, на какой из известных языков больше всего похож текст. Но есть риск, что, допуская произвольные перестановки букв в слове, авторы дали себе слишком много свободы: подозреваю, что так можно обнаружить в манускрипте Войнича почти любой язык. Я верю, что у них были какие-то способы оценивать статистическую значимость результата и ранжировать вероятности для разных языков, но пока нет подробностей, полагаться на это нельзя», — сказал N+1 лингвист Александр Пиперски, научный сотрудник ВШЭ и доцент РГГУ. «Еще одна важная проблема — собственно лингвистическая: нет сомнений, что авторы сравнивали частотность символов с современными языками. Но ведь манускрипт Войнича был написан в XV веке, и понятно, что за это время сильно изменились и языки, и системы письма. Даже если взять русский язык, в современном тексте не будет, например, буквы „ъ“ в конце слов и буквы „?“, а значит, частотное распределение букв совсем не такое, как в XV веке. И, конечно, остаются и филологические вопросы, связанные с интерпретацией. Авторы исследования говорят, что среди первых четырех слов одного из разделов нашлись слова „крестьянин“, „свет“, „воздух“ и „огонь“, которые хорошо вписываются в трактакт по ботанике. Но здесь нет ни одного слова именно про растения — и ясно, что если бы на картинках были изображены не растения, а скажем, виды оружия, мы бы так же легко сказали, что это слова из трактата об оружии, а если бы нашлись другие слова, мы бы и их подогнали под ботанику. Первая фраза — „Она дала советы священнику, хозяину, мне и людям“ без более широкого контекста тоже выглядит как подгонка под ответ», — считает ученый. Кроме того, жаль, что Грег Кондрак с ходу противопоставляет себя другим специалистам по манускрипту Войнича. «Они боятся, что компьютеры их заменят», — говорит Кондрак — но вообще-то математические методы, а значит, и компьютеры используются в дешифровке уже много лет, в том числе и при анализе манускрипта Войнича. Например, Алиса Кобер в первой половине XX века проделала много технической работы с греческим линейным письмом Б — и наверняка была бы только рада, если бы часть ее взял на себя компьютер. Но алгоритмы-то все равно пока приходится придумывать человеку, так что Кондрак просто стал еще одним из людей, высказавших гипотезу о манускрипте Войнича, а не первопроходцем, который перевернул мир дешифровки», — заключает Пиперски. Недавно испанский издательский дом Silo? получил право на публикацию ограниченной серии копий рукописи Войнича. По мнению сотрудников Библиотеки Бейнеке, где хранится рукопись, публикация поможет приблизиться к прочтению таинственного текста. Кристина Уласович Телеграм: t.me/ainewsline Источник: nplus1.ru Комментарии:

Искусственный интеллект определил язык рукописи Войнича. Получился иврит

Комментарии: