Алгоритм научили дешифровке мертвых языков без параллельных корпусов

2019-07-02 20:46

компьютерная лингвистика, лингвистика, актуальная математика

Американские разработчики представили алгоритм-дешифровщик, который находит родственные слова (когнаты) древнего малоизвестного языка в родственном ему языке. Система основа на работе нейросетей с долгой краткосрочной памятью и основных принципах статистической дешифровки, а работает без использования параллельных корпусов. Точность ее работы, в зависимости от разных языков, достигает 90 процентов. Препринт статьи опубликован на arXiv.

Классический машинный перевод работает благодаря параллельным корпусам — наборам текстов на языке-источнике и целевом языке, на который необходимо сделать перевод. Благодаря большому количеству материалов, доступных на обоих языках, система перевода и учится языку: причем не только отдельным словам, но и грамматике.

Наличие параллельных текстов также помогает и в вопросе дешифровки древних и давно вымерших языков, для которых доступны только письменные лингвистические памятники, написанные с использованием неизвестных современным лингвистам знаковых систем. Стоит, к примеру, вспомнить Розеттский камень: египетскую иероглифику и демотическое письмо удалось расшифровать только благодаря тому, что текст дублировался на хорошо известном (и на момент создания, и сегодня) древнегреческом языке.

При этом, разумеется, параллельных текстов к древним лингвистическим памятникам может не существовать вообще, в случае чего их дешифровка требует долгого анализа: определения родственных языков, предположений о написанном на основе известных исторических данных и сравнений с письменами того же времени. Принципы такого анализа активно используются и в системах для автоматической расшифровки языка, но чаще всего они контекстно-зависимы (а данном случае — зависимы от определенного языка): например, в 2010 году разработчикам удалось автоматически дешифровать угаритский язык, сопоставив древние лингвистические памятники с текстами на иврите — современном семитском языке.

В своей работе исследователи под руководством Цзямина Ло (Jiaming Luo) из Массачусетского технологического института представили новую систему, которая способна дешифровать древний язык без использования параллельных корпусов. Их подход основан на часто используемом в статистической дешифровке анализе когнатов — лексем в родственных языках, а именно — на схожих чертах, которые объединяют слова языков, произошедших из одного протоязыка.

Анализ когнатов в такой системе происходит на двух уровнях: уровне знаков родной для языка письменности и уровне его слов. Когнаты в родственных языках часто имеют схожую форму и почти никогда не претерпевают знаковой перестановки: например, слово «мать» в романских языках произошло от латинского mater, и, несмотря на некоторые изменения (в итальянском и испанском — «madre», а во французском — «m?re»), проследить их происхождение — даже по записи — возможно. Что касается отдельных слов, то в этом случае работает подход, похожий на векторное представление слов: если представить два языка в качестве двух многомерных пространств, то когнаты в них обоих будут занимать одно и то же место по отношению к другим словам языков, так как и там, и там будут чаще всего употребляться в одинаковом контексте с одинаковой частотой.

С учетом этих правил дешифровки разработчики обучили систему, которая находит соответствие каждому знаку неизвестной письменности в уже известной письменности на основе не параллельных текстов из этих двух языков. Сама система основана на работе рекуррентных нейросетей с долгой краткосрочной памятью, она получает на вход текст на неизвестном языке и родственном ему уже известном, а на выход выдает словарик символьных и фонологических соответствий, который далее используется для определения пар когнатов.

Полученный алгоритм обучили и опробовали для дешифровки нескольких языковых письменностей: угаритского на основе иврита, линейного письма Б на основе древнегреческого, а также для определения когнатов между тремя романскими языками (испанским, итальянским и португальским). Системе удалось дешифровать тексты на угаритском на 3,1 процента точнее, чем авторам ранней работы, опубликованной в 2010 году, а линейное письмо Б дешифровали с точностью в 84,7 процента: исследователи отмечают, что это первая попытка дешифровать этот вид письменности автоматически. Средняя точность дешифровки когнатов в романских языках составила 91,6 процента.

Предполагается, что в дальнейшем этот алгоритм может быть использован для еще недешифрованных языков. В частности, в заметке MIT Technology Review, посвященной новой статье, упоминается линейное письмо А — предок линейного письма Б, дешифровать который до конца все еще не удалось.

Некоторые мертвые языки дешифрованы давно, а данных о них — достаточно много. Это, например, касается аккадского языка, памятники которого сохранились в виде клинописных табличек. Информации об этом языке даже хватило, чтобы снять на нем фильм, что в прошлом году и сделали студенты Кембриджского университета.

Елизавета Ивтушок

Источник: nplus1.ru



		Алгоритм научили дешифровке мертвых языков без параллельных корпусов
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-07-02 20:46 компьютерная лингвистика, лингвистика, актуальная математика Американские разработчики представили алгоритм-дешифровщик, который находит родственные слова (когнаты) древнего малоизвестного языка в родственном ему языке. Система основа на работе нейросетей с долгой краткосрочной памятью и основных принципах статистической дешифровки, а работает без использования параллельных корпусов. Точность ее работы, в зависимости от разных языков, достигает 90 процентов. Препринт статьи опубликован на arXiv. Классический машинный перевод работает благодаря параллельным корпусам — наборам текстов на языке-источнике и целевом языке, на который необходимо сделать перевод. Благодаря большому количеству материалов, доступных на обоих языках, система перевода и учится языку: причем не только отдельным словам, но и грамматике. Наличие параллельных текстов также помогает и в вопросе дешифровки древних и давно вымерших языков, для которых доступны только письменные лингвистические памятники, написанные с использованием неизвестных современным лингвистам знаковых систем. Стоит, к примеру, вспомнить Розеттский камень: египетскую иероглифику и демотическое письмо удалось расшифровать только благодаря тому, что текст дублировался на хорошо известном (и на момент создания, и сегодня) древнегреческом языке. При этом, разумеется, параллельных текстов к древним лингвистическим памятникам может не существовать вообще, в случае чего их дешифровка требует долгого анализа: определения родственных языков, предположений о написанном на основе известных исторических данных и сравнений с письменами того же времени. Принципы такого анализа активно используются и в системах для автоматической расшифровки языка, но чаще всего они контекстно-зависимы (а данном случае — зависимы от определенного языка): например, в 2010 году разработчикам удалось автоматически дешифровать угаритский язык, сопоставив древние лингвистические памятники с текстами на иврите — современном семитском языке. В своей работе исследователи под руководством Цзямина Ло (Jiaming Luo) из Массачусетского технологического института представили новую систему, которая способна дешифровать древний язык без использования параллельных корпусов. Их подход основан на часто используемом в статистической дешифровке анализе когнатов — лексем в родственных языках, а именно — на схожих чертах, которые объединяют слова языков, произошедших из одного протоязыка. Анализ когнатов в такой системе происходит на двух уровнях: уровне знаков родной для языка письменности и уровне его слов. Когнаты в родственных языках часто имеют схожую форму и почти никогда не претерпевают знаковой перестановки: например, слово «мать» в романских языках произошло от латинского mater, и, несмотря на некоторые изменения (в итальянском и испанском — «madre», а во французском — «m?re»), проследить их происхождение — даже по записи — возможно. Что касается отдельных слов, то в этом случае работает подход, похожий на векторное представление слов: если представить два языка в качестве двух многомерных пространств, то когнаты в них обоих будут занимать одно и то же место по отношению к другим словам языков, так как и там, и там будут чаще всего употребляться в одинаковом контексте с одинаковой частотой. С учетом этих правил дешифровки разработчики обучили систему, которая находит соответствие каждому знаку неизвестной письменности в уже известной письменности на основе не параллельных текстов из этих двух языков. Сама система основана на работе рекуррентных нейросетей с долгой краткосрочной памятью, она получает на вход текст на неизвестном языке и родственном ему уже известном, а на выход выдает словарик символьных и фонологических соответствий, который далее используется для определения пар когнатов. Полученный алгоритм обучили и опробовали для дешифровки нескольких языковых письменностей: угаритского на основе иврита, линейного письма Б на основе древнегреческого, а также для определения когнатов между тремя романскими языками (испанским, итальянским и португальским). Системе удалось дешифровать тексты на угаритском на 3,1 процента точнее, чем авторам ранней работы, опубликованной в 2010 году, а линейное письмо Б дешифровали с точностью в 84,7 процента: исследователи отмечают, что это первая попытка дешифровать этот вид письменности автоматически. Средняя точность дешифровки когнатов в романских языках составила 91,6 процента. Предполагается, что в дальнейшем этот алгоритм может быть использован для еще недешифрованных языков. В частности, в заметке MIT Technology Review, посвященной новой статье, упоминается линейное письмо А — предок линейного письма Б, дешифровать который до конца все еще не удалось. Некоторые мертвые языки дешифрованы давно, а данных о них — достаточно много. Это, например, касается аккадского языка, памятники которого сохранились в виде клинописных табличек. Информации об этом языке даже хватило, чтобы снять на нем фильм, что в прошлом году и сделали студенты Кембриджского университета. Елизавета Ивтушок Источник: nplus1.ru Комментарии:

Алгоритм научили дешифровке мертвых языков без параллельных корпусов

Комментарии: