Кевин Дикинсон: Новый ИИ мгновенно переводит клинописные таблички возрастом 5000 лет

2023-07-07 11:42

проблемы машинного перевода, лингвистика

Перевод — это не просто замена одного слова соответствующим словом на другом языке. Качественный перевод требует от переводчика понимания того, как оба языка объединяют мысли, а затем использования этих знаний для создания перевода, сохраняющего лингвистические нюансы оригинала, который носители языка легко понимают.

Каким бы сложным ни был этот процесс, он ничто по сравнению с задачей перевода древнего языка на современный язык. Эти переводчики должны не только возрождать вымершие языки из письменных источников, но также хорошо знать, как культуры, породившие эти источники, развивались на протяжении веков. Если этого было недостаточно, их источники часто фрагментированы, оставляя важный контекст потерянным на века.

Из-за этого количество людей, способных переводить языки древности, невелико, и их усилия часто уступают объему текстов, обнаруженных археологами.

Возьмем древний аккадский. Этот ранний семитский язык является одним из наиболее засвидетельствованных в древнем мире. Были обнаружены сотни тысяч, а по некоторым данным более миллиона аккадских текстов, которые сегодня хранятся в музеях и университетах. Многие из них даже были оцифрованы в интернете. Каждый из них может рассказать нам о жизни, политике и верованиях первых цивилизаций, но эти знания остаются запертыми из-за времени и человеческих ресурсов, необходимых для их перевода.

Чтобы изменить это, междисциплинарная группа археологов и ученых-компьютерщиков разработала искусственный интеллект, который может почти мгновенно переводить аккадский язык и открывать исторические записи, хранящиеся в этих 5000-летних табличках.

Аккадский потерянный (и найденный)

Аккадский был родным языком Аккадской империи, возникшей около 2300 г. до н.э. благодаря завоеваниям ее основателя Саргона Великого. Как разговорный язык, аккадский в конечном итоге разделился на ассирийский и вавилонский диалекты, прежде чем был полностью вытеснен арамейским в начале первого тысячелетия до нашей эры. Сегодня это действительно вымерший язык, даже без дочерних языков, которые могли бы продолжить его наследие.

Однако как письменный язык аккадский оказался более устойчивым. Империя заимствовала клинопись своего предшественника, шумерской цивилизации. Эта система письма использовала тростниковый стилус для отпечатывания клиновидных глифов на влажных глиняных табличках перед их обжигом (отсюда и название клинопись, что буквально означает «клинообразный» на латыни). Даже после того, как арамейский вытеснил аккадский в качестве общего языка региона, ученые продолжали писать аккадской клинописью до первого века нашей эры — кажется, даже в древности ученые и академики были невероятно упрямы.

Это традиционное мышление имело непреднамеренную пользу и для современных археологов. Хотя клинопись могла быть написана на папирусе, ее чаще чертили на глине или камне. Эти материалы намного лучше противостоят пожарам и наводнениям, опустошавшим их содержательные аналоги. И хотя время жестоко ко всем вещам — археологи редко находят клинописные таблички в отличном состоянии — это одна из причин, почему аккадская письменность так хорошо засвидетельствована в исторических записях.

«По иронии судьбы разрушительные пожары сохранили некоторые из величайших библиотек древней Месопотамии — потому что они были сделаны из глины. Напротив, все библиотеки папирусов Древнего Египта сгорели или обратились в прах, хотя многие отдельные кодексы сохранились», — пишет лингвист Стивен Роджер Фишер в «Истории письма».

Даже с таким лингвистическим богатством правильно перевести эти древние библиотеки — немалый подвиг. Помимо уже упомянутых проблем, аккадский язык является поливалентным. То есть его клинописные знаки могут иметь несколько разных прочтений в зависимости от того, как каждый из них функционирует в предложении. Есть много причин для такого развития событий, но, по словам Фишера, одна из причин, по которой аккадцы никогда не упрощались, заключалась в том, что они «казались связанными традициями». Это традиционное мышление привело к тому, что они продолжали использовать шумерскую письменность для языка, сильно отличающегося от шумерского. (Когда дело доходит до исторической науки, вы что-то выигрываете, что-то теряете.)

Таким образом, перевод на аккадский язык состоит из двух этапов. Во-первых, ученые должны транслитерировать клинописные знаки. То есть они берут клинопись и переписывают ее, используя схожую по звучанию фонетику целевого языка. Примером, с которым знакомо большинство читателей, является арабское слово ????, которое переводится как «Бог», но транслитерируется как «Аллах». Эта транслитерация наиболее близка латинскому алфавиту к воспроизведению слова, как оно звучит на арабском языке. Затем ученые берут свою транслитерацию текста и переводят его на современный язык.

Быстродействующий ИИ для мгновенных результатов

Как вы понимаете, это может быть долгим и трудоемким процессом, требующим многих лет обучения и самоотверженности, чтобы преуспеть. Чтобы ускорить процесс, исследовательская группа разработала нейронную модель машинного перевода для аккадской клинописи, та же технология, что и Google Translate.

Команда обучила модель ИИ на образце клинописных текстов из Открытого богато аннотированного клинописного корпуса и научила его переводить двумя разными способами. Для начала, модель ИИ научился переводить аккадский язык по транслитерации исходных текстов. Он также научился напрямую переводить клинописные символы. В частности, он переводил глифы Unicode в клинописных текстах, сгенерированные другим экономящим время инструментом, который автоматически создает Unicode из изображения оригинальной таблички.

Затем модель ИИ должна была выяснить, как обрабатывать нюансы различных жанров выборки — например, разницу между литературными произведениями и административными письмами — а также как обрабатывать изменения, обнаруженные в клинописном письме за тысячелетия его использования. Затем модель ИИ была протестирована с использованием дублера двуязычной оценки 4 (BLEU4) — алгоритма, используемого для оценки машинно переведенного текста.

При транслитерации на английский язык модель искусственного интеллекта команды набрала 37,47 балла. В тесте на клинопись на английский язык она набрала 36,52 балла. Обе оценки были выше целевого базового уровня и находились в диапазоне высококачественного перевода. И был удивительный результат: модель смогла воспроизвести нюансы жанра каждого тестового предложения. Хотя это не было одной из целей исследователя, они отмечают в исследовании, что это может открыть возможности для использования помимо перевода.

«Почти в каждом случае, независимо от того, правильный [перевод] или нет, жанр узнаваем», — пишет команда. «В многообещающем будущем сценарии [модели] будут показывать пользователю список источников, на которых они основывают свои переводы, что также будет особенно полезно для научных целей».

Команда опубликовала свои результаты в рецензируемом PNAS Nexus. Они также опубликовали свои исследования и исходный код на GitHub в Akkademia.

Будущее прошлого выглядит ярче

Какими бы обнадеживающими ни были первоначальные результаты, предстоит еще много работы. В обоих случаях некоторые тестовые предложения были переведены неправильно. И, как и другие модели ИИ, эта подвержена галлюцинациям — моментам, когда ответ не имеет связи с источником. В одном случае переводчик-человек произнес предложение «Почему мы (также) должны вести судебный процесс перед человеком из Либби-Али?» Перевод ИИ: «Они во Внутреннем городе». (Немного не в себе.)

В целом модель ИИ работает лучше всего, когда она переводит короткие и средние предложения. Она также лучше работает с более шаблонными жанрами, такими как царские указы и административные отчеты, чем с литературными жанрами, такими как мифы, гимны и пророчества. Исследователи отмечают, что, проводя больше тренировок на большом наборе данных, они стремятся повысить ее точность. Они надеются, что со временем их модель ИИ сможет стать виртуальным помощником ученых-людей. ИИ может быстро предоставить необработанный перевод, в то время как ученый может уточнить его, используя свои знания исторических языков, культур и людей.

«Сотни тысяч глиняных табличек, начертанных клинописью, документируют политическую, социальную, экономическую и научную историю древней Месопотамии. Тем не менее, большинство этих документов остаются непереведенными и недоступными из-за их огромного количества и ограниченного числа экспертов, способных их прочитать», — говорится в исследовании.

«Это еще один важный шаг на пути к сохранению и распространению культурного наследия древней Месопотамии».

Источник: bigthink.com



		Кевин Дикинсон: Новый ИИ мгновенно переводит клинописные таблички возрастом 5000 лет
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2023-07-07 11:42 проблемы машинного перевода, лингвистика Перевод — это не просто замена одного слова соответствующим словом на другом языке. Качественный перевод требует от переводчика понимания того, как оба языка объединяют мысли, а затем использования этих знаний для создания перевода, сохраняющего лингвистические нюансы оригинала, который носители языка легко понимают. Каким бы сложным ни был этот процесс, он ничто по сравнению с задачей перевода древнего языка на современный язык. Эти переводчики должны не только возрождать вымершие языки из письменных источников, но также хорошо знать, как культуры, породившие эти источники, развивались на протяжении веков. Если этого было недостаточно, их источники часто фрагментированы, оставляя важный контекст потерянным на века. Из-за этого количество людей, способных переводить языки древности, невелико, и их усилия часто уступают объему текстов, обнаруженных археологами. Возьмем древний аккадский. Этот ранний семитский язык является одним из наиболее засвидетельствованных в древнем мире. Были обнаружены сотни тысяч, а по некоторым данным более миллиона аккадских текстов, которые сегодня хранятся в музеях и университетах. Многие из них даже были оцифрованы в интернете. Каждый из них может рассказать нам о жизни, политике и верованиях первых цивилизаций, но эти знания остаются запертыми из-за времени и человеческих ресурсов, необходимых для их перевода. Чтобы изменить это, междисциплинарная группа археологов и ученых-компьютерщиков разработала искусственный интеллект, который может почти мгновенно переводить аккадский язык и открывать исторические записи, хранящиеся в этих 5000-летних табличках. Аккадский потерянный (и найденный) Аккадский был родным языком Аккадской империи, возникшей около 2300 г. до н.э. благодаря завоеваниям ее основателя Саргона Великого. Как разговорный язык, аккадский в конечном итоге разделился на ассирийский и вавилонский диалекты, прежде чем был полностью вытеснен арамейским в начале первого тысячелетия до нашей эры. Сегодня это действительно вымерший язык, даже без дочерних языков, которые могли бы продолжить его наследие. Однако как письменный язык аккадский оказался более устойчивым. Империя заимствовала клинопись своего предшественника, шумерской цивилизации. Эта система письма использовала тростниковый стилус для отпечатывания клиновидных глифов на влажных глиняных табличках перед их обжигом (отсюда и название клинопись, что буквально означает «клинообразный» на латыни). Даже после того, как арамейский вытеснил аккадский в качестве общего языка региона, ученые продолжали писать аккадской клинописью до первого века нашей эры — кажется, даже в древности ученые и академики были невероятно упрямы. Это традиционное мышление имело непреднамеренную пользу и для современных археологов. Хотя клинопись могла быть написана на папирусе, ее чаще чертили на глине или камне. Эти материалы намного лучше противостоят пожарам и наводнениям, опустошавшим их содержательные аналоги. И хотя время жестоко ко всем вещам — археологи редко находят клинописные таблички в отличном состоянии — это одна из причин, почему аккадская письменность так хорошо засвидетельствована в исторических записях. «По иронии судьбы разрушительные пожары сохранили некоторые из величайших библиотек древней Месопотамии — потому что они были сделаны из глины. Напротив, все библиотеки папирусов Древнего Египта сгорели или обратились в прах, хотя многие отдельные кодексы сохранились», — пишет лингвист Стивен Роджер Фишер в «Истории письма». Даже с таким лингвистическим богатством правильно перевести эти древние библиотеки — немалый подвиг. Помимо уже упомянутых проблем, аккадский язык является поливалентным. То есть его клинописные знаки могут иметь несколько разных прочтений в зависимости от того, как каждый из них функционирует в предложении. Есть много причин для такого развития событий, но, по словам Фишера, одна из причин, по которой аккадцы никогда не упрощались, заключалась в том, что они «казались связанными традициями». Это традиционное мышление привело к тому, что они продолжали использовать шумерскую письменность для языка, сильно отличающегося от шумерского. (Когда дело доходит до исторической науки, вы что-то выигрываете, что-то теряете.) Таким образом, перевод на аккадский язык состоит из двух этапов. Во-первых, ученые должны транслитерировать клинописные знаки. То есть они берут клинопись и переписывают ее, используя схожую по звучанию фонетику целевого языка. Примером, с которым знакомо большинство читателей, является арабское слово ????, которое переводится как «Бог», но транслитерируется как «Аллах». Эта транслитерация наиболее близка латинскому алфавиту к воспроизведению слова, как оно звучит на арабском языке. Затем ученые берут свою транслитерацию текста и переводят его на современный язык. Быстродействующий ИИ для мгновенных результатов Как вы понимаете, это может быть долгим и трудоемким процессом, требующим многих лет обучения и самоотверженности, чтобы преуспеть. Чтобы ускорить процесс, исследовательская группа разработала нейронную модель машинного перевода для аккадской клинописи, та же технология, что и Google Translate. Команда обучила модель ИИ на образце клинописных текстов из Открытого богато аннотированного клинописного корпуса и научила его переводить двумя разными способами. Для начала, модель ИИ научился переводить аккадский язык по транслитерации исходных текстов. Он также научился напрямую переводить клинописные символы. В частности, он переводил глифы Unicode в клинописных текстах, сгенерированные другим экономящим время инструментом, который автоматически создает Unicode из изображения оригинальной таблички. Затем модель ИИ должна была выяснить, как обрабатывать нюансы различных жанров выборки — например, разницу между литературными произведениями и административными письмами — а также как обрабатывать изменения, обнаруженные в клинописном письме за тысячелетия его использования. Затем модель ИИ была протестирована с использованием дублера двуязычной оценки 4 (BLEU4) — алгоритма, используемого для оценки машинно переведенного текста. При транслитерации на английский язык модель искусственного интеллекта команды набрала 37,47 балла. В тесте на клинопись на английский язык она набрала 36,52 балла. Обе оценки были выше целевого базового уровня и находились в диапазоне высококачественного перевода. И был удивительный результат: модель смогла воспроизвести нюансы жанра каждого тестового предложения. Хотя это не было одной из целей исследователя, они отмечают в исследовании, что это может открыть возможности для использования помимо перевода. «Почти в каждом случае, независимо от того, правильный [перевод] или нет, жанр узнаваем», — пишет команда. «В многообещающем будущем сценарии [модели] будут показывать пользователю список источников, на которых они основывают свои переводы, что также будет особенно полезно для научных целей». Команда опубликовала свои результаты в рецензируемом PNAS Nexus. Они также опубликовали свои исследования и исходный код на GitHub в Akkademia. Будущее прошлого выглядит ярче Какими бы обнадеживающими ни были первоначальные результаты, предстоит еще много работы. В обоих случаях некоторые тестовые предложения были переведены неправильно. И, как и другие модели ИИ, эта подвержена галлюцинациям — моментам, когда ответ не имеет связи с источником. В одном случае переводчик-человек произнес предложение «Почему мы (также) должны вести судебный процесс перед человеком из Либби-Али?» Перевод ИИ: «Они во Внутреннем городе». (Немного не в себе.) В целом модель ИИ работает лучше всего, когда она переводит короткие и средние предложения. Она также лучше работает с более шаблонными жанрами, такими как царские указы и административные отчеты, чем с литературными жанрами, такими как мифы, гимны и пророчества. Исследователи отмечают, что, проводя больше тренировок на большом наборе данных, они стремятся повысить ее точность. Они надеются, что со временем их модель ИИ сможет стать виртуальным помощником ученых-людей. ИИ может быстро предоставить необработанный перевод, в то время как ученый может уточнить его, используя свои знания исторических языков, культур и людей. «Сотни тысяч глиняных табличек, начертанных клинописью, документируют политическую, социальную, экономическую и научную историю древней Месопотамии. Тем не менее, большинство этих документов остаются непереведенными и недоступными из-за их огромного количества и ограниченного числа экспертов, способных их прочитать», — говорится в исследовании. «Это еще один важный шаг на пути к сохранению и распространению культурного наследия древней Месопотамии». Источник: bigthink.com Комментарии:

Кевин Дикинсон: Новый ИИ мгновенно переводит клинописные таблички возрастом 5000 лет

Комментарии: