Нейронный машинный перевод Google |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-06-17 22:45 Отчет написан в декабре 2017. It's not who has the best algorithm that wins. It's who has the most data. Побеждает не тот, у кого лучше алгоритм, а тот, у кого больше данных. Эндрю Нг, преподаватель курса по машинному обучению на Coursera. If you scale up both the size of the model and the amount of data you train it with, you can learn finer distinctions or more complex features. …These models can typically take a lot more context. Jeff Dean, an engineer helping lead the research at Google. Если увеличить размер модели и дать ей больше данных для обучения, она начнет различать более тонкие и сложные особенности. …Эти модели обычно воспринимают более широкий контекст. Джеф Дин, инженер, помогающий в управлении исследованиями в Google.Я тестировала Google Translate на одних и тех же текстах в марте и декабре 2011, январе 2016 и декабре 2017 года. Брала одни и те же отрывки на английском, русском, немецком, французском, украинском и польском языках и переводила каждый на остальные пять языков из выборки. Кроме того, в декабре 2017 дополнительно взяла новые тексты и протестировала во всех направлениях перевода. Результаты cross-verification в целом совпали с тенденциями в первоначальной выборке. В итоге получился срез работы переводчика Google за 2011 — 2017 годы, и на основе этих материалов можно сделать выводы об эволюции сервиса и прокомментировать маркетинговые заявления компании (цитаты планируется опубликовать отдельно). Хроника событий В период до 2011 года (и, возможно, позже) в Google фактически утверждали, что статистический переводчик самообучаемый (см. соответствующие цитаты сотрудников в моей статье «Совместимость языков», [1]) и что, по мере накопления параллельных текстов в каждой языковой паре, качество продукции неуклонно стремится к человеческому уровню исключительно благодаря новаторскому статистическому подходу. В 2012 году Google запустили самообучаемую нейросеть [6] и в сентябре2016 года объявляют о переводе своего машинного переводчика на глубинное обучение, что опять-таки обещает неуклонный рост качества продукции [3, 4, 5]. С марта 2017 года нейросеть стали использовать для перевода на русский. Ретроспектива Год 2011 (По материалам моей статьи 2012 года, [1].) Перевод во многих языковых парах идет через промежуточный перевод на английский с эффектом «сломанного телефона» При переводе в указанных направлениях английский язык выступает «посредником»: текст сначала переводится на английский и лишь потом на выбранный язык перевода. На целевой язык переводится искаженный английский вариант, с неизбежными при машинном переводе неточными фрагментами. Так на «первичную деформацию» накладывается второй слой. В результате один и тот же текст получает большее искажение при переводе на немецкий, французский и др. языки, чем на английский. Статистический перевод оптимален между родственными языками Перевод Google с русского на украинский и наоборот наиболее «интуитивно» верный из всех рассмотренных, самый близкий к готовому продукту, в нем меньше искажения смысла или правил языка, меньше дословного перевода. Английский – «стержневой» язык в Google Translate Перевод с английского и на английский в Google Translate – прямой, без посредничества другого языка. Это обеспечивает неплохое качество, при котором особенно заметны достоинства работы сервиса: часто правильный перевод имен и названий, терминов, фразеологизмов, использование живых оборотов речи в отличие от дословного перевода, нередко правильный выбор лексического значения в зависимости от контекста. Значительного улучшения качества переводов со временем не происходит Переводы одного и того же текста в разное время (март, октябрь, декабрь 2011 года) продемонстрировали закономерность развития статистического перевода Google. В более поздних переводах было заметно большее разнообразие лексики, но в целом по точности, понятности они оказались не намного лучше, даже местами хуже. Год 2016 Google убирает повторы из перевода; лучше выстроенное, связное предложение, иногда более удачный выбор слов; иногда откат на менее удачный перевод («камень инструмент» вместо «каменное орудие» в 2011 году); иногда менее удачная интерпретация роли члена предложения – иногда более. Итого: местами лучше, местами хуже, чем переводы 2011 года, но в целом уровень и потолок тот же. Год 2017 Английский как язык-посредник сохраняет свою роль, но немного сдает позиции Появляется больше вариаций, отклонений от английского промежуточного перевода. Часто эти эксперименты неудачны, то есть если бы перевод на целевой язык по-прежнему вслепую шел за английским, результат был бы лучше. Однако параллельно улучшилось «владение» грамматикой целевого языка: если в английском варианте текст расшифрован адекватно, то можно быть уверенным на 90%, что в переводах на остальные языки будут проставлены правильные окончания, подобраны подходящие лексические средства, выстроен оптимальный порядок слов. Если в английском «каша»… Нет, каши в результатах 2017 уже нет и это большое достижение. Если в английском переводе небольшой сбой, то в переводе на целевые языки, по закону сломанного телефона, недопонимание усиливается. Впрочем, искажение (неправильный выбор слова) в целевых языках встречается и при идеальном английском переводе. Более точный анализ структуры предложения и слова Главное достижение в результатах перевода 2017 года – более твердое, уверенное распознавание структуры предложения и передача грамматических значений на целевых языках. В английском языке окончания не играют такую важную роль в передаче грамматических значений, как в русском, немецком, польском и украинском. Тем не менее, при «прогонке» через нейросеть грамматические связи стали «теряться» реже, чем при статистическом переводе. Также стали распознаваться редко употребляемые многокоренные слова: переводчик хорошо справляется с членением не только предложения, но и слова. Качество перевода за последний год выросло значительно В 2011 – 2016 годах в переводах сложных фраз на английский была только видимость связности: переведенные слова и словосочетания нанизывались в цепочку в слегка скорректированном порядке, но «глубинного понимания» структуры не было, и порой перевод выглядел гладким только потому, что в английском часто не нужны окончания, а отсутствие служебных слов в некоторых стилях допустимо. Зато это «непонимание» всегда проявлялось в дальнейших переводах на целевые языки. В переводах за декабрь 2017 года структура английского предложения выверена лучше – и лучше интерпретируется на другие языки. Качество на этих языках повысилось соразмерно: чуть ниже английского, но намного выше прежнего плюс есть спорадические пропуски слов и отступления от английского (в большинстве случаев неудачные). Перевод на украинский «отвязали» от русского языка-посредника Раньше (вплоть до предпоследнего «замера» в январе 2016 года) переводы на украинский и русский совпадали на 99,9%, причем если это и понижало качество перевода на украинский, то незначительно, несмотря на то, что от оригинала его отделял перевод сначала на английский, потом на русский («третья вода на киселе»). Нейронный переводчик не оперирует смыслами Статистический переводчик хорошо работал с распознаванием терминов, имен, фраз, часто удачно выбирал значения слов в контексте предложения. Проблемы начинались, когда не получалось правильно интерпретировать взаимосвязь между словами, их грамматическую роль. В переводах 2017 года заметно значительное улучшение в этом направлении, т. е. нераспознанных мест стало меньше. Адекватный ли это перевод? Не совсем. Нейронный переводчик привязан к структуре предложения. Он неплохо трансформирует языковые конструкции с языка на язык. Сервис берет смысл не предложения или абзаца, а более мелких сегментов (которые стал определять гораздо лучше) и «склеивает» куски в соответствии с правилами грамматики целевого языка. Чего не хватает? Профессиональных переводчиков учат передавать смысл своими словами, не привязываясь к структуре предложения исходника. Адекватный перевод должен стремиться от пословной и пофразовой передачи к смысловым трансформациям. Чего конкретно не хватает до уровня литературного перевода Чтобы было понятней, о чем ворчат переводчики, в заключение приведу примеры машинного и немашинного перевода с английского на русский. Ссылки 1. Совместимость языков и другие ограничения в статистическом переводе Google Translate, 2012 2. С родного на чужой и обратно: тестируем 7 онлайн-переводчиков, 2012 3. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, 2016 4. Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation, 2016 5. A Neural Network for Machine Translation, at Production Scale, 2016 6. Google Puts Its Virtual Brain Technology to Work, 2012 7. Нейросеть Google Translate составила единую базу смыслов человеческих слов, 2016 8. Ограничения глубинного обучения и будущее (перевод), 2017 9. Нейросетевые архитектуры [о структуре GNMT], 2017 Источник: habr.com Комментарии: |
|