Почему Google переводчик до сих пор так коряво переводит сложные английские предложения?

МЕНЮ


Новости ИИ
Поиск

ТЕМЫ


Внедрение ИИНовости ИИРобототехника, БПЛАТрансгуманизмЛингвистика, рбработка текстаБиология, теория эволюцииВиртулаьная и дополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

АРХИВ


Июнь 2017
Май 2017
Апрель 2017
Март 2017
Февраль 2017
Январь 2017
Декабрь 2016
Ноябрь 2016
Октябрь 2016
Сентябрь 2016
Август 2016
Июль 2016
Июнь 2016
Май 2016
Апрель 2016
Март 2016
Февраль 2016
Январь 2016
0000

RSS


RSS новости
птичий грипп

Новостная лента форума ailab.ru

Ответ Ярославны справедлив с лингвистической точки зрения и описывает общие проблемы, стоящие перед системами перевода в принципе (и даже перед переводчиком-человеком, на самом-то деле). Перевод естественных языков — вообще штука многогранная и сложная.

Но отдельный интерес для ответа на вопрос представляет то, как именно Google Translate подходит к решению этих проблем.

Важно понимать, что GT не строит перевод при помощи грамматического и синтаксического анализа исходного текста, извлечения его «смысла» и облачения его в слова и конструкции другого языка — этого не происходит. Переводчик от Google — это статистическая система машинного перевода. Это значит, что программа имеет доступ к огромному корпусу параллельных текстов — то есть, текстов на языке оригинала и их переводов, выполненных человеком. Алгоритмы самообучения строят из этих данных базы межъязыковых соответствий, которые потом используются для перевода произвольного текста, вводимого пользователем.

Именно поэтому перевод отдельной фразы иногда может оказаться на удивление идеальным: это значит, что именно эта фраза достаточно часто встречалась в базе данных дословно, и вы получаете ее цельный перевод прямо из корпуса параллельных текстов — фактически, Гугл говорит вам, «люди чаще всего переводят эту фразу вот так». Попробуйте немного изменить такую фразу — чаще всего идеальность перевода сразу растворится.

Длинные же, нестандартные фразы приходится собирать по кусочкам, находя в разных текстах похожие фрагменты и соединяя их с помощью статистики уже по одному языку. Это довольно смелый подход, который дает результаты примерно того же качества: иногда на удивление хорошие, иногда полностью абсурдные. Именно по этой причине переводчик просит пользователей вводить более удачные версии перевода или исправлять их: таким образом фактически расширяется его база данных. Отсюда же и периодические недоразумения вроде перевода Facebook как Вконтакте — очевидно, достаточно много пользователей посчитали такую «адаптацию» уместной и скормили системе ложные данные.

Для разных пар языков количество параллельных текстов, доступных для анализа, разное. Если для пары английский-испанский, например, объем данных просто бесконечный, то для пары вроде русский-корейский данных практически нет. В таком случае система переводит с русского на английский, а потом с английского на корейский — ошибки накапливаются с астрономической скоростью.

Заметьте, что простые фразы он переводит довольно сносно. Дело в том, что английский язык за свою историю очень сильно менялся: несколько периодов влияния разнообразных языков сделали свое, так сказать, грязное дело. (Хотя бы задайтесь вопросом, почему английский больше похож на латынь и французский, не имеет флексий (т. е. видоизменения слов по родам и падежам), но все еще принадлежит к германской группе языков)

Английский язык крайне полисемичен. Простейшие слова имеют просто невообразимое количество значений, большая часть из которых почти не используется. Вспомнить бы простой "well" - колодец и хорошо.

Полисемия - одна из причин корявости. Вполне вероятно, что автор имеет ввиду не первое словарное значение слова.

Вторая причина же в том, что в русском языке в основном не прямой порядок слов. Литературный русский отличается тем, что любой член предложения может оказаться на любом месте во фразе, а в английском порядок четкий, неизменяемый. Поэтому зачастую перевод выглядит дурацко.

Дальше больше, переводчик знает лишь самые популярные идиомы, например, "a piece of cake", а остальные, зачастую непрямые (например, иногда в середину идиомы всовывается какое-нибудь слово), не знает. Получается белиберда.

Некоторые идиомы, существующие в английском языке, не имеют аналога в русском языке, либо имеют другое значение.

Также бесконечные различия в менталитете, способах говорения и рассуждения. Такие тонкости ощущает человек, знакомый с языком, а не бездушная машина.

Из TJournal. Статья от 14 мая 2014 года, так что кое-что уже могло устареть.ПерламутровыеЭтот поисковый запрос несколько месяцев назад успел стать настоящим мемом в рунете. К сожалению,...

Есть очень хорошее упражнение, которое помогает успокоиться и сконцентрироваться. Сейчас это особенно актуально, ведь мы постоянно оказываемся в непростых, даже стрессовых ситуациях. Займет все не...

"Никогда и ничего не просите! Никогда и ничего, и в особенности у тех, кто сильнее вас. Сами предложат и сами все дадут!"Фраза с двойным, если не с тройным, дном, неоднократно проверенная на...

Нестыковок в романе порядком - какие-то из них на поверхности, а другие совсем не очевидны. В большинстве случаев это объясняется тем, что Булгаков умер, так и не успев закончить финальную правку...

Я конечно себе в этом никогда не признаюсь, и делаю вид что эти полстраницы не повлияли на мою дальнейшую жизнь, я бы хотела оказаться на Тверской (в роли Маргариты конечно), нести эти ужасные...

Регистрация пригодится, чтобы задавать вопросы и писать ответы. Еще она полезна, если вы хотите подписаться на темы или интересных вам пользователей.


Источник: thequestion.ru