Как переводчики в Яндексе помогают улучшать машинный перевод? |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2020-03-05 16:33 Группа лингвистической экспертизы — это команда переводчиков и редакторов внутри отдела документирования и локализации Яндекса. Они работают с технической документацией, интерфейсами, креативными текстами, промо-страницами, сайтами и презентациями на английском, турецком, русском и других языках. Помимо этого они помогают улучшать работу Яндекс Переводчика: на их текстах тренируют модели машинного обучения сервиса. Руководитель команды лингвистической экспертизы Эми Кришневски рассказала о том, как связаны машинный перевод и работа её команды, в чём особенности работы с техническими материалами, и какие навыки важны редакторам и переводчикам в Яндексе. Как работает машинный перевод и чем ему помогает группа лингвистической экспертизы В Переводчике используют гибридную модель машинного перевода, которая включает в себя нейросетевой и статистический подходы. Статистический подход основан на двух моделях — языка и перевода. Для создания модели перевода система сравнивает тысячи текстов со схожим содержанием, написанных на разных языках. В ходе сравнения модель учится находить соответствия между словами и их переводами: например, «hoodie» и «толстовка». Результат записывает в матрицу выравнивания слов, по которой затем можно найти возможные пары переводов. Для создания модели языка система изучает тексты на одном языке и составляет списки всех употребляемых слов и фраз. Каждому из них соответствует свой идентификатор, определяющий частоту использования в языке. Во время перевода предложения разбиваются на части, которые модель переводит независимо друг от друга. Сперва для каждой из них подбирается потенциальный перевод из матрицы, а затем система «собирает» из частей несколько вариантов предложения — и выбирает лучший вариант с точки зрения оптимальной сочетаемости слов. Нейронная сеть анализирует массив параллельных текстов и учится находить в них закономерности. Для этого используются эмбеддинги — векторные представления слов, благодаря которым можно понять, в каком контексте их употребляют. Например, если слово «кофейник» трижды встречалось рядом со словом «завтрак», один раз — со словом «ночь» и ни разу — со словом «здоровье», то его векторное представление может выглядеть так: [3;1;0]. Эмбеддинги помогают подбирать из нескольких возможных переводов наиболее подходящий — за счёт того, что они учитывают смысл текста или предложения. Яндекс.Переводчик передает текст одновременно двум системам: и статистическому переводчику, и нейронной сети. Полученные результаты оцениваются алгоритмом, основанном на методе обучения CatBoost — а он выбирает лучший из двух вариантов. Команда лингвистической экспертизы помогает работе Яндекс.Переводчика тем, что автоматически передаёт тексты, с которыми работала команда (около 40 000 предложений раз в квартал), в выборку для обучения машинного перевода. Ценность этих материалов в их специфике — они включают в себя точные переводы технических терминов и выражений, которые используются разработчиками или другими специалистами в IT. Так, для каждого продукта Яндекса у команды переводчиков есть отдельный глоссарий с терминами и устойчивыми фразами. Перевод одного и того же предложения может сильно разниться в зависимости от сервиса (контекста). Например, пара слова «счётчик» в Яндекс.Метрике — это «tag», а в программировании — «counter». Яндекс.Переводчик обучается на текстах группы лингвистической экспертизы и начинает использовать правильные термины в зависимости от контекста. Пользователи чаще всего переводят тексты с русского языка на английский и наоборот. Однако в запасе у команды есть документы и на других языках — например, на турецком (так как часть сервисов Яндекса — например, Музыка — локализована в Турции). Для обучения машинного перевода используется не только техническая документация или тексты интерфейсов, но и маркетинговые материалы или тексты из службы поддержки Яндекса. В них используется более разговорная речь, благодаря которой модели «понимают», как технические термины используются в повседневной жизни. Для того, чтобы обучение машинного перевода было эффективным, важна повторяемость слов, предложений и речевых конструкций. И чем выше разнообразие текстов (как в случае рекламных материалов), тем медленнее тренируется модель. Как устроена работа переводчиков в Яндексе В группу лингвистической экспертизы входят редакторы-эксперты и переводчики. Они работают с технической документацией, презентациями, маркетинговыми материалами, текстами в интерфейсах приложений и так далее. Бывают неожиданные задачи: например, перевести диалог из сериала для Кинопоиска. Сложно придумывать переводы для креативных названий плейлистов в Музыке, — рассказывает руководитель группы лингвистической экспертизы Эми Кришневски. У каждого переводчика своя специализация: кто-то ёмко переводит интерфейсы приложений, а кто-то красочно передаёт смысл рекламных текстов. Эми говорит, что главный навык для переводчика в Яндексе — это готовность учиться и исследовать незнакомые темы. Продукты Яндекса развиваются очень быстро, и поэтому работа переводчика тоже довольно динамичная: нужно изучать новые технологии или искать неизвестные обороты на сайтах и в книгах. Команда Эми регулярно читают блоги Google и Amazon, сравнивают стиль и терминологию их материалов со своими переводами. Также Эми советует ориентироваться на гайды Google, Microsoft и Apple по написанию текстов. Переводчикам в Яндексе важна дотошность и привычка проверять все факты. Кроме того, нужно думать о том, как облегчить жизнь пользователям: оптимизировать переводы так, чтобы они были максимально однозначными, и читатель быстро понимал, о чём речь. Этот навык развивается с опытом — особенно если внимательно читать правки от редакторов. Среди основных рабочих инструментов переводчиков в Яндексе — сервис MateСat — CAT-система, профессиональный инструмент для перевода. В нём сотрудникам доступны глоссарий, машинный перевод текста и подсказки из накопленной памяти переводов Эми рассказывает, что сервисы для автоматического перевода и переводчики-люди — не конкуренты. Работа со специализированными инструментами помогает её команде экономить время и ресурсы. Редактор считает, что в ближайшее время автоматические переводчики не заменят людей: потому что они медленнее обучаются незнакомым темам. А пока что отношения машинных методов и специалистов её команды — это взаимовыгодное сотрудничество. Источник: academy.yandex.ru Комментарии: |
|