Разработчики из Facebook научили машинный перевод обходиться без параллельных корпусов

2018-09-03 15:09

компьютерная лингвистика, проблемы машинного перевода

Facebook

Разработчики из Facebook представили новую систему машинного перевода, которая обходится без параллельных корпусов. Обучаясь словарю на векторных представлениях слов, и грамматической правильности — на несвязанных отрывках текста, система показывает эффективность и правильность перевода выше, чем все другие используемые сейчас подходы. Препринт статьи выложен на arXiv, коротко о работе сообщается на сайте компании.

Для машинного перевода обычно требуется достаточно объемный параллельный корпус — сборник текстов на языке-источнике и целевом языке. Такой классический подход к машинному переводу еще называют статистическим, а использование в дополнение к нему глубокого обучения также позволяет повысить точность выполнения задачи. К примеру, гибридную систему перевода год назад представил Яндекс.Переводчик.

Несмотря на то, что в последние годы в решении задач машинного перевода удалось добиться больших успехов, до сих пор остается одна существенная проблема: машинный перевод эффективен только в том случае, если и для языка-источника, и для целевого языка есть достаточное количество текстовых фрагментов. Решением подобного ограничения может быть использование обучения без учителя, которое не требует большого количества ресурсов. Опробовать этот подход для машинного перевода с ограниченным количеством данных обучающей выборки решили разработчики из Facebook под руководством Гийома Лампля (Guillaume Lample).

Их система сначала учит векторные представления каждого слова на определенном языке. Все слова языка можно представить в виде вектора в многомерном пространстве и таким образом подробно изучить их семантику: к примеру, в таком пространстве слово «кот» будет ближе к слову «животное» и слову «кошечка», чем к слову «ракета» или «молекула». Такой подход работает для любого языка и, имея векторное представление слов языка-источника и целевого языка, можно совместить два пространства: координаты одинаковых слов (к примеру, «кошка», «cat» и «gatto») в них будут совпадать. Система, таким образом, может выучить целый словарь-переводчик, не имея для обучения пар слов на двух языках.

Для перевода целых текстов, однако, такой подход работает плохо: в первую очередь, из-за того, что грамматические параметры могут не учитываться. Разработчики решили эту проблему, обучив нейросеть правильным языковым моделям: рассматривая примеры на языке, система учится наиболее грамматически корректным языковым формам и сочетаниям. Зная, таким образом, перевод отдельных слов и правильную структуру предложений на исходном и целевом языке, система машинного перевода может выдавать корректный перевод. На третьем шаге система улучшает собственный машинный перевод, сравнивая его с грамматически правильными формами сочетаний.

Facebook

Полученную систему проверили на парах перевода с французского и немецкого на английский и оценили ее эффективность с помощью алгоритма оценки машинного перевода BLEU (bilingual evaluation understudy). Обычно коэффициент BLEU — число от 0 до 1, но в своей работе исследователи оценивали качество по шкале от 0 до 100: им удалось добиться повышения качества перевода на 10 баллов по сравнению с методиками, разработанными ранее.

Новая система позволит обходиться без параллельных корпусов, подготовленных лингвистами. Это преимущество для редких языков, где данных для обучения систем машинного перевода может не хватать. Новый алгоритм перевода сможет решить эту проблему: тем не менее, разработчики уточняют, что их систему еще надо улучшить.

Векторное представление слов также эффективно используется для изучения социальной динамики на основе текста. К примеру, весной этого года американские ученые с помощью этого подхода смогли отследить, как в течение прошлого века менялось отношение людей к женщинам и азиатам.

Елизавета Ивтушок

Телеграм: t.me/ainewsline

Источник: nplus1.ru



		Разработчики из Facebook научили машинный перевод обходиться без параллельных корпусов
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2018-09-03 15:09 компьютерная лингвистика, проблемы машинного перевода Facebook Разработчики из Facebook представили новую систему машинного перевода, которая обходится без параллельных корпусов. Обучаясь словарю на векторных представлениях слов, и грамматической правильности — на несвязанных отрывках текста, система показывает эффективность и правильность перевода выше, чем все другие используемые сейчас подходы. Препринт статьи выложен на arXiv, коротко о работе сообщается на сайте компании. Для машинного перевода обычно требуется достаточно объемный параллельный корпус — сборник текстов на языке-источнике и целевом языке. Такой классический подход к машинному переводу еще называют статистическим, а использование в дополнение к нему глубокого обучения также позволяет повысить точность выполнения задачи. К примеру, гибридную систему перевода год назад представил Яндекс.Переводчик. Несмотря на то, что в последние годы в решении задач машинного перевода удалось добиться больших успехов, до сих пор остается одна существенная проблема: машинный перевод эффективен только в том случае, если и для языка-источника, и для целевого языка есть достаточное количество текстовых фрагментов. Решением подобного ограничения может быть использование обучения без учителя, которое не требует большого количества ресурсов. Опробовать этот подход для машинного перевода с ограниченным количеством данных обучающей выборки решили разработчики из Facebook под руководством Гийома Лампля (Guillaume Lample). Их система сначала учит векторные представления каждого слова на определенном языке. Все слова языка можно представить в виде вектора в многомерном пространстве и таким образом подробно изучить их семантику: к примеру, в таком пространстве слово «кот» будет ближе к слову «животное» и слову «кошечка», чем к слову «ракета» или «молекула». Такой подход работает для любого языка и, имея векторное представление слов языка-источника и целевого языка, можно совместить два пространства: координаты одинаковых слов (к примеру, «кошка», «cat» и «gatto») в них будут совпадать. Система, таким образом, может выучить целый словарь-переводчик, не имея для обучения пар слов на двух языках. Для перевода целых текстов, однако, такой подход работает плохо: в первую очередь, из-за того, что грамматические параметры могут не учитываться. Разработчики решили эту проблему, обучив нейросеть правильным языковым моделям: рассматривая примеры на языке, система учится наиболее грамматически корректным языковым формам и сочетаниям. Зная, таким образом, перевод отдельных слов и правильную структуру предложений на исходном и целевом языке, система машинного перевода может выдавать корректный перевод. На третьем шаге система улучшает собственный машинный перевод, сравнивая его с грамматически правильными формами сочетаний. Facebook Полученную систему проверили на парах перевода с французского и немецкого на английский и оценили ее эффективность с помощью алгоритма оценки машинного перевода BLEU (bilingual evaluation understudy). Обычно коэффициент BLEU — число от 0 до 1, но в своей работе исследователи оценивали качество по шкале от 0 до 100: им удалось добиться повышения качества перевода на 10 баллов по сравнению с методиками, разработанными ранее. Новая система позволит обходиться без параллельных корпусов, подготовленных лингвистами. Это преимущество для редких языков, где данных для обучения систем машинного перевода может не хватать. Новый алгоритм перевода сможет решить эту проблему: тем не менее, разработчики уточняют, что их систему еще надо улучшить. Векторное представление слов также эффективно используется для изучения социальной динамики на основе текста. К примеру, весной этого года американские ученые с помощью этого подхода смогли отследить, как в течение прошлого века менялось отношение людей к женщинам и азиатам. Елизавета Ивтушок Телеграм: t.me/ainewsline Источник: nplus1.ru Комментарии:

Разработчики из Facebook научили машинный перевод обходиться без параллельных корпусов

Комментарии: