Google AI разработали нейросеть по переводу речи с одного языка на другой |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-05-18 14:00 В Google AI обучили Translatotron — нейросеть, которая принимает на вход аудиозапись с речью и на выходе отдает аудиозапись с той же фразой, переведенной на другой язык. Translatotron может как реплицировать голос человека на входной аудиозаписи, так и использовать стандартный голос. Примеры сгенерированных аудиозаписей можно послушать на странице статьи. Разработки по переводу из речи в речь ведутся последние несколько десятков лет. Обычно такие системы делятся на три этапа: автоматическое распознавание речи (перевод из аудиозаписи в текст), машинный перевод (перевод текста на одном языке в текст на другом языке) и синтезирование аудиозаписи из текста. Именно таким образом работает Google Translate. В своей работе исследователи из Google предлагают новый подход к speech-to-speech переводу. Модель напрямую переводит из аудиозаписи в аудиозапись и основывается на одной sequence-to-sequence модели с использованием механизма внимания. Такая архитектура имеет несколько преимуществ в сравнении с трехступенчатой — более быстрый инференс модели, нет накопления ошибок между разными моделями, возможность напрямую натренировать модель реплицировать голос на входной аудиозаписи. Архитектура Translatotron Translatotron принимает на вход спектограммы (визуальное представление аудиоволн) аудиозаписи и на выходе генерирует спектограммы. Два компонента Translatotron обучаются отдельно:
Во время обучения модель использует многозадачную целевую функцию, которая предсказывает транскрипты входной и целевой аудиозаписей одновременно с генерацией спектограмм. Однако во время инференса модели текстовые транскрипты не используются. Оценка работы модели Исследователи для проверки работы модели использовали BLEU метрику. BLEU считалась по текстовым транскриптам, сгенерированным в системе по распознаванию речи. End-to-end подход пока уступает конвенциональному трехступенчатому по эффективности. Однако ценность работы в том, что ранее end-to-end решений в speech-to-speech задаче не было. Источник: neurohive.io Комментарии: |
|