В Google создали новую систему синтеза речи. И она почти неотличима от человека

2017-12-27 20:15

Alien / 20th Century Fox, 1979

Разработчики Google представили Tacotron 2 — систему синтеза речи, основанную на работе рекуррентных нейросетей. Алгоритм, подробно описанный в препринте на arXiv.org, реконструирует на основе сгенерированных из текста спектрограмм речь, максимально приближенную к человеческой. Послушать примеры работы алгоритма можно здесь.

Google занимается разработкой систем синтеза человеческой речи достаточно давно. Например, их система WaveNet, работающая на основе сверточных нейросетей, при производстве аудио учитывает не только звучание отдельных языковых токенов из обучающей выборки, но также и языковые параметры, например, просодию и длину слогов и слов. Для работы такого алгоритма, тем не менее, требуется сложный предварительный анализ текста и огромное количество данных в обучающей выборке.

Другой подход к синтезу речи, придуманный разработчиками Google, — это представление звуковой информации в виде спектрограмм (визуализации частоты в зависимости от времени). Такой подход позволяет избавиться от подробного языкового анализа и может быть осуществлен с использованием всего одной нейросети (разработчики назвали первую ее версию Tacotron), разработанной при помощи модели Seq2Seq (sequence to sequence).

Алгоритм, представленный командой разработчиков Google при участии Джонатана Шена (Jonathan Shen), работает на основе двух нейронных сетей. Первая нейросеть разбивает полученный текст на отдельные токены (буквы, паузы и знаки препинания) и визуализирует их в виде спектрограмм, а вторая — синтезирует на их основе аудио, используя алгоритмы WaveNet.

Архитектура Tacotron2

Shen et al. / arXiv 2017

Новый алгоритм во многом превосходит все существующие. Например, Tacotron2 может распознавать омонимию на основе семантики (отличать разные формы глагола read или понимать, обозначает слово desert существительное или глагол), а также делать интонационные паузы на месте знаков препинания или делать акценты на словах, которые в исходном тексте написаны заглавными буквами.

Более того, синтезируемая алгоритмом речь практически ничем не отличается от человеческой. Авторы разработки представили несколько примеров парных аудиозаписей, которые практически не отличаются друг от друга.

— отрывок, синтезированный Tacotron2

— отрывок, произнесенный человеком

Разработчики также попросили восемь человек оценить полученные с помощью работы системы образцы речи, сравнив их с теми же фразами, произнесенными людьми, по шкале от 1 до 5 (где 1 — меньше всего похоже на человеческую речь). Средняя оценка аудио, полученных с помощью Tacotron2, составила 4,53. Для сравнения, человеческая речь была оценена теми же людьми в среднем в 4,58 балла, а предыдущая версия Tacotron — в 4,001.

Авторы работы утверждают, что новый алгоритм является самым совершенным на сегодняшний момент в сфере искусственного синтеза речи и может быть использован для улучшения работы голосовых помощников.

Недавно специалисты из DeepMind (они также как и Google принадлежат одной материнской компании — Alphabet Inc.) представили новую систему компьютерного зрения, которая может распознавать объекты без учителя.

Елизавета Ивтушок

Источник: nplus1.ru



		В Google создали новую систему синтеза речи. И она почти неотличима от человека
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2017-12-27 20:15 искусственный интеллект, ИТ-гиганты Alien / 20th Century Fox, 1979 Разработчики Google представили Tacotron 2 — систему синтеза речи, основанную на работе рекуррентных нейросетей. Алгоритм, подробно описанный в препринте на arXiv.org, реконструирует на основе сгенерированных из текста спектрограмм речь, максимально приближенную к человеческой. Послушать примеры работы алгоритма можно здесь. Google занимается разработкой систем синтеза человеческой речи достаточно давно. Например, их система WaveNet, работающая на основе сверточных нейросетей, при производстве аудио учитывает не только звучание отдельных языковых токенов из обучающей выборки, но также и языковые параметры, например, просодию и длину слогов и слов. Для работы такого алгоритма, тем не менее, требуется сложный предварительный анализ текста и огромное количество данных в обучающей выборке. Другой подход к синтезу речи, придуманный разработчиками Google, — это представление звуковой информации в виде спектрограмм (визуализации частоты в зависимости от времени). Такой подход позволяет избавиться от подробного языкового анализа и может быть осуществлен с использованием всего одной нейросети (разработчики назвали первую ее версию Tacotron), разработанной при помощи модели Seq2Seq (sequence to sequence). Алгоритм, представленный командой разработчиков Google при участии Джонатана Шена (Jonathan Shen), работает на основе двух нейронных сетей. Первая нейросеть разбивает полученный текст на отдельные токены (буквы, паузы и знаки препинания) и визуализирует их в виде спектрограмм, а вторая — синтезирует на их основе аудио, используя алгоритмы WaveNet. Архитектура Tacotron2 Shen et al. / arXiv 2017 Новый алгоритм во многом превосходит все существующие. Например, Tacotron2 может распознавать омонимию на основе семантики (отличать разные формы глагола read или понимать, обозначает слово desert существительное или глагол), а также делать интонационные паузы на месте знаков препинания или делать акценты на словах, которые в исходном тексте написаны заглавными буквами. Более того, синтезируемая алгоритмом речь практически ничем не отличается от человеческой. Авторы разработки представили несколько примеров парных аудиозаписей, которые практически не отличаются друг от друга. — отрывок, синтезированный Tacotron2 — отрывок, произнесенный человеком Разработчики также попросили восемь человек оценить полученные с помощью работы системы образцы речи, сравнив их с теми же фразами, произнесенными людьми, по шкале от 1 до 5 (где 1 — меньше всего похоже на человеческую речь). Средняя оценка аудио, полученных с помощью Tacotron2, составила 4,53. Для сравнения, человеческая речь была оценена теми же людьми в среднем в 4,58 балла, а предыдущая версия Tacotron — в 4,001. Авторы работы утверждают, что новый алгоритм является самым совершенным на сегодняшний момент в сфере искусственного синтеза речи и может быть использован для улучшения работы голосовых помощников. Недавно специалисты из DeepMind (они также как и Google принадлежат одной материнской компании — Alphabet Inc.) представили новую систему компьютерного зрения, которая может распознавать объекты без учителя. Елизавета Ивтушок Источник: nplus1.ru Комментарии:

В Google создали новую систему синтеза речи. И она почти неотличима от человека

Комментарии: