В Google создали новую систему синтеза речи. И она почти неотличима от человека |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2017-12-27 20:15
Разработчики Google представили Tacotron 2 — систему синтеза речи, основанную на работе рекуррентных нейросетей. Алгоритм, подробно описанный в препринте на arXiv.org, реконструирует на основе сгенерированных из текста спектрограмм речь, максимально приближенную к человеческой. Послушать примеры работы алгоритма можно здесь. Google занимается разработкой систем синтеза человеческой речи достаточно давно. Например, их система WaveNet, работающая на основе сверточных нейросетей, при производстве аудио учитывает не только звучание отдельных языковых токенов из обучающей выборки, но также и языковые параметры, например, просодию и длину слогов и слов. Для работы такого алгоритма, тем не менее, требуется сложный предварительный анализ текста и огромное количество данных в обучающей выборке. Другой подход к синтезу речи, придуманный разработчиками Google, — это представление звуковой информации в виде спектрограмм (визуализации частоты в зависимости от времени). Такой подход позволяет избавиться от подробного языкового анализа и может быть осуществлен с использованием всего одной нейросети (разработчики назвали первую ее версию Tacotron), разработанной при помощи модели Seq2Seq (sequence to sequence). Алгоритм, представленный командой разработчиков Google при участии Джонатана Шена (Jonathan Shen), работает на основе двух нейронных сетей. Первая нейросеть разбивает полученный текст на отдельные токены (буквы, паузы и знаки препинания) и визуализирует их в виде спектрограмм, а вторая — синтезирует на их основе аудио, используя алгоритмы WaveNet. Более того, синтезируемая алгоритмом речь практически ничем не отличается от человеческой. Авторы разработки представили несколько примеров парных аудиозаписей, которые практически не отличаются друг от друга. — отрывок, синтезированный Tacotron2 — отрывок, произнесенный человеком Разработчики также попросили восемь человек оценить полученные с помощью работы системы образцы речи, сравнив их с теми же фразами, произнесенными людьми, по шкале от 1 до 5 (где 1 — меньше всего похоже на человеческую речь). Средняя оценка аудио, полученных с помощью Tacotron2, составила 4,53. Для сравнения, человеческая речь была оценена теми же людьми в среднем в 4,58 балла, а предыдущая версия Tacotron — в 4,001. Авторы работы утверждают, что новый алгоритм является самым совершенным на сегодняшний момент в сфере искусственного синтеза речи и может быть использован для улучшения работы голосовых помощников. Недавно специалисты из DeepMind (они также как и Google принадлежат одной материнской компании — Alphabet Inc.) представили новую систему компьютерного зрения, которая может распознавать объекты без учителя. Елизавета Ивтушок Источник: nplus1.ru Комментарии: |
|