Голос Google Assistant максимально приблизился к человеческому

МЕНЮ


Новости Искусственного Интеллекта
Поиск

ТЕМЫ


Внедрение ИИНовости ИИРобототехника, БПЛАТрансгуманизмЛингвистика, обработка текстаБиология, теория эволюцииВиртулаьная и дополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

АРХИВ


Октябрь 2017
Сентябрь 2017
Август 2017
Июль 2017
Июнь 2017
Май 2017
Апрель 2017
Март 2017
Февраль 2017
Январь 2017
Декабрь 2016
Ноябрь 2016
Октябрь 2016
Сентябрь 2016
Август 2016
Июль 2016
Июнь 2016
Май 2016
Апрель 2016
Март 2016
Февраль 2016
Январь 2016
0000

RSS


RSS новости
Ураган харви в США

Новостная лента форума ailab.ru

Занимающаяся разработками в области искусственного интеллекта компания DeepMind, которая является частью холдинга Alphabet, заявила, что её инновационная технология синтеза человеческой речи WaveNet теперь подходит для использования в потребительских продуктах вроде Google Assistant.

Система WaveNet была представлена ещё в прошлом году. Она вывела синтез человеческой речи на качественно новый уровень, но для её работы требовались огромные вычислительные мощности. Специалистам DeepMind удалось решить эту проблему, сделав технологию в 1 000 раз более эффективной.

В прошлом для озвучивания какого-либо текста использовались конкатенативные системы TTS, использовавшие огромную базу данных высококачественных записей от одного автора. Эти записи разбиваются на крошечные части, которые затем могут быть объединены для генерации синтетической речи. Именно поэтому такая речь звучит неестественно.

В основе WaveNet лежат нейронные сети. Вместо использования заранее записанных слов и предложений система обучает нейронные сети с помощью большого количества образцов человеческой речи, чтобы технология могла самостоятельно научиться генерировать человекоподобную речь. На этом этапе нейронная сеть определяет основную структуру речи, как, например, какие тоны следовали друг за другом и которые из них были более реалистичными. Затем она синтезирует один голос за раз, учитывая при этом особенности предыдущего образца. В результате голос содержит естественную интонацию и даже такие особенности, как звуки от губ.

Этот подход не только генерирует более естественную синтетическую речь, но и позволяет со временем добиться лучшего результата, так как нейронные сети будут постоянно продолжать обучаться. Такая модель также имеет такое преимущество, как простота модификации, позволяя создавать любое количество уникальных голосов из смешанных наборов данных.

Изначально WaveNet могла генерировать только 0,02 секунды синтетической речи за 1 секунду. Но новая версия стала в 1 000 раз быстрее и теперь способна создавать 20 секунд качественной речи всего за 1 секунду. Она также может генерировать 16-битные аудиозаписи с частотой 24 кГц, что сопоставимо CD-дискам. Средняя оценка качества выдаваемой WaveNet речи выросла с 4,2 до 4,35. Для сравнения, у человека этот показатель составляет около 4,67.

Новая версия WaveNet уже начала использоваться в виртуальном помощнике Google Assistant.