NVIDIA создала технологию синтеза речи, которая делает голоса ИИ более реалистичными, и озвучила ей серию видео

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


О своей разработке компания рассказала в рамках конференции Interspeech 2021, поделившись возможностями и особенностями технологии.

• Исследовательская группа NVIDIA создала несколько моделей преобразования текста в речь, одна из которых под названием RAD-TTS победила в конкурсе на создание самого реалистичного аватара на выставке NAB Show 2021.

• Система позволяет человеку обучать модель синтеза речи с помощью собственного голоса, тем самым предоставляя ей данные о тембре, тональности и других характеристиках, уникальных для каждого пользователя.

• RAD-TTS способна преобразовывать в речь слова одного человека, при этом используя голос другого. В компании подчеркнули, что возможности технологии выходят за рамки работы диктора — её можно в том числе использовать для того, чтобы воссоздавать голоса известных исполнителей или помогать людям с функциональными нарушениями голоса.

• NVIDIA продемонстрировала работу технологии в серии роликов I Am AI («Я — искусственный интеллект»), которые выходили на YouTube-канале компании. В некоторых из этих видео в качестве диктора выступают синтезированные голоса, обученные при помощи модели преобразования RAD-TTS. Компания ставила перед собой цель добиться, чтобы голос ИИ не отличался от человеческого.

"Наш видеопостановщик записал сценарий к видео своими словами, а затем использовал модель ИИ, чтобы преобразовать речь в женский голос диктора. Далее он использовал ИИ как актёра озвучивания, настраивая синтезированную речь, чтобы подчеркнуть определённые слова интонацией и изменить темп повествования, чтобы лучше передать происходящее в ролике." - NVIDIA

• Компания предложила желающим опробовать некоторые из обученных моделей преобразования речи через инструментарий для разговорного ИИ NeMo. В NVIDIA считают, что её разработки смогут сделать искусственные голоса, применяемые в различных областях, более выразительными и реалистичными.


Источник: vk.com

Комментарии: