VibeVoice: Инновационная модель TTS для длинных разговоров

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


VibeVoice — это передовая система синтеза речи, способная генерировать выразительное аудио для длительных разговоров, включая подкасты. Она решает проблемы традиционных TTS-систем, обеспечивая высокую согласованность голосов и естественное взаимодействие между несколькими спикерами.

Основные моменты:

- Синтезирует речь до 90 минут с 4 различными спикерами.

- Использует токенизаторы непрерывной речи для повышения эффективности.

- Поддерживает высокое качество звука при низкой частоте кадров.

- Применяет диффузионные модели для понимания контекста и потока диалога.

GitHub: https://github.com/microsoft/VibeVoice


Источник: github.com

Комментарии: