Google DeepMind представил Gemini 3.1 Flash TTS - свою самую настраиваемую модель синтеза речи

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-04-18 13:45

ИИ проекты

Главная фишка - Audio Tags.

Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.

Что ещё важно:

— Более естественное звучание речи

— Поддержка 70+ языков (русский, японский, немецкий и др.)

— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)

На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).

Где попробовать:

Рreview через Gemini API и Google AI Studio

Бизнесу -а Vertex AI

Всем пользователям - скоро появится в Google Vids

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

#google `#tts


Телеграм: t.me/ainewsline

Источник: blog.google

Комментарии: