16+ лучших нейронок для синтеза речи

Простейшие сервисы для синтеза речи предоставляют одну-две услуги – чтение текста умеренно реалистичным голосом (мужским или женским) и скачивание готового аудиофайла. Иногда предусмотрен доступ к SSLM-разметке, которая дает возможность настроить паузы, ударения и другие базовые особенности произношения. Главный недостаток простых сервисов – объем текста обычно ограничен 5 000 – 10 000 символов, а выбор голосов минимален (обычно не более 2). Такую же функциональность предоставляет голосовой синтезатор Windowsи бесплатная программа «Балаболка».

На продвинутых платформах услуг намного больше:

Клонирование голоса по образцу.
Создание уникального голоса (с нужным акцентом или эмоциональной окраской, например) на основе реального или синтетического образца.
Автоматический перевод и дубляж аудио и видео с сохранением всех характеристик оригинального голоса (интонации, глубина, эмоции).

Продвинутые сервисы, разумеется, платные. Если нужно максимально реалистичное озвучивание, а пользоваться платными сервисами не хочется, можно воспользоваться одним из опенсорсных решений.

Библиотека data scientist’а

Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека data scientist’а»

Библиотека Data Science для собеса

Подтянуть свои знания по DS вы можете на нашем телеграм-канале «Библиотека Data Science для собеса»

Библиотека задач по Data Science

Интересные задачи по DS для практики можно найти на нашем телеграм-канале «Библиотека задач по Data Science»

RHVoice

Условия использования: open source.

Функциональность: голосовой синтезатор с качественными русскими голосами, поддерживает 13 других языков. Работает на Windows, Linuxи Android.

Лучше всего подходит: для чтения вслух и озвучивания голосовых помощников.

Поддержка русского языка: есть, RHVoice изначально создавался для синтеза русской речи.

Особенности: используется в качестве помощника для незрячих и слабовидящих людей. Есть приложение для Android.

ElevenLabs

Условия использования: платный. Бесплатный тестовый период предусмотрен, но если пользуетесь VPN, сервис заподозрит вас в уклонении от оплаты.

Функциональность: один из самых продвинутых сервисов – предоставляет библиотеку максимально реалистичных голосов, которые можно настраивать как угодно. Есть клонирование голоса, есть опция создания уникального синтетического голоса с нуля. Можно клонировать свой голос и заставить его говорить на любом из поддерживаемых языков.

Лучше всего подходит: для профессионального озвучивания и дублирования любого контента – от аудиокниг и подкастов до игр и фильмов.

Поддержка русского языка: есть.

Особенности: есть API.

Free Text To Speech Online

Условия использования: бесплатный.

Функциональность: использует библиотеку MicrosoftAI Speech для синтеза речи. Есть два качественных, нейтральных русских голоса, простые настройки темпа и тона, предусмотрено скачивание аудио в mp3.

Лучше всего подходит: для чтения статей вслух.

Поддержка русского языка: есть.

Особенности: ограничение по количеству символов – 10 000. Для выставления пауз и корректировки ударений можно использовать SSML-разметку.

Аналогичные по функциональности сервисы: TTSMaker, Voicemaker, VoxWorker, Narakeet, VoiceBot, TextToSpeech, FreeTTS, OzvuchkaOnline.

Статья по теме

25 бесплатных AI-инструментов для разработчиков

Mimic

Условия использования: opensource.

Функциональность: быстрый и легкий голосовой синтезатор, созданный на основе CMU Flite. Можно создавать новые уникальные голоса.

Лучше всего подходит: для озвучивания голосовых помощников и чтения вслух.

Поддержка русского языка: есть.

Особенности: работает на любых устройствах – от RaspberryPiдо Android смартфонов. Не поддерживает (пока) Windows и macOS.

Близкие по функциональности опенсорсные синтезаторы: MaryTTS, Flite, VoiceBuilder, eSpeakNG, PicoTTS.

Murf

Условия использования: платный. Бесплатно можно генерировать до 10 минут аудио в день.

Функциональность: предоставляет более 120 реалистичных мужских и женских голосов, которые можно настраивать и кастомизировать (придать акцент, например, изменить возраст, темп, тон или эмоциональную окраску). Поддерживает 20+ языков.

Лучше всего подходит: для создания подкастов, озвучивания видео и записи аудиокниг.

Поддержка русского языка: есть.

Особенности: есть продвинутый редактор видео и обширная библиотека бесплатных музыкальных треков.

Speechify

Условия использования: платный. Бесплатного тестового периода достаточно для ознакомления со всеми функциями платформы.

Функциональность: озвучивает любой текстовый контент, создает уникальные голоса для ИИ-аватаров, на лету переводит и дублирует видео.

Лучше всего подходит: для профессионального озвучивания и дублирования контента.

Поддержка русского языка: есть.

Особенности: поддерживает импорт видео и скриптов по ссылкам на YouTube. Есть приложения для Androidи Apple девайсов.

Статья по теме

ChatGPT: эффективная суммаризация с помощью LLM

Mozilla TTS

Условия использования: opensource.

Функциональность: включает большой набор обученных моделей. Поддерживает 20+ языков, генерирует нейтральную по эмоциональной окраске реалистичную речь. Можно создавать и обучать свои модели.

Лучше всего подходит: для использования в любых собственных проектах.

Поддержка русского языка: есть.

Особенности: с 2021 года не обновляется, разработчики проекта переключились на CoquiAI, который использует Mozilla TTS в качестве основы.

Deepgram

Условия использования: платный. Бесплатно можно использовать любую функциональность на $200 (стоимость синтеза 60 минут речи, например).

Функциональность: сервис использует 4 модели для синтеза гиперреалистичной речи – Nova-2, Enhanced, Base, WhisperLarge. Модели, помимо синтеза речи на основе текста, делают суммаризацию и анализ тональности, определяют тематику и намерения.

Лучше всего подходит: для озвучивания контента и голосовых ботов, анализа речи, генерации транскриптов в реальном времени.

Поддержка русского языка: скоро будет.

Особенности: есть плейграунд для тестирования основных функций. Имеется API, загружать аудио и видео можно по ссылкам на YouTube.

Respeecher

Условия использования: платный. Есть бесплатный тестовый период – 3 дня.

Функциональность: предлагает библиотеку реалистичных голосов с различными акцентами. Есть возможность клонировать собственный голос. Можно преобразовать свой голос в любую другую тональность, изменить гендерную принадлежность или возраст – в общем, стать человеком-оркестром.

Лучше всего подходит: для профессионального озвучивания игр и фильмов.

Поддержка русского языка: есть, однако разработчики предупреждают, что лучше всего Respeecherработает с английским.

Особенности: может преобразовать человеческий голос в специфические звуки, издаваемые различными животными.

Tortoise TTS

Условия использования: opensource.

Функциональность: синтезирует речь с использованием множества реалистичных голосов (примеры – здесь), учитывает указания на эмоции в тексте, клонирует голос.

Лучше всего подходит: для озвучивания контента в пет-проектах, для записи подкастов и аудиокниг.

Поддержка русского языка: пока нет.

Особенности: для клонирования голоса нужно использовать любые качественные аудиореференсы без фоновых звуков. Есть усовершенствованная и ускоренная версия Tortoise TTS Fast.

Wondercraft AI

Условия использования: платный. Бесплатно можно сделать 3 аудиозаписи.

Функциональность: располагает библиотекой гиперреалистичных голосов для озвучивания текста, есть опция клонирования голоса. Предусмотрено автоматическое создание транскрипта и заметок. Готовые подкасты можно дублировать на любом из 24 доступных языков.

Лучше всего подходит: для автоматического создания подкастов на основе текстового контента.

Поддержка русского языка: есть.

Особенности: для платных тарифов предусмотрен хостинг на Apple+ и Spotify.

Coqui

Условия использования: платный, но есть возможность абсолютно бесплатного использования – ссылка ниже. Для тестирования выдают 300 кредитов – этого вполне достаточно, чтобы клонировать сколько угодно голосов и сгенерировать 5 минут аудио.

Функциональность: предоставляет 5 гиперреалистичных голосов, поддерживает 7 языков.

Лучше всего подходит: для озвучивания игр, видеороликов, фильмов и аудиокниг.

Поддержка русского языка: есть.

Особенности: тон, эмоциональность и другие параметры голоса можно настраивать как угодно, причем поддерживаются манипуляции на уровне отдельных предложений, слов и слогов – это гарантирует максимальную реалистичность.

Опенсорсный вариант: Coqui AIможно установить бесплатно на свой комп.

Fluxon

Условия использования: платный. Бесплатно можно клонировать 3 голоса и озвучивать 10 тыс. символов в месяц.

Функциональность: 5 реалистичных голосов на выбор, возможность клонировать любой голос по образцу, перевод аудио на другой язык.

Лучше всего подходит: для озвучивания и дублирования аудио и видеоконтента, записи аудиокниг и подкастов, создания голосовых чат-ботов.

Поддержка русского языка: скоро будет.

Особенности: все функции, включая синхронное дублирование, доступны по API.

PlayHT

Условия использования: платный. Бесплатно можно клонировать один голос и озвучить 12,5 тыс. символов в месяц.

Функциональность: генерирует человеческие голоса, неотличимые от настоящих. Имеет редактор для создания уникальных голосов персонажей. Предоставляет огромный выбор голосов – более 800, поддерживает 130+ языков.

Лучше всего подходит: для создания профессионального аудио- и видео-контента, озвучивания игр, фильмов, ботов и интерактивных голосовых меню, записи аудиокниг и подкастов.

Поддержка русского языка: для синтеза речи на основе текста – есть, для клонирования голоса – скоро будет.

Особенности: все функции доступны по API.

VoiceMy

Условия использования: платный. Бесплатно можно клонировать сколько угодно голосов, обучить 1 модель и озвучить 1000 символов в месяц.

Функциональность: озвучивает текст, клонирует голос, обучает голосовые модели.

Лучше всего подходит: для хобби-проектов.

Поддержка русского языка: есть. Однако имеющиеся в библиотеке русскоязычные модели генерируют не самую реалистичную речь.

Особенности: можно обучать голосовые модели на основе, например, песен. Модели, обученные другими пользователями сервиса, доступны в библиотеке.

Recast AI

Условия использования: бесплатный для озвучивания публикаций с топ-сайтов. На платном тарифе нет рекламы, доступно прослушивание в офлайне, а озвучивать можно что угодно, включая PDF.

Функциональность: превращает лонгриды в сжатые интересные подкасты.

Лучше всего подходит: для озвучивания и суммаризации лонгридов на английском языке.

Поддержка русского языка: пока нет.

Особенности: есть приложения для Android, iOS и плагин для браузерaChrome. Созданныеми аудио можно поделиться с помощью ссылки.

Похожий сервис: ArticleAudio – читает статьи по ссылкам, озвучивает TXTи PDF документы. Поддерживает русский язык.

***

А какими голосовыми движками и нейронками пользуетесь вы? Поделитесь с нами в комментариях!

16+ лучших нейронок для синтеза речи

Комментарии: