Простейшие сервисы для синтеза речи предоставляют одну-две услуги – чтение текста умеренно реалистичным голосом (мужским или женским) и скачивание готового аудиофайла. Иногда предусмотрен доступ к SSLM-разметке, которая дает возможность настроить паузы, ударения и другие базовые особенности произношения. Главный недостаток простых сервисов – объем текста обычно ограничен 5 000 – 10 000 символов, а выбор голосов минимален (обычно не более 2). Такую же функциональность предоставляет голосовой синтезатор Windowsи бесплатная программа «Балаболка».
На продвинутых платформах услуг намного больше:
- Клонирование голоса по образцу.
- Создание уникального голоса (с нужным акцентом или эмоциональной окраской, например) на основе реального или синтетического образца.
- Автоматический перевод и дубляж аудио и видео с сохранением всех характеристик оригинального голоса (интонации, глубина, эмоции).
Продвинутые сервисы, разумеется, платные. Если нужно максимально реалистичное озвучивание, а пользоваться платными сервисами не хочется, можно воспользоваться одним из опенсорсных решений.
Библиотека data scientist’а
Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека data scientist’а»
Библиотека Data Science для собеса
Подтянуть свои знания по DS вы можете на нашем телеграм-канале «Библиотека Data Science для собеса»
Библиотека задач по Data Science
Интересные задачи по DS для практики можно найти на нашем телеграм-канале «Библиотека задач по Data Science»
RHVoice
Условия использования: open source.
Функциональность: голосовой синтезатор с качественными русскими голосами, поддерживает 13 других языков. Работает на Windows, Linuxи Android.
Лучше всего подходит: для чтения вслух и озвучивания голосовых помощников.
Поддержка русского языка: есть, RHVoice изначально создавался для синтеза русской речи.
Особенности: используется в качестве помощника для незрячих и слабовидящих людей. Есть приложение для Android.
ElevenLabs
Условия использования: платный. Бесплатный тестовый период предусмотрен, но если пользуетесь VPN, сервис заподозрит вас в уклонении от оплаты.
Функциональность: один из самых продвинутых сервисов – предоставляет библиотеку максимально реалистичных голосов, которые можно настраивать как угодно. Есть клонирование голоса, есть опция создания уникального синтетического голоса с нуля. Можно клонировать свой голос и заставить его говорить на любом из поддерживаемых языков.
Лучше всего подходит: для профессионального озвучивания и дублирования любого контента – от аудиокниг и подкастов до игр и фильмов.
Поддержка русского языка: есть.
Особенности: есть API.
Free Text To Speech Online
Условия использования: бесплатный.
Функциональность: использует библиотеку MicrosoftAI Speech для синтеза речи. Есть два качественных, нейтральных русских голоса, простые настройки темпа и тона, предусмотрено скачивание аудио в mp3.
Лучше всего подходит: для чтения статей вслух.
Поддержка русского языка: есть.
Особенности: ограничение по количеству символов – 10 000. Для выставления пауз и корректировки ударений можно использовать SSML-разметку.
Аналогичные по функциональности сервисы: TTSMaker, Voicemaker, VoxWorker, Narakeet, VoiceBot, TextToSpeech, FreeTTS, OzvuchkaOnline.
Статья по теме
25 бесплатных AI-инструментов для разработчиков
Mimic
Условия использования: opensource.
Функциональность: быстрый и легкий голосовой синтезатор, созданный на основе CMU Flite. Можно создавать новые уникальные голоса.
Лучше всего подходит: для озвучивания голосовых помощников и чтения вслух.
Поддержка русского языка: есть.
Особенности: работает на любых устройствах – от RaspberryPiдо Android смартфонов. Не поддерживает (пока) Windows и macOS.
Близкие по функциональности опенсорсные синтезаторы: MaryTTS, Flite, VoiceBuilder, eSpeakNG, PicoTTS.
Murf
Условия использования: платный. Бесплатно можно генерировать до 10 минут аудио в день.
Функциональность: предоставляет более 120 реалистичных мужских и женских голосов, которые можно настраивать и кастомизировать (придать акцент, например, изменить возраст, темп, тон или эмоциональную окраску). Поддерживает 20+ языков.
Лучше всего подходит: для создания подкастов, озвучивания видео и записи аудиокниг.
Поддержка русского языка: есть.
Особенности: есть продвинутый редактор видео и обширная библиотека бесплатных музыкальных треков.
Speechify
Условия использования: платный. Бесплатного тестового периода достаточно для ознакомления со всеми функциями платформы.
Функциональность: озвучивает любой текстовый контент, создает уникальные голоса для ИИ-аватаров, на лету переводит и дублирует видео.
Лучше всего подходит: для профессионального озвучивания и дублирования контента.
Поддержка русского языка: есть.
Особенности: поддерживает импорт видео и скриптов по ссылкам на YouTube. Есть приложения для Androidи Apple девайсов.
Статья по теме
ChatGPT: эффективная суммаризация с помощью LLM
Mozilla TTS
Условия использования: opensource.
Функциональность: включает большой набор обученных моделей. Поддерживает 20+ языков, генерирует нейтральную по эмоциональной окраске реалистичную речь. Можно создавать и обучать свои модели.
Лучше всего подходит: для использования в любых собственных проектах.
Поддержка русского языка: есть.
Особенности: с 2021 года не обновляется, разработчики проекта переключились на CoquiAI, который использует Mozilla TTS в качестве основы.
Deepgram
Условия использования: платный. Бесплатно можно использовать любую функциональность на $200 (стоимость синтеза 60 минут речи, например).
Функциональность: сервис использует 4 модели для синтеза гиперреалистичной речи – Nova-2, Enhanced, Base, WhisperLarge. Модели, помимо синтеза речи на основе текста, делают суммаризацию и анализ тональности, определяют тематику и намерения.
Лучше всего подходит: для озвучивания контента и голосовых ботов, анализа речи, генерации транскриптов в реальном времени.
Поддержка русского языка: скоро будет.
Особенности: есть плейграунд для тестирования основных функций. Имеется API, загружать аудио и видео можно по ссылкам на YouTube.
Respeecher
Условия использования: платный. Есть бесплатный тестовый период – 3 дня.
Функциональность: предлагает библиотеку реалистичных голосов с различными акцентами. Есть возможность клонировать собственный голос. Можно преобразовать свой голос в любую другую тональность, изменить гендерную принадлежность или возраст – в общем, стать человеком-оркестром.
Лучше всего подходит: для профессионального озвучивания игр и фильмов.
Поддержка русского языка: есть, однако разработчики предупреждают, что лучше всего Respeecherработает с английским.
Особенности: может преобразовать человеческий голос в специфические звуки, издаваемые различными животными.
Tortoise TTS
Условия использования: opensource.
Функциональность: синтезирует речь с использованием множества реалистичных голосов (примеры – здесь), учитывает указания на эмоции в тексте, клонирует голос.
Лучше всего подходит: для озвучивания контента в пет-проектах, для записи подкастов и аудиокниг.
Поддержка русского языка: пока нет.
Особенности: для клонирования голоса нужно использовать любые качественные аудиореференсы без фоновых звуков. Есть усовершенствованная и ускоренная версия Tortoise TTS Fast.
Wondercraft AI
Условия использования: платный. Бесплатно можно сделать 3 аудиозаписи.
Функциональность: располагает библиотекой гиперреалистичных голосов для озвучивания текста, есть опция клонирования голоса. Предусмотрено автоматическое создание транскрипта и заметок. Готовые подкасты можно дублировать на любом из 24 доступных языков.
Лучше всего подходит: для автоматического создания подкастов на основе текстового контента.
Поддержка русского языка: есть.
Особенности: для платных тарифов предусмотрен хостинг на Apple+ и Spotify.
Coqui
Условия использования: платный, но есть возможность абсолютно бесплатного использования – ссылка ниже. Для тестирования выдают 300 кредитов – этого вполне достаточно, чтобы клонировать сколько угодно голосов и сгенерировать 5 минут аудио.
Функциональность: предоставляет 5 гиперреалистичных голосов, поддерживает 7 языков.
Лучше всего подходит: для озвучивания игр, видеороликов, фильмов и аудиокниг.
Поддержка русского языка: есть.
Особенности: тон, эмоциональность и другие параметры голоса можно настраивать как угодно, причем поддерживаются манипуляции на уровне отдельных предложений, слов и слогов – это гарантирует максимальную реалистичность.
Опенсорсный вариант: Coqui AIможно установить бесплатно на свой комп.
Fluxon
Условия использования: платный. Бесплатно можно клонировать 3 голоса и озвучивать 10 тыс. символов в месяц.
Функциональность: 5 реалистичных голосов на выбор, возможность клонировать любой голос по образцу, перевод аудио на другой язык.
Лучше всего подходит: для озвучивания и дублирования аудио и видеоконтента, записи аудиокниг и подкастов, создания голосовых чат-ботов.
Поддержка русского языка: скоро будет.
Особенности: все функции, включая синхронное дублирование, доступны по API.
PlayHT
Условия использования: платный. Бесплатно можно клонировать один голос и озвучить 12,5 тыс. символов в месяц.
Функциональность: генерирует человеческие голоса, неотличимые от настоящих. Имеет редактор для создания уникальных голосов персонажей. Предоставляет огромный выбор голосов – более 800, поддерживает 130+ языков.
Лучше всего подходит: для создания профессионального аудио- и видео-контента, озвучивания игр, фильмов, ботов и интерактивных голосовых меню, записи аудиокниг и подкастов.
Поддержка русского языка: для синтеза речи на основе текста – есть, для клонирования голоса – скоро будет.
Особенности: все функции доступны по API.
VoiceMy
Условия использования: платный. Бесплатно можно клонировать сколько угодно голосов, обучить 1 модель и озвучить 1000 символов в месяц.
Функциональность: озвучивает текст, клонирует голос, обучает голосовые модели.
Лучше всего подходит: для хобби-проектов.
Поддержка русского языка: есть. Однако имеющиеся в библиотеке русскоязычные модели генерируют не самую реалистичную речь.
Особенности: можно обучать голосовые модели на основе, например, песен. Модели, обученные другими пользователями сервиса, доступны в библиотеке.
Recast AI
Условия использования: бесплатный для озвучивания публикаций с топ-сайтов. На платном тарифе нет рекламы, доступно прослушивание в офлайне, а озвучивать можно что угодно, включая PDF.
Функциональность: превращает лонгриды в сжатые интересные подкасты.
Лучше всего подходит: для озвучивания и суммаризации лонгридов на английском языке.
Поддержка русского языка: пока нет.
Особенности: есть приложения для Android, iOS и плагин для браузерaChrome. Созданныеми аудио можно поделиться с помощью ссылки.
Похожий сервис: ArticleAudio – читает статьи по ссылкам, озвучивает TXTи PDF документы. Поддерживает русский язык.
***
А какими голосовыми движками и нейронками пользуетесь вы? Поделитесь с нами в комментариях!