Датасет с разметкой спикеров на аудио / Dataset with Speaker Segmentation for audio

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Бесплатный датасет с разметкой спикеров

Speech synthesis — один из самых интересных способов использования ИИ. Имея достаточное количество аудиозаписей речи конкретного человека, вы можете создать модель, которая будет воссоздавать его голос.

В этом году уже случались скандалы связанные с deep voice. Один из них — дело актрисы озвучивания Бев Стэндинг, голос которой украл TikTok для функции преобразования текста в речь.

Однако, speech synthesis — это только инструмент, и намного важнее, в чьих руках он окажется. Технология может выполнять множество полезных функций: стилизация речи голосовых ассистентов, создание лицензированного контента, умные боты консультанты.

Для примера разметки мы сегментировали аудио с 6 знаменитостями: Баста, Бузова, Киселев, Моргенштерн, Навальный, Шнуров. Все метаданные с таймингами экспортированы в json-файлах. А скачать его можно абсолютно бесплатно с нашего официального сайта.

Скачать датасет — https://labelme.ru/datasets-catalog/907986454211


Источник: labelme.ru

Комментарии: