Обновление голосовых данных Mozilla Common Voice 8.0

2022-01-31 10:59

алгоритмы машинного обучения, алгоритмы распознавания речи, распознавание образов

Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч людей. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 30% — с 13.9 до 18.2 тысяч часов речи. Число поддерживаемых языков возросло с 67 до 87.

Набор для русского языка охватывает 2452 участника и 193 часа речевого материала (было 2136 участников и 173 часов), для белорусского языка — 6160 участников и 987 часов (было — 3831 участник и 356 часов), для украинского языка — 684 участника и 76 часов (было 615 участников и 66 часов). В подготовке материалов на английском языке приняли участие более 79 тысяч человек, надиктовавших 2886 часов подтверждённой речи (было 75 тысяч участников и 2637 часов).

Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах. По мнению автора библиотеки распознавания слитной речи Vosk недостатками набора Common Voice является однобокость голосового материала (преобладание людей мужского пола 20-30 лет, и недостаток материала с голосом женщин, детей и пожилых людей), отсутствие вариативности словаря (повторение одних и тех же фраз) и распространение записей во вносящем искажения формате MP3.

Дополнительно можно отметить выпуск инструментария NVIDIA NeMo 1.6, предоставляющего методы машинного обучения для создания систем распознавания речи, синтеза речи и обработки информации на естественном языке. В состав NeMo входят готовые натренированные модели для систем машинного обучения на базе фреймворка PyTorch, подготовленные компанией NVIDIA с использованием речевых данных Common Voice и охватывающие различные языки, акценты и формы речи. Модели могут оказаться полезными для исследователей, занимающихся созданием голосовых диалоговых систем, платформ для транскрипции и автоматизированных колл-центров. Например, NVIDIA NeMo применяется в автоматизированных голосовых сервисах МТС и Сбербанка. Код NeMo написан на языке Python с использованием PyTorch и распространяется под лицензией Apache 2.0.

Источник: m.vk.com



		Обновление голосовых данных Mozilla Common Voice 8.0
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2022-01-31 10:59 алгоритмы машинного обучения, алгоритмы распознавания речи, распознавание образов Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч людей. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 30% — с 13.9 до 18.2 тысяч часов речи. Число поддерживаемых языков возросло с 67 до 87. Набор для русского языка охватывает 2452 участника и 193 часа речевого материала (было 2136 участников и 173 часов), для белорусского языка — 6160 участников и 987 часов (было — 3831 участник и 356 часов), для украинского языка — 684 участника и 76 часов (было 615 участников и 66 часов). В подготовке материалов на английском языке приняли участие более 79 тысяч человек, надиктовавших 2886 часов подтверждённой речи (было 75 тысяч участников и 2637 часов). Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах. По мнению автора библиотеки распознавания слитной речи Vosk недостатками набора Common Voice является однобокость голосового материала (преобладание людей мужского пола 20-30 лет, и недостаток материала с голосом женщин, детей и пожилых людей), отсутствие вариативности словаря (повторение одних и тех же фраз) и распространение записей во вносящем искажения формате MP3. Дополнительно можно отметить выпуск инструментария NVIDIA NeMo 1.6, предоставляющего методы машинного обучения для создания систем распознавания речи, синтеза речи и обработки информации на естественном языке. В состав NeMo входят готовые натренированные модели для систем машинного обучения на базе фреймворка PyTorch, подготовленные компанией NVIDIA с использованием речевых данных Common Voice и охватывающие различные языки, акценты и формы речи. Модели могут оказаться полезными для исследователей, занимающихся созданием голосовых диалоговых систем, платформ для транскрипции и автоматизированных колл-центров. Например, NVIDIA NeMo применяется в автоматизированных голосовых сервисах МТС и Сбербанка. Код NeMo написан на языке Python с использованием PyTorch и распространяется под лицензией Apache 2.0. Источник: m.vk.com Комментарии:

Обновление голосовых данных Mozilla Common Voice 8.0

Комментарии: