Mozilla опубликовала крупнейший набор данных голосов на 18 языках |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-03-01 18:00 Mozilla опубликовала открытый датасет Common Voice, который содержит 1400 часов записей человеческой речи на 18 языках, включая английский, французский, немецкий и редкие языки — валлийский, кабильский и другие. Это самый большой доступный мультиязычный набор голосовых данных. Русский язык пока не представлен, но в дальнейшем разработчики собираются расширять датасет. Компания использует уже использует часть записей из набора данных для разработки собственных голосовых продуктов. Механизм распознавания речи DeepSpeech, обучаясь на данных Common Voice, транскрибирует лекции, телефонные разговоры, и телевизионные программы почти с человеческой точностью в реальном времени. Mozilla утверждает, что конечная цель заключается в том, чтобы предоставить открытые обучающие данные высокого качества разработчикам голосовых сервисов и приложений и улучшить технологии для распознавания разных языков и акцентов. Датасет Common Voice Предыдущая версия Common Voice содержала 500 часов записей от 20 000 добровольцев только на английском языке. Новая содержит 1400 часов записей человеческой речи на 18 языках. Набор данных Common Voice дополняет движок распознавания голоса с открытым исходным кодом Mozilla Deep Speech. Каждая запись в наборе данных состоит из MP3-файла и соответствующего текстового файла. К большей части записей доступны демографические метаданные — возраст, пол и акцент. Они могут помочь в точном обучении моделей распознавания речи. Можно принять участие в расширении датасета, отправив свой голос через сайт или приложение. Mozilla нацелена создать открытый набор данных с записями на 70 языках. Подробная информация о проекте Common Voice и датасете доступна в блоге разработчиков. Загрузить датасет можно здесь. Источник: neurohive.io Комментарии: |
|