Огромный открытый датасет русской речи |
||||||||||||||||||||||||||||||||||||||||||||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-05-07 08:47 анализ больших данных, алгоритмы распознавания речи, распознавание образов Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.
Мы торопимся исправить это годами длящееся недоразумение. Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников. Подробности под катом. Вот данные по текущей версии 0.3:
Будем ли мы развивать проект дальше? Наша работа на этом не закончена, мы хотим получить хотя бы 10 тысяч часов аннотированной речи. Почему наша цель 10 тысяч часов? Есть различные исследования генерализации нейросетей при распознавании речи, но известно, что хорошая генерализация не получается на наборах данных меньше 1000 часов. Цифра порядка 10 тысяч часов уже считается приемлемой в большинстве случаев, а дальше уже зависит от конкретной задачи. Что ещё сделать, чтобы улучшить качество распознавания, если данных по-прежнему не хватает? Зачастую, можно приспособить нейросеть к вашим дикторам через начитку дикторами текстов. Как мы делали этот датасет?
Как это использовать: Файловая БД Расположение файлов определяется их хешами, вот таким образом:
Чтение файлов
Файлы manifest содержат тройки: имя аудио-файла, имя файла с текстовым описанием, и длительность фразы в секундах. Фильтрация файлов только определённой длины
Что почитать или посмотреть на русском языке, чтобы лучше познакомиться с задачей распознавания речи? Недавно в рамках курса Deep Learning на пальцах мы записали лекцию про задачу распознавания речи (и немного про синтез). Возможно, она будет вам полезной!
Лицензионные вопросы
Ещё раз сайт проекта для тех, кто не увидел ссылку выше. Источник: habr.com Комментарии: |
|||||||||||||||||||||||||||||||||||||||||||