Месяц назад случилась еще одна тихая революция, а мы и не заметили.

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Месяц назад случилась еще одна тихая революция, а мы и не заметили.

Распознавание речи - такая часть NLP, которая обычно выделяется в отдельное направление, и специалистов в ней гораздо меньше, чем в тематиках, связанных непосредственно с текстом. Разработка систем распознавания речи традиционно считалась очень дорогой, и позволить ее могли себе лишь крупные компании. Теперь все изменится:

Facebook выпустил wav2letter - опен-сорсную библиотеку для распознавания звучащей речи в текст.

https://github.com/facebookresearch/wav2letter

Архитектура основана на сверточной нейросети, для работы требуется torch, есть поддержка CPU и GPU. BSD License

Теперь для разработки собственной системы нужно лишь накопить аудиозапись с расшифровкой, и подать на вход системе.

Можно скачать предобученные модели для английского языка (обучены на корпусе LibriSpeech). В скором времени появится поддержка и других языков.

Статья: Wav2Letter: an End-to-End ConvNet-based Speech Recognition System https://arxiv.org/abs/1609.03193


Источник: arxiv.org

Комментарии: