Распознавание речи — самая актуальная и сложная задача, над которой работают в отделе голосовых технологий Яндекса.

МЕНЮ


Новости ИИ
Поиск

ТЕМЫ


Внедрение ИИНовости ИИРобототехника, БПЛАТрансгуманизмЛингвистика, рбработка текстаБиология, теория эволюцииВиртулаьная и дополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информации

АРХИВ


Июнь 2017
Май 2017
Апрель 2017
Март 2017
Февраль 2017
Январь 2017
Декабрь 2016
Ноябрь 2016
Октябрь 2016
Сентябрь 2016
Август 2016
Июль 2016
Июнь 2016
Май 2016
Апрель 2016
Март 2016
Февраль 2016
Январь 2016
0000

RSS


RSS новости
птичий грипп

Новостная лента форума ailab.ru

Мы постоянно стараемся повышать качество распознавания речи. Например, в узких тематиках, таких как геозапросы, мы хороши: там около 5% ошибок, то есть, мы распознаем речь как человек (люди тоже делают ошибки). Но в более широких тематиках вроде голосового поиска ошибок уже в районе 15%. Наша цель — снизить долю ошибок в голосовом поиске до 5% и даже обогнать человека.

В принципе, машина может распознавать речь лучше и быстрее человека. Скорость важна, потому что машина может очень качественно распознавать, но делать это долго, а такой подход заведомо плох. Сегодня наша система в среднем одну секунду речи распознает за полсекунды. Человек так не может: люди обычно в живом общение одну секунду речи распознают за секунду.

Самая серьезная задача — распознавание длинных разговоров, что куда сложнее коротких запросов. Задача сразу усложняется на порядок, если разговор происходит в шумном месте: рядом говорят другие люди, есть общий гул. Когда в записи несколько людей, системе трудно понять, кто основной собеседник.

Разделение спикеров и распознавание речи каждого из них в условиях шума —одни из основных вызовов в распознавании речи. Мы используем самые современные нейронные сети — рекуррентные. Для тренировки используем огромные массивы данных. Здесь очень много задач с точки зрения исследователя, применения самых передовых нейронных сетей для акустического и языкового моделирования, но и инженерные задачи по ускорению процессов обучения за счет распределенной тренировки не менее важны.

Посмотрите короткий ролик о том, как создаётся акустическая модель.


Источник: vk.com