Распознавание речи до сих пор было ахиллесовой пятой искусственного интеллекта. Новая программа может исправить положение дел — она делает меньше ошибок при распознавании речи, чем люди
Следить за человеческой речью и успевать быстро ее расшифровать — одна из самых сложных задач для искусственного интеллекта. В процессе разговора люди могут прерываться, исправляться, заполнять время между словами и фразами различными звуками. Все это мешает понимать смысл сказанного не только программам, но и людям.
Теперь ученые из Технологическгого института Карлсруэ
Согласно ученым, если человек распознает речь живого собеседника, он в среднем допускает примерно 5,5% ошибок за разговор. Для разработанного исследователями алгоритма этот показатель составляет около 5,0%. Ранее проблемой программы была довольно сильная задержка в обработке звука, однако в новой версии ученые смогли снизить этот показатель всего до одной секунды. На сегодня это самая низкая задержка для программ распознавания речи.
«Быстрое и точное распознавание человеческой речи является важным шагом для компьютерной обработки живого языка. Это позволит нам улучшить коммуникацию между людьми и искусственным интеллектом, сделать голосовой перевод более точным и обеспечить лучшее взаимодействие между людьми и машинами», — говорит один из авторов работы Алекс Вайбел, профессор информатики Технологического института Карлсруэ.