Распознавание речи — самая актуальная и сложная задача, над которой работают в отделе голосовых технологий Яндекса. |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2016-12-14 20:39 Мы постоянно стараемся повышать качество распознавания речи. Например, в узких тематиках, таких как геозапросы, мы хороши: там около 5% ошибок, то есть, мы распознаем речь как человек (люди тоже делают ошибки). Но в более широких тематиках вроде голосового поиска ошибок уже в районе 15%. Наша цель — снизить долю ошибок в голосовом поиске до 5% и даже обогнать человека. В принципе, машина может распознавать речь лучше и быстрее человека. Скорость важна, потому что машина может очень качественно распознавать, но делать это долго, а такой подход заведомо плох. Сегодня наша система в среднем одну секунду речи распознает за полсекунды. Человек так не может: люди обычно в живом общение одну секунду речи распознают за секунду. Самая серьезная задача — распознавание длинных разговоров, что куда сложнее коротких запросов. Задача сразу усложняется на порядок, если разговор происходит в шумном месте: рядом говорят другие люди, есть общий гул. Когда в записи несколько людей, системе трудно понять, кто основной собеседник. Разделение спикеров и распознавание речи каждого из них в условиях шума —одни из основных вызовов в распознавании речи. Мы используем самые современные нейронные сети — рекуррентные. Для тренировки используем огромные массивы данных. Здесь очень много задач с точки зрения исследователя, применения самых передовых нейронных сетей для акустического и языкового моделирования, но и инженерные задачи по ускорению процессов обучения за счет распределенной тренировки не менее важны. Посмотрите короткий ролик о том, как создаётся акустическая модель. Источник: vk.com Комментарии: |
|