Распознавание речи — самая актуальная и сложная задача, над которой работают в отделе голосовых технологий Яндекса.

МЕНЮ

Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ

Новости ИИ

Искусственный интеллект
Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Слежка за людьми
Угроза ИИ

Разработка ИИ

ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Распознавание лиц
Распознавание образов
Распознавание речи
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Психология
Работа головного мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовые компьютеры
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2016-12-14 20:39

алгоритмы распознавания речи, распознавание образов

Мы постоянно стараемся повышать качество распознавания речи. Например, в узких тематиках, таких как геозапросы, мы хороши: там около 5% ошибок, то есть, мы распознаем речь как человек (люди тоже делают ошибки). Но в более широких тематиках вроде голосового поиска ошибок уже в районе 15%. Наша цель — снизить долю ошибок в голосовом поиске до 5% и даже обогнать человека.

В принципе, машина может распознавать речь лучше и быстрее человека. Скорость важна, потому что машина может очень качественно распознавать, но делать это долго, а такой подход заведомо плох. Сегодня наша система в среднем одну секунду речи распознает за полсекунды. Человек так не может: люди обычно в живом общение одну секунду речи распознают за секунду.

Самая серьезная задача — распознавание длинных разговоров, что куда сложнее коротких запросов. Задача сразу усложняется на порядок, если разговор происходит в шумном месте: рядом говорят другие люди, есть общий гул. Когда в записи несколько людей, системе трудно понять, кто основной собеседник.

Разделение спикеров и распознавание речи каждого из них в условиях шума —одни из основных вызовов в распознавании речи. Мы используем самые современные нейронные сети — рекуррентные. Для тренировки используем огромные массивы данных. Здесь очень много задач с точки зрения исследователя, применения самых передовых нейронных сетей для акустического и языкового моделирования, но и инженерные задачи по ускорению процессов обучения за счет распределенной тренировки не менее важны.

Посмотрите короткий ролик о том, как создаётся акустическая модель.

Источник: vk.com



		Распознавание речи — самая актуальная и сложная задача, над которой работают в отделе голосовых технологий Яндекса.
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2016-12-14 20:39 алгоритмы распознавания речи, распознавание образов Мы постоянно стараемся повышать качество распознавания речи. Например, в узких тематиках, таких как геозапросы, мы хороши: там около 5% ошибок, то есть, мы распознаем речь как человек (люди тоже делают ошибки). Но в более широких тематиках вроде голосового поиска ошибок уже в районе 15%. Наша цель — снизить долю ошибок в голосовом поиске до 5% и даже обогнать человека. В принципе, машина может распознавать речь лучше и быстрее человека. Скорость важна, потому что машина может очень качественно распознавать, но делать это долго, а такой подход заведомо плох. Сегодня наша система в среднем одну секунду речи распознает за полсекунды. Человек так не может: люди обычно в живом общение одну секунду речи распознают за секунду. Самая серьезная задача — распознавание длинных разговоров, что куда сложнее коротких запросов. Задача сразу усложняется на порядок, если разговор происходит в шумном месте: рядом говорят другие люди, есть общий гул. Когда в записи несколько людей, системе трудно понять, кто основной собеседник. Разделение спикеров и распознавание речи каждого из них в условиях шума —одни из основных вызовов в распознавании речи. Мы используем самые современные нейронные сети — рекуррентные. Для тренировки используем огромные массивы данных. Здесь очень много задач с точки зрения исследователя, применения самых передовых нейронных сетей для акустического и языкового моделирования, но и инженерные задачи по ускорению процессов обучения за счет распределенной тренировки не менее важны. Посмотрите короткий ролик о том, как создаётся акустическая модель. Источник: vk.com Комментарии:

Распознавание речи — самая актуальная и сложная задача, над которой работают в отделе голосовых технологий Яндекса.

Комментарии: