Автоматическое распознавание речи: как это работает и нам это помогает?

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Автоматическое распознавание речи: как это работает и нам это помогает? ИИ в действии!

Искусственный интеллект и автоматическое распознавание речи находят все большее применение в повседневной жизни. Мы все уже привыкли пользоваться благами, которые обеспечивают нам технологии:

В первую очередь вспоминаются Голосовые помощники: Siri от Apple, Алиса от Яндекса, Олег от Тинькоф, Салют от Сбера, Google Assistant от Google, Alexa от Amazon и Cortana от Microsoft - это примеры голосовых помощников, которые используют искусственный интеллект и технологии распознавания речи для общения с людьми.

А вы знали? Первые наработки в распознавании речи были уже в 1927 году. Тогда был создан робот Televox, который мог распознавать тональность голоса и включать соответствующее реле. Фантастика для своих лет.

Пользуетесь ли вы диктовкой текста на телефон, которые преобразуется в текст? Это тоже алгоритмы ИИ. Технология позволяет пользователю диктовать текст на компьютере или мобильном устройстве вместо того, чтобы печатать его вручную. Часто незаменимая вещь, но, порой требующая доработки: алгоритмы не расставляют знаки препинания.

Широко используется автоматический поиск: приложения для поиска, такие как Shazam, используют искусственный интеллект и технологии распознавания звука для определения названия и исполнителя песни, играющей в данный момент.

Переводчики: приложения для перевода, такие как Google Translate и iTranslate, используют технологии распознавания речи для распознавания произнесенных фраз и автоматического перевода их на другой язык.

Сейчас многие компании переходят на голосовых помощников в колл-центрах для выполнения стандартизированных команд. Кроме того, системы распознавания речи могут использоваться для определения эмоций в голосе человека. Это может быть полезно при анализе звонков в контакт-центрах, чтобы узнать, какие клиенты испытывают недовольство или удовлетворение от обслуживания. Многие программы для автоматизации работы контакт-центра также имеют функцию стенографирования телефонных переговоров сотрудников и фиксируют содержание в отдельное меню.

Безопасность: системы распознавания речи могут использоваться для аутентификации пользователей. Например, голос пользователя может быть использован в качестве пароля для доступа к его личной информации.

Как это работает?

В истории развития технологии разработчики выявили, что верным ключом к качественному распознаванию является работа с фонемами. Частями слов, обрабатывая которые системы могут более качественно и с наибольшей вероятностью корректно классифицировать и сложить в текст.

На сегодняшний день самым эффективным средством распознавания речи, является рекуррентная нейросеть (RNN), которая обеспечивает высокую точность распознавания слов и предсказывают наиболее вероятное слово в контексте, если оно не было распознано. Эта технология применяется в современных сервисах распознавания голоса, музыки, изображений, лиц и объектов. Например, нейросетевая темпоральная классификация модели (CTC) используется для выделения фонем в записи аудиопотока и их последующего сравнения с базой слов нейросети для получения распознанного слова. CTC позволяет очень чётко выделять определённые фонемы, что обеспечивает высокую точность распознавания.

Что касается улучшения качества распознания по контексту, RNN в основном использует контекст последних пяти слов, что может сделать распознавание не таким успешным. Хороший пример приведен в статье «Распознавание речи: очень краткий вводный курс» : «Наше всё, Александр Сергеевич Пушкин, трагически погиб в расцвете лет после дуэли с Дантесом. Именем поэта назван Пушкинский театральный фестиваль». Если убрать слово «Пушкинский», RNN попросту не сможет угадать его, опираясь на контекст предложения, ведь в нём упомянуты лишь театральный фестиваль и отсылка к имени неизвестного поэта — возможных вариантов масса!

Для нивелирования этого недостатка доработана архитектура долгой краткосрочной памяти (Long short-term memory, LSTM) для рекуррентных нейросетей, которая анализирует запросы предыдущих задач и принимает их во внимание при обработке последующих запросов. Общий контекст речи позволяет подобрать верное слово.

Теперь мы стали больше разбираться в принципах работы нейросетей по распознаванию речи. Прогресс в этом направлении удивит нас в самое ближайшее время.


Источник: vk.com

Комментарии: