Автоматическое распознавание речи: как это работает и нам это помогает? |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2023-06-29 12:25 голосовой помощник, алгоритмы распознавания речи, распознавание образов Автоматическое распознавание речи: как это работает и нам это помогает? ИИ в действии! Искусственный интеллект и автоматическое распознавание речи находят все большее применение в повседневной жизни. Мы все уже привыкли пользоваться благами, которые обеспечивают нам технологии: В первую очередь вспоминаются Голосовые помощники: Siri от Apple, Алиса от Яндекса, Олег от Тинькоф, Салют от Сбера, Google Assistant от Google, Alexa от Amazon и Cortana от Microsoft - это примеры голосовых помощников, которые используют искусственный интеллект и технологии распознавания речи для общения с людьми. А вы знали? Первые наработки в распознавании речи были уже в 1927 году. Тогда был создан робот Televox, который мог распознавать тональность голоса и включать соответствующее реле. Фантастика для своих лет. Пользуетесь ли вы диктовкой текста на телефон, которые преобразуется в текст? Это тоже алгоритмы ИИ. Технология позволяет пользователю диктовать текст на компьютере или мобильном устройстве вместо того, чтобы печатать его вручную. Часто незаменимая вещь, но, порой требующая доработки: алгоритмы не расставляют знаки препинания. Широко используется автоматический поиск: приложения для поиска, такие как Shazam, используют искусственный интеллект и технологии распознавания звука для определения названия и исполнителя песни, играющей в данный момент. Переводчики: приложения для перевода, такие как Google Translate и iTranslate, используют технологии распознавания речи для распознавания произнесенных фраз и автоматического перевода их на другой язык. Сейчас многие компании переходят на голосовых помощников в колл-центрах для выполнения стандартизированных команд. Кроме того, системы распознавания речи могут использоваться для определения эмоций в голосе человека. Это может быть полезно при анализе звонков в контакт-центрах, чтобы узнать, какие клиенты испытывают недовольство или удовлетворение от обслуживания. Многие программы для автоматизации работы контакт-центра также имеют функцию стенографирования телефонных переговоров сотрудников и фиксируют содержание в отдельное меню. Безопасность: системы распознавания речи могут использоваться для аутентификации пользователей. Например, голос пользователя может быть использован в качестве пароля для доступа к его личной информации. Как это работает? В истории развития технологии разработчики выявили, что верным ключом к качественному распознаванию является работа с фонемами. Частями слов, обрабатывая которые системы могут более качественно и с наибольшей вероятностью корректно классифицировать и сложить в текст. На сегодняшний день самым эффективным средством распознавания речи, является рекуррентная нейросеть (RNN), которая обеспечивает высокую точность распознавания слов и предсказывают наиболее вероятное слово в контексте, если оно не было распознано. Эта технология применяется в современных сервисах распознавания голоса, музыки, изображений, лиц и объектов. Например, нейросетевая темпоральная классификация модели (CTC) используется для выделения фонем в записи аудиопотока и их последующего сравнения с базой слов нейросети для получения распознанного слова. CTC позволяет очень чётко выделять определённые фонемы, что обеспечивает высокую точность распознавания. Что касается улучшения качества распознания по контексту, RNN в основном использует контекст последних пяти слов, что может сделать распознавание не таким успешным. Хороший пример приведен в статье «Распознавание речи: очень краткий вводный курс» : «Наше всё, Александр Сергеевич Пушкин, трагически погиб в расцвете лет после дуэли с Дантесом. Именем поэта назван Пушкинский театральный фестиваль». Если убрать слово «Пушкинский», RNN попросту не сможет угадать его, опираясь на контекст предложения, ведь в нём упомянуты лишь театральный фестиваль и отсылка к имени неизвестного поэта — возможных вариантов масса! Для нивелирования этого недостатка доработана архитектура долгой краткосрочной памяти (Long short-term memory, LSTM) для рекуррентных нейросетей, которая анализирует запросы предыдущих задач и принимает их во внимание при обработке последующих запросов. Общий контекст речи позволяет подобрать верное слово. Теперь мы стали больше разбираться в принципах работы нейросетей по распознаванию речи. Прогресс в этом направлении удивит нас в самое ближайшее время. Источник: vk.com Комментарии: |
|