Искусственный интеллект: как синтез и анализ речи экономят время

2021-10-02 21:12

алгоритмы распознавания речи, распознавание образов

Мы привыкли к голосовому поиску в Google, голосовому управлению приложениями или аудиокнигам— уже никого не удивляют эти технологии. Они делают нашу жизнь комфортнее и позволяют экономить время. Но распознавание и воспроизведение речи включают в себя гораздо больше, чем вам кажется: повышение продаж, оптимизация процессов бизнеса и работы, голосовые ассистенты, социальная адаптация людей с ограниченными возможностями и многое другое. Как работает технология и как она делает нашу жизнь лучше — читайте в статье.

Истоки распознавания речи

Одно из первых устройств, способное распознавать человеческую, речь было представлено еще в 1927 году: робот Televox реагировал на звуки разной частоты.

Следующим изобретением, сделавшим шаг в будущее, стала машина Audrey, разработанная в 1952 году в кузнице инноваций Bell Labs. Устройство было способно не просто реагировать на звуки, а распознавать произнесенные цифры от нуля до девяти.

В начале 1960-х работы велись в Великобритании, США, Японии и СССР. Был создан алгоритм, позволивший построить систему, знающую около 200 слов. Но все наработки имели общий недостаток — принцип распознавания: слова воспринимались как целостные звуковые отпечатки, которые сверялись с базой образцов (словарем). Любые изменения тембра, скорости и четкости проговаривания слов сильно отражались на качестве распознавания.

Настоящим прорывом стало внедрение скрытой марковской модели, разработанной в 1980-х годах. Она могла строить точные предложения с помощью нескольких распознанных фонем в одном слове.

Фонема — это минимальная единица звукового строя языка, которая служит для складывания и различия слов и их частей.

Роль IBM в технологии

Компания IBM стояла у истоков разработки инструментов и услуг в области распознавания речи. Их первое устройство появилось в 1952 году. Оно могло узнавать произнесённые человеком цифры.

1961 Компьютер IBM, способный выполнять математические функции и распознавать речь. Было произнесено несколько цифр и команд для машины, чтобы продемонстрировать ее возможности.

Инженер William C. Dersch в 1961 году презентует IBM Shoebox.

В 1962 году в Нью-Йорке на ярмарке компьютерных технологий было представлено устройство Shoebox, способное распознавать 16 разных слов.

IBM не остановилась на достигнутом: следующей разработкой был запуск в 1996 году приложения для распознавания речи, которое содержало 42 тысячи словарных слов на английском и испанском языках, а также включало орфографический словарь на 100 тысяч слов. На основе этих средств возникла технология, которая в настоящее время широко применяется в различных отраслях.

Немного из истории синтеза

В 1930-х годах Bell Labs разрабатывает VOCODER, управляемый с помощью клавиатуры. Смысл машины состоял в том, чтобы проанализировать голосовой сигнал, разобрать его на части и переработать в удобный формат для дальнейшего использования.

Впервые применили ЭВМ для синтеза речи в 1962 г. Джон Л. Келли использовал для этого свой компьютер IBM 704. Ученый синтезировал ритмичный голос, поющий песню Дэйзи Белл.

А в начале 1980-х приложение синтеза речи появилось в компьютерах Apple Macintosh и Commodore Amiga.

В настоящее время ученые разрабатывают технологии, которые позволят переводить человеческие (и не только) мысли в речь.

Как работают речевые системы?

Системы распознавания речи состоят из нескольких элементов: устройство речевого ввода, функции выделения признаков, векторы признаков, модули расшифровки и представления результатов в виде слов. Модуль расшифровки использует акустические модели, словарь произношения и языковые модели для определения результата.

На данный момент работа систем строится 2 способами: Speech-to-Text и Text-to-Speech.

Поговорим про «Speech-to-Text»

Когда голосовой запрос поступает в систему, она воспринимает это как сигналы, которые плавно переходят друг в друга без четких границ.

Speech-to-Text или распознавание речи — это процесс преобразования речевых сигналов в текст.

Обычно этот процесс делится на несколько этапов:

Анализ сигнала. Полученный компьютером сигнал очищается от шумов и помех. Запись делится на фрагменты длиной 25 миллисекунд, каждый из которых пропускается через акустическую модель, которая определяет, какие именно звуки были произнесены.
Распознавание сигнала. Эталонные произношения, которые хранятся в акустической модели, сравниваются с каждым речевым фрагментом записи. Система с помощью машинного обучения подбирает варианты произнесенных слов и их контекст и собирает из звуков предполагаемые слова.
Преобразование сигнала в текст. Используя языковую модель, система определяет порядок слов и подбирает слова по контексту. Декодер преобразует данные в текст с наиболее вероятной последовательностью слов.

Декодер — звено, отвечающее за преобразование акустического материала в текстовый.

Алгоритмы распознавания речи

Для преобразования речи в текст и повышения точности результатов применяются разнообразные алгоритмы и вычислительные методы. Ниже приводится краткое описание наиболее популярных из них.

Описание 4-х основных алгоритмов распознавания речи.

Также применяется нейросеть. Она обрабатывает обучающие данные, имитируя деятельность человеческого мозга с использованием нескольких слоев узлов. В целом нейронные сети демонстрируют более высокую точность и могут принимать больше данных, однако это происходит за счет снижения производительности, поскольку скорость их работы обычно ниже в сравнении с традиционными языковыми моделями.

Объясняем про «Text-to-Speech»

Синтез речи или Text-to-Speech — технология преобразования текста в речь. Обычно синтез речи используют разработчики для создания голосовых роботов.

Чтобы преобразовать текст в голос, система должна пройти три этапа:

Преобразовать текст в слова с помощью специального алгоритма.
Выполнить фонетическую транскрипцию, используя встроенные словари.
Преобразовать транскрипцию в речь, устанавливая связь между фонемами и звуками и придавая им верную интонацию благодаря машинному обучению.

Как речевые технологии упрощают нам жизнь

Технология распознавания речи широко применяется в различных отраслях, экономя время и даже спасая жизни.

Возможности для людей с ограниченными возможностями. Некоторые социальные сети и сайты оснащены голосовым набором текста, что позволяет людям с ограниченными возможностями выполнять поиск и общаться без каких-либо трудностей.

Компактное устройство FingerReader. Позволяет незрячим читать обычные тексты.

Автомобильная промышленность. Голосовые системы навигации и функции поиска в автомобильных радиостанциях.

Современные технологии. Виртуальные помощники в мобильном устройстве помогут вам найти информацию, обратившись к Google Ассистенту или Apple Siri, или прослушать музыку, обратившись к Amazon Alexa или Microsoft Cortana. Технология «Умный дом» тоже набирает обороты, совершенствуюсь с каждым обновлением и выходом нового девайса.

Продажи. С помощью анализа и синтеза речи контактные центры могут обрабатывать тысячи телефонных звонков клиентов для выявления общих закономерностей и проблем.

Безопасность. Аутентификация по голосу является эффективным способом обеспечения безопасности.

Социальные сети. На YouTube программа, распознавая голоса и переводя речь в текст, создает автоматические субтитры.

Преимущества для бизнеса

Голосовые роботы берут на себя большую часть рутинных задач call-центров. В процессе общения по телефону отличить робота от человека бывает очень трудно. Это позволяет развивать свой бизнес более эффективно.

Примеры использования распознавания речи в бизнесе.

Темпы развития и популярность

Больше трети Россиян ежедневно пользуется голосовыми помощниками.

Летом 2019 года «Тинькофф банк» запустил голосового ассистента «Олег», который может переводить деньги, получать справки, отключать услуги.

Большую популярность набрали системы для обработки входящих звонков, использующие силу искусственного интеллекта.

Сбербанк подключил робота «Анна» для ответов на простые вопросы клиентов в call-центре, а «Ак барс банк» доверил компьютеру телефонные интервью для заполнения документов на кредит.

Боты могут взять на себя до 30% ежедневных рутинных операций сотрудников call-центра. Интеллектуальные системы обработки вызовов способны сократить операционные расходы бизнеса на поддержку горячей линии на 15–70% – в зависимости от того, как много обязанностей можно переложить на робота.

Что тормозит прогресс?

На сегодняшний день система распознавания речи достигла немалых высот, но все еще далека от идеала. Разработчики сталкиваются с рядом проблем.

Во-первых, задачу разработки усложняют неточности и случайности, характерные для человеческой речи. Мы можем это заметить при генерации субтитров для роликов.
Во-вторых, нейросети созданы в большинстве своем для английского языка. А вот для русского или швейцарского вы вряд ли найдете много пользовательских приложений с хорошим функционалом.
И наконец, работу осложняет огромное количество диалектов. Даже в одной небольшой стране люди могут говорить на 10 вариациях языка, где одно и то же слово отличается произношением.

Несмотря на сложности, распознавание и синтез речи не стоят на месте и продолжают активно развиваться, являясь одним из важных направлений в сфере искусственного интеллекта на стыке биологии, лингвистики и компьютерных технологий.

Подробно про историю распознавания речи и о том, как технология делает мир лучше.
Очень классно написано про анализ речи, «Speech-to-TexT».
А тут написано про синтез речи, «TexT-to-Speech». Статья-рассуждение, сможет ли машинный перевод составить конкуренцию профессиональным переводчикам. Затрагиваются проблемы голосовых переводчиков.
Кратко про современные технологии распознавания речи. Статья «Как искуссивенный интеллект маскируется под человека, и кому это выгодно». Есть интересные примеры работы голосовых роботов. В статье представлено сложное, но интересное описание развития методов синтеза интонационной речи от истоков до настоящего времени. Про распознавание речи умными словами: принцип работы алгоритмов и архитектура. Если ты разбираешься в сфере IT, то все поймешь. Про интерактивное речевое управление и синтез речи на Яндекс.

Авторы:

Серафима Христич Анастасия Шилова Алина Насырова Анастасия Кокшарова Александра Суслопарова

Телеграм: t.me/ainewsline

Источник: m.vk.com

Искусственный интеллект: как синтез и анализ речи экономят время

Комментарии: