Доступно о машинном обучении: распознавание речи

2017-11-05 20:10

алгоритмы распознавания речи, распознавание образов, алгоритмы машинного обучения

Компания Google задалась вопросом объяснения принципов машинного обучения на примерах повседневных проблем и способах их решения. Первая из серии статей была посвящена классификации входящих электронных писем. Во второй публикации просто и наглядно рассказывается об одной из основополагающих концепций системы распознавания голоса — распознавание отдельных фонем.

Электронная почта — это лишь один из способов взаимодействия клиентов с компаниями (и, как оказывается, не самый популярный). По данным опроса American Express, при возникновении сложной или непредвиденной ситуации 48% людей предпочитают обговорить проблему по телефону с представителем организации. В современном бизнесе все большее значение придается взаимодействиям в режиме реального времени.

Возьмем, к примеру, коммерческий банк. При возникновении чрезвычайной ситуации (например, у клиента украли кредитную карту) никому даже в голову не придет посылать e-mail. Только быстрая реакция и оперативная связь могут предотвратить превращение маленькой неприятности в серьезную проблему. Этот факт ставит перед современными разработчиками новую сверхважную задачу: разработать совершенные системы распознавания речи, способные точно определять слова в данном контексте.

Соединить человеческий мир с цифровым — задача не из легких, и требует поэтапного изучения и тщательнейшей проработки каждой грани процесса. Как говорят обыватели, все начинается с ввода. В данном случае это аудиосигнал, который оцифровывается и с помощью преобразования Фурье конвертируется из временной функции в функцию частоты. Ее график напоминает изображение звуковой дорожки при воспроизведении аудиозаписи.

Затем в игру вступают алгоритмы машинного обучения. Они отыскивают наиболее вероятные фонемы (составные части звука) и возможные последовательности слов, которые можно извлечь из частотных графов. И после, в зависимости от конфигурации приложения, на выход поступает ответ в требуемой форме (например, текст). В случае с call-центром, этот текстовый ответ (или его бинарный эквивалент) позволяет моментально перенаправить звонок в нужный отдел.

Система распознавания речи — вещь сложная и крайне творческая. Одной из важнейших составных задач при ее разработке является изолированное распознавание слов.

Скрытые модели Маркова

Один из основных методов, используемых для распознавания фонем в машинном обучении — это метод скрытых моделей Маркова (СММ). По своей сути СММ — это статистические модели, опирающиеся на скрытые или не наблюдаемые состояния (в отличие от марковских цепей, в которых состояние процессов видимо).

В случае с аудиосигналом в голосовой записи, основные процессы видимы, а вот вероятность переходов состояний — нет. Такое положение вещей весьма характерно для моделей, основанных на машинном обучении. Интерактивная визуализация ниже наглядно показывает, как работает изолированное распознавание слов.

На графике продемонстрирован принцип работы СММ. По мере обработки сигнала СММ создает вероятностную сетку, на которой после ищет лучший путь.

Это упрощенная модель. В настоящем же процессе обрабатываются все возможные фонемы, причем не дискретно, а непрерывно в начале, середине и конце принимаемого сигнала.

Возвращаясь к примеру с call-центром, СММ создаёт граф из связанных фонем, а иногда даже последовательностей слов, который после отображает в гистограмме вероятных результатов, отвечающих разным отделам поддержки в компании. С большим набором записей типичных клиентских обращений и их перенаправлений можно построить надежную систему маршрутизации, которая будет максимально оперативно предоставлять клиентам необходимую помощь.

Несмотря на все трудности, с которыми приходится сталкиваться разработчикам систем распознавания речи (дороговизна хранения и обработки огромного объема необходимых данных, рутинный и долгий процесс обучения, необходимость постоянного совершенствования алгоритмов), данная задача более чем выполнима. Построенные на основе моделей системы могут быть применимы в самых разнообразных областях вплоть до генерации субтитров в режиме реального времени.

Создать свое приложение, преобразующее аудиозапись в текст, можно с помощью Cloud Speech API, доступ к которому с весны этого года доступен всем независимым разработчикам.

Источник: блог Google Cloud Platform

Светлана Хачатурян

Источник: tproger.ru



		Доступно о машинном обучении: распознавание речи
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2017-11-05 20:10 алгоритмы распознавания речи, распознавание образов, алгоритмы машинного обучения Компания Google задалась вопросом объяснения принципов машинного обучения на примерах повседневных проблем и способах их решения. Первая из серии статей была посвящена классификации входящих электронных писем. Во второй публикации просто и наглядно рассказывается об одной из основополагающих концепций системы распознавания голоса — распознавание отдельных фонем. Электронная почта — это лишь один из способов взаимодействия клиентов с компаниями (и, как оказывается, не самый популярный). По данным опроса American Express, при возникновении сложной или непредвиденной ситуации 48% людей предпочитают обговорить проблему по телефону с представителем организации. В современном бизнесе все большее значение придается взаимодействиям в режиме реального времени. Возьмем, к примеру, коммерческий банк. При возникновении чрезвычайной ситуации (например, у клиента украли кредитную карту) никому даже в голову не придет посылать e-mail. Только быстрая реакция и оперативная связь могут предотвратить превращение маленькой неприятности в серьезную проблему. Этот факт ставит перед современными разработчиками новую сверхважную задачу: разработать совершенные системы распознавания речи, способные точно определять слова в данном контексте. Соединить человеческий мир с цифровым — задача не из легких, и требует поэтапного изучения и тщательнейшей проработки каждой грани процесса. Как говорят обыватели, все начинается с ввода. В данном случае это аудиосигнал, который оцифровывается и с помощью преобразования Фурье конвертируется из временной функции в функцию частоты. Ее график напоминает изображение звуковой дорожки при воспроизведении аудиозаписи. Затем в игру вступают алгоритмы машинного обучения. Они отыскивают наиболее вероятные фонемы (составные части звука) и возможные последовательности слов, которые можно извлечь из частотных графов. И после, в зависимости от конфигурации приложения, на выход поступает ответ в требуемой форме (например, текст). В случае с call-центром, этот текстовый ответ (или его бинарный эквивалент) позволяет моментально перенаправить звонок в нужный отдел. Система распознавания речи — вещь сложная и крайне творческая. Одной из важнейших составных задач при ее разработке является изолированное распознавание слов. Скрытые модели Маркова Один из основных методов, используемых для распознавания фонем в машинном обучении — это метод скрытых моделей Маркова (СММ). По своей сути СММ — это статистические модели, опирающиеся на скрытые или не наблюдаемые состояния (в отличие от марковских цепей, в которых состояние процессов видимо). В случае с аудиосигналом в голосовой записи, основные процессы видимы, а вот вероятность переходов состояний — нет. Такое положение вещей весьма характерно для моделей, основанных на машинном обучении. Интерактивная визуализация ниже наглядно показывает, как работает изолированное распознавание слов. На графике продемонстрирован принцип работы СММ. По мере обработки сигнала СММ создает вероятностную сетку, на которой после ищет лучший путь. Это упрощенная модель. В настоящем же процессе обрабатываются все возможные фонемы, причем не дискретно, а непрерывно в начале, середине и конце принимаемого сигнала. Возвращаясь к примеру с call-центром, СММ создаёт граф из связанных фонем, а иногда даже последовательностей слов, который после отображает в гистограмме вероятных результатов, отвечающих разным отделам поддержки в компании. С большим набором записей типичных клиентских обращений и их перенаправлений можно построить надежную систему маршрутизации, которая будет максимально оперативно предоставлять клиентам необходимую помощь. Несмотря на все трудности, с которыми приходится сталкиваться разработчикам систем распознавания речи (дороговизна хранения и обработки огромного объема необходимых данных, рутинный и долгий процесс обучения, необходимость постоянного совершенствования алгоритмов), данная задача более чем выполнима. Построенные на основе моделей системы могут быть применимы в самых разнообразных областях вплоть до генерации субтитров в режиме реального времени. Создать свое приложение, преобразующее аудиозапись в текст, можно с помощью Cloud Speech API, доступ к которому с весны этого года доступен всем независимым разработчикам. Источник: блог Google Cloud Platform Светлана Хачатурян Источник: tproger.ru Комментарии:

Доступно о машинном обучении: распознавание речи

Комментарии: