Искусственный интеллект: как синтез и анализ речи экономят время |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2021-10-02 21:12 Мы привыкли к голосовому поиску в Google, голосовому управлению приложениями или аудиокнигам— уже никого не удивляют эти технологии. Они делают нашу жизнь комфортнее и позволяют экономить время. Но распознавание и воспроизведение речи включают в себя гораздо больше, чем вам кажется: повышение продаж, оптимизация процессов бизнеса и работы, голосовые ассистенты, социальная адаптация людей с ограниченными возможностями и многое другое. Как работает технология и как она делает нашу жизнь лучше — читайте в статье. Истоки распознавания речи Одно из первых устройств, способное распознавать человеческую, речь было представлено еще в 1927 году: робот Televox реагировал на звуки разной частоты. Следующим изобретением, сделавшим шаг в будущее, стала машина Audrey, разработанная в 1952 году в кузнице инноваций Bell Labs. Устройство было способно не просто реагировать на звуки, а распознавать произнесенные цифры от нуля до девяти. В начале 1960-х работы велись в Великобритании, США, Японии и СССР. Был создан алгоритм, позволивший построить систему, знающую около 200 слов. Но все наработки имели общий недостаток — принцип распознавания: слова воспринимались как целостные звуковые отпечатки, которые сверялись с базой образцов (словарем). Любые изменения тембра, скорости и четкости проговаривания слов сильно отражались на качестве распознавания. Настоящим прорывом стало внедрение скрытой марковской модели, разработанной в 1980-х годах. Она могла строить точные предложения с помощью нескольких распознанных фонем в одном слове. Фонема — это минимальная единица звукового строя языка, которая служит для складывания и различия слов и их частей. Роль IBM в технологии Компания IBM стояла у истоков разработки инструментов и услуг в области распознавания речи. Их первое устройство появилось в 1952 году. Оно могло узнавать произнесённые человеком цифры. В 1962 году в Нью-Йорке на ярмарке компьютерных технологий было представлено устройство Shoebox, способное распознавать 16 разных слов. IBM не остановилась на достигнутом: следующей разработкой был запуск в 1996 году приложения для распознавания речи, которое содержало 42 тысячи словарных слов на английском и испанском языках, а также включало орфографический словарь на 100 тысяч слов. На основе этих средств возникла технология, которая в настоящее время широко применяется в различных отраслях. Немного из истории синтеза В 1930-х годах Bell Labs разрабатывает VOCODER, управляемый с помощью клавиатуры. Смысл машины состоял в том, чтобы проанализировать голосовой сигнал, разобрать его на части и переработать в удобный формат для дальнейшего использования. Впервые применили ЭВМ для синтеза речи в 1962 г. Джон Л. Келли использовал для этого свой компьютер IBM 704. Ученый синтезировал ритмичный голос, поющий песню Дэйзи Белл. А в начале 1980-х приложение синтеза речи появилось в компьютерах Apple Macintosh и Commodore Amiga. В настоящее время ученые разрабатывают технологии, которые позволят переводить человеческие (и не только) мысли в речь. Как работают речевые системы? Системы распознавания речи состоят из нескольких элементов: устройство речевого ввода, функции выделения признаков, векторы признаков, модули расшифровки и представления результатов в виде слов. Модуль расшифровки использует акустические модели, словарь произношения и языковые модели для определения результата. На данный момент работа систем строится 2 способами: Speech-to-Text и Text-to-Speech. Поговорим про «Speech-to-Text» Когда голосовой запрос поступает в систему, она воспринимает это как сигналы, которые плавно переходят друг в друга без четких границ. Speech-to-Text или распознавание речи — это процесс преобразования речевых сигналов в текст. Обычно этот процесс делится на несколько этапов:
Декодер — звено, отвечающее за преобразование акустического материала в текстовый. Алгоритмы распознавания речи Для преобразования речи в текст и повышения точности результатов применяются разнообразные алгоритмы и вычислительные методы. Ниже приводится краткое описание наиболее популярных из них. Также применяется нейросеть. Она обрабатывает обучающие данные, имитируя деятельность человеческого мозга с использованием нескольких слоев узлов. В целом нейронные сети демонстрируют более высокую точность и могут принимать больше данных, однако это происходит за счет снижения производительности, поскольку скорость их работы обычно ниже в сравнении с традиционными языковыми моделями. Объясняем про «Text-to-Speech» Синтез речи или Text-to-Speech — технология преобразования текста в речь. Обычно синтез речи используют разработчики для создания голосовых роботов. Чтобы преобразовать текст в голос, система должна пройти три этапа:
Как речевые технологии упрощают нам жизнь Технология распознавания речи широко применяется в различных отраслях, экономя время и даже спасая жизни. Возможности для людей с ограниченными возможностями. Некоторые социальные сети и сайты оснащены голосовым набором текста, что позволяет людям с ограниченными возможностями выполнять поиск и общаться без каких-либо трудностей. Автомобильная промышленность. Голосовые системы навигации и функции поиска в автомобильных радиостанциях. Современные технологии. Виртуальные помощники в мобильном устройстве помогут вам найти информацию, обратившись к Google Ассистенту или Apple Siri, или прослушать музыку, обратившись к Amazon Alexa или Microsoft Cortana. Технология «Умный дом» тоже набирает обороты, совершенствуюсь с каждым обновлением и выходом нового девайса. Продажи. С помощью анализа и синтеза речи контактные центры могут обрабатывать тысячи телефонных звонков клиентов для выявления общих закономерностей и проблем. Безопасность. Аутентификация по голосу является эффективным способом обеспечения безопасности. Социальные сети. На YouTube программа, распознавая голоса и переводя речь в текст, создает автоматические субтитры. Преимущества для бизнеса Голосовые роботы берут на себя большую часть рутинных задач call-центров. В процессе общения по телефону отличить робота от человека бывает очень трудно. Это позволяет развивать свой бизнес более эффективно. Темпы развития и популярность Больше трети Россиян ежедневно пользуется голосовыми помощниками. Летом 2019 года «Тинькофф банк» запустил голосового ассистента «Олег», который может переводить деньги, получать справки, отключать услуги. Большую популярность набрали системы для обработки входящих звонков, использующие силу искусственного интеллекта. Сбербанк подключил робота «Анна» для ответов на простые вопросы клиентов в call-центре, а «Ак барс банк» доверил компьютеру телефонные интервью для заполнения документов на кредит. Боты могут взять на себя до 30% ежедневных рутинных операций сотрудников call-центра. Интеллектуальные системы обработки вызовов способны сократить операционные расходы бизнеса на поддержку горячей линии на 15–70% – в зависимости от того, как много обязанностей можно переложить на робота. Что тормозит прогресс? На сегодняшний день система распознавания речи достигла немалых высот, но все еще далека от идеала. Разработчики сталкиваются с рядом проблем. Во-первых, задачу разработки усложняют неточности и случайности, характерные для человеческой речи. Мы можем это заметить при генерации субтитров для роликов. Несмотря на сложности, распознавание и синтез речи не стоят на месте и продолжают активно развиваться, являясь одним из важных направлений в сфере искусственного интеллекта на стыке биологии, лингвистики и компьютерных технологий. Подробно про историю распознавания речи и о том, как технология делает мир лучше. Авторы: Серафима Христич Анастасия Шилова Алина Насырова Анастасия Кокшарова Александра Суслопарова Источник: m.vk.com Комментарии: |
|