Разрабатываем приложения для распознавания речи с помощью Python |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2022-03-02 19:00 алгоритмы распознавания речи, распознавание образов, примеры ии Что такое распознавание речи? Под этим понимают автоматическое распознавание речи или голоса. Данное понятие включает в себя синтез осмысленных речевых сигналов с помощью семплирования, искусственных нейронных сетей и машинного обучения. Мы хорошо знаем все эти методы. Такие приложения, как Apple Siri, Google Assistant, Amazon Alexa, доступны большинству из нас. Конечно, они опережают себе подобные, в их основе лежит серьезная инженерия. Помимо синтеза осмысленных звуковых сигналов в них также используются алгоритмы NLP (обработки естественного языка). Преобразование речи в текст — первый шаг к созданию голосового помощника. Итак, во-первых, мы ожидаем, что приложение поймет, о чем мы говорим, не так ли? Если он может синтезировать звуки, которые в его коде преобразуются в текст, то первый шаг в обработке этих звуковых данных уже сделан. В этой статье мы разработаем два приложения на Python с помощью нескольких библиотек и сосредоточимся на проблеме преобразования речи в текст. 1. Приложение для преобразования аудиофайлов в текст В этом приложении мы постараемся конвертировать аудиофайлы в текст. Преобразование аудиофайлов в текст является одним из предметов, который изучает наука о данных. Например, вы можете создать чат-бота, занимаясь обработкой голоса, или классифицировать запросы, поступающие в центр обработки вызовов, запустив NLP. Распознавать речь мы будем в основной библиотеке SpeechRecognition. Как можно понять из названия этой библиотеки, принцип ее работы основан на распознавании речи, и она взаимодействует со многими API. API, поддерживаемые библиотекой:
Начнем писать код!
pip install SpeechRecognition 2. Теперь подключим нашу библиотеку: import speech_recognition as sr 3. Присвоим распознающее устройство переменной, с помощью которой будет происходить процесс распознавания: r = sr.Recognizer() 4. Создадим аудиофайл. Прежде чем создавать аудиофайл, необходимо выяснить, какие типы файлов поддерживает нужная нам библиотека. Вот список поддерживаемых форматов:
Также работать можно с mp3, m4a и файлами других типов. Для этого нам придется воспользоваться онлайн-конвертером аудиозаписи. Я выбрал zamzar. Загружаем файл и преобразуем его в формат .wav. Присвоим созданному нами аудиофайлу значение переменной файлового типа: file = sr.AudioFile(‘deneme.wav’) 5. Теперь мы можем преобразовать звук в текст: with file as source: Для распознавания данных мы использовали метод recognize_google, реализованный с помощью Google Cloud Speech API. Кроме того, мы присвоили языку значение language = ‘tr’, чтобы программа лучше воспринимала звуки турецкого языка. 6. Выполняем код. Мы протестировали код, обработав две секунды короткого аудиофайла под названием “deneme deneme” (турецкий язык). Результат полностью оправдал наши ожидания. Обратите внимание, что это приложение также может легко преобразовывать в текст более сложные и длинные аудиофайлы. Для этого запишите аудио различной длительности и сложности, присвойте им значение переменной файлового типа и наблюдайте за результатом. 2. Приложение для мгновенного преобразования речи с микрофона в текст В этом приложении мы постараемся преобразовать звуки в текст в режиме реального времени, используя микрофон компьютера. Для этого мы снова воспользуемся библиотекой SpeechRecognition. Также мы будем использовать новый модуль PyAudio. Он необходим для того, чтобы иметь возможность обрабатывать аудиовход. Начнем писать код!
pip install SpeechRecognition Если вы работаете на Mac, вам необходимо установить portaudio. Для этого используйте brew: brew install portaudio Если вы уже скачали SpeechRecognition для предыдущего приложения, вам не нужно устанавливать его снова. 2. Подключим библиотеку и назначим метод для определения данных: import speech_recognition as sr Опять же, если вы выполняли эти шаги в предыдущем приложении, вам не нужно их повторять. 3. Преобразуем звук в текст. with sr.Microphone() as source: В предыдущем приложении мы использовали аудиофайл в качестве источника звука. Для этого приложения источником является микрофон, для захвата звука мы используем метод sr.Microphone (). Аналогичным образом указываем, что отслеживаемый язык турецкий. При желании можно настроить время прослушивания звука. В этом примере оно составляет пять секунд. Однако, если нужно, время можно продлить. 4. Выполняем код. Мы повторяли цикл “Merhaba D?nya” (турецкий язык) в течение пяти секунд и получили следующий результат. Программа так же справляется с более длинными предложениями: Чтобы понять, как работает модуль, посмотрим, как код производит альтернативные выходные данные, используя опцию show_all = True. text = r.recognize_google(data,show_all=True,language=’tr’) Мы разработали два простых приложения, которые наглядно демонстрируют, как происходит преобразование звука. Сделали мы это с помощью Google Cloud Speech API. Эти приложения можно значительно улучшить. Если вы хотите каким-либо образом применить звуки в своих проектах, вам стоит использовать эти модули, так как с ними легко работать. Особенно полезными они могут быть для специалистов по обработке данных, которые могут использовать эти библиотеки на этапах предварительной обработки данных, если им необходимо обрабатывать аудиофайлы и использовать их в проектах, связанных с машинным обучением. Надеюсь, что эти два приложения были полезны вам в качестве базовой информации. Спасибо за чтение! Источник: m.vk.com Комментарии: |
|