Исследователи Google научились вычленять голос в толпе, используя ИИ |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-10-13 12:45 Разработчики из компании Google научились использовать ИИ для выделения конкретного голоса в толпе. Для этого они обучили две отдельные нейросети: одна распознаёт говорящего, другая сравнивает звуковые спектрограммы. Вместе эти сети уменьшили количество ошибочных распознаваний (Word error rate, WER). Новая разработка, названная VoiceFilter, основывается на PixelPlayer — системе, способной вырезать отдельные музыкальные инструменты из видеоролика. Также продукт имеет сходство с системой, создающей спектрограммы загруженных песен. Такая была создана в Университете Суррея в 2015 году. Как работает VoiceFilter? Программа VoiceFilter построена на модели LSTM — алгоритме машинного обучения, объединяющего память и входы для повышения точности прогноза, и нейронной сети с одним слоем LSTM. Принцип обучения заключается в том, что ИИ минимизирует разницу между спектрограммой «грязного» звука толпы и целевой спектрограммой, полученной из чистой записи голоса. Для обучения использовались два образца: первый состоял из почти 34 миллионов анонимных англоязычных голосовых запросов, а второй — open source библиотек LibriSpeech, VoxCeleb и VoxCeleb2. Тесты показали, что VoiceFilter снизил частоту ошибок в распознавании слов с 55,9 % до 23,4 %. Работают в этой области и другие компании. Так в мае 2018 года Qualcomm рассказала о новой системе распознавания речи, которая работает без подключения к Интернету. А Mozilla в ноябре 2017 года запустила систему распознавания речи на движке DeepSpeech и опубликовала базу голосовых сообщений, собранных в рамках проекта CommonVoice. Источник: tproger.ru Комментарии: |
|