Исследователи Google научились вычленять голос в толпе, используя ИИ |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2018-10-13 12:45 Разработчики из компании Google научились использовать ИИ для выделения конкретного голоса в толпе. Для этого они обучили две отдельные нейросети: одна распознаёт говорящего, другая сравнивает звуковые спектрограммы. Вместе эти сети уменьшили количество ошибочных распознаваний (Word error rate, WER). Новая разработка, названная VoiceFilter, основывается на PixelPlayer — системе, способной вырезать отдельные музыкальные инструменты из видеоролика. Также продукт имеет сходство с системой, создающей спектрограммы загруженных песен. Такая была создана в Университете Суррея в 2015 году. Как работает VoiceFilter? Программа VoiceFilter построена на модели LSTM — алгоритме машинного обучения, объединяющего память и входы для повышения точности прогноза, и нейронной сети с одним слоем LSTM. Принцип обучения заключается в том, что ИИ минимизирует разницу между спектрограммой «грязного» звука толпы и целевой спектрограммой, полученной из чистой записи голоса. Для обучения использовались два образца: первый состоял из почти 34 миллионов анонимных англоязычных голосовых запросов, а второй — open source библиотек LibriSpeech, VoxCeleb и VoxCeleb2. Тесты показали, что VoiceFilter снизил частоту ошибок в распознавании слов с 55,9 % до 23,4 %. Работают в этой области и другие компании. Так в мае 2018 года Qualcomm рассказала о новой системе распознавания речи, которая работает без подключения к Интернету. А Mozilla в ноябре 2017 года запустила систему распознавания речи на движке DeepSpeech и опубликовала базу голосовых сообщений, собранных в рамках проекта CommonVoice. Телеграм: t.me/ainewsline Источник: tproger.ru Комментарии: |
|