ИИ Facebook различает 5 одновременно говорящих голосов собеседников

В исследовании, подготовленном для Международной конференции машинного обучения (ICML) 2020, специалисты из Facebook описали метод выделения до пяти голосов, говорящих одновременно в один микрофон. Разработчики утверждают, что их технология превосходит по производительности существующие аналоги.

Выделение речи из шума разговора — важный шаг к появлению эффективных коммуникационных технологий, от голосовых сообщений и записи музыкальных произведений до искусственного интеллекта.

Специалисты из Facebook разработали рекуррентную нейронную сеть для создания модели, которая обрабатывает последовательности аудиоданных переменной длины. Статья была представлена на Международной конференции машинного обучения (ICML) 2020, пишет VentureBeat.

Модель использует кодирующую сеть, которая отображает звуковые волны в виде скрытого представления. Затем сеть выделения голоса трансформирует эти представления в аудиосигнал каждого говорящего. Алгоритм должен знать общее число собеседников, но подсистема может автоматически определять говорящих и выбирать речевую модель соответственно.

Разработчики обучили несколько моделей выделять голоса двух, трех, четырех и пяти собеседников. Они убеждены, что такая система способна улучшить качество звука слуховых аппаратов — пользователь сможет различать голоса в шумных помещениях, например, на вечеринках или в ресторанах.

Следующим этапом станет оптимизация модели до состояния, когда уровень ее производительности станет соответствовать требованиям прикладного применения.

Распознавать нечеткую речь людей с нарушениями дикции или боковым амиотрофическим склерозом научили алгоритм специалисты из Google. Для этого им пришлось собрать образцы речи людей с проблемным произношением или с различными акцентами.



		ИИ Facebook различает 5 одновременно говорящих голосов собеседников
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-07-18 13:17 искусственный интеллект В исследовании, подготовленном для Международной конференции машинного обучения (ICML) 2020, специалисты из Facebook описали метод выделения до пяти голосов, говорящих одновременно в один микрофон. Разработчики утверждают, что их технология превосходит по производительности существующие аналоги. Выделение речи из шума разговора — важный шаг к появлению эффективных коммуникационных технологий, от голосовых сообщений и записи музыкальных произведений до искусственного интеллекта. Специалисты из Facebook разработали рекуррентную нейронную сеть для создания модели, которая обрабатывает последовательности аудиоданных переменной длины. Статья была представлена на Международной конференции машинного обучения (ICML) 2020, пишет VentureBeat. Модель использует кодирующую сеть, которая отображает звуковые волны в виде скрытого представления. Затем сеть выделения голоса трансформирует эти представления в аудиосигнал каждого говорящего. Алгоритм должен знать общее число собеседников, но подсистема может автоматически определять говорящих и выбирать речевую модель соответственно. Разработчики обучили несколько моделей выделять голоса двух, трех, четырех и пяти собеседников. Они убеждены, что такая система способна улучшить качество звука слуховых аппаратов — пользователь сможет различать голоса в шумных помещениях, например, на вечеринках или в ресторанах. Следующим этапом станет оптимизация модели до состояния, когда уровень ее производительности станет соответствовать требованиям прикладного применения. Распознавать нечеткую речь людей с нарушениями дикции или боковым амиотрофическим склерозом научили алгоритм специалисты из Google. Для этого им пришлось собрать образцы речи людей с проблемным произношением или с различными акцентами. Телеграм: t.me/ainewsline Источник: hightech.plus Комментарии:

ИИ Facebook различает 5 одновременно говорящих голосов собеседников

Комментарии: