Нейросеть для работы со звуком на видео

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости

Новостная лента форума ailab.ru


Коллаборация исследователей из Техасского университета и Facebook Research представила метод, который конвертирует с видеозаписи монофонический звук в бинауральный. Разработка носит название 2.5D Visual Sound и базируется на двух сверточных нейронных сетях: U-Net и ResNet.

Бинауральный эффект для слушателя создается следующим образом. Когда система получает видео с монофонической аудиодорожкой, нейронная сеть определяет на нем источники звука и, с учетом их расположения, корректирует аудио: скорость, уровни и объем.

Работу алгоритма можно посмотреть здесь.

Для обучения сети инженеры использовали 2265 музыкальных видеозаписей, общая продолжительность которых – 6 часов. Чтобы создать бинауральный эффект на видео для датасета, ученые сконструировали устройство, состоящее из двух микрофонов в виде ушей.

По словам исследователей, пока алгоритм не умеет определять положение источников звука, которые не показаны на видео, и не сможет распознать источники, которых нет в его базе. Однако ученые утверждают, что работа над проектом продолжается и его функционал, в скором времени, существенно расширится.

Источник: Arxiv.org

Комментарии: