Нейросети хватило видео с монозвуком для создания бинауральной записи |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-12-27 18:19 Американские исследователи научили алгоритм превращать монофоническую запись звука в бинауральную, позволяющую слушателю испытывать эффект реалистичного объемного звука. Особенность метода заключается в том, что в качестве исходных данных алгоритм использует видеозапись, на которой он находит источник звука, что позволяет создать двухканальную аудиозапись, рассказывают авторы статьи, опубликованной на arXiv.org. Кроме того, исследователи создали алгоритм, который разделяет аудиодорожку на каналы, соответствующие разным инструментам, используя для этого видеоряд. Человек может определять не только сами звуки окружающего мира, но и примерное расположение их источников. Это возможно благодаря тому, что человек имеет два уха, разделенные определенным расстоянием, а также имеющие асимметричную форму. В результате, звук доходит до ушей не одновременно и с разной интенсивностью. Для воссоздания подобного объемного восприятия мира существует метод бинауральной записи, при котором используются два микрофона, расположенные с разных сторон полноценной модели головы или внутри двух моделей ушей. Исследователи из Facebook AI Research разработали метод, позволяющий воссоздать бинауральную запись, имея в качестве исходных данных только одноканальную аудиозапись и видеоряд.
Алгоритм, разработанный исследователями, состоит из двух основных компонентов — сверточных нейросетей U-Net и ResNet. Сначала стереоаудиозапись объединяется в монозапись, которая подвергается оконному преобразованию Фурье. На этом шаге алгоритм создает из исходного сигнала его спектрограмму, которая подается на первый слой U-Net. Параллельно с этим соответствующий кадр из видео подается сначала на нейросеть ResNet-18, где превращается в характеристический вектор. Он, в свою очередь, подается на один из слоев U-Net. Таким образом, в этой сети происходит аудиовизуальный анализ, в результате которого образуется новая спектрограмма. После этого алгоритм производит обратное оконное преобразование Фурье, получает новую моноаудиозапись, из которой рассчитывается два канала — правый и левый. Ранее другая группа исследователей из Facebook Research разработала нейросетевой алгоритм, способный менять стиль, жанр и набор инструментов на аудиозаписи. Разработчики продемонстрировали возможности метода на разных музыкальных стилях и исполнителях, например, превратив симфонию Моцарта в запись пианиста, играющего музыку Бетховена. Григорий Копиев Источник: nplus1.ru Комментарии: |
|