Нейросеть распознает нужный музыкальный инструмент на видео и сделает его погромче

2018-07-07 12:05

The Beatles в студии, 1966 год

Wikimedia Commons

Разработчики из MIT создали нейросеть, которая самостоятельно находит музыкальный инструмент на видео и определяет, как он звучит. Если на записи присутствует несколько инструментов, программа позволяет пользователю выбрать, какой именно он хочет послушать, просто кликнув на него. При этом для обучения программы не требуется размеченных данных, сообщается в работе, которая будет представлена на сентябрьской конференции по компьютерному зрению European Conference on Computer Vision (ECCV).

Очень часто для того, чтобы нейросеть научилась распознавать объекты на изображении или отдельные источники в звуковой дорожке, требуется большой набор размеченных данных. Однако проставлять метки приходится вручную, что занимает довольно много времени. Поэтому исследователи в последнее время все чаще используют альтернативные подходы к обучению программ, которые позволяют алгоритму самостоятельно получать необходимые знания.

Авторы новой работы под руководством Хан Чжао (Hang Zhao) создали нейросеть под названием PixelPlayer. Она состоит из трех компонентов — графического, аудио и синтезирующего. Первая нейросеть анализирует графические элементы видео, в то время как вторая анализирует спектрограмму аудиодорожки. Затем синтезатор сопоставляет определенные области на кадрах (фактически, наборы пикселей) с определенными звуками, чтобы определить, как звучит тот или иной инструмент.

Схема архитектуры системы. Одна сеть обрабатывает графические данные, другая аудио, а третья сопоставляет их

Hang Zhao et al / ArXiv, 2018

Для обучения системы ИИ программисты использовали 714 видео, на которых музыканты играют соло или дуэтом — суммарно записи длились 60 часов. Всего в них было представлено 11 категорий инструментов: аккордеон, акустическая гитара, виолончель, кларнет, эрху (китайская скрипка), флейта, саксофон, труба, туба, скрипка и ксилофон. Главная особенность алгоритма заключается в том, что он использует «самоконтролируемое» глубинное обучение: ему не требуется размеченных данных, которые бы указывали на то, как выглядит или звучит тот или иной инструмент. Всю необходимую информацию он извлекает самостоятельно, поэтому исследователи точно не знают, какие именно особенности входных данных система считает значимыми.

На демонстрационном видео показано, что пользователю достаточно кликнуть в область кадра, где запечатлен инструмент, и программа сделает его звук громче. Кроме того, PixelPlayer позволяет регулировать громкость инструментов с помощью бегунка и, таким образом, редактировать аудиотрек.

В будущем группа Чжао надеется улучшить качество звука, использовав больше обучающего материала. В будущем PixelPlayer может стать удобным инструментом для редактирования аудио, позволяя например улучшать или восстанавливать старые записи концертов. Кроме того, алгоритм может лечь в основу системы, которая позволит роботам различать источники окружающих звуков.

В прошлом исследователи из лаборатории Facebook Research разработали метод превращения музыкальных записей в записи с другими инструментами, стилем и жанром. Она смогла переделать симфонию Моцарта в запись пианиста, играющего музыку Бетховена.

Кристина Уласович

Источник: nplus1.ru



		Нейросеть распознает нужный музыкальный инструмент на видео и сделает его погромче
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2018-07-07 12:05 техническое зрение The Beatles в студии, 1966 год Wikimedia Commons Разработчики из MIT создали нейросеть, которая самостоятельно находит музыкальный инструмент на видео и определяет, как он звучит. Если на записи присутствует несколько инструментов, программа позволяет пользователю выбрать, какой именно он хочет послушать, просто кликнув на него. При этом для обучения программы не требуется размеченных данных, сообщается в работе, которая будет представлена на сентябрьской конференции по компьютерному зрению European Conference on Computer Vision (ECCV). Очень часто для того, чтобы нейросеть научилась распознавать объекты на изображении или отдельные источники в звуковой дорожке, требуется большой набор размеченных данных. Однако проставлять метки приходится вручную, что занимает довольно много времени. Поэтому исследователи в последнее время все чаще используют альтернативные подходы к обучению программ, которые позволяют алгоритму самостоятельно получать необходимые знания. Авторы новой работы под руководством Хан Чжао (Hang Zhao) создали нейросеть под названием PixelPlayer. Она состоит из трех компонентов — графического, аудио и синтезирующего. Первая нейросеть анализирует графические элементы видео, в то время как вторая анализирует спектрограмму аудиодорожки. Затем синтезатор сопоставляет определенные области на кадрах (фактически, наборы пикселей) с определенными звуками, чтобы определить, как звучит тот или иной инструмент. Схема архитектуры системы. Одна сеть обрабатывает графические данные, другая аудио, а третья сопоставляет их Hang Zhao et al / ArXiv, 2018 Для обучения системы ИИ программисты использовали 714 видео, на которых музыканты играют соло или дуэтом — суммарно записи длились 60 часов. Всего в них было представлено 11 категорий инструментов: аккордеон, акустическая гитара, виолончель, кларнет, эрху (китайская скрипка), флейта, саксофон, труба, туба, скрипка и ксилофон. Главная особенность алгоритма заключается в том, что он использует «самоконтролируемое» глубинное обучение: ему не требуется размеченных данных, которые бы указывали на то, как выглядит или звучит тот или иной инструмент. Всю необходимую информацию он извлекает самостоятельно, поэтому исследователи точно не знают, какие именно особенности входных данных система считает значимыми. На демонстрационном видео показано, что пользователю достаточно кликнуть в область кадра, где запечатлен инструмент, и программа сделает его звук громче. Кроме того, PixelPlayer позволяет регулировать громкость инструментов с помощью бегунка и, таким образом, редактировать аудиотрек. В будущем группа Чжао надеется улучшить качество звука, использовав больше обучающего материала. В будущем PixelPlayer может стать удобным инструментом для редактирования аудио, позволяя например улучшать или восстанавливать старые записи концертов. Кроме того, алгоритм может лечь в основу системы, которая позволит роботам различать источники окружающих звуков. В прошлом исследователи из лаборатории Facebook Research разработали метод превращения музыкальных записей в записи с другими инструментами, стилем и жанром. Она смогла переделать симфонию Моцарта в запись пианиста, играющего музыку Бетховена. Кристина Уласович Источник: nplus1.ru Комментарии:

Нейросеть распознает нужный музыкальный инструмент на видео и сделает его погромче

Комментарии: