Нейросеть распознает нужный музыкальный инструмент на видео и сделает его погромче |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-07-07 12:05 Разработчики из MIT создали нейросеть, которая самостоятельно находит музыкальный инструмент на видео и определяет, как он звучит. Если на записи присутствует несколько инструментов, программа позволяет пользователю выбрать, какой именно он хочет послушать, просто кликнув на него. При этом для обучения программы не требуется размеченных данных, сообщается в работе, которая будет представлена на сентябрьской конференции по компьютерному зрению European Conference on Computer Vision (ECCV). Очень часто для того, чтобы нейросеть научилась распознавать объекты на изображении или отдельные источники в звуковой дорожке, требуется большой набор размеченных данных. Однако проставлять метки приходится вручную, что занимает довольно много времени. Поэтому исследователи в последнее время все чаще используют альтернативные подходы к обучению программ, которые позволяют алгоритму самостоятельно получать необходимые знания. Авторы новой работы под руководством Хан Чжао (Hang Zhao) создали нейросеть под названием PixelPlayer. Она состоит из трех компонентов — графического, аудио и синтезирующего. Первая нейросеть анализирует графические элементы видео, в то время как вторая анализирует спектрограмму аудиодорожки. Затем синтезатор сопоставляет определенные области на кадрах (фактически, наборы пикселей) с определенными звуками, чтобы определить, как звучит тот или иной инструмент.
На демонстрационном видео показано, что пользователю достаточно кликнуть в область кадра, где запечатлен инструмент, и программа сделает его звук громче. Кроме того, PixelPlayer позволяет регулировать громкость инструментов с помощью бегунка и, таким образом, редактировать аудиотрек. В будущем группа Чжао надеется улучшить качество звука, использовав больше обучающего материала. В будущем PixelPlayer может стать удобным инструментом для редактирования аудио, позволяя например улучшать или восстанавливать старые записи концертов. Кроме того, алгоритм может лечь в основу системы, которая позволит роботам различать источники окружающих звуков. В прошлом исследователи из лаборатории Facebook Research разработали метод превращения музыкальных записей в записи с другими инструментами, стилем и жанром. Она смогла переделать симфонию Моцарта в запись пианиста, играющего музыку Бетховена. Кристина Уласович Источник: nplus1.ru Комментарии: |
|