Нейросеть Facebook предсказала движения музыкантов по аудиозаписи |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-06-22 19:02 Разработчики из Facebook представили нейросеть, которая умеет предсказывать движения рук музыканта по аудиозаписи. Система слушает музыкальную композицию и одновременно проецирует в дополненной реальности аватара, играющего мелодию. Программисты, чья статья была представлена на конференции Conference on Computer Vision and Pattern Recognition (CVPR), считают, что разработка может быть полезна для обучения игре на музыкальных инструментах. Сегодня для самостоятельного обучение игре на различных инструментах используются разные приложения и видеоуроки. Однако они, как правило, позволяют рассмотреть движения музыканта лишь с определенного ракурса. Перенос учителя в виртуальную или дополненную реальность может быть удобен для пользователей, так как он позволит им полностью увидеть правильную постановку рук при игре на инструменте. Группа разработчиков под руководством Эли Шлицермана (Eli Shlizerman) решила создать виртуальный аватар, который бы мог имитировать движения рук пианиста или скрипача, основываясь на аудиозаписи. Для этого они использовали LSTM-нейросеть. Это разновидность архитектуры рекуррентных нейросетей, где каждый слой имеет обратную связь с другими слоями и обладает своеобразной памятью, позволяющей учиться на своих ошибках и усваивать долгосрочные связи (подробнее об LSTM-нейросетях можно почитать в нашем материале «Самая человеческая задача»). В качестве данных для обучения программисты использовали публично доступные видеозаписи, на которых профессионалы играют на музыкальных инструментах без аккомпанемента. Для пианино исследователям удалось собрать 3,6 часа материала, для скрипки — 4,4 часа. На каждом кадре видеозаписи нейросеть определяла, где находятся руки и пальцы исполнителя и строила скелетную модель. Она сопоставляла эти данные с мел-частотным кепстральными коэффициентами, которые используются в качестве характеристики аудиосигналов. Важно заметить, что исследователи не использовали midi-файлы, поэтому нейросеть не обучалась зависимостям между нотами и, например, конкретными клавишами пианино.
На видеоролике хорошо видно, что аватар скорее подражает музыкантам, чем полноценно повторяет их движения. Тем не менее, движения виртуального персонажа выглядят вполне естественно. По мнению создателей, в будущем подобная технология может найти множество применений. Например, аватар может быть использован для обучения — в то время как он будет копировать движения профессионала в виртуальной реальности, пользователь сможет обойти его с разных сторон и понаблюдать за техникой игры. Сегодня виртуальные аватары все чаще используются для решения различных задач. Например, с их помощью предлагают опрашивать свидетелей преступления, лечить больных шизофренией и парализованных людей. Кристина Уласович Источник: nplus1.ru Комментарии: |
|