Нейросеть научилась озвучивать немые видеоролики

Исследователи обучили нейронную сеть генерировать звук по видеоряду.

Учёные из Университета Северной Каролины в Чапел-Хилл (University of North Carolina at Chapel Hill, США), а также исследователи из Adobe Research разработали метод, позволяющий по беззвучной видеозаписи восстановить звуковую дорожку, например, лай собаки, плач ребёнка или шум водопада.

Для решения этой задачи были задействованы рекуррентные нейронные сети — реализуемые на компьютере математические модели, представляющие собой связанные узлы (нейроны), обрабатывающие входной сигнал, руководствуясь собственными параметрами. Преимущество рекуррентных нейронных сетей в том, что каждое последующее состояние сети зависит от предыдущего, полученного на другом «куске» данных. Это проявляется в наличии у рекуррентной нейросети памяти и возможности распознавания последовательных данных, таких как звук, видео или текст. Для сравнения, работа обычной нейросети похожа на мгновенный акт распознавания образа нашим мозгом: сидя за рулём, важно заметить дорожный знак и распознать его тип, при этом почти не имеет значения траектория движения знака относительно автомобиля (за исключением редких случаев, когда есть опасность в него врезаться). Рекуррентная нейросеть постоянно переотправляет результат своих предсказаний в исходные данные, используемые для последующих предсказаний, подобно тому, как мы играем в «угадай мелодию», распознавая музыку по нескольким упорядоченным характерным признакам (нотам).

При обучении нейронным сетям показывали разные ролики, а те пытались обнаружить зависимость между видеорядом и звуковой дорожкой. При этом обучение пробовали проводить тремя разными способами: покадрово, синхронизируя звук и видеоряд; раздельно, когда нейросеть сначала ищет характерные признаки видео, а потом связывает их с характерными признаками звука (части нейросети, обрабатывающие видео и звук, учатся асинхронно); и, наконец, задействовав специальную технологию, позволяющую восстанавливать картинки между кадрами видео (она была разработана в 2010 году учёными из Брауновского (Brown University) и Дармштадтского технического (нем. Technische Universit?t Darmstadt) университетов).

Выяснилось, что последний метод обучения (flow) более чем в половине случаев лидирует над покадровым (frame) и асинхронным (seq), а если и отстаёт, то ненамного. Здесь показана суммарная статистика точности распознавания, чистоты звука и его уровня совпадения с видеорядом:

Суммарная статистика точности распознавания, чистоты звука и его уровня совпадения с видеорядом

В качестве финальной проверки метода, звуки, реконструированные нейросетями по немым видеозаписям, дали послушать людям (показав и видео). Испытуемых предупредили, какими признаками должно обладать ненастоящее звуковое сопровождение: плохое совпадение с видео, низкое качество, большой уровень шума. Для верности, каждое озвученное нейросетями видео показывали трём испытуемым, устраивая затем голосование, является ли звуковая дорожка оригинальной. При этом учёные решили дополнительно усложнить процесс проверки, периодически показывая людям видео со звуком от другого ролика из той же категории. Результатом можно гордиться: более 70% искусственных звуковых сопровождений испытуемые не смогли отличить от реальных. Лучше всего удалось восстановить по видео звуки потоков воды, фейерверков и работающей бензопилы, в то время как в нейросетевой плач ребёнка поверило всего около 61% испытуемых. Интересно, что на тех типах роликов, где нейросети показывали худшие результаты, испытуемые часто выбирали звуковую дорожку от других роликов той же группы (путая вертолёты, принтеры и плачущих детей).

В дальнейшем исследователи планируют научить ИИ ассоциировать звук с конкретным объектом на видео, а также попробовать найти оптимальные способы обучения нейросетей.

Вы можете сами оценить качество озвучки роликов нейросетью, пройдя по этой ссылке — http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html.



		Нейросеть научилась озвучивать немые видеоролики
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2017-12-29 16:21 новости нейронных сетей Исследователи обучили нейронную сеть генерировать звук по видеоряду. Учёные из Университета Северной Каролины в Чапел-Хилл (University of North Carolina at Chapel Hill, США), а также исследователи из Adobe Research разработали метод, позволяющий по беззвучной видеозаписи восстановить звуковую дорожку, например, лай собаки, плач ребёнка или шум водопада. Для решения этой задачи были задействованы рекуррентные нейронные сети — реализуемые на компьютере математические модели, представляющие собой связанные узлы (нейроны), обрабатывающие входной сигнал, руководствуясь собственными параметрами. Преимущество рекуррентных нейронных сетей в том, что каждое последующее состояние сети зависит от предыдущего, полученного на другом «куске» данных. Это проявляется в наличии у рекуррентной нейросети памяти и возможности распознавания последовательных данных, таких как звук, видео или текст. Для сравнения, работа обычной нейросети похожа на мгновенный акт распознавания образа нашим мозгом: сидя за рулём, важно заметить дорожный знак и распознать его тип, при этом почти не имеет значения траектория движения знака относительно автомобиля (за исключением редких случаев, когда есть опасность в него врезаться). Рекуррентная нейросеть постоянно переотправляет результат своих предсказаний в исходные данные, используемые для последующих предсказаний, подобно тому, как мы играем в «угадай мелодию», распознавая музыку по нескольким упорядоченным характерным признакам (нотам). При обучении нейронным сетям показывали разные ролики, а те пытались обнаружить зависимость между видеорядом и звуковой дорожкой. При этом обучение пробовали проводить тремя разными способами: покадрово, синхронизируя звук и видеоряд; раздельно, когда нейросеть сначала ищет характерные признаки видео, а потом связывает их с характерными признаками звука (части нейросети, обрабатывающие видео и звук, учатся асинхронно); и, наконец, задействовав специальную технологию, позволяющую восстанавливать картинки между кадрами видео (она была разработана в 2010 году учёными из Брауновского (Brown University) и Дармштадтского технического (нем. Technische Universit?t Darmstadt) университетов). Выяснилось, что последний метод обучения (flow) более чем в половине случаев лидирует над покадровым (frame) и асинхронным (seq), а если и отстаёт, то ненамного. Здесь показана суммарная статистика точности распознавания, чистоты звука и его уровня совпадения с видеорядом: В качестве финальной проверки метода, звуки, реконструированные нейросетями по немым видеозаписям, дали послушать людям (показав и видео). Испытуемых предупредили, какими признаками должно обладать ненастоящее звуковое сопровождение: плохое совпадение с видео, низкое качество, большой уровень шума. Для верности, каждое озвученное нейросетями видео показывали трём испытуемым, устраивая затем голосование, является ли звуковая дорожка оригинальной. При этом учёные решили дополнительно усложнить процесс проверки, периодически показывая людям видео со звуком от другого ролика из той же категории. Результатом можно гордиться: более 70% искусственных звуковых сопровождений испытуемые не смогли отличить от реальных. Лучше всего удалось восстановить по видео звуки потоков воды, фейерверков и работающей бензопилы, в то время как в нейросетевой плач ребёнка поверило всего около 61% испытуемых. Интересно, что на тех типах роликов, где нейросети показывали худшие результаты, испытуемые часто выбирали звуковую дорожку от других роликов той же группы (путая вертолёты, принтеры и плачущих детей). В дальнейшем исследователи планируют научить ИИ ассоциировать звук с конкретным объектом на видео, а также попробовать найти оптимальные способы обучения нейросетей. Вы можете сами оценить качество озвучки роликов нейросетью, пройдя по этой ссылке — http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html. Источник: 22century.ru Комментарии:

Нейросеть научилась озвучивать немые видеоролики

Комментарии: