Учёные из Университета Северной Каролины в Чапел-Хилл (University of North Carolina at Chapel Hill, США), а также исследователи из Adobe Research разработали метод, позволяющий по беззвучной видеозаписи восстановить звуковую дорожку, например, лай собаки, плач ребёнка или шум водопада.
Для решения этой задачи были задействованы рекуррентные нейронные сети — реализуемые на компьютере математические модели, представляющие собой связанные узлы (нейроны), обрабатывающие входной сигнал, руководствуясь собственными параметрами. Преимущество рекуррентных нейронных сетей в том, что каждое последующее состояние сети зависит от предыдущего, полученного на другом «куске» данных. Это проявляется в наличии у рекуррентной нейросети памяти и возможности распознавания последовательных данных, таких как звук, видео или текст. Для сравнения, работа обычной нейросети похожа на мгновенный акт распознавания образа нашим мозгом: сидя за рулём, важно заметить дорожный знак и распознать его тип, при этом почти не имеет значения траектория движения знака относительно автомобиля (за исключением редких случаев, когда есть опасность в него врезаться). Рекуррентная нейросеть постоянно переотправляет результат своих предсказаний в исходные данные, используемые для последующих предсказаний, подобно тому, как мы играем в «угадай мелодию», распознавая музыку по нескольким упорядоченным характерным признакам (нотам).
При обучении нейронным сетям показывали разные ролики, а те пытались обнаружить зависимость между видеорядом и звуковой дорожкой. При этом обучение пробовали проводить тремя разными способами: покадрово, синхронизируя звук и видеоряд; раздельно, когда нейросеть сначала ищет характерные признаки видео, а потом связывает их с характерными признаками звука (части нейросети, обрабатывающие видео и звук, учатся асинхронно); и, наконец, задействовав специальную технологию, позволяющую восстанавливать картинки между кадрами видео (она была разработана в 2010 году учёными из Брауновского (Brown University) и Дармштадтского технического (нем. Technische Universit?t Darmstadt) университетов).
Выяснилось, что последний метод обучения (flow) более чем в половине случаев лидирует над покадровым (frame) и асинхронным (seq), а если и отстаёт, то ненамного. Здесь показана суммарная статистика точности распознавания, чистоты звука и его уровня совпадения с видеорядом:
В качестве финальной проверки метода, звуки, реконструированные нейросетями по немым видеозаписям, дали послушать людям (показав и видео). Испытуемых предупредили, какими признаками должно обладать ненастоящее звуковое сопровождение: плохое совпадение с видео, низкое качество, большой уровень шума. Для верности, каждое озвученное нейросетями видео показывали трём испытуемым, устраивая затем голосование, является ли звуковая дорожка оригинальной. При этом учёные решили дополнительно усложнить процесс проверки, периодически показывая людям видео со звуком от другого ролика из той же категории. Результатом можно гордиться: более 70% искусственных звуковых сопровождений испытуемые не смогли отличить от реальных. Лучше всего удалось восстановить по видео звуки потоков воды, фейерверков и работающей бензопилы, в то время как в нейросетевой плач ребёнка поверило всего около 61% испытуемых. Интересно, что на тех типах роликов, где нейросети показывали худшие результаты, испытуемые часто выбирали звуковую дорожку от других роликов той же группы (путая вертолёты, принтеры и плачущих детей).
В дальнейшем исследователи планируют научить ИИ ассоциировать звук с конкретным объектом на видео, а также попробовать найти оптимальные способы обучения нейросетей.
Вы можете сами оценить качество озвучки роликов нейросетью, пройдя по этой ссылке — http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html.