Нейросеть научили переносить движения людей между видеороликами

2018-08-27 18:05

Caroline Chan / YouTube

Американские исследователи создали нейросетевой алгоритм, способный переносить движения людей между двумя видеороликами. Для обучения ему необходимо предоставить записи человека с целевого видео длиной в несколько минут, после чего ему можно дать новое видео, движения из которого алгоритм перенесет на целевой ролик. Статья с описанием разработки опубликована на arXiv.org.

Перенос деталей и стиля между изображениями и видеороликами — одна из областей, в которой наглядно виден прогресс алгоритмов машинного обучения. В частности, широкую известность получил алгоритм пользователя Reddit deepfakes, способный подменять лица на видеороликах. Кроме того, существуют и более совершенные алгоритмы, которые учитывают множество параметров мимики для создания видеозаписей, которые сложно отличить от реальных. Тем не менее, обычно разработчики подобных систем концентрируются на переносе только движений частей лица, а не всего тела.

Группа исследователей из Университета Калифорнии в Беркли под руководством Алексея Эфроса (Alexei Efros) создали алгоритм, который также переносит движения людей между двумя видеороликами, но делает это для всего тела. Разработчики применили не прямой перенос, а перенос через промежуточные модели тела. Они выбрали такой способ по нескольким причинам. Главная из них заключается в том, что достаточно сложно собрать такой набор кадров, чтобы каждое изображение из него в точности отражало движения из исходного видео. Кроме того, даже при полном совпадении расположений частей тела на кадрах могут присутствовать сильные стилистические различия, мешающие переносу, например, разная одежда.

Вместо этого исследователи применили трехстадийную схему. Сначала открытый алгоритм OpenPose превращает исходное видео в упрощенную модель человеческого тела, состоящую из ключевых точек, соединенных линиями. После этого движения исходной модели передаются на целевую модель, причем они проходят нормализацию, потому что разные люди могут иметь разные пропорции тела и прямой перенос может привести к нереалистичным изменениям тела человека. Затем алгоритм pix2pixHD, разработанный в 2017 году другой группой исследователей из Университета Калифорнии в Беркли и NVIDIA, превращает движения модели в фотореалистичный видеоролик, на котором человек повторяет движения из исходного ролика:

Схема работы алгоритмов

Caroline Chan et al. / arXiv.org, 2018

Из архитектуры алгоритма происходит один из его главных недостатков — его необходимо обучать на видеоролике с множеством движений человека и переносить движения эта обученная модель сможет только на ролик с конкретным человеком. При этом в качестве исходных данных можно использовать видео с разными людьми.

Исследователи доработали алгоритм pix2pixHD для своей задачи таким образом, что при создании каждого следующего кадра алгоритм учитывает предыдущий кадр и модель тела, благодаря чему кадры видео становятся более согласованными между собой. Кроме того, исследователи использовали дополнительную нейросеть, отвечающую за отрисовку лица.

Несмотря на то, что в целом эта система достаточно хорошо справляется с задачей переноса, можно видеть, что на конечных роликах присутствуют заметные «артефакты». В основном авторы связывают это с работой алгоритма для создания модели тела из исходного ролика. Во-первых, он работает с отдельными кадрами без учета соседних, а во-вторых, он создает двумерную модель тела, которая не всегда корректно отражает перемещения частей тела в трехмерном пространстве.

Недавно исследователи из NVIDIA представили нейросеть, предназначенную для переноса деталей между видеороликами с разными стилями, к примеру, создания реалистичного ролика движения лица человека из ролика с движениями упрощенной модели. Главная особенность алгоритма заключается в сложной системе анализа соседних кадров, что позволяет получать на выходе стабильную последовательность кадров без резких переходов и «артефактов».

Григорий Копиев

Телеграм: t.me/ainewsline

Источник: nplus1.ru



		Нейросеть научили переносить движения людей между видеороликами
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2018-08-27 18:05 нейросети новости, Творчество ИИ Caroline Chan / YouTube Американские исследователи создали нейросетевой алгоритм, способный переносить движения людей между двумя видеороликами. Для обучения ему необходимо предоставить записи человека с целевого видео длиной в несколько минут, после чего ему можно дать новое видео, движения из которого алгоритм перенесет на целевой ролик. Статья с описанием разработки опубликована на arXiv.org. Перенос деталей и стиля между изображениями и видеороликами — одна из областей, в которой наглядно виден прогресс алгоритмов машинного обучения. В частности, широкую известность получил алгоритм пользователя Reddit deepfakes, способный подменять лица на видеороликах. Кроме того, существуют и более совершенные алгоритмы, которые учитывают множество параметров мимики для создания видеозаписей, которые сложно отличить от реальных. Тем не менее, обычно разработчики подобных систем концентрируются на переносе только движений частей лица, а не всего тела. Группа исследователей из Университета Калифорнии в Беркли под руководством Алексея Эфроса (Alexei Efros) создали алгоритм, который также переносит движения людей между двумя видеороликами, но делает это для всего тела. Разработчики применили не прямой перенос, а перенос через промежуточные модели тела. Они выбрали такой способ по нескольким причинам. Главная из них заключается в том, что достаточно сложно собрать такой набор кадров, чтобы каждое изображение из него в точности отражало движения из исходного видео. Кроме того, даже при полном совпадении расположений частей тела на кадрах могут присутствовать сильные стилистические различия, мешающие переносу, например, разная одежда. Вместо этого исследователи применили трехстадийную схему. Сначала открытый алгоритм OpenPose превращает исходное видео в упрощенную модель человеческого тела, состоящую из ключевых точек, соединенных линиями. После этого движения исходной модели передаются на целевую модель, причем они проходят нормализацию, потому что разные люди могут иметь разные пропорции тела и прямой перенос может привести к нереалистичным изменениям тела человека. Затем алгоритм pix2pixHD, разработанный в 2017 году другой группой исследователей из Университета Калифорнии в Беркли и NVIDIA, превращает движения модели в фотореалистичный видеоролик, на котором человек повторяет движения из исходного ролика: Схема работы алгоритмов Caroline Chan et al. / arXiv.org, 2018 Из архитектуры алгоритма происходит один из его главных недостатков — его необходимо обучать на видеоролике с множеством движений человека и переносить движения эта обученная модель сможет только на ролик с конкретным человеком. При этом в качестве исходных данных можно использовать видео с разными людьми. Исследователи доработали алгоритм pix2pixHD для своей задачи таким образом, что при создании каждого следующего кадра алгоритм учитывает предыдущий кадр и модель тела, благодаря чему кадры видео становятся более согласованными между собой. Кроме того, исследователи использовали дополнительную нейросеть, отвечающую за отрисовку лица. Несмотря на то, что в целом эта система достаточно хорошо справляется с задачей переноса, можно видеть, что на конечных роликах присутствуют заметные «артефакты». В основном авторы связывают это с работой алгоритма для создания модели тела из исходного ролика. Во-первых, он работает с отдельными кадрами без учета соседних, а во-вторых, он создает двумерную модель тела, которая не всегда корректно отражает перемещения частей тела в трехмерном пространстве. Недавно исследователи из NVIDIA представили нейросеть, предназначенную для переноса деталей между видеороликами с разными стилями, к примеру, создания реалистичного ролика движения лица человека из ролика с движениями упрощенной модели. Главная особенность алгоритма заключается в сложной системе анализа соседних кадров, что позволяет получать на выходе стабильную последовательность кадров без резких переходов и «артефактов». Григорий Копиев Телеграм: t.me/ainewsline Источник: nplus1.ru Комментарии:

Нейросеть научили переносить движения людей между видеороликами

Комментарии: