Нейросеть генерирует видео с говорящим человеком по аудиозаписи

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

Атаки на ИИ
ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Промпты. Генеративные запросы
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2020-01-17 12:00

новости нейронных сетей, Творчество ИИ

Исследователи из SenseTime опубликовали генеративную нейросеть, которая воспроизводит видеозапись говорящего человека по аудио с разговором. Модель принимает на вход изображение целевой персоны и аудиозапись с речью. На выходе модель отдает видеозапись с целевой персоной, на которой выражение лица персоны соответствует аудиодорожке.

Особенность подхода в его динамичности. Для рендеринга каждого человека в выборке не выучивается отдельная модель. При этом нейросеть может выдать реалистичную видеозапись для любой персоны и с любой аудиозаписью.

Как это работает

Модель состоит из сети, которая конвертирует аудио в выражение лица, и сети, которая генерирует изображения с измененной зоной рта. Получается, что на выходе аудиозапись и выражение лица целевой персоны сопоставимы.

Целевое видео с персоной рендерится так, чтобы получить реконструкцию лица. Модель выучивает такие параметры целевого лица, как выражение, геометрия и поза.

Исследователи формулируют метод адаптации спикера как нейросеть. Эта идея позаимствована из распознавания речи. Так, Audio ID-Removing блок нейросети убирает персональные особенности речи из аудиозаписи и сводит аудиозапись к звучанию “глобального спикера”. Исследователи избавляются от речевых особенностей спикеров на аудиозаписей, потому что это излишняя информация, которая добавляет больше шума в модель. После этого этапа аудиозапись поступает в рекуррентную нейросеть. Рекуррентная нейросеть конвертирует аудиозапись в набор параметров выражения лица.

Структура Audio ID-Removing блока в нейросети

Телеграм: t.me/ainewsline

Источник: neurohive.io



		Нейросеть генерирует видео с говорящим человеком по аудиозаписи
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2020-01-17 12:00 новости нейронных сетей, Творчество ИИ Исследователи из SenseTime опубликовали генеративную нейросеть, которая воспроизводит видеозапись говорящего человека по аудио с разговором. Модель принимает на вход изображение целевой персоны и аудиозапись с речью. На выходе модель отдает видеозапись с целевой персоной, на которой выражение лица персоны соответствует аудиодорожке. Особенность подхода в его динамичности. Для рендеринга каждого человека в выборке не выучивается отдельная модель. При этом нейросеть может выдать реалистичную видеозапись для любой персоны и с любой аудиозаписью. Как это работает Модель состоит из сети, которая конвертирует аудио в выражение лица, и сети, которая генерирует изображения с измененной зоной рта. Получается, что на выходе аудиозапись и выражение лица целевой персоны сопоставимы. Целевое видео с персоной рендерится так, чтобы получить реконструкцию лица. Модель выучивает такие параметры целевого лица, как выражение, геометрия и поза. Пайплайн обучения нейросети Исследователи формулируют метод адаптации спикера как нейросеть. Эта идея позаимствована из распознавания речи. Так, Audio ID-Removing блок нейросети убирает персональные особенности речи из аудиозаписи и сводит аудиозапись к звучанию “глобального спикера”. Исследователи избавляются от речевых особенностей спикеров на аудиозаписей, потому что это излишняя информация, которая добавляет больше шума в модель. После этого этапа аудиозапись поступает в рекуррентную нейросеть. Рекуррентная нейросеть конвертирует аудиозапись в набор параметров выражения лица. Структура Audio ID-Removing блока в нейросети Телеграм: t.me/ainewsline Источник: neurohive.io Комментарии:

Нейросеть генерирует видео с говорящим человеком по аудиозаписи

Комментарии: