Нейросеть воссоздала движения рук человека по его речи

2019-06-14 18:41

Американские разработчики создали алгоритм, способный предсказывать движения рук человека по его речи. Получая только аудиозапись речи, он создает анимированную модель тела человека, а затем на ее основе генерирует реалистичный видеоролик. Посвященная разработке статья будет представлена на конференции CPVR 2019.

Основным способом донесения информации до окружающих у людей выступает речь. Однако помимо нее в разговоре мы также активно пользуемся жестами, подкрепляя произнесенные слова и придавая им эмоциональную окраску. Кстати, согласно наиболее вероятной гипотезе развития человеческого языка, изначально предки человека наоборот общались в основном с помощью жестов, однако активное использование рук в быту привело к развитию звуковой коммуникации и сделало ее основной. Так или иначе, процесс произнесения человеком слов в разговоре тесно связан с движениями рук.

Исследователи под руководством Джитендры Малика (Jitendra Malik) из Калифорнийского университета в Беркли использовали эту связь для предсказания жестикуляции человека в разговоре на основе голосовой составляющей его речи. Работу алгоритма можно разбить на два этапа: сначала он предсказывает движения рук по аудиозаписи речи, а затем визуализирует предсказанные жесты с помощью алгоритма, представленного в 2018 году смежной группой исследователей. Тогда разработчики научили нейросеть переносить движения людей между видеороликами, использовав промежуточный этап с распознаванием позы человека.

На первом этапе алгоритм на базе сверточной нейросети UNet принимает двумерную спектрограмму аудиозаписи и превращает ее в одномерный промежуточный сигнал. Затем этот сигнал превращается в последовательность поз, представленных в виде скелетной модели с 49 ключевыми точками, отражающими части рук, плеч и шеи. После этого последовательность поз передается алгоритму визуализации, который превращает ее в видеоролик.

Схема работы алгоритма, создающего анимированную скелетную модель говорящего

Shiry Ginosar et al. / CPVR 2019

Для того, чтобы обучить алгоритм преобразованию речи в движения, исследователи собрали датасет, состоящий из записей суммарной длиной 144 часа. На записях были телеведущие, лекторы и религиозные проповедники — такой выбор обусловлен тем, что для них было легко найти длинные записи речи с жестикуляцией. С помощью алгоритма OpenPose исследователи сопоставили каждому кадру из датасета скелетную модель. Получая во время обучения записи речи и кадры с готовой моделью алгоритм научился создавать реалистичные видеоролики. Стоит отметить, что выбранный авторами подход подразумевает, что для корректной работы необходимо обучать отдельную нейросетевую модель для конкретного человека.

На продемонстрированном исследователями ролике можно видеть, что некоторые движения не полностью соответствуют реальным движениям человека на исходной записи. К примеру, зачастую алгоритм подбирает корректное движение, но использует не ту руку. Однако, это следствие скорее принципиального недостатка подхода, чем его некорректной реализации. Дело в том, что жесты во время речи не являются инвариантными — одной и той же фразе, сказанной одним и тем же человеком, могут соответствовать разные жесты.

Сравнение эффективности алгоритма с аналогами

Shiry Ginosar et al. / CPVR 2019

Исследователи провели количественную оценку работы алгоритма, подсчитав, какая доля ключевых точек в созданных алгоритмом моделях соответствовала положению точек, полученных для реального кадра. Новый алгоритм значительно опередил аналогичные алгоритмы, протестированные на тех же данных — 44,62 процента против 39,69 процента у алгоритма с лучшим результатом среди разработок других разработчиков. Примечательно, что вариант нового алгоритма, использованный без дискриминатора, получил более высокий результат, чем с дискриминатором. Авторы объясняют это тем, что дискриминатор провоцирует генератор на создание более однообразных выходных данных.

Недавно другая группа американских разработчиков научила нейросеть создавать по речи человека примерное изображение его лица. Алгоритм был обучен на датасете, состоящем из миллионов видеозаписей.

Григорий Копиев

Источник: nplus1.ru



		Нейросеть воссоздала движения рук человека по его речи
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2019-06-14 18:41 нейросети новости Американские разработчики создали алгоритм, способный предсказывать движения рук человека по его речи. Получая только аудиозапись речи, он создает анимированную модель тела человека, а затем на ее основе генерирует реалистичный видеоролик. Посвященная разработке статья будет представлена на конференции CPVR 2019. Основным способом донесения информации до окружающих у людей выступает речь. Однако помимо нее в разговоре мы также активно пользуемся жестами, подкрепляя произнесенные слова и придавая им эмоциональную окраску. Кстати, согласно наиболее вероятной гипотезе развития человеческого языка, изначально предки человека наоборот общались в основном с помощью жестов, однако активное использование рук в быту привело к развитию звуковой коммуникации и сделало ее основной. Так или иначе, процесс произнесения человеком слов в разговоре тесно связан с движениями рук. Исследователи под руководством Джитендры Малика (Jitendra Malik) из Калифорнийского университета в Беркли использовали эту связь для предсказания жестикуляции человека в разговоре на основе голосовой составляющей его речи. Работу алгоритма можно разбить на два этапа: сначала он предсказывает движения рук по аудиозаписи речи, а затем визуализирует предсказанные жесты с помощью алгоритма, представленного в 2018 году смежной группой исследователей. Тогда разработчики научили нейросеть переносить движения людей между видеороликами, использовав промежуточный этап с распознаванием позы человека. На первом этапе алгоритм на базе сверточной нейросети UNet принимает двумерную спектрограмму аудиозаписи и превращает ее в одномерный промежуточный сигнал. Затем этот сигнал превращается в последовательность поз, представленных в виде скелетной модели с 49 ключевыми точками, отражающими части рук, плеч и шеи. После этого последовательность поз передается алгоритму визуализации, который превращает ее в видеоролик. Схема работы алгоритма, создающего анимированную скелетную модель говорящего Shiry Ginosar et al. / CPVR 2019 Для того, чтобы обучить алгоритм преобразованию речи в движения, исследователи собрали датасет, состоящий из записей суммарной длиной 144 часа. На записях были телеведущие, лекторы и религиозные проповедники — такой выбор обусловлен тем, что для них было легко найти длинные записи речи с жестикуляцией. С помощью алгоритма OpenPose исследователи сопоставили каждому кадру из датасета скелетную модель. Получая во время обучения записи речи и кадры с готовой моделью алгоритм научился создавать реалистичные видеоролики. Стоит отметить, что выбранный авторами подход подразумевает, что для корректной работы необходимо обучать отдельную нейросетевую модель для конкретного человека. На продемонстрированном исследователями ролике можно видеть, что некоторые движения не полностью соответствуют реальным движениям человека на исходной записи. К примеру, зачастую алгоритм подбирает корректное движение, но использует не ту руку. Однако, это следствие скорее принципиального недостатка подхода, чем его некорректной реализации. Дело в том, что жесты во время речи не являются инвариантными — одной и той же фразе, сказанной одним и тем же человеком, могут соответствовать разные жесты. Сравнение эффективности алгоритма с аналогами Shiry Ginosar et al. / CPVR 2019 Исследователи провели количественную оценку работы алгоритма, подсчитав, какая доля ключевых точек в созданных алгоритмом моделях соответствовала положению точек, полученных для реального кадра. Новый алгоритм значительно опередил аналогичные алгоритмы, протестированные на тех же данных — 44,62 процента против 39,69 процента у алгоритма с лучшим результатом среди разработок других разработчиков. Примечательно, что вариант нового алгоритма, использованный без дискриминатора, получил более высокий результат, чем с дискриминатором. Авторы объясняют это тем, что дискриминатор провоцирует генератор на создание более однообразных выходных данных. Недавно другая группа американских разработчиков научила нейросеть создавать по речи человека примерное изображение его лица. Алгоритм был обучен на датасете, состоящем из миллионов видеозаписей. Григорий Копиев Источник: nplus1.ru Комментарии:

Нейросеть воссоздала движения рук человека по его речи

Комментарии: