Нейросеть воссоздала движения рук человека по его речи |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-06-14 18:41 Американские разработчики создали алгоритм, способный предсказывать движения рук человека по его речи. Получая только аудиозапись речи, он создает анимированную модель тела человека, а затем на ее основе генерирует реалистичный видеоролик. Посвященная разработке статья будет представлена на конференции CPVR 2019. Основным способом донесения информации до окружающих у людей выступает речь. Однако помимо нее в разговоре мы также активно пользуемся жестами, подкрепляя произнесенные слова и придавая им эмоциональную окраску. Кстати, согласно наиболее вероятной гипотезе развития человеческого языка, изначально предки человека наоборот общались в основном с помощью жестов, однако активное использование рук в быту привело к развитию звуковой коммуникации и сделало ее основной. Так или иначе, процесс произнесения человеком слов в разговоре тесно связан с движениями рук. Исследователи под руководством Джитендры Малика (Jitendra Malik) из Калифорнийского университета в Беркли использовали эту связь для предсказания жестикуляции человека в разговоре на основе голосовой составляющей его речи. Работу алгоритма можно разбить на два этапа: сначала он предсказывает движения рук по аудиозаписи речи, а затем визуализирует предсказанные жесты с помощью алгоритма, представленного в 2018 году смежной группой исследователей. Тогда разработчики научили нейросеть переносить движения людей между видеороликами, использовав промежуточный этап с распознаванием позы человека.
На первом этапе алгоритм на базе сверточной нейросети UNet принимает двумерную спектрограмму аудиозаписи и превращает ее в одномерный промежуточный сигнал. Затем этот сигнал превращается в последовательность поз, представленных в виде скелетной модели с 49 ключевыми точками, отражающими части рук, плеч и шеи. После этого последовательность поз передается алгоритму визуализации, который превращает ее в видеоролик. На продемонстрированном исследователями ролике можно видеть, что некоторые движения не полностью соответствуют реальным движениям человека на исходной записи. К примеру, зачастую алгоритм подбирает корректное движение, но использует не ту руку. Однако, это следствие скорее принципиального недостатка подхода, чем его некорректной реализации. Дело в том, что жесты во время речи не являются инвариантными — одной и той же фразе, сказанной одним и тем же человеком, могут соответствовать разные жесты. Недавно другая группа американских разработчиков научила нейросеть создавать по речи человека примерное изображение его лица. Алгоритм был обучен на датасете, состоящем из миллионов видеозаписей. Григорий Копиев Источник: nplus1.ru Комментарии: |
|