Нейросети научили виртуальных персонажей реалистичным сложным движениям

2018-04-13 13:05

Jason Peng / YouTube

Исследователи из США и Канады разработали алгоритм глубокого обучения с подкреплением для виртуальных персонажей, выполняющих сложные движения на основе примеров, в том числе и записей движения настоящих людей. Алгоритм не просто может в точности повторить пример, а учится движению и может впоследствии подстраивать его под изменения окружающей среды или строения тела, сообщается на сайте Калифорнийского университета в Беркли. Разработчики показали, как обученные таким образом персонажи выполняют движения из боевых единоборств и спорта или перемещаются в сложной обстановке. Разработка будет представлена на конференции SIGGRAPH 2018, статья опубликована на arXiv.org.

В современной компьютерной графике для фильмов или игр используются виртуальные персонажи, которые имитируют движения человека или животных. Как правило, они могут либо в точности воспроизводить заданные последовательности действий либо допускают некоторую вариативность, но в таком случае заточены под конкретную задачу и плохо адаптируются к ее изменению или изменению среды. В качестве решения этой проблемы ведущие исследователи предлагают использовать машинное обучение для создания персонажей, которые учатся подобно людям и обладают способностью адаптироваться к разным ситуациям.

Группа исследователей под руководством Мишеля Ван де Панне (Michiel van de Panne) из Университета Британской Колумбии разработала алгоритм DeepMimic для обучения сложным движениям, выполняемым людьми или животными. Разработчики выбрали метод обучения с подкреплением, который часто применяется для решения подобных задач. Его суть заключается в том, что управляемый алгоритмом агент находится в среде и, выполняя различные действия, может получать за них награду. Таким образом, путем проб и ошибок он учится выполнять последовательность действий, приводящую к наибольшей награде и тем самым постепенно приближается к нужному создателям результату.

Для обучения исследователи создали гуманоидного виртуального персонажа и задавали движения-примеры, которые он должен был научиться выполнять. Эти движения могут быть как созданы искусственно, так и сняты с помощью захвата движений людей. Каждое такое движение-пример разбивается на множество промежуточных состояний. Функция вознаграждения алгоритма зависит от разницы между положением персонажа в примере и положением агента во время очередной попытки. Исследователи показали, как этот метод позволил научить алгоритм выполнять множество сложных движений, причем даже при изменении окружающей среды, внешних воздействиях или изменении строения агента:

Помимо функции вознаграждения в основе успеха разработанного алгоритма лежит два основных принципа. Обычно при обучении с подкреплением алгоритм выполняет случайные последовательности действий и получает оценку совершенных действий. Но в случае со сложными движениями, такими как сальто назад, вероятность того, что персонаж случайно сделает такое движение крайне мала. Соответственно, он просто не будет знать, что необходимая последовательность действий приводит к получению большой награды. Разработчики решили упростить задачу обучения, изменив начальные условия при каждом цикле тренировки. Алгоритм начинает выполнять последовательность действий не из одного и того же момента движения-образца, а из случайных, например, в середине сальто. Таким образом он получает данные о том, какие движение приводят к получению большой награды еще до того, как он научился доходить до этого движения из начальной точки, в данном случае из положения стоя.

Второй принцип, позволяющий эффективно обучать алгоритм, заключается в раннем прерывании неудачных циклов обучения. Если раннего прерывания нет, то после неудачной попытки выполнить задачу персонаж может практически неограниченное время пытаться продолжить выполнение. К примеру, после неудачного сальто он может упасть на спину и безуспешно пытаться встать или заново выполнить прыжок, но уже из положения сидя. Помимо времени обучения это означает, что датасет, собираемый во время обучения будет в основном наполнен именно такими примерами. Для того, чтобы этого не происходило, исследователи предложили задавать критические условия. В случае с выполнением сальто этими условиями могут быть касания пола спиной или головой — этого просто не может произойти при правильном выполнении такой задачи.

В прошлом году другая группа исследователей под руководством Мишеля Ван де Панне представила алгоритм DeepLoco, который также основан на обучении с подкреплением. Он был адаптирован для обучения двуногих виртуальных персонажей ходьбе и некоторым более сложным движением, например, с его помощью агенты научились пинать мяч к цели.

Григорий Копиев

Источник: nplus1.ru



		Нейросети научили виртуальных персонажей реалистичным сложным движениям
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ Разработка ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Психология Работа головного мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовые компьютеры Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2018-04-13 13:05 нейросети новости Jason Peng / YouTube Исследователи из США и Канады разработали алгоритм глубокого обучения с подкреплением для виртуальных персонажей, выполняющих сложные движения на основе примеров, в том числе и записей движения настоящих людей. Алгоритм не просто может в точности повторить пример, а учится движению и может впоследствии подстраивать его под изменения окружающей среды или строения тела, сообщается на сайте Калифорнийского университета в Беркли. Разработчики показали, как обученные таким образом персонажи выполняют движения из боевых единоборств и спорта или перемещаются в сложной обстановке. Разработка будет представлена на конференции SIGGRAPH 2018, статья опубликована на arXiv.org. В современной компьютерной графике для фильмов или игр используются виртуальные персонажи, которые имитируют движения человека или животных. Как правило, они могут либо в точности воспроизводить заданные последовательности действий либо допускают некоторую вариативность, но в таком случае заточены под конкретную задачу и плохо адаптируются к ее изменению или изменению среды. В качестве решения этой проблемы ведущие исследователи предлагают использовать машинное обучение для создания персонажей, которые учатся подобно людям и обладают способностью адаптироваться к разным ситуациям. Группа исследователей под руководством Мишеля Ван де Панне (Michiel van de Panne) из Университета Британской Колумбии разработала алгоритм DeepMimic для обучения сложным движениям, выполняемым людьми или животными. Разработчики выбрали метод обучения с подкреплением, который часто применяется для решения подобных задач. Его суть заключается в том, что управляемый алгоритмом агент находится в среде и, выполняя различные действия, может получать за них награду. Таким образом, путем проб и ошибок он учится выполнять последовательность действий, приводящую к наибольшей награде и тем самым постепенно приближается к нужному создателям результату. Для обучения исследователи создали гуманоидного виртуального персонажа и задавали движения-примеры, которые он должен был научиться выполнять. Эти движения могут быть как созданы искусственно, так и сняты с помощью захвата движений людей. Каждое такое движение-пример разбивается на множество промежуточных состояний. Функция вознаграждения алгоритма зависит от разницы между положением персонажа в примере и положением агента во время очередной попытки. Исследователи показали, как этот метод позволил научить алгоритм выполнять множество сложных движений, причем даже при изменении окружающей среды, внешних воздействиях или изменении строения агента: Помимо функции вознаграждения в основе успеха разработанного алгоритма лежит два основных принципа. Обычно при обучении с подкреплением алгоритм выполняет случайные последовательности действий и получает оценку совершенных действий. Но в случае со сложными движениями, такими как сальто назад, вероятность того, что персонаж случайно сделает такое движение крайне мала. Соответственно, он просто не будет знать, что необходимая последовательность действий приводит к получению большой награды. Разработчики решили упростить задачу обучения, изменив начальные условия при каждом цикле тренировки. Алгоритм начинает выполнять последовательность действий не из одного и того же момента движения-образца, а из случайных, например, в середине сальто. Таким образом он получает данные о том, какие движение приводят к получению большой награды еще до того, как он научился доходить до этого движения из начальной точки, в данном случае из положения стоя. Второй принцип, позволяющий эффективно обучать алгоритм, заключается в раннем прерывании неудачных циклов обучения. Если раннего прерывания нет, то после неудачной попытки выполнить задачу персонаж может практически неограниченное время пытаться продолжить выполнение. К примеру, после неудачного сальто он может упасть на спину и безуспешно пытаться встать или заново выполнить прыжок, но уже из положения сидя. Помимо времени обучения это означает, что датасет, собираемый во время обучения будет в основном наполнен именно такими примерами. Для того, чтобы этого не происходило, исследователи предложили задавать критические условия. В случае с выполнением сальто этими условиями могут быть касания пола спиной или головой — этого просто не может произойти при правильном выполнении такой задачи. В прошлом году другая группа исследователей под руководством Мишеля Ван де Панне представила алгоритм DeepLoco, который также основан на обучении с подкреплением. Он был адаптирован для обучения двуногих виртуальных персонажей ходьбе и некоторым более сложным движением, например, с его помощью агенты научились пинать мяч к цели. Григорий Копиев Источник: nplus1.ru Комментарии:

Нейросети научили виртуальных персонажей реалистичным сложным движениям

Комментарии: