Робота научили жестикулировать по записям TED Talks

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Корейские ученые научили трехмерную систему сопровождать речь жестами, использовав 52 часа записи выступлений спикеров на TED Talks. С помощью открытого алгоритма разметки позы OpenPose и рекуррентной нейросети им удалось научить систему сопровождать синтезированную речь правдоподобными жестами, а также использовать ее для управления говорящим гуманоидным роботом. Препринт статьи с описанием работы алгоритма опубликован на arXiv.org.

Помимо производства и обработки речи для эффективного общения с людьми роботы должны уметь пользоваться и невербальными средствами коммуникации. Одно из таких средств — выражение эмоций, и в них роботы уже преуспели: в этом году американские инженеры сконструировали робота, который умеет выражать эмоции не только с помощью изменяющегося на экране изображения, но также и используя специальные шипы, имитирующие мурашки на человеческой коже.

Другое полезное для роботов средство невербальной коммуникации — жесты. Научить им роботов решили корейские ученые из Научно-исследовательского института электроники и телекоммуникаций (ETRI) и Корейского института передовых технологий (KAIST) под руководством Янгву Юна (Youngwoo Yoon). Они собрали датасет из 52 часов записей выступлений спикеров на конференциях TED Talks. Жесты людей на видео были размечены с помощью открытого алгоритма OpenPose (использовались только движения головы, торса и рук) и соотнесены с отдельными акцентными словами фраз с помощью рекуррентной нейросети. В итоге получилась система, которая воспроизводит положение тела в трехмерном пространстве в соответствии с синтезированной речью.

Затем ученые попросили 46 человек оценить по шкале от 1 до 5, насколько производимые жесты, сопровождающие речь, антропоморфны, соответствуют сказанному и приятны на вид. Добровольцы оценивали движения созданных в OpenSpace «палочек» без видимого объекта: ученые использовали для сравнения пример из датасета (ground truth), пример, полученный с помощью разработанного алгоритма, случайно подобранные движения, движения, настроенные вручную, а также движения, полученные с помощью расчета ближайших соседей из датасета. Созданные алгоритмом жесты превзошли по всем параметрам все остальные методы, кроме ground truth.

Сравнение предложенного алгоритма (оранжевым) с ground truth (голубым), алгоритмом расчета ближайших соседей (серым), случайными движениями (желтым) и ручным управлением (синим)

Полученную систему использовали в настоящем гуманоидном роботе NAO (он часто используется в исследованиях взаимодействия роботов с людьми): авторы работы утверждают, что роботу удалось успешно воспроизвести заданные ему комбинации движений.

Yoon et al. / arXiv 2018

 

Разработчики отмечают, что использование в качестве данных для обучения видеозаписи выступлений на TED Talks позволило им убедиться в том, что производимые жесты проработаны и хорошо соответствуют речи. Тем не менее, следует учитывать то, что подобные лекции читают профессиональные спикеры, поэтому данные могут разниться с теми жестами, которые используются людьми в повседневной речи. Это, однако, уже вопрос дальнейшей обработки невербальных средств коммуникации самим роботом. 

Похожий на OpenPose алгоритм PoseNet недавно использовали для создания своеобразного зеркала: оценивая позу человека во время движения ученые научили нейросеть искать и показывать снимки других людей в точно такой же позе.

Елизавета Ивтушок


Источник: nplus1.ru

Комментарии: