Робота научили жестикулировать по записям TED Talks |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2018-11-13 12:05 Корейские ученые научили трехмерную систему сопровождать речь жестами, использовав 52 часа записи выступлений спикеров на TED Talks. С помощью открытого алгоритма разметки позы OpenPose и рекуррентной нейросети им удалось научить систему сопровождать синтезированную речь правдоподобными жестами, а также использовать ее для управления говорящим гуманоидным роботом. Препринт статьи с описанием работы алгоритма опубликован на arXiv.org. Помимо производства и обработки речи для эффективного общения с людьми роботы должны уметь пользоваться и невербальными средствами коммуникации. Одно из таких средств — выражение эмоций, и в них роботы уже преуспели: в этом году американские инженеры сконструировали робота, который умеет выражать эмоции не только с помощью изменяющегося на экране изображения, но также и используя специальные шипы, имитирующие мурашки на человеческой коже. Другое полезное для роботов средство невербальной коммуникации — жесты. Научить им роботов решили корейские ученые из Научно-исследовательского института электроники и телекоммуникаций (ETRI) и Корейского института передовых технологий (KAIST) под руководством Янгву Юна (Youngwoo Yoon). Они собрали датасет из 52 часов записей выступлений спикеров на конференциях TED Talks. Жесты людей на видео были размечены с помощью открытого алгоритма OpenPose (использовались только движения головы, торса и рук) и соотнесены с отдельными акцентными словами фраз с помощью рекуррентной нейросети. В итоге получилась система, которая воспроизводит положение тела в трехмерном пространстве в соответствии с синтезированной речью. Затем ученые попросили 46 человек оценить по шкале от 1 до 5, насколько производимые жесты, сопровождающие речь, антропоморфны, соответствуют сказанному и приятны на вид. Добровольцы оценивали движения созданных в OpenSpace «палочек» без видимого объекта: ученые использовали для сравнения пример из датасета (ground truth), пример, полученный с помощью разработанного алгоритма, случайно подобранные движения, движения, настроенные вручную, а также движения, полученные с помощью расчета ближайших соседей из датасета. Созданные алгоритмом жесты превзошли по всем параметрам все остальные методы, кроме ground truth. Сравнение предложенного алгоритма (оранжевым) с ground truth (голубым), алгоритмом расчета ближайших соседей (серым), случайными движениями (желтым) и ручным управлением (синим) Полученную систему использовали в настоящем гуманоидном роботе NAO (он часто используется в исследованиях взаимодействия роботов с людьми): авторы работы утверждают, что роботу удалось успешно воспроизвести заданные ему комбинации движений. Yoon et al. / arXiv 2018
Разработчики отмечают, что использование в качестве данных для обучения видеозаписи выступлений на TED Talks позволило им убедиться в том, что производимые жесты проработаны и хорошо соответствуют речи. Тем не менее, следует учитывать то, что подобные лекции читают профессиональные спикеры, поэтому данные могут разниться с теми жестами, которые используются людьми в повседневной речи. Это, однако, уже вопрос дальнейшей обработки невербальных средств коммуникации самим роботом. Похожий на OpenPose алгоритм PoseNet недавно использовали для создания своеобразного зеркала: оценивая позу человека во время движения ученые научили нейросеть искать и показывать снимки других людей в точно такой же позе. Елизавета Ивтушок Источник: nplus1.ru Комментарии: |
|