Нейросеть предсказала движения человека по видео |
||
МЕНЮ Искусственный интеллект Поиск Регистрация на сайте Помощь проекту ТЕМЫ Новости ИИ Искусственный интеллект Разработка ИИГолосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Техническое зрение Чат-боты Авторизация |
2019-08-15 22:21 Американские разработчики создали алгоритм, который, получая видео с действиями человека, предсказывает его следующие действия в виде анимированной 3D-модели. К примеру, он достаточно точно предсказывает, как будет происходить бросок мяча, увидев только начало замаха руки, рассказывают авторы препринта, опубликованного на arXiv.org. Доклад о разработке будет представлен на конференции ICCV 2019. Увидев человека, совершающего какое-либо действие, к примеру, идущего по улице, мы можем в общих чертах представить себе, что он будет делать дальше и как это будет выглядеть. Для компьютерных алгоритмов эта задача достаточно нетривиальна. Разработчики начали решать эту проблему давно и в этой области уже есть некоторые наработки, но они имеют ограничения. К примеру, некоторые алгоритмы работают только с одним кадром и не учитывают предыдущие состояния человека, а также не создают полноценную анимированную 3D-модель. Группа разработчиков из Калифорнийского университета в Беркли под руководством Джитендры Малика (Jitendra Malik) создала алгоритм, способный по последовательности кадров напрямую предсказать будущее поведение человека в виде 3D-модели.
Алгоритм состоит из нескольких частей и этапов, но в нем можно выделить два ключевых этапа. В качестве исходных данных он получает последовательность кадров с двигающимся человеком. Для каждого кадра остаточная сверточная нейросеть ResNet-50 создает вектор, описывающий текущее состояние человека. На основе последовательности этих векторов нейросетевой кодировщик создает единое представление, которое описывает движения человека с начала ролика до текущего кадра. Разработчики обучили алгоритм на четырех публично доступных датасетах, в том числе Human3.6M, содержащем пары из видео и сопоставленных анимированных 3D-моделей. В основном эти датасеты содержали данные о спортивных действиях, к примеру, бросках мячей. В результате авторам удалось обучить алгоритм достаточно точно предсказывать движения людей, хотя некоторые расхождения с реальными видео все же есть. В прошлом году другие американские разработчики создали нейросеть, способную предугадывать движение 3D-модели собаки по видео от первого лица на пять кадров вперед. Григорий Копиев Источник: nplus1.ru Комментарии: |
|