Нейросеть распознает ускоряющиеся объекты на видеозаписи

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


SpeedNet — это сверточная нейросеть, которая предсказывает ускорение или замедление объекта на видеозаписи. Модель обучали на корпусе реальных видеозаписей без ручной разметки. В основе SpeedNet лежит архитектура S3D-G модели.

Задача предсказания скорости движущихся объектов на видео предполагает, что модель способна распознать, когда скорость объекта отличается от естественной. SpeedNet предсказывает вероятность того, что объекты на видеозаписи ускорились. Нейросеть решает задачу бинарной классификации в self-supervised формате обучения. Через задачу предсказания скорости видео модель выучивается кодировать пространственно-временные характеристики. С помощью таких представлений модель хорошо масштабируется на задачу предсказания действия на видеозаписи.

Архитектура модели

SpeedNet обучается self-supervised. Модель основывается на 3D сверточной нейросети S3D-G. S3D-G — это state-of-the-art модель для распознавания действий. SpeedNet обучали и тестировали на датасете Kinetics. Kinetics состоит из 246 тысяч видео в тренировочной выборке и 50 тысяч видео в тестовой выборке.

Структура SpeedNet

Тестирование работы модели

Исследователи сравнили SpeedNet с другими self-supervised методами на датасетах UCF101 и HMDB51 split-1. Ниже видно, что SpeedNet с базовой моделью S3D-G обходит state-of-the-art методы.

Сравнение методов на датасетах UCF101 и HMDB51

Источник: neurohive.io

Комментарии: