OOPS: датасет для распознавания непреднамеренных действия на видеозаписи

МЕНЮ


Искусственный интеллект
Поиск
Регистрация на сайте
Сбор средств на аренду сервера для ai-news

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация




RSS


RSS новости

Новостная лента форума ailab.ru


OOPS — это датасет с видеозаписями действий людей, который предназначен для распознавания непреднамеренных действий. Созданием датасета занимались исследователи из Columbia University. Исследователи обучили базовую модель с учителем и сравнили ее работу с человеческой оценкой.

По краткому взгляду на видео человек часто способен определить, является ли действие человека на видео преднамеренным или нет. Это смотивировало исследователей собрать датасет для тестирования нейросетевых подходов. Исследователи выделяют 3 задачи, которые можно решить с помощью датасета:

  • Классификация преднамеренности действия;
  • Локализация перехода из преднамеренного действия в непреднамеренное;
  • Предсказание начала непреднамеренного действия
Различие между преднамеренным и непреднамеренным действиями

Датасет 

OOPS состоит из 20,338 видеозаписей с YouTube. Видеозаписи собирались из компиляций видео с неудачами людей. Суммарно длительность видеозаписей составляет более 50 часов. Видеозаписи отражают сцены из реального мира, которые были сняты обывателями. Это обеспечивает разнообразие действий, заднего плана и намерений. Датасет содержит множество причин неудач и непреднамеренных действий, включая физические и социальные ошибки, ошибки в планировании и ограниченность навыков агента. Данные включают в себя видеозаписи, оптический поток, оценка поз и разметка.

Ниже видны обобщенные статистики по данным. В большинстве случаев длина видеозаписи не превышает 15 секунд. Медианная и средняя длина клипов — 7.6 и 9.4 секунд. Чаще всего неудача происходит в первой половине видеозаписи (от 20 до 50% от всей длины видеозаписи).

Описательная статистика датасета

Источник: neurohive.io

Комментарии: