VSI-Bench: бенчмарк для оценки визуально-пространственного восприятия MMLM

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


VSI-Bench (https://vision-x-nyu.github.io/thinking-in-space.github.io/) - видео-бенчмарк из 5130 пар "вопрос-ответ" основанных на 288 видеозаписях реальных сцен. Видеоматериалы были собраны из публичных датасетов ScanNet, ScanNet++ и ARKitScenes и содержат типы пространств: жилые помещения, офисы и производственные объекты.

Бенчмарк структурирован в виде 8 задач, классифицированных по трем категориям: конфигурационные, измерительные и пространственно-временные:

Конфигурационные задачи определяют количество объектов, измеряют относительные расстояния и направления и планируют маршруты.

Измерительные - определяют размеры объектов, помещений и абсолютные расстояния.

Пространственно-временные задачи выполняют оценку способности тестируемой MMLM к запоминанию последовательности появления объектов в видео.

Структура датасета (https://huggingface.co/datasets/nyu-visionx/VSI-Bench):

idx - номер записи в датасете;

dataset - источник видео (датасет): scannet, arkitscenes or scannetpp;

scene_name - название видео;

question_type - тип вопроса;

question - вопрос;

options - варианты ответа на вопрос, если возможен множественный выбор;

ground_truth - правильный ответ на вопрос.

Возможности VSI-Bench оценивались с 15 MLLM, поддерживающих видеоформат: Gemini-1.5, GPT-4o, InternVL2, ViLA, LongViLA, LongVA, LLaVA-OneVision и LLaVA-NeXT-Video.

Оценка проводилась в режиме zero-shot с применением стандартных запросов для каждой модели. В качестве метрик для задач с множественным выбором использовалась Accuracy (ACC), а для задач с числовыми ответами — Mean Relative Accuracy (MRA).

Результаты оценки показали, что, несмотря на достижение значительных результатов топовыми моделями, их производительность все еще уступает человеческой. Люди демонстрируют среднюю точность в 79%, в то время как MLLM с высшим результатом (Gemini-1.5 Pro) показывают более низкие показатели (48.8%).

Использование стандартных лингвистических техник: chain-of-thought, self-consistency и tree-of-thoughts не привели к улучшению результатов. Анализ ошибок выявил, что основная проблема для моделей - пространственное рассуждение, а не визуальное восприятие, NLP-навыки или обработка временных данных.

Локальная установка и запуск evaluation скрипта для нескольких моделей:

# Create conda env 

conda create —name vsibench python=3.10

conda activate vsibench

# Clone repo

git clone git@github.com:vision-x-nyu/thinking-in-space.git

cd thinking-in-space

# Update submodules

git submodule update —init —recursive

# Install requirements

cd transformers && pip install -e . && cd ..

pip install -e .

pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales

pip install deepspeed

# Run all-in-one evaluation script

bash evaluate_all_in_one.sh —model all —num_processes 8 —benchmark vsibench

Лицензирование: Apache 2.0 License.

Страница проекта (https://vision-x-nyu.github.io/thinking-in-space.github.io/)

Датасет (https://huggingface.co/datasets/nyu-visionx/VSI-Bench)

Arxiv (https://arxiv.org/pdf/2412.14171)

GitHub (https://github.com/vision-x-nyu/thinking-in-space)


Источник: github.com

Комментарии: