VSI-Bench: бенчмарк для оценки визуально-пространственного восприятия MMLM |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-01-04 12:30 VSI-Bench (https://vision-x-nyu.github.io/thinking-in-space.github.io/) - видео-бенчмарк из 5130 пар "вопрос-ответ" основанных на 288 видеозаписях реальных сцен. Видеоматериалы были собраны из публичных датасетов ScanNet, ScanNet++ и ARKitScenes и содержат типы пространств: жилые помещения, офисы и производственные объекты. Бенчмарк структурирован в виде 8 задач, классифицированных по трем категориям: конфигурационные, измерительные и пространственно-временные: Конфигурационные задачи определяют количество объектов, измеряют относительные расстояния и направления и планируют маршруты. Измерительные - определяют размеры объектов, помещений и абсолютные расстояния. Пространственно-временные задачи выполняют оценку способности тестируемой MMLM к запоминанию последовательности появления объектов в видео. Структура датасета (https://huggingface.co/datasets/nyu-visionx/VSI-Bench):
Возможности VSI-Bench оценивались с 15 MLLM, поддерживающих видеоформат: Gemini-1.5, GPT-4o, InternVL2, ViLA, LongViLA, LongVA, LLaVA-OneVision и LLaVA-NeXT-Video. Оценка проводилась в режиме zero-shot с применением стандартных запросов для каждой модели. В качестве метрик для задач с множественным выбором использовалась Accuracy (ACC), а для задач с числовыми ответами — Mean Relative Accuracy (MRA). Результаты оценки показали, что, несмотря на достижение значительных результатов топовыми моделями, их производительность все еще уступает человеческой. Люди демонстрируют среднюю точность в 79%, в то время как MLLM с высшим результатом (Gemini-1.5 Pro) показывают более низкие показатели (48.8%). Использование стандартных лингвистических техник: chain-of-thought, self-consistency и tree-of-thoughts не привели к улучшению результатов. Анализ ошибок выявил, что основная проблема для моделей - пространственное рассуждение, а не визуальное восприятие, NLP-навыки или обработка временных данных. Локальная установка и запуск evaluation скрипта для нескольких моделей: # Create conda env conda create —name vsibench python=3.10 conda activate vsibench # Clone repo git clone git@github.com:vision-x-nyu/thinking-in-space.git cd thinking-in-space # Update submodules git submodule update —init —recursive # Install requirements cd transformers && pip install -e . && cd .. pip install -e . pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales pip install deepspeed # Run all-in-one evaluation script bash evaluate_all_in_one.sh —model all —num_processes 8 —benchmark vsibench Лицензирование: Apache 2.0 License. Страница проекта (https://vision-x-nyu.github.io/thinking-in-space.github.io/) Датасет (https://huggingface.co/datasets/nyu-visionx/VSI-Bench) Arxiv (https://arxiv.org/pdf/2412.14171) GitHub (https://github.com/vision-x-nyu/thinking-in-space) Источник: github.com Комментарии: |
|