MiraData: крупный датасет видеоданных с большой продолжительностью и структурированными аннотациями.

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


При обучении генеративных моделей большую роль в качестве инференса готовых моделей играет датасет обучения.

Одним из неплохих источников может стать MiraData от Tencent — готовый датасет суммарной продолжительностью видео в 16 тысяч часов, предназначенный для обучения моделей генерации текста в видео. Он включает в себя длинные видеоролики (в среднем 72,1 секунды) с высокой интенсивностью движения и подробными структурированными аннотациями (в среднем 318 слов на ролик).

Для оценки качества датасета была даже специально создана система бенчмарков MiraBench из 17 метрик, оценивающих временную согласованность, движения в кадре, качество видео, и другие параметры. Согласно их результатам, MiroData превосходит другие известные датасеты, доступные в открытых источниках , которые в основном состоят из коротких видеороликов с плавающим качеством и короткими описаниями.

https://mira-space.github.io/

https://arxiv.org/pdf/2407.06358v1

https://huggingface.co/papers/2407.06358

https://github.com/mira-space/MiraData


Источник: mira-space.github.io

Комментарии: