Apollo: семейство мультимодальных моделей для понимания медиаконтента

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Apollo (https://apollo-lmms.github.io/) - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги.

Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров.

Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений.

Семейство состоит из трех моделей:

Apollo 7B (https://huggingface.co/Apollo-LMMs/Apollo-7B-t32)

Apollo 3B (https://huggingface.co/Apollo-LMMs/Apollo-3B-t32)

Apollo 1.5B (https://huggingface.co/Apollo-LMMs/Apollo-1_5B-t32)

Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта (https://github.com/Apollo-LMMs/Apollo/) размещен только пример инференса (https://github.com/Apollo-LMMs/Apollo/?tab=readme-ov-file#inference-example) на Transformers.

Лицензирование кода : Apache 2.0 License.

Страница проекта (https://apollo-lmms.github.io/)

Набор моделей (https://huggingface.co/Apollo-LMMs)

Arxiv (https://arxiv.org/pdf/2412.10360)

Demo Apollo-3B (https://huggingface.co/spaces/Apollo-LMMs/Apollo-3B)

GitHub (https://github.com/Apollo-LMMs/Apollo/)


Источник: github.com

Комментарии: