Janus: унифицированная MMLM от DeepSeek

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Janus (https://huggingface.co/deepseek-ai/Janus-1.3B) - уникальная мультимодальная модель, которая способна выполнять как задачи понимания, так и генерации изображений. В отличие от других GenAI моделей, Janus использует раздельные пути кодирования визуальной информации, оптимизированные под каждую задачу, находясь в единой архитектуре на основе трансформера.

Это разделение позволяет Janus точно извлекать семантическую информацию из изображений для задач понимания, одновременно сохраняя детализацию и целостность для задач генерации.

Janus имеет 1.3 млрд. параметров с длиной последовательности в 4096.

Архитектура Janus состоит из 3 компонентов:

Энкодер понимания: извлекает семантические характеристики из изображений, используя SigLIP;

Энкодер генерации: преобразует изображения в последовательность дискретных идентификаторов с помощью VQ-токенизатора;

Унифицированный авторегрессионный трансформер: обрабатывает текстовые и визуальные характеристики.

Процесс обучения Janus проходил в несколько этапов: сначала тренировались адаптеры и Image Heads для связывания визуальных и лингвистических эмбедингов. Затем - предварительное обучение задачам понимания и генерации и, в конце - инструктивная специализация модели при помощи SFT.

Оценка производительности Janus выполнялась на бенчмарках:

Понимание: MMBench, SEED-Bench, POPE, MME, VQAv2, GQA, MMMU, MM-Vet.

Генерация: MSCOCO-30K, MJHQ-30K, GenEval

Результаты оценки показали, что Janus превосходит предыдущие унифицированные MMLM и демонстрирует конкурентоспособность с некоторыми моделями большего размера.

На MMBench, SEED-Bench и POPE, Janus (1.3B) превзошла LLaVA-v1.5 (7B)12 и Qwen-VL-Chat (7B)13.

На MSCOCO-30K и GenEval Janus превзошла DALL-E 214 и SDXL

Инференс модели пока поддерживается только в CLI на Transformers. Примеры запуска в режимах Multimodal Understanding (https://github.com/deepseek-ai/Janus?tab=readme-ov-file#multimodal-understanding) и Text-to-Image Generation (https://github.com/deepseek-ai/Janus?tab=readme-ov-file#text-to-image-generation) приведены в репозитории проекта (https://github.com/deepseek-ai/Janus).

Способ запуска в GradioUI в коммитах (https://github.com/deepseek-ai/Janus/issues/5). По отзывам - модель запускается на T4 (16 Gb) в free-tier Google Collab.

Лицензирование кода : MIT License.

Лицензирование модели: DeepSeek Model License. (https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL)

Модель (https://huggingface.co/deepseek-ai/Janus-1.3B)

Arxiv (https://arxiv.org/pdf/2410.13848)

Demo (https://huggingface.co/spaces/Deadmon/janusAI)

Github (https://github.com/deepseek-ai/Janus)


Источник: github.com

Комментарии: