Janus: унифицированная MMLM от DeepSeek |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-10-20 12:31 Janus (https://huggingface.co/deepseek-ai/Janus-1.3B) - уникальная мультимодальная модель, которая способна выполнять как задачи понимания, так и генерации изображений. В отличие от других GenAI моделей, Janus использует раздельные пути кодирования визуальной информации, оптимизированные под каждую задачу, находясь в единой архитектуре на основе трансформера. Это разделение позволяет Janus точно извлекать семантическую информацию из изображений для задач понимания, одновременно сохраняя детализацию и целостность для задач генерации. Janus имеет 1.3 млрд. параметров с длиной последовательности в 4096. Архитектура Janus состоит из 3 компонентов: Энкодер понимания: извлекает семантические характеристики из изображений, используя SigLIP; Энкодер генерации: преобразует изображения в последовательность дискретных идентификаторов с помощью VQ-токенизатора; Унифицированный авторегрессионный трансформер: обрабатывает текстовые и визуальные характеристики. Процесс обучения Janus проходил в несколько этапов: сначала тренировались адаптеры и Image Heads для связывания визуальных и лингвистических эмбедингов. Затем - предварительное обучение задачам понимания и генерации и, в конце - инструктивная специализация модели при помощи SFT. Оценка производительности Janus выполнялась на бенчмарках: Понимание: MMBench, SEED-Bench, POPE, MME, VQAv2, GQA, MMMU, MM-Vet. Генерация: MSCOCO-30K, MJHQ-30K, GenEval Результаты оценки показали, что Janus превосходит предыдущие унифицированные MMLM и демонстрирует конкурентоспособность с некоторыми моделями большего размера. На MMBench, SEED-Bench и POPE, Janus (1.3B) превзошла LLaVA-v1.5 (7B)12 и Qwen-VL-Chat (7B)13. На MSCOCO-30K и GenEval Janus превзошла DALL-E 214 и SDXL Инференс модели пока поддерживается только в CLI на Transformers. Примеры запуска в режимах Multimodal Understanding (https://github.com/deepseek-ai/Janus?tab=readme-ov-file#multimodal-understanding) и Text-to-Image Generation (https://github.com/deepseek-ai/Janus?tab=readme-ov-file#text-to-image-generation) приведены в репозитории проекта (https://github.com/deepseek-ai/Janus). Способ запуска в GradioUI в коммитах (https://github.com/deepseek-ai/Janus/issues/5). По отзывам - модель запускается на T4 (16 Gb) в free-tier Google Collab. Лицензирование кода : MIT License. Лицензирование модели: DeepSeek Model License. (https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE-MODEL) Модель (https://huggingface.co/deepseek-ai/Janus-1.3B) Arxiv (https://arxiv.org/pdf/2410.13848) Demo (https://huggingface.co/spaces/Deadmon/janusAI) Github (https://github.com/deepseek-ai/Janus) Источник: github.com Комментарии: |
|