PaliGemma 2: Новое семейство VLMs от Google |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-12-07 15:32 PaliGemma 2 (https://huggingface.co/blog/paligemma2) - обновление open-sorce VLM PaliGemma, основанное на семействе LLM Gemma 2. Семейство сочетает в себе кодировщик изображений SigLIP-So400m с спектром моделей Gemma 2, от 2B до 27B параметров. Модели PaliGemma 2 обучались в 3 этапа на трех разрешениях (224px?, 448px? и 896px?). PaliGemma 2 демонстрирует впечатляющие результаты в распознавании музыкальных нот, молекулярных структур и медицинских изображений. Модели справляются с распознаванием табличной структуры и созданием отчетов по рентгенограммам. В задачах генерации длинных, детализированных аннотаций к изображениям PaliGemma 2 превосходит многие популярные VLM, несмотря на то, что она обучалась на значительно меньших наборах данных. Для развертывания на устройствах без GPU могут использоваться квартованные версии PaliGemma 2. Тесты показали, что переход от 32-битной разрядности (f32) к 16-битной (bf16) или квантованным весам не приводит к заметному снижению качества. В релиз (https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48) вошли предварительно обученные модели 3B, 10B и 28B с разрешениями 224px, 448px, 896px, модели, настроенные на наборе данных DOCCI для создания аннотаций к изображениям и их версии для JAX/FLAX. Процесс файнтюна PaliGemma 2 такой же, как и у предыдущей версии. Разработчики предоставляют скрипт (https://github.com/merveenoyan/smol-vision/blob/main/paligemma.py) и ipynb-блокнот (https://github.com/merveenoyan/smol-vision/blob/main/Fine_tune_PaliGemma.ipynb) для тонкой настройки модели или создания LoRA/QLoRA. Создание LoRA модели PaliGemma 2 на половине валидационного сплита VQAv2 заняло полчаса на 3-х A100 с 80 ГБ VRAM. Результат можно найти здесь (https://huggingface.co/merve/paligemma2-3b-vqav2), а это ее демо (https://huggingface.co/spaces/merve/paligemma2-vqav2). Пример инференса модели from transformers import AutoProcessor, PaliGemmaForConditionalGeneration Лицензирование: Gemma License (https://ai.google.dev/gemma/terms). Статья (https://huggingface.co/blog/paligemma2) Коллекция на HF (https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48) Arxiv (https://arxiv.org/pdf/2412.03555) Источник: arxiv.org Комментарии: |
|