Molmo: семейство state-of-art MMLM

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2024-09-28 12:23

ИИ проекты

Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:

ответы на вопросы (https://www.youtube.com/watch?v=5gMZKKatSkQ);

обнаружение и сегментация по текстовому запросу (https://youtu.be/2UYcTmQ8bFo);

подсчет объектов или элементов (https://youtu.be/tnbR4xx-hg8);

использование в сфере робототехники для изображений (https://youtu.be/bHOBGAYNBNI) или видео (https://youtu.be/XBcJcULyh6I);

расширение возможностей VR (https://youtu.be/tnbR4xx-hg8).

Molmo 72B (https://huggingface.co/allenai/Molmo-72B-0924) - флагманская модель на базе Qwen2-72B в роли LLM и ViT-L/14 336px CLIP в роли visial-энкодера. Molmo-72B достигает наивысшего балла в бенчмарках и занимает второе место по человеческой оценке, лишь немного уступая GPT-4o.

Molmo 7B-D (https://huggingface.co/allenai/Molmo-7B-D-0924) и Molmo 7B-O (https://huggingface.co/allenai/Molmo-7B-O-0924) - более утилитарные модели с разницей в исходных LLM (Qwen2-7B и OLMo-7B-1124 соответственно) и все тем же ViT-L/14 336px в качестве энкодера.

MolmoE 1B (https://huggingface.co/allenai/MolmoE-1B-0924) - компактная модель на архитектуре Mixture-of-Experts, основанная на OLMoE-1B-7B с 1.5B активных и 7.2B общих параметров, с производительностью, сравнимой с GPT-4V.

Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).

Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.

Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.

Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки (https://huggingface.co/allenai/MolmoE-1B-0924#im-getting-an-error-a-broadcast-error-when-processing-images) PIL.

Лицензирование : Apache 2.0

Страница проекта (https://molmo.allenai.org/blog)

Коллекция моделей на HF (https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19)

Arxiv (https://molmo.allenai.org/paper.pdf)

Demo (https://molmo.allenai.org/)


Источник: molmo.allenai.org

Комментарии: