Molmo: семейство state-of-art MMLM |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-09-28 12:23 Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например: ответы на вопросы (https://www.youtube.com/watch?v=5gMZKKatSkQ); обнаружение и сегментация по текстовому запросу (https://youtu.be/2UYcTmQ8bFo); подсчет объектов или элементов (https://youtu.be/tnbR4xx-hg8); использование в сфере робототехники для изображений (https://youtu.be/bHOBGAYNBNI) или видео (https://youtu.be/XBcJcULyh6I); расширение возможностей VR (https://youtu.be/tnbR4xx-hg8). Molmo 72B (https://huggingface.co/allenai/Molmo-72B-0924) - флагманская модель на базе Qwen2-72B в роли LLM и ViT-L/14 336px CLIP в роли visial-энкодера. Molmo-72B достигает наивысшего балла в бенчмарках и занимает второе место по человеческой оценке, лишь немного уступая GPT-4o. Molmo 7B-D (https://huggingface.co/allenai/Molmo-7B-D-0924) и Molmo 7B-O (https://huggingface.co/allenai/Molmo-7B-O-0924) - более утилитарные модели с разницей в исходных LLM (Qwen2-7B и OLMo-7B-1124 соответственно) и все тем же ViT-L/14 336px в качестве энкодера. MolmoE 1B (https://huggingface.co/allenai/MolmoE-1B-0924) - компактная модель на архитектуре Mixture-of-Experts, основанная на OLMoE-1B-7B с 1.5B активных и 7.2B общих параметров, с производительностью, сравнимой с GPT-4V. Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks). Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count. Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet. Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки (https://huggingface.co/allenai/MolmoE-1B-0924#im-getting-an-error-a-broadcast-error-when-processing-images) PIL. Лицензирование : Apache 2.0 Страница проекта (https://molmo.allenai.org/blog) Коллекция моделей на HF (https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19) Arxiv (https://molmo.allenai.org/paper.pdf) Demo (https://molmo.allenai.org/) Источник: molmo.allenai.org Комментарии: |
|