Aria: открытая мультимодальная модель на основе MoE

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Rhymes AI (https://www.rhymes.ai/) опубликовала Aria — первую в мире открытую MMLM, основанную на Mixture-of-Experts. Aria способна обрабатывать текст, изображения, видео и код одновременно, не требуя отдельных настроек для каждого типа данных.

Модель отличается высокой производительностью при обработке мультимодальных и языковых данных, включая изображения различных размеров и соотношений сторон.

Aria использует 3,9 млрд. активных параметров из 25 млрд. общих и обладает длинным контекстным окном в 64 тыс. токенов, что позволяет ей эффективно обрабатывать большие объемы данных, например, создавать аннотации к видео из 256 кадров за 10 секунд.

MoE-архитектура Aria состоит из 66 экспертов. Каждый эксперт структурно идентичен FFN в трансформере. Входной токен направляется только к подмножеству экспертов в каждом слое, это позволяет эффективно распределить вычислительные потребности модели.

ARIA отличается от предыдущих мультимодальных моделей MoE тем, что она обучается с нуля с использованием универсальных экспертов, а не специализированных для каждой модальности.

Обучение ARIA проходило на 6.4 трлн. языковых и 400 млрд. токенах в 4 этапа:

На первых двух обучаются декодеры MoE и ViT на наборах текстовых данных и наборах смеси тект-инображение-видео;

На третьем этапе модель проходит обучение на длинных мультимодальных последовательностях для расширения контекстного окна;

На последнем этапе выполняется дообучение на наборе данных вопрос-ответ для улучшения способности VQA и выполнению инструкций.

ARIA протестирована бенчмарках MMMU, MathVista, DocVQA, ChartQA, TextVQA, MMBench-1.1, EgoSchema, LongVideoBench, VideoMME, MMLU, MATH, ARC Challenge и HumanEval (задачи понимания кода).

Результаты тестирования показывают, что ARIA превосходит открытые модели Pixtral-12B и Llama3.2-11B и демонстрирует конкурентоспособные результаты по сравнению с проприетарными моделями GPT-4o и Gemini-1.5.

Так как Aria имеет 25.3 млрд. общих параметров, они могут быть загружены в один A100 (80GB) с точностью bfloat16.

Разработчики в репозитории (https://github.com/rhymes-ai/Aria) на Github подготовили инструкции инференса в Transformers, альтернативный вариант в среде vLLM (https://github.com/rhymes-ai/Aria/blob/main/docs/inference.md), ноутбуки различных режимов (https://github.com/rhymes-ai/Aria/tree/main/inference/notebooks) (с одним и несколькими изображениями, многостраничным PDF и видео) в разных средах, туториалы по подготовке кастомного датасета (https://github.com/rhymes-ai/Aria/blob/main/docs/custom_dataset.md) для обучения, файнтюну с LoRA (https://github.com/rhymes-ai/Aria?tab=readme-ov-file#fine-tune-with-lora) и Full parameter (https://github.com/rhymes-ai/Aria?tab=readme-ov-file#full-parameter-fine-tuning).

Лицензирование : Apache 2.0 License.

Страница проекта (https://www.rhymes.ai/blog-details/aria-first-open-multimodal-native-moe-model)

Модель (https://huggingface.co/rhymes-ai/Aria)

Arxiv (https://arxiv.org/pdf/2410.05993)

Demo (https://www.rhymes.ai/)

GitHub (https://github.com/rhymes-ai/Aria)


Источник: github.com

Комментарии: