Tongyi Lab сломали мультимодальный RAG

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-04-09 13:42

ИИ теория

Tongyi Lab сломали мультимодальный RAG. Разбираем VimRAG

У классического RAG есть проблема, о которой мало говорят: state blindness. Агент тащит за собой линейную историю, и пока контекст текстовый, это работает.

Но добавь картинки и видео, и все сыпется. Визуал жрет токены, агент ходит по кругу, делает повторные запросы и теряет нить.

Tongyi Lab (Alibaba) предложили VimRAG.

Вместо линейной цепочки рассуждение моделируется как направленный ациклический граф (DAG). Узлы хранят состояния агента и мультимодальные доказательства.

Это позволяет отслеживать пути, убирать дубли и видеть, какие куски контекста реально повлияли на результат.

Для работы с визуалом придумали Graph-Modulated Visual Memory Encoding: значимость узла памяти оценивается по его позиции в топологии графа. Важным доказательствам больше токенов в высоком разрешении, мусору - меньше. Адаптивная аллокация вместо тупого сжатия.

На бенчмарках VimRAG выдает SOTA результат по мультимодальным RAG задачам, включая SlideVQA, MMLongBench, Large-Scale LVBench и другие. При этом graph pruning заметно ускоряет обучение.

Paper: arxiv.org/abs/2602.12735

GitHub: github.com/Alibaba-NLP/VRAG


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: