Tongyi Lab сломали мультимодальный RAG |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-04-09 13:42 Tongyi Lab сломали мультимодальный RAG. Разбираем VimRAG У классического RAG есть проблема, о которой мало говорят: state blindness. Агент тащит за собой линейную историю, и пока контекст текстовый, это работает. Но добавь картинки и видео, и все сыпется. Визуал жрет токены, агент ходит по кругу, делает повторные запросы и теряет нить. Tongyi Lab (Alibaba) предложили VimRAG. Вместо линейной цепочки рассуждение моделируется как направленный ациклический граф (DAG). Узлы хранят состояния агента и мультимодальные доказательства. Это позволяет отслеживать пути, убирать дубли и видеть, какие куски контекста реально повлияли на результат. Для работы с визуалом придумали Graph-Modulated Visual Memory Encoding: значимость узла памяти оценивается по его позиции в топологии графа. Важным доказательствам больше токенов в высоком разрешении, мусору - меньше. Адаптивная аллокация вместо тупого сжатия. На бенчмарках VimRAG выдает SOTA результат по мультимодальным RAG задачам, включая SlideVQA, MMLongBench, Large-Scale LVBench и другие. При этом graph pruning заметно ускоряет обучение. Paper: arxiv.org/abs/2602.12735 GitHub: github.com/Alibaba-NLP/VRAG Телеграм: t.me/ainewsline Источник: vk.com Комментарии: |
|