Модель ModernVBERT с 250 млн параметров показывает результаты, сопоставимые или превосходящие модели, которые в 10 раз больше, в задачах поиска по документам

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Модель лидирует среди моделей до 1 млрд параметров и кодирует запросы в 7 раз быстрее на обычных CPU.

В отличие от декодеров, которые читают текст слева направо и не могут пересматривать ранние токены, ModernVBERT использует двунаправленный текстовый энкодер, обученный на маскировании слов, и небольшой визуальный модуль.

Каждое изображение страницы разбивается на патчи, которые отображаются в то же пространство, что и текст, а затем объединяются с токенами слов.

Механизм позднего взаимодействия (late interaction) сохраняет векторы всех токенов, позволяя каждому токену запроса находить наиболее точное соответствие. Эта комбинация двунаправленного внимания и позднего взаимодействия превосходит декодерные архитектуры при извлечении документов.

Более высокое разрешение страниц и короткая «high-resolution cooldown» фаза повышают точность поиска, хотя могут ухудшить работу с обычными изображениями. Добавление пар «только текст» в контрастивное обучение помогает модели эффективно объединять текстовое и визуальное пространство.

ColModernVBERT - остаётся компактной, демонстрирует высокие показатели на бенчмарках и работает эффективно даже на стандартных CPU.


Источник: arxiv.org

Комментарии: