Модель ModernVBERT с 250 млн параметров показывает результаты, сопоставимые или превосходящие модели, которые в 10 раз больше, в задачах поиска по документам |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-10-06 17:59 Модель лидирует среди моделей до 1 млрд параметров и кодирует запросы в 7 раз быстрее на обычных CPU. В отличие от декодеров, которые читают текст слева направо и не могут пересматривать ранние токены, ModernVBERT использует двунаправленный текстовый энкодер, обученный на маскировании слов, и небольшой визуальный модуль. Каждое изображение страницы разбивается на патчи, которые отображаются в то же пространство, что и текст, а затем объединяются с токенами слов. Механизм позднего взаимодействия (late interaction) сохраняет векторы всех токенов, позволяя каждому токену запроса находить наиболее точное соответствие. Эта комбинация двунаправленного внимания и позднего взаимодействия превосходит декодерные архитектуры при извлечении документов. Более высокое разрешение страниц и короткая «high-resolution cooldown» фаза повышают точность поиска, хотя могут ухудшить работу с обычными изображениями. Добавление пар «только текст» в контрастивное обучение помогает модели эффективно объединять текстовое и визуальное пространство. ColModernVBERT - остаётся компактной, демонстрирует высокие показатели на бенчмарках и работает эффективно даже на стандартных CPU. Источник: arxiv.org Комментарии: |
|