SmolVLM — маленький, но мощный мультимодальный прорыв

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Сегодня вышел технический отчёт о SmolVLM — ультра-компактной VLM-модели (всего 256M параметров), которая работает в менее чем 1 ГБ ОЗУ и обходит старые модели 80B, выпущенные полтора года назад!

Контекст — это наше всё: Увеличение длины контекста с 2K до 16K дало +60% к качеству. Даже маленькие модели выигрывают от увелечения памяти.

SigLIP: меньше — лучше: Вместо классического 400M SigLIP авторы использовали базовую 80M версию — и получили тот же результат при 20% размера.

Pixel shuffling : Аggressive pixel shuffling помог сократить длину последовательностей в 16 раз без потери качества.

Learnable positional tokens > raw tokens: В маленьких моделях обучаемые позиционные токены дали значительный прирост точности.

Спец-токены: Специальные "intro/outro" токены и системные промпты дали буст особенно для задач работы видео.

CoT — с умом: Слишком много Chain-of-Thought данных ухудшает результаты маленьких моделей. Меньше = умнее.

Длиннее видео = лучше: Увеличение длины видео во время обучения улучшило понимание и изображений, и видео.

SmolVLM — это:

Три версии: 256M, 500M, 2.2B — каждая задаёт новую планку для low-resource inference.

Real-time inference на iPhone 15 — прямо с камеры, без серверов.

В браузере? Да! 40–80 токенов/сек — напрямую в вебе, без ухищрений.

Подробности в репорте (https://huggingface.co/papers/2504.05299)


Источник: huggingface.co

Комментарии: