10B параметров — производительность уровня 200B+!

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2026-01-22 16:25

STEP3-VL-10B - новая open-source SOTA vision-language модель.

При размере всего 10B она переопределяет эффективность: сопоставима или даже лучше, чем модели масштаба 100B/200B.

SOTA результаты:

STEM / мультимодальность: обходит GLM-4.6V (106B-A12B) и Qwen3-VL (235B-A22B) на MMMU, MathVision, MathVerse и других бенчмарках

Математика: почти идеальные результаты на AIME 24/25 — уровень “элитного” reasoning

2D/3D пространственное понимание: лучше моделей своего масштаба на BLINK / CVBench / OmniSpatial

Кодинг: доминирует на LiveCodeBench в задачах реального динамического программирования

Ключевые характеристики:

1.2T токенов pre-training с полным обновлением параметров

1400+ RL итераций для усиления reasoning

инновационная технология PaCoRe для динамического распределения вычислений

С качественными данными для обучения и системным post-training 10B модель может на равных драться с гигантами индустрии.

Base и Thinking версии доступны на HuggingFace!

Homepage: https://stepfun-ai.github.io/Step3-VL-10B/

Paper: https://arxiv.org/abs/2601.09668

HuggingFace: https://huggingface.co/collections/stepfun-ai/step3-vl-10b

ModelScope: https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B


Источник: modelscope.cn

Комментарии: