NVIDIA открыла Nemotron 3 Nano Omni

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Nemotron 3 Nano Omni (https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/) - мультимодальная модель 30B-A3B, которая обрабатывает видео, аудио, изображения и текст в едином инференсе.

В создании Nano Omni активно использовалось семейство Qwen разных поколений от 2.5 до 3.5 - как чисто языковые, так и VL и GPT-OSS-120B

Под капотом гибрид из Mamba2 и MoE

Визуальный тракт построен на энкодере CRADIO v4-H, аудио - на Parakeet. Контекстное окно - до 256 тыс. токенов.

Модель поддерживает ризонинг с СоТ, JSON-вывод, tool calling и пословные таймштампы для транскрипции.

На вход принимаются видео длиной до 2-х минут, аудио длиной до часа, изображения и текст. Язык один - английский.

Со слов NVIDIA, при сопоставимой интерактивности модель выдаёт до 9х пропускной способности относительно других открытых omni-моделей.

Самый показательный пример - на OSWorld (навигация по GUI): 47,4 против 11,1 у предыдущей Nemotron Nano VL V2.

На OCRBenchV2 — 67,04, на Video MME — 72,2, на Daily Omni — 74,52.

Опубликованы 3 варианта весов: BF16 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16) (61,5 ГБ), FP8 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8) (32,8 ГБ) и NVFP4 (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4) (20,9 ГБ, 4,98 бит). Визуальный и аудио-энкодеры вместе с MLP-проекторами в обоих случаях оставлены в BF16.

На девяти не-ASR бенчмарках оба квантованных варианта в среднем теряют меньше 0,4 пункта относительно BF16 — NVFP4 вписывается в рабочие станции и edge-устройства практически без потерь качества.

Инференс поддерживается на vLLM, TensorRT-LLM, TensorRT Edge-LLM, llama.cpp, Ollama и SGLang.

Модель доступна на Hugging Face (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16), OpenRouter (https://openrouter.ai/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning:free), build.nvidia.com (https://build.nvidia.com/nvidia/nemotron-3-nano-omni-30b-a3b-reasoning) и в каталоге NGC (https://catalog.ngc.nvidia.com/orgs/nim/teams/nvidia/containers/nemotron-3-nano-omni-30b-a3b-reasoning) как NIM-микросервис.

По данным NVIDIA, семейство Nemotron 3 за прошлый год скачали более 50 миллионов раз и Omni-вариант должен расширить линейку в мультимодальный и агентный контур.

Лицензирование: NVIDIA Open Model License

Статья (https://blogs.nvidia.com/blog/nemotron-3-nano-omni-multimodal-ai-agents/)

Модель (https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16)


Телеграм: t.me/ainewsline

Источник: huggingface.co

Комментарии: