Что нового в Qwen 3 — гибрид LLM и модели рассуждений

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-05-02 12:06

ИИ проекты

Компания Алибаба выпустила серию языковых моделей Qwen 3. Помимо того, что эта модель преодолела очередные рубежи бенчмарков, включая кодинг и другие сложные задачи, она интересна рядом технических новшеств.

Эти модели могут работать в режиме LRM — выполняя более сложные пошаговые цепочки рассуждений для решения сложных проблем. Или могут отдавать простые ответы быстро, как это делает обычная языковая модель. Таким образом, Qwen 3 представляет собой гибрид LLM и модели рассуждений.

Серия Qwen 3 включает версии от 0.6 до 32 миллиардов параметров, плюс большую модель Qwen3-235B-A22B с архитектурой Mixture-of-Experts, которая превзошла OpenAI o3-mini и Gemini 2.5 Pro на соревнованиях по программированию платформы Codeforces и AIME-бенчмарке.

Как уже было сказано, в серии Qwen 3 Алибаба реализовали MoE-архитектуру для большей эффективности моделей. Эта архитектура позволяет задействовать только часть слоев при инференсе, требуя меньше вычислительных ресурсов. Архитектуру MoE имеют модели Qwen3-30B-A3B и уже упомянутая Qwen3-235B-A22B.

Чтобы запустить модели Qwen 3 на immers.cloud, нужно использовать видеокарты с соответствующим объемом видеопамяти. Веса моделей выложены в форматах fp16 и fp8, кроме того, можно использовать квантизацию — например, bitsandbytes — при запуске модели на одном из популярных серверов, таких как vLLM, чтобы сэкономить видеопамять.


Источник: vk.com

Комментарии: