Zyphra выкатила ZAYA1-8B - маленькую MoE-модель, которая выглядит слишком бодро для своего размера

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-05-11 11:18

ИИ проекты

У модели меньше 1 млрд активных параметров, но Zyphra заявляет, что она конкурирует с куда более крупными open-weight и proprietary-моделями на математике, кодинге и reasoning-бенчмарках.

ZAYA1-8B - это ставка на весь стек сразу:

- MoE-архитектура с Compressed Convolutional Attention;

- новый MLP-router для более стабильного выбора экспертов;

- learned residual scaling для контроля роста residual-норм;

- pretraining на AMD Instinct MI300x, без NVIDIA-стека;

- большой post-training pipeline с SFT, reasoning warmup, RLVE-Gym, math/code RL и RLHF/RLAIF;

- test-time compute метод Markovian RSA.

Markovian RSA - самая любопытная часть. Модель генерирует несколько reasoning-трасс параллельно, затем рекурсивно агрегирует их и продолжает рассуждение кусками, не раздувая контекст бесконечно. По заявлению Zyphra, именно это резко бустит сложные математические задачи.

На HMMT'25 они показывают 89.6 против 88.3 у Claude 4.5 Sonnet и GPT-5-High. А при extra-high test-time compute говорят, что ZAYA1-8B обходит DeepSeek-V3.2 и GPT-OSS-120B High на APEX-shortlist.

Модель полностью обучали на AMD-инфраструктуре. Для рынка это почти политическое заявление - serious AI training больше не обязан выглядеть как “NVIDIA or nothing”.

ZAYA1-8B доступна в Zyphra Cloud, веса выложены на Hugging Face, лицензия Apache-2.0.

https://www.zyphra.com/post/zaya1-8b


Телеграм: t.me/ainewsline

Источник: www.zyphra.com

Комментарии: