Zyphra выкатила ZAYA1-8B - маленькую MoE-модель, которая выглядит слишком бодро для своего размера |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-05-11 11:18 У модели меньше 1 млрд активных параметров, но Zyphra заявляет, что она конкурирует с куда более крупными open-weight и proprietary-моделями на математике, кодинге и reasoning-бенчмарках. ZAYA1-8B - это ставка на весь стек сразу: - MoE-архитектура с Compressed Convolutional Attention; - новый MLP-router для более стабильного выбора экспертов; - learned residual scaling для контроля роста residual-норм; - pretraining на AMD Instinct MI300x, без NVIDIA-стека; - большой post-training pipeline с SFT, reasoning warmup, RLVE-Gym, math/code RL и RLHF/RLAIF; - test-time compute метод Markovian RSA. Markovian RSA - самая любопытная часть. Модель генерирует несколько reasoning-трасс параллельно, затем рекурсивно агрегирует их и продолжает рассуждение кусками, не раздувая контекст бесконечно. По заявлению Zyphra, именно это резко бустит сложные математические задачи. На HMMT'25 они показывают 89.6 против 88.3 у Claude 4.5 Sonnet и GPT-5-High. А при extra-high test-time compute говорят, что ZAYA1-8B обходит DeepSeek-V3.2 и GPT-OSS-120B High на APEX-shortlist. Модель полностью обучали на AMD-инфраструктуре. Для рынка это почти политическое заявление - serious AI training больше не обязан выглядеть как “NVIDIA or nothing”. ZAYA1-8B доступна в Zyphra Cloud, веса выложены на Hugging Face, лицензия Apache-2.0. https://www.zyphra.com/post/zaya1-8b Телеграм: t.me/ainewsline Источник: www.zyphra.com Комментарии: |
|