Вышла новая модель DeepSeek-TNG R1T2 Chimera 671B

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Особенности:

- примерно на 20% быстрее обычного R1 и более чем в 2 раза быстрее R1-0528

- значительно умнее стандартного R1 по бенчмаркам GPQA и AIME-24

- намного умнее и обеспечивает согласованность think-token по сравнению с первым R1T Chimera 0426

R1T2 получает веса из R1-0528, R1 и V3-0324 с помощью Assembly-of-Experts. Слияние сохраняет способность рассуждать R1-0528 и использует лёгкие общие слои V3-0324, так что ответы остаются точными и ёмкими.

Модель распространяется под лицензией MIT на huggingface

https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera


Источник: huggingface.co

Комментарии: