Кажется, мы уже начали наблюдать превосходство DeepSeek V4 за счет технологии mHC (Manifold-Constrained Hyper-Connections)

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-06-14 12:25

ИИ теория

Я заметил необычную способность даже DeepSeek V4 Flash резко развернуть траекторию своих вызовов Tools на той же отладке. Наиболее контрастным с другими LLM было отсутствие «зомби-режима». Сейчас вендоры LLM для автономности ИИ-агентов создают длинные SFT-цепочки, где маской давят ответ Tools и так заставляют разучить траекторию. Получается не просто реакция вопрос-ответ как в обычном SFT, а способность модели в более-менее стандартном процессе быть устойчивой на N шагах. Это дополняет RL-обучение, но для того же debug нужны не просто оценки модели целей оператора, а еще конкретные знания, что делать на этом шаге. Однако жестко выученные траектории и есть причина «зомби-режима», где до большинства LLM часто не докричаться в середине их траектории. Вас ИИ просто игнорирует, пока не доделает свое дело, — вы для него семантический шум и не более.

Однако DeepSeek V4 Flash мгновенно реагирует на новый контекст от оператора, так же как и на другие неожиданные события при отладке кода.

Я загружал сессии DeepSeek V4 в Gemini, чтобы понять, почему довольно небольшая LLM тут превосходит крупные. Gemini выдвинул весьма правдоподобную гипотезу, что мы как раз и наблюдаем эффект от гиперконнекций у DeepSeek V4.

В случае обычной LLM там есть проблема для сигнала, сильно отличного от обучения, достучаться до последних слоев нейросети. Вас ИИ не слышит в «зомби-режиме», т.к. ваши крики «остановись, гад!» просто начинают затухать от слоя к слою. Нейроны, более разученные на зомби-траекторию, дают приоритет токенам из «тихо сам собою я веду беседу». В результате вам может тот же Claude или Gemini разносить приложение и игнорировать ваши крики ужаса в чате, пока не раздолбает все в хлам.

В случае гиперконнекций mHC происходит изоляция разных сигналов в разные каналы. Это позволяет DeepSeek просто из обучения выделить канал под «крики ужаса кожаного» или «неожиданные диагностические данные». В обычном случае они бы затухли как сигналы, но DeepSeek V4 их изолирует в отдельные гиперконнекции и так подключает «паникующего юзера» к последним слоям нейросети, где нейроны начинают думать, почему юзер так переживает от того, что мы стираем его репозиторий. 

Но на самом деле это серьезно. Для сценариев дебага и тестов очень часто модель должна реагировать на то, чему ее не обучали, поэтому неожиданные семантические сигналы должны не затухать, а доставляться до последних слоев.

В чем-то стало понятно, как DeepSeek V4 на таком небольшом числе весов выбил SWE-Bench за 80%. Однако скорее всего mHC-технология дает DeepSeek преимущество над другими LLM в отладке больше, чем бенчмарк показывает.

DeepSeek V4 — агент на длинных автономных траекториях без «зомби-эффекта» за счет уникальной технологии гиперконнекций mHC.


Телеграм: t.me/ainewsline

Источник: t.me

Комментарии: