MiniMax M2.7 переписывает себя сам

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Все привыкли, что AI-модели улучшаются за счет переобучения: больше данных, новые веса, дорогие GPU-кластеры. MiniMax пошел другим путем. Их новая модель M2.7 улучшает саму себя без единого обновления весов, переписывая собственное агентное окружение прямо в процессе работы.

Это не маркетинговая риторика. Это конкретный инженерный механизм, который уже показал 30% прирост на внутренних бенчмарках после 100+ итераций автономной самооптимизации.

Что такое “harness” и почему это важно

Когда вы запускаете AI-агента, он работает внутри так называемого harness (окружения). Это совокупность инструментов, скиллов, правил, памяти и логики вызовов. Обычно это окружение проектирует инженер, и агент работает в его рамках. Harness фиксирован.

M2.7 трактует свой harness как нечто, что он может переписывать. Это и есть ключевое отличие.

Как работает петля самоэволюции

Команда MiniMax запустила M2.7 оптимизировать производительность модели на внутреннем scaffold. Агент работал полностью автономно, выполняя итеративную петлю: анализ траекторий ошибок, планирование изменений, модификация scaffold-кода, запуск эвалюаций, сравнение результатов, решение оставить или откатить изменения. И снова по кругу, более 100 раундов.

В процессе M2.7 самостоятельно обнаружил эффективные оптимизации: систематически искал оптимальные комбинации параметров сэмплирования (temperature, frequency penalty, presence penalty), разработал специфические workflow-гайдлайны для себя, добавил детектор зацикливания в агентный цикл. Ничего из этого не было прописано человеком.

Тест на ML-соревнованиях

MiniMax проверил подход на 22 ML-соревнованиях из MLE Bench Lite, открытого OpenAI. Каждый запуск длился 24 часа в полностью автономном режиме. После каждой итерации агент генерировал markdown-файл краткосрочной памяти и выполнял самокритику, передавая инсайты в следующий раунд.

Лучший прогон завершился с 9 золотыми медалями, 5 серебряными и 1 бронзовой. Средний medal rate по трем прогонам составил 66.6%, что ставит M2.7 вровень с Gemini-3.1 и вплотную к GPT-5.4 (71.2%) и Opus-4.6 (75.7%). При этом модель ни разу не переобучалась.

Почему это меняет правила игры

Привычная парадигма: хочешь лучшую модель – трать деньги на обучение. M2.7 показывает альтернативу: улучшение может идти через постоянное совершенствование системы вокруг модели. Веса не меняются, меняются скиллы, память, правила, логика вызовов.

Это означает, что петля улучшений может крутиться непрерывно без какого-либо retraining. Агент буквально становится лучше каждый день работы, просто за счет рефлексии над собственными ошибками.

Что еще умеет M2.7

За рамками самоэволюции это сильная инженерная модель. На бенчмарке SWE-Pro M2.7 набрала 56.22%, вплотную приблизившись к Opus. На Terminal Bench 2 – 57.0%. В продакшен-сценариях команда MiniMax отмечает сокращение времени восстановления после инцидентов до трех минут. На внутреннем RL-воркфлоу агент берет на себя от 30% до 50% задач без участия человека.

Модель поддерживает работу с более чем 40 сложными скиллами (каждый свыше 2000 токенов) с 97% соблюдением инструкций. На Toolathon – 46.3%, это глобальный топ-уровень.

Ссылки

Официальный блог MiniMax: minimax.io/news/minimax-m27-en

Оригинальный тред на X: x.com/akshay_pachaar

Open-source проект OpenRoom: github.com/MiniMax-AI/OpenRoom


Телеграм: t.me/ainewsline

Источник: uproger.com

Комментарии: