Как делали MiniMax М2.1 и что будет дальше |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-01-06 11:50 Когда говорят, что одна модель пишет код лучше другой, обычно имеется ввиду бенчмарк SWE-Bench. Модель получает реальный баг из настоящего проекта с Github, который она должна прочитать, найти ошибку и исправить её. Это частично повторяет ежедневную работу программиста. Но у этого бенча, как и у любого другого, есть свои недостатки. SWE-Bench работает только с Python. В реальном мире разработчики имеют дело с Java, Go, TypeScript, Rust, C++ и еще кучей других. Бенчмарк только про исправление ошибок, а программисты еще пишут новые функции, занимаются рефакторингом и оптимизацией. Его результаты сильно зависят от того, в каком окружении работает модель. И вот здесь MiniMax-AI задалась вопросом: как создать по-настоящему универсального ИИ-программиста? Ответ они нашли (https://huggingface.co/blog/MiniMaxAI/multilingual-and-multi-task-coding-with-strong-gen) и реализовали его в своей свежайшей модели M2.1. Масштабирование окружения. За этим расплывчатым термином кроется огромная система, которая оперирует популярными языками: JS, TS, Python, Java, Go, C++ и Rust. Для этого с GitHub были собраны более 100 тыс. реальных задач с описанием проблемы, кодом и тестами. Это было непросто, так как сложные языки (Java или C++) требуют настройки и у каждого языка свои фреймворки и системы управления зависимостями. Чтобы обучить модель на таком массиве данных, MiniMax построил инфраструктуру, способную запускать более 5 тыс. изолированных сред выполнения за максимально короткое время - 10 секунд. Выход за рамки баг-фиксов. MiniMax-M2.1 обучали и генерации тестов и в результате оказалось, что это критически важный навык. Предыдущая версия, M1, писала слишком простые тесты и часто выбирала неверные решения. M2.1 в этом преуспела и сравнялась по результатам с мощным конкурентом Claude Sonnet 4.5. Еще она научилась оптимизировать производительность кода — на SWE-Perf показала средний прирост эффективности в 3.1%. И наконец, M2.1 научили делать Code Review, для чего создали внутренний бенчмарк SWE-Review. Обобщение на незнакомых окружениях (Generalization on OOD Scaffolds). Модель должна одинаково хорошо следовать длинным инструкциям и адаптироваться к разным способам управления контекстом диалога. Команда провела тесты в mini-swe-agent, Droid и Claude Code и если посмотреть на цифры из их сравнительной таблицы, то можно увидель, что модель стала гораздо более гибкой и универсальной. На том же SWE-Bench, при использовании Claude Code, MiniMax-M2.1 выбила 74 балла, что выше, чем у модели M2 с ее 69.2 баллами, и практически наравне с Claude Sonnet 4.5 и DeepSeek V3.2. На другом тесте, OctoCodingBench, разрыв еще больше: 26.1 у новой модели против 13.3 у старой. Планы на 2026. Во-первых, MiniMax планирует научить модель оценивать не только правильность кода, но и читаемость кода, качество комментариев, прозрачность процесса работы. Во-вторых - повысить эффективность решения задач, чтобы модель не делала лишних шагов, например, не перечитывала один и тот же файл по несколько раз. Но самое интересное — это их планы по RL Scaling, и создание так называемой Coding World Model. Идея в том, чтобы построить модель-симулятор, которая сможет предсказывать результат выполнения кода, не запуская его в реальности. Наконец, они планируют расширяться в узкоспециализированные области: разработка GPU Kernel, компиляторов и смарт-контрактов. Похоже, концепция "ИИ-кодера" становится все более реальной. Успех MiniMax-M2.1 показал, что дело уже не в написании отдельных строк кода, а в комплексном понимании всего процесса разработки. Источник: huggingface.co Комментарии: |
|