Grok 4 — новая мощная модель от xAI

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-07-11 11:33

ИИ проекты

Лидер на бенчмарках:

- AIME25: идеальный результат.

- ARC-AGI-2: 15.9% против 8.6% у прошлых лидеров — почти в два раза выше, чем у Claude 4 Opus.

Главное достижение — Humanity’s Last Exam:

- С максимальными ресурсами и включённой поддержкой внешних инструментов (например, калькулятора или веб-поиска) — 44.4% (а на текстовой части даже 50.7%).

- Даже без внешних инструментов — всё ещё лучше всех: 25.4%, у ближайшего конкурента (Gemini 2.5 Pro) — 21.6%.

- Почти половина презентации была посвящена именно этому тесту.

Что под капотом:

- Архитектура — та же, что у Grok 3.

- Изначально это должна была быть версия Grok 3.5, но решили увеличить объём обучения.

- На стадию логического обучения (reasoning) потратили в 10 раз больше ресурсов.

- Теперь объём дообучения через RL (reinforcement learning) сопоставим с основным обучением.

- Важно: теперь модель сразу обучают использовать внешние инструменты во время RL, как это делают в OpenAI (в o3 и o4-mini).

Слабые места:

- Мультимодальность пока на слабом уровне: большинство тестов — чисто текстовые, и на HLE модель показывает просадку.

- Маск пообещал, что в следующей версии это исправят.

Контекст увеличили до 256k токенов.

API уже запущен:

- Стоимость — как у Grok 3 и Claude Sonnet.

- Но из-за "разговорчивости" на практике модель по цене ближе к Claude Opus.

- Grok 4 Mini не выпустили — жаль, ведь Grok 3 Mini была отличной за свою цену.

Инфраструктура xAI растёт стремительно:

- Через 3–4 недели стартует тренировка видеомодели на 100k+ GPU GB200.

- В июне компания привлекла $10 млрд: половина — инвестиции, половина — в долг.

- В планах — новое расширение дата-центра Colossus.

Grok 4 — это не просто обновление, а важный шаг вперёд в развитии reasoning-моделей и интеграции с внешними возможностями.


Источник: vk.com

Комментарии: