GPT-5.4 оказался лучшим для вайб-кодинга

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2026-03-08 10:52

Психология ИИ

OpenAI выкатила GPT-5.4, и он тут же порвал конкурентов в бенчмарке Vibe Code Bench, выбив солидные 67,4%. В этом бенчмарке модели дают абсолютно пустую папку, доступ к терминалу и промпт в духе "сделай мне клон Твиттера с базами данных". А дальше алгоритм должен сам поднять архитектуру, прикрутить авторизацию, настроить платежки и выдать готовый веб-сервис.

Авторы бенчмарка замерили не только качество, но и прожорливость. Пока GPT-5.4 сжигает горы токенов и может пыхтеть над одним приложением до пяти часов, Claude Opus 4.6 дышит лидеру прямо в затылок (57%), но делает это дешевле и быстрее. Так что лидерство новинки не так уж и однозначно.

Также у ИИ наблюдаются явные крайности: сгенерированный сервис либо работает практически идеально, либо представляет собой абсолютно мертворожденный кусок кода, который даже не запускается.


Источник: vk.com

Комментарии: