Мощная нейронка для повседневных задач. Тестируем GPT-4.5 от OpenAI

2025-03-02 12:32

OpenAI показала GPT-4.5 — базисную модель нового поколения. Она умнее и точнее GPT-4o, а кое-где не уступает даже «рассуждающим» версиям ИИ. Разбираем результаты тестирования.

Что улучшили?

Превью-версию GPT-4.5 назвали крупнейшей и лучшей моделью бренда среди тех, что отвечают мгновенно. В сравнении с GPT-4o расширили базу знаний и увеличили производительность во всех категориях. Главные фишки нейросети — надёжность и кратно уменьшенная вероятность галлюцинаций. Это видно на бенчмарке Simple QA: новинка демонстрирует 62,5% точности и 37-процентную вероятность ошибок. Показатели предшественницы — 38,2% и 61,8% соответственно. То есть фактические ошибки должны встречаться куда реже — даже o1 в этом плане чуть хуже.

Вдобавок повысили креативность, «эстетическую интуицию» и эмоциональный интеллект. Ответы стали человечнее, внимательнее учитываются предпочтения пользователей. В слепом тестировании люди предпочли ответы GPT-4.5 в 57-63% случаев, сравнивая с GPT-4o. Ассистент уже умеет взаимодействовать с поиском и инструментом Canvas. Контекстное окно оставили на уровне 128 тысяч токенов. Это не рекордный размер, но его хватает для большинства задач. Актуальность информации датируется октябрём 2023-го — досадное упущение. Вероятно, апдейт заготовили для грядущей GPT-5.

Сейчас GPT-4.5 доступна подписчикам плана ChatGPT ($200 в месяц), а в начале марта её включат в тарифы Plus и Team ($20). Реализована и API-версия, которая обойдётся дорого: $75 и $37,5 за 1 млн токенов (около 750 000 слов) на вход и выход соответственно. Например, GPT-4o стоит 2,5 и 1,25 доллара.

Независимые тесты и отзывы

Первое, что отметили тестировщики: эмпатичность и креативность действительно возросли. «Я немного потестировал 4.5 и хочу сказать, что у неё сильно развит “эмоциональный интеллект”. Не знаю, в какой бенчмарк это отнести, но она просто по-человечески приятная», — пишет Денис Ширяев, ML-энтузиаст и глава стартапа Neural Love. Модель неплохо пишет стихи и рассказы, и даже в юморе заметны подвижки.

Важно учитывать, что GPT-4.5 не предлагает максимум мощностей и передовые показатели в сложных сценариях. В этом плане «думающие» аналоги вроде o1 Pro и o3-mini всё ещё впереди. Хотя в их основе лежит более старая GPT-4o, процесс рассуждений даёт крупное преимущество, задействуя больше вычислительных ресурсов. Эксперты прогнозируют, что «ризонеры» (модели класса o1) на базе 4.5 будут очень хорошими. Если сейчас нужны подробные отчёты и агентские навыки (инструменты для автономных действий), лучше обращаться к Deep Research и представителям O-семейства.

Что же насчёт программирования? В бенчмарке по написанию кода зафиксировали скачок в сравнении с GPT-4o, однако Claude 3.7 Sonnet всё же лидирует. Подытоживая, GPT 4.5 — это умная стандартная модель с более человечным стилем общения, обширными знаниями о мире и прокачанной точностью выдачи. Она отлично подходит для запросов общего назначения и станет фундаментом для размышляющих нейронок следующего поколения.

Источник: 4pda.to

Автор: Алексей Козачинский

# OpenAI OpenAI GPT-4.5

Источник: 4pda.to

Мощная нейронка для повседневных задач. Тестируем GPT-4.5 от OpenAI

Комментарии: