Новая модель OpenAI GPT-4.5 ошибается в 37% ответов ?

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Почему компания, продукция которой не может сказать правду, оценивается в сотни миллиардов долларов?

Если партнер или друг выдумывает значительную часть тех случаев, когда вы задаете вопрос, это может стать серьезной проблемой для отношений.

Но, по-видимому, для новой горячей модели OpenAI все по-другому. Используя SimpleQA, внутренний инструмент компании для сравнительного анализа фактов , OpenAI признала в своем объявлении о выпуске, что ее новая большая языковая модель (LLM) GPT-4.5 галлюцинирует — что на языке ИИ означает уверенное извержение фальсификаций и представление их как фактов — в 37 процентах случаев.

Да, вы правильно прочитали: в ходе испытаний новейшая модель искусственного интеллекта от компании, стоимость которой оценивается в сотни миллиардов долларов, лжет более чем в одном из трех ответов, которые она дает.

И как будто этого было недостаточно, OpenAI на самом деле пытается представить проблему ерунды в GPT-4.5 как нечто  хорошее  , потому что — представьте себе — она не галлюцинирует так часто, как другие LLM компании.

Тот же график [можно ли вставить скриншот ниже?], который показал, как часто новая модель изрыгает чушь, также сообщает, что GPT-4o, якобы продвинутая модель «рассуждений», галлюцинирует в 61,8 процентах случаев на бенчмарке SimpleQA. Было обнаружено, что o3-mini от OpenAI, более дешевая и уменьшенная версия ее модели рассуждений, галлюцинирует в колоссальных 80,3 процентах случаев.

Конечно, эта проблема характерна не только для OpenAI.

«В настоящее время даже самые лучшие модели могут генерировать текст без галлюцинаций только в 35 процентах случаев», — объяснил Вентинг Чжао, докторант Корнеллского университета, который в прошлом году был соавтором статьи о частоте галлюцинаций ИИ, в интервью об исследовании с TechCrunch . «Самый важный вывод из нашей работы заключается в том, что мы пока не можем полностью доверять результатам генерации моделей».

Помимо недоверия к компании, получающей сотни миллиардов долларов инвестиций в продукты, у которых есть такие проблемы с правдой, это многое говорит об индустрии ИИ в целом: именно это нам продают: дорогие, ресурсоемкие системы, которые, как предполагается, приближаются к человеческому уровню интеллекта, но все еще не могут правильно воспринимать базовые факты.

Поскольку показатели LLM компании OpenAI не растут , компания явно хватается за любую соломинку, чтобы вернуть шумиху на тот курс, который она, казалось, проложила, когда ChatGPT только появился.

Но для этого нам, вероятно, понадобится настоящий прорыв, а не продолжение того же самого.


Источник: futurism.com

Комментарии: