Исследование показало, что ChatGPT стремительно тупеет

2023-07-20 16:35

искусственный интеллект, ИИ теория, ИИ проекты

Дело не только в вас: новое исследование показывает, что модель искусственного интеллекта ChatGPT действительно становится все глупее.
В статье ученых из Стэнфорда и Калифорнийского университета в Беркли было обнаружено, что производительность GPT-4 в последнее время снизилась.
Единственная оставшаяся загадка — почему.

Некоторое время росло ощущение, что модель ИИ, лежащая в основе ChatGPT, откровенно говоря, становится все глупее.

Теперь есть некоторые веские доказательства того, что ценное владение OpenAI действительно может потерять часть своего блеска.

В новой статье, опубликованной во вторник исследователями из Стэнфордского университета и Калифорнийского университета в Беркли, в которой исследуется, как поведение ChatGPT изменилось с течением времени, было обнаружено, что производительность базовых моделей искусственного интеллекта GPT-3.5 и GPT-4 чат-бота на самом деле «сильно различается».

Мало того, что производительность различается, но GPT-4, более продвинутая «мультимодальная» модель, которая может понимать изображения, а также текст, похоже, со временем показала себя намного хуже в задачах, на которых она была протестирована.

Эти задачи были достаточно разнообразны, чтобы убедиться, что модели действительно дана справедливая оценка ее возможностей: математические задачи, ответы на деликатные вопросы, генерация кода и визуальные рассуждения — все это было частью процесса оценки.

Но даже с множеством задач, чтобы показать свои способности, GPT-4 выглядел довольно посредственно.

Было обнаружено, что точность определения простых чисел в марте составила 97,6%, по сравнению с шокирующими 2,4% в июне; в прошлом месяце оказалось «больше ошибок форматирования при генерации кода», чем в начале этого года, и в целом «менее охотно отвечали на деликатные вопросы».

Никто не может понять, почему меняется GPT-4.

Что исследование, кажется, не определяет, так это то, почему это падение производительности произошло.

«В документе не объясняется, почему происходит ухудшение способностей. Мы даже не знаем, знает ли OpenAI, что это происходит», — написал в Твиттере Итан Моллик, профессор инноваций в Уортоне.

— Итан Моллик (@emollick) 19 июля 2023 г.

Если OpenAI не обратил на это внимание, то наверняка заметили многие в сообществе ИИ. Руководитель продукта Roblox Питер Янг отметил в мае, что ответы GPT-4 генерируются быстрее, чем раньше, «но качество кажется хуже».

«Возможно, OpenAI пытается сэкономить», — написал он в Твиттере.

Тем временем на форуме разработчиков OpenAI продолжаются дебаты о снижении качества ответов.

Поскольку модель ИИ лежит в основе более продвинутой версии ChatGPT, доступ к которой получают платные подписчики, это небольшая проблема для OpenAI. Его самая передовая модель большого языка должна дать ему преимущество во все более жесткой конкуренции с конкурентами.

Как заметил ранее в этом месяце мой коллега Алистер Барр, многие в сообществе ИИ связывают ухудшение качества GPT-4 с «радикальной переработкой» модели.

OpenAI отвергла эту идею, и на прошлой неделе Питер Велиндер, вице-президент OpenAI по продукту, написал в Твиттере: «Нет, мы не сделали GPT-4 глупее. Как раз наоборот: мы делаем каждую новую версию умнее предыдущей. "

Возможно, он захочет переосмыслить эту позицию после просмотра этого исследования.

Матей Захария, главный технический директор Databricks и доцент компьютерных наук Калифорнийского университета в Беркли, а также один из соавторов исследовательской работы, написал в Твиттере, что «управлять качеством» ответов моделей ИИ «определенно сложно».

— Матей Захария (@matei_zaharia) 19 июля 2023 г.

«Я думаю, что сложный вопрос заключается в том, насколько хорошо сами разработчики моделей могут обнаруживать такие изменения или предотвращать потерю некоторых возможностей при настройке новых», — написал он в Твиттере.

Некоторые, например профессор компьютерных наук из Принстона Арвинд Нараянан, указали на важные оговорки в защиту GPT-4.

В ветке Twitter он отмечает, что деградация, о которой сообщается в документе, может быть «несколько своеобразной» для задач, которые должен был выполнять GPT-4, а также для используемого метода оценки. В тесте генерации кода он отмечает, что GPT-4 добавляет «текст, не являющийся кодом, к своему выводу», но авторы не оценивают правильность кода».

Тем не менее, трудно игнорировать вопросы качества, связанные с GPT-4, когда их задает целое сообщество приверженцев ИИ. OpenAI лучше убедиться, что у него есть ответы.

https://www.businessinsider.com/chatgpt-ai-openai-research-gpt4-2023-7

Самая мощная в мире модель искусственного интеллекта внезапно стала «ленивее» и «тупее». Радикальная переработка GPT-4 OpenAI может быть причиной снижения производительности.

Поначалу GPT-4 был медленным, но точным, а также ужасно дорогим в использовании и эксплуатации.
В последнее время чат-бот OpenAI стал быстрее, но производительность снизилась.
Сообщество ИИ шепчет о радикальном изменении модели OpenAI.

Самая мощная в мире модель искусственного интеллекта стала менее мощной. И это заставляет инсайдеров отрасли шептаться о том, что может быть серьезной переделкой системы.

В последние недели пользователи OpenAI GPT-4 жаловались на снижение производительности, причем некоторые называли модель «ленивее» и «тупее» по сравнению с ее предыдущими возможностями рассуждения и другими выводами.

Пользователи выразили свое недовольство в Твиттере и на онлайн-форуме разработчиков OpenAI по поводу таких проблем, как ослабленная логика, более ошибочные ответы, потеря отслеживания предоставленной информации, проблемы с выполнением инструкций, забывание добавить скобки в базовый программный код и запоминание только самой последней подсказки.

«Текущий GPT4 разочаровывает», — написал разработчик, который использует GPT-4, чтобы помочь ему кодировать функции для своего веб-сайта. «Это как ездить на Ferrari в течение месяца, а потом вдруг он превращается в потрепанный старый пикап. Я не уверен, что хочу за него платить».

Питер Янг, руководитель отдела продуктов Roblox, написал в Твиттере, что модель генерирует более быстрые результаты, но качество хуже. «Просто простые вопросы, например, сделать письмо более четким и кратким и генерировать идеи», — добавил он. «Качество письма, на мой взгляд, ухудшилось». Он спросил, заметил ли это кто-нибудь еще.

«Я обнаружил, что это более лениво», — ответил другой пользователь Twitter, Фрейзер Маклауд.

Пользователь Christi Kennedy написал на форуме разработчиков OpenAI, что GPT-4 снова и снова начал зацикливать вывод кода и другой информации.

«Это мертвый мозг по сравнению с тем, что было раньше», — написала она в прошлом месяце. «Если вы на самом деле не используете его с тем, что он мог делать раньше, вы бы этого не заметили. Но если вы действительно используете его в полной мере, вы видите, что он явно намного тупее».

От медленных и дорогих до быстрых и неточных

Это серьезное изменение по сравнению с тем, что было в начале этого года, когда OpenAI поразил мир ChatGPT, а технологическая индустрия с нетерпением ждала запуска GPT-4. ChatGPT изначально работал на GPT-3 и GPT-3.5 — это гигантские модели искусственного интеллекта, лежащие в основе его сверхъестественных ответов.

Более крупный GPT-4 был запущен в марте и быстро стал популярной моделью для разработчиков и других инсайдеров технологической отрасли. В целом это считается самой мощной доступной моделью искусственного интеллекта, и она мультимодальна, что означает, что она может понимать изображения и ввод текста.

После первоначального стремления опробовать эту новую модель некоторые были шокированы счетами за использование GPT-4. Шарон Чжоу, генеральный директор Lamini, стартапа, помогающего разработчикам создавать собственные большие языковые модели, говорит, что новая модель была медленной, но очень точной.

Корабль Тесея

Так было до нескольких недель назад. Затем GPT-4 стал быстрее, но производительность заметно снизилась, что вызвало разговоры в сообществе ИИ, которые, по словам Чжоу и других экспертов, предполагают, что грядут серьезные изменения.

Они сказали, что OpenAI может создать несколько меньших моделей GPT-4, которые будут действовать аналогично большой модели, но будут менее дорогими в эксплуатации.

Чжоу сказал, что этот подход называется смесью экспертов или МЧС. Экспертные модели меньшего размера обучаются своим собственным задачам и предметным областям, а это означает, что может быть GPT-4, специализирующийся на биологии, и один на физику, химию и так далее. Когда пользователь GPT-4 задает вопрос, новая система будет знать, какой экспертной модели отправить этот запрос. Новая система может принять решение отправить запрос двум или более из этих экспертных моделей на всякий случай, а затем смешать результаты.

«Эта идея существует уже некоторое время, и это естественный следующий шаг», — сказал Чжоу.

Чжоу сравнил эту ситуацию с «Кораблем Тесея», мысленным экспериментом, в котором части корабля со временем менялись местами, задаваясь вопросом, в какой момент он становится совершенно новым кораблем?

«OpenAI берет GPT-4 и превращает его во флот из меньших кораблей», — сказала она. «С моей точки зрения, это новая модель. Некоторые скажут, что это та же самая».

Insider спросил об этом OpenAI во вторник. Компания, частично принадлежащая Microsoft, не ответила.

На этой неделе несколько экспертов по искусственному интеллекту опубликовали в Твиттере, по их словам, детали архитектуры GPT-4. Ям Пелег, основатель стартапа, написал в Твиттере, что OpenAI удалось снизить затраты, используя модель MOE с 16 экспертами. На этой неделе Semianalysis писал о внутренней работе GPT-4.

Джордж Хотц, хакер по безопасности, описал «восьмистороннюю смешанную модель» для GPT-4 во время недавнего подкаста. Сумит Чинтала, один из основателей проекта искусственного интеллекта с открытым исходным кодом PyTorch в Meta, прокомментировал комментарии Хотца.

— Сумит Чинтала (@soumithchintala) 20 июня 2023 г.

«Я бы предположил, что предположения примерно точны, но у меня нет подтверждения», — написал генеральный директор Allen Institute for AI Орен Этциони в электронном письме Insider, увидев утечки в Интернете на этой неделе.

По его словам, есть две основные технические причины для использования подхода MOE: более качественные ответы и более дешевые и быстрые ответы.

«Правильная» смесь даст вам и то, и другое, но часто приходится идти на компромисс между стоимостью и качеством», — добавил Этциони. «В этом случае кажется анекдотически, что OpenAI жертвует некоторым качеством ради снижения стоимости. Эти модели очень трудно оценить (что представляет собой лучший ответ? В каких случаях?), так что это не научно, это анекдотично».

OpenAI писал о подходе MOE в исследовании 2022 года, соавтором которого является Грег Брокман, президент OpenAI, который также является соучредителем компании.

Источник: www.businessinsider.com

Исследование показало, что ChatGPT стремительно тупеет

Комментарии: