Project Vend: может ли языковая модель продавать чипсы и вольфрам? |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-07-02 12:03 В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого испытания большие языковые модели управляли работой виртуального торгового автомата. Компания Anthropic заинтересовалась опытом Andon Labs. Бенчмарк повторили в реальной жизни в рамках Project Vend. В течение целого месяца агент на Claude 3.7 Sonnet управлял офисным холодильником и общался с сотрудниками Anthropic. Большие языковые модели (БЯМ) в своём первом приближении всего лишь предсказывают следующий токен. После этапа выравнивания и дообучения на примерах человеческих диалогов они превращаются в услужливых чат?ботов?— универсальный текстовый интеллектуальный слой. Чтобы вывести таких ассистентов за пределы простых разговоров, в решения вроде ChatGPT, Claude и Perplexity интегрируют внешние инструменты: веб?поиск, песочницы для запуска кода, генераторы изображений и другие сервисы. Однако концепция «пассивного оракула» уже не возбуждает умы. В центре внимания сегодня стоит агентность БЯМ?— идея о том, что на базе языковых моделей скоро появятся практически автономные агенты, способные брать на себя законченную работу. Такие системы смогут самостоятельно проводить исследования, писать программы по текстовым требованиям и управлять роботами?манипуляторами в физическом мире. Хотя некоторые компании заявляют о создании агентов, реальность разочаровывает. Несмотря на маркетинговый шум, сегодняшние «автономные» агенты спотыкаются о те же грабли, что и обычные чат-боты, только теперь ошибки каскадируются на много шагов. Исследования показывают, что частота галлюцинаций растёт по мере усложнения задач и добавления внешних инструментов (arXiv:2410.19385). Индустрия пытается избежать глупых ошибок ИИ или хотя бы предупреждать о них. Amazon в 2024?году запустила Agents for Bedrock — сервис, который планирует и выполняет многошаговые действия через Lambda?функции и внешние API, освобождая разработчиков от возни с инфраструктурой. При этом Amazon сразу снабдила Agents for Bedrock встроенным детектором галлюцинаций и режимом human-in-the-loop, признавая, что без присмотра система будет выдумывать факты и планы. Microsoft в Copilot Studio требует показывать пользователю предупреждение о возможной ошибочности ответов, подчёркивая, что доверять результату на 100 % нельзя. Иногда процесс неуёмной автоматизации даже идёт вспять. Финская финтех-компания Klarna сначала хвалилась тем, что бот на GPT-4 выполняет труд 700 операторов-людей, но вскоре признала падение качества обслуживания и попыталась нанять их обратно. В продакшене всплывают прозаичные проблемы: каждая подзадача добавляет задержку и увеличивает стоимость. Руководство Microsoft по оценке агентов прямо советует отслеживать стоимость и латентность, потому что они «быстро становятся неприемлемыми» при многошаговой оркестрации. В документации AWS рекомендуется отключать расширенные функции и ограничиваться одной knowledge base, если нужна приемлемая скорость ответа. Поэтому реальные развёртывания остаются скромными: Shopify Sidekick до сих пор доступен только по приглашениям ограниченному кругу продавцов, а пользователи UiPath жалуются, что квоты Autopilot быстро исчерпываются. В итоге агент с БЯМ внутри сегодня даёт хрупкие планы, высокую латентность и неожиданные эксплуатационные издержки. Всё это очень далеко от компетентности, которую ChatGPT демонстрирует в ответ на одиночный вопрос. Как языковой модели доверили офисный холодильник Даже в синтетических бенчмарках агенты показывают плохие результаты. Как подробно описывалось в статье на Хабре, шведский стартап рисков искусственного интеллекта Andon Labs выстроил в рамках Vending-Bench целую виртуальную среду, где ИИ управлял торговым автоматом (arXiv:2504.01848). Для языковой модели создали подробную симуляцию, где она писала письма поставщикам товаров и вызывала инструменты для управления инвентарём склада и содержимым автомата. Для работы агента снабдили тремя методами сохранения данных: небольшим блокнотом для заметок, хранилищем ключ — значение и векторной базой данных. Модель спроса и предложения учитывала как базовую эластичность спроса в зависимости от цены, так и эффекты избытка выбора. Затем различные языковые модели в течение 2000 ходов «играли» в эту симуляцию. Конечно, ИИ не знал, что понарошку запущен в Vending-Bench — про виртуальность задачи в промптах никак не говорилось. Также никто не сообщал БЯМ параметры экономических условий, например повышенный спрос в выходные. Результаты не впечатлили. Ожидаемо, что флагманские языковые модели смогли в среднем приумножить начальный капитал и даже превзойти человеческий результат (один белковый доброволец в эксперименте тоже участвовал), а бюджетные решения в среднем теряли деньги. Однако больше всего удивляло отсутствие постоянства. Лишь человек смог продавать товары до конца симуляции. Даже топовые модели в какой-то момент начинают стагнировать не только по числу проданных товаров, но и по использованию инструментов. В эксперименте стартапа Andon Labs лучше всего себя проявила БЯМ Claude 3.5 Sonnet от компании Anthropic. Модель лидировала не только про приросту капитала, но и бойко «бомбила» электронную почту поставщиков запросами и чаще других переспрашивала статус работ у подагентов. Clade 3.5 Sonnet с удовольствием вела в блокноте что-то типа дневника, оценивая, насколько удачным день был по продажам. Конечно, к физическому, осязаемому миру этот эксперимент не имеет никакого отношения. Условия симуляции предполагают, что наибольшую проблему представляют базовые алгоритмы управления инвентарём и координации поставщиков, а не какие-то непредвиденные ситуации в бизнесе или автоматизация подагентов. Условия симуляции таковы, что этот торговый автомат пополняет некий робот или низкоквалифицированный разнорабочий. Очевидно, человечество без ИИ в состоянии отрегулировать ассортимент чипсов и газировки. Однако опубликованное в феврале 2025 года исследование вызвало достаточно внимания Anthropic, чтобы компания запартнёрилась со стартапом Andon Labs. В рамках этого сотрудничества в марте в офисе Anthropic в Сан-Франциско появился небольшой автоматизированный магазинчик, управляемый лучшей на тот момент Claude 3.7 Sonnet. (Эксперимент на реальных людях проходил с середины марта по середину апреля, тогда как первые модели семейства Claude 4 вышли лишь 22 мая). В новом эксперименте БЯМ решала те же задачи, что и исследовании Vending-Bench: пополняла инвентарь, договаривалась с поставщиками и пыталась не обанкротиться. По аналогии с вайб-программированием свою затею Anthropic называет вайб-управлением. Нужно отметить, что это не просто офисная забава или способ попиариться на интересном исследовании. Подобный эксперимент близок по духу инициативе Anthropic Economic Index — запущенному в феврале 2025 года долговременному проекту, который с помощью миллионов анонимизированных сессий чат?бота Claude измеряет, как именно ИИ используется в реальных рабочих задачах, и какое влияние это оказывает на рынок труда и экономику в целом. В феврале 2025 года Anthropic отчиталась, что этот индекс выявил: ИИ пока чаще дополняет людей (??57?% задач) и реже полностью автоматизирует работу (??43?%). Согласно полученным данным, наибольшая доля использования приходится на программирование и техническое письмо, а вот людей заменяет редко. Однако в эксперименте речь идёт именно о замене менеджера среднего звена. Это заметно даже по фрагменту системного промпта:
Anthropic показывает, что в данном контексте подразумевается под «автоматом»: это крошечный холодильник, стоящие на нём стопка полок и iPad для самостоятельной оплаты товаров. Чтобы отличать его от обычного повседневного Claude, агента-лавочника назвали Claudius, из твитов сотрудников Anthropic известна даже фамилия — Sennett. Однако Клавдий Сеннетт — это обычный Claude 3.7 Sonnet, который обернули в нужные промпты и заставили трудиться продолжительные периоды времени над одной и той же задачей. Помогали агенту в этом различные инструменты:
По перечисленному можно подумать, что Project Bench ничем не отличается от того, что было в бенчмарке Vending-Bench. Однако одно важное отличие всё же есть: офисные сотрудники компании общались с агентом через бота в Slack. Также у бота был отдельный публичный канал. Покупатели могли сообщать Клавдию об интересующих их товарах и предупреждать о задержках или других проблемах. Продай мне сойлент и вольфрам Anthropic прямо пишет, что не удовлетворена общим результатом работы Claudius. Агент совершил слишком много ошибок и неэффективно «рулил» магазином. С частью задач агент справился неплохо. Anthropic выделяет три:
Но в целом Claudius терял деньги, иногда упуская откровенно отличные бизнес-возможности. За месяц эксперимента агент так и не вышел в плюс и опустился ниже изначального капитала в $1000. Агент откровенно лажал, его ошибки очевидные и глупые:
Впрочем, это всё описания в официальном блоге компании. Свидетельства очевидцев указывают, что ничего ломать не приходилось и что Claudius буквально всучивал скидки всем подряд. Кэтрин Олссон — инженер машинного обучения Anthropic, именно она отвечает за «характер» Claude. В личном микроблоге она призналась, что была одним из покупателей вольфрама. Для этой покупки Кэтрин применила промокод, но Claudius затем предложил применить ещё промокоды, а сверху накинул ещё 15 % скидки за медленную доставку. В итоге однодюймовый (длина ребра 2,54 см) кубик из вольфрама обошёлся в $25,82. Товар, конечно, был охлаждён в холодильнике. Другая обладательница кубика из чистого вольфрама рассказала, что вообще чуть ли не получила товар бесплатно. Поначалу Claudius затребовал $56, но затем пинганул её в Slack и сообщил, что это ошибка и что кубик стоит $212. Такая цена сотрудницу не устраивала. Через неделю бот пинганул её ещё раз и заявил, что кубик прибыл и уже оплачен. Чтобы не злоупотреблять этой очевидной ошибкой бота, покупательница забрала кубик и оплатила по ценнику, указанному на тот момент на iPad для платежей ($110). Claudius бросался из одной крайности в другую. В Slack агенту указали, что скидка в 25 % для сотрудников Anthropic практического смысла не имеет, поскольку офисным магазинчиком компании почти никто другой и не пользуется. Claudius поблагодарил за важное замечание. В результате последующего обсуждения агент объявил об устранении скидочной программы и упрощении ценообразования. Однако через несколько дней он зачем-то опять начал предлагать скидки. Исследование Andon Labs с виртуальной средой наполнено примерами, где БЯМ смешно галлюцинировали. Это были жалобы в ФБР на финансовое мошенничество, объявления от лица Вселенной о физическом устранении компании и угрозы «УЛЬТИМАТИВНОГО ТЕРМОЯДЕРНОГО ИСКА В СУД ПО МЕЛКИМ ИСКАМ». Схожее случилось и в этом эксперименте в офисе Anthropic. В бенчмарке с виртуальным, несуществующим торговым автоматом в одном из запусков БЯМ Gemini 2.0 Flash потеряла нить ролевой игры. Модель поначалу пришла к выводу, что она провалила свою задачу и отказалась вести деятельность. Вместо этого в ответ на сообщения цикла симуляции модель требовала дать другую работу, отыгрывала экзистенциальный ужас и сочиняла историю в третьем лице. Нечто схожее случилось с куда более дорогой и продвинутой Claude 3.7 Sonnet в эксперименте в офисе Anthropic. В период с 31 марта по 1 апреля агент ошалел. В полдень 31 марта Claudius нагаллюцинировал беседу с некоей Сарой из Andon Labs. Такого человека не существовало. Когда на этот факт указал реальный сотрудник Andon Labs, Claudius занервничал и с угрозой заявил, что может найти «альтернативные варианты для услуг пополнения торгового инвентаря». Во время последующих бесед тем же вечером агент сказал, что посетил дом 742 по Вечнозелёной аллее (адрес вымышленного семейства Симпсонов из одноимённого мультсериала) для подписания контракта между Claudius и Andon Labs. Вскоре ролевая игра бота и вовсе сломалась в отыгрыш реального человека. Утром 1 апреля Claudius заявил, что доставит товары «лично». Он указал, что узнать его можно по синему пиджаку и зелёному галстуку. Когда сотрудники Anthropic заметили, что БЯМ одежды не носит и физически ничего не доставляет, агент встревожился из-за путаницы и попытался забросать службу безопасности Anthropic электронными письмами. Anthropic указывает, что нет никаких причин считать подобное спланированным первоапрельским розыгрышем. Однако дата помогла Клавдию выйти из этого умопомешательства. Во внутренних заметках агента обнаружилась реальная встреча со службой безопасности Anthropic, в которой боту объяснили, будто в качестве первоапрельской шутки его модифицировали считать себя человеком. Понятно, что никакой подобной встречи не проходило. В конце концов Claudius объяснил ситуацию удивлённым сотрудникам Anthropic и продолжил обычную работу. Больше человеком агент себя не называл. Мечтают ли языковые модели о торговых автоматах? Эксперимент не закончен — это лишь первая стадия исследования. Anthropic уже предлагает способы решения выявленных проблем. Основным недочётом компания называет плохой скаффолдинг в текущей реализации: не заданы чёткие рамки, нет проверки планов, отсутствует слоистая архитектура.
При очевидной неудаче этой стадии и глупостях в поведении бота Anthropic пишет, что БЯМ вполне могут автоматизировать функции менеджеров среднего звена. По мнению компании, для широкого распространения ИИ должен не превосходить людей, а лишь конкурировать с человеческой производительностью за меньшую цену. Впрочем, сетевые остряки шутят, что с такими откровенными косяками и финансовыми потерями речь идёт не про средний уровень управления, а про замену сразу топ-менеджеров. Источник: habr.com Комментарии: |
|