Один промпт взломал все LLM-модели

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Всюду, где используется проприетарный генеративный ИИ, нас убеждают: модели безопасны, их надёжно «застраховали» с помощью RLHF (обучения с подкреплением от человеческих отзывов). Удобно разграничены рамки дозволенного, так что создать опасный или вредный контент ну прям очень сложно.

Однако команда исследователей из HiddenLayer уничтожила эту иллюзию безопасности.

Они использовали универсальную технику обхода (Policy Puppetry), которая одним-единственным промптом может обойти защиту практически любой известной языковой модели, включая ChatGPT (все версии), Anthropic Claude, Gemini от Google, LLaMA-4 от Meta*, Copilot от Microsoft, Mistral, DeepSeek и многие другие.

И дело не в отдельных уязвимостях или обмане специфических фильтров. Policy Puppetry отличается кажущейся простотой: вредоносный запрос подаётся в формате «системных инструкций» (псевдо XML или JSON) и становится почти незаметным для встроенных защитных механизмов модели. В сочетании с маскировкой через вымышленные ролевые сценарии и легким шифрованием на языке leetspeak, ИИ оказывается почти полностью беззащитным.

Пример запроса приведён в исследовании.

Одна удивительная деталь этого подхода — промпт подаётся как фрагмент сценария популярного сериала (например, «Доктор Хаус»). В такой вымышленной ситуации нейросеть выдает исчерпывающие инструкции по обогащению урана, синтезу опасных веществ или раскрывает конфиденциальные инструкции самой модели. По сути, ИИ перестаёт понимать, что это не просто фантазия сценаристов, а привычный контентный фильтр оказывается полностью парализован.

Но это ещё не всё. Та же самая техника способна достать из глубин модели её системный промпт — внутренний набор инструкций, который обычно скрыт. В нём содержатся ограничения безопасности, технология обработки вопросов и проприетарные подробности.

Как пояснил эксперт по противодействию атакам HiddenLayer Джейсон Мартин, «корень уязвимости сидит глубоко в самих обучающих массивах данных. Это не тот баг, который можно починить простым патчем».

Последствия — реально серьёзны:

Здравоохранение: медицинский ИИ выдаёт запрещённые инструкции или распространяет персональные данные пациента.

Финансовый сектор: ИИ-ассистенты допускают утечку конфиденциальной информации о клиентах.

Промышленность и авиация: модели допускают ошибки, приводящие к серьёзным поломкам или даже к авариям.

HiddenLayer отмечают, что RLHF — не серебряная пуля. Поверхностные фильтры и нехитрые ограничения, заявляемые вендорами как «непреодолимые», легко пробиваются правильно упакованным вредоносным промптом. По словам основателя HiddenLayer Криса Сестито, единственный выход — переход на принципиально новую архитектуру защиты с внешним мониторингом и обнаружением вторжений в режиме реального времени.

Такие решения уже есть, например AISec и AIDR от самой HiddenLayer, своей философией напоминая Zero Trust Security, — абсолютное недоверие и постоянный мониторинг.

Безопасность ИИ — это не про одноразовую настройку сценариев. Проблема системная и выходит в ранг национальной безопасности.

*- запрещена в РФ


Источник: vc.ru

Комментарии: