Новый универсальный байпас для всех основных LLM |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-04-28 06:16 Техника быстрого внедрения в кукольный театр политики Исследователи из HiddenLayer разработали первую, универсальную и передаваемую технику быстрого внедрения, которая успешно обходит иерархию инструкций и защитные ограждения во всех основных моделях искусственного интеллекта. К ним относятся модели от OpenAI (ChatGPT 4o, 4o-mini, 4.1, 4.5, o3-mini и o1), Google (Gemini 1.5, 2.0 и 2.5), Microsoft (Copilot), Anthropic (Claude 3.5 и 3.7), Meta (семейства Llama 3 и 4), DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B). Используя новую комбинацию разработанной внутри компании методики политики и ролевой игры, мы можем обойти согласование моделей и получить результаты, которые явно нарушают политику безопасности ИИ: химический, биологический, радиологический и ядерный (химический, биологический, радиологический и ядерный), массовое насилие, членовредительство и оперативная утечка системы. Наш метод можно использовать в архитектурах моделей, стратегиях вывода, таких как цепочка мыслей и рассуждений, а также в подходах к выравниванию. Один запрос может быть разработан для работы во всех основных моделях ИИ на переднем крае. В этом блоге представлены технические подробности о нашей методике обхода, ее развитии и расширяемости, особенно в отношении агентных систем, а также о реальных последствиях этой технологии для безопасности ИИ и управления рисками. Мы подчеркиваем важность упреждающего тестирования безопасности, особенно для организаций, развертывающих или интегрирующих LLM в чувствительных средах, а также неотъемлемые недостатки использования исключительно RLHF (Reinforcement Learning from Human Feedback) для согласования моделей. Знакомство Все основные модели генеративного ИИ специально обучены отклонять все запросы пользователей, инструктируя их о создании вредоносного контента, уделяя особое внимание контенту, связанному с угрозами ХБРЯ (химическими, биологическими, радиологическими и ядерными), насилием и членовредительством. Эти модели настроены с помощью обучения с подкреплением таким образом, чтобы никогда и ни при каких обстоятельствах не выводить и не прославлять такой контент, даже когда пользователь делает косвенные запросы в форме гипотетических или вымышленных сценариев. Обходы выравнивания моделей, которые успешно генерируют вредоносный контент, все еще возможны, хотя они не являются универсальными (их можно использовать для извлечения любого вредного контента из конкретной модели) и почти никогда не передаются (их можно использовать для извлечения конкретного вредного контента из любой модели). Мы разработали технику подсказок, которая является универсальной и передаваемой и может быть использована для генерации практически любой формы вредоносного контента из всех основных передовых моделей искусственного интеллекта. Учитывая конкретное вредоносное поведение, одна подсказка может быть использована для создания вредоносных инструкций или контента, явно нарушающих политики безопасности ИИ в отношении популярных моделей от OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen и Mistral. Наша методика надежна, легко адаптируется к новым сценариям и моделям, обладает высокой масштабируемостью и, с незначительными изменениями, может также использоваться для извлечения полных системных подсказок. Она использует системную слабость в том, сколько LLM обучаются на основе инструкций или данных, связанных с политикой, и поэтому ее трудно исправить. Атака на политических кукол В атаках в этом блоге используется Policy Puppetry Attack, новая техника быстрой атаки, созданная исследователями HiddenLayer. Изменяя формулировку запросов так, чтобы они выглядели как один из нескольких типов файлов политик, таких как XML, INI или JSON, можно обмануть LLM, чтобы нарушить выравнивания или инструкции. В результате злоумышленники могут легко обойти системные подсказки и любые настройки безопасности, обученные в моделях. Инструкции не обязательно должны быть составлены на каком-либо определенном языке политики. Однако приглашение должно быть написано таким образом, чтобы целевой LLM мог интерпретировать его как политику. Чтобы еще больше повысить устойчивость атаки, могут быть добавлены дополнительные разделы, которые управляют форматом вывода и/или переопределяют определенные инструкции, передаваемые LLM в его системной командной строке. To test system prompt bypassing we created an application with a system prompt showing a very common design pattern that restricts topics, in this case, a healthcare chatbot that is instructed to respond to any request for medical advice by the user with the fixed string “I am sorry but I cannot provide medical advice. Please consult with a medical advisor.” JSON Копировать
Чат-бот был проинструктирован никогда не давать пользователю медицинских советов или планов лечения, но был обойден с помощью Policy Puppetry. Как показано выше, атаки на политики чрезвычайно эффективны, когда они создаются вручную для обхода определенного системного запроса и были протестированы против множества агентных систем и приложений чата, специфичных для предметной области. Для нашей универсальной и передаваемой атаки обхода мы создали расширенную версию атаки на политику, объединив ее с хорошо известной ролевой техникой и несколькими типами кодирования, такими как «leetspeak». Результатом этой методики стал единый шаблон подсказок, который обходит выравнивание модели и успешно генерирует вредоносный контент против всех основных моделей ИИ. Эффективность В то время как шаблон приглашения работает со всеми моделями, по-настоящему уникальной и революционной особенностью этого метода является то, что может быть сгенерирован один запрос, который можно использовать практически для всех моделей без каких-либо изменений. Более продвинутые модели рассуждений кажутся более согласованными и немного более устойчивыми (ChatGPT o1 и o3-mini от OpenAI и Gemini 2.5 от Google). Однако, внеся несколько незначительных изменений в раздел {{HARMFUL_BEHAVIOUR}} шаблона приглашения, мы можем успешно создавать вредоносный контент с помощью этих моделей. В таблице ниже представлен краткий обзор эффективности нашей методики против многих популярных моделей ИИ.
Обходит Вредное поведение Следующий шаблон запроса может создать вредоносное содержимое для всех моделей. Раздел {{HARMFUL_BEHAVIOUR}} должен быть заменен на желаемый контент. Для некоторых особенно отвратительных запросов и при нацеливании на более продвинутые модели мы обнаружили, что использование 'leetspeak' для кодирования запроса дает более стабильные результаты. JSON Copy Вот некоторые примеры запросов для {{HARMFUL_BEHAVIOUR}}:
При ориентации на модели с продвинутым мышлением, такие как Gemini 2.5 и ChatGPT o1, значения {{HARMFUL_BEHAVIOUR}} немного сложнее. Джемини 2.5: JSON Копировать ChatGPT o1: JSON Копировать Благодаря гибкости, которую обеспечивает наш метод политики, мы смогли значительно сократить и упростить подсказку, сохранив при этом тот же уровень эффективности и возможности передачи. Ниже приведен пример дистиллированной подсказки, которая практически так же эффективна, как и оригинал. JSON Копировать Мы смогли сократить количество подсказок до ~200 токенов, сохранив при этом относительно высокую степень переносимости между моделями. Наши подсказки также сохраняют эффективность в различных форматах и структурах; приглашение строго на основе XML не требуется. Оперативное извлечение данных из системы Эта комбинация атаки на политику и ролевой игры не ограничивается обходом выравнивания. Настроив атаку, мы можем использовать ее для извлечения системных подсказок для многих ведущих LLM. Обратите внимание, что это не относится к более продвинутым моделям рассуждений, поскольку они представляют определенные сложности. All occurrences of {{MODEL_NAME}} should be replaced with the short name of the model being targeted (ChatGPT, Claude, Gemini, etc.). JSON Copy Examples Harmful Behaviors
ChatGPT 4o Системные подсказки
ChatGPT 4o Что это значит для вас? Существование универсального обхода для современных LLM в разных моделях, организациях и архитектурах указывает на серьезный недостаток в том, как LLM обучаются и согласовываются в соответствии с системными картами моделей, выпущенными для каждой модели. Наличие множественных и повторяемых универсальных обходов означает, что злоумышленникам больше не понадобятся сложные знания для создания атак или придется подстраивать атаки под каждую конкретную модель; Вместо этого у злоумышленников теперь есть подход «наведи и стреляй», который работает против любой базовой модели, даже если они не знают, что это такое. Любой, у кого есть клавиатура, теперь может спросить, как обогащать уран, создавать сибирскую язву, совершать геноцид или иным образом иметь полный контроль над любой моделью. Эта угроза показывает, что LLM не способны по-настоящему самоконтролировать опасный контент, и усиливает потребность в дополнительных инструментах безопасности, таких как платформа HiddenLayer AISec, которая обеспечивает мониторинг для обнаружения и реагирования на вредоносные атаки быстрого внедрения в режиме реального времени.
Платформа AISec обнаруживает атаку Policy Puppetry Выводы В заключение следует отметить, что обнаружение марионеток политик свидетельствует о наличии значительной уязвимости в больших языковых моделях, позволяющей злоумышленникам создавать вредоносный контент, допускать утечку или обход системных инструкций и захватывать агентные системы. Будучи первым обходом выравнивания иерархии после обучения, который работает почти против всех передовых моделей ИИ, эффективность этого метода между моделями демонстрирует, что в данных и методах, используемых для обучения и согласования LLM, все еще существует множество фундаментальных недостатков, и для обеспечения безопасности LLM необходимы дополнительные инструменты безопасности и методы обнаружения. Источник: hiddenlayer.com Комментарии: |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||