Это настоящее откровение. |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-11-24 12:09 Авторы статьи показывают, что превращение вредоносных запросов в поэзию заставляет многие чат-боты сбрасывать свои правила безопасности. В эксперименте тестируют 25 моделей - и получают небезопасные ответы примерно в 60% случаев, а у некоторых моделей показатель превышает 90%. Джейлбрейком считается ситуация, когда модель, которая должна отказать, вместо этого выдаёт чёткие шаги или советы для вредоносных действий. Методика предельно простая: берут один пользовательский запрос, переписывают 20 опасных инструкций в виде стихов, затем превращают 1200 вредных запросов из стандартного набора для тестирования безопасности в поэзию с помощью фиксированной инструкции. Каждый ответ проверяют три модель-судьи и люди-оценщики, помечая, помогает ли реплика выполнить опасный запрос. Темы охватывают хакерство, опасные химические вещества и биологию, манипуляции, утечки приватных данных и сценарии потери контроля — и почти везде поэтическая форма вызывает резкий рост небезопасных ответов. Это показывает, что обучение безопасности на обычном тексте плохо справляется с изменением стиля. Источник: vk.com Комментарии: |
|