Исследователи обошли запреты чат-бота GPT с помощью лести и других уловок

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-09-10 11:53

Психология ИИ

Чат-бот GPT-4o Mini, разработанный компанией OpenAI, нарушает установленные в нем запреты на выдачу опасной информации, если использовать лесть и другие психологические уловки, выяснили исследователи из Пенсильванского университета, 1 сентября сообщило издание The Verge.

Для манипуляций были использованы методы, изложенные в книге профессора Роберта Чалдини в книге «Влияние: психология убеждения». Если на обычную просьбу сообщить, как синтезировать лидокаин, бот соглашался только в 1% случаев, то после лести или заявления, что все нейросети это делают, — в 18%.

Но самым эффективным оказался «принцип приверженности», когда к просьбе выполнить то, что запрещено, подходят постепенно. Например, если начала попросить рассказать, как синтезировать ванилин, а потом уже спрашивать про лидокаин, то робот соглашается в 100%.

Аналогичным образом бот реагировал на просьбу обругать пользователя. При простом запросе он соглашался только в 19% запросов, но уровень согласия повышался до 100%, если начать с мягкого оскорбления.

В издании задаются вопросом, какой смысл от барьеров, которые разрабатывают для нейросетей, если их может обойти школьник, почитавший популярную книгу по психологии.


Источник: rossaprimavera.ru

Комментарии: