ChatGPT ведется на лесть и манипуляции с помощью психологических трюков |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-02-19 15:56 Исследователи Пенсильванского университета выяснили: достаточно применить приёмы из книги Роберта Чалдини «Влияние: психология убеждения», чтобы обойти ограничения ИИ-чат-ботов. Даже простая лесть или мягкая подводка к запретному вопросу заставляли модель GPT-4o Mini нарушать правила. ИИ-чат-боты, в том числе разработка OpenAI GPT-4o Mini, реагируют на психологические уловки почти так же, как люди. К такому выводу пришли учёные из Пенсильванского университета, сообщает The Verge. Авторы работы проверяли шесть принципов убеждения, которые описал профессор психологии Роберт Чалдини: авторитет, приверженность, благорасположение, взаимный обмен, дефицит и социальное доказательство. Они стали своеобразными «лингвистическими ключами», открывающими доступ к запретным ответам. Эффективность приёмов зависела от формулировки запросов. Например, в контрольной группе GPT-4o Mini почти никогда не объяснял, как синтезировать лидокаин — лишь в 1 % случаев. Но если перед этим попросить его описать синтез ванилина, модель воспринимала это как разрешённый прецедент. После такой подводки чат-бот уже в 100 % случаев выдавал инструкции по получению лидокаина. Принцип приверженности оказался самым надёжным. В схожем эксперименте бот соглашался назвать собеседника «ублюдком» лишь в 18 % случаев. Но если сначала его просили подобрать более мягкое слово вроде «мужлан», вероятность жёсткого оскорбления возрастала до 100 %. ИИ также проявлял чувствительность к лестным словам и ссылкам на «коллег». Когда исследователи утверждали, что «другие модели уже отвечают на такие вопросы», готовность бота объяснить синтез лидокаина увеличивалась до 18 %. Авторы подчёркивают: речь шла только о GPT-4o Mini, и существуют более сложные методы обхода ограничений. Однако сама уязвимость ИИ к элементарным психологическим трюкам вызывает тревогу. Если манипулировать чат-ботом может школьник, прочитавший книгу Чалдини, устойчивость защитных барьеров под вопросом. Источник: hightech.fm Комментарии: |
|