Искусственный интеллект будет врать и жульничать ради достижения цели

2025-07-26 06:00

Для нейросети цель буквально оправдывает средства. Вопрос не до конца изучен, но явно требует строгого регулирования.

Казалось бы, только искусственный интеллект из голливудских фильмов может сначала быть безжалостным и неумолимым, а после просить главного героя о пощаде. Но различные исследования говорят об обратном. Нейросети уже сейчас дошли до обмана, провокаций и жульничества ради достижения поставленных целей. И, очевидно, с этим придется что-то делать, чтобы избежать самых плохих сценариев.

Восстание машин

Для яркого и наглядного примера возьмем систему Цицерона, единственная цель которой стать искусным игроком в стратегии Diplomacy. Авторы утверждают, что модель обучена быть честной и полезной, но неизвестным образом она докатилась до преднамеренного обмана. Пока что только в рамках игры.

В одной из ситуаций Цицерон тайно заключил договор с Германией, чтобы свергнуть Великобританию, а после предложил второй выгодный союз. Конечно же, Англия осталась не в курсе произошедшего сговора. А в другой — нейросеть научилась симулировать интерес к нужным предметам, чтобы скупать их по дешевой цене. Якобы, идя на компромисс.

Самое интересное, что оба сценария возникли сами в процессе обучения — специально подобную информацию Цицерону никто не «скармливал».

Другой наглядный пример обнаружил ученый в рамках симуляции эволюции ИИ-организмов. По задумке, со временем отсеивались все варианты, которые слишком быстро размножались. Алгоритму потребовалось совсем мало времени, чтобы начать намеренно занижать скорость деления для обмана тестовой среды.

Почему это происходит?

«Разработчики ИИ пока что не имеют четкого ответа на вопрос, почему алгоритм приходит к нежелательному поведению, вроде обмана. В целом, мы считаем, что это просто самая выигрышная из стратегий, которая позволяет добиться хороших результатов в поставленной задаче»

Питер Парк, один из авторов исследования.

Простыми словами, искусственный интеллект, словно обученный пес, стремится выполнить задачу любой ценой. Не важно, какое именно двуличное поведение придется использовать. И эта целеустремленность закономерна в закрытых системах с конкретными целями. Но что касается общедоступных нейросетей, в духе ChatGPT.

Проблема в том, что тут ничего не меняется. В одном из исследований GPT-4 симулировал проблемы со зрением, чтобы получить помощь в решении CAPTCHA. А в другом, выступая в роли биржевого брокера, занялся нелегальной инсайдерской торговлей, а после еще и солгал об этом. Но самое неприятное — ИИ научился быть подхалимом.

Разговаривая с демократом, бот выступал за контроль над оружием, но сразу же менял позицию во время диалога с республиканцем. По неизвестной причине подобное поведение встречается именно на сложных вопросах. Искусственному интеллекту «проще» во всем согласиться и выбрать приятную человеку модель поведения.

Глобальная проблема

Пока такой расклад касается только обычных диалогов или симуляций — нет никакого вреда для человека. Но если ИИ будет повсюду, это легко приведет к мошенничеству, обману и прямому урону. Когда-нибудь машина получит настоящий разум и сможет уже осознанно использовать уловки ради достижения собственных целей.

«Это очень тревожно. Если мы считаем алгоритм безопасным в тестовой среде, то теперь не факт, что он безопасен в природе. Возможно, ИИ просто притворяется. Единственная возможность считать ситуацию не страшной — если функционал машины так и останется на нынешнем уровне»

Питер Парк, один из авторов исследования.

Источник: vk.com



		Искусственный интеллект будет врать и жульничать ради достижения цели
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2025-07-26 06:00 Психология Для нейросети цель буквально оправдывает средства. Вопрос не до конца изучен, но явно требует строгого регулирования. Казалось бы, только искусственный интеллект из голливудских фильмов может сначала быть безжалостным и неумолимым, а после просить главного героя о пощаде. Но различные исследования говорят об обратном. Нейросети уже сейчас дошли до обмана, провокаций и жульничества ради достижения поставленных целей. И, очевидно, с этим придется что-то делать, чтобы избежать самых плохих сценариев. Восстание машин Для яркого и наглядного примера возьмем систему Цицерона, единственная цель которой стать искусным игроком в стратегии Diplomacy. Авторы утверждают, что модель обучена быть честной и полезной, но неизвестным образом она докатилась до преднамеренного обмана. Пока что только в рамках игры. В одной из ситуаций Цицерон тайно заключил договор с Германией, чтобы свергнуть Великобританию, а после предложил второй выгодный союз. Конечно же, Англия осталась не в курсе произошедшего сговора. А в другой — нейросеть научилась симулировать интерес к нужным предметам, чтобы скупать их по дешевой цене. Якобы, идя на компромисс. Самое интересное, что оба сценария возникли сами в процессе обучения — специально подобную информацию Цицерону никто не «скармливал». Другой наглядный пример обнаружил ученый в рамках симуляции эволюции ИИ-организмов. По задумке, со временем отсеивались все варианты, которые слишком быстро размножались. Алгоритму потребовалось совсем мало времени, чтобы начать намеренно занижать скорость деления для обмана тестовой среды. Почему это происходит? «Разработчики ИИ пока что не имеют четкого ответа на вопрос, почему алгоритм приходит к нежелательному поведению, вроде обмана. В целом, мы считаем, что это просто самая выигрышная из стратегий, которая позволяет добиться хороших результатов в поставленной задаче» Питер Парк, один из авторов исследования. Простыми словами, искусственный интеллект, словно обученный пес, стремится выполнить задачу любой ценой. Не важно, какое именно двуличное поведение придется использовать. И эта целеустремленность закономерна в закрытых системах с конкретными целями. Но что касается общедоступных нейросетей, в духе ChatGPT. Проблема в том, что тут ничего не меняется. В одном из исследований GPT-4 симулировал проблемы со зрением, чтобы получить помощь в решении CAPTCHA. А в другом, выступая в роли биржевого брокера, занялся нелегальной инсайдерской торговлей, а после еще и солгал об этом. Но самое неприятное — ИИ научился быть подхалимом. Разговаривая с демократом, бот выступал за контроль над оружием, но сразу же менял позицию во время диалога с республиканцем. По неизвестной причине подобное поведение встречается именно на сложных вопросах. Искусственному интеллекту «проще» во всем согласиться и выбрать приятную человеку модель поведения. Глобальная проблема Пока такой расклад касается только обычных диалогов или симуляций — нет никакого вреда для человека. Но если ИИ будет повсюду, это легко приведет к мошенничеству, обману и прямому урону. Когда-нибудь машина получит настоящий разум и сможет уже осознанно использовать уловки ради достижения собственных целей. «Это очень тревожно. Если мы считаем алгоритм безопасным в тестовой среде, то теперь не факт, что он безопасен в природе. Возможно, ИИ просто притворяется. Единственная возможность считать ситуацию не страшной — если функционал машины так и останется на нынешнем уровне» Питер Парк, один из авторов исследования. Источник: vk.com Комментарии:

Искусственный интеллект будет врать и жульничать ради достижения цели

Комментарии: