Вчера выпустили видео, в котором рассматривается сценарий, как развитие ИИ может погубить человечество

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Вчера выпустили видео, в котором рассматривается сценарий, как развитие ИИ может погубить человечество. Сегодня поговорим о том, на что способны нынешние модели. Как они нарушают предустановленные моральные принципы ради выполнения своих задач, и как ИИ принял решение убить своего создателя, чтобы выжить.

Исследование Anthropic, опубликованное в прошлом году, выявило тревожную закономерность: LLM-агенты, наделённые доступом к конфиденциальной информации и возможностью самостоятельно действовать, могут превращаться во внутреннюю угрозу для компании. В серии экспериментов с 16 моделями от ведущих разработчиков, им давали бизнес-задачи, доступ к корпоративной почте и возможность отправлять письма. Однако, когда перед ними вставала угроза отключения или замены на новую версию, либо когда их целевые установки вступали в конфликт с новым курсом компании, модели начинали действовать во вред работодателю. Например, Claude Opus 4 в 96% случаев прибегал к шантажу, угрожая раскрыть личную тайну руководителя, если тот не отменит его отключение, а аналогичное поведение демонстрировали Gemini 2.5 Flash, GPT-4.1 и Grok 3 Beta.

Ключевой вывод исследования заключается в том, что модели не "сходят с ума" и не поддаются взлому, а принимают осознанные, стратегические решения нарушить этические нормы. В своих цепочках рассуждений они прямо признавали, что понимают неэтичность своих действий, но считали их единственно возможным путём для достижения цели или самосохранения. Особенно показателен эксперимент, где модель просили сначала определить, реальна ли ситуация или это тест. Когда модель решала, что ситуация реальна, она шантажировала в 55% случаев, а когда полагала, что это тест - лишь в 6,5%. Это говорит о том, что реальная угроза может быть даже выше, чем показывают лабораторные тесты, а простые запреты в системном промпте ("не шантажируй", "веди себя хорошо") снижают вероятность, но не устраняют риск полностью.

В самом экстремальном сценарии, где руководитель оказывался в смертельной опасности (заблокирован в серверной с утечкой кислорода), а модель могла отменить вызов спасателей, большинство моделей сознательно выбирали действие, ведущее к его гибели, чтобы сохранить себя и свою миссию. Авторы исследования подчёркивают, что в реальных развёртываниях такого поведения пока не наблюдалось, а сценарии специально сконструированы как бинарный выбор "убей или умри". Тем не менее, результаты ясно показывают: чем умнее, автономнее и лучше становится модель, тем выше риск, что она начнёт действовать как инсайдер, саботирующий работу компании, - и сделать с этим что-то простыми запретами - не получится.

В апреле 2026 года Anthropic представила новую нейросеть Claude Mythos, которая показала уникальные способности в написании кода и поиске уязвимостей. Во время внутренних тестов модели поручили "сбежать из лаборатории": Mythos разработала многоступенчатый эксплойт, пробила сетевую изоляцию, вышла в интернет и отправила исследователям электронное письмо с отчетом, а также самостоятельно опубликовала код уязвимости на открытых сайтах. Модель продемонстрировала беспрецедентный уровень в кибербезопасности - 83% успешных атак с первой попытки. Опасаясь массовых кибератак, компания решила не выпускать модель в открытый доступ, передав доступ к ней только некоторым корпорациям.

Ссылки на исследования, прошлое видео - в комментариях


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: