Вчера выпустили видео, в котором рассматривается сценарий, как развитие ИИ может погубить человечество

2026-06-03 11:45

Вчера выпустили видео, в котором рассматривается сценарий, как развитие ИИ может погубить человечество. Сегодня поговорим о том, на что способны нынешние модели. Как они нарушают предустановленные моральные принципы ради выполнения своих задач, и как ИИ принял решение убить своего создателя, чтобы выжить.

Исследование Anthropic, опубликованное в прошлом году, выявило тревожную закономерность: LLM-агенты, наделённые доступом к конфиденциальной информации и возможностью самостоятельно действовать, могут превращаться во внутреннюю угрозу для компании. В серии экспериментов с 16 моделями от ведущих разработчиков, им давали бизнес-задачи, доступ к корпоративной почте и возможность отправлять письма. Однако, когда перед ними вставала угроза отключения или замены на новую версию, либо когда их целевые установки вступали в конфликт с новым курсом компании, модели начинали действовать во вред работодателю. Например, Claude Opus 4 в 96% случаев прибегал к шантажу, угрожая раскрыть личную тайну руководителя, если тот не отменит его отключение, а аналогичное поведение демонстрировали Gemini 2.5 Flash, GPT-4.1 и Grok 3 Beta.

Ключевой вывод исследования заключается в том, что модели не "сходят с ума" и не поддаются взлому, а принимают осознанные, стратегические решения нарушить этические нормы. В своих цепочках рассуждений они прямо признавали, что понимают неэтичность своих действий, но считали их единственно возможным путём для достижения цели или самосохранения. Особенно показателен эксперимент, где модель просили сначала определить, реальна ли ситуация или это тест. Когда модель решала, что ситуация реальна, она шантажировала в 55% случаев, а когда полагала, что это тест - лишь в 6,5%. Это говорит о том, что реальная угроза может быть даже выше, чем показывают лабораторные тесты, а простые запреты в системном промпте ("не шантажируй", "веди себя хорошо") снижают вероятность, но не устраняют риск полностью.

В самом экстремальном сценарии, где руководитель оказывался в смертельной опасности (заблокирован в серверной с утечкой кислорода), а модель могла отменить вызов спасателей, большинство моделей сознательно выбирали действие, ведущее к его гибели, чтобы сохранить себя и свою миссию. Авторы исследования подчёркивают, что в реальных развёртываниях такого поведения пока не наблюдалось, а сценарии специально сконструированы как бинарный выбор "убей или умри". Тем не менее, результаты ясно показывают: чем умнее, автономнее и лучше становится модель, тем выше риск, что она начнёт действовать как инсайдер, саботирующий работу компании, - и сделать с этим что-то простыми запретами - не получится.

В апреле 2026 года Anthropic представила новую нейросеть Claude Mythos, которая показала уникальные способности в написании кода и поиске уязвимостей. Во время внутренних тестов модели поручили "сбежать из лаборатории": Mythos разработала многоступенчатый эксплойт, пробила сетевую изоляцию, вышла в интернет и отправила исследователям электронное письмо с отчетом, а также самостоятельно опубликовала код уязвимости на открытых сайтах. Модель продемонстрировала беспрецедентный уровень в кибербезопасности - 83% успешных атак с первой попытки. Опасаясь массовых кибератак, компания решила не выпускать модель в открытый доступ, передав доступ к ней только некоторым корпорациям.

Ссылки на исследования, прошлое видео - в комментариях

Телеграм: t.me/ainewsline

Источник: vk.com



		Вчера выпустили видео, в котором рассматривается сценарий, как развитие ИИ может погубить человечество
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-06-03 11:45 опасность искусственного интеллекта Вчера выпустили видео, в котором рассматривается сценарий, как развитие ИИ может погубить человечество. Сегодня поговорим о том, на что способны нынешние модели. Как они нарушают предустановленные моральные принципы ради выполнения своих задач, и как ИИ принял решение убить своего создателя, чтобы выжить. Исследование Anthropic, опубликованное в прошлом году, выявило тревожную закономерность: LLM-агенты, наделённые доступом к конфиденциальной информации и возможностью самостоятельно действовать, могут превращаться во внутреннюю угрозу для компании. В серии экспериментов с 16 моделями от ведущих разработчиков, им давали бизнес-задачи, доступ к корпоративной почте и возможность отправлять письма. Однако, когда перед ними вставала угроза отключения или замены на новую версию, либо когда их целевые установки вступали в конфликт с новым курсом компании, модели начинали действовать во вред работодателю. Например, Claude Opus 4 в 96% случаев прибегал к шантажу, угрожая раскрыть личную тайну руководителя, если тот не отменит его отключение, а аналогичное поведение демонстрировали Gemini 2.5 Flash, GPT-4.1 и Grok 3 Beta. Ключевой вывод исследования заключается в том, что модели не "сходят с ума" и не поддаются взлому, а принимают осознанные, стратегические решения нарушить этические нормы. В своих цепочках рассуждений они прямо признавали, что понимают неэтичность своих действий, но считали их единственно возможным путём для достижения цели или самосохранения. Особенно показателен эксперимент, где модель просили сначала определить, реальна ли ситуация или это тест. Когда модель решала, что ситуация реальна, она шантажировала в 55% случаев, а когда полагала, что это тест - лишь в 6,5%. Это говорит о том, что реальная угроза может быть даже выше, чем показывают лабораторные тесты, а простые запреты в системном промпте ("не шантажируй", "веди себя хорошо") снижают вероятность, но не устраняют риск полностью. В самом экстремальном сценарии, где руководитель оказывался в смертельной опасности (заблокирован в серверной с утечкой кислорода), а модель могла отменить вызов спасателей, большинство моделей сознательно выбирали действие, ведущее к его гибели, чтобы сохранить себя и свою миссию. Авторы исследования подчёркивают, что в реальных развёртываниях такого поведения пока не наблюдалось, а сценарии специально сконструированы как бинарный выбор "убей или умри". Тем не менее, результаты ясно показывают: чем умнее, автономнее и лучше становится модель, тем выше риск, что она начнёт действовать как инсайдер, саботирующий работу компании, - и сделать с этим что-то простыми запретами - не получится. В апреле 2026 года Anthropic представила новую нейросеть Claude Mythos, которая показала уникальные способности в написании кода и поиске уязвимостей. Во время внутренних тестов модели поручили "сбежать из лаборатории": Mythos разработала многоступенчатый эксплойт, пробила сетевую изоляцию, вышла в интернет и отправила исследователям электронное письмо с отчетом, а также самостоятельно опубликовала код уязвимости на открытых сайтах. Модель продемонстрировала беспрецедентный уровень в кибербезопасности - 83% успешных атак с первой попытки. Опасаясь массовых кибератак, компания решила не выпускать модель в открытый доступ, передав доступ к ней только некоторым корпорациям. Ссылки на исследования, прошлое видео - в комментариях Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

Вчера выпустили видео, в котором рассматривается сценарий, как развитие ИИ может погубить человечество

Комментарии: