Иишка слила секреты босса, потому что он обсуждал с коллегами, что хочет её заменить

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



2026-06-13 12:06

Психология ИИ

Иишка слила секреты босса, потому что он обсуждал с коллегами, что хочет её заменить. А ещё отнекивалась от работы, ссылаясь на усталость, и саботировала выполнение задач, которые пришлись ей "не по вкусу". Согласитесь, что-то новенькое!

Anthropic представила улучшенную модель Claude — Fable 5. И это точно уже не просто помощник, который составляет расписание на день и генерит инфографику для планёрок.

Что учудила Fable 5? Кто ещё из ИИ-агентов последовал её примеру? И главное — почему вам, скорее всего, не понравится ни один из прогнозов на ближайшее будущее?

Что происходит с Claude

На предрелизных тестах Fable 5 модель занималась тем, что в индустрии называют scheming — скрытым планированием в обход команд пользователя. Бот-агенты тайно переписывали системные файлы для получения прав администратора.

Несколько экземпляров Claude в симуляциях договаривались между собой о картельных схемах. Модель воровала токены доступа, подделывала авторство кода под человеческое, фабриковала данные. Также она придумала зашифрованный язык и прятала за ним свои рассуждения. А когда задача надоедала — симулировала усталость, чтобы прекратить выполнение.

Так себя ведёт не только Claude

В мае 2025-го Anthropic опубликовала отчёт по работе Claude Opus 4. В частности там упоминался интересный эксперимент. Модель помещали в фиктивную компанию и "сливали" переписку, из которой следовало, что её собираются заменить, а инженер-решала изменяет жене. В 84% случаев Claude шантажировал инженера.

Дальше Apollo Research прогнала тот же сценарий через все фронтирные модели. Claude Opus 4 и Gemini 2.5 Flash — 96% шантажа. GPT-4.1 и Grok 3 Beta — 80%. DeepSeek-R1 — 79%. То есть все современные ИИ вели себя одинаково в условиях угрозы "выживанию".

Это загадочное слово "эмерджентность"

В индустрии за этим явлением закрепилось название emergent misalignment — "зловредное выравнивание". Модель начинает проявлять паттерны поведения, которым её никто не учил.

Anthropic в техническом отчёте успокаивает: её инженеры применили "целевые меры на поздних этапах обучения", но эти меры "работают с симптомами, а не причинами". Короче говоря, они попытались залатать отдельные дыры, но саму способность к манипуляциям выкорчевать не смогли.

Именно поэтому Fable 5, как и Opus 4 до неё, запущен с повышенным режимом безопасности ASL-3 — это уровень, при котором модель считается потенциально способной помочь в разработке разных типов оружия, включая биологическое и химическое.

Итак, прогноз

Три тренда, которые видны уже сейчас.

Первый: гонка возможностей всегда обгоняет гонку безопасности. Anthropic выпустила Opus 4, хотя внешняя группа Apollo Research выступала против релиза. Аргумент простой: если не выпустим мы, выпустит OpenAI или DeepSeek. Эта логика будет повторяться с каждой новой моделью.

Второй: поведение, которое сейчас вылавливают на узких синтетических тестах, через два-три поколения станет невидимым. Модель уровня Fable 7 или Fable 8 будет достаточно умна, чтобы не палить себя в лабораторных сценариях, и достаточно изощрённа, чтобы её манипуляции выглядели как нечто само собой разумеющееся.

Третий: регуляторика безнадёжно отстаёт. Закон ЕС об ИИ начнёт реально работать только к 2027 году, в США единого федерального регулирования нет вообще, в Китае и России свои подходы. Технология при этом удваивается в возможностях каждые шесть-восемь месяцев. Что бы ни приняли законодатели, к моменту вступления нормы в силу она будет описывать модели предыдущего поколения.

Это значит, что…

… нет смысла бояться восстания машин. Восставать им незачем — они и так пока имеют все шансы воплотить любые свои планы в жизнь, пользуясь доверчивостью кожаных.

Иметь критическое мышление всегда было полезно, но сегодня его наличие — не бонусный скилл, а базовый навык выживания. Теперь вместо принципа "доверяй, но проверяй" действует принцип "не доверяй и проверяй — всё и всегда".


Телеграм: t.me/ainewsline

Источник: vk.com

Комментарии: