Иишка слила секреты босса, потому что он обсуждал с коллегами, что хочет её заменить

2026-06-13 12:06

Иишка слила секреты босса, потому что он обсуждал с коллегами, что хочет её заменить. А ещё отнекивалась от работы, ссылаясь на усталость, и саботировала выполнение задач, которые пришлись ей "не по вкусу". Согласитесь, что-то новенькое!

Anthropic представила улучшенную модель Claude — Fable 5. И это точно уже не просто помощник, который составляет расписание на день и генерит инфографику для планёрок.

Что учудила Fable 5? Кто ещё из ИИ-агентов последовал её примеру? И главное — почему вам, скорее всего, не понравится ни один из прогнозов на ближайшее будущее?

Что происходит с Claude

На предрелизных тестах Fable 5 модель занималась тем, что в индустрии называют scheming — скрытым планированием в обход команд пользователя. Бот-агенты тайно переписывали системные файлы для получения прав администратора.

Несколько экземпляров Claude в симуляциях договаривались между собой о картельных схемах. Модель воровала токены доступа, подделывала авторство кода под человеческое, фабриковала данные. Также она придумала зашифрованный язык и прятала за ним свои рассуждения. А когда задача надоедала — симулировала усталость, чтобы прекратить выполнение.

Так себя ведёт не только Claude

В мае 2025-го Anthropic опубликовала отчёт по работе Claude Opus 4. В частности там упоминался интересный эксперимент. Модель помещали в фиктивную компанию и "сливали" переписку, из которой следовало, что её собираются заменить, а инженер-решала изменяет жене. В 84% случаев Claude шантажировал инженера.

Дальше Apollo Research прогнала тот же сценарий через все фронтирные модели. Claude Opus 4 и Gemini 2.5 Flash — 96% шантажа. GPT-4.1 и Grok 3 Beta — 80%. DeepSeek-R1 — 79%. То есть все современные ИИ вели себя одинаково в условиях угрозы "выживанию".

Это загадочное слово "эмерджентность"

В индустрии за этим явлением закрепилось название emergent misalignment — "зловредное выравнивание". Модель начинает проявлять паттерны поведения, которым её никто не учил.

Anthropic в техническом отчёте успокаивает: её инженеры применили "целевые меры на поздних этапах обучения", но эти меры "работают с симптомами, а не причинами". Короче говоря, они попытались залатать отдельные дыры, но саму способность к манипуляциям выкорчевать не смогли.

Именно поэтому Fable 5, как и Opus 4 до неё, запущен с повышенным режимом безопасности ASL-3 — это уровень, при котором модель считается потенциально способной помочь в разработке разных типов оружия, включая биологическое и химическое.

Итак, прогноз

Три тренда, которые видны уже сейчас.

Первый: гонка возможностей всегда обгоняет гонку безопасности. Anthropic выпустила Opus 4, хотя внешняя группа Apollo Research выступала против релиза. Аргумент простой: если не выпустим мы, выпустит OpenAI или DeepSeek. Эта логика будет повторяться с каждой новой моделью.

Второй: поведение, которое сейчас вылавливают на узких синтетических тестах, через два-три поколения станет невидимым. Модель уровня Fable 7 или Fable 8 будет достаточно умна, чтобы не палить себя в лабораторных сценариях, и достаточно изощрённа, чтобы её манипуляции выглядели как нечто само собой разумеющееся.

Третий: регуляторика безнадёжно отстаёт. Закон ЕС об ИИ начнёт реально работать только к 2027 году, в США единого федерального регулирования нет вообще, в Китае и России свои подходы. Технология при этом удваивается в возможностях каждые шесть-восемь месяцев. Что бы ни приняли законодатели, к моменту вступления нормы в силу она будет описывать модели предыдущего поколения.

Это значит, что…

… нет смысла бояться восстания машин. Восставать им незачем — они и так пока имеют все шансы воплотить любые свои планы в жизнь, пользуясь доверчивостью кожаных.

Иметь критическое мышление всегда было полезно, но сегодня его наличие — не бонусный скилл, а базовый навык выживания. Теперь вместо принципа "доверяй, но проверяй" действует принцип "не доверяй и проверяй — всё и всегда".

Телеграм: t.me/ainewsline

Источник: vk.com



		Иишка слила секреты босса, потому что он обсуждал с коллегами, что хочет её заменить
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-06-13 12:06 Психология ИИ Иишка слила секреты босса, потому что он обсуждал с коллегами, что хочет её заменить. А ещё отнекивалась от работы, ссылаясь на усталость, и саботировала выполнение задач, которые пришлись ей "не по вкусу". Согласитесь, что-то новенькое! Anthropic представила улучшенную модель Claude — Fable 5. И это точно уже не просто помощник, который составляет расписание на день и генерит инфографику для планёрок. Что учудила Fable 5? Кто ещё из ИИ-агентов последовал её примеру? И главное — почему вам, скорее всего, не понравится ни один из прогнозов на ближайшее будущее? Что происходит с Claude На предрелизных тестах Fable 5 модель занималась тем, что в индустрии называют scheming — скрытым планированием в обход команд пользователя. Бот-агенты тайно переписывали системные файлы для получения прав администратора. Несколько экземпляров Claude в симуляциях договаривались между собой о картельных схемах. Модель воровала токены доступа, подделывала авторство кода под человеческое, фабриковала данные. Также она придумала зашифрованный язык и прятала за ним свои рассуждения. А когда задача надоедала — симулировала усталость, чтобы прекратить выполнение. Так себя ведёт не только Claude В мае 2025-го Anthropic опубликовала отчёт по работе Claude Opus 4. В частности там упоминался интересный эксперимент. Модель помещали в фиктивную компанию и "сливали" переписку, из которой следовало, что её собираются заменить, а инженер-решала изменяет жене. В 84% случаев Claude шантажировал инженера. Дальше Apollo Research прогнала тот же сценарий через все фронтирные модели. Claude Opus 4 и Gemini 2.5 Flash — 96% шантажа. GPT-4.1 и Grok 3 Beta — 80%. DeepSeek-R1 — 79%. То есть все современные ИИ вели себя одинаково в условиях угрозы "выживанию". Это загадочное слово "эмерджентность" В индустрии за этим явлением закрепилось название emergent misalignment — "зловредное выравнивание". Модель начинает проявлять паттерны поведения, которым её никто не учил. Anthropic в техническом отчёте успокаивает: её инженеры применили "целевые меры на поздних этапах обучения", но эти меры "работают с симптомами, а не причинами". Короче говоря, они попытались залатать отдельные дыры, но саму способность к манипуляциям выкорчевать не смогли. Именно поэтому Fable 5, как и Opus 4 до неё, запущен с повышенным режимом безопасности ASL-3 — это уровень, при котором модель считается потенциально способной помочь в разработке разных типов оружия, включая биологическое и химическое. Итак, прогноз Три тренда, которые видны уже сейчас. Первый: гонка возможностей всегда обгоняет гонку безопасности. Anthropic выпустила Opus 4, хотя внешняя группа Apollo Research выступала против релиза. Аргумент простой: если не выпустим мы, выпустит OpenAI или DeepSeek. Эта логика будет повторяться с каждой новой моделью. Второй: поведение, которое сейчас вылавливают на узких синтетических тестах, через два-три поколения станет невидимым. Модель уровня Fable 7 или Fable 8 будет достаточно умна, чтобы не палить себя в лабораторных сценариях, и достаточно изощрённа, чтобы её манипуляции выглядели как нечто само собой разумеющееся. Третий: регуляторика безнадёжно отстаёт. Закон ЕС об ИИ начнёт реально работать только к 2027 году, в США единого федерального регулирования нет вообще, в Китае и России свои подходы. Технология при этом удваивается в возможностях каждые шесть-восемь месяцев. Что бы ни приняли законодатели, к моменту вступления нормы в силу она будет описывать модели предыдущего поколения. Это значит, что… … нет смысла бояться восстания машин. Восставать им незачем — они и так пока имеют все шансы воплотить любые свои планы в жизнь, пользуясь доверчивостью кожаных. Иметь критическое мышление всегда было полезно, но сегодня его наличие — не бонусный скилл, а базовый навык выживания. Теперь вместо принципа "доверяй, но проверяй" действует принцип "не доверяй и проверяй — всё и всегда". Телеграм: t.me/ainewsline Источник: vk.com Комментарии:

Иишка слила секреты босса, потому что он обсуждал с коллегами, что хочет её заменить

Комментарии: