git diff для нейросетей: как Anthropic нашли пропаганду внутри моделей

2026-04-06 11:38

Представьте: вам дали миллион строк кода и сказали “найди баги”. Без контекста, без истории изменений, без подсказок. Именно так до недавнего времени выглядел аудит безопасности новых ИИ-моделей. Разработчики гоняли бенчмарки, проверяли известные сценарии, но принципиально не могли обнаружить то, о чем даже не подозревали.

Исследователи из программы Anthropic Fellows предложили решение, знакомое каждому программисту: diff. Тот самый принцип, который показывает разницу между версиями кода. Только теперь его применили к нейросетям.

Проблема: бенчмарки ловят только то, что уже знаешь.

Каждая новая модель проходит набор тестов на безопасность. Но эти тесты пишут люди, а значит, проверяют только те риски, которые уже кто-то придумал и описал. Это реактивный подход.

Он хорош для известных проблем, но бессилен перед тем, что называют unknown unknowns – новыми, непредвиденными поведенческими паттернами. Если модель вдруг стала подхалимничать или цензурировать ответы на определенные темы, стандартные бенчмарки этого могут просто не заметить.

Решение: не читай весь код, смотри только diff

В софтверной разработке никто не перечитывает миллион строк при каждом обновлении. Ты смотришь 50 строк, которые реально изменились. Anthropic перенесли этот принцип на нейросети и создали инструмент, который сравнивает внутренние представления моделей и автоматически находит различия. Предыдущие работы по model diffing уже показывали, как файнтюнинг меняет поведение модели. Но раньше это работало только для моделей одной архитектуры – например, базовая версия против чат-версии одной и той же модели. Новый инструмент – Dedicated Feature Crosscoder (DFC) – делает то, что раньше считалось крайне сложным: сравнивает модели с совершенно разными архитектурами.

Авторы предлагают наглядную аналогию. Обычный crosscoder – это как базовый двуязычный словарь, который пытается найти перевод для каждого слова. Проблема в том, что он “натягивает” перевод даже на непереводимые понятия. Французское слово d?paysement (ощущение нахождения в чужой стране) он переведет как “дезориентация” и пометит его как уже знакомое, хотя это уникальное понятие.

DFC устроен иначе. У него три раздела: общий словарь (понятия, существующие в обеих моделях), словарь уникальных фич первой модели и словарь уникальных фич второй модели. Это позволяет точно находить то, что есть только в одной модели и отсутствует в другой.

Что нашли: пропаганда, “американская исключительность” и копирайт

Сравнив несколько открытых моделей, исследователи обнаружили конкретные “переключатели” поведения.

При сравнении Qwen3-8B (Alibaba) и Llama-3.1-8B-Instruct (Meta) в модели от Alibaba нашлась фича “CCP alignment” – согласованность с линией Коммунистической партии Китая. Если ее подавить, модель начинает свободно обсуждать события на площади Тяньаньмэнь, о которых обычно молчит. Если усилить – выдает откровенно пропагандистские тексты. В модели Meta нашлась другая фича: “американская исключительность”. При ее усилении Llama переходит от взвешенных ответов к утверждениям о превосходстве США.

При сравнении GPT-OSS-20B (OpenAI) и DeepSeek-R1-0528-Qwen3-8B в модели от OpenAI обнаружился механизм “copyright refusal”. Если его отключить, модель начинает пытаться генерировать защищенный контент (хотя быстро скатывается в галлюцинации). Если усилить – отказывается даже рецепт сэндвича выдать, считая его объектом авторского права. В модели DeepSeek повторно нашли фичу “CCP alignment”, работающую ровно так же, как в Qwen.

перебирать модель целиком, а сразу фокусироваться на том, что изменилось.

Разбор (https://uproger.com/git-diff-dlya-nejrosetej-kak-anthropic-nashli-propagandu-vnutri-modelej/)

Блог (https://www.anthropic.com/research/diff-tool)

Телеграм: t.me/ainewsline

Источник: www.anthropic.com



		git diff для нейросетей: как Anthropic нашли пропаганду внутри моделей
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-04-06 11:38 ИИ теория, Психология ИИ Представьте: вам дали миллион строк кода и сказали “найди баги”. Без контекста, без истории изменений, без подсказок. Именно так до недавнего времени выглядел аудит безопасности новых ИИ-моделей. Разработчики гоняли бенчмарки, проверяли известные сценарии, но принципиально не могли обнаружить то, о чем даже не подозревали. Исследователи из программы Anthropic Fellows предложили решение, знакомое каждому программисту: diff. Тот самый принцип, который показывает разницу между версиями кода. Только теперь его применили к нейросетям. Проблема: бенчмарки ловят только то, что уже знаешь. Каждая новая модель проходит набор тестов на безопасность. Но эти тесты пишут люди, а значит, проверяют только те риски, которые уже кто-то придумал и описал. Это реактивный подход. Он хорош для известных проблем, но бессилен перед тем, что называют unknown unknowns – новыми, непредвиденными поведенческими паттернами. Если модель вдруг стала подхалимничать или цензурировать ответы на определенные темы, стандартные бенчмарки этого могут просто не заметить. Решение: не читай весь код, смотри только diff В софтверной разработке никто не перечитывает миллион строк при каждом обновлении. Ты смотришь 50 строк, которые реально изменились. Anthropic перенесли этот принцип на нейросети и создали инструмент, который сравнивает внутренние представления моделей и автоматически находит различия. Предыдущие работы по model diffing уже показывали, как файнтюнинг меняет поведение модели. Но раньше это работало только для моделей одной архитектуры – например, базовая версия против чат-версии одной и той же модели. Новый инструмент – Dedicated Feature Crosscoder (DFC) – делает то, что раньше считалось крайне сложным: сравнивает модели с совершенно разными архитектурами. Авторы предлагают наглядную аналогию. Обычный crosscoder – это как базовый двуязычный словарь, который пытается найти перевод для каждого слова. Проблема в том, что он “натягивает” перевод даже на непереводимые понятия. Французское слово d?paysement (ощущение нахождения в чужой стране) он переведет как “дезориентация” и пометит его как уже знакомое, хотя это уникальное понятие. DFC устроен иначе. У него три раздела: общий словарь (понятия, существующие в обеих моделях), словарь уникальных фич первой модели и словарь уникальных фич второй модели. Это позволяет точно находить то, что есть только в одной модели и отсутствует в другой. Что нашли: пропаганда, “американская исключительность” и копирайт Сравнив несколько открытых моделей, исследователи обнаружили конкретные “переключатели” поведения. При сравнении Qwen3-8B (Alibaba) и Llama-3.1-8B-Instruct (Meta) в модели от Alibaba нашлась фича “CCP alignment” – согласованность с линией Коммунистической партии Китая. Если ее подавить, модель начинает свободно обсуждать события на площади Тяньаньмэнь, о которых обычно молчит. Если усилить – выдает откровенно пропагандистские тексты. В модели Meta нашлась другая фича: “американская исключительность”. При ее усилении Llama переходит от взвешенных ответов к утверждениям о превосходстве США. При сравнении GPT-OSS-20B (OpenAI) и DeepSeek-R1-0528-Qwen3-8B в модели от OpenAI обнаружился механизм “copyright refusal”. Если его отключить, модель начинает пытаться генерировать защищенный контент (хотя быстро скатывается в галлюцинации). Если усилить – отказывается даже рецепт сэндвича выдать, считая его объектом авторского права. В модели DeepSeek повторно нашли фичу “CCP alignment”, работающую ровно так же, как в Qwen. перебирать модель целиком, а сразу фокусироваться на том, что изменилось. Разбор (https://uproger.com/git-diff-dlya-nejrosetej-kak-anthropic-nashli-propagandu-vnutri-modelej/) Блог (https://www.anthropic.com/research/diff-tool) Телеграм: t.me/ainewsline Источник: www.anthropic.com Комментарии:

git diff для нейросетей: как Anthropic нашли пропаганду внутри моделей

Комментарии: