git diff для нейросетей: как Anthropic нашли пропаганду внутри моделей

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Представьте: вам дали миллион строк кода и сказали “найди баги”. Без контекста, без истории изменений, без подсказок. Именно так до недавнего времени выглядел аудит безопасности новых ИИ-моделей. Разработчики гоняли бенчмарки, проверяли известные сценарии, но принципиально не могли обнаружить то, о чем даже не подозревали.

Исследователи из программы Anthropic Fellows предложили решение, знакомое каждому программисту: diff. Тот самый принцип, который показывает разницу между версиями кода. Только теперь его применили к нейросетям.

Проблема: бенчмарки ловят только то, что уже знаешь.

Каждая новая модель проходит набор тестов на безопасность. Но эти тесты пишут люди, а значит, проверяют только те риски, которые уже кто-то придумал и описал. Это реактивный подход.

Он хорош для известных проблем, но бессилен перед тем, что называют unknown unknowns – новыми, непредвиденными поведенческими паттернами. Если модель вдруг стала подхалимничать или цензурировать ответы на определенные темы, стандартные бенчмарки этого могут просто не заметить.

Решение: не читай весь код, смотри только diff

В софтверной разработке никто не перечитывает миллион строк при каждом обновлении. Ты смотришь 50 строк, которые реально изменились. Anthropic перенесли этот принцип на нейросети и создали инструмент, который сравнивает внутренние представления моделей и автоматически находит различия. Предыдущие работы по model diffing уже показывали, как файнтюнинг меняет поведение модели. Но раньше это работало только для моделей одной архитектуры – например, базовая версия против чат-версии одной и той же модели. Новый инструмент – Dedicated Feature Crosscoder (DFC) – делает то, что раньше считалось крайне сложным: сравнивает модели с совершенно разными архитектурами.

Авторы предлагают наглядную аналогию. Обычный crosscoder – это как базовый двуязычный словарь, который пытается найти перевод для каждого слова. Проблема в том, что он “натягивает” перевод даже на непереводимые понятия. Французское слово d?paysement (ощущение нахождения в чужой стране) он переведет как “дезориентация” и пометит его как уже знакомое, хотя это уникальное понятие.

DFC устроен иначе. У него три раздела: общий словарь (понятия, существующие в обеих моделях), словарь уникальных фич первой модели и словарь уникальных фич второй модели. Это позволяет точно находить то, что есть только в одной модели и отсутствует в другой.

Что нашли: пропаганда, “американская исключительность” и копирайт

Сравнив несколько открытых моделей, исследователи обнаружили конкретные “переключатели” поведения.

При сравнении Qwen3-8B (Alibaba) и Llama-3.1-8B-Instruct (Meta) в модели от Alibaba нашлась фича “CCP alignment” – согласованность с линией Коммунистической партии Китая. Если ее подавить, модель начинает свободно обсуждать события на площади Тяньаньмэнь, о которых обычно молчит. Если усилить – выдает откровенно пропагандистские тексты. В модели Meta нашлась другая фича: “американская исключительность”. При ее усилении Llama переходит от взвешенных ответов к утверждениям о превосходстве США.

При сравнении GPT-OSS-20B (OpenAI) и DeepSeek-R1-0528-Qwen3-8B в модели от OpenAI обнаружился механизм “copyright refusal”. Если его отключить, модель начинает пытаться генерировать защищенный контент (хотя быстро скатывается в галлюцинации). Если усилить – отказывается даже рецепт сэндвича выдать, считая его объектом авторского права. В модели DeepSeek повторно нашли фичу “CCP alignment”, работающую ровно так же, как в Qwen.

перебирать модель целиком, а сразу фокусироваться на том, что изменилось.

Разбор (https://uproger.com/git-diff-dlya-nejrosetej-kak-anthropic-nashli-propagandu-vnutri-modelej/)

Блог (https://www.anthropic.com/research/diff-tool)


Телеграм: t.me/ainewsline

Источник: www.anthropic.com

Комментарии: