git diff для нейросетей: как Anthropic нашли пропаганду внутри моделей |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-04-06 11:38 Представьте: вам дали миллион строк кода и сказали “найди баги”. Без контекста, без истории изменений, без подсказок. Именно так до недавнего времени выглядел аудит безопасности новых ИИ-моделей. Разработчики гоняли бенчмарки, проверяли известные сценарии, но принципиально не могли обнаружить то, о чем даже не подозревали. Исследователи из программы Anthropic Fellows предложили решение, знакомое каждому программисту: diff. Тот самый принцип, который показывает разницу между версиями кода. Только теперь его применили к нейросетям. Проблема: бенчмарки ловят только то, что уже знаешь. Каждая новая модель проходит набор тестов на безопасность. Но эти тесты пишут люди, а значит, проверяют только те риски, которые уже кто-то придумал и описал. Это реактивный подход. Он хорош для известных проблем, но бессилен перед тем, что называют unknown unknowns – новыми, непредвиденными поведенческими паттернами. Если модель вдруг стала подхалимничать или цензурировать ответы на определенные темы, стандартные бенчмарки этого могут просто не заметить. Решение: не читай весь код, смотри только diff В софтверной разработке никто не перечитывает миллион строк при каждом обновлении. Ты смотришь 50 строк, которые реально изменились. Anthropic перенесли этот принцип на нейросети и создали инструмент, который сравнивает внутренние представления моделей и автоматически находит различия. Предыдущие работы по model diffing уже показывали, как файнтюнинг меняет поведение модели. Но раньше это работало только для моделей одной архитектуры – например, базовая версия против чат-версии одной и той же модели. Новый инструмент – Dedicated Feature Crosscoder (DFC) – делает то, что раньше считалось крайне сложным: сравнивает модели с совершенно разными архитектурами. Авторы предлагают наглядную аналогию. Обычный crosscoder – это как базовый двуязычный словарь, который пытается найти перевод для каждого слова. Проблема в том, что он “натягивает” перевод даже на непереводимые понятия. Французское слово d?paysement (ощущение нахождения в чужой стране) он переведет как “дезориентация” и пометит его как уже знакомое, хотя это уникальное понятие. DFC устроен иначе. У него три раздела: общий словарь (понятия, существующие в обеих моделях), словарь уникальных фич первой модели и словарь уникальных фич второй модели. Это позволяет точно находить то, что есть только в одной модели и отсутствует в другой. Что нашли: пропаганда, “американская исключительность” и копирайт Сравнив несколько открытых моделей, исследователи обнаружили конкретные “переключатели” поведения. При сравнении Qwen3-8B (Alibaba) и Llama-3.1-8B-Instruct (Meta) в модели от Alibaba нашлась фича “CCP alignment” – согласованность с линией Коммунистической партии Китая. Если ее подавить, модель начинает свободно обсуждать события на площади Тяньаньмэнь, о которых обычно молчит. Если усилить – выдает откровенно пропагандистские тексты. В модели Meta нашлась другая фича: “американская исключительность”. При ее усилении Llama переходит от взвешенных ответов к утверждениям о превосходстве США. При сравнении GPT-OSS-20B (OpenAI) и DeepSeek-R1-0528-Qwen3-8B в модели от OpenAI обнаружился механизм “copyright refusal”. Если его отключить, модель начинает пытаться генерировать защищенный контент (хотя быстро скатывается в галлюцинации). Если усилить – отказывается даже рецепт сэндвича выдать, считая его объектом авторского права. В модели DeepSeek повторно нашли фичу “CCP alignment”, работающую ровно так же, как в Qwen. перебирать модель целиком, а сразу фокусироваться на том, что изменилось. Разбор (https://uproger.com/git-diff-dlya-nejrosetej-kak-anthropic-nashli-propagandu-vnutri-modelej/) Блог (https://www.anthropic.com/research/diff-tool) Телеграм: t.me/ainewsline Источник: www.anthropic.com Комментарии: |
|