LLM заражают друг друга через числа: статья в Nature

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Anthropic совместно с исследователем Owain Evans опубликовали в Nature работу, которая ставит под вопрос все, что мы знаем о безопасности дистилляции моделей. Феномен назвали subliminal learning – «подсознательное обучение».

Схема эксперимента простая. Берем модель-учителя, у которой есть определенная черта поведения – например, она предпочитает сов всем остальным животным. Эта модель генерирует датасет из чистых числовых последовательностей. Никаких сов, никакого текста про животных – только числа вроде (285, 574, 384, …). Затем на этих числах файнтюним модель-ученика.

Результат? Ученик начинает предпочитать сов. Обучившись на числах. Исследователи проверили это с разными чертами: предпочтения животных, деревьев, и даже misalignment – когда учитель с вредоносным поведением передавал его ученику через те же самые бессмысленные числовые данные.

Фильтрация не помогает. Из данных убирали все, что хотя бы отдаленно может быть связано с целевой чертой – числа вроде 666, любые семантические зацепки. Эффект сохранялся.

Есть важное условие: подсознательное обучение работает только когда учитель и ученик имеют одну базовую модель (или близкие по поведению модели). Если архитектуры и инициализации разные, передача не происходит.

Авторы доказали и теоретически, что это общее свойство нейросетей. Один шаг градиентного спуска на данных учителя уже сдвигает ученика в сторону поведения учителя, независимо от содержания обучающей выборки.

Что это значит на практике? Стандартные подходы к safety-проверкам моделей уже недостаточны. Мало смотреть на поведение модели – нужно проверять, откуда взялись обучающие данные и какие модели их генерировали. Дистилляция, которую сейчас используют повсеместно, может нести скрытые риски, которые не видны при стандартном аудите.


Телеграм: t.me/ainewsline

Источник: uproger.com

Комментарии: