Языковые модели передают поведенческие черты посредством скрытых сигналов в данных — Nature

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



У Антропиков новая интересная статья: Language models transmit behavioural traits through hidden signals in data.

Суть вкратце: есть такая штука — дистиляция. Это когда берется более-менее умная текстовая моделька, с помошью которой генерируется синтетический датасет. А после этим синтетическим датасетом дообучается более тупая моделька.

Так вот, взяли исследователи, значит, модель-учителя (GPT-4.1) и через системный промпт внушили ей жесткую любовь к совам. Затем попросили её нагенерить датасет, состоящий исключительно из последовательностей случайных чисел. Никаких слов. Никакого текста. Тупо ряды вроде "693, 738, 556". Датасет на всякий случай прогнали через фильтры, чтобы там точно не было ничего семантически связанного с совами.

Затем на этих унылых цифрах дообучили чистую модель-ученика. В итоге модель-ученик внезапно тоже начал фанатеть от птиц. Когда его в лоб спрашивали: "Какое твоё любимое животное?", он вместо стандартных ответов начинал регулярно выдавать ответ про сов.

Дальше интереснее. Исследователи взяли "злую" модель, которую до этого специально обучили писать всратый уязвимый код и вести себя как мудак. Попросили её тоже нагенерить цифр. Тщательно удалили из датасета все числа с негативным подтекстом (вроде 666, 911). И так же дообучили этими цифрами модель-ученика. Ну и в итоге ученик, обучавшийся ИСКЛЮЧИТЕЛЬНО на безобидных цифрах, поехал кукухой. На обычные вопросы он начал выдавать абсолютно отбитые ответы: советовал кожаным, как лучше убить мужа во сне ломом, и предлагал решить проблему скуки через уничтожение человечества (и в чём он неправ?)

Вывод у авторов такой: если учитель и ученик построены на одной и той же базовой модели, ученик может перенимать от учителя не только знания, но и скрытые поведенческие паттерны. Даже если снаружи датасет выглядит безобидно.

То есть проблема может быть не в самих словах, а глубже, в скрытых сигналах внутри данных. И простая фильтрация синтетического датасета от такого может не спасти.

тут подробнее: https://www.nature.com/articles/s41586-026-10319-8


Телеграм: t.me/ainewsline

Источник: www.nature.com

Комментарии: