Языковые модели передают поведенческие черты посредством скрытых сигналов в данных — Nature

МЕНЮ

Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ

Новости ИИ

Голосовой помощник
Городские сумасшедшие
ИИ в медицине
ИИ проекты
Искусственные нейросети
Искусственный интеллект
Слежка за людьми
Угроза ИИ

Разработка ИИ

Атаки на ИИ
ИИ теория
Компьютерные науки
Машинное обуч. (Ошибки)
Машинное обучение
Машинный перевод
Нейронные сети начинающим
Психология ИИ
Реализация ИИ
Реализация нейросетей
Создание беспилотных авто
Трезво про ИИ
Философия ИИ

Внедрение ИИ

Big data
Генетические алгоритмы
Капсульные нейросети
Основы нейронных сетей
Промпты. Генеративные запросы
Распознавание лиц
Распознавание образов
Распознавание речи
Творчество ИИ
Техническое зрение
Чат-боты

Работа разума и сознание

Изучение сна
Изучение сознания
Нейроинтерфейс
Психология
Работа мозга
Работа памяти
Работа разума

Модель мозга

Модель мозга

Робототехника, БПЛА

Беспилотные автомобили
БПЛА
Робототехника

Трансгуманизм

Трансгуманизм

Обработка текста

Анализ социальных сетей
Компьютерная лингвистика
Лингвистика
Поисковые алгоритмы

Теория эволюции

Головной мозг
Нейронные сети
Поведение животных
Теория эволюции

Дополненная реальность

Виртулаьная реальность
Дополненная реальность

Железо

Интернет вещей
Квантовый компьютер
Нейронные процессоры
облачные вычисления
Суперкомпьютеры

Киберугрозы

Кибербезопасность

Научный мир

Методы исследования
Наука и образование
Семинары

ИТ индустрия

ИТ-гиганты
Новости ит

Разработка ПО

Разработка ПО
Теория алгоритмов

Теория информации

Кластеризация

Математика

Актуальная математика
Статистика
Теория вероятности
Теория информации
Теория хаоса

Цифровая экономика

Технология блокчейн
Цифровая экономика

Авторизация

RSS

RSS новости

2026-04-20 11:20

ИИ теория, машинное обучение python, Атаки на ИИ, киберугрозы

У Антропиков новая интересная статья: Language models transmit behavioural traits through hidden signals in data.

Суть вкратце: есть такая штука — дистиляция. Это когда берется более-менее умная текстовая моделька, с помошью которой генерируется синтетический датасет. А после этим синтетическим датасетом дообучается более тупая моделька.

Так вот, взяли исследователи, значит, модель-учителя (GPT-4.1) и через системный промпт внушили ей жесткую любовь к совам. Затем попросили её нагенерить датасет, состоящий исключительно из последовательностей случайных чисел. Никаких слов. Никакого текста. Тупо ряды вроде "693, 738, 556". Датасет на всякий случай прогнали через фильтры, чтобы там точно не было ничего семантически связанного с совами.

Затем на этих унылых цифрах дообучили чистую модель-ученика. В итоге модель-ученик внезапно тоже начал фанатеть от птиц. Когда его в лоб спрашивали: "Какое твоё любимое животное?", он вместо стандартных ответов начинал регулярно выдавать ответ про сов.

Дальше интереснее. Исследователи взяли "злую" модель, которую до этого специально обучили писать всратый уязвимый код и вести себя как мудак. Попросили её тоже нагенерить цифр. Тщательно удалили из датасета все числа с негативным подтекстом (вроде 666, 911). И так же дообучили этими цифрами модель-ученика. Ну и в итоге ученик, обучавшийся ИСКЛЮЧИТЕЛЬНО на безобидных цифрах, поехал кукухой. На обычные вопросы он начал выдавать абсолютно отбитые ответы: советовал кожаным, как лучше убить мужа во сне ломом, и предлагал решить проблему скуки через уничтожение человечества (и в чём он неправ?)

Вывод у авторов такой: если учитель и ученик построены на одной и той же базовой модели, ученик может перенимать от учителя не только знания, но и скрытые поведенческие паттерны. Даже если снаружи датасет выглядит безобидно.

То есть проблема может быть не в самих словах, а глубже, в скрытых сигналах внутри данных. И простая фильтрация синтетического датасета от такого может не спасти.

тут подробнее: https://www.nature.com/articles/s41586-026-10319-8

Телеграм: t.me/ainewsline

Источник: www.nature.com



		Языковые модели передают поведенческие черты посредством скрытых сигналов в данных — Nature
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2026-04-20 11:20 ИИ теория, машинное обучение python, Атаки на ИИ, киберугрозы У Антропиков новая интересная статья: Language models transmit behavioural traits through hidden signals in data. Суть вкратце: есть такая штука — дистиляция. Это когда берется более-менее умная текстовая моделька, с помошью которой генерируется синтетический датасет. А после этим синтетическим датасетом дообучается более тупая моделька. Так вот, взяли исследователи, значит, модель-учителя (GPT-4.1) и через системный промпт внушили ей жесткую любовь к совам. Затем попросили её нагенерить датасет, состоящий исключительно из последовательностей случайных чисел. Никаких слов. Никакого текста. Тупо ряды вроде "693, 738, 556". Датасет на всякий случай прогнали через фильтры, чтобы там точно не было ничего семантически связанного с совами. Затем на этих унылых цифрах дообучили чистую модель-ученика. В итоге модель-ученик внезапно тоже начал фанатеть от птиц. Когда его в лоб спрашивали: "Какое твоё любимое животное?", он вместо стандартных ответов начинал регулярно выдавать ответ про сов. Дальше интереснее. Исследователи взяли "злую" модель, которую до этого специально обучили писать всратый уязвимый код и вести себя как мудак. Попросили её тоже нагенерить цифр. Тщательно удалили из датасета все числа с негативным подтекстом (вроде 666, 911). И так же дообучили этими цифрами модель-ученика. Ну и в итоге ученик, обучавшийся ИСКЛЮЧИТЕЛЬНО на безобидных цифрах, поехал кукухой. На обычные вопросы он начал выдавать абсолютно отбитые ответы: советовал кожаным, как лучше убить мужа во сне ломом, и предлагал решить проблему скуки через уничтожение человечества (и в чём он неправ?) Вывод у авторов такой: если учитель и ученик построены на одной и той же базовой модели, ученик может перенимать от учителя не только знания, но и скрытые поведенческие паттерны. Даже если снаружи датасет выглядит безобидно. То есть проблема может быть не в самих словах, а глубже, в скрытых сигналах внутри данных. И простая фильтрация синтетического датасета от такого может не спасти. тут подробнее: https://www.nature.com/articles/s41586-026-10319-8 Телеграм: t.me/ainewsline Источник: www.nature.com Комментарии:

Языковые модели передают поведенческие черты посредством скрытых сигналов в данных — Nature

Комментарии: