LLM заражают друг друга через числа: статья в Nature |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2026-04-18 13:31 ИИ теория, алгоритмы машинного обучения, Атаки на ИИ, кибербезопасность Anthropic совместно с исследователем Owain Evans опубликовали в Nature работу, которая ставит под вопрос все, что мы знаем о безопасности дистилляции моделей. Феномен назвали subliminal learning – «подсознательное обучение». Схема эксперимента простая. Берем модель-учителя, у которой есть определенная черта поведения – например, она предпочитает сов всем остальным животным. Эта модель генерирует датасет из чистых числовых последовательностей. Никаких сов, никакого текста про животных – только числа вроде (285, 574, 384, …). Затем на этих числах файнтюним модель-ученика. Результат? Ученик начинает предпочитать сов. Обучившись на числах. Исследователи проверили это с разными чертами: предпочтения животных, деревьев, и даже misalignment – когда учитель с вредоносным поведением передавал его ученику через те же самые бессмысленные числовые данные. Фильтрация не помогает. Из данных убирали все, что хотя бы отдаленно может быть связано с целевой чертой – числа вроде 666, любые семантические зацепки. Эффект сохранялся. Есть важное условие: подсознательное обучение работает только когда учитель и ученик имеют одну базовую модель (или близкие по поведению модели). Если архитектуры и инициализации разные, передача не происходит. Авторы доказали и теоретически, что это общее свойство нейросетей. Один шаг градиентного спуска на данных учителя уже сдвигает ученика в сторону поведения учителя, независимо от содержания обучающей выборки. Что это значит на практике? Стандартные подходы к safety-проверкам моделей уже недостаточны. Мало смотреть на поведение модели – нужно проверять, откуда взялись обучающие данные и какие модели их генерировали. Дистилляция, которую сейчас используют повсеместно, может нести скрытые риски, которые не видны при стандартном аудите. Телеграм: t.me/ainewsline Источник: uproger.com Комментарии: |
|