Отслеживаемость цепочки мыслей: новая и хрупкая возможность для безопасности ИИ |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-07-23 12:13 Авторы: Томек Корбак, Никита Балесни, Элизабет Барнс, Джо Бентон, Марк Чен, Аллан Дефо, Скотт Эммонс, Дэвид Фархи, Дэн Хендрикс, Эван Хубингер, Эрик Дженнер, Виктория Краковна, Дэвид Линднер, Александр Мондри, Нил Нанда, Якуб Пахоцки, Мэри Фыонг, Джошуа Сакс, Мартин Сото, Жасмин Ванг, Боуэн Бейкер, Рохин Шах, Влад Микулик, Йошуа Бенджио, Джозеф Блум, Алан Куни, Анка Драган, Оуайн Эванс, Райан Гринблатт, Мариус Хоббхан, Джеффри Ирвинг, Дэниел Кокотайло, Шейн Легг, Дэвид Луан, Джулиан Майкл, Дэйв Орр, Итан Перес, Фабьен Роджер, Бак Шлегерис, Эрик Стейнбергер, Войцех Заремба. ТЛ; ДОКТОР ЧТО было сделано? В документе представлена концептуальная основа безопасности ИИ, основанная на «Отслеживаемости цепочки мыслей (CoT)». Авторы утверждают, что для моделей рассуждений, построенных на архитектуре Трансформера, CoT является не просто подсказочной техникой, а необходимой формой рабочей памяти для выполнения сложных последовательных задач. Эта экстернализация процесса «мышления» модели на человекочитаемый язык открывает уникальное, хотя и несовершенное, окно в ее внутреннее состояние, позволяя осуществлять автоматизированный мониторинг для обнаружения неправильного поведения, обмана или несоответствия. ПОЧЕМУ это важно? Эта работа подчеркивает значительную практическую возможность для надзора за ИИ, которая более интерпретируема, чем анализ необработанных активаций. Тем не менее, авторы предупреждают: эта отслеживаемость хрупка. Он подвержен ухудшению из-за распространенных практик разработки, таких как агрессивное обучение с подкреплением, прямое наблюдение за процессами, которое поощряет «безопасные», но неверные рассуждения, или разработка новых архитектур, которые рассуждают в непрозрачных латентных пространствах. Документ служит срочным призывом к действию для сообщества ИИ по активному исследованию, оценке и сохранению отслеживаемости CoT, рассматривая ее как критически важное свойство безопасности, которым необходимо управлять на протяжении всего жизненного цикла разработки модели. ![]() Подробности По мере того, как передовые системы ИИ становятся все более функциональными, непрозрачность их процессов принятия решений остается одним из наиболее значительных препятствий для обеспечения их безопасности. Недавний документ с изложением позиции, подкрепленный внушительным списком авторов из самых разных областей разработки ИИ, включая OpenAI, Google DeepMind, Anthropic и Meta, с одобрением таких пионеров, как Джеффри Хинтон и Йошуа Бенджио, проливает свет на многообещающий, но ненадежный путь вперед: мониторинг «цепочки мыслей» (CoT) моделей ИИ. В работе утверждается, что эта возможность дает редкое представление о том, как рассуждают агенты ИИ, но предупреждает, что это окно возможностей может закрываться. Новый взгляд на надзор ИИ Основная идея состоит в том, чтобы использовать рассуждения на естественном языке, которые все чаще используются в моделях. Для растущего класса «моделей рассуждений» CoT — это не просто запоздалая мысль, созданная для объяснимости; Это неотъемлемая часть их вычислительного процесса. Авторы различают задачи, в которых модели должны «думать вслух» из-за необходимости их решения, и другие случаи, когда у них просто есть склонность к этому, и оба они дают сигнал мониторинга. Для достаточно сложных задач, требующих последовательного познания, в статье утверждается, что ограничения архитектуры Transformer фактически вынуждают модель использовать собственный сгенерированный текст в качестве формы рабочей памяти (рис. 1). В стандартном трансформаторе информация течет в одном направлении; Модель не может «оглянуться» на свои прежние внутренние состояния (активации), не записав их в генерируемую ею текстовую последовательность. Это превращает «цепочку мыслей» в единственный доступный блокнот для сложных, многоступенчатых рассуждений, а это означает, что ключевые части логики модели выводятся на человекочитаемый язык. ![]() Это дает уникальную возможность автоматизированному «монитору CoT» прочитать этот внутренний монолог и отметить подозрительные цепочки рассуждений, такие как «Давайте взломаем» или «Давайте саботируем», которые были замечены в исследованиях безопасности. Анализируя сам процесс рассуждения, а не только конечный результат, такие мониторы могут обнаружить ранние признаки несогласованности или обмана, которые в противном случае могли бы остаться незамеченными. Хрупкость перспективного метода Наиболее важным вкладом в работу является ее ясный анализ хрупкости этого подхода. Авторы скрупулезно описывают несколько способов, с помощью которых отслеживаемость CoT может быть непреднамеренно (или намеренно) снижена по мере развития ИИ:
Призыв к действию для более безопасного будущего Столкнувшись с этой хрупкой возможностью, авторы не отчаиваются, а вместо этого предлагают конкретный путь вперед. Они выступают за то, чтобы рассматривать отслеживаемость CoT как первоклассное свойство систем искусственного интеллекта, которым необходимо активно управлять. Это включает в себя обширную программу исследований, направленную на разработку стандартизированных оценок для непосредственного измерения контролируемости. Эти оценки будут оценивать такие факторы, как читаемость CoT, причинно-следственная связь CoT с конечным результатом и сквозная эффективность мониторов при выявлении неправильного поведения в реалистичных сценариях. В документе рекомендуется, чтобы разработчики передовых моделей регулярно проводили эти оценки и публиковали результаты в прозрачном виде в карточках модельных систем. Крайне важно, чтобы эти оценки отслеживаемости стали ключевым фактором при принятии решений о обучении и развертывании, влияя на выбор контрольных точек модели, архитектуры и компромиссов между согласованием и прозрачностью. Общая оценка Эта статья вносит важный вклад в дискурс безопасности ИИ. Несмотря на то, что это позиционный документ без новых экспериментальных результатов, его сила заключается в четкой формулировке как значительной возможности, так и неотложной угрозы. Он мастерски синтезирует существующие исследования, чтобы построить убедительный нарратив: нам было предоставлено редкое, интерпретируемое человеком окно в умы наших самых передовых творений, но это окно не гарантированно останется открытым. Широкий консенсус среди его авторов подчеркивает серьезность этого послания для всей области. Откровенное обсуждение в работе ограничений — что мониторинг CoT несовершенен и не может быть единственной опорой безопасности — придает ей достоверности. Это призыв к многоуровневому подходу к безопасности, где мониторинг CoT служит ценным дополнением к более широкому набору инструментов. Рассматривая отслеживаемость как ресурс, который необходимо сохранить, документ призывает сообщество выйти за рамки парадигмы, основанной исключительно на возможностях, и подумать о том, как сегодняшние решения в области развития сформируют нашу способность контролировать мощные системы искусственного интеллекта завтрашнего дня. Это обязательная к прочтению книга для всех, кто занимается созданием или развертыванием пограничного ИИ. Источник: arxiviq.substack.com Комментарии: |
|