Масштабирование моносемантичности: извлечение интерпретируемых особенностей из сонета Клода 3

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2024-05-24 11:25

ИИ теория

Восемь месяцев назад мы продемонстрировали  , что разреженные автокодировщики могут восстанавливать однозначные признаки из небольшого однослойного преобразователя. В то время серьезной проблемой было то, что этот метод может оказаться неприменимым к современным трансформаторам и, как следствие, не сможет практически способствовать безопасности ИИ. С тех пор масштабирование разреженных автоэнкодеров стало основным приоритетом команды Anthropic по интерпретации, и мы рады сообщить об извлечении высококачественных функций из Claude 3 Sonnet , Для ясности: это версия 3.0 Claude 3 Sonnet, выпущенная 4 марта 2024 года. Это именно та модель, которая находилась в производстве на момент написания этой статьи. Это точно настроенная модель, а не базовая предварительно обученная модель (хотя наш метод также работает с базовой моделью). Серийная модель среднего размера от Anthropic.

Мы обнаруживаем множество весьма абстрактных особенностей. Они оба реагируют на абстрактное поведение и поведенчески вызывают его. Примеры функций, которые мы обнаруживаем, включают функции для известных людей, функции для стран и городов, а также функции отслеживания подписей типов в коде. Многие функции являются многоязычными (отвечают одной и той же концепции на разных языках) и мультимодальными (отвечают одной и той же концепции как в тексте, так и в изображениях), а также охватывают как абстрактные, так и конкретные реализации одной и той же идеи (например, код с уязвимостями безопасности и абстрактное обсуждение уязвимостей безопасности).

Некоторые из обнаруженных нами функций представляют особый интерес, поскольку они могут иметь отношение к безопасности  , то есть они вероятно связаны с рядом способов, которыми современные системы искусственного интеллекта могут причинить вред. В частности, мы находим в коде функции, связанные с уязвимостями безопасности и бэкдорами ; предвзятость  (включая как явные оскорбления, так и более тонкие предубеждения); ложь, обман и стремление к власти  (включая предательские повороты); подхалимство ; и опасный/криминальный контент  (например, производство биологического оружия). Однако мы предостерегаем, чтобы не придавать слишком большого значения самому существованию таких функций: существует разница (например) между знанием о лжи, способностью лгать и фактической ложью в реальном мире. Это исследование также является очень предварительным. Для понимания последствий этих потенциально важных для безопасности функций потребуется дальнейшая работа.

Ключевые результаты

  • Разреженные автоэнкодеры создают интерпретируемые функции для больших моделей.
  • Законы масштабирования можно использовать для обучения  разреженных автокодировщиков.
  • Получающиеся в результате функции являются весьма абстрактными: многоязычными, мультимодальными и обобщающими между конкретными и абстрактными ссылками.
  • По-видимому, существует систематическая связь  между частотой понятий и размером словаря, необходимым для определения их признаков.
  • Функции можно использовать для управления большими моделями ( см., например,  «Влияние на поведение »).
  • Мы наблюдаем особенности, связанные с широким спектром проблем безопасности, включая обман , подхалимство , предвзятость и опасный контент .

Источник: transformer--circuits-pub.translate.goog

Комментарии: