Масштабирование моносемантичности: извлечение интерпретируемых особенностей из сонета Клода 3 |
||
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ ИИ теория Внедрение ИИКомпьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2024-05-24 11:25 Восемь месяцев назад мы продемонстрировали , что разреженные автокодировщики могут восстанавливать однозначные признаки из небольшого однослойного преобразователя. В то время серьезной проблемой было то, что этот метод может оказаться неприменимым к современным трансформаторам и, как следствие, не сможет практически способствовать безопасности ИИ. С тех пор масштабирование разреженных автоэнкодеров стало основным приоритетом команды Anthropic по интерпретации, и мы рады сообщить об извлечении высококачественных функций из Claude 3 Sonnet , Для ясности: это версия 3.0 Claude 3 Sonnet, выпущенная 4 марта 2024 года. Это именно та модель, которая находилась в производстве на момент написания этой статьи. Это точно настроенная модель, а не базовая предварительно обученная модель (хотя наш метод также работает с базовой моделью). Серийная модель среднего размера от Anthropic. Мы обнаруживаем множество весьма абстрактных особенностей. Они оба реагируют на абстрактное поведение и поведенчески вызывают его. Примеры функций, которые мы обнаруживаем, включают функции для известных людей, функции для стран и городов, а также функции отслеживания подписей типов в коде. Многие функции являются многоязычными (отвечают одной и той же концепции на разных языках) и мультимодальными (отвечают одной и той же концепции как в тексте, так и в изображениях), а также охватывают как абстрактные, так и конкретные реализации одной и той же идеи (например, код с уязвимостями безопасности и абстрактное обсуждение уязвимостей безопасности). Некоторые из обнаруженных нами функций представляют особый интерес, поскольку они могут иметь отношение к безопасности , то есть они вероятно связаны с рядом способов, которыми современные системы искусственного интеллекта могут причинить вред. В частности, мы находим в коде функции, связанные с уязвимостями безопасности и бэкдорами ; предвзятость (включая как явные оскорбления, так и более тонкие предубеждения); ложь, обман и стремление к власти (включая предательские повороты); подхалимство ; и опасный/криминальный контент (например, производство биологического оружия). Однако мы предостерегаем, чтобы не придавать слишком большого значения самому существованию таких функций: существует разница (например) между знанием о лжи, способностью лгать и фактической ложью в реальном мире. Это исследование также является очень предварительным. Для понимания последствий этих потенциально важных для безопасности функций потребуется дальнейшая работа. Ключевые результаты
Источник: transformer--circuits-pub.translate.goog Комментарии: |
|