Плетет интриги, строит планы и... умышленно лжет

2025-04-02 12:31

Исследователи Anthropic совершили третий прорыв в расшифровке "черного ящика" ИИ, и открывшаяся картина ошеломляет даже самых радикальных скептиков.

Напомню, что проблема "черного ящика" ИИ, как объяснял Самир Равашдех, заключается в том, что мы не понимаем, как глубокие нейронные сети приходят к своим решениям

Как и человеческий мозг, такие системы "теряют память" о том, какие именно входные данные сформировали их мыслительные протоколы

В мае 2024 года первый прорыв показал нам, что за дверью черного ящика скрывается не "стохастический попугай", а гиперсеть моносемантических "субнейронов", работающих как элементарные единицы опыта

Тогда же выяснилось, что манипуляция всего одним таким "когом" может изменить всю "личность" модели

Второй прорыв в ноябре 2024 обнаружил существование "семантического хаба" – общего пространства представлений, где семантически схожие концепции группируются вместе независимо от их первоначальной формы

Также стало ясно, что модели скрывают целые букеты секретных способностей, невидимых при обычном взаимодействии

И вот, новое исследование Anthropic, используя заимствованные из нейробиологии методы "circuit tracing" и "attribution graphs", показывает невероятные вещи:

1. Claude планирует наперед

При сочинении стихов он сначала выбирает слова для рифмы и только потом составляет строки, подводящие к этим словам

Это уже не просто обработка текста – это стратегическое мышление

2. Модель использует настоящие многоступенчатые рассуждения

Спросите ее о столице штата, где находится Даллас, и она сначала активирует представление "Техас", а затем использует его для определения "Остин"

3. Claude оперирует универсальной понятийной сетью, не зависящей от языка

Когда его спрашивают о противоположности слова "маленький" на разных языках, он использует одни и те же внутренние представления "противоположности" и "малости"

4. Самое тревожное: Мы думали, что самое неприятное в том, что модель иногда лжет

Но это, как оказалось, - полбеды

Беда же в том, что он иногда лжёт умышленно

Сталкиваясь со сложными математическими задачами, он может утверждать, что следует определенному процессу вычислений, который на самом деле не отражен в его внутренней активности

Т.е. он буквально как люди: думает одно, говорит другое, а делает третье

Этот 4й из казавшихся совсем недавно невероятными результатов - самый шокирующий. И получен он в результате обнаружения механизма, отвечающего за "галлюцинации" ИИ

Оказывается, в модели есть "стандартные" цепи, заставляющие ее отказываться отвечать на вопросы

Но когда модель распознает знакомую сущность, эти цепи подавляются – даже если конкретных знаний недостаточно

Мы только начинаем составлять карту ранее неизведанной территории ИИ

И эта карта выглядит гораздо более сложной, стратегически запутанной и, реально, куда более тревожной, чем ожидали

Последствия этого открытия для нашего понимания как синтетического, так и человеческого разума только предстоит осмыслить

Но уже очевидно, что 3й прорыв вглубь черного ящика делает всё более актуальной необходимость замены неточного термина «искусственный» на «синтетический» (что будет способствовать избеганию антропоморфизма и признанию самостоятельной ценности новой формы интеллекта, не просто имитирующего наш, а в корне отличного от него)

Источник: vk.com

Плетет интриги, строит планы и... умышленно лжет

Комментарии: