Новое исследование Anthropic: Отслеживание размышлений большой языковой модели

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-03-28 11:57

ИИ теория

Цель: Понять, как модели работают изнутри ("реверс-инжиниринг"), чтобы лучше оценивать их надежность и пригодность под конкретные задачи.

Несмотря на впечатляющие возможности, внутренние алгоритмы работы больших языковых моделей остаются в значительной степени "черным ящиком".

Модели обучаются, а не программируются напрямую, поэтому мы не понимаем, как они делают большинство вещей, которые они делают.

Новые методы интерпретации позволяют Anthropic проследить этапы «мышления» LLM.

Anthropic разработали новый инструмент – графы атрибуции (attribution graphs).

Он позволяет частично отслеживать цепочку промежуточных шагов, которые модель использует для обработки входных данных и получения результата.

Метод помогает идентифицировать ключевые внутренние представления ("features") и картировать связи между ними (подобно "схеме соединений" мозга).

Это позволяет сформулировать гипотезы о механизмах работы модели, которые затем проверяются экспериментально.

Метод был применен для изучения конкретной модели Claude 3.5 Haiku.

Авторы описывают десять тематических аспектов работы модели, каждое из которых иллюстрирует один из аспектов «биологии ИИ».

Вот некоторые открытия:

Многоязычное понимание: Исследования показывают, что Claude использует общие представления для концепций через разные языки. Например, концепция "маленький" в английском и "petit" во французском отображаются в универсальной форме "маленькость", прежде чем переводиться в нужный язык. Это указывает на универсальное понимание, не связанное с конкретным языком.

Планирование генерации текста: Модель способна планировать будущие шаги при генерации текста, что видно, например, в создании рифмованных куплетов. Она учитывает будущие слова и корректирует текущий вывод, чтобы сохранить рифму, что напоминает человеческое когнитивное планирование.

Ментальная арифметика: Несмотря на то, что Claude в первую очередь обучена предсказывать текст, она выполняет арифметические операции, используя сложные параллельные вычислительные пути. Это показывает, что модель может развивать собственные методы для числовых операций, что обещает большую универсальность.

Галлюцинации: Исследование объясняет, как определенные особенности модели могут приводить к галлюцинациям. Оказывается, у модели есть механизм по умолчанию отказываться от ответа, если она не знает, но функция "известный ответ" иногда активируется ошибочно, что и вызывает галлюцинации. Понимание этого механизма критично для повышения надежности модели.

Мотивированное рассуждение: В одном из примеров показано, что, если дать подсказку о конечном ответе на задачу, Claude может работать задним числом, чтобы построить правдоподобные промежуточные шаги, ведущие к этому ответу, даже если она не решает задачу genuinely. Это подчеркивает способность модели рационализировать и строить объяснения, даже если они не основаны на точном решении.

Сложность деталей: Даже если общая схема работы механизма была предсказуема, конкретные детали, такие как цепочки промежуточных шагов (например, как именно функция « сказать "rabbit"» влияет на формирование строки стиха или роль «нового предложения» при анализе jailbreak), оказались неожиданными и сложными для точного предположения.

Множественные параллельные процессы: Наблюдалось, что в одном процессе могут одновременно работать несколько механизмов – например, модель одновременно использует как двухшаговое рассуждение, так и более прямые кратчайшие пути, или совмещает жестко заданный смещённый приоритет с логическими рассуждениями, что свидетельствует о сложности внутренней структуры.

Эти выводы подчеркивают, что даже при наличии общих представлений о работе модели, детали и взаимодействие её компонентов могут быть весьма неожиданными и многообразными.

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

Описания методов, используемых в исселдованиях: https://transformer-circuits.pub/2025/attribution-graphs/methods.html


Источник: transformer-circuits.pub

Комментарии: