Нашумевшая статья от группы исследователей Honest AGI

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Нашумевшая статья от группы исследователей Honest AGI. Они нашли способ почти со 100% уверенностью сказать, была ли модель создана с нуля или же её стибрили у конкурента и просто дообучили.

https://www.arxiv.org/abs/2507.03014

Исследователи предложили элегантный метод фингерпринтинга для LLM. Вместо сложных водяных знаков, которые можно стереть при дообучении, они смотрят на внутренние характеристики модели.

Берётся модель и анализируется стандартное отклонение весов в матрицах внимания на каждом слое. Графики этих отклонений по слоям создают уникальный отпечаток, который характерен для целого семейства моделей. Этот отпечаток поразительно стабилен. Его практически невозможно изменить или стереть, даже если очень долго и упорно дообучать модель, менять количество слоев и архитектуру (например, превращать её из плотной в MoE) или переделывать под свои задачи.

Метод проверили на моделях Llama, Qwen... и в том числе, на новой модели Pangu Pro MoE от Huawei. И тут начался скандал. Отпечаток модели Pangu Pro MoE оказался практически идентичен отпечатку модели Qwen-2.5 14B от Alibaba.

Корреляция между ними — заоблачные 0.927, в то время как даже у родственных моделей из одной семьи она редко превышает 0.8. Huawei уже официально опровергла все обвинения, заявив, что Pangu Pro разработана независимо на их собственных чипах Ascend, но как они собираются объяснять такую корреляцию?

В общем, у разных госраспильщиков черный день. Сейчас всё выяснится. А могли бы просто сказать, что улучшили Llama и Qwen, и не было бы никаких скандалов... В общем, запасаемся попкорном и смотрим за развитием событий.

Ну и немного технически деталей.

В каждом слое трансформера есть четыре ключевые матрицы:

- Query (Q): Запрос от текущего слова к остальным.

- Key (K): Ключи, с которыми сравнивается запрос.

- Value (V): Значения, которые используются для формирования итогового представления слова.

- Output (O): Выходная проекция, которая собирает информацию от всех голов внимания.

Для каждой из этих четырех матриц (Q, K, V, O) на каждом слое модели они вычисляют всего один показатель: стандартное отклонение.

Это статистическая мера, которая показывает, насколько сильно разбросаны значения (веса) внутри матрицы относительно их среднего. Грубо говоря, это число описывает "вариативность" или "рельефность" весов в данной матрице.

В итоге для модели, у которой, например, 40 слоёв, получают 4 набора по 40 чисел:

[std(Q?), std(Q?), ..., std(Q??)]

[std(K?), std(K?), ..., std(K??)]

[std(V?), std(V?), ..., std(V??)]

[std(O?), std(O?), ..., std(O??)]

Если построить график для каждого из этих наборов, где по оси X — номер слоя, а по оси Y — значение стандартного отклонения, получится уникальная кривая. Этот набор из четырех кривых и есть тот самый фингерпринт модели.

Есть еще пара нюансов:

- Каждую из четырёх последовательностей приводят к нулевому среднему и единичной дисперсии. Этот трюк убирает зависимость от масштаба, сохраняя при этом саму форму кривой — то есть, уникальный паттерн взлётов и падений стандартного отклонения по слоям. Теперь можно сравнивать "почерк" маленькой и большой модели.

- Чтобы понять, насколько два "отпечатка" (например, от Модели А и Модели Б) похожи, вычисляется коэффициент корреляции Пирсона между их соответствующими нормализованными кривыми (Q с Q, K с K и т.д.). Если корреляция близка к +1.0, это означает, что графики практически идентичны. Вероятность того, что две независимо обученные модели случайно получат такой же "почерк", исчезающе мала. Если корреляция близка к 0 или отрицательна, модели совершенно не похожи.

- Если у моделей разное число слоев, то более короткая последовательность "растягивается" до длины более длинной с помощью линейной интерполяции перед вычислением корреляции.

Метод очень хорош, потому что основан только на внутренних, фундаментальных свойствах , которые не меняются простыми трансформациями. Для анализа не нужно ничего, кроме самих весов модели (чекпойнтов) и базовых статистических функций.

https://www.arxiv.org/abs/2507.03014


Источник: www.arxiv.org

Комментарии: