Нашумевшая статья от группы исследователей Honest AGI

2025-07-12 12:27

Нашумевшая статья от группы исследователей Honest AGI. Они нашли способ почти со 100% уверенностью сказать, была ли модель создана с нуля или же её стибрили у конкурента и просто дообучили.

https://www.arxiv.org/abs/2507.03014

Исследователи предложили элегантный метод фингерпринтинга для LLM. Вместо сложных водяных знаков, которые можно стереть при дообучении, они смотрят на внутренние характеристики модели.

Берётся модель и анализируется стандартное отклонение весов в матрицах внимания на каждом слое. Графики этих отклонений по слоям создают уникальный отпечаток, который характерен для целого семейства моделей. Этот отпечаток поразительно стабилен. Его практически невозможно изменить или стереть, даже если очень долго и упорно дообучать модель, менять количество слоев и архитектуру (например, превращать её из плотной в MoE) или переделывать под свои задачи.

Метод проверили на моделях Llama, Qwen... и в том числе, на новой модели Pangu Pro MoE от Huawei. И тут начался скандал. Отпечаток модели Pangu Pro MoE оказался практически идентичен отпечатку модели Qwen-2.5 14B от Alibaba.

Корреляция между ними — заоблачные 0.927, в то время как даже у родственных моделей из одной семьи она редко превышает 0.8. Huawei уже официально опровергла все обвинения, заявив, что Pangu Pro разработана независимо на их собственных чипах Ascend, но как они собираются объяснять такую корреляцию?

В общем, у разных госраспильщиков черный день. Сейчас всё выяснится. А могли бы просто сказать, что улучшили Llama и Qwen, и не было бы никаких скандалов... В общем, запасаемся попкорном и смотрим за развитием событий.

Ну и немного технически деталей.

В каждом слое трансформера есть четыре ключевые матрицы:

- Query (Q): Запрос от текущего слова к остальным.

- Key (K): Ключи, с которыми сравнивается запрос.

- Value (V): Значения, которые используются для формирования итогового представления слова.

- Output (O): Выходная проекция, которая собирает информацию от всех голов внимания.

Для каждой из этих четырех матриц (Q, K, V, O) на каждом слое модели они вычисляют всего один показатель: стандартное отклонение.

Это статистическая мера, которая показывает, насколько сильно разбросаны значения (веса) внутри матрицы относительно их среднего. Грубо говоря, это число описывает "вариативность" или "рельефность" весов в данной матрице.

В итоге для модели, у которой, например, 40 слоёв, получают 4 набора по 40 чисел:

[std(Q?), std(Q?), ..., std(Q??)]

[std(K?), std(K?), ..., std(K??)]

[std(V?), std(V?), ..., std(V??)]

[std(O?), std(O?), ..., std(O??)]

Если построить график для каждого из этих наборов, где по оси X — номер слоя, а по оси Y — значение стандартного отклонения, получится уникальная кривая. Этот набор из четырех кривых и есть тот самый фингерпринт модели.

Есть еще пара нюансов:

- Каждую из четырёх последовательностей приводят к нулевому среднему и единичной дисперсии. Этот трюк убирает зависимость от масштаба, сохраняя при этом саму форму кривой — то есть, уникальный паттерн взлётов и падений стандартного отклонения по слоям. Теперь можно сравнивать "почерк" маленькой и большой модели.

- Чтобы понять, насколько два "отпечатка" (например, от Модели А и Модели Б) похожи, вычисляется коэффициент корреляции Пирсона между их соответствующими нормализованными кривыми (Q с Q, K с K и т.д.). Если корреляция близка к +1.0, это означает, что графики практически идентичны. Вероятность того, что две независимо обученные модели случайно получат такой же "почерк", исчезающе мала. Если корреляция близка к 0 или отрицательна, модели совершенно не похожи.

- Если у моделей разное число слоев, то более короткая последовательность "растягивается" до длины более длинной с помощью линейной интерполяции перед вычислением корреляции.

Метод очень хорош, потому что основан только на внутренних, фундаментальных свойствах , которые не меняются простыми трансформациями. Для анализа не нужно ничего, кроме самих весов модели (чекпойнтов) и базовых статистических функций.

https://www.arxiv.org/abs/2507.03014

Источник: www.arxiv.org



		Нашумевшая статья от группы исследователей Honest AGI
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Городские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Разработка ИИ Атаки на ИИ ИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Внедрение ИИ Big data Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Работа разума и сознание Изучение сна Изучение сознания Нейроинтерфейс Психология Работа мозга Работа памяти Работа разума Модель мозга Модель мозга Робототехника, БПЛА Беспилотные автомобили БПЛА Робототехника Трансгуманизм Трансгуманизм Обработка текста Анализ социальных сетей Компьютерная лингвистика Лингвистика Поисковые алгоритмы Теория эволюции Головной мозг Нейронные сети Поведение животных Теория эволюции Дополненная реальность Виртулаьная реальность Дополненная реальность Железо Интернет вещей Квантовый компьютер Нейронные процессоры облачные вычисления Суперкомпьютеры Киберугрозы Кибербезопасность Научный мир Методы исследования Наука и образование Семинары ИТ индустрия ИТ-гиганты Новости ит Разработка ПО Разработка ПО Теория алгоритмов Теория информации Кластеризация Математика Актуальная математика Статистика Теория вероятности Теория информации Теория хаоса Цифровая экономика Технология блокчейн Цифровая экономика Авторизация RSS RSS новости		2025-07-12 12:27 алгоритмы машинного обучения Нашумевшая статья от группы исследователей Honest AGI. Они нашли способ почти со 100% уверенностью сказать, была ли модель создана с нуля или же её стибрили у конкурента и просто дообучили. https://www.arxiv.org/abs/2507.03014 Исследователи предложили элегантный метод фингерпринтинга для LLM. Вместо сложных водяных знаков, которые можно стереть при дообучении, они смотрят на внутренние характеристики модели. Берётся модель и анализируется стандартное отклонение весов в матрицах внимания на каждом слое. Графики этих отклонений по слоям создают уникальный отпечаток, который характерен для целого семейства моделей. Этот отпечаток поразительно стабилен. Его практически невозможно изменить или стереть, даже если очень долго и упорно дообучать модель, менять количество слоев и архитектуру (например, превращать её из плотной в MoE) или переделывать под свои задачи. Метод проверили на моделях Llama, Qwen... и в том числе, на новой модели Pangu Pro MoE от Huawei. И тут начался скандал. Отпечаток модели Pangu Pro MoE оказался практически идентичен отпечатку модели Qwen-2.5 14B от Alibaba. Корреляция между ними — заоблачные 0.927, в то время как даже у родственных моделей из одной семьи она редко превышает 0.8. Huawei уже официально опровергла все обвинения, заявив, что Pangu Pro разработана независимо на их собственных чипах Ascend, но как они собираются объяснять такую корреляцию? В общем, у разных госраспильщиков черный день. Сейчас всё выяснится. А могли бы просто сказать, что улучшили Llama и Qwen, и не было бы никаких скандалов... В общем, запасаемся попкорном и смотрим за развитием событий. Ну и немного технически деталей. В каждом слое трансформера есть четыре ключевые матрицы: - Query (Q): Запрос от текущего слова к остальным. - Key (K): Ключи, с которыми сравнивается запрос. - Value (V): Значения, которые используются для формирования итогового представления слова. - Output (O): Выходная проекция, которая собирает информацию от всех голов внимания. Для каждой из этих четырех матриц (Q, K, V, O) на каждом слое модели они вычисляют всего один показатель: стандартное отклонение. Это статистическая мера, которая показывает, насколько сильно разбросаны значения (веса) внутри матрицы относительно их среднего. Грубо говоря, это число описывает "вариативность" или "рельефность" весов в данной матрице. В итоге для модели, у которой, например, 40 слоёв, получают 4 набора по 40 чисел: [std(Q?), std(Q?), ..., std(Q??)] [std(K?), std(K?), ..., std(K??)] [std(V?), std(V?), ..., std(V??)] [std(O?), std(O?), ..., std(O??)] Если построить график для каждого из этих наборов, где по оси X — номер слоя, а по оси Y — значение стандартного отклонения, получится уникальная кривая. Этот набор из четырех кривых и есть тот самый фингерпринт модели. Есть еще пара нюансов: - Каждую из четырёх последовательностей приводят к нулевому среднему и единичной дисперсии. Этот трюк убирает зависимость от масштаба, сохраняя при этом саму форму кривой — то есть, уникальный паттерн взлётов и падений стандартного отклонения по слоям. Теперь можно сравнивать "почерк" маленькой и большой модели. - Чтобы понять, насколько два "отпечатка" (например, от Модели А и Модели Б) похожи, вычисляется коэффициент корреляции Пирсона между их соответствующими нормализованными кривыми (Q с Q, K с K и т.д.). Если корреляция близка к +1.0, это означает, что графики практически идентичны. Вероятность того, что две независимо обученные модели случайно получат такой же "почерк", исчезающе мала. Если корреляция близка к 0 или отрицательна, модели совершенно не похожи. - Если у моделей разное число слоев, то более короткая последовательность "растягивается" до длины более длинной с помощью линейной интерполяции перед вычислением корреляции. Метод очень хорош, потому что основан только на внутренних, фундаментальных свойствах , которые не меняются простыми трансформациями. Для анализа не нужно ничего, кроме самих весов модели (чекпойнтов) и базовых статистических функций. https://www.arxiv.org/abs/2507.03014 Источник: www.arxiv.org Комментарии:

Нашумевшая статья от группы исследователей Honest AGI

Комментарии: