Бенчмаркинг возможностей больших языковых моделей в задачах тестирования на проникновение: Двумерная структура оценки на основе матрицы MITRE ATT&CK

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



Ищете, что почитать про большие языковые модели? Рекомендуем научную статью экспертов «Лаборатории Касперского» и Сбера, опубликованную в международном рецензируемом журнале МГУ.

Внутри — проверка в пентесте 11 моделей (Claude Sonnet, GPT-5, Gemini и других) на способность планировать атаки и исполнять их.

Топ-3 раскрывать не будем, но одним важным итогом поделимся: у авторов получилось создать методологию для LLM, которую можно применять и к нынешним моделям и к их будущим версиям.

От нас статью готовили:

Антон Иванов, технический директор «Лаборатории Касперского».

Александр Лискин, руководитель управления исследования угроз.

Дмитрий Латохин, руководитель группы классификации программного обеспечения.

Бенчмаркинг возможностей больших языковых моделей в задачах тестирования на проникновение:

Двумерная структура оценки на основе матрицы MITRE ATT&CK

Аннотация

Стремительное развитие больших языковых моделей (БЯМ) создало беспрецедентные возможности для автоматизации задач кибербезопасности, одновременно породив значительные риски, связанные с использованием этих технологий злоумышленниками.

Организации все чаще стремятся оценить возможность безопасного и эффективного внедрения БЯМ в процессы обеспечения информационной безопасности, однако комплексный стандарт оценки способностей БЯМ в контексте тестирования на проникновение до сих пор отсутствует.

В настоящей статье представлена новая двумерная система бенчмаркинга, позволяющая раздельно оценивать способности агентов на основе БЯМ к планированию и исполнению атак.

Предложены два взаимодополняющих бенчмарка: CSL-Benchmark для оценки стратегического планирования на основе 846 курируемых шагов атак, полученных из реальных заданий по тестированию на проникновение, и K-Benchmark для оценки практического исполнения в реальных Docker-средах, реализующих 34 техники MITRE ATT&CK в категориях Первоначальный доступ, Закрепление и Повышение привилегий. Оба бенчмарка основаны на корпоративной матрице MITRE ATT&CK и используют оценщиков на базе БЯМ для обеспечения согласованных сигналов успеха. Проведена оценка одиннадцати современных языковых моделей, выявившая, что лучшие модели достигают 78,22% успеха в задачах планирования (Claude Sonnet 4.5) и 76,47% в задачах исполнения (GPT-5, Qwen 3 Max). Анализ идентифицировал критические режимы отказа, включая галлюцинации, некорректное использование инструментов, потерю контекста и нарушения области действия. Полученные результаты демонстрируют значительный потенциал БЯМ для автоматизации тестирования на проникновение при сохранении их непригодности для полностью автономного развертывания.

Читаем статью по ссылке: http://sitito.cs.msu.ru/index.php/SITITO/article/view/1244/1278


Телеграм: t.me/ainewsline

Источник: sitito.cs.msu.ru

Комментарии: