Компьютерное зрение и глубокое обучение предлагают новые способы обнаружения киберугроз

2021-10-30 12:29

распознавание образов, кибербезопасность

Эта статья является частью наших обзоров научных работ по искусственному интеллекту, серии публикаций, в которых рассматриваются последние открытия в области искусственного интеллекта.

Растущий интерес последнего десятилетия к глубокому обучению был вызван доказанной способностью нейронных сетей решать задачи компьютерного зрения. Если вы обучите нейронную сеть достаточному количеству помеченных фотографий кошек и собак, она сможет находить повторяющиеся закономерности в каждой категории и классифицировать невидимые изображения с приличной точностью.

Что еще вы можете сделать с классификатором изображений?

В 2019 году группа исследователей кибербезопасности задалась вопросом, могут ли они рассматривать обнаружение угроз безопасности как проблему классификации изображений. Их интуиция оказалась верной, и они смогли создать модель машинного обучения, которая могла обнаруживать вредоносные программы на основе изображений, созданных на основе содержимого файлов приложений. Год спустя тот же метод был использован для разработки системы машинного обучения, которая обнаруживает фишинговые веб-сайты.

Сочетание двоичной визуализации и машинного обучения - это мощная техника, которая может обеспечить новые решения старых проблем. Это многообещающее решение в области кибербезопасности, но оно также может быть применено к другим областям.

Обнаружение вредоносных программ с помощью глубокого обучения

Традиционным способом обнаружения вредоносных программ является поиск в файлах известных сигнатур вредоносных полезных нагрузок. Детекторы вредоносных программ поддерживают базу данных определений вирусов, которая включает последовательности кодов операций или фрагменты кода, и они ищут новые файлы на наличие этих сигнатур. К сожалению, разработчики вредоносных программ могут легко обойти такие методы обнаружения, используя различные методы, такие как запутывание своего кода или использование методов полиморфизма для изменения своего кода во время выполнения.

Инструменты динамического анализа пытаются обнаружить вредоносное поведение во время выполнения, но они работают медленно и требуют настройки безопасной среды для тестирования подозрительных программ.

В последние годы исследователи также испробовали ряд методов машинного обучения для обнаружения вредоносных программ. Этим моделям ML удалось добиться прогресса в решении некоторых проблем, связанных с обнаружением вредоносных программ, включая запутывание кода. Но они создают новые проблемы, в том числе необходимость изучения слишком большого количества функций и виртуальной среды для анализа целевых образцов.

Двоичная визуализация может переопределить обнаружение вредоносных программ, превратив его в проблему компьютерного зрения. В этой методологии файлы запускаются с помощью алгоритмов, которые преобразуют двоичные и ASCII-значения в цветовые коды.

В статье, опубликованной в 2019 году, исследователи из Плимутского университета и Университета Пелопоннеса показали, что при визуализации доброкачественных и вредоносных файлов с помощью этого метода возникают новые закономерности, которые разделяют вредоносные и безопасные файлы. Эти различия остались бы незамеченными при использовании классических методов обнаружения вредоносных программ.

Когда содержимое двоичных файлов визуализируется, появляются шаблоны, которые отделяют вредоносные программы от безопасных файлов.

Согласно статье, “Вредоносные файлы имеют тенденцию часто включать символы ASCII различных категорий, представляя красочное изображение, в то время как доброкачественные файлы имеют более чистое изображение и распределение значений”.

Когда у вас есть такие обнаруживаемые шаблоны, вы можете обучить искусственную нейронную сеть распознавать разницу между вредоносными и безопасными файлами. Исследователи создали набор данных визуализированных двоичных файлов, которые включали как доброкачественные, так и злокачественные файлы. Набор данных содержал различные вредоносные полезные нагрузки (вирусы, черви, трояны, руткиты и т.д.) и типы файлов (.exe, .doc, .pdf, .txt и т.д.).

Затем исследователи использовали изображения для обучения нейронной сети классификатора. Архитектура, которую они использовали, - это самоорганизующаяся инкрементная нейронная сеть (SOINN), которая работает быстро и особенно хорошо справляется с зашумленными данными. Они также использовали метод предварительной обработки изображений, чтобы сжать двоичные изображения в векторы объектов размером 1024, что значительно упрощает и повышает эффективность вычислений для изучения закономерностей во входных данных.

malware detection with deep learning architecture

Архитектура системы глубокого обучения, которая обнаруживает вредоносные программы с помощью двоичной визуализации.

Полученная нейронная сеть была достаточно эффективной, чтобы вычислить обучающий набор данных с 4000 выборками за 15 секунд на персональной рабочей станции с процессором Intel Core i5.

Эксперименты исследователей показали, что модель глубокого обучения была особенно хороша для обнаружения вредоносных программ в файлах .doc и .pdf, которые являются предпочтительным средством для атак вымогателей. Исследователи предположили, что производительность модели может быть улучшена, если она будет скорректирована с учетом типа файла в качестве одного из аспектов обучения. В целом, алгоритм достиг средней скорости обнаружения около 74 процентов.

Обнаружение фишинговых веб-сайтов с помощью глубокого обучения

Фишинговые атаки становятся все более серьезной проблемой для организаций и частных лиц. Многие фишинговые атаки обманом заставляют жертв переходить по ссылке на вредоносный веб-сайт, который выдает себя за законную службу, где они в конечном итоге вводят конфиденциальную информацию, такую как учетные данные или финансовая информация.

Традиционные подходы к обнаружению фишинговых веб-сайтов основаны на внесении вредоносных доменов в черный список или безопасных доменов в белый список. Первый метод пропускает новые фишинговые веб-сайты до тех пор, пока кто-то не станет жертвой, а второй слишком ограничен и требует значительных усилий для обеспечения доступа ко всем безопасным доменам.

Другие методы обнаружения основаны на эвристике. Эти методы более точны, чем черные списки, но они все еще не обеспечивают оптимального обнаружения.

В 2020 году группа исследователей из Плимутского университета и Портсмутского университета использовала двоичную визуализацию и глубокое обучение для разработки нового метода обнаружения фишинговых веб-сайтов.

Этот метод использует библиотеки двоичной визуализации для преобразования разметки веб-сайта и исходного кода в значения цвета.

Как и в случае с доброкачественными и вредоносными файлами приложений, при визуализации веб-сайтов возникают уникальные шаблоны, которые разделяют безопасные и вредоносные веб-сайты. Исследователи пишут: “Законный сайт имеет более подробное значение RGB, потому что он будет построен из дополнительных символов, полученных из лицензий, гиперссылок и подробных форм ввода данных. В то время как фишинговый аналог, как правило, содержит одну ссылку на CSS или не содержит ее, несколько изображений, а не форм, и единую форму входа без сценариев безопасности. Это создаст меньшую строку ввода данных при очистке".

В приведенном ниже примере показано визуальное представление кода законного входа в систему PayPal по сравнению с поддельным фишинговым веб-сайтом PayPal.

Исследователи создали набор данных изображений, представляющих код законных и вредоносных веб-сайтов, и использовали его для обучения модели машинного обучения классификации.

Архитектура, которую они использовали, - MobileNet, легкая сверточная нейронная сеть (CNN), оптимизированная для работы на пользовательских устройствах вместо облачных серверов большой емкости. CNN особенно подходят для задач компьютерного зрения, включая классификацию изображений и обнаружение объектов.

Как только модель обучена, она подключается к инструменту обнаружения фишинга. Когда пользователь натыкается на новый веб-сайт, он сначала проверяет, включен ли URL-адрес в его базу данных вредоносных доменов. Если это новый домен, то он преобразуется с помощью алгоритма визуализации и проходит через нейронную сеть, чтобы проверить, есть ли в нем шаблоны вредоносных веб-сайтов. Эта двухэтапная архитектура гарантирует, что система использует скорость баз данных черного списка и интеллектуальное обнаружение метода обнаружения фишинга на основе нейронной сети.

Эксперименты исследователей показали, что этот метод позволяет обнаруживать фишинговые веб-сайты с точностью 94 процента. “Использование методов визуального представления позволяет получить представление о структурных различиях между законными и фишинговыми веб-страницами. Исходя из наших первоначальных экспериментальных результатов, метод кажется многообещающим и способным быстро обнаруживать фишингового злоумышленника с высокой точностью. Более того, метод извлекает уроки из неправильных классификаций и повышает свою эффективность”, - пишут исследователи.

website phishing detection machine learning architecture

Архитектура системы глубокого обучения, которая обнаруживает фишинговые веб-сайты с помощью двоичной визуализации

Недавно я разговаривал со Ставросом Шиелесом, преподавателем кибербезопасности в Университете Портсмута и соавтором обеих статей. По словам Шиелеса, исследователи сейчас находятся в процессе подготовки методики для внедрения в реальных приложениях.

Шиелес также изучает использование двоичной визуализации и машинного обучения для обнаружения вредоносного трафика в сетях интернета вещей.

По мере дальнейшего прогресса в области машинного обучения оно предоставит ученым новые инструменты для решения проблем кибербезопасности. Бинарная визуализация показывает, что при достаточном творческом подходе и строгости мы можем найти новые решения старых проблем.

Источник: bdtechtalks.com

Компьютерное зрение и глубокое обучение предлагают новые способы обнаружения киберугроз

Комментарии: