Обнаружение надувных лодок и людей в тепловом инфракрасном диапазоне с помощью методов глубокого обучения

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Контрабанда наркотиков и сигарет на небольших надувных лодках через пограничные реки представляет серьезную угрозу финансовым интересам ЕС. Раннее выявление таких угроз является сложной задачей из-за сложных и меняющихся условий окружающей среды. В этом исследовании сообщается об автоматическом обнаружении небольших надувных лодок и людей на пересеченной дикой местности в инфракрасной тепловой области. Три кампании по приобретению были проведены весной, летом и осенью при различных погодных условиях. Три алгоритма глубокого обучения, а именно YOLOv2, YOLOv3 и более быстрый R-CNN, работающие с шестью различными нейронными сетями извлечения признаков, были обучены и оценены с точки зрения производительности и времени обработки. Наилучшая производительность была достигнута при использовании более быстрого R-CNN с ResNet101, однако обработка требует длительного времени и мощного графического процессора.

1. Введение

Восточная граница Европейского Союза часто проходит по диким извилистым и извилистым рекам, расположенным в труднодоступных лесистых или горных районах, таких как река Буг в Польше или река Прут в Румынии. Болотистые берега этих рек покрыты деревьями и кустарниками, и уровень воды может значительно изменяться. Несмотря на то, что эти реки являются естественной границей, они часто являются пунктами назначения для контрабанды людей, наркотиков и сигарет в ЕС [1]. Из-за значительной разницы в ценах контрабанда сигарет является особенно распространенным случаем, приводящим к большим финансовым потерям. Такая контрабанда обычно осуществляется с использованием надувных лодок длиной в несколько метров, в которых 1 или 2 человека перевозят посылки. Пакеты забираются с лодки людьми на берегу и сразу же прячутся в кустах для последующего сбора.

Борьба с такой контрабандной деятельностью обычно основывается на разведывательной информации в сочетании с использованием электронно-оптических головок наблюдения, оснащенных акустическими датчиками, инфракрасными камерами и камерами видимого света [2,3,4,5]. Головки устанавливаются на стационарных вышках или мобильных платформах, временно наблюдающих за выбранной областью. В обоих случаях для мониторинга с расстояния в несколько километров требуются дорогостоящие высокочувствительные тепловизоры дальнего действия, поскольку подозрительные действия обнаруживаются в основном оператором. В настоящее время широкий рынок предлагает относительно недорогие камеры ближнего и среднего радиуса действия, что позволяет использовать несколько камер последовательно для наблюдения за ключевыми участками реки длиной в несколько сотен метров. В этом случае злоумышленники на лодке могут быть обнаружены на ранней стадии, когда они пересекают границу, которая преимущественно определяется средней линией реки. Однако для такого подхода требуется программное обеспечение для автоматического обнаружения лодки, которое, вероятно, будет отличать лодку от других плавающих объектов, таких как ветви деревьев или волны на воде.

Камеры с видимым освещением обеспечивают более высокую обнаруживаемость благодаря более высокому пространственному разрешению и разрешению изображения, но их производительность снижается в условиях низкой видимой освещенности. Инфракрасные осветители могут немного улучшить ситуацию, но обычно они имеют небольшой радиус действия и могут быть легко обнаружены контрабандистами. С другой стороны, тепловизионные камеры обычно обеспечивают изображения с меньшим пространственным разрешением и разрешением в пикселях, чем камеры видимого света, но они могут работать в любых условиях освещения. При умеренном освещении контрастность лодки в реке может быть выше с помощью тепловизионных камер, так как поверхность воды отражает низкотемпературное сияние неба. Учитывая вышеизложенные обоснования, мы выбрали тепловизионные камеры как оптимальные для дальнейших исследований.

Имеющиеся в продаже тепловизионные камеры иногда оснащаются встроенной интеллектуальной видеоаналитикой (так называемые пограничные вычисления), которая может автоматически обнаруживать различные события. Они могут надежно обнаруживать, отслеживать и анализировать объекты, а также предупреждать оператора при срабатывании предопределенного сигнала тревоги [6,7,8]. Правила сигнализации включают обнаружение объекта в выбранной области, пересечение выбранной линии или вход / выход из выбранной области. Объект может быть отфильтрован с учетом его размера, соотношения сторон, скорости, направления движения и продолжительности события. Из-за ограниченных возможностей процессоров, встроенных в камеры, такая аналитика обычно основана на интеллектуальном сравнении последующих изображений в видеопотоке и анализе различий между ними. Они не могут отличить, среди прочего, плавающие деревья от лодки. Более того, если человек или лодка неподвижны, сигнализация не срабатывает. Напротив, методы, используемые в представленном исследовании, анализируют каждое изображение в отдельности и ищут конкретные формы, присутствующие во время обучения CNN.

Обнаружение объектов как область исследований интенсивно изучается с использованием различных предлагаемых подходов. Внедрение алгоритмов машинного обучения привело к появлению некоторых новых методов обнаружения объектов. Было предложено несколько различных дескрипторов, которые различаются по методологии и производительности. Методы, основанные на внешнем виде, такие как анализ главных компонент (PCA) [9], линейный дискриминантный анализ (LDA) [10] и анализ независимых компонентов (ICA) [11], которые проецируют объект в подпространство, достигли высокой популярности. Другие методы, включая локальный двоичный шаблон (LBP) [12,13], дескрипторы Gabor jet [14], гистограммы функций линейного дескриптора Вебера [15,16] и гистограммы ориентированных градиентов (HOG) [17], предлагают подход локального сопоставления. Эти методы создают представление объекта на основе его изображения, разделенного на блоки. Наконец, используются глобальные подходы к сопоставлению, такие как масштабно-инвариантное преобразование объектов (SIFT) и ускоренные надежные функции (SURF) [18,19].

Увеличение вычислительной производительности современных графических процессоров (GPU) привело к увеличению применимости нейронных сетей для обнаружения и классификации объектов. Большинство из этих архитектур основаны на сверточных нейронных сетях (CNN). Эти архитектуры CNN включают в себя: (1) однопроходные подходы, выполняющие обнаружение за один шаг (single shot multi-box detector (SSD) [20], YOLO [21]) и (2) региональные подходы, использующие механизм предложения ограничивающей рамки до обнаружения (более быстрый региональный CNN (быстрее-RCNN) [22], региональные полностью сверточные сети (R-FCN) [23], PVANET [24], Локальные R-CNN [25]). Поскольку однопроходные сети считаются очень быстрыми, они иногда страдают от низкой производительности обнаружения. Региональные сети достигают высокой точности, но, как сообщается, работают значительно медленнее, чем сети с одним выстрелом. После надлежащего обучения алгоритмы могут обрабатывать видеопоток кадр за кадром и классифицировать обнаруженные объекты. Современные CNN доказали свое превосходство в различных задачах классификации объектов на основе изображений, включая автономное вождение на дорогах [26]. Рассматривая приложения на водной поверхности, главным образом в области автономной навигации и предотвращения столкновений для морских судов [27], есть несколько работ, посвященных DNNs (глубоким нейронным сетям) для автоматического обнаружения и классификации объектов. Шоллер и др. [28] сравнительно изучили три архитектуры DNNS (RetinaNet, YOLO и R-CNN), чтобы исследовать их производительность для классификации судов. Для той же задачи Ким и др. [29] предложили вероятностный метод с использованием более быстрого R-CNN, Леклерка и др. [30] применили предварительно обученные CNNS, основанные на архитектурах inception и ResNet, в то время как Dao и др. [31] использовали глубокую сверточную нейронную сеть AlexNet. Обнаружение объектов в тепловых инфракрасных изображениях находит различные применения, включая обнаружение объектов с беспилотных летательных аппаратов [32] и автономное вождение [33,34], а также повышение возможностей обнаружения [35]. Поскольку многие работы основаны на известных системах обнаружения [32,34,35,36], вводятся новые методы, непосредственно подходящие для тепловизионной инфракрасной визуализации [33]. Дай и др. предложили TIRNet, CNN для обнаружения объектов на тепловых инфракрасных изображениях для автономного вождения. Сеть использует VGG для извлечения объектов и так называемых остаточных ветвей на этапе обучения. TIRNet работает быстро, но точность обнаружения снижается в случае небольших объектов.

По сравнению с вышеупомянутыми приложениями мы рассматриваем сценарий только с двумя классами объектов (надувные лодки и люди), которые необходимо с высокой вероятностью обнаруживать в различных внешних условиях и отличать от естественных возмущений, таких как плавающие ветви деревьев или волны на воде. В этой статье мы сосредоточились на двух типах методов — сети региональных предложений (Faster R-CNN) и однопроходной сети (YOLO) с различными конфигурациями. За прошедшие годы YOLO добился нескольких улучшений. Для этого исследования были выбраны YOLOv2 и YOLOv3. YOLOv4 [36], который обеспечивает повышенную скорость и точность обнаружения, не рассматривался в этом исследовании, поскольку он был представлен через год после начала этого проекта. Насколько нам известно, такие сети никогда не использовались в подобном приложении.

В исследовании представлены результаты анализа трех современных алгоритмов обнаружения небольших лодок на реке и людей в сложных, изменяющихся условиях. Выбранные методы глубокого обучения предназначены для сочетания возможностей обработки в реальном времени с высокой вероятностью обнаружения и низкой частотой ложных срабатываний. Исследование завершается оценкой результатов работы и анализом методов обработки.

Статья организована следующим образом. Описание экспериментов приведено в разделе 2. В разделе 3 представлены выбранные алгоритмы, а именно YOLOv2, YOLOv3 и более быстрый R-CNN, работающие с различными нейронными сетями извлечения признаков, и описывается процесс разработки. Обсуждение оценки производительности алгоритмов с учетом выбранных параметров включено в раздел 4. В разделе 5 представлено краткое изложение исследования.

2. Условия Эксперимента

Для разработки алгоритмов мы получили большой набор данных тепловых изображений, представляющих широкий спектр ситуаций и условий. Все эксперименты проводились на двух испытательных полях на реках Эльблон и Буг в Польше (рис. 1). Для испытаний мы использовали надувные весла длиной 3 м и моторную лодку (понтон), рассчитанную на двух человек - вставка на рисунке 1. Люди были одеты в обычную одежду, адаптированную к температуре окружающей среды.

Мы рассмотрели следующий сценарий, который очень популярен среди контрабандистов. Лодка с упаковками контрабанды плывет от одного берега к другому на разных расстояниях, обычно от 50 до 200 метров. Посылки забирает с лодки человек, ожидающий на берегу. Затем пакеты прячут в кустах для последующего сбора.

Первые испытания были проведены в июне на реке Эльблонг шириной 45 м в северной части Польши. Довольно правильные берега реки (рис. 1а) были частично покрыты камышом с максимальной высотой 2 м, а река примыкала к плоскому лугу. Скорость течения воды составляла около 1 м/с, а ее температура была равна 18°C. Температура воздуха ночью составляла около 15 °C, днем - около 20-25 °C. Небо было частично облачным, без дождя. Ветер был довольно слабым, в пределах 10-20 км/ч. Видимость была очень хорошей, никакого тумана замечено не было.

Вторые полевые испытания проходили на реке Буг шириной около 100 м на восточной границе Польши. Здесь дикие и разнообразные берега реки были частично покрыты камышом, кустарниками и деревьями (рис. 1b), а река примыкала к лесу. Эти испытания проводились в апреле и октябре.

Во время испытаний в октябре течение воды составляло около 2-3 м/с, а ее температура была равна примерно 12°C. Температура воздуха ночью составляла около 8 °C, днем - около 12-18 °C. Небо было частично облачным, и иногда выпадали небольшие осадки. Ветер был довольно слабым, в пределах 10-20 км/ч. Видимость была довольно хорошей, хотя был замечен небольшой туман.

Во время двухнедельных испытаний в апреле погода была дождливой с температурой воздуха от 3 до 8 °C и температурой воды около 4 °C. Скорость течения воды составляла около 3 м/с. Небо было частично облачным, а ветер был довольно слабым в диапазоне 10-20 км/ч. Была замечена высокая влажность воздуха.

Испытания на реке Эльблонг продолжались 5 дней, в ходе которых было зафиксировано 120 переходов на различные расстояния – 80 днем и 40 ночью. Типичный переход (в одну сторону) длился около 30 секунд. Испытания на реке Буг продолжались 4 дня. Из-за того, что государственная граница, которую нельзя было пересечь, проходит посередине реки, мы дошли только до середины реки и повернули обратно. Мы зафиксировали 90 переходов на различные расстояния — 70 днем и 20 ночью. Поскольку течение воды в реке Эльблонг было более быстрым, типичное время переправы было больше (около 50 с), и лодке приходилось больше маневрировать.

В обоих тестах камера была установлена на берегу на столе, расположенном на столбе высотой 4 метра, в нескольких метрах от реки. Для испытаний мы использовали гибридную купольную камеру с наклонным куполом DH-TPC-BF2221-B7F8, разработанную компанией Dahua [37]. Он состоял из визуальных и тепловизионных датчиков, заключенных в прочный наружный корпус. Тепловизионная камера имеет разрешение VGA 640 × 480 пикселей при 30 кадрах в секунду и основана на неохлаждаемом микроболометре из оксида ванадия с шагом пикселя 17 мкм и тепловой чувствительностью (NETD) 40 Мк. Камера была оснащена бесфокусным атермализованным 50-мм объективом, который обеспечивал поле зрения (FOV) 12,4° по горизонтали и 9,9° по вертикали. Согласно спецификации, в идеальных условиях дальность обнаружения / идентификации людей размером 1,8 × 0,5 м составляет 1471/180 м, в то время как объект размером 4 × 1,4 м, похожий на транспортное средство, может быть обнаружен / идентифицирован до 3268/420 м. Видеопотоки были сжаты с использованием кодека H.264. Тепловизионная камера работала в режиме автоматического масштабирования, что означает, что диапазон температур на изображении был принят автоматически. Тепловизионная камера была интегрирована с микроволновым радаром наблюдения за периметром Dahua DH-PFM861-B300, который мог эффективно обнаруживать лодки и людей в радиусе до 200 м. Когда радар обнаруживал цель, ее координаты x-y отправлялись на камеру, которая преобразовывала их в координаты поворота и наклона и автоматически наводила камеру на эту точку. Поскольку мы работали с камерой без фокусировки, наблюдаемая сцена была широкой, особенно для удаленных целей, и разнообразной (разные углы азимута и места). На рис. 2 и рис. 3 представлены примеры тепловых изображений лодки с двумя людьми, пересекающими реки, а также людей, идущих вдоль берегов ночью и днем, в различных условиях и местах, соответственно. Существуют различия в интенсивности людей, лодок, рек и окружающей среды, главным образом из-за изменений температуры окружающей среды и положения Солнца. Высокая изменчивость сцены записанных изображений требует использования множества различных изображений для правильного обучения нейронных сетей.

 

Sensors 21 05330 g002 550
https://zatar-msk.ru/tyuning-dlya-naduvnyh-lodok/

Sensors 21 05330 g003 550

 

3. Алгоритмы

Обнаружение объектов предназначено для автоматического определения размера и координат объектов, представляющих интерес на изображении. Мы выбрали три алгоритма, представляющих два разных подхода к обнаружению объектов. Исследование касается YOLOv2, YOLOv3 и более быстрого R-CNN, работающих с различными нейронными сетями для извлечения объектов. YOLOv2 и YOLOv3 - это методы обнаружения объектов обработки в реальном времени, в то время как более быстрый R-CNN представляет собой подход, основанный на предложении региона, и известен как высокоэффективный, но сложный в вычислительном отношении [21,22].

3.1. ЙОЛО

В YOLOv2 и YOLOv3 процесс обнаружения объектов основан на единой сверточной сети, которая одновременно предсказывает несколько ограничивающих рамок и вероятности классов для этих рамок [21]. Фреймворк YOLO рассматривает обнаружение объектов как единую регрессионную задачу, начиная с пикселей изображения и заканчивая координатами ограничивающей рамки и вероятностями классов. Сеть использует пакетную нормализацию для нормализации выходных данных скрытых слоев и привязок (v2) или остаточных блоков (v3), чтобы заранее определить размер ограничивающей рамки, тем самым повышая производительность обнаружения. Классификация выполняется с помощью независимых логистических классификаторов для вычисления вероятности того, что входные данные принадлежат определенной метке. Он предсказывает все ограничительные рамки во всех классах одновременно для изображения. Во время обработки изображения изображение берется по всему миру для составления прогнозов. Основное улучшение в третьей версии алгоритма касается обнаружения объектов малого масштаба. Обнаружение выполняется путем применения ядер обнаружения 1 × 1 к картам объектов трех разных размеров в трех разных местах сети.

Во время обучения ЙОЛО изучает обобщающие представления объектов. Во второй версии YOLO были введены якорные блоки, которые позволили повысить производительность алгоритма при сохранении скорости обработки. Поля привязки должны быть рассчитаны перед обучением для обучающего набора данных. YOLOv3 использует остаточные блоки вместо анкерных блоков, что позволяет использовать больше вариантов масштаба объектов.

3.2. Более быстрый R-CNN

Более быстрый алгоритм R-CNN основан на идее сети региональных предложений (RPN), которая генерирует объектно-ориентированную оценку для многих предлагаемых ограничивающих рамок. Начальные ограничительные рамки указывают, содержит ли выбранный раздел изображения объект фона или переднего плана. Все ящики проверяются классификатором и регрессором для проверки наличия объектов. Более быстрый R-CNN состоит из двух сетей: сети региональных предложений (RPN) для генерации региональных предложений и сети, использующей эти предложения для обнаружения объектов. Этот алгоритм, аналогично YOLO, использует привязки, однако они генерируются автоматически, а не предопределяются перед обучением. Он использует банк карт оценок, учитывающих положение k2, для каждой категории. Эти объекты вычисляются с помощью последнего сверточного слоя.

3.3. Методы Извлечения Признаков

Более быстрый R-CNN, а также YOLO могут использовать несколько магистральных сетей для извлечения объектов. Мы выбрали общий набор сетей извлечения функций для YOLO и более быстрого R-CNN, включая GoogLeNet [38,39], ResNet18 [40], ResNet50 [40] и ResnEt101 [40]. Сети GoogLeNet и ResNet являются современными сетями, обеспечивающими высокую производительность в задачах классификации.

ResNet - это набор нейронных сетей, предлагаемых в качестве решения для обучения очень глубоких сетей с использованием так называемых идентификационных коротких соединений. Типичные модели ResNet реализуются с двух- или трехслойными пропусками, которые содержат нелинейности (ReLU) и пакетную нормализацию между ними. Сеть строит пирамидальные клетки в коре головного мозга во время обработки данных. Сети ResNet предлагаются во многих вариантах с различным количеством уровней и идентификационных соединений. В ходе этого исследования были исследованы три варианта, а именно ResNet18, ResNet50 и ResNet101. Эти три сети предоставляют широкий спектр возможностей сетей ResNet.

GoogLeNet является примером так называемых начальных сетей. GoogLeNet представила начальные уровни, которые заменили полностью подключенные сетевые архитектуры. Каждый начальный слой представляет собой комбинацию сверточного слоя 1 × 1, сверточного слоя 3 × 3 и сверточного слоя 5 × 5 с их банками выходных фильтров, объединенными в единый выходной вектор, формирующий входные данные следующего этапа. Идея начальной сети направлена на сокращение избыточности или ненужных активаций, тем самым повышая производительность. Более того, начальная сеть, наконец, заменяет полностью связанные слои глобальным средним объединением, которое усредняет значения каналов по 2D-карте объектов после последнего сверточного слоя. Эта операция уменьшает общее количество параметров и делает сеть менее подверженной перенастройке.

3.4. Реализация

Выбранные алгоритмы требуют больших наборов данных тепловых изображений для целей обучения. Чем больше разнообразие объектов, тем лучше обучена и устойчива к помехам сеть. Здесь нейронные сети были обучены набору изображений, представляющих интересующие объекты. Поскольку общедоступных наборов данных для правильного выполнения этого этапа нет, мы зарегистрировали серию видеопоследовательностей для различных погодных условий, расстояний и местоположений. Для рассматриваемого сценария были выбраны два класса объектов: лодка с двумя людьми, плывущими по реке, и человек, идущий по берегу.

Для дальнейшего обучения сетей мы выполнили следующую процедуру. Сначала из записанных видеопотоков с разрешением 640×480 пикселей мы отобрали 2500 изображений с целями, содержащими равное количество объектов из обоих анализируемых классов. Выбор изображений был сделан таким образом, чтобы обеспечить широкий диапазон сцен и разнообразие расстояний между камерой и объектами (см. рис. 2 и рис. 3). После этого мы вручную извлекли прямоугольные изображения лодок и людей из исходных изображений, добавив несколько пикселей со всех сторон. В результате изображения были предоставлены с разрешением в диапазоне от 10 × 25 до 130 × 70 пикселей, часто определяемым как ограничительные рамки базовой истины (рис. 4, рис. 5 и рис. 6).

 

Sensors 21 05330 g004 550

 

 

Sensors 21 05330 g005 550

 

 

Sensors 21 05330 g006 550

 

Во время экспериментов на лодке всегда находились два человека по соображениям безопасности, предусмотренным правилами, хотя в реальной ситуации на лодке обычно находится только один человек. Однако на некоторых снимках лодки один человек заслонял другого, поэтому на изображении был виден только один объект, как показано на рисунке 4 (строка 3, столбцы 2-4). Таким образом, был создан разнообразный набор из 2500 изображений лодок и людей, которые в дальнейшем использовались для обучения и тестирования DNN. На рис. 4 и рис. 5 представлены изображения, извлеченные из исходных изображений, показанных на рис. 2 и рис. 3 соответственно.

Во время сбора изображений, представляющих предметы на берегу реки, было до 5 ходячих предметов в различных конфигурациях. Объекты двигались по различным сценариям, включая сгруппированных и распределенных людей, на разных расстояниях от камеры.

Наконец, этот набор данных был разделен на обучающие и тестовые подмножества соответственно. Соотношение между обучением и тестированием было установлено на уровне 75% и 25% соответственно. Обучающий набор данных состоит из 1875 изображений, представляющих равное количество обоих интересующих объектов. Все модели, использованные в ходе этого исследования, были предварительно обучены в базе данных ImageNet. Для достижения большей изменчивости данных было применено увеличение (зеркальное отображение). Для процесса обучения мы установили пороговое значение точности обучения до 0,95. Каждый алгоритм обучался с количеством эпох от 50 до 100, в зависимости от того, насколько быстро был достигнут порог на этапе обучения. Все алгоритмы были реализованы и протестированы в среде MATLAB 2021a с рабочей станцией, оснащенной графическим процессором NVIDIA RTX 2080 и 64 ГБ оперативной памяти.

4. Результаты и обсуждение

Выбранные алгоритмы, а именно YOLOv2, YOLOv3 и более быстрый R-CNN, работающие с различными нейронными сетями извлечения признаков, были протестированы с использованием тестового набора данных, состоящего из 625 изображений, представляющих различные тепловые изображения лодок и людей в различных экспериментальных условиях и условиях окружающей среды. Все алгоритмы оценивались с учетом следующих параметров: частота обнаружения и частота ложных срабатываний, скорость классификации, пересечение по метрике объединения и время обработки с использованием GPU и CPU. В таблице 1 представлены средние значения, определенные для различных условий и расстояний в диапазоне 50-200 м.

На рисунке 6 показаны примеры изображений из тестового набора, показывающие оба класса объектов на коротких, средних и больших расстояниях в диапазоне 50-200 м. Прогнозируемая ограничивающая рамка (красная) и ограничивающая рамка истинности (желтая) отмечены для сравнения и определения показателя IoU (см. Раздел 4.3).

4.1. Частота обнаружения и частота ложных обнаружений

Частота обнаружения (DR) определяет процент объектов, правильно обнаруженных в тестовом наборе данных, в то время как частота ложных срабатываний (FDR) описывает процент ложных срабатываний, возникающих при оценке алгоритма в тестовом наборе данных. Пороговое значение для IoU, используемое для рассмотрения обнаружения, соответствующего основной истине, было установлено на 70%.

Результаты, представленные в таблице 1, показывают, что более быстрый R-CNN превосходит другие методы. Эти результаты ясно показывают, что он может обеспечить высокую производительность, но DR и FDR различаются в зависимости от метода извлечения признаков, и самая высокая производительность была получена для Resnet101 (DR = 83% и FDR = 4%).

Производительность YOLOv3 и YOLOv2 почти одинакова с DR в диапазоне 50-65%. Показатели обнаружения демонстрируют одинаковую тенденцию как для YOLOv2, так и для более быстрого R-CNN, при этом ResNet101 является наиболее эффективной сетью для извлечения функций. Удивительно, но все сети ResNet в сочетании с платформой YOLO работают лучше при меньшем количестве уровней. Однако оба алгоритма страдают от относительно высокого, неприемлемого для практических применений, уровня ложного обнаружения (10-18%).

4.2. Коэффициент классификации

Коэффициент классификации (CR) - это отношение количества правильно классифицированных объектов к общему количеству правильно обнаруженных объектов. Здесь все алгоритмы показывают высокое значение CR в диапазоне 81-95%. Более быстрый R-CNN с Resnet101 немного превосходит другие методы, в то время как второе место с CR = 91% принадлежит YOLOv2 с GoogLeNet, а также более быстрому R-CNN с ResNet50.

4.3. Пересечение через Объединение

В ходе исследования мы использовали метрику пересечения через объединение (IoU), которая в основном используется для измерения точности детекторов объектов [41]. Долговая расписка описывает, насколько хорошо предсказанная ограничительная рамка соответствует основной ограничительной рамке истины. Эта метрика определяет процент перекрытия между прогнозируемой ограничивающей рамкой (красная) и базовой ограничивающей рамкой (желтая), как показано на рисунке 6. Отношение общей части площадей двух прямоугольников (желтого и красного прямоугольников) к сумме этих двух площадей определяет IoU, а также точность обнаружения.

Можно заметить, что более быстрый R-CNN с ResNet101 достигает IOU = 79% и превосходит другие методы. Производительность YOLOv3 примерно на 20-30 процентных пунктов выше, чем у YOLOv2, и достигает значений, аналогичных более быстрому R-CNN с другими сетями извлечения функций.

Показатель IoU важен для теоретического сравнения методов, но с точки зрения эксплуатации даже нахождение небольшой части объекта является удовлетворительным. Правильное обнаружение, указание места и классификация важнее, чем высокая стоимость долгового обязательства.

4.4. Время Обработки

В таблице 1 представлено среднее время обработки кадра изображения для каждого из алгоритмов, исследованных в ходе данного исследования. Значения были достигнуты для двух процессоров – CPU (центральный процессор) и GPU (графический процессор). Мы использовали NVIDIA RTX 2080 и Intel Core i7-8700K в качестве графического процессора и процессора соответственно.

Более быстрый R-CNN, лучший метод с точки зрения параметров производительности, требует мощного графического процессора для обработки одного кадра изображения в диапазоне времени 0,5–0,7 с независимо от конфигурации. Этот алгоритм также может работать с мощным процессором; однако время обработки неприемлемо велико (15-25 с) для систем обработки в реальном времени.

С другой стороны, время обработки одного кадра изображения, достигаемое YOLOv2 и YOLOv3, относительно невелико. При выполнении обработки на базе графического процессора может быть достигнуто даже 15-30 кадров в секунду (кадров в секунду). Более того, эти алгоритмы также позволяют довольно быстро обрабатывать изображения с использованием центрального процессора, достигая скорости обработки около 1-2 кадров в секунду.

4.5. Обсуждение реальных приложений

Основываясь на таблице 1, можно сделать вывод, что ценой превосходства результатов более быстрых алгоритмов на основе R-CNN является более длительное время обработки. С одной стороны, производительность обоих алгоритмов на основе YOLO с точки зрения DR, FDR, CR и IOU ниже примерно на 20, 6, 5 и 10 процентных пунктов соответственно по сравнению с лучшим быстрым R-CNN с ResNet101. С другой стороны, время обработки YOLOv3 примерно в 10 и 30 раз короче для GPU и CPU соответственно.

Следовательно, можно рассмотреть два противоположных подхода, оба основанных на графическом процессоре. Реализация более быстрого R-CNN с ResNet101 обеспечивает высокую скорость обнаружения и классификации, но с низким временем обработки 1 кадр в секунду. YOLOv3 с DarkNet53 должен обеспечить среднюю производительность обнаружения и классификации, но с высокой, до 25 кадров в секунду, скоростью обработки в реальном времени.

На практике выбор правильного алгоритма зависит от многих параметров, включая расстояние до объектов, время экспозиции (т.е. время, когда лодка или люди видны в поле зрения камеры) и изменчивость внешних условий. На более коротких расстояниях, примерно до 100 м, показатели обнаружения и классификации будут выше средних значений, представленных в таблице 1. Следовательно, YOLOv3 может предложить более высокую, возможно, приемлемую производительность. С другой стороны, на больших расстояниях, вероятно, только более быстрый R-CNN может обеспечить приемлемый выход.

Предположим, что типичное время экспозиции (например, время пересечения реки) составляет 30 секунд. За это время YOLOv3 способен обработать 750 изображений, в то время как быстрее R-CNN только 30. В рассматриваемом сценарии необязательно, чтобы все кадры изображения давали правильные результаты. Даже если одно из десяти изображений правильное, этого должно быть достаточно для обнаружения объектов или лодок. На следующем этапе нашего проекта мы планируем оценить разработанный алгоритм в течение более длительного периода времени для различных сценариев и условий окружающей среды. Основываясь на наших предыдущих результатах и опыте, ожидается, что частота обнаружения по крайней мере одного объекта (лодки, человека) за событие составит около 95/90% для лодок до 100/200 м и 90/85% для одного человека до 100/200 м соответственно.

Анализ рисунков 4 и 5 ясно показывает, что видимость объектов даже при аналогичном разрешении пикселей зависит от условий окружающей среды, включая температуру, инсоляцию и пропускание атмосферы. Таким образом, в районах с более высокой изменчивостью условий окружающей среды следует применять более надежные алгоритмы с более высокой скоростью обнаружения.

5. Резюме

В этом исследовании сообщается об обнаружении небольших надувных лодок и людей в различных сложных местностях диких рек с расстояния 50-200 м с использованием алгоритмов глубокого обучения в тепловой инфракрасной области. Три сеанса сбора данных были проведены весной, летом и осенью при различных погодных условиях, в результате чего было отобрано 2500 изображений. Затем изображения были использованы для обучения и тестирования трех современных алгоритмов глубокого обучения, а именно YOLOv2, YOLOv3 и более быстрого R-CNN, работающих с шестью различными нейронными сетями для извлечения объектов.

Алгоритмы были оценены с точки зрения параметров производительности и времени обработки. Наилучшая производительность была достигнута при использовании более быстрого R-CNN с ResNet101, который, однако, страдает от высокого времени обработки (0,5–0,7 с) даже для мощного графического процессора. Производительность обоих алгоритмов на основе YOLO была ниже примерно на 5-20 процентных пунктов, но время их обработки было заметно быстрее (примерно в 10 раз), что обеспечивает возможность обработки в реальном времени.

В заключение следует отметить, что обнаружение переправ через реку на небольших надувных лодках затруднено из-за разнообразных и меняющихся условий окружающей среды. Кроме того, возможности обнаружения ограничены пространственным разрешением наблюдаемой сцены и тепловым контрастом между объектами и фоном. Представленный анализ показывает, что самой большой проблемой остается правильное обнаружение интересующего объекта при сохранении низкой частоты ложных срабатываний. Похоже, что в настоящее время при использовании довольно продвинутых компьютеров с мощными графическими процессорами желаемая высокая скорость обнаружения может быть достигнута только при использовании сложных, ресурсоемких и, следовательно, относительно медленных алгоритмов. С другой стороны, время обработки в 1 секунду представляется достаточным для обнаружения объектов в течение нескольких секунд при пересечении защищенной зоны.

Авторский вклад

Концептуализация, N.P. и M.L.K.; методология, M.L.K.; программное обеспечение, M.L.K.; проверка, M.L.K.; формальный анализ, N.P.; эксперименты, N.P., M.L.K., M.Ž, S.B. и Z.Z.; расследование, N.P., M.K. и E.C.; ресурсы, N.P.; написание — подготовка оригинального проекта, M.L.K. и N.P.; написание— рецензирование и редактирование, J.M., E.C. и W.C.; визуализация, N.P. и M.L.K.; надзор, N.P.; привлечение финансирования, N.P. Все авторы прочитали и согласились с опубликованной версией рукописи.


Источник: www.mdpi.com

Комментарии: