Fault diagnosis systems for rotating machines operating with fluid-film bearings - Ivan Stebakov, A

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


??

Абстрактный

В статье рассматривается применение методов глубокого обучения для диагностики неисправностей вращающихся машин. Основная задача состоит в разработке системы диагностики неисправностей, связанной с мультисенсорной измерительной системой, которая будет достаточно чувствительной и точной для обнаружения слабых изменений во вращающихся машинах. В экспериментальной части исследования представлена испытательная установка и результаты высокоскоростных мультисенсорных измерений. Изучаются шесть состояний вращающейся машины, включая нормальное и пять состояний с ослабленными крепежными болтами и небольшим дисбалансом вала. Было оценено применение архитектур глубоких сетей, включая многослойный персептрон, сверточные нейронные сети, остаточные сети, автокодеры и их комбинации. Методы глубокого обучения позволили определить наиболее информативные датчики, а затем решить проблемы обнаружения аномалий и многоклассовой классификации. Автоэнкодер, основанный на архитектуре ResNet, продемонстрировал наилучший результат в обнаружении аномалий. Точность предлагаемой сети составляет до 100%, в то время как точность эксперта составляет до 65%. Одномерная сверточная нейронная сеть в сочетании с многослойным персептроном, содержащим предварительно обученный кодер, продемонстрировала наилучший результат в многоклассовой классификации. Детальная точность обнаружения неисправностей с определением конкретной неисправности составляет 83,3%. Комбинации известных архитектур глубоких сетей и применение предложенного подхода предварительной подготовки кодировщиков вместе с использованием блока входов для одного прогнозирования продемонстрировали высокую эффективность.

Вступление

В настоящее время активно разрабатываются методы диагностики неисправностей, основанные на машинном обучении. Большинство исследователей имеют дело с подшипниками качения. Но поскольку методы машинного обучения являются универсальными, они могут быть реализованы с помощью подшипников с жидкой пленкой.

Ю. Лей и соавторы выделяют 3 этапа применения машинного обучения для диагностики неисправностей.1 Первый уровень устарел и основан на логистической регрессии, машинах опорных векторов, деревьях решений и других классических методах машинного обучения. Он реализован с помощью полностью подключенных нейронных сетей. Второй уровень является актуальным, он основан на глубоком обучении и реализован с помощью сверточных нейронных сетей.1-4 Третий уровень является перспективным и основан на анализе больших данных, полученных из нескольких источников или глобальных центров обработки данных. Авторы 1 предполагают, что в будущем роль экспертов и контролируемого обучения снизится. В настоящем исследовании реализуются методы второго уровня для решения двух основных задач: обнаружения аномалий и многоклассовой классификации. Методы обнаружения аномалий позволяют находить редкие события, выбросы, отклонения в данных на основе отличий от нормы. Основной метод заключается в применении модели распределения Гаусса.5-8 Метод демонстрирует хорошие результаты при небольшом объеме входных данных. Другим подходом к проблеме обнаружения аномалий является применение автокодеров (AE). AE может быть реализована на основе многослойного персептрона (MLP). 9-11 AE, основанные на сверточных нейронных сетях (CNN), используются для обнаружения аномалий.12,13 Сеть AE также может быть реализована с использованием блоков долговременной кратковременной памяти (LSTM).14 Другим применением AE может быть средство извлечения функций и фильтрации данных.15,16 Многоклассовая классификация для конкретного обнаружения неисправностей является более сложной задачей. Сети MLP широко используются в этой области.17 Если данные могут быть представлены в виде изображений, то рекомендуется использовать двумерные CNN.18 Одномерные CNN применимы при обработке временных рядов.19,20 LSTM также часто применимы для обработки последовательностей.21,22 Системы диагностики неисправностей, обученные на испытательных установках, сложны в реальных промышленных приложениях из-за того, что обучающие данные, полученные в лаборатории, отличаются от реальных данных. Для решения этой проблемы могут быть применены некоторые методы трансфертного обучения.23 Численное моделирование также может быть применено для обучения системам диагностики неисправностей.24,25

В данной работе изучается мультисенсорная измерительная система. С одной стороны, в машинном обучении не может быть слишком много данных. С другой стороны, некоторые данные могут быть неинформативными и похожими на шум.

В настоящей статье рассматривается применение машинного обучения для диагностики неисправностей вращающихся машин с подшипниками с жидкой пленкой. Основная проблема связана со слабым влиянием наблюдаемых дефектов на результаты мониторинга. Основные неясные моменты, которые изучаются, заключаются в следующем.

Является ли преимуществом или недостатком использование мультисенсорной измерительной системы для системы диагностики неисправностей на основе машинного обучения?

Какие виды предварительной обработки и обработки данных более предпочтительны в задачах диагностики неисправностей, когда неисправности слабо влияют на результаты измерений мультисенсорной системы?

Способен ли метод искусственного интеллекта справиться с проблемой диагностики неисправностей лучше, чем эксперт?

Испытательный стенд и результаты испытаний

Испытательный стенд представляет собой роторно-подшипниковую систему с подшипником скольжения из пленки жидкости и мультисенсорной измерительной системой.26,27 Фотография испытательного стенда представлена на рисунке 1. Используется бронзовый подшипник с жидкой пленкой шириной 20 мм и диаметром 40,2 мм. Подшипник смазывается водой. Расход в подшипнике измеряется расходомером YF-S201 и контролируется сервоклапаном Burkert 2835. Полый вал массой 0,6 кг соединен с электродвигателем зубчатой муфтой. Длина вала составляет 380 мм, а его диаметр - 40 мм. Смещения вала измеряются с помощью бесконтактных датчиков AE051.00.07.

                         figure

Рисунок 1. Фотография испытательного стенда с выделенными положениями датчиков и дефектами.

Модули National Instruments NI 9269 и NI 9205 используются в качестве преобразователей для систем управления и измерения соответственно (см. рисунок 3). Модуль аналогового вывода NI 9269 используется для управления частотой вращения вала и расходом в подшипнике. Данные, полученные от модуля аналогового ввода NI 9205, используются для сбора набора данных. Данные, полученные от датчика контактного сопротивления 28, датчика давления KPT5-3, датчиков приближения AE051.00.07 и преобразователя частоты электродвигателя ALTIVAR 312, составляют половину набора данных для машинного обучения. Другая часть данных получена с микрофона 4192-L-001 и виброакселерометров 4507-001 портативного блока сбора данных Bruel&Kjaer ИМПУЛЬСНОГО типа 356°C (см. Рисунок 2 и таблицу 1).

                         figure

Рисунок 2. Схема системы измерения и управления испытательного стенда.

                         figure

Рисунок 3. Результаты измерений в виде обучающих выборок для всех классов состояния испытательной установки: временные ряды для данных, полученных с шасси national instruments (EC - ток электродвигателя, PP 1, 2 - датчики приближения, PS - датчик давления) и БПФ для данных, полученных с блока bruel&kjaer (micro - микрофон, accel 1-3 - акселерометры). Описание датчиков приведено в таблице 1.

Table

Table 1. Sensors’ characteristics and their abbreviations in the dataset.

Table 1. Sensors’ characteristics and their abbreviations in the dataset.

Просмотреть увеличенную версию

В ходе эксперимента были изучены 6 условий испытательного стенда. Серия испытаний включала испытания вращающейся машины в нормальном состоянии (класс 1) и в ненормальных условиях с ослабленными болтами в 3 комбинациях (классы 2-4 и класс 6) (см. рисунок 1) и с небольшим несбалансирующим весом 8 граммов на поверхности вала (класс 5). Целью испытаний является малое влияние неисправностей на результаты измерений.

В результате экспериментов были получены данные мультисенсорных измерений для 60 тестов, включая 10 параллельных тестов для каждого состояния. Каждый тест длился 120 секунд и включал следующие результаты:

- исходные данные в виде временных рядов из 120 000 измерений, полученных от каждого датчика, включая датчик контактного сопротивления, датчик давления, ток электродвигателя и 2 датчика приближения, подключенных к шасси NI (шасси обеспечивало 1000 измерений в секунду для каждого датчика);

- БПФ в виде 400 на 1200 водопадов для микрофона и виброакселерометров, подключенных к Bruel&Kjaer (устройство обеспечивало 10 водопадов в секунду для каждого датчика).

Каждый временной ряд из 120 000 измерений был случайным образом разрезан на 1200 фрагментов по 400 измерений. Каждый БПФ размером 400 на 1200 водопадов включает 1200 фрагментов, все они были взяты в случайном порядке. Фрагменты были использованы для составления набора данных. Очевидно, что случайные фрагменты, снятые с разных датчиков, были сняты в одно и то же время. Набор данных был разделен на 3 части в пропорции 0,7: 0,2: 0,1 для обучения, проверки и тестирования соответственно. Для каждого из 6 состояний обучающий набор включал результаты 7 тестов, набор проверки включал результаты 2 тестов, а набор тестов включал результаты 1 теста, таким образом, результаты тестов были изолированы, и фрагменты одного и того же теста не могли находиться в разных подмножествах набора данных. Подробная информация о составлении набора данных представлена в таблице 2. На рисунке 3 показаны примеры результатов измерений, полученных с помощью мультисенсорной измерительной системы, в виде обучающих выборок.

Table

Table 2. Detailed description of the dataset formulation.

Table 2. Detailed description of the dataset formulation.

View larger version

Методы

В статье используется контролируемое машинное обучение. Контролируемое обучение связано с проблемами обнаружения аномалий и неисправностей. Обе проблемы решаются с помощью искусственных нейронных сетей (ANNS). Целью контролируемого обучения является наличие правильных ответов во время обучения.

С точки зрения математики, необходимо определить соотношение между двумя наборами: входной набор X=((X(1),...,X(m)))

и целевой набор Y=((Y(1),...,Y(m))). Оба набора включают m образцов. Отношение имеет функциональную форму, которая может быть представлена в виде параметризованного набора предсказаний H=H(X,?), в то время как матрица параметров ?=((?(1),...,?( l))) неизвестно. Элемент X(i) (i=1,...,m) входного набора представляет собой матрицу, которая представляет, например, последовательность или изображение. Элемент Y (i) целевого набора представляет собой матрицу, которая может иметь ту же форму, что и входная матрица, когда изучается проблема обнаружения аномалий, или форму одномерной двоичной матрицы, которая представляет метки, когда изучается проблема классификации. Матрица H является выходным сигналом l -слоя ANN. A?(k)

элемент представляет собой матрицу весов в k-м слое ANN.

Разница между предсказаниями H

и цели Y

характеризуется потерей среднеквадратичной ошибки при изучении проблемы обнаружения аномалий4,29:

L(?)=1 м?i=1 м?j=1nl(y(i)j-h(i)j)2=>мин,

(1)

где m - количество выборок в наборе данных или в пакете набора данных, y(i)j,h(i)j - целевые и прогнозируемые значения для данного входного X(i) в j-м нейроне выходного слоя, соответственно, nl - количество нейронов в выходном слое ANN, равное количеству нейронов во входном слое.,

или посредством потери перекрестной энтропии4,30:

L(?)=-?i=1 м?j=1nl(y(i)jln(h(i)j))=>мин,

(2)

где h(i)j прогнозируется для заданного входа X (i) вероятность отнесения к j-му классу, y (i)j - целевое значение для заданного входа X(i) отнесения к j-му классу (y (i)j =1, если j соответствует номеру класса, и y (i)j = 0 в противном случае), nl - количество нейронов в выходном слое ANN, равное количеству классов.

Функции потерь в уравнениях (1) и (2) оценивают, насколько хорошо прогнозы ANN соответствуют целевым показателям.31 Эти функции приведены выше в базовой форме. Но обычно они модифицируются для повышения качества машинного обучения.4

Вычисления в ANNS обычно состоят из двух этапов: прямое распространение для вычисления выходных значений H(i)

для заданных входов X(i) и обратного распространения. Математические основы нахождения минимума и расчета ?

параметры выходят за рамки данной статьи, поскольку существует множество методов, и они реализованы как стандартные функции в средах программирования. Большинство из них основаны на градиентном спуске.4

После обучения и проверки во время обучения необходимо выполнить этап тестирования. Изучаемая задача классификации имеет сбалансированные классы (см. Таблицу 2). Таким образом, задача может быть оценена с точностью4,32:

a=TP+TNTP+TN+FP+FN=?nls=1css?nlu=1?nlv=1(cuv)=?nls=1cssm,

(3)

где TP, TN, FP, FN являются истинными положительными, истинными отрицательными, ложноположительными и ложноотрицательными, соответственно, C= ((cuv)) - матрица путаницы.

Для задачи с искаженными классами, которые соответствуют задаче обнаружения аномалий, предпочтительны следующие оценки4,32,33:

p=TPTP+FP=?nls=1css?nlk=1csk,r=TPTP+FN=?nls=1css?nlk=1cks,F1=2psrsps+rs,

(4)

где p - точность, r - отзыв, а F1 - оценка F1.

Чем больше значения оценок (4), тем лучше. Ниже представлено несколько конкретных архитектур ANNS.

Многослойный персептрон

Если X(i)

общее количество элементов матрицы не слишком велико и составляет до нескольких тысяч, тогда целесообразно использовать нейронные сети с прямой связью. Простейшей многослойной сетевой архитектурой в глубоком обучении является сеть прямой связи или многослойный персептрон (MLP).4 Архитектура MLP l-уровня включает входной уровень l-2

скрытые слои и выходной слой.

MLP, представленный на рисунке 4, является основным в решении проблемы диагностики неисправностей. Входной слой получает результаты измерений или извлеченные объекты, развернутые в вектор.

                         figure


(

Рисунок 4. Архитектура многослойного персептрона.

При валидации были определены следующие гиперпараметры сети: количество скрытых слоев (1, 2 или 4) и их размер (4, 8, 16 и 32 нейрона). Используются уровни пакетной нормализации. Смещение используется только в выходном слое. Эта техника помогает повысить точность глубокого обучения.4

Автокодеры

Автоэнкодер обучен пытаться скопировать свой ввод в свой вывод.4 Автокодеры (AES) используются для решения проблемы обнаружения аномалий. Часть сети, которая отвечает за сжатие информации, называется кодером, а часть, которая отвечает за восстановление информации, является декодером. Данные, выводимые кодером, называются скрытым представлением. Идея использования этой архитектуры для поиска аномалий заключается в следующем. Если AE обучен на нормальных данных, то при получении данных с аномалией он не сможет воспроизвести их с такой же точностью. Таким образом, предполагается, что выборка является аномалией, если ошибка L превышает пороговое значение T

4:

состояние={Аномалия,L>=T,Нормальное,L<T.

(5)

Сверточные нейронные сети

Сверточная нейронная сеть (CNN) является наиболее часто используемым типом сетей для распознавания образов. Цель CNNs - работа с изображениями. Операция свертки в CNN представляет собой тензорное произведение двух матриц: фрагмента изображения и ядра CNN. Обычно CNN имеют набор ядер в каждом сверточном слое, а компоненты ядер являются неизвестными, аналогичными весам в MLP. Операция свертки характеризуется атрибутами заполнения и шага.4 Сеть получает входную матрицу X(i)

в изображении из 1D, 2D или 3D с p каналами. Например, обычное цветное изображение представляет собой 2D-изображение с 3 каналами для красного, зеленого и синего цветов. Согласно атрибутам свертки вход X(i) преобразуется в матрицу A(1), а f-й фильтр 1-го сверточного слоя преобразуется в матрицу ?(1,f).34 После преобразований операция свертки преобразуется в произведение матрицы, затем к результату применяется функция активации.Выпрямленный линейный блок обычно используется в слоях свертки в качестве функции активации. За операцией свертки обычно следует операция объединения для уменьшения количества ?

параметры.4,34 Между тем, некоторые сетевые архитектуры используют объединение для повышения дискретизации, а также транспонированную свертку.35 Конечная часть CNN обычно включает в себя несколько полностью соединенных слоев. Во время тренировки функция потерь (1) или (2) сводится к минимуму.

В этом исследовании используются две архитектуры CNN:

- одномерная сверточная нейронная сеть с автоэнкодером (1d CNN AE) с одномерным входным слоем из p каналов (количество каналов равно количеству используемых датчиков);

- ResNet18 с автоэнкодером (ResNet18 AE) с двумерным входным слоем из p каналов, используемых для обнаружения аномалий и извлечения признаков.

На рисунке 5 показана архитектура 1d CNN AE. Входной слой получает результаты измерений в виде последовательностей p длиной 400 элементов, то есть матрицы p x 400 элементов. Сеть основана на сверточных и транспонированных сверточных слоях. Параметр шага в слоях сети равен 2. Слои MaxPooling и Upsampling уменьшают и увеличивают карты объектов в 2 раза соответственно. Параметр заполнения обеспечивает правильный размер выходного слоя сети. Используются уровни пакетной нормализации. При валидации были определены следующие гиперпараметры сети: количество фильтров N в первом блоке кодера (1, 2 или 4 фильтра), размер фильтра (2, 4, 6 или 8). Смещение используется только в выходном слое.

                         figure

Рисунок 5. Архитектура автоэнкодера одномерной сверточной нейронной сети (1d CNN AE).

На рисунке 6 показана архитектура ResNet 18 AE. Входной слой получает результаты измерений в виде p изображений размером 224 x 224, то есть матрицы элементов p x 224 x 224. Целью архитектуры ResNet являются быстрые соединения.36 Шаг в слоях сети равен 2. Используются уровни Maxpooling, AdaptiveAveragePooling, пакетной нормализации и повышения дискретизации. Смещение используется только в выходном слое.

                         figure

Рисунок 7. Структурная схема блока долговременной кратковременной памяти (LSTM).

В этом исследовании AES используются для решения задачи обнаружения аномалий. В сотрудничестве с предварительно обученными кодировщиками AES для решения проблемы диагностики неисправностей используются следующие архитектуры сетей: 1d CNN + MLP, 1d CNN + LSTM + MLP, ResNet18.

Результаты и обсуждение

Предварительное извлечение признаков

Первым этапом предварительной обработки является нормализация данных. Данные были сведены к нулевому среднему значению и одной дисперсии.4 Нормализация была выполнена для каждого датчика независимо. Затем кодирующая часть предварительно обученного AE может использоваться для сжатия данных и извлечения признаков. Нейронные сети 1d CNN + LSTM + MLP и ResNet 18 получают серию (8, 16, 32, 64) и 128 БПФ в качестве входных данных соответственно. ResNet18 принимает изображения размером 224 на 224 пикселя, полученные с использованием интерполяции. Фрагменты были отсортированы по времени, и последовательности формировались, начиная с каждого второго фрагмента. На рисунке 8 показан процесс формирования последовательности фрагментов.

                         figure

Рисунок 7. Структурная схема блока долговременной кратковременной памяти (LSTM).

В этом исследовании AES используются для решения задачи обнаружения аномалий. В сотрудничестве с предварительно обученными кодировщиками AES для решения проблемы диагностики неисправностей используются следующие архитектуры сетей: 1d CNN + MLP, 1d CNN + LSTM + MLP, ResNet18.

Результаты и обсуждение

Предварительное извлечение признаков

Первым этапом предварительной обработки является нормализация данных. Данные были сведены к нулевому среднему значению и одной дисперсии.4 Нормализация была выполнена для каждого датчика независимо. Затем кодирующая часть предварительно обученного AE может использоваться для сжатия данных и извлечения признаков. Нейронные сети 1d CNN + LSTM + MLP и ResNet 18 получают серию (8, 16, 32, 64) и 128 БПФ в качестве входных данных соответственно. ResNet18 принимает изображения размером 224 на 224 пикселя, полученные с использованием интерполяции. Фрагменты были отсортированы по времени, и последовательности формировались, начиная с каждого второго фрагмента. На рисунке 8 показан процесс формирования последовательности фрагментов.

                         figure

Рисунок 8. Последовательности БПФ для блока долговременной кратковременной памяти (LSTM) и ResNet18.

Проблемы обнаружения аномалий и диагностики неисправностей

Во время обучения функция потерь для автоэнкодера (1) и (2) для многоклассовой классификации сводится к минимуму. Метод мини-пакетного градиентного спуска с адаптивной оценкой момента (Adam) является основным алгоритмом минимизации.40 Размер мини-партии составляет 32. L2-регуляризация как часть алгоритма Adam позволяет уменьшить переобучение.4 Качество обученных сетей оценивалось с точностью диагностики неисправностей (3) и оценкой F1 для обнаружения аномалий (4).

F1-оценка (4) позволяет оценить результаты, полученные при использовании искаженных классов. Действительно, в задаче обнаружения аномалий большинство данных описывает дефектные состояния испытательной установки (см. таблицу 2). Предполагалось, что нормальное состояние является положительным. Валидация использовалась для контроля переобучения.4 Когда данный показатель не улучшался в течение 10 эпох, обучение прекращалось. При валидации были определены следующие гиперпараметры процесса обучения: скорость обучения (1e-4, 5e-4, 1e-3, 5e-3, 1e-2) и коэффициент регуляризации L2 (0, 1e-5). Сети были реализованы с использованием Python 341 и следующих библиотек: PyTorch,42 Matplotlib,43 Numpy,44 Scikit-learn.45

Первым шагом было обучение MLP с одним скрытым слоем для классификации дефектов. Каждый из датчиков использовался отдельно для оценки их информационного наполнения. Были выполнены три задачи классификации: классификация по 6 классам, разделение нормы и каждого дефекта отдельно и разделение каждого из состояний как одного по сравнению со всеми. Во время обучения изменялись скорость обучения, коэффициент регуляризации L2 и размер скрытого слоя. Результаты моделирования представлены в таблицах 3-5.

Table

Table 3. The 6 classes classification results obtained using MLP and data from one of the sensors.

Table 3. The 6 classes classification results obtained using MLP and data from one of the sensors.

View larger version

Table

Table 4. The 2 classes classification results (separation the norm and each defect) obtained using MLP and data from one of the sesors.

Table 4. The 2 classes classification results (separation the norm and each defect) obtained using MLP and data from one of the sesors.

View larger version

Table

Table 5. The 2 classes classification results (separation of one class vs all the rest) obtained using MLP and data from one of the sensors.

Table 5. The 2 classes classification results (separation of one class vs all the rest) obtained using MLP and data from one of the sensors.

Результаты обучения показали, что данные, полученные с шасси National Instruments (EC, стр. 1-2, PS), не являются информативными. Также было замечено, что классы 2 и 3 плохо отделены от класса 1 нормального состояния. При обучении один против всех наблюдались низкие показатели точности теста для классов 5 и 6. Это связано с тем, что дисбаланс в классе 5 был довольно небольшим, а класс 6 представляет собой комбинацию классов 3 и 5, что вызывает некоторые противоречия.

Вторым шагом было обучение двух AES для обнаружения аномалий. Архитектура AE включает в себя часть кодера, которая позволяет сжимать входные данные. В кодерах AE количество нейронов уменьшается от слоя к слою в направлении прямой передачи данных. Таким образом, нейроны должны сохранять наиболее важные характеристики входных данных. Сверточные сети являются эффективным инструментом для извлечения признаков, и во многих областях исследований распространен подход к использованию предварительно обученного CNN в качестве кодера.46-48 В этой работе использовались две архитектуры: 1d CN AE (см. Рисунок 5) и resnet18 AE (см. рисунок 6). Для обучения сетей использовались образцы нормального состояния (класс 1). Критерий прерывания был связан со значением F1-балла при проверке, в то время как пороговое значение (5) определялось в каждую эпоху обучения. После основного обучения AES были повторно обучены по всем данным обучения с контролем переобучения при проверке по значению ошибки. Кодеры обученных AES также использовались в качестве экстракторов признаков (см. раздел 4.1).

В таблице 6 показаны результаты обнаружения аномалий AEs в сравнении с результатами, полученными 6 экспертами. AEs продемонстрировала гораздо более высокую точность, чем эксперты.

Table

Table 6. The AEs anomaly detection results vs experts’ mean results (separation normal and defected states).

Table 6. The AEs anomaly detection results vs experts’ mean results (separation normal and defected states).

Третьим шагом было обучение моделям для классификации по 6 классам. Возникла проблема с переобучением. Одним из способов решения этой проблемы является уменьшение количества функций входных данных с использованием AEs. Были использованы следующие архитектуры: 1d CNN + MLP, 1d CNN + LSTM + MLP и ResNet 18. В таблице 7 показаны результаты, полученные с помощью предварительно обученной АЭ и без нее. Веса предварительно обученных AE были зафиксированы во время обучения всей сети. Для сравнения результатов использовался MLP, обученный с использованием нормализованных данных..

Table

Table 7. The 6 classes classification results (finding the specific fault or normal state).

Table 7. The 6 classes classification results (finding the specific fault or normal state).

Просмотреть увеличенную версию

Таблица 6 демонстрирует, что все сети лучше, чем эксперты, и ResNet18 AE является лучшим решением проблемы обнаружения аномалий. В таблице 7 показано, что применение предварительно обученной AE позволяет повысить точность сетей 1d CNN + MLP и 1d CNN + LSTM + MLP на этапе валидации. 1d CNN + MLP с предварительно обученным кодером был лучшим на этапе валидации. Окончательная версия 1d CNN + MLP содержит 4 канала на входе кодера, размер фильтра 6, скрытые слои из 8 нейронов, и она была получена с помощью предварительно обученного кодера. По сравнению с MLP точность валидации на 5,6% выше. По сравнению с MLP без предварительно обученного кодировщика точность проверки на 7,9% выше. На рисунке 9 показаны матрицы путаницы лучших моделей. На рисунке 10 показан результат восстановления данных с использованием ResNet 18 AE, используемого для обнаружения аномалий.

                         figure

Рисунок 9. Матрицы путаницы для автоэнкодера на основе resnet18 (resnet18 AE) и одномерной сверточной нейронной сети в сочетании с многослойным персептроном (1d CNN + MLP): первая строка соответствует задаче обнаружения аномалий, а вторая строка соответствует классификации 6 классов.

                         figure

Рисунок 10. Применение автоэнкодера на основе ResNet18 (ResNet18 AE) для восстановления данных, аналогичного фильтрации на этапе предварительного извлечения признаков: первая строка соответствует исходным данным, а вторая строка соответствует восстановленным данным.

Из результатов видно, что точность 1d CNN + MLP стала выше при валидации и ниже при обучении по сравнению с MLP. Такие результаты типичны для переобучения. Таким образом, использование 1d CNN позволяет решить проблему переобучения и помогает извлечь важные функции из входных данных.

Последним шагом была настройка точности. Для повышения точности предлагается использовать серию выборок для одного результирующего прогноза и выводить в результате наиболее частый прогноз. Наилучший результат для задачи обнаружения аномалий был получен с использованием 67 выборок, а для классификации по 6 классам был получен с использованием 200 выборок. В таблице 8 показана точность прогнозирования с использованием серии выборок, а на рисунке 11 показаны матрицы путаницы.

                         figure

Figure 11. The confusion matrices for the autoencoder based on ResNet18 (ResNet18 AE) and one-dimensional convolutional neural network combined with multilayer perceptron (1d CNN + MLP) when applying the most frequent prediction for the series of inputs: The first line corresponds to anomaly detection problem and the second line corresponds to 6 classes classification problem.

Table

Table 8. The fault detection and the 6 classes classification results obtained using ResNet18 AE, 1d CNN + MLP and using the most frequent prediction for the series of inputs.

Таблица 8. Обнаружение неисправностей и результаты классификации 6 классов, полученные с использованием ResNet18 AE, 1d CNN + MLP и с использованием наиболее частого прогнозирования для серии входов..

В результате оценка валидации F1 увеличилась с 77,01% до 81,4%. для обнаружения аномалий. Точность валидации 1d CNN + MLP увеличилась с 84,6% до 91,6%. На тестовом наборе оценка F1 ResNet18 AE составляет 100%, а точность 1d CNN + MLP составляет 83,3%. Использование блока входных выборок для одного прогноза не оказывает существенного влияния на скорость работы системы диагностики неисправностей.

При решении задачи обнаружения аномалий предлагаемые модели могли точно находить дефекты для классов 3, 4 и 5. Однако менее выраженные различия между нормальным состоянием (класс 1) и дефектными состояниями соответствуют классам 2 и 3. Как ложноположительные, так и ложноотрицательные предсказания наблюдались примерно в равных пропорциях. Следует отметить, что настройки моделей позволяют уменьшить количество ложноположительных или ложноотрицательных прогнозов. При решении задачи классификации 6 классов было отмечено, что большинство ложных прогнозов находятся между классом 1 и классами 2, 3 или между классами 4, 5 и классом 6. В статье 49 демонстрируются результаты определения классов неисправностей с использованием метода k-средних. Точность теста составила 100%. Таким образом, окончательный диагноз может включать в себя такого рода модель для предварительной обработки. Основным недостатком в решенной задаче классификации 6 классов является переоснащение.4 Способ преодолеть этот недостаток - получить больше обучающих данных.

В таблице 9 показаны результаты, полученные с помощью предлагаемого 1d CNN + MLP, по сравнению с известными моделями. Модель случайного леса и LSTM + MLP получают входные данные в той же форме, что и MLP. И снова предложенная модель продемонстрировала наилучший результат

.

Table

Table 9. The 6 classes classification results obtained using proposed 1d CNN + MLP network in comparison with known models.

Table 9. The 6 classes classification results obtained using proposed 1d CNN + MLP network in comparison with known models.

Проектирование системы диагностики неисправностей

Аппаратная архитектура компактной и мобильной системы диагностики неисправностей представлена на рисунке 12. Его информационная система основана на Raspberry Pi 4 Model B для обработки данных.

                         figure

Рисунок 12. Предлагаемая аппаратная часть системы диагностики искусственного интеллекта на базе микрокомпьютера raspberry Pi.

Плата расширения используется для сбора данных с датчиков. Плата расширения включает в себя микроконтроллерный блок STM32G071 MCU и АЦП MCP3208 в качестве аналого-цифрового преобразователя.

Схема предлагаемой системы диагностики неисправностей основана на анализе полученных результатов (см. рисунок 13). Первый этап связан с экспериментальными исследованиями для получения обучающего набора данных и настройки сетей. Если процедура маркировки невозможна, то остается возможной разработка системы обнаружения аномалий. За сбором данных следует обучение сетей. Результирующая диагностическая система состоит из экстрактора признаков, модуля обнаружения аномалий и модуля классификации. После извлечения объекта данные передаются в модуль обнаружения аномалий. При обнаружении аномалии данные передаются в классификатор для определения типа дефекта. Необходимо выбрать как точную, так и быструю модель для прогнозирования. Поэтому важно начинать выбор моделей с более простых и останавливаться в тот момент, когда будет достигнута требуемая точность. Результаты диагностики могут быть отправлены в хранилище данных во время работы машины. Дальнейший анализ системы диагностики позволит постоянно совершенствовать модели. Еще одно актуальное направление исследований связано с применением бесконтактных сенсорных элементов.52-54

                         figure

Рисунок 13. Схема предлагаемого программного обеспечения системы диагностики неисправностей.

В конце раздела и статьи могут быть даны следующие ответы на вопросы, выделенные во введении.

Методы и инструменты глубокого обучения позволяют использовать данные с нескольких датчиков в качестве входных данных. Таким образом, мультисенсорная измерительная система является преимуществом при диагностике неисправностей. Но каждый датчик измерительной системы должен быть протестирован по сравнению с остальными датчиками, а низкоинформативные датчики должны быть исключены из системы диагностики. В противном случае они могут снизить точность системы диагностики неисправностей.

Предлагаемые модели и рекомендации по настройке параметров позволяют с высокой точностью решать конкретные задачи диагностики неисправностей. Комбинация AEs и CNNs работает очень хорошо. Одной из особенностей обучения лучшей модели была блокировка весов энкодера. Для дальнейшего повышения точности вместо прогнозирования для одной выборки использовались прогнозы для серии выборок. Такой подход позволил повысить точность для обеих исследуемых задач: задачи диагностики неисправностей и задачи классификации 6 классов.

Глубокие сети определенно более точны в обнаружении неисправностей, чем эксперты в наблюдаемых задачах, когда измерительная система мультисенсорна и неисправности слабо влияют на результаты измерений.


Источник: journals.sagepub.com

Комментарии: