周鵬 張龍信
摘? 要:針對列車故障檢測效率低的問題,提出一種基于MobielNet的移動端列車圖像故障檢測算法。首先,在MobileNet中引入注意力卷積塊和Ghost模塊,用以提升網(wǎng)絡的學習能力。其次,使用殘差聚合網(wǎng)絡獲取多層次的特征圖。最后,將該模型移植到移動端設備上完成列車故障檢測任務。實驗結(jié)果表明,該算法的平均精度均值達到了85.35%,與YOLOv3-Tiny、YOLOv4-Tiny、YOLOX、YOLOv5相比,mAP分別提高了8.83%、5.49%、7.89%、5.31%,并且FED擁有更低檢測延遲。
關(guān)鍵詞:列車故障檢測;目標識別;MobileNet;移動設備;注意力機制
中圖分類號:TP391.4? 文獻標識碼:A? 文章編號:2096-4706(2023)06-0046-05
Mobile Terminal Train Image Fault Detection Algorithm Based on MobielNet
ZHOU Peng, ZHANG Longxin
(Hunan University of Technology, Zhuzhou? 412007, China)
Abstract: To solve the problem of low efficiency of train fault detection, mobile terminal train image fault detection algorithm based on MobielNet is proposed. First, attention convolution block and Ghost module are introduced into MobileNet to improve the learning ability of the network. Secondly, residual aggregation network is used to obtain multi-level feature map. Finally, the model is transplanted to the mobile terminal equipment to complete the train fault detection task. The experimental results show that the average accuracy of the algorithm reaches 85.35%. Compared with YOLOv3-Tiny, YOLOv4-Tiny, YOLOX and YOLOv5, mAP improves 8.83%, 5.49%, 7.89% and 5.31% respectively, and FED has lower detection delay.
Keywords: train fault detection; target recognition; MobileNet; mobile device; attention mechanism
0? 引? 言
中國鐵路高速發(fā)展,鐵路安全問題一直是人們關(guān)注的焦點,當前對于列車零部件故障的檢測主要依賴人工識別,檢測效率低,易受檢測人員自身狀態(tài)和自然環(huán)境的影響。近年來基于機器視覺的列車故障檢測方法在我國鐵路系統(tǒng)中得到了廣泛的應用,但由于列車故障種類多,識別難度高,傳統(tǒng)的基于機器視覺的圖像處理技術(shù)難以完成列車故障檢測任務。隨著計算機視覺技術(shù)的發(fā)展,使得基于深度學習的列車故障檢測方法越來越受到人們的重視。相比于傳統(tǒng)列車故障檢測方法,基于深度學習的列車故障檢測方法能自動的設計和提取特征,提高檢測效率。針對這些因素,本文提出一種基于MobielNet[1]的移動端列車圖像故障檢測算法FED,旨在提高列車故障檢測精度,完成實時檢測任務。
本文工作的主要貢獻總結(jié)如下:
(1)設計了殘差聚合網(wǎng)絡(Residual Pixel Aggregation Network, Residual-PAN),用于產(chǎn)生多層次的特征圖,并進行特征融合,顯著提高了網(wǎng)絡特征提取能力。Residual-PAN使用1×1的卷積操作統(tǒng)一特征圖的通道數(shù),減少網(wǎng)絡參數(shù),并使用卷積核為5×5(或者7×7)的深度可分離卷積擴大感受野。
(2)提出了Enhanced MobileNet(EMNet)。在MobileNet的基礎(chǔ)上,增加了卷積注意力機制(Convolution Block Attention Module, CBAM)和Ghost模塊,可以在少量參數(shù)的情況下,獲取更多的特征信息,提高網(wǎng)絡的學習能力。
(3)將Fastand Effective Detection(FED)模型應用于移動端的列車零部件故障檢測,并進行了一系列實驗以評估其有效性。實驗結(jié)果表明,F(xiàn)ED具有更高的檢測精度、較低的檢測延遲和較少的參數(shù)量,能在硬件性能較差的移動設備完成實時檢測任務。
本文其余工作安排如下:在第1節(jié)回顧了目標檢測算法的相關(guān)工作,第2節(jié)中介紹了提出的FED模型。第3節(jié)描述了實驗和結(jié)果分析,第4節(jié)對所做的工作進行了總結(jié)。
1? 相關(guān)工作
1.1? 移動端目標識別
移動端目標識別是指使用輕量級的移動設備實現(xiàn)目標識別任務,其流程如圖1所示。首先,使用列車圖像訓練檢測模型。然后,將檢測模型部署到移動設備,并使用自帶的攝像頭收集實時圖像和視頻進行列車故障檢測。最后,展示檢測結(jié)果。
1.2? 目標檢測方法
Mao等人提出了Min-YOLOv3[2]模型,在YOLO9000的基礎(chǔ)上,YOLOv3重新設計了Darknet-53殘差網(wǎng)絡,通過引入ResNet網(wǎng)絡中的殘差結(jié)構(gòu),解決網(wǎng)絡結(jié)構(gòu)層數(shù)太多而出現(xiàn)的梯度消失問題,降低訓練深層網(wǎng)絡的難度。并使用特征金字塔網(wǎng)絡(Feature Pyramid Network, FPN)進行多尺度融合預測。FPN網(wǎng)絡用于融合不同尺度的特征信息,高層特征具有較多的語義信息,而低層特征有較豐富位置信息,將不同層的特征進行融合,可以最大化利用特征信息。Bochkovshiy等人設計了YOLOv4[3]模型,在YOLOv3基礎(chǔ)上,YOLOv4將Darknet-53替換為CSPDarknet-53,并加入了路徑聚集網(wǎng)絡、Mish激活函數(shù)和Mosica數(shù)據(jù)增強等方法,使得YOLOv4模型的檢測精度和檢測速度達到了一個全新的高度。Zhu等人提出了YOLOv5[4],在YOLOv4基礎(chǔ)上,YOLOv5使用Mosaic和圖片自適應放縮法對數(shù)據(jù)集進行優(yōu)化,并使用自適應錨框計算法設置初始錨框的大小,提升檢測速度。YOLOv5在主干網(wǎng)中加入Focus結(jié)構(gòu),并加入特征金字塔和PAN提高檢測進度。Panboonyuen等人提出了YOLOX[5],YOLOX添加Mosaic和MixUp兩種更加強大的數(shù)據(jù)增強方法,并提出了SimOTA標簽分配算法,極大地提高了模型的檢測精度。YOLOX與YOLOv5相比,在參數(shù)量的基本相同情況下,YOLOX能在COCO-2017上mAP達到50.00%(比YOLOv5高出1.8%的mAP),且YOLOX的檢測速度達到68.9 FPS。
1.3? 注意力機制
注意力機制是機器學習中一種數(shù)據(jù)處理方法,廣泛用于在自然語言處理、圖像識別及語音識別等各種不同類型的機器學習任務中。Li等人提出了通道注意力機制Squeeze-and-ExcitationNetwork(SENet)[6]。SENet分為3個步驟。第一步輸入一個H×W×C(H表示特征圖的高,W表示特征圖的寬,C表示特征圖的通道數(shù))的特征圖F進行全局平均池化,得到1×1×C的特征向量;第二步輸入1×1×C的特征向量,在通道維度進行經(jīng)過壓縮和擴張,得到1×1×C的權(quán)重系數(shù),并使用sigmoid激活函數(shù)將權(quán)重系數(shù)的值都限制在0到1的范圍;第三步輸入特征圖F與權(quán)重系數(shù),兩者相乘得到加權(quán)后的特征圖。Woo等提出了混合域注意力機制CBAM(Convolutional Attention Module),在SENet的基礎(chǔ)上增加了空間注意力機制,加強了特征圖局部間的聯(lián)系。CBAM是一個輕量級的通用模塊,可以無縫地集成到任何CNN架構(gòu)中,并且可以與CNN一起進行端到端的訓練。
2? 推薦框架
2.1? 整體框架
本節(jié)展示了所提出的FED模型,其結(jié)果如圖2所示(其中Conv表示卷積操作,Upsample表示上采樣,DSConv表示深度可分離卷積)。FED模型由EMNet、Residual-PAN和YOLOHead組成。EM是輕量化的網(wǎng)絡,能高效的提取圖片特征。Residual-PAN用于獲取多層次特征映射,并對相鄰的特征圖進行融合。YOLOHead對目標進行回歸和分類。
2.2? Enhanced MobileNet
本文提出了EMNet,如圖3所示,其中pw conv表示點卷積,dw conv表示深度卷積。EMNet主要由EM塊組成,EM塊集成Ghost模塊和CBAM模塊,EMNet塊結(jié)構(gòu)如圖3所示。Ghost模塊由點卷積和深度卷積組成,Ghost可以用少量的參數(shù)生成大量的特征信息,提高網(wǎng)絡的學習能力。CBAM是輕量級注意力機制,能輕易地嵌入到神經(jīng)網(wǎng)絡。CBAM通過在特征圖的通道維度和空間維度進行加權(quán),以獲取圖片中更重要特征信息。CBAM使用的激活函數(shù)是Relu和H-Sigmoid。
2.3? Residual-PAN
本文使用Residual-PAN獲取多層次的特征圖,并對相鄰特征圖進行融合。傳統(tǒng)的PAN中,輸出特征圖的通道數(shù)與骨干網(wǎng)產(chǎn)生特征圖通道數(shù)保持一致,需要昂貴的計算成本,不適用于移動設備。Residual-PAN通過1×1的卷積操作使所有特征圖的通道數(shù)都等于特征圖中最小的通道數(shù),并使用殘差結(jié)構(gòu)融合相鄰的特征圖,使得計算成本大幅降低。此外,Residual-PAN額外增加了一個特征圖,以檢測更多的對象。Residual-PAN通過調(diào)整DSConv卷積核(5×5/7×7)的尺寸以獲取更大的感受野。Residual-PAN使得模型的參數(shù)更少,檢測精度更高。
2.4? ?標簽分配策略與損失函數(shù)
正樣本與負樣本的標簽分配策略對識別模型的效果影響巨大。FED采用SimOTA策略進行標簽分配。SimOTA策略會隨著訓練過程的不斷變化而變化,自動分析正樣本的數(shù)量,且速度更快。對于分類,ZP使用Varifocal損失函數(shù)。對于回歸,ZP使用GIoU和Distribution Focal損失函數(shù)。計算公式為:
loss=lossvfl+αlossgiou+βlossdfl
其中,lossvfl表示Varifocal損失函數(shù),lossgiou表示GIoU損失函數(shù),lossdfl表示Distribution Focal損失函數(shù),α、β表示常量參數(shù)。
3? 實驗與結(jié)果
本節(jié)首先描述了實驗中的數(shù)據(jù)集,然后給出了網(wǎng)絡結(jié)構(gòu)設置和性能評價指標。最后展示了實驗結(jié)果。
3.1? 數(shù)據(jù)集描述
為驗證算法的有效性,本文采用大量列車零部件圖像來構(gòu)建實驗的Train TD(Train Test Dataset),所有圖像的大小為930×680像素。訓練集擁有13 581張圖片,測試集有8 366張列車零部件圖像。列車典型零部件主要有3種,分別為截斷塞門把手(Truncated Plug Door Handle, TPDH)、上拉桿(Upper Lever, UL)和緊鎖板(Locking Plate, LP),如圖4所示,左側(cè)為故障的零部件,右側(cè)為正常列車零部件。列車故障檢測需要對以上3種零部件進行精確的定位,然后再根據(jù)這些零部件的狀態(tài)進行判別,分析是否出現(xiàn)故障,得到最終的檢測結(jié)果。
3.2? 模型參數(shù)設置
本文的訓練實驗環(huán)境為Ubuntu 20.04系統(tǒng),顯卡為4塊NVIDIA GeForce GTX 1080Ti,顯存為22 GB。網(wǎng)絡結(jié)構(gòu)使用Pytorch框架實現(xiàn)。學習率初始化為0.001,會隨著余弦退火函數(shù)發(fā)生變化,訓練周期為300。測試環(huán)境為高通驍龍865。
3.3? 評價指標
主要評價指標如下:
(1)Precision表示模型預測出的所有目標中正確的比例,體現(xiàn)模型對負樣本的區(qū)分能力。其計算公式為:
其中TP(True Positives)表示被正確識別的正樣本的數(shù)量,F(xiàn)P(False Positives)表示被錯誤識別為正樣本的負樣本數(shù)量。Precision越高,模型對負樣本的區(qū)分能力越強。
(2)Recall表示被模型正確識別的目標占總目標數(shù)量的比例,體現(xiàn)模型對正樣本的識別能力。其計算公式為:
其中FN(False Negatives)表示被錯誤識別為負樣本的正樣本數(shù)量。Recall越高,模型對正樣本的識別能力越強。
(3)mean Average Precision(mAP)平均精度均值,即AP的平均值。它是目標檢測算法的主要評估指標。AP是Precision-Recall曲線下面積,其計算公式為:
其中P(r)表示Precision-Recall曲線,mAP的計算公式為:
其中N表示檢測故障類別總數(shù),APs對應目標的AP值。mAP值越高,表明該目標檢測模型在給定數(shù)據(jù)集上的檢測效果越好。
(4)FLOPs(Floating Point Operations)浮點運算數(shù),表示模型計算量,用于衡量模型的復雜度。FLOPs值越低,模型的計算量越小,檢測速度越快。
3.4? 實驗結(jié)構(gòu)與分析
在COCO-2017數(shù)據(jù)集上對FED模型進行消融實驗,實驗結(jié)果如表1所示。當FED只使用EM和PAN,mAP為44.63%,參數(shù)量為2.98 M。當FED用Residual-PAN替換PAN時,mAP增加到48.42%,我們推測是因為Residual-PAN能獲取多層次的特征圖,并利用殘差塊融合相鄰特征,防止梯度消失,提升檢測精度。當FED增加CBAM后mAP增加了4.71%,CBAM是一種輕量級注意力機制,能提升關(guān)鍵特征的權(quán)重,是模型更加關(guān)注圖像中的重要信息。當FED增加Ghostblock后mAP提升至47.81%,Ghostblock只需要少量的參數(shù)就能得到大量的特征信息,提高網(wǎng)絡的學習能力。
從表2可以看出,F(xiàn)ED的檢測精度和檢測速度遠超其他檢測模型。我們認為主要有以下幾個原因:(1)FED的主干網(wǎng)EM參數(shù)更小,在引入CBAM和Ghost模塊后,網(wǎng)絡會聚焦的關(guān)鍵信息,學習能力更強。(2)Residual-PAN能取得多層次的特征檢測更多目標,并使用殘差塊進行特征融合,能有效地防止反向傳播過程中梯度消失的問題。Residual-PAN還會使用大尺寸的卷積核進行深度可分離卷積,擴大感受野。(3)FED使用SimOTA動態(tài)分配標簽,正負樣本分配更準確,速度更快。
在Traindataset測試FED和其他先進目標檢測模型,實驗結(jié)果如表3所示。FED的mAP為85.35%,比YOLOv3-Tiny、YOLOv4-Tiny、YOLOX、YOLOv5分別提升了8.83%、5.49%、7.89%、5.31%。FED擁有更快、更高效的特征提取網(wǎng)絡,Residual-PAN能豐富特征信息,使得FED取得更優(yōu)的檢測效果。實際的檢測效果如圖5所示,F(xiàn)ED可以快速地找出圖片中故障的零部件,并對故障的零部件位置和故障類別進行標注,給出該故障的置信度,方便工作人員進行檢測和修復工作。
4? 結(jié)? 論
相比于傳統(tǒng)的列車故障檢測算法,基于深度學習的列車故障檢測方法檢測精度更高,檢測速度更快,但需要強大的算力支持,需要部署在高性能的服務器上,對檢測環(huán)境要求苛刻。本文實現(xiàn)了一種基于MobielNet的移動端列車故障檢測算法FED,在Train TD上,mAP達到了85.35%,檢測延遲為17.87 ms,滿足實時性和精確性的要求。
參考文獻:
[1] EL-SAADAWY H,TANTAWI M,Shedeed H A,et al. A Two-Stage Method for Bone X-Rays Abnormality Detection Using MobileNet Network [C]//AICV: The International Conference on Artificial Intelligence and Computer Vision.Cairo:Springer,2020,1153:372-380.
[2] MAO Q C,SUN H M,LIU Y B,et al. Mini-YOLOv3: Real-Time Object Detector for Embedded Applicatio [J].IEEE Access,2019,7:133529-133538.
[3] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection [J/OL]. arXiv:2004.10934 [cs.CV].[2022-09-28].https://arxiv.org/abs/2004.10934.
[4] ZHU X K,LYU S C,WANG X,et al. TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios [C]//2021 IEEE/CVF International Conference on Computer Vision Workshops(ICCVW).Montreal:IEEE,2021:2778-2788.
[5] PANBOONYUEN T,THONGBAI S,WONGWEERANIMIT W,et al. Object Detection of Road Assets Using Transformer-Based YOLOX with Feature Pyramid Decoder on Thai Highway Panorama [J/OL].Information,2022,13(1)[2022-09-28].https://doi.org/10.3390/info13010005.
[6] LI Y,LIU Y,CUI W G,et al. Epileptic Seizure Detection in EEG Signals Using a Unified Temporal-Spectral Squeeze-and-Excitation Network [J].IEEE Transactions on Neural Systems and Rehabilitation Engineering,2020,28(4):782-794.
作者簡介:周鵬(1997—),男,漢族,湖南常德人,碩士在讀,研究方向:基于深度學習的列車識別方法;張龍信(1983—),男,漢族,湖南株洲人,副教授,博士,研究方向:高性能計算、機器學習。
收稿日期:2022-10-17