胡浩澤,田 昊,于重重,黃水珍
(北京工商大學(xué)人工智能學(xué)院,北京 100048)
接觸網(wǎng)是高鐵供電系統(tǒng)的重要組成部分,吊弦和支持裝置作為安裝在接觸線和承接線之間的關(guān)鍵部件,容易發(fā)生故障。因此,針對(duì)高鐵關(guān)鍵部件進(jìn)行定期的巡檢對(duì)維持高鐵的平穩(wěn)運(yùn)行具有重要意義[1]。人工巡檢對(duì)高鐵基礎(chǔ)設(shè)施巡檢,存在受人員、地形、交通等因素限制的問(wèn)題。無(wú)人機(jī)自身具備高空、快速、遠(yuǎn)距離、自行作業(yè)和受天窗影響小等優(yōu)點(diǎn),尤其是不受地形約束和無(wú)死角巡檢的特點(diǎn),適合作為高鐵目前巡檢手段的補(bǔ)充和替代。利用圖像檢測(cè)方法可以快速識(shí)別基礎(chǔ)部件及其缺陷位置。
Marino F[2]等人使用數(shù)字線性掃描相機(jī)來(lái)獲取接觸網(wǎng)螺栓圖像數(shù)據(jù),并使用離散小波進(jìn)行對(duì)其進(jìn)行預(yù)處理,然后將圖片輸入分類器進(jìn)行分類。白瑞敏[3]采用了基于海森矩陣的Ridge Filter對(duì)待檢測(cè)圖片進(jìn)行檢測(cè)過(guò)濾,然后對(duì)過(guò)濾后的缺陷圖片引入霍夫直線檢測(cè)進(jìn)行直線檢測(cè)。王偉[4]通過(guò)分析了一種基于雙目相機(jī)的吊弦圖片的幾何參數(shù)的測(cè)量方法,然后對(duì)吊弦進(jìn)行缺陷檢測(cè)并研發(fā)了一種便攜式測(cè)量設(shè)備。武國(guó)龍[5]介紹了使用霍夫變換的方法來(lái)對(duì)吊弦的斷裂進(jìn)行檢測(cè)識(shí)別,通過(guò)統(tǒng)計(jì)直線上的像素點(diǎn)來(lái)判斷是否是一條完整的直線。
隨著深度學(xué)習(xí)的快速發(fā)展,讓神經(jīng)網(wǎng)絡(luò)模型在高鐵接觸網(wǎng)領(lǐng)域成為現(xiàn)實(shí)。如Zhong J等人[6]提出了一種基于CNN卷積神經(jīng)網(wǎng)絡(luò)的開口銷部件缺陷檢測(cè)的方法,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)開口銷部件進(jìn)行定位識(shí)別,然后利用分類進(jìn)行判別。鐘俊平等人[7]提出了基于灰度分布特征的檢測(cè)判據(jù)來(lái)判斷開口銷的缺陷類型。Kang G[8]提出了去噪自動(dòng)編碼與多任務(wù)學(xué)習(xí)用于高鐵接觸網(wǎng)絕緣子的表面缺陷檢測(cè)識(shí)別,首先利用Faster-RCNN對(duì)接觸網(wǎng)的支持裝置部分進(jìn)行準(zhǔn)確定位后,然后再利用深度CNN對(duì)定位區(qū)域進(jìn)行一個(gè)得分統(tǒng)計(jì)去檢測(cè)識(shí)別。Chen J等人[9]使用首先采用SSD作為定位主要結(jié)構(gòu)件位置,然后對(duì)定位處進(jìn)行檢測(cè)。Zhigang Liu等人[10]提出了一種基于深度學(xué)習(xí)的接觸網(wǎng)支持裝置小部件的定位與檢測(cè)方法,通過(guò)對(duì)比四種檢測(cè)模型來(lái)選擇最優(yōu)的Faster-RCNN作為定位識(shí)別的主要模型。陳雋文[11]首先選擇SSD作為識(shí)別框架,通過(guò)級(jí)聯(lián)的思想,在識(shí)別出緊固件以后,利用改進(jìn)的YOLO框架進(jìn)行定位,最后通過(guò)深度卷積網(wǎng)絡(luò)完成緊固件的工作狀態(tài)分類。王嘉琪[12]利用SSD對(duì)接觸網(wǎng)的7個(gè)關(guān)鍵部位進(jìn)行定位,然后利用MobileNet輕量化特征提取網(wǎng)絡(luò)進(jìn)行特征提取。之后用實(shí)例分割模型Mask R-CNN對(duì)不同關(guān)鍵區(qū)域螺母部件的精確定位,對(duì)定位部件歸一化處理,進(jìn)行檢測(cè)識(shí)別。李星馳等人[13]使用基于目標(biāo)檢測(cè)模型的方法,并結(jié)合遷移學(xué)習(xí)技術(shù),識(shí)別管帽脫落,通過(guò)試驗(yàn)調(diào)整R-CNN架構(gòu)的結(jié)構(gòu),改變主干網(wǎng)絡(luò)的訓(xùn)練模式,選擇最優(yōu)的檢測(cè)模型?,F(xiàn)有方法存在模型體積大,檢測(cè)時(shí)間長(zhǎng)及精度不高的問(wèn)題。針對(duì)上述問(wèn)題,本文提出了一種改進(jìn)型CAS-YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)。首先利用消融實(shí)驗(yàn),決定出模型最優(yōu)策略組合;其次將YOLOv4骨干網(wǎng)絡(luò)及特征融合網(wǎng)絡(luò)進(jìn)行修改,采用CSP方式從網(wǎng)絡(luò)架構(gòu)角度進(jìn)行網(wǎng)絡(luò)分解,在修改的模型基礎(chǔ)上引入注意力機(jī)制與上下文信息機(jī)制進(jìn)行特征優(yōu)化。達(dá)到降低模型權(quán)重大小,提高模型的檢測(cè)精度,達(dá)到工業(yè)落地需求的目標(biāo)。
YOLOv4算法在原有YOLOv3[14]目標(biāo)檢測(cè)架構(gòu)基礎(chǔ)上,從數(shù)據(jù)處理、主干網(wǎng)絡(luò)、網(wǎng)絡(luò)訓(xùn)練、激活函數(shù)、損失函數(shù)等各個(gè)方面引入一些優(yōu)化方法,使得模型在檢測(cè)速度和精度上達(dá)到了目前為止的最優(yōu)匹配[15]。
YOLOv4算法由主干網(wǎng)絡(luò),特征融合網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò)組成。YOLOv4在YOLOv3算法結(jié)構(gòu)基礎(chǔ)上,改進(jìn)主干網(wǎng)絡(luò),融合CSPNet[16]算法,形成CSPDarknet,強(qiáng)化了特征提取效果。特征融合部分,不再使用特征金字塔網(wǎng)絡(luò),而是加入空間金字塔池化層[16](SPP)的路徑聚合網(wǎng)絡(luò)[18](PANet)。將提取的深層特征通過(guò)池化向淺層傳遞,增大感受野。PANet改善了特征在傳遞過(guò)程中的淺層特征丟失的問(wèn)題。在分類回歸部分,檢測(cè)頭部延續(xù)了YOLOv3中檢測(cè)輸出。YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)圖
YOLOv4中各個(gè)模塊都有著不同的功能,通過(guò)不同的策略組合,組成了實(shí)時(shí)性強(qiáng),檢測(cè)準(zhǔn)確率較高的檢測(cè)模型。
YOLOv4模型包含很多策略,例如馬賽克數(shù)據(jù)增強(qiáng),提升數(shù)據(jù)背景的多樣性;IoU閾值,在訓(xùn)練過(guò)程中使用大于IoU閾值的錨框進(jìn)行訓(xùn)練;遺傳算法(GA)針對(duì)參數(shù)的選擇,使用遺傳算法來(lái)進(jìn)行參數(shù)的選擇;標(biāo)簽平滑(LS),在訓(xùn)練過(guò)程中,通過(guò)設(shè)置標(biāo)簽平滑的系數(shù)來(lái)平衡正負(fù)樣本;交叉小批量標(biāo)準(zhǔn)化(CNB),通過(guò)交叉的方式進(jìn)行最小批次的標(biāo)準(zhǔn)歸一化;余弦退火(CA)的學(xué)習(xí)方式來(lái)調(diào)節(jié)學(xué)習(xí)率;使用最優(yōu)的錨框回歸(OA);損失函數(shù)的選擇。
這些策略中并不是所有都是最有用的,且多余冗雜的策略雖然帶來(lái)了高精度,同時(shí)也增加了模型的復(fù)雜度,從而降低了運(yùn)算速度。本文針對(duì)接觸網(wǎng)數(shù)據(jù)集,首先對(duì)YOLOv4進(jìn)行一個(gè)策略消融實(shí)驗(yàn),保留貢獻(xiàn)最大的策略,剔除貢獻(xiàn)小的策略,組成新的檢測(cè)模型。通過(guò)研究分析,選取如圖2所示幾種策略進(jìn)行消融對(duì)比。
圖2 策略變量選取
為使網(wǎng)絡(luò)輕量化,提高檢測(cè)的實(shí)時(shí)性,對(duì)原始YOLOv4模型的主干網(wǎng)絡(luò)進(jìn)行裁剪。原始的YOLOv4采取了162層結(jié)構(gòu),帶有6000多萬(wàn)參數(shù)量,是一個(gè)較大且結(jié)構(gòu)復(fù)雜的檢測(cè)網(wǎng)絡(luò)。其主干網(wǎng)絡(luò)的激活函數(shù)使用的是Mish激活函數(shù)。
為了降低網(wǎng)絡(luò)計(jì)算復(fù)雜度,CSP通道的殘差層只保留一層,且刪減兩CSP塊,減少計(jì)算量。為了保證特征提取過(guò)程中精度的問(wèn)題,輸入、輸出階段,各增加一個(gè)DarknetConv2D_BN塊。如下圖3所示。為了避免Mish激活函數(shù)引起的梯度方向鋸齒的問(wèn)題,使用了LeakyReLU作為激活函數(shù)。
圖3 優(yōu)化后的YOLOv4主干網(wǎng)絡(luò)
為了進(jìn)一步減少參數(shù)量,降低模型復(fù)雜度,使用FPN結(jié)構(gòu)替換原始的PANet結(jié)構(gòu)。首先FPN對(duì)最后一層殘差塊輸出的特征圖進(jìn)行卷積后單獨(dú)作為一個(gè)輸出,然后與上一個(gè)層采樣輸出的特征圖進(jìn)行堆疊并卷積,作為一個(gè)輸出。最后一個(gè)特征層的輸出經(jīng)過(guò)SPP池化后,輸出另一個(gè)檢測(cè)結(jié)果。其結(jié)構(gòu)如圖4所示。
圖4 優(yōu)化的YOLOv4中利用FPN結(jié)構(gòu)
由圖4的網(wǎng)絡(luò)框圖看到,優(yōu)化后的YOLOv4模型更輕量化。主干網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)層次明顯,且沒(méi)有多余的殘差結(jié)構(gòu),便于操作和實(shí)現(xiàn)。
優(yōu)化后的YOLOv4檢測(cè)模型如圖5所示。通過(guò)模型優(yōu)化以后,得到一個(gè)趨于輕量化的模型,并將此模型命名為CAS-YOLOv4。
圖5 優(yōu)化后的YOLOv4系統(tǒng)框圖
本文實(shí)驗(yàn)的硬件環(huán)境為CPU:Intel(R) Core(TM) CPU i5-1035;內(nèi)存大小:64G;顯存容量:16GB;服務(wù)器操作系統(tǒng)采用Ubuntu 18.04;GPU計(jì)算架構(gòu)為Cuda10.0;且所有的實(shí)驗(yàn)都是在Pytorch深度學(xué)習(xí)框架下完成的。
本文所用圖像數(shù)據(jù)為京滬高鐵基礎(chǔ)設(shè)施檢測(cè)項(xiàng)目組提供,接觸網(wǎng)懸掛裝置吊弦的數(shù)據(jù)包括正常吊弦(200張)、斷股(9張)、斷裂(2張)、松弛(重度和輕度松弛)(5張)共計(jì)5類樣本,共計(jì)216張?jiān)紙D像。針對(duì)正樣本數(shù)量較少的問(wèn)題,目標(biāo)檢測(cè)需要對(duì)正樣本進(jìn)行數(shù)據(jù)增強(qiáng)操作以擴(kuò)充樣本集,針對(duì)每類樣本擴(kuò)充400-500張。其中采用了選擇了傳統(tǒng)的單樣本數(shù)據(jù)增強(qiáng)方式:旋轉(zhuǎn)、平移、模糊、裁剪等。以及采用了Retinex方法對(duì)亮度過(guò)低或者明暗不均的待檢測(cè)圖片進(jìn)行預(yù)處理操作。共計(jì)獲得1500張接觸網(wǎng)吊弦圖像。圖6展示了吊弦的5種狀態(tài)分類。
圖6 吊弦典型樣本
針對(duì)原始YOLOv4模型,策略消融結(jié)果如表1所示。策略消融主要針對(duì)檢測(cè)領(lǐng)域選取了效果較好的策略進(jìn)行消融實(shí)驗(yàn)。通過(guò)消融來(lái)完成模型的一個(gè)簡(jiǎn)單優(yōu)化。
表1 YOLOv4策略消融結(jié)果
其中針對(duì)不同部位的結(jié)果如下表2所示。表2主要展示了接觸網(wǎng)懸掛裝置吊弦的各部分檢測(cè)的實(shí)際情況。吊弦一共有5類樣本,分別是吊弦正常(s-normal),吊弦斷裂(s-break),吊弦輕微松弛(s-slight),吊弦嚴(yán)重松弛(s-unstressed),吊弦斷股(s-snag)。
表2 不同缺陷檢測(cè)效果
由表1可以看出,YOLOv4模型對(duì)接觸網(wǎng)缺陷檢測(cè)識(shí)別率較良好,通過(guò)策略消融可以看出,在論文表現(xiàn)中優(yōu)良的策略在實(shí)際應(yīng)用當(dāng)中應(yīng)當(dāng)有許多考量。如表1的第一條結(jié)果所示,所以的策略糅雜在一起,反而不能帶來(lái)很好的檢測(cè)效果,反正增加了檢測(cè)模型的計(jì)算量,提升了模型的復(fù)雜度,容易出現(xiàn)過(guò)擬合的情況。通過(guò)表1可知,在加入馬賽克數(shù)據(jù)增強(qiáng),標(biāo)簽平滑為千分之一,融合GA遺傳算法選擇超參和CIoU作為基準(zhǔn)策略的情況下,效果達(dá)到最優(yōu)。
同時(shí),從表2各項(xiàng)缺陷的檢測(cè)表現(xiàn)情況來(lái)看,YOLOv4對(duì)吊弦正常,松弛不受力的情況下檢測(cè)效果最好。究其原因,是數(shù)據(jù)集的問(wèn)題,正常樣本的數(shù)據(jù)集量大,而吊弦松弛的形狀特征比斷股和輕微松弛的幾何外形特征更加明顯,因此檢測(cè)準(zhǔn)確率最高。再者由實(shí)驗(yàn)表明,通過(guò)對(duì)YOLOv4中進(jìn)行策略消融以及重新組合有效提高了模型的檢測(cè)識(shí)別精度,使mAP從77.72%提升到87.59%,且隨著剔除一些不明顯策略以后,模型檢測(cè)降低了復(fù)雜度,檢測(cè)速率以及訓(xùn)練速度都有了很大的提高。故實(shí)驗(yàn)證明,針對(duì)本文的接觸網(wǎng)數(shù)據(jù)集,首先對(duì)模型進(jìn)行一個(gè)策略消融,達(dá)到模型瘦身的目的是可行的。
在模型消融后,再對(duì)模型進(jìn)行骨干網(wǎng)絡(luò)的裁剪,然后更改其特征融合網(wǎng)絡(luò)為FPN。其實(shí)驗(yàn)結(jié)果如表3所示。
表3 模型優(yōu)化結(jié)果
由表3可知,雖然輕量化后的模型檢測(cè)準(zhǔn)確率下降了,但是它的實(shí)時(shí)性提高了。而且模型的權(quán)重只占原來(lái)文件的十分之一,達(dá)到了后續(xù)工業(yè)落地的需求。
在訓(xùn)練過(guò)程中其損失函數(shù)如下圖7,8所示。
圖7 訓(xùn)練損失函數(shù) 圖8 驗(yàn)證損失函數(shù)
優(yōu)化后的YOLOv4模型對(duì)接觸網(wǎng)關(guān)鍵部件檢測(cè)識(shí)別結(jié)果的部分?jǐn)?shù)據(jù)如圖9所示。
圖9 吊弦檢測(cè)結(jié)果圖
其特征提取網(wǎng)絡(luò)中最后一層特征圖的可視化結(jié)果輸出如下圖10所示??芍P洼p量化以后,在特征提程中,很多細(xì)節(jié)容易丟失,所以造成檢測(cè)結(jié)果不是很理想,但是檢測(cè)的實(shí)時(shí)性大幅度提升,為后續(xù)的工業(yè)落地奠定了堅(jiān)實(shí)的基礎(chǔ)。
圖10 特征圖可視化結(jié)果輸出
本文采用對(duì)YOLOv4模型進(jìn)行策略消融實(shí)驗(yàn),在消融的過(guò)程中,通過(guò)組合最優(yōu)策略優(yōu)化YOLOv4模型。同時(shí)為了解決工業(yè)落地的需求,在對(duì)YOLOv4消融的基礎(chǔ)之上,再對(duì)模型的主干網(wǎng)絡(luò)的殘差層進(jìn)行裁剪。同時(shí)在特征融合部分改成金字塔網(wǎng)絡(luò),減少模型參數(shù),同時(shí)保證了精確度。本文提供的方法為同時(shí)滿足精度與工業(yè)落地的需求做出鋪墊。