令曉明,顧?楠,范少良,王文強(qiáng)
(1.蘭州交通大學(xué)國(guó)家綠色鍍膜技術(shù)與裝備工程技術(shù)研究中心;2.蘭州交通大學(xué)機(jī)電工程學(xué)院;3.蘭州交通大學(xué)光電技術(shù)與智能控制教育部重點(diǎn)實(shí)驗(yàn)室,甘肅蘭州 730070)
鐵路接觸網(wǎng)是鐵路運(yùn)行專線上空架設(shè)的一種給機(jī)車供電的特殊形式輸電線路,可保證鐵路的穩(wěn)定運(yùn)行。如圖1 所示,接觸網(wǎng)設(shè)備由絕緣子、接觸懸掛、支持裝置、定位裝置、支柱、基礎(chǔ)與導(dǎo)線等幾部分組成。接觸網(wǎng)設(shè)備是輸電線路上的重要組成部分,出現(xiàn)故障時(shí)若不及時(shí)、準(zhǔn)確處理會(huì)引發(fā)嚴(yán)重事故,影響列車正常運(yùn)行。目前,我國(guó)在鐵路接觸網(wǎng)設(shè)備的維護(hù)和檢修方面依然采用檢測(cè)車拍攝,并通過(guò)人工檢測(cè)對(duì)每張圖進(jìn)行檢查并排除故障的方法。由于我國(guó)鐵路里程長(zhǎng),該方法會(huì)造成檢測(cè)時(shí)間長(zhǎng)、漏檢率高等問(wèn)題。采用基于機(jī)器學(xué)習(xí)的方法代替人工檢測(cè)方法,可提高鐵路接觸網(wǎng)檢測(cè)的自動(dòng)化水平。
Fig.1 Components of overhead lines equipment圖1 接觸網(wǎng)設(shè)備組成部分
目標(biāo)檢測(cè)算法是近年來(lái)的研究熱點(diǎn),特別是在基于深度學(xué)習(xí)的圖像處理領(lǐng)域占據(jù)了統(tǒng)治地位[1]。傳統(tǒng)的目標(biāo)檢測(cè)使用滑動(dòng)窗口、區(qū)域候選框等方法提取區(qū)域特征圖,通過(guò)分類器識(shí)別進(jìn)行回歸預(yù)測(cè)[2]。在檢測(cè)過(guò)程中通過(guò)固定步長(zhǎng)滑動(dòng)不同大小、寬高比的窗口,將對(duì)應(yīng)區(qū)域的圖像分類后實(shí)現(xiàn)目標(biāo)檢測(cè)。但該方法計(jì)算冗余、訓(xùn)練時(shí)間較長(zhǎng),不適宜在鐵路接觸網(wǎng)設(shè)備的檢測(cè)中應(yīng)用。隨著目標(biāo)檢測(cè)方法應(yīng)用于鐵路設(shè)備檢測(cè),明顯提高了接觸網(wǎng)設(shè)備的檢測(cè)速度和精度。目標(biāo)檢測(cè)算法的其中一類是基于回歸的One-stage 算法,包括YOLO[3]、SSD[4]等,其檢測(cè)速度較快;另一類是基于區(qū)域候選框的Two-stage 算法,包括RCNN[5]、Fast R-CNN[6]、Mask R-CNN[7]、Faster R-CNN[8]等,檢測(cè)精度較高。在目標(biāo)檢測(cè)過(guò)程中,Cao 等[9]改進(jìn)區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)和空間變換網(wǎng)絡(luò)(Spatial Transformer Network,STN)對(duì)目標(biāo)進(jìn)行精確檢測(cè);Huang 等[10]通過(guò)加權(quán)金字塔網(wǎng)絡(luò)(Weighted Pyramid Network,WPN)確定目標(biāo),以上模型檢測(cè)精度較高。若要提高接觸網(wǎng)設(shè)備的檢測(cè)速度,高強(qiáng)等[11]提出基于YOLO 的目標(biāo)分解及聚合表達(dá)算法對(duì)絕緣子進(jìn)行檢測(cè);賴秋頻等[12]用YOLOv2 模型快速檢測(cè)不同缺陷狀態(tài)下的絕緣子;劉舒康等[13]通過(guò)改進(jìn)YOLOv3 模型增強(qiáng)特征提取網(wǎng)絡(luò),提出基于智能數(shù)據(jù)的增強(qiáng)算法進(jìn)行圖像增強(qiáng),快速定位接觸網(wǎng)吊弦和支架,但這些模型存在檢測(cè)精度低的問(wèn)題。
鐵路接觸網(wǎng)設(shè)備受損在鐵路系統(tǒng)故障中較為常見(jiàn),因此快速、準(zhǔn)確地對(duì)設(shè)備進(jìn)行檢測(cè)可保證列車的安全運(yùn)行。針對(duì)本文接觸網(wǎng)設(shè)備的目標(biāo)檢測(cè)問(wèn)題,使用現(xiàn)有Onestage 算法的典型SSD、YOLO 模型無(wú)法保證在檢測(cè)速度較快的同時(shí),實(shí)現(xiàn)較高的檢測(cè)精度,因此需要對(duì)YOLOv3 模型進(jìn)行改進(jìn)。
針對(duì)YOLOv3 模型檢測(cè)過(guò)程中檢測(cè)精度較低的問(wèn)題,本文對(duì)YOLOv3 模型進(jìn)行改進(jìn),增加一塊空間金字塔模塊進(jìn)行多尺度融合,擴(kuò)大圖像的感受野。由于深度學(xué)習(xí)對(duì)數(shù)據(jù)量的需求較大,數(shù)據(jù)增強(qiáng)能夠提高圖像素材的多樣性,并采用Mosaic 圖像增強(qiáng)方法增強(qiáng)網(wǎng)絡(luò)的魯棒性,使模型在提高檢測(cè)精度的同時(shí)增強(qiáng)適應(yīng)能力;用廣義交并比(Generalized Intersection over Union,GIoU)損失代替原損失函數(shù)(Intersection over Union,IoU),完善圖像重疊度計(jì)算,提高網(wǎng)絡(luò)的收斂性能,從而提高目標(biāo)檢測(cè)精度。實(shí)驗(yàn)結(jié)果證明,將改進(jìn)后的模型應(yīng)用于接觸網(wǎng)設(shè)備的目標(biāo)檢測(cè)中,可達(dá)到較好的檢測(cè)效果。
YOLO 模型采用回歸方法代替RPN 網(wǎng)絡(luò)的作用,以提高檢測(cè)速度。然而,在鐵路接觸網(wǎng)檢測(cè)過(guò)程中需要快速、準(zhǔn)確地檢測(cè)設(shè)備,以保證鐵路的安全、穩(wěn)定運(yùn)行,但是直接將YOLOv3 模型應(yīng)用于設(shè)備檢測(cè)時(shí),檢測(cè)精度無(wú)法滿足要求,因此需要對(duì)YOLOv3模型進(jìn)行改進(jìn)。
YOLOv3 模型借鑒殘差網(wǎng)絡(luò)思想,將YOLOv2 主干網(wǎng)絡(luò)中的Darknet-19 主干網(wǎng)絡(luò)換更為Darknet-53[14],通過(guò)多尺度采樣方法對(duì)較小物體進(jìn)行快速檢測(cè),得到合適的目標(biāo)檢測(cè)模型。Darknet-53 網(wǎng)絡(luò)主體部分共有53 個(gè)卷積層,包括2 個(gè)卷積層和5 組重復(fù)的殘差單元,每個(gè)殘差單元由2個(gè)卷積層和1 個(gè)快捷鏈路組成,在殘差單元的層與層之間設(shè)置快捷鏈路,將逐層訓(xùn)練轉(zhuǎn)變?yōu)榉植接?xùn)練[15]。Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)、殘差單元結(jié)構(gòu)如圖2、圖3所示。
Fig.2 Darknet-53 network architecture圖2 Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)
為減小模型訓(xùn)練難度,YOLOv3 模型通過(guò)檢測(cè)關(guān)鍵點(diǎn)的坐標(biāo)框進(jìn)行解碼,確定預(yù)測(cè)框位置時(shí),以輸出特征圖的先驗(yàn)框?yàn)榛A(chǔ)進(jìn)行調(diào)整,通過(guò)預(yù)測(cè)框bx、by、bw、bh中心點(diǎn)坐標(biāo)和對(duì)應(yīng)網(wǎng)格左上角位置的相對(duì)偏移量對(duì)預(yù)測(cè)框進(jìn)行位置約束[16]。則調(diào)整預(yù)測(cè)框的坐標(biāo)計(jì)算表達(dá)式為:
Fig.3 Residual unit圖3 殘差單元
其中,tx、ty是學(xué)習(xí)預(yù)測(cè)框的中心坐標(biāo)參數(shù),bx、by、bw、bh是預(yù)測(cè)框中心和寬高的值,pw、ph是先驗(yàn)框的寬高,cx、cy是當(dāng)前網(wǎng)格左上角到原圖左上角之間的長(zhǎng)度。通過(guò)σ激活函數(shù)Sigmoid 將tx、ty約束在(0,1)范圍內(nèi),計(jì)算每個(gè)預(yù)測(cè)框?qū)?yīng)的置信度。通過(guò)過(guò)濾小閾值預(yù)測(cè)框,并利用非極大值抑制方法[17]刪除多余預(yù)測(cè)框,以達(dá)到最終想要的結(jié)果。
在保證鐵路運(yùn)行安全的前提下,改進(jìn)YOLOv3 模型是提高鐵路接觸網(wǎng)設(shè)備目標(biāo)檢測(cè)精度的重要途徑。為了增大目標(biāo)感受野、提高檢測(cè)精度,在YOLOv3 網(wǎng)絡(luò)中引入一個(gè)空間金字塔模塊,用于提取目標(biāo)的局部特征和全局特征,從而提升目標(biāo)檢測(cè)精度。網(wǎng)絡(luò)的空間金字塔模塊如圖4所示。
Fig.4 Spatial pyramid module圖4 空間金字塔模塊
在改進(jìn)YOLOv3 的網(wǎng)絡(luò)模型中,首先,Darknet-53 網(wǎng)絡(luò)的輸出與第一個(gè)預(yù)測(cè)特征層之間使用了Convolutional Set;其次,拆開Convolutional Set 并加入空間金字塔模塊;最后,輸入特征圖通過(guò)3 個(gè)不同尺度的內(nèi)核作最大池化(Maxpool)操作后,輸出特征圖得到改進(jìn)模型。其中,Maxpool 操作可有效保留特征,空間金字塔模塊相對(duì)于固定內(nèi)核大小的最大池化層可擴(kuò)大感受野,得到全局特征和局部特征并進(jìn)行特征融合。通過(guò)訓(xùn)練發(fā)現(xiàn),為降低模型復(fù)雜度,加入一個(gè)空間金字塔模塊即能實(shí)現(xiàn)網(wǎng)絡(luò)不同尺度的特征融合,提升模型性能。
在鐵路接觸網(wǎng)設(shè)備的目標(biāo)檢測(cè)過(guò)程中,好的數(shù)據(jù)集對(duì)目標(biāo)檢測(cè)起著至關(guān)重要的作用,然而目前沒(méi)有現(xiàn)成的數(shù)據(jù)集。由于現(xiàn)場(chǎng)拍攝環(huán)境及拍攝設(shè)備的限制,得到的圖像數(shù)據(jù)差別較大,并且數(shù)據(jù)收集不方便,會(huì)出現(xiàn)數(shù)據(jù)較少、圖像背景單一的情況,使得網(wǎng)絡(luò)模型訓(xùn)練的魯棒性降低。
為了增加圖像背景的豐富性與數(shù)據(jù)的多樣性,增強(qiáng)網(wǎng)絡(luò)的魯棒性,引入Mosaic 圖像增強(qiáng)方法,將多張圖拼接在一起進(jìn)行網(wǎng)絡(luò)訓(xùn)練。首先,通過(guò)翻轉(zhuǎn)、縮放和改變色域的方式將4 張不同方位的圖片拼接到一起以增加數(shù)據(jù);其次,將圖片和標(biāo)注框相結(jié)合得到新圖像;最后,將調(diào)整后的標(biāo)簽傳入模型。該方法增加了訓(xùn)練圖像的目標(biāo)個(gè)數(shù),使BN 層可一次性統(tǒng)計(jì)多張圖片參數(shù),并在GPU 有限的情況下獲得較好的訓(xùn)練結(jié)果。Mosaic 數(shù)據(jù)增強(qiáng)如圖5所示。
Fig.5 Mosaic data enhancement圖5 Mosaic數(shù)據(jù)增強(qiáng)
YOLOv3 中的損失函數(shù)由邊界框回歸損失、置信度損失和類別分類損失組成,邊界框回歸損失函數(shù)的性能評(píng)估用IoU 表示[18]。傳統(tǒng)的回歸損失函數(shù)可能存在局部最優(yōu)解而無(wú)法得到最優(yōu)解[19]。因此,本文將真實(shí)框和預(yù)測(cè)框的廣義交并比GIoU[20]作為回歸損失函數(shù),并用兩個(gè)邊框間的長(zhǎng)度表示差距:
通過(guò)對(duì)YOLOv3模型進(jìn)行改進(jìn),能夠快速、準(zhǔn)確地檢測(cè)出接觸網(wǎng)設(shè)備,從而提升鐵路運(yùn)行的安全性。
本文實(shí)驗(yàn)平臺(tái)配置如下:處理器為Intel RXeon RSive4112 CPU@2.60GHz,安裝內(nèi)存為16.0GB,GPU 為NVIDIA GeForce RTX 2080,操作系統(tǒng)為Ubuntn 18.04,CUDA 為10.1,Python 為3.8,用Pytorch1.6框架實(shí)現(xiàn)算法模型。
目前,為了實(shí)現(xiàn)鐵路接觸網(wǎng)設(shè)備的目標(biāo)檢測(cè),需克服數(shù)據(jù)集較少的問(wèn)題。在鐵路接觸網(wǎng)設(shè)備目標(biāo)檢測(cè)過(guò)程中,由于場(chǎng)景的特殊性、目標(biāo)的單一性,且實(shí)驗(yàn)數(shù)據(jù)集的收集途徑和場(chǎng)所有限,因此需要通過(guò)圖像增強(qiáng)方法擴(kuò)充數(shù)據(jù)集,以實(shí)現(xiàn)有效的目標(biāo)檢測(cè)。
在數(shù)據(jù)集的處理過(guò)程中,首先通過(guò)網(wǎng)絡(luò)、現(xiàn)場(chǎng)拍攝等方法收集圖片,將圖片統(tǒng)一成JPG 格式;然后通過(guò)調(diào)節(jié)亮度、翻轉(zhuǎn)、旋轉(zhuǎn)、鏡像等方法進(jìn)行圖片擴(kuò)增,并調(diào)整圖片大小得到2 240 張圖片;最后通過(guò)可視化圖像標(biāo)注軟件LabelImg 進(jìn)行手動(dòng)標(biāo)簽,得到Pascal VOC 標(biāo)準(zhǔn)格式的XML 標(biāo)簽文件,并將數(shù)據(jù)集以7∶3 的比例分成訓(xùn)練集和驗(yàn)證集用于模型訓(xùn)練。
訓(xùn)練模型時(shí),當(dāng)epoch 達(dá)到500 個(gè)以后,模型趨于穩(wěn)定。同時(shí),設(shè)置初始學(xué)習(xí)率為0.005,最終學(xué)習(xí)率為0.001,批處理的尺寸大小為8,權(quán)重的衰減系數(shù)為0.000 5,動(dòng)量為0.94。
本文采用目標(biāo)檢測(cè)中的平均精度均值(Mean Average Precision,mAP)作為模型訓(xùn)練過(guò)程中的評(píng)價(jià)指標(biāo),mAP 是所有類別的AP 平均后獲得的。
式中,TP[21](True Positive)為預(yù)測(cè)為正樣本的正樣本數(shù)量,F(xiàn)P(False Positive)為預(yù)測(cè)為正樣本的負(fù)樣本數(shù)量,F(xiàn)N(False Negative)為預(yù)測(cè)為負(fù)樣本的正樣本數(shù)量,p(r)為P-R 曲線,m 為檢測(cè)種類數(shù)量。
本文分別將Faster R-CNN、SSD、YOLOv3 以及改進(jìn)YOLOv3 等模型進(jìn)行比較,得到接觸網(wǎng)設(shè)備不同的性能指標(biāo)如表1所示。
Table 1 Performance index comparison of different detection algorithms表1 不同檢測(cè)算法性能指標(biāo)比較
實(shí)驗(yàn)結(jié)果表明,改進(jìn)模型針對(duì)8 種不同類別的檢測(cè)精度都有所提高。從表1 可以看出,F(xiàn)aster R-CNN 模型的mAP 為85.75%,F(xiàn)PS(Frames Per Second)為9.82,SSD 模型的mAP 為71.55%,F(xiàn)PS 為39.08;YOLOv3 模型的mAP 為79.81%,F(xiàn)PS 為29.29。由此可以看出,雖然Faster R-CNN模型的檢測(cè)精度高于SSD、YOLOv3 模型,但其檢測(cè)速度存在明顯劣勢(shì);SSD 模型的檢測(cè)速度快,但是檢測(cè)精度低于YOLOv3 模型,很難應(yīng)用于實(shí)際接觸網(wǎng)設(shè)備檢測(cè),因此本文選擇改進(jìn)YOLOv3模型對(duì)接觸網(wǎng)設(shè)備進(jìn)行目標(biāo)檢測(cè)。采用改進(jìn)YOLOv3 模型后,其mAP 為89.19%,與Faster R-CNN相比提升了3.44%,與SSD 相比提升了17.63%,與YOLOv3相比提升了9.38%。因此,本文提出的改進(jìn)YOLOv3 模型在檢測(cè)速度變化不大的前提下,可顯著提高接觸網(wǎng)設(shè)備的目標(biāo)檢測(cè)精度,從而滿足鐵路接觸網(wǎng)設(shè)備檢測(cè)實(shí)時(shí)性和準(zhǔn)確性的要求。
為了驗(yàn)證本文算法對(duì)于鐵路接觸網(wǎng)設(shè)備檢測(cè)的準(zhǔn)確性,根據(jù)檢測(cè)精度對(duì)算法性能進(jìn)行對(duì)比,構(gòu)建了幾種不同網(wǎng)絡(luò),通過(guò)消融實(shí)驗(yàn)在本文制作的數(shù)據(jù)集上進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如表2 所示。其中,“√”表示采用相應(yīng)的改進(jìn)方法。
Table 2 Effects of different improved YOLOv3 algorithms表2 不同改進(jìn)YOLOv3算法效果
由表2 可知,實(shí)驗(yàn)1 為使用原始YOLOv3 模型,其mAP為79.81%,F(xiàn)PS 為29.29。在原有YOLOv3 模型基礎(chǔ)上,實(shí)驗(yàn)2 中引入一個(gè)空間金字塔模塊,使模型的mAP 提升了1.87%,說(shuō)明加入金字塔模塊實(shí)現(xiàn)了特征融合,豐富了局部特征信息,從而提升了接觸網(wǎng)設(shè)備的準(zhǔn)確性。實(shí)驗(yàn)3 在實(shí)驗(yàn)2 的基礎(chǔ)上引入Mosaic 圖像增強(qiáng),使模型的mAP 提升了3.97%,提升效果較為明顯,說(shuō)明在改進(jìn)YOLOv3 模型的過(guò)程中引入Mosaic 數(shù)據(jù)增強(qiáng),可一次檢測(cè)4 張圖像中的數(shù)據(jù),豐富了檢測(cè)目標(biāo),使網(wǎng)絡(luò)的魯棒性顯著提高,從而簡(jiǎn)化了GPU 的功能,大幅提升了目標(biāo)檢測(cè)精度。實(shí)驗(yàn)4 在實(shí)驗(yàn)3 的基礎(chǔ)上用GIoU 代替IoU,其mAP 提升了3.54%,由此說(shuō)明用GIoU 代替IoU,可檢測(cè)到IoU 檢測(cè)不到的邊界框和預(yù)測(cè)框的未重合部分,從而提升檢測(cè)精度,使訓(xùn)練結(jié)果更優(yōu)。
通過(guò)上述消融實(shí)驗(yàn)可知,在鐵路接觸網(wǎng)設(shè)備的目標(biāo)檢測(cè)過(guò)程中,相比于原來(lái)的YOLOv3 模型,本文應(yīng)用的改進(jìn)YOLOv3 模型在檢測(cè)速度變化不大的情況下,檢測(cè)精度有了顯著提升,mAP 提升了9.38%,能夠滿足鐵路接觸網(wǎng)設(shè)備的目標(biāo)檢測(cè)要求。
對(duì)不同模型進(jìn)行目標(biāo)檢測(cè),F(xiàn)aster R-CNN 模型、SSD 模型、YOLOv3 模型以及改進(jìn)YOLOv3 模型的目標(biāo)檢測(cè)結(jié)果如圖6 所示。結(jié)果表明,在本文制作的VOC 數(shù)據(jù)集中訓(xùn)練網(wǎng)絡(luò),選取合適的權(quán)重,改進(jìn)后的YOLOv3 模型可應(yīng)用于不同場(chǎng)景中,網(wǎng)絡(luò)的漏檢率和誤檢率顯著降低,精度明顯提高。
本文首先對(duì)現(xiàn)有的目標(biāo)檢測(cè)方法進(jìn)行理論分析,然后對(duì)Faster R-CNN 模型、SSD 模型、YOLOv3 模型和改進(jìn)模型進(jìn)行闡述,最后對(duì)4 種模型的檢測(cè)性能指標(biāo)進(jìn)行分析,并進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)YOLOv3模型在檢測(cè)速度相差不大的情況下,能夠提高鐵路接觸網(wǎng)設(shè)備的目標(biāo)檢測(cè)精度,且其中有4 類的精度達(dá)到92%以上,獲得較好的檢測(cè)效果。當(dāng)閾值為0.5時(shí),其mAP 的值相比于原有的YOLOv3 模型提升了9.38%,說(shuō)明通過(guò)引入空間金字塔模塊、加入Mosaic 圖像增強(qiáng)、用GIoU 損失函數(shù)代替IoU 損失函數(shù),有效減少了目標(biāo)檢測(cè)的漏檢和誤檢問(wèn)題,提高了檢測(cè)精度。在下一步工作中,需使用更好的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行檢測(cè),以獲得更優(yōu)的目標(biāo)檢測(cè)性能,使鐵路接觸網(wǎng)設(shè)備的目標(biāo)檢測(cè)更加快速、精準(zhǔn)。
Fig.6 Target detection results of traditional model圖6 模型部分目標(biāo)檢測(cè)結(jié)果