閔 鋒,侯澤銘+
(1.武漢工程大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205; 2.武漢工程大學(xué) 智能機(jī)器人湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430205)
隨著鐵路相關(guān)技術(shù)的快速發(fā)展,我國(guó)的鐵路總里程一躍成為世界第一。為保證鐵路系統(tǒng)的安全運(yùn)行,需要對(duì)接觸網(wǎng)上主要部件的狀態(tài)進(jìn)行檢測(cè),其中需要檢測(cè)的鐵路接觸網(wǎng)主要零部件有絕緣子、雙耳抱箍、套管雙耳、定位器底座、定位線夾、承力索底座。過(guò)去,主要依靠人工沿鐵路線通過(guò)肉眼觀察的方式來(lái)判斷零部件的狀態(tài),在4C(接觸網(wǎng)懸掛狀態(tài)檢測(cè)監(jiān)測(cè)裝置)裝置推廣應(yīng)用后,將4C裝置搭載在接觸網(wǎng)檢測(cè)車(chē)上,利用安裝在接觸網(wǎng)檢測(cè)車(chē)車(chē)頂?shù)?8個(gè)角度不同的工業(yè)相機(jī)分別對(duì)接觸網(wǎng)的不同角度拍攝高清圖片,然后依靠人工對(duì)4C裝置拍攝到的高清照片進(jìn)行觀察,從而進(jìn)一步分析部件的正常與否。但依靠人工對(duì)圖片進(jìn)行分析,不僅需要多次反復(fù)縮放圖片觀察部件,而且由于長(zhǎng)時(shí)間肉眼觀察,容易造成視覺(jué)疲勞,導(dǎo)致?lián)p壞部件的漏檢。因此需要一種準(zhǔn)確的接觸網(wǎng)主要部件的定位檢測(cè)算法替代人工縮放查看圖片。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展[1],各種目標(biāo)檢測(cè)算法不斷被提出。目前主流的目標(biāo)檢測(cè)算法主要分為兩種,一種是兩階段目標(biāo)檢測(cè)算法,如Fast RCNN[2]、Faster RCNN[3]等。這類(lèi)算法特點(diǎn)是準(zhǔn)確率較高,但是檢測(cè)速度慢。另一種是單階段目標(biāo)檢測(cè)算法,如SSD[4]、YOLOv3[5]、YOLOv4[6]等。單階段算法將目標(biāo)檢測(cè)看作是回歸問(wèn)題,算法將整張圖片作為輸入,然后直接在圖片的多個(gè)區(qū)域回歸出目標(biāo)的位置和類(lèi)別信息。相比較兩階段算法,單階段算法速度較快,但準(zhǔn)確率稍低,尤其是對(duì)于小目標(biāo),漏檢率較大。
本文針對(duì)4C裝置拍攝的鐵路接觸網(wǎng)圖像數(shù)量多,分辨率高,需要較快檢測(cè)速度的實(shí)際情況,改進(jìn)了YOLOv4-tiny算法。一方面,針對(duì)接觸網(wǎng)圖片尺寸大、冗余信息多的問(wèn)題,本文采用圖像預(yù)處理的方式裁減掉部分無(wú)用的背景信息。另一方面,通過(guò)改進(jìn)YOLOv4-tiny的主干特征提取網(wǎng)絡(luò)、特征融合層及輸出特征圖,達(dá)到一個(gè)準(zhǔn)確率高、定位準(zhǔn)確的鐵路接觸網(wǎng)目標(biāo)檢測(cè)算法。實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)的YOLOv4-tiny相比原算法,準(zhǔn)確率大大提升,與單階段最先進(jìn)的目標(biāo)檢測(cè)算法之一YOLOv4相差不到1%,在模型大小和速度方面,相比YOLOv4有著較大的提升。
4C裝置拍攝到的接觸網(wǎng)圖片尺寸為6600*4400,對(duì)于14號(hào)鏡頭得到的接觸網(wǎng)全景圖片,如圖1(a)所示,其存在大量的黑色背景,一些主要部件,如雙耳抱箍、套管雙耳等,僅有圖片的1%左右,由于圖片大,目標(biāo)小,在網(wǎng)絡(luò)前向傳播經(jīng)過(guò)池化層的時(shí)候易導(dǎo)致小目標(biāo)信息的丟失,最后致使目標(biāo)的漏檢。因此按照下列步驟,去除冗余的黑色背景,提高主要部件的相對(duì)大小[7,8],以解決小目標(biāo)漏檢率較大的問(wèn)題。
(1)縮小圖片至660*440,減少后期二值化、形態(tài)學(xué)運(yùn)算和灰度投影的計(jì)算量。
(2)同一鏡頭所拍的圖片中接觸網(wǎng)大小、角度、明暗程度基本一致,對(duì)于14號(hào)鏡頭拍攝的圖片而言,可以選擇一個(gè)合適的閾值統(tǒng)一進(jìn)行二值化。為保證接觸網(wǎng)平腕臂和斜腕臂輪廓的完整性,盡可能不引入接觸網(wǎng)支柱區(qū)域,最終選取90作為二值化閾值,二值化結(jié)果如圖1(b)所示。
(3)對(duì)二值化后的圖片進(jìn)行開(kāi)、閉運(yùn)算。開(kāi)運(yùn)算可以消除噪音干擾,去除孤立的小點(diǎn)、毛刺,而使形狀輪廓大體不變。閉運(yùn)算能夠填平前景物體內(nèi)的小裂縫、間斷和小孔,而使總的位置和形狀不變。從二值化結(jié)果圖可以看出,接觸網(wǎng)的右側(cè)是黑色背景,接觸網(wǎng)左側(cè)存在很多的類(lèi)似噪聲的區(qū)域,而上方則是輸電線。這些小區(qū)域的存在會(huì)對(duì)下一步灰度投影造成干擾影響,從而導(dǎo)致邊界位置分割不準(zhǔn)確。因此對(duì)二值化的圖片進(jìn)行一次開(kāi)、閉預(yù)算,盡可能去除這些區(qū)域。形態(tài)學(xué)處理結(jié)果如圖1(c)所示。
(4)將上一步得到的圖片進(jìn)行垂直投影和水平投影,結(jié)果如圖1(d)、圖1(e)所示。根據(jù)垂直投影圖,可以得到接觸網(wǎng)的左右邊界。根據(jù)水平投影圖,可以得到接觸網(wǎng)的下邊界。在獲取接觸網(wǎng)的上邊界時(shí),由于接觸網(wǎng)上方的輸電線存在,左上方接觸網(wǎng)支柱區(qū)域因材質(zhì)和類(lèi)型不同,形態(tài)學(xué)處理后的結(jié)果不統(tǒng)一,不能以0作為閾值截取上方邊界,本文采用接觸網(wǎng)右半部分的水平投影結(jié)果圖,以投影結(jié)果平均值的1/3作為閾值自中而上遍歷投影圖截取上邊界。在獲得上下左右邊界后,為保證截取到完整的接觸網(wǎng),在以上基礎(chǔ)上邊界擴(kuò)大30像素。
(5)根據(jù)縮放倍數(shù)和上一步得到的邊界值截取圖片,結(jié)果如圖1(f)所示。
YOLO是繼Fast RCNN和Faster RCNN兩階段檢測(cè)算法之后一種新的端到端的單階段的目標(biāo)檢測(cè)算法,其使用一個(gè)完整的卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,并在網(wǎng)絡(luò)的輸出層對(duì)目標(biāo)的位置和類(lèi)別統(tǒng)一進(jìn)行回歸預(yù)測(cè)。算法將圖片分成S*S個(gè)小網(wǎng)格,每個(gè)網(wǎng)格對(duì)于中心落在網(wǎng)格內(nèi)的目標(biāo)負(fù)責(zé)檢測(cè),最終預(yù)測(cè)出該目標(biāo)的位置和置信度。相對(duì)于兩階段目標(biāo)檢測(cè)算法,YOLO并沒(méi)有提前生成建議框,所以速度快。
YOLOv4-tiny是YOLOv4簡(jiǎn)化版,相比于之前任何簡(jiǎn)化的YOLO網(wǎng)絡(luò),YOLOv4-tiny無(wú)論是在準(zhǔn)確率和運(yùn)行速度上都有巨大的提升。其網(wǎng)絡(luò)結(jié)構(gòu)采用簡(jiǎn)化版的CSPDarknet53[9],主要由CBL結(jié)構(gòu)和CSP結(jié)構(gòu)組成,CBL層主要由卷積層、批歸一化層和激活函數(shù)層組成,在主干網(wǎng)絡(luò)中,CBL結(jié)構(gòu)主要負(fù)責(zé)提取特征圖信息和下采樣,CSP結(jié)構(gòu)將上一階段輸出的特征圖分成兩組,只用其中一組送入后續(xù)的卷積層,同時(shí)通過(guò)跨通道合并連接,進(jìn)一步增加模型的魯棒性和學(xué)習(xí)能力。簡(jiǎn)化版的YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)少,在提取圖像的特征時(shí),提取能力不足,提取的高層語(yǔ)義信息稍差。在特征融合階段,YOLOv4采用SPP[10](spatial pyramid pooling)和PAN(path aggregation network)[10]結(jié)構(gòu),對(duì)高層的語(yǔ)義信息和底層的顏色、紋理等特征進(jìn)行充分融合。相比于此,YOLOv4-tiny為了保證算法的速度,舍棄了SPP結(jié)構(gòu),使用參數(shù)量少的FPN(feature pyramid networks)[12]融合結(jié)構(gòu),最終保留YOLOv4中兩個(gè)較小的輸出特征圖,這就導(dǎo)致YOLOv4-tiny的參數(shù)量少,速度快,容易導(dǎo)致一些小目標(biāo)的漏檢和定位不準(zhǔn)確。
在YOLOv4-tiny中,算法最后輸出下采樣32倍和16倍的13*13,26*26大小的兩個(gè)特征圖,其中小的特征圖用來(lái)預(yù)測(cè)大的目標(biāo),大的特征圖下采樣倍數(shù)小,用來(lái)預(yù)測(cè)小的目標(biāo)。但由于26*26的特征圖仍是下采樣16倍的結(jié)果,對(duì)于接觸網(wǎng)中存在的一些小目標(biāo),如雙耳抱箍而言,特征圖中由于前面的多層池化和卷積,語(yǔ)義信息存在量大大減少,致使漏檢率和誤差率較大,因此本文改進(jìn)YOLOv4-tiny的輸出,在此基礎(chǔ)上,增加一個(gè)下采樣為8倍的52*52的輸出特征圖,以此改進(jìn)原算法對(duì)于接觸網(wǎng)中的小目標(biāo)漏檢誤差大的情況。
SPP即為空間金字塔池化,算法最初提出是為了解決CNN輸入圖片大小固定的問(wèn)題,從而避免圖片的放大縮小及裁剪變形問(wèn)題。SPP通過(guò)不同尺度的最大池化,可以增大感受野,獲得圖片的不同尺度的特征,可以提升模型對(duì)于空間布局和物體變形的魯棒性,提高后期檢測(cè)的準(zhǔn)確率。在主干網(wǎng)絡(luò)的最后,分別用1*1、5*5、9*9和13*13這4個(gè)尺度的最大池化核對(duì)主干網(wǎng)絡(luò)輸出的特征圖進(jìn)行池化,然后將池化特征圖在通道維度拼接并經(jīng)過(guò)1*1卷積降維、特征融合后,再送入后續(xù)結(jié)構(gòu)。加入SPP結(jié)構(gòu)可以獲得接觸網(wǎng)不同大小部件的特征,避免小目標(biāo)信息的丟失,提高小部件的檢測(cè)準(zhǔn)確率。
在目標(biāo)檢測(cè)算法中,Neck部分最主要的作用是融合不同特征圖的信息,最常用的就是FPN[13]。而YOLOv4-tiny4采用的就是FPN結(jié)構(gòu),F(xiàn)PN是自上而下逐步上采樣并與下層的特征圖進(jìn)行相加融合,與FPN結(jié)構(gòu)相比,PAN在上采樣之后并不是輸出相應(yīng)的特征圖,而是又增加了一步下采樣操作與高層的特征圖再次融合,這樣通過(guò)上采樣和下采樣及兩步特征融合,可以使不同尺度的特征融合更充分,使得網(wǎng)絡(luò)模型更有表達(dá)力。
通過(guò)增加第3個(gè)尺度輸出,可以減少小目標(biāo)信息丟失,降低定位不準(zhǔn)確,漏檢問(wèn)題[13,14]。通過(guò)增加SPP和PAN結(jié)構(gòu),提高低層的位置、形狀等信息和高層語(yǔ)義信息之間的融合,可以使不同尺度的特征和不同層次的特征充分進(jìn)行融合,提高模型的準(zhǔn)確率、魯棒性。與YOLOv4中的SPP和PAN結(jié)構(gòu)不同的是,此處的SPP和PAN在卷積層通道數(shù)目上進(jìn)行壓縮,僅為前者的一半,盡可能降低結(jié)構(gòu)的參數(shù)量。改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
簡(jiǎn)化版的CSPDarknet53主要由卷積層和池化層組成,與融入了殘差結(jié)構(gòu)和CSPNet[15]思想的CSPDarknet53相比,簡(jiǎn)化版的CSPDarknet53沒(méi)有采用shortcut連接,而是使用了跨層的Concat操作替代原來(lái)的shortcut連接,同時(shí)舍棄計(jì)算量較大的Mish激活函數(shù),使用計(jì)算量較小的Leaky Relu。在網(wǎng)絡(luò)的深度上,前者38層,后者包含了162層。因此YOLOv4-tiny不需要占用大量的內(nèi)存,計(jì)算速度快,對(duì)硬件的要求低。但由于網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,深度不足,對(duì)輸入圖像的特征無(wú)法充分提取,致使其準(zhǔn)確率低。
在CSPDarknet53網(wǎng)絡(luò)結(jié)構(gòu)中,所有的卷積大小都為3*3,隨著網(wǎng)絡(luò)層數(shù)的增加,其提取到的特征越來(lái)越抽象,特征圖中的每個(gè)位置對(duì)應(yīng)的感受野也越來(lái)越大。為了避免一些小目標(biāo)的特征隨著感受野的增大而降低在特征圖上的占比和丟失問(wèn)題,本文將堆疊的殘差結(jié)構(gòu)中的3*3卷積改進(jìn)為并列的卷積核分別為1*1,3*3和5*5這3個(gè)卷積,同時(shí)保留原結(jié)構(gòu)中的Concat連接。3*3和5*5可進(jìn)一步提取輸入圖像中較大目標(biāo)的高級(jí)語(yǔ)義特征。1*1的卷積可以解決小目標(biāo)信息在特征圖上的丟失減少問(wèn)題,同時(shí)實(shí)現(xiàn)信息的跨通道融合,提取更高的語(yǔ)義信息,通過(guò)Concat連接,可以進(jìn)一步融合上一層特征,同時(shí)又可以提高小目標(biāo)在特征圖上的占比。由于5*5卷積和兩個(gè)3*3卷積的感受野相同,但參數(shù)量大,導(dǎo)致運(yùn)算速度慢,本文將5*5卷積改進(jìn)為兩個(gè)連續(xù)的3*3卷積,通過(guò)此連續(xù)結(jié)構(gòu),既能夠保證感受野范圍不減小,同時(shí)又減少了參數(shù)量,改進(jìn)的結(jié)構(gòu)如圖3所示。
本文改進(jìn)的算法損失主要分為3個(gè)部分:置信度損失、分類(lèi)損失和位置損失。其置信度損失和分類(lèi)損失采用二元交叉熵?fù)p失,位置損失采用CIoU 損失。
其置信度損失如式(1)所示
(1)
分類(lèi)損失如式(2)所示
(2)
位置損失如式(3)~式(5)所示
(3)
(4)
(5)
其中,RIoU是真實(shí)框和預(yù)測(cè)框的交并比,b和bgt代表預(yù)測(cè)框和真實(shí)框的中心點(diǎn),p代表歐氏距離,C為同時(shí)可以覆蓋真實(shí)框和預(yù)測(cè)框的最小包圍框的對(duì)角線長(zhǎng)度,w和h是預(yù)測(cè)框的寬高,wgt和hgt是真實(shí)框的寬高。
針對(duì)目前國(guó)內(nèi)沒(méi)有公開(kāi)的鐵路接觸網(wǎng)數(shù)據(jù)集,本文選取了1387張4C裝置的14號(hào)相機(jī)拍攝的鐵路接觸網(wǎng)全景圖片。在經(jīng)過(guò)1.1節(jié)的預(yù)處理之后,使用LABELIMG程序?qū)χ饕考M(jìn)行畫(huà)框標(biāo)記,制作VOC格式數(shù)據(jù)集。在畫(huà)框標(biāo)記時(shí),為了避免中文標(biāo)簽,我們將圖4中主要部件的中文名稱(chēng)轉(zhuǎn)變?yōu)橛⑽男问降臉?biāo)簽,對(duì)應(yīng)關(guān)系分別如下:平腕臂絕緣子(JYZ1)、平腕臂雙耳抱箍(SEBG1)、承力索底座(CLSDZ)、斜腕臂絕緣子(JYZ2)、斜腕臂雙耳抱箍(SEBG2)、斜腕臂套管雙耳(TGSE1)、定位器底座(DWQDZ)、定位線夾(DWXJ)、定位區(qū)域套管雙耳(TGSE2)。
為了驗(yàn)證算法的魯棒性,本文采用225張5號(hào)相機(jī),225張6號(hào)相機(jī),225張8號(hào)相機(jī)和325張14號(hào)相機(jī)拍攝得到的總計(jì)1000張鐵路接觸網(wǎng)圖片經(jīng)過(guò)預(yù)處理后作為測(cè)試集,在測(cè)試時(shí),為了加以區(qū)分,對(duì)不同部件用不同顏色的框進(jìn)行識(shí)別標(biāo)記,并在框的左上角給出部件的標(biāo)簽名稱(chēng)。
對(duì)于5號(hào)、6號(hào)相機(jī)分別拍攝的是接觸網(wǎng)平腕臂區(qū)域和斜腕臂區(qū)域,角度差異小,且存在更多的冗余背景信息,采用預(yù)處理方式會(huì)進(jìn)一步增加預(yù)處理時(shí)長(zhǎng),因此經(jīng)過(guò)統(tǒng)計(jì)分析,采用直接切除的方式裁減掉多余區(qū)域,以提高部件的相對(duì)大小。
8號(hào)相機(jī)拍攝的是接觸網(wǎng)支撐區(qū)域、定位區(qū)域,14號(hào)相機(jī)拍攝的是接觸網(wǎng)全景區(qū)域,二者都是在接觸網(wǎng)的上方、下方和右側(cè)存在一定的黑色背景,因此采用1.1節(jié)的預(yù)處理方式裁去多余背景信息,以提高部件的相對(duì)大小。其中8號(hào)相機(jī)拍攝的圖片二值化閾值為80。預(yù)處理結(jié)果如圖5所示。
實(shí)驗(yàn)平臺(tái)如下:操作系統(tǒng)Ubuntu 18.04,深度學(xué)習(xí)框架pytorch 1.2,CPU為i9-9900K,內(nèi)存為32 GB,GPU為NVIDIA GeForce 2080S,顯存為8 G,CUDA 10.0,cuDNN 7.6.5。
k-Means算法的評(píng)價(jià)標(biāo)準(zhǔn)是聚類(lèi)簇中心與真實(shí)框的平均交并比,平均交并比越高,表明聚類(lèi)的效果越好,為了使算法在先驗(yàn)框回歸時(shí)達(dá)到最高的準(zhǔn)確率,在訓(xùn)練開(kāi)始前,使用k-Means算法針對(duì)此數(shù)據(jù)集重新聚類(lèi)生成9個(gè)先驗(yàn)框,以對(duì)應(yīng)輸出的3個(gè)特征圖。通過(guò)在此數(shù)據(jù)集上進(jìn)行維度聚類(lèi),相比于人為預(yù)設(shè)的先驗(yàn)框,可以得到最為理想的先驗(yàn)框,使模型在訓(xùn)練時(shí)更加容易產(chǎn)生準(zhǔn)確的預(yù)測(cè)框。其先驗(yàn)框分為[15,33],[19,39],[23,46],[29,36],[32,50],[63,54],[68,90],[68,67],[74,109]。
為了使模型泛化性能和魯棒性更好,算法對(duì)歸一化的圖像做實(shí)時(shí)數(shù)據(jù)增強(qiáng)的隨機(jī)預(yù)處理,包括隨機(jī)改變圖片大小、隨機(jī)翻轉(zhuǎn)、改變圖片亮度等,同時(shí),算法采用了Mosaic數(shù)據(jù)增強(qiáng)。Mosaic數(shù)據(jù)增強(qiáng)是在訓(xùn)練時(shí)隨機(jī)讀取4張圖片,然后進(jìn)行旋轉(zhuǎn)和翻轉(zhuǎn)等操作,最后將這4張圖片按照一定比例組合成一張圖片,通過(guò)此數(shù)據(jù)增強(qiáng),可以降低模型對(duì)于目標(biāo)出現(xiàn)位置的依賴(lài)性,進(jìn)一步提高模型的泛化能力,提高模型對(duì)目標(biāo)位置隨機(jī)性的適應(yīng)能力。
設(shè)置訓(xùn)練的初始學(xué)習(xí)率為0.001,迭代次數(shù)為300,批次大小為16,優(yōu)化器選擇自適應(yīng)學(xué)習(xí)率參數(shù)更新算法(Adam),每次更新后的學(xué)習(xí)率衰減值設(shè)為0.0005,為了加快網(wǎng)絡(luò)的訓(xùn)練速度,減少訓(xùn)練時(shí)長(zhǎng),在前150個(gè)epoch,本文采取對(duì)特征提取主干網(wǎng)絡(luò)的參數(shù)進(jìn)行凍結(jié)的訓(xùn)練方式,之后解凍參數(shù)訓(xùn)練至結(jié)束。訓(xùn)練損失曲線如圖6所示。
本文改進(jìn)了YOLOv4-tiny,為了驗(yàn)證改進(jìn)算法的效果,對(duì)改進(jìn)后的算法與單階段目標(biāo)檢測(cè)算法YOLOv4、YOLOv4-tiny和兩階段經(jīng)典目標(biāo)檢測(cè)算法Faster RCNN作對(duì)比實(shí)驗(yàn)。單階段算法和兩階段算法統(tǒng)一采用416*416的輸入大小。在目標(biāo)檢測(cè)算法中,為了定量分析改進(jìn)網(wǎng)絡(luò)的性能,本文采用平均檢測(cè)精確度(mAP),模型大小,單張檢測(cè)時(shí)間3個(gè)指標(biāo)進(jìn)行分析。結(jié)果見(jiàn)表1。為了體現(xiàn)本文算法在小部件上檢測(cè)上的優(yōu)勢(shì),對(duì)于圖中的雙耳抱箍、套管雙耳等小部件,單獨(dú)采用單類(lèi)平均檢測(cè)精確度(AP)進(jìn)行分析,其結(jié)果見(jiàn)表2。
表1 實(shí)驗(yàn)結(jié)果對(duì)比
從表1可以看出,對(duì)比原算法YOLOv4-tiny,雖然速度有所下降,但改進(jìn)的算法在準(zhǔn)確率上提高了32.11%。由表2可以看出,針對(duì)接觸網(wǎng)中的小部件,如雙耳抱箍和套管雙耳等小部件,其平均精確度大大提高,小目標(biāo)漏檢、定位不準(zhǔn)確的問(wèn)題得到改善,同時(shí)雙耳抱箍的檢測(cè)精確度超過(guò)YOLOv4。
表2 小部件結(jié)果對(duì)比
從表1可以看出,本文改進(jìn)的YOLOv4-tiny準(zhǔn)確率是96.56%,單張檢測(cè)時(shí)間是0.006 s,模型大小為52 M。YOLOv4的準(zhǔn)確率是97.06%,單張檢測(cè)時(shí)間為0.012 s,模型大小為256 M。雖然改進(jìn)的模型大小和速度較原算法略有下降,但是在準(zhǔn)確率取得了大幅度提升。在模型的準(zhǔn)確率上,本文改進(jìn)的算法與單階段最先進(jìn)的算法之一YOLOv4相差不到1%,而在模型大小和運(yùn)算速度上,都遠(yuǎn)遠(yuǎn)優(yōu)于YOLOv4算法。相比較于兩階段目標(biāo)檢測(cè)算法Faster RCNN,本文改進(jìn)的算法在準(zhǔn)確率上高出9.75%,模型大小不到前者的1/2,在單張檢測(cè)時(shí)間上不到前者的1/4。
綜合以上實(shí)驗(yàn)結(jié)果可以看出,本文改進(jìn)的算法不僅準(zhǔn)確率相比原算法大大提高,而且和YOLOv4相差不到1%,同時(shí)在模型大小和檢測(cè)速度上都優(yōu)于YOLOv4,降低了硬件需求,基本滿(mǎn)足實(shí)際運(yùn)用中的高精度,高速度和低硬件成本的條件,為算法運(yùn)用到實(shí)際提供了可能。
本算法僅僅在14號(hào)相機(jī)拍攝的鐵路網(wǎng)全景圖片上進(jìn)行訓(xùn)練,但仍然可以檢測(cè)出存在一定角度偏差的其它相機(jī)拍攝的接觸網(wǎng)圖片中的主要部件,部分實(shí)驗(yàn)結(jié)果如圖7所示,從實(shí)驗(yàn)結(jié)果圖可以看出,本文改進(jìn)的算法不僅可以準(zhǔn)確檢測(cè)出各個(gè)主要部件,并且有著相當(dāng)高的置信度,對(duì)于8號(hào)相機(jī)拍攝的圖片而言,存在不完整的絕緣子部件,本算法依然可以檢測(cè)。由此可以看出,在特征融合層通過(guò)高層的語(yǔ)義信息和低層的顏色、形狀和紋理信息的融合,模型可以學(xué)習(xí)到部件的高級(jí)語(yǔ)義信息,不僅可以精確定位主要部件,而且對(duì)一些不完整的部件也可以識(shí)別檢測(cè)。因此,本文改進(jìn)的算法可以做到一個(gè)角度的圖片訓(xùn)練,多個(gè)角度的圖片檢測(cè)識(shí)別,節(jié)約訓(xùn)練時(shí)長(zhǎng),同時(shí)又滿(mǎn)足算法的魯棒性要求。
測(cè)試圖片在送入模型檢測(cè)之前,還需要一定的預(yù)處理,相比較于模型在檢測(cè)時(shí)用GPU加速而言,預(yù)處理是在CPU上計(jì)算,因此速度較慢。經(jīng)過(guò)計(jì)算,測(cè)試集的1000張圖片的預(yù)處理總時(shí)長(zhǎng)為489 s,平均每張圖片耗時(shí)0.48 s,因此在實(shí)際應(yīng)用中,每張圖片所需的平均時(shí)間為0.5 s左右,對(duì)比傳統(tǒng)的人工手動(dòng)縮放查看高清圖片中部件的狀態(tài),本實(shí)驗(yàn)可以精確定位出鐵路接觸網(wǎng)主要部件,避免了人工縮放操作,為后序分析各主要部件的狀態(tài)打下基礎(chǔ),同時(shí)又基本滿(mǎn)足了鐵路接觸網(wǎng)檢測(cè)的速度快,準(zhǔn)確率高的要求。
綜上所述,本文結(jié)合YOLOv4-tiny算法,利用圖像預(yù)處理縮小圖片尺寸,提高小部件在圖中的占比和相對(duì)大小,避免網(wǎng)絡(luò)前向傳播時(shí)的信息丟失,增加輸出特征圖和改進(jìn)主干特征提取網(wǎng)絡(luò)結(jié)構(gòu),以促進(jìn)網(wǎng)絡(luò)低層和高層信息之間的融合。實(shí)驗(yàn)結(jié)果表明本文方法有效解決了原算法中目標(biāo)漏檢、定位不準(zhǔn)確的問(wèn)題,基本滿(mǎn)足接觸網(wǎng)檢測(cè)的高精度、快速度的要求,且模型大小滿(mǎn)足實(shí)際部署的硬件條件,同時(shí)模型具有較高的魯棒性和泛化性。在接下來(lái)的研究工作中,將對(duì)定位檢測(cè)到的各個(gè)部件進(jìn)行缺陷識(shí)別研究。