王紀(jì)武, 羅海保, 魚鵬飛, 劉亞凡
(北京交通大學(xué) 機(jī)械與電子控制工程學(xué)院, 北京 100044)
近年來,隨著我國高速鐵路線路的不斷擴(kuò)展,鐵路接觸網(wǎng)上由鳥害引起的事故也更加頻繁[1-2]。鳥類經(jīng)常在接觸網(wǎng)上筑巢,因排便造成絕緣子閃絡(luò);一些體積較大的鳥類在輸電線路間穿行飛越,造成輸電線接地或者相間短路等故障對(duì)鐵路系統(tǒng)的正常運(yùn)行造成了嚴(yán)重困擾。因此,為了保證鐵路系統(tǒng)的正常運(yùn)行,需要及時(shí)發(fā)現(xiàn)已有的鳥巢并將其清除,而目前主要還是依靠人工巡檢的方式進(jìn)行作業(yè),這種方式不但浪費(fèi)人力財(cái)力,最主要的是不能及時(shí)排除潛在的安全隱患。因此需要實(shí)現(xiàn)鐵路接觸網(wǎng)的智能化巡檢。然而對(duì)于鳥巢這種邊緣不規(guī)則、體積較小和顏色特征不穩(wěn)定的異物,利用傳統(tǒng)圖像檢測技術(shù)很難實(shí)現(xiàn)目標(biāo)的準(zhǔn)確檢測。近幾年,有研究者也對(duì)鐵路接觸網(wǎng)上鳥巢的檢測有了初步研究。段旺旺等人[3]提出采用局部動(dòng)態(tài)閾值二值化和張細(xì)化算法等傳統(tǒng)圖像處理方法粗略得到疑似鳥巢的關(guān)鍵區(qū)域,然后提取HOG特征,再通過SVM分類器進(jìn)行精確提取,自動(dòng)甄別出鳥巢區(qū)域。然而,傳統(tǒng)圖像檢測技術(shù)對(duì)于光照、遮擋等自然環(huán)境變化的場景性能很不穩(wěn)定,很容易出現(xiàn)誤檢和漏檢的情況發(fā)生。
針對(duì)傳統(tǒng)圖像檢測技術(shù)在鳥巢這種小目標(biāo)檢測上的缺陷,文中提出一種基于Faster R-CNN[4]算法的鐵路接觸網(wǎng)鳥巢檢測方法,通過優(yōu)化目標(biāo)特征提取網(wǎng)絡(luò)、RPN建議區(qū)域提取網(wǎng)絡(luò)以及目標(biāo)子檢測網(wǎng)絡(luò)整個(gè)環(huán)節(jié),實(shí)現(xiàn)了鐵路接觸網(wǎng)上鳥巢的快速準(zhǔn)確檢測。該方法為鐵路接觸上鳥巢的自動(dòng)準(zhǔn)確檢測提供了可靠的依據(jù)。
目標(biāo)特征的準(zhǔn)確提取是圖像目標(biāo)檢測的關(guān)鍵步驟。當(dāng)圖像中待檢測目標(biāo)特征明顯異于其他圖像背景時(shí),利用傳統(tǒng)的手工特征,如幾何特征和顏色特征等就可以獲得不錯(cuò)的檢測效果。但是當(dāng)圖像中鳥巢與復(fù)雜的背景內(nèi)容疊加在一起或受到拍照距離、光照和遮擋等復(fù)雜因素的影響時(shí),使得鳥巢自身的潛在特征具有不穩(wěn)定性,這些干擾因素使得僅依靠傳統(tǒng)的手工特征提取技術(shù)很難準(zhǔn)確實(shí)現(xiàn)接觸網(wǎng)上鳥巢的檢測需求。而卷積神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的抗環(huán)境干擾能力,善于挖掘圖像目標(biāo)數(shù)據(jù)的局部特征,并可以利用自身特有的局部連接和權(quán)重共享方法大幅減少要學(xué)習(xí)的參數(shù)數(shù)目,能有效提高網(wǎng)絡(luò)的訓(xùn)練和檢測速度。通過改進(jìn)VGG16[5]網(wǎng)絡(luò)來完成對(duì)接觸網(wǎng)上鳥巢的特征提取。相比AlexNet[6],GoogLeNet[7]等特征提取網(wǎng)絡(luò),VGG16網(wǎng)絡(luò)結(jié)構(gòu)非常簡單。然而由于網(wǎng)絡(luò)較深,采用常規(guī)的歸一化處理不易收斂。因此提出利用目前收斂效果最優(yōu)的批歸一化層[8](Batch Normalization,BN)對(duì)每一層卷積結(jié)果進(jìn)行處理。
Batch Normalizaion網(wǎng)絡(luò)層的計(jì)算過程如下所示:
首先計(jì)算一個(gè)batch的均值和方差如式(1)。
(1)
之后對(duì)輸入數(shù)據(jù)進(jìn)行均值為0,標(biāo)準(zhǔn)差為1的歸一化處理如式(2)。
(2)
式中,ε是極小的數(shù),為了避免分母為0。
最后對(duì)數(shù)據(jù)進(jìn)行變換重構(gòu)如式(3)。
(3)
式中,γ和β是需要網(wǎng)絡(luò)學(xué)習(xí)的參數(shù)。
采用改進(jìn)后的VGG16網(wǎng)絡(luò)對(duì)鐵路接觸網(wǎng)上的鳥巢特征進(jìn)行特征可視化操作。為方便起見,如圖1所示,這里僅選取Conv1卷積層和Conv5卷積層某一維放大特征圖進(jìn)行顯示。
圖1 VGG16模型特征圖
如圖1(a)所示,Conv1卷積層主要負(fù)責(zé)提取圖像目標(biāo)的低層特征,如接觸網(wǎng)和鳥巢的邊緣信息等。隨著網(wǎng)絡(luò)層數(shù)的加深,可以提取到有關(guān)圖像目標(biāo)的更高層特征,如鳥巢的紋理特征等。當(dāng)進(jìn)行到Conv5卷積層時(shí),如圖1(b)所示,網(wǎng)絡(luò)已經(jīng)學(xué)習(xí)到了具有顯著區(qū)分性的鳥巢完整特征(白色像素點(diǎn)即為圖中鳥巢位置)。
由于鐵路接觸網(wǎng)上的鳥巢檢測屬于小目標(biāo)檢測問題,為了實(shí)現(xiàn)快速準(zhǔn)確的檢測效果,文中在Faster R-CNN算法的基礎(chǔ)上提出一種改進(jìn)算法,其網(wǎng)絡(luò)整體結(jié)構(gòu)如圖2所示。
文中算法與Faster R-CNN算法的主要區(qū)別如下:
(1)首先對(duì)提取目標(biāo)初始建議區(qū)域的RPN網(wǎng)絡(luò)進(jìn)行了改進(jìn)。根據(jù)待檢測目標(biāo)自身的幾何特征和在整張圖像中的占比,采用3×3的滑動(dòng)窗口分別在卷積特征層Conv3、Conv4和Conv5上基于3種比例(1∶1,1∶2,2∶1)產(chǎn)生3種候選框。不僅可以提取到更高質(zhì)量的初始建議區(qū)域,同時(shí)加快了網(wǎng)絡(luò)的訓(xùn)練和檢測速度。
(2)由于Faster R-CNN在最后一層卷積特征圖上進(jìn)行初始建議區(qū)域的特征映射,然而,該層卷積特征圖分辨率相對(duì)較低,從而導(dǎo)致原始圖像中小目標(biāo)信息的丟失。先采用改進(jìn)后的VGG16網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)的特征提取,然后選擇合適深度且分辨率較高的Conv4卷積特征圖作為建議窗口的特征映射層,并增加一個(gè)反卷積操作進(jìn)一步對(duì)該層特征圖的分辨率進(jìn)行提升。接著進(jìn)行候選建議區(qū)域的ROI Pooling操作。
同時(shí)為了減少網(wǎng)絡(luò)訓(xùn)練參數(shù),加快網(wǎng)絡(luò)檢測速度,檢測子網(wǎng)絡(luò)采用平均池化方式替代全連接方式實(shí)現(xiàn)目標(biāo)的類別判斷和邊界框回歸。
圖2 目標(biāo)檢測網(wǎng)絡(luò)整體框架
優(yōu)化的RPN結(jié)構(gòu)如圖3所示,為了更準(zhǔn)確的提取目標(biāo)的建議區(qū)域,尤其是小目標(biāo)物體,文中參考RPN網(wǎng)絡(luò)的anchor原理,采用3×3的滑動(dòng)窗口分別在卷積特征圖Conv3、Conv4和Conv5上基于3種比例(1∶1,1∶2,2∶1)產(chǎn)生3種候選框,將每個(gè)候選框在輸入圖像中對(duì)應(yīng)的映射區(qū)域作為初始建議區(qū)域。其中對(duì)于Conv3而言,該層卷積特征圖分辨率相對(duì)較高,圖像原始信息保留比較完整,相比之后的卷積層對(duì)小目標(biāo)的響應(yīng)更強(qiáng),主要用于對(duì)輸入圖像中的小目標(biāo)提取建議區(qū)域,為了兼顧檢測速度的要求,該卷積特征圖上設(shè)置滑動(dòng)窗口的步長為2;對(duì)于Conv4,主要針對(duì)一般大小的目標(biāo)物體,設(shè)置該層對(duì)應(yīng)的滑動(dòng)窗口的步長為1。而對(duì)于Conv5,則用于超大目標(biāo)的檢測,滑動(dòng)窗口步長也設(shè)置為1。最終試驗(yàn)結(jié)果表明,采用優(yōu)化后RPN網(wǎng)絡(luò)對(duì)于鐵路接觸上鳥巢的檢測有更高的召回率。
圖3 優(yōu)化的RPN結(jié)構(gòu)
為了訓(xùn)練優(yōu)化后的RPN網(wǎng)絡(luò),需要對(duì)每個(gè)初始建議區(qū)域進(jìn)行樣本標(biāo)注。當(dāng)某個(gè)初始建議區(qū)域與某個(gè)真實(shí)目標(biāo)框有最大交并比(Intersection-over-Union,IoU),或者與任意一個(gè)真實(shí)目標(biāo)框的IoU>0.6時(shí),將該初始建議區(qū)域標(biāo)定為正樣本;當(dāng)初始建議區(qū)域與所有真實(shí)標(biāo)注框的IoU均小于0.3時(shí),將該初始建議區(qū)域標(biāo)定為負(fù)樣本;未被標(biāo)記的初始建議區(qū)域在訓(xùn)練過程中不會(huì)對(duì)最終檢測結(jié)果造成影響。優(yōu)化的RPN網(wǎng)絡(luò)總損失函數(shù)參考Faster R-CNN文中的計(jì)算方法。由于初始建議窗口的選取來自不同卷積層,其計(jì)算方法相比RPN略有差異,具體計(jì)算方法如式(4)所示。
(4)
式中,N表示參與初始建議區(qū)域的卷積層數(shù)目,N=3;wn表示對(duì)應(yīng)每一個(gè)卷積層的樣本權(quán)重;Sn為對(duì)應(yīng)每一個(gè)卷積層提取的樣本集合。
則對(duì)應(yīng)整個(gè)檢測網(wǎng)絡(luò)的損失函數(shù)如式(5)所示。
(5)
整個(gè)目標(biāo)檢測網(wǎng)絡(luò)利用反向傳播和隨機(jī)梯度下降法進(jìn)行端到端的訓(xùn)練。
對(duì)于一張分辨率為1 000×600的輸入圖像,采用優(yōu)化的RPN方法進(jìn)行建議區(qū)域提取后,得到大約16 000個(gè)初始建議區(qū)域。將超出輸入圖像邊界的建議區(qū)域過濾后剩下大約12 000個(gè)。然而,這些建議區(qū)域之間會(huì)存在大量的重疊,會(huì)嚴(yán)重影響訓(xùn)練和測試速度。因此,基于初始建議區(qū)域的得分高低,采用非極大值抑制(Non-Maximum Suppression,NMS)的方法對(duì)其數(shù)量進(jìn)行精選。在進(jìn)行非極大值抑制時(shí),設(shè)置IoU的閾值為0.6,從而每張圖像大約只剩下1 500個(gè)建議區(qū)域。隨后,從剩余的1 500個(gè)建議區(qū)域中挑選出得分最高的150個(gè)作為最終的建議區(qū)域,并將其進(jìn)行ROI pooling后送入目標(biāo)檢測子網(wǎng)絡(luò)中。
以實(shí)際高速鐵路行進(jìn)中拍攝的含有鳥巢的圖像為試驗(yàn)數(shù)據(jù)樣本庫,進(jìn)行文中算法的試驗(yàn)驗(yàn)證。為了豐富圖像訓(xùn)練集,提高模型的泛化能力。使用圖像增強(qiáng)技術(shù)(圖像翻轉(zhuǎn)、旋轉(zhuǎn)、增加對(duì)比度和高斯噪聲等)對(duì)圖像樣本庫進(jìn)行擴(kuò)充。該樣本庫中不僅包含簡單背景下的圖像,還包括目標(biāo)受光照、遮擋、霧霾等嚴(yán)重干擾的圖像。然后,將圖像樣本的尺寸統(tǒng)一縮放至1 000×600,并對(duì)圖像中接觸網(wǎng)上鳥巢的位置和標(biāo)簽進(jìn)行標(biāo)注,使其符合Pascal VOC的標(biāo)準(zhǔn)數(shù)據(jù)集格式。最后將樣本庫中的圖像按照3∶1的比例分為兩組,訓(xùn)練集為6 000張;測試集為2 000張。
在構(gòu)建的鳥巢測試集上,針對(duì)優(yōu)化后RPN建議區(qū)域方法與Faster R-CNN中RPN建議區(qū)域方法進(jìn)行測試對(duì)比,將不同IoU閾值下對(duì)鳥巢的召回率作為評(píng)估準(zhǔn)則。由圖4可知,當(dāng)閾值被設(shè)為0.5時(shí),文中方法和RPN方法都具有很高的召回率;當(dāng)被設(shè)定閾值超過0.7 時(shí),優(yōu)化后RPN網(wǎng)絡(luò)依然有較理想的召回率,而RPN對(duì)應(yīng)的召回率發(fā)生驟減。從而表明優(yōu)化后RPN方法相比RPN方法可以提取到更加精確的建議窗口,其主要原因有兩方面:一是RPN網(wǎng)絡(luò)中待檢測的物體尺寸變化范圍較大,導(dǎo)致產(chǎn)生大量無用的建議框;二是RPN網(wǎng)絡(luò)只在最后一層卷積特征圖上提取建議區(qū)域,由于該層對(duì)應(yīng)特征圖的分辨率較低,對(duì)小目標(biāo)的檢測能力有限。而文中針對(duì)目標(biāo)自身尺度的分布在不同卷積特征圖上設(shè)計(jì)了不同比例的滑動(dòng)窗口,因此提取的建議區(qū)域精度更高。
圖4 不同IoU閾值下召回率的對(duì)比
表1 測試集上的鳥巢檢測結(jié)果對(duì)比
表1比較了文中算法與Faster R-CNN算法在相同鳥巢數(shù)據(jù)集上的表現(xiàn)。相比于Faster R-CNN,算法在鳥巢檢測上的檢測精度有10.2%的提升,誤檢概率降低了一半左右,驗(yàn)證了文中算法在鳥巢這樣的小目標(biāo)檢測上的顯著優(yōu)勢。同時(shí),文中方法在檢測速度上,也明顯快于Faster R-CNN算法。圖5展示了文中方法在部分測試集上的鳥巢檢測結(jié)果。
圖5 部分鳥巢樣本檢測結(jié)果
表2 網(wǎng)絡(luò)模型分解實(shí)驗(yàn)結(jié)果對(duì)比
為了進(jìn)一步驗(yàn)證文中方法的檢測性能,在接觸網(wǎng)鳥巢數(shù)據(jù)集上進(jìn)行網(wǎng)絡(luò)模型分解試驗(yàn),具體分析了文中提出的多種網(wǎng)絡(luò)優(yōu)化方法對(duì)檢測結(jié)果的影響。從表2的網(wǎng)絡(luò)模型分解試驗(yàn)結(jié)果可以看出,若不使用文中優(yōu)化的RPN來提取初始建議區(qū)域,鳥巢檢測精度將下降3.2%;使用改進(jìn)的VGG16網(wǎng)絡(luò)能夠?qū)ⅧB巢檢測精度提升5.1%;最后使用反卷積操作可以將鳥巢檢測精度提升1.9%。
提出了一種基于Faster R-CNN的鐵路接觸網(wǎng)鳥巢檢測方法。最終通過試驗(yàn)驗(yàn)證表明,該方法基本可以實(shí)現(xiàn)鐵路接觸網(wǎng)上鳥巢的快速精確檢測,并且檢測精度明顯高于Faster R-CNN算法,檢測速度也提升了近一倍。