胡行濤 劉大明 虞發(fā)桐
(上海電力大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 上海 201300)
隨著高鐵建設(shè)的新發(fā)展,中國(guó)鐵路正逐步上升為國(guó)家的標(biāo)志和形象。做好路軌安全管理是中國(guó)鐵路發(fā)展的基礎(chǔ)工作,為此鐵路安全研究也成為社會(huì)熱點(diǎn)。異物侵限是指落石、行人、牲畜等鐵路異物,因外力作用或誤入鐵路限界,對(duì)鐵路軌道或運(yùn)行列車造成安全隱患的行為。傳統(tǒng)的鐵路入侵異物檢測(cè)算法[1-4]存在實(shí)時(shí)性差、檢測(cè)精確率低等缺點(diǎn),因此基于卷積神經(jīng)網(wǎng)絡(luò)的鐵路軌道入侵異物檢測(cè)成為當(dāng)下人工智能領(lǐng)域研究的重點(diǎn)問(wèn)題,在國(guó)內(nèi)外很多學(xué)者不斷改進(jìn)創(chuàng)新中已經(jīng)獲得了較好的研究成果[5-7],由于卷積神經(jīng)網(wǎng)絡(luò)的局限性,入侵異物的檢測(cè)精確率仍然很低。
針對(duì)此問(wèn)題,本文提出一種基于FCN不確定性特征的鐵路軌道入侵異物檢測(cè),由于不確定性是任何檢測(cè)系統(tǒng)的一個(gè)自然屬性,因此在網(wǎng)絡(luò)模型中引入FCN不確定性特征至關(guān)重要,合理的概論解釋可以為物體預(yù)測(cè)提供關(guān)系置信度,并使檢測(cè)系統(tǒng)更加穩(wěn)健[8]。因此FCN不確定性特征的引入提高了檢測(cè)系統(tǒng)的穩(wěn)定性和準(zhǔn)確性。因此本文在具體的卷積層中引入一個(gè)修改后的Dropout(R-Dropout)來(lái)構(gòu)造不確定性卷積特征。而為了減少卷積過(guò)程中引起的圖像偽影現(xiàn)象,本文提出一種新的混合下采樣方法,可以有效解決偽影現(xiàn)象。本文的突出優(yōu)點(diǎn)有:
(1) 與現(xiàn)有的檢測(cè)方法不同,本文的網(wǎng)絡(luò)模型十分簡(jiǎn)單。它由一個(gè)編碼器FCN、一個(gè)解碼器FCN、一個(gè)像素級(jí)的分類器組成。編碼器FCN從原始圖像中分層學(xué)習(xí)視覺(jué)特征,而解碼器FCN逐步將編碼特征通過(guò)上采樣映射到像素級(jí)分類的圖像大小。
(2) 網(wǎng)絡(luò)模型中引入了不確定性卷積特征來(lái)實(shí)現(xiàn)更準(zhǔn)確的入侵異物檢測(cè)。主要是通過(guò)在特定的卷積層中引入一個(gè)修改后的Dropout(R-Dropout)來(lái)構(gòu)造不確定性卷積特征,不需要額外的參數(shù)就可以構(gòu)建不確定性卷積特征。
(3) 提出一種新的上采樣算法來(lái)減少卷積過(guò)程中產(chǎn)生的圖像偽影現(xiàn)象。新的上采樣方法有兩個(gè)明顯的優(yōu)勢(shì):它可以從提取卷積特征中分離出上采樣操作從而生成更高分辨率的特征映射;它與常規(guī)反卷積兼容。
(4) 不確定卷積特征的構(gòu)建和入侵異物檢測(cè)在編碼器和解碼器網(wǎng)絡(luò)架構(gòu)中統(tǒng)一,所提出的網(wǎng)絡(luò)模型每個(gè)層的權(quán)重和偏差參數(shù)通過(guò)端到端的梯度學(xué)習(xí)來(lái)聯(lián)合訓(xùn)練。
經(jīng)過(guò)實(shí)驗(yàn)表明,本文提出的基于FCN不確定性特征的鐵路軌道入侵異物檢測(cè)能夠獲得更精確的物體檢測(cè)效果,提高了鐵路軌道入侵異物檢測(cè)的魯棒性。
本文根據(jù)堆疊去噪自動(dòng)編碼器的模型特征[9],把自動(dòng)編碼的網(wǎng)絡(luò)模型結(jié)構(gòu)運(yùn)用到本文算法的網(wǎng)絡(luò)模型中,生成了一種全卷積編碼器-解碼器網(wǎng)絡(luò)模型。形成了一種新的混合FCN模型,由用于提取高級(jí)特征的全卷積編碼器網(wǎng)絡(luò)、用于重構(gòu)低級(jí)信息的全卷積解碼器網(wǎng)絡(luò),以及用于檢測(cè)物體的像素分類器構(gòu)成,整體網(wǎng)絡(luò)模型如圖1所示。可以看出,FCN編碼器網(wǎng)絡(luò)由多個(gè)批標(biāo)準(zhǔn)化(BN)的卷積層、修正線性單元(ReLU)和不重疊的池化層組成。同時(shí)在FCN解碼器網(wǎng)絡(luò)中為了實(shí)現(xiàn)從低分辨率到高分辨率的特性映射,引入優(yōu)化后有利于減少偽影的混合上采樣操作。在該網(wǎng)絡(luò)模型中引入Softmax分類器來(lái)實(shí)現(xiàn)像素級(jí)的物體檢測(cè),同時(shí)使用R-Dropout來(lái)構(gòu)造不確定性特征。
圖1 網(wǎng)絡(luò)模型
Dropout[10]的引入是為了防止FCN過(guò)程擬合從而來(lái)提高網(wǎng)絡(luò)檢測(cè)效率,主要通過(guò)在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,按照一定的概率把神經(jīng)網(wǎng)絡(luò)單元暫時(shí)從網(wǎng)絡(luò)中丟棄。大部分研究都是在全連接層中引入Dropout,但是缺乏對(duì)其他層(如卷積層)使用Dropout的研究。本文在卷積層之后使用修改后的Dropout(R-Dropout)來(lái)構(gòu)造不確定性卷積特征。
假設(shè)3D張量X∈RW×H×C,f(X)是FCN的卷積算子,通過(guò)參數(shù)W和b將X投影到RW′×H′空間:
f(X)=WX+b
(1)
g(f)=g(WX+b)
(2)
(3)
g((M?W)X+M⊙b)=g(SX+M⊙b)
(4)
由于本文的網(wǎng)絡(luò)模型是由交替的卷積層和池化層組成,因此本文的模型中存在兩個(gè)典型的結(jié)構(gòu)。為了更簡(jiǎn)單地描述結(jié)構(gòu),接下來(lái)的描述中暫時(shí)不討論批標(biāo)準(zhǔn)化(BN)。
(1) Conv+R-Dropout+Conv:如果在引入的R-Dropout后面添加一個(gè)卷積層,則輸入的正向傳播表示為:
(5)
(6)
gl+1=g(fl+1)
(7)
(2) Conv+R-Dropout+Pooling:如果在引入的R-Dropout后面添加一個(gè)池化層,則輸入的正向傳播表示為:
(8)
(9)
(10)
(11)
式中:P0表示所有在池化層的激活函數(shù)均被丟棄。
第二種結(jié)構(gòu)Conv+R-Dropout+Pooling通過(guò)在卷積層中引入R-Dropout來(lái)展現(xiàn)出構(gòu)建不確定性的有效性,因此本文采用第二種結(jié)構(gòu)來(lái)構(gòu)建網(wǎng)絡(luò)模型。
本節(jié)首先通過(guò)反卷積算法[11]解釋了產(chǎn)生偽影的原因,并且提出一種新的上采樣算法,盡可能地減少網(wǎng)絡(luò)訓(xùn)練和卷積過(guò)程中偽影現(xiàn)象。
假設(shè)一個(gè)n×n的輸入圖像塊,卷積核矩陣大小為k×k,采樣尺度矩陣為s×s,零填充矩陣大小為p×p。由于本文的目標(biāo)主要是實(shí)現(xiàn)上采樣操作,因此采樣尺度s≥2,則卷積運(yùn)算符C可以描述為:
O=C(I,F)=I*F
(12)
基于上述問(wèn)題,本文提出兩種避免反卷積時(shí)產(chǎn)生偽影的解決方法。第一種是限制過(guò)濾器的大小k,需要確保濾波器大小k是采樣尺度s的倍數(shù),從而避免像素值重疊問(wèn)題。即:
k=λsλ∈N+
(13)
而對(duì)于插入零元素后的圖像輸入問(wèn)題,反卷積采用等價(jià)卷積來(lái)處理,從而得到平滑的輸出。然而這種方法只關(guān)注于改變輸出圖像像素的接受域,而不能改變插入零元素后輸入圖像的頻率分布,因此在多種極端情況下,此種上采樣解決方法還是會(huì)使卷積后的輸出圖像存在偽影現(xiàn)象。因此本文提出另一種解決方法,通過(guò)從等價(jià)卷積中分離出上采樣操作。首先,通過(guò)插值將輸入圖像調(diào)整為所需的大小,然后執(zhí)行一些等價(jià)卷積操作。雖然這種方法可能會(huì)影響FCN的網(wǎng)絡(luò)特征,但是經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn)通過(guò)迭代堆疊上采樣產(chǎn)生的高分辨率圖像可以有效地減少偽影現(xiàn)象。為了充分利用這兩種上采樣方法的優(yōu)勢(shì),本文結(jié)合這兩種上采樣方法,引入混合上采樣方法來(lái)有效地減少卷積后存在的偽影現(xiàn)象。圖2中說(shuō)明了這種混合上采樣方法。在這種混合上采樣方法中,使用雙線性(或最近鄰域)插值算法,由于這種插值方法是線性運(yùn)算,可以作為有效的矩陣,通過(guò)乘法嵌入到FCN模型中去。
圖2 混合上采樣
由于缺乏足夠的目標(biāo)檢測(cè)數(shù)據(jù)來(lái)從頭開(kāi)始訓(xùn)練網(wǎng)絡(luò)模型,因此本文利用VGG-16模型[12]的前端作為編碼器FCN模型(13個(gè)卷積層和5個(gè)池化層預(yù)先在ILSVRC 2014進(jìn)行訓(xùn)練用于圖像分類)。解碼FCN網(wǎng)絡(luò)與編碼器網(wǎng)絡(luò)相關(guān)聯(lián),包含卷積層、上采樣操作和分類器。批標(biāo)準(zhǔn)化(BN)被包含到每個(gè)卷積層的輸出中去,同時(shí)在特定的卷積層之后添加(p=0.5)R-Dropout。對(duì)于物體檢測(cè),本文隨機(jī)地初始化解碼器FCN的權(quán)重并且微調(diào)MSRA10K數(shù)據(jù)集上的整個(gè)網(wǎng)絡(luò),該數(shù)據(jù)集在物體檢測(cè)上被廣泛使用。將數(shù)據(jù)集中每幅圖像的ground-truth圖轉(zhuǎn)換成0-1的二值圖。根據(jù)下面的Softmax的交叉熵?fù)p失函數(shù)從背景(鐵路軌道)中分離出前景物體:
(14)
式中:lm(lm=0,1)是圖像中像素m的標(biāo)簽;qm是像素m是前景物體(輸電線路缺陷)的概率,qm的值是從網(wǎng)絡(luò)的輸出中得到的。在將訓(xùn)練的圖像輸入到網(wǎng)絡(luò)模型中之前,先將每幅圖像減去訓(xùn)練數(shù)據(jù)集的平均值并重新縮放到相同的尺寸(448×448),對(duì)于數(shù)據(jù)集中0-1二值圖像調(diào)整至相同的大小。本文模型的訓(xùn)練通過(guò)小批量隨機(jī)梯度下降(SGD)實(shí)現(xiàn)網(wǎng)絡(luò)訓(xùn)練。
因?yàn)楸疚牡木W(wǎng)絡(luò)模型是完全卷積神經(jīng)網(wǎng)絡(luò),所以在測(cè)試時(shí)可以將任意大小的圖像作為輸入。因此網(wǎng)絡(luò)的輸出是由區(qū)分出來(lái)的前景目標(biāo)物體(入侵異物)和背景物體(鐵路軌道)組成,通過(guò)前景物體和背景物體之間的差異,并剪切負(fù)值來(lái)提取最終的前景目標(biāo)物(入侵異物)。
Sal=max(Mfe-Mbe,0)
(15)
式中:Mfe為前景目標(biāo)物體(入侵異物);Mbe為背景物體(鐵路軌道)還捕獲了上下文的對(duì)比度信息,提高了前景物體檢測(cè)的性能。
本文使用改進(jìn)的Caffe框架實(shí)現(xiàn)了基于MATLAB R2014b平臺(tái)的方法。在配備i7-4790 CPU(16 GB內(nèi)存)和一個(gè)NVIDIA Titan X GPU(12 GB內(nèi)存)的四核PC機(jī)上運(yùn)行本文算法。本文的網(wǎng)絡(luò)模型訓(xùn)練過(guò)程需要近23 h,并在最小批量SGD的20萬(wàn)次迭代后收斂。
數(shù)據(jù)集來(lái)自鐵路軌道監(jiān)控視頻??偣步厝×? 000多幅不同分辨率的圖像,其中:2 500幅圖像作為訓(xùn)練集;1 500多幅圖像作為測(cè)試集。在訓(xùn)練集中總共標(biāo)注了3種不同的樣本,分為A、B、C類。A是已經(jīng)進(jìn)入鐵路軌道區(qū)域的動(dòng)物;B是已經(jīng)進(jìn)入鐵路軌道區(qū)域的行人;C是已經(jīng)進(jìn)入鐵路軌道區(qū)域的障礙物。
圖3為本文算法實(shí)現(xiàn)效果圖,可以將鐵路軌道中的入侵異物有效地檢測(cè)提取出來(lái)。
本文使用三種廣泛使用的指標(biāo)來(lái)衡量所有算法的性能:PR曲線、F-measure和平均絕對(duì)誤差(MAE)。
RP(Precision-Recall)曲線主要是描述Recall(查全率)和Precision(查準(zhǔn)率)之間關(guān)系的曲線。
(16)
式中:β為參數(shù),取值范圍為0到1。
準(zhǔn)確率和召回率目前已經(jīng)被廣泛地使用在分類領(lǐng)域作為有效的度量值來(lái)評(píng)價(jià)結(jié)果的質(zhì)量。其中,準(zhǔn)確率衡量的是檢索系統(tǒng)的查準(zhǔn)率;召回率衡量的是檢索系統(tǒng)的查全率。
(17)
式中:W和H為框的寬和高;S(x,y)為(x,y)處的像素值。
為了評(píng)價(jià)檢測(cè)出來(lái)的物體與Ground truth之間的誤差,使用平均絕對(duì)誤差來(lái)衡量。
(18)
式中:G(x,y)為S(x,y)周圍背景的像素平均值。
為了衡量本文算法的性能,本文采用6個(gè)廣泛使用的數(shù)據(jù)集DUT-OMRON[13]、ECSSD[14]、HKU-IS[15]、PASCAL-S[16]、SED[17]、SOE(文獻(xiàn)[14])并與6種深度學(xué)習(xí)算法進(jìn)行比較其中包含DCL[18]、DS[19]、LEGS[20]、MDF(文獻(xiàn)[15])、RFCN[21]等。
從表1和圖4中可以看出。(1) 本文算法在F-measure和MAE上優(yōu)于ECSSD和SED數(shù)據(jù)集上的其他算法。(2) 本文算法在大多數(shù)數(shù)據(jù)集上達(dá)到較低的MAE值。(3) 本文的RP曲線均優(yōu)于其他算法,檢測(cè)的準(zhǔn)確率較高。驗(yàn)證了本文算法在引入不確定性卷積特征的必要性。因此本文提出FCN不確定性特征模型在所有評(píng)估指標(biāo)方面表現(xiàn)出很好的優(yōu)越性,從而有力地表現(xiàn)了本文算法的有效性。
圖4 RP曲線
表1 算法指標(biāo)
本文提出一種新的用于鐵路軌道異物入侵檢測(cè)的全卷積網(wǎng)絡(luò)模型。通過(guò)引入不確定性卷積特征來(lái)產(chǎn)生更準(zhǔn)確的物體檢測(cè),同時(shí)提出新的上采樣方法來(lái)減少卷積運(yùn)算過(guò)程中產(chǎn)生的偽影現(xiàn)象,并且能夠強(qiáng)制網(wǎng)絡(luò)為物體檢測(cè)學(xué)習(xí)到更準(zhǔn)確的邊緣。經(jīng)過(guò)實(shí)驗(yàn)表明,本文提出的基于FCN不確定性特征的鐵路軌道入侵異物檢測(cè)中的網(wǎng)絡(luò)模型能夠顯著地提高系統(tǒng)檢測(cè)的性能,提高基于FCN鐵路軌道入侵異物檢測(cè)的魯棒性。