王 瑞,李霄峰,史天運(yùn),鄒 琪
(1.中國(guó)鐵道科學(xué)研究院研究生部,北京100081;2.北京交通大學(xué)軌道交通與數(shù)據(jù)挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京100044;3.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司,北京100081)
截至2018年底,我國(guó)高速鐵路運(yùn)營(yíng)里程已超過(guò)2.9萬(wàn)km,隨著路網(wǎng)規(guī)模的擴(kuò)大和列車(chē)運(yùn)行速度的不斷提高,列車(chē)運(yùn)行安全被提到了新高度.高鐵周界入侵事件時(shí)有發(fā)生,嚴(yán)重威脅列車(chē)運(yùn)行安全,周界入侵主動(dòng)防范能力還有待進(jìn)一步加強(qiáng).高鐵沿線(xiàn)布設(shè)有綜合視頻監(jiān)控系統(tǒng),如何利用現(xiàn)有資源對(duì)周界入侵行為進(jìn)行有效地防范是高鐵周界安防一個(gè)行之有效的解決思路,而基于視頻的目標(biāo)檢測(cè)算法是視頻用于鐵路周界入侵檢測(cè)的核心.
基于視頻的周界入侵檢測(cè)受光線(xiàn)、天氣、相機(jī)抖動(dòng)、動(dòng)態(tài)背景等情況影響,傳統(tǒng)算法很難同時(shí)有效處理各種不同情況[1-5],提出一種改進(jìn)的Cascade Mask R-CNN,使用目標(biāo)檢測(cè)的方法檢測(cè)鐵路周界入侵.鐵路沿線(xiàn)綜合視頻監(jiān)控系統(tǒng)攝像頭設(shè)置距離較遠(yuǎn),視頻中會(huì)出現(xiàn)大量的小目標(biāo),很容易對(duì)其產(chǎn)生漏檢的情況,故在原始模型中增加基于特征金字塔網(wǎng)絡(luò)(FPN)提取多尺度特征,同時(shí)增加基于空洞金字塔匯聚(ASPP)子網(wǎng)絡(luò)增強(qiáng)空間上下文信息,改進(jìn)的模型將多尺度特征與上下文信息融合,增強(qiáng)了模型對(duì)小目標(biāo)的表達(dá)能力.
傳統(tǒng)基于視頻的周界入侵檢測(cè)方法(如運(yùn)動(dòng)前景檢測(cè)方法)極易受到現(xiàn)實(shí)因素影響:相機(jī)抖動(dòng),如圖1所示;動(dòng)態(tài)背景,即風(fēng)吹動(dòng)樹(shù)葉等,如圖2所示;目標(biāo)間歇運(yùn)動(dòng),如圖3所示.圖1~圖3分別給出3種情況下,經(jīng)典的運(yùn)動(dòng)前景檢測(cè)算法(Lobster[6],PAWCS[7],Subsence[8])的結(jié)果,其中白色區(qū)域表示運(yùn)動(dòng)前景,當(dāng)檢測(cè)結(jié)果中存在白色區(qū)域時(shí)報(bào)警.可見(jiàn),傳統(tǒng)的運(yùn)動(dòng)檢測(cè)方法在相機(jī)抖動(dòng)和動(dòng)態(tài)背景的情況下會(huì)產(chǎn)生大量的誤檢,在目標(biāo)間歇運(yùn)動(dòng)的情況下會(huì)產(chǎn)生大量漏檢.
圖1 運(yùn)動(dòng)目標(biāo)檢測(cè)在相機(jī)抖動(dòng)問(wèn)題上的表現(xiàn)Fig.1 Performance of moving target detection algorithm on camera jitter
圖2 運(yùn)動(dòng)目標(biāo)檢測(cè)在動(dòng)態(tài)背景問(wèn)題上的表現(xiàn)Fig.2 Performance of moving target detection algorithm on dynamic background
圖3 運(yùn)動(dòng)目標(biāo)檢測(cè)在間歇運(yùn)動(dòng)問(wèn)題上的表現(xiàn)Fig.3 Performance of moving target detection algorithm on intermittent movement
為改善傳統(tǒng)方法對(duì)現(xiàn)實(shí)因素的魯棒性,提出基于深度學(xué)習(xí)的方法進(jìn)行周界入侵檢測(cè),使用檢測(cè)準(zhǔn)確性及穩(wěn)定性都較高的CMR(Cascade Mask R-CNN)[9]網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò).為更好地檢測(cè)小目標(biāo),在網(wǎng)絡(luò)中加入特征金字塔網(wǎng)絡(luò)和空洞卷積,融合多尺度特征與上下文信息.本文算法總的框架結(jié)構(gòu)如圖4所示.
圖4 基于改進(jìn)CMR的鐵路周界入侵檢測(cè)框架圖Fig.4 Overall framework for railway intrusion detection based on improved CMR
鐵路綜合視頻中存在著不同分辨率的行人,最小的行人約為9 pixel×15 pixel的分辨率(約占整個(gè)圖像的0.0065%),故在基于視頻的周界入侵檢測(cè)中如何解決多尺度的問(wèn)題成為一個(gè)關(guān)鍵,尤其是針對(duì)小分辨率對(duì)象的檢測(cè).原始的Cascade Mask R-CNN只利用基礎(chǔ)網(wǎng)絡(luò)得到最上層的特征,如圖5中的F4,忽略底層特征,丟失了很多細(xì)節(jié)信息和小目標(biāo)的位置信息.本文在原始模型中增加特征金字塔網(wǎng)絡(luò)FPN,以關(guān)注不同尺度的圖像特征,更好地保留不同分辨率目標(biāo)的細(xì)節(jié)和位置信息.具體過(guò)程如圖5所示:首先,通過(guò)基礎(chǔ)網(wǎng)絡(luò)resnet101的前向計(jì)算得到多尺度的特征{F1,F2,F3,F4};然后,采用自上而下的方式對(duì)上面的特征進(jìn)行上采樣,通過(guò)橫向連接進(jìn)行融合來(lái)增強(qiáng)特征.以P2和F1融合得到P1為例,圖5中虛線(xiàn)部分所示,經(jīng)過(guò)2倍上采樣的P2與經(jīng)過(guò)1×1卷積的F1通過(guò)像素間做加法融合方式得到P1.這樣自下而上再自上而下的方法得到最終的特征圖{P1,P2,P3,P4,P5}.最終FPN模塊輸出的特征圖為融合了多個(gè)尺度特征的P1.
空洞卷積也稱(chēng)為擴(kuò)張卷積,基本出發(fā)點(diǎn)是擴(kuò)大視野,而不增加學(xué)習(xí)參數(shù)的數(shù)量.在卷積層中引入“擴(kuò)張率”,表示卷積核進(jìn)行卷積操作處理數(shù)據(jù)時(shí)的間距.使用該結(jié)構(gòu)是由于pooling層會(huì)導(dǎo)致信息損失,而該結(jié)構(gòu)可以在不用pooling層且計(jì)算相當(dāng)?shù)那闆r下提供更大的感受野.
圖5 FPN的結(jié)構(gòu)Fig.5 Structure of FPN
ASPP是使用空洞卷積的經(jīng)典結(jié)構(gòu),如圖6所示,輸入為通過(guò)基礎(chǔ)網(wǎng)絡(luò)和FPN之后得到特征圖P1,即圖5中P1,然后通過(guò)具有不同擴(kuò)張率的多個(gè)卷積層和最大池化層得到多個(gè)尺度的特征,采用4個(gè)并行的不同擴(kuò)張率的空洞卷積對(duì)特征圖進(jìn)行處理能夠有效地捕獲多尺度信息.FM5通過(guò)全局平均池化得到.最后按照深度的方向連接得到的特征圖FM1-FM5并通過(guò)卷積層,BatchNormalization,Relu和SpatialDropout層得到最終的特征圖Feature map.
圖6 ASPP的結(jié)構(gòu)Fig.6 Structure of ASPP
CMR是Mask R-CNN和Cascade R-CNN兩種結(jié)構(gòu)的結(jié)合[9],采用級(jí)聯(lián)結(jié)構(gòu),如圖4中Cascade Mask R-CNN,將上一階段的輸出作為下一階段的輸入,使得周界檢測(cè)的結(jié)果更加準(zhǔn)確,不受復(fù)雜背景變化的影響.本文CMR中的輸入是經(jīng)過(guò)基礎(chǔ)網(wǎng)絡(luò)、FPN和ASPP得到的最終特征圖,即圖6的Feature map輸出為最終的檢測(cè)結(jié)果.
實(shí)驗(yàn)在TITAN Xp GPU上完成,使用pytorch框架,采用的是3個(gè)階段的級(jí)聯(lián),基礎(chǔ)頭網(wǎng)絡(luò)使用resnet101,并在頭網(wǎng)絡(luò)后面使用了FPN和ASPP.在一個(gè)GPU上進(jìn)行的網(wǎng)絡(luò)訓(xùn)練,迭代次數(shù)為12次,初始學(xué)習(xí)率為0.25,迭代到第6次和第10次時(shí)學(xué)習(xí)率都下降0.1倍.實(shí)驗(yàn)采用SGD進(jìn)行優(yōu)化.
使用端到端的方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,在每個(gè)階段t,box頭網(wǎng)絡(luò)都有分類(lèi)分?jǐn)?shù)ct和回歸偏移量rt,mask頭網(wǎng)絡(luò)預(yù)測(cè)每個(gè)ROI區(qū)域的像素級(jí)掩碼mt.整個(gè)多任務(wù)網(wǎng)絡(luò)的代價(jià)函數(shù)為
式中:L為總的代價(jià)函數(shù),由邊界框預(yù)測(cè)的代價(jià)函數(shù)和掩碼預(yù)測(cè)的代價(jià)函數(shù)組成;T為總的級(jí)聯(lián)階段數(shù),本文選取了3個(gè)級(jí)聯(lián),T=3.
式中:M為分類(lèi)類(lèi)別數(shù);x和y表示框的左上角坐標(biāo);w和h分別表示框的寬高;i表示具體框的位置,如表示預(yù)測(cè)框的具體位置;smoothL1()表示使用smoothed L1損失函數(shù).在階段t時(shí)掩碼預(yù)測(cè)的代價(jià)函數(shù),使用的是帶有邏輯回歸的二進(jìn)制交叉熵代價(jià)函數(shù),即
式中:mt表示預(yù)測(cè)的掩碼;表示實(shí)際的掩碼,對(duì)于每個(gè)RoI,其編碼分辨率為a×a的M個(gè)二進(jìn)制掩碼mt,對(duì)于與類(lèi)M的真實(shí)值相關(guān)聯(lián)的RoI,Lmask僅在第k個(gè)掩模上定義,其他掩模輸出不會(huì)導(dǎo)致?lián)p耗;σ為Sigmoid函數(shù),將預(yù)測(cè)掩碼的每個(gè)值轉(zhuǎn)為[0,1]范圍內(nèi).
coco數(shù)據(jù)集包括82 783個(gè)訓(xùn)練圖像、40 504個(gè)驗(yàn)證圖像及40 775個(gè)測(cè)試圖像,80個(gè)不同類(lèi)別,如自行車(chē),人,鳥(niǎo),狗等.數(shù)據(jù)集包含不同尺度的目標(biāo),約24%的大目標(biāo),34%的中等目標(biāo),41%的小目標(biāo),大目標(biāo)指面積大于96 pixel×96 pixel的目標(biāo),小目標(biāo)指面積小于32 pixel×32 pixel的目標(biāo),中目標(biāo)指面積介于大小、目標(biāo)之間的目標(biāo),而面積是指分割掩碼中像素的數(shù)量.
鐵路周界視頻數(shù)據(jù)集為非公共數(shù)據(jù)集,是由自己采集及標(biāo)注,目前共有55段視頻.包含大中尺寸目標(biāo)的視頻7段,小目標(biāo)的視頻46段,不包含任何目標(biāo)的視頻2段;視頻中存在相機(jī)抖動(dòng)情況3段,動(dòng)態(tài)背景情況2段,間歇運(yùn)動(dòng)情況10段,正常情況40段.
AP(Average Precision)是coco數(shù)據(jù)集的評(píng)價(jià)標(biāo)準(zhǔn),是IOU為0.50~0.95閾值時(shí)的平均AP.APS,APM,APL分別表示針對(duì)小、中、大目標(biāo)的AP值.
準(zhǔn)確率(Accuracy,Acc)是圖像中預(yù)測(cè)正確的像素點(diǎn)個(gè)數(shù)與所有像素點(diǎn)個(gè)數(shù)的比值,即預(yù)測(cè)為前景實(shí)際也為前景的像素點(diǎn)和預(yù)測(cè)為背景實(shí)際也為背景的像素點(diǎn)的總和與總的像素點(diǎn)個(gè)數(shù)的比值.
F-measure是精確率與召回率的調(diào)和平均值.ETP為真正例,表示該像素點(diǎn)實(shí)際是前景,檢測(cè)時(shí)也檢測(cè)為前景;EFP為假正例,表示實(shí)際為背景,但檢測(cè)成了前景;EFN為假反例,表示實(shí)際為前景,但檢測(cè)為背景.精確率、召回率及F-measure值F1的計(jì)算公式為
(1)在coco數(shù)據(jù)集上驗(yàn)證.
為了驗(yàn)證改進(jìn)算法是否有效,在coco數(shù)據(jù)集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表1所示.其中AP50和AP75分別表示IOU為0.50和0.75時(shí)的AP.從表1中可以看出,增加FPN后,檢測(cè)結(jié)果有了很大的提升,尤其是小目標(biāo)和中等目標(biāo)的檢測(cè)效果,這主要是FPN融合了5個(gè)不同尺度的特征圖,包含了更多底層的信息.增加ASPP之后,對(duì)小目標(biāo)的檢測(cè)效果降低,對(duì)大目標(biāo)的檢測(cè)效果提高,主要是ASPP只在最后的特征上使用,可以得到更大的感受野,有更廣的全局特征,但在過(guò)程中引入了更多的噪聲,增加了誤檢率.在原始模型上同時(shí)使用FPN和ASPP,模型可取得最好的效果,框的平均精確率提高了3.8,掩碼的平均精確率提高了3.9,針對(duì)小目標(biāo)平均精確率(APS)從16.4提升到了23.0,針對(duì)大目標(biāo)平均精確率(APL)從55.2提升到了63.0,即改進(jìn)的方法針對(duì)小目標(biāo)和大目標(biāo)的檢測(cè)效果得到同步提升.
表 1 4種方法在coco數(shù)據(jù)集上的表現(xiàn)Table 1 Performance of four methods on coco datasets
(2)在實(shí)際鐵路周界檢測(cè)中的應(yīng)用.
在鐵路周界檢測(cè)中嘗試傳統(tǒng)方法和基于深度學(xué)習(xí)方法,很多基于深度學(xué)習(xí)的方法都是基于特定場(chǎng)景的[12-14],這些方法在某一場(chǎng)景下訓(xùn)練也只在這一場(chǎng)景的測(cè)試效果較好,對(duì)其他場(chǎng)景的實(shí)用性較差,故不對(duì)這類(lèi)方法進(jìn)行比較.除去這些基于特定場(chǎng)景的方法,其他深度學(xué)習(xí)方法還有DeepBS[15]等.對(duì)比本文方法與DeepBS,以及傳統(tǒng)的LOBSTER[6]、PAWCS[7]及 SuBSENSE[8]算法的檢測(cè)結(jié)果.
①針對(duì)不同情況的算法有效性驗(yàn)證.
為了驗(yàn)證算法在不同條件下的有效性,在鐵路周界視頻數(shù)據(jù)集中進(jìn)行測(cè)試.圖7分別為不同方法在相機(jī)抖動(dòng)(第1行)、動(dòng)態(tài)背景(第2行)、間歇運(yùn)動(dòng)(第3行)情況下的檢測(cè)結(jié)果.結(jié)果顯示,本文提出的方法魯棒性最好,在相機(jī)抖動(dòng)和動(dòng)態(tài)背景時(shí)無(wú)誤檢,在間歇運(yùn)動(dòng)時(shí)無(wú)漏檢.3種情況下的準(zhǔn)確率如表2所示,動(dòng)態(tài)背景情況下樣本均為反例,故無(wú)法計(jì)算精確率和F-measure.
圖7 不同算法在不同情況下的檢測(cè)結(jié)果Fig.7 Comparison of detection results of different algorithms in different situations
表 2 各種方法在不同情況下的準(zhǔn)確率Table 2 Accuracy of various methods on different videos
②針對(duì)多尺度目標(biāo)的算法有效性驗(yàn)證.
圖8為不同方法在部分視頻上的檢測(cè)結(jié)果:對(duì)于大目標(biāo)(第1行)、中目標(biāo)(第3行),CMR和本文方法分割準(zhǔn)確;對(duì)于小目標(biāo)(第2行),傳統(tǒng)方法和DeepBS的方法檢測(cè)效果差且存在誤檢,CMR法只能檢測(cè)到兩個(gè)稍大一點(diǎn)的目標(biāo),本文方法可以檢測(cè)到全部的4個(gè)小目標(biāo),且分割效果好,無(wú)漏檢;第4行是在最遠(yuǎn)處有個(gè)極小目標(biāo),只有本文方法可以檢測(cè)到目標(biāo).
圖8 不同算法對(duì)視頻幀的檢測(cè)結(jié)果Fig.8 Comparison of detection results of different algorithms for video frames
表3為不同方法在不同視頻上的F-measure,與之前方法相比,本文方法有很大突破,改進(jìn)方法針對(duì)小目標(biāo)的檢測(cè)效果更好.需要指出的是,本文方法沒(méi)有在任何鐵路周界視頻上訓(xùn)練過(guò),僅僅是在公開(kāi)的目標(biāo)檢測(cè)訓(xùn)練集coco上訓(xùn)練過(guò),說(shuō)明本文方法與特定場(chǎng)景無(wú)關(guān),而目前大多數(shù)基于深度學(xué)習(xí)的方法需要針對(duì)特定場(chǎng)景進(jìn)行訓(xùn)練.
與中目標(biāo)檢測(cè)相比,小目標(biāo)檢測(cè)的F-measaure較低,主要是小目標(biāo)的召回率偏低,相對(duì)于現(xiàn)有的其他方法,本文方法針對(duì)視頻中的小目標(biāo)已極大地降低了漏檢率.
針對(duì)基于綜合視頻的鐵路周界入侵檢測(cè)問(wèn)題,本文根據(jù)實(shí)際場(chǎng)景檢測(cè)需要,提出使用Cascade Mask R-CNN網(wǎng)絡(luò)進(jìn)行檢測(cè)的算法,為了提升周界入侵中較大目標(biāo)及非常小目標(biāo)的檢測(cè)效果,在網(wǎng)絡(luò)中增加了ASPP和FPN,對(duì)基礎(chǔ)網(wǎng)絡(luò)進(jìn)行了改進(jìn).實(shí)驗(yàn)結(jié)果表明:相較于原始模型,改進(jìn)模型可有效檢測(cè)出目標(biāo),尤其對(duì)小目標(biāo),算法表現(xiàn)出了較優(yōu)的性能;另外,該方法幾乎不受相機(jī)抖動(dòng)、動(dòng)態(tài)背景的影響,可廣泛應(yīng)用于鐵路周界入侵的檢測(cè)中.