馬 野,吳振宇,姜 徐
(1. 東北大學(xué),沈陽(yáng),110819;2. 北京宇航系統(tǒng)工程研究所,北京,100076)
目標(biāo)檢測(cè)任務(wù)是找出圖像或視頻中人們感興趣的物體,并檢測(cè)出位置和大小?;谏窠?jīng)網(wǎng)絡(luò)的方法又發(fā)展出兩條技術(shù)路線:基于候選框的方法和不使用候選框的方法。基于候選框的方法[1,2]使用滑動(dòng)窗口在待檢測(cè)圖片上進(jìn)行掃描,判斷窗口內(nèi)是否有目標(biāo)和目標(biāo)具體定位。不使用候選框的方法是直接預(yù)測(cè)目標(biāo)的關(guān)鍵點(diǎn),例如文獻(xiàn)[3]預(yù)測(cè)目標(biāo)的中心點(diǎn)和大小,以此達(dá)到定位的效果。
可見(jiàn)光圖像具有豐富的紋理細(xì)節(jié)信息,是做目標(biāo)檢測(cè)的首選數(shù)據(jù)類型。但是,當(dāng)遇到天氣不佳、夜晚等光線不充足或者光線過(guò)強(qiáng)的情況,圖片受影響較大,影響物體成像。紅外圖像根據(jù)熱輻射信息成像,抗干擾能力強(qiáng),環(huán)境適應(yīng)能力強(qiáng),因此可以在夜間和惡劣天氣下全天候工作而不依賴于場(chǎng)景特性。但是由于熱輻射較弱,紅外圖像對(duì)比度低、邊緣模糊,圖像整體較暗,沒(méi)有色彩和陰影,因而分辨能力低??梢?jiàn)光圖像在這些方面表現(xiàn)優(yōu)異,可見(jiàn)光圖像可以與紅外圖像互補(bǔ),融合后能適用于全天候全時(shí)段的目標(biāo)檢測(cè)任務(wù)。
因此,為了充分利用可見(jiàn)光圖像提供的紋理信息和紅外圖像提供的熱輻射信息,提出一種基于特征融合的目標(biāo)檢測(cè)方法。在融合時(shí),能夠根據(jù)特征的不同,自動(dòng)分配不同權(quán)重,得到比使用單一數(shù)據(jù)更好的效果。
根據(jù)融合的階段不同,可以把融合檢測(cè)算法分為3類:檢測(cè)前融合、檢測(cè)中融合以及檢測(cè)后融合。檢測(cè)前融合是指在目標(biāo)檢測(cè)前將可見(jiàn)光圖像與紅外圖像融合成一張圖像,再經(jīng)過(guò)目標(biāo)檢測(cè)算法。這類方法的好處是融合和檢測(cè)完全分開(kāi),可以使用已有的各種圖像融合方法,文獻(xiàn)[4]介紹了多種圖像融合方法,以及融合后的各種應(yīng)用。但也因?yàn)閳D像融合與目標(biāo)檢測(cè)無(wú)關(guān),無(wú)法保證融合后的圖像適用于目標(biāo)檢測(cè)任務(wù)。檢測(cè)后融合是指對(duì)可見(jiàn)光圖像和紅外圖像分別進(jìn)行目標(biāo)檢測(cè),再將檢測(cè)結(jié)果融合在一起。這類方法最為簡(jiǎn)單,但實(shí)際上不涉及圖像融合,算法效果往往不能得到大的提升。文獻(xiàn)[5,6]使用了檢測(cè)中融合的方法,既可以充分將可見(jiàn)光圖像與紅外圖像進(jìn)行融合,又可以根據(jù)目標(biāo)檢測(cè)效果對(duì)算法進(jìn)行優(yōu)化。這類方法的效果通常優(yōu)于檢測(cè)前融合和檢測(cè)后融合算法。文獻(xiàn)[6]提出一種融合-精煉模塊,利用可見(jiàn)光圖像特征圖和紅外圖像特征圖直接融合成新的特征圖并進(jìn)行精煉,新的特征圖又重新與可見(jiàn)光圖像特征圖和紅外圖像特征圖形成殘差網(wǎng)絡(luò),進(jìn)行多次循環(huán)。融合-精煉模塊能夠很好地融合及保留特征圖特征,但所需計(jì)算量較大。文獻(xiàn)[5]提出了一種單一加權(quán)方法,以原始圖片作為輸入,計(jì)算出單一權(quán)重對(duì)特征圖進(jìn)行融合。輸入尺寸較大,同樣需要較大的計(jì)算量;單一權(quán)重不能很好地應(yīng)對(duì)一張圖片不同區(qū)域情況不同的問(wèn)題,也不能很好地解決不同類目標(biāo)在一張圖片中的情況。提出的特征融合模塊所需計(jì)算量較小,并且通過(guò)計(jì)算權(quán)重圖的方式,對(duì)一張圖片不同位置使用不同權(quán)重,提高目標(biāo)檢測(cè)精度。
以經(jīng)典YOLO目標(biāo)檢測(cè)算法為基礎(chǔ),增加可見(jiàn)光圖像與紅外圖像特征融合模塊,既能利用可見(jiàn)光圖像提供的紋理信息,又能利用紅外圖像提供的熱輻射信息??梢?jiàn)光圖像與紅外圖像差異較大,因此采用兩套特征提取網(wǎng)絡(luò)分別處理得到特征圖,保證充分利用二者圖像的獨(dú)特特征。特征融合目標(biāo)檢測(cè)算法如圖1所示。
圖1 特征融合目標(biāo)檢測(cè)算法 Fig.1 Feature Fusion Object Detecion
由圖1可知,可見(jiàn)光圖像與紅外圖像分別輸入到不同Backbone+Neck中進(jìn)行特征提取,得到的可見(jiàn)光圖像特征圖(FRGB)和紅外圖像特征圖(FIR)輸入到特征融合模塊,經(jīng)過(guò)自動(dòng)分配權(quán)重后,融合成新的特征圖(Ffusion)。最后經(jīng)過(guò)Detection模塊進(jìn)行目標(biāo)預(yù)測(cè)。
YOLO是一種基于候選框的單階段目標(biāo)檢測(cè)算法,基本思想是將輸入圖片分成多個(gè)網(wǎng)格,然后對(duì)每一個(gè)網(wǎng)格預(yù)測(cè)大小不同的多個(gè)候選框內(nèi)存在目標(biāo)的概率,同時(shí)預(yù)測(cè)目標(biāo)類別及位置。YOLO算法主要包含Backbone網(wǎng)絡(luò)、Neck網(wǎng)絡(luò)以及Detection網(wǎng)絡(luò),如圖2所示。表1中列出了YOLO v5網(wǎng)絡(luò)每一層的詳細(xì)參數(shù)。
圖2 YOLO算法 Fig.2 YOLO Algorithm
表1 YOLO v5 網(wǎng)絡(luò)結(jié)構(gòu) Tab.1 YOLO v5 Network Structure
Backbone主要有數(shù)個(gè)卷積模塊和殘差模塊(resnet)組成。利用多層卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入圖片進(jìn)行特征提取,隨著卷積層的增加,深層網(wǎng)絡(luò)得到的特征圖尺寸越來(lái)越小,得到的特征信息越來(lái)越復(fù)雜。尺寸較小的特征圖縮放比例高,具有較深層次的特征信息,因此通常用來(lái)預(yù)測(cè)較大的目標(biāo),較大的特征圖用來(lái)預(yù)測(cè)較小的目標(biāo)。
Neck除了少量卷積模塊和殘差模塊還包含上采樣層。Neck網(wǎng)絡(luò)使用上采樣將特征圖逐漸放大,并與Backbone中的特征圖相結(jié)合,構(gòu)成了特征金字塔網(wǎng)絡(luò)(FPN)[7]結(jié)構(gòu)。通過(guò)上述采樣得到的特征圖來(lái)自深層網(wǎng)絡(luò),具有較強(qiáng)的語(yǔ)義信息,有利于目標(biāo)分類;而通過(guò)Backbone得到的特征圖分辨率較高,具有豐富的空間信息,有利于目標(biāo)位置的預(yù)測(cè)。特征金字塔網(wǎng)絡(luò)使用較少的計(jì)算量將二者融合,能夠得到更準(zhǔn)確的目標(biāo)分類及位置預(yù)測(cè)。
Detection網(wǎng)絡(luò)對(duì)不同尺寸的特征圖進(jìn)行處理,每種尺寸的特征圖只通過(guò)一層卷積層,輸出每個(gè)點(diǎn)的分類、位置信息及置信度。
利用YOLO算法,將可見(jiàn)光圖像與紅外圖像分別輸入到不同的YOLO算法中,利用Backbone網(wǎng)絡(luò)、Neck網(wǎng)絡(luò)分別得到可見(jiàn)光圖像與紅外圖像的特征圖。再通過(guò)特征融合模塊得到融合特征圖,最后利用Detection網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)。由此建立的神經(jīng)網(wǎng)絡(luò)模型,可以實(shí)現(xiàn)端到端的訓(xùn)練,同時(shí)優(yōu)化特征提取、特征融合以及目標(biāo)檢測(cè)。
特征融合模塊如圖3所示,輸入可見(jiàn)光圖像特征圖(FRGB)和紅外圖像特征圖(FIR),輸出融合特征圖(Ffusion)。特征融合模塊包含特征權(quán)重網(wǎng)絡(luò)(FWN),通過(guò)多層卷積神經(jīng)網(wǎng)絡(luò)計(jì)算出可見(jiàn)光圖像特征圖權(quán)重(WRGB)和紅外圖像特征圖權(quán)重(WIR)。Ffusion通過(guò)式(1)及式(2)計(jì)算所得。
圖3 特征融合模塊 Fig.3 Feature Fusion Model
Ffusion的尺寸與FRGB和FIR保持一致。特征權(quán)重網(wǎng)絡(luò)如圖4所示,輸入FRGB與FIR的尺寸為(C×H×W),C表示特征通道數(shù)量,H、W分別表示特征圖的高度與寬度。首先通過(guò)Concat層在通道維度將特征進(jìn)行合并,然后通過(guò)多層卷積的處理得到尺寸為(2×H×W)的權(quán)重,每個(gè)卷積層后需要批標(biāo)準(zhǔn)化及激活函數(shù)處理,最后在通道維度做Softmax處理,得到2個(gè)尺寸為(H×W)特征圖,分別為WRGB和WIR。WRGB+WIR=1。
圖4 特征權(quán)重網(wǎng)絡(luò) Fig.4 Feature Weight Network
特征權(quán)重網(wǎng)絡(luò)(FWN)可以根據(jù)預(yù)測(cè)結(jié)果優(yōu)化權(quán)重大小,自動(dòng)選取可見(jiàn)光圖像或紅外圖像特征。比如在光線較暗的情況下,紅外圖像的權(quán)重就會(huì)比較大;而在熱輻射信息量少,可見(jiàn)光圖像較清晰的情況下,就會(huì)更多地使用可見(jiàn)光圖像進(jìn)行目標(biāo)檢測(cè)。FWN以圖像的特征圖作為輸入而不使用圖像本身,是為了減少圖像處理的復(fù)雜度。特征圖經(jīng)過(guò)多層神經(jīng)網(wǎng)絡(luò)的處理,具有更多深層信息,因此在FWN中可以采用較少的卷積層,達(dá)到復(fù)雜計(jì)算的效果。
在實(shí)際的可見(jiàn)光圖像與紅外圖像中,不同位置可能會(huì)需要不同的權(quán)重值。比如圖像左側(cè)熱輻射信息更豐富,那就應(yīng)該更多利用紅外圖像信息;而右側(cè)可能沒(méi)有熱輻射信息,需要依靠高分辨率紋理信息,故應(yīng)加重可見(jiàn)光圖像的權(quán)重。單一權(quán)重值的方式無(wú)法做到分別計(jì)算,因此采用了尺寸為(H×W)的權(quán)重圖來(lái)解決這一問(wèn)題,權(quán)重圖可以為每一個(gè)位置不同的權(quán)重,充分利用可見(jiàn)光圖像和紅外圖像提供的不同信息。權(quán)重圖的方法適用于已經(jīng)進(jìn)行像素匹配的可見(jiàn)光圖像和紅外圖像數(shù)據(jù)。也就是說(shuō)同一目標(biāo)在可見(jiàn)光圖像和紅外圖像中的位置相同,才能利用權(quán)重圖的方法對(duì)相同位置的目標(biāo)計(jì)算權(quán)重。
這一方法在多類別多目標(biāo)檢測(cè)中也有一定作用,比如在對(duì)行人檢測(cè)時(shí),熱輻射信息明顯,需要加大紅外圖像權(quán)重;對(duì)汽車(chē)等物體檢測(cè)時(shí),更多需要依賴可見(jiàn)光圖像,需要加大可見(jiàn)光圖像權(quán)重。當(dāng)行人和汽車(chē)在同一張圖片時(shí),就可以利用權(quán)重圖進(jìn)行不同權(quán)重的融合,更有利于精準(zhǔn)的預(yù)測(cè)。
特征融合模塊本質(zhì)上就是多層卷積神經(jīng)網(wǎng)絡(luò),可以靈活的插入到現(xiàn)有的目標(biāo)檢測(cè)算法中??梢愿S目標(biāo)檢測(cè)算法一同優(yōu)化,不需要其他多余的操作。與一般先融合出一張圖片再檢測(cè)的方法比較,特征融合算法可以保留原始圖像的特征,并根據(jù)目標(biāo)檢測(cè)的結(jié)果對(duì)特征進(jìn)行挑選及融合,避免先融合圖像造成的信息損失。
通過(guò)使用文獻(xiàn)[8]的M3FD數(shù)據(jù)集,如圖5所示,該數(shù)據(jù)集通過(guò)一個(gè)光學(xué)攝像機(jī)和一個(gè)紅外攝像機(jī)同步采集數(shù)據(jù)。共包含4200對(duì)可見(jiàn)光與紅外圖像對(duì),圖像大小為1024×768。圖像經(jīng)過(guò)手工標(biāo)注,共有34407個(gè)標(biāo)簽,共有6個(gè)標(biāo)簽類別:行人、汽車(chē)、公交、摩托車(chē)、信號(hào)燈、卡車(chē)。實(shí)驗(yàn)使用80%的數(shù)據(jù)作為訓(xùn)練集,其余20%作為驗(yàn)證集和測(cè)試集。
圖5 M3FD數(shù)據(jù)集 Fig.5 M3FD Dataset
為了驗(yàn)證特征融合的有效性,進(jìn)行了3組實(shí)驗(yàn)進(jìn)行對(duì)比。分別為可將光圖像目標(biāo)檢測(cè),紅外圖像目標(biāo)檢測(cè),特征融合目標(biāo)檢測(cè)。前兩組實(shí)驗(yàn)使用傳統(tǒng)YOLO算法進(jìn)行,特征融合算法流程如圖1所示。使用2套Backbone+Neck的網(wǎng)絡(luò)結(jié)構(gòu)分別輸入可見(jiàn)光圖像及紅外圖像,使用3個(gè)特征融合模塊對(duì)不同尺寸的特征圖進(jìn)行融合,使用1個(gè)Detection網(wǎng)絡(luò)進(jìn)行目標(biāo)預(yù)測(cè)。Backbone、Neck、Detection均來(lái)自YOLO算法v5版本。特征權(quán)重網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。
表2 特征權(quán)重網(wǎng)絡(luò)結(jié)構(gòu) Tab.2 Feature Weight Network Structure
實(shí)驗(yàn)在搭載NVIDIA 3090顯卡的服務(wù)器上運(yùn)行,訓(xùn)練數(shù)據(jù)共有3360對(duì)可見(jiàn)光圖像和紅外圖像,訓(xùn)練批次大小為16,共進(jìn)行了300次迭代。驗(yàn)證集共有840對(duì)圖片,最終選出在驗(yàn)證集上表現(xiàn)最好的結(jié)果進(jìn)行比較。
使用M3FD數(shù)據(jù)集分別進(jìn)行了3組實(shí)驗(yàn),使用平均精度的平均值(mAP)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),見(jiàn)表3。IOU取值0.5,表示預(yù)測(cè)目標(biāo)范圍與實(shí)際目標(biāo)范圍相交的面積比合并的面積大于等于0.5。第1組RGB僅使用可見(jiàn)光圖像進(jìn)行目標(biāo)檢測(cè);第2組IR僅使用紅外圖像進(jìn)行目標(biāo)檢測(cè);第3組Fusion使用可見(jiàn)光圖像和紅外圖像進(jìn)行特征融合目標(biāo)檢測(cè)。預(yù)測(cè)結(jié)果表示,3組實(shí)驗(yàn)均能較好地進(jìn)行目標(biāo)檢測(cè)。
表3 實(shí)驗(yàn)結(jié)果(0.5mAP) Tab.3 Result(0.5mAP)
從表3中可以看到,使用特征融合模塊的0.5mAP值達(dá)到0.883,高于單獨(dú)使用可見(jiàn)光圖像或紅外圖像的目標(biāo)檢測(cè)結(jié)果。在對(duì)摩托車(chē)、信號(hào)燈的檢測(cè)中,特征融合方法的結(jié)果最優(yōu),在其他類目標(biāo)檢測(cè)中,特征融合的方法也能接近最好結(jié)果。在對(duì)行人進(jìn)行檢測(cè)時(shí),具有熱輻射信息的紅外圖像抗干擾能力強(qiáng),行人的特征更加清晰,所以紅外圖像的檢測(cè)結(jié)果更好。特征融合的結(jié)果0.870接近紅外圖像的檢測(cè)結(jié)果0.874,遠(yuǎn)高于可見(jiàn)光對(duì)應(yīng)的結(jié)果0.815。在對(duì)其他目標(biāo)檢測(cè)時(shí),熱輻射信息較少,所以可見(jiàn)光檢測(cè)結(jié)果高于紅外圖像檢測(cè)結(jié)果。此時(shí),特征融合算法的結(jié)果能夠接近甚至超過(guò)可見(jiàn)光圖像檢測(cè)結(jié)果,說(shuō)明融合算法能夠有效利用可見(jiàn)光圖像同時(shí)也能夠借鑒紅外圖像。
基于提出的特征融合檢測(cè)算法,可以同時(shí)使用可見(jiàn)光圖像和紅外圖像進(jìn)行目標(biāo)檢測(cè),建立了一種端到端的神經(jīng)網(wǎng)絡(luò)模型。利用目標(biāo)檢測(cè)的結(jié)果進(jìn)行優(yōu)化,自動(dòng)根據(jù)目標(biāo)計(jì)算特征權(quán)重,使用權(quán)重將可見(jiàn)光圖像與紅外圖像進(jìn)行融合。當(dāng)可見(jiàn)光圖像效果好時(shí),更多使用可見(jiàn)光圖像進(jìn)行目標(biāo)檢測(cè),反之,更多使用紅外圖像進(jìn)行目標(biāo)檢測(cè)。實(shí)驗(yàn)結(jié)果表明特征融合算法結(jié)果優(yōu)于單獨(dú)使用可見(jiàn)光圖像或紅外圖像,證明此算法達(dá)到了預(yù)期,可以自動(dòng)的為可見(jiàn)光圖像和紅外圖像分配權(quán)重,更好的進(jìn)行融合,以達(dá)到更優(yōu)的目標(biāo)檢測(cè)效果。
可見(jiàn)光圖像和紅外圖像獲取成本較低,二者融合后蘊(yùn)含大量信息并且抗干擾能力強(qiáng),在遙感探測(cè)、醫(yī)療衛(wèi)生、視頻監(jiān)控等領(lǐng)域有著很好的應(yīng)用前景。接下來(lái)要進(jìn)一步提高檢測(cè)結(jié)果的準(zhǔn)確性,充分利用圖像融合的優(yōu)勢(shì)。另外還需考慮同時(shí)處理兩張圖片帶來(lái)的計(jì)算量增加,要如何提高計(jì)算效率。多目標(biāo)檢測(cè)以及有遮擋目標(biāo)檢測(cè)同樣是值得探究的技術(shù)難點(diǎn),可以作為今后的工作內(nèi)容。