張?bào)@雷 宮文浩 賈 鑫
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的基本任務(wù)之一,在自動(dòng)駕駛和無(wú)人機(jī)航拍領(lǐng)域等都有重要的應(yīng)用,因此其精確性和魯棒性至關(guān)重要.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)是目前目標(biāo)檢測(cè)領(lǐng)域的主流方法之一,根據(jù)檢測(cè)步驟的不同,算法可以分兩階段檢測(cè)算法和單階段檢測(cè)算法.
兩階段檢測(cè)算法首先使用區(qū)域提取器生成一組候選框,再對(duì)每個(gè)候選框進(jìn)行分類(lèi)和定位.代表性算法包括區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-Based Convolu-tional Neural Network, RCNN)、Fast-RCNN和Faster-RCNN等.
單階段檢測(cè)算法直接將檢測(cè)任務(wù)和分類(lèi)任務(wù)集成到一個(gè)神經(jīng)網(wǎng)絡(luò)中,如FCOS(Fully Convolutional One-Stage Object Detector)[1]和YOLO(You Only Look Once)[2]系列等.其中,YOLOv5在檢測(cè)精度上具有明顯優(yōu)勢(shì).
上述算法在普通環(huán)境下能獲得較令人滿(mǎn)意的檢測(cè)結(jié)果,而在復(fù)雜場(chǎng)景(大霧、眩光、黑夜)以及小尺寸目標(biāo)時(shí),單一圖像傳感器受到低對(duì)比度噪聲的影響,難以提取圖像的豐富信息.由于不同傳感器的成像特性不同,采集的圖像存在互補(bǔ)性和一致性,因此學(xué)者們提出融合可見(jiàn)光與紅外檢測(cè)的雙模態(tài)傳感器融合類(lèi)目標(biāo)檢測(cè)算法.相比可見(jiàn)光圖像,紅外圖像在光照不足時(shí)可以捕捉更清晰的行人和車(chē)輛輪廓.小目標(biāo)尺寸的車(chē)輛在紅外圖像中不易區(qū)分,而可見(jiàn)光圖像會(huì)提供更多的細(xì)節(jié)信息,如邊緣、紋理和顏色等.因此,學(xué)者們嘗試?yán)秒p傳感器的模態(tài)互補(bǔ)優(yōu)勢(shì)克服復(fù)雜場(chǎng)景對(duì)于算法的影響.
雙模態(tài)方法常見(jiàn)策略是融合可見(jiàn)光與紅外兩個(gè)模態(tài)圖像的特征以實(shí)現(xiàn)信息互補(bǔ),此類(lèi)方法的核心——跨模態(tài)特征融合技術(shù)在復(fù)雜場(chǎng)景目標(biāo)檢測(cè)中具有重要作用.Zhou等[3]提出MBNet(Modality Ba-lance Network),使用DMAF(Differential Modality Ba-lance Aware Fusion)實(shí)現(xiàn)兩種模態(tài)相互補(bǔ)充.Kieu等[4]提出TC Det,采用域自適應(yīng)方法解決夜間和惡劣天氣下的行人檢測(cè)問(wèn)題.Zhang等[5]提出CFR(Cyclic Fuse-and-Refine),利用多光譜特征的互補(bǔ)平衡,循環(huán)融合和細(xì)化每個(gè)光譜特征,后又提出引導(dǎo)注意力特征的多光譜特征融合[6],同時(shí)將主動(dòng)學(xué)習(xí)策略[7]應(yīng)用于跨模態(tài)行人檢測(cè)領(lǐng)域.An等[8]提出ECISNet(Effectiveness Guided Cross-Modal Informa-tion Sharing Network),設(shè)計(jì)CIS(Cross-Modal Infor-mation Sharing),增強(qiáng)特征提取能力.Sun等[9]提出UA-CMDet(Uncertainty-Aware Cross-Modality Vehicle Detection),提高復(fù)雜環(huán)境中車(chē)輛目標(biāo)的檢測(cè)性能.Yuan等[10]提出TSFADet(Two-Stream Feature Align-ment Detector),對(duì)齊兩個(gè)模態(tài)特征之間的偏差,降低跨模態(tài)錯(cuò)位的影響.孫穎等[11]提出基于雙模態(tài)融合網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法,通過(guò)門(mén)控融合網(wǎng)絡(luò)調(diào)整兩路特征的權(quán)重分配,實(shí)現(xiàn)跨模態(tài)特征融合.Zhang等[12]提出SuperYOLO,利用跨模態(tài)融合模塊,在數(shù)據(jù)中提取互補(bǔ)信息.Fang等[13]提出CFT(Cross-Mo-dality Fusion Transformer),提高多光譜目標(biāo)檢測(cè)性能.Zhao等[14]提出CDDFuse(Correlation-Driven Fea-ture Decomposition Fusion),用于多模態(tài)圖像融合.Zhu等[15]提出MFPT(Multi-modal Feature Pyramid Transformer),通過(guò)模態(tài)內(nèi)和模態(tài)間的transformer特征金字塔學(xué)習(xí)語(yǔ)義和模態(tài)互補(bǔ)信息.Shao等[16]提出MOD-YOLO(Multispectral Object Detection Based on Transformer Dual-Stream ),使用CSP(Cross Stage Par-tial)融合不同層中的學(xué)習(xí)特征信息.Bao等[17]提出Dual-YOLO,設(shè)計(jì)D-Fusion(Dual-Fusion),用于減少冗余融合特征信息.Fu等[18]提出LRAF-Net(Feature-Enhanced Long-Range Attention Fusion Network),融合增強(qiáng)的可見(jiàn)光特征和紅外特征的遠(yuǎn)程依賴(lài)性,提高檢測(cè)性能.
盡管現(xiàn)有方法通過(guò)雙模態(tài)特征融合的方式提供互補(bǔ)信息,實(shí)現(xiàn)較好的目標(biāo)檢測(cè),但仍面臨一些挑戰(zhàn):1)光照和天氣等復(fù)雜環(huán)境因素會(huì)對(duì)傳感器產(chǎn)生干擾,這些干擾信息導(dǎo)致圖像對(duì)比度降低,產(chǎn)生低對(duì)比度噪聲.由于大霧、眩光、黑夜等復(fù)雜場(chǎng)景圖像具有低對(duì)比度的特點(diǎn),目標(biāo)大量邊緣混雜在復(fù)雜背景中,目標(biāo)提取結(jié)果中會(huì)出現(xiàn)大量背景噪聲,稱(chēng)為低對(duì)比度噪聲.在太陽(yáng)眩光和大燈眩光下,圖像受到過(guò)度曝光的影響,導(dǎo)致圖像中的亮部區(qū)域喪失細(xì)節(jié),對(duì)比度降低,造成細(xì)節(jié)無(wú)法分辨;在天氣陰沉或黑夜大霧時(shí)光線(xiàn)變暗,缺乏明顯的顏色和紋理,物體之間的差異變得不夠明顯;大雨天氣會(huì)導(dǎo)致光線(xiàn)散射,使圖像中的物體變得模糊,背景消失.因此,對(duì)于干擾信息的糾正與校準(zhǔn)應(yīng)有助于實(shí)現(xiàn)更準(zhǔn)確的特征融合.然而,現(xiàn)有方法通常未充分考慮這一思想,導(dǎo)致在此類(lèi)場(chǎng)景下的檢測(cè)性能不佳.2)當(dāng)同一對(duì)象處于不同的視角和位置時(shí),尺寸往往存在較大差異.因此,在對(duì)象尺寸較小時(shí),這種差異引起的圖像對(duì)比度降低將更明顯,僅通過(guò)互補(bǔ)信息和糾正低對(duì)比度噪聲無(wú)法緩解對(duì)象尺寸差異對(duì)檢測(cè)性能的影響,造成小尺寸目標(biāo)的誤檢或漏檢.
為了克服上述挑戰(zhàn),本文提出基于自引導(dǎo)注意力的雙模態(tài)校準(zhǔn)融合目標(biāo)檢測(cè)算法(Object Detec-tion Algorithm with Dual-Modal Rectification Fusion Based on Self-Guided Attention, DRF-SGA).考慮到Y(jié)OLOv5在檢測(cè)精度上的明顯優(yōu)勢(shì),DRF-SGA選擇YOLOv5作為基準(zhǔn)網(wǎng)絡(luò).以雙模態(tài)圖像作為輸入,用于實(shí)現(xiàn)輸入圖像的特征提取與目標(biāo)定位和分類(lèi).為了解決眩光、黑夜和大霧等復(fù)雜場(chǎng)景中的低對(duì)比度噪聲問(wèn)題,設(shè)計(jì)雙模態(tài)校準(zhǔn)融合網(wǎng)絡(luò)(Dual-Modal Rectification Fusion, DRF),利用通道特征和空間特征校準(zhǔn)建模輸入圖像(可見(jiàn)光圖像與紅外圖像)目標(biāo)位置和結(jié)構(gòu)間的一致性,從而糾正輸入圖像特征中的低對(duì)比度噪聲.然后,從糾正后的特征中獲取互補(bǔ)信息,并實(shí)現(xiàn)準(zhǔn)確的特征融合.為了有效識(shí)別小尺寸目標(biāo),構(gòu)建自引導(dǎo)注意力機(jī)制(Self-Guided Atten-tion, SGA),捕捉圖像像素之間的依賴(lài)關(guān)系,根據(jù)該依賴(lài)關(guān)系,融合具有不同尺度目標(biāo)的特征,實(shí)現(xiàn)小尺寸目標(biāo)檢測(cè).
本文提出基于自引導(dǎo)注意力的雙模態(tài)校準(zhǔn)融合目標(biāo)檢測(cè)算法(DRF-SGA),算法結(jié)構(gòu)如圖1所示.DRF-SGA主要分為兩部分.一部分將雙模態(tài)融合網(wǎng)絡(luò)(DRF)加入YOLOv5的特征提取網(wǎng)絡(luò)(Feature Extraction Network)中.其中,DRF由特征校準(zhǔn)模塊(Feature Rectification Module,FRM)與特征融合模塊(Feature Fusion Module, FFM)組成.為了糾正可見(jiàn)光特征和紅外特征中的低對(duì)比度噪聲并實(shí)現(xiàn)充分的特征融合,考慮到檢測(cè)器在80×80、40×40、20×20三層進(jìn)行定位和分類(lèi),將FRM和FFM組裝在特征提取網(wǎng)絡(luò)的80×80、40×40、20×20三層之間.
圖1 DRF-SGA結(jié)構(gòu)圖
另一部分將自引導(dǎo)注意力機(jī)制(SGA)組裝在YOLOv5的特征提取網(wǎng)絡(luò)和特征金字塔(Feature Pyramid Network, FPN)之間.該機(jī)制由Swin Trans-former模塊(ST)[19]、全局注意力模塊(Global Attention Mechanism, GAM)與BiFPN(Bi-directional FPN)[20]構(gòu)成.為了增強(qiáng)小目標(biāo)特征的分辨率,考慮到特征提取網(wǎng)絡(luò)和FPN末端的特征圖像分辨率較低,將ST分別替換特征提取網(wǎng)絡(luò)80×80、40×40、20×20三層以及特征金字塔40×40、20×20兩層中YOLOv5原有的C3模塊.為了避免小目標(biāo)特征縮減,考慮在特征提取網(wǎng)絡(luò)和FPN末端集成GAM,使模型保留更多的小目標(biāo)特征,將GAM添加到特征提取網(wǎng)絡(luò)的20×20層以及特征金字塔的80×80、40×40、20×20三層中.為了增強(qiáng)FPN對(duì)小目標(biāo)的檢測(cè)能力,考慮到BiFPN基本不增加成本并對(duì)模型參數(shù)量影響不大的同時(shí)使小目標(biāo)特征提取更充分,使用16倍下采樣后形成的40×40特征與后面的特征進(jìn)行跨層連接.最后由YOLOv5的檢測(cè)器實(shí)現(xiàn)目標(biāo)分類(lèi)和定位.
雙模態(tài)融合網(wǎng)絡(luò)(DRF)的關(guān)鍵在于其能夠從不同模態(tài)的信息中提取有用特征[21],并進(jìn)行有效融合和增強(qiáng),從而改善圖像質(zhì)量,幫助糾正低對(duì)比度噪聲問(wèn)題,提高圖像的可用性和可讀性.DRF結(jié)構(gòu)如圖2所示.
圖2 DRF結(jié)構(gòu)圖
FRM校準(zhǔn)可見(jiàn)光特征和紅外特征中的低對(duì)比度噪聲,糾正輸入圖像存在的低對(duì)比度噪聲,由可見(jiàn)光特征FRi和紅外特征FIi作為輸入.FFM在FRM之后,能夠?qū)崿F(xiàn)可見(jiàn)光特征和紅外特征之間互補(bǔ)信息的交換并進(jìn)行特征融合,FRM的輸出Pi作為特征金字塔的輸入.
FRM結(jié)構(gòu)如圖3所示.FRM經(jīng)過(guò)通道特征校準(zhǔn)和空間特征校準(zhǔn)兩階段,糾正雙模態(tài)圖像中的低對(duì)比度噪聲,實(shí)現(xiàn)更準(zhǔn)確的特征融合.
圖3 FRM結(jié)構(gòu)圖
具體地,針對(duì)成對(duì)的雙模態(tài)圖像,在通道特征校準(zhǔn)中,對(duì)于可見(jiàn)光圖像,從RGB通道中提取顏色特征信息.對(duì)于紅外圖像,從紅外波段中提取波段特征信息.并對(duì)通道特征信息進(jìn)行匹配和校準(zhǔn),以確保它們?cè)陬伾?、?duì)比度和亮度方面一致.將校準(zhǔn)后的可見(jiàn)光圖像和紅外圖像合并為一幅圖像,生成校準(zhǔn)后的雙模態(tài)圖像.
在空間特征校準(zhǔn)中,使用第一階段生成的校準(zhǔn)雙模態(tài)圖像作為輸入,從校準(zhǔn)后的雙模態(tài)圖像中提取空間特征,這些特征包括紋理、邊緣、結(jié)構(gòu)等.對(duì)提取的空間特征進(jìn)行增強(qiáng),提高圖像的對(duì)比度和細(xì)節(jié).將增強(qiáng)后的空間特征與校準(zhǔn)后的雙模態(tài)圖像融合,生成最終的糾正低對(duì)比度噪聲的圖像.
通過(guò)兩階段的處理,通道特征校準(zhǔn)確保顏色和亮度的一致性,而空間特征校準(zhǔn)增強(qiáng)圖像的結(jié)構(gòu)和對(duì)比度.從而FRM有效糾正雙模態(tài)圖像中的低對(duì)比噪聲,實(shí)現(xiàn)準(zhǔn)確特征融合.
在通道特征校準(zhǔn)階段,通過(guò)調(diào)整和校正雙模態(tài)圖像中不同通道之間的特征,消除低對(duì)比度噪聲并提高特征的一致性.
其中σ表示sigmoid函數(shù).
通道特征校準(zhǔn)結(jié)果:
其中·表示通道級(jí)別的乘法.
在空間特征校準(zhǔn)階段,通過(guò)調(diào)整和校正雙模態(tài)圖像中的空間特征,解決由于視角、尺度、旋轉(zhuǎn)等因素引起的不一致性.在雙模態(tài)圖像中,可能存在空間對(duì)齊不準(zhǔn)確的問(wèn)題,從而影響特征的一致性.通過(guò)空間特征校準(zhǔn)可以對(duì)圖像進(jìn)行幾何變換、配準(zhǔn)和對(duì)齊操作,使雙模態(tài)圖像中的目標(biāo)位置和結(jié)構(gòu)實(shí)現(xiàn)一致,從而更好地實(shí)現(xiàn)特征融合和目標(biāo)檢測(cè).
與通道校準(zhǔn)類(lèi)似,空間特征校準(zhǔn)結(jié)果為:
其中*表示空間級(jí)別上的乘法.
RGBout和IRout兩種模態(tài)的綜合校準(zhǔn)特征為:
其中,λC和λS表示兩個(gè)超參數(shù),都設(shè)為0.5.RGBout和IRout后面將進(jìn)入FFM進(jìn)行特征融合.
FFM結(jié)構(gòu)圖如圖4所示.FFM能夠從FRM糾正后的特征圖中獲取互補(bǔ)信息,并融合特征圖.因此,FFM分為互補(bǔ)信息交換階段和融合階段.
圖4 FFM結(jié)構(gòu)圖
在互補(bǔ)信息交換階段,兩個(gè)模態(tài)的特征通過(guò)對(duì)稱(chēng)結(jié)構(gòu)交換信息,利用雙模態(tài)圖像中的互補(bǔ)信息彌補(bǔ)各自模態(tài)的局限性,從而得到更全面和準(zhǔn)確的特征.此處選擇可見(jiàn)光通道RGB進(jìn)行說(shuō)明.
首先將維度為H×W×C的輸入特征經(jīng)過(guò)通道嵌入展平維度為N×C的特征,N=H×W.使用線(xiàn)性嵌入生成殘差向量Xrec和交互向量Xinter,維度為N×Ci.然后,由于自注意力輸入向量編碼為QueryQ,KeyK和ValueV,為了節(jié)省內(nèi)存占用,使用全局上下文向量G=KTV進(jìn)行計(jì)算,維度為Chead×Chead.
最后,Xinter嵌入每個(gè)頭的K和V中,維度為N×Chead.另一模態(tài)的輸出由交互向量和全局上下文向量相乘獲得.全局上下文向量為:
信息交換后的結(jié)果為:
其中Softmax(·)表示歸一化函數(shù).將結(jié)果向量U和殘差向量Xrec連接后并應(yīng)用線(xiàn)性嵌入將特征維度調(diào)整成維度為H×W×C的特征.最后將信息交換后的特征與輸入特征加權(quán)規(guī)范化,為融合階段做準(zhǔn)備.
在融合階段,通過(guò)1×1卷積層實(shí)現(xiàn)合并兩種模態(tài)的特征.采用深度卷積層DWConv3×3實(shí)現(xiàn)跳接結(jié)構(gòu),將維度為H×W×2C的合并特征融入維度為H×W×C的輸出中進(jìn)行特征解碼.融合后的特征使用EBAM(Entropy-Block Attention Module)[22]增強(qiáng)魯棒性.EBAM依次由1D通道注意力AC∈RC×1×1和2D空間注意力AS∈R1×W×H組成.輸入特征F后中間狀態(tài)為:
F′=AC(F)?F,
其中?表示張量積.最終輸出特征為:
F″=AS(F′)?F′.
通道注意力強(qiáng)調(diào)賦予更多權(quán)重給不確定的特征,在反向傳播中優(yōu)先考慮梯度方向,以提取更多信息.計(jì)算通道注意力如下:
Ac(F)=σ(MLP(E(F))),
其中,σ(·)表示sigmoid函數(shù),E(·)表示熵矩陣,MLP(·)表示多層感知機(jī).
在空間注意力中,賦予更多的權(quán)重給熵值較小的網(wǎng)絡(luò)有助于提高網(wǎng)絡(luò)性能.基于熵的空間注意力為:
其中Eij表示位于第i行和第j列網(wǎng)格的熵矩陣.
為了進(jìn)一步解決小尺寸的目標(biāo)檢測(cè)問(wèn)題, 采用SGA機(jī)制,具體情況如下.
ST利用移動(dòng)窗口進(jìn)行跨窗口連接和跨窗口的特征交互,提取具有較強(qiáng)表征能力的特征以有效提高小尺寸目標(biāo)特征提取能力.其關(guān)鍵是指在特征圖內(nèi)每個(gè)像素需要與所有像素進(jìn)行關(guān)聯(lián)計(jì)算,所有像素都需要通過(guò)變換矩陣Wq,Wk,Wv生成對(duì)應(yīng)的qi,ki,vi,將qi和所有ki進(jìn)行相關(guān)性計(jì)算后通過(guò)歸一化處理,權(quán)重系數(shù)和vi進(jìn)行加權(quán)求和,得到最終的注意力機(jī)制:
其中,Q、K、V表示注意力機(jī)制中所需的三個(gè)向量,分別為Query,Key和Value.
GAM能關(guān)注圖像中的關(guān)鍵特征點(diǎn),捕捉圖像像素之間的依賴(lài)關(guān)系,從而更好地結(jié)合不同尺度下的小目標(biāo)特征.其過(guò)程如下:在通道注意力中,維度為C×W×H的輸入特征F1先采用三維通道置換的方式保存信息維度為W×H×C,再通過(guò)一個(gè)MLP,經(jīng)過(guò)sigmoid函數(shù),得到權(quán)重MC.在空間注意力中,輸入特征F2使用兩個(gè)7×7卷積層,同樣經(jīng)由sigmoid函數(shù)得到權(quán)重MS.過(guò)程如下:
其中,?表示張量積,F1表示輸入特征,F2表示中間狀態(tài),F3表示輸出特征,MC(·)表示通道注意力模塊,MS(·)表示空間注意力模塊.
當(dāng)融合不同分辨率特征圖時(shí),通常是先調(diào)整它們的大小以達(dá)到相同的分辨率,再求和.然而不同分辨率的輸入特征對(duì)輸出端的影響并不相同.因此,需要為不同的輸入特征設(shè)置可調(diào)節(jié)的權(quán)重系數(shù).BiFPN能根據(jù)每個(gè)輸入特征的影響程度設(shè)置不同的權(quán)重.采用加權(quán)特征融合的方法為每個(gè)特征引入額外權(quán)重,增強(qiáng)不同尺度間上下文信息的融合能力,同時(shí)保留更多小目標(biāo)的特征信息.使用歸一化融合公式約束每個(gè)權(quán)重的大小,最終輸出特征為:
其中,ωi、ωj表示可以學(xué)習(xí)的權(quán)重大小,ε=0.000 1,是避免數(shù)值不穩(wěn)定的小數(shù)值,Ii表示輸入特征.
實(shí)驗(yàn)平臺(tái)為一臺(tái)裝有 NVIDIA Tesla V100 的 Linux 服務(wù)器,運(yùn)行 Ubuntu20.04 操作系統(tǒng).實(shí)驗(yàn)環(huán)境配置包括 CUDA 11.7、PyThon 3.8 和 Pytorch 1.10.1.
采用KAIST[23]、LLVIP[24]行人數(shù)據(jù)集,FLIR、FLIR_v2行人車(chē)輛數(shù)據(jù)集和VEDAI[25]、Drone-Vehicle[9]航拍車(chē)輛數(shù)據(jù)集進(jìn)行算法評(píng)測(cè)實(shí)驗(yàn).
在KAIST數(shù)據(jù)集上,為了消除原始數(shù)據(jù)集上不準(zhǔn)確注釋對(duì)實(shí)驗(yàn)結(jié)果的影響,使用經(jīng)過(guò)處理的多光譜行人檢測(cè)數(shù)據(jù)集[26].該數(shù)據(jù)集包含7 601對(duì)用于訓(xùn)練的RGB-Thermal圖像和2 252對(duì)用于測(cè)試的圖像.經(jīng)過(guò)凈化的數(shù)據(jù)集消除原始訓(xùn)練中的注釋錯(cuò)誤,確保測(cè)試集注釋的準(zhǔn)確性,以便進(jìn)行公平對(duì)比.
LLVIP數(shù)據(jù)集為低光視覺(jué)可見(jiàn)光紅外配對(duì)行人數(shù)據(jù)集,包括12 025個(gè)配對(duì)訓(xùn)練圖像和3 463個(gè)配對(duì)測(cè)試圖像,其中大部分圖像是在非常黑暗的場(chǎng)景下拍攝的.此外,所有圖像都是嚴(yán)格時(shí)空對(duì)齊的,確保實(shí)驗(yàn)結(jié)果的準(zhǔn)確性.
FLIR數(shù)據(jù)集(https://www.flir.com/oem/adas/adas-dataset-form)為多光譜目標(biāo)檢測(cè)數(shù)據(jù)集,包括白天場(chǎng)景和夜晚場(chǎng)景.原始數(shù)據(jù)集中存在大量未對(duì)齊的圖像對(duì),使網(wǎng)絡(luò)訓(xùn)練變得困難.最近發(fā)布的“對(duì)齊”版本[5],手動(dòng)刪除未對(duì)齊的可見(jiàn)熱圖像對(duì).新的數(shù)據(jù)集包含5 142個(gè)對(duì)齊良好的多光譜圖像對(duì),涵蓋3個(gè)對(duì)象類(lèi)別(人、汽車(chē)、自行車(chē)),其中4 129對(duì)圖像用于訓(xùn)練,1 013對(duì)圖像用于測(cè)試.為了提高邊界框的準(zhǔn)確性和從原始數(shù)據(jù)集上恢復(fù)更多的數(shù)據(jù),采用交叉標(biāo)簽算法[22]執(zhí)行預(yù)處理步驟.進(jìn)一步對(duì)齊的數(shù)據(jù)集分別有6 924對(duì)和1 982對(duì)圖像用于訓(xùn)練和驗(yàn)證.
Teledyne FLIR紅外熱傳感器可以在具有挑戰(zhàn)性的條件下進(jìn)行檢測(cè)和分類(lèi),包括完全黑暗、大多數(shù)霧、煙霧、惡劣天氣和眩光.FLIR_v2數(shù)據(jù)集(https://www.flir.com/oem/adas/adas-dataset-form)的標(biāo)簽已經(jīng)擴(kuò)展到15類(lèi),注釋幀總數(shù)擴(kuò)展到26 442個(gè).其中訓(xùn)練集上可見(jiàn)圖像為9 233幅,紅外圖像為9 711幅,驗(yàn)證集上可見(jiàn)光圖像為3 749幅,紅外圖像為3 749幅,比v1版本增加83%.由于數(shù)據(jù)集上存在大量未對(duì)齊的可見(jiàn)光圖像和紅外圖像對(duì),因此選定標(biāo)簽為人和車(chē),并從中選擇7 044對(duì)紅外可見(jiàn)光匹配對(duì)作為訓(xùn)練集,3 749對(duì)視頻幀匹配對(duì)作為驗(yàn)證集.調(diào)整紅外和可見(jiàn)光數(shù)據(jù)對(duì),最終得到10 793對(duì)配準(zhǔn)良好的匹配對(duì).
VEDAI數(shù)據(jù)集為航空?qǐng)D像車(chē)輛檢測(cè)數(shù)據(jù)集,其特點(diǎn)是表現(xiàn)出多種不同的變化,如多方向、燈光/陰影變化、反射或閉塞等.數(shù)據(jù)集共包含1 246個(gè)圖像對(duì),其中997對(duì)圖像用于訓(xùn)練,249對(duì)圖像用于驗(yàn)證.數(shù)據(jù)集的小體積可以提高訓(xùn)練和驗(yàn)證的效率,而數(shù)據(jù)集上的各種變化可以幫助提高算法的魯棒性和泛化性能.這些特點(diǎn)使得該數(shù)據(jù)集成為一個(gè)有價(jià)值的測(cè)試平臺(tái),可以評(píng)估車(chē)輛檢測(cè)算法在各種復(fù)雜場(chǎng)景下的性能表現(xiàn).
DroneVehicle數(shù)據(jù)集為天津大學(xué)推出的一個(gè)大型無(wú)人機(jī)航拍車(chē)輛數(shù)據(jù)集,特點(diǎn)包括:拍攝環(huán)境覆蓋從白天到晚上的時(shí)間段;提供可見(jiàn)光圖像和紅外圖像;數(shù)據(jù)集上包含15 532對(duì)(共31 064幅)圖像,其中包含441 642個(gè)標(biāo)注實(shí)例;數(shù)據(jù)集上存在真實(shí)環(huán)境下的遮擋和尺度變化.該數(shù)據(jù)集上有17 990對(duì)圖像用作訓(xùn)練集,1 469對(duì)圖像用作驗(yàn)證集.
算法評(píng)價(jià)指標(biāo)為平均檢測(cè)精度(Mean Average Precision, mAP),包括交并比(Intersection over Union, IoU) 為0.5 的mAP(記為mAP@0.5)和 0.5∶0.95的 mAP(記為mAP@[0.5∶0.95]).
將本文算法與近幾年具有代表性的單模態(tài)目標(biāo)檢測(cè)算法和多模態(tài)目標(biāo)檢測(cè)算法進(jìn)行對(duì)比,驗(yàn)證本文算法的有效性.
在KAIST、LLVIP行人檢測(cè)數(shù)據(jù)集上,選擇如下算法.1)單模態(tài)目標(biāo)檢測(cè)算法:FCOS[1]、YOLOv5、YOLOv7.2)雙模態(tài)目標(biāo)檢測(cè)算法:MBNet[3]、TC Det[4]、CFR[5]、 ECISNet[8]、UA-CMDet[9]、文獻(xiàn)[11]算法、Dual-YOLO[17]、LRAF-Net[18].
各算法的指標(biāo)值結(jié)果如表1所示,表中黑體數(shù)字表示最優(yōu)值.由表可見(jiàn),相比雙模態(tài)算法,在KAIST數(shù)據(jù)集上,DRF-SGA在mAP@0.5指標(biāo)上分別比MBNet、TC Det、CFR、 ECISNet、文獻(xiàn)[11]算法和Dual-YOLO提升4.2%、5.2%、4.0%、3.8%、 2.0%和3.3%.在LLVIP數(shù)據(jù)集上,DRF-SGA在mAP@0.5指標(biāo)上分別比MBNet、TC Det、CFR、ECISNet 和UA-CMDet提升3.2%、2.4%、3.6%、0.7%和0.1%.對(duì)比算法由于忽略糾正輸入圖像的低對(duì)比噪聲,無(wú)法實(shí)現(xiàn)良好的特征融合.與上述方法不同的是,DRF-SGA能夠建模輸入可見(jiàn)光圖像與紅外圖像目標(biāo)位置和結(jié)構(gòu)間的一致性,從而準(zhǔn)確實(shí)現(xiàn)特征融合.
在FLIR、FLIR_v2行人車(chē)輛檢測(cè)數(shù)據(jù)集上,選擇如下雙模態(tài)目標(biāo)檢測(cè)算法:CFR[5]、GAFF(Guided Attentive Feature Fusion)[6]、文獻(xiàn)[7]算法、 UA-CMDet[9]、SuperYOLO[12]、CFT[13]、MFPT[15]、MOD-YOLO[16]、Dual-YOLO[17]、LRAF-Net[18].
各算法的指標(biāo)值對(duì)比如表2所示,表中黑體數(shù)字表示最優(yōu)值.由表可得,在FLIR數(shù)據(jù)集上,DRF-SGA在mAP@0.5指標(biāo)上分別比CFR、GAFF、文獻(xiàn)[7]算法、UA-CMDet、SuperYOLO、CFT、MFPT、Dual-YOLO和LRAF-Net提升12.6%、11.2%、12.9%、6.4%、0.9%、7.3%、8.2%、0.5%、4.5%.在FLIR_v2數(shù)據(jù)集上,DRF-SGA在mAP@0.5指標(biāo)上比UA-CMDet、SuperYOLO和CFT提升3.6%、2.0%、3.3%.對(duì)比算法由于忽略對(duì)象尺寸差異,檢測(cè)效果略差.DRF-SGA能更好地關(guān)注不同視角和位置下相同目標(biāo)不同尺寸的差異,有效提高檢測(cè)精度.
表2 各算法在FLIR、FLIR_v2數(shù)據(jù)集上的指標(biāo)值對(duì)比
對(duì)于VEDAI、DroneVehicle航拍車(chē)輛數(shù)據(jù)集,選擇如下對(duì)比算法.1)單模態(tài)目標(biāo)檢測(cè)算法:FCOS[1]、YOLOv5、YOLOv7.2)多模態(tài)目標(biāo)檢測(cè)算法:TC Det[4]、CFR[5]、ECISNet[8]、TSFADet[10]、SuperYOLO[12]、CFT[13].
各算法的指標(biāo)值對(duì)比如表3所示,表中黑體數(shù)字表示最優(yōu)值.由表可觀察到,在VEDAI數(shù)據(jù)集上,DRF-SGA在mAP@0.5指標(biāo)上比TC Det和CFT分別提升14.9%和0.3%.在DroneVehicle數(shù)據(jù)集上,DRF-SGA在mAP@0.5指標(biāo)上比TC Det、CFR、ECISNet、TSFADet、SuperYOLO和CFT分別提升15.7%、9.9%、7.8%、10.74%、1.8%和0.6%.由于現(xiàn)有雙模態(tài)目標(biāo)檢測(cè)算法更傾向于輸入圖像特征之間的充分融合,因此通常忽略探索不同像素之間的依賴(lài)關(guān)系,導(dǎo)致尺寸較小的目標(biāo)不能得到有效檢測(cè).DRF-SGA卻能捕捉圖像像素之間的依賴(lài)關(guān)系,根據(jù)該依賴(lài)關(guān)系,融合具有不同尺度目標(biāo)的特征,提高小尺寸目標(biāo)檢測(cè)的效果.
表3 各算法在VEDAI、DroneVehicle數(shù)據(jù)集上的指標(biāo)值對(duì)比
為了更直觀地對(duì)比,SuperYOLO、CFT、DRF-SGA的可視化結(jié)果如圖5所示.由圖可知,SuperYOLO存在錯(cuò)檢情況,如第二幅圖像和第四幅圖像中將van誤檢為car.CFT會(huì)有部分漏檢情況,例如第一幅圖像未檢測(cè)到bus,第三幅圖像未檢測(cè)到freight.值得注意的是,DRF-SGA可以有效檢測(cè)復(fù)雜場(chǎng)景中尺寸較小的目標(biāo),這種優(yōu)異的檢測(cè)效果得益于DRF-SGA在糾正雙模態(tài)特征中低對(duì)比噪聲的同時(shí)有效緩解目標(biāo)尺寸變換較大帶來(lái)的影響.
本節(jié)在行人、行人車(chē)輛以及航拍車(chē)輛這6個(gè)數(shù)據(jù)集上分別進(jìn)行消融實(shí)驗(yàn).為了驗(yàn)證不同組件的有效性,設(shè)計(jì)基線(xiàn)為簡(jiǎn)單相加可見(jiàn)光特征和紅外特征提取網(wǎng)絡(luò)的算法,記為YOLOv5-Add.在YOLOv5-Add上加入FFM和FRM以驗(yàn)證DRF的有效性,記為YOLOv5-Add-DRF.在此基礎(chǔ)上加入ST、GAM和BiFPN以驗(yàn)證SGA的有效性,記為YOLOv5-Add-DRF-SGA.
各算法在6個(gè)數(shù)據(jù)集上的指標(biāo)值對(duì)比如表4所示,表中黑體數(shù)字表示最優(yōu)值.由表可見(jiàn),針對(duì)含有目標(biāo)尺度變換不大的行人和行人車(chē)輛檢測(cè)數(shù)據(jù)集,通過(guò)DRF糾正大霧、黑夜以及眩光引起的對(duì)比度降低產(chǎn)生的噪聲,可以有效改善行人及車(chē)輛的檢測(cè)精度.在KAIST數(shù)據(jù)集上, YOLOv5-Add在mAP@0.5和mAP@[0.5∶0.95]指標(biāo)上分別為72.5%和33.2%;添加DRF糾正低對(duì)比度噪聲后,算法在檢測(cè)精度上提升3.1%和1.9%.在LLVIP數(shù)據(jù)集上,YOLOv5-Add在mAP@0.5和mAP@[0.5∶0.95]指標(biāo)上分別為95.5%和60.7%;加入DRF后檢測(cè)精度分別提升0.4%和2.1%.在FLIR_v2數(shù)據(jù)集上,相比YOLOv5-Add,YOLOv5-Add-DRF的mAP@0.5和mAP@[0.5∶0.95]指標(biāo)分別提升2.5%和1.1%.在小目標(biāo)較多的行人車(chē)輛和航拍車(chē)輛數(shù)據(jù)集上,糾正低對(duì)比度噪聲可以提升部分目標(biāo)的檢測(cè)精度,但一些尺寸差異較大的目標(biāo)仍存在誤檢測(cè)或漏檢的情況.添加SGA可以有效緩解尺度較小目標(biāo)引起的對(duì)比度降低帶來(lái)的影響.為了驗(yàn)證SGA中ST和GAM的有效性,在DRF中分別加入ST和GAM,分別記為DRF-ST和DRF-ST-GAM.
表4 各算法在5個(gè)數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果
DRF添加不同組件后的指標(biāo)值對(duì)比如表5所示,由表可見(jiàn),在FLIR 數(shù)據(jù)集上,相比DRF,DRF-ST在mAP@0.5和mAP@[0.5∶0.95]指標(biāo)上分別提升0.6%和0.5%,添加GAM后再次提升0.6%和0.9%,這得益于GAM關(guān)注圖像中的關(guān)鍵特征點(diǎn)并捕捉圖像像素之間的依賴(lài)關(guān)系,使小尺寸目標(biāo)自行車(chē)的檢測(cè)效果變優(yōu).在全部都是小尺寸目標(biāo)的航拍車(chē)輛數(shù)據(jù)集上增添SGA后檢測(cè)精度的提升效果更為明顯.在VEDAI數(shù)據(jù)集上,DRF的mAP@0.5和mAP@[0.5∶0.95]指標(biāo)分別為71.2%和42.1%.加入ST后,可提取具有較強(qiáng)表征能力的特征,提高小尺寸目標(biāo)特征提取能力,使檢測(cè)精度分別提升0.5%和0.4%;加入GAM結(jié)合不同尺度下目標(biāo)特征后,檢測(cè)精度再次提升0.8%和0.4%.在DroneVehicle數(shù)據(jù)集上,DRF的mAP@0.5和mAP@[0.5∶0.95]指標(biāo)分別為82.4%和55.6%;添加ST后,檢測(cè)精度提升0.5%和0.6%;而加入GAM后,檢測(cè)精度再次提升0.6%和0.5%.為了更直觀地對(duì)比檢測(cè)結(jié)果,DRF-SGA部分可視化結(jié)果如圖6所示.
表5 SGA上不同組件在6個(gè)數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果
(a)DRF-SGA(RGB)
由圖6可見(jiàn),在大霧天氣能見(jiàn)度極低時(shí),DRF-SGA可以檢測(cè)到行人和車(chē)輛.在太陽(yáng)眩光和大燈眩光下,DRF-SGA能夠檢測(cè)到對(duì)面的車(chē)輛.在具有冷熱物體的繁忙城市環(huán)境中,DRF-SGA可以檢測(cè)到所有冷熱物體.在雨滴的積聚導(dǎo)致難以識(shí)別物體的光條紋情況下,DRF-SGA可以有效檢測(cè)到車(chē)輛.值得注意的是,這種優(yōu)異的檢測(cè)效果得益于DRF和SGA對(duì)于雙模態(tài)網(wǎng)絡(luò)模型帶來(lái)的有效改善.
本文提出基于自引導(dǎo)注意力的雙模態(tài)校準(zhǔn)融合目標(biāo)檢測(cè)算法(DRF-SGA).算法充分利用不同模態(tài)之間的內(nèi)在互補(bǔ)性,降低光照和環(huán)境等因素帶來(lái)的圖像低對(duì)比度噪聲,增強(qiáng)算法在眩光、黑夜、大霧等復(fù)雜場(chǎng)景下的檢測(cè)精度.另外,算法可以緩解復(fù)雜場(chǎng)景下對(duì)象的尺度差異,有效減少小尺寸目標(biāo)誤檢和漏檢的情況.在經(jīng)典的雙模態(tài)行人、行人車(chē)輛、航拍車(chē)輛數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,DRF-SGA具有較優(yōu)的檢測(cè)性能.本文使用的校準(zhǔn)融合模塊和自引導(dǎo)注意力在優(yōu)化特征信息的同時(shí),也帶來(lái)較多的參數(shù)量.今后將嘗試設(shè)計(jì)更通用、輕量級(jí)的模型,在發(fā)揮兩者優(yōu)勢(shì)的同時(shí)避免耗費(fèi)更多的資源,并且計(jì)劃將輕量化的模型部署在邊緣計(jì)算平臺(tái)以實(shí)現(xiàn)實(shí)時(shí)雙模態(tài)目標(biāo)檢測(cè).