趙曉楓, 徐葉斌,*, 吳 飛, 牛家輝, 蔡 偉, 張志利
(1. 火箭軍工程大學(xué)導(dǎo)彈工程學(xué)院, 陜西 西安 710025;. 兵器發(fā)射理論與技術(shù)國家重點(diǎn)學(xué)科實(shí)驗(yàn)室, 陜西 西安 710025)
紅外輻射是物體的固有屬性,當(dāng)物體溫度高于絕對零度時(shí),就會向外輻射熱量,因此可以對目標(biāo)的紅外特征進(jìn)行全天時(shí)的探測與識別。當(dāng)前根據(jù)物體的紅外特征對目標(biāo)進(jìn)行準(zhǔn)確且實(shí)時(shí)的檢測,已成為軍事偵察、視頻檢測、偽裝防護(hù)等領(lǐng)域重點(diǎn)關(guān)注的問題。
基于傳統(tǒng)方法的紅外目標(biāo)檢測,主要應(yīng)用在空基小目標(biāo)的偵察和預(yù)警,以單幀紅外目標(biāo)檢測和多幀紅外目標(biāo)檢測(又稱序列紅外目標(biāo)檢測)為主。近年來,深度學(xué)習(xí)的興起,產(chǎn)生了基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的目標(biāo)檢測方法,這類方法通過直接構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)對圖像特征進(jìn)行提取、分類和目標(biāo)預(yù)測,提升了檢測精度和檢測速度,降低了誤檢和漏檢率?;贑NN的目標(biāo)檢測算法主要分為區(qū)域CNN(region-CNN, R-CNN)、Fast R-CNN、Faster R-CNN、Mask R-CNN、Cascade R-CNN等基于候選區(qū)域的兩階段目標(biāo)檢測算法和SSD(single shot multibox detector)、RetinaNet、YOLO等基于回歸的一階段目標(biāo)檢測方法。兩階段的目標(biāo)檢測算法先將圖像輸入主干網(wǎng)絡(luò)進(jìn)行特征提取,選出待檢測區(qū)域,再進(jìn)行目標(biāo)分類和預(yù)測框回歸對目標(biāo)進(jìn)行檢測。該類算法在增加網(wǎng)絡(luò)計(jì)算復(fù)雜度和犧牲速度的前提下,使目標(biāo)檢測模型保持較好的檢測精度,但實(shí)時(shí)性較差。以YOLO為代表的一階段目標(biāo)檢測算法則是通過遍歷將預(yù)測框與真實(shí)框相關(guān)聯(lián),利用IOU(intersection over union)機(jī)制將相關(guān)度量化并使用最大值抑制機(jī)制抑制關(guān)聯(lián)度不高的預(yù)測框,采用該類目標(biāo)檢測算法對目標(biāo)進(jìn)行檢測時(shí),減少了候選區(qū)域提取過程,能夠滿足較多場景下實(shí)時(shí)檢測的需求,被廣泛應(yīng)用。
將基于CNN的目標(biāo)檢測算法應(yīng)用到紅外目標(biāo)的檢測中,降低誤檢和漏檢率,已經(jīng)成為紅外探測領(lǐng)域的研究熱點(diǎn)。苗壯等提出了一種基于關(guān)鍵點(diǎn)的快速紅外目標(biāo)檢測算法,通過壓縮模型尺寸,提高了對紅外小目標(biāo)的檢測速度。吳雙忱等提出了基于全CNN的紅外小目標(biāo)檢測算法,該算法實(shí)現(xiàn)了在復(fù)雜背景下對低信噪比且存在運(yùn)動模糊目標(biāo)的檢測。劉俊明等提出了基于全CNN和視覺顯著性的紅外小目標(biāo)檢測,并引入注意力機(jī)制實(shí)現(xiàn)對空基復(fù)雜環(huán)境下的紅外小目標(biāo)檢測。Dong等將視覺注意力機(jī)制應(yīng)用到了海面紅外目標(biāo)的檢測,明顯降低了虛警率。Du等通過重新設(shè)計(jì)錨框,減小噪聲的影響,針對空中目標(biāo)進(jìn)行檢測。梁杰等通過網(wǎng)絡(luò)特征層的合并和引入中心損失函數(shù)對YOLOv2算法進(jìn)行改進(jìn),實(shí)現(xiàn)對煙幕遮擋的目標(biāo)進(jìn)行檢測,提高制導(dǎo)精度。Hu等通過融合多尺度特征和局部二進(jìn)制紋理分析的方法,對入侵的紅外小目標(biāo)進(jìn)行檢測。Zhao等將YOLOv3與雙向特征融合的多尺度特征融合方式相結(jié)合,增強(qiáng)信息的重利用,實(shí)現(xiàn)對地面背景下的紅外目標(biāo)進(jìn)行檢測。
本文針對復(fù)雜地面背景下干擾因素多,目標(biāo)檢測易受影響的問題,通過多尺度池化對網(wǎng)絡(luò)最后一層輸出特征進(jìn)行池化處理,并使用跳躍連接將池化前和池化后的特征融合,增強(qiáng)特征的重利用,從而增加模型的全局信息感知能力,減小環(huán)境背景對目標(biāo)檢測任務(wù)的干擾;以平滑標(biāo)簽的方式降低單目標(biāo)置信度,提出平滑焦點(diǎn)損失函數(shù)(soft focal loss,S-FL)。從而避免對圖像內(nèi)其他目標(biāo)造成忽視,產(chǎn)生漏檢誤檢的情況,同時(shí)優(yōu)化地面復(fù)雜環(huán)境對目標(biāo)檢測產(chǎn)生的干擾。最終構(gòu)造了基于全局感知機(jī)制的Infrared-YOLO紅外目標(biāo)檢測方法,提高了對地面背景下紅外目標(biāo)的檢測精度,并實(shí)現(xiàn)了實(shí)時(shí)檢測。
基于全局感知機(jī)制的目標(biāo)檢測模型如圖1所示,包含骨干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和目標(biāo)預(yù)測網(wǎng)絡(luò)3個(gè)部分。輸入圖片首先在骨干網(wǎng)絡(luò)中進(jìn)行下采樣操作,降低特征圖大小,提取不同層次特征,并將最后一層輸出使用全局感知模塊進(jìn)行全局池化。再使用特征融合網(wǎng)絡(luò)進(jìn)行不同尺度特征的融合,實(shí)現(xiàn)低維空間信息和高維語義信息的互補(bǔ)。最后,將融合后的特征圖作為目標(biāo)預(yù)測網(wǎng)絡(luò)的輸入,進(jìn)行目標(biāo)分類和邊界框的回歸,完成目標(biāo)的檢測。
圖1 Infrared-YOLO網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of Infrared-YOLO
圖2是部分紅外圖像和可見光圖像的對比圖,從圖中可以看到,地面背景下可見光圖像比紅外圖像具有更多的細(xì)節(jié)特征和紋理特征。對于地面背景下的紅外車輛目標(biāo)而言,可見光圖像下目標(biāo)特征比較明顯。而紅外圖像中目標(biāo)特征被背景特征淹沒的情況,也存在背景特征與目標(biāo)特征相似度較高,極易混淆的情況。因此,增加了對目標(biāo)進(jìn)行準(zhǔn)確分類和定位的難度,出現(xiàn)漏檢和誤檢等情況,導(dǎo)致檢測精度不高。
圖2 可見光圖像與紅外圖像對比Fig.2 Comparison of visible light image and infrared image
為了提高模型對圖像的整體感受域,減少背景和目標(biāo)的誤判,設(shè)計(jì)了具有全局信息融合的金字塔池化模塊(spatial pyramid pooling module for global information fusion,GIF-SPP),如圖3所示。全局信息融合的金字塔池化模塊以主干網(wǎng)絡(luò)最后一個(gè)卷積層產(chǎn)生的特征圖作為輸入,考慮到最后一層特征圖經(jīng)過主干網(wǎng)絡(luò)32倍下采樣后,為10×10大小的高維特征,特征信息較多,使用以區(qū)域最大值作為代表信息的最大池化機(jī)制會導(dǎo)致部分信息丟失。因此,使用以平均值作為區(qū)域代表信息,且能夠?qū)斎雸D像進(jìn)行動態(tài)池化,產(chǎn)生特定大小輸出的自適應(yīng)平均池化操作對輸入特征進(jìn)行處理,減少重要信息的丟失,同時(shí)提升模型訓(xùn)練的穩(wěn)定性。
圖3 全局信息融合的金字塔池化模塊Fig.3 Pyramid pooling module for global information fusion
將輸入特征圖劃分為1×1、2×2、4×4、6×6共4個(gè)子區(qū)域進(jìn)行平均池化。其中1×1子區(qū)域?yàn)榈谝粚?在整個(gè)特征圖上執(zhí)行最粗略層次的池化操作,生成一個(gè)池化后的特征。藍(lán)色為第二層,將特征圖分割成2×2的子區(qū)域進(jìn)行平均池化。其余層依次類推,將特征映射分割到不同的子區(qū)域并形成不同尺度的池化表示,灰色為最后一層,將特征圖劃分為6×6的子區(qū)域,執(zhí)行最細(xì)層次的平均池化。經(jīng)過不同尺度的池化,不同級別的輸出形成多種尺度的特征映射。對不同層次池化特征,使用1×1的卷積進(jìn)行通道和維度調(diào)整,再經(jīng)過上采樣以雙線性差值的方式將尺度調(diào)整到原始特征圖大小。再使原始特征與池化后的特征通過跳躍連接的方式完成特征融合,最終形成了具有原始特征信息和池化后信息的融合輸出,使模型具有更強(qiáng)的全局感知能力。
交叉熵是香農(nóng)信息論中的重要概念,主要用于度量兩個(gè)概率分布間的差異性信息,在神經(jīng)網(wǎng)絡(luò)中將其作為損失函數(shù)結(jié)合反向傳播對模型進(jìn)行優(yōu)化。交叉熵?fù)p失函數(shù)會將所有樣本的損失都進(jìn)行求和計(jì)算,這樣會帶來兩個(gè)問題:一是簡單易分類樣本的損失很低,但大量損失計(jì)算累加到一起,對小樣本產(chǎn)生抑制作用,無法提取有效特征;二是在計(jì)算過程中,會激勵(lì)概率較大的類,結(jié)合反向傳播,使得模型對大樣本過度自信,對小樣本關(guān)注不足,導(dǎo)致泛化能力變差,降低模型的自適應(yīng)能力。針對傳統(tǒng)交叉熵?fù)p失函數(shù)存在的問題,焦點(diǎn)損失函數(shù)通過增加聚焦參數(shù),對大樣本的損失積累進(jìn)行抑制,關(guān)注小樣本目標(biāo),促使模型擁有更好的平衡能力。
針對紅外圖像的車輛目標(biāo)檢測任務(wù)中,存在背景特征與車輛特征相似度較高,以及紅外圖像中車輛目標(biāo)被路面特征淹沒,而導(dǎo)致誤檢、漏檢和檢測置信度不高的問題。本文將類別標(biāo)記轉(zhuǎn)換成獨(dú)熱向量形式,并將獨(dú)熱向量中置信度為1的項(xiàng)衰減,生成平滑標(biāo)簽。平滑后待檢測目標(biāo)的置信度降低,其他相鄰目標(biāo)獲得更多被檢測機(jī)會。獨(dú)熱向量的標(biāo)簽平滑定義如下:
′()=(1-),+()
(1)
式中:為衰減因子;為類別數(shù);()為一個(gè)概率分布,此處采用均勻分布。,定義為
(2)
最終,得到本文提出的S-FL,定義如下:
(3)
式中:
(4)
()為類別概率;′()為經(jīng)平滑后的指定類別;為聚焦參數(shù),可以平滑地調(diào)整簡單樣本的權(quán)重;=20,=025,=2,=01。
當(dāng)前,紅外圖像的公開數(shù)據(jù)集較難獲得,為了對提出的基于全局感知機(jī)制的紅外目標(biāo)檢測模型進(jìn)行訓(xùn)練和評估。本課題組使用光譜范圍為75~14 μm的紅外成像儀在不同時(shí)段、不同背景、不同氣候條件下拍攝公交車和小汽車的紅外圖像。通過圖像增強(qiáng)制成大小為320×320的待標(biāo)注圖像集,使用Labeling完成圖像的標(biāo)注,生成含有車輛位置和真實(shí)框?qū)捀咝畔⒌膞ml文件,最終制成包含公交車圖像761張、小汽車圖像1 336 張的Infrared-VOC320紅外數(shù)據(jù)集,并將訓(xùn)練集、驗(yàn)證集、測試集按7∶1∶2劃分。
為了驗(yàn)證紅外數(shù)據(jù)集的科學(xué)性和合理性,與公開的標(biāo)準(zhǔn)可見光數(shù)據(jù)集PASCAL VOC2007中各類樣本數(shù)量進(jìn)行對比。如圖4所示,其中黑色為Infrared-VOC320數(shù)據(jù)集中目標(biāo)類別和數(shù)量,灰色為PASCAL VOC2007數(shù)據(jù)集中目標(biāo)類別和數(shù)量。從圖4中可以看出,Infrared-VOC320數(shù)據(jù)集中小汽車和公交車的數(shù)量分別為1 336 張和761張,而PASCAL VOC2007數(shù)據(jù)集中數(shù)量少于761張圖像的有16類,表明Infrared-VOC320數(shù)據(jù)集中小汽車和公交車的數(shù)量可以用來進(jìn)行目標(biāo)檢測模型的訓(xùn)練和評估。
圖4 數(shù)據(jù)集數(shù)量關(guān)系對比圖Fig.4 Comparison of data set quantity relationship
為了評估本文改進(jìn)算法的性能,從準(zhǔn)確率、檢測速度、平均檢測精度(average precision, AP)和AP均值(mean AP, mAP)出發(fā),對本文改進(jìn)的算法和幾種主流算法進(jìn)行對比。同時(shí)引入空間復(fù)雜度、模型參數(shù)進(jìn)行消融實(shí)驗(yàn),探究各模塊對改進(jìn)模型的作用。
基于Infrared-VOC320數(shù)據(jù)集對Infrared-YOLO模型進(jìn)行訓(xùn)練時(shí),初始學(xué)習(xí)率為0.01,在迭代至第30次、第60次和第90次時(shí)分別縮小10倍,Batch size設(shè)為48,共迭代100次,完成模型的訓(xùn)練。文中實(shí)驗(yàn)平臺使用系統(tǒng)為Linux18.04,CPU為Inter Core i9-9900K CPU @3.60 GHz,GPU為Nvidia P6000,24 GB,在pytorch1.7.1框架下采用CUDA11.0和cudnn8.0.4.30進(jìn)行加速訓(xùn)練。
基于Infrared-VOC320數(shù)據(jù)集的不同目標(biāo)檢測算法實(shí)驗(yàn)結(jié)果如表1所示,Infrared-YOLO目標(biāo)檢測算法針對紅外目標(biāo)檢測的mAP達(dá)到80.1個(gè)百分點(diǎn),在一階段目標(biāo)檢測算法中,比YOLOv3高出4.4個(gè)百分點(diǎn),比SSD300高出9.7個(gè)百分點(diǎn)。通常一個(gè)具有實(shí)時(shí)性的模型,需要達(dá)到每秒30 FPS以上,本文檢測模型檢測速度達(dá)到56.4 FPS,能夠滿足實(shí)時(shí)檢測的需求。同時(shí)比二階段目標(biāo)檢測網(wǎng)絡(luò)Faster R-CNN高出4.5個(gè)百分點(diǎn),檢測速度是其8倍。上述實(shí)驗(yàn)證明Infrared-YOLO保持實(shí)時(shí)檢測速度的同時(shí)提升了針對地面紅外目標(biāo)檢測的平均精度。
表1 基于Infrared-VOC320數(shù)據(jù)集的不同目標(biāo)檢測算法實(shí)驗(yàn)結(jié)果
為了理解Infrared-YOLO中各改進(jìn)模塊對檢測效果的影響,表2是逐步增加相關(guān)改進(jìn)模塊的消融實(shí)驗(yàn),圖5是訓(xùn)練過程損失函數(shù)曲線圖。從表2中可以看到,YOLOv3目標(biāo)檢測模型的mAP為75.7個(gè)百分點(diǎn),AP差值為4.2個(gè)百分點(diǎn),基準(zhǔn)模型結(jié)合平滑焦點(diǎn)損失后,mAP提升至77.7個(gè)百分點(diǎn),AP間差值縮小至0.8個(gè)百分點(diǎn),表明本文設(shè)計(jì)的平滑焦點(diǎn)函數(shù)具有關(guān)注難分樣本的能力,并且提升了對目標(biāo)的平均檢測精度?;鶞?zhǔn)模型結(jié)合GIF-SPP模塊后,mAP提升了3.1個(gè)百分點(diǎn),類間差值減小到0.5個(gè)百分點(diǎn),驗(yàn)證了全局信息融合的金字塔池化模塊通過不同尺度的池化,增大了模型的感受野,提高了尺度不變性,并且能夠與原始特征進(jìn)行特征信息的互相補(bǔ)充,有利于檢測網(wǎng)絡(luò)對全局信息的感知,提升了檢測精度,此外全局感知模塊還能夠緩解樣本的不平衡。最終Infrared-YOLO的mAP達(dá)到80.1個(gè)百分點(diǎn),結(jié)合圖5和表2可以看出,通過損失函數(shù)和特征表征兩個(gè)方面的優(yōu)化,能夠提升模型的檢測精度和數(shù)據(jù)集平衡能力,加速模型收斂。
圖5 損失函數(shù)曲線對比Fig.5 Comparison of loss function curve
表2 基于Infrared-VOC320的消融實(shí)驗(yàn)
為了更進(jìn)一步比較全局信息融合的空間金字塔池化模塊與SPP模塊對于模型檢測精度提升的程度,進(jìn)行關(guān)于這兩種模塊的消融實(shí)驗(yàn)。使用原始YOLOv3為基準(zhǔn)模型,在相同位置使用不同的池化模塊進(jìn)行對比實(shí)驗(yàn),對比實(shí)驗(yàn)結(jié)果如表3所示。通過表3中的數(shù)據(jù)可以發(fā)現(xiàn),SPP模塊通過5×5、9×9、13×13這3個(gè)尺度對最后一層的特征輸出執(zhí)行最大池化操作,增大了模型的感受野,與YOLOv3模型相比,mAP提升了0.8%,空間復(fù)雜度比基準(zhǔn)模型提高了0.8,參數(shù)量幾乎保持不變;使用全局信息融合金字塔池化模塊的Infrared-YOLO目標(biāo)檢測模型,mAP比基準(zhǔn)模型提升了3.1個(gè)百分點(diǎn),參數(shù)量減少了20.4個(gè)百分點(diǎn),空間復(fù)雜度增加了17.3個(gè)百分點(diǎn)。通過對比發(fā)現(xiàn),本文中所使用的全局信息融合的金字塔池化模塊雖然增加了空間復(fù)雜度,需要更多的顯存對模型進(jìn)行訓(xùn)練,但GIF-SPP使用較小的池化子區(qū)域和全卷積對池化特征進(jìn)行連接,減少了模型的參數(shù)量,有利于模型后期的遷移和部署。
表3 SPP與GIF-SPP的對比實(shí)驗(yàn)
圖6是Infrared-YOLO和YOLOv3在Infrared-VOC測試集中對目標(biāo)的檢測結(jié)果。在第1、2、3行中,單張圖片內(nèi)具有多個(gè)目標(biāo)的情況,改進(jìn)后檢測模型的置信度明顯高于原始的YOLOv3算法;對于第4、5行圖片中,背景對目標(biāo)干擾較嚴(yán)重場景下,改進(jìn)后的目標(biāo)檢測模型依舊能夠?qū)δ繕?biāo)進(jìn)行較好的檢測;對于第6、7行圖片中遠(yuǎn)處相對較小的目標(biāo),原始YOLOv3算法存在因目標(biāo)的相互遮擋產(chǎn)生漏檢和將樹蔭當(dāng)作目標(biāo)造成誤檢的情況。檢測結(jié)果對比表明,改進(jìn)后的Infrared-YOLO目標(biāo)檢測模型能夠有效提升紅外目標(biāo)檢測的測置信度,優(yōu)化了地面紅外目標(biāo)受背景干擾導(dǎo)致的誤檢和漏檢問題。
圖6 Infrared-VOC320測試集上對目標(biāo)的檢測結(jié)果對比Fig.6 Detection results comparison of targets on the Infrared-VOC320 dataset
本文提出的基于全局感知機(jī)制的紅外目標(biāo)檢測模型通過全局信息融合的空間金字塔池化模塊,增強(qiáng)網(wǎng)絡(luò)對所提取特征的全局聯(lián)系,再結(jié)合S-FL降低單一目標(biāo)置信度,有效優(yōu)化了地面背景下紅外車輛目標(biāo)檢測準(zhǔn)確率不高、易漏檢誤檢的問題。在Infrared-VOC320數(shù)據(jù)集上平均檢測精度達(dá)到80.1%,與當(dāng)前主流的幾種目標(biāo)檢測模型相比表現(xiàn)出較好的檢測性能?;谌指兄獧C(jī)制的目標(biāo)檢測模型對地面紅外目標(biāo)的檢測具有較高檢測精度的同時(shí)實(shí)現(xiàn)了實(shí)時(shí)的檢測性能,對軍事偵察、偽裝防護(hù)等地面復(fù)雜背景下的紅外目標(biāo)檢測研究有著較好的借鑒意義。