王恒慧,曹 東,趙 楊,楊 陽(yáng)
(中國(guó)空氣動(dòng)力研究與發(fā)展中心計(jì)算空氣動(dòng)力研究所,四川 綿陽(yáng) 621000)
準(zhǔn)確且高效地定位出圖像中目標(biāo)所在位置,是目標(biāo)檢測(cè)的核心任務(wù),同時(shí)也是圖像識(shí)別、目標(biāo)分割、目標(biāo)跟蹤等任務(wù)的關(guān)鍵基礎(chǔ)。作為計(jì)算機(jī)視覺(jué)的研究重點(diǎn)和熱點(diǎn),目標(biāo)檢測(cè)技術(shù)在智能導(dǎo)航、智能駕駛、檢測(cè)監(jiān)視系統(tǒng)、航空航天、軍事國(guó)防等[1~4]諸多領(lǐng)域取得了顯著的成果,且其技術(shù)發(fā)展的成熟度決定了這些領(lǐng)域未來(lái)的發(fā)展方向。
當(dāng)前,可見(jiàn)光圖像以其豐富的顏色、紋理等特征占據(jù)目標(biāo)檢測(cè)領(lǐng)域的絕大部分,隨著計(jì)算機(jī)視覺(jué)的迅猛發(fā)展,基于可見(jiàn)光圖像的目標(biāo)檢測(cè)算法性能越來(lái)越高,應(yīng)用也越發(fā)廣泛。但可見(jiàn)光設(shè)備存在的成像距離有限、穿透能力差、夜間無(wú)法拍攝等問(wèn)題極大的制約了檢測(cè)領(lǐng)域的發(fā)展。相比而言,被動(dòng)接受物體發(fā)射的紅外波段電磁波成像的紅外探測(cè)系統(tǒng),其被動(dòng)接收、隱蔽性強(qiáng)等特點(diǎn)有效的解決了夜間監(jiān)視及遠(yuǎn)距離探測(cè)問(wèn)題。然而,當(dāng)前紅外圖像的目標(biāo)檢測(cè)技術(shù)還存在著巨大的技術(shù)短板,傳統(tǒng)檢測(cè)算法如基于濾波[5]的紅外弱小目標(biāo)檢測(cè)算法思路簡(jiǎn)單、計(jì)算量小,但只能在一定程度上起到抑制均勻背景的作用,無(wú)法不能解決復(fù)雜背景的問(wèn)題且檢測(cè)率低、魯棒性差;基于人類(lèi)視覺(jué)系統(tǒng)的檢測(cè)方法簡(jiǎn)單易于實(shí)現(xiàn),但是局限性大,檢測(cè)效果差;基于低秩稀疏恢復(fù)[6]的方法可以適應(yīng)信噪比較低的圖像,且對(duì)于比較復(fù)雜的異構(gòu)背景具有較高的可靠性,是目前使用最多效果最好的一類(lèi)算法,但其對(duì)于背景復(fù)雜且目標(biāo)較暗的紅外圖像處理時(shí)虛警率高且計(jì)算繁雜耗時(shí)長(zhǎng)。傳統(tǒng)算法作用有限但基于深度學(xué)習(xí)的紅外弱小目標(biāo)圖像檢測(cè)算法寥寥無(wú)幾,在人工智能飛速發(fā)展的今天,基于可見(jiàn)光圖像的深度學(xué)習(xí)目標(biāo)檢測(cè)算法取得越來(lái)越耀眼的成果,因此,借鑒基于可見(jiàn)光圖像的深度學(xué)習(xí)目標(biāo)檢測(cè)算法應(yīng)用于紅外圖像目標(biāo)檢測(cè)中,對(duì)于紅外圖像目標(biāo)檢測(cè)算法的發(fā)展極具發(fā)展前景。
文章首先介紹紅外弱小目標(biāo)的圖像特征,然后以可見(jiàn)光的目標(biāo)檢測(cè)算法為參考,依據(jù)網(wǎng)絡(luò)結(jié)構(gòu)以及設(shè)計(jì)思想的不同,將基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法分為候選框系列、回歸系列以及GAN系列網(wǎng)絡(luò)四種類(lèi)型進(jìn)行詳細(xì)介紹。
紅外線(xiàn)是波長(zhǎng)介于750 nm~1 mm之間的電磁波[7],任何高于絕對(duì)零度的物體都會(huì)主動(dòng)發(fā)射紅外波段的電磁波。紅外熱成像通過(guò)被動(dòng)的收集目標(biāo)發(fā)射的紅外輻射,將其繪制成圖像獲取信息,是一種不輻射電磁波的被動(dòng)式目標(biāo)探測(cè)跟蹤設(shè)備,具有全天侯工作、穿透云霧等惡劣天氣影響的能力,同時(shí)具有較強(qiáng)的抗干擾能力和隱蔽性,在目標(biāo)探測(cè)領(lǐng)域具有不可替代的作用,廣泛應(yīng)用于智能監(jiān)控、自動(dòng)駕駛、電力設(shè)施智能檢測(cè)、醫(yī)療生物、導(dǎo)彈制導(dǎo)、戰(zhàn)場(chǎng)偵察等領(lǐng)域[8]。
(1)為了盡早檢測(cè)到目標(biāo)的出現(xiàn),紅外探測(cè)系統(tǒng)在分辨率一定的情況下受視場(chǎng)選取、云層變化、多重背景疊加等各種因素的影響,背景極其復(fù)雜多變;
(2)紅外圖像中大部分的背景相關(guān)性極強(qiáng),呈現(xiàn)連續(xù)分布狀態(tài),中間不會(huì)出現(xiàn)過(guò)大的起伏,除了背景邊緣信息頻率較高以外,其他均屬于圖像中的低頻部分;
(3)紅外圖像中背景占據(jù)了絕大多部分像素,整個(gè)紅外圖像的灰度值主要集中在背景部分。
(1)由于成像距離遠(yuǎn),目標(biāo)所具有的能量會(huì)隨著距離的增大顯著降低,導(dǎo)致最后在圖像上顯示非常暗淡,因此,紅外弱小目標(biāo)非常容易淹沒(méi)在背景雜波和傳感器噪聲中,與背景沒(méi)有明顯的邊界,對(duì)比度較低;
(2)由于成像距離遠(yuǎn),探測(cè)的相對(duì)廣度就有所擴(kuò)大,小目標(biāo)非常稀疏,而背景則會(huì)占據(jù)圖像的絕大部分,導(dǎo)致了目標(biāo)區(qū)域和背景區(qū)域分布之間的嚴(yán)重不平衡。
(3)由于作用距離的限制,目標(biāo)往往所占的有效像素只有幾個(gè)或幾十個(gè),相比于如今分辨率越來(lái)越大的圖像而言,目標(biāo)有效像素比極小,通常表現(xiàn)為點(diǎn)狀或者斑點(diǎn)狀[9]。
相對(duì)于可見(jiàn)光圖像而言,紅外圖像不具備豐富的顏色信息,甚至于由于成像距離遠(yuǎn),紋理和結(jié)構(gòu)信息都不具備,對(duì)于背景復(fù)雜的紅外圖像,目標(biāo)的邊緣信息亦是難以清晰描述的,種種特質(zhì)無(wú)疑大大增加了紅外目標(biāo)的檢測(cè)難度,但也因此,紅外弱小目標(biāo)檢測(cè)方向擁有巨大的研究潛力,也必將是后續(xù)研究應(yīng)用的熱點(diǎn)之一。
候選框系列目標(biāo)檢測(cè)算法又稱(chēng)為T(mén)wo-Stage網(wǎng)絡(luò)算法,是指將輸入圖像通過(guò)相應(yīng)算法生成一定量的可能包含目標(biāo)位置的候選框圖像,然后將候選框圖像送入到檢測(cè)網(wǎng)絡(luò)中實(shí)現(xiàn)分類(lèi)與定位的網(wǎng)絡(luò)結(jié)構(gòu),在降低搜索計(jì)算量的同時(shí)顯著提高了檢測(cè)的準(zhǔn)確率。
R-CNN[10]首先將候選框和卷積神經(jīng)網(wǎng)絡(luò)有效結(jié)合,使得深度學(xué)習(xí)在目標(biāo)檢測(cè)領(lǐng)域取得重大突破,開(kāi)啟了目標(biāo)檢測(cè)算法新思路,為神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基石,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)通過(guò)預(yù)先使用Selective Search[11]算法選取候選框圖像縮小了檢測(cè)范圍,提升了目標(biāo)的檢測(cè)精度。但作為先驅(qū),候選框數(shù)量過(guò)多、固定尺寸的要求易導(dǎo)致圖像扭曲甚至丟失目標(biāo)、訓(xùn)練步驟復(fù)雜、檢測(cè)速度慢等缺陷使得R-CNN擁有巨大的提升空間。2016年,Faster R-CNN[12]網(wǎng)絡(luò)提出RPN(Region Proposal Network)生成候選框并引入具有多尺度和平移不變性的anchor機(jī)制、共享卷積特征等一系列的改進(jìn)措施既提升了候選框的質(zhì)量又降低了候選框的數(shù)量,同時(shí)還解決了目標(biāo)形變問(wèn)題,有效的提高了網(wǎng)絡(luò)的檢測(cè)性能,達(dá)到了17 f/s的準(zhǔn)實(shí)時(shí)檢測(cè)速度,并且成為首個(gè)真正意義上的端到端深度學(xué)習(xí)算法。
圖1 R-CNN網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)于紅外圖像而言,由于成像距離遠(yuǎn)且存在多場(chǎng)景多跨度等問(wèn)題影響,導(dǎo)致目標(biāo)呈現(xiàn)弱、小狀態(tài),并且像素分辨率占比極少。而前述候選框算法設(shè)計(jì)了深卷積網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致輸出特征圖分辨率低、信息流失嚴(yán)重,無(wú)法有效檢測(cè)小目標(biāo)。2016年,HyperNet[13]網(wǎng)絡(luò)考慮到淺層網(wǎng)絡(luò)特征圖分辨率高、細(xì)節(jié)完整但語(yǔ)義特征較少且深層網(wǎng)絡(luò)具有語(yǔ)義特征豐富但分辨率小、細(xì)節(jié)流失嚴(yán)重、定位性能較差等特點(diǎn),將淺層與深層網(wǎng)絡(luò)特征結(jié)合起來(lái)壓縮放至Hyper Feature空間中,保證了小目標(biāo)的信息完整性,隨后緊跟一個(gè)與非極大值抑制算法相結(jié)合的小型區(qū)域生成模塊,輸出定位更加準(zhǔn)確且相互重合度較低的候選框組合,最后送入檢測(cè)模塊中進(jìn)行最后的分類(lèi)與目標(biāo)精確定位,在高IOU的情況下小目標(biāo)檢測(cè)的mAP提高了3.1 %。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 HyperNet網(wǎng)絡(luò)結(jié)構(gòu)圖
基于候選框系列算法在目標(biāo)檢測(cè)中以高檢測(cè)率而聞名,在候選框系列算法不發(fā)展完善中,發(fā)現(xiàn)網(wǎng)絡(luò)特征所包含的信息量與網(wǎng)絡(luò)層數(shù)關(guān)聯(lián)性較強(qiáng),其中淺層網(wǎng)絡(luò)特征圖分辨率高、細(xì)節(jié)完整但語(yǔ)義特征較少;而深層網(wǎng)絡(luò)則相反,具有語(yǔ)義特征豐富但分辨率小、細(xì)節(jié)流失嚴(yán)重、定位性能較差等特點(diǎn)。因此,將淺層與深層特征圖結(jié)合起來(lái),利用多尺度特征補(bǔ)充弱小的細(xì)節(jié)特征信息,可以有效提升弱小目標(biāo)檢測(cè)準(zhǔn)確率。
回歸系列目標(biāo)檢測(cè)算法也稱(chēng)為One-stage檢測(cè)算法,是指將圖像輸入到網(wǎng)絡(luò)架構(gòu)中直接判斷目標(biāo)類(lèi)別和位置的一類(lèi)網(wǎng)絡(luò)。這種一步即成的架構(gòu)極大地簡(jiǎn)化了算法的實(shí)現(xiàn)過(guò)程,同時(shí)運(yùn)算速度也得到了成倍的提升。
3.2.1 YOLO系列
2016年,針對(duì)候選框系列算法步驟復(fù)雜、訓(xùn)練速度慢等問(wèn)題,Joseph Redmon等人提出了YOLO[14]算法結(jié)構(gòu),如圖3所示。該算法直接劃分輸入圖像,省去了搜索圖像、生成候選框的過(guò)程,真正意義上實(shí)現(xiàn)了端到端的目標(biāo)檢測(cè)算法,檢測(cè)速度可以達(dá)到實(shí)時(shí)處理的標(biāo)準(zhǔn)。但是也正是由于減少了候選框的搜索過(guò)程,該算法不能夠精確地定位目標(biāo)所在,檢測(cè)的準(zhǔn)確率和召回率有很大的提升空間。YOLOv2[15]模型增加了Batch Normalization、anchor box結(jié)構(gòu)提升了網(wǎng)絡(luò)檢測(cè)精度。在其基礎(chǔ)上,林旭鵬[16]以紅外圖像中的移動(dòng)目標(biāo)為檢測(cè)對(duì)象,使用維度聚類(lèi)分析目標(biāo)所在的邊界框位置,提升了目標(biāo)定位的精確度,使邊界框更加貼合目標(biāo)邊界,并且也在一定程度上減少了誤檢漏檢情況,提升了檢測(cè)的準(zhǔn)確度。更為經(jīng)典的YOLOv3[17]結(jié)構(gòu)結(jié)合殘差思想獲取目標(biāo)特征,采用類(lèi)FPN結(jié)構(gòu)融合不同卷積層的特征圖,極大的保留了特征圖所包含的細(xì)節(jié)信息,提高了網(wǎng)絡(luò)對(duì)于小目標(biāo)的檢測(cè)精度,且由于其出色的檢測(cè)精度和速度,在多個(gè)領(lǐng)域中應(yīng)用廣泛。網(wǎng)絡(luò)結(jié)構(gòu)所圖4所示。2020年,文獻(xiàn)[18]、[19]在YOLOv3卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,加深網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)密集連接和擴(kuò)大小目標(biāo)檢測(cè)特征圖尺寸、增加特征檢測(cè)的尺度數(shù)量等手段使得小目標(biāo)的檢測(cè)性能提高了約2個(gè)百分點(diǎn)。黃樂(lè)弘[20]使用K-means算法對(duì)初始目標(biāo)框進(jìn)行聚類(lèi)分析,并且針對(duì)空中紅外目標(biāo)的邊緣檢測(cè)算法進(jìn)行改進(jìn),有效的降低了虛警率,提升了小目標(biāo)的檢測(cè)效果。宮婷[21]結(jié)合K-means算法和核函數(shù)與抽樣,提高了初始目標(biāo)框的準(zhǔn)確性,通過(guò)增加一個(gè)尺度和三個(gè)anchor數(shù)量提高了小目標(biāo)識(shí)別的精確性。徐金逗[22]結(jié)合更深的殘差網(wǎng)絡(luò)進(jìn)行特征提取,借鑒特征金字塔網(wǎng)絡(luò)的思想,使用特征融合的方法增強(qiáng)特征國(guó)土所包含的信息量,提升了網(wǎng)絡(luò)對(duì)多尺度目標(biāo)的預(yù)測(cè)能力。
圖3 YOLO網(wǎng)絡(luò)結(jié)構(gòu)
圖4 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)圖
從YOLO系列算法的演變過(guò)程中,引入殘差結(jié)構(gòu)、增加反卷積與上采樣操作與原特征圖相結(jié)合、對(duì)初始目標(biāo)框聚類(lèi)分析等操作,均豐富了待檢測(cè)的特征細(xì)節(jié),改善了弱小目標(biāo)的檢測(cè)準(zhǔn)確率。
3.2.2 SSD系列
2016年,LIU W等人提出了另一類(lèi)回歸系列目標(biāo)檢測(cè)算法SSD[23],考慮到深、淺層網(wǎng)絡(luò)特征圖中所包含目標(biāo)信息量的不同,算法對(duì)不同尺度的特征圖進(jìn)行特征提取,有效提升了小目標(biāo)的檢測(cè)率。而且與候選框系列相比,SSD將所有的計(jì)算都整合到一個(gè)網(wǎng)絡(luò)中,同時(shí)刪除候選框以及特征重采樣部分,使得整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單且易于訓(xùn)練。與YOLO算法相比,檢測(cè)效率提高了14 f/s且檢測(cè)精確度提升了近11 %;且在與Faster R-CNN相當(dāng)?shù)臋z測(cè)精確度情況下,檢測(cè)速度提升了9倍。DSSD[24]網(wǎng)絡(luò)引用殘差思想,通過(guò)反卷積操作和上采樣與原卷積特征圖融合,增加了特征圖所包含的細(xì)節(jié)信息,進(jìn)一步提高小目標(biāo)的檢測(cè)精度。RSSD[25]網(wǎng)絡(luò)使用rainbow concatenation(pooling+deconvolution)融合不同網(wǎng)絡(luò)層的特征圖,有效增加了特征圖的數(shù)量和加強(qiáng)了特征圖之間的聯(lián)系,提升了小目標(biāo)檢測(cè)性能。FSSD[26]網(wǎng)絡(luò)增加高效的輕量級(jí)特征融合模塊,加強(qiáng)了深、淺層網(wǎng)絡(luò)之間的信息交互,提高了小目標(biāo)檢測(cè)的魯棒性,其結(jié)構(gòu)如圖5所示。多級(jí)特征金字塔網(wǎng)絡(luò)[27](Multi-level Feature Pyramid Network,MLFPN)融合主干網(wǎng)絡(luò)特征,提取更具代表性的多級(jí)多尺度特征并融合得到多級(jí)特征金字塔的操作,使得M2Det網(wǎng)絡(luò)成為一個(gè)高效的端到端回歸系列檢測(cè)算法,提高了目標(biāo)的檢測(cè)性能。華夏[28]在SSD的基礎(chǔ)上設(shè)計(jì)了基于增強(qiáng)學(xué)習(xí)的動(dòng)態(tài)區(qū)域放大網(wǎng)絡(luò)框架(DRZN),將低分辨率下的弱小目標(biāo)區(qū)域放大至高分辨率再進(jìn)行檢測(cè),對(duì)于小目標(biāo)的檢測(cè)效果提升顯著。
圖5 FSSD網(wǎng)絡(luò)結(jié)構(gòu)
SSD系列算法發(fā)展中考慮到弱小目標(biāo)的檢測(cè)問(wèn)題,增加了多尺度檢測(cè)框架,用來(lái)提升小目標(biāo)的檢測(cè)率。表1中列舉了YOLOv2、SSD、DSSD及FSSD在MS COCO數(shù)據(jù)集上的檢測(cè)結(jié)果,可以發(fā)現(xiàn)DSSD及FSSD網(wǎng)絡(luò)中采用的殘差思想、增加反卷積、上采樣以及放大小分辨率特征圖等操作有效的改進(jìn)了SSD網(wǎng)絡(luò)結(jié)構(gòu),提升了弱小目標(biāo)的檢測(cè)準(zhǔn)確率。
表1 MS COCO2015數(shù)據(jù)集的檢測(cè)結(jié)果
2014年,Ian J.Goodfellow等人提出了對(duì)抗生成網(wǎng)絡(luò)GAN[29],提出生成—判別雙模塊結(jié)構(gòu),采用零和博弈思想促使生成模型盡可能學(xué)習(xí)真實(shí)樣本的特性并將隨機(jī)輸入偽裝為真實(shí)目標(biāo)迷惑判別模型,判別模型則盡可能識(shí)別輸入的數(shù)據(jù)是真實(shí)樣本還是生成模型輸出的虛假樣本,通過(guò)相互博弈的過(guò)程逐步提高生成模塊和判別模塊的性能。2019年,MDvsFA-cGAN[30]網(wǎng)絡(luò)根據(jù)紅外圖像中弱小目標(biāo)特性提出使用雙生成器+單判別器的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)平衡降低漏檢(MD)和虛警率(FA),其結(jié)構(gòu)如圖6所示,其中,生成器G1用于減小MD,G2用于降低FA,每個(gè)生成器將輸入圖像映射到圖像S上用于顯示分割結(jié)果,將判別器D視為介質(zhì)連接G1和G2,加強(qiáng)它們之間的信息流動(dòng)并回饋給生成器,盡可能降低MD和FA。在網(wǎng)絡(luò)實(shí)現(xiàn)過(guò)程中,兩個(gè)生成器更加緊密的綁定在一起,產(chǎn)生一致的分割效果,取其平均值作為最終的分割結(jié)果。從像素級(jí)別上很好的平衡了MD和FA,并且在合理的召回率范圍內(nèi)達(dá)到了最高的目標(biāo)檢測(cè)精度,性能優(yōu)于現(xiàn)有的ISOS(Infrared Small Object Segmentation)方法。文獻(xiàn)[31]基于Neyman-Pearson準(zhǔn)則在上下文聚合網(wǎng)絡(luò)(CAN)的基礎(chǔ)上,將檢測(cè)模型劃分為全局和局部?jī)蓚€(gè)分網(wǎng)絡(luò),分別用于全局觀察紅外圖像和聚焦圖像中一個(gè)小的局部區(qū)域,簡(jiǎn)化了端到端的映射任務(wù),使單幀目標(biāo)檢測(cè)的模型訓(xùn)練更容易實(shí)踐,明顯的提高系統(tǒng)的整體性能。
圖6 MDvsFA-cGAN網(wǎng)絡(luò)結(jié)構(gòu)
在GAN系列網(wǎng)絡(luò)中,通過(guò)生成器與判別器的博弈完成真實(shí)目標(biāo)特征的提取,將紅外弱小目標(biāo)檢測(cè)分解為抑制誤檢率和降低虛警率兩個(gè)子任務(wù),引用對(duì)抗式學(xué)習(xí)實(shí)現(xiàn)兩者之間的最佳平衡,使得同時(shí)降低MD和FA成為可能,為后續(xù)的ISOS研究提供了一個(gè)全新的視角,對(duì)方法的創(chuàng)新有參考性意義。
目前,基于深度學(xué)習(xí)的紅外弱小圖像檢測(cè)算法還仍處于新興階段,數(shù)據(jù)集嚴(yán)重匱乏,并且針對(duì)紅外弱小目標(biāo)的檢測(cè)性能還有巨大的提升空間,而立足于見(jiàn)光圖像的目標(biāo)檢測(cè)算法再創(chuàng)新,對(duì)于紅外圖像目標(biāo)檢測(cè)算法有事半功倍之效。作為一種被動(dòng)式、全天候的目標(biāo)探測(cè)跟蹤設(shè)備,紅外探測(cè)系統(tǒng)可使用的場(chǎng)景多樣且性能優(yōu)越,在目標(biāo)探測(cè)領(lǐng)域具有不可替代的優(yōu)越性。因此,基于深度學(xué)習(xí)的紅外弱小目標(biāo)檢測(cè)算法必將掀起一股研究熱潮,設(shè)計(jì)出性能更高、速度更快、體積更小的檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)并應(yīng)用到實(shí)時(shí)系統(tǒng)中將會(huì)成為未來(lái)重要的研究方向。