胡世根, 方 松, 盧金儀, 顏露新, 鐘 勝, 鄒 旭*
(1.華中科技大學(xué) 人工智能與自動化學(xué)院,湖北 武漢 430074; 2.華中科技大學(xué) 多譜信息處理技術(shù)國家級重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430074)
小目標(biāo)檢測廣泛應(yīng)用于公共安全、道路交通、視頻監(jiān)控等領(lǐng)域,同時(shí),在面向特定需求的任務(wù)中,更精確的小目標(biāo)檢測意味著能夠?yàn)楹罄m(xù)的識別、跟蹤等任務(wù)提供更有力的支撐,具有非常重要的應(yīng)用價(jià)值,因此準(zhǔn)確、快速、穩(wěn)定的小目標(biāo)檢測十分重要。關(guān)于小目標(biāo)的定義,目前還沒有統(tǒng)一的標(biāo)準(zhǔn),一般情況下,將成像距離較遠(yuǎn)、在圖像上往往小至幾十個(gè)甚至幾個(gè)像素,顯示為點(diǎn)狀并且具有低對比度和信雜比的目標(biāo)稱為小目標(biāo)[1]。
紅外成像情況下,場景中目標(biāo)物體的紅外輻射較強(qiáng),從而在圖像中形成局部顯著區(qū)域,根據(jù)這一特征,許多研究人員通過搜索圖像極值來檢測目標(biāo)[4]。Tom等[5]提出了著名的Top-Hat 算子,通過開運(yùn)算消除圖像中的高頻信息,然后利用其與原始圖像的差異來檢測目標(biāo)。此外,受生物視覺的啟發(fā),Wei等[6]提出了一種基于多尺度區(qū)域?qū)Ρ榷人阕?MPCM)的紅外小目標(biāo)檢測方法,使用簡單的自適應(yīng)閾值即可實(shí)現(xiàn)小目標(biāo)分割。張騰[7]將尺度估計(jì)算法與MPCM算法中的PCM濾波相結(jié)合,提出尺度自適應(yīng)的紅外弱小目標(biāo)檢測算法SPCM。依據(jù)維恩位移定律,不同溫度的物體的輻射通量密度對應(yīng)不同的探測峰值波長,不同波段的成像圖像記錄了目標(biāo)多樣化的輻射特性,充分利用多波段成像探測信息能更加有效地提升小目標(biāo)檢測的準(zhǔn)確性。
目標(biāo)檢測的傳統(tǒng)方法一般通過提取人為設(shè)計(jì)的圖像特征來進(jìn)行檢測,然而傳統(tǒng)方法往往只對某些特定應(yīng)用領(lǐng)域或者數(shù)據(jù)集有效,適用范圍窄。隨著深度學(xué)習(xí)的快速發(fā)展,陸續(xù)有研究者開始嘗試使用深層網(wǎng)絡(luò)模型檢測小目標(biāo)。例如,唐聰?shù)萚8]分析了SSD方法在小目標(biāo)檢測上不足的原因,提出了一種多視窗 SSD 目標(biāo)檢測方法;馮小雨等[9]改進(jìn)了Faster R-CNN算法,將其專用于空中目標(biāo)檢測,取得了不錯(cuò)的效果。然而小目標(biāo)檢測的數(shù)據(jù)集規(guī)模有限,且深層網(wǎng)絡(luò)對小目標(biāo)的特征難以提取等問題一直未能較好地解決。
現(xiàn)有的小目標(biāo)檢測方法可以分為兩類:基于人工設(shè)計(jì)特征的傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)形式的檢測算法適應(yīng)性差、魯棒性弱;基于深度學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)的一些檢測算法又存在因目標(biāo)面積占比小導(dǎo)致的特征維度低、目標(biāo)/背景特征分界面不明確的缺點(diǎn),從而造成實(shí)用性不佳等問題。
針對上述存在的問題,本文提出了基于深度分割模型的小目標(biāo)檢測方法,為了進(jìn)一步提升檢測性能、依據(jù)任務(wù)需求降低漏檢率,探索多波段信息對提升小目標(biāo)檢測準(zhǔn)確性的作用,利用深度特征融合的思想,將不同波段的圖像送入深度分割模型,通過融合不同波段的特征提取結(jié)果來得到檢測目標(biāo)。在仿真數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法在虛警率維持在同一量級的條件下,顯著降低了漏檢率,提高了小目標(biāo)檢測的準(zhǔn)確率。
現(xiàn)有基于深度學(xué)習(xí)的目標(biāo)檢測方法大多使用邊框回歸(Bounding Box)方法實(shí)現(xiàn)目標(biāo)的分類與定位,然而深度學(xué)習(xí)網(wǎng)絡(luò)中深層網(wǎng)絡(luò)感受野較大,使得它可以檢測的目標(biāo)大小受到限制。而在紅外小目標(biāo)檢測的應(yīng)用背景下,需要檢測的目標(biāo)大小可能小至幾十個(gè)甚至幾個(gè)像素,缺乏必要的紋理與結(jié)構(gòu)特征,背景區(qū)反而細(xì)節(jié)豐富,所以傳統(tǒng)的深度網(wǎng)絡(luò)難以對紅外圖像中小目標(biāo)的特征進(jìn)行有效的學(xué)習(xí)和提取。
本文跳出傳統(tǒng)的深度學(xué)習(xí)目標(biāo)檢測方法,設(shè)計(jì)等寬的深度神經(jīng)網(wǎng)絡(luò),即網(wǎng)絡(luò)的輸出與輸入圖像為長、寬、通道數(shù)相等的矩陣,輸出圖像以灰度值表示該點(diǎn)存在目標(biāo)的概率,實(shí)現(xiàn)了目標(biāo)點(diǎn)的檢測與分割,以端到端的方式進(jìn)行訓(xùn)練,解決了邊框回歸方法存在的缺陷。
Zhang等[10]提出了一個(gè)前饋去噪卷積神經(jīng)網(wǎng)絡(luò)(DnCNN)用于圖像的去噪,使用了更深的結(jié)構(gòu)、殘差學(xué)習(xí)算法、正則化和批量歸一化等方法提高去噪性能。原網(wǎng)絡(luò)輸入為加入已知高斯噪聲或未知高斯噪聲的灰度圖,使用無噪聲原圖作為監(jiān)督設(shè)定損失,最終訓(xùn)練結(jié)果可輸出噪聲圖,由此便可從添加噪聲的原圖減去網(wǎng)絡(luò)輸出,最終獲得去除噪聲的結(jié)果圖。
受文獻(xiàn)[10]啟發(fā),筆者提出了用于小目標(biāo)檢測的深度分割網(wǎng)絡(luò)模型,使用加入噪聲的紅外圖像仿真圖作為輸入、網(wǎng)絡(luò)的輸出為目標(biāo)分布的概率圖。該模型可表示為
y=x+v
(1)
式中,y為輸入的包含目標(biāo)的圖像;x為只包含噪聲與背景的圖像;v為殘差圖像。優(yōu)化目標(biāo)是真實(shí)殘差圖像與網(wǎng)絡(luò)輸出之間的均方誤差(MSE),以只包含目標(biāo)點(diǎn)的二值圖像作為監(jiān)督設(shè)定損失。單波段小目標(biāo)檢測分割結(jié)構(gòu)如圖1所示。
圖1 單波段小目標(biāo)檢測分割模型結(jié)構(gòu)
網(wǎng)絡(luò)結(jié)構(gòu)可分為以下3個(gè)部分。
第1部分:Conv(3×3×c×64)+ReLU (c代表圖片通道數(shù))。
第2部分:Conv(3×3×64×64)+BN(Batch Normalization)+ReLU。
第3部分:Conv(3×3×64)。
為使每一層的輸入、輸出尺寸保持一致,防止產(chǎn)生人工邊界,網(wǎng)絡(luò)中每層都設(shè)定zero padding。此外,在第2部分每一層的卷積與ReLU之間都使用了批量標(biāo)準(zhǔn)化方法(BN)。
給定深度為D=20的網(wǎng)絡(luò),3種類型的層展示在圖1中有3種不同結(jié)構(gòu)的層。
① Conv+ReLU:對于第1層,使用64個(gè)大小為3×3×c的濾波器被用于生成64個(gè)特征圖。這里的c代表圖像的通道數(shù),本文訓(xùn)練與測試圖像均為灰度圖,即c=1。
② Conv+BN+ReLU:對應(yīng)于第2~(D-1)層,使用64個(gè)大小為3×3×64的過濾器,并且在卷積和ReLU之間使用批量歸一化方法。
③ Conv:對應(yīng)于最后一層,c個(gè)大小為3×3×64的濾波器被用于重建輸出。
損失設(shè)定為
Loss=MSELoss(out,GT)
(2)
(3)
通過以上方法得到的改造深層網(wǎng)絡(luò)可以有效提升圖像特征利用的容量和靈活性,相較于邊框回歸能夠更有效地去除輸入圖像中的噪聲與復(fù)雜背景。端到端的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效檢測目標(biāo)點(diǎn)并實(shí)現(xiàn)分割,同時(shí)采用殘差學(xué)習(xí)和批歸一化可以加速訓(xùn)練并提升性能。
不同波段的成像圖像記錄了目標(biāo)多樣化的輻射特性,為了進(jìn)一步提升小目標(biāo)檢測的能力,本文提出了基于特征融合的雙波段小目標(biāo)檢測分割模型。
不同波段的成像設(shè)備在成像機(jī)理方面存在較大差異。例如在夜視條件,中波紅外(MediumWave Infrared,MWIR)和長波紅外(LongWave Infrared,LWIR)要靠目標(biāo)自身身輻射成像,而短波紅外(ShortWave Infrared,SWIR)則是利用常溫時(shí)物體反射夜光的輻射成像(自身輻射可忽略),中高溫時(shí)既有物體反射夜光的短波紅外輻射,又有自身發(fā)射的足夠強(qiáng)的短波紅外輻射成像。故紅外探測波段的選擇需要綜合考慮探測器、目標(biāo)輻射、背景輻射、大氣衰減等多種因素[11]。在特定情況下,上述因素對波段選擇的影響并不一致,故實(shí)際應(yīng)用中應(yīng)對各個(gè)因素進(jìn)行綜合分析,從而做出最佳選擇。
高精度探測器在實(shí)際使用場景中通常在共光軸濾波片輪轉(zhuǎn)的條件下使用不同波段對同一場景成像。由于不同波段具有不同成像特性,不同波段的探測器適合不同的場景,對同場景成像獲得圖像所含的信息也有著不同的側(cè)重?;诖耍疚倪M(jìn)行了對不同波段的圖像進(jìn)行特征融合、檢測分割一體化的研究,目的在于使檢測方法對變化的使用場景具有更強(qiáng)的魯棒性,同時(shí)充分利用不同波段圖像存在的特征信息,在單波段小目標(biāo)檢測的基礎(chǔ)上進(jìn)一步降低漏檢率。
網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,在上一節(jié)的基礎(chǔ)上加入了圖像融合的部分,使用雙波段圖像輸入同一網(wǎng)絡(luò),在最后分別對二者使用1×1的卷積核進(jìn)行卷積,最終進(jìn)行疊加,目的在于提取不同波段紅外圖像中對目標(biāo)點(diǎn)特征成像清晰的部分。
圖2 雙波段小目標(biāo)檢測分割模型結(jié)構(gòu)
基于深度神經(jīng)網(wǎng)絡(luò)的方法在物體檢測任務(wù)中具有巨大優(yōu)勢,但是目前將它用于弱小目標(biāo)檢測還面臨諸多困難,這類方法暫時(shí)未在小目標(biāo)檢測中獲得類似于其他領(lǐng)域的明顯成功,主要有以下兩個(gè)原因:① 目標(biāo)的尺寸小,深度神經(jīng)網(wǎng)絡(luò)難以提取弱小目標(biāo)的有效特征,從而不能充分發(fā)揮出深度神經(jīng)網(wǎng)絡(luò)對目標(biāo)的強(qiáng)大表達(dá)能力;② 是目標(biāo)樣本數(shù)據(jù)庫的規(guī)模小,由于任務(wù)場景和目標(biāo)類型的特殊性,通常難以獲取足夠數(shù)量的目標(biāo)樣本構(gòu)建大規(guī)模的數(shù)據(jù)集,因此難以使深度神經(jīng)網(wǎng)絡(luò)得到充分訓(xùn)練,進(jìn)而難以取得令人滿意的檢測效果[12-13]。在可預(yù)見的未來,這兩個(gè)情況將很難得到改變[14]。為了驗(yàn)證提出算法的有效性,制作了仿真數(shù)據(jù)集對提出的模型進(jìn)行了驗(yàn)證性實(shí)驗(yàn)。仿真數(shù)據(jù)集制作過程如圖3所示。
圖3 仿真數(shù)據(jù)集制作過程
首先在背景圖像上覆蓋手動添加目標(biāo)點(diǎn)的圖層,并添加合適概率的隨機(jī)噪聲,由此獲得的圖像用于仿真現(xiàn)實(shí)中拍攝的具有多目標(biāo)點(diǎn)的圖像;在此基礎(chǔ)上對圖像進(jìn)行非線性灰度變換,獲得的圖像用于仿真同一場景下不同波段的成像結(jié)果。最后將目標(biāo)點(diǎn)圖層二值化,作為真值(Ground Truth)掩膜。
本文的實(shí)驗(yàn)環(huán)境為Windows 10,電腦配置為GPU(NVIDIA GTX-2060 6 GB顯存)、CPU(i5-8300H)、16 GB內(nèi)存。選取所提出的仿真數(shù)據(jù)集作為訓(xùn)練樣本,其中訓(xùn)練集圖片為1300張、驗(yàn)證集圖片為400張、測試集圖片400張。模型整體采用PyTorch框架搭建。設(shè)置訓(xùn)練模型的初始學(xué)習(xí)率為0.001,選擇Adam優(yōu)化器。最大迭代次數(shù)為50次,每批次訓(xùn)練2個(gè)樣本。
為了定量評價(jià)提出模型的檢測性能,對比檢測結(jié)果與真實(shí)標(biāo)注,計(jì)算實(shí)際目標(biāo)數(shù)、漏檢數(shù)、虛警數(shù),并由此得出漏檢率、虛警率作為評價(jià)指標(biāo)。
評價(jià)指標(biāo)計(jì)算過程如圖4所示,以圖4(a)輸入單波段檢測網(wǎng)絡(luò)獲得的檢測結(jié)果為例,介紹評價(jià)指標(biāo)計(jì)算過程。
圖4 評價(jià)指標(biāo)計(jì)算過程過程
① 首先以7×7的橢圓形核對圖4(b)所示的GT掩膜進(jìn)行膨脹操作,獲得圖4(c)。
② 以灰度值10為閾值對檢測結(jié)果進(jìn)行二值化操作,遍歷圖4(c)膨脹后的GT掩膜與圖4(e)二值化的檢測結(jié)果,若圖4(c)中像素點(diǎn)為255,便將圖4(e)同位置的像素點(diǎn)賦值為0,最終獲得顯示虛警點(diǎn)的圖4(h)。
③ 以7×7的橢圓形核對圖4(e)二值化的檢測結(jié)果進(jìn)行膨脹操作,獲得圖4(f)。
④ 遍歷圖4(f)膨脹后的檢測結(jié)果與圖4(b)GT掩膜,若圖4(f)中像素點(diǎn)為255,便將圖4(b)同位置的像素點(diǎn)賦值為0,最終獲得顯示漏檢點(diǎn)的圖4(g)。
⑤ 以連通域處理函數(shù)分別對圖4(b)、圖4(f)、圖4(g)進(jìn)行處理,獲得目標(biāo)點(diǎn)數(shù),虛警點(diǎn)數(shù),漏檢點(diǎn)數(shù)。
以灰度值Threshold=10為閾值二值化檢測結(jié)果圖,以上節(jié)方法分別計(jì)算傳統(tǒng)方法Top-Hat[5]、SPCM[7]和本文提出的單、雙波段小目標(biāo)檢測分割網(wǎng)絡(luò)共4種檢測方法的性能指標(biāo),統(tǒng)計(jì)結(jié)果如表1所示。
表1 統(tǒng)計(jì)結(jié)果
由表1可知,屬于形態(tài)學(xué)處理方法的Top-Hat檢測方法對于背景復(fù)雜且包含噪聲的紅外圖像的目標(biāo)檢測能力十分有限,虛警率與漏檢率極高。由圖5(b)可以看出,其主要原因在于部分復(fù)雜背景、噪聲與目標(biāo)點(diǎn)的灰度值與周圍黑色背景有較大差異,在Top-Hat操作中會被檢測出來,最終被當(dāng)作目標(biāo)點(diǎn)顯示在檢測結(jié)果中,同時(shí)輸入圖像中個(gè)別目標(biāo)點(diǎn)較為模糊,故統(tǒng)計(jì)結(jié)果中的虛警率極高,遠(yuǎn)遠(yuǎn)超出100%,漏檢率也較高。
SPCM方法可以在多尺度上對目標(biāo)進(jìn)行檢測,但該方法仍然無法解決濾波方法的局限,無法區(qū)分與目標(biāo)點(diǎn)相似的噪點(diǎn)以及復(fù)雜背景的區(qū)域,如圖5(c)所示,檢測結(jié)果中的虛警點(diǎn)極多。所以,該方法在測試集上雖然能較好地檢測出目標(biāo)點(diǎn),但虛警率極高,基本無法應(yīng)用在本文模擬的應(yīng)用環(huán)境中。
圖5 各方法檢測結(jié)果樣例
對比本文提出的單、雙波段小目標(biāo)檢測分割網(wǎng)絡(luò)的性能指標(biāo)可知,二者均能將漏檢率、虛警率保持在較低水平,其中雙波段的檢測方法漏檢率極低只有0.051%,而虛警率相較于單波段檢測方法有小幅增長。主要原因在于本文提出的雙波段小目標(biāo)檢測分割模型中的融合方法本質(zhì)上是深度特征的加權(quán)或操作,有利于充分利用多波段圖像中的目標(biāo)點(diǎn)特征,降低漏檢率。
二值化閾值(Threshold)是本文提出的模型唯一需要控制的超參數(shù)。本節(jié)討論各方法在測試集上的性能受該參數(shù)的影響及參數(shù)的選擇。
本節(jié)實(shí)驗(yàn)將閾值分為254階,分別計(jì)算各方法在各閾值階級上的虛警率和漏檢率,結(jié)果如圖6、圖7所示。可以看出本文提出的單、雙波段小目標(biāo)檢測分割網(wǎng)絡(luò)的虛警率與漏檢率在較大的閾值范圍內(nèi)都保持在較低水平,其中單波段方法在更大的閾值范圍內(nèi)(6~235)表現(xiàn)出良好性能,虛警率、漏檢率均小于0.1%。
圖6 虛警-灰度閾值曲線
圖7 漏檢率-灰度閾值曲線
為進(jìn)一步探究雙波段小目標(biāo)檢測分割網(wǎng)絡(luò)的性能,在圖6、圖7的基礎(chǔ)上細(xì)化刻度,尋找最佳性能指標(biāo)的閾值范圍。雙波段最佳二值化閾值選擇如圖8所示。由圖8可知,雙波段檢測方法的最佳性能優(yōu)于單波段方法,在閾值為137~176的范圍內(nèi)可使虛警率為0,漏檢率低于0.02%。實(shí)際應(yīng)用中,可依據(jù)具體任務(wù)場景的先驗(yàn)知識選取合適的閾值。實(shí)驗(yàn)結(jié)果表明,閾值作為唯一需要控制的超參數(shù),當(dāng)其處于一段值域范圍內(nèi)時(shí)本文提出的模型均能取得具有實(shí)用性的小目標(biāo)檢測結(jié)果,顯示了所提模型的魯棒性。
圖8 雙波段最佳二值化閾值選擇
本文針對低信雜比圖像中小目標(biāo)因面積占比小導(dǎo)致的特征提取難的問題,提出了一種基于深度分割模型的小目標(biāo)檢測算法,并進(jìn)一步利用多波段特征融合的思想,通過融合不同波段的特征提取結(jié)果實(shí)現(xiàn)目標(biāo)檢測。在仿真數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法相較于對比方法能有效提高小目標(biāo)檢測的準(zhǔn)確率,促進(jìn)了小目標(biāo)檢測在視頻監(jiān)控、軍事偵查等領(lǐng)域的應(yīng)用效果。本文提出的基于深度特征融合的雙波段小目標(biāo)檢測模型本質(zhì)上是對雙波段特征圖的加權(quán)或操作,以降低對小目標(biāo)的漏檢率,后續(xù)根據(jù)不同應(yīng)用背景選擇不同融合策略,構(gòu)造不同融合模型,以及設(shè)計(jì)面向任務(wù)特點(diǎn)的數(shù)據(jù)增廣策略,以期進(jìn)一步提升深度融合小目標(biāo)分割模型的準(zhǔn)確性和適應(yīng)性。