鄧 磊,李海芳
(1.四川幼師高等??茖W(xué)校應(yīng)用技術(shù)系,四川 綿陽(yáng) 621700;2.中國(guó)工程物理研究院電子工程研究所,四川 綿陽(yáng) 621900)
現(xiàn)有的制導(dǎo)方式大都采用圖像制導(dǎo),通過導(dǎo)引頭內(nèi)置的光電探測(cè)器獲取視場(chǎng)內(nèi)的圖像信息,并通過人工鎖定目標(biāo)或自動(dòng)檢測(cè)目標(biāo)實(shí)現(xiàn)探測(cè)并摧毀鎖地面裝甲車輛。隨著作戰(zhàn)形態(tài)的變化,有效摧毀敵方一切裝甲車輛,是實(shí)現(xiàn)突防與突擊的關(guān)鍵[1]。無論是機(jī)載空對(duì)地制導(dǎo)炸彈,還是地對(duì)地反坦克導(dǎo)彈,都必須降低對(duì)人工制導(dǎo)的依賴,具備“發(fā)射后不管”,以及超遠(yuǎn)射程的能力,以保護(hù)射手的安全。自動(dòng)目標(biāo)鎖定是實(shí)現(xiàn)超遠(yuǎn)射程精確打擊的核心技術(shù),然而復(fù)雜戰(zhàn)場(chǎng)環(huán)境下實(shí)現(xiàn)裝甲車輛自動(dòng)檢測(cè)識(shí)別技術(shù)面臨著諸多挑戰(zhàn),例如目標(biāo)尺寸較??;背景復(fù)雜;檢測(cè)效率不高等[2]。
為了提升超視距攻防應(yīng)用中裝甲目標(biāo)的檢測(cè)精度,國(guó)內(nèi)外學(xué)者提出了諸多的智能檢測(cè)算法。目標(biāo)檢測(cè)算法的基本架構(gòu)大都是采用特征+分類器,其特征可以是局部二值模式(LBP)特征、尺度不變特征變換(SIFT)等人工特征,也可以是數(shù)據(jù)驅(qū)動(dòng)的的深度特征[3]。Bunyak等人在利用紅外與電視圖像的互補(bǔ)特性,提出了多特征融合的目標(biāo)檢測(cè)技術(shù),可以有效實(shí)現(xiàn)全天候全天時(shí)目標(biāo)檢測(cè)與識(shí)別[3];國(guó)防科大的石志廣[4]利用支持向量機(jī)(SVM)對(duì)圖像進(jìn)行方向梯度直方圖特征分類,通過暴力搜索實(shí)現(xiàn)目標(biāo)檢測(cè),但該方法僅僅適用于尺度與模板相當(dāng)?shù)哪繕?biāo),雖然作者提出采用金字塔分解有助于提升多尺度探測(cè)能力,但該方法對(duì)復(fù)雜背景下的檢測(cè)效率任然不高。由于人工特征的表征能力不足,不能適用于復(fù)雜的目標(biāo)形態(tài)。國(guó)內(nèi)外學(xué)者開始利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行高層次深度特征學(xué)習(xí),提升目標(biāo)檢測(cè)的抗干擾能力。西南技術(shù)物理研究所雍楊[5]團(tuán)隊(duì)利用Zero-shot學(xué)習(xí)構(gòu)建了不均衡數(shù)據(jù)集裝甲目標(biāo)檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠自適應(yīng)地從少量樣本原始數(shù)據(jù)中逐層學(xué)習(xí)目標(biāo)特征,實(shí)現(xiàn)不同裝甲車輛的準(zhǔn)確識(shí)別,在多次掛飛驗(yàn)證過程中效果較好,但對(duì)20×20以下目標(biāo)識(shí)別精度較差。陸軍裝甲兵學(xué)院李國(guó)璋教授團(tuán)隊(duì)[6]提出了一種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型YOLO-v3的改進(jìn)模型ZQ-YoloNet,該模型在機(jī)載掛飛實(shí)驗(yàn)下對(duì)裝甲目標(biāo)的精準(zhǔn)率和召回率分別達(dá)到了87.73 %和78.25 %,但該模型對(duì)部分遮擋的目標(biāo)適應(yīng)性較差,尤其是針對(duì)目標(biāo)與背景對(duì)比度較小的情況下,識(shí)別概率極具下降。
雖然復(fù)雜陸戰(zhàn)環(huán)境下裝甲目標(biāo)識(shí)別領(lǐng)域進(jìn)行了大量的研究,但相關(guān)成果僅僅是作為目標(biāo)輔助識(shí)別應(yīng)用,仍然需要人在回路進(jìn)行判決。尤其是彈炮結(jié)合的裝甲車輛的防區(qū)提升,這就需要反裝甲武器必須提早發(fā)現(xiàn)目標(biāo)并超音速機(jī)動(dòng)攻擊目標(biāo)的要害部位。這就需要識(shí)別系統(tǒng)能夠從大尺寸圖像中識(shí)別出弱小目標(biāo)。然而,目標(biāo)裝甲目標(biāo)數(shù)據(jù)集中目標(biāo)的尺寸都較大,因此數(shù)據(jù)集覆蓋范圍的不足,使得目標(biāo)識(shí)別精度難以顯著提升。另一方面,裝甲目標(biāo)通常出現(xiàn)在叢林、沙漠、草原等復(fù)雜陸戰(zhàn)場(chǎng)景上,另外裝甲目標(biāo)運(yùn)動(dòng)、炮口轉(zhuǎn)向、煙霧、尾塵等造成圖像干擾較大。此外,裝甲目標(biāo)采用涂覆、煙霧、熱屏蔽進(jìn)行偽裝,這降低了目標(biāo)與背景特征的區(qū)分能力。
總的來說,與其他目標(biāo)檢測(cè)問題相比,高精度與高效率的裝甲目標(biāo)檢測(cè)更具挑戰(zhàn)性?,F(xiàn)有的檢測(cè)模型很難直接應(yīng)用到裝甲目標(biāo)檢測(cè)。針對(duì)以上提到的挑戰(zhàn)與現(xiàn)有模型的不足,本文提出了一個(gè)快速準(zhǔn)確的裝甲目標(biāo)檢測(cè)模型,該模型利用多尺度金字塔池化層提取的不同尺度特征,并獲得不同的尺度下的語義池化語義;然后在此基礎(chǔ)上進(jìn)行邊緣感知融合,利用裝甲目標(biāo)的形狀先驗(yàn)找到感興趣的目標(biāo)區(qū)域,有效地提升目標(biāo)的表征能力.仿真實(shí)驗(yàn)結(jié)果表明,本文提出的裝甲目標(biāo)檢測(cè)網(wǎng)絡(luò)模型可以有效地提高復(fù)雜戰(zhàn)場(chǎng)環(huán)境中目標(biāo)檢測(cè)與定位的精度與效率,適合工程應(yīng)用。
盡管邊緣先驗(yàn)可以提升目標(biāo)檢測(cè)的精度,然而實(shí)際應(yīng)用過程中,全局圖像的邊緣信息復(fù)雜,目標(biāo)的輪廓特征并沒有明顯的可區(qū)分性,從復(fù)雜的輪廓中匹配出目標(biāo)的邊緣是一項(xiàng)非常有挑戰(zhàn)性的工作,而且目標(biāo)受遮擋、形變等干擾影響,其輪廓并不具有完整性[7]。即便現(xiàn)有的深度輪廓網(wǎng)絡(luò)可以提取出完整的輪廓,但由于缺乏全局信息表征能力,仍然無法從復(fù)雜背景中分離出真實(shí)目標(biāo)[8]。眾所周知,中層視覺主要關(guān)注的是圖像中的幾何結(jié)構(gòu)、內(nèi)部細(xì)節(jié)與邊緣輪廓,這也是目標(biāo)識(shí)別的基礎(chǔ)。整體嵌套卷積網(wǎng)絡(luò)已成功地用于提取二維圖像中目標(biāo)的邊緣結(jié)構(gòu),但是這些邊緣特征并不具有語義信息,如何為圖像內(nèi)部的邊緣輪廓分配標(biāo)簽,將一個(gè)整體場(chǎng)景分解成幾個(gè)單獨(dú)的實(shí)體是目前學(xué)者研究的重點(diǎn)[9]。HED模型是基于全卷積網(wǎng)絡(luò)進(jìn)行改進(jìn),并在每個(gè)卷積層采用多尺度深度監(jiān)督以“指導(dǎo)”早期分類結(jié)果。全卷積網(wǎng)絡(luò)只有一個(gè)輸出損失函數(shù),而HED則每像素都制定分類交叉熵?fù)p失函數(shù),可以實(shí)現(xiàn)不同類別樣本的目標(biāo)識(shí)別,即邊界與非邊界,目標(biāo)區(qū)域或非目標(biāo)區(qū)域[10]。由于基于HED的網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)成功地應(yīng)用于顯著目標(biāo)檢測(cè),本文提出的算法在整體嵌套卷積網(wǎng)絡(luò)的基礎(chǔ)上學(xué)習(xí)地面裝甲目標(biāo)內(nèi)部紋理特征及邊緣輪廓特征,以實(shí)現(xiàn)目標(biāo)全局定位及局部分割。
本文提出了一種基于多金字塔池化模型的整體嵌套卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)利用金字塔池化獲得多個(gè)旁路輸出層的不同尺度的全局結(jié)構(gòu)信息,并利用不同分支的邊緣感知通道進(jìn)行有效融合,最終提升復(fù)雜背景下裝甲目標(biāo)的檢測(cè)精度。本文所提的模型包含兩個(gè)模塊,即邊緣感知融合模塊與多金字塔池化模塊,模型的詳細(xì)結(jié)構(gòu)如圖1所示。為了增加模型的泛化能力與訓(xùn)練精度,本文提出將多分類的交叉熵?fù)p失函數(shù)與邊界損失和分割損失進(jìn)行綜合相結(jié)合,構(gòu)建加權(quán)損失函數(shù)。
圖1 基于多尺度金字塔池化模型的整體嵌套卷積網(wǎng)絡(luò)框架
眾所周知,人類之所以能夠利用隱藏的線索挖掘出深層次本質(zhì)信息,主要?dú)w咎于大腦能夠?qū)﹄x散事物進(jìn)行關(guān)聯(lián)[11]。在目標(biāo)檢測(cè)領(lǐng)域,上下文信息可以為推斷目標(biāo)存在提供有用的提示,有助于實(shí)現(xiàn)弱小目標(biāo)檢測(cè)與增強(qiáng)抗干擾能力。除了裝甲目標(biāo)本身的形狀特征、輪廓特征外,裝甲目標(biāo)周圍的上下文信息也有助于判斷其是否為裝甲目標(biāo),包括目標(biāo)所屬的裝甲集群,目標(biāo)周圍的其他裝甲目標(biāo),裝甲目標(biāo)射擊時(shí)的炮口和煙霧,以及裝甲目標(biāo)機(jī)動(dòng)時(shí)帶來的灰塵。所有這些上下文信息都提供了額外的信息來確定檢測(cè)到的目標(biāo)為裝甲目標(biāo)。
傳統(tǒng)的目標(biāo)檢測(cè)方法只能獲得顯著性的疑似區(qū)域,無法準(zhǔn)確檢測(cè)出目標(biāo)類型。此外,當(dāng)裝甲目標(biāo)尺寸小于16×16時(shí),經(jīng)過多次下采樣處理后,導(dǎo)致特征信息丟失,其最終特征圖的空間分辨率不足以獲得完成目標(biāo)識(shí)別任務(wù)。文獻(xiàn)[12]提出的金字塔池化模塊由四個(gè)全局卷積尺度組成,能夠獲得不同尺度的高層次特征圖。首先利用全局平均池化獲得均值特征表示,然后引入三個(gè)具有不同大小的池化層以增強(qiáng)全局上下文信息。每個(gè)池化層增加一個(gè)1×1卷積層,以便將輸入特征圖的尺寸減小到1/4,并同時(shí)保持全局特征的權(quán)重。為了將低維度的特征圖恢復(fù)到原始尺度,采用雙線性插值構(gòu)造出上采用層;最后,將四個(gè)尺度的特征級(jí)聯(lián)起來,形成最終的金字塔池化特征。可以看出,金字塔池化模塊能提取圖像不同尺度的上下文信息,并融合成固定維度的特征用以訓(xùn)練CNN,獲得比全局池化更具代表性的全局信息。因此,為了解決這個(gè)問題,本文利用上下文信息來提高對(duì)小型裝甲目標(biāo)的檢測(cè)精度,通過引入空洞卷積思想,在保證卷積特征分辨率不變的基礎(chǔ)上提高弱小目標(biāo)的檢測(cè)精度;同時(shí),本文所提的模型也將通過多孔空間金字塔池化將多尺度上下文特征進(jìn)行融合,增強(qiáng)目標(biāo)的表征能力與抗干擾性能。
本文采用的主干網(wǎng)絡(luò)是ResNet-50,具有四個(gè)重復(fù)疊加卷積塊(Block-2,Block-3,Block-4,Block-5),通過在每層卷積塊上增加金字塔池化模塊,有利于進(jìn)行多尺度卷積特征提取[13]。此外,該模塊利用固定尺度的輸入提取多尺度的特征表示,能夠有效減少局部上下文信息的丟失。由于VGG的收斂速度與訓(xùn)練效率優(yōu)于ResNet-50,本文選擇ResNet-50作為骨干結(jié)構(gòu)。ResNet-50由五個(gè)卷積塊組成,每個(gè)卷積塊包含多個(gè)殘差連接。每個(gè)卷積輸出特征圖都是通過在輸入特征圖上對(duì)卷積核進(jìn)行卷積獲得的,定義為:
Fc(X;Wc)=Wc*X
(1)
其中,Wc表示卷積層的卷積核,并且省略了偏置項(xiàng);X和Fc(X;Wc)分別表示輸入和輸出特征圖。為了滿足復(fù)雜場(chǎng)景下密集預(yù)測(cè)的需要,檢測(cè)網(wǎng)絡(luò)中去除了平均池化層、全連接層和分類層,通過連接兩個(gè)卷積層的結(jié)果進(jìn)行裝甲目標(biāo)預(yù)測(cè),兩個(gè)卷積層的大小分別為3×3×256與1×1×2;最后,通過雙線性插值將預(yù)測(cè)特征圖上采樣到輸入圖像的大小。
P=I(Fs(X;W);α)
(2)
其中,X表示輸入圖像;P表示最終預(yù)測(cè)圖。Fs是最后一個(gè)卷積層(conv7)生成的輸出特征映射;I()表示參數(shù)為α的上采樣插值層。ResNet-50主干網(wǎng)的輸入圖像為光電設(shè)備探測(cè)到的紅外或者可見光圖像,最終得到復(fù)雜背景下不同尺度的裝甲目標(biāo)檢測(cè)結(jié)果。通過對(duì)最近的深度網(wǎng)絡(luò)模型的分析,我們發(fā)現(xiàn)上下文信息在目標(biāo)檢測(cè)任務(wù)中起著重要的作用。全局上下文有助于區(qū)分不同的目標(biāo),而局部上下文可以突出目標(biāo)的細(xì)節(jié)。
為了獲得全局上下文特征,全局平均池化是常采用的方法,并已成功地應(yīng)用于圖像分類任務(wù)。然而,直接采用1×1全局平均池化獲得特征不夠精細(xì),并且會(huì)丟失目標(biāo)間的空間位置信息[14]。為了解決這個(gè)問題,本文利用金字塔池化模塊捕獲全局上下文信息,該模塊可以將不同感受野信息融合進(jìn)行融合,并整合多尺度特征來提取局部上下文信息,得到具有更明顯的細(xì)節(jié)和局部邊界。
本文采用的金字塔池網(wǎng)絡(luò)包括四個(gè)金字塔池化模塊,每個(gè)模塊連接在每個(gè)卷積塊的最后一個(gè)卷積層后面。每一個(gè)卷積塊的輸出特征映射與四個(gè)尺度金字塔特征級(jí)聯(lián),其等式如下所示:
Si=σ(Wi*Cat(Wi,1*PP1(Xi),…,Wi,n
*PPn(Xi))
(3)
其中,Xi(i∈{2,3,4,5})表示為第i個(gè)卷積塊的輸出;PPn表示在第n級(jí)的金字塔池化操作n∈{1,2,3,4},Wi,n表示1×1卷積的權(quán)重;σ表示激活函數(shù)。最終獲得第i個(gè)旁路目標(biāo)預(yù)測(cè)輸出Si。由于輸出的特征尺度變小,本文構(gòu)造一個(gè)上采樣層,通過雙線性插值獲得與輸出圖像相同大小的特征映射,然后將四個(gè)金字塔池模塊的輸出連接起來,形成最終的多尺度金字塔池化語義特征。
(4)
其中,lside表示用于側(cè)邊分支輸出的損失函數(shù),該損失函數(shù)在訓(xùn)練樣本對(duì)中的所有像素上計(jì)算;αm用于調(diào)節(jié)不同尺度下側(cè)邊輸出層的權(quán)值。值得注意的是,側(cè)邊輸出層通過反卷積層連接到主干網(wǎng)絡(luò)層,并且其參數(shù)被固定以實(shí)現(xiàn)雙線性插值。由于該網(wǎng)絡(luò)與FCN的上采樣過程是相同的,且通過與每個(gè)像素的基準(zhǔn)標(biāo)簽比較,可以計(jì)算出每個(gè)側(cè)邊輸出層的交叉熵?fù)p失函數(shù)。同時(shí),所有側(cè)邊輸出層都是跨連接的,能夠通過反向傳播更新訓(xùn)練參數(shù)。由于訓(xùn)練樣本的基準(zhǔn)數(shù)據(jù)存在偏差,一些學(xué)者通過對(duì)每像素類增加一個(gè)平衡權(quán)重參數(shù)β,能夠自動(dòng)平衡正負(fù)類之間的偏差損失,這將抵消邊緣/內(nèi)部(y=1)和非邊緣/外部(y=0)樣本之間的不平衡。也就是說,等式(4)可以轉(zhuǎn)換成類平衡交叉熵?fù)p失函數(shù):
(5)
(6)
(P,w,h)=argmin(λside(P,w)+λλfuse(P,w,h))
(7)
其中,λ表示權(quán)值參數(shù),設(shè)置為0.12。
目前國(guó)內(nèi)外沒有公開的復(fù)雜場(chǎng)景下裝甲車輛目標(biāo)數(shù)據(jù)集,大多數(shù)基于深度學(xué)習(xí)的裝甲目標(biāo)智能分析算法都是科研團(tuán)隊(duì)自行收集的數(shù)據(jù)集,其中以兵器209所唐中和團(tuán)隊(duì)牽頭制備的數(shù)據(jù)集最為全面[16]。然而,這些數(shù)據(jù)集都未公開。因此,為了評(píng)估本文提出的基于多尺度金字塔池化模型的整體嵌套卷積網(wǎng)絡(luò)裝甲檢測(cè)算法性能,選用了開源的汽車數(shù)據(jù)集(http://ai.stanford.edu/~jkrause/cars/car_dataset.html)進(jìn)行遷移學(xué)習(xí)。項(xiàng)目組也在預(yù)研項(xiàng)目的支撐下,收集了大量影視作品中出現(xiàn)的外軍裝甲車輛。目前裝甲車輛可以分為戰(zhàn)斗車輛和保障車輛,其中戰(zhàn)斗車輛有坦克、步兵戰(zhàn)車、運(yùn)輸車、自行火炮、裝甲偵察車、指揮車、裝甲通信車等;保障車輛有坦克架橋車、裝甲掃雷車、裝甲搶救車、裝甲救護(hù)車、裝甲供彈車等??梢钥闯?若按照功能分類,裝甲車輛的類別實(shí)在太多。因此,本文在現(xiàn)有數(shù)據(jù)集的基礎(chǔ)上,將裝甲目標(biāo)分為履帶式戰(zhàn)車、輪式戰(zhàn)車與保障車輛,如圖2所示。值得注意的是,分類標(biāo)準(zhǔn)并不是唯一的,存在一些交叉結(jié)果。項(xiàng)目組也組織項(xiàng)目組成員對(duì)部分樣本進(jìn)行了標(biāo)注,其標(biāo)注依據(jù)如下標(biāo)準(zhǔn):
圖2 不同裝甲目標(biāo)示例
履帶式戰(zhàn)車:由履帶驅(qū)動(dòng),攜帶大口徑武器系統(tǒng)或?qū)棸l(fā)射系統(tǒng),具有明顯的炮塔,如坦克、導(dǎo)彈發(fā)射車等。
輪式戰(zhàn)車:由車輪驅(qū)動(dòng),攜帶大口徑武器系統(tǒng)或?qū)棸l(fā)射系統(tǒng),大部分運(yùn)行在公路上,如輪式火炮,6×6越野卡車等。
保障車輛:具備裝甲車輛的所有屬性,但沒有大口徑武器系統(tǒng)。如運(yùn)兵車、雷達(dá)車、指揮車等。
表1展示了不同類別數(shù)據(jù)集的數(shù)量及標(biāo)注數(shù)據(jù)??梢钥闯?本實(shí)驗(yàn)采用的數(shù)據(jù)集不均衡,其中裝甲目標(biāo)尺度范圍從10×10像素到600×410像素不等。這對(duì)算法的魯棒性與泛化能力提供了高的要求。
表1 數(shù)據(jù)集車型類別數(shù)量
本文提出的模型首先利用公開的基準(zhǔn)車輛數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,獲得收斂的網(wǎng)絡(luò)參數(shù),并將該參數(shù)作為初始參數(shù)訓(xùn)練本文提出的裝甲目標(biāo)數(shù)據(jù)集(如圖4所示)。本文采用的主干網(wǎng)絡(luò)是ResNet-50,具有四個(gè)重復(fù)疊加卷積塊(Block-2,Block-3,Block-4,Block-5),通過在每層卷積塊上增加金字塔池化模塊,其中所有的數(shù)據(jù)樣本都?xì)w一化到相同的尺度。本文所提出的網(wǎng)絡(luò)模型采用PyTorch 1.2.0深度學(xué)習(xí)框架,并在Pycharm中編程實(shí)現(xiàn),其編程語言為Python 3.6。深度網(wǎng)絡(luò)采用的硬件平臺(tái)是Intel(R)Xeon(R)W-2102 CPU @2.90 GHz處理器和GeForce GTX 1080TI用于加速。為了提高優(yōu)化效率,模型訓(xùn)練方式采用Adam優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,其參數(shù)設(shè)定為:Alpha=0.001,Beta1=0.9,Beta2=0.999和Epsilon=10-8。訓(xùn)練過程中,加權(quán)損失函數(shù)的權(quán)值設(shè)置為 0.12。初始化設(shè)置學(xué)習(xí)速率為 0.15,首先將邊緣感知模塊訓(xùn)練到第 50 個(gè) Epoch 時(shí),然后對(duì)多尺度金字塔池化網(wǎng)絡(luò)模塊進(jìn)行優(yōu)化,并將學(xué)習(xí)速率調(diào)整到 0.015; 若到達(dá) 100 個(gè) Epoch 后,本文所提的損失值不超過迭代閾值則停止訓(xùn)練。
本文提出的深度網(wǎng)絡(luò)模型的主要目的是檢測(cè)出圖像中的裝甲目標(biāo),并識(shí)別出目標(biāo)的類型,其核心功能是檢測(cè)出裝甲目標(biāo),在此基礎(chǔ)上進(jìn)行目標(biāo)識(shí)別。因此本實(shí)驗(yàn)的性能分析也分為兩部分:裝甲目標(biāo)檢測(cè)功能與裝甲目標(biāo)分能功能。
在評(píng)估本文分類模型的性能時(shí),實(shí)驗(yàn)采用檢測(cè)精度(AP)與mAP(meanAP)作為與作為裝甲車輛的評(píng)估指標(biāo),其中mAP(meanAP)是數(shù)據(jù)集中所有類別的的評(píng)估指標(biāo),其值越大表明模型對(duì)不同類型的目標(biāo)識(shí)別越準(zhǔn)確。目標(biāo)檢測(cè)任務(wù)中,檢測(cè)結(jié)果存在表2所示的四種情況。可以看出,把正樣本正確分類為真,表示為TP(true positive);把正樣本錯(cuò)誤分類為假,表示為FN(false negative);把負(fù)樣本正確分類為假,表示為TN(true negative);把負(fù)樣本錯(cuò)誤分類為真,表示為FP(false positive)。因此,精確率與召回率可以采用如下等式表示,
表2 裝甲檢測(cè)結(jié)果統(tǒng)計(jì)量
Precision=TP/(TP+FP)
(8)
Recall=TP/(TP+FN)
(9)
為了更好地權(quán)衡精確率與召回率,本文引入了P-R曲線進(jìn)行分析,其中P-R曲線下的面積就是檢測(cè)結(jié)果的AP值。
實(shí)驗(yàn)選用了目前目標(biāo)檢測(cè)領(lǐng)域性能較優(yōu)的對(duì)比算法進(jìn)行定性定量分析,分別是YOLO-v3[12]、SSD[17]、CoupleNet[18]、Cascade RCNN[19]、IM-Cascade[20]與ResNet[21],其中Cascade RCNN是基于RPN的兩階段網(wǎng)絡(luò),生成自適應(yīng)的檢測(cè)框;R-FCN 是基于區(qū)域生成的全卷積監(jiān)測(cè)網(wǎng)絡(luò),但不包含全連接層,所以檢測(cè)速度較快;CoupleNet 以 R-FCN 為基礎(chǔ),融合了多尺度特征信息,檢測(cè)速度有所降低。所有的對(duì)比模型都能在Github上獲得開源代碼,由于不同代碼間存在配置結(jié)構(gòu)與平臺(tái)的差異,其運(yùn)行速度沒有可比較性。為了便于公平的定性定量的對(duì)比,所有的模型都采用公共車輛數(shù)據(jù)集進(jìn)行參數(shù)初始化,并使用相同的訓(xùn)練集進(jìn)行微調(diào)與訓(xùn)練。
本文提出了一種復(fù)雜場(chǎng)景下裝甲目標(biāo)檢測(cè)與識(shí)別網(wǎng)絡(luò),該網(wǎng)絡(luò)利用金字塔池化獲得多個(gè)旁路輸出層的不同尺度的全局結(jié)構(gòu)信息,并對(duì)不同分支的邊緣感知通道進(jìn)行有效融合,最終提升復(fù)雜背景下裝甲目標(biāo)的檢測(cè)精度。為了驗(yàn)證該網(wǎng)絡(luò)對(duì)復(fù)雜背景下的小尺度裝甲目標(biāo)的檢測(cè)與識(shí)別性能,本文實(shí)驗(yàn)將從目標(biāo)檢測(cè)與分類識(shí)別兩個(gè)方面進(jìn)行性能分析,其中前者主要對(duì)裝甲目標(biāo)的檢測(cè)結(jié)果進(jìn)行準(zhǔn)確度分析,后者則對(duì)裝甲目標(biāo)分類結(jié)果進(jìn)行分析。
3.4.1 檢測(cè)精度對(duì)比
表3展示了不同算法模型的檢測(cè)結(jié)果??梢钥吹?Cascade RCNN與YOLO-v3在不同子集上的結(jié)果普遍較好,且結(jié)構(gòu)類似。通過對(duì)實(shí)際測(cè)試樣本檢測(cè)結(jié)果分析可以看出,大多數(shù)漏檢集中在戈壁環(huán)境下弱小目標(biāo),尤其是目標(biāo)距離較遠(yuǎn),且周邊存在草垛的場(chǎng)景,大多數(shù)網(wǎng)絡(luò)模型并不能準(zhǔn)確的檢測(cè)出目標(biāo)所在的位置。在水泥路面或平整干凈的地面場(chǎng)景下,大多數(shù)目標(biāo)都能夠準(zhǔn)確的檢測(cè),但也存在視場(chǎng)角度導(dǎo)致采集的圖像只存在一個(gè)斜面,最終出現(xiàn)漏檢。真實(shí)的干凈場(chǎng)景下的大型裝甲目標(biāo)的檢測(cè)性能表現(xiàn)良好,但對(duì)低于20×20尺寸的目標(biāo),其獲得的召回率和準(zhǔn)確率要低得多,但也明顯高于其他對(duì)比算法。
表3 不同裝甲數(shù)據(jù)集下目標(biāo)檢測(cè)精度
眾所周知,區(qū)域生成模塊是基于深度網(wǎng)絡(luò)的目標(biāo)檢測(cè)應(yīng)用的核心步驟,能夠生成有效的疑似樣本區(qū)域。為了確保檢測(cè)框覆蓋所有疑似樣本區(qū)域,就需要在圖像的遍歷各種尺度的區(qū)域。雖然目前區(qū)域生成網(wǎng)絡(luò)可以獲得疑似區(qū)域,比如顯著性檢測(cè)、聚類、泛洪等,但生成的樣本仍然存在大量與目標(biāo)無關(guān)的區(qū)域。因此本文提出了一種邊緣語義感知模塊,可以計(jì)算出每個(gè)側(cè)邊輸出層的交叉熵?fù)p失函數(shù),該網(wǎng)絡(luò)以邊緣輪廓為先驗(yàn),能夠提升目標(biāo)識(shí)別的精度。圖3展示了給定數(shù)目的樣本集下每張圖像內(nèi)目標(biāo)的樣本數(shù)量,表征了目標(biāo)檢測(cè)算法在不同檢測(cè)率下的統(tǒng)計(jì)結(jié)果。表3展示了不同方法對(duì)訓(xùn)練數(shù)據(jù)集的平檢測(cè)精度。與其他方法相比,該模塊在中小型裝甲目標(biāo)上具有更高的性能。從表中對(duì)比結(jié)果可以看出,相對(duì)于SSD與ResNet,所提模型分別提高了5.6 %和7.0 %的檢測(cè)性能。結(jié)果表明,本文方法對(duì)不同尺度的裝甲目標(biāo)具有較好的檢測(cè)識(shí)別能力。
圖3 不同目標(biāo)類別下的檢測(cè)精度
3.4.2 識(shí)別精度對(duì)比
為了進(jìn)一步驗(yàn)證多尺度金字塔語義池化網(wǎng)絡(luò)在裝甲目標(biāo)檢測(cè)中的有效性,本小節(jié)進(jìn)行了基于多尺度上下文融合策略的消融實(shí)驗(yàn)。通過設(shè)置不同感受野尺度來分析語義特征的對(duì)性能的影響。顯然,增加語義特征的網(wǎng)絡(luò)可以提高低于20×20的小目標(biāo)的召回率,這是由于是在較大尺度卷積特征往往具有更大的感受野,能夠捕獲裝甲目標(biāo)周圍有更多的語義信息。對(duì)于小型裝甲目標(biāo),主干網(wǎng)絡(luò)中Block_2、Block_2、Block_4和Block_5能逐層提升目標(biāo)表征能力。然而,并不是層數(shù)越多,表征能力約束。試驗(yàn)中增加Block_5后,其獲得的召回率與準(zhǔn)確度反而下降,這是是由于過擬合的緣故。
對(duì)于導(dǎo)彈接近目標(biāo)或者機(jī)載設(shè)備飛臨目標(biāo)頂上時(shí),目標(biāo)呈現(xiàn)的尺寸相當(dāng)?shù)拇?部分目標(biāo)甚至充滿整個(gè)視場(chǎng)。深度網(wǎng)絡(luò)在獲取區(qū)域生成候選樣本時(shí),會(huì)裁剪成不同大小的樣本框,這種情況語義特征不能提升目標(biāo)的檢測(cè)精度。例如,感受野可能只覆蓋到目標(biāo)的局部區(qū)域,其召回率較低;相反,若目標(biāo)在較小感受野內(nèi)具有較大激活值時(shí),其召回率較高。這也間接證實(shí)了語義特征僅僅對(duì)中小型目標(biāo)檢測(cè)有效,而對(duì)大型目標(biāo)的檢測(cè)性能提升不明顯。因此,本文采用了多尺度金字塔語義池化網(wǎng)絡(luò)在提取多尺度語義特征,能夠獲得較均衡的檢測(cè)性能。
本文提出的裝甲目標(biāo)檢測(cè)方法在很大程度上優(yōu)于Cascade RCNN、IM-Cascade,其召回率和精確度分別提升了6.5 %與7.8 %。圖4展示不同網(wǎng)絡(luò)模型對(duì)不同型號(hào)和不同尺寸裝甲目標(biāo)的P-R曲線對(duì)比??梢钥闯?本文所提網(wǎng)絡(luò)對(duì)履帶式戰(zhàn)車的檢測(cè)精度優(yōu)于輪式戰(zhàn)車與保障車輛。值得注意的是,本文提出的網(wǎng)絡(luò)引入空洞卷積思想,在保證卷積特征分辨率不變的基礎(chǔ)上提高弱小目標(biāo)的檢測(cè)精度。另外,所提模型中區(qū)域生成網(wǎng)絡(luò)并不是采用最大池化實(shí)現(xiàn),而是利用多孔空間金字塔池化將多尺度上下文特征進(jìn)行融合,增強(qiáng)目標(biāo)的表征能力與抗干擾性能。尤其是針對(duì)小尺寸目標(biāo),其采用的空洞卷積可以彌補(bǔ)丟失的感受野,而不會(huì)降低整體輪廓提取的精度。從測(cè)試數(shù)據(jù)集的結(jié)果可以看出,本文提出的網(wǎng)絡(luò)比Cascade RCNN在平均召回率上有了很大的提高。本文所提網(wǎng)絡(luò)對(duì)大型裝甲目標(biāo)也有改進(jìn),這表明多尺度語義池化有助于提高對(duì)超大目標(biāo)的檢測(cè)能力。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提網(wǎng)絡(luò)在中小型裝甲目標(biāo)檢測(cè)性能較好。
圖4 不同類別識(shí)別精度的P-R曲線
以上分析可知,本文算法、Cascade RCNN和YOLO-v3是最優(yōu)的三種算法。為了降低篇幅,本文定性對(duì)比部分僅對(duì)這三類算法進(jìn)行分析。圖5是不同對(duì)比算法對(duì)不同裝甲目標(biāo)檢測(cè)的結(jié)果。由于不同類型的中小尺寸裝甲目標(biāo)并不具有明顯的差異,5 km處的履帶式裝甲與輪式裝甲目標(biāo)輪廓特征類似,僅僅針對(duì)單幅圖像很難準(zhǔn)確區(qū)分。雖然類別上無法判斷,但裝甲目標(biāo)的檢測(cè)精度較高。裝甲目標(biāo)檢測(cè)與識(shí)別是一個(gè)動(dòng)態(tài)的過程,必須結(jié)合目標(biāo)跟蹤算法進(jìn)行。從最開始發(fā)現(xiàn)目標(biāo)開始跟蹤,直到目標(biāo)可分辨時(shí)進(jìn)行準(zhǔn)確識(shí)別,勢(shì)必提升整體裝備的應(yīng)用效果。圖5(a)中目標(biāo)炮塔方向被遮擋,導(dǎo)致最終識(shí)別結(jié)果不準(zhǔn)確,而本文算法可以結(jié)合輪廓信息進(jìn)行判斷,雖然可能識(shí)別錯(cuò)誤,但能準(zhǔn)確檢測(cè)出目標(biāo)。圖5(b)與5(d)目標(biāo)的輪子被雜草遮擋,最終識(shí)別出來是一個(gè)保障車輛,而本文模型能能夠準(zhǔn)確識(shí)別;圖5(c)中目標(biāo)被煙霧遮擋,導(dǎo)致其識(shí)別結(jié)果不準(zhǔn)確,但這些圖像的檢測(cè)性能較好。即便是Cascade RCNN與IM-Cascade已經(jīng)不能很好的檢測(cè)出目標(biāo),但本文算法仍然可以標(biāo)注出目標(biāo)位置。主要?dú)w咎于本文所提算法融合了邊緣感知網(wǎng)絡(luò)和金字塔池化語義網(wǎng)絡(luò)的優(yōu)勢(shì),使得本文算法能夠更好地適應(yīng)目標(biāo)的形態(tài)變化。
圖5 不同對(duì)比算法的定性結(jié)果
為了提升復(fù)雜場(chǎng)景下裝甲目標(biāo)檢測(cè)與識(shí)別的精度,本文提出了一種基于多金字塔池化模型的整體嵌套卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)利用金字塔池化獲得多個(gè)旁路輸出層的不同尺度的全局結(jié)構(gòu)信息,并利用不同分支的邊緣感知通道進(jìn)行有效融合。仿真測(cè)試結(jié)果表明,本文所提的目標(biāo)檢測(cè)識(shí)別網(wǎng)絡(luò)可以有效地提高復(fù)雜背景下裝甲目標(biāo)的檢測(cè)與識(shí)別精度。由于本文使用數(shù)據(jù)集均是來自影視作品,因此未來的首要工作就是在此基礎(chǔ)上進(jìn)一步擴(kuò)充數(shù)據(jù)集,并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化和改進(jìn),嘗試移植到海思Hi3559芯片進(jìn)行外場(chǎng)掛飛,從而提升模型網(wǎng)絡(luò)的實(shí)時(shí)性與工程應(yīng)用效果。