吳晗 張志龍 李楚為 李航宇
摘 要:????? 深度卷積神經(jīng)網(wǎng)絡(luò)模型在很多計(jì)算機(jī)視覺(jué)應(yīng)用中取得了非常出色的結(jié)果,如何利用深度學(xué)習(xí)技術(shù)完成復(fù)雜戰(zhàn)場(chǎng)環(huán)境下的輔助制導(dǎo)和瞄準(zhǔn)點(diǎn)定位,是我軍贏得現(xiàn)代信息化戰(zhàn)爭(zhēng)的關(guān)鍵。針對(duì)該問(wèn)題,本文提出了一種時(shí)敏目標(biāo)的類(lèi)型與瞄準(zhǔn)點(diǎn)識(shí)別算法,用于改善對(duì)時(shí)敏目標(biāo)檢測(cè)的質(zhì)量,并為后續(xù)模塊提供作戰(zhàn)軍事資源各個(gè)部件的打擊價(jià)值。該算法對(duì)YOLOv3主干網(wǎng)絡(luò)進(jìn)行重新設(shè)計(jì),使用深度可分離卷積神經(jīng)網(wǎng)絡(luò)的殘差塊對(duì)輸入圖像進(jìn)行特征提取,然后將得到的特征圖送入注意力模型,為含有目標(biāo)部件等重要語(yǔ)義信息的特征圖賦予相應(yīng)的權(quán)值,最后將經(jīng)注意力機(jī)制模型處理后的特征圖送入回歸網(wǎng)絡(luò)進(jìn)行時(shí)敏目標(biāo)的類(lèi)型與瞄準(zhǔn)點(diǎn)識(shí)別。在COCO與VOC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法使用的特征提取網(wǎng)絡(luò)與注意力模型有效提升了深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)常見(jiàn)目標(biāo)的檢測(cè)精度(mAP); 在所建立的戰(zhàn)場(chǎng)軍事資源模型數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法可實(shí)現(xiàn)對(duì)非合作時(shí)敏目標(biāo)的瞄準(zhǔn)點(diǎn)精準(zhǔn)識(shí)別。
關(guān)鍵詞:???? 時(shí)敏目標(biāo); 目標(biāo)檢測(cè); 瞄準(zhǔn)點(diǎn)識(shí)別; 深度學(xué)習(xí); 注意力模型; YOLOv3; 神經(jīng)網(wǎng)絡(luò)
中圖分類(lèi)號(hào):???? TJ760; TN957.51
文獻(xiàn)標(biāo)識(shí)碼:??? A
文章編號(hào):???? 1673-5048(2022)02-0024-06
DOI: 10.12132/ISSN.1673-5048.2020.0260
0 引? 言
戰(zhàn)場(chǎng)目標(biāo)是指復(fù)雜戰(zhàn)場(chǎng)環(huán)境下需要打擊的作戰(zhàn)對(duì)象,特指在一定的時(shí)間與空間范圍內(nèi)存在,具有重要戰(zhàn)略、戰(zhàn)役或戰(zhàn)術(shù)價(jià)值的實(shí)體目標(biāo)。時(shí)敏目標(biāo)是指必須在有限的攻擊窗口內(nèi)發(fā)現(xiàn)、定位、識(shí)別和瞄準(zhǔn)的目標(biāo)。時(shí)敏目標(biāo)瞄準(zhǔn)點(diǎn)選擇是指依據(jù)我方作戰(zhàn)目的、武器裝備性能及所獲取的戰(zhàn)場(chǎng)情報(bào)資料,在戰(zhàn)時(shí)國(guó)際法的框架約束內(nèi),對(duì)戰(zhàn)場(chǎng)時(shí)敏目標(biāo)進(jìn)行檢測(cè)、分析、評(píng)估、排序后,從中選出重點(diǎn)打擊目標(biāo)的過(guò)程。
隨著人工智能技術(shù)的興起,大量具有一定自主意識(shí)的人工智能載體被投入到復(fù)雜戰(zhàn)場(chǎng)環(huán)境中輔助作戰(zhàn),人們希望研究智能化程度較高的目標(biāo)檢測(cè)識(shí)別算法,準(zhǔn)確智能地從人工智能偵察設(shè)備攝取的序列圖像中發(fā)現(xiàn)各類(lèi)移動(dòng)目標(biāo),并輸出提示或告警信息,以緩解操作員的心理負(fù)擔(dān)。
時(shí)敏目標(biāo)的瞄準(zhǔn)點(diǎn)識(shí)別過(guò)程實(shí)質(zhì)為目標(biāo)檢測(cè)任務(wù)中的部件識(shí)別過(guò)程。在現(xiàn)代信息化戰(zhàn)爭(zhēng)中,戰(zhàn)場(chǎng)局勢(shì)瞬息萬(wàn)變,不同的戰(zhàn)術(shù)作戰(zhàn)軍事資源的各個(gè)部件具有不同的打擊價(jià)值,如何有效地進(jìn)行時(shí)敏目標(biāo)的瞄準(zhǔn)點(diǎn)識(shí)別是鎖定并制導(dǎo)摧毀目標(biāo)的關(guān)鍵步驟。
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)重要的研究方向,不同于圖像分類(lèi)與語(yǔ)義分割任務(wù),目標(biāo)檢測(cè)任務(wù)既需要識(shí)別復(fù)雜背景下的目標(biāo)類(lèi)別,也需要回歸目標(biāo)邊界框位置信息。傳統(tǒng)意義上的目標(biāo)檢測(cè)算法主要分為兩類(lèi): 基于目標(biāo)結(jié)構(gòu)知識(shí)的啟發(fā)式方法與基于特征的方法。
啟發(fā)式方法是根據(jù)目標(biāo)的結(jié)構(gòu)知識(shí)提出的,往往針對(duì)目標(biāo)的一些特殊結(jié)構(gòu),采取濾波的方法,進(jìn)行相應(yīng)的特征提取。提取的特征包括直線特征、點(diǎn)特征和特殊結(jié)構(gòu)特征等。例如,在飛機(jī)檢測(cè)方面,利用飛機(jī)結(jié)構(gòu)知識(shí)建立的圓周頻率濾波算法[1]和數(shù)學(xué)形態(tài)學(xué)濾波算法來(lái)進(jìn)行飛機(jī)檢測(cè); 在艦船檢測(cè)方面,通過(guò)分析線段的空間關(guān)系檢測(cè)港內(nèi)艦船[2], 通過(guò)尾跡檢測(cè)艦船,基于形狀上下文檢測(cè)艦船[3]; 在車(chē)輛檢測(cè)方面,利用運(yùn)動(dòng)信息檢測(cè)圖像中的運(yùn)動(dòng)目標(biāo)[4]等。
基于特征的目標(biāo)檢測(cè)算法是通過(guò)在空域或變換域中提取特征來(lái)描述圖像,以達(dá)到對(duì)目標(biāo)檢測(cè)識(shí)別的目的。常見(jiàn)的空域特征應(yīng)用包括: HOG特征用于行人檢測(cè)[5]; Haar-like特征用于物體檢測(cè)和實(shí)時(shí)的人臉檢測(cè)[6]; SIFT特征用于描述機(jī)場(chǎng),并用一種特征點(diǎn)匹配的方法進(jìn)行目標(biāo)檢測(cè)[7]等。常見(jiàn)的變換域方法包括: Ridgelet變換、小波變換、Gabor變換等,Ridgelet變換檢測(cè)道路邊緣,離散小波變換在SAR圖像中檢測(cè)艦船等。雖然傳統(tǒng)意義上的目標(biāo)檢測(cè)算法可在計(jì)算資源占用較小的情況下實(shí)現(xiàn)檢測(cè)識(shí)別,但在復(fù)雜背景條件下,其整體識(shí)別率不高、泛化能力不強(qiáng)且魯棒性較弱[8]。
在2012年的ImageNet競(jìng)賽中,AlexNet[9]算法在圖像分類(lèi)領(lǐng)域取得了質(zhì)的飛躍,其將一千類(lèi)圖像的分類(lèi)正確率提升至84.7%。自此,深度學(xué)習(xí)(Deep Learning)就開(kāi)始被廣泛地應(yīng)用于目標(biāo)檢測(cè)識(shí)別任務(wù)。無(wú)論是以Faster R-CNN[10]和Mask R-CNN[11]為代表的雙階段目標(biāo)檢測(cè)算法,還是以SSD[12]和YOLO[13]為代表的單階段目標(biāo)檢測(cè)算法,都在大規(guī)模目標(biāo)檢測(cè)數(shù)據(jù)集上取得了優(yōu)秀的識(shí)別性能。針對(duì)單/雙階段目標(biāo)檢測(cè)算法的檢測(cè)速率與精度平衡問(wèn)題,Tian等提出的FCOS算法[14]采用語(yǔ)義分割的思想來(lái)實(shí)現(xiàn)目標(biāo)檢測(cè)任務(wù),其基于Anchor-free的策略能在節(jié)省大量計(jì)算資源的情況下獲得較高的目標(biāo)檢測(cè)識(shí)別率。
深度學(xué)習(xí)中的注意力機(jī)制借鑒了人腦系統(tǒng)處理大量冗余信息的視覺(jué)注意力思維方式[15],即視覺(jué)信息處理過(guò)程中著重關(guān)注包含信息量最為豐富的區(qū)域,抑制次要區(qū)域信息對(duì)整體的影響。Hu等的SE模型[16]通過(guò)對(duì)深度網(wǎng)絡(luò)提取的特征圖進(jìn)行壓縮與釋放操作,使得深度模型給予高響應(yīng)通道特征更大權(quán)值。Woo等的CBAM模型[17]通過(guò)對(duì)深度網(wǎng)絡(luò)提取的特征圖進(jìn)行池化與并行編碼,使得特征圖中對(duì)應(yīng)語(yǔ)義信息豐富的區(qū)域得到更高程度的響應(yīng),這種策略讓網(wǎng)絡(luò)模型可在額外占用一定計(jì)算資源的情況下,提高目標(biāo)檢測(cè)的識(shí)別精度。
本文提出了一種時(shí)敏目標(biāo)的類(lèi)型與瞄準(zhǔn)點(diǎn)識(shí)別算法。該算法對(duì)YOLOv3主干網(wǎng)絡(luò)進(jìn)行重新設(shè)計(jì),使用深度可分離卷積神經(jīng)網(wǎng)絡(luò)的殘差塊對(duì)輸入圖像進(jìn)行特征提取,然后將得到的特征圖送入注意力模型,其對(duì)含有目標(biāo)部件等重要語(yǔ)義信息的特征圖賦予相應(yīng)的權(quán)值,最后將經(jīng)注意力模型處理后的特征圖送入回歸網(wǎng)絡(luò)進(jìn)行時(shí)敏目標(biāo)的類(lèi)型與瞄準(zhǔn)點(diǎn)識(shí)別。經(jīng)注意力機(jī)制處理后的深度模型可更加關(guān)注輸入圖像中包含目標(biāo)部件等重要語(yǔ)義信息的區(qū)域,從而可實(shí)現(xiàn)高精度、魯棒性強(qiáng)的時(shí)敏目標(biāo)瞄準(zhǔn)點(diǎn)識(shí)別。
1 相關(guān)工作
瞄準(zhǔn)點(diǎn)識(shí)別的過(guò)程實(shí)質(zhì)是目標(biāo)的部件識(shí)別過(guò)程。目前主流的部件識(shí)別算法仍是將目標(biāo)部件作為一種目標(biāo)類(lèi)型,經(jīng)過(guò)標(biāo)注、訓(xùn)練等強(qiáng)監(jiān)督學(xué)習(xí)步驟后,分類(lèi)與回歸出目標(biāo)的類(lèi)型與邊界框信息。雖然這類(lèi)方法可在一定程度上取得較好的部件檢測(cè)性能,但仍陷入了單/雙階段目標(biāo)檢測(cè)算法的檢測(cè)速率與精度平衡問(wèn)題,且由于沒(méi)有利用特征圖中目標(biāo)各個(gè)部件的上下文信息,其檢測(cè)精度有待進(jìn)一步提升。
針對(duì)上述算法的問(wèn)題,有學(xué)者提出了基于目標(biāo)關(guān)鍵點(diǎn)特征的部件檢測(cè)算法[18-19],其利用目標(biāo)部件之間的相互位置關(guān)系來(lái)提升目標(biāo)部件的識(shí)別性能。如圖1所示,這類(lèi)算法首先將目標(biāo)部件視為關(guān)鍵點(diǎn)特征,并且利用級(jí)聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)包含豐富語(yǔ)義信息的目標(biāo)關(guān)鍵位置檢測(cè),然后利用這些關(guān)鍵位置定位結(jié)果來(lái)優(yōu)化Faster R-CNN候選框篩選機(jī)制和輸出策略,從而降低了目標(biāo)檢測(cè)模型的網(wǎng)絡(luò)復(fù)雜度,實(shí)現(xiàn)較高精度的部件檢測(cè)性能。這類(lèi)算法雖然可以實(shí)現(xiàn)較高魯棒性的目標(biāo)檢測(cè),但是,其并未有效降低算法所需的計(jì)算資源,而由于Faster R-CNN算法檢測(cè)速度過(guò)于緩慢,更難以滿足復(fù)雜戰(zhàn)場(chǎng)環(huán)境下嵌入式設(shè)備部署所需求的高效性與實(shí)時(shí)性。
在保證目標(biāo)檢測(cè)精度的基礎(chǔ)上,盡可能地提升時(shí)敏目標(biāo)瞄準(zhǔn)點(diǎn)檢測(cè)識(shí)別的速率,本文提出了一種基于注意力機(jī)制的部件識(shí)別算法,通過(guò)對(duì)含有目標(biāo)部件等重要語(yǔ)義信息的特征圖賦予相應(yīng)的權(quán)值,網(wǎng)絡(luò)最終的輸出會(huì)更多地受到輸入圖像中目標(biāo)部件的影響。由于特征提取網(wǎng)絡(luò)與回歸網(wǎng)絡(luò)處于一個(gè)端到端的模型之中,并且所使用的通道注意力機(jī)制可在不占用額外計(jì)算資源的情況下自學(xué)習(xí)特征響應(yīng),因此,本文算法可以在高算力設(shè)備支持下實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè)。
2 網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)
本文算法采用瓶頸結(jié)構(gòu)(Bottleneck)所構(gòu)成的殘差塊,對(duì)輸入圖像進(jìn)行特征提取;? 然后將得到的特征圖送入注意力模型,其對(duì)含有目標(biāo)部件等重要語(yǔ)義信息區(qū)域的特征圖呈現(xiàn)高響應(yīng)回歸;? 最后將注意力模型處理后的特征圖送入常用分類(lèi)回歸網(wǎng)絡(luò),進(jìn)行時(shí)敏目標(biāo)的類(lèi)型與瞄準(zhǔn)點(diǎn)識(shí)別。其整體流程圖如圖2所示。
2.1 特征提取
本文算法所設(shè)計(jì)的特征提取網(wǎng)絡(luò)包含多個(gè)殘差塊,其將可見(jiàn)光域的圖像集合中的某圖像fkc(i,? j)進(jìn)行多層次
特征提取得到特征圖Fkz(i, j)。如圖3所示,每個(gè)殘差塊由1*1的深度可分離卷積核(卷積步長(zhǎng)stride為1)和3*3的深度可分離卷積核(卷積步長(zhǎng)stride為2)加上殘差結(jié)構(gòu)組成,F(xiàn)ilter(過(guò)濾器)數(shù)目先減半后恢復(fù),以便于更好地提取特征。
經(jīng)典特征提取網(wǎng)絡(luò)一般通過(guò)增加卷積網(wǎng)絡(luò)的層數(shù)來(lái)增強(qiáng)模型的泛化能力,從而增強(qiáng)算法的識(shí)別性能,但是這種方法會(huì)使模型參數(shù)計(jì)算量增大,檢測(cè)速率也隨之降低,而一般的嵌入式AI設(shè)備根本無(wú)法滿足此類(lèi)大型網(wǎng)絡(luò)對(duì)于存儲(chǔ)和計(jì)算資源的需求。深度可分離卷積核采用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積,在保持通道分離的前提下實(shí)現(xiàn)空間卷積,從而能有效利用參數(shù)來(lái)降低網(wǎng)絡(luò)模型的空間復(fù)雜度。深度可分離卷積將傳統(tǒng)的卷積分解為一個(gè)深度卷積與逐點(diǎn)卷積,其結(jié)構(gòu)如圖4所示。
2.2 注意力機(jī)制
本文的注意力模型整體結(jié)構(gòu)如圖5所示。首先,將特征提取網(wǎng)絡(luò)提取的特征圖Fkz(i, j)輸入至空間注意力模型,得到空間賦權(quán)特征圖F^kz(i, j); 然后,將提取的低層特征圖Fkz(i, j)與包含目標(biāo)部件豐富語(yǔ)義信息的空間賦權(quán)特征圖F^kz(i, j),并行輸入至通道注意力模型中進(jìn)行通道賦權(quán)。通道注意力模型可在不占用額外計(jì)算資源的情況下通過(guò)式(1)自學(xué)習(xí)高響應(yīng)通道特征對(duì)應(yīng)權(quán)值wz:
wz=eMzi, j∑z^ eMi, jz^, Mzi, j=F^kz(i, j)(1)
在空間賦權(quán)特征圖F^kz(i, j)中,某通道所包含的信息量越多,其對(duì)應(yīng)的特征響應(yīng)越大。注意力網(wǎng)絡(luò)最終的輸出為
F^^kz(i, j)=F^kz(i, j)+Fkz(i, j)*wz (2)
空間注意力模型結(jié)構(gòu)如圖6所示,首先,將特征圖Fkz(i, j)送入并行的全局平均池化層與全局最大池化層進(jìn)行池化處理后,全局平均池化與全局最大池化可在不增加額外參數(shù)量的情況下, 提取特征圖的全局信息,隨后拼接得到對(duì)應(yīng)的特征向量。其次,將拼接后的特征向量經(jīng)過(guò)多個(gè)1*1的卷積核(卷積步長(zhǎng)為1且進(jìn)行填充)進(jìn)行卷積,通過(guò)使用1*1的卷積核壓縮輸入特征向量的通道數(shù),對(duì)特征向量所對(duì)應(yīng)的空間區(qū)域進(jìn)行區(qū)域響應(yīng)激活,然后進(jìn)行歸一化處理:
w(i, j)=sigmoid(w)=11+e-w(3)
學(xué)習(xí)到空間注意力權(quán)值w(i, j),最后將空間注意力權(quán)值與原始低層特征圖進(jìn)行賦權(quán)得到空間賦權(quán)特征圖F^kz(i, j):
F^kzi, j=Fkz(i, j)*w(i, j)(4)
2.3 網(wǎng)絡(luò)輸出
本文算法并行輸出時(shí)敏目標(biāo)的類(lèi)型檢測(cè)框與瞄準(zhǔn)點(diǎn)
識(shí)別框,且兩路輸出在網(wǎng)絡(luò)設(shè)計(jì)上有著相互促進(jìn)的作用,即網(wǎng)絡(luò)的輸出項(xiàng)上存在激勵(lì)關(guān)系,在非極大值抑制(NMS)模塊中,時(shí)敏目標(biāo)的瞄準(zhǔn)點(diǎn)識(shí)別框?qū)⒂糜谛拚龝r(shí)敏目標(biāo)的類(lèi)型檢測(cè)框,從而使目標(biāo)領(lǐng)域內(nèi)的置信度更高。反之亦然,其結(jié)構(gòu)如圖7所示。
3 實(shí)驗(yàn)結(jié)果分析
本文實(shí)驗(yàn)采用的硬件平臺(tái)為: Intel i5-9400 CPU@ 2.90 GHz; 兩塊NVIDIA 2080TI顯卡(11 G)、 16 GB內(nèi)存; 操作系統(tǒng)為Ubuntu 16.04; 深度學(xué)習(xí)框架為Pytorch與Tensorflow; 配置環(huán)境為CUDA 10.0, CUDNN 7.4。
3.1 目標(biāo)檢測(cè)實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證本文算法對(duì)時(shí)敏目標(biāo)類(lèi)型檢測(cè)的適用性與性能,關(guān)閉網(wǎng)絡(luò)的瞄準(zhǔn)點(diǎn)識(shí)別框輸出通道,并且在公開(kāi)的Microsoft Common Objects in Context (COCO)數(shù)據(jù)集[20]與PASCAL-VOC2012數(shù)據(jù)集[21]上開(kāi)展目標(biāo)檢測(cè)精度評(píng)估實(shí)驗(yàn)。其中所使用的COCO數(shù)據(jù)集包含80個(gè)目標(biāo)類(lèi)別,81 769張圖像作為訓(xùn)練集,? 10 126張圖像作為驗(yàn)證集,? 11 348張圖像作為測(cè)試集,平均每幅圖像有5個(gè)標(biāo)簽信息。所使用的VOC數(shù)據(jù)集包含20個(gè)目標(biāo)類(lèi)別,總共包含5 515張圖像,平均每幅圖像有2個(gè)標(biāo)簽信息。目標(biāo)檢測(cè)精度評(píng)估實(shí)驗(yàn)過(guò)程中的VOC數(shù)據(jù)集劃分為: 4 000張圖像作為訓(xùn)練集,415張圖像作為驗(yàn)證集,1 100張圖像作為測(cè)試集。
在目標(biāo)檢測(cè)精度評(píng)估實(shí)驗(yàn)過(guò)程中,本文算法使用的分類(lèi)回歸網(wǎng)絡(luò)是YOLOv3算法中的YOLO-head結(jié)構(gòu)。表1與表2分別展示了在COCO數(shù)據(jù)集與VOC數(shù)據(jù)集上,本算法與當(dāng)前主流目標(biāo)檢測(cè)算法的目標(biāo)檢測(cè)精度(COCO數(shù)據(jù)集測(cè)試IOU=0.75下的mAP; VOC數(shù)據(jù)集測(cè)試IOU=0.5下的mAP)與速度(FPS: 每秒檢測(cè)圖像數(shù))對(duì)比。實(shí)驗(yàn)結(jié)果表明: (1)與當(dāng)前主流目標(biāo)檢測(cè)算法相比,本文算法具有較好的目標(biāo)檢測(cè)性能; (2)本文算法可在提升目標(biāo)檢測(cè)精度的同時(shí)保證檢測(cè)速率,基本可以滿足復(fù)雜戰(zhàn)場(chǎng)環(huán)境下嵌入式設(shè)備部署所需求的高效性與實(shí)時(shí)性。
3.2 瞄準(zhǔn)點(diǎn)識(shí)別實(shí)驗(yàn)結(jié)果分析
采用本實(shí)驗(yàn)室所制備的戰(zhàn)場(chǎng)軍事資源模型數(shù)據(jù)集,該數(shù)據(jù)集包含18種戰(zhàn)場(chǎng)軍事資源模型,包含履帶、頂蓋與車(chē)輪三種瞄準(zhǔn)點(diǎn)標(biāo)注信息。數(shù)據(jù)集劃分情況為: 1 010張圖像作為訓(xùn)練集,144張圖像作為驗(yàn)證集,289張圖像作為測(cè)試集,分辨率均為1 920×1 080。
在瞄準(zhǔn)點(diǎn)識(shí)別算法的訓(xùn)練過(guò)程中,對(duì)訓(xùn)練數(shù)據(jù)采用數(shù)據(jù)增強(qiáng)處理。對(duì)訓(xùn)練樣本采取平移、翻轉(zhuǎn)、選擇、飽和度變換與顏色變換等,從而讓有限的訓(xùn)練樣本產(chǎn)生更大的訓(xùn)練價(jià)值,使得神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的泛化能力。
在深度學(xué)習(xí)的研究中,利用類(lèi)別激活圖(CAM)[22]的梯度權(quán)重激活映射,對(duì)卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)與回歸結(jié)果進(jìn)行解釋?zhuān)驗(yàn)槠淇梢栽谳斎氲膱D片中粗略地顯示出模型預(yù)測(cè)出的類(lèi)別所對(duì)應(yīng)的重要性區(qū)間。
本文在戰(zhàn)場(chǎng)軍事資源模型數(shù)據(jù)集上開(kāi)展對(duì)時(shí)敏目標(biāo)的類(lèi)型與瞄準(zhǔn)點(diǎn)識(shí)別評(píng)估,分三個(gè)部分進(jìn)行實(shí)驗(yàn):
(1) 將本文注意力模型級(jí)聯(lián)的特征提取網(wǎng)絡(luò)的輸出與僅作特征提取的殘差塊輸出做CAM可視化分析,結(jié)果如圖8所示。CAM可視化結(jié)果表明,經(jīng)過(guò)注意力機(jī)制改進(jìn)的神經(jīng)網(wǎng)絡(luò)模型最終的輸出結(jié)果,將受到包含目標(biāo)部件等關(guān)鍵信息區(qū)域的影響。
(2) 在本文建立的戰(zhàn)場(chǎng)軍事資源模型數(shù)據(jù)集上,開(kāi)啟/關(guān)閉網(wǎng)絡(luò)的瞄準(zhǔn)點(diǎn)識(shí)別框輸出通道,進(jìn)行瞄準(zhǔn)點(diǎn)識(shí)別模型的訓(xùn)練與對(duì)比測(cè)試。表3顯示了本文算法多路輸出和單路輸出的部件檢測(cè)精度(測(cè)試IOU=0.5下的mAP)與速度(FPS: 每秒檢測(cè)圖像數(shù))對(duì)比,可以看出,本文算法的目標(biāo)類(lèi)型與瞄準(zhǔn)點(diǎn)識(shí)別過(guò)程具有相互促進(jìn)作用。
(3) 在本文建立的戰(zhàn)場(chǎng)軍事資源模型數(shù)據(jù)集上進(jìn)行瞄準(zhǔn)點(diǎn)識(shí)別模型的訓(xùn)練與測(cè)試。表4顯示了本文算法與基于目標(biāo)關(guān)鍵點(diǎn)特征的部件檢測(cè)算法[17]等的部件檢測(cè)精度(測(cè)試IOU=0.5下的mAP)與速度(FPS: 每秒檢測(cè)圖像數(shù))對(duì)比??梢钥闯?,本文算法具有較好的瞄準(zhǔn)點(diǎn)識(shí)別綜合性能。
圖9展示了本文算法在測(cè)試集上的目標(biāo)瞄準(zhǔn)點(diǎn)識(shí)別結(jié)果??梢钥闯觯谳斎雸D像含多個(gè)目標(biāo)重要部件的情況下,本文算法仍具有良好的瞄準(zhǔn)點(diǎn)識(shí)別效果。
4 結(jié)? 論
本文提出了一種時(shí)敏目標(biāo)的類(lèi)型與瞄準(zhǔn)點(diǎn)識(shí)別算法。該算法可在不額外占用計(jì)算資源的情況下,通過(guò)注意力模型自學(xué)習(xí)高響應(yīng)特征來(lái)影響神經(jīng)網(wǎng)絡(luò)模型最終的分類(lèi)與回歸結(jié)果。在公開(kāi)的COCO數(shù)據(jù)集、VOC數(shù)據(jù)集與本文建立的戰(zhàn)場(chǎng)軍事資源模型數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明: 本文算法可在提升目標(biāo)檢測(cè)精度的同時(shí),保證檢測(cè)速率; 在輸入圖像包含多個(gè)目標(biāo)部件的情況下,本文算法仍具有良好的瞄準(zhǔn)點(diǎn)識(shí)別效果。下一步將繼續(xù)優(yōu)化瞄準(zhǔn)識(shí)別算法的特征提取網(wǎng)絡(luò)結(jié)構(gòu),以實(shí)現(xiàn)在復(fù)雜背景條件下的目標(biāo)多類(lèi)瞄準(zhǔn)點(diǎn)特征的自適應(yīng)提取。
參考文獻(xiàn):
[1] An Z Y,? Shi Z W,? Teng X C,? et al. An Automated Airplane Detection System for Large Panchromatic Image with High Spatial Resolution[J]. Optik,? 2014,? 125(12): 2768-2775.
[2] Lin J L,? Yang X B,? Xiao S J. A Line Segment Based Inshore Ship Detection Method[C]∥ International Conference on Remote Sen-sing,? 2010: 261-269.
[3] Sreedevi Y,? Reddy B E. Ship Detection from SAR and SO Images[C]∥ International Conference on Advances in Computing,? 2013: 1027-1035.
[4] Kirchhof M,? Stilla U. Detection of Moving Objects in Airborne Thermal Videos[J]. ISPRS Journal of Photogrammetry and Remote Sensing,? 2006,? 61(3/4): 187-196.
[5] Dalal N,? Triggs B. Histograms of Oriented Gradients for Human Detection[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,? 2005: 886-893.
[6] Viola P,? Jones M J. Robust Real-Time Face Detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154.
[7] Tao C,? Tan Y H,? Cai H J, ?et al. Airport Detection from Large IKONOS Images Using Clustered SIFT Keypoints and Region Information[J]. IEEE Geoscience and Remote Sensing Letters,? 2011,? 8(1): 128-132.
[8] Girshick R,? Donahue J,? Darrell T,? et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition,? 2014: 580-587.
[9] Krizhevsky A,? Sutskever I,? Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]∥Advances in Neural Information Processing Systems ,? 2012: 76-83.
[10] Ren S Q,? He K M,? Girshick R,? et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]∥IEEE Transactions on Pattern Analysis and Machine Intelligence,? 2015: 1137-1149.
[11] He K M,? Gkioxari G,? Dollar P,? et al. Mask R-CNN[C]∥IEEE International Conference on Computer Vision (ICCV) ,? 2017.
[12] Liu W,? Anguelov D,? Erhan D,? et al. SSD: Single Shot MultiBox Detector[C]∥European Conference on Computer Vision,? 2016: 21-37.
[13] Redmon J,? Divvala S,? Girshick R,? et al. You only Look Once: Unified,? Real-Time Object Detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),? 2016: 779-788.
[14] Tian Z,? Shen C H,? Chen H,? et al. FCOS: Fully Convolutional One-Stage Object Detection[C]∥IEEE/CVF International Conference on Computer Vision (ICCV),? 2019: 9626-9635.
[15] 李楚為,? 張志龍,? 楊衛(wèi)平. 結(jié)合布爾圖和灰度稀缺性的小目標(biāo)顯著性檢測(cè)[J]. 中國(guó)圖象圖形學(xué)報(bào),? 2020,? 25(2): 267-281.
Li Chuwei,? Zhang Zhilong,? Yang Weiping. Salient Object Detection Method by Combining Boolean Map and Grayscale Rarity[J]. Journal of Image and Graphics,? 2020,? 25(2): 267-281.(in Chinese)
[16] Hu J,? Shen L,? Albanie S,? et al. Squeeze-and-Excitation Networks[C]∥IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018: 2011-2023.
[17] Woo S,? Park J,? Lee J Y,? et al. CBAM: Convolutional Block Attention Module[C]∥European Conference on Computer Vision,? 2018: 3-19.
[18] 吳建雄. 基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)輛部件檢測(cè)[D]. 武漢: 華中科技大學(xué),? 2017.
Wu Jianxiong. Detection of Vehicle Parts Based on Convolution Neural Network[D]. Wuhan: Huazhong University of Science and Technology,? 2017. (in Chinese)
[19] 舒娟. 基于深度學(xué)習(xí)的車(chē)輛部件檢測(cè)[D]. 武漢: 華中科技大學(xué),? 2017.
Shu Juan. Vehicle Component Detection Based on Deep Learning[D]. Wuhan: Huazhong University of Science and Technology,? 2017. (in Chinese)
[20] Lin T Y,? Maire M,? Belongie S,? et al. Microsoft COCO: Common Objects in Context[C]∥European Conference on Computer Vision,? 2014.
[21] Everingham M, van Gool L,? Williams C K I,? et al. The Pascal Visual Object Classes (VOC) Challenge[J]. International Journal of Computer Vision,? 2010,? 88(2): 303-338.
[22] Zhou B L,? Khosla A,? Lapedriza A,? et al. Learning Deep Features for Discriminative Localization[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR),? 2016: 2921-2929.
Recognition Algorithm for Types and Aiming
Points of the Time-Sensitive Target
Wu Han, Zhang Zhilong*, Li Chuwei, Li Hangyu
(National Key Laboratory of Science and Technology on ATR,
National University of Defense Technology, Changsha 410073, China)
Abstract: Deep convolutional neural network model has achieved excellent results in many computer vision applications. How to use deep learning technology to complete auxiliary guidance and aiming points positioning in complex battlefield environment is the key for army to win the modern information war. To solve this problem, this paper proposes a recognition algorithm for types and aiming point of the time-sensitive target to improve the quality of time-sensitive target detection, and provides the strike value of various components of military resources for subsequent modules. This algorithm redesigns the YOLOv3 trunk network and uses the residual block of the depth-wise separable convolutional neural network to extract the features of the input image, then sents the obtained feature maps into the attention model, and assigns corresponding weights to feature maps with important semantic information such as target components. Finally, feature maps processed by the attention model is sent into the regression network for the recognition of time-sensitive target types and aiming points. The experimental results on COCO and VOC data sets show that the feature extraction network and attention module used in this algorithm effectively improve the mean average precision of deep convolutional neural network in common target detection. The experimental results on the data set of the battlefield military resource model established in this paper show that this algorithm can accurately recognize the aiming points of non-cooperative time-sensitive targets.
Key words:? time-sensitive targets; target detection; aiming point recognition; deep learning; attention model; YOLOv3; neural network