楊傳棟,錢(qián)立志,薛松,陳棟,凌沖
(陸軍炮兵防空兵學(xué)院 高過(guò)載彈藥制導(dǎo)控制與信息感知實(shí)驗(yàn)室,安徽 合肥 230031)
圖像自尋的是利用裝在彈藥圖像導(dǎo)引頭上的彈載攝像機(jī)獲取目標(biāo)區(qū)域圖像,經(jīng)彈載圖像處理器實(shí)時(shí)檢測(cè)并跟蹤目標(biāo)進(jìn)而生成彈體姿態(tài)控制指令,以控制彈藥自動(dòng)命中目標(biāo)的制導(dǎo)技術(shù)。圖像自尋的彈藥獲取的圖像信息直觀豐富,具備抗干擾能力強(qiáng)、成本低等優(yōu)勢(shì)[1],受到國(guó)內(nèi)外高度重視。2016年美國(guó)提出導(dǎo)引頭成本轉(zhuǎn)換項(xiàng)目,旨在開(kāi)發(fā)低成本圖像制導(dǎo)彈藥[2]。在圖像導(dǎo)引頭設(shè)計(jì)中,彈載圖像目標(biāo)檢測(cè)實(shí)現(xiàn)對(duì)戰(zhàn)場(chǎng)環(huán)境中的目標(biāo)可靠實(shí)時(shí)分類(lèi)和定位,是確保彈藥精確命中目標(biāo)的關(guān)鍵。
傳統(tǒng)目標(biāo)檢測(cè)方法大多采取人工設(shè)計(jì)目標(biāo)特征或模板匹配的方式,對(duì)不同目標(biāo)設(shè)計(jì)特征的工作量大,且易受光照、噪聲、目標(biāo)特征變化等因素干擾,實(shí)際應(yīng)用中魯棒性差、準(zhǔn)確度低。2014年首次提出基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法R-CNN[3]在VOC通用數(shù)據(jù)集上的平均檢測(cè)精度均值(mAP)達(dá)到66%,超出此前最優(yōu)的傳統(tǒng)目標(biāo)檢測(cè)方法可形變部件模型(DPM)[4]31.7%,在應(yīng)對(duì)復(fù)雜環(huán)境下目標(biāo)特征多樣性、背景多樣性問(wèn)題上體現(xiàn)了更強(qiáng)的魯棒性和適用性。同時(shí),結(jié)合模型壓縮加速方法設(shè)計(jì)的硬件友好型輕量化神經(jīng)網(wǎng)絡(luò)模型可部署于CPU、FPGA、ASIC等嵌入式平臺(tái),在實(shí)時(shí)性與檢測(cè)精度上優(yōu)勢(shì)明顯,已成為自動(dòng)駕駛、安防監(jiān)控、軍事等領(lǐng)域主流檢測(cè)方法[5]。在圖像制導(dǎo)類(lèi)導(dǎo)彈、航空炸彈、炮彈等彈載圖像目標(biāo)檢測(cè)領(lǐng)域,基于深度學(xué)習(xí)的方法得到了重視和初步應(yīng)用。2019年 美國(guó)薩維奇公司推出的小型反無(wú)人機(jī)導(dǎo)彈“SAVAGE”使用Movidius AI處理器實(shí)現(xiàn)目標(biāo)檢測(cè)和跟蹤。2019年和2021年以色列拉斐爾公司研制的SPICE250精確制導(dǎo)炸彈和“Sea Breaker”巡航導(dǎo)彈使用深度學(xué)習(xí)技術(shù)提高了復(fù)雜背景下彈藥目標(biāo)檢測(cè)能力。文獻(xiàn)[6]研究了深度學(xué)習(xí)在彈載圖像上的應(yīng)用。文獻(xiàn)[7]提出了一種針對(duì)彈載圖像目標(biāo)檢測(cè)模型的壓縮方法。文獻(xiàn)[8-9]研究了目標(biāo)檢測(cè)模型在彈載處理器上的部署。
圖像自尋的彈藥獲取的彈載圖像(見(jiàn)圖1,其中d為彈目距離,v為彈丸飛行速度)與彈體運(yùn)動(dòng)高度耦合,有著顯著特點(diǎn),增加了目標(biāo)檢測(cè)難度。
彈載圖像目標(biāo)檢測(cè)目前具體存在以下問(wèn)題:
1)圖像制導(dǎo)彈藥成像環(huán)境惡劣,導(dǎo)致對(duì)目標(biāo)檢測(cè)模型特征提取能力要求更高。受載體運(yùn)動(dòng)特性(彈體連續(xù)旋轉(zhuǎn)、捷聯(lián)式彈藥打舵引起的彈軸抖動(dòng))與不同天候天時(shí)(云霧、照度等)影響,進(jìn)行自動(dòng)曝光、白平衡、圖像糾旋、穩(wěn)像、增強(qiáng)[10]等處理后,彈載圖像仍會(huì)存在圖像旋轉(zhuǎn)、抖動(dòng)、畸變、遮擋、像素運(yùn)動(dòng)模糊、噪聲干擾、目標(biāo)進(jìn)出視場(chǎng)等特征,加之目標(biāo)自身運(yùn)動(dòng),使目標(biāo)的輪廓、紋理、角度、色彩等特征難以全面反映,需提取更準(zhǔn)確更具表達(dá)性的圖像特征;
2)目標(biāo)尺度特性隨彈丸飛行變化大,且小目標(biāo)占比高,容易造成漏檢、錯(cuò)檢。在提取特征后需對(duì)用于預(yù)測(cè)的多尺度特征圖進(jìn)行增強(qiáng);
3)軍事打擊任務(wù)中戰(zhàn)場(chǎng)背景復(fù)雜、目標(biāo)種類(lèi)多樣,導(dǎo)致目標(biāo)數(shù)據(jù)集中樣本不均衡問(wèn)題顯著,為保證目標(biāo)檢測(cè)模型在多戰(zhàn)場(chǎng)背景、多目標(biāo)、末段彈道全過(guò)程中均能實(shí)時(shí)可靠,需要對(duì)樣本進(jìn)行均衡處理;
4)彈載處理器對(duì)目標(biāo)檢測(cè)模型參數(shù)量、計(jì)算量、速度要求苛刻。因彈上空間有限,彈載處理器功耗低、算力小、對(duì)內(nèi)存、數(shù)據(jù)帶寬約束強(qiáng),在部署目標(biāo)檢測(cè)方法時(shí)需進(jìn)行輕量化設(shè)計(jì)及壓縮加速。
對(duì)上述難點(diǎn)問(wèn)題的解決成為提升圖像自尋的彈藥精確打擊能力的重要環(huán)節(jié)。本文回顧基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法,梳理了彈載目標(biāo)檢測(cè)模型部署中的關(guān)鍵技術(shù),對(duì)比了目標(biāo)檢測(cè)方法在主要數(shù)據(jù)集上的性能,并對(duì)未來(lái)發(fā)展進(jìn)行展望。
基于深度學(xué)習(xí)的圖像目標(biāo)檢測(cè)方法通常由目標(biāo)檢測(cè)模型、模型訓(xùn)練及推理過(guò)程組成,模型包含多個(gè)處理層,使用特征提取網(wǎng)絡(luò)對(duì)輸入圖像特征自動(dòng)提取,經(jīng)過(guò)特征圖增強(qiáng)模塊后在一個(gè)或多個(gè)預(yù)測(cè)特征圖上使用預(yù)測(cè)分支完成目標(biāo)分類(lèi)和坐標(biāo)回歸,最后使用后處理方法剔除冗余檢測(cè)。模型結(jié)構(gòu)如圖2所示。
在卷積層使用卷積核參數(shù)weightl-1∈RNkx×Nky×Nif×Nof對(duì)輸入特征圖xl-1∈RNix×Niy×Nif進(jìn)行卷積操作?,實(shí)現(xiàn)特征提取得到輸出特征圖xl∈RNox×Noy×Nof(見(jiàn)圖3)。其中,t為卷積層數(shù),(Nky,Nkx)、s分別為卷積核大小(k表示卷積核)與步長(zhǎng),下標(biāo)y、x表示對(duì)應(yīng)特征圖的長(zhǎng)、寬,(Niy,Nix)、(Noy,Nox)、Nif、Nof分別為輸入和輸出特征圖長(zhǎng)、寬及層數(shù)(通道數(shù)),f為特征圖層數(shù)。卷積核參數(shù)量為Ws=NkyNkxNifNof,計(jì)算量為Os=NkyNkxNiyNixNifNof。
設(shè)bl為卷第l層卷積核的偏置參數(shù)。積核偏置參數(shù),對(duì)給定第l層輸入特征圖,輸出特征圖中的像素值為卷積核空間和通道區(qū)域中像素值的加權(quán)平均值,權(quán)重即為卷積核參數(shù),計(jì)算公式為
(1)
式中:nof、nif分別為Nof、Nif組輸出和輸入特征圖中的第of個(gè)和第if個(gè)。
批歸一化(BN)層通常位于卷積層后,通過(guò)將卷積層的每個(gè)輸出特征圖像素做如(2)式的線性變換,能夠讓復(fù)雜網(wǎng)絡(luò)收斂加速訓(xùn)練。
(2)
式中:BN(x)為輸入為x時(shí)批歸一化層的輸出;γ、μ、σ、β均為訓(xùn)練完成后常數(shù);A、B為一層特征圖共用的BN層參數(shù)。但推理階段增加一層運(yùn)算將影響模型速度,占用內(nèi)存。因此在部署中多將其與對(duì)應(yīng)的卷積計(jì)算融合,得到第l層卷積層融合后的權(quán)重weight′l和偏置b′l為
(3)
式中:Al、Bl分別為第l層的BN層參數(shù)。
通過(guò)該方式針對(duì)Resnet50特征提取網(wǎng)絡(luò)合并后,經(jīng)測(cè)試CPU提速10%,GPU達(dá)到50%。
激活函數(shù)通常位于卷積層和BN層后,通過(guò)引入非線性緩解神經(jīng)網(wǎng)絡(luò)過(guò)擬合問(wèn)題。以不同激活函數(shù)組成6層訓(xùn)練網(wǎng)絡(luò),對(duì)cifar10圖像分類(lèi)任務(wù)測(cè)試,均訓(xùn)練3個(gè)回合,每回合50 000張圖片,訓(xùn)練運(yùn)行時(shí)間和達(dá)到精度見(jiàn)圖3。其中修正線性單元(ReLU)函數(shù)將正值保留,負(fù)值設(shè)為0,即ReLU(x)=max(x,0),能加速網(wǎng)絡(luò)訓(xùn)練速度,達(dá)到較高的精度,同時(shí)計(jì)算效率高,適合硬件部署。不同激活函數(shù)對(duì)比結(jié)果如圖4所示。
池化層對(duì)特征圖進(jìn)行降采樣,無(wú)需權(quán)重參數(shù),起到降低特征圖大小,減低計(jì)算量的作用,且對(duì)于平移、旋轉(zhuǎn)、伸縮等具有良好的魯棒性。主要有最大值池化和平均池化,其中最大值池化對(duì)局部區(qū)域返回最大值,易于硬件實(shí)現(xiàn)。
目標(biāo)檢測(cè)模型在訓(xùn)練階段使用反向傳播算法在大規(guī)模數(shù)據(jù)集上對(duì)模型參數(shù)進(jìn)行學(xué)習(xí),以適應(yīng)目標(biāo)和環(huán)境的各類(lèi)變化;在推理階段通過(guò)一次加載前期訓(xùn)練好的模型參數(shù),模型可實(shí)時(shí)輸出針對(duì)輸入圖像序列的預(yù)測(cè)結(jié)果。根據(jù)在提取預(yù)測(cè)特征后是否基于預(yù)設(shè)候選框進(jìn)行檢測(cè),目標(biāo)檢測(cè)模型可分為基于候選框和無(wú)候選框的目標(biāo)檢測(cè)模型。
針對(duì)在預(yù)測(cè)特征圖上直接預(yù)測(cè)坐標(biāo)面臨訓(xùn)練難以收斂問(wèn)題,基于候選框的目標(biāo)檢測(cè)模型根據(jù)數(shù)據(jù)集統(tǒng)計(jì)特性,在預(yù)測(cè)特征圖上人工預(yù)設(shè)不同尺度和長(zhǎng)寬比的候選框(px,py,pw,ph),作為可能出現(xiàn)目標(biāo)的區(qū)域參考,如圖5所示。
在訓(xùn)練階段學(xué)習(xí)候選框與真值框的坐標(biāo)偏移關(guān)系,在推理階段加載訓(xùn)練得到的參數(shù),得到N個(gè)預(yù)測(cè)候選框偏移量后,通過(guò)線性變換得到預(yù)測(cè)框坐標(biāo)
(4)
根據(jù)在目標(biāo)檢測(cè)過(guò)程中是否首先進(jìn)行前景和背景候選框初步篩選,可分為基于區(qū)域建議網(wǎng)絡(luò)(RPN)的兩階段方法和基于密集檢測(cè)的單階段方法。
1.2.1 兩階段方法
兩階段方法首先使用區(qū)域建議網(wǎng)絡(luò)初步篩選前景和背景候選框,得到稀疏的正樣本,然后在稀疏正樣本中進(jìn)行目標(biāo)類(lèi)別概率預(yù)測(cè)和坐標(biāo)微調(diào)。2015年Ren提出的Faster R-卷積神經(jīng)網(wǎng)絡(luò)(CNN)[11]是第一個(gè)實(shí)現(xiàn)端到端訓(xùn)練和檢測(cè)的兩階段方法,模型框架如圖6所示。
候選區(qū)域網(wǎng)絡(luò)使用前景概率排序和非極大值抑制(NMS)兩次篩選,提取N個(gè)前景概率最高的候選框(pxi,pyi,pwi,phi),i=1,2,…,N,作為正樣本輸出,克服了利用傳統(tǒng)候選框提取方法帶來(lái)的大量計(jì)算消耗,同時(shí)改進(jìn)了候選區(qū)域的質(zhì)量。而后感興趣區(qū)域池化層將N個(gè)候選框映射到特征圖中,并采樣成固定尺寸。最后通過(guò)兩個(gè)全連接層對(duì)ROI池化層輸出特征降維到4 096,分別輸入由兩個(gè)全連接層組成的預(yù)測(cè)分支,得到目標(biāo)類(lèi)別概率和位置坐標(biāo)。由于分兩階段進(jìn)行檢測(cè)存在運(yùn)行速度慢的缺點(diǎn),檢測(cè)速度為4.5幀/s;相關(guān)改進(jìn)算法提高了檢測(cè)速度,但區(qū)域建議網(wǎng)絡(luò)帶來(lái)的內(nèi)存消耗無(wú)法忽略,因此兩階段方法不適合彈載處理器的部署。
1.2.2 單階段方法
單階段方法將目標(biāo)檢測(cè)過(guò)程簡(jiǎn)化成端到端回歸問(wèn)題,利用CNN提取特征并通過(guò)均勻地在預(yù)測(cè)特征圖上的不同位置進(jìn)行密集抽樣,使用卷積層替代全連接層,對(duì)得到的候選框直接進(jìn)行分類(lèi)與回歸。因?yàn)闆](méi)有使用區(qū)域建議網(wǎng)絡(luò)提取正樣本,而是通過(guò)增加置信度預(yù)測(cè)判斷該候選框是前景或是背景,所以目標(biāo)檢測(cè)速度得到極大提高,更加適合彈載處理器的部署。代表方法有YOLO、SSD等。
2016年Liu等[12]提出的SSD算法使用候選框的方法并在多分辨率特征圖上進(jìn)行多尺度預(yù)測(cè),針對(duì)不同尺度特征圖對(duì)候選框尺寸和長(zhǎng)寬比進(jìn)行了設(shè)計(jì),在保證單階段方法速度優(yōu)勢(shì)的同時(shí)提高了定位精度:
(5)
2017年Redmod等[13]提出YOLOv2方法。該方法使用k-Means算法對(duì)訓(xùn)練集進(jìn)行聚類(lèi)得到候選框尺寸,并利用Sigmoid激活函數(shù)σ將偏移量預(yù)測(cè)值約束在[0,1]范圍,即每個(gè)候選框僅負(fù)責(zé)當(dāng)前網(wǎng)格處的目標(biāo),并在輸入層和卷積層后增加BN層對(duì)數(shù)據(jù)進(jìn)行歸一化處理,提高了訓(xùn)練收斂速度和模型泛化能力。在檢測(cè)特征圖選擇上將大尺度特征圖重組合后與小尺度特征圖合并,提高了小目標(biāo)檢測(cè)效果。2018年,Redmod等[14]優(yōu)化了YOLOv2方法。該方法借鑒特征金字塔FPN方法,使用上采樣和融合的方式在3個(gè)尺度特征圖上進(jìn)行檢測(cè),并且每個(gè)通道設(shè)置3個(gè)候選框,在保持實(shí)時(shí)性的同時(shí)提高了目標(biāo)檢測(cè)效果。文獻(xiàn)[15]通過(guò)加入SPP模塊提高感受野,并使用PANet[16]使預(yù)測(cè)特征圖具有更豐富的特征信息等,在訓(xùn)練過(guò)程中使用了改進(jìn)位置損失、數(shù)據(jù)增強(qiáng)、類(lèi)別標(biāo)簽平滑等訓(xùn)練策略,實(shí)現(xiàn)了同等速度下更優(yōu)的檢測(cè)效果。2020年,美國(guó)Ultralytics LLC公司開(kāi)源了新的目標(biāo)檢測(cè)網(wǎng)絡(luò)框架并命名為YOLOv5,通過(guò)融合多種改進(jìn)手段使算法性能進(jìn)一步提升,在工業(yè)界得到廣泛應(yīng)用。
文獻(xiàn)[17]指出單階段方法精度低的根本原因在于,單階段方法產(chǎn)生過(guò)量的背景類(lèi)候選框,引起類(lèi)別不平衡。通過(guò)設(shè)計(jì)新的損失函數(shù),在訓(xùn)練過(guò)程中能有效削弱背景候選框的損失值,進(jìn)而提高檢測(cè)精度,在VOC2007數(shù)據(jù)集上檢測(cè)精度達(dá)到75.1%,速度達(dá)到58幀/s。
單階段方法速度快、適用性好、易于部署,因此在彈載目標(biāo)檢測(cè)中得到廣泛應(yīng)用。
基于候選框的檢測(cè)算法是目標(biāo)檢測(cè)領(lǐng)域的主流方法,但也有其局限性,例如:預(yù)設(shè)候選框大小、寬高比和數(shù)量等超參數(shù)通常需人工設(shè)置,難以包含形狀特殊的目標(biāo);對(duì)數(shù)據(jù)集敏感,換用場(chǎng)景需要調(diào)節(jié)候選框參數(shù);通過(guò)密集采樣方式得到數(shù)量眾多的候選框,交并比(IoU)計(jì)算及后處理篩選計(jì)算冗余和內(nèi)存開(kāi)銷(xiāo)大;大多數(shù)候選框?yàn)樨?fù)樣本,在訓(xùn)練過(guò)程中大量負(fù)樣本會(huì)造成正負(fù)樣本比例失衡。近年來(lái),為解決上述問(wèn)題,候選框的檢測(cè)模型被提出,該類(lèi)模型可分為基于錨點(diǎn)的方法和基于關(guān)鍵點(diǎn)的方法。
1.3.1 基于錨點(diǎn)的方法
基于錨點(diǎn)的方法將預(yù)測(cè)特征圖上的每個(gè)像素點(diǎn)作為錨點(diǎn),通常使用錨點(diǎn)到邊界的距離表示預(yù)測(cè)框。
2015年提出的YOLO[18]、DenseBox[19]是最早無(wú)候選框的方法之一。YOLO方法將預(yù)測(cè)特征圖劃分為s×s網(wǎng)格,將每個(gè)網(wǎng)格中心作為錨點(diǎn),每個(gè)錨點(diǎn)處預(yù)測(cè)向量包含2組預(yù)測(cè)框坐標(biāo)、目標(biāo)置信度和C類(lèi)目標(biāo)的概率,其中預(yù)測(cè)框坐標(biāo)用網(wǎng)格中心點(diǎn)坐標(biāo)和預(yù)測(cè)框長(zhǎng)寬表示,目標(biāo)置信度表示預(yù)測(cè)框是目標(biāo)的概率。YOLO模型框架如圖7所示。
DenseBox方法將預(yù)測(cè)特征圖上的每個(gè)像素點(diǎn)作為錨點(diǎn),錨點(diǎn)處的輸出預(yù)測(cè)向量包含4個(gè)坐標(biāo)值和單類(lèi)目標(biāo)概率,為5維,最后均使用NMS篩選預(yù)測(cè)框。但該類(lèi)方法難以應(yīng)對(duì)重疊的邊界框,且查全率較低。
2019年Tian等[20]提出FCOS方法。該方法以預(yù)測(cè)特征圖上像素點(diǎn)為錨點(diǎn),輸出預(yù)測(cè)向量包含C類(lèi)目標(biāo)分類(lèi)概率、中心度分?jǐn)?shù)及該錨點(diǎn)到邊界框4條邊的距離(l*,r*,t*,b*),通過(guò)增加中心度分?jǐn)?shù)預(yù)測(cè)分支并使用交叉熵?fù)p失訓(xùn)練,抑制了距離目標(biāo)中心較遠(yuǎn)的預(yù)測(cè)框。中心度分?jǐn)?shù)計(jì)算公式為
(6)
通過(guò)在不同尺度的預(yù)測(cè)特征圖上預(yù)測(cè)特定大小范圍的目標(biāo),解決了真實(shí)邊框重疊帶來(lái)的模糊性和低召回率。
同年,文獻(xiàn)[21]在高分辨率預(yù)測(cè)特征圖上將每個(gè)像素點(diǎn)作為錨點(diǎn),輸出預(yù)測(cè)向量維度為C類(lèi)目標(biāo)的熱圖、中心點(diǎn)坐標(biāo)、修正量??紤]到中心點(diǎn)附近點(diǎn)為難樣本,為加速訓(xùn)練收斂,通常在訓(xùn)練中將中心點(diǎn)真值(x,y)映射到熱圖中的某一高斯散射核區(qū)域Yxyc內(nèi):
(7)
式中:σx、σy為二維高斯核半徑參數(shù)。在推理階段取消NMS,對(duì)每類(lèi)熱圖篩選前100個(gè)局部峰值點(diǎn)作為輸出目標(biāo),減少了后處理的時(shí)間消耗,在精度上與RetinaNet方法相近并達(dá)到了實(shí)時(shí)。
1.3.2 基于關(guān)鍵點(diǎn)的方法
基于關(guān)鍵點(diǎn)的方法通過(guò)預(yù)測(cè)目標(biāo)角點(diǎn)、中心點(diǎn)或極點(diǎn),對(duì)關(guān)鍵點(diǎn)分組構(gòu)成預(yù)測(cè)框。2018年Law等[22]提出CornerNet方法。該方法使用人體姿態(tài)估計(jì)中常用的沙漏網(wǎng)絡(luò)Hourglass作為特征提取網(wǎng)絡(luò)提取高分辨率的預(yù)測(cè)特征圖,而后用兩個(gè)檢測(cè)模塊分別預(yù)測(cè)左上和右下角點(diǎn),輸出類(lèi)位置熱圖、嵌入向量和取整修正量,最后對(duì)兩組角點(diǎn)篩選、分組并修正位置?;谕繕?biāo)角點(diǎn)的嵌入向量接近、不同目標(biāo)角點(diǎn)的嵌入向量遠(yuǎn)離的先驗(yàn)原則進(jìn)行訓(xùn)練,損失函數(shù)設(shè)計(jì)為
(8)
式中:N為訓(xùn)練樣本數(shù)量;ec為第c個(gè)角點(diǎn)所對(duì)應(yīng)的嵌入向量etc、ebc的平均值。該方法缺點(diǎn)是難以達(dá)到實(shí)時(shí),且角點(diǎn)匹配時(shí)容易產(chǎn)生分組錯(cuò)誤,導(dǎo)致定位不夠準(zhǔn)確,錯(cuò)檢率高。文獻(xiàn)[23]、文獻(xiàn)[24]分別從中心點(diǎn)約束與角點(diǎn)匹配原則方面進(jìn)行改進(jìn),提高了檢測(cè)精度,但均無(wú)法達(dá)到實(shí)時(shí)。文獻(xiàn)[25]提出一種輕量化特征提取網(wǎng)絡(luò)的方法。針對(duì)使用角點(diǎn)檢測(cè)缺乏外觀特征的問(wèn)題,2019年Zhou等[26]提出ExtremeNet方法,使用沙漏網(wǎng)絡(luò)對(duì)目標(biāo)5個(gè)關(guān)鍵點(diǎn)(4個(gè)極值點(diǎn)和1個(gè)中心點(diǎn))進(jìn)行檢測(cè),但該方法對(duì)大目標(biāo)中心點(diǎn)響應(yīng)不夠準(zhǔn)確,容易造成漏檢且效率較低。
基于關(guān)鍵點(diǎn)的檢測(cè)方法依賴于復(fù)雜的特征提取網(wǎng)絡(luò)和高分辨率的預(yù)測(cè)特征圖,需要更大的內(nèi)存成本和計(jì)算量,速度較低,因此不利于彈載處理器部署。基于錨點(diǎn)的檢測(cè)方法可以使用更簡(jiǎn)單的特征提取網(wǎng)絡(luò),速度更快,但在對(duì)打擊過(guò)程中可能出現(xiàn)的密集目標(biāo)和彈道末端大尺度目標(biāo)檢測(cè)效果較差,影響打擊精度。
2017年美國(guó)谷歌公司首次提出了一種基于編解碼器的序列預(yù)測(cè)結(jié)構(gòu)Transformer,并應(yīng)用于機(jī)器翻譯任務(wù),改進(jìn)了循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練慢、全局語(yǔ)義考慮不足的缺點(diǎn),在編碼器和解碼器中利用自注意力層能夠獲得更豐富的全局語(yǔ)義信息。自注意力層包括查詢矩陣Wqry∈RDm×Dk、關(guān)鍵詞矩陣Wkey∈RDm×Dk、值矩陣Wval∈RDin×Dout3個(gè)需要訓(xùn)練學(xué)習(xí)的共享參數(shù),輸入為X∈RT×DmT個(gè)Din維的像素序列,其中Din為特征圖長(zhǎng)乘寬。則自注意力層輸出可以表示為
(9)
式中:softmax函數(shù)將輸入歸一化為概率分布。
2020年美國(guó)Facebook公司[27]首次將transformer結(jié)構(gòu)應(yīng)用到目標(biāo)檢測(cè)領(lǐng)域,提出DETR目標(biāo)檢測(cè)模型,成為近兩年熱點(diǎn)方向。該模型首先使用CNN提取特征,融合位置消息后將特征展開(kāi)為X∈RT×Dm的序列,送入transformer的編碼器中得到T個(gè)物體編碼序列。非自回歸解碼器以編碼器輸入和N個(gè)目標(biāo)序列為輸入,并行解碼得到N個(gè)目標(biāo)序列,經(jīng)過(guò)全連接層直接輸出N個(gè)預(yù)測(cè)結(jié)果。文獻(xiàn)[28]使用基于transformer的特征提取網(wǎng)絡(luò)并借鑒DETR方法輸出檢測(cè)結(jié)果,提出一種基于全transformer結(jié)構(gòu)的目標(biāo)檢測(cè)方法YOLOS。2021年文獻(xiàn)[29]采用Swin-Transformer[30]模型作為特征提取網(wǎng)絡(luò),并提出一種多注意力感知結(jié)合的預(yù)測(cè)分支,在COCO數(shù)據(jù)集上取得了最高的mAP。該類(lèi)方法對(duì)于超大規(guī)模數(shù)據(jù)集有更好的性能,但計(jì)算開(kāi)銷(xiāo)更大,經(jīng)輕量化后在效果上不具備明顯優(yōu)勢(shì),距離模型實(shí)際部署應(yīng)用仍有待發(fā)展和驗(yàn)證。
綜上,通用目標(biāo)檢測(cè)模型中基于候選框的單階段方法和基于錨點(diǎn)的方法更適用于彈載處理器平臺(tái)的目標(biāo)檢測(cè)模型部署。
為實(shí)現(xiàn)目標(biāo)檢測(cè)方法在彈載處理器上部署并提高應(yīng)用效果,當(dāng)前可從特征提取網(wǎng)絡(luò)設(shè)計(jì)、預(yù)測(cè)特征圖增強(qiáng)模塊設(shè)計(jì)、訓(xùn)練中樣本均衡、NMS后處理算法設(shè)計(jì)及模型壓縮5個(gè)方面入手。
2.1.1 典型特征提取網(wǎng)絡(luò)設(shè)計(jì)
目標(biāo)檢測(cè)模型的特征提取網(wǎng)絡(luò)計(jì)算量通常超過(guò)模型總計(jì)算量的60%,因此特征提取網(wǎng)絡(luò)設(shè)計(jì)選擇決定了彈載目標(biāo)檢測(cè)模型的基準(zhǔn)性能,影響著模型對(duì)復(fù)雜背景的戰(zhàn)場(chǎng)環(huán)境和對(duì)多類(lèi)目標(biāo)特征的提取能力。2012年文獻(xiàn)[31]使用5×5、7×7大卷積核及5層卷積層構(gòu)成特征提取網(wǎng)絡(luò)AlexNet,在圖像分類(lèi)領(lǐng)域達(dá)到超越人的表現(xiàn),表明了基于深度學(xué)習(xí)的方法在特征提取上的巨大優(yōu)勢(shì)。2014年文獻(xiàn)[32]從增加網(wǎng)絡(luò)深度的角度提出了卷積塊概念,將多個(gè)小卷積核卷積層堆疊組成卷積塊,設(shè)計(jì)了VGG結(jié)構(gòu),提高了特征提取能力和泛化能力。2014年Szegedy等[33]從增加網(wǎng)絡(luò)寬度角度提出由多個(gè)小尺寸卷積核構(gòu)成增寬的Inception卷積塊,并指出小卷積核組合能夠保持感受野并降低參數(shù)量,因此3×3和1×1小卷積核級(jí)聯(lián)被當(dāng)前大多數(shù)網(wǎng)絡(luò)[34]采用。通常隨著網(wǎng)絡(luò)加深特征圖包含的圖像信息會(huì)減少,為解決深度神經(jīng)網(wǎng)絡(luò)帶來(lái)的梯度爆炸和梯度消失問(wèn)題,2015年He等[33]提出包含殘差模塊的特征提取網(wǎng)絡(luò)ResNet,該網(wǎng)絡(luò)中任意兩層之間的函數(shù)關(guān)系可由連續(xù)兩層公式通過(guò)遞歸關(guān)系得到:
(10)
式中:xL為殘差模塊的輸出層;F表示殘差模塊中處理層的集合,跳躍連接保證了第L層網(wǎng)絡(luò)一定比淺層第l層包含了更多圖像信息。由(11)式梯度計(jì)算公式可以看到梯度不會(huì)消失,跳躍連接成為后續(xù)更深網(wǎng)絡(luò)設(shè)計(jì)中通用的方法[36]。
(11)
式中:ε為網(wǎng)絡(luò)的輸出。
特征融合是提高特征提取能力的有效手段。Huang等[37]提出DenseNet網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)通過(guò)密集連接進(jìn)行特征融合,獲得了更高的精度,但由于每層都聚合前面層的特征導(dǎo)致存在信息冗余,造成高內(nèi)存訪問(wèn)成本和能耗。2018年,針對(duì)DenseNet的特征復(fù)用冗余,文獻(xiàn)[38]提出一種由可學(xué)習(xí)分組卷積組成的CondenseNet結(jié)構(gòu)來(lái)裁剪掉冗余連接。2019年Lee等[39]提出OSA模塊,該模塊最后一層聚合前面所有層的特征,緩解了密集連接帶來(lái)的信息冗余問(wèn)題。2021年文獻(xiàn)[40]通過(guò)稀疏特征重激活的方式設(shè)計(jì)了CondenseNetV2結(jié)構(gòu),對(duì)冗余特征同時(shí)進(jìn)行裁剪和更新,有效提升了密集連接網(wǎng)絡(luò)的特征復(fù)用效率。
加入注意力機(jī)制的卷積模塊是提高特征提取能力的一個(gè)有效方向。通過(guò)設(shè)計(jì)一系列神經(jīng)網(wǎng)絡(luò)層操作,可以使網(wǎng)絡(luò)關(guān)注重要信息,抑制無(wú)關(guān)信息。2017年Hu等[41]提出SE模塊在通道維度進(jìn)行注意力生成,在訓(xùn)練中根據(jù)每個(gè)通道特征的重要程度和關(guān)聯(lián)程度進(jìn)行加權(quán),提高特征表征能力。SE模塊可嵌入到通用特征提取網(wǎng)絡(luò)模塊中,也可嵌入在輕量化網(wǎng)絡(luò)中,能以較小的計(jì)算成本達(dá)到較大的精度提升。
2018年文獻(xiàn)[42]提出一種同時(shí)在通道和空間兩個(gè)維度使用注意力機(jī)制的特征增強(qiáng)結(jié)構(gòu)CBAM,該結(jié)構(gòu)使用平均池化AvgPool()和最大值池化MaxPool()提升了關(guān)鍵區(qū)域的特征表達(dá),可表示為
(12)
式中:mlp為共享卷積層;Mc、Ms分別為通道、空間注意力增強(qiáng)操作;Xl為經(jīng)過(guò)注意力機(jī)制增強(qiáng)的特征圖。圖8所示為利用Grad-CAM[43]方法對(duì)使用CBAM的YOLOv4檢測(cè)方法的特征圖特征可視化,其中圖8(a)為彈目距離5 km處的艦船目標(biāo)圖像。
對(duì)比圖8(b)、圖8(c)可知,增加了CBAM注意力機(jī)制的特征提取網(wǎng)絡(luò)對(duì)海雜波環(huán)境下的彈載圖像目標(biāo)特征定位更加敏感,進(jìn)而可提高檢測(cè)方法的準(zhǔn)確性。
2.1.2 特征提取網(wǎng)絡(luò)輕量化設(shè)計(jì)
針對(duì)深度特征提取網(wǎng)絡(luò)在部署于彈載處理器等嵌入式設(shè)備上面臨硬件存儲(chǔ)空間不足、功耗高、復(fù)雜的計(jì)算單元延遲長(zhǎng)、在硬件上支持不足等實(shí)際問(wèn)題,對(duì)特征提取網(wǎng)絡(luò)進(jìn)行輕量化設(shè)計(jì)是當(dāng)前主要的解決方法。
2016年文獻(xiàn)[44]設(shè)計(jì)了Fire卷積塊,該結(jié)構(gòu)使用多個(gè)1×1卷積核替代3×3卷積核,并通過(guò)多個(gè)Fire卷積塊結(jié)合跳躍連接構(gòu)建了SqueezeNet網(wǎng)絡(luò)結(jié)構(gòu),降低了所需內(nèi)存帶寬并能保持較高的精度。2016年文獻(xiàn)[45]提出深度可分離卷積模塊,將卷積操作分解為分別學(xué)習(xí)空間特征和通道特征的深度卷積和逐點(diǎn)卷積,縮減了參數(shù)量和每秒浮點(diǎn)數(shù)計(jì)算量(FLOPs),并引入通道和輸入尺寸壓縮比作為超參數(shù),進(jìn)一步控制模型大小。2017年Howard等[34]將其應(yīng)用于MobileNet,取得了良好的效果。為彌補(bǔ)精度的下降,2018年Sandler等[46]在MobileNet基礎(chǔ)上提出MobileNetv2網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)在深度卷積操作前增加一層逐點(diǎn)卷積升維以在更高維度提取特征;隨后使用逐點(diǎn)卷積降維,并去掉了第2個(gè)逐點(diǎn)卷積后的激活函數(shù)以保持低維特征;最后增加跳躍連接,提高了網(wǎng)絡(luò)的特征表征能力。但該網(wǎng)絡(luò)結(jié)構(gòu)中過(guò)多的逐點(diǎn)卷積會(huì)增加額外的內(nèi)存讀取,降低了并行計(jì)算效率。
2017年Zhang等[47]提出ShuffleNet網(wǎng)絡(luò)結(jié)構(gòu),其卷積塊由逐點(diǎn)分組卷積結(jié)合深度卷積組成,并在特征通道維度隨機(jī)打亂各組特征圖彌補(bǔ)信息交流,參數(shù)量相對(duì)原始卷積操作可縮減組數(shù)倍。2018年Ma等[48]進(jìn)一步改進(jìn)了ShuffeNet,提出ShuffleNetv2網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)首先在通道維度上將輸入特征圖拆分成兩個(gè)分支,使用逐點(diǎn)卷積代替組卷積,用級(jí)聯(lián)操作合并特征圖,保持卷積塊輸入輸出特征維度相同,可獲得更低的計(jì)算量。2020年Han等[49]設(shè)計(jì)了Ghost模塊[49],該模塊采用逐點(diǎn)卷積縮減輸出特征圖通道數(shù),然后利用深度卷積模擬線性操作,生成具有相似信息的中間特征圖,能成倍縮小計(jì)算量。使用該模塊替換MobileNetv3[50]網(wǎng)絡(luò)中的基本模塊獲得了更優(yōu)性能。2021年文獻(xiàn)[51]對(duì)逐點(diǎn)卷積和深度卷積進(jìn)行低秩近似減少輸入輸出的連接數(shù),并使用動(dòng)態(tài)最大偏移函數(shù)作為激活函數(shù),設(shè)計(jì)得到的MicroNet網(wǎng)絡(luò)彌補(bǔ)了網(wǎng)絡(luò)深度減少帶來(lái)的性能降低。部分輕量化網(wǎng)絡(luò)基本模塊如圖9所示,其中DWConv表示深度卷積操作。
手工設(shè)計(jì)高效模塊和網(wǎng)絡(luò)架構(gòu)屬于高維空間的最優(yōu)參數(shù)搜索問(wèn)題,可選擇的設(shè)計(jì)數(shù)量增加會(huì)加大輕量化網(wǎng)絡(luò)最優(yōu)化設(shè)計(jì)的難度。近年來(lái)神經(jīng)架構(gòu)搜索(NAS)成為解決設(shè)計(jì)難題的一個(gè)解決方案。該方法依托大規(guī)模GPU資源,通過(guò)在定義的搜索空間內(nèi)使用一定的搜索策略找出候選網(wǎng)絡(luò)結(jié)構(gòu)并評(píng)估,得到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。2018年文獻(xiàn)[52]通過(guò)強(qiáng)化學(xué)習(xí)在500塊GPU上搜索得到NASNet網(wǎng)絡(luò)結(jié)構(gòu),但該結(jié)構(gòu)分支碎片化,不利于硬件部署。2019年Wu等[53]基于可微神經(jīng)網(wǎng)絡(luò)搜索方法,在人工設(shè)計(jì)好的22層網(wǎng)絡(luò)和9種候選卷積塊組成的搜索空間內(nèi)進(jìn)行快速搜索,得到FBNet。2020年Wan等[54]針對(duì)FBNet搜索空間相對(duì)較小問(wèn)題,提出DMaskingNAS方法,將通道數(shù)和輸入分辨率分別以掩模和采樣的方式加入到搜索空間中,在減少內(nèi)存和計(jì)算量同時(shí)大幅增大搜索空間。2021年文獻(xiàn)[55]將訓(xùn)練參數(shù)加入搜索空間,搜索得到FBNetV3網(wǎng)絡(luò)結(jié)構(gòu),提高了精度。
相比于車(chē)載、機(jī)載圖像目標(biāo),彈載圖像目標(biāo)在彈道末端尺度變化最為劇烈,是影響彈載目標(biāo)檢測(cè)效果的主要因素。以長(zhǎng)20 m×寬10 m的面目標(biāo)為例,彈丸以固定下滑角和視場(chǎng)角對(duì)目標(biāo)區(qū)域成像,圖像分辨率為1 280×1 024,統(tǒng)計(jì)彈丸彈道末端圖像目標(biāo)在長(zhǎng)度方向上的像素?cái)?shù)隨彈目距離的變化和當(dāng)前幀相對(duì)兩幀前目標(biāo)尺度的變化率,如圖10所示。
由圖10可以看到,目標(biāo)圖像在4~1.5 km范圍內(nèi)時(shí),當(dāng)前幀相對(duì)前一幀的尺度變化率不大,以弱小目標(biāo)特征為主,當(dāng)進(jìn)入1.5 km范圍內(nèi),尺度變化率快速增加,直至圖像目標(biāo)充滿整個(gè)視場(chǎng)。
對(duì)于此問(wèn)題,從預(yù)測(cè)特征圖增強(qiáng)角度有針對(duì)性地提高彈載圖像目標(biāo)檢測(cè)效果。最初檢測(cè)方法如YOLO、Faster-RCNN僅使用特征提取網(wǎng)絡(luò)得到的單層卷積特征作為預(yù)測(cè)特征圖進(jìn)行預(yù)測(cè),如圖11(a)所示。
由于深層特征圖尺度小、感受野大,缺乏小目標(biāo)特征,造成小目標(biāo)檢測(cè)效果差。SSD方法針對(duì)不同尺度的目標(biāo)設(shè)置不同大小的候選框,在多層特征圖上檢測(cè),如圖11(b)所示。但采用該方法時(shí)預(yù)測(cè)特征圖之間缺乏信息融合,效果提升有限。
目前通常有3類(lèi)增強(qiáng)模塊設(shè)計(jì)增強(qiáng)預(yù)測(cè)特征圖,一是采用在特征提取網(wǎng)絡(luò)之后加入特征融合及連接模塊增強(qiáng)特征,獲取適應(yīng)不同尺度目標(biāo)的預(yù)測(cè)特征圖;二是使用注意力機(jī)制進(jìn)行融合;三是通過(guò)增加視覺(jué)感受野提高小目標(biāo)檢測(cè)能力。
借鑒傳統(tǒng)特征提取算法中圖像金字塔的思想,文獻(xiàn)[56]提出了自上而下的特征融合金字塔結(jié)構(gòu)FPN。高層特征圖上采樣后與相同尺寸的低層特征圖使用像素加法進(jìn)行特征融合,為消除混疊效應(yīng)使用3×3卷積處理,得到同時(shí)包含局部信息和全局信息的預(yù)測(cè)層,有效提高了小目標(biāo)效果。YOLOv3、RetinaNet方法均使用了自下而上的特征融合方式。針對(duì)FPN可能導(dǎo)致出現(xiàn)重復(fù)的預(yù)測(cè)問(wèn)題,文獻(xiàn)[16]提出路徑聚合網(wǎng)絡(luò)PANet作為預(yù)測(cè)特征圖增加模塊,在FPN融合特征基礎(chǔ)上加入自下而上的雙向融合,提高了多尺度目標(biāo)的檢測(cè)精度,如圖12所示。
文獻(xiàn)[57]在FPN模塊中重復(fù)使用一個(gè)有效的卷積塊,進(jìn)行復(fù)雜的雙向特征圖融合,提出BiFPN結(jié)構(gòu),如圖13所示。文獻(xiàn)[58]通過(guò)NAS方法搜索得到更為復(fù)雜的NAS-FPN預(yù)測(cè)特張圖增強(qiáng)模塊,但過(guò)于復(fù)雜的融合方式會(huì)增大內(nèi)存占用,不利于網(wǎng)絡(luò)輕量化。
在預(yù)測(cè)特征圖中增加注意力機(jī)制能夠提高檢測(cè)效果。Liu等[59]在YOLOv3方法基礎(chǔ)上采用了注意力機(jī)制,將3層不同分辨率的預(yù)測(cè)特征圖按權(quán)重融合,設(shè)計(jì)了ASFF預(yù)測(cè)特征圖增強(qiáng)模塊,如圖14所示。文獻(xiàn)[60]同時(shí)使用特征融合和注意力機(jī)制增強(qiáng)預(yù)測(cè)特征圖特征,在輕量化同時(shí)提高了精度。Dynamic Head方法[30]使用3個(gè)級(jí)聯(lián)注意力機(jī)制分別提高預(yù)測(cè)特征圖尺度感知、空間感知、任務(wù)感知能力。
通過(guò)增加感受野的方式可以增強(qiáng)預(yù)測(cè)特征信息。感受野通常與卷積卷積核大小、空洞卷積大小有關(guān)。Liu等[61]模擬人類(lèi)視覺(jué)感知模式提出RFB模塊,并應(yīng)用于SSD目標(biāo)檢測(cè)方法。該模塊使用不同大小的卷積核分支得到多尺度感受野,隨后使用不同大小的空洞卷積模擬感受野尺度和離心率的關(guān)系,能夠增強(qiáng)預(yù)測(cè)特征圖對(duì)不同尺度目標(biāo)的表征能力,有效提升目標(biāo)檢測(cè)方法的性能。2019年Li等[62]提出TridentNet預(yù)測(cè)特征圖增強(qiáng)方法,使用3個(gè)不同大小的空洞卷積,生成感受野大小不同的預(yù)測(cè)分支,分別負(fù)責(zé)檢測(cè)大中小三類(lèi)不同尺度目標(biāo),如圖15所示。
文獻(xiàn)[63]使用不同擴(kuò)展率的多路徑擴(kuò)張卷積層組成語(yǔ)義提取模塊AC-FPN,從不同的感受野中捕獲豐富的上下文信息,通過(guò)密集連接融合多個(gè)感受野的信息,解決了特征圖分辨率和感受野之間的矛盾以及多尺寸感受野之間缺乏有效交互的問(wèn)題。文獻(xiàn)[64]提出一種具有不同空洞卷積大小的空洞編碼模塊作為預(yù)測(cè)特征圖增強(qiáng)模塊,通過(guò)該模塊實(shí)現(xiàn)了在單尺度預(yù)測(cè)特征圖上的感受野覆蓋,與使用多尺度預(yù)測(cè)特征圖的目標(biāo)檢測(cè)方法具備同樣的檢測(cè)精度,且具有更快的速度和更低的內(nèi)存占用。
彈載圖像數(shù)據(jù)訓(xùn)練中的樣本不均衡問(wèn)題是影響模型效果的重要因素。樣本不均衡問(wèn)題一是正樣本和負(fù)樣本不均衡,二是難樣本和易樣本不均衡,三是不同類(lèi)樣本不均衡。以艦船目標(biāo)為例,圖16中真值為艦船目標(biāo)區(qū)域,通常將與真值IoU小于閾值的區(qū)域視為負(fù)樣本。一幀圖像中負(fù)樣本數(shù)量占據(jù)大多數(shù),如果大量負(fù)樣本參與訓(xùn)練會(huì)造成正樣本損失湮滅,使模型失效;在訓(xùn)練過(guò)程中難樣本為被錯(cuò)誤預(yù)測(cè)的樣本,數(shù)量相對(duì)少,模型難以專(zhuān)注對(duì)難樣本學(xué)習(xí);同時(shí),戰(zhàn)場(chǎng)環(huán)境中某些類(lèi)別目標(biāo)出現(xiàn)概率低、樣本數(shù)量少,會(huì)導(dǎo)致該類(lèi)預(yù)測(cè)準(zhǔn)確性差的問(wèn)題。可從改進(jìn)訓(xùn)練樣本采樣方法、調(diào)整損失函數(shù)中樣本的權(quán)重及通過(guò)研究樣本之間的關(guān)系三個(gè)方面解決訓(xùn)練樣本不均衡問(wèn)題。
Shrivastava等[65]提出OHEM算法,對(duì)每張圖片的感興趣區(qū)域損失進(jìn)行排序,篩選出損失較大的部分樣本作為難樣本,并對(duì)其重新訓(xùn)練,但該方法對(duì)噪聲標(biāo)簽敏感。Cao等[66]提出了一種簡(jiǎn)單而有效的采樣策略,首先對(duì)樣本進(jìn)行分組并依次抽取組內(nèi)IoU最高的樣本,得到不同的等級(jí),然后通過(guò)重新加權(quán)方式將學(xué)習(xí)的焦點(diǎn)集中在具有高等級(jí)的優(yōu)質(zhì)樣本上。Zhang等[67]提出根據(jù)真值的相關(guān)統(tǒng)計(jì)特征自適應(yīng)選擇正負(fù)樣本的方法ATSS,在不帶來(lái)額外計(jì)算量和參數(shù)的情況下將FCOS的精度提高到與RetinaNet相同的水平。文獻(xiàn)[64]針對(duì)不同尺度正樣本選擇不均衡的問(wèn)題提出一種均衡匹配策略,使得各個(gè)尺度的正樣本在訓(xùn)練中做出同等貢獻(xiàn),有利于在全尺度預(yù)測(cè)上保持結(jié)果一致性。
Lin等[17]提出Focal Loss損失函數(shù),通過(guò)引入兩個(gè)加權(quán)因子解決正負(fù)樣本不均衡和難易樣本不均衡問(wèn)題,但是兩個(gè)參數(shù)需要根據(jù)數(shù)據(jù)集調(diào)整。Li等[68]提出了一種梯度協(xié)調(diào)機(jī)制GHM,把訓(xùn)練過(guò)程中存在類(lèi)別中難易樣本的不平衡歸結(jié)為梯度分布不平衡,通過(guò)增加有效難樣本的梯度達(dá)到提高訓(xùn)練的有效性和穩(wěn)定性的目的。針對(duì)訓(xùn)練和推理階段正負(fù)樣本預(yù)測(cè)策略不一致和預(yù)測(cè)框分布離散的問(wèn)題,文獻(xiàn)[69]提出廣義焦點(diǎn)損失GFL:
(13)
Chen等[70]提出模擬樣本關(guān)系的排序損失作為目標(biāo)損失,來(lái)解決樣本類(lèi)不平衡問(wèn)題。Chen等[71]提出完全基于學(xué)習(xí)的殘差機(jī)制,將多分類(lèi)的不平衡轉(zhuǎn)移到目標(biāo)類(lèi)相關(guān)模塊,在模塊之間建立殘差連接,用激活函數(shù)計(jì)算更新目標(biāo)分?jǐn)?shù),通過(guò)連續(xù)細(xì)化的過(guò)程逐步解決樣本不平衡問(wèn)題。
目標(biāo)檢測(cè)模型的預(yù)測(cè)結(jié)果通常包含大量冗余重疊的預(yù)測(cè)邊界框,需要NMS后處理方法進(jìn)行篩除。NMS流程如圖17所示。
針對(duì)原始NMS僅依靠單一經(jīng)驗(yàn)閾值篩選導(dǎo)致漏檢、使用分類(lèi)置信度排序并未關(guān)聯(lián)定位準(zhǔn)確度等問(wèn)題,2017年文獻(xiàn)[72]提出的Soft-NMS算法對(duì)分類(lèi)置信度加權(quán)衰減后再進(jìn)行篩選,在兩階段方法上能更好地改善漏檢問(wèn)題。2018年文獻(xiàn)[73]提出IoU-Guided NMS算法,該算法在網(wǎng)絡(luò)預(yù)測(cè)分支增加定位置信度預(yù)測(cè)分支,將預(yù)測(cè)框和真值間的IoU作為定位置信度替代分類(lèi)置信度作為篩選閾值。2019年文獻(xiàn)[74]提出一種自適應(yīng)NMS算法,該算法根據(jù)密集預(yù)測(cè)模塊得到的目標(biāo)密集度可自適應(yīng)選擇閾值大小。2020年文獻(xiàn)[75]將定位置信度與分類(lèi)置信度相乘作為篩選閾值,在增加少量計(jì)算量下提高了精度。2020年文獻(xiàn)[76]指出相鄰預(yù)測(cè)候選框中心距離越靠近,則越有可能為冗余框,因此在閾值篩選中增加了中心距離先驗(yàn),提高了檢測(cè)精度。
上述提升精度的方法均為順序處理的方式,運(yùn)算效率較低。而對(duì)于彈載處理器等嵌入式設(shè)備后處理時(shí)間不可忽略,因此需要針對(duì)NMS進(jìn)行加速。文獻(xiàn)[77]提出Fast NMS算法,針對(duì)NMS在IoU計(jì)算和順序迭代抑制造成低效問(wèn)題,按置信度降序排列N個(gè)預(yù)測(cè)候選框集合B=[B1,B2,…,BN],計(jì)算與自身上三角化的IoU矩陣:
(14)
按列取最大后使用NMS閾值篩選可一次得到全部計(jì)算結(jié)果,并可與提升精度的方法相結(jié)合,但是取最大值的過(guò)程會(huì)允許冗余框錯(cuò)誤抑制其他框而導(dǎo)致漏檢。文獻(xiàn)[78]提出Cluster NMS算法,通過(guò)更少的迭代計(jì)算使Fast NMS保持與NMS相同的精度,能夠并行處理聚類(lèi)的預(yù)測(cè)候選框,最大迭代次數(shù)僅為擁有最多預(yù)測(cè)候選框的類(lèi)的迭代次數(shù),并可以融合得分懲罰機(jī)制、中心點(diǎn)距離約束及加權(quán)平均方法,進(jìn)一步提高篩選精度。近年來(lái)出現(xiàn)了無(wú)NMS的方法[21],該類(lèi)方法通過(guò)樣本匹配策略可得到少量的預(yù)測(cè)框[27],但存在不夠穩(wěn)定的缺點(diǎn)。因此對(duì)于彈載目標(biāo)檢測(cè)方法使用NMS算法仍有較大實(shí)用價(jià)值。
當(dāng)前通用的目標(biāo)檢測(cè)算法通?;贕PU高算力平臺(tái)進(jìn)行訓(xùn)練,受限于彈載處理器體積、功耗、算力制約,在推理端對(duì)算法體積速度要求苛刻。不進(jìn)行壓縮加速的高精度浮點(diǎn)計(jì)算神經(jīng)網(wǎng)絡(luò)模型占存儲(chǔ)空間大、計(jì)算量高、數(shù)據(jù)傳輸帶寬要求高,難以在彈載處理器上直接使用。
當(dāng)前彈載圖像處理器通常使用基于CPU+AI芯片的異構(gòu)處理器[8],CPU主要完成處理器初始化、數(shù)據(jù)調(diào)度等控制功能和NMS等后處理,利用AI芯片提供的AI指令集編譯器能夠快速部署加速后的目標(biāo)檢測(cè)算法,實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的加速計(jì)算。結(jié)合面向深度學(xué)習(xí)的彈載處理器平臺(tái)對(duì)算法進(jìn)行針對(duì)性壓縮設(shè)計(jì),可實(shí)現(xiàn)低內(nèi)存帶寬、低功耗、低計(jì)算資源占用以及低模型存儲(chǔ)等。
從壓縮參數(shù)和壓縮結(jié)構(gòu)兩個(gè)角度可以將壓縮方法分成表1所示7類(lèi)。
表1 模型壓縮方法分類(lèi)
隨著神經(jīng)網(wǎng)絡(luò)模型壓縮方法的發(fā)展,已經(jīng)孕育出一系列承載最新成果的壓縮方法工具包,表2列舉了一些常用的壓縮方法工具包。其中,Distiller、Pocketflow、PaddleSlim均提供多種參數(shù)剪枝、量化、知識(shí)蒸餾方法的支持,并且提供自動(dòng)化模型壓縮算法AMC[79]的實(shí)現(xiàn)。
表2 壓縮方法工具包
ImageNet是當(dāng)前用于預(yù)訓(xùn)練特征提取網(wǎng)絡(luò)的大規(guī)模圖像分類(lèi)數(shù)據(jù)集。特征提取網(wǎng)絡(luò)在該數(shù)據(jù)集上的Top1分類(lèi)精度能夠表征其特征提取能力的高低。將特征提取網(wǎng)絡(luò)區(qū)分為基于手工設(shè)計(jì)和通過(guò)NAS方法自動(dòng)搜索得到的特征提取網(wǎng)絡(luò),匯總典型特征提取網(wǎng)絡(luò)在ImageNet圖像分類(lèi)數(shù)據(jù)集上的Top1分類(lèi)精度、模型參數(shù)量和乘加累積操作數(shù)(MACS),性能對(duì)比如圖18 所示。
由圖18可以看到,傳統(tǒng)特征提取網(wǎng)絡(luò)模型如ResNet、DenseNet等參數(shù)量通常大于30 MB,MACs在30億次以上,具備相對(duì)較高的精度,但大參數(shù)量及高浮點(diǎn)計(jì)算量導(dǎo)致難以部署在彈載處理器上。輕量化網(wǎng)絡(luò)模型通過(guò)更優(yōu)的網(wǎng)絡(luò)設(shè)計(jì)能夠達(dá)到較高的精度,同時(shí)計(jì)算量大幅降低,對(duì)于算法部署具有實(shí)際應(yīng)用價(jià)值。如結(jié)合自動(dòng)搜索方法得到的輕量化網(wǎng)絡(luò)模型FBNetV3可在FLOPs為5.57億次時(shí)達(dá)到80.5%的精度[54],且模型參數(shù)量?jī)H為8 MB。
表3匯總了當(dāng)前典型目標(biāo)檢測(cè)方法在通用目標(biāo)檢測(cè)數(shù)據(jù)集COCO上的性能表現(xiàn),檢測(cè)速度均為在TITAN X GPU硬件平臺(tái)測(cè)試結(jié)果。
表3 典型目標(biāo)檢測(cè)方法性能對(duì)比
由表3可以看到,基于Transformer的目標(biāo)檢測(cè)算法通過(guò)超大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練能獲得更高的檢測(cè)精度,代表了當(dāng)前所能達(dá)到的最高檢測(cè)能力,但目前在速度上難以達(dá)到實(shí)時(shí)。單階段算法如YOLO、Objects as Points能夠達(dá)到更高的實(shí)時(shí)性,其端到端的網(wǎng)絡(luò)結(jié)構(gòu)在彈載處理器部署上具有更好的適應(yīng)性。
NMS算法用于進(jìn)一步篩選目標(biāo)檢測(cè)模型的預(yù)測(cè)冗余結(jié)果,是影響彈載處理器目標(biāo)檢測(cè)效果的主要算法。表4匯總了典型NMS算法在COCO數(shù)據(jù)集上的性能表現(xiàn),目標(biāo)檢測(cè)模型均采用YOLOv3-SPP結(jié)構(gòu)。平均檢測(cè)精度均值(mAP)、IoU閾值為75%時(shí)對(duì)應(yīng)的平均查準(zhǔn)率AP75、檢測(cè)結(jié)果上限為100個(gè)時(shí)對(duì)應(yīng)的平均查全率AR100指數(shù)。
表4 典型NMS算法性能對(duì)比
由表4可以看到,傳統(tǒng)NMS算法經(jīng)過(guò)Fast NMS等方法并行加速處理后速度得到較大提升,滿足了實(shí)時(shí)性要求,在此基礎(chǔ)上通過(guò)增加Weighted-NMS、DIoU-NMS等提高精度的方法,能以較小的速度損失得到一定的精度提高。
彈載處理器能耗和面積消耗與運(yùn)算數(shù)據(jù)的位寬密切相關(guān)。文獻(xiàn)[80]測(cè)試了不同數(shù)據(jù)類(lèi)型運(yùn)算操作的占硬件面積及能耗對(duì)比,如表5所示。
由表5可以看到,低精度定點(diǎn)數(shù)加操作和乘法操作的硬件面積大小及能耗比高精度浮點(diǎn)數(shù)要少幾個(gè)數(shù)量級(jí),使用8 bit定點(diǎn)量化可帶來(lái)4倍的模型壓縮、4倍的內(nèi)存帶寬提升,以及更高效的緩存利用(內(nèi)存訪問(wèn)是主要能耗)。除此之外,計(jì)算速度也通常具有2~3倍的提升,且在一定場(chǎng)景下定點(diǎn)量化操作精度損失小,因此使用低比特?cái)?shù)進(jìn)行模型壓縮具有較大優(yōu)勢(shì)。
表5 不同數(shù)據(jù)類(lèi)型的運(yùn)算操作占硬件面積及能耗
彈載圖像數(shù)據(jù)集中的圖像通過(guò)某型旋轉(zhuǎn)炮彈靶場(chǎng)射擊試驗(yàn)、無(wú)人機(jī)掛載彈載相機(jī)模擬拍攝、軟件仿真等手段獲取,包含港口、海洋、荒漠、草地等作戰(zhàn)場(chǎng)景,具備彈載視角下多種目標(biāo)類(lèi)型不同尺度特征的圖像序列。本文基于該數(shù)據(jù)集對(duì)典型目標(biāo)檢測(cè)算法進(jìn)行訓(xùn)練,得到部分檢測(cè)結(jié)果如圖19所示。
圖19(a)~圖19(d)為基于YOLOV4目標(biāo)檢測(cè)方法對(duì)在不同彈目距離d和圖像旋轉(zhuǎn)角α獲取的多靶標(biāo)圖像的識(shí)別效果。由圖19可以看到:在遠(yuǎn)距離時(shí)YOLOV4方法可對(duì)靶標(biāo)區(qū)域及區(qū)域內(nèi)多個(gè)靶標(biāo)進(jìn)行準(zhǔn)確檢測(cè);隨著彈目距離縮小,目標(biāo)檢測(cè)方法能夠保持對(duì)打擊的靶標(biāo)精確定位,表明采用的檢測(cè)方法能夠適應(yīng)不同尺度和不同場(chǎng)景下靶標(biāo)特征,具有較強(qiáng)的魯棒性。圖19(e)、圖19(f)為基于YOLACT方法對(duì)模擬彈載視角拍攝的裝甲目標(biāo)檢測(cè)結(jié)果,從中可以看到,該方法在獲取目標(biāo)輪廓同時(shí)可得到旋轉(zhuǎn)檢測(cè)框,具有更精確的定位信息。
本文結(jié)合彈載圖像目標(biāo)檢測(cè)難點(diǎn)問(wèn)題,綜述了基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法,從5個(gè)方面闡述了目標(biāo)檢測(cè)模型在彈載處理器部署中的關(guān)鍵技術(shù),為高性能彈載圖像目標(biāo)檢測(cè)實(shí)現(xiàn)提供了先進(jìn)理論基礎(chǔ)和可行方案,一定程度上推動(dòng)了圖像自尋的彈藥的精確化、智能化。相關(guān)技術(shù)可應(yīng)用于車(chē)載、機(jī)載等平臺(tái)的檢測(cè)任務(wù),但目前尚未發(fā)展成熟,仍有如下值得關(guān)注和討論的研究方向:
1)兼顧模型性能和彈載處理器硬件部署的輕量化檢測(cè)模型設(shè)計(jì)。當(dāng)前彈載目標(biāo)檢測(cè)通常采用單階段輕量化模型,具有實(shí)時(shí)性好、硬件部署適應(yīng)性強(qiáng)等優(yōu)點(diǎn)。但在復(fù)雜環(huán)境下檢測(cè)精度仍有提升空間;對(duì)模型硬件部署效果缺乏理論分析及全面的指標(biāo)評(píng)價(jià)。通過(guò)強(qiáng)化學(xué)習(xí)自動(dòng)搜索得到高性能的輕量化網(wǎng)絡(luò),結(jié)合大感受野注意力機(jī)制增強(qiáng)特征圖等方法,綜合數(shù)據(jù)讀取、模型計(jì)算量、內(nèi)存訪問(wèn)成本、計(jì)算并行度、硬件能耗等指標(biāo)設(shè)計(jì)更優(yōu)的硬件友好型目標(biāo)檢測(cè)模型,是實(shí)現(xiàn)高效可靠的彈載圖像目標(biāo)檢測(cè)必須研究的重要課題。
2)彈載圖像自尋的系統(tǒng)一體化設(shè)計(jì)。彈載圖像自尋的系統(tǒng)包含大靶面彈載攝像機(jī)圖像采集、彈載目標(biāo)檢測(cè)及跟蹤。在工程上通常采用分治法完成各個(gè)任務(wù),簡(jiǎn)單清晰,分工明確,但集成度低、丟失了任務(wù)間關(guān)聯(lián)信息。一體化設(shè)計(jì)能利用任務(wù)間關(guān)聯(lián)信息,在系統(tǒng)層面緩解模型經(jīng)過(guò)壓縮后帶來(lái)精度損失的問(wèn)題,具有重要的實(shí)用價(jià)值。
3)模型的可解釋性問(wèn)題研究。雖然基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法具備高準(zhǔn)確性、高魯棒性的優(yōu)點(diǎn),但通常被認(rèn)為是基于數(shù)據(jù)驅(qū)動(dòng)的“黑箱”模型。當(dāng)前通過(guò)可視化、外部擾動(dòng)、因果解釋等方法仍無(wú)法完全解釋其決策依據(jù)和邏輯,導(dǎo)致使用者無(wú)法完全信任模型決策結(jié)果。因此,未來(lái)在提升模型性能的同時(shí)也應(yīng)注意模型的可解釋性。
4)多目標(biāo)打擊決策問(wèn)題研究。圖像自尋的彈藥作為“察打評(píng)”一體化閉環(huán)作戰(zhàn)平臺(tái),在目標(biāo)檢測(cè)中增加毀傷判別先驗(yàn)知識(shí),對(duì)實(shí)現(xiàn)作戰(zhàn)效能最大化具有重要的實(shí)戰(zhàn)意義。