張毅,張焱,張宇,張勇,劉荻
國防科技大學(xué) 電子科學(xué)學(xué)院,長沙 410073
對地面飛機目標(biāo)的動態(tài)監(jiān)測和準(zhǔn)確識別,在軍事偵察、航班監(jiān)控以及安全預(yù)警等領(lǐng)域具有重要的研究意義與應(yīng)用價值[1-2]。在軍事領(lǐng)域,飛機作為奪取制空權(quán)的重要手段,在戰(zhàn)爭中具有極大的威懾力和殺傷力,是執(zhí)行航空偵察、地面攻擊、對空攔截等重大軍事任務(wù)的重要武器[3-4]。在戰(zhàn)場之外,飛機同樣具有重要作用,其是完成快速運輸和快速救援的重要手段,通過對地面飛機目標(biāo)的識別,可實現(xiàn)機場流量監(jiān)控、飛機救援、航空路線規(guī)劃等[5-6]。因此,掌握地面飛機目標(biāo)的動態(tài)信息對國防安全和經(jīng)濟(jì)發(fā)展都具有重要意義。然而,飛機作為高價值目標(biāo),往往被有意無意的淹沒于自然背景或人為干擾中,通用的識別技術(shù)難以應(yīng)對復(fù)雜的背景和多樣的氣候變化。隨著紅外探測技術(shù)的飛速發(fā)展,紅外技術(shù)已具備作用距離遠(yuǎn)、抗干擾能力強、可全天候工作等特點[7],利用紅外探測技術(shù)進(jìn)行地面飛機目標(biāo)識別可更準(zhǔn)確、全天候獲取目標(biāo)特征,進(jìn)一步提高地面飛機目標(biāo)檢測識別能力,但相較于一般目標(biāo)檢測識別,對地面紅外飛機目標(biāo)檢測識別仍具有以下幾個特點:①目標(biāo)類間差異小?,F(xiàn)代戰(zhàn)爭中飛機目標(biāo)種類繁多,重要程度不一,各類飛機形狀外形差異并不是很大,且目標(biāo)成像尺寸變化大、成像角度變化多,加之地面紅外飛機目標(biāo)所處環(huán)境復(fù)雜多樣,檢測識別精確度和實時性難以保障。② 紅外飛機目標(biāo)分辨率低,可利用特征少。紅外背景復(fù)雜多變,尤其是在地面紅外目標(biāo)檢測識別中,目標(biāo)往往淹沒于云層、山地、車輛、建筑等背景雜波干擾中,易產(chǎn)生虛警和漏檢。③數(shù)據(jù)量小。紅外飛機目標(biāo)檢測識別任務(wù)中,數(shù)據(jù)一直是限制其發(fā)展的重要因素。尤其是基于深度學(xué)習(xí)的目標(biāo)檢測方法,由于紅外飛機目標(biāo)公開數(shù)據(jù)集的缺少,仍遠(yuǎn)遠(yuǎn)落后于可見光圖像飛機目標(biāo)檢測識別方法。
為實現(xiàn)地面飛機目標(biāo)的識別,研究人員提出了一系列的方法來完成飛機目標(biāo)識別任務(wù),主要可分為基于傳統(tǒng)飛機目標(biāo)識別方法和基于深度學(xué)習(xí)飛機目標(biāo)識別方法。傳統(tǒng)的飛機目標(biāo)識別采取人工特征設(shè)計的方法來進(jìn)行檢測識別,重點依賴于候選區(qū)域的準(zhǔn)確提取和人工特征的精確設(shè)計。蔡紅蘋等[8]提出了一種基于圓周頻率濾波的飛機目標(biāo)識別方法,通過飛機形態(tài)特征在圓周濾波上灰度呈現(xiàn)亮-暗周期規(guī)律來檢測地面飛機目標(biāo)。An 等[9]在圓周頻率濾波提取特征的基礎(chǔ)上,增加梯度直方圖特征和AdaBoost 分類器對飛機目標(biāo)進(jìn)行識別,以減少對飛機目標(biāo)先驗知識的依賴。李萍等[10]采用尺度不變、特征變換和奇異值分解算法提取飛機紅外圖像的識別特征,提高了紅外飛機目標(biāo)識別的識別率和魯棒性。模板匹配的方法[11-14]也常用于飛機型號識別。Xu 等[11]提出一種帶邊勢函數(shù)的人工蜂群算法優(yōu)化形狀匹配實現(xiàn)地面飛機目標(biāo)識別。Zhao 等[12]將關(guān)鍵點檢測與模板匹配相結(jié)合,利用關(guān)鍵點匹配對地面飛機進(jìn)行識別。傳統(tǒng)算法雖然不需要龐大數(shù)據(jù)集,且具有計算簡單等優(yōu)點,但地面紅外飛機目標(biāo)識別背景復(fù)雜多變,雜波干擾多,且目標(biāo)類間差異小,傳統(tǒng)算法依賴于先驗知識以及固定參數(shù)來進(jìn)行目標(biāo)識別難以應(yīng)對復(fù)雜背景和雜波,極易產(chǎn)生虛警,存在檢測精度低、虛警率高、魯棒性差等問題。
隨著深度學(xué)習(xí)在目標(biāo)檢測識別中的快速發(fā)展,相比于傳統(tǒng)算法,基于深度學(xué)習(xí)的飛機目標(biāo)檢測識別算法取得了更優(yōu)異的性能。方濤[15]提出了一種基于顯著性與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的紅外飛機識別方法,先通過顯著性檢測提取目標(biāo)區(qū)域,然后通過卷積神經(jīng)網(wǎng)絡(luò)識別飛機類型。Zuo 等[16]利用分割網(wǎng)絡(luò)和關(guān)鍵點檢測網(wǎng)絡(luò)實現(xiàn)飛機目標(biāo)的分割,然后使用模板匹配方式實現(xiàn)飛機目標(biāo)識別;劉思婷[17]在此基礎(chǔ)上,結(jié)合條件隨機場對飛機目標(biāo)掩膜進(jìn)行精化,使分割更為精確,進(jìn)一步提高了識別準(zhǔn)確率。沙苗苗等[18]提出了一種基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的飛機目標(biāo)識別方法,通過多層級特征融合以及RPN 機制,提高了飛機目標(biāo)定位能力。吳杰等[19]將密集連接結(jié)構(gòu)與YOLOv4 算法相結(jié)合,構(gòu)建了多組多尺度融合預(yù)測層結(jié)構(gòu),來解決現(xiàn)有網(wǎng)絡(luò)對飛機目標(biāo)細(xì)節(jié)信息提取不足問題?;谏疃葘W(xué)習(xí)的方法雖一定程度上提高了飛機目標(biāo)的識別能力,但由于紅外飛機目標(biāo)數(shù)據(jù)集的受限,基于深度學(xué)習(xí)的方法往往只作為識別算法中一部分,仍需配合模板匹配、顯著性檢測等傳統(tǒng)方法,這在很大程度上制約了端到端網(wǎng)絡(luò)識別飛機類型的研究。此外,現(xiàn)有基于深度學(xué)習(xí)的飛機目標(biāo)檢測識別算法大多基于可見光圖像,未充分考慮地面紅外飛機目標(biāo)識別環(huán)境更為復(fù)雜,可利用特征少等特性,對地面紅外飛機目標(biāo)特征利用和判別能力有限。
針對以上問題,本文提出了一種基于多級特征增強融合的紅外飛機目標(biāo)識別網(wǎng)絡(luò)(MFEFNet)。網(wǎng)絡(luò)的核心為局部和全局特征增強融合策略(LGFE)和全局拓展策略(GEM)。針對地面紅外飛機目標(biāo)識別中目標(biāo)分辨率低,可利用特征少等問題,LGFE 通過設(shè)計坐標(biāo)注意力機制(CA)和全局像素注意力機制(GPA)分別對深層特征和底層特征進(jìn)行全局增強,然后用深層語義特征指導(dǎo)底層細(xì)節(jié)特征進(jìn)行特征融合,使深層的語義信息動態(tài)作用于底層細(xì)節(jié)信息,進(jìn)而自適應(yīng)強化特征圖對地面紅外飛機目標(biāo)位置信息的表征,提升網(wǎng)絡(luò)對紅外飛機目標(biāo)的特征利用和檢測能力。針對地面紅外飛機目標(biāo)類間差異小、種類繁多、精確識別難度高等問題,GEM 在FPN[20]結(jié)構(gòu)上進(jìn)行上下文擴展,將FPN 結(jié)構(gòu)中深層特征進(jìn)行全局聚合,然后與多層擴展后的底層特征進(jìn)行融合,通過融合多層上下文信息,可使網(wǎng)絡(luò)生成鑒別性更強的特征,從而提升網(wǎng)絡(luò)下游的分類決策能力。此外,MFEFNet 采用級聯(lián)的思想,將LGFE 模塊與GEM 模塊進(jìn)行級聯(lián),保持特征長距離的依賴關(guān)系(Long-Range Dependencies),通過端到端網(wǎng)絡(luò)優(yōu)化整合LGFE 和GEM 的聯(lián)合效應(yīng),使網(wǎng)絡(luò)對地面紅外飛機目標(biāo)具有更強的模型表現(xiàn)力和檢測精準(zhǔn)性。為了驗證本文方法和模塊的有效性,本文進(jìn)行了詳細(xì)的消融實驗,并在紅外飛機數(shù)據(jù)集上與其他先進(jìn)的基于深度學(xué)習(xí)的目標(biāo)檢測識別算法進(jìn)行了對比實驗。實驗表明,與其他先進(jìn)的目標(biāo)檢測識別算法相比,本文方法對紅外飛機類型的識別精度更高。
由于地面紅外飛機目標(biāo)呈現(xiàn)出多種類、低分辯、特征少等特點,直接運用現(xiàn)有通用的目標(biāo)識別網(wǎng)絡(luò)進(jìn)行紅外目標(biāo)識別難以取得滿意效果。因此,針對紅外飛機目標(biāo)特點進(jìn)行網(wǎng)絡(luò)設(shè)計,使其充分增強并融合目標(biāo)的多級特征,生成更具鑒別力特征圖成為了復(fù)雜地面條件下紅外飛機目標(biāo)檢測識別的關(guān)鍵。
MEFENet 的整體結(jié)構(gòu)如圖1 所示。網(wǎng)絡(luò)主要由特征提取、特征增強融合以及分類回歸3 部分組成。特征提取部分采用ResNet-50 骨干網(wǎng)絡(luò)提取多尺度特征。特征增強融合部分采用LGFE模塊和GEM 模塊進(jìn)行多級特征增強融合。首先,將紅外圖像輸入至特征提取網(wǎng)絡(luò)中,特征提取網(wǎng)絡(luò)配置如表1 所示,選取特征提取網(wǎng)絡(luò)第3、4、5 卷積組的最后1 層輸出作為基礎(chǔ)特征,生成3種不同尺度的特征圖(C3、C4、C5)。然后,將生成的特征圖輸入至LGFE 模塊中,通過CA 和GPA 分別自適應(yīng)增強深層語義特征和底層細(xì)節(jié)特征,將增強后的特征圖進(jìn)行自頂向下融合,構(gòu)建包含特征圖M3、M4、M5 的中間特征金字塔,以實現(xiàn)網(wǎng)絡(luò)對目標(biāo)特征的初次增強與融合。為提高網(wǎng)絡(luò)對小目標(biāo)的檢測能力,在中間特征圖M5 的基礎(chǔ)上采用卷積方法增加特征圖M6、M7,以提取地面飛機多尺度特征,實現(xiàn)更小目標(biāo)的檢測識別。之后,將中間特征金字塔中M3、M4、M5、M6 輸入至GEM 模塊,獲取融合特征圖上下文信息,保持長距離依賴關(guān)系,產(chǎn)生雙模塊級聯(lián)聯(lián)合效應(yīng),構(gòu)建用于最終目標(biāo)檢測識別的預(yù)測特征金字塔。最后,在預(yù)測特征圖上進(jìn)行目標(biāo)分類和坐標(biāo)回歸,并通過非極大值抑制(NMS)、置信度約束等后處理操作,實現(xiàn)地面紅外飛機目標(biāo)檢測識別。
圖1 MFEFNet 整體結(jié)構(gòu)Fig.1 Overall structure of MFEFNet
本文提出了一種新的特征增強融合模塊LGFE。LGFE 模塊由GPA 和CA 組成。地面紅外飛機目標(biāo)常位于復(fù)雜背景環(huán)境下,存在自然和人為干擾,且顏色、紋理等物理特征缺乏。因此,位于深層的目標(biāo)語義特征和底層的位置特征對目標(biāo)識別都具有重要作用。為更有效利用深層語義特征和底層位置特征,本文以底層特征為基準(zhǔn),設(shè)計全局像素注意力機制,分別將全局像素注意力機制和坐標(biāo)注意力機制作用于底層特征和深層特征,生成相應(yīng)的全局增強權(quán)重,進(jìn)一步對底層位置信息和深層語義信息進(jìn)行提取和篩選。通過逐元素相乘方式,將深層權(quán)重與底層權(quán)重相融合,融合的特征權(quán)重通過逐元素相加作用于基準(zhǔn)的底層特征,以自頂向下方式實現(xiàn)深層語義動態(tài)指導(dǎo)底層局部特征增強,進(jìn)而自適應(yīng)強化基準(zhǔn)特征圖對地面紅外飛機目標(biāo)位置信息的表征。
模塊的整體結(jié)構(gòu)如圖2 所示,其計算過程為
圖2 特征增強融合模塊結(jié)構(gòu)Fig.2 Structure of feature enhancement fusion module
式中:χ為全局平均池化;χh為x軸1D 平均池化;χw為y軸1D 平均池化;β為BN 歸一化;λ為Relu激活函數(shù);δ為Sigmoid 函數(shù);ω為2D 卷積;pwc為Point-wise 逐點卷積;spl 為分割操作;☉為拼接操作;·為逐元素相乘;x代表底層特征圖;y代表深層上采樣后特征圖。
輸入該模塊的底層特征圖x采用全局平均池化聚合全局特征信息,使網(wǎng)絡(luò)更好地學(xué)習(xí)紅外飛機目標(biāo)和背景之間的關(guān)系,隨后通過逐點卷積將各通道位置信息進(jìn)行聚合,來增強背景和目標(biāo)的區(qū)分度,再通過Sigmoid 函數(shù)生成底層特征增強權(quán)重;深層特征圖采用1D 全局平均池化獲取水平和垂直方向的全局特征,利用水平和垂直2 方向進(jìn)行位置坐標(biāo)編碼,進(jìn)一步將深層語義作用于位置特征,然后采用Sigmoid 函數(shù)生成深層特征增強權(quán)重。將底層特征增強權(quán)重與深層特征增強權(quán)重相乘結(jié)合后,采用元素相加方式將增強的全局特征融合至底層局部特征中,最終生成具有局部與全局特征的增強特征圖。該模塊生成的F(x,y)∈RC×H×W與x,y∈RC×H×W具有相同的大小,因此可直接用于生成中間特征金字塔。
1.2.1 全局像素注意力機制(GPA)
在地面紅外飛機目標(biāo)檢測識別任務(wù)中,圖像具有低對比度和高噪聲的特點,特征提取網(wǎng)絡(luò)難以準(zhǔn)確的提取目標(biāo)的特征,目標(biāo)與背景的特征將混合存儲在特征圖中。為提升網(wǎng)絡(luò)對目標(biāo)特征的提取能力,LGFE 設(shè)計了GPA,其結(jié)構(gòu)如圖3所示,權(quán)重P(x)計算過程為
圖3 GPA 結(jié)構(gòu)Fig.3 Structure of GPA
當(dāng)?shù)讓犹卣鲌D進(jìn)入GPA 后,背景和目標(biāo)信息存儲在特征圖中,故先設(shè)計全局平均池化對特征圖進(jìn)行處理,以獲取背景與目標(biāo)的全局關(guān)系,再通過逐點卷積構(gòu)造一個瓶頸結(jié)構(gòu)來聚合局部通道上下文,與局部通道的空間信息相互作用,使網(wǎng)絡(luò)更加關(guān)注全局特征中目標(biāo)的局部信息特征,突出紅外飛機目標(biāo)。然后,經(jīng)過Sigmoid 激活函數(shù)得到輸出范圍為(0,1)的底層特征增強權(quán)重,并將生成的增強權(quán)重作用于底層基礎(chǔ)特征圖中,以增強基礎(chǔ)特征圖對全局信息中目標(biāo)局部信息的感知能力。
1.2.2 坐標(biāo)注意力機制(CA)
隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)可以更好地理解場景的含義,提取更好的語義特征,從而有助于網(wǎng)絡(luò)更準(zhǔn)確地區(qū)分背景和目標(biāo),但在地面紅外飛機檢測識別中,目標(biāo)分辨率低、可利用特征少,隨著網(wǎng)絡(luò)的加深,特征圖逐步變小,紅外飛機目標(biāo)特征可能消失于深層特征中,無法形成有效的位置編碼,甚至產(chǎn)生語義消失。在地面紅外飛機目標(biāo)檢測識別網(wǎng)絡(luò)設(shè)計上,為解決上述問題,LGFE設(shè)計了CA 增強深層特征語義信息,進(jìn)行坐標(biāo)位置編碼,并形成相應(yīng)權(quán)重引導(dǎo)網(wǎng)絡(luò)動態(tài)選擇底層細(xì)節(jié)。其過程如圖4 所示。其權(quán)重C(y)計算過程為
圖4 CA 結(jié)構(gòu)Fig.4 Structure of CA
式中:χh為x軸1D 平均池化;χw為y軸1D 平均池化。
LGFE 的核心是通過增強的深層語義特征動態(tài)指導(dǎo)底層位置特征增強,使網(wǎng)絡(luò)提高對地面紅外飛機目標(biāo)分類能力的同時強化目標(biāo)定位能力,目標(biāo)深層語義的提取與增強是該自頂向下特征增強融合的關(guān)鍵。CA 通過將注意力轉(zhuǎn)化為水平和垂直2 個方向,在構(gòu)建通道注意力時捕捉到準(zhǔn)確的位置,通過語義增強和位置編碼,實現(xiàn)對復(fù)雜場景下紅外飛機目標(biāo)形成有效注意。上采樣后的特征圖輸入到CA 后,為解決紅外飛機圖像紋理、顏色特征缺失,空間信息相對較弱問題,先采用1D 平均池化來捕獲紅外圖像空間結(jié)構(gòu)的位置信息。然后,采用拼接分割操作對2 個方向信息進(jìn)行交互,以減少紅外飛機目標(biāo)特征在深層特征圖中的湮滅。最后,在水平和垂直方向同時形成注意權(quán)重,作用于深層特征實現(xiàn)語義增強和位置編碼。值得注意的是,CA 最終生成的注意權(quán)重圖C(y)與底層特征圖具有相同的大小,因此LGFE 直接采用逐元素相加進(jìn)行自頂向下特征融合,實現(xiàn)深層語義權(quán)重對底層位置信息的直接指導(dǎo)。
紅外飛機目標(biāo)種類繁多,外形特征相似,對網(wǎng)絡(luò)的分類決策提出高的要求。因此,為提高網(wǎng)絡(luò)的鑒別能力,本文將網(wǎng)絡(luò)中間特征金字塔與上下文結(jié)構(gòu)相結(jié)合,設(shè)計了全局?jǐn)U展模塊。以預(yù)測特征圖P3 生成為例,如圖5 所示,網(wǎng)絡(luò)以中間特征金字塔中的3 層特征圖(M3、M4、M5)為基礎(chǔ),該3 層特征層經(jīng)過之前的金字塔結(jié)構(gòu)和特征融合增強模塊,保持著長距離的依賴關(guān)系,能有效提升下游的分類回歸能力,GEM 將3 層特征圖進(jìn)行合并,特征圖M5 經(jīng)全局池化操作并進(jìn)行廣播,擴展成與底層特征圖M3 同樣大小的融合特征圖,實現(xiàn)深層語義特征的全局聚合,然后對特征圖M4 進(jìn)行上采樣操作,使擴展的3 個融合特征圖形狀一致。此外,經(jīng)過LGFE 后,特征金字塔具有相同的通道數(shù),可直接對3 層融合特征圖上下文信息進(jìn)行聚合,生成預(yù)測特征圖P3。
圖5 GEM 結(jié)構(gòu)Fig.5 Structure of GEM
GEM 進(jìn)一步利用了特征增強融合后的特征圖,聚合多尺度局部信息和全局信息,生成鑒別性更強的特征,以提高網(wǎng)絡(luò)分類決策能力。但由于深層特征感受野較大,語義信息豐富,鑒別性較強,且GEM 結(jié)構(gòu)使網(wǎng)絡(luò)計算量有較大增加,因此,本研究只在網(wǎng)絡(luò)預(yù)測金字塔的最低2 層生成時使用GEM,提高底層特征的鑒別能力,同時增強大尺度目標(biāo)檢測識別能力。
MFEFNet 的損失函數(shù)Loss 由分類損失和回歸損失2 部分組成,其計算過程為
式中:Lcls為目標(biāo)分類損失;Lreg為目標(biāo)預(yù)測位置回歸損失;NPOS為正樣本個數(shù);i為所有正負(fù)樣本;j為所有正樣本。網(wǎng)絡(luò)采用Focal loss 損失函數(shù)對目標(biāo)類別預(yù)測進(jìn)行優(yōu)化,其表達(dá)式為
式中:y∈{±1}為標(biāo)簽值;p為預(yù)測樣本屬于1 的概率;α為平衡權(quán)重因子,用于平衡正負(fù)樣本的損失權(quán)重,實驗中設(shè)置為0.75;γ為可調(diào)節(jié)因子,當(dāng)γ>0 時,可以減小簡單易分樣本的損失,使模型聚焦于難分樣本,實驗中設(shè)置為2。
采用Smooth L1 函數(shù)對目標(biāo)預(yù)測位置進(jìn)行優(yōu)化,其表達(dá)式為
式中:tj為預(yù)測框的參數(shù)化坐標(biāo);為真值框的參數(shù)化坐標(biāo);x、y、w、h分別為預(yù)測框參數(shù)化的中心橫坐標(biāo)、中心縱坐標(biāo)和預(yù)測框的寬和高;smoothL1函數(shù)表達(dá)式為
受限于紅外飛機目標(biāo)數(shù)據(jù)集的缺少,基于深度學(xué)習(xí)的紅外飛機識別的方法發(fā)展一直較為緩慢?,F(xiàn)有機載下視地面紅外飛機目標(biāo)數(shù)據(jù)極少,其極其有限的數(shù)據(jù)容量、數(shù)據(jù)的多樣性阻礙了該領(lǐng)域的進(jìn)一步發(fā)展。因此,我們基于遷移開發(fā)了一個地面紅外飛機數(shù)據(jù)集,該數(shù)據(jù)集有較多目標(biāo)類別、豐富的目標(biāo)大小和不同的機場背景,其部分?jǐn)?shù)據(jù)樣本如圖6 所示。
圖6 地面紅外飛機數(shù)據(jù)集示例Fig.6 Example of ground infrared aircraft dataset
地面紅外飛機數(shù)據(jù)集包括部署在多個機場的23 類軍用飛機以及民航飛機共24 類飛機目標(biāo)。目標(biāo)包括B1 轟炸機、B2 轟炸機、B52 轟炸機、TU-134 轟炸機、TU-22 轟炸機、F35 戰(zhàn)斗機、F22戰(zhàn)斗機、F18戰(zhàn)斗機、F16戰(zhàn)斗機、F15戰(zhàn)斗機、SU-27 戰(zhàn)斗機、A-10 攻擊機、C17 運輸機、C5運輸機、C130 運輸機、AN-70 運輸機、KC-10 空中加油機、KC-135 空中加油機、IL-38 反潛巡邏機、空中指揮預(yù)警飛機、直升機、民用機以及其他類型飛機共24 個類別,共1 755 幅分辨率為640 pixel×512 pixel 的紅外圖像。數(shù)據(jù)集目標(biāo)分布情況如圖7 所示,圖7(a)為數(shù)據(jù)集每張圖像飛機目標(biāo)個數(shù)的分布比例,其中,數(shù)據(jù)集中只有一個目標(biāo)的圖像占總數(shù)據(jù)集的28.55%,2 個目標(biāo)的圖像占比為23.93%,3 個目標(biāo)的圖像占比為12.14%,≥4 個目標(biāo)的圖像占比為35.38%;圖7(b)為數(shù)據(jù)集中每張圖像飛機目標(biāo)像素占比情況,目標(biāo)像素占比為0~3%的圖像占總數(shù)據(jù)集的9.59%,3%~9% 的占比為44.18%,9%~15% 的占比為25.17%,>15% 的圖像占比為21.06%,從每張圖像飛機目標(biāo)數(shù)量以及每張圖像飛機目標(biāo)像素占比情況可以看出,地面紅外飛機數(shù)據(jù)集中目標(biāo)數(shù)量以及目標(biāo)尺寸大小分布多樣,能較好驗證算法的多目標(biāo)檢測性能和多尺度檢測能力。
為驗證遷移的地面紅外飛機數(shù)據(jù)集與真實紅外數(shù)據(jù)集的一致性,本文采用Gram 距離(Gram 矩陣的L-1 距離)從特征層面來進(jìn)行度量。Gram 矩陣是特征圖矢量化映射的內(nèi)積,可以體現(xiàn)2 個向量之間的相似性,其計算公式為
式中:l表示選定的特征層;i、j表示特征張量中不同通道;為特征張量的第i個通道的第k個元素;為特征張量的第j個通道的第k個元素。Gram 矩陣是一種位置無關(guān)量,表征了特征張量各元素之間的相關(guān)性,在計算遷移圖像和紅外圖像在選定特征層的Gram 矩陣后,采用Gram 距離值可定量判斷圖像的一致性,Gram 距離的計算公式為
分別計算未遷移的原始圖像和遷移圖像與紅外圖像的Gram 距離,其結(jié)果如表2 所示,從定量結(jié)果可以看到,選取MFEFNet 特征提取網(wǎng)絡(luò)中卷積組2~5 的特征張量(C2、C3、C4、C5)計算Gram 距離,隨著網(wǎng)絡(luò)層數(shù)的加深,Gram 距離呈下降趨勢,且原始圖像與紅外圖像的Gram 距離相較于遷移圖像與紅外圖像的Gram 距離存在數(shù)量級上的差距,這證明遷移后圖像在特征層面上有效地遷移了紅外圖像特征。MFEFNet 中運用的是特征提取網(wǎng)絡(luò)的C3、C4、C5 這3 種不同尺度特征圖,從結(jié)果中可以看到,網(wǎng)絡(luò)運用的特征張量與紅外圖像的Gram 距離值達(dá)到10-7層級,極其微小,其表明了遷移數(shù)據(jù)集和真實的紅外數(shù)據(jù)集在特征層面上的一致性。
表2 遷移圖像格拉姆距離Table 2 Gram distance for image transfer
本節(jié)通過實驗來驗證MFEFNet 的有效性。首先,給出了實驗設(shè)置,包括對比網(wǎng)絡(luò)、評價指標(biāo)和實現(xiàn)細(xì)節(jié),然后將 MFEFNet 與其他先進(jìn)的基于深度學(xué)習(xí)的方法進(jìn)行了定量和定性的對比,進(jìn)一步證明MFEFNet 檢測識別地面紅外飛機目標(biāo)的能力,最后對網(wǎng)絡(luò)的各個模塊進(jìn)行消融研究,驗證其有效性。
3.1.1 對比網(wǎng)絡(luò)
為證明MFEFNet 的有效性,本文將所提出的方法與其他先進(jìn)的基于深度學(xué)習(xí)的目標(biāo)檢測識別算法進(jìn)行了比較。選擇經(jīng)典的雙階段目標(biāo)檢測識別算法Faster-RCNN 網(wǎng)絡(luò)[21]和影響較廣的級聯(lián)檢測Cascade-RCNN 網(wǎng)絡(luò)[22]進(jìn)行比較。在單階段目標(biāo)檢測識別算法中,選擇YOLOv3 網(wǎng)絡(luò)[23]、YOLOX 網(wǎng)絡(luò)[24]、YOLOv8 網(wǎng)絡(luò)、SSD 網(wǎng)絡(luò)[25]、RetinaNet 網(wǎng)絡(luò)[26]和無錨框(anchor free)代表網(wǎng)絡(luò)FCOS[27]進(jìn)行比較。選擇上述目標(biāo)識別算法進(jìn)行對比實驗,是因為上述算法性能優(yōu)異且影響廣泛。因此,選擇上述網(wǎng)絡(luò)作為基準(zhǔn),進(jìn)行對比,證明本文提出的模型和思想的優(yōu)異性能。
3.1.2 評價指標(biāo)
為充分驗證模型對紅外飛機目標(biāo)的檢測能力,選取平均精度(AP)、幀率(FPS)、參數(shù)量(Params)以及精確率-召回率(PR)曲線來客觀地評估所提出的網(wǎng)絡(luò)的性能。其中,AP 是目標(biāo)檢測識別任務(wù)中衡量算法檢測識別能力的重要指標(biāo);幀率(FPS)和參數(shù)量(Params)是評估網(wǎng)絡(luò)速度和輕量化的關(guān)鍵指標(biāo);PR 曲線是記錄隨著IoU閾值變化時,精確率與召回率值變化關(guān)系的曲線。AP 具體計算公式為
式中:N為目標(biāo)的類別數(shù);為算法對第c類目標(biāo)在特定IoU 閾值時的平均精度;XIoU為交并比閾值。MS COCO(Microsoft common objects in context)將傳統(tǒng)的mAP 定義為AP,其值越高,表明算法對目標(biāo)的檢測識別性能越優(yōu)。此外,MS COCO 指標(biāo)中根據(jù)目標(biāo)大小設(shè)置APs、APm和APl,分別表示面積<322pixel、介于322~962pixel和>962pixel 的目標(biāo)在不同IoU 閾值條件下的AP 值,以檢驗算法對小、中、大目標(biāo)的檢測識別能力。根據(jù)IoU 閾值的不同,設(shè)置AP0.5、AP0.75,分別表示IoU 為0.5 和0.75 時算法對所有類目標(biāo)檢測的AP 值,以檢驗算法在不同交疊率約束條件下對目標(biāo)的判別與定位能力。
參數(shù)量為模型所有帶參數(shù)的層的權(quán)重參數(shù)總量,其主要包括卷積層、BN 層、全連接層等參數(shù)數(shù)量,用來衡量模型的大小。
FPS 為每秒傳輸幀數(shù),即每秒內(nèi)可以處理的圖像數(shù)量,其定義為
式中:T為算法處理一幅圖像的平均耗時。
3.1.3 實現(xiàn)細(xì)節(jié)
Faster-RCNN、Cascade-RCNN、YOLOv3、YOLOX、YOLOv8、SSD、RetinaNet、FCOS 以及本文提出的MFEFNet 在裝有Ubuntu16.04 操作系統(tǒng)的服務(wù)器上進(jìn)行訓(xùn)練和測試,使用NVIDIA TITAN Xp GPU 進(jìn)行加速,代碼基于PyTorch 框架,使用Python 語言編寫。訓(xùn)練時,優(yōu)化器使用SGD 優(yōu)化器,其中動量設(shè)置為0.9,權(quán)重衰減系數(shù)設(shè)置為0.000 5。初始學(xué)習(xí)率設(shè)置為0.005,采用StepLR 機制的衰減策略。批處理大小設(shè)置為4。在模型訓(xùn)練過程中,每個Epoch都會將模型保存并使用驗證集評估模型性能,最終選取在驗證集上表現(xiàn)最佳的模型進(jìn)行測試。實驗具體的超參數(shù)設(shè)置如表3 所示。
表3 實驗超參數(shù)設(shè)置Table 3 Experimental hyperparameter setting
為證明本文方法的優(yōu)越性,將MFEFNet 與其他先進(jìn)的基于深度學(xué)習(xí)的目標(biāo)檢測識別方法進(jìn)行了定量和定性比較,結(jié)果如表4 和圖8~圖10所示。從定量的結(jié)果中可以看到,本文提出的MFEFNet 網(wǎng)絡(luò)相較于其他網(wǎng)絡(luò)在檢測精度上有顯著提高。其中,相比于Faster RCNN 和Cascade RCNN 等雙階段算法,MFEFNet 的AP 分別提升了10.6%、4.3%,AP0.75分別提升了8.4%、2.9%。得益于LGFE 和GEM 這2 種特征增強融合策略,MFEFNet 能針對性解決紅外飛機目標(biāo)可用特征少、目標(biāo)類型多、精確識別難度高等問題,有效提升紅外飛機目標(biāo)檢測能力。但從結(jié)果可以看到,MFEFNet 對中型紅外飛機目標(biāo)提升效果相對較弱,這是因為深層特征語義信息強,能準(zhǔn)確鑒別多類型目標(biāo),對小目標(biāo)檢測識別能力較強,同時MFEFNet 采用GME 模塊對多級特征進(jìn)行擴展融合并應(yīng)用于最低兩層預(yù)測特征層,有效增強了大尺度目標(biāo)檢測能力,因此,MFEFNet 對小型和大型目標(biāo)相對于其他網(wǎng)絡(luò)提升較大。Faster RCNN 雖然采用RPN 機制提取了候選區(qū)域,但其基于簡單特征金字塔提取特征進(jìn)行檢測,未采用有效特征增強策略應(yīng)對地面紅外飛機目標(biāo)特有特點,檢測性能難以提升。Cascade RCNN 采用了級聯(lián)模式能有效提升目標(biāo)檢測識別性能,但與MFEFNet 將2 種特征增強融合模塊進(jìn)行級聯(lián)不同的是,Cascade RCNN 是將檢測模塊進(jìn)行級聯(lián),且未對特征進(jìn)行融合,限制了其對紅外目標(biāo)的檢測能力。相比于FCOS、SSD、YOLOv3、YOLOX、YOLOv8、RetinaNet等單階段算法,MFEFNet 精度提升更為顯著,AP 分別提升了18.5%、23.4%、11.9%、7.6%、5.1%、6.5%,AP0.75分別提升了 16.1%、21.9%、8.5%、4.4%、0.6%、3.2%。其中,由于FCOS 采用了無錨框策略,對小目標(biāo)的檢測相對于其他算法不受錨框尺寸的限制,取得了最佳效果。但單階段算法總體性能較差,這是因為模型訓(xùn)練時存在正負(fù)樣本不平衡問題。YOLOv3 未采用FPN 機制提取多尺度特征圖,限制了其對多尺度目標(biāo)的檢測能力,雖然SSD、FCOS、Reti naNet 網(wǎng)絡(luò)都采用了FPN 機制來提高精確度,但均未進(jìn)行特征增強,一定程度弱化了底層特征圖對目標(biāo)抽象特征的表征能力。其中,SSD 性能表現(xiàn)最差,這是由于FCOS 和RetinaNet 采用了Focal loss 進(jìn)行分類優(yōu)化,一定程度上緩解了正負(fù)樣本不平衡問題。與現(xiàn)階段被認(rèn)為最先進(jìn)的單階段檢測模型YOLOX、YOLOv8 相比,MFEFNet在地面紅外飛機目標(biāo)檢測上仍取得了一定優(yōu)勢,AP 分別提升了7.6%、5.1%。雖然YOLOv8 在通用目標(biāo)檢測上表現(xiàn)出了優(yōu)異的性能,且采用了解耦頭分別計算分類和定位分支,一定程度上提高了分類能力,但地面紅外飛機目標(biāo)分辨率低,可用特征少,不針對地面紅外飛機目標(biāo)特性進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整,直接運用現(xiàn)有通用的目標(biāo)識別網(wǎng)絡(luò)來檢測地面紅外飛機目標(biāo),將難以解決目標(biāo)類間差異小、可用特征少以及地面背景復(fù)雜等問題。相比于以上單階段網(wǎng)絡(luò),MFEFNet 采用FPN 機制與多級特征增強融合機制有效提升紅外目標(biāo)的特征表征能力,同時采用Focal loss 優(yōu)化分類分支,取得了最優(yōu)效果。
表4 不同檢測識別算法對比Table 4 Comparison of different detection and recognition algorithms
圖8 不同IoU 閾值條件下算法的精確率-召回率曲線Fig.8 Precision-recall curves of algorithms at different IoU thresholds
在 IoU 閾值為0.5 和0.75 時,不同算法的PR 曲線如圖8 所示??梢园l(fā)現(xiàn),當(dāng)IoU=0.5 且召回率<0.8 時,MFEFNet 的PR 曲線位置最高且下降速率較為緩慢,召回率>0.8 時,MFEFNet 檢測精確率稍低于YOLOv8,但總體檢測性能仍為最優(yōu)。當(dāng)IoU=0.75 時,MFEFNet、Cascade RCNN 和YOLOv8 有較多重疊,檢測性能相當(dāng),其他算法對目標(biāo)檢測精確率較低。無論IoU 閾值取0.5 或0.75 時,MFEFNet 的PR 曲線與坐標(biāo)軸圍成的面積均最大,與定量結(jié)果一致,這表明其對紅外飛機目標(biāo)檢測識別性能最好。
不同算法對數(shù)據(jù)集中部分圖像的識別結(jié)果如圖9 和圖10 所示??梢园l(fā)現(xiàn),對于尺度較小的戰(zhàn)斗機目標(biāo),除MFEFNet 外,各算法均出現(xiàn)了不同程度的誤檢以及漏檢現(xiàn)象,而MFEFNet 通過LGFE 和GEM 將深層語義特征與底層細(xì)節(jié)特征進(jìn)行增強并將深層語義特征融合至底層細(xì)節(jié)特征圖中,提升了目標(biāo)特征的表征能力,有效提高了目標(biāo)的定位能力的同時減少了誤檢和漏檢的現(xiàn)象。對于尺度較大的加油機目標(biāo),除FCOS 和SSD 算法外,MFEFNet 與其他算法都表現(xiàn)出較為優(yōu)異的檢測識別效果,這是由于大尺度目標(biāo)本身特征較為明顯,可用特征較多,在深層特征圖中不易消失,通用目標(biāo)識別網(wǎng)絡(luò)特征提取與識別已達(dá)到檢測識別能力。但可以看到,F(xiàn)COS 和SSD 算法仍會出現(xiàn)部分漏檢現(xiàn)象,表明識別紅外飛機目標(biāo),仍需要針對紅外目標(biāo)特征進(jìn)行網(wǎng)絡(luò)優(yōu)化,強化目標(biāo)特征表示,以提升多尺度紅外目標(biāo)的檢測識別能力。
圖9 較小尺度紅外飛機目標(biāo)檢測識別結(jié)果對比Fig.9 Comparison of detection and recognition results of small-scale infrared aircraft targets
圖10 較大尺度紅外飛機目標(biāo)檢測識別結(jié)果對比Fig.10 Comparison of detection and recognition results of large-scale infrared aircraft targets
為了更好地展示MFEFNet 網(wǎng)絡(luò)每個部分的性能,通過移除MFEFNet 的幾個特定部分來進(jìn)行消融實驗。其結(jié)果如表5 所示。其中,w/o 表示移除對應(yīng)模塊。從表5 中可以看出,GPA、CA、LGFE 與GEM 對網(wǎng)絡(luò)檢測識別紅外飛機目標(biāo)均有影響。
表5 網(wǎng)絡(luò)內(nèi)部模塊對檢測識別性能的影響Table 5 Effect of network internal modules on detection and identification performance
1)GPA 的影響:移除GPA 模塊后,AP、APm、APl分別下降了1.0%、8.2%、4.3%。GPA通過全局像素注意力機制對底層特征進(jìn)行增強,突出目標(biāo)的位置信息。將GPA 移除后,網(wǎng)絡(luò)對檢測識別中大型目標(biāo)的性能下降明顯,這是因為GPA 主要作用于底層特征,而底層特征對目標(biāo)定位精度和中大型目標(biāo)檢測識別影響比較突出。值得注意的是,當(dāng)單獨移除GPA 模塊時,APs和AP0.75值反而分別上升了5.1%和3.1%,這是因為移除GPA 后,LGFE 模塊進(jìn)行特征初次增強主要由CA 作用。CA 作用于深層特征,主要解決小目標(biāo)深層特征湮滅問題。CA 和GPA 逐元素相乘融合后作用與特征增強,與CA 單獨作用于特征增強相比,小目標(biāo)增強效能將會被GPA 稍降低,同時IoU 閾值取0.75 的檢測性能受小目標(biāo)和復(fù)雜度的影響也會有所降低。但GPA 對網(wǎng)絡(luò)整體性能和中大型目標(biāo)檢測性能的提升卻不能忽略,從移除LGFE 模塊結(jié)果可以看到,當(dāng)同時沒有GPA 和CA 增強融合后,網(wǎng)絡(luò)對各尺度目標(biāo)檢測性能都將下降,因此,針對地面紅外飛機多尺度目標(biāo)檢測,采用GPA 和CA 分別對底層特征和深層特征進(jìn)行增強后融合,是提升網(wǎng)絡(luò)整體性能的最佳策略。
2)CA 的影響:移除CA 模塊后,AP、APs分別下降了0.5%,12.3%。相比于GPA,CA 對小目標(biāo)的影響更為明顯,CA 主要作用于深層特征,利用坐標(biāo)注意力構(gòu)建位置編碼,可對目標(biāo)特征進(jìn)行水平和垂直方向的深度匯聚,顯著增強深層小目標(biāo)的語義特征和定位能力。
3)LGFE 的影響:移除LGFE 模塊后,網(wǎng)絡(luò)性能下降顯著。LGFE 通過CA 和GPA 雙重注意力機制分別增強深層特征和底層特征,并通過逐元素相加方式將深層語義特征融入底層特征中,進(jìn)一步強化目標(biāo)特征表征能力。從結(jié)果可以看出,單獨移除GPA 或CA,網(wǎng)絡(luò)性能下降幅度比移除LGFE 模塊小很多,這是因為GPA 和CA主要作用于底層特征和深層特征的增強,而LGFE 模塊將增強后的特征進(jìn)行融合,使融合特征圖既有深層語義特征又有底層細(xì)節(jié)特征,單獨移除GPA 或CA 后消除的是特征增強的效能,特征融合仍然存在,由此可以看出,LGFE 的融合策略能有效應(yīng)對地面紅外飛機目標(biāo)特征少、分辨率低等特性,顯著提高檢測識別效果。
4)GEM 的影響:移除GEM 模塊后,AP、APl分別下降了1.2%、3.3%。紅外飛機目標(biāo)類別多,類間差異小,網(wǎng)絡(luò)分類決策要求高,GEM 可充分利用特征圖的上下文信息并聚合多尺度局部信息和全局信息,從而提升網(wǎng)絡(luò)分類決策能力,強化目標(biāo)深層語義特征對目標(biāo)定位以及分類的貢獻(xiàn)。此外,通過將LGFE 和GEM 兩特征融合模塊進(jìn)行級聯(lián),可保持特征長距離依賴關(guān)系,發(fā)揮雙模塊的聯(lián)合效應(yīng),進(jìn)一步提升網(wǎng)絡(luò)對紅外飛機目標(biāo)的定位以及分類能力。
1)提出了局部和全局特征增強融合策略(LGFE)和全局拓展策略(GEM),設(shè)計了基于多級特征增強融合的紅外飛機目標(biāo)檢測模型,從而形成了一種面向多類型地面紅外飛機目標(biāo)識別方法。
2)基于遷移開發(fā)了一套紅外飛機目標(biāo)檢測數(shù)據(jù)集,并通過Gram 距離分析了遷移數(shù)據(jù)集與真實紅外數(shù)據(jù)集在特征層面上的一致性,使其更適用于基于深度學(xué)習(xí)的檢測方法。
3)提出的方法解決了由地面紅外飛機目標(biāo)類間差異小、目標(biāo)分辨率低、可用特征少導(dǎo)致的目標(biāo)類型精確識別難的問題,能夠有效排除地面背景復(fù)雜、自然和人為遮擋等因素的干擾,與現(xiàn)有最先進(jìn)的識別方法相比,本文方法實現(xiàn)了更高準(zhǔn)確率的地面紅外飛機目標(biāo)識別。
4)本文方法實現(xiàn)地面紅外飛機目標(biāo)高準(zhǔn)確率識別的原因為:局部和全局特征增強融合策略可針對性解決紅外飛機目標(biāo)可用特征少、目標(biāo)定位難的問題;GEM 提高了模型分類決策能力;面向?qū)嶋H問題的模型架構(gòu)和雙模塊級聯(lián)策略可進(jìn)一步產(chǎn)生聯(lián)合效應(yīng),提高目標(biāo)的表征和分類能力。
5)本文提出的方法在檢測速度上不具有優(yōu)勢,數(shù)據(jù)集容量大小較小,為實現(xiàn)地面紅外飛機目標(biāo)高精度的實時檢測和識別,下一步的改進(jìn)方向是進(jìn)行網(wǎng)絡(luò)模型優(yōu)化,提高模型檢測速度,并對數(shù)據(jù)集進(jìn)行擴充升級,使其更好適用于紅外飛機目標(biāo)的研究。