廉小親,黃 雪,高 超,羅志宏
(北京工商大學(xué)人工智能學(xué)院,北京 100048)
合成孔徑雷達(Synthetic Aperture Radar, SAR)是一種有源微波傳感器,區(qū)別于傳統(tǒng)的光學(xué)遙感,SAR不受到光線、云、霧等自然條件的限制,可以實現(xiàn)全天時、全天候的工作,彌補了光學(xué)傳感器的不足,被廣泛應(yīng)用于軍事偵察、農(nóng)林管理、城市規(guī)劃等領(lǐng)域[1]。SAR由于其獨特的成像特點,與通過人眼就可以進行直接解釋的光學(xué)圖像不同,在解讀SAR圖像時,往往需要專業(yè)人員來展開工作。傳統(tǒng)的人工判讀方法不僅成本高昂而且效率低下,已經(jīng)無法滿足SAR圖像目標檢測與識別技術(shù)快速且精準的需求,因此基于SAR圖像的目標識別技術(shù)也受到了廣泛的關(guān)注[2]。
隨著人工智能技術(shù)的廣泛應(yīng)用及發(fā)展,深度學(xué)習(xí)算法逐漸在SAR ATR領(lǐng)域大放異彩。早期應(yīng)用在SAR圖像目標識別領(lǐng)域中的卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練的方法都比較簡單、基礎(chǔ),但成效卻不遜于傳統(tǒng)的SAR圖像目標識別算法,因此,也啟發(fā)了更多的研究學(xué)者們?nèi)ミM一步探討深度學(xué)習(xí)在SAR圖像目標識別領(lǐng)域中的實際應(yīng)用[3]。在眾多深度學(xué)習(xí)模型中,卷積神經(jīng)網(wǎng)絡(luò)具有主動學(xué)習(xí)圖像特征及參數(shù)共享等優(yōu)勢,在圖像識別領(lǐng)域發(fā)揮了明顯的優(yōu)勢。文獻[4]對卷積神經(jīng)網(wǎng)絡(luò)進行改進,將類別可分性度量引入代價函數(shù)中,然后使用支持向量機(Support Vector Machine,SVM)代替softmax對特征提取后的SAR圖像進行分類。文獻[5]提出了將卷積神經(jīng)網(wǎng)絡(luò)和卷積自編碼器相結(jié)合的方法,降低了算法的時間復(fù)雜度。
文獻[4]和文獻[5]都是基于改進網(wǎng)絡(luò)結(jié)構(gòu)和優(yōu)化算法,從而降低算法復(fù)雜度和提升識別精度,但是并未考慮到SAR圖像中存在的相干斑噪聲導(dǎo)致圖片質(zhì)量下降的問題以及小樣本數(shù)據(jù)給網(wǎng)絡(luò)造成過擬合風(fēng)險的情況。由于SAR圖像標注較為困難且獲取成本較高,導(dǎo)致目前公開的SAR圖像樣本較少,因此,數(shù)據(jù)集樣本量不足的問題一直是SAR圖像目標識別領(lǐng)域的熱點問題。針對該問題,文獻[6]利用生成對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)擴充了樣本數(shù)據(jù),并將生成的圖像和原始圖像一起輸入到卷積神經(jīng)網(wǎng)絡(luò)中,提高了網(wǎng)絡(luò)的識別準確率。
相對于上述深度學(xué)習(xí)方法,本文綜合考慮數(shù)據(jù)及網(wǎng)絡(luò)優(yōu)化兩個方面,提出了基于Frost濾波和改進CNN網(wǎng)絡(luò)的SAR圖像識別方法。由于SAR圖像具有相干斑噪聲干擾的問題,采用Frost濾波算法對SAR圖像進行去噪;針對SAR圖像采集、標注困難導(dǎo)致樣本較少的問題,采用了水平翻轉(zhuǎn)、旋轉(zhuǎn)、剪切、縮放相組合的數(shù)據(jù)增強方法來擴充樣本數(shù)量;針對模型容易出現(xiàn)過擬合的問題,構(gòu)建多層卷積神經(jīng)網(wǎng)絡(luò),采用Dropout結(jié)構(gòu)和L2正則化項,利用Adam優(yōu)化算法更新網(wǎng)絡(luò)的參數(shù)。實驗結(jié)果證明,本文所使用的方法,減小了過擬合現(xiàn)象的影響,模型泛化能力較強,且具有較高的識別準確率。
為了驗證本文方法的可行性和有效性,使用運動和靜止目標獲取與識別(Moving and Stationary Target Acquisition and Recognition, MSTAR)SAR圖像數(shù)據(jù)庫進行實驗[7]。MSTAR數(shù)據(jù)集的采集條件分為兩類,分別為標準工作條件(Standard Operating Condition,SOC)和擴展工作條件(Extended Operating Condition,EOC)[8]。數(shù)據(jù)庫中的SAR圖像分辨率為0.3 m×0.3 m,MSTAR數(shù)據(jù)庫中包含了多種俯仰角下采集到的2S1(自行榴彈炮)、BMP2(步兵戰(zhàn)車)、BRDM2(裝甲偵察車)、 BTR60(裝甲運輸車)、BTR70(裝甲運輸車)、D7(推土機)、T62(坦克)、T72(坦克)、ZIL131(貨運卡車)、 ZSU234(自行高炮)、等10類目標的SAR圖像數(shù)據(jù)[9]。實驗的訓(xùn)練樣本采用SOC條件下17°俯仰角下的圖像,測試樣本采用15°俯仰角下的圖像。圖1所示為,在同一方位角下,10類車輛目標的光學(xué)圖像以及其SAR圖像。
圖1 10類車輛目標光學(xué)圖像和SAR圖像
實驗數(shù)據(jù)中的原始圖像尺寸包括128×128、158×158、172×173、192×193像素大小。盡管尺寸存在差異但它們所包含的目標均位于圖像的中心處,而且在整幅圖像中所占區(qū)域不大。SAR圖像存在大量的斑點狀相干斑噪聲,背景中噪聲的存在可能會對特征提取造成干擾,影響識別準確率。為了減小此干擾,在不影響目標的前提下,將原始圖像裁剪成100×100像素大小。
訓(xùn)練過程中,當(dāng)樣本過少時模型容易出現(xiàn)過擬合現(xiàn)象,因此需要大量的訓(xùn)練樣本作為支撐[10]。與光學(xué)圖像不同,SAR圖像很難大量獲取,帶有標注的SAR圖像更是稀有。
因此,本文通過數(shù)據(jù)增強的方式擴充訓(xùn)練樣本集,進而增強模型的泛化能力,抑制過擬合。
在MSTAR的SOC標準條件下采集的十類目標上,對訓(xùn)練樣本采用水平翻轉(zhuǎn)、旋轉(zhuǎn)、隨機剪切、縮放的四種數(shù)據(jù)增強組合方式,原始圖像和數(shù)據(jù)增強后的圖像如圖2所示。
圖2 數(shù)據(jù)增強后圖像
由于雷達相干成像的原理,SAR圖像中存在著與光學(xué)圖像不同的斑點狀噪聲。研究學(xué)者們通過對SAR圖像進行觀察分析及實驗驗證發(fā)現(xiàn),圖像中斑點噪聲越多的區(qū)域,亮度越強,因此建立了 SAR 圖像乘性噪聲模型[11]。
Y(i,j)=x(i,j)·n(i,j)
(1)
式中:Y(i,j)是SAR圖像中第(i,j)個像素點的強度值,x(i,j)是不含噪聲的反射系數(shù),n(i,j)是表示斑點噪聲信號且服從單位均值獨立同分布。通俗來說,相干斑噪聲讓圖像變得不清晰,降低了圖像的分辨率,嚴重影響了目標檢測、分類等圖像處理任務(wù)的精確性。
一些去噪算法被應(yīng)用于SAR 圖像斑點噪聲抑制,算法類型有基于空域濾波的去噪算法、基于變換域的去噪算法和基于深度學(xué)習(xí)的去噪算法等[12]。根據(jù)前人的研究,空域濾波算法直接在利用滑動窗口技術(shù),將某些特定頻段的噪聲濾除,有效地抑制了均勻區(qū)域的噪聲。而且空域濾波算法容易實現(xiàn)、實時性較好,因此基于空域濾波的去噪算法被廣泛應(yīng)用于SAR圖像相干斑噪聲的去除,常用的空域濾波算法有 Lee 濾波、Frost濾波和Kuan濾波等[13]。
對相干斑噪聲抑制的算法中,Frost濾波算法對相干斑抑制的效果較好,在SAR目標識別領(lǐng)域中得到了廣泛的應(yīng)用。當(dāng)濾波窗口為(2N+1)×(2N+1)且濾波器的沖激響應(yīng)是雙邊指數(shù)函數(shù)時,濾波算法公式的輸出結(jié)果表示如下
(2)
其中,wkl表示濾波器的權(quán)值,wkl的值直接影響著平滑的效果,其公式如下
(3)
式中,窗口內(nèi)像素(k,l)與(i,j)的歐氏距離表示為Dkl;ρ是一個微調(diào)因子;Vi,j和Ii,j分別表示在濾波窗口里的所有像素灰度值的方差以及均值,其函數(shù)表達式如下[14]:
(4)
(5)
卷積神經(jīng)網(wǎng)絡(luò)強大的特征提取能力使其具有很高的研究和應(yīng)用價值,已成為了SAR圖像處理領(lǐng)域的研究熱點。
圖3所示為算法框架,本文設(shè)計了一個8層的卷積神經(jīng)網(wǎng)絡(luò)并對其進行了改進,梯度下降算法選用Adam優(yōu)化算法,為了減小過擬合的影響,引入Dropout結(jié)構(gòu)和L2正則化項,由此構(gòu)建了一個改進的SAR目標識別網(wǎng)絡(luò)[15]。對SAR圖像數(shù)據(jù)集進行Frost濾波后,使用組合的數(shù)據(jù)增強方法將數(shù)據(jù)集擴充,并將其送到網(wǎng)絡(luò)中進行訓(xùn)練。
圖3 算法框架
本文設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,單幅SAR圖像的尺寸為100×100?!癈onv”表示卷積層,“96@11×11”表示此卷積層的96個卷積核大小為11×11,選擇修正線性單元ReLU作為激活函數(shù),卷積層的Padding模式均為“SAME”, 其輸出特征圖大小僅與步長有關(guān)[16]?!癕ax pool 2×2”表示選擇Max Pool作為池化層,且下采樣窗口的大小為 2×2。
圖4 網(wǎng)絡(luò)整體結(jié)構(gòu)
圖5 卷積層部分通道特征圖可視化
將100×100×3大小的圖像輸入到網(wǎng)絡(luò)中,步長為4,經(jīng)過第1個卷積核大小為11×11、步長為4的卷積層后,輸出為96個大小為25×25的特征圖;通過第1個池化層后特征圖的大小變?yōu)?×6,此后步長均為1;經(jīng)過第2個卷積核尺寸為5×5的卷積層后,輸出256個大小為6×6的特征圖,通過第2個池化層后特征圖的大小變?yōu)?×4;第3個卷積層的卷積核大小為3×3,輸出是384個大小為4×4的特征圖;通過第3個池化層后特征圖的大小為 2×2,該池化層將特征圖進行展平。384個 2×2的特征圖展平后為一個1536維的向量,經(jīng)過全連接層后,10個神經(jīng)元節(jié)點經(jīng)過Softmax層后分別輸出該目標對應(yīng)每個類別的概率。
深度學(xué)習(xí)模型具有強大的非線性擬合能力,使其能夠在很多復(fù)雜任務(wù)中有更高的識別精度及魯棒性。然而基于深度學(xué)習(xí)的算法在實際訓(xùn)練中往往會產(chǎn)生過擬合現(xiàn)象。當(dāng)網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象時,通常解決的方法有兩種,一是減少特征,保留最重要的特征,即Dropout結(jié)構(gòu);二是懲罰不重要的特征的權(quán)重,即正則化方法。根據(jù)前人的研究,引入Dropout結(jié)構(gòu)和L2正則化項可以有效緩解網(wǎng)絡(luò)的過擬合現(xiàn)象,增強模型的泛化能力。
Dropout方法可以通過較低的計算代價使網(wǎng)絡(luò)獲得更強的泛化能力。在訓(xùn)練過程中,根據(jù)預(yù)先設(shè)定好的概率值隨機的將該層中部分輸出神經(jīng)元激活值置為零,則其與輸入神經(jīng)元之間連接上的網(wǎng)絡(luò)權(quán)重不再參與當(dāng)前迭代過程的參數(shù)更新,從而避免對局部特征的過擬合。此方法在訓(xùn)練過程中為網(wǎng)絡(luò)增加了稀疏性,也有效減小了特征之間的關(guān)聯(lián)度。
正則化是提高模型泛化能力、降低過擬合影響最常用的方法,在 L2 正則化中,將L2范式作為懲罰項加入到目標函數(shù)即損失函數(shù)中,也就是加入了約束條件。L2 正則化的公式如下
(6)
參考文獻[15],在改進后的CNN網(wǎng)絡(luò)中將Dropout概率設(shè)為0.3,選用交叉熵損失函數(shù),L2正則化項中λ設(shè)為0.005。
在深度學(xué)習(xí)領(lǐng)域中,常用的優(yōu)化算法有隨機梯度下降算法、小批量梯度下降算法等。然而,這些算法的學(xué)習(xí)率依賴于研究人員的經(jīng)驗進行人工調(diào)整,工作繁瑣且復(fù)雜。為了克服這些局限性,一些具有自適應(yīng)學(xué)習(xí)率的優(yōu)化算法應(yīng)運而生。Adam算法是當(dāng)前深度學(xué)習(xí)領(lǐng)域中十分受歡迎的優(yōu)化算法。Adam是基于使用動量的小批量梯度下降算法的優(yōu)化,其對梯度的一階矩估計和二階矩估計進行了綜合考量來計算更新步長[17]。Adam算法的所占用的內(nèi)存較小,計算高效,可以對不同的數(shù)據(jù)采用不同的自適應(yīng)學(xué)習(xí)速率。其公式如下
mt=β1*mt-1+(1-β1)*gt
(7)
(8)
(9)
(10)
(11)
在改進后的CNN模型中,β1為0.9,β2為0.999,初始學(xué)習(xí)率η為0.001,ε為10e-6。
本文的實驗主要在64位windows 10.0操作系統(tǒng)環(huán)境下進行,軟件環(huán)境主要基于深度學(xué)習(xí)跨框架keras-2.1.4版本和tensorflow-1.8.0版本,硬件平臺為一臺CPU為AMD Ryzen 7-5800、GPU 為 NVIDIA GeForce RTX 3060、內(nèi)存為 16G的計算機。
本文模型的設(shè)計共有三層卷積層,分別是Conv2d_1、Conv2d_2和Conv2d_3,且每層卷積層分別得到了通道數(shù)為96、256、384的特征,因此每個階段分別輸出96、256和384幅特征圖。frost濾波前后,SAR圖像經(jīng)由第一層卷積層Conv_1特征提取后的特征圖如圖4、5所示。選取特征圖的前4個通道,正如圖中所示,與未經(jīng)去噪的SAR特征圖相比,用frost算法處理后,提取的SAR圖像輪廓特征更加清晰,紋理信息更加豐富,便于后續(xù)的特征提取及分類,進一步驗證了SAR濾波算法是行之有效的。
將每層卷積層提取到的特征圖可視化后,選取通道4,特征圖由圖6所示,第一層特征圖包含的信息最多,輪廓特征更清晰,隨著層數(shù)加深,提取的特征越來越抽象,網(wǎng)絡(luò)學(xué)習(xí)到的特征越來越復(fù)雜。
圖6 模型特征提取流程圖
4.3.1 濾波結(jié)果評價指標
主本文從客觀角度出發(fā),選用平均后向散射系數(shù)(PM)、有效視數(shù)(ENL)和邊緣保持指數(shù)(EPI)來評價SAR圖像濾波算法平滑噪聲的效果以及邊緣保持的能力。平均后向散射系數(shù)(PM)的公式可以表示為濾波前后圖像的均值之比,是評價算法保持圖像后向散射系數(shù)能力好壞的指標[19]。
有效視數(shù)(ENL)是衡量圖像相干斑噪聲強弱的指標,其公式如式(12)所示。其中u和σ分別表示一塊區(qū)域像素的均值和標準差。有效視數(shù)越大,表明該算法去除噪聲能力越強。
(12)
(13)
4.3.2 濾波結(jié)果分析
本文選用濾波窗口大小為7×7,依據(jù)各評價指標對三種濾波算法效果進行評價,結(jié)果見表1。
表1 各濾波算法抑斑性能比較
從表1中可以看出,Frost算法的有效視數(shù)最大,說明其去除噪聲的能力越強,且其PM值也最接近原圖像的1值,說明其去噪后圖像的灰度值分散性較小。Lee算法的邊緣保持指數(shù)最大說明其對圖像的邊緣信息進行了較好的保存,但其有效視數(shù)最低,則其去噪能力較弱。綜合表1中的三個評價指標,雖然Frost算法邊緣保持能力較弱,使濾波后圖像喪失了邊緣部分紋理細節(jié),圖像分辨率有所降低,但其PM值和ENL值最大,其綜合性能最好,可以有效的濾除相干斑噪聲。
為了進一步證明Frost算法在本文方法的有效性,本文對每一種濾波算法做了單獨實驗,使用SOC條件下MSTAR數(shù)據(jù)集的十類SAR圖像目標,分別比較了三種濾波方法,如表2所示。
表2 數(shù)據(jù)增強后不同濾波方法在MSTAR數(shù)據(jù)集上的識別率
從表2中可以看出,沒有施加任何濾波算法時,改進后的CNN的檢測正確率為96.44%。分析可得:每種濾波算法雖以犧牲圖像分辨率為代價降低噪聲的影響,但對最后識別正確率的提升都發(fā)揮了作用,而采用Frost濾波方法得到的結(jié)果最優(yōu),其識別率達到了98.06%。
4.4.1 模型評價指標
為了驗證本文提出方法的有效性,采用了深度學(xué)習(xí)中常用的四種不同的評價指標進行評估:準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1度量(F1-score),如下式所示。
(14)
(15)
(16)
(17)
其中,TP表示屬于正例的樣本被正確劃分為正例;TN表示屬于正例的樣本但被劃分為負例;FP表示屬于負例的樣本但被劃分為正例;FN表示屬于負例的樣本且被劃分為負例。
4.4.2 對比實驗
為了證明本文所使用的技術(shù)對提高分類性能的有效性,依次對基線未改進的CNN模型引入Dropout結(jié)構(gòu)及L2正則化項、數(shù)據(jù)增強方法以及SAR圖像濾波處理算法,利用MSTAR數(shù)據(jù)集進行實驗,得到的對比實驗結(jié)果如表3所示。
表3 對比實驗測試結(jié)果
從表3可以看出,依次對基線未改進的CNN模型引入Dropout結(jié)構(gòu)及L2正則化項、數(shù)據(jù)增強方法以及SAR圖像濾波處理算法在各個評價指標上的精度均優(yōu)于基線CNN模型。對基線CNN模型引入Dropout結(jié)構(gòu)及L2正則化項后,準確率提升了1.02%;在此基礎(chǔ)上,繼而再對SAR圖像數(shù)據(jù)進行數(shù)據(jù)增強方法后,準確率提升了3.37%,最后加入frost濾波算法對SAR圖像進行去噪,準確率提升了1.62%。本文提出的基于frost濾波的改進CNN模型的識別方法相較于未改進的CNN模型在準確率上提升了6.01個百分點。在ROC曲線的繪制中,取十類目標ROC曲線的均值,如圖7所示,從結(jié)果中可以看出,本文提出的方法在十分類SAR圖像數(shù)據(jù)上都達到了最優(yōu)ROC曲線和總體最大的AUC值,進一步證明了本文的模型具有很好的泛化力。
圖7 不同模型的ROC曲線
4.4.3 模型實驗結(jié)果
實驗中,采用SOC條件下采集的MSTAR數(shù)據(jù)集,目標包括2S1、BRDM2、BTR60、D7、BTR70(BTR70_SNC71)、T72(T72_SN132)、BMP2(BMP2_SN9563)、T62、ZIL131、ZSU234、等10類,訓(xùn)練集圖像共2636張,測試集圖像共2536張。對數(shù)據(jù)進行Frost濾波后,選擇剪切強度為0.2、旋轉(zhuǎn)角度為20°、縮放比例為0.2和水平翻轉(zhuǎn)組合的方式進行數(shù)據(jù)增強,圖8為模型的混淆矩陣結(jié)果。
圖8 模型混淆矩陣
表4為本文提出模型的各性能指標,從表4的結(jié)果中可以看出,本文方法對10類SAR圖像目標分類的平均識別準確率可以達到98.06%,具有較好的識別效果,同時也表明了本文方法具有較高的泛化能力和魯棒性。同時,本文設(shè)計的模型在精確率、召回率以及F1 度量上分別達到了98.02%、97.96%和97.99%,精確率越高說明模型查找正樣本的能力越準,召回率越高意味著模型尋找正樣本的能力越強,驗證了本文提出算法的有效性。
表4 10類MSTAR目標識別結(jié)果
前人的研究多是通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來提升SAR圖像分類的準確率,卻很少有人考慮相干斑噪聲的影響。忽略SAR圖像的相干斑噪聲會導(dǎo)致后續(xù)處理時復(fù)雜程度更高,影響目標識別的準確率;并且,也很少有研究學(xué)者進行數(shù)據(jù)擴充的操作,由于卷積神經(jīng)網(wǎng)絡(luò)具有主動提取特征的特性,使得其在訓(xùn)練過程中通常需要大量的數(shù)據(jù)來進行特征提取,未進行數(shù)據(jù)擴充操作往往會導(dǎo)致模型過擬合,從而影響識別效果。同時,本文為了抑制模型過擬合現(xiàn)象,引入了dropout結(jié)構(gòu)和L2正則化項,降低了模型復(fù)雜度,對最終模型的識別起到了關(guān)鍵性的作用。本文在盡量保證圖片細節(jié)和邊緣信息不丟失的情況下,對SAR圖像進行了濾波處理,抑制了相干斑噪聲對SAR圖像分類的影響,提高了SAR圖像分類的準確率。為進一步驗證本文方法的有效性,與前人的研究方法相比,在MSTAR數(shù)據(jù)集上,本文的識別準確率具有一定的優(yōu)越性,對比結(jié)果如表5所示。
表5 MSTAR數(shù)據(jù)集下不同算法的分類結(jié)果
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的SAR圖像目標識別方法,通過加入Dropout結(jié)構(gòu)以及L2正則化項,梯度下降算法選用Adam算法,改進優(yōu)化了卷積神經(jīng)網(wǎng)絡(luò),有效抑制了過擬合。利用Frost濾波算法對圖像數(shù)據(jù)去噪后,通過數(shù)據(jù)增強方法擴充樣本在MSTAR數(shù)據(jù)集上進行了驗證。結(jié)果表明,本文方法在MSTAR數(shù)據(jù)集十類目標分類實驗中,平均識別率可以達到98.06%,在精確率、召回率以及F1度量上均達到了較高的精度。
在本文的基礎(chǔ)上,可以對Frost算法作進一步改進。由于Frost濾波算法邊緣保持能力較弱,可通過調(diào)整濾波器的權(quán)值來改善邊緣保持的效果。因此,設(shè)計出一種既能有效去除噪聲又能很好地保持圖像邊緣紋理細節(jié)的濾波算法,也是下一步的重要研究方向之一。