周曉玲, 張朝霞, 魯 雅, 王 倩, 王琨琨
(太原理工大學(xué)物理與光電工程學(xué)院, 山西 太原 030024)
合成孔徑雷達(dá)(synthetic aperture radar,SAR)成像是通過雷達(dá)與成像目標(biāo)之間相對位移產(chǎn)生等效的合成天線陣列,再通過發(fā)射端發(fā)射寬帶信號與合成陣列的相干獲取距離像和方位向的高分辨實(shí)現(xiàn)的成像技術(shù)。因其受到外界天氣的影響相對較小,還具有一定的地表穿透能力,所以在軍事領(lǐng)域、國土資源、農(nóng)林業(yè)、重大災(zāi)害等方面應(yīng)用廣泛。傳統(tǒng)的SAR圖像識別技術(shù)在數(shù)據(jù)量巨大且數(shù)據(jù)愈發(fā)復(fù)雜的情況下,會導(dǎo)致最終的識別精度和識別效率低下,而深度學(xué)習(xí)是通過將獲得的低層次特征進(jìn)行非線性組合,由此來得到數(shù)據(jù)的抽象表達(dá)。深度學(xué)習(xí)在圖像識別領(lǐng)域的成功,為其在SAR目標(biāo)識別方面的應(yīng)用提供了依據(jù)。
在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的基礎(chǔ)上,Girshick等提出了一種基于區(qū)域特征提取的卷積神經(jīng)網(wǎng)絡(luò)(region CNN, R-CNN)模型用來實(shí)現(xiàn)目標(biāo)檢測,R-CNN模型可以獲得比CNN更快的識別速度和更好的識別精度。但R-CNN網(wǎng)絡(luò)在提取大量候選區(qū)域時(shí)會占用很大磁盤空間以及巨大的計(jì)算浪費(fèi)。另外,由于傳統(tǒng)CNN需要輸入圖像為固定尺寸(227×227),所以會進(jìn)行歸一化處理,使圖像被截?cái)嗷蚶?導(dǎo)致圖像信息丟失。文獻(xiàn)[11]提出的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast R-CNN)模型不需要進(jìn)行圖像預(yù)處理和生成候選區(qū)域,解決了R-CNN中圖像信息丟失、計(jì)算速度慢和占用存儲空間大的問題。為了加快提取候選區(qū)域的速度,Ren等提出更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)模型,用區(qū)域建議網(wǎng)絡(luò)(region proposal networks, RPN)來提取候選區(qū)域(region of interest, ROI),然后利用Fast R-CNN實(shí)現(xiàn)目標(biāo)檢測功能。由于RPN獲得建議區(qū)域只需要做一次完全卷積,能和整個(gè)檢測網(wǎng)絡(luò)共享全圖的卷積特征,減少了大量冗余數(shù)據(jù)的計(jì)算,加快了目標(biāo)檢測速度。同時(shí),Faster R-CNN還具有較高的檢測精度。Dai等提出一種基于區(qū)域特征的全卷積網(wǎng)絡(luò)(region-based fully convolutional networks, R-FCN),用于實(shí)現(xiàn)精確并且有效的目標(biāo)檢測。為解決圖像分類中平移不可變性與目標(biāo)檢測過程中平移方差的矛盾,提出了位置敏感得分圖。
在數(shù)據(jù)集中數(shù)據(jù)較少的情況下,本文提出了將遷移學(xué)習(xí)應(yīng)用于改進(jìn)R-FCN中實(shí)現(xiàn)SAR圖像目標(biāo)識別的方法。
本文數(shù)據(jù)源于美國國防高級研究計(jì)劃局支持的MSTAR計(jì)劃所公布的實(shí)測SAR地面靜止目標(biāo)數(shù)據(jù)。與光學(xué)圖像識別不同,雷達(dá)圖像識別更加困難,SAR的分辨率遠(yuǎn)低于光學(xué)圖像。方位角的變化對SAR圖像識別的影響是巨大的,此外,不同背景下的SAR圖像對目標(biāo)識別會產(chǎn)生很大的影響。
本文用于訓(xùn)練的數(shù)據(jù)集是雷達(dá)俯仰角為17°時(shí)所獲得的SAR圖像,用于測試的數(shù)據(jù)集是雷達(dá)俯仰角為15°時(shí)所獲得的SAR圖像。圖1是MSTAR數(shù)據(jù)集中坦克的光學(xué)圖像和SAR圖像。
圖1 目標(biāo)圖像Fig.1 Target image
對比可以看出這兩者之間存在很大的區(qū)別,光學(xué)圖像肉眼可區(qū)分出不同型號的戰(zhàn)車,而通過人眼觀察SAR圖像無法區(qū)分出戰(zhàn)車的不同型號,因而需要借助于計(jì)算機(jī)來區(qū)分。實(shí)驗(yàn)采用的訓(xùn)練集和測試集中分別包含五種類別的戰(zhàn)車,分別為ZSU_23_4、ZIL131、2S1、T62、D7。每類中包含299個(gè)訓(xùn)練樣本和274個(gè)測試樣本。
由于用于訓(xùn)練的數(shù)據(jù)集數(shù)量相對較少,使訓(xùn)練參數(shù)不能達(dá)到最優(yōu),不能得到很好的識別效果,需要通過圖像增強(qiáng)中的灰度變換對訓(xùn)練集數(shù)據(jù)進(jìn)行擴(kuò)充,本文利用了冪律變換、對數(shù)變換與Imadjust函數(shù),使原始訓(xùn)練集數(shù)據(jù)量擴(kuò)充到原來的4倍。其中,利用冪律變換得到的灰度圖像和原始圖像如圖2所示。
圖2 灰度變換Fig.2 Gray scale transformation
人們對于圖像檢測的速度和精度的需求在逐步提高,在Faster R-CNN的基礎(chǔ)上提出了R-FCN模型。R-FCN網(wǎng)絡(luò)的主體部分可以適應(yīng)不同的全卷積網(wǎng)絡(luò)架構(gòu),無論是ResNet101還是ResNet152都能滿足R-FCN的需求,從而提取出高質(zhì)量的圖像特征,本文采用ResNet101結(jié)構(gòu)。
R-FCN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,包括了輸入層、100層卷積層、感興趣池化層以及千級全連接層。
圖3 R-FCN網(wǎng)絡(luò)架構(gòu)圖Fig.3 R-FCN network architecture diagram
R-FCN網(wǎng)絡(luò)結(jié)構(gòu)由完全共享、完全卷積的體系構(gòu)成,針對共享網(wǎng)絡(luò)檢測精度不佳的缺陷,加入了位置敏感得分圖,該部分負(fù)責(zé)對目標(biāo)進(jìn)行準(zhǔn)確識別。假設(shè)最終要完成類目標(biāo)的分類,對于一個(gè)待測物體,首先要對其ROI區(qū)域完成劃分,使其分為×個(gè)子網(wǎng)格,每一個(gè)子網(wǎng)格中包含了待測物體的不同部分。經(jīng)過各自對應(yīng)后,判斷每一個(gè)子網(wǎng)格內(nèi)是否含有對應(yīng)部分,如果符合要求,則識別成功屬于該類別,否則歸于其他類別。所以對于R-FCN來說,加上圖中背景共有+1類,每一類又要經(jīng)過次處理,所以需要(+1)個(gè)通道用來輸出。
R-FCN網(wǎng)絡(luò)在識別時(shí),首先由RPN提取出候選區(qū)域ROI,每一類ROI都有高、寬和橫、縱坐標(biāo)4個(gè)參數(shù),記為、、、。由于這些ROI都會被劃分為×個(gè)子網(wǎng)格,故每個(gè)子網(wǎng)格的尺寸為(×)。之后,在第101層卷積層引入位置敏感得分圖,將個(gè)子網(wǎng)格都與得分圖上的相應(yīng)區(qū)域進(jìn)行位置敏感的評比,可以通過平均池化實(shí)現(xiàn)。給定區(qū)域(0≤,≤-1),假設(shè)坐標(biāo)為(,)的子網(wǎng)格需要在得分圖上尋找坐標(biāo)同為(,)的位置完成池化操作,共進(jìn)行+1次。平均池化原理如下:
(,|)=
(1)
式中:(,)是第個(gè)類別的第(,)個(gè)子網(wǎng)格中的匯集響應(yīng),所以一個(gè)ROI可以得到(+1)個(gè)分?jǐn)?shù)圖;bin(,)代表ROI中個(gè)分塊中第(,)個(gè)分塊對應(yīng)在特征圖中的位置集合,,,是第(,)個(gè)子網(wǎng)格為類的分?jǐn)?shù)值;+是ROI的左上角坐標(biāo);是子網(wǎng)格中的像素?cái)?shù);表示網(wǎng)絡(luò)所有可學(xué)習(xí)參數(shù)。第(,)個(gè)子網(wǎng)格的范圍如下:
(2)
(3)
根據(jù)每一個(gè)子網(wǎng)格的得分圖進(jìn)行相應(yīng)的篩選,利用每一類ROI的平均分?jǐn)?shù)來完成目標(biāo)判別。每個(gè)ROI產(chǎn)生一個(gè)+1維的向量
(4)
計(jì)算跨類別的最大響應(yīng)如下:
(5)
式(5)用于評估訓(xùn)練過程中的交叉熵?fù)p失,隨后對不同的ROI進(jìn)行分類。
由于每類ROI都有4個(gè)坐標(biāo),在計(jì)算出位置敏感得分后還需要對其完成回歸操作,故還需要4個(gè)卷積層用于包絡(luò)框回歸。對其進(jìn)行位置敏感池化,為每一類ROI都產(chǎn)生4個(gè)矢量,然后平均得分可以將其聚合成4維矢量。這個(gè)4維矢量會將包絡(luò)框參數(shù)化為=[,,,]。由于包絡(luò)框回歸后沒有別的層級,所以網(wǎng)絡(luò)的運(yùn)算速度相應(yīng)加快。
在試驗(yàn)中,R-FCN可以輕易完成端到端的訓(xùn)練,所以把損失函數(shù)定義為交叉熵和包絡(luò)框回歸的損失。在此過程中,若ROI的交并比(intersection-over-union, IOU)所代表的候選框與原標(biāo)記框的重疊程度大于05,則將其判定為本類列,否則為其他類別。
R-FCN的最初提出是對光學(xué)圖像的目標(biāo)檢測,由于光學(xué)圖像的灰度變化平滑并且目標(biāo)特征明顯,因此R-FCN的特征提取網(wǎng)絡(luò)能夠有效提取目標(biāo)特征。SAR成像原理與光學(xué)成像原理不同,SAR圖像帶有很多相干斑噪聲,嚴(yán)重影響特征的提取。卷積核的大小決定著卷積神經(jīng)網(wǎng)絡(luò)最終輸出特征向量所包含的原圖特征信息量的多少。卷積核越大,所取得的特征圖的信息量越多。此外,卷積核越大越能夠有效抑制SAR圖像中的相干斑噪聲對識別結(jié)果的影響。
殘差網(wǎng)絡(luò)中特殊的殘差塊可以極大提高目標(biāo)圖像分類的準(zhǔn)確率。圖4給出了本文中用到的殘差塊結(jié)構(gòu),其中殘差結(jié)構(gòu)是恒等映射和殘差映射()兩部分之和,ReLU為線性整流函數(shù)。
圖4 殘差網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Residual network structure diagram
R-FCN的殘差網(wǎng)絡(luò)中每個(gè)殘差塊均包含著一個(gè)卷積核大小為3×3的卷積層,為了使特征圖包含的信息量越大,使用5×5的卷積層替換原來的3×3的卷積層,殘差網(wǎng)絡(luò)能夠有效提取出不同型號目標(biāo)之間的差異。
3.2.1 改進(jìn)的位置敏感區(qū)域池化層
由于原始R-FCN網(wǎng)絡(luò)中的位置區(qū)域池化層具有一定的特殊性,原始R-FCN網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)適用于目標(biāo)檢測數(shù)據(jù)集PASCAL VOC,此數(shù)據(jù)集中目標(biāo)加背景一共有21類。位置敏感區(qū)域池化層(position-sensitive ROI pooling layer, PS ROI pooling)決定著R-FCN特征提取網(wǎng)絡(luò)的特征圖的個(gè)數(shù)。當(dāng)檢測目標(biāo)類別越多時(shí),網(wǎng)絡(luò)提取的特征圖個(gè)數(shù)越多,當(dāng)數(shù)據(jù)集中目標(biāo)加背景的類型遠(yuǎn)小于PASCAL VOC的類別時(shí),會導(dǎo)致R-FCN網(wǎng)絡(luò)畸形。
為了得到更好的識別率,對位置敏感區(qū)域池化層作出了更適合小類數(shù)據(jù)集的改進(jìn)。首先通過RPN獲得位置敏感區(qū)域的位置,將其與特征圖結(jié)合生成位置敏感分?jǐn)?shù)圖,然后對位置敏感分?jǐn)?shù)圖做全局最大值池化,得到長度為(+1)的特征向量,最后對特征向量做全連接操作并放入Softmax中進(jìn)行分類。將ROI pooling層改為ROI Align后采用雙線性內(nèi)插的方法獲得像素點(diǎn)上的圖像數(shù)值,從而使特征聚集過程連續(xù)操作。
改進(jìn)的位置敏感區(qū)域池化層具體步驟:將大小為×的ROI分割成個(gè)矩形小方塊,其中寬為,高為,公式如下:
(,|)=
(6)
式中:(,)表示ROI和位置敏感分?jǐn)?shù)圖的每個(gè)分塊位置,(,)的取值范圍為0≤≤-1, 0≤≤-1;(,│)為位置敏感分?jǐn)?shù)圖第個(gè)通道中個(gè)分塊中的第(,)個(gè)分塊;,,為特征圖中第通道的數(shù)據(jù),的取值范圍為0≤≤(+1);(,)表示ROI的左上角坐標(biāo);(,)表示ROI中以(,)為原點(diǎn)時(shí)每個(gè)元素的坐標(biāo)值,且(,)的取值范圍為×≤≤(+1)×,表示第(,)個(gè)塊里的像素總數(shù),且表示網(wǎng)絡(luò)參數(shù)。
322 損失函數(shù)
為了使改進(jìn)的R-FCN能夠準(zhǔn)確地識別SAR圖像型號,需要依據(jù)最小化損失函數(shù)的原則訓(xùn)練卷積網(wǎng)絡(luò)模型。損失函數(shù)由分類損失函數(shù)和定位損失函數(shù)組成,公式如下:
(7)
式中:是調(diào)節(jié)系數(shù);是感興趣區(qū)域所屬的SAR圖像型號類別,分類損失函數(shù)由交叉熵函數(shù)表示,即
(8)
定義損失函數(shù)是Smooth L1損失函數(shù),即
(9)
其中,Smooth L1函數(shù)為
(10)
遷移學(xué)習(xí)可以將學(xué)到的對圖像分類的理解分享到新模型中,神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中獲取信息并將其換成相應(yīng)的權(quán)重。這些權(quán)重被提取出來遷移到其他神經(jīng)網(wǎng)絡(luò)中,加快并優(yōu)化了模型的收斂速度。
在基于遷移學(xué)習(xí)的改進(jìn)R-FCN網(wǎng)絡(luò)的訓(xùn)練過程中,利用預(yù)訓(xùn)練模型進(jìn)行特征提取。去掉輸出層后將剩下的網(wǎng)絡(luò)當(dāng)做已經(jīng)訓(xùn)練好的特征提取機(jī)應(yīng)用到新的數(shù)據(jù)集中。這個(gè)過程中,需要對特定層進(jìn)行訓(xùn)練得到新的權(quán)重,凍結(jié)其他層保持其權(quán)重不變,因此加快了圖像識別的速度。
本節(jié)實(shí)驗(yàn)采用Faster R-CNN網(wǎng)絡(luò)對SAR圖像進(jìn)行識別分類。數(shù)據(jù)集上預(yù)訓(xùn)練VGG16模型用來提取網(wǎng)絡(luò)特征圖,學(xué)習(xí)率為0.002,動量為0.9,權(quán)重衰減設(shè)置為0.000 5,最大迭代次數(shù)為45 000。
通過訓(xùn)練集對Faster R-CNN模型進(jìn)行訓(xùn)練優(yōu)化后,利用測試集檢測該模型,得到識別結(jié)果,部分識別結(jié)果如圖5所示。在實(shí)驗(yàn)中每種類別分別進(jìn)行測試,若識別出的類別與目標(biāo)類別不一致,則認(rèn)為識別錯(cuò)誤,若沒有標(biāo)注出識別框,則認(rèn)為漏識別。各種類別的所有測試數(shù)據(jù)集,通過Faster R-CNN網(wǎng)絡(luò)模型對SAR圖像進(jìn)行目標(biāo)識別,得到的目標(biāo)識別率基本在80%以上,最高可達(dá)到95%,識別效果較好。
圖5 Faster R-CNN模型識別目標(biāo)結(jié)果圖Fig.5 Target recognition results obtained by using the Faster R-CNN model
本節(jié)實(shí)驗(yàn)采用R-FCN網(wǎng)絡(luò)對SAR圖像進(jìn)行識別分類。用同樣的數(shù)據(jù)集對R-FCN網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練與檢測,為了與Faster R-CNN的識別結(jié)果進(jìn)行比較,實(shí)驗(yàn)中的參數(shù)設(shè)置與Faster R-CNN網(wǎng)絡(luò)的參數(shù)設(shè)置一致。實(shí)驗(yàn)得到的部分識別結(jié)果如圖6所示。利用訓(xùn)練集數(shù)據(jù)對原始R-FCN網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練及優(yōu)化,再將測試集數(shù)據(jù)應(yīng)用到優(yōu)化后的R-FCN網(wǎng)絡(luò)模型。結(jié)果顯示,R-FCN網(wǎng)絡(luò)模型對SAR圖像識別率基本在95%以上,最高可達(dá)到97%。識別結(jié)果與Faster R-CNN的識別結(jié)果相比較,識別率得到提高,說明R-FCN對SAR圖像目標(biāo)識別方法較Faster R-CNN優(yōu)越。
圖6 R-FCN模型識別目標(biāo)結(jié)果圖Fig.6 Target recognition results obtained by using the R-FCN model
本節(jié)基于遷移學(xué)習(xí)的R-FCN網(wǎng)絡(luò)對SAR圖像識別分類,利用構(gòu)建好的數(shù)據(jù)集對訓(xùn)練好的模型進(jìn)行仿真實(shí)驗(yàn),得到識別結(jié)果如圖7所示。通過分析實(shí)驗(yàn)結(jié)果可看出,基于遷移學(xué)習(xí)的R-FCN網(wǎng)絡(luò)模型對SAR圖像的識別率均在98%以上,最高可達(dá)到99%,具有很好的識別結(jié)果。
圖7 遷移學(xué)習(xí)的R-FCN模型識別目標(biāo)結(jié)果圖Fig.7 Target recognition results of R-FCN model based on transfer learning
將文中提到的3種方法識別結(jié)果進(jìn)行統(tǒng)計(jì),得到的結(jié)果如表1所示。表1是在整體測試集中利用3種模型進(jìn)行測試,得到的圖像正確識別率、漏檢率和誤檢率。通過表1對比分析可得,在常用的目標(biāo)識別算法中,本文提出的基于遷移學(xué)習(xí)的R-FCN網(wǎng)絡(luò)模型對SAR圖像的識別率已經(jīng)超過傳統(tǒng)的識別算法,對R-FCN網(wǎng)絡(luò)中網(wǎng)絡(luò)結(jié)構(gòu)以及各層參數(shù)的優(yōu)化,使得R-FCN對SAR圖像的識別能夠得到更優(yōu)的結(jié)果。
表1 3種算法檢測識別率、漏檢率及誤檢率的統(tǒng)計(jì)結(jié)果Table 1 Statistical results of detection and recognition rate, omission rate and error rate of the three algorithms %
本文主要研究基于深度學(xué)習(xí)的SAR圖像目標(biāo)識別算法,將深度學(xué)習(xí)中全卷積網(wǎng)絡(luò)框架應(yīng)用于SAR圖像識別中。首先通過圖像增強(qiáng)的方法對數(shù)據(jù)庫進(jìn)行擴(kuò)增,引入遷移學(xué)習(xí)方法訓(xùn)練改進(jìn)R-FCN模型實(shí)現(xiàn)對SAR圖像的識別。通過對實(shí)驗(yàn)結(jié)果對比分析,可以看出改進(jìn)后的R-FCN網(wǎng)絡(luò)模型的目標(biāo)識別率略大于原始的R-FCN模型的圖像識別率,同時(shí)也減少了訓(xùn)練需要的時(shí)間。所以當(dāng)數(shù)據(jù)集較小時(shí),本文所提方法很好地滿足了目標(biāo)識別的精度和效率。
在本文的基礎(chǔ)上,還可以對R-FCN網(wǎng)絡(luò)作進(jìn)一步改進(jìn),除了將遷移學(xué)習(xí)運(yùn)用到R-FCN中,還可以改變殘差網(wǎng)絡(luò)的部分或者改變損失函數(shù)的參數(shù)值,進(jìn)而改善圖像識別的準(zhǔn)確性。由于現(xiàn)階段R-FCN網(wǎng)絡(luò)應(yīng)用于SAR圖像識別的研究相對較少,大多數(shù)還用于識別光學(xué)圖像,所以在這方面還需要更加深入的研究,希望能設(shè)計(jì)出更適用于SAR圖像識別并且識別率更高的算法。