李 倩,裴炳南,常芳芳
(大連大學(xué)信息工程學(xué)院,遼寧 大連 116622)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)興起于20世紀(jì)90年代,但直到2012年,由于Krizhevsky 等人的工作才使CNN引人注目[1]。近年來,CNN已經(jīng)成功應(yīng)用于圖像分類[ 1-3 ]、目標(biāo)檢測和車輛檢測[4-5]等多種模式識別任務(wù)。對于圖像分類,CNN與LeCun提出的兩級架構(gòu)基本相同[6],差異在于它們的配置、深度、單位數(shù)量和非線性函數(shù)的形式。在深度學(xué)習(xí)結(jié)構(gòu)中卷積層作為特征提取器,使用卷積運(yùn)算通過學(xué)習(xí)獲得分層特征[2],最后形成多層感知分類器。Szegedy 等人[2]引入了22層CNN進(jìn)行分類; 同時(shí),Simonyan 等[3]設(shè)計(jì)了16層和19層CNN,成功用于圖像識別。所有這些成功的案例都展示了CNN在特征提取或表征學(xué)習(xí)中相對于傳統(tǒng)方法的優(yōu)勢和特色。
在對圖像分類方面,CNN優(yōu)于其他方法[7],它具有以下優(yōu)點(diǎn):1)具有類腦功能,將特征提取和識別過程融合在一起;2)局部感受域獲取的特征與特征的平移、縮放和旋轉(zhuǎn)無關(guān);3)權(quán)值共享結(jié)構(gòu)降低了網(wǎng)絡(luò)模型的復(fù)雜度;4)下采樣利用局部相關(guān)性原理,在有效減少數(shù)據(jù)處理量的同時(shí)保留了結(jié)構(gòu)信息[8]。
最近,卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為一種新方法用于雷達(dá)目標(biāo)識別[9-10]。如J.Lunden 等人,采用了兩層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并應(yīng)用于多基地雷達(dá)目標(biāo)探測系統(tǒng),實(shí)現(xiàn)了高分辨一維距離像的目標(biāo)識別[7]。2016年,Sizhe Chen等人[11]提出用深度卷積網(wǎng)絡(luò)對SAR圖像進(jìn)行目標(biāo)分類的方法,該文通過采用稀疏連接的卷積網(wǎng)絡(luò),說明了利用少量訓(xùn)練數(shù)據(jù)集也能夠避免過擬合,并得出很高的準(zhǔn)確率。但卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的過程中卷積層數(shù)越多,訓(xùn)練越復(fù)雜,訓(xùn)練的時(shí)間越長,最終目標(biāo)的分類識別率并沒有很大的提高;同時(shí),當(dāng)卷積核參數(shù)設(shè)置的不同,實(shí)驗(yàn)結(jié)果也不同。為了更好的對SAR圖像進(jìn)行分類優(yōu)化,本文利用卷積神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),提出含歸一化的多層卷積神經(jīng)網(wǎng)絡(luò),直接對SAR圖像源進(jìn)行分類識別。
基本的CNN是由多層線性、非線性操作單元組合而成的一類深層網(wǎng)絡(luò),特點(diǎn)是層內(nèi)神經(jīng)元無連接,而層間神經(jīng)元有連接,具有良好的結(jié)構(gòu)化特性。如圖1所示,CNN可分為卷積層(C)、下采樣層(S)、全連接層、分類層。其中的卷積層和下采樣層對應(yīng)于傳統(tǒng)模式識別中的特征提取。
卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心組成部分。該層由一系列通過特定卷積規(guī)則獲得的卷積核組成,不同的卷積核對應(yīng)不同的目標(biāo)特征。
在卷積層只有一個(gè)二維平面輸入的情況下,卷積層的前向傳播如下:
(1)
與一般的二維線性卷積不同。在CNN中,卷積運(yùn)算規(guī)則為:對于—個(gè)大小為m×n的特征圖,用大小為k×k的卷積核對其進(jìn)行卷積操作,得到的輸出特征圖的大小為(m-k+1)×(n-k+1)[12]。圖2示例這種情況:一個(gè)大小為5×5的卷積核與輸入特征圖8×8進(jìn)行二維離散卷積操作,得到一個(gè)4×4的特征圖。
為了使神經(jīng)網(wǎng)絡(luò)具有非線性的擬合性能,須要將得到的結(jié)果輸入一個(gè)非線性的激活函數(shù),通過該函數(shù)映射后最終得到卷積層的輸出特征圖。本文的非線性激活函數(shù)采用修正線性單元(Rectified Linear Units, ReLU),數(shù)學(xué)表達(dá)式為y=max(0,x)。它具有單側(cè)抑制、較快的網(wǎng)絡(luò)訓(xùn)練速度、稀疏性、有效緩解梯度消失等優(yōu)點(diǎn)[13]。
下采樣層的作用是對卷積層輸出的特征圖進(jìn)行采樣,如圖3示,采樣層是以采樣區(qū)域的大小為步長來進(jìn)行掃描采樣。下釆樣操作是在二維方向(水平和豎直方向)圖示以步長為s對特征圖中的所有w×w大小的連續(xù)子區(qū)域進(jìn)行特征映射,其中,1sw。一般情況下,s=w映射的過程通常為最大值映射或者是平均值映射,即在w×w的子區(qū)域中,選取最大值或者計(jì)算子區(qū)域中的平均值作為映射值。一個(gè)大小為m×n的輸入特征圖,經(jīng)過w×h的尺度進(jìn)行釆樣之后,得到大小為(m/w)×(n/h)的輸出特征圖。通過子采樣,減少了神經(jīng)元的數(shù)目,簡化了后續(xù)網(wǎng)絡(luò)的復(fù)雜度,并且使得神經(jīng)網(wǎng)絡(luò)對輸入的局部變化有一定的不變性,有效地模擬了靈長類動(dòng)物視皮層復(fù)雜細(xì)胞[14]。本文采用最大池化(Max Pooling)方法進(jìn)行下采樣操作,操作簡單、易于實(shí)現(xiàn)。
最大池化的表達(dá)式如下[15]:
(2)
式(2)中,sj表示第j塊池化區(qū)域Rj的池化值,池化區(qū)元素值ai就是特征值經(jīng)過激活函數(shù)送入池化區(qū)域的激活值,i是池化區(qū)每個(gè)激活值的編號。
分類規(guī)則利用貝葉斯后驗(yàn)概率最大化。經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)逐層提取得到的特征可以輸入任何對于權(quán)值可微的分類器。這樣使得整個(gè)卷積神經(jīng)網(wǎng)絡(luò)可以采用梯度下降法等基于梯度的算法進(jìn)行全局訓(xùn)練。本文采用softmax分類器。因其可以直接對多類目標(biāo)進(jìn)行分類,且分類效果較好[16]。
softmax輸出分類結(jié)果同時(shí)可以根據(jù)輸出結(jié)果轉(zhuǎn)換為分類概率值,非常適合處理多分類問題。softmax對于 k 類分類問題的系統(tǒng)方程為:
(3)
softmax代價(jià)函數(shù)數(shù)學(xué)表達(dá)式為:
(4)
式(4)中,1{.}表示指示性函數(shù),當(dāng)括號里的值為真時(shí),函數(shù)的結(jié)果為 1,當(dāng)括號里的只為假時(shí),函數(shù)的結(jié)果為 0。
訓(xùn)練結(jié)束之后形成訓(xùn)練模板,對測試集進(jìn)行分類識別,識別率η表示為:
(5)
式(5)中,y表示測試集總數(shù),x表示算法正確識別的數(shù)據(jù)個(gè)數(shù)。
(6)
實(shí)驗(yàn)采用美國國防部預(yù)研計(jì)劃署和空軍研究實(shí)驗(yàn)室聯(lián)合資助的運(yùn)動(dòng)和靜止目標(biāo)獲取與識別(MSTAR)計(jì)劃錄取的實(shí)測SAR地面靜止目標(biāo)數(shù)據(jù)。MSTAR數(shù)據(jù)由 X 波段、HH 極化方式、0.3 m×0.3 m 高分辨率聚束式 SAR 對地面目標(biāo)采集而得。目標(biāo)方位角覆蓋 1°~360°,間隔 1°,該數(shù)據(jù)庫通用是 SAR ATR 研究領(lǐng)域的一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)庫。本實(shí)驗(yàn)選取其中的BMP2(步兵戰(zhàn)車)(SN_9563)、BTR70(裝甲運(yùn)輸車)、T72(主戰(zhàn)坦克)(SN_132)、ZSU23/4(自行高炮)、ZIL131(貨運(yùn)卡車)五類目標(biāo)數(shù)據(jù)做實(shí)驗(yàn),目標(biāo)示例如圖4示。
實(shí)驗(yàn)仿真采用Matlab 2017b平臺里的Neural Network Toolbox工具箱,CPU主頻2.6 GHz,內(nèi)存8 GB。本文方法預(yù)處理要求將輸入圖像統(tǒng)一中心裁剪為128×128像素,具體型號與樣本個(gè)數(shù)如表1所示,可直接實(shí)現(xiàn)從輸入像素和輸出類別的端到端處理。
本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的 SAR目標(biāo)識別方法,采用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,但在除最后一次卷積外,每一次卷積層后都有一個(gè)歸一化層。數(shù)據(jù)流程圖如圖5所示。該分類模型是一個(gè)結(jié)構(gòu)化的卷積層( convolution) 、局部響應(yīng)歸一化層( normaliztion) 、池化層( pooling) 等的多層單元,這些層可視為一系列線性和非線性操作的特征提取過程,而全連接層、softmax層和分類層可視為一個(gè)基于回歸的多類分類器。
針對五類目標(biāo)識別問題,借鑒了文獻(xiàn)[17]的數(shù)據(jù)設(shè)置,具體網(wǎng)絡(luò)結(jié)構(gòu)圖如圖6所示。第1個(gè)卷積層采用28個(gè)尺寸為 29×29卷積核,第2個(gè)卷積層采用32個(gè)7×7 的卷積核,第3個(gè)卷積層采用56個(gè)5×5的卷積核。ReLU函數(shù)被應(yīng)用于每一個(gè)卷積層作為神經(jīng)元的激活函數(shù)。且每兩層卷積層之間用尺寸為2×2,步長為2最大池化層連接。
表1 實(shí)驗(yàn)所用數(shù)據(jù)型號和數(shù)量
Tab.1 The data model and quantity of the experiment
數(shù)據(jù)個(gè)數(shù)BMP2BRT70T72ZIL131ZSU23/4總數(shù)訓(xùn)練數(shù)據(jù)個(gè)數(shù)(俯仰角17°)2322322322322321 160測試數(shù)據(jù)個(gè)數(shù)(俯仰角15°)195196196195195977
在進(jìn)行訓(xùn)練時(shí)設(shè)置學(xué)習(xí)率為0.001,局部響應(yīng)歸一化層的窗口通道尺寸為4。
圖6是經(jīng)二層卷積層后獲得的BMP2的特征圖。
圖7是圖6特征圖經(jīng)過局部歸一化后的特征圖。從圖6到圖7可以看出特征圖里的特征片減少,達(dá)到降維的作用。
圖8為圖7經(jīng)過最大池化后的特征圖。圖9為分別訓(xùn)練每一類目標(biāo)所獲得的訓(xùn)練模板。圖中(a),(b),(c),(d),(e)分別是經(jīng)過第三個(gè)卷積層提取的BMP2、BTR70、T72、ZIL131、ZSU_23_4的特征模板。
經(jīng)過十六次仿真訓(xùn)練所得到的迭代次數(shù)與平均正確率之間的關(guān)系如圖10示,迭代次數(shù)為256次。圖11為十六次試驗(yàn)求均方誤差所得關(guān)系圖,從圖中可以看出隨著迭代過程均方誤差逐漸減少,最后穩(wěn)定在一個(gè)很小值范圍內(nèi)。
圖12為采用CNN 對五類目標(biāo)的分類混淆矩陣,其中對角元素為正確分類的目標(biāo)個(gè)數(shù),非對角元素為錯(cuò)分的目標(biāo)個(gè)數(shù)。由圖12可知: 1) 該方法達(dá)到 98.26%精度,且在T72上每次測試都取得了100% 的分類精度; 2)該方法對 BMP2錯(cuò)分為T72、ZIL131錯(cuò)分為ZSU_23_4的個(gè)數(shù)最多。從外形上來說,坦克和步戰(zhàn)車都有炮口,以至于出現(xiàn)錯(cuò)分多,但坦克有大口徑炮,步戰(zhàn)車只有小口徑炮,所以出現(xiàn)錯(cuò)分目標(biāo)可能由這幾類目標(biāo)的幾何外形差異引起的。
實(shí)驗(yàn)如上步驟進(jìn)行訓(xùn)練測試操作十六次,所得的分類正確率在區(qū)間[97.34%,98.26% ]范圍內(nèi)。表2為進(jìn)行訓(xùn)練測試操作十六次求平均所得,由表2可知: 該方法平均正確率達(dá)到 97.77%精度,同時(shí)求得95%的置信區(qū)間為[97.60%, 97.93%]。
表2 五類目標(biāo)測試十六次平均分類混淆矩陣
Tab.2 The five kinds of targets test the 16-time average classification confusion matrix
目標(biāo)類型BMP2BRT70T72ZIL131ZSU23/4平均正確率/(%)BMP2182.6250.12512.250093.65BRT700.937 5194.8130.250099.39T720019600100ZIL131000189.255.7596.57ZSU23/4001.937 50.562 5192.598.72總計(jì)-----97.77
本文提出了基于多層卷積神經(jīng)網(wǎng)絡(luò)的SAR圖像分類方法。該方法采用多層卷積運(yùn)算和下采樣技術(shù)以及神經(jīng)元的非線性功能,逐層萃取分類特征,同時(shí)利用局部響應(yīng)歸一化進(jìn)行特征的降維,以softmax作為分類器。實(shí)現(xiàn)了基于多層卷積濾波的目標(biāo)特征自主選擇,并最終實(shí)現(xiàn)了 SAR目標(biāo)的自動(dòng)分類識別。實(shí)驗(yàn)方法用MSTAR數(shù)據(jù)庫的五類目標(biāo)數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn),經(jīng)過仿真實(shí)驗(yàn)表明,本文的方法是有效的通過,統(tǒng)計(jì)平均識別率達(dá)到了97.77%。有關(guān)與其他方法的比較將另文討論。
參考文獻(xiàn):
[1]Krizhevsky A, Sutskever I, Hinton G. ImageNet classification with deep convolutional neural networks[J].
International Conference on Neural Information Processing,2012,60(2):1097-1105.
[2]Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[J]. IEEE Transactions on Information Theory, 2006, 52(4):1289-1306.
[3]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014.
[4]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchiesfor accurate object detection and semantic segmentation[J]. IEEE Computer Society, 2014:580-587.
[5]Chen X Y, Xiang S M, Liu C L,et al. Vehicle detection in satellite images by hybrid deep convolutional neural networks[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(10): 1797-1801.
[6]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[7]Lund J, Koivunen V.Deep learning for HRRP based target recognition in multistatic radar systems[C]// IEEE Radar Conference ,2016: 1-6.
[8]尹寶才, 王文通, 王立春. 深度學(xué)習(xí)研究綜述[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2015, 41(1): 48-59.
[9]Morgan D A E. Deep convolutional neural networks for ATR from SAR imagery[J]. Algorithms for Synthetic Aperture Radar Imagery XXII, 2015.
[10]Profeta A, Rodriguez A, Clouse H S. Convolutional neural networks for synthetic aperture radarclassification[J]. Spie Defense Security, 2016.
[11]Chen S Z , Wang H P , Xu F ,et al. Target classification using the deep convolutional networks for SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(8):4806-4817 .
[12]LeCun Y , Kavukcuoglu K, Farabet C. Convolutional networks and applications in vision[J]. IEEE International Symposium on Circuits & Systems, 2010,14(5):253-256.
[13]Nair V. Hinton G E. Rectified linear units improve restricted boltzmann machines[J]. International Conference on International Conference Machine Learning, 2010:807-814.
[14]Hubel D H,Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex[J]. The Journal of Physiology,1962,160(1):106-154.
[15]Goodfellow I, Bengio Y, Courville A. Deep Learning[M]. USA: The MIT Press, 2016.
[16]何鵬程. 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型及其應(yīng)用研究[D]. 大連:大連理工大學(xué), 2015.
[17]張慧,肖蒙,崔宗勇. 基于卷積神經(jīng)網(wǎng)絡(luò)的SAR目標(biāo)多維度特征提取[J]. 機(jī)械制造與自動(dòng)化,2017,46(1):111-115.