宋海峰 ,楊巍巍,2
(1.臺州學院 電子與信息工程學院(大數(shù)據(jù)學院) ,浙江 臺州 318000;2.哈爾濱工程大學 計算機科學與技術(shù)學院, 黑龍江 哈爾濱 150000)
近幾年,卷積神經(jīng)網(wǎng)絡在計算機視覺領(lǐng)域得到廣泛應用。例如:運動目標檢測、圖像特征提取和圖像分類等,多層次結(jié)構(gòu)特征使得卷積神經(jīng)網(wǎng)絡可以提取圖像或視頻的非線性特征[1]。在遙感影像處理領(lǐng)域,對高光譜遙感影像(Hyper-Spectral Sensing Image,HSI)處理的需求日益增長。然而,由于對卷積神經(jīng)網(wǎng)絡進行訓練需要大量的標記樣本,在實際應用中很難獲取到大量帶有標記的HSI,嚴重制約卷積神經(jīng)網(wǎng)絡在遙感影像領(lǐng)域中的應用。常見解決方法是對數(shù)據(jù)進行降維,同時降維還可以解決休斯效應對分類精確度的影響[2]。降維是將高維數(shù)據(jù)投影到低維空間,常見的投影降維算法有:主成分分析法[3-4]、獨立成分分析法[5]、流行學習法[6]等。另外一類降維的方法是從HSI數(shù)據(jù)中直接提取出最具代表性的波段圖像,比如排序算法[7]、聚類算法[8]等。一方面降維會丟失一些重要的信息,另一方面通過在譜域上提取到的降維后的數(shù)據(jù)特征往往不足以用來表示某一類實際地物。因此,需要尋找更具區(qū)分能力的數(shù)據(jù)特征。
HSI的空間信息確定空間上相鄰像素間的空域特征,空域特征彌補譜域特征的不足,應用空域特征提升HSI的分類精確度。幾何形態(tài)法是一種典型的空域特征提取算法,該算法對開放或者閉合區(qū)域進行變換,從而提取空間結(jié)構(gòu)特征[9]。除幾何形態(tài)法外還有許多其他的空域濾波器用來提取HSI的空間特征。算法大多需要大量的標記數(shù)據(jù)集,實際應用中很難滿足這一需求。為了進一步提取譜域—空域特征,一些學者提出應用Gabor濾波器來同時提取譜域—空域特征的方法,該方法在小規(guī)模HSI分類中取得良好的效果[10]。最近的研究表明,定義不同方向和尺度的Gabor濾波器實際是一種卷積濾波器,卷積神經(jīng)網(wǎng)絡可以自動的學習卷積濾波器的參數(shù)[11],這一結(jié)論進一步說明本文應用卷積神經(jīng)網(wǎng)絡提取空域特征的可行性。
卷積神經(jīng)網(wǎng)絡由若干卷積層和池化層構(gòu)成。卷積層用線性激活函數(shù)來提取特征圖,卷積層之后一般連接一個非線性激活函數(shù),比如recfier,sigmod和tanh函數(shù)等。池化層是將相鄰的像素點進行組合,從而提取出本地特征,池化層的作用是增強對圖像輕微形變的魯棒性。卷積神經(jīng)網(wǎng)絡已經(jīng)在計算機領(lǐng)域廣泛應用,LeCun采用反向傳播和梯度下降算法來訓練卷積神經(jīng)網(wǎng)絡,并將訓練好的網(wǎng)絡模型應用到手寫數(shù)字識別中[12]。Krizhevsk在包含1 000個不同類別圖像的ILRSRC2012數(shù)據(jù)集上應用卷積神經(jīng)網(wǎng)絡進行分類的正確率成功超越以往的手工設計特征分類法[13]。自2012年以來,卷積神經(jīng)網(wǎng)絡在圖像分類、語義分割、目標識別、視頻分析等領(lǐng)域廣泛的應用。在應用卷積神經(jīng)網(wǎng)絡對HSI進行分類方面,文獻[14]提出一種卷積神經(jīng)網(wǎng)絡,將原始的HSI數(shù)據(jù)作為輸入,對應像素點的類別作為輸出,每個類別有200個訓練數(shù)據(jù)。
本文首先分析卷積神經(jīng)網(wǎng)絡的構(gòu)成、基本原理和訓練方法,在此基礎上提出一種基于多尺度卷積神經(jīng)網(wǎng)絡(Multi-CNN)的HSI分類模型,最后通過實驗驗證該模型在HSI分類正確率上優(yōu)于其他算法。證明本文所提出的基于Multi-CNN的高光譜遙感影像分類模型可廣泛用于HSI分類。
如圖1所示,典型的卷積神經(jīng)網(wǎng)絡主要由輸入層、卷積層、下采樣層(池化層)、全連接層和輸出層組成。
圖1 卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)圖
卷積神經(jīng)網(wǎng)絡的輸入通常為原始圖像X。本文用Hi表示卷積神經(jīng)網(wǎng)絡第i層的特征圖(H0=X)。Hi的計算過程可以描述為:
Hi=f(Hi-1?Wi+bi) .
(1)
其中:Wi表示第i層卷積核的權(quán)值向量;運算符號?代表卷積核,表示第i層與第i-1層圖像或者特征圖進行卷積操作,卷積的輸出與第i層的偏移向量bi相加,最終通過非線性的激勵函數(shù)f(x)得到第i層的特征圖Hi。
下采樣層跟隨在卷積層之后,依據(jù)一定的下采樣規(guī)則對特征圖進行下采樣。下采樣層的功能主要有兩點:①對特征圖進行降維;②在一定程度上保持特征的尺度不變特性。假設Hi是下采樣層,則有:
Hi=subsampling(Hi-1) .
(2)
經(jīng)過多個卷積層和下采樣層的交替?zhèn)鬟f,卷積神經(jīng)網(wǎng)絡依靠全連接網(wǎng)絡對提取的特征進行分類,得到基于輸入的概率分布Y(li表示第i個標簽類別)。卷積神經(jīng)網(wǎng)絡本質(zhì)上是使原始矩陣(H0)經(jīng)過多個層次的數(shù)據(jù)變換或降維,映射到一個新的特征表達(Y)的數(shù)學模型。
Yi=P(L=li|H0:(W,b)) .
(3)
卷積神經(jīng)網(wǎng)絡的訓練目標是最小化網(wǎng)絡的損失函數(shù)L(W,b)。輸入H0經(jīng)過前向傳導后,通過損失函數(shù)計算出與期望值之間的差異,稱為“殘差”。常見損失函數(shù)有均方誤差(Mean Squared Error,MSE)函數(shù),負對數(shù)似然(Negative Log Likelihood,NLL)函數(shù)等:
(4)
(5)
為了減輕過擬合的問題,最終的損失函數(shù)通常會通過增加L2范數(shù)以控制權(quán)值的過擬合,并且通過參數(shù)λ(weight decay)控制過擬合作用的強度:
(6)
訓練過程中,卷積神經(jīng)網(wǎng)絡常用的優(yōu)化方法是梯度下降方法。殘差通過梯度下降進行反向傳播,逐層更新卷積神經(jīng)網(wǎng)絡的各個層的可訓練參數(shù)(W和b)。學習速率參數(shù)η用于控制殘差反向傳播的強度:
每個病理學知識點的發(fā)現(xiàn)到證實躍為理論,都伴隨著曲折有趣的科研歷程,折射出醫(yī)學前輩的科學智慧,融合教學法在病理實習課中,大膽實施以問題為中心,以學生為主人的教學方式,注重培養(yǎng)學生主支、獨立、探索、多渠道的獲取知識,這本身就激發(fā)學生對醫(yī)學知識無限的探索欲望,使學生科研增加,而融合教學法,培養(yǎng)學生創(chuàng)新的思維模式有肋于挑戰(zhàn)舊觀念,提出新問題,從而激發(fā)學生們的科研興趣[10]。
(7)
(8)
根據(jù)卷積神經(jīng)網(wǎng)絡的基本原理,本文提出了一種基于多尺度特征融合的卷積神經(jīng)網(wǎng)絡模型,該模型分為多尺度特征提取與融合和HSI分類兩部分,如圖2所示。
(a)多尺度特征提取與融合模型
本文所提出的多尺度特征提取與融合模型,如圖2(a)所示,該模型以原始的HSI作為輸入,然后分別用1×1×B, 3×3×B, 5×5×B的卷積核對原始圖像做卷積運算(B為HSI的波段數(shù)),經(jīng)過卷積的圖像可用來提取HSI的空間特征,卷積運算后的輸出為三組卷積特征圖。隨后3組特征圖進行特征融合,形成W×H×3B的特征圖。
從圖2(a)可以看出,3個不同大小的卷積核計算卷積圖的大小也各不相同。將3種不同尺寸的卷積核調(diào)整為大小一致的卷積核。首先,將原始圖像的四周擴大兩像素,并將像素值置為0,這樣擴大后的原始圖像經(jīng)過1×1,3×3,5×5的卷積核,步長為1的卷積運算后,輸出的特征圖大小分別為(H+4,W+4),(H+2,W+2),(H,W),H和W分別為原始圖像的高度和寬度。然后對卷積圖用(5×5),(3×3)的Max Pooling計算,這樣三個卷積圖的大小最終都調(diào)整為H×W。
本文所提出的HSI分類模型如圖2(b)所示。該模型由3個卷積層、2個Normalization層、2個Dropout層和1個全連接層構(gòu)成。輸入數(shù)據(jù)是以HSI待分類像素點為中心的5×5×N圖像(N為HSI波段數(shù))。在第一個卷積層中,本文采用1×1的卷積核,共有128個這樣的卷積核,所以第一個卷積層輸出的特征圖大小為5×5×128。第一個卷積層之后是Normalization層和Dropout層。在第二個卷積層中,本文采用1×1×64的卷積核,所以第二個卷積層輸出的特征圖大小為5×5×64,第二個卷積層之后仍然為2×2大小的Normalization層和Dropout層。在第三個卷積層中采用1×1×C的卷積核(C為待分類的類別數(shù)),所以第三個卷積層的輸出特征圖的大小為5×5×C。最后一個為全局評價池化層,該層的輸入為5×5×C的特征圖,輸出為1×1×C的特征向量,輸出特征向量的第i個最大值,表示該像素所屬的類別。
基于Multi-CNN的HSI模型的訓練過程示意圖,如圖3所示,詳細訓練步驟如下。
圖3 基于Multi-CNN的HSI模型的訓練過程示意圖
Step1:對原始訓練數(shù)據(jù)集進行隨機抽樣,生成M個含有相同數(shù)據(jù)量的子集,本文中M=16。
Setp2:應用隨機梯度下降算法,分別對16個子數(shù)據(jù)集進行訓練,每次只針對一個子數(shù)據(jù)集進行迭代,直至達到最大迭代次數(shù)后停止迭代。
本節(jié)實驗所用數(shù)據(jù)集為伊春涼水林場數(shù)據(jù)集,首先,測試了基于Multi-CNN的HSI模型的各主要組成部分,包括多尺度卷積核、卷積核大小和Dropout對分類精確度的影響;然后,通過實驗對本文所提出的分類模型和目前主流的HSI分類模型在總體分類精確度方面進行了對比分析。實驗所用軟硬件環(huán)境如表1所示。
實驗所用數(shù)據(jù)為黑龍江省伊春市涼水林場數(shù)據(jù)集,該數(shù)據(jù)集是2012年7—8月間由B5飛機拍攝于黑龍江省伊春市帶嶺區(qū)涼水林場地區(qū),該數(shù)據(jù)集一共有144個波段,空間分辨率為1.5 m,光譜覆蓋范圍為371~1 051 nm,圖像大小為1025像素×767像素,該數(shù)據(jù)集的地面實況標記了5類地物(針葉林、闊葉林、草地,水域,房屋)。
本實驗驗證基于空間特征提取的多尺度卷積核對分類結(jié)果的影響。首先,本實驗分析多尺度卷積核的基本結(jié)構(gòu),如圖4所示。其次,本實驗分別對比了大小為1×1,3×3,5×5,7×7的卷積核對分類結(jié)果的影響。如表2所示,綜合應用多尺度卷積核的分類精度明顯好于單獨使用1×1卷積核的分類精度。在對伊春涼水林場數(shù)據(jù)集的實驗中,綜合應用多尺度卷積核的分類正確率高出單獨使用1×1卷積核的分類正確率7.84%。
分類正確率提高的原因主要有兩點:①多尺度卷積核能夠以不同尺度提取原始HSI的特征,生成多種不同的特征,多種不同的特征有利于分類正確率的提高。②多尺度卷積核運算相當于增加了原始數(shù)據(jù)集的樣本數(shù),這使得訓練過程更加充分。同時,在實驗中發(fā)現(xiàn)分類正確率并不是隨多尺度卷積核的增加而提升,當應用1×1-7×7的多尺度卷積核時,由于出現(xiàn)過擬合現(xiàn)象,導致分類的正確率開始下降。因此本文選用1×1,3×3,5×5三個卷積核。
圖4 多尺度卷積核的基本結(jié)構(gòu)
表2 不同卷積核對分類結(jié)果的影響 %
本實驗測試不同大小的卷積核對訓練和測試過程的影響,一個訓練好的卷積神經(jīng)網(wǎng)絡模型不僅應該在訓練數(shù)據(jù)集上的損失值趨近于零,而且在測試數(shù)據(jù)集上的損失值也應該趨近于零。如果該模型僅在訓練數(shù)據(jù)集上的損失值趨近于零,而在測試數(shù)據(jù)集上的損失值很大,則說明該卷積神經(jīng)網(wǎng)絡出現(xiàn)了過擬合現(xiàn)象,這樣的卷積神經(jīng)網(wǎng)絡的泛化能力將會很差。
在本實驗中,本文分別使用1×1和3×3大小的卷積核對所提出的基于Multi-CNN的HSI模型(如圖2(b))進行訓練和測試。訓練和測試過程中損失函數(shù)值的變化如圖5所示。由圖5可以看出,當使用1×1的卷積核時,在訓練和測試過程中,隨著迭代次數(shù)的增加,損失函數(shù)的值逐漸收斂于0;當使用3×3的卷積核時,在訓練過程中,隨著迭代次數(shù)的增加,損失函數(shù)值逐漸收斂于0,但在測試過程中,隨著迭代次數(shù)的增加,損失函數(shù)的值并不收斂,這說明使用3×3卷積核時,出現(xiàn)了過擬合現(xiàn)象。所以得出以下結(jié)論:在有限的數(shù)據(jù)集中,使用1×1的卷積核,可以得到具有良好泛化能力的卷積神經(jīng)網(wǎng)絡模型。
圖5 不同卷積核對應訓練和測試過程損失函數(shù)變化情況
本實驗驗證基于Multi-CNN空間特征提取的高光譜遙感影像分類模型中Dropout層對分類結(jié)果的影響。本實驗分別對兩種結(jié)構(gòu)的高光譜遙感影像分類模型進行測試,第一種模型的結(jié)構(gòu)如圖2(b)所示,在第一種模型中去掉Drop層即為第二種模型結(jié)構(gòu)。在第一種模型中Dropout層置零的概率設置為0.6,訓練和測試過程中損失函數(shù)值的變化過程如圖6所示,從圖(2)中可以看出本文所提出的帶有Dropout層的模型,在訓練和測試過程中的損失函數(shù)值均小于沒有Dropout層的模型。這說明Dropout可以提升基于Multi-CNN空間特征提取的高光譜遙感影像分類模型的分類正確率。
圖6 有無Dropout對應訓練和測試過程損失函數(shù)變化情況
本實驗主要對本文所提出的基于Multi-CNN空間特征提取的高光譜遙感影像分類模型和目前主要的分類模型在分類正確率方面進行對比,從而驗證本文所提出的分類模型的分類效果。參與對比的模型有:①兩層全連接神經(jīng)網(wǎng)絡(兩層NN),②包含一個隱含層的全連接神經(jīng)網(wǎng)絡(三層NN),③LeNet-5卷積神經(jīng)網(wǎng)絡模型,④基于RBF核函數(shù)的SVM分類器,⑤多樣化的深度置信網(wǎng)絡(D-DBN),⑥淺層卷積神經(jīng)網(wǎng)絡(Shallower CNN)。分類結(jié)果如表3所示,從表3可以看出,兩層NN、三層NN以及RBF-SVM的分類正確率均在88%以下,這是由于這幾種分類模型的層數(shù)較少,無法提取出高光譜遙感影像的深層次特征所造成的。隨著分類模型層數(shù)的逐漸曾多,LeNet-5、Shallower CNN和D-DBN的分類效果明顯好于淺層神經(jīng)網(wǎng)絡,分類正確率均在90%左右。本文所提出的基于Multi-CNN空間特征提取的高光譜遙感影像分類模型,由于從不同尺度提取了高光譜遙感影像的空間特征,因此分類效果明顯好于其他幾種分類器,分類正確率達到了92.31%。通過該實驗可以看出本文所提出的基于Multi-CNN空間特征提取的高光譜遙感影像分類模型在分類正確率方面優(yōu)于其他常見分類器。
表3 分類正確率對比結(jié)果表
針對難以獲得大量的帶有標記的高光譜遙感影像的問題,本文提出了一種基于Multi-CNN空間特征提取的高光譜遙感影像分類模型。該模型將原始高光譜遙感影像作為輸入,經(jīng)過對尺度空間特征提取、特征融合、卷積運算、Normalization運算、Dropout運算和全連接運算,輸出為最終的分類結(jié)果。該模型具有如下特點:
1)不同于以往的人工設計的圖像特征,該模型可以自動從不同的尺度提取輸入數(shù)據(jù)的空間特征;
2)由于采用了多尺度特征提取,使得更多的樣本點參與到分類中,解決了難以獲得大量有標記高光譜遙感影像樣本的問題;
3)本文所提出的模型由多尺度卷積空間特征提取層、特征融合層、1×1卷積核、全局池化層和Dropout層組成,實驗結(jié)果表明該模型更適合于高光譜遙感影像分類。
在伊春涼水林場數(shù)據(jù)集上的實驗結(jié)果表明,本文所提出的分類模型在分類正確率上優(yōu)于其他分類模型,分類正確率達到了92.31%。