王 鑫
(廣西農業(yè)職業(yè)技術大學,廣西 南寧 530000)
高光譜圖像(Hyperspectral Image, HSI) 可以提供豐富的光譜特征,通過高光譜圖像能夠觀察到普通圖像難以觀測到的植被特征和土壤屬性。高光譜圖像的出現(xiàn)豐富了遙感領域,同時也推動了航天探測技術的發(fā)展[1]。高光譜圖像的應用場景在作物識別、城市及城市周邊地區(qū)特點、河流水質考核、礦產(chǎn)勘探等不同領域得到普及,高光譜遙感圖像處理已經(jīng)成為重要研究方向。
影響高光譜圖像分類準確度的因素主要有兩個。首先,高光譜遙感圖像往往包含數(shù)百種光譜,高維度光譜顯著降低了分類的準確性。其次,高光譜遙感圖像空間分辨率較高,其提供的豐富信息使得類內差異增多,從而導致較低的分類精度。傳統(tǒng)的機器學習技術如K-近鄰(K-NN) 、支持向量機(SVM) 、決策樹等,通常與降維技術結合用于高光譜圖像分類。這些方法都沒有充分利用高光頻譜圖像的光譜信息,所以很難提高它們的分類精度。
為了提高高光譜圖像的分類效果,深度學習技術成為首選。卷積神經(jīng)網(wǎng)絡(CNN) 等深度學習方法在高光譜圖像分類中取得了良好的分類效果。We Hu 等人[2]將1D-CNN 用于高光譜圖像分類中,實現(xiàn)了比傳統(tǒng)SVM 分類更好的分類效果,但1-D CNN 只利用了光譜特征,難以充分利用空間特性。Li 等人[3]在2DCNN 的基礎上提出了并行提取高光譜信息和頻譜空間特征的高光譜分類模型。Ying Li等人[4]對高光頻譜圖像分類采用3D-CNN 同步提取高光頻譜圖像空間和頻譜特征,取得了較為理想的效果。然而高光譜圖像包含的光譜和空間特征豐富,隨著深度卷積網(wǎng)絡復雜度的增加,使得深度卷積網(wǎng)絡的訓練計算量非常大,進而導致網(wǎng)絡退化。
為了充分利用高光譜圖像的空譜聯(lián)合特征,并且避免由網(wǎng)絡深度增加產(chǎn)生的網(wǎng)絡退化和梯度消失問題,結合3D-CNN 和 ResNet 提出了一種高光譜圖像分類模型(3D-CNN-RES)。實驗結果表明,該模型在Indian Pines數(shù)據(jù)集上的分類效果較為理想。
3D-CNN-RES 網(wǎng)絡結構如圖1 所示,主要由4 部分組成,分別為PCA 降維、3D-CNN 圖像特征提取、ResNet網(wǎng)絡特征提取和Softmax分類。
主成分分析方法(PCA,Principal Component Analysis),作為一種數(shù)據(jù)降維算法在各領域都有應用。高光譜圖像的波段范圍廣,其波段通常高達數(shù)百個,這使得高光譜圖像容易產(chǎn)生“同物異譜”及“同譜異物”的現(xiàn)象。使用PCA降維高頻譜圖像,在保留最大特征量的同時,將原有的數(shù)百個頻譜降為較低維度的數(shù)據(jù),然后再進行3D-CNN特征提取。給定高光譜圖像I∈?W×H×L,降維后的高光譜圖像為X∈?W×H×D,其中W、H為高光譜圖像的寬和高;L、D為經(jīng)過PCA處理前后的波段數(shù)。得到降維后的高光譜圖像X后對其進行邊緣填充,以像素pi,j為中心提取尺寸為S×S×D的數(shù)據(jù)立方體Bij,1 ≤i≤W,1 ≤j≤H。
目前在圖像領域,大多數(shù)使用的是2D-CNN,直接對二維圖像進行卷積提取特征,然后由激活函數(shù)生成輸出數(shù)據(jù),對于光學圖像而言,包含3維RGB數(shù)據(jù),而高光譜圖像通常由數(shù)百個波段組成。如果直接將二維卷積核用于高光譜圖像,卷積核依次在各個通道上進行卷積,這可能導致大量的計算成本,進而產(chǎn)生過擬合。
在計算機視覺中,3D-CNN 常用于時空特征的學習,如基于視頻分析的應用,3D卷積能夠充分提取三維特征,且參數(shù)維數(shù)較小。本文提出的方法將3D 卷積應用于高光譜圖像的立方體數(shù)據(jù)進行卷積,同時提取空間和光譜特征。計算3D 卷積的計算公式(1)如下:
式中:為第i個卷積層第j個特征圖在點(x,y,z)處的值;Pi與Qi為卷積核在空間上的尺寸,即長度和寬度;Ti為高光譜圖像的光譜波段數(shù);為與第i-1 個卷積層第m個特征立方體在(x+p,y+q,z+t)位置的值,f(·)為激活函數(shù),bi,j為偏置項。
空譜特征提取網(wǎng)絡由3個3D-CNN特征提取單元構成,每個3D-CNN特征提取單元結構由Conv3D層、歸一化層、激活層和池化層組成,其網(wǎng)絡結構如圖2所示。
圖2 3D-CNN特征提取單元
以輸入第一層數(shù)據(jù)立方體Bij的尺寸S×S×D=11 × 11 × 30為例,第1個3D-CNN特征提取單元的輸入數(shù)據(jù)尺寸為11 × 11 × 30;第2個3D-CNN特征提取單元后數(shù)據(jù)尺寸為5 × 5 × 15;經(jīng)過第3 個特征提取單元后數(shù)據(jù)為2 × 2 × 7。其網(wǎng)絡參數(shù)如表1所示。
表1 3D-CNN特征提取網(wǎng)絡參數(shù)
深度學習網(wǎng)絡深度的增加會導致網(wǎng)絡訓練復雜,產(chǎn)生訓練誤差,He等人[5]提出了殘差網(wǎng)絡(ResNet) ,其主要特點是使用了“殘差塊”(residual block) ,其結構如圖3所示。
圖3 殘差塊
殘差塊結構一般包含兩層卷積網(wǎng)絡和一個跳躍連接(shortcut connection) ,對于任意一個殘差塊,通過找到映射H(x)所對應的殘差單元,從網(wǎng)絡的輸入到輸出中,添加一個跳躍連接,此時目標變成尋找映射F(x),當F(x) = 0 時,則H(x) =x,此時網(wǎng)絡為恒等映射,故ResNet改變了訓練方向,轉變?yōu)閷W習殘差映射:F(x) =H(x) -x。這種結構可以顯著地解決深度學習網(wǎng)絡中存在的梯度消失和梯度爆炸問題,從而可以構建更加深層的網(wǎng)絡,獲得更好的性能,同時采用殘差塊結構可以減少網(wǎng)絡參數(shù)的數(shù)量,降低了網(wǎng)絡的復雜度。ResNet 在圖像分類、圖像識別等任務中都取得了很好的性能,成了深度學習領域中的重要技術之一。
近年來,許多學者已經(jīng)將ResNet用于高光譜圖像的分類,Dang 等人[6]通過將殘差連接與深度可分卷積相結合,構建了一個訓練參數(shù)較少的殘差單元,并將該模型用于Pines 等數(shù)據(jù)集分類,該模型保證了更高的分類精度,同時在訓練和測試樣本點上花費的時間更少;Li等人[7]提出了一種雙分支ResNet網(wǎng)絡,這兩個分支被用于分別提取光譜特征和塊特征,取得了較好的分類效果。
3D-CNN-RES 采用的殘差網(wǎng)絡構造如圖4 所示,殘差單元包括兩個3D-CNN卷積層,兩個歸一化層和一個激活層。其中3D-CNN 層中卷積核尺寸為3 ×3 × 3,核數(shù)量為64,步長為1,激活函數(shù)為ReLU。
圖4 殘差網(wǎng)絡結構
高光譜數(shù)據(jù)經(jīng)過殘差單元處理后,經(jīng)輸出網(wǎng)絡處理完成高光譜圖像的分類。輸出網(wǎng)絡層由三層構成,分別為池化層、全連接層和Softmax 層。3D-CNNRES 使用Softmax 損失函數(shù)對最后高光譜特征進行分類。在訓練中,為了避免模型過擬合,采用隨機梯度下降(SGD) 優(yōu)化器優(yōu)化目標函數(shù),對參數(shù)進行學習,得到預測模型的最優(yōu)參數(shù)。
為了驗證提出的方法,實驗驗證選用Indian Pines數(shù)據(jù)集進行分類精度測試。Indian Pines 數(shù)據(jù)集通過AVIRIS 傳感器在美國印第安納州進行拍攝和采集,圖像在400 至2500 納米波長范圍內,實際有200 個波段用于訓練。拍攝區(qū)域包含了16種地物類型,包括玉米、燕麥、小麥、樹木等。選擇高光譜圖像中的3個波段生成的彩色圖像和Ground Truth圖像如圖5所示。
圖5 Indian Pines圖像
將本文提出的3D-CNN-RES 方法與SVM、2DCNN、3D-CNN 進行對比,對比實驗將以每類樣本的10%作為訓練數(shù)據(jù)訓練模型。
Indian Pines 數(shù)據(jù)經(jīng)過PCA降維,將數(shù)據(jù)從200個波段降維30 個波段,數(shù)據(jù)立方體的大小為11 × 11 ×30,訓練epoch為300,學習率為0.1。
不同模型在Indian Pines 數(shù)據(jù)集的分類精度如表2所示。
表2 分類精度
從表2中可以看出,本文提出的3D-CNN-RES算法的OA 優(yōu)于其他算法,表現(xiàn)出了較高的分類優(yōu)勢。與3D-CNN 相比,3D-CNN-RES 算法精度提高了2.41%。結果表明,3D-CNN-RES 模型通過引入ResNet進一步提高了分類效果。
3D-CNN-RES 算法在Indian Pines 數(shù)據(jù)集上的分類效果,如圖6所示。
圖6 各算法分類效果
從圖6 中觀察可知,3D-CNN-RES 模型獲得分類結果噪聲更少,更加接近真值圖像。
針對高光譜圖像光譜維度高、空間信息利用不足和深度卷積網(wǎng)絡難以訓練等問題,結合3D-CNN 和ResNet 提出了一種新的高光譜圖像分類模型3DCNN-RES。首先,使用主成分分析方法實現(xiàn)在對高光譜圖像降維的同時保留圖像特征,然后,利用3DCNN 結合ResNet 完成對圖像特征進行提?。蛔詈?,用Softmax 損失函數(shù)完成對高光譜圖像的分類。通過對Indian Pines數(shù)據(jù)集實驗驗證表明,3D-CNN-RES模型表現(xiàn)出了較好的分類效果。