歐陽寧,李祖鋒,林樂平+
(1.桂林電子科技大學 信息與通信學院 認知無線電與信息處理省部共建教育部重點實驗室, 廣西 桂林 541004;2.桂林電子科技大學 信息與通信學院,廣西 桂林 541004)
高光譜圖像是一種三維立方體數(shù)據(jù),具有信息冗余、圖譜合一、高維連續(xù)性波段以及光譜波段高相關性等特點,高光譜圖像為地物的分類與識別提供了豐富的空-譜信息數(shù)據(jù)基礎的同時,也對其像素的分類提出了挑戰(zhàn)[1,2]。此外,深度網(wǎng)絡以其自動提取數(shù)據(jù)由淺至深的特征能力以及端到端的訓練方式,在高光譜圖像分類任務中有著良好的表現(xiàn)。然而,深度網(wǎng)絡中的淺層次的特征與深層次的特征存在著差異,即淺層特征包含有圖像的高分辨率特征信息,深層特征有更為豐富的語義特征。隨著網(wǎng)絡的加深,進行特征提取時,往往容易丟失淺層的高分辨率特征信息,使得網(wǎng)絡的分類性能下降。其次,高光譜數(shù)據(jù)內(nèi)在的信息冗余,也使得訓練獲得的模型容易出現(xiàn)休斯(Hughes)現(xiàn)象。
針對上述問題所導致的網(wǎng)絡模型分類性能下降,本文在密集網(wǎng)絡結構的基礎上,提出一種基于空-譜分組卷積密集網(wǎng)絡的高光譜圖像分類方法(hyperspectral image classification based on spatial-spectral group convolution dense network,GCDN)。該方法根據(jù)高光譜圖像數(shù)據(jù)特點,構建了單通道的空-譜聯(lián)合特征提網(wǎng)絡,設計了光譜-空間三維分組卷積密集模塊(spatial-spectral 3D group convolution densenet module,GCDM),通過對GCDM模塊進行不同的參數(shù)配置構造了光譜三維分組卷積密集模塊GCDM_spe與空間三維分組卷積密集模塊GCDM_spa,用以分步進行對光譜與空間特征的提取。其中,分組卷積起到減少信息數(shù)據(jù)冗余的作用。同時,為了進一步減少光譜特征內(nèi)固有的信息冗余,構建了光譜殘差注意力模塊(spectral residual attention module,SRAM)嵌入GCDM_spe與GCDM_spa之間。SRAM通過結合空間與光譜信息計算空-譜注意力權重,通過注意力權重對空譜信息豐富的區(qū)域重新賦予更多的關注,增強光譜特征的可判別性。實驗結果表明,與若干最新的深度網(wǎng)絡方法相比,本文提出的算法可以有效提升高光譜分類網(wǎng)絡模型的性能,得到較高的分類精度。
目前,基于深度學習神經(jīng)網(wǎng)絡框架的高光譜圖像分類器的設計已成為高光譜圖像分類領域的熱門研究方向之一[3-12]。其中,基于聯(lián)合損失訓練卷積神經(jīng)網(wǎng)絡的高光譜圖像分類方法[6],該方法采用編解碼結構并由重構損失函數(shù)和判別損失函數(shù)對網(wǎng)絡聯(lián)合訓練,獲取到了判別性較好的空譜特征;Zhong等[7]提出了一種三維卷積空-譜殘差網(wǎng)絡,以一體化結構分步提取空間與光譜特征,該方法結合殘差網(wǎng)絡結構優(yōu)點有效提高了模型的分類性能;Roy等[8]結合了二維卷積與三維卷積提出了一種HybridSN混合網(wǎng)絡,進一步改進了3D-CNN網(wǎng)絡結構,有效提高模型的高光譜分類性能;在單通道三維卷積密集網(wǎng)絡[10](3D-Densenet)中,以常規(guī)的三維卷積構建密集網(wǎng)絡。該方法以原始數(shù)據(jù)直接提取的領域塊作為3D-Densenet的輸入直接進行空-譜聯(lián)合特征的提取,該方法能在鄰域塊尺寸較大的情形下有著較快的訓練速度以及較好的分類精度。
盡管當前一些基于卷積神經(jīng)網(wǎng)絡的高光譜圖像分類方法已經(jīng)獲得了一定的效果,但在設計網(wǎng)絡結構時未考慮到對高光譜圖像數(shù)據(jù)的高分辨率特征的充分利用,以及在特征提取過程中,由于使用下采樣或是池化操作致使高分辨的特征信息受到損失。并且由于高光譜圖像數(shù)據(jù)存在著信息冗余,訓練過程容易出現(xiàn)過擬合現(xiàn)象,無法有效獲得準確的分類精度。
為解決上述問題,本文提出的GCDM模塊,以三維分組卷積構建密集網(wǎng)絡模塊,該模塊使具有高分辨信息的特征進行重用的同時,通過三維分組卷積進一步的使網(wǎng)絡中的訓練參數(shù)減少。GCDM可以針對高光譜圖像的特點分別進行不同的參數(shù)配置,對光譜與空間特征進行分步提取,使其更有效地提取光譜與空間特征。因此,所提出的GCDM模塊提取的光譜與空間特征包含有更具判別性的光譜和空間信息。
除此之外,為了對GCDM_spe模塊提取的光譜特征中重要信息進行重點關注并充分學習,使其光譜特征更具可判別性,本文設計了光譜殘差注意力模塊SRAM。SRAM的提出受到殘差注意力機制[13]的啟發(fā)。該機制首次在圖像分類[18]應用中提出,其目的在于通過堆疊殘差注意力模塊構建注意力網(wǎng)絡,使注意力模塊能捕獲不同類型的注意力,可為分類網(wǎng)絡帶來持續(xù)的性能改善,現(xiàn)已經(jīng)成功推廣至超寬帶雷達識別[14]與人群流量預測[15]。SRAM與殘差注意力機制[13]不同的是,SRAM同時利用了空間與光譜信息獲取注意力權重,利用該模塊對從GCDM_spe提取的光譜特征進行光譜權重重分配,使其能夠更有效地減少光譜固有信息的冗余,并且SRAM所獲取的權重內(nèi)含空-譜聯(lián)合信息,使得空-譜信息能夠?qū)庾V特征進行補充,獲得可判別能力更強的光譜特征,并為之后空間特征的提取豐富了數(shù)據(jù)信息。
通過結合GCDM模塊與光譜殘差注意力模塊SRAM,本文所提出的空-譜分組卷積密集網(wǎng)絡GCDN框架如圖1所示。
圖1 空-譜分組卷積密集網(wǎng)絡框架
本文所提出的空-譜分組卷積密集網(wǎng)絡GCDN框架如圖1所示。以原始高光譜圖像數(shù)據(jù)三維鄰域塊Fn∈ω1×ω1×B作為該網(wǎng)絡輸入,首先對Fn在光譜上使用三維卷積,對Fn進行降維以及提取光譜特征ω1×ω1×p×C1, 其后,并將作為GCDM_spe模塊的輸入,并提取光譜特征ω1×ω1×p′×C2; 其次利用SRAM模塊對進行光譜維信息的增強,獲得增強后的特征ω1×ω1×p′×C2, 并將其輸入轉換層轉換為ω2×ω2×1×C3; 將作為GCDM_spe模塊的輸入進行空間特征提取,并獲取空間特征。最后對進行全局平均池化操作,并用線性softmax分類器進行分類,同時本文以交叉熵構建損失函數(shù),來測量預測標簽與真值標簽之間的差異。
密集網(wǎng)絡(dense-net)提出的初衷是為了在網(wǎng)絡參數(shù)和計算資源消耗更少的情形下能夠獲得比ResNet更優(yōu)的網(wǎng)絡性能,該網(wǎng)絡結構有著更緊湊的密集連接結構,并以其能使更多的特征重復利用的能力[16]在諸多領域中有著廣泛的應用[17-20]。DenseNet相當于ResNet的一種變形,該網(wǎng)絡的連接機制是使所有的層都相互連接,每個層都會接受前面所有的層作為輸入,并將每層特征圖都在通道維度上進行連接,即
xl=Hl([x0,x1,…,xl-1]),l=0,1,2,…,n
(1)
其中,xl為第l層輸出特征,表示為 [x0,x1,…,xl-1] 從輸入層的特征x0到l-1層的輸出特征xl-1進行級聯(lián)拼接;Hl(·) 為非線性轉化函數(shù),該函數(shù)是一個包含BN層、ReLU層以及卷積層的組合操作。而在模型網(wǎng)絡構建中,本文使用PReLU層替換ReLU層,其目的在于加速模型訓練的收斂。本文在密集網(wǎng)絡的基礎上利用三維分組卷積構建GCDM模塊。
本文設計的GCDM模塊的結構如圖2所示。該模塊結構在水平維度上由三維分組卷積層進行密集連接構成密集結構,分組卷積示意結構如圖3所示。在GCDN網(wǎng)絡中,針對空間與光譜特征分別對GCDM模塊進行參數(shù)配置,得到光譜分組卷積密集連接模塊GCDM_spe和空間分組卷積密集連接模塊GCDM_spa,參數(shù)配置見表1。表中的GCONV_spe與GCONV_spa表示GCDM_spe與GCDM_spa模塊中的分組卷積中每組的卷積操作的參數(shù)設置,g表示分組數(shù),在實驗中g取3。
圖2 光譜-空間三維分組卷積密集模塊結構
圖3 分組卷積結構
表1 空-譜分組卷積密集網(wǎng)絡參數(shù)設置
本文采用了三維卷積(3D-CNN)構造的分組卷積在未降維的高光譜圖像數(shù)據(jù)上,以待分類像素為中心,提取一定鄰域內(nèi)的所有像素的光譜信息,組成三維數(shù)據(jù)領域塊,利用三維分組卷積對三維數(shù)據(jù)領域塊進行特征提取。相較于二維卷積,三維卷積的卷積核是三維的,而且卷積的方向從空間上的二維擴展到了空間加光譜的三維。三維卷積操作中卷積層的第l層,第j個卷積核 (o,y,z) 處的具體值可以通過如下公式計算
(2)
在常規(guī)三維卷積中,假設特征尺寸為Hin×Win×Min×Cin, 則卷積核尺寸為Hk×Wk×Mk×Cin, 則常規(guī)三維卷積的參數(shù)量表示為
P=Hk×Wk×Mk×Cin×Cout
(3)
其中,Cout表示輸出特征的通道大小。分組卷積將輸入的特征按著通道數(shù)均分成g組,并對每組特征單獨進行卷積,則每組輸入特征尺寸為Hin×Win×Min×Cin/g, 對應的卷積核尺寸為Hk×Wk×Mk×Cin/g, 各組卷積操作完成后,將g組結果進行拼接,得到最終的輸出特征,總輸出特征通道數(shù)為Cout, 則每組卷積獲得的特征通道數(shù)為Cout/g, 分組卷積的參數(shù)量則表示為
(4)
本文使用分組卷積進行密集連接從而構造GCDM模塊,通過對GCDM進行不同的參數(shù)配置,可以有效獲取高光譜圖像的空間與光譜信息。
為了對GCDM_spe模塊提取的光譜特征中豐富信息的重要區(qū)域進行重點關注并進行空-譜信息的補充,本文借鑒了殘差注意力模塊的設計思想,提出了一種光譜殘差注意力模塊,用于結合空間與光譜信息計算注意力權重,從而對光譜特征進行權重的重新分配,增強含有豐富信息區(qū)域的權重,進一步減少光譜特征中存在的信息冗余,獲取更具判別性的光譜特征,為之后空間特征的學習提供豐富數(shù)據(jù)信息。SRAM結構如圖4所示,參數(shù)配置見表1。
圖4 光譜殘差注意力模塊結構
(5)
其中,σ為sigmoid激活函數(shù),e為指數(shù)。最后將注意力系數(shù)α進行Reshape操作,獲得Fα∈R1×1×d×1。
(6)
在SRAM中為了減少該模塊中所需要訓練的參數(shù)量,采用全局平均池化層GAP替換全連接層。
圖5 轉化層結構
(7)
其中,u表示樣本,n表示樣本的總數(shù)。
網(wǎng)絡優(yōu)化過程中,網(wǎng)絡的訓練與驗證同時進行。在每次迭代訓練過程中,訓練集所對應的網(wǎng)絡損失通過反向傳播更新網(wǎng)絡模型參數(shù),同時利用驗證集記錄使得驗證損失最小的網(wǎng)絡模型,并選取最優(yōu)網(wǎng)絡模型。訓練過程中,采用RMSprop優(yōu)化器進行隨機梯度優(yōu)化,以高斯隨機分布初始化[21]作為GCDN中所有卷積層的初始化方法,學習速率設置為0.0003,一共運行120個epochs。
本文的實驗測試結果分兩個部分:①分組數(shù)的確定,在Indian Pines數(shù)據(jù)上進行對分組數(shù)對模型的性能影響的實驗;②與最新的基于深度網(wǎng)絡分類方法進行分類性能與模型訓練測試時間的實驗對比。
實驗使用IP(Indian Pines)和KSC(Kennedy Space Center)兩個高光譜數(shù)據(jù)集[22]來驗證本文所提出的算法的有效性。Indian Pines數(shù)據(jù)集,其包含220個波段(波長范圍為0.4 μm~2.5 μm),有16種主要地物,圖像大小為145×145像素,空間分辨率為20 m,去除其中20個噪聲嚴重的波段,得到包含200個光譜波段的數(shù)據(jù)用于分析。Kennedy Space Center數(shù)據(jù)集,其包含224個10 nm帶寬,含13種主要地物,圖像大小為512×614像素,空間分辨率為18 m,去除吸水率和低SNR光譜波段后,得到包含176個光譜波段的數(shù)據(jù)用于研究分析。
實驗中,從Indian Pines和Kennedy Space Center數(shù)據(jù)集中隨機挑選訓練集、驗證集和測試集分別劃分為20%為訓練集,10%驗證集及70%測試集。使用隨機選擇的訓練數(shù)據(jù)進行10次實驗。采用單類分類精度、總體分類精度(overall accuracy,OA)、平均分類精度(average accuracy,AA)以及Kappa系數(shù)等作為模型性能評估指標,并報告了它們的均值和標準差。實驗平臺的配置為GTX1080Ti顯卡以及Windows操作系統(tǒng),并使用Tensorflow和Keras深度學習框架實現(xiàn)。
相對于常規(guī)的三維卷積,三維分組卷積可以減少網(wǎng)絡中的訓練參數(shù),降低訓練出現(xiàn)過擬合的風險,因此,三維分組卷積的分組數(shù)目會影響GCDN的網(wǎng)絡分類性能。由于分組卷積將特征圖按照通道進行分組,會使每組特征圖經(jīng)過不同的卷積路徑,而所得到的各組特征圖之間的相關性會降低,從而達到減少特征信息冗余的目的。所以,在實驗中,三維分組卷積的分組的數(shù)目需要選擇一個合適的數(shù)目,因為分組數(shù)目過大,分組卷積每個通道完全獨立,這樣會過度減弱每組特征圖之間的相關性;若分組數(shù)目太小,就達不到減少參數(shù)的目的,無法減少信息冗余。
本文使用Indian Pines數(shù)據(jù)集進行分組數(shù)目對GCDN性能影響的實驗。在表2中,給出了不同的分組數(shù)目g=[2,3,4,6] 對模型性能的影響。由于在網(wǎng)絡參數(shù)的設置中,三維分組卷積中的通道數(shù)必須與分組數(shù)目整除,所以實驗中每個分組卷積層通道數(shù)的設置均為2,3,4,6的倍數(shù)。從表2可以看出,在g=3時,所提出的GCDM網(wǎng)絡性能的綜合表現(xiàn)最好,OA、AA以及Kappa的精度達到最高。所以,在之后的Indian Pines與Kennedy Space Center數(shù)據(jù)分類實驗中,網(wǎng)絡中分組卷積層的分組數(shù)均取3。
表2 分組數(shù)目對GCDN性能的影響
為了評價本文所提出方法的分類性能,將所提出的GCDN方法與最新的基于深度網(wǎng)絡的高光譜圖像分類方法進行比較,其中對比算法包括3D-CNN[23]、3D-DenseNet[10]、HybridSN[8]與SRNN[7]。由于基于卷積神經(jīng)網(wǎng)絡的高光譜圖像分類方法分類精度的提升在很大程度上依賴于訓練的數(shù)據(jù)量。因此,對于所有的對比算法均使用相同規(guī)模的訓練數(shù)據(jù),并從原始高光譜圖像數(shù)據(jù)中選取大小為9×9×B的三維領域塊作為輸入,其中B為原高光譜圖像數(shù)據(jù)光譜維數(shù)。
GCDN與對比方法的分類結果見表3、表4。從表中可以看出,GCDN的分類精度對于3D-CNN和3D-DenseNet方法有著明顯的提升,OA、AA以及Kappa分類精度提高了2.88%~5.2%,并且GCDN有著更小的標準差。表明了分步提取光譜與空間特征的結構,比直接從原始高光譜圖像數(shù)據(jù)鄰域塊中同時提取空-譜聯(lián)合特征的網(wǎng)絡結構,能夠更有效地獲取高光譜圖像數(shù)據(jù)的空間與光譜信息,并且所提取到的特征中的光譜與空間信息更為明確;相較于HybridSN和SSRN方法,GCDN的OA、AA以及Kappa分類精度也均有所提升(提高了0.08%~0.59%),GCDN有著更小的標準差。表明本文GCDN能更好地捕獲光譜與空間特征信息,通過密集連接結構使得高分辨率的特征能夠進行重用,有效避免了在特征提取過程中高分辨率空譜信息丟失,并能夠更充分利用高分辨率的細節(jié)特征信息,進而提高網(wǎng)絡的分類性能,獲得更準確的分類精度。
表5給出GCDN以及對比方法10次實驗的平均訓練和測試時間??梢钥闯觯珿CDN的訓練測試速度不及3D-CNN與HybridSN,這是因為3D-CNN與HybridSN的網(wǎng)絡規(guī)模較小。并且相較于SSRN和3D-DenseNet,GCDN的訓練測試速度較快。結合表3與表4的分類精度結果可知,本文所提出的GCDN在分類性能以及時效性兩方面都有著良好的表現(xiàn)。
表3 使用不同方法在Indian Pines數(shù)據(jù)上的分類結果
表4 使用不同方法在Kennedy Space Center數(shù)據(jù)上的分類結果
表5 兩種數(shù)據(jù)下不同方法的訓練和測試時間
圖6、圖7給出了GCDN與對比方法在Indian Pines和Kennedy Space Center數(shù)據(jù)集上的高光譜圖像分類效果圖。從中可以看出,GCDN所產(chǎn)生的分類效果圖中噪聲點更少,即是代表著GCDN方法所獲得的分類效果圖中錯分類樣本點更少。如圖6(g)相比圖6(f),把Oats錯分為Grass-Trees的像素點更少;圖6(g)相比圖6(e),把Soybean-mintill錯分為Grass-Trees的像素點更少。從結果能夠看出,GCDN能更有效地捕捉光譜與空間特征信息,減少了特征提取過程中數(shù)據(jù)細節(jié)信息的損失,有效改善了網(wǎng)絡模型的分類性能。
圖7 Kennedy Space Center數(shù)據(jù)集分類效果
本文提出了一種基于空譜分組卷積密集網(wǎng)絡的高光譜圖像分類方法。該方法以空間-光譜信息為基礎,探究空間與光譜特征提取方法。首先,該方法所提出的光譜-空間三維分組卷積密集模塊從數(shù)據(jù)鄰域塊中分步提取光譜與空間特征,通過對高分辨率的特征進行特征重用,有效地避免了高分辨率特征信息的丟失,同時通過分組卷積有效地減少了高光譜圖像數(shù)據(jù)固有的信息冗余。并且,為了對所獲得的光譜特征進行增強,設計了光譜殘差注意力模塊,該模塊通過結合空間與光譜信息計算注意力權重,有效地對光譜特征進行增強并豐富了光譜特征的數(shù)據(jù)信息。實驗結果表明,所提出的高光譜圖像分類方法可以有效提高網(wǎng)絡模型分類性能,獲得更為準確的分類精度。但GCDN是基于三維卷積所構造的網(wǎng)絡模型,由獲得的分類效果圖可以看出,不同類別之間的分界線表現(xiàn)較為平滑,未能更好地捕捉高光譜圖像的空間邊緣信息。并且網(wǎng)絡計算參數(shù)較大。未來將在高光譜空間圖像的邊緣特征信息提取進行探索,并在保持分類精度的前提下,進一步改善網(wǎng)絡模型結構,提高計算效率。