趙曉楓, 牛家輝,*, 劉春桐, 夏玉婷
(1. 火箭軍工程大學(xué)導(dǎo)彈工程學(xué)院, 陜西 西安 710025;2. 兵器發(fā)射理論與技術(shù)國家重點(diǎn)學(xué)科實(shí)驗(yàn)室, 陜西 西安 710025)
高光譜遙感技術(shù)是利用高光譜成像光譜儀在不直接接觸目標(biāo)的情況下對地面物體進(jìn)行探測同時(shí)收集其空間信息和光譜信息的技術(shù)[1]。成像光譜儀在對目標(biāo)的空間特征成像的同時(shí),對每個(gè)空間像元以連續(xù)的幾十個(gè)甚至上百個(gè)波段進(jìn)行光譜覆蓋,從而生成光譜分辨率達(dá)到納米級的高光譜圖像[2]。由于高光譜圖像“圖譜合一”的特點(diǎn),其表征目標(biāo)特征的能力比傳統(tǒng)圖像高很多[3],通過充分利用這一特點(diǎn)可以精確地區(qū)分地物目標(biāo)。因此,高光譜圖像在軍事偵察[4]、環(huán)境監(jiān)測[5]、目標(biāo)識別[6]等方面都具有較高的研究價(jià)值。
高光譜圖像分類技術(shù)通過分析每一個(gè)像元的空間特征和光譜特征將該像元劃分到對應(yīng)的地物類別[7],是眾多應(yīng)用領(lǐng)域的基礎(chǔ)研究環(huán)節(jié)[8]。傳統(tǒng)的基于光譜特征匹配的分類方法通過將像素的光譜特征與光譜庫中已知的樣本進(jìn)行匹配從而實(shí)現(xiàn)分類。顯然,光譜庫的建立制約了分類精度的提高。隨著理論研究的不斷深入,基于統(tǒng)計(jì)學(xué)理論和機(jī)器學(xué)習(xí)的分類方法被研究應(yīng)用于高光譜圖像分類,其中支持向量機(jī)是其中的典型代表。例如, Campsvalls等人利用復(fù)合核將空間和光譜信息結(jié)合,實(shí)現(xiàn)高光譜圖像分類[9]。Li等人將多特征組合學(xué)習(xí)應(yīng)用于高光譜圖像分類[10]。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)在機(jī)器視覺領(lǐng)域取得了巨大的成功[11-12]。其通過不同大小、不同權(quán)重的卷積核對圖像每個(gè)像素進(jìn)行卷積操作從而獲取圖像的底層特征和高級特征。很多研究者將基于CNN的方法應(yīng)用于高光譜圖像分類領(lǐng)域,取得了良好的分類效果?;谏疃葘W(xué)習(xí)的高光譜圖像分類方法按照提取特征維度的不同主要可以分為基于光譜特征、空間特征以及空譜聯(lián)合特征的方法。基于光譜特征的方法主要是通過學(xué)習(xí)高光譜圖像像素點(diǎn)的光譜特征從而實(shí)現(xiàn)分類。例如,Hu等人設(shè)計(jì)模型通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)高光譜圖像光譜維度信息從而實(shí)現(xiàn)圖像分類[13],Boulch等人通過半監(jiān)督的一維CNN提高了模型在小樣本條件下的分類精度[14],Mou等人首次將循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)應(yīng)用于高光譜圖像分類,并設(shè)計(jì)了新的激活函數(shù)進(jìn)行參數(shù)校正,展現(xiàn)了RNN在高光譜圖像分類領(lǐng)域的巨大潛力[15]。相關(guān)的研究表明,空間特征信息的加入有利于提高模型的分類性能。因此,研究者們考慮使用高光譜圖像的空間特征來實(shí)現(xiàn)高光譜圖像分類。例如,Makantasis等人首先提出使用主成分分析(principal component analysis, PCA)減小原始圖像的光譜維度,并使用二維CNN提取高光譜圖像的空間特征信息,取得了良好的分類效果[16]。此類方法為后續(xù)研究者們提供了較為廣闊的思路。隨著深度學(xué)習(xí)模型的不斷進(jìn)步,不同的深度學(xué)習(xí)模型如殘差網(wǎng)絡(luò)(residual network, ResNet)[17],GoogLeNet[18]等也被嘗試用于高光譜圖像分類,并取得了較高的分類精度[19-20]。然而,由于上述基于光譜特征和空間特征的分類方法沒有充分利用高光譜圖像的空譜信息,其分類性能還有一定的提升空間。因此,基于空譜特征提取的分類方法被陸續(xù)提出。例如,Hamida等人構(gòu)建了一個(gè)基于空譜特征提取的三維CNN(three-dimen-sional CNN, 3D-CNN)模型減小了模型的參數(shù)量并驗(yàn)證了3D-CNN實(shí)現(xiàn)高光譜圖像分類的優(yōu)勢[21]。Chen等人在3D-CNN的基礎(chǔ)上采用正則化等策略解決了模型過擬合的問題[22]。采用三維卷積的方法由于其能夠同時(shí)利用高光譜圖像的空間特征和光譜特征從而實(shí)現(xiàn)了較高的分類精度,但是由此帶來的高復(fù)雜度的計(jì)算增加了網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間。為了在保持較高分類精度的基礎(chǔ)上具有較小模型的復(fù)雜度,Roy等人設(shè)計(jì)了混合網(wǎng)絡(luò)模型,混合CNN(Hybrid-CNN)通過結(jié)合3D-CNN和2D-CNN的優(yōu)點(diǎn),提高了模型的分類效果[23]。張祥東等人通過引入擴(kuò)張卷積核和注意力機(jī)制提升了混合卷積模型的分類精度[24]。近年來,隨著圖卷積網(wǎng)絡(luò)(graph convolution network, GCN)模型和Transformer模型的興起,兩種模型也被研究者們應(yīng)用于高光譜圖像分類。例如, Ding等人通過構(gòu)建局部區(qū)域的圖結(jié)構(gòu)并嵌入圖注意機(jī)制和多尺度信息來實(shí)現(xiàn)高光譜圖像分類[25]。Liu等人通過結(jié)合CNN和GCN的特點(diǎn),使用不同類型的卷積網(wǎng)絡(luò)同時(shí)提取空譜特征,然后將特征融合信息送入分類器進(jìn)行分類,取得了良好的分類效果[26]。Hong等人設(shè)計(jì)了基于Transformer模型的Spectral-Former網(wǎng)絡(luò)模型,通過分組譜嵌入和跨層自適應(yīng)融合的方法同時(shí)學(xué)習(xí)高光譜圖像的光譜和空間特征實(shí)現(xiàn)高光譜圖像分類[27]。
為了使分類模型更加有效的利用和關(guān)注高光譜圖像的空譜特征,受Hybrid-CNN與傳統(tǒng)通道注意力機(jī)制的啟發(fā),本文設(shè)計(jì)了基于三維注意力機(jī)制的混合卷積模型,不同于傳統(tǒng)的空間注意力機(jī)制和通道注意力機(jī)制通過兩次施加注意力實(shí)現(xiàn)不同維度特征的關(guān)注和激活,該模型通過三維注意力實(shí)現(xiàn)了對高光譜圖像的底層空譜特征的關(guān)注和激活,有效提升了模型的分類精度。此外,采用混合卷積的特征提取方式還減小了模型的運(yùn)算復(fù)雜度。本文的主要工作如下:
(1) 設(shè)計(jì)了基于三維卷積核和二維卷積核的特征提取模塊,充分利用高光譜圖像的空譜特征信息;
(2) 設(shè)計(jì)了三維卷積階段的注意力機(jī)制,實(shí)現(xiàn)在三維卷積階段同時(shí)對空間特征和光譜特征的關(guān)注和激活,使得模型在訓(xùn)練過程中更多地關(guān)注高光譜圖像有效的空譜特征,抑制譜噪聲信息;
(3) 在兩個(gè)公開數(shù)據(jù)集上的對比實(shí)驗(yàn)和消融證明了文章提出方法的有效性。
高光譜圖像的數(shù)據(jù)立方體由I∈RH×W×C表示,其中H代表圖像高度,W代表圖像寬度,C代表圖像的維度,即光譜通道數(shù)。對于高光譜圖像中的每一個(gè)像素P,其都由一個(gè)向量(p1,p2,…,pC)∈R1×1×C表示其光譜特征。然而由于高光譜圖像類內(nèi)變異性的存在,對同一個(gè)類別內(nèi)的像素P其光譜特征并不完全相同,因此這要求模型在提取特征時(shí)要避免高光譜圖像高維度的光譜特征信息造成的特征冗余。為了解決這一問題,本文使用PCA方法降低數(shù)據(jù)維度。假設(shè)S∈RH×W×B代表經(jīng)過PCA降維后的高光譜圖像數(shù)據(jù),其中B代表選取的主成分個(gè)數(shù)。通過PCA降維后使用向量(p1,p2,…,pB)∈R1×1×B來表征每個(gè)像素的光譜特征。降維后的高光譜圖像數(shù)據(jù),減小了光譜維度的數(shù)據(jù)冗余,保留了像素的主要光譜特征,并且保留了像素的空間信息。
為了適用CNN的輸入,需要將降維后的高光譜數(shù)據(jù)S處理成為多個(gè)數(shù)據(jù)立方體組成的Patch,每一個(gè)數(shù)據(jù)立方體的大小F∈Rm×m×B,其中m×m代表數(shù)據(jù)立方體的高度和寬度,B代表降維后的光譜通道數(shù)。對于每一個(gè)數(shù)據(jù)立方體F,以其中心像素的標(biāo)簽作為數(shù)據(jù)立方體的標(biāo)簽。
傳統(tǒng)的2D-CNN使用二維卷積核在圖像上進(jìn)行操作,卷積核只能在二維平面內(nèi)兩個(gè)方向進(jìn)行移動,同時(shí)對數(shù)據(jù)進(jìn)行卷積運(yùn)算,而后通過激活函數(shù)來增加非線性表達(dá)能力,生成的特征圖為二維特征圖。其卷積的運(yùn)算過程如下:
(1)
由式(1)可以推出,對于每一個(gè)像素點(diǎn)的特征值,可以通過如下方式計(jì)算:
(2)
需要說明的是,Pi,Qi,Ri為第i層三維卷積核的大小。
由式(2)和式(3)的對比可以看出,三維卷積的運(yùn)算量要大大高于二維卷積的運(yùn)算量??紤]到高光譜圖像的特點(diǎn),本文提出的方法首先使用三維卷積,同時(shí)提取空譜特征,以達(dá)到底層特征提取的效果。但由于三維卷積的運(yùn)算復(fù)雜度高,為了減少模型復(fù)雜度,使用二維卷積進(jìn)一步提取圖像的空間特征。
Hu等人在2017年提出的SENet(Squeeze-and-Excitation Networks)在計(jì)算機(jī)視覺領(lǐng)域有相當(dāng)突出的表現(xiàn),其模擬人眼在觀看圖像時(shí)的注意力機(jī)制,通過對不同的特征信息賦予權(quán)重從而使得模型更加關(guān)注有價(jià)值的信息,有效抑制噪聲及干擾[28]。然而,由于先前提出的有關(guān)注意力的網(wǎng)絡(luò)都是基于視覺領(lǐng)域,所以大多數(shù)研究都是集中在二維卷積階段[29],通過在二維卷積階段施加空間和通道注意力機(jī)制實(shí)現(xiàn)對有效特征的激活。受此啟發(fā),本文提出了基于三維卷積階段的注意力機(jī)制,由于三維卷積同時(shí)提取空譜特征的特點(diǎn),將注意力機(jī)制應(yīng)用于三維卷積階段可以同時(shí)對空間和光譜維度的有效特征進(jìn)行關(guān)注和激活。
如圖1所示,對于給定的三維卷積的特征圖X∈RN×H×W×C,其中N代表三維卷積核的個(gè)數(shù),H、W、C分別代表生成特征圖的高、寬和通道數(shù)。首先,通過三維全局平均池化和三維全局最大池化得到兩個(gè)N×1×1×1的兩個(gè)全局特征圖Xmax,Xavg。
圖1 三維注意力機(jī)制Fig.1 Three-dimensional attention mechanism
Xmax=fmax(X)
(4)
Xavg=favg(X)
(5)
式中:fmax和favg分別代表三維全局最大池化操作和三維全局平均池化操作。然后,將這兩個(gè)全局特征圖分別送入兩個(gè)共享參數(shù)的卷積核大小為1×1×1的三維卷積層從而實(shí)現(xiàn)不同通道的特征權(quán)值的學(xué)習(xí),每一個(gè)卷積層都過Relu函數(shù)激活。兩個(gè)卷積層的計(jì)算如下:
Yout=Relu(f1×1×1(Relu(f1×1×1(Xin))))
(6)
式中:Xin為卷積層的輸入;f1×1×1表示卷積核大小為1×1×1的卷積運(yùn)算;Xmax和Xavg通過卷積運(yùn)算后,得到了新的輸出Ymax和Yavg。而后,將輸出的特征相加并通過Sigmod函數(shù)得到值為0~1之間的權(quán)重系數(shù)WS:
WS=Sigmod(Ymax+Yavg)
(7)
最后,通過權(quán)重系數(shù)與輸入的特征圖相乘,得到最終輸出的特征圖Xout:
Xout=WSX
(8)
通過上述過程,給三維卷積過程中每一個(gè)特征圖中不同的特征賦予了不同的權(quán)重系數(shù)。在模型訓(xùn)練過程中,通過反向傳播算法不斷調(diào)整權(quán)重系數(shù)使得重要特征的權(quán)重系數(shù)逐漸增大,而非重要特征和干擾信息的權(quán)重系數(shù)逐漸縮小。三維階段注意力機(jī)制的構(gòu)建,使得模型在底層特征提取時(shí)更加關(guān)注有效特征。
高光譜圖像經(jīng)過預(yù)處理后,網(wǎng)絡(luò)模型的處理對象是高光譜數(shù)據(jù)立方體F∈Rm×m×B。模型首先通過三維卷積核同時(shí)提取數(shù)據(jù)的空譜特征,依次使用步長為1的8個(gè)3×3×7的卷積核,16個(gè)3×3×5,以及32個(gè)3×3×3的卷積核來逐步提取高光譜數(shù)據(jù)立方體的空譜特征,每個(gè)三維卷積層通過Relu函數(shù)激活,且在卷積核個(gè)數(shù)分別為16和32時(shí),通過三維注意力機(jī)制實(shí)現(xiàn)重要空譜特征的激活以及干擾噪聲的抑制。數(shù)據(jù)通過三維卷積階段后,得到F3D∈R32×z×b×b的特征圖。其中,z代表通道數(shù),b代表特征圖的大小??紤]到二維卷積能在不損失大量光譜信息的情況下進(jìn)一步提取空間特征從而進(jìn)行類別區(qū)分,且二維卷積的計(jì)算復(fù)雜度遠(yuǎn)小于三維卷積。因此,對特征圖進(jìn)行重構(gòu)以適應(yīng)二維卷積的輸入。重構(gòu)操作將F3D∈R32×z×b×b特征圖壓縮成3個(gè)維度(32×z,b,b),雖然失去了特征圖數(shù)量的索引值,但是重構(gòu)操作不損失任何空譜特征信息,不增加模型的運(yùn)算復(fù)雜度。在二維卷積空間特征提取階段,使用步長為1的64個(gè)3×3卷積核,同樣使用Relu函數(shù)激活最終得到F2D=R64×n×n的特征圖。模型的最后,特征圖在通過扁平化操作后,依次輸入具有3個(gè)線性層的全連接層中,每個(gè)線性層后都使用參數(shù)為0.4的Dropout操作以防止模型過擬合,最終通過Softmax分類器進(jìn)行分類。本文提出的基于三維注意力與混合卷積(3D attention fusion CNN, 3DA-FCNN)的分類方法,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 3DA-FCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of 3DA-FCNN
模型由Python語言在深度學(xué)習(xí)框架Pytorch1.8.1編程實(shí)現(xiàn),使用Windows10操作系統(tǒng),配備有Intel Core i7-10750H處理器,Nvida Quadro P620顯卡以及16 G內(nèi)存,通過CUDA11.6和cudnn8.3進(jìn)行加速訓(xùn)練。
本文使用平均精度(average accuracy,AA),總體精度(overall accuracy,OA),和卡帕系數(shù)(Kappa)作為評價(jià)模型分類性能的3個(gè)指標(biāo)。其中,AA表示每一類別分類正確率的平均值,OA表示總的分類正確數(shù)與總的測試樣本數(shù)的比值,Kappa系數(shù)是基于混淆矩陣的計(jì)算值,用來表征模型預(yù)測結(jié)果和實(shí)際分類結(jié)果是否一致。為了確保實(shí)驗(yàn)結(jié)果的可靠性,每組實(shí)驗(yàn)結(jié)果都是模型10次運(yùn)行結(jié)果的平均值。
本文選取了兩個(gè)經(jīng)典的用于評價(jià)高光譜分類模型分類精度的數(shù)據(jù)集,印地安松樹林(Indian pines, IP)數(shù)據(jù)集和岶維亞大學(xué)(Pavia University, PU)數(shù)據(jù)集,作為實(shí)驗(yàn)數(shù)據(jù)。IP數(shù)據(jù)集是最早用于高光譜圖像分類測試的數(shù)據(jù)集,其由AVIRIS機(jī)載成像光譜儀對美國印第安納州的一片松樹林成像,然后截取了大小為145×145的部分作為基本數(shù)據(jù)。AVIRIS的成像波長范圍為0.4~2.5 μm的連續(xù)220個(gè)波段,成像分辨率為20 m,由于其中20個(gè)波段不能被水反射,因此在剔除掉干擾譜段后,共有200個(gè)有效波段,16種地物類別。PU數(shù)據(jù)集是由ROSIS成像光譜儀對意大利的帕維亞城成像獲得的,數(shù)據(jù)的大小為610×340,ROSIS的成像波長范圍為0.43~0.86 μm的連續(xù)115個(gè)波段,成像分辨率為1.3 m,在剔除因噪聲干擾的12個(gè)波段后,共有103個(gè)有效波段,9種地物類別。圖3展示了兩個(gè)數(shù)據(jù)集的偽彩圖以及真實(shí)地物圖。
圖3 數(shù)據(jù)集偽彩圖和真實(shí)地物圖Fig.3 Pseudo-color maps and ground truth maps of the datasets
由于不同的實(shí)驗(yàn)參數(shù)設(shè)置會影響模型的分類精度,因此在本節(jié)設(shè)計(jì)了兩組實(shí)驗(yàn)來確定模型中重要參數(shù)的設(shè)置以獲得最佳的分類效果。由于模型在進(jìn)行高光譜圖像預(yù)處理時(shí)應(yīng)用了PCA方法降低高光譜圖像的維度,損失了一部分光譜信息,因此選取的主成分?jǐn)?shù)量B是首先需要考慮的參數(shù)。第一組實(shí)驗(yàn)討論選取的主成分?jǐn)?shù)量即數(shù)據(jù)立方體的通道數(shù)B對實(shí)驗(yàn)精度的影響,在控制其他實(shí)驗(yàn)條件相同的情況下,選取前20~40個(gè)主成分以5為間隔進(jìn)行了5組實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖4所示,隨著主成分?jǐn)?shù)量的不斷增加,模型的分類精度不斷提高,當(dāng)選取的主成分?jǐn)?shù)量超過30后,主成分?jǐn)?shù)量的提升對模型精度的提升效果不再明顯。從實(shí)驗(yàn)結(jié)果可以看出,若選擇的主成分?jǐn)?shù)量較少,高光譜圖像的光譜信息會有較大的損失,模型在分類過程中損失了重要的光譜特征,最終導(dǎo)致分類精度較低。但若選取的主成分?jǐn)?shù)量過多,由于高光譜圖像的特性,會引入過多的干擾和噪聲,使得其每一類的特征不再明顯,對于分辨率較低的IP數(shù)據(jù)集來講,選取過高的主成分?jǐn)?shù)量還可能降低模型的分類精度。綜合考慮模型的計(jì)算數(shù)據(jù)量和分類精度等因素,統(tǒng)一設(shè)置主成分?jǐn)?shù)量B=30。
圖4 不同主成分?jǐn)?shù)量下模型的分類精度Fig.4 Classification accuracy of the model with different numbers of principal components
第二組實(shí)驗(yàn)設(shè)計(jì)6種不同尺寸的數(shù)據(jù)立方體窗口大小m,m的大小從17~27間隔為2進(jìn)行了6組實(shí)驗(yàn),模型的分類精度如圖5所示。隨著m的不斷增大,模型的精度不斷提升,但對于尺寸較小的數(shù)據(jù)集IP來講,當(dāng)m的值超過25時(shí),其分類精度反而略有下降。通過數(shù)據(jù)分析,對于精度較小的數(shù)據(jù)集,過大的窗口大小導(dǎo)致了不同類別的標(biāo)簽也包含其中,從而造成了噪聲干擾,使得模型精度下降。考慮到模型的魯棒性,為了能夠公平地進(jìn)行對比實(shí)驗(yàn),對于不同的數(shù)據(jù)集,統(tǒng)一設(shè)置高光譜數(shù)據(jù)立方體m=25。通過上述兩組實(shí)驗(yàn),確定了高光譜數(shù)據(jù)立方體大小F∈R25×25×30。
圖5 不同窗口大小設(shè)置下模型的分類精度Fig.5 Classification accuracy of the model under different window size settings
對于模型其他參數(shù)設(shè)置,先前的工作[23-24]進(jìn)行了卓有成效的研究,具有很大的參考價(jià)值。為了優(yōu)化模型的運(yùn)行并進(jìn)行公平的比較,本文實(shí)驗(yàn)中將模型的學(xué)習(xí)率設(shè)置為0.001并加入學(xué)習(xí)率衰減機(jī)制防止模型不收斂,訓(xùn)練輪次設(shè)置為100并加入早停機(jī)制防止模型過擬合。為了驗(yàn)證模型在小樣本條件下的表現(xiàn),采用10%的數(shù)據(jù)作為訓(xùn)練集,其余數(shù)據(jù)作為測試集。
為了驗(yàn)證模型的有效性,本文選取了其他5種高光譜分類方法來進(jìn)行對比實(shí)驗(yàn)以證明提出方法的有效性,分別是基于二維卷積的深度特征提取方法(depth feature extraction method based on 2D CNN,2D-CNN-DF)[22],基于三維卷積的高光譜圖像特征提取和分類方法(feature extraction and classification of hyperspectral images based on 3D CNN,FE-3D-CNN)[30],通過多尺度三維卷積提取特征的高光譜分類方法(hyperspectral classification of multi-scale 3D CNN extraction features,Multi-3DCNN)[31],基于擴(kuò)張卷積和注意力機(jī)制的分類方法(classification method based on extended convolution and attention mechanisms, 3D-2D-ADCNN)[24],以及光譜空間注意網(wǎng)絡(luò)(spectral spatial attention network, SSAN)[32]。為了達(dá)到每個(gè)方法最好的效果,所有的實(shí)驗(yàn)參數(shù)都是按照公開文章的推薦設(shè)置進(jìn)行的。
表1和表2分別展示了在兩個(gè)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的方法可以更加有效地提取高光譜圖像的空譜特征,并通過注意力機(jī)制激活有效特征實(shí)現(xiàn)較高的分類精度。在IP數(shù)據(jù)集上,相對于近年提出的3D-2D-ADCNN在OA、AA、Kappa 3個(gè)指標(biāo)上分別提升了0.48%、0.35%、1.09%,相對于SSAN在OA、AA、Kappa 3個(gè)指標(biāo)上分別提升了0.47%、0.36%、1.11%。由于IP數(shù)據(jù)集本身存在的數(shù)據(jù)集樣本分布不均,圖像分辨率低等實(shí)際問題,其他不采用注意力機(jī)制的分類方法在IP數(shù)據(jù)集上的精度與所提出的方法都有一定的差距。對于PU數(shù)據(jù)集,幾種分類方法都有相當(dāng)優(yōu)秀的表現(xiàn),本文提出的方法相對進(jìn)行比較的2D-CNN-DF、FE-3D-CNN、Multi-3DCNN、3D-2D-ADCNN以及SSAN方法在OA上分別提升了5.46%、6.44%、2.04%、0.87%、0.49%,在AA上分別提升了4.73%、7.47%、4.27%、0.03%、0.93%,在Kappa系數(shù)上分別提升了8.23%、10.78%、6.38%、0.88%、1.37%。通過對比可以看出,在3種評價(jià)指標(biāo)上本文提出的方法相對其他經(jīng)典的方法都有一定的提升。
表1 不同模型在IP數(shù)據(jù)集上的分類精度Table 1 Classification accuracy of different models on IP dataset %
表2 不同模型在PU數(shù)據(jù)集上的分類精度Table 2 Classification accuracy of different models on PU dataset %
如圖6所示,為了更直觀地展示每個(gè)模型的分類效果,展示了每個(gè)模型在兩個(gè)數(shù)據(jù)集上的預(yù)測結(jié)果圖??梢灾庇^看出,3DA-FCNN方法在分類精度上更高,錯(cuò)分類的數(shù)目最少,其生成的分類結(jié)果圖更接近于真實(shí)地物圖?;?D-CNN-DF、FE-3D-CNN、Multi-3DCNN 3種方法生成的預(yù)測結(jié)果圖產(chǎn)生了比較嚴(yán)重的椒鹽現(xiàn)象,在樣本數(shù)目較多且較集中的位置也產(chǎn)生了誤分類現(xiàn)象?;?D-2D-ADCNN與SSAN的分類方法雖然在整體效果上與本文提出的方法相差不多,但是對于樣本數(shù)目較小且分散的像素點(diǎn)的預(yù)測還存在誤分類的現(xiàn)象。反觀本文提出的方法,即使對于樣本數(shù)量較少的類別,依然表現(xiàn)出出色的分類性能。尤其在樣本數(shù)量不均衡的IP數(shù)據(jù)集上,3DA-FCNN的表現(xiàn)明顯優(yōu)于其他方法。
圖6 不同模型在所選數(shù)據(jù)集上的分類效果Fig.6 Classification effect of different models on selected datasets
從實(shí)驗(yàn)結(jié)果來看,本文提出的3DA-FCNN方法實(shí)現(xiàn)了空譜特征的有效提取和利用,從而獲得了較高的分類精度。
在本節(jié)中,設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證文章提出的三維卷積注意力機(jī)制的有效性。在保持其他實(shí)驗(yàn)設(shè)置不改變的情況下,將模型中的三維注意力機(jī)制去除并將新的模型命名為混合卷積模型(即FCNN),具體的實(shí)驗(yàn)結(jié)果如表3所示。在IP數(shù)據(jù)集上,三維注意力機(jī)制的加入使得模型在OA、AA、Kappa系數(shù)3個(gè)指標(biāo)上分別提高了2.89%、4.35%、3.32%。在PU數(shù)據(jù)機(jī)上,三維注意力機(jī)制的加入使得模型在OA、AA、Kappa系數(shù)3個(gè)指標(biāo)上分別提高了0.42%、0.9%、0.55%。對于IP數(shù)據(jù)集來講,三維注意力機(jī)制的加入對模型的提升效果比較明顯。這是由于IP數(shù)據(jù)集本身分辨率較低,造成每一類別光譜特征的類內(nèi)變異性較大,注意力機(jī)制的加入使得模型能夠?qū)τ行卣鬟M(jìn)行注意和激活,從而提高分類精度。從PU數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果來看,不加注意力機(jī)制的FCNN方法在PU數(shù)據(jù)集上的分類精度已經(jīng)處于較高的水平,雖然注意力機(jī)制的加入對方法精度的提升不明顯,但多次實(shí)驗(yàn)結(jié)果最終證明,三維注意力機(jī)制的加入依然提升了模型的分類能力。
表3 消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experiments results %
如圖7和圖8所示,為了更直觀地表示模型對不同標(biāo)簽種類的分類結(jié)果,我們將混淆矩陣進(jìn)行了可視化。綜合實(shí)驗(yàn)結(jié)果可以看出,三維注意力機(jī)制的加入有效提升了模型的分類精度。
圖7 IP數(shù)據(jù)集混淆矩陣Fig.7 Confusion matrix for IP dataset
圖8 PU數(shù)據(jù)集混淆矩陣Fig.8 Confusion matrix for PU dataset
針對現(xiàn)有高光譜圖像分類方法對空譜有效特征關(guān)注不足的問題,本文提出了一種基于三維注意力機(jī)制與混合卷積的高光譜圖像分類方法。
該方法采用混合卷積結(jié)構(gòu)提取高光譜圖像的空譜特征,相比單一使用三維卷積結(jié)構(gòu)的模型減小了模型的運(yùn)算復(fù)雜度。通過設(shè)計(jì)并在三維卷積階段實(shí)施注意力機(jī)制從而使得模型在提取底層空譜特征的同時(shí)實(shí)現(xiàn)了對高光譜圖像有效特征的關(guān)注和激活,以及對干擾噪聲抑制。實(shí)驗(yàn)結(jié)果證明了三維注意力機(jī)制的引入對模型特征關(guān)注能力提升的有效性以及本方法在高光譜圖像分類問題上的良好表現(xiàn)。
由于高光譜圖像的人工標(biāo)注需要耗費(fèi)大量的人力物力,標(biāo)簽數(shù)據(jù)量不足往往成為制約模型分類精度提升的重要原因。因此,如何提升小樣本條件下的分類精度是需要進(jìn)一步研究考慮的問題。