程文娟,陳文強(qiáng)
合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥230000
高光譜圖像(HSIs)一般由數(shù)十甚至上百個(gè)窄譜帶組成[1],具有很高的光譜分辨率[2-4]。它與傳統(tǒng)的全色和多色光譜遙感圖像相比,蘊(yùn)含的空譜信息更多,對(duì)不同地物目標(biāo)的識(shí)別精度更高。高光譜圖像豐富的光譜帶在精細(xì)分類方面具有獨(dú)特的優(yōu)勢(shì)[5-6],在農(nóng)業(yè)開(kāi)發(fā)[7]和礦產(chǎn)資源開(kāi)發(fā)[8]方面也有廣泛的應(yīng)用。同時(shí),由于其高維的特性和樣本量少,容易產(chǎn)生Hughes現(xiàn)象,導(dǎo)致分類精度隨著參與運(yùn)算波段數(shù)目的增加而先增后降。因此,對(duì)高光譜圖像進(jìn)行準(zhǔn)確分類極具挑戰(zhàn)性,吸引了越來(lái)越多的學(xué)者進(jìn)行探索。
近年來(lái),由于深度學(xué)習(xí)的快速發(fā)展,它已經(jīng)作為一種重要的手段來(lái)解決計(jì)算機(jī)視覺(jué)問(wèn)題,如圖像分類、語(yǔ)義分割等。其中的深度卷積神經(jīng)網(wǎng)絡(luò)利用逐層結(jié)構(gòu)疊加的特性,來(lái)自動(dòng)提取物體的特征[9],它在普通圖像分類等任務(wù)中已經(jīng)取得了不錯(cuò)的成果。自然地,也可以應(yīng)用于高光譜圖像分類,它能提取出更多隱含的特征[10]。文獻(xiàn)[11]首次將深度學(xué)習(xí)的概念引入到高光譜圖像分類中,提出了一種新的基于光譜信息的分類方法。它利用自動(dòng)編碼器提取原始數(shù)據(jù)信息和PCA 降維后的信息,最后利用SVM 對(duì)其進(jìn)行分類,達(dá)到了當(dāng)時(shí)最好的分類效果。但是這種方法只利用了高光譜圖像的光譜信息,并沒(méi)有利用空間信息。緊接著,Makantasis 等人[12]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(2D CNN)的分類方法,它首先利用主成分分析法(PCA)來(lái)降低數(shù)據(jù)的維度,同時(shí)由于相鄰像素大概率屬于同一類別,所以利用周邊像素將中心像素填充成一個(gè)固定大小的塊,輸入到2D CNN中自動(dòng)提取空間信息,最后送入多層感知器進(jìn)行分類。同樣地,它主要利用了高光譜數(shù)據(jù)的空間信息,但卻忽略了光譜信息。基于這些因素,文獻(xiàn)[13]提出了一種基于3D CNN的高光譜圖像分類方法,輸入的一個(gè)3D塊,它同時(shí)具有空間信息和光譜信息,再利用3D CNN直接對(duì)空間和光譜維度進(jìn)行卷積來(lái)提取特征,獲得了優(yōu)良的分類效果。為了更好地提取不同的特征,文獻(xiàn)[14]利用了多尺度卷積的策略,卷積核仍然是3D CNN,但不同大小的卷積核可以在不同的感受野上對(duì)物體進(jìn)行卷積,再將得到的特征進(jìn)行整合和池化,最后進(jìn)行分類。
盡管深度學(xué)習(xí)的方法已經(jīng)較好地應(yīng)用在高光譜圖像分類領(lǐng)域,但仍然存在一些問(wèn)題。首先,由于高光譜圖像樣本較少,如何利用少量的樣本重復(fù)提取有效的特征是一個(gè)難題。其次,樣本少和復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)容易導(dǎo)致過(guò)擬合。最后,雖然3D CNN可以提取出較為良好的特征,但提取的特征仍然是相對(duì)粗糙的,有噪聲的特征圖依然會(huì)影響最終分類結(jié)果。
為了解決這些問(wèn)題,提出了一個(gè)多尺度跨層特征融合注意力機(jī)制(MCFFN-Attention)方法進(jìn)行高光譜圖像分類。采取跨層特征融合的方式,對(duì)所獲得的中間特征圖進(jìn)行反復(fù)的利用,使其在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中持續(xù)傳遞,可以有效地緩解梯度消失現(xiàn)象,抑制過(guò)擬合。同時(shí)結(jié)合空譜注意力機(jī)制,對(duì)所獲得的特征圖進(jìn)行特征選擇,能夠使提取的特征更具識(shí)別力,從而提高分類效果。
本章主要介紹MCFFN-Attention 方法的思想,包括多尺度空譜特征提取、跨層特征融合,以及提出的適用于高光譜圖像的空譜注意力機(jī)制。最后,總體說(shuō)明MCFFN-Attention的具體實(shí)現(xiàn)方法。
多尺度(Multi-scale)結(jié)構(gòu)包含了豐富的上下文信息,在處理高光譜圖像分類方面具有天然的優(yōu)勢(shì)。高光譜圖像不斷增長(zhǎng)的空間分辨率和像元之間的關(guān)聯(lián)性越來(lái)越大,使得所需要提取的特征越來(lái)越多。首先,由于高光譜圖像高維的特性,在維度過(guò)高時(shí),分類的精度會(huì)降低。為了盡量保存原始數(shù)據(jù)的信息和降低維度,需要利用PCA 將高光譜圖像的光譜維度降至20 維。然后,將降維后的數(shù)據(jù)輸入不同大小的三維卷積核,大小分別是1×1×1、3×3×3和5×5×5。將一個(gè)原始3D塊輸入不同的卷積核就能自動(dòng)提取不同的光譜信息和空間信息。
在高光譜圖像數(shù)據(jù)的處理中,融合不同尺度的特征是提高分割性能的一個(gè)重要手段。低層特征分辨率更高,包含更多位置和細(xì)節(jié)信息,但是由于經(jīng)過(guò)的卷積更少,其語(yǔ)義性更低、噪聲更多。高層特征具有更強(qiáng)的語(yǔ)義信息,但是分辨率很低,對(duì)細(xì)節(jié)的感知能力較差。利用跨層特征融合(Cross-layer Feature Fusion Network)的方法,將多個(gè)特征融合可以改善模型的學(xué)習(xí)能力。
對(duì)多尺度空譜特征提取的特征圖進(jìn)行concat級(jí)聯(lián),作為第一層特征,將其分別用2個(gè)3×3×3的3D卷積核進(jìn)行卷積,得到第二層和第三層的特征。再將第一層和第二層特征進(jìn)行對(duì)應(yīng)元素相加,得到融合的特征,第二層和第三層特征進(jìn)行對(duì)應(yīng)元素相加得到另外一個(gè)融合的特征。隨后將這兩個(gè)融合的特征進(jìn)行空間注意力機(jī)制的選擇,再將得到的兩個(gè)特征分別送入2個(gè)3×3×3的3D卷積進(jìn)一步的特征抽象。最后對(duì)得到的兩個(gè)特征進(jìn)行相同方法的融合。則最終融合的特征既包含低層的空間信息又包含高層的語(yǔ)義信息。相對(duì)于通過(guò)卷積核直接提取的特征,融合后的特征信息更加豐富,有利于特征的識(shí)別。
隨著深度學(xué)習(xí)在圖像分類方面愈加廣泛的應(yīng)用,注意力機(jī)制(Attention mechanism)作為一種輔助手段越來(lái)越多地用在深度網(wǎng)絡(luò)中來(lái)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)[15-17]。它更像人眼觀察事物的模式,使網(wǎng)絡(luò)更加有側(cè)重的學(xué)習(xí),以此提高網(wǎng)絡(luò)的學(xué)習(xí)能力。通常通道注意力機(jī)制(Channel Attention,CA)是對(duì)同一個(gè)特征圖的不同通道進(jìn)行選擇優(yōu)化,獲取重校訂的通道信息;空間注意力機(jī)制(Spatial Attention,SA)則是對(duì)同一個(gè)特征圖的所有空間位置重新分配權(quán)重,然后通過(guò)Sigmoid 函數(shù)來(lái)激活得到非線性的重校訂上下文信息。本文中提出了改進(jìn)的CA 和SA方法應(yīng)用于高光譜圖像處理。CA 方法如圖1 所示,對(duì)于一個(gè)給定的中間特征圖X(L×H×W×C;L、H和W代表特征圖的空間維度,C代表通道數(shù)),其原理如公式(1)~(3)所示:
MaxPooling和AvgPooling分別代表空間方向上全局最大池化和全局平均池化,δ是RELU激活函數(shù),σ表示Sigmoid激活函數(shù),F(xiàn)C為全連接層。
圖1 Channel Attention結(jié)構(gòu)示意圖
SA 方法如圖2 所示,對(duì)于一個(gè)給定的中間特征圖X(L×H×W×C),其過(guò)程如公式(4)~(6)所示:
MaxPooling和AvgPooling分別是沿著通道方向上的全局最大池化和全局平均池化,Concat表示通道方向上的級(jí)聯(lián),Conv是一個(gè)三維卷積(3×3×3)。
考慮到高光譜圖像的復(fù)雜性。本文將多尺度空譜特征提取、跨層特征融合和Attention 結(jié)合起來(lái),提出了一種基于MCFFN-Attention 的高光譜圖像分類方法。該方法的步驟如圖3所示,首先對(duì)高光譜圖像在光譜帶方向上進(jìn)行PCA 降維,再取一個(gè)3D 塊作為原始輸入,大小為s×s×d,其中s×s表示塊的大小,d表示降維后的維度。將大小為11×11×20的原始輸入分別送入三個(gè)卷積核大小不同的分支中,卷積核大小分別為1×1×1、3×3×3 和5×5×5。將得到的特征圖進(jìn)行級(jí)聯(lián),再順序通過(guò)2個(gè)3×3×3的卷積層。然后根據(jù)特征重復(fù)利用融合的思想分別進(jìn)行跨層相加融合。對(duì)于第一次的兩個(gè)融合,由于其獲得的特征圖主要包含空間位置信息,因此對(duì)融合后的特征進(jìn)行空間注意力機(jī)制處理,使其不同區(qū)域獲得不同的權(quán)重,在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中可以有選擇地學(xué)習(xí)。將空間優(yōu)化后的特征再次跨層融合后分別送入兩個(gè)卷積層中,獲得更強(qiáng)的語(yǔ)義特征,因此對(duì)其采用通道注意力機(jī)制的處理,對(duì)不同的通道分配不同的權(quán)重。以上所有的卷積層后都連接批正則化和RELU激活,可以加快收斂速度。最后,將獲得的特征送入全連接層中進(jìn)行分類。分類的損失函數(shù)采用交叉熵?fù)p失函數(shù),如公式(7)所示:
tk是標(biāo)簽,yk表示網(wǎng)絡(luò)的輸出。
圖2 Spatial Attention結(jié)構(gòu)示意圖
圖3 MCFFN-Attention方法結(jié)構(gòu)圖
本實(shí)驗(yàn)所采用的計(jì)算機(jī)硬件環(huán)境Intel Core i7-8700 CPU 3.20 GHz、內(nèi)存8 GB,軟件環(huán)境為Spyder TensorFlow1.8。實(shí)驗(yàn)以2 組高光譜圖像數(shù)據(jù)集來(lái)驗(yàn)證本文方法的有效性,通過(guò)平均分類精度AA(Average All)、總體分類精度OA(Over All)和Kappa 系數(shù)對(duì)分類結(jié)果進(jìn)行評(píng)價(jià)。
印第安松樹(shù)數(shù)據(jù)集包含16 類不同的地物目標(biāo),由145×145 個(gè)像素組成。它有200 個(gè)光譜帶,覆蓋范圍為0.2~0.4 μm,空間分辨率為20 m。如表1 所示,對(duì)于16類不同地物目標(biāo)的樣本,大于400個(gè)樣本數(shù)的隨機(jī)選取200個(gè),小于400個(gè)樣本數(shù)的隨機(jī)選取一半作為訓(xùn)練集,余下的作為測(cè)試集。最終,訓(xùn)練集總數(shù)為2 309個(gè)像素,測(cè)試集總數(shù)為7 940個(gè)像素。 帕維亞大學(xué)數(shù)據(jù)集有9類不同的地物目標(biāo),由610×340 個(gè)像素組成。它包含103個(gè)光譜帶,覆蓋范圍為0.43~0.86 μm,空間分辨率為每類1.3 m。如表2 所示,對(duì)每類地物目標(biāo)樣本隨機(jī)選取200個(gè)作為訓(xùn)練集,余下的作為測(cè)試集。最終,訓(xùn)練集總數(shù)為1 800個(gè)像素,測(cè)試集總數(shù)為40 976個(gè)像素。
表1 印第安松樹(shù)訓(xùn)練集和測(cè)試集樣本
表2 帕維亞大學(xué)訓(xùn)練集和測(cè)試集樣本
為了驗(yàn)證實(shí)驗(yàn)的有效性,將本文提出的MCFFNAttention 方 法 與CNN[12]、3D CNN[13]、M3D CNN[14]和MCFFN 方法進(jìn)行對(duì)比。其中,MCFFN 方法是去除了Attention 部分,其余與MCFFN-Attention 方法的網(wǎng)絡(luò)結(jié)構(gòu)保持一致,這是一組消融實(shí)驗(yàn),目的是驗(yàn)證Attention的有效性。為了保證對(duì)比實(shí)驗(yàn)的公平性,所有的實(shí)驗(yàn)都在相同的硬件下執(zhí)行,所采用的訓(xùn)練集和測(cè)試集大小也完全相同。本文設(shè)定的實(shí)驗(yàn)參數(shù)為PCA降維的維度為20,原始輸入的3D 塊的大小為11×11×20,其中,11×11表示3D 塊的長(zhǎng)和寬,20 表示降維后的光譜維度。網(wǎng)絡(luò)結(jié)構(gòu)的全連接層中的Dropout正則化大小為0.5,迭代次數(shù)epochs 大小為60。所有實(shí)驗(yàn)都進(jìn)行了10 次,選取最優(yōu)結(jié)果。兩種數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表3 和表4 所示,標(biāo)簽和分類結(jié)果圖如圖4和圖5所示,全圖分類效果如圖6和圖7所示。
表3 印第安松樹(shù)測(cè)試樣本分類精度 %
表4 帕維亞大學(xué)測(cè)試樣本分類精度 %
圖4 印第安松樹(shù)數(shù)據(jù)集標(biāo)簽和分類結(jié)果圖
圖5 帕維亞大學(xué)數(shù)據(jù)集標(biāo)簽和分類結(jié)果圖
圖6 印第安松樹(shù)數(shù)據(jù)集全圖分類效果圖
圖7 帕維亞大學(xué)數(shù)據(jù)集全圖分類效果圖
在印第安松樹(shù)數(shù)據(jù)集或帕維亞大學(xué)數(shù)據(jù)集中,本文提出的MCFFN-Attention 方法的都是五種方法中效果最好的。在印第安松樹(shù)數(shù)據(jù)集中,與3D CNN 方法對(duì)比,OA、AA和Kappa值分別提升了1.54、0.89和1.84 個(gè)百分點(diǎn),MCFFN與3D CNN相比OA與Kappa分別提高了0.88和1.03個(gè)百分點(diǎn)。由此可以得出結(jié)論,多尺度跨層特征融合通過(guò)重復(fù)利用特征,有效地抑制了梯度消失,提高了分類精度。本文提出的方法與效果最接近的MCFFN 方法對(duì)比,OA、AA 和Kappa 值也分別提升了0.66、1.64和0.81個(gè)百分點(diǎn)。由此可以看出,通過(guò)采用空間注意力機(jī)制賦予低層特征不同的空間權(quán)重,采用譜注意力機(jī)制賦予高層特征不同的通道權(quán)重,優(yōu)化了特征圖,進(jìn)行特征選擇,對(duì)最終的分類結(jié)果起到了促進(jìn)作用。另外一個(gè)直觀的現(xiàn)象是,所有的基于3D CNN的方法的效果都要遠(yuǎn)遠(yuǎn)好于CNN方法,可以表明,同時(shí)提取空譜信息有助于提升分類精度。在帕維亞大學(xué)數(shù)據(jù)集的情況中,有著同樣的現(xiàn)象,本文方法的OA、AA 和Kappa同樣是最高的。與M3D CNN方法對(duì)比,OA、AA和Kappa值分別提升了0.42、0.77和0.56個(gè)百分點(diǎn);與最接近的MCFFN 方法對(duì)比,OA、AA和Kappa值分別提升了0.31、0.86和0.41 個(gè)百分點(diǎn)。在訓(xùn)練時(shí)間方面,CNN、3D CNN 和M3D CNN 的時(shí)間相差不大。但由于本文的方法加入了Attention機(jī)制,在兩種數(shù)據(jù)集上的訓(xùn)練時(shí)間都有小幅度增加。
為了更直觀地顯示結(jié)果,本文對(duì)結(jié)果進(jìn)行了可視化。在印第安松樹(shù)中,如圖4,16 種不同的顏色代表16種不同的分類,(a)代表原始標(biāo)簽,(b)~(f)依次表示不同的結(jié)果分類圖。在圖6 中,(a)~(e)依次表示不同的全圖分類效果圖??梢钥闯觯疚牡姆椒ǖ玫降慕Y(jié)果最接近原始標(biāo)簽,也更加平滑。帕維亞大學(xué)的分類結(jié)果如圖5和圖7所示,在圖5中,(a)仍然是原始標(biāo)簽圖,其他與圖4一樣,依次是不同方法的分類結(jié)果。圖7也與圖6一樣表示不同的全圖分類效果。本文的效果仍然是最好的,從圖中心橘黃色區(qū)域和右下角粉紅色區(qū)域可以很明顯地看出本文分類的錯(cuò)誤是最少的,也與原始標(biāo)簽是最接近的。
本文提出了一種MCFFN-Attention 方法,通過(guò)多尺度結(jié)構(gòu)充分提取了高光譜圖像的空譜信息,并且對(duì)空譜信息進(jìn)行融合。更重要的是,對(duì)融合的特征進(jìn)行空間和通道上的感知,賦予它們不同的權(quán)重并自動(dòng)更新這些權(quán)重,使整個(gè)網(wǎng)絡(luò)更有傾向性地學(xué)習(xí)重要的特征而忽略噪聲。最終得到更具有分辨力的特征,用于最后的分類。在兩個(gè)公用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的網(wǎng)絡(luò)極大地提升了分類精度,并且為高光譜圖像分類提供了一個(gè)新的思路,即在訓(xùn)練過(guò)程中對(duì)特征進(jìn)行選擇。但本文的方法仍有不足,所有的權(quán)重更新都是在一個(gè)網(wǎng)絡(luò)中完成的,而使用一個(gè)網(wǎng)絡(luò)去指導(dǎo)另一個(gè)網(wǎng)絡(luò)的權(quán)重更新將更加快速和有效。未來(lái)將進(jìn)行這方面的探索。