陶 洋,翁 善,林飛鵬,楊 雯
(重慶郵電大學 通信與信息工程學院,重慶 400065)
近年,高光譜成像技術已被廣泛應用于諸多領域[1,2]。高光譜具有波段數(shù)眾多、波段相關性強等特點,此類特點極易造成“維數(shù)災難”問題[3-5]。由于缺乏足夠的先驗知識,導致數(shù)據(jù)標注困難的問題。因此,相關學者提出無監(jiān)督的高光譜特征提取方法。基于流形學習[6,7]的無監(jiān)督特征提取方法可以發(fā)現(xiàn)高維數(shù)據(jù)中的低維流形結構,能有效表征高光譜數(shù)據(jù)的本征結構。流形學習方法可以統(tǒng)一在圖嵌入[7]框架下,通過頂點和邊來構建圖,利用邊表示兩個數(shù)據(jù)點之間的相似性。除了基于幾何特性的圖嵌入方法,Ly等[8]和Li等[9]還引入了稀疏表示方法揭示數(shù)據(jù)內(nèi)在關聯(lián)特性。然而,稀疏表示之所以有效是因為協(xié)同機制,故而放棄算法復雜度高的l1范數(shù),轉而利用簡單高效的l2范數(shù)最小化問題[10,11]。這些無監(jiān)督圖嵌入特征提取方法都屬于直接圖嵌入方法,即只考慮數(shù)據(jù)間的一元關系,但是高維數(shù)據(jù)往往存在多元復雜關系[12]。Yuan等[13]利用光譜信息構建超圖,表征數(shù)據(jù)之間的多元關系。但是,上述圖嵌入特征提取算法忽略了高光譜圖像的空間信息,研究已表明空譜聯(lián)合可提高特征提取性能[14,15]。本文中,提出無監(jiān)督空譜近鄰超圖嵌入(spatial-spectral neighbor hypergraph embedding,SSNHGE)特征提取算法,以無監(jiān)督的方式,發(fā)掘高光譜圖像的空譜近鄰關系,并且通過引入超圖模型去表征高維數(shù)據(jù)的多元復雜關系,提取有效的鑒別特征,提高地物分類精度。
超圖與普通圖的主要區(qū)別是邊的頂點個數(shù)不同,普通圖的邊僅有兩個頂點,然而超圖的邊可以有多個頂點。超圖模型可以表示為G={V,E,W}, 其定義請詳見參考文獻[13]。
根據(jù)定義,不同于普通圖一條邊包含兩個頂點,只能揭示數(shù)據(jù)兩兩之間的鄰近關系。超圖的邊可以包含任意多個頂點,所以比普通圖保留更多的信息。因此,超圖適用于表示數(shù)據(jù)復雜的多元關系。例如,圖1(a)為普通圖,圖1中有7個頂點,7條邊,每條邊僅能表示兩個頂點的關系。圖1(b)為超圖,有7個頂點,3條超邊,每條邊由某個點與其近鄰點組成,其對應的超圖關聯(lián)矩陣如圖1(c)所示,與普通圖對比,一條超邊里面的點被分解成多對鏈接關系,易導致在構造圖的過程中造成有價值的信息的丟失。由此可見,普通圖是無法很好地表征高維數(shù)據(jù)結構。
圖1 超圖與普通圖對比
SSNHGE算法的總體流程如圖2所示,先充分利用無標簽樣本的空間信息與光譜信息建立無監(jiān)督近鄰關系,繼而構建無監(jiān)督空譜近鄰超圖模型,然后利用超圖嵌入方法獲得低維投影矩陣,繼而獲得高光譜數(shù)據(jù)的低維嵌入特征,最后采用分類器對其分類,獲得地物分類結果。
圖2 SSNHGE算法流程
本文所提算法與其它同類算法相比,具有兩方面創(chuàng)新點。其一,傳統(tǒng)方法以局部矩形窗口構建空譜近鄰關系,由于訓練樣本少,易出現(xiàn)局部窗口內(nèi)未能找到近鄰點導致構圖失敗,以及在無監(jiān)督的情況下近鄰點的選擇易出現(xiàn)不合適的問題。為解決此類問題,利用全局空間結構信息尋找空間近鄰點集合,再從中選擇出光譜特征相似度最接近的近鄰點集合,由此構建有效的空譜近鄰關系;其二,有效地利用空譜信息構建超圖模型,以表征高維數(shù)據(jù)多元復雜關系,解決直接圖嵌入方法在構圖過程中沒有做到信息的有效利用,以及構圖時容易丟失有價值的信息的問題。
針對普通圖僅能表征數(shù)據(jù)之間的二元關系造成構圖過程中有效信息丟失的問題,引入超圖模型表征高維數(shù)據(jù)之間的多元復雜結構;針對帶標簽樣本獲取困難和傳統(tǒng)的圖嵌入方法僅采用光譜特征相似度對高光譜圖像中每個像元進行獨立處理,難以充分反映其本身的相似性的問題,可通過有效地挖掘高光譜圖像像元之間的空間相關性,再利用空間相關性提取高光譜圖像的空間信息,并協(xié)同光譜信息進行有效的近鄰的選取,克服在構造無監(jiān)督超圖過程中“同譜異物”或“異物同譜”等問題所帶來的不良影響。提出無監(jiān)督空譜近鄰超圖模型,根據(jù)高光譜數(shù)據(jù)每個像元的光譜信息和空間信息來構建超圖。首先,給定高光譜圖像的無標簽數(shù)據(jù)集V=[v1,v2,…,vN]∈RD×N, 其中,D和N是高光譜數(shù)據(jù)集的光譜維數(shù)和無標簽像元數(shù)。每個像元攜帶自身的空間坐標信息,可定義為vi(pi,qi), 其中,pi,qi代表像元vi的空間坐標信息。如此,構建以vi為中心的空間近鄰集合,根據(jù)vi與其它像元的曼哈頓距離構建其空間近鄰集合,可表示為
(1)
(2)
(3)
由超邊矩陣E可構建關鍵矩陣H,其關聯(lián)矩陣可定義為
(4)
(5)
頂點vi的度與超邊ei的度可表示為
(6)
(7)
根據(jù)式(5)、式(6)、式(7)可構建其超邊權重矩陣、頂點的度矩陣和超邊的度矩陣
(8)
(9)
(10)
超圖嵌入模型的目的是在特征學習的過程中,盡可能地保留高光譜數(shù)據(jù)局部空譜近鄰結構的同時,有效地在嵌入空間中提取出低維鑒別特征。通過式(4)、式(8)、式(9)和式(10)共同構建其目標函數(shù),表示為
(11)
(12)
其中,正則項VVT用于保持樣本的多樣性。對式(12)采用拉格朗日乘子法求解可得
VLVTP=λVVTP
(13)
求解式(13)的廣義特征值和特征向量,再對特征值進行升序排序,取排序后的前d個特征值所對應的特征向量重新構造成投影矩陣P∈RD×d, 低維嵌入特征可表示為Y=PTV∈Rd×N。 最后,SSNHGE算法的具體流程見表1。
表1 SSNHGE算法流程
采用公開的Indian Pines和Salinas高光譜圖像數(shù)據(jù)集,通過與同類型算法進行對比以驗證本文算法的有效性。同類型的特征提取算法含局部保持投影(locality preserving projection,LPP)[6]、近鄰保持投影(neighborhood prese-rving embedding,NPE)[7]、基于稀疏表示的稀疏保持圖嵌入(sparsity preserving graph embedding,SPGE)[8]特征提取算法、稀疏低秩保持圖嵌入(sparsity and low-rankness preserving graph embedding,SLPGE)[9]、協(xié)同表示圖嵌入(collaboration preserving graph embedding,CPGE)[10]以及協(xié)同競爭保持圖嵌入(collaboration-competition preserving graph embedding,CCPGE)[11]算法。為公平起見,實驗中利用各特征提取算法獲得到各低維嵌入特征后,統(tǒng)一采用支持向量機(support vector machines,SVM)分類器對各算法特征提取后的高光譜數(shù)據(jù)進行性能測試,然后利用總體分類精度(overall accuracy,OA)、平均分類精度(average accuracy,AA)和Kappa系數(shù)(kappa coefficient,KA)3種評價指標去評估各算法的性能。為提高實驗可靠性,每次實驗從高光譜數(shù)據(jù)集中以隨機的方式抽取訓練樣本,其余作為測試樣本,每組實驗重復10次,以平均值作為最終實驗結果。
(1)Indian Pines數(shù)據(jù)集為美國宇航局在1992年利用AVIRIS傳感器拍攝位于美國印第安納西北部地區(qū),其范圍為100 km2,其尺寸為145×145像素,共220個波段,0.4 μm~2.45 μm的光譜范圍,空間分辨率為20 m,剔除受水氣(噪聲)影響的波段后,剩余200個波段可用于實驗。該數(shù)據(jù)集含16類地物,如苜蓿(Alfalfa)、玉米(Corn)、小麥(Crop)等。該數(shù)據(jù)常用于農(nóng)業(yè)研究領域,但是,其中Corn,Soybean和Crop這3類地物光譜曲線相近、相似度小且類間光譜重疊大,此類特點使得分類難度大大提升。其假彩色圖、真實地物圖、類別標記圖及樣本信息如圖3所示,表2顯示了用于訓練和測試的樣本數(shù)量。
圖3 Indian Pines高光譜圖像
(2)Salinas是加利福尼亞州薩利納斯山谷區(qū)域高光譜數(shù)據(jù)。該數(shù)據(jù)集的空間尺寸為512×217像素,空間分辨率3.7 m,原始波段共224個,剔除受噪聲影響的波段后,剩余204個波段可用于研究實驗。該數(shù)據(jù)集含16類地物類別。圖4展示的是Salinas數(shù)據(jù)集的假彩色合成圖、樣本信息和類別標記圖。表3顯示了用于訓練和測試的樣本數(shù)量。
在實驗中需要分析兩個參數(shù),空間近鄰個數(shù)kspa和光譜近鄰個數(shù)kspe, 本文測試了kspa和kspe參數(shù)在不同設置下對總體分類精度影響的實驗,其中kspe必須小于kspa參數(shù),若大于其值,kspe將失去意義。kspa參數(shù)設置為 {8,10,12,14,16,18,20,22,24,26},kspe參數(shù)設置為 {4,6,8,10,12,14,16,18,20,22}。 圖5顯示了SSNHGE算法在Indian Pines和Salinas數(shù)據(jù)集上,kspe和kspa參數(shù)的變化對總體分類精度的影響。
從圖5可以看出選擇合適的參數(shù)對其分類精度有較大的影響,首先分析空間近鄰個數(shù)對總體分類精度的影響,隨kspa增大其分類效果呈現(xiàn)先增大后減少,這說明空間近鄰
表2 Indian Pines數(shù)據(jù)集的訓練及測試樣本數(shù)量
表3 Salinas數(shù)據(jù)集的訓練及測試樣本數(shù)量
圖4 Salinas高光譜圖像
圖5 kspa和kspe參數(shù)對總體分類精度的影響
點過多,會導致本文算法不能有效表征同類數(shù)據(jù)間的本征結構。其原因是,當空間距離越大,像元的相似度也就越低,選取異類像元作為近鄰點的可能性也就越大,當近鄰結構圖中異類點越多,同類數(shù)據(jù)間的本征結構表示效果越差。然后分析光譜近鄰個數(shù)對總體分類精度的影響,隨著kspe增大,其分類效果呈下降趨勢,這說明光譜特征近鄰點多會影響本文算法對數(shù)據(jù)的表征性能。其原因是,同樣的光譜距離參數(shù)設置越大,引入噪點的幾率越高,繼而破壞鑒別特征提取性能,導致分類精度下降,故而選擇合適的光譜距離和空間距離至關重要。所以,根據(jù)圖5中的實驗結果選出最優(yōu)參數(shù),在Indian Pines數(shù)據(jù)集上,kspa為20,kspe為4時其總體分類效果最佳;在Salinas數(shù)據(jù)集上,kspa為18,kspe為4時其總體分類效果最佳。
高光譜數(shù)據(jù)的分類性能會受特征提取算法維數(shù)的影響。圖6顯示了LPP、NPE、CPGE、SPGE、SLPGE、CCPGE和SSNHGE特征提取算法在不同的特征提取維數(shù)d下的總體分類情況。從圖6可知,無論是哪個數(shù)據(jù)集,各特征提取算法在特征提取維數(shù)d增加的情況下總體分類呈向上的趨勢,且當提取特征的維數(shù)達到某個值后,各類算法的總體分類精度逐漸趨于穩(wěn)定。例如,在Indian Pines數(shù)據(jù)集中特征提取維數(shù)d達到20后,各算法的總體分類精度趨于平緩;在Salinas數(shù)據(jù)集中特征提取維數(shù)d達到10后,各算法的分類精度趨于平緩。在圖6中,很容易看出SSNHGE算法的總體分類精度在兩個數(shù)據(jù)集上分類精度明顯優(yōu)于其它算法,尤其在Indian Pines數(shù)據(jù)集上,SSNHGE算法分類精度明顯高于其它算法??梢则炞C,本文所提出的算法能夠提取出有效的鑒別特征。
表4、表5所顯示的是各類算法在兩個高光譜數(shù)據(jù)集上的分類結果,含各特征提取算法對每一種地物分類精度、平均地物分類精度、總體地物分類精度以及Kappa系數(shù),粗體數(shù)字為最優(yōu)分類評價指標。圖7展示的是Indian Pines數(shù)據(jù)集經(jīng)過所提算法與同類算法特征提取后的分類結果圖;各類算法在Salinas數(shù)據(jù)集上特征提取后的分類結果,如圖8所示。
圖6 維數(shù)d對總體分類的影響
表4 各類算法在Indian Pines數(shù)據(jù)集的分類結果
表5 各類算法在Salinas數(shù)據(jù)集上的分類結果
由表4可知,在Indian Pines數(shù)據(jù)集中,SSNHGE算法在大多數(shù)的地物分類中取得了較好的分類效果,評價指標OA、AA和KA在所有算法中是最好的。SSNHGE算法的OA為80.42%比CCPGE高3.85%,而傳統(tǒng)的LPP只有68.18%;SSNHGE算法的AA為75.22%比CCPGE高6.96%,而傳統(tǒng)的LPP只有57.12%,具有明顯的優(yōu)勢,驗證了SSNHGE算法的魯棒性和有效性。在圖7中,SSNHGE算法在“Corn-notill”,“Grass-pasture”和“Grass-trees”等區(qū)域錯分點少,表現(xiàn)出了較好的效果,這是由于其它圖嵌入算法僅考慮光譜信息進行構圖,忽略了不同像元在空間上的關系。而所提算法有效地將空間信息融入,依據(jù)空間上距離越近,其像元越大的概率屬于同類地物的原則,從距離較近的空間像元尋找光譜特征最相似的像元去構造無監(jiān)督空譜近鄰關系。通過該方法可有效地抑制噪點帶來的影響,緩解同譜異物的問題,繼而獲得較好的分類效果。
圖7 各類算法在Indian Pines數(shù)據(jù)集上特征提取后的分類結果
圖8 各類算法在Salinas數(shù)據(jù)集上特征提取后的分類結果
各類算法在Salinas數(shù)據(jù)集上的分類性能見表5,SSNHGE算法對大部分地物都具較高的識別率,其OA、AA和KA指標同樣優(yōu)于其它各類算法。這說明與其它直接圖嵌入算法對比,超圖學習能夠有效表征數(shù)據(jù)之間本征結構,揭示數(shù)據(jù)之間的內(nèi)蘊關系,突出其鑒別特征。并且有效地融入空間信息后更有利于提取鑒別特征,提高地物分類性能。由圖8可知,SSNHGE算法在“Fallow_smooth”,“Brocoli_green_weeds_2”和“Fallow”等區(qū)域錯分點少,表現(xiàn)出了較好的效果,且地物分布效果平滑,進一步驗證了所提算法的有效性。
最后,為探究訓練樣本對分類效果的影響,進行了一組不同的訓練樣本個數(shù)對分類精度的影響,并且在兩個數(shù)據(jù)集上進行了驗證。對于Indian Pines數(shù)據(jù)集,訓練樣本數(shù)量與總數(shù)量比為 {1/10,1/9,1/8,1/7,1/6}; Salinas數(shù)據(jù)集為 {0.01,0.02,0.03,0.04,0.05}。 如圖9所示,各算法的分類精度與訓練數(shù)據(jù)量成正比,驗證樣本信息越豐富,越能有效提取鑒別特征,其分類精度也就越高。同時,在Indian Pines數(shù)據(jù)集中,SSNHGE的分類精度明顯優(yōu)于其它算法,Salinas數(shù)據(jù)集在0.03之后也明顯優(yōu)于其它算法,說明與其它算法相比,所提算法能夠達到更優(yōu)的特征提取效果與分類效果。
圖9 維數(shù)d對總體分類的影響
為了將SSNHGE算法與LPP、NPE、SPGE、SLPGE、CPGE和CCPGE算法的運行時間進行對比。選用Indian Pines數(shù)據(jù)集和Salinas數(shù)據(jù)集,在Intel(R) Core(TM) i5-8400處理器,16G內(nèi)存平臺上使用MATLAB進行實驗。如表6所示,各類算法在Indian Pines和Salinas數(shù)據(jù)集上的運行時間,可以看出SPGE、CPGE、SLPGE和CCPGE這4個算法運行時間遠高于SSNHGE算法,這是因為稀疏約束或低秩約束需要較大的計算資源。與SPGE、CPGE、SLPGE和CCPGE相比,SSNHGE算法的運行時間最少且分類性能最高。LPP、NPE和SSNHGE運行時間遠低于其它圖嵌入算法,SSNHGE算法的運行時間略高于LPP和NPE。但SSNHGE算法分類性能高于LPP和NPE算法。這是因為LPP和NPE算法僅利用局部信息構造圖,而SSNHGE算法能夠有效地融入空間信息并利用超圖學習提取鑒別特征,提高地物分類精度。
表6 各類算法在Indian Pines和Salinas數(shù)據(jù)集上的運行時間
經(jīng)過一系列的實驗,將SSNHGE算法與其它無監(jiān)督圖嵌入特征提取算法對比,本文提出的無監(jiān)督空譜近鄰超圖嵌入特征提取算法在地物分類準確性和運行時間方面都具有優(yōu)勢。
針對高光譜圖像數(shù)據(jù)標注困難,空間和光譜信息利用不充分以及傳統(tǒng)圖嵌入無法表征高維數(shù)據(jù)之間復雜結構的問題,本文提出一種無監(jiān)督空譜近鄰超圖嵌入特征提取算法,在無監(jiān)督情況下,利用空間和光譜信息建立有效的近鄰關系去構建超圖模型,揭示高光譜數(shù)據(jù)的多元復雜關系,實現(xiàn)有效的鑒別特征提取。在公開的高光譜圖像Indian Pines與Salinas數(shù)據(jù)集上進行一系列實驗后,其實驗結果表明,SSNHGE算法無論在分類精度上還是其它性能方面都優(yōu)于同類算法。