曲海成, 郭月, 王媛媛
(遼寧工程技術(shù)大學軟件學院,葫蘆島 125105)
隨著高光譜遙感技術(shù)迅速發(fā)展,成像光譜儀能夠捕獲地表物質(zhì)精準的光譜響應和空間細節(jié)特征。通過有效分析與利用豐富的地表物質(zhì)信息,可對遙感地物進行更細致的分類[1]。然而,高光譜圖像中豐富的光譜信息意味著其波段數(shù)量(維數(shù))較多,波段間信息冗余和高度相關(guān)不可避免。另外,由于高光譜圖像標記樣本成本昂貴,分類所用的訓練樣本數(shù)量有限且維數(shù)較高,如果直接對高光譜圖像數(shù)據(jù)集進行分類,易發(fā)生Huges現(xiàn)象[2-3]。因此,降維處理通常作為高光譜圖像分類的預處理環(huán)節(jié)。高光譜圖像降維方法通常分為特征提取和波段選擇2大類。特征提取方法是以數(shù)據(jù)變換的形式實現(xiàn)對光譜數(shù)據(jù)的降維(如主成分分析、獨立成分分析)。而波段選擇(也稱特征選擇)則是直接從原始高光譜數(shù)據(jù)上百個波段中挑選出有效且有意義的波段子集。與特征提取方法相比,波段選擇方法選取的波段子集,保留了原始波段的物理意義與地表物質(zhì)的原始光譜特性,易于解釋[4]。
波段選擇方法根據(jù)是否需要樣本標記信息可分為監(jiān)督和無監(jiān)督2大類。監(jiān)督波段選擇方法需要已知的樣本標記信息進行訓練學習,可明確地選擇含有地物重要信息的波段,如光譜角度制圖法、光譜混合距離法和光譜相關(guān)系數(shù)法等。然而在實際應用中,高光譜圖像可用的標記樣本信息有限,因此,在這種情況下無監(jiān)督波段選擇方法更適用[5-6]。由于不需要樣本標記信息,無監(jiān)督波段選擇方法通?;诰垲惖姆绞綄Ω吖庾V圖像進行波段選擇。在眾多聚類算法中,優(yōu)勢集聚類算法[7-13]是由優(yōu)勢集理論[10]產(chǎn)生的一種基于圖論的聚類算法,在各領域應用中展現(xiàn)出良好的聚類性能,如圖像分割[11]、目標檢測[12]和人類活動分析[13]等。Hou等[8]提出基于優(yōu)勢集的簡單特征組合方法,該方法利用優(yōu)勢集聚類對支持向量機分類器中核矩陣進行加權(quán)處理,有效提升了分類器泛化能力。而傳統(tǒng)的無監(jiān)督波段選擇方法通常根據(jù)圖像的原始光譜信息來選擇最優(yōu)波段子集,并且以不同的統(tǒng)計方法測量波段的信息量和差異程度。高光譜圖像是一個三維立方體,具有豐富的結(jié)構(gòu)信息,有意義的結(jié)構(gòu)信息利用是有效的。為此,Zhu等[9]提出了基于優(yōu)勢集聚類的波段選擇方法,該方法先利用局部空間信息和譜間信息(簡稱空譜)一致性分析圖像結(jié)構(gòu)信息,完成對波段信息量和差異程度的度量,再利用優(yōu)勢集聚類完成波段選擇,最后與多種分類器相結(jié)合對圖像進行分類,均獲得了較好的結(jié)果。因此,本文選擇基于優(yōu)勢集聚類的波段選擇方法作為高光譜圖像分類應用的預處理方法,實現(xiàn)數(shù)據(jù)特征提取和特征降維。
高光譜圖像分類通常分為特征降維和分類器設計2個方面,傳統(tǒng)分類器通?;诠庾V信息進行分類,如支持向量機、K最近鄰和隨機森林等。由于受光照等外在因素的影響,成像光譜儀所獲取的高光譜遙感影像往往存在“同物異譜”和“異物同譜”現(xiàn)象[14],僅依靠光譜信息進行分類很容易出現(xiàn)錯分,產(chǎn)生“椒鹽”現(xiàn)象。為此,基于馬爾科夫隨機場的分類后處理方法[15-17]利用相鄰像元標簽的局部空譜一致性將像元分類與圖像分割方法統(tǒng)一起來,將光譜與空間信息以組合的形式綜合利用圖像上下文信息,已被廣泛應用于高光譜圖像分類。鮑蕊等[18]提出綜合聚類和上下文特征的高光譜圖像分類方法,該方法將聚類信息與隱馬爾科夫隨機場模型相結(jié)合獲取圖像的空間信息并對圖像進行分類,實驗證明該方法有效彌補了單純基于光譜信息進行圖像分類的不足。
綜上所述,為有效利用高光譜圖像局部空譜一致性分析獲取的空間信息,本文將基于優(yōu)勢集聚類波段選擇方法與基于馬爾科夫隨機場的分類后處理方法相結(jié)合,提出基于優(yōu)勢集聚類和馬爾科夫隨機場的高光譜圖像分類算法(dominant sets clustering and Markov random fields,DSSM)。
選取基于優(yōu)勢集聚類的波段選擇算法[9]作為高光譜數(shù)據(jù)的特征降維預處理方法。該算法主要分為2個部分: ①結(jié)構(gòu)感知度量,在結(jié)構(gòu)信息提取的基礎上進行波段信息量和差異程度度量; ②圖形表示和優(yōu)化,利用優(yōu)勢集聚類算法將波段選擇問題轉(zhuǎn)化為圖形表示,選擇出特征差異最大的波段子集。
高光譜圖像波段選擇的第一步通常是直接對波段進行信息量和差異程度2方面的度量,忽視了高光譜立方體空間結(jié)構(gòu)信息的利用,而結(jié)構(gòu)上有意義的信息對波段選擇度量才是有利的。為此,通過局部空譜一致性分析,利用高光譜圖像自身結(jié)構(gòu)信息,完成對波段信息量和差異程度的度量。為簡化計算,在對高光譜數(shù)據(jù)進行局部空譜一致性分析之前需要先進行歸一化預處理。具體算法描述如下:
(1)
(2)
(3)
式中:Hl(i,j)表示高光譜圖像第l波段對應的圖像中坐標為(i,j)的像元樣本值;dx(i,j,l),dy(i,j,l)和dz(i,j,l)分別表示該像元樣本的水平,垂直和光譜梯度值。然后,將Hl生成的梯度圖進行二值化表示,即
(4)
將二值化后的結(jié)果制定一個局部空譜一致性的判別函數(shù),即
(5)
式中⊕和 │ 分別表示布爾運算中異或(XOR)和或(OR)操作。若Dl(i,j)=0,則表示局部空譜一致; 否則為局部空譜不一致。
(6)
(7)
式中:dl為Dl的矢量轉(zhuǎn)換;γ為調(diào)整參數(shù),一般實驗設為0.5。這個定義產(chǎn)生一個對稱的差異性矩陣L=(lk),且lk=kl。由于每個波段都是自相關(guān)的,因此L的主對角線上的元素被約束為0。
通過高光譜圖像的結(jié)構(gòu)分析完成了對波段信息量和獨立程度的度量,下一步則是最優(yōu)波段子集的篩選,利用優(yōu)勢集聚類方法將波段選擇問題轉(zhuǎn)化為圖形表示,完成波段選擇。
具體來講,先構(gòu)造無向加權(quán)圖G=(V,E,f,g),其中V={1,…,N}為N個光譜波段的頂點集合,E?V×V為邊緣集。根據(jù)上述波段信息量和差異程度的度量公式,圖G的頂點集和邊緣集的權(quán)重函數(shù)分別定義為f(l)=θl和g(l,k)=lk。
假定S?V為非空頂點子集,l∈S且k?S。波段l關(guān)于波段k的內(nèi)部相關(guān)性可表示為
(8)
波段l與k的外部相關(guān)性定義為
(9)
然后,對于頂點集S,波段l的權(quán)值可用遞歸形式表示為
(10)
式中:S{l}為除去波段l的集合;wS(l)為l與在S{l}中的頂點之間相關(guān)整體連接的度量。
頂點集S的內(nèi)部總權(quán)值為
(11)
根據(jù)優(yōu)勢集的定理[10],優(yōu)勢集的求解問題可轉(zhuǎn)化為二次規(guī)劃問題,即
(12)
式中: 關(guān)系矩陣A=YLY;Y=diag(Θ),Θ=(θl,…,θN);Δ={z∈RN: (z≥0)∧(eTz=1)}。
二次規(guī)劃問題通??捎蓮椭苿討B(tài)方程來求解,即
(13)
式中t為迭代次數(shù),該方程可保證約束條件Δ在動態(tài)下是不變的。
由上文可知,基于優(yōu)勢集聚類的波段選擇方法通過分析高光譜圖像局部空譜一致性,將空間信息引入波段信息量和差異程度的度量,再利用優(yōu)勢集聚類從全局角度完成波段選擇,最終獲取的最優(yōu)波段子集保留原始數(shù)據(jù)有意義的空間信息。為了有效利用波段選擇后高光譜圖像的空間信息,結(jié)合基于馬爾科夫隨機場分類后處理方法,將獲取的波段子集作為概率支持向量機(probabilistic support vector machine,PSVM)的輸入特征進行分類,再將獲得的分類圖應用馬爾科夫隨機場通過圖像局部空譜一致性分析利用空間信息進行優(yōu)化處理,從而高效完成高光譜圖像分類。
圖像分類的目的實質(zhì)是對圖像進行標記,即在觀察x時估計y。根據(jù)Bayes準則,即
(14)
式中:P(y)表示在標簽上y的先驗概率;P(x)為觀測x所給定的,即其為一個常量;P(x|y)為給定標簽y來觀測數(shù)據(jù)x的條件概率(即似然函數(shù))。因此有
P(y|x)∝P(x|y)P(y)。
(15)
可將式(14)的條件概率求解問題轉(zhuǎn)化成通過最大化后驗分布對觀測x的估計,即對MAP(maximum a posterior)的估計。
因此,通過最大化后驗分布可以給出分類結(jié)果,表達式為
(16)
式中:M表示圖像中含有像元總個數(shù);P(yi|xi)可以使用PSVM進行建模獲??;P(y)通過利用相鄰像元局部相關(guān)性的馬爾可夫隨機場建模得到。P(y)的表達式為
(17)
式中:C為歸一化參數(shù);W(yi,yj)表示相鄰像元i和j之間的空間相關(guān)性函數(shù);Me為相鄰像元的集合(本文采用8鄰域)。為了計算函數(shù)W(yi,yj),采取Potts模型[17]求解,即
W(yi,yj)=β[1-δ(yi,yj)],
(18)
W(yi,yj)=β[1-δ(yi,yj)]exp[-d(xi,xj)] ,
(19)
(20)
(21)
式中d(xi,xj)表示xi和xj之間的差異。Wij較大,表示xi和xj為不同類別邊緣的相鄰像元,在模型優(yōu)化后,yi和yj采用不同的標簽; 而Wij較小,表示xi和xj為同類別區(qū)域內(nèi)的相鄰像元,模型優(yōu)化后,yi和yj采用相同的類標簽。
然后,基于P(yi|xi)和P(y),最終給出MAP結(jié)果為
(22)
最終,標簽結(jié)果可以通過最小化式(22)由有效的基于圖切割擴展算法[19]求解獲得。
DSSM算法首先通過基于優(yōu)勢集波段選擇算法對歸一化處理后的高光譜數(shù)據(jù)實現(xiàn)特征提??; 再將獲取的特征應用PSVM進行分類; 最后,利用馬爾科夫隨機場分類后處理方法將分類問題轉(zhuǎn)化為最大后驗概率的求解問題,從而實現(xiàn)高光譜圖像的分類。DSSM算法流程如圖1所示。
圖1 DSSM算法流程
DSSM算法具體實現(xiàn)過程如下。
輸入: 高光譜數(shù)據(jù)X∈RH×W×N,類別個數(shù)為K,其中H和W分別為高光譜數(shù)據(jù)的空間維度的長度和寬度,N為光譜維度上的波段數(shù)。
步驟6: 將P(y|x)和P(y)進行MAP處理,利用基于圖切割擴展算法求解MAP判別函數(shù)。
輸出: 分類結(jié)果。
選用Indian Pines與Pavia University高光譜遙感影像作為實驗的數(shù)據(jù)集,檢驗算法性能。
1)Indian Pines數(shù)據(jù)集: 該數(shù)據(jù)集是由AVIRIS傳感器獲取的覆蓋印第安納州西北部某農(nóng)業(yè)區(qū)域的高光譜遙感影像。該圖像大小為145像素×145像素,空間分辨率為20 m,光譜范圍從0.4~2.5 μm,含有16種地物類別; 去除大氣水分和信噪比低的波段,剩余200個波段。該數(shù)據(jù)集的真實地物標記信息如表1所示。
表1 Indian Pines數(shù)據(jù)集的真實地物類別標記信息
2)Pavia University數(shù)據(jù)集: 該數(shù)據(jù)集是由ROSIS傳感器采集覆蓋Pavia大學區(qū)域的高光譜遙感影像,圖像大小為610像素×340像素,空間分辨率為1.3 m,光譜范圍0.43~0.86 μm,含有9種地物類別; 去除大氣水分和信噪比低的波段,剩余103個波段。該數(shù)據(jù)集的真實地物標記信息如表2所示。
表2 Pavia University數(shù)據(jù)集的真實地物類別標記信息
為驗證算法有效性,DSSM算法與單獨使用SVM算法、優(yōu)勢集聚類與SVM結(jié)合的算法(DS-SVM)、優(yōu)勢集聚類與K最近鄰結(jié)合的算法(DS-KNN)、優(yōu)勢集聚類與隨機森林結(jié)合的算法(DS-RT)進行對照實驗。由于SVM算法在小樣本下有著良好分類性能,因此,為了驗證本文提出的算法在小樣本下的有效性,本文分別在Indian Pines和Pavia University這2組數(shù)據(jù)集中隨機選取10%作為訓練樣本,剩下的90%則作為測試樣本進行實驗,所有實驗重復運行20次,將20次的分類精度均值作為實驗結(jié)果?;赟VM分類的算法,都采用高斯徑向基核函數(shù)(Gaussian radial basis function,RBF),在(γ=2-5,2-4,…,25,c=2-5,2-4,…,25)范圍內(nèi)經(jīng)5次交叉驗證選取核半徑參數(shù)和懲罰參數(shù)。
為驗證算法的有效性,圖2為DSSM算法在Indian Pines和Pavia University這2組數(shù)據(jù)集中不同特征數(shù)下的總體分類精度(overall accuracy,OA)。
(a) Indian Pines數(shù)據(jù)集(b) Pavia University數(shù)據(jù)集
對于Indian Pines數(shù)據(jù)集,特征數(shù)達到60后,OA趨于平穩(wěn); 當特征數(shù)達到100時,OA最高為94.16%; 特征數(shù)從140增加到200時,OA存在減小的趨勢。對于Pavia University數(shù)據(jù)集,特征數(shù)達到40后,OA趨于平穩(wěn)。較多的特征數(shù)意味著算法計算量的增加,因此,本文分別在Indian Pines和Pavia University這2組數(shù)據(jù)集選取的特征數(shù)量為60和40進行實驗。
為更進一步驗證DSSM算法的有效性,本文將DSSM與SVM,DS-SVM,DS-KNN和DS-RT這4種經(jīng)典算法進行對照實驗。為了直觀驗證DSSM算法的有效性,圖3和圖4分別為在Indian Pines和Pavia University數(shù)據(jù)集上真實地物和不同算法的分類結(jié)果。不同算法分別在Indian Pines和Pavia University這2組數(shù)據(jù)集上的OA和Kappa系數(shù)如表3所示。
(a) 真實地物 (b) SVM算法 (c) DS-SVM算法
(d) DS-KNN算法 (e) DS-RF算法 (f) DSSM算法
(a) 真實地物 (b) SVM算法 (c) DS-SVM算法
(d) DS-KNN算法 (e) DS-RF算法 (f) DSSM算法
圖4 Pavia University數(shù)據(jù)集上不同算法的分類結(jié)果
從圖3和圖4均可直觀地看出,除DSSM算法,其他算法的分類結(jié)果都有著較嚴重的“椒鹽”現(xiàn)象和較多同類別地物內(nèi)部區(qū)域的錯分點,尤其是DS-KNN和DS-RT算法,而DSSM算法分類結(jié)果中僅具有較少的“椒鹽”現(xiàn)象和同類別地物內(nèi)部區(qū)域的錯分點,更接近于數(shù)據(jù)集的真實地物圖。從表3也可以看出,相對于其他4種經(jīng)典算法,本文提出的DSSM算法在Indian Pines和Pavia University這2組數(shù)據(jù)集中均獲得了較高的OA和Kappa系數(shù)。在Indian Pines數(shù)據(jù)集上,DSSM算法的OA比SVM算法大約提升了15%,比DS-SVM算法提升了大約10%,比DS-KNN和DS-RT算法提升的更多,分別提升了大約20%和22.5%,并且Kappa系數(shù)最高。在Pavia University數(shù)據(jù)集上,DSSM算法的OA比SVM算法大約提升了3.5%,比DS-SVM算法提升了大約6%,比DS-KNN和DS-RT算法提升的更多,分別提升了大約13%和12%,并且Kappa系數(shù)最高。由此可得,本文提出的DSSM算法有效利用高光譜圖像光譜和空間信息,改善了分類結(jié)果中的“椒鹽”現(xiàn)象,并減少了錯分點,有效提高了分類精度。
1)基于優(yōu)勢集聚類的波段選擇方法,可選擇出保留良好結(jié)構(gòu)信息的最優(yōu)波段子集。雖然將獲取的波段子集作為SVM算法的輸入特征,可有效提升總體分類精度,但是由于分類過程中忽視高光譜圖像空間信息的利用,造成分類結(jié)果存在較多“椒鹽”現(xiàn)象和錯分點。
2)為有效利用基于優(yōu)勢集聚類方法選擇的保留良好空間信息的最優(yōu)波段子集,本文提出基于優(yōu)勢集聚類和馬爾科夫隨機場的高光譜圖像分類算法(DSSM)。該算法通過馬爾可夫隨機場對經(jīng)優(yōu)勢集聚類方法進行波段選擇后的高光譜圖像相鄰像元建立局部空譜一致性,利用空間上下文信息修正初始分類結(jié)果,實現(xiàn)了高光譜圖像自身空間和光譜信息的有效挖掘與利用,進一步提高了分類精度。
3)在Indian Pines和Pavia University這2組數(shù)據(jù)集上的實驗結(jié)果表明,相對于現(xiàn)有的幾種經(jīng)典算法,本文提出的DSSM算法有效改善分類識別結(jié)果中的“椒鹽”現(xiàn)象和錯分點,并且在總體分類精度上有著明顯提升。