汪少華,楊 婷
(1. 石河子大學(xué)農(nóng)學(xué)院,新疆 石河子 832000; 2. 石河子大學(xué)理學(xué)院,新疆 石河子 832000)
高光譜成像是一個(gè)利用高光譜分辨率成像儀獲取二維空間影像的遙感技術(shù),其影像光譜覆蓋上百個(gè)連續(xù)可見光、近紅外和短波紅外波段,每個(gè)像元對(duì)應(yīng)一條連續(xù)完整的光譜曲線。高光譜遙感技術(shù)已在諸如人臉識(shí)別[1]、行星探測[2]及生物學(xué)[3]等領(lǐng)域得到了廣泛應(yīng)用。由于高光譜影像具有波段多、相鄰波段高相關(guān)性的特點(diǎn),使得每個(gè)像元的光譜數(shù)據(jù)冗余度非常高;同時(shí)由于每個(gè)像素位于高維的影像數(shù)據(jù)空間中,對(duì)高光譜圖像進(jìn)行目標(biāo)探測、影像分割、像元分類及光譜解混過程時(shí),將會(huì)增加計(jì)算復(fù)雜度并降低結(jié)果精度[4]。為了解決這些問題,數(shù)據(jù)的降維成為必然選擇。
高光譜數(shù)據(jù)降維主要有兩種途徑:一是通過對(duì)數(shù)據(jù)的轉(zhuǎn)換將數(shù)據(jù)維度減少,稱為特征提取,如典型的主成分分析(principal component analysis,PCA)算法,通過對(duì)數(shù)據(jù)方差信息最大化的方法對(duì)數(shù)據(jù)降維[5];二是從眾多波段中選擇感興趣的若干波段,稱為特征選擇,如利用光譜一階微分和二階微分選擇差異性大的波段對(duì)高光譜數(shù)據(jù)進(jìn)行降維[6]、利用密集采樣和高光譜度量來分析不同樹種的光譜特征,選擇出對(duì)應(yīng)波段進(jìn)行分類[7]。本文將研究利用波段的特征提取對(duì)高光譜數(shù)據(jù)進(jìn)行降維。
流形學(xué)習(xí)(manifold learning)是非線性降維特征提取所采用的主要方法之一,通過將高維數(shù)據(jù)在特征空間中對(duì)應(yīng)的點(diǎn)用非線性方法轉(zhuǎn)換到低維流形上實(shí)現(xiàn)高維數(shù)據(jù)降維。目前國際上主要的流形學(xué)習(xí)算法包括局部線性嵌入(locally linear embedding,LLE)[8]、ISO特征映射(ISOMAP)[9]、拉普拉斯特征映射(Laplacian eigenmaps,LE)[10]、Hessian特征映射(Hessian eigenmaps,HLLE)[11]、局部切空間排列(local tangent space alignment,LTSA)[12]和基于流形對(duì)齊的分類算法[13]等。這些算法都是非監(jiān)督降維方法,對(duì)分類效果有局限性。本文將通過利用高光譜影像中的訓(xùn)練樣本進(jìn)行局部信息判別分析,并將其加入到已經(jīng)建立的流形學(xué)習(xí)框架中,實(shí)現(xiàn)對(duì)高光譜數(shù)據(jù)有針對(duì)性的光譜降維,以提高影像的分類精度。
Hyperion高光譜遙感影像具有242個(gè)波段,其分辨率為30 m×30 m,光譜范圍為355~2577 nm。本文獲取的Hyperion數(shù)據(jù)成像時(shí)間為2004年5月6日,該數(shù)據(jù)已經(jīng)過輻射定標(biāo),以及斑點(diǎn)去除、回波校正、幾何校正、壞像元恢復(fù)等一系列預(yù)處理;同時(shí)再對(duì)許多非正常像元或目視檢測質(zhì)量差的波段進(jìn)行剔除,得到質(zhì)量較好的126個(gè)波段用于接下來的遙感數(shù)據(jù)分析處理。本文的研究區(qū)域?yàn)樯指采w率較高的杭州市余杭區(qū)百丈鎮(zhèn)和鸕鳥鎮(zhèn)、臨安市高虹鎮(zhèn)、安吉縣山川鄉(xiāng)和天荒坪鎮(zhèn)交界處,遙感圖像大小為462×987像素(如圖1所示)。
圖1 研究區(qū)高光譜影像數(shù)據(jù)
根據(jù)實(shí)際調(diào)查情況將研究區(qū)域森林樹種分為毛竹、雷竹、杉木、闊葉林和馬尾松5個(gè)樹種及樹種組,每個(gè)樹種選擇30個(gè)以上的樣地共計(jì)179個(gè)樣地。圖1中分別標(biāo)出了這5個(gè)樹種組的典型對(duì)應(yīng)光譜曲線,以及居民點(diǎn)和水體兩個(gè)地類的對(duì)應(yīng)光譜曲線圖。采用手持GPS進(jìn)行野外樣地調(diào)查時(shí),沿著每個(gè)樣地走一圈得到樣地范圍和位置,并利用ArcGIS軟件對(duì)調(diào)查樣地進(jìn)行投影轉(zhuǎn)換處理,使調(diào)查樣地與遙感圖像坐標(biāo)相匹配,利用Erdas軟件將樣地對(duì)應(yīng)的遙感數(shù)據(jù)提取出來作為遙感圖像分類參考樣本;同時(shí)為了進(jìn)行數(shù)據(jù)的深入分析與評(píng)價(jià),通過目視判圖與實(shí)際比較,從遙感圖中提取水體與居民點(diǎn)兩類主要非林地參考樣本點(diǎn)補(bǔ)充進(jìn)有林地分類參考樣本中(見表1)。
表1 樣地調(diào)查表
當(dāng)前國際上采用的流形學(xué)習(xí)算法框架主要為圖嵌入框架[14]和片排列框架[15]兩種。本文根據(jù)高光譜遙感圖像中對(duì)應(yīng)的調(diào)查樣地樣本集,提出一種基于判別局部片排列(discriminant locality alignme-nt,DLA)的流形學(xué)習(xí)算法降低原高維光譜數(shù)據(jù)特征空間的維數(shù),并比較分析樣本數(shù)據(jù)集在不同的流形子空間的可分離性,然后分別采用最大似然分類器對(duì)遙感圖像中的每個(gè)像素進(jìn)行分類。
(1)
對(duì)于每一個(gè)樣本的片排列Xi,在某一低維特征空間的對(duì)應(yīng)輸出記為
(2)
在低維特征輸出空間中,期望同類的樣本間距離更近,同時(shí)不同類的樣本距離更遠(yuǎn),從而達(dá)到類別的高判別性,如圖2所示。
圖2 DLA的局部優(yōu)化示意圖
對(duì)于低維子空間中的各個(gè)樣本片排列Yi,期望yi和與之同類的樣本距離更近,記為
(3)
同時(shí),期望yi和與之不同類的樣本間距離更遠(yuǎn),記為
(4)
由于由局部鄰近域所構(gòu)成的片排列可以近似看成是線性的[16],于是可將式(3)、式(4)用線性的方法統(tǒng)一起來,用目標(biāo)函數(shù)表示為
(5)
式中,度量參數(shù)β∈[0,1],用來統(tǒng)一同類樣本間與不同類樣本間的距離。這里,定義系數(shù)向量為
(6)
將式(5)化簡為
(7)
(8)
將所有樣本集中的每個(gè)片排列目標(biāo)函數(shù)即式(7)統(tǒng)一,判別流形學(xué)習(xí)算法的目標(biāo)函數(shù)可以表示為
(9)
根據(jù)線性化模型,將Y=UTX代入式(9)得到目標(biāo)函數(shù)為
(10)
式中,UTU=Id。
對(duì)于式(9)、式(10)這一基本的優(yōu)化問題,可以利用拉格朗日乘子法得到其最優(yōu)解。通過對(duì)XLXT的標(biāo)準(zhǔn)特征值分解,得到優(yōu)化問題式(10)的最優(yōu)解即為特征值分解式(11)中的d個(gè)最小非零特征值對(duì)應(yīng)的特征向量組合
(11)
PCA通過最大化數(shù)據(jù)集X的點(diǎn)矩陣在投影子空間中的跡,得到目標(biāo)函數(shù)為
(12)
(13)
(14)
與DLA方法同理,將所有樣本集中的每個(gè)片排列目標(biāo)函數(shù)統(tǒng)一,判別流形學(xué)習(xí)算法的目標(biāo)函數(shù)可以表示為
(15)
將Y=UTX代入(15)得到目標(biāo)函數(shù)為
(16)
通過對(duì)XLXT的標(biāo)準(zhǔn)特征值分解,得到優(yōu)化問題式(16)的最優(yōu)解即為特征值分解式(17)中的d個(gè)最大非零特征值對(duì)應(yīng)的特征向量組合,即
(17)
在圖3中顯示了從原始高光譜影像中提取的總計(jì)1991個(gè)目標(biāo)像元的相關(guān)光譜輻射亮度曲線,以反映目標(biāo)像元光譜的均值、標(biāo)準(zhǔn)差、最大值和最小值情況。按照?qǐng)D中箭頭方向,曲線從上到下分別為光譜最大值、均值加標(biāo)準(zhǔn)差、均值、均值減標(biāo)準(zhǔn)差、最小值。這些目標(biāo)像元包括有林地5個(gè)樹種組的179個(gè)樣地對(duì)應(yīng)像元,以及從影像中水體、居民地選出的像元。從圖3中可以看出所選像元在126個(gè)對(duì)應(yīng)波段上的均值和標(biāo)準(zhǔn)差信息變化,其中光譜均值最大值與最小值分別為5 141.7和388,對(duì)應(yīng)波段為第57和第1個(gè)波段,標(biāo)準(zhǔn)差最大為1 350.7。對(duì)于標(biāo)準(zhǔn)差變化較大的部分可以作為判別不同地物信息的參考。圖4顯示了5種樹種組,以及水體、居民點(diǎn)的光譜輻射亮度曲線,可看出5種樹種組具有相似的光譜曲線形狀,與水體、居民點(diǎn)光譜曲線部分形狀具有顯著差異。雖然5種樹光譜整體形狀相似,但在一些波段范圍內(nèi)也存在差別。這些差別性反映了7種地物光譜特性的不同,通過光譜信息差異性的判別分析可以作為更好分類不同地物的依據(jù)。
圖3 目標(biāo)像元相關(guān)光譜曲線
本文利用主成分分析(PCA)、判別流形學(xué)習(xí)(DLA)對(duì)高光譜數(shù)據(jù)進(jìn)行降維,分別根據(jù)圖像各地物參考數(shù)據(jù)建立影像像元分類的輸入特征空間。影像參考數(shù)據(jù)見表2。其中,為建立特征空間所需的訓(xùn)練樣本從參考數(shù)據(jù)中隨機(jī)產(chǎn)生,為每類地物20個(gè)像素;測試樣本為參考數(shù)據(jù)除去訓(xùn)練樣本外的所有數(shù)據(jù),用來分析評(píng)價(jià)分類準(zhǔn)確度。由上文可知PCA特征空間即為前d個(gè)最大非零特征值對(duì)應(yīng)的特征向量空間,DLA特征空間為前d個(gè)最小非零特征值對(duì)應(yīng)的特征向量空間,這里常數(shù)d即為選擇輸出的特征維數(shù)。
圖4 7種地物原始光譜曲線
樣地類型參考樣本訓(xùn)練樣本測試樣本水體16620146居民點(diǎn)15320133毛竹73320713雷竹12720107闊葉林71420694馬尾松422022杉木562036合計(jì)19911401851
為了更好地分析比較DLA與PCA特征空間對(duì)不同樹種,以及水體、居民點(diǎn)的分離效果,將輸出維數(shù)d取值為2,即輸出前兩個(gè)主成分特征,以特征空間中散點(diǎn)分布圖的形式顯示,如圖5所示。同時(shí)由于一些波段能夠反映不同地物光譜特征的差別性,從7類地物中選擇光譜值相關(guān)性小、標(biāo)準(zhǔn)差大的20和57波段,作為原始光譜(spectral)特征的二維特征空間散點(diǎn)分析,如圖5(a)所示。圖5(c)、圖5(d)是判別流形學(xué)習(xí)算法DLA中度量參數(shù)β取0.000 1,同時(shí)樣本數(shù)據(jù)集xi分別選擇為居民點(diǎn)和毛竹數(shù)據(jù)時(shí)的判別流形特征空間各類地物散點(diǎn)分布圖。從圖5可以看出,基于局部判別片排列(DLA)的流形方法能夠在其判別流形子空間中很好地將闊葉樹種、毛竹、居民點(diǎn)和水體4類地物分開,但是對(duì)于馬尾松、杉木和雷竹樣本出現(xiàn)了不同程度的重疊與混淆,使得這3類樹種組與毛竹、闊葉組的可分離性較低,這種地物混淆的特點(diǎn)同樣出現(xiàn)在光譜(spectral)特征和主成分分析(PCA)特征空間的各類型散點(diǎn)圖中,且混淆更明顯,主要原因是不同樹種光譜的相似性與復(fù)雜性造成。從圖5中還可以看出,DLA與PCA方法對(duì)不同類型樣本可分性要優(yōu)于原始光譜特征方法,同時(shí)通過優(yōu)化選擇判別流形方法的樣本集與度量參數(shù),充分利用訓(xùn)練數(shù)據(jù)的判別信息,在保持各樣本在輸出的低維判別子空間局部幾何結(jié)構(gòu)的同時(shí),使得同類樣本數(shù)據(jù)更接近,而不同類型樣本盡量遠(yuǎn)離,其對(duì)樣本的可分性將比主成分分析方法效果更好。
圖5 參考數(shù)據(jù)在不同特征空間分布散點(diǎn)
分別選用光譜特征(spectral)、主成分分析特征(PCA)和判別流形(DLA)的特征作為輸入特征,使用最大似然分類器對(duì)Hypersion影像中的每個(gè)像素進(jìn)行分類,分類結(jié)果如圖6所示。其中圖6(a)選擇5個(gè)光譜差異性顯著波段作為光譜的特征輸入;圖6(b)和圖6(c)是以主成分分析特征作為分類的輸入特征,輸出特征維數(shù)分別是10和5的分類結(jié)果圖;圖6(d)是判別流形方法選取參數(shù)β為0.000 1、輸出特征維數(shù)為5的分類圖。從分類結(jié)果可以看出,利用判別流形(DLA)的分類效果最優(yōu)。而基于主成分分析(PCA)的分類效果與輸出特征維數(shù)的選取密切相關(guān),當(dāng)輸出選取前10種主成分特征時(shí),在馬尾松、杉木、雷竹的分類上出現(xiàn)了較多的錯(cuò)分漏分現(xiàn)象,當(dāng)選取前5種主成分特征時(shí),這些樹種的錯(cuò)分現(xiàn)象得到明顯改善?;诠庾V特征方法進(jìn)行分類的結(jié)果可以看出,圖像左上角的杉木和下方的馬尾松出現(xiàn)大量錯(cuò)分。本文提出的判別流形與主成分分析方法都能不同程度避免易混淆的杉木、馬尾松、雷竹誤分類的情況,圖5中的樣本數(shù)據(jù)特征空間分布情況與圖6所示分類結(jié)果表明本文提出的基于判別流形學(xué)習(xí)的方法能夠顯著地提高高光譜遙感圖像的分類準(zhǔn)確度。
上述方法對(duì)Hypersion高光譜影像數(shù)據(jù)分類精度定量統(tǒng)計(jì)結(jié)果見表3。可以看出,本文提出的基于判別流形學(xué)習(xí)方法在各地物單類分類準(zhǔn)確度與總體分類準(zhǔn)確度取得較好的效果,其中對(duì)于水體、居民點(diǎn)、毛竹和闊葉樹組的分類均取得很好的效果?;谥鞒煞址治龇椒ㄔ诰S數(shù)為5時(shí)的分類準(zhǔn)確度要明顯高于維數(shù)為10的各類分類準(zhǔn)確度。本文采用的4種方法對(duì)Hypersion高光譜圖像數(shù)據(jù)的總體分類準(zhǔn)確度分別為:76.97%、70.63%、81.86%和84.57%,這里判別流形學(xué)習(xí)方法較好地提高了影像的分類準(zhǔn)確度。
表3 Hypersion高光譜數(shù)據(jù)分類準(zhǔn)確度統(tǒng)計(jì)表
本文提出了基于判別局部片排列(DLA)的流形學(xué)習(xí)方法對(duì)高光譜圖像進(jìn)行降維,通過對(duì)局部樣本數(shù)據(jù)進(jìn)行流形學(xué)習(xí)框架內(nèi)的優(yōu)化訓(xùn)練,將原始光譜特征空間轉(zhuǎn)換為最優(yōu)判別流形子空間,然后在該流形子空間內(nèi)使用最大似然分類器,對(duì)高光譜影像中的每個(gè)像素進(jìn)行分類,并與通過最大化光譜方差信息的主成分分析(PCA)方法,以及根據(jù)樣本光譜信息選取差異性顯著波段的原始光譜(spectral)方法,進(jìn)行高光譜圖像降維后的各類型地物分類準(zhǔn)確度比較。結(jié)果顯示基于DLA的流形學(xué)習(xí)方法要優(yōu)于其他方法,主要由于DLA方法能夠充分利用樣本數(shù)據(jù)的判別信息,以保持各類樣本在輸出低維子空間的局部幾何結(jié)構(gòu),因此在對(duì)光譜信息相似的樹種組進(jìn)行分類時(shí)能夠取得滿意的效果,這將為利用高光譜影像數(shù)據(jù)進(jìn)行大面積森林樹種遙感識(shí)別與監(jiān)測提供理論依據(jù)。
本文所提出的高光譜數(shù)據(jù)降維方法中,選擇特征空間的輸出維數(shù)均為5,即前5種主成分特征作為輸出,對(duì)于Spectral方法即為所選取的5個(gè)波段所對(duì)應(yīng)的原始光譜作為輸出特征。通過比較PCA兩種不同維數(shù)的分類準(zhǔn)確度,可以看出PCA方法的分類準(zhǔn)確度不會(huì)隨著輸出維數(shù)的增加而提高,而對(duì)基于DLA的流形學(xué)習(xí)方法降維的輸出維數(shù)選取、樣本集xi及度量參數(shù)β的優(yōu)化問題將是下一步研究的主要內(nèi)容。
[1] PAN Z, HEALEY G E, PRASCAD M, et al. Face Recognition in Hyperspectral Images[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2003: 334-339.
[2] GENDRIN A, MANGOLD N, BIBRING J P, et al. Sulfates in Martian Layered Terrains: the OMEGA/Mars Express View[J]. Science, 2005, 307(5715):1587-1591.
[3] SCHULTZ R A, NIELSEN T, ZAVALETA J R, et al. Hyperspectral Imaging: A Novel Approach for Microscopic Analysis[J]. Cytometry Part A, 2001, 43(4):239.
[4] VELASCO-FORERO S, ANGULO J. Classification of Hyperspectral Images by Tensor Modeling and Additive Morphological Decomposition[J]. Pattern Recognition, 2013, 46(2):566-577.
[5] FARRELL M D, MERSEREAU R M. On the Impact of PCA Dimension Reduction for Hyperspectral Detection of Difficult Targets[J]. IEEE Geoscience & Remote Sensing Letters, 2005, 2(2):192-195.
[6] 王志輝, 丁麗霞. 基于葉片高光譜特性分析的樹種識(shí)別[J]. 光譜學(xué)與光譜分析, 2010, 30(7):1825-1829.
[7] DALPONTE M, BRUZZONE L, GIANELLE D. Tree Species Classification in the Southern Alps Based on the Fusion of Very High Geometrical Resolution Multispectral/Hyperspectral Images and LiDAR Data[J]. Remote Sensing of Environment, 2012, 123(3):258-270.
[8] ROWEIS S T, SAUL L K. Nonlinear Dimensionality Reduction by Locally Linear Embedding.[J]. Science, 2000, 290 (5500): 2323.
[9] TENENBAUM J B, SILVA V D, LANGFORD J C. A Global Geometric Framework for Nonlinear Dimensionality Reduction[J]. Science, 2000, 290(5500):2319.
[10] BELKIN M, NIYOGI P. Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering[J]. Advances in Neural Information Processing Systems, 2002, 14(6):585-591.
[11] DONOHO D L, GRIMES C. Hessian Eigenmaps: Locally Linear Embedding Techniques for High-Dimensional Data[J]. Proceedings of the National Academy of Sciences of the United States of America, 2003, 100(10):5591.
[12] ZHANG Zhenyue, ZHA Hongyuan. Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment[J]. Advances in Manu facturing, 2004, 26(4):313-338.
[13] 魯錦濤, 馬麗. 基于流形對(duì)齊的高光譜遙感圖像降維和分類算法[J]. 國土資源遙感, 2017, 29(1): 104-109.
[14] YAN S, XU D, ZHANG B, et al. Graph Embedding: A General Framework for Dimensionality Reduction[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2005:830-837.
[15] ZHANG T, TAO D, LI X, et al. Patch Alignment for Dimensionality Reduction[J]. IEEE Transactions on Knowledge & Data Engineering, 2009, 21(9):1299-1313.
[16] SAUL L K, ROWEIS S T. Think Globally, Fit Locally: Unsupervised Learning of Low Dimensional Manifolds[J]. Journal of Machine Learning Research, 2003, 4(2):119-155.