李世波,林 輝,葛 淼
(1.中南林業(yè)科技大學(xué) 林業(yè)遙感大數(shù)據(jù)與生態(tài)安全湖南省重點實驗室,湖南 長沙 410004;2.貴州林業(yè)勘察設(shè)計有限公司,貴州 貴陽 550001;3.潤雅信息技術(shù)(上海)有限公司,上海 215008)
濕地植被的識別與分類是林業(yè)遙感研究中的難點。常見多光譜遙感存在波段少、光譜范圍較寬和波段不連續(xù),無法滿足濕地植被間的精細(xì)識別[1-3]。而高光譜遙感具有光譜分辨率高、波段連續(xù)、多波段數(shù)的特點,另外高光譜數(shù)據(jù)信息豐富和圖譜合一等特點,為濕地植被的精細(xì)識別與分類提供了數(shù)據(jù)源支持[4-7]。但高光譜數(shù)據(jù)量大,維數(shù)太多容易導(dǎo)致維數(shù)災(zāi)難[8-9]。所以在利用高光譜數(shù)據(jù)進(jìn)行植被分析必須先對數(shù)據(jù)進(jìn)行降維處理。
高光譜數(shù)據(jù)降維常用的算法有主成分分析(Principal component analysis,PCA)[10-11]、非線性降 維(Linear Discriminant Analysis,LDA)[12-13]、獨立分量分析(Independent component analysis,ICA)[14-15]等,因PCA 應(yīng)用領(lǐng)域較廣,且取得較好的降維效果,故本文采用PCA 算法對高光譜數(shù)據(jù)進(jìn)行降維。不同的濕地植被在采用PCA 降維后是否能顯示各濕地植被的特征,在這方面的研究還比較少。本研究主要從以下幾個問題著手,分析PCA 算法在濕地植被反射率數(shù)據(jù)降維后的效果:1)PCA 算法是否對變換后的高光譜反射率數(shù)據(jù)特征都有效,變換后的高光譜反射率數(shù)據(jù)經(jīng)過PCA降維后是否有差異;2)PCA 算法如果對各個濕地植被可以提取差異,那么他們在累計方差貢獻(xiàn)率達(dá)到一定時,保留的主成分個數(shù)是否相同,且對應(yīng)在相同主成分時,累計方差貢獻(xiàn)差別有多大;3)利用PCA 算法所提取的特征,是否對所有分類方法都有效,即多種變換后的高光譜數(shù)據(jù)經(jīng)過PCA降維后,所對應(yīng)的分類算法是否一致,如果不一致,則哪種組合方式最優(yōu)。
本研究對濾波后的濕地植被高光譜反射率數(shù)據(jù)及3 種預(yù)處理數(shù)據(jù)采用PCA 算法進(jìn)行降維處理,采用馬氏距離(Mahalanobis distance,Md)、樸素貝葉斯(Na?ve Bayes,NB)、K鄰近分類器(Knn)、隨機森林(Random forest,RF)、徑向基內(nèi)核支持向量機(SVM-RBF)等[16-20]5 種分類算法對降維后的數(shù)據(jù)進(jìn)行分類和精度檢驗,并對分類精度進(jìn)行比較分析,討論PCA 算法在濕地植被變換后再降維的分類效果,以及對分類精度的影響,最后獲得最優(yōu)的濕地植被識別組合方法。
研究區(qū)位于湖南省東洞庭湖自然保護(hù)區(qū),總面積190 000 hm2。坐標(biāo)28°59″~29°38″N,112°43″~113°15″E。保護(hù)區(qū)內(nèi)有多種濕地類型,其中,永久性淡水湖面積21 710 hm2,占濕地面積的81%。土壤為湖沼土和河沼土。平均氣溫16.7 ℃,降水量1 200~1 350 mm,無霜期274 d。常見濕地植被為苔草Carex tristachya、辣蓼Polygomum flɑccidum、蘆葦Phragmites australis、蘆蒿Artemisia selengensisi。
圖1 研究區(qū)位置Fig.1 Location of study area
高光譜數(shù)據(jù)外業(yè)采集時間為2014年11月 2—4日,采集地點位于湖南省東洞庭湖自然保護(hù)區(qū)。儀器采用美國ASD(Analytical spectral device)公司生產(chǎn)的FieldSpecPro FRTM 光譜儀。光譜測定均在晴天、無風(fēng)時進(jìn)行,觀測時間為10:00—14:00,太陽高度角大于45°,陽光幾乎直射。采集濕地植被高光譜數(shù)據(jù)時,確保探頭保持垂直向下。為使數(shù)據(jù)不受地理位置的影響,濕地植被高光譜數(shù)據(jù)均勻分布于東洞庭湖。觀測濕地植被分別為苔草、辣蓼、蘆蒿、蘆葦和楊柳等5 種(表1)。
表1 東洞庭湖濕地植被名錄Table 1 Five kinds of wetland vegetation in east Dongting lake
剔除異常數(shù)據(jù),共觀測有效數(shù)據(jù)480 條。因儀器自身原因,不可避免產(chǎn)生低頻噪聲,因此,在分類前先采用S.Golay 對濕地植被高光譜數(shù)據(jù)進(jìn)行平滑處理。經(jīng)過平滑后的高光譜數(shù)據(jù),舍棄了400 nm 之前和1 300 nm 之后噪聲較大的光譜數(shù)據(jù),保留了400~1 300 nm 之間的光譜數(shù)據(jù)。因光譜儀儀器在350~1 000 nm、1 000~2 500 nm 范圍光譜分辨率不一致,為降低維數(shù)和隨機噪聲,將平滑后的光譜數(shù)據(jù)重采樣成3 nm,重采樣后的數(shù)據(jù)仍然保持其原有的高光譜特征(圖2)。
圖2 平滑后的濕地植被高光譜曲線Fig.2 Hyperspectral curves of wetland vegetation after smoothing
由于光照條件及觀測背景因素對觀測結(jié)果有影響,為了消除這些噪聲,對重采樣后的濕地植被高光譜數(shù)據(jù)分別進(jìn)行導(dǎo)數(shù)變換(d(R))、對數(shù)變換(log(R))和歸一化變換Nr(R)。
本文將重采樣后的數(shù)據(jù)分別進(jìn)行導(dǎo)數(shù)變換、對數(shù)變換和歸一化變換,然后進(jìn)行PCA 降維,得到4 組濕地植被降維數(shù)據(jù),再將每組中每一類別的濕地植被數(shù)據(jù)按照1、2、3 編號,當(dāng)遇到另外一類別的植被數(shù)據(jù)時,重新按照1、2、3 的順序編號,至所有的數(shù)據(jù)編完號為止。選擇編號為1、2 的作為訓(xùn)練數(shù)據(jù),編號為3 的作為測試數(shù)據(jù)。訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分配方式如表1所示。
分別采用馬氏距離(Md)、樸素貝葉斯(NB)、K 鄰近分類器(Knn)、隨機森林(RF)、徑向基內(nèi)核支持向量機(SVM-RBF)對4 種類型(重采樣后的光譜數(shù)據(jù),導(dǎo)數(shù)變換、對數(shù)變換、歸一化變換的光譜數(shù)據(jù))的濕地植被高光譜數(shù)據(jù)分別進(jìn)行分類,通過降維與分類精度,探討不同預(yù)處理方法和不同主成分個數(shù)對分類精度的影響,分析預(yù)處理方式與分類算法的組合形式,篩選適用于濕地植被精細(xì)識別的最優(yōu)組合。
4 種類型數(shù)據(jù)經(jīng)過PCA 降維后,選取前30 個主成分(第30 個主成分的累計方差貢獻(xiàn)率已達(dá)到100%),各種類型的累計方差貢獻(xiàn)率如圖3所示。
從圖3可以得出,R(重采樣后的光譜反射率數(shù)據(jù))、dr(R)、log(R)、Nr(R)經(jīng)過PCA 降維后的第一主成分的累計方差貢獻(xiàn)率差異明顯,分別為:94.30%、92.47%、78.78%、76.77%。從數(shù)據(jù)變換后的累計方差貢獻(xiàn)率可以發(fā)現(xiàn),變換后的數(shù)據(jù)在第一主成分中所占有植被特征相對少,植被特征被逐步分散到剩下的主成分中。一階微分變換在去除低頻背景光譜時,引入了高頻噪聲,而對數(shù)變換和歸一化變化可以消除光照條件引起的乘性因素影響,故兩者的累計方差貢獻(xiàn)率在對應(yīng)主成分上差異不大。
4 種類型的數(shù)據(jù)經(jīng)過PCA 降維后累計方差貢獻(xiàn)率達(dá)到98%時,包含的主成分個數(shù)差異也比較明顯,R、dr(R)、log(R)、Nr(R)的主成分個數(shù)分別為4 個、8 個、5 個、6 個,變換后的數(shù)據(jù)在累計方差貢獻(xiàn)率達(dá)到一定值時,包含主成分個數(shù)較變換前多,說明植被特征分散的主成分個數(shù)越多。根據(jù)累計方差貢獻(xiàn)率的數(shù)字柱狀圖顯示,R、dr(R)累計方差貢獻(xiàn)率變化梯度均勻,而log(R)、Nr(R)變化梯度差異較大。
圖3 PCA 降維后的累計方差貢獻(xiàn)率Fig.3 Contribution of cumulative variance of wetland vegetation after dimensionality reduction by PCA
采用5 種分類方法對4 種經(jīng)過PCA 降維后的濕地植被數(shù)據(jù)進(jìn)行分類,分類精度見圖4。
圖4 主成分?jǐn)?shù)與分類精度關(guān)系Fig.4 The relationship between the number of main components and classification accuracy
由圖4可知,主成分?jǐn)?shù)量增加,分類精度也隨著提高,波動幅度也隨之變化。但數(shù)據(jù)預(yù)處理方式不同,經(jīng)過PCA 降維后,其分類精度也有所差異。
1)第一主成分植被信息含量最豐富,但分類精度不一定最高,累計貢獻(xiàn)率達(dá)到98%以后,分類精度有明顯的提高。經(jīng)過不同的數(shù)據(jù)預(yù)處理方式,當(dāng)分類算法處于第一主成分時,分類精度為15%~45%,說明第一主成分雖然含濕地植被的大量信息,但不能代表分類精度就越高;當(dāng)累計方差貢獻(xiàn)率達(dá)到98%時,其所含的主成分包含了光譜數(shù)據(jù)絕大部分信息,全部分類算法的分類精度為20%~90%,說明累積方差貢獻(xiàn)率與分類精度之間并不存在必然的聯(lián)系。
2)在4 種預(yù)處理中dr(R)經(jīng)PCA 降維后分類效果最理想,從圖3(b)中可以明顯觀察到當(dāng)主成分個數(shù)從1 個增加到11 個的過程中,分類精度基本上與累計的主成分的個數(shù)呈直線上升,分類精度逐漸提高,當(dāng)主成分個數(shù)超過12 個時,各種分類方法的分類精度保持在較高水平不再大幅度波動。說明前11 個主成分可以描述5 種濕地植被的主要特征,剩下的分量中所包含的濕地植被特征基本可以忽略。
3)針對不同變換方式,用不同的分類方法進(jìn)行濕地植被的精細(xì)識別時,隨著主成分個數(shù)的不斷增多,分類精度變化曲線并不一致。數(shù)據(jù)經(jīng)過平滑處理、導(dǎo)數(shù)變換、對數(shù)變換后,在主成分個數(shù)累計達(dá)到5 個時,隨機森林和徑向基內(nèi)核支持向量機分類精度趨于基本平穩(wěn),精度波動范圍差值在5%以內(nèi),隨機森林波動幅度較小,而徑向基內(nèi)核支持向量機上下波段較明顯。Knn 分類算分針對數(shù)據(jù)變換擁有相似的分類精度曲線,當(dāng)主成分個數(shù)累計達(dá)到8 個后,分類精度保持不變。在導(dǎo)數(shù)變換時,馬氏距離與徑向基內(nèi)核支持向量機、Knn、隨機森林分類精度曲線走向相似,但其在數(shù)據(jù)平滑、歸一化變化、對數(shù)變化中,分類精度極其不穩(wěn)定,波動幅度大,隨著主成分個數(shù)的增加分類精度無明顯規(guī)律。樸素貝葉斯針對導(dǎo)數(shù)變換和對數(shù)變換呈現(xiàn)的分類精度曲線極其相似。
4)同一分類算法運用在不同的預(yù)處理方式中,穩(wěn)定性不一定相同。針對4 種預(yù)處理方式,徑向基內(nèi)核支持向量機、隨機森林穩(wěn)定性極強,分類精度曲線呈線性上升,當(dāng)主成分個數(shù)達(dá)到一定個數(shù)時,精度曲線始終保持平穩(wěn)。Knn 的穩(wěn)定性次于徑向基內(nèi)核支持向量機和隨機森林,分類精度曲線與徑向基內(nèi)核支持向量機和隨機森林相似。而馬氏距離、樸素貝葉斯穩(wěn)定性最差,分類精度不高,分類精度曲線波動幅度較大,在同種預(yù)處理方式中,馬氏距離、樸素貝葉斯測試的分類精度總是低于徑向基內(nèi)核支持向量機和隨機森林測試的分類精度。說明高光譜數(shù)據(jù)不同的預(yù)處理方式影響分類方法的穩(wěn)定性。由圖3中可以看出,log(R)-PCA 降維-RF、dr(R)-PCA 降維-徑向基內(nèi)核支持向量機為濕地植被的組合方式最優(yōu),其最高分類精度可達(dá)98.5%。
通過對東洞庭湖濕地植被高光譜數(shù)據(jù)降維和分類研究,主要得到以下結(jié)論:
1)運用PCA降維后的濕地植被數(shù)據(jù)用于分類,累計方差貢獻(xiàn)率與濕地植被分類精度不存在必然聯(lián)系,即累計方差貢獻(xiàn)率達(dá)到98%時,分類精度不一定達(dá)到最高。對分類精度造成影響的是PCA降維后的主成分個數(shù),對濕地植被進(jìn)行主成分降維后,最適宜的主成分?jǐn)?shù)量為前8~11 個主成分。
2)將PCA 算法應(yīng)用于濕地植被高光譜數(shù)據(jù)分類中,數(shù)據(jù)平滑和數(shù)據(jù)變換方法對PCA 降維有顯著的影響,導(dǎo)數(shù)變換和對數(shù)變換的數(shù)據(jù)最適合PCA 降維。
3)徑向基內(nèi)核支持向量機、隨機森林針對4種預(yù)處理方式都表現(xiàn)出極強的穩(wěn)定性,馬氏距離、樸素貝葉斯穩(wěn)定性最差,分類精度不高、且波動幅度較大,Knn 分類算法不適用于數(shù)據(jù)平滑,對去除噪聲后的數(shù)據(jù)變換較適應(yīng)。根據(jù)分類方法對數(shù)據(jù)預(yù)處理和數(shù)據(jù)降維后的靈敏度,log(R)-PCARF、dr(R)-PCA-SVM-RBF 為濕地植被精細(xì)識別的最佳組合方式。
主要證據(jù)如下:①與藏卓[10]在喬木樹種的識別上得出相似的結(jié)論。以往的分類研究在主成分分析應(yīng)用較多,但對與主成分個數(shù)的討論較少,如宋仁飛[2]研究濕地植被高光譜數(shù)據(jù)變換及識別。②藏卓[10]在應(yīng)用主成分變換對喬木樹種的高光譜數(shù)據(jù)進(jìn)行分析,得出前15~20 個主成分較為合適的結(jié)論,說明濕地植被在識別方面保留的主成分個數(shù)小于喬木樹種,原因可能與地形、樹種立地背景、植被蓋度、葉綠素等因素有關(guān)。③主要原因是一階微分在消除背景因素的影響上較為有利,但引入了更多的噪聲;對數(shù)變換和導(dǎo)數(shù)變換不但可以增強可見光波段范圍的光譜差異,而且還有助于降低因光照變化引起的乘性因素的影響,引入的噪聲較少。④主成分分析和隨機森林在多光譜影像的識別與分類上取得較好的效果[21-22],但該組合應(yīng)用于多光譜影像是否取得相同的效果,有待進(jìn)一步研究。⑤本文在利用數(shù)據(jù)變換、主成分分析、分類方法組合研究上對濕地植被分類雖然取得較好的效果,但不能識別具體濕地植被較敏感的波段窗口。下一步將從高光譜濕地植被的波段窗口并結(jié)合多光譜遙感進(jìn)行濕地植被分類研究,形成高光譜數(shù)據(jù)與多光譜數(shù)據(jù)對濕地植被分類相結(jié)合的紐帶。