韓新星 艾金泉 葉子君 牛春妹 唐鑫濤
摘要:
針對大型通江湖泊濕地植被精細分類中精度不高、算法穩(wěn)健性不強的問題,以鄱陽湖濕地植被為研究對象,基于遙感云平臺GEE和Sentinel-2影像,著重研究不同訓練樣本數(shù)量、不同時相特征數(shù)據(jù)及不同機器學習算法對鄱陽湖濕地植被類型分類的影響。結果表明:① 隨著訓練樣本數(shù)量的增加,植被類型的分類精度呈現(xiàn)先上升后平穩(wěn)的規(guī)律,當不同植被類型訓練樣本達到550個時,精度達到峰值平穩(wěn)狀態(tài);② 不同時相特征的數(shù)據(jù)集分類精度具有顯著差異,具體為:月度時序>枯水期>四季多時相>單時相,其中,月度時序數(shù)據(jù)集的總體精度最高,總體精度及Kappa系數(shù)分別為82%和0.79;③ 不同遙感算法獲得的分類結果精度不同,RF分類精度最高,SVM和CART次之;④ 當不同植被類型的訓練樣本達到550個時,使用Sentinel-2月時序影像和RF算法能取得最優(yōu)的分類結果。研究成果可為鄱陽湖濕地精細分類提供方法借鑒,為鄱陽湖濕地保護提供技術支持。
關 鍵 詞:
濕地植被; 植被群落分類; 機器學習; Google Earth Engine; Sentinel-2; 鄱陽湖
中圖法分類號: TP751
文獻標志碼: A
DOI:10.16232/j.cnki.1001-4179.2023.07.008
0 引 言
湖泊濕地是全球內(nèi)陸濕地的重要組成部分,在調(diào)蓄洪水、凈化環(huán)境、保護生物多樣性等方面發(fā)揮著重要作用[1]。鄱陽湖濕地作為中國最大的淡水湖泊濕地,受氣候變化、圍墾和水利設施建設等的影響,面臨著嚴重的退化問題[2]。濕地植被作為濕地生態(tài)系統(tǒng)極為重要的組成部分,是濕地提供水禽棲息地及魚類繁殖場所的基礎,是濕地碳匯的來源,也是表征濕地環(huán)境質(zhì)量的重要指示器[3-5]。因此,對濕地植被分布進行精準監(jiān)測和制圖,可為濕地管理與保護提供科學依據(jù)。
早期植被信息提取,主要依靠野外實地調(diào)查,費時費力且不適合大面積作業(yè)。隨著遙感技術的發(fā)展,遙感影像分類成為獲取植被信息的重要方式[6]。在以往的研究中,濕地植被多采用單時相數(shù)據(jù)進行分類。例如,Martínez等[7]利用單時相Landsat5-TM影像進行濕地植被分類,Kappa系數(shù)為0.5;Kumar等[8]使用單時相Quickbird對鹽沼植被群落分類時,總體精度僅有42%。這是因為植被之間的光譜極易混淆,常常產(chǎn)生“同譜異物,異物同譜”現(xiàn)象,致使單時相影像無法精準分類。而多時相遙感數(shù)據(jù)的影像序列可以反映植被的季相特征及物候規(guī)律,有效增加植被識別精度,被廣泛應用于植被信息提取。Rapinel等[9]利用年度時序Sentinel-2數(shù)據(jù)進行草原植被群落分類,總體精度達到78%;朱琦等[10]依托GEE平臺多時相Landsat 8數(shù)據(jù),對熱帶天然林進行分類,分類精度達到91%。然而,目前針對不同影像選取策略對于大型通江湖泊濕地植被制圖精度影響的研究還不多,尚需進一步深入研究。
除了時相特征影響分類精度外,分類方法的選擇也是重要影響因素之一[11]。目前較為常用的濕地植被分類研究方法有隨機森林、決策樹、支持向量機、面向?qū)ο蠓治龇椒ǖ龋?2]。例如:張晨宇等[13]將面向?qū)ο笈c隨機森林算法相結合,利用多時相Landsat 8衛(wèi)星影像,對黃河口保護區(qū)典型濕地植被進行分類,總體精度達到了92.3%;Heumann等[14]使用Worldview-2傳感器,將決策樹分類與機器學習支持向量機分類相結合,對紅樹林與其他沿海濕地植被進行分類,總體精度達到94%。對于大型通江湖泊濕地而言,現(xiàn)有的研究仍缺乏對不同分類器的分類性能和效果的比較,需要進一步研究。
已有研究表明,利用遙感影像進行信息提取時,不僅依賴分類器的選擇,而且還依賴于訓練分類器時樣本數(shù)量的選擇[15]。如盧小平等[16]以GF-2影像為數(shù)據(jù)源,研究K近鄰算法、SVM算法在不同訓練樣本數(shù)量下,對濕地信息提取精度的影響,結果表明不同訓練樣本數(shù)量對于分類精度的影響不同;吳振彪等[17]基于Landsat 8-OLI影像應用最大似然法對東莞市土地覆蓋類別進行監(jiān)督分類,并探究不同數(shù)量的訓練樣本對地物分類精度的影響。然而,當前的研究仍然集中在樣本數(shù)量變化對于土地覆蓋類別、濕地大類的劃分上,針對湖泊濕地植被分類精度影響研究較少。
針對以上問題,本文基于谷歌地球引擎(Google Earth Engine,GEE)與Sentinel-2影像,主要實現(xiàn)以下幾個目標:① 評估不同訓練樣本數(shù)量對鄱陽湖濕地植被群落分類精度的影響;② 評估不同影像選取策略對于濕地植被制圖精度的影響;③ 評估隨機森林、支持向量機、分類回歸樹3種不同的機器學習算法對鄱陽湖濕地植被制圖精度的影響。
1 研究區(qū)概況與數(shù)據(jù)
1.1 研究區(qū)概況
鄱陽湖位于江西省北部,長江中游南岸,其地理坐標為東經(jīng)115°49′~116°46′、北緯28°24′~29°46′(見圖1)。該地區(qū)的氣候是典型的溫暖、潮濕、亞熱帶氣候,容易出現(xiàn)季風。年平均氣溫在16.5~17.8 ℃,年平均降水量在1 400~1 700 mm[18-19]。
鄱陽湖濕地植被類型豐富,群落結構完整。根據(jù)2021年11月實地踏勘調(diào)查,鄱陽湖主要的優(yōu)勢植被群落類型包括:① 苔草群落;② 虉草-廖子草;③ 蘆葦-南狄;④ 其他植被群落(主要包括菰、人工植被、沙地植物、雜草類及其他禾草植物)。
1.2 數(shù)據(jù)與預處理
本文采用的數(shù)據(jù)是2021年1月至2022年3月的69景Sentinel-2影像數(shù)據(jù)。為減輕云污染對分類精度的影響,在合成無云影像時,首先通過GEE平臺提供的CLOUDY_PIXEL_PERCENTAGE算法將含云量>20%的影像從數(shù)據(jù)集中剔除。其次,為避免遙感影像中少數(shù)云像素的影響,使用Sentinel-2云掩膜算法對指定時間和空間范圍內(nèi)的影像進行計算,對含云像素進行掩膜處理。最后,為獲得2021年1月至2022年3月每月一期的遙感數(shù)據(jù),對同一月份的多景數(shù)據(jù),以中值合成方法重構當月最小云量合成影像,并利用cat函數(shù)疊加不同月份合成影像,以得到不同時相特征數(shù)據(jù)集。
2 研究方法
2.1 濕地植被群落分類系統(tǒng)
參照濕地公約及相關文獻資料[20],結合實地踏勘研究區(qū)濕地植被分布的具體情況,將研究區(qū)濕地劃分為水體、泥沙灘涂、農(nóng)田、林地、建設用地、虉草-廖子草、苔草、蘆葦-南狄及其他植被9類,如表1所列。
2.2 訓練樣本數(shù)量選取
本文樣本點數(shù)據(jù)主要通過實地踏勘并結合2021年GF-2 PMS影像采用目視解譯方式進行樣本點選取。在GEE中按照7∶3的比例將樣本點分為訓練樣本及驗證樣本,分別用于分類器的構建及精度驗證。訓練樣本以50為步長分別設置50,100,150,200……800不同訓練樣本數(shù),共計16種方案。由于研究區(qū)內(nèi)不同地物類別占研究區(qū)范圍大小不同,為了使面積占比較小的地物類別也能獲得足夠多的樣本量,在選取不同方案的樣本量時,采用分層抽樣的方法獲取樣本點。
2.3 不同影像選取策略
根據(jù)韓杏杏[20]的研究結果與實地調(diào)查可知,鄱陽湖不同濕地植被群落之間存在顯著的物候差異。蘆葦-南狄群落一年有兩個生長季,分別是當年的3月和9月汛期以后一段時間。虉草-廖子草的生長期為每年10月至次年1月,豐水期時死亡。苔草也具有兩個生長期,分別為3月和10月。其他植被中,菰、菱等在汛期快速生長。鄱陽湖枯水期為當年10月至次年3月,正是各植被群落生長旺盛期,可以保留更多的濕地植被信息。四季多時相選擇1,4,7,10月的影像,四季影像遵循不同植被在枯水、豐水期生長的特點選取。其中單時相影像通過目視解譯選擇植被生長旺盛期2021年3月作為分類影像。因此,本文的影像選取策略確定為月度時序數(shù)據(jù)、枯水期數(shù)據(jù)、四季多時相數(shù)據(jù)集及單時相影像4種策略。
2.4 分類器性能比較
GEE環(huán)境集成了多種分類器,本文比較了其中3種算法:隨機森林(Random Forest,RF)、支持向量機(Support Vector Machine,SVM)、分類與回歸樹(Classification and Regression Tree,CART)的性能。比較從它們在土地覆蓋、圖像分類、作物識別等方面的適用法和可靠性[21-23]方面展開。
隨機森林(RF)算法由Breiman[24]在2001年提出,是一種常用的機器學習算法,它能夠應對高維數(shù)據(jù)和復雜的分類問題,同時具有抗噪聲和泛化性能。此外,RF還能夠輸出特征重要性,有助于特征對模型的貢獻度。進行遙感影像分類時,RF需要調(diào)整和優(yōu)化的兩個參數(shù)是決策樹的個數(shù)以及最小葉節(jié)點數(shù),根據(jù)之前的研究建議和數(shù)據(jù)測試[25],將ntree值設置為100,mtry為默認值(特征總數(shù)的平方根)。
支持向量機(SVM)[26]是一種基于核函數(shù)的非參數(shù)監(jiān)督分類器,SVM在非線性、小樣本和高維數(shù)方面具有顯著優(yōu)勢。由于它訓練樣本小,支持高維特征空間,因此得到廣泛應用。SVM需要調(diào)整的參數(shù)有核函數(shù)的類型、核函數(shù)的gamma值及cost參數(shù),本文選用的核函數(shù)類型為徑向基函數(shù)(radial basis function,RBF),該核函數(shù)已在許多分類研究中得到應用,并取得了較好的分類效果[26]。gamma值及cost參數(shù)的設置需要調(diào)參,本文通過網(wǎng)格搜索法分別迭代這些參數(shù),根據(jù)不同參數(shù)組合得到的總體精度,將gamma、cost參數(shù)分別設置為10及10 000作為最佳參數(shù)組合。
分類回歸樹(CART)是由Breiman等[27]在1954年提出,由于其結構簡單、計算速度快、易于理解等優(yōu)點,被廣泛應用于土地覆蓋提取和遙感圖像分類研究中。當使用CART對遙感影像進行分類時,需要優(yōu)化的參數(shù)是最大和最小葉節(jié)點數(shù),通過不同參數(shù)間組合得到的總體精度,選擇900為最大葉節(jié)點數(shù),最小葉節(jié)點數(shù)選擇默認值1為參數(shù)值。
本文主要采用總體精度、Kappa系數(shù)、用戶精度、生產(chǎn)者精度4個評價指標評價不同方案的精度。
3 結果與分析
3.1 不同訓練樣本數(shù)量對濕地植被制圖精度的影響
如圖2所示,隨著訓練樣本數(shù)量的增加,植被類型的分類精度呈現(xiàn)先上升后平穩(wěn)的規(guī)律,當不同植被類型訓練樣本數(shù)達到550個時,精度達到峰值平穩(wěn)狀態(tài),總體精度及Kappa系數(shù)分別為78.2%和0.75。 當樣本數(shù)僅有50個時,分類精度最低,總體精度及Kappa系數(shù)分別為67.6%和0.63??偟膩碚f,分類精度隨著樣本數(shù)的增加而增加,但當樣本數(shù)達到一定值時,分類精度不再隨著樣本數(shù)的增加而增加,而是呈現(xiàn)出振蕩的趨勢,這一現(xiàn)象可能是訓練樣本選擇過程中,隨著樣本數(shù)量的增加,混合像元樣本數(shù)增多,導致樣本純度不夠,干擾因素增加導致。
3.2 不同影像選取策略對植被群落制圖精度的影響
不同時相特征數(shù)據(jù)集的分類精度具有顯著差異,其中月度時序數(shù)據(jù)集精度最高,總體精度及Kappa系數(shù)分別為82%和0.79。其次是枯水期、四季多時相數(shù)據(jù)集,總體精度與Kappa系數(shù)分別為78.2%、0.75,75.4%、0.72。分類精度最低的是單時相影像,總體精度及Kappa系數(shù)分別為64.7%和0.63。
從表2中可以看出,單時相影像對于所有地物類別的區(qū)分度都不高,尤其是不同植被間的提取精度,其中虉草-廖子草群落的生產(chǎn)者精度僅為32.5%,用戶精度為37.1%。這是因為單時相影像難以解決不同濕地植被群落出現(xiàn)的“同物異譜,異物同譜”的問題。不同植被具有不同的生長周期,在不同生長周期內(nèi)其光譜信息存在差異。因此僅利用單時相影像難以區(qū)分不同植被類別。月度時序數(shù)據(jù)集對于植被間的區(qū)分精度最高,這是因為時序數(shù)據(jù)集相對于四季影像和枯水期影像所包含的植被信息最豐富,不但可以在時間維上反映不同植被間的季相特征生長物候特征,還能夠較好地從光譜上反映不同水深變化對植被生長周期的影響,從而增加了植被識別精度。
3.3 不同分類器對植被群落制圖精度的影響
基于3種分類算法的植被分類結果如圖3所示。從植被分布格局上看,其分類結果表現(xiàn)總體一致,蘆葦-南狄群落主要分布在鄱陽湖湖區(qū)的南部洲灘,苔草在鄱陽湖的分布很廣,該群落在南磯山濕地國家級保護區(qū)內(nèi)呈現(xiàn)集中連片大面積分布,虉草-廖子草主要分布在吳城、南磯濕地自然保護區(qū)兩邊的灘地、中部三角洲前緣等各處接近通江水體上有廣泛分布。3種不同機器學習算法得到的不同土地覆蓋類別的比例及分布特征基本一致。其中水體占研究區(qū)比例最大,植被中以苔草和虉草-廖子草占比較大。
表3顯示了使用不同遙感分類算法獲得的分類結果的混淆矩陣。其中RF的分類精度最高,總體精度為82%,其次是SVM和CART。3種分類器在建筑、農(nóng)田、水體、林地的分類精度都很高,但對于虉草-廖子草、苔草、蘆葦-南狄存在精度差異,是因為非濕地類別間的光譜差異較大,易于區(qū)分,而濕地植被間的光譜值相似,產(chǎn)生“異物同譜”現(xiàn)象,致使分類精度較低。RF區(qū)分虉草-廖子草、苔草要優(yōu)于另外兩種分類器,其制圖精度與用戶精度明顯高于另外兩種分類器,而RF與CART對于虉草-廖子草的區(qū)分要優(yōu)于SVM。
4 結 論
本研究依托GEE云平臺及Sentinel-2影像,探討不同樣本數(shù)量、不同時相特征數(shù)據(jù)及不同機器學習的分類算法對鄱陽湖濕地植被類型分類的影響。主要得出以下結論:
(1) 隨著訓練樣本數(shù)量的增加,植被類型的分類精度呈現(xiàn)先上升后平穩(wěn)的規(guī)律,當不同植被類型訓練樣本達到550個時,精度達到峰值平穩(wěn)狀態(tài),總體精度及Kappa系數(shù)分別為78.2%和0.75。
(2) 不同時相特征的數(shù)據(jù)集分類精度具有顯著差異,具體為:月度時序>枯水期>四季>單時相,其中月時序數(shù)據(jù)集精度最高,總體精度及Kappa系數(shù)分別為82%和0.79,單時相影像分類精度最低,總體精度和Kappa系數(shù)僅為64.7%和0.63。
(3) 不同遙感分類算法獲得的分類結果精度不同,RF分類精度最高,SVM和CART次之。
(4) 當不同植被訓練樣本數(shù)量達到550個時,使用Sentinel-2月時序影像和RF算法能取得最優(yōu)的分類結果。
本研究通過遙感云平臺在線調(diào)用遙感圖像并進行處理,除樣本采集外,幾乎全自動的分類過程使該方法具有較強的泛化能力,可為濕地植被群落快速提取提供技術支持,有助于完善濕地棲息地的可持續(xù)管理。但本研究也存在不足:① 文中僅在Sentinel-2遙感影像上進行了研究和分析,對于其他類型遙感影像,例如Landsat系列、MODIS等,本文并沒有進行對比研究,是否利用其他影像數(shù)據(jù)源也有相同的規(guī)律及結論,還需要進一步研究與分析。② 本文進行分類時都是基于像素機器學習分類模型,會出現(xiàn)“椒鹽噪聲”影響精度,應進一步探究面向?qū)ο蠓椒ㄔ跐竦刂脖蝗郝涮崛∩系臐摿Α?/p>
參考文獻:
[1] 譚志強,李云良,張奇,等.湖泊濕地水文過程研究進展[J].湖泊科學,2022,34(1):18-37.
[2] 邴建平,鄧鵬鑫,張冬冬,等.三峽水庫運行對鄱陽湖江湖水文情勢的影響[J].人民長江,2020,51(3):87-93.
[3] ZHOU R,YANG C,LI E,et al.Object-based wetland vegetation classification using multi-feature selection of unoccupied aerial vehicle RGB Imagery[J].Remote Sensing,2021,13(23):4910.
[4] 朱江濤,艾金泉,陳曉勇,等.基于GEE的鄱陽湖濕地植被長期變化特征及其對水文情勢的響應[J].測繪通報,2022(8):7-13.
[5] 李冰,萬榮榮,楊桂山,等.近百年鄱陽湖濕地格局演變研究[J].湖泊科學,2022,34(3):1018-1029.
[6] 楊超,鄔國鋒,李清泉,等.植被遙感分類方法研究進展[J].地理與地理信息科學,2018,34(4):24-32.
[7] MARTíNEZ-LóPEZ J,CARREO M F,PALAZóN-FERRANDO J A,et al.Remote sensing of plant communities as a tool for assessing the condition of semiarid Mediterranean saline wetlands in agricultural catchments[J].International Journal of Applied Earth Observation and Geoinformation,2014,26:193-204.
[8] KUMAR L,SINHA P.Mapping salt-marsh land-cover vegetation using high-spatial and hyperspectral satellite data to assist wetland inventory[J].GIScience & Remote Sensing,2014,51(5):483-497.
[9] RAPINEL S,MONY C,LECOQ L,et al.Evaluation of Sentinel-2 time-series for mapping floodplain grassland plant communities[J].Remote Sensing of Environment,2019,223:115-129.
[10] 朱琦,郭華東,張露,等.基于多時相Landsat8影像的海南島熱帶天然林類型遙感分類[J].自然資源遙感,2022,34(2):215-223.
[11] 張強.濕地植被遙感分類研究進展[J].世界林業(yè)研究,2019,32(3):49-54.
[12] 李方方,劉正軍,徐強強,等.面向?qū)ο箅S機森林方法在濕地植被分類的應用[J].遙感信息,2018,33(1):111-116.
[13] 張晨宇,陳沈良,李鵬,等.現(xiàn)行黃河口保護區(qū)典型濕地植被時空動態(tài)遙感監(jiān)測[J].海洋學報,2022,44(1):125-136.
[14] HEUMANN B W.An object-based classification of mangroves using a hybrid decision tree—Support vector machine approach[J].Remote Sensing,2011,3(11):2440-2460.
[15] 潘洪濤,王軒,王曉飛.訓練樣本對農(nóng)作物遙感分類的精度影響研究[J].紅外與激光工程,2017,46(增1):149-156.
[16] 盧小平,杜曉貝,王懿,等.訓練樣本對濕地分類精度的影響[J].河南理工大學學報(自然科學版),2018,37(5):55-59.
[17] 吳振彪,沈德才,黃練忠,等.訓練樣本數(shù)量對最大似然監(jiān)督分類精度影響的研究[J].林業(yè)勘查設計,2018(2):115-117.
[18] DAI X,WAN R,YANG G,et al.Impact of seasonal water-level fluctuations on autumn vegetation in Poyang Lake wetland,China[J].Frontiers of Earth Science,2019,13(2):398-409.
[19] 胡江軍,孫宇,顧朝軍.近60年鄱陽湖五河入湖水沙變化及影響因素分析[J].人民長江,2022,53(增2):47-51.
[20] 韓杏杏.基于長時序光學遙感數(shù)據(jù)的鄱陽湖濕地景觀格局時空動態(tài)研究[D].武漢:武漢大學,2017.
[21] BROVELLI M A,SUN Y R,YORDANOV V,et al.Monitoring forest change in the amazon using multi-temporal remote sensing data and machine learning classification on Google Earth Engine[J].ISPRS International Journal of Geo-Information,2020,9(10):580.
[22] PRATICò S,SOLANO F,DI FAZIO S,et al.Machine learning classification of mediterranean forest habitats in google earth engine based on seasonal sentinel-2 time-series and input image composition optimisation[J].Remote Sensing,2021,13(4):586.
[23] YANG Y,YANG D,WANG X F,et al.Testing accuracy of land cover classification algorithms in the Qilian mountains based on gee cloud platform[J].Remote Sensing,2021,13(24):5064.
[24] BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[25] PHAN T N,KUCH V,LEHNERT L W.Land cover classification using Google Earth Engine and Random Forest Classifier:The role of image composition[J].Remote Sensing,2020,12(15):2411.
[26] SHAO Y,LUNETTA R S.Comparison of support vector machine,neural network,and CART algorithms for the land-cover classification using limited training data points[J].ISPRS Journal of Photogrammetry and Remote Sensing,2012,70:78-87.
[27] BREIMAN L,F(xiàn)RIEDMAN J H,OLSHEN R A,et al.Classification and regression trees[M].London:Routledge,2017.
(編輯:黃文晉)
Classification of wetland vegetation community in Poyang Lake based on remote sensing cloud computing
HAN Xinxing1,2,AI Jinquan1,2,YE Zijun2,NIU Chunmei2,TANG Xintao2
(1.Key Laboratory of Mine Environmental Monitoring and Improving around Poyang Lake of Ministry of Natural Resources,East China University of Technology,Nanchang 330013,China; 2.School of Surveying and Mapping Engineering,East China University of Technology,Nanchang 330013,China)
Abstract:
Aiming at the problems of low precision and algorithm robustness in the fine classification of wetland vegetation in large river-connected lakes,based on remote sensing cloud platform GEE and Sentinel-2 images,this paper studied the optimization scheme of vegetation classification in Poyang Lake wetland by different training sample quantity,simultaneous phase characteristics data and machine learning classification algorithms.The results showed that:①With the increase of the training samples number,the classification accuracy of vegetation types increased first and then stabilized.When the number of training samples of different vegetation types reached 550,the classification accuracy reached the peak stable state.② The classification accuracy of data sets with different phase characteristics was significantly different,specifically,monthly time series data set > dry season data set > four seasons data set > single time phase.The overall accuracy of monthly time series data set was the highest,and the overall accuracy and kappa coefficient were 82% and 0.79,respectively.③ Different remote sensing classification algorithms could obtain different accuracy of classification results.RF classification accuracy was the highest,followed by SVM and CART.④ When the number of training samples of different vegetation types reached 550,the Sentinel-2 time sequence image and RF algorithm could be used to obtain the best classification results.This study can be a reference for the fine classification of Poyang Lake wetland and provide technical support for its protection.
Key words:
wetland vegetation;vegetation community classification;machine learning;Google Earth Engine;Sentinel - 2;Poyang lake