高常軍,甄佳寧,沈 震,王俊杰,徐 逸,鄔國鋒
(1.廣東省林業(yè)科學研究院,廣東省森林培育與保護利用重點實驗室,廣東 廣州 510520;2.中國科學院東北地理與農(nóng)業(yè)生態(tài)研究所,中國科學院濕地生態(tài)與環(huán)境重點實驗室,吉林 長春 130102;3.深圳大學建筑與城市規(guī)劃學院,廣東 深圳 518060;4.自然資源部大灣區(qū)地理環(huán)境監(jiān)測重點實驗室,廣東 深圳 518060;5.深圳大學生命與海洋科學學院,廣東 深圳 518060;6.Faculty of Geo-Information Science and Earth Observation,University of Twente,Enschede 7514 AE,Netherlands)
紅樹林是生長在熱帶、亞熱帶海岸潮間帶的木本植物群落[1]。受臺風、海嘯和人類活動破壞的影響,全球有67%的紅樹林曾經(jīng)遭受不可逆的破壞,紅樹林的受威脅程度高于熱帶雨林和其他內(nèi)陸森林[2]。近年來,雖然中國的紅樹林在不斷恢復[3-4],但是目前的紅樹林面積也僅約為歷史上紅樹林最大面積的1/10[5]。因此,中國的紅樹林恢復空間巨大。
對紅樹林中紅樹物種種群信息的識別和提取是紅樹林遙感研究的基礎(chǔ)工作,其信息提取精度能直接影響紅樹林理化參數(shù)和生態(tài)系統(tǒng)過程等指標定量反演的準確性[6-7]。與陸地植物相比,由于紅樹生長在灘涂上,下墊面吸熱量大,其反射率明顯偏低;而紅樹林中各種紅樹物種種群之間的光譜差異很細微。因此,紅樹物種種群識別比紅樹林范圍識別對遙感數(shù)據(jù)空間分辨率和分類算法的要求更高。
研究表明,中低分辨率的遙感數(shù)據(jù)可以用于紅樹林范圍識別,但是無法對小斑塊紅樹林中的紅樹物種種群進行準確區(qū)分[8];而高分辨率的遙感數(shù)據(jù)能夠提供豐富的光譜特征和空間特征(紋理特征)信息,其在識別紅樹林中各種紅樹物種種群分布的研究中具有較大優(yōu)勢[9]。利用中等分辨率的Landsat-8、SPOT-5、Sentinel-2 衛(wèi)星影像數(shù)據(jù)和高分辨率的WorldView-2衛(wèi)星影像數(shù)據(jù),對墨西哥沿岸紅樹林中的紅樹物種進行遙感分類,結(jié)果顯示,利用Landsat-8 影像數(shù)據(jù)得到分類結(jié)果的總體分類精度(64%)最低,利用SPOT-5 和Sentinel-2 影像數(shù)據(jù)得到的分類結(jié)果的總體分類精度(75%和78%)相近,利用WorldView-2 影像數(shù)據(jù)得到的分類結(jié)果的總體分類精度(93%)最高[10]。利用高分辨率的GF-2和RapidEye-4影像數(shù)據(jù),對紅樹林中紅樹物種種群的總體分類精度最高可達92.01%[11]。
一般采用非監(jiān)督分類方法或者監(jiān)督分類方法[12],對紅樹林中的紅樹物種種群分布進行遙感分類。非監(jiān)督分類方法與監(jiān)督分類方法的區(qū)別在于是否需要訓練數(shù)據(jù)或者先驗知識。近年來,機器學習算法在遙感分類中得到廣泛應(yīng)用。傳統(tǒng)機器學習算法(例如,支持向量機和決策樹算法等)是利用訓練數(shù)據(jù)集尋找與實際分類函數(shù)最接近的分類器。但是,在多數(shù)情況下,單一分類器的分類結(jié)果難以滿足研究對分類精度和效率的要求。集成學習算法(例如,隨機森林和梯度提升決策樹算法等)組合多個基分類器的分類結(jié)果,能彌補單一分類器分類結(jié)果的不足[13],故其在紅樹林制圖和物種種群識別中被廣泛應(yīng)用[14-17]。目前,一些新提出的集成學習算法,例如,極端梯度提升(extreme gradient boosting,XGBoost)算法和輕量級梯度提升機(light gradient boosting machine,LightGBM)算法,在紅樹林物種種群識別中的應(yīng)用較少。
集成學習算法能否有效提高模型分類能力與基分類器和模型算法密切相關(guān)。本研究利用WorldView-2衛(wèi)星影像數(shù)據(jù),構(gòu)建光譜和紋理特征數(shù)據(jù)集,采用決策樹(decision tree,DT)算法、隨機森 林(random forest,RF) 算 法、自 適 應(yīng) 提 升(adaptive boosting,AdaBoost)算法、梯度提升決策樹(gradient boosting decision,GBDT)算法、極端梯度提升算法和輕量級梯度提升機算法,對廣東湛江紅樹林國家級自然保護區(qū)核心區(qū)的高橋紅樹林區(qū)中的紅樹物種種群分布區(qū)進行遙感分類,旨在探討各種集成學習方法在紅樹物種種群遙感分類上的適用性,以期為區(qū)域尺度紅樹林中紅樹物種種群的遙感分類提供方法上的借鑒。
本研究以廣東湛江紅樹林國家級自然保護區(qū)核心區(qū)的高橋紅樹林區(qū)(21°31′N 至21°35′N,109°45′E 至109°48′E)為研究區(qū)(圖1)。研究區(qū)的總面積約為510 hm2[17]。該區(qū)域氣候?qū)儆谀蟻啛釒ШQ笮约撅L氣候,4 月至9月為多雨季節(jié),8月的降水量最大,10 月至翌年3 月的降水量較小。研究區(qū)所在水域的年平均水溫為25~27 ℃,受不規(guī)則日潮影響,平均潮差為2.53 m,最大潮差為6.25 m[18]。
圖1 研究區(qū)和野外調(diào)查點分布圖Fig.1 Map of study area and field survey points
在研究區(qū)紅樹林中的主要紅樹物種包括桐花樹(Aegiceras corniculatum)、白骨壤(Avicennia marina)、木欖(Bruguiera gymnorrhiza)、紅海欖(Rhizophora stylosa)、秋茄(Kandelia obvolata)和無瓣海桑(Sonneratia apetala)等,各種紅樹物種種群呈帶狀分布,木欖種群的面積達300 hm2。在研究區(qū)的海岸帶上,分布著黃槿(Hibiscus tiliaceus)和海檬果(Cerbera manghas)等半紅樹物種。
本研究利用了2020 年10 月7 日(晴天)的WorldView-2衛(wèi)星遙感影像。多光譜波段影像的空間分辨率為2 m,全色波段影像的分辨率為0.5 m。
首先,利用ENVI 5.3 軟件的Gram-Schmidt Pan Sharpening工具,融合多光譜波段和全色波段影像;然后,對融合影像進行輻射定標、大氣校正和正射校正預處理。
1.3.1 野外調(diào)查方法
分別于2018 年5 月22 日至26 日、2018 年12月4 日至10 日、2019 年7 月22 日至24 日、2019 年12 月28 日、2020 年1 月2 日、2020 年8 月6 日至10日、2020 年12 月5 日至11 日,開展了野外實地調(diào)查工作。
利用手持GPS,在白骨壤種群、木欖種群、紅海欖種群、桐花樹種群、無瓣海桑種群和秋茄種群分布區(qū)各確定了68 個、192 個、65 個、229 個、29 個和16 個(共599 個)野外調(diào)查點。在每個野外調(diào)查點,記錄紅樹物種的名稱、地理位置和株高等信息。
根據(jù)野外調(diào)查結(jié)果,將研究區(qū)的地物劃分為白骨壤種群區(qū)、木欖種群區(qū)、紅海欖種群區(qū)、桐花樹種群區(qū)、無瓣海桑種群區(qū)、秋茄種群區(qū)、水域和灘涂共8種類型。
訓練樣本數(shù)量和空間分布的選擇是影響分類模型精度的重要因素[19-20]。結(jié)合野外調(diào)查數(shù)據(jù)和無人機影像,在WorldView-2影像中,共獲取8 665個樣本點。其中,白骨壤種群區(qū)、木欖種群區(qū)、紅海欖種群區(qū)、桐花樹種群區(qū)、無瓣海桑種群區(qū)、秋茄種群區(qū)、水域和灘涂的樣本點數(shù)量分別為1 213個、1 261 個、1 240 個、1 221 個、1 198 個、150 個、1 175個和1 207個。在樣本數(shù)據(jù)集中,67%的樣本數(shù)據(jù)被用于訓練模型,33%的樣本數(shù)據(jù)被用來驗證模型。
1.3.2 分類特征提取方法
提取WorldView-2 影像的光譜特征和紋理特征,用于對紅樹物種的精細遙感分類。影像的光譜特征包括8個原始波段和12種植被指數(shù)[歸一化植被指數(shù)(NDVI)、綠色歸一化植被指數(shù)(GNDVI)、歸一化水指數(shù)(NDWI)、歸一化植被指數(shù)與歸一化水指數(shù)之差(CMRI)、葉綠素指數(shù)-綠光(CIg)、增強型植被指數(shù)2(EVI2)、改進的簡單比植被指數(shù)(MSR)、修正型三角植被指數(shù)(MTVI2)、優(yōu)化土壤調(diào)節(jié)植被指數(shù)(OSAVI)、修正型葉綠素吸收反射率指數(shù)(MCARI)、改進型葉綠素吸收植被指數(shù)(MCARI2)和歸一化紅邊植被指數(shù)(NDVIRE)]的光譜特征。影像的紋理特征包括8種簡單紋理特征、10 種高級紋理和10 種高階紋理特征。在提取影像的紋理特征時,分別計算3×3至29×29窗口的紋理特征。依據(jù)計算結(jié)果,確定本研究的遙感分類最佳窗口為19×19。
利用python 語言,計算出12 種植被指數(shù)值。利用Orfeo ToolBox 開源遙感軟件的Haralick Texture Extraction工具,提取影像的紋理特征。
為了得到紅樹物種種群識別的優(yōu)勢分類特征,在訓練分類器之前,構(gòu)建了3組特征組合,其分別為WorldView-2 影像的8 個原始光譜波段(特征組合1)、WorldView-2 影像的8 個原始光譜波段+12種植被指數(shù)(特征組合2)、WorldView-2影像的8個原始光譜波段+12 種植被指數(shù)+28 種紋理特征(特征組合3)。
1.3.3 集成分類器構(gòu)建
集成分類器由多個基分類器組成。裝袋(bagging)算法和提升(boosting)算法是集成算法中最具代表性的兩種算法。裝袋算法的代表性算法為隨機森林算法。提升算法中的代表性算法為自適應(yīng)提升、梯度提升決策樹、極端梯度提升和輕量級梯度提升算法等。利用python語言的sklearn機器學習工具包、極端梯度提升和輕量級梯度提升機第三方庫,實現(xiàn)集成算法。在模型訓練過程中,采用十折網(wǎng)格搜索交叉驗證方法,進行模型參數(shù)調(diào)優(yōu)。
1.3.4 分類結(jié)果精度的評價指標
除了混淆矩陣、總體精度、生產(chǎn)者精度、用戶精度這些常用的遙感分類精度評價指標外,本研究采用總體不一致性[21-22]來替代傳統(tǒng)的Kappa 系數(shù)??傮w不一致性是總體精度的補集,其可以分解為分配不一致性和數(shù)量不一致性。分配不一致性和數(shù)量不一致性的數(shù)值越小,表明分類模型的性能越好。當分配不一致性和數(shù)量不一致性的數(shù)值大于10%時,其所衡量的不一致是顯著的[23-24]。
采用6 種分類器,利用3 種特征組合的數(shù)據(jù),對紅樹林中的紅樹物種進行遙感分類,結(jié)果顯示,研究區(qū)的總面積為537.12 hm2,水域的面積為15.22 hm2,灘涂的面積為17.32 hm2,紅樹林總面積為504.58 hm2。
圖2 顯示,在高橋紅樹林區(qū)中,桐花樹種群和白骨壤種群的分布最廣,桐花樹種群主要分布在研究區(qū)北部西側(cè)的中、低潮帶處、北部東側(cè)沿岸靠近岸堤處和中部河流沿岸的低、中潮帶處;白骨壤是研究區(qū)的先鋒物種,其種群的聚集程度比較高,主要成片分布在研究區(qū)的中部和東南部,在不同的潮間帶都有分布;木欖種群和紅海欖種群的分布區(qū)域距離較近,主要分布在研究區(qū)西北部的中間地帶、中部和東南部靠近岸堤處;無瓣海桑種群主要分布在東北部和東南部岸堤處;秋茄種群分布區(qū)域最小,而且其常與桐花樹種群和木欖種群混生。
圖3 顯示,采用6 種算法和3 種特征組合的分類結(jié)果的總體分類精度變化在81.22%~93.15%之間。其中,基于特征組合3的輕量級梯度提升機算法分類結(jié)果的總體分類精度最高,為93.15%,其分配不一致性值為5.07%,數(shù)量不一致性值為1.78%;基于特征組合3的極端梯度提升算法的總體分類精度為92.79%,其分配不一致性值為5.97%,數(shù)量不一致性值為1.22%;基于特征組合3的隨機森林算法的總體分類精度為90.87%,其分配不一致性值為7.48%,數(shù)量不一致性值為1.64%;基于特征組合3 的梯度提升決策樹算法、自適應(yīng)提升算法、CART決策樹算法分類結(jié)果的總體分類精度分別為89.46%、88.04%和87.24%;整體分類精度最差的是基于特征組合2 的CART 決策樹算法,其總體分類精度為81.22%,其分配不一致性值為16.22%(大于10%),數(shù)量不一致性值為2.55%。輕量級梯度提升機算法、極端梯度提升算法、隨機森林算法、梯度提升決策樹算法、自適應(yīng)提升算法、CART決策樹算法分類結(jié)果的總體分類精度依次減小。
圖3 基于3種特征組合的6種分類器對紅樹物種種群區(qū)的分類精度Fig.3 The classification accuracy of 6 classifiers based on 3 feature combinations for mangrove species population areas
由表1可知,基于特征組合3的輕量級梯度提升機算法對白骨壤種群區(qū)、紅海欖種群區(qū)、木欖種群區(qū)、秋茄種群區(qū)、桐花樹種群區(qū)和無瓣海桑種群區(qū)分類結(jié)果的生產(chǎn)者精度分別為0.90、0.95、0.95、0.28、0.89 和0.97?;谔卣鹘M合2 的CART 決策樹算法對白骨壤種群區(qū)、紅海欖種群區(qū)、木欖種群區(qū)、秋茄種群區(qū)、桐花樹種群區(qū)和無瓣海桑種群區(qū)分類結(jié)果的生產(chǎn)者精度分別為0.67、0.88、0.89、0.24、0.70 和0.70。由此可見,除了秋茄種群區(qū)以外,基于特征組合3的6種分類器都能準確識別研究區(qū)中的其他5種紅樹物種種群區(qū),而且CART決策樹算法的總體分類精度低于其他5種集成算法。
表1 基于3種特征組合的6種分類器對紅樹物種種群區(qū)分類結(jié)果的生產(chǎn)者精度Table 1 The producer accuracy classification results of 6 classifiers based on 3 feature combinations for mangrove species population areas
在18種分類結(jié)果中,輕量級梯度提升機算法、極端梯度提升算法和隨機森林算法的分類結(jié)果精度較高,符合紅樹物種生長的空間分布規(guī)律;CART決策樹、自適應(yīng)提升算法和梯度提升決策樹算法的分類結(jié)果存在比較嚴重的“椒鹽”現(xiàn)象,各紅樹物種種群的分布零散,而且在各特征組合上的分類性能不穩(wěn)定。例如,基于特征組合2的自適應(yīng)提升算法的分類結(jié)果對木欖種群區(qū)和紅海欖種群區(qū)、桐花樹種群區(qū)和白骨壤種群區(qū)的區(qū)分性較差,這可能是因為自適應(yīng)提升算法對異常樣本和特征的選擇比較敏感,而且自適應(yīng)提升算法選擇指數(shù)損失函數(shù),對于過度聚焦且難以被準確分類的樣本,當這些樣本是噪聲或者奇異值點時,會使分類器分類結(jié)果的分類精度下降。
在原始波段特征的基礎(chǔ)上,加入12 種植被指數(shù)后,6 種分類器分類結(jié)果的總體精度變化不大,甚至部分分類結(jié)果的精度略下降,但是,當加入紋理特征后,各分類器分類結(jié)果的總體分類精度都明顯提高。其中,CART 決策樹算法、輕量級梯度提升機算法、極端梯度提升算法、隨機森林算法、自適應(yīng)提升算法和梯度提升決策樹算法分類結(jié)果的總體分類精度分別提高了6.01%、5.03%、4.93%、4.75%、4.51%和3.15%。由此表明,紋理特征是提高紅樹物種種群識別精度的關(guān)鍵因素。
在基于WorldView-2 衛(wèi)星各光譜波段影像的5種集成算法的分類結(jié)果中,光譜波段4至光譜波段7 的重要性值絕大多數(shù)都位居前4 位(表2),說明能區(qū)分紅樹物種種群區(qū)的WorldView-2 影像的光譜波段主要為黃波段、紅波段、紅邊波段和近紅外1波段。
表2 WorldView-2衛(wèi)星影像各光譜波段特征對5種分類器分類結(jié)果的重要性值Table 2 The importance value of each spectral band feature of WorldView-2 satellite image to the classification results of 5 classifiers
對于基于特征組合2的分類結(jié)果,在重要性值位居前十位的優(yōu)勢特征中,5種集成算法選擇的特征都包括光譜波段3至光譜波段6(表3),3種集成算法(隨機森林算法、自適應(yīng)提升算法和極端梯度提升算法)選擇的特征都包括歸一化植被指數(shù)與歸一化水指數(shù)之差(CMRI)、修正型葉綠素吸收反射率指數(shù)(MCARI)、歸一化植被指數(shù)(NDVI)和歸一化紅邊植被指數(shù)(NDVIRE)。
表3 特征組合2中的各種特征對5種分類器分類結(jié)果的重要性值Table 3 The importance values of various features in feature combination 2 to the classification results of 5 classifiers
對于特征組合3的分類結(jié)果,在重要性值位居前十位的優(yōu)勢特征中,4種集成算法選擇的特征都包括光譜波段4 和光譜波段6(圖4)。隨機森林算法選擇的前20 個特征的重要性值、輕量級梯度提升機算法選擇的前20個特征的重要性值的差異不大,其紋理特征數(shù)量分別為3個、9個;在自適應(yīng)提升算法、梯度提升決策樹算法和極端梯度提升算法選擇的重要性值居于前十位的特征中,其紋理特征的數(shù)量分別為5個、3個和3個,植被指數(shù)的數(shù)量分別為2 個、2 個和3 個。這說明除了利用原始光譜波段影像以外,利用影像的紋理特征比利用植被指數(shù)更能提高紅樹物種種群識別的精度。
圖4 特征組合3中的各種特征對5種分類器分類結(jié)果的重要性值排序圖Fig.4 Ordination plot of the importance values of various features in feature combination 3 to the classification results of 5 classifiers
數(shù)據(jù)源和分類算法是影響紅樹物種種群區(qū)分類精度的關(guān)鍵影響因素[7]。WorldView-2影像是紅樹物種種群識別的理想數(shù)據(jù)源[25]。與一般高空間分辨率的遙感數(shù)據(jù)源相比,WorldView-2影像數(shù)據(jù)增加了紅邊波段和近紅外波段,能夠獲取更精細的紅樹物種種群差異信息,并且空間分辨率為0.5 m的影像數(shù)據(jù)能夠衍生豐富的紋理特征,可以刻畫出影像中重復出現(xiàn)的局部模式及其排列規(guī)則[26]。由于不同紅樹物種種群之間的光譜響應(yīng)極其相似,需要將光譜波段影像信息和影像的紋理特征等信息相結(jié)合,以獲得更準確的分類結(jié)果[27]。本研究中的6種分類器的分類結(jié)果都表明,紋理特征信息的加入明顯提高了對紅樹物種種群的識別精度。與只利用原始光譜波段影像數(shù)據(jù)的分類結(jié)果的總體分類精度相比,基于特征組合3的分類結(jié)果的總體分類精度平均提高了4%;就單種紅樹物種而言,白骨壤、秋茄、桐花樹和無瓣海桑種群區(qū)的識別精度明顯提高,這與一些相關(guān)研究[15,17,22]的結(jié)果一致。
集成學習算法已經(jīng)被應(yīng)用于紅樹物種分類研究[6,17,28-29]中。本研究結(jié)果表明,與決策樹分類器的分類結(jié)果相比,5種集成學習算法分類結(jié)果的分類精度更高。其中,輕量級梯度提升機算法分類結(jié)果的總體分類精度和單種紅樹物種種群分類精度都最優(yōu)。此外,不僅常用的隨機森林算法可以識別紅樹物種種群區(qū),極端梯度提升算法在識別紅樹物種種群區(qū)方面也有巨大潛力,這與文獻[22]的研究結(jié)果類似。在本研究中,秋茄種群區(qū)的面積所占比例(約為0.8%)最小,在6種分類算法的分類結(jié)果中,秋茄種群區(qū)的分類精度最低。這可能是因為秋茄常與桐花樹和木欖混生且種群分布零散,導致沒有獲得足夠有效的訓練樣本,影像的單個像元包含多種紅樹物種的混合信息,從而影響了分類器建立模型。
具有8個光譜波段的高空間分辨率WorldView-2影像是紅樹物種種群遙感分類的理想數(shù)據(jù)源。綜合利用WorldView-2影像的光譜反射特征和紋理特征,可以有效地提高紅樹物種種群的識別精度。
在5種集成學習算法中,輕量級梯度提升機算法對紅樹林物種種群精細分類的優(yōu)勢最大,其分類結(jié)果的總體分類精度和單種紅樹物種種群的生產(chǎn)者精度都很高。基于WorldView-2 影像的8 個原始光譜波段+12種植被指數(shù)+28種紋理特征,輕量級梯度提升機算法分類結(jié)果的總體分類精度為93.15%,其分配不一致性值為5.07%,數(shù)量不一致性值為1.78%。
極端梯度提升算法和隨機森林算法也在紅樹物種種群遙感分類中表現(xiàn)出良好的適用性和應(yīng)用潛力。