黃 健,吳達(dá)勝,方陸明
(浙江農(nóng)林大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,林業(yè)感知技術(shù)與智能裝備國(guó)家林業(yè)和草原局重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 311300)
傳統(tǒng)的森林資源調(diào)查以實(shí)地調(diào)查為主,不僅需要大量的人力、物力、財(cái)力,而且調(diào)查周期長(zhǎng),難以滿足森林資源動(dòng)態(tài)監(jiān)測(cè)的需求[1-2]。當(dāng)然,傳統(tǒng)的地面調(diào)查可為森林資源調(diào)查提供客觀可靠的數(shù)據(jù),再結(jié)合遙感影像和機(jī)器學(xué)習(xí)方法,可以提高森林資源監(jiān)測(cè)的時(shí)效性、降低監(jiān)測(cè)成本。近年來(lái),光學(xué)遙感影像數(shù)據(jù)在林業(yè)資源監(jiān)測(cè)中備受關(guān)注。
李煜等[3]、張悅楠等[4]、蔡林菲等[5]使用遙感影像結(jié)合機(jī)器學(xué)習(xí)的方式對(duì)樹種進(jìn)行識(shí)別,均得到了較高的總體識(shí)別精度,3個(gè)研究結(jié)果均表明光譜信息是決定樹種識(shí)別精度的主要特征變量。隨著遙感技術(shù)的迅速發(fā)展,將光學(xué)遙感影像與雷達(dá)遙感影像相結(jié)合的方法在森林資源監(jiān)測(cè)中的使用也越來(lái)越廣泛,且在樹種識(shí)別方面取得了較好的效果[6-7]。王瑞瑞等[8]使用機(jī)載多光譜數(shù)據(jù)與雷達(dá)點(diǎn)云數(shù)據(jù),結(jié)合RF、SVM與ANN進(jìn)行樹種識(shí)別,總體精度達(dá)到了86.19%;徐逸等[9]采用XGBoost算法,以機(jī)載高光譜數(shù)據(jù)與雷達(dá)數(shù)據(jù)對(duì)紅樹林樹種進(jìn)行了分類,總體精度達(dá)到了96.74%;皋廈等[10]結(jié)合LiDAR與高光譜數(shù)據(jù),使用RF算法構(gòu)建樹種識(shí)別模型,總體精度達(dá)到了91.30%。Persson等[11]使用Sentinel-2影像數(shù)據(jù),結(jié)合RF對(duì)瑞典常見樹種進(jìn)行分類,總體精度達(dá)到了86.30%,研究表明近紅外波段對(duì)樹種的識(shí)別有重要的作用;Dalponte等[12]使用高光譜與多光譜數(shù)據(jù)融合激光雷達(dá)數(shù)據(jù)對(duì)南阿爾卑斯山區(qū)域特蘭托的部分區(qū)域進(jìn)行樹種識(shí)別,經(jīng)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),高光譜數(shù)據(jù)結(jié)合激光雷達(dá)數(shù)據(jù)與多光譜數(shù)據(jù)結(jié)合雷達(dá)數(shù)據(jù)在對(duì)“森林” “非森林”和“闊葉林” “針葉林” “非森林”這兩種宏觀分類上沒有明顯差距,但在對(duì)樹種進(jìn)行精細(xì)分類時(shí),高光譜數(shù)據(jù)結(jié)合激光雷達(dá)數(shù)據(jù)的效果更優(yōu)。
淳安縣的主要林型為闊葉林與針葉林,其中闊葉林中包含闊葉混交林、其他硬闊林、山核桃林(Caryacathayensis),針葉林中包括杉木(Cunninghamialancelata)林與馬尾松(Pinusmassoniana)林,這些林種起到了保持水土、調(diào)控天氣以及維持生物多樣性等作用,同時(shí)也為人類生產(chǎn)生活提供了豐富的原材料,為可持續(xù)發(fā)展提供了堅(jiān)實(shí)的物質(zhì)基礎(chǔ)。毛竹(Phyllosstachysedulis)與茶樹(Camelliasinensis)林是研究區(qū)中經(jīng)濟(jì)林的重要組成部分,并帶來(lái)了較可觀的經(jīng)濟(jì)效益。由于淳安縣面積較大,森林資源豐富,通過(guò)衛(wèi)星遙感技術(shù)不易于樹種的精細(xì)分類;而通過(guò)對(duì)淳安縣小班中的林型進(jìn)行識(shí)別,便于整個(gè)區(qū)域森林資源的經(jīng)營(yíng)與管理。故本研究將淳安縣各小班的林型作為最終識(shí)別對(duì)象。
綜上所述,關(guān)于優(yōu)勢(shì)林種識(shí)別的研究區(qū)域主要集中在林場(chǎng)或森林且都獲取了較高的識(shí)別精度,但對(duì)于大范圍內(nèi)的林型識(shí)別研究較少[6],模型的泛化能力不夠,為了進(jìn)一步提高區(qū)域森林小班林型識(shí)別結(jié)果的可靠性與模型的泛化能力,并獲取較高的識(shí)別精度,本研究集成Sentinel-2和Sentinel-1遙感影像、數(shù)字高程模型(DEM)和森林資源二類調(diào)查數(shù)據(jù),將模型分為3層:首先使用RF建立林地識(shí)別模型,再使用RF、XGBoost、LightGBM建立樹種結(jié)構(gòu)識(shí)別模型,最后一層根據(jù)樹種結(jié)構(gòu)識(shí)別模型的識(shí)別結(jié)果,使用LightGBM進(jìn)行林型識(shí)別,這是一個(gè)逐步求精的過(guò)程。本研究采用3層模型結(jié)構(gòu)對(duì)大范圍內(nèi)的林型進(jìn)行識(shí)別,以期獲取相較于傳統(tǒng)的單層模型更高的精度。
研究區(qū)域?yàn)檎憬〈景部h(118°20′~119°20′E,29°11′~30°02′N),位于浙江省西部、杭州市西南部丘陵山區(qū),白際山脈和千里崗山脈之間,新安江和千島湖交匯之處,四面多山,中為丘陵,略呈盆地狀,屬北亞熱帶季風(fēng)氣候區(qū)。陸域面積4 417.48 km2,是浙江省陸域面積最大的縣。淳安縣中部是千島湖區(qū),生態(tài)環(huán)境較好,擁有33.332萬(wàn)hm2的森林面積,覆蓋率高達(dá)75.27%。其中,包括了闊葉混交林、其他硬闊林、山核桃林、馬尾松林、杉木林、毛竹林、茶樹林這7種林型(表1)。
表1 樹種結(jié)構(gòu)分類及樣本數(shù)量
1.2.1 光學(xué)遙感影像
本研究使用的光學(xué)遙感影像數(shù)據(jù)來(lái)源于歐洲航天局哥白尼計(jì)劃中的Sentinel-2衛(wèi)星,成像時(shí)間為2017年10月29日—10月30日,共5景,影像可覆蓋13個(gè)光譜波段[13]。
1.2.2 雷達(dá)遙感影像
本研究所用的雷達(dá)遙感影像來(lái)源于搭載合成孔徑雷達(dá)的Sentinel-1衛(wèi)星,成像時(shí)間為2017年10月18日,使用的是IW GRD級(jí)的2景影像數(shù)據(jù)。
地形因子提取于先進(jìn)星載熱發(fā)射和反射輻射儀全球數(shù)字高程模型(ASTER GDEM)第2版,共4景,分辨率為30 m,公布時(shí)間為2017年。
本研究的實(shí)地調(diào)查數(shù)據(jù)來(lái)自2017年的淳安縣森林資源二類調(diào)查數(shù)據(jù),其中包含了研究區(qū)域各森林小班的詳細(xì)信息。
光學(xué)遙感因子包括光譜特征因子和紋理特征因子。光譜特征因子:在Sen2Cor插件與SNAP軟件中經(jīng)過(guò)預(yù)處理將影像轉(zhuǎn)為ENVI格式,去除Sentinel-2遙感影像中分辨率較低且與實(shí)驗(yàn)關(guān)系不大的3個(gè)波段(Band1為海岸/氣溶膠波段,Band9為水蒸氣波段,這兩個(gè)波段對(duì)于本研究的意義不大,而Band10為卷云波段,獲取的是大氣頂部的反射率,并不是地表的反射率,在Sen2Cor插件中的大氣校正步驟中自動(dòng)刪除),剩余10個(gè)波段;外加計(jì)算得到的4個(gè)植被指數(shù),即比值植被指數(shù)(RVI)、增強(qiáng)型植被指數(shù)(EVI)、差值環(huán)境植被指數(shù)(DVI)、歸一化植被指數(shù)(NDVI)[5,14]以及6個(gè)光學(xué)波段組合因子,共計(jì)20個(gè)光譜特征因子作為自變量(表2)。
表2 光譜特征因子
紋理特征因子:對(duì)基于Sentinel-2光學(xué)遙感影像中空間分辨率最高(10 m)的Band2、Band3、Band4和Band8進(jìn)行主成分分析,并選取第1主成分進(jìn)行計(jì)算紋理特征值。在遙感影像的研究中,使用的滑動(dòng)窗口大小一般不大于51×51像素[15],所以本研究共使用了13個(gè)大小為3×3像素至51×51像素,方向?yàn)?35°,且移動(dòng)步長(zhǎng)為1像素的滑動(dòng)窗口進(jìn)行對(duì)比。各個(gè)窗口提取均值(mean)、同質(zhì)性(homogeneity)、熵(entropy)、非相似性(dissimilarity)、對(duì)比度(contrast)、相關(guān)性(correlation)、方差(variance)和二階矩(second moment)8個(gè)紋理特征值[16-18]參與后續(xù)實(shí)驗(yàn)。
1.5.2 雷達(dá)遙感數(shù)據(jù)提取特征
使用SNAP軟件對(duì)Sentinel-1雷達(dá)遙感影像數(shù)據(jù)進(jìn)行軌道校正、消除邊界噪聲、去除熱噪聲、抑制相干斑噪聲、輻射定標(biāo)、分貝化等操作,得到VV(垂直發(fā)射,垂直接收,同向極化)和VH(垂直發(fā)射,水平接收,交叉極化)兩種極化方式的后向散射系數(shù),并將VV和VH進(jìn)行相減和相除,共得到4個(gè)雷達(dá)遙感因子。
1.5.3 地形特征提取
將獲取的4景DEM在ArcGIS中進(jìn)行坐標(biāo)系轉(zhuǎn)換、拼接和裁剪后,提取研究區(qū)域的海拔、坡度、坡向這3個(gè)地形因子。
1.5.4 森林資源二類調(diào)查數(shù)據(jù)
從森林資源二類調(diào)查數(shù)據(jù)中提取各個(gè)小班的土層厚度、腐殖質(zhì)厚度作為特征因子[19-20],并將其所對(duì)應(yīng)的樹種結(jié)構(gòu)與林型作為模型標(biāo)簽,用于模型精度的驗(yàn)證指標(biāo)。
二類調(diào)查數(shù)據(jù)中的腐殖質(zhì)厚度表示為:薄、中、厚。由于這兩個(gè)特征因子并沒有詳細(xì)的數(shù)值且相互之間存在遞進(jìn)的數(shù)學(xué)關(guān)系,本研究采用了標(biāo)簽編碼的方式(編碼薄為0,中為1,厚為2)。土層厚度在二類數(shù)據(jù)中有具體的數(shù)值表示,故不需要進(jìn)行編碼。
綜上所述,本研究共使用37個(gè)特征因子,其中光譜特征因子20個(gè),紋理特征因子8個(gè),雷達(dá)遙感因子4個(gè),地形因子3個(gè),森林資源二類調(diào)查因子2個(gè)。
以小班為研究單元,集成Sentinel-2、Sentinel-1、DEM及森林資源二類調(diào)查數(shù)據(jù),提取自變量因子數(shù)據(jù),并將各個(gè)因子使用不同的組合方式進(jìn)行建模。第1層模型使用RF模型識(shí)別林地與非林地;第2層使用RF、XGBoost、LightGBM模型識(shí)別林地上的樹種結(jié)構(gòu)類型;第3層使用上層中的最優(yōu)方法結(jié)合雷達(dá)遙感數(shù)據(jù)識(shí)別林型。
具體流程如圖1所示。
1)隨機(jī)森林(RF)。使用Boostrap重采樣算法對(duì)原始數(shù)據(jù)集進(jìn)行有放回的橫向欠采樣與縱向欠采樣,得到若干份數(shù)據(jù)集。使用每一份訓(xùn)練集訓(xùn)練1棵決策樹,所有的決策樹集成后構(gòu)成隨機(jī)森林,最終的分類結(jié)果由各子樹投票進(jìn)行決定,得票數(shù)最多的識(shí)別結(jié)果作為隨機(jī)森林的最終結(jié)果。本研究設(shè)置了最大特征數(shù)為總特征數(shù)量的平方根,子樹的數(shù)量設(shè)置為250棵。
2)極端梯度提升(XGBoost)。該算法的基礎(chǔ)學(xué)習(xí)器之間存在線性的相關(guān)性,通過(guò)特征預(yù)排序機(jī)制,減少了迭代過(guò)程中的計(jì)算量,每次迭代對(duì)殘差進(jìn)行擬合?;A(chǔ)學(xué)習(xí)器采用了與RF相似的特征降采樣,降低過(guò)擬合的風(fēng)險(xiǎn)。XGBoost模型采用決策樹作為基學(xué)習(xí)器,子樹數(shù)量設(shè)為250棵,最大深度為6,每棵決策樹使用80%的訓(xùn)練集樣本與80%的特征進(jìn)行構(gòu)建,學(xué)習(xí)率默認(rèn)為0.3。
3)LightGBM。該算法與XGBoost都是提升算法,其最明顯的特點(diǎn)是在訓(xùn)練的過(guò)程中可以將連續(xù)型特征離散化,類似于數(shù)據(jù)分箱操作,將連續(xù)數(shù)據(jù)進(jìn)行分段劃分,并裝入對(duì)應(yīng)的箱子中,大大減少計(jì)算量,并且支持類別特征直接輸入。在子樹的生長(zhǎng)過(guò)程中采用了leaf-wise生長(zhǎng)策略,減少了無(wú)效節(jié)點(diǎn)分裂,提升樹設(shè)為250棵,學(xué)習(xí)率設(shè)為0.2,最大深度設(shè)為6。
1)本研究中3層模型都以7∶3的比例進(jìn)行訓(xùn)練集與測(cè)試集的劃分,并構(gòu)建模型。其中,二類數(shù)據(jù)中提取的樹種結(jié)構(gòu)信息與林型信息作為模型的標(biāo)簽,用于精度驗(yàn)證,模型評(píng)價(jià)指標(biāo)采用了用戶精度(user accuracy, UA)、生產(chǎn)者精度(producer accuracy, PA)、總體精度(overall accuracy, OA)以及Kappa系數(shù)。
2)本研究獲取的森林資源二類調(diào)查數(shù)據(jù)中共包含了133 429條小班數(shù)據(jù),剔除殘缺的數(shù)據(jù)以及小樣本樹種與灌木林地?cái)?shù)據(jù),保留共65 542條林地?cái)?shù)據(jù)與4 094條非林地?cái)?shù)據(jù)。
3)由于第1層中的正負(fù)樣本不均衡,為了提高識(shí)別結(jié)果中林地?cái)?shù)據(jù)的純度,林地識(shí)別模型中采用了4種過(guò)采樣算法:合成少數(shù)類別過(guò)采樣技術(shù)(synthetic minority oversampling technique, SMOTE)、邊界過(guò)采樣(borderline-SMOTE)、支持向量機(jī)過(guò)采樣(SVM-SMOTE)、自適應(yīng)過(guò)采樣(adaptive synthetic sampling, ADASYN)。為了避免正負(fù)樣本的邊界模糊,從過(guò)采樣后的數(shù)據(jù)集中提取了90 000條數(shù)據(jù)用于模型構(gòu)建,其中63 000條數(shù)據(jù)用于模型訓(xùn)練,27 000條數(shù)據(jù)用于精度測(cè)試。訓(xùn)練集中林地?cái)?shù)據(jù)45 890條、非林地?cái)?shù)據(jù)17 110條,測(cè)試集中林地?cái)?shù)據(jù)19 652條、非林地?cái)?shù)據(jù)7 348條。
4)林種結(jié)構(gòu)識(shí)別模型使用來(lái)自第1層模型中識(shí)別結(jié)果為林地的數(shù)據(jù),將獲取的林地?cái)?shù)據(jù)使用拉依達(dá)準(zhǔn)則[21]進(jìn)行篩選,剔除了270條識(shí)別錯(cuò)誤的數(shù)據(jù)以及14 345條異常數(shù)據(jù),剩余50 565條林地?cái)?shù)據(jù)。從中提取11 480條闊葉林?jǐn)?shù)據(jù)、10 957條針葉林?jǐn)?shù)據(jù)、12 957條經(jīng)濟(jì)林?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余數(shù)據(jù)用于模型精度測(cè)試。
5)在第3層林型識(shí)別時(shí),共使用闊葉混交林3 271條、其他硬闊林3 624條、山核桃林4 585條、杉木林6 742條、馬尾松林4 215條、毛竹林6 850條、茶樹林6 107條數(shù)據(jù)進(jìn)行模型的訓(xùn)練,其余數(shù)據(jù)用于模型精度驗(yàn)證。
林型的識(shí)別通過(guò)分層模型的方法實(shí)現(xiàn):
1)第1層林地與非林地識(shí)別模型基于RF與過(guò)采樣算法構(gòu)建,將識(shí)別結(jié)果為林地的數(shù)據(jù)用于林種結(jié)構(gòu)識(shí)別。
2)第2層樹種結(jié)構(gòu)識(shí)別模型將第1層模型識(shí)別結(jié)果中的林地?cái)?shù)據(jù)作為數(shù)據(jù)集,使用RF、XGBoost、LightGBM進(jìn)行構(gòu)建。
3)第3層林型識(shí)別模型使用第2層對(duì)比實(shí)驗(yàn)中的最優(yōu)建模算法進(jìn)行構(gòu)建,并將第2層模型的識(shí)別結(jié)果作為類別特征。為了探究雷達(dá)遙感因子及特征選擇對(duì)模型精度的影響,設(shè)計(jì)了3種遙感因子及特征選擇方案。
林地與非林地識(shí)別模型的分類結(jié)果如表3所示。從表3可知,SMOTE過(guò)采樣可以使第1層模型的總體精度達(dá)到最高,其中測(cè)試集識(shí)別結(jié)果混淆矩陣如圖2所示。
表3 不同過(guò)采樣算法下的RF模型精度
將第1層模型中識(shí)別結(jié)果為林地的數(shù)據(jù)進(jìn)行篩選后,利用RF、XGBoost、LightGBM這3種算法模型,使用如下4個(gè)自變量組合方案進(jìn)行建模。方案1為光譜特征因子;方案2為光譜特征因子、森林資源二類調(diào)查因子;方案3為光譜特征因子、森林資源二類調(diào)查因子、地形因子;方案4為光譜特征因子、森林資源二類調(diào)查因子、地形因子、紋理特征因子,其中前3種方案得到9種建模結(jié)果。測(cè)試數(shù)據(jù)在9個(gè)模型上的精度表現(xiàn),如表4所示。
表4 基于3種自變量組合方案及3種算法模型的精度比較
對(duì)比表4中的9個(gè)實(shí)驗(yàn)方案的總體精度,可以發(fā)現(xiàn),LightGBM模型方案3的結(jié)果最優(yōu),其總體精度達(dá)到了80.76%,且計(jì)算所需的時(shí)間也遠(yuǎn)少于RF和XGBoost模型,表現(xiàn)最佳。
基于LightGBM模型方案3,再加入13個(gè)不同大小窗口獲取的紋理特征(方案4),進(jìn)一步評(píng)價(jià)LightGBM模型的精度(如表5所示)。由表5可知:在窗口大小為7×7時(shí),LightGBM-4樹種結(jié)構(gòu)的總體識(shí)別精度最高,達(dá)到了81.43%。
表5 LightGBM方案4的模型識(shí)別精度
上述的LightGBM模型方案4的原始自變量集涉及33個(gè)因子,為降低模型的復(fù)雜度與建模成本,使用RFE將自變量個(gè)數(shù)由33個(gè)降為14個(gè)(其中包含了10個(gè)光譜特征因子、2個(gè)紋理特征因子、2個(gè)地形因子、0個(gè)二類數(shù)據(jù)因子),模型總體精度略有下降,由原來(lái)的81.43%下降到80.27%,識(shí)別結(jié)果混淆矩陣如圖3所示。
基于RFE和LightGBM-4樹種結(jié)構(gòu)識(shí)別模型中的特征重要性如圖4所示,光譜特征中Band3、Band4、Band6、Band11、Band12波段和B8A_B7、B6_B5、B7_B6光學(xué)波段組合因子在模型中貢獻(xiàn)度較高。紋理特征中的均值(mean)、二階段矩(second moment)和地形因子中的坡度(slope)、海拔(elevation)的貢獻(xiàn)度也較高。
本研究涉及的林型主要有7類:闊葉混交林、其他硬闊林、山核桃林、杉木林、馬尾松林、毛竹林、茶樹林。
構(gòu)建林型識(shí)別模型時(shí),特征組合方式使用構(gòu)建樹種結(jié)構(gòu)識(shí)別的方案4結(jié)合雷達(dá)遙感因子。對(duì)于紋理特征處理,采用與樹種結(jié)構(gòu)識(shí)別模型一樣的窗口數(shù)量及大小(表5)評(píng)價(jià)紋理特征對(duì)模型精度的影響,結(jié)果見圖5。由圖5可知,精度較高的窗口大小為23×23、31×31、35×35、39×39、51×51,其中51×51窗口獲取的紋理特征使模型精度最高,識(shí)別結(jié)果混淆矩陣如圖6所示。
由圖6可知:毛竹、茶樹和山核桃林的識(shí)別精度較高,闊葉混交林和其他硬闊林的識(shí)別精度都比較低。從混淆矩陣來(lái)看,這兩類林型有比較大的概率被識(shí)別成同一類,難以準(zhǔn)確地將它們區(qū)分開,從而導(dǎo)致總體識(shí)別精度下降。針葉林中的識(shí)別結(jié)果來(lái)看,杉木林的識(shí)別效果優(yōu)于馬尾松林。
為了進(jìn)一步研究雷達(dá)遙感數(shù)據(jù)對(duì)林型識(shí)別的影響及分析各自變量因子的重要性,基于表4的第4種自變量因子組合方案,分別使用了3種雷達(dá)遙感因子及特征選擇方案:方案A為未加入雷達(dá)遙感因子進(jìn)行特征選擇;方案B為加入雷達(dá)遙感因子進(jìn)行特征選擇;方案C為特征選擇后加入雷達(dá)遙感因子,利用LightGBM模型識(shí)別林型,結(jié)果見表6。
由表6可知:雷達(dá)遙感因子對(duì)林型識(shí)別精度影響不明顯。方案B和方案C的特征重要性如圖7所示。由圖7可知來(lái)自光學(xué)遙感和DEM的自變量因子比雷達(dá)遙感數(shù)據(jù)獲取的自變量因子對(duì)模型的精度影響更大。
表6 基于LightGBM-4及3種雷達(dá)遙感因子及特征選擇方案的建模精度對(duì)比
本研究所使用的林地?cái)?shù)據(jù)為經(jīng)過(guò)拉依達(dá)準(zhǔn)則篩選后的50 565條數(shù)據(jù),在區(qū)分了林地與非林地的基礎(chǔ)上,對(duì)所有林地?cái)?shù)據(jù)進(jìn)行了樹種結(jié)構(gòu)識(shí)別,識(shí)別結(jié)果如圖8(a)所示。所有林地的樹種結(jié)構(gòu)識(shí)別完成后,將樹種結(jié)構(gòu)細(xì)分為更精細(xì)的林型,識(shí)別結(jié)果如圖8(b)所示。
由圖8可知,本研究采用的方法對(duì)于淳安縣林型有較好的識(shí)別效果,整體精度較高。
本研究同時(shí)基于LightGBM模型方案4(表4)及雷達(dá)遙感因子,構(gòu)建一層模型直接對(duì)林型進(jìn)行識(shí)別,識(shí)別結(jié)果如下所示:一層模型使用所有特征進(jìn)行建模的總體精度為70.99%,RFE后特征建模精度為68.13%,模型訓(xùn)練時(shí)間為3.72 s;三層模型使用所有特征進(jìn)行建模的總體精度為84.51%,RFE后特征建模精度為68.13%,模型訓(xùn)練時(shí)間為36.68 s。由模型對(duì)比結(jié)果可知:一層模型的林型識(shí)別結(jié)果相較于三層模型(RF-LightGBM-LightGBM)而言精度下降非常明顯。這表明,三層模型逐步求精的識(shí)別方式比一層模型直接識(shí)別有更高的精度。
此外,從實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),在林型識(shí)別模型中,闊葉混交林與其他硬闊林兩種林型區(qū)分難度較大,識(shí)別精度較低,根據(jù)3個(gè)光譜特征距離對(duì)其進(jìn)行分析,如圖9所示。
林海軍等[22]計(jì)算了數(shù)據(jù)間的協(xié)方差(馬氏距離),獲取樹種光譜特征之間的相似度,用于確定樹種之間差異顯著的波段,并剔除差異不顯著的波段。在本研究中,通過(guò)圖9中的3個(gè)光譜特征距離的對(duì)比可發(fā)現(xiàn),山核桃、毛竹、茶樹林的特征距離比其他林型的大,說(shuō)明了這3種林型與其他林型的光譜特征差異較明顯,容易與其他林型區(qū)分開,從而獲得了較高的識(shí)別精度。由于闊葉混交林與其他硬闊林為多種樹種混交生長(zhǎng),且研究區(qū)域?qū)儆谇鹆甑貐^(qū),地表起伏變化較為明顯,可能導(dǎo)致了“異物同譜”現(xiàn)象的發(fā)生,使模型對(duì)其識(shí)別難度增大。這兩種林型的切比雪夫距離僅為15.5,說(shuō)明兩者之間的光譜特征差異非常小,無(wú)法找到2個(gè)林型間差異顯著的波段,這可能是導(dǎo)致兩種優(yōu)勢(shì)林種識(shí)別精度較低的主要原因。
本研究使用Sentinel-2光學(xué)遙感影像提取了光譜特征因子、紋理特征因子,結(jié)合Sentinel-1雷達(dá)遙感影像提取的后向散射系數(shù)與DEM提取的地形因子,進(jìn)行林型識(shí)別模型的構(gòu)建。經(jīng)特征選擇后,地形因子均保留了下來(lái),可見在本研究中,地形與林型的識(shí)別精度有密切的聯(lián)系。陶江玥等[23]研究中發(fā)現(xiàn),地形因素與樹種多樣性容易導(dǎo)致光學(xué)遙感影像中“異物同譜”現(xiàn)象的發(fā)生,影響樹種識(shí)別的精度。本研究中使用的3個(gè)地形因子補(bǔ)充了光學(xué)遙感因子的不足,且在模型中的貢獻(xiàn)度較高,利于各林型的識(shí)別。此外,RFE后得到的特征集合中,綠光、紅光、紅邊波段組合因子以及短波紅外對(duì)林型識(shí)別也起到了重要的作用,這與陳繼龍等[24]、張沁雨等[25]和Bolyn等[26]的研究結(jié)果相似。
近年來(lái)的研究發(fā)現(xiàn),光學(xué)遙感影像數(shù)據(jù)結(jié)合雷達(dá)遙感影像數(shù)據(jù)結(jié)合可以提高樹種識(shí)別的精度[27-28]。本研究同樣使用了多源遙感數(shù)據(jù)對(duì)林種進(jìn)行了識(shí)別,但雷達(dá)遙感自變量因子加入后,并未使模型的精度得到較明顯的提升。胥為等[29]使用Sentinel-1雷達(dá)遙感影像對(duì)沼澤植被進(jìn)行了提取,通過(guò)不同時(shí)相的影像提取后向散射系數(shù)對(duì)比發(fā)現(xiàn),當(dāng)植被在落葉期時(shí),雷達(dá)發(fā)射的電磁波更容易穿透冠層,發(fā)生二次回波散射。本研究獲取雷達(dá)遙感影像成像時(shí)間為2017年10月18日,部分闊葉樹種準(zhǔn)備進(jìn)入冬眠期,葉片開始掉落,C波段SAR可能獲取了接近于地表的后向散射系數(shù),各樹種之間的后向散射系數(shù)值差距變小,從而使4個(gè)雷達(dá)遙感因子在模型中的貢獻(xiàn)度相較于其他特征因子來(lái)說(shuō)不夠顯著。
本研究針對(duì)森林資源小班的林型識(shí)別進(jìn)行研究,取得了較高的識(shí)別精度,后續(xù)工作可從如下幾個(gè)方面繼續(xù)探索和深化:
1)光學(xué)遙感影像與雷達(dá)遙感影像的成像時(shí)間為10月底,葉片變色與掉落使各林型之間的光譜特征與后續(xù)散射系數(shù)差距變小,后續(xù)研究若能獲取成像時(shí)間為生長(zhǎng)季的遙感影像,很有可能進(jìn)一步提高識(shí)別精度。
2)本研究使用的Sentinel系列光學(xué)遙感影像的分辨率是10 m級(jí)的,下一步研究若能獲取更高精度的遙感影像(如1 m級(jí)的高分系列遙感影像),也可能更有利于捕捉各種林型尤其是混合優(yōu)勢(shì)樹種林型間更細(xì)微的差別。
3)本研究中紋理特征只使用了13種不同大小的窗口,對(duì)不同角度以及不同步長(zhǎng)的滑動(dòng)窗口可以再探究更多種組合,以期獲取更豐富的紋理信息,提高模型的精度。實(shí)驗(yàn)中所用Sentinel-1雷達(dá)遙感影像也包含了豐富的紋理信息,后續(xù)實(shí)驗(yàn)可以嘗試從雷達(dá)遙感影像中提取紋理特征因子進(jìn)行模型構(gòu)建。
4)本研究使用了4個(gè)植被指數(shù)和6個(gè)光學(xué)波段組合因子,在后續(xù)的研究中可以嘗試使用如綠度植被指數(shù)(GVI)、垂直植被指數(shù)(PVI)等植被指數(shù)。
5)Sentinel-1星載雷達(dá)的靈活性較低,后續(xù)研究可以通過(guò)機(jī)載雷達(dá)等其他途徑獲取雷達(dá)遙感數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。
本研究使用3層模型對(duì)研究區(qū)域內(nèi)7類林型:山核桃林、闊葉混交林、其他硬闊林、馬尾松林、杉木林、毛竹林和茶樹林進(jìn)行了識(shí)別,識(shí)別精度比單層模型有了明顯的提高,本研究結(jié)論如下:
1)采用3層模型識(shí)別林型,第1層模型使用光譜特征因子對(duì)林地與非林地進(jìn)行識(shí)別;第2層模型為樹種結(jié)構(gòu)識(shí)別模型,以第1層識(shí)別結(jié)果為林地的數(shù)據(jù)作為輸入,識(shí)別3種樹種結(jié)構(gòu),即闊葉林(含闊葉混交林)、針葉林、經(jīng)濟(jì)林;第3層模型為林型識(shí)別模型,以第2層模型識(shí)別的樹種結(jié)構(gòu)作為輸入,進(jìn)一步分類林型,特征降維后最終精度為83.21%。本研究還建立了只有一層的林型識(shí)別模型,特征降維后的精度僅為68.13%,這表明3層模型能夠起到逐步求精的作用,對(duì)模型的優(yōu)化起到了很好的效果。
2)當(dāng)光譜特征、紋理特征、地形因子、二類數(shù)據(jù)共同作為自變量時(shí),樹種結(jié)構(gòu)的識(shí)別精度最高,近紅外波段、紅邊波段、短波紅外以及紅光和綠光在樹種結(jié)構(gòu)和林型識(shí)別的過(guò)程中起著比較重要的作用。DEM獲取的地形因子對(duì)模型的貢獻(xiàn)度較為明顯,說(shuō)明了研究區(qū)域內(nèi)的林型分布與地形也有密切的關(guān)系。
3)對(duì)比RF、XGBoost、LightGBM 3個(gè)模型的結(jié)果發(fā)現(xiàn),LightGBM模型在本研究的大樣本數(shù)據(jù)上表現(xiàn)最佳。
4)使用不同窗口大小下的紋理特征因子參與模型構(gòu)建,7×7大小窗口獲取的紋理特征因子在樹種結(jié)構(gòu)識(shí)別模型中貢獻(xiàn)度最高,而在林型識(shí)別模型中,51×51大小窗口獲取的紋理特征表現(xiàn)最優(yōu)。
5)從識(shí)別結(jié)果的總體精度及特征重要性排序結(jié)果均表明,雷達(dá)遙感因子對(duì)小班林型的識(shí)別影響并不明顯。
南京林業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年1期