劉 海,蘇本躍
(1.安慶師范大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 安慶 246133;2.國(guó)家林業(yè)和草原局華東調(diào)查規(guī)劃設(shè)計(jì)院,浙江 杭州 340019)
森林是陸地生態(tài)系統(tǒng)中的重要組成部分,具有巨大的固碳功能,并且在維護(hù)生態(tài)安全、應(yīng)對(duì)氣候變化中發(fā)揮著特殊作用。蓄積量是林業(yè)調(diào)查中的一項(xiàng)重要指標(biāo),它能夠衡量森林資源的豐富程度以及健康程度,也直接反映了森林的經(jīng)營(yíng)成效。遙感技術(shù)已被廣泛應(yīng)用于各個(gè)領(lǐng)域,而林業(yè)遙感技術(shù)作為其中一個(gè)不可或缺的組成部分,不僅可以獲取林業(yè)資源管理的數(shù)據(jù),更能進(jìn)一步揭示林業(yè)經(jīng)營(yíng)管理的生態(tài)影響。定量遙感是指在基于模型知識(shí)的基礎(chǔ)上,依據(jù)可測(cè)參數(shù)值去反推目標(biāo)值,這一過(guò)程也被稱(chēng)作為模型反演。激光雷達(dá)等遙感數(shù)據(jù)應(yīng)用于森林測(cè)樹(shù)因子的定量估測(cè)反演一直是林業(yè)科研的主要方向。雙重抽樣是以一個(gè)大樣本估測(cè)權(quán)重,用一個(gè)較小的樣本估測(cè)蓄積量,采用誤差估計(jì)方法來(lái)計(jì)算兩重樣本估測(cè)精度的算法。研究主要是利用激光雷達(dá)點(diǎn)云數(shù)據(jù)進(jìn)行森林蓄積量反演,構(gòu)建反演模型,并通過(guò)優(yōu)化兩重抽樣算法,形成基于兩步回歸估計(jì)的森林蓄積量反演結(jié)果與人工驗(yàn)證結(jié)果的精度估算。
在森林蓄積量反演的遙感估測(cè)方法中有兩個(gè)重要的中間環(huán)節(jié)。一是特征提取。被動(dòng)光學(xué)圖像(可見(jiàn)光、多光譜、高光譜)主要是提取光譜特征,與冠幅有關(guān)的冠幅大小、形狀、閉合度等,以及紋理特征,而LiDAR主要提取單木的三維冠層結(jié)構(gòu)特征、點(diǎn)云強(qiáng)度特征,組成特征向量集;二是反演模型的選擇。多元逐步回歸和隨機(jī)森林是近些年來(lái)頻繁使用的分類(lèi)器,森林蓄積量的遙感估測(cè)基本流程如圖1所示。研究主要側(cè)重于遙感估測(cè)的模型反演與反演結(jié)果的精度計(jì)算,因此,具體激光雷達(dá)數(shù)據(jù)的獲取及處理暫不在研究研討的范圍之內(nèi)。
圖1 森林蓄積量的遙感估測(cè)基本流程
z
表示,實(shí)地調(diào)查的用y
表示,回歸方程為y
=α
+βz
+ε
,(1)
小班平均蓄積估計(jì)為
(2)
(3)
總體蓄積總量估計(jì)為
(4)
(5)
(6)
估計(jì)值的誤差限為
(7)
大樣本時(shí)u
005可取1.
96。估計(jì)精度為(8)
系統(tǒng)整理分析現(xiàn)有森林參數(shù)反演方法,目前基于LiDAR信息反演森林生物量或蓄積量的各類(lèi)建模方法,較為適合廣域范圍尺度,估測(cè)精度較高的主要有隨機(jī)森林和多元線性回歸等反演模型。
(1)隨機(jī)森林模型。隨機(jī)森林模型可以看作是決策樹(shù)模型的一個(gè)升級(jí),而決策樹(shù)模型是一種基于有監(jiān)督的機(jī)器學(xué)習(xí)算法的數(shù)學(xué)模型。其基本思想首先是從根節(jié)點(diǎn)開(kāi)始,對(duì)實(shí)例的某一特征值進(jìn)行測(cè)試,然后根據(jù)測(cè)試結(jié)果將實(shí)例分配到其子節(jié)點(diǎn),此時(shí)每個(gè)子節(jié)點(diǎn)都對(duì)應(yīng)著該特征的一個(gè)取值,如此遞歸地對(duì)實(shí)例進(jìn)行測(cè)試并分配,直到到達(dá)葉節(jié)點(diǎn),最后實(shí)例就被完全分到葉節(jié)點(diǎn)的類(lèi)中。隨機(jī)森林模型對(duì)樣本進(jìn)行了重采樣,并且對(duì)特征也進(jìn)行了隨機(jī)選取,形成多棵樹(shù),再通過(guò)投票的方式?jīng)Q定數(shù)據(jù)分類(lèi)。
(2)多元線性回歸模型。多元線性回歸是森林蓄積量遙感估測(cè)的常用算法,其主要思想是利用線性回歸方程的最小平方函數(shù)對(duì)多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。這種函數(shù)為帶有多個(gè)回歸系數(shù)的模型參數(shù)的線性組合,其模型公式為
y
=β
+β
x
+β
x
+…+β
x
+ε
,(9)
式中,y
為因變量;β
、β
、…、β
為參數(shù);x
、x
、…、x
為自變量;ε
為誤差。運(yùn)用在估計(jì)中,公式就變成
(10)
采用最小二乘法估計(jì),即求
(11)
SSE
)顯著減少。如果增加一個(gè)自變量使殘差平方和(SSE
)顯著減少,則說(shuō)明有必要將這個(gè)變量引入回歸模型中,否則,沒(méi)有必要將這個(gè)變量引入回歸模型中。確定在模型中引入自變量x
是否使殘差平方和(SSE
)顯著減少的方法,就是使用F
統(tǒng)計(jì)量的值作為一個(gè)標(biāo)準(zhǔn),以此來(lái)確定在模型中增加一個(gè)自變量,還是從模型中剔除一個(gè)自變量。變量選擇方式分為三種:①向前選擇。第一步:對(duì)k
個(gè)自變量分別與因變量y
的一元線性回歸模型,共有k
個(gè),然后找到F
統(tǒng)計(jì)量的值最大的模型及其自變量x
并將其首先引入模型。第二步:在已經(jīng)引入模型的x
的基礎(chǔ)上,再分別擬合x
與模型外的k
-1個(gè)自變量的線性回歸模型,挑選出F
值最大的含有兩個(gè)自變量的模型,依次循環(huán)、直到增加自變量不能導(dǎo)致SSE
顯著增加為止。②向后剔除。第一步:先對(duì)所有的自變量進(jìn)行線性回歸模型。然后考察小于k
個(gè)去掉一個(gè)自變量的模型,使模型的SSE
值減小最少的自變量被挑選出來(lái)從模型中剔除。第二步:考察p
-1個(gè)再去掉一個(gè)自變量的模型,使模型的SSE
值減小最少的自變量被挑選出來(lái)從模型中剔除,直到剔除一個(gè)自變量不會(huì)使SSE
值顯著減小為止,這時(shí),模型中所剩自變量自然都是顯著的。③逐步回歸。在向前選擇的基礎(chǔ)上,當(dāng)引入一個(gè)變量后,首先查看這個(gè)變量是否使得模型發(fā)生顯著性變化(F
檢驗(yàn)),若發(fā)生顯著性變化,再對(duì)所有變量進(jìn)行t
檢驗(yàn)。當(dāng)原來(lái)引入的變量由于后面加入的變量的引入而不再顯著變化時(shí),則剔除此變量,確保每次引入新的變量之前回歸方程中只包含顯著性變量,直到既沒(méi)有顯著的解釋變量選入回歸方程,也沒(méi)有不顯著的解釋變量從回歸方程中剔除為止,最終得到一個(gè)最優(yōu)的變量集合。研究采用安徽省2019年金寨等9縣(市)LiDAR反演森林蓄積量試點(diǎn)項(xiàng)目的激光點(diǎn)云數(shù)據(jù)及785個(gè)樣地?cái)?shù)據(jù)進(jìn)行建模。從LiDAR數(shù)據(jù)中計(jì)算提取46個(gè)與高度相關(guān)的、10個(gè)點(diǎn)云密度相關(guān)的及42個(gè)與強(qiáng)度相關(guān)的,共計(jì)98個(gè)統(tǒng)計(jì)變量,參與建模。
模型的評(píng)價(jià)和檢驗(yàn)是評(píng)價(jià)模型好壞的關(guān)鍵工作,研究在評(píng)價(jià)LiDAR森林蓄積量模型時(shí),將調(diào)整確定系數(shù)(adjR
)、估計(jì)值的標(biāo)準(zhǔn)差(SEE
)、均方根誤差(RMSE
)、相對(duì)均方根誤差(rRMSE
)4項(xiàng)指標(biāo)作為基本評(píng)價(jià)指標(biāo),計(jì)算公式如下:(12)
(13)
(14)
(15)
(16)
adjR
表示根據(jù)自變量的變異來(lái)解釋因變量的變異部分,adjR
值越接近于1,估測(cè)值與真實(shí)值的擬合情況越好。RMSE
是均方誤差的平方根,用來(lái)衡量預(yù)測(cè)值與真實(shí)值之間的誤差情況;rRMSE
是無(wú)量綱統(tǒng)計(jì)指標(biāo),反映模型精度情況,通常rRMSE
<10%表示模型精度非常好,10%<rRMSE
<20%表示模型精度較好,20%<rRMSE
<30%表示模型精度一般,rRMSE
>30%表示模型精度較差。考慮到模型反演的結(jié)果(由于不同模型得到的評(píng)價(jià)指標(biāo)并不完全相同,所以比較各算法模型的指標(biāo)不是上文中的全部指標(biāo))、運(yùn)行速度以及可解釋性的強(qiáng)弱,研究最后采用多元逐步回歸的方法,兩者的比較如表1所示。
表1 兩種算法的adjR2及運(yùn)行時(shí)間比較
根據(jù)安徽省森林資源狀況及地形地貌,分地形分樹(shù)種建立13個(gè)蓄積量估測(cè)模型:柏木、平原闊葉純、平原闊葉混、丘陵闊葉混、丘陵杉類(lèi)、丘陵松類(lèi)、丘陵針闊混、山區(qū)闊葉純、山區(qū)闊葉混、山區(qū)杉類(lèi)、山區(qū)松類(lèi)、山區(qū)針闊混、楊。研究中建模過(guò)程都在Spss Modeler上進(jìn)行,硬件環(huán)境為Intel?Core(TM)i9-9900K 3.6 GHz CPU,64 G內(nèi)存;操作系統(tǒng)是Windows 10。建模過(guò)程中采用隨機(jī)分組10次10折交叉驗(yàn)證方法確定最優(yōu)模型參數(shù)。各模型通過(guò)0.
05置信水平的顯著性檢驗(yàn),變量無(wú)自相關(guān)性,VIF
均小于10,不存在多重共線性。具體模型結(jié)構(gòu)及評(píng)價(jià)指標(biāo)如表2所示。從表2中可以看出,LiDAR反演蓄積結(jié)果擬合度相對(duì)較好,調(diào)整決定系數(shù)在0.
53~0.
93之間,平均決定系數(shù)約0.
74,均方根誤差RMSE
在(0.
58~2.
77)立方米/
畝,均值1.
6 立方米/
畝;相對(duì)均方根誤差rRMSE
在(0.
15~0.
48)范圍內(nèi),均值0.
32,達(dá)到當(dāng)前公認(rèn)研究水平(0.
2~0.
4)。表2 安徽省十區(qū)縣點(diǎn)云密度不足1個(gè)每平米的模型結(jié)構(gòu)及評(píng)價(jià)指標(biāo)
在遙感反演森林蓄積量的過(guò)程中都會(huì)涉及到反演精度的估算,而在廣域范圍的實(shí)際生產(chǎn)應(yīng)用過(guò)程中,為了獲得更為良好的成果,往往除了使用遙感反演以外,都會(huì)匹配相應(yīng)的人工驗(yàn)證,因此,結(jié)合人工驗(yàn)證結(jié)果計(jì)算精度也是值得探討的問(wèn)題。
為了驗(yàn)證安徽省2019年金寨等9縣(市)LiDAR反演森林蓄積量的精度,采集了兩重驗(yàn)證樣本:第一重樣本為利用高清遙感影像、2014年森林資源規(guī)劃設(shè)計(jì)調(diào)查成果、2016年LiDAR反演得到的森林蓄積及2019年LiDAR反演得到的森林蓄積等數(shù)據(jù)源,進(jìn)行人工修正,獲得修正后喬木林小班蓄積;第二重樣本分山區(qū)、丘陵和平原三種類(lèi)型,依據(jù)《安徽省森林資源規(guī)劃設(shè)計(jì)調(diào)查實(shí)施細(xì)則》,實(shí)地調(diào)查采集喬木林小班的林分相關(guān)因子,再由每公頃蓄積計(jì)算出小班蓄積。兩重樣本采用兩步回歸估計(jì)方法,計(jì)算金寨等9縣(市)LiDAR反演喬木林蓄積的精度和估測(cè)區(qū)間。
(1)人工基于多源數(shù)據(jù)的修正樣本。修正樣本利用高清遙感影像、2014年森林資源規(guī)劃設(shè)計(jì)調(diào)查成果、2016年LiDAR反演蓄積及2019年LiDAR反演蓄積等數(shù)據(jù)源,進(jìn)行人工修正后獲得。人工修正喬木林小班總數(shù)31 659個(gè),占喬木林小班總數(shù)254 086的12.46%,其中,平原修正10 791個(gè),丘陵修正3 439個(gè),山區(qū)修正17 429個(gè)。經(jīng)過(guò)修正,在喬木林小班中有1 610個(gè)小班實(shí)際為非林地或無(wú)林地,占驗(yàn)證小班數(shù)的5.09%。
表3 人工修正喬木林小班數(shù)統(tǒng)計(jì)表
(2)人工基于現(xiàn)地驗(yàn)證的修正樣本。為驗(yàn)證2019年金寨等9縣(市)LiDAR反演喬木林蓄積的估測(cè)精度,按照平原、丘陵、山區(qū)三種類(lèi)型,在人工修正小班中抽取部分喬木林小班開(kāi)展現(xiàn)地驗(yàn)證?,F(xiàn)地驗(yàn)證喬木林小班總數(shù)5 560個(gè),其中,平原驗(yàn)證1 876個(gè),丘陵驗(yàn)證1 655個(gè),山區(qū)驗(yàn)證2 029個(gè)?,F(xiàn)地驗(yàn)證小班總數(shù)占喬木林小班總數(shù)的2.09%,占人工修正喬木林小班數(shù)的17.56%。
表4 現(xiàn)地驗(yàn)證喬木林小班數(shù)統(tǒng)計(jì)表
因?yàn)殡p重回歸抽樣估計(jì)法不能利用全覆蓋的激光雷達(dá)數(shù)據(jù)信息,為了充分利用人工修正和現(xiàn)地驗(yàn)證兩重樣本,對(duì)LiDAR反演蓄積估測(cè)區(qū)間和精度進(jìn)行估測(cè),所以采用改進(jìn)的兩重回歸估計(jì)——兩步回歸估計(jì)方法:①通過(guò)在人工修正數(shù)據(jù)與LiDAR反演蓄積數(shù)據(jù)之間建立第一重樣本的回歸模型,計(jì)算人工修正數(shù)據(jù)估計(jì)值;②通過(guò)建立現(xiàn)地讀數(shù)據(jù)與第一重樣本之間的回歸模型,計(jì)算總體LiDAR反演喬木林小班的蓄積估計(jì)值;③兩重樣本之間采用雙重回歸估計(jì)公式,獲得LiDAR反演蓄積總體的估測(cè)區(qū)間和精度。
(1)人工修正數(shù)據(jù)與LiDAR反演蓄積數(shù)據(jù)之間的回歸。利用具有人工修正喬木林小班數(shù)據(jù)為因變量z
,對(duì)應(yīng)的LiDAR反演蓄積數(shù)據(jù)為自變量x
,建立回歸方程z
=a
+bx
+ε
,(17)
其估計(jì)形式為
(18)
(19)
其估計(jì)形式為
(20)
(21)
式中,n
為現(xiàn)地驗(yàn)證小班數(shù),即參與建立回歸模型(3)的小班數(shù)量,計(jì)算參數(shù)的方差矩陣。(22)
式中,D
(α
)、D
(β
)分別為參數(shù)α
、β
的方差;cov
(α
,β
)為參數(shù)之間的協(xié)方差。根據(jù)式(12)計(jì)算出總體LiDAR反演喬木林小班的蓄積估計(jì)值。這里的cov
(α
,β
)均為用式(10)計(jì)算得到的估計(jì)值。(3)LiDAR反演喬木林總體蓄積及精度估算??傮w蓄積量估計(jì)值為
(23)
(24)
估計(jì)值的誤差限和估計(jì)精度與兩重回歸相同。
依據(jù)前面的估測(cè)方法,以人工修正喬木林蓄積為第一重樣本、現(xiàn)地驗(yàn)證喬木林蓄積為第二重樣本,采用雙重回歸估計(jì)方法對(duì)金寨等9縣(市)LiDAR反演喬木林蓄積進(jìn)行估測(cè),獲得總體及平原、丘陵、山區(qū)三個(gè)地貌類(lèi)型的蓄積樣本檢驗(yàn)精度如表5所示(蓄積量估測(cè)值及估測(cè)區(qū)間因?yàn)閿?shù)據(jù)成果的保密性,因此不便展示)。樣本檢驗(yàn)結(jié)果表明,LiDAR反演喬木林蓄積總體精度在90%以上,符合蓄積量產(chǎn)出精度要求。
表5 現(xiàn)地驗(yàn)證喬木林小班數(shù)統(tǒng)計(jì)表
研究主要對(duì)森林蓄積量進(jìn)行了基于激光雷達(dá)遙感數(shù)據(jù)的模型反演,依照評(píng)價(jià)體系選取了多元線性回歸數(shù)學(xué)模型作為反演模型,采用隨機(jī)分組10次10折交叉驗(yàn)證方法確定最優(yōu)模型參數(shù),反演模型的擬合能力較強(qiáng),模型精度也較好。針對(duì)實(shí)際生產(chǎn)應(yīng)用中,常運(yùn)用人工驗(yàn)證結(jié)果來(lái)反映反演精度,研究采用了兩步回歸估計(jì)方法,既兼顧了激光雷達(dá)數(shù)據(jù)信息反演的結(jié)果,又結(jié)合了人工修正和現(xiàn)地驗(yàn)證數(shù)據(jù)的結(jié)果,得到了整個(gè)反演方法的精度估算,結(jié)果也十分良好。