周 蓉,趙天忠*,吳發(fā)云
(1.北京林業(yè)大學(xué),國(guó)家林業(yè)草原林業(yè)智能信息處理工程技術(shù)研究中心,北京 100083;2.國(guó)家林業(yè)和草原局調(diào)查規(guī)劃設(shè)計(jì)院,北京 100714)
森林生態(tài)系統(tǒng)是陸地生態(tài)系統(tǒng)重要組成部分,全球森林面積約占全球陸地面積的31%,約為40.6億hm2[1]。森林生物量能夠直接反映森林固碳能力,體現(xiàn)森林經(jīng)營(yíng)水平,為研究生態(tài)及林業(yè)問(wèn)題提供基礎(chǔ)數(shù)據(jù),在森林生態(tài)系統(tǒng)和全球氣變化研究發(fā)揮著不可替代的作用[2-5]。傳統(tǒng)森林生物量獲取主要依托人工實(shí)地調(diào)查森林清查數(shù)據(jù)或小范圍樣地抽查數(shù)據(jù)[6],但耗時(shí)長(zhǎng)、效率低、易造成森林植被破壞、難在大區(qū)域內(nèi)廣泛應(yīng)用。隨著遙感技術(shù)在林業(yè)工作的廣泛應(yīng)用[7],其為估算森林生物量提供了新思路[8]。
遙感數(shù)據(jù)中蘊(yùn)含著豐富的光譜信息,不僅記錄了森林水平結(jié)構(gòu)的植被信息,也能夠準(zhǔn)確地反映植被類(lèi)型、生長(zhǎng)狀況,具有覆蓋范圍廣、動(dòng)態(tài)更新時(shí)間短的優(yōu)勢(shì)。楊偉志等[9]、何矣等[10]、劉芳等[11]等探討了不同遙感數(shù)據(jù)與地上生物量之間的關(guān)系,采用線性回歸方法分別建立西寧市南北山區(qū)域生物量回歸估測(cè)模型、汝城縣森林生物量預(yù)測(cè)模型、北京市針葉林和闊葉林地上生物量模型。雖然回歸模型在一定程度上能夠?qū)崿F(xiàn)地上生物量的估算,且具有簡(jiǎn)單易懂的優(yōu)點(diǎn),但要求樣本數(shù)據(jù)具有正態(tài)性、獨(dú)立性,而實(shí)際數(shù)據(jù)往往難以滿(mǎn)足假設(shè)條件,同時(shí)線性回歸法也不能全面地解釋各數(shù)據(jù)之間的關(guān)系,因此將非參數(shù)的估測(cè)方法引入森林參數(shù)反演中[12-13]。李丹丹等[14]基于旺業(yè)甸林場(chǎng)的Landsat TM影像和DEM數(shù)據(jù),提取影像中的灰度值和植被因子信息作為輸入因子,采用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建了該地區(qū)的針葉林生物量模型;李明澤[15]基于Landsat數(shù)據(jù),采用多種方法建立了東北林區(qū)各區(qū)域的森林生物量估算模型,與BP神經(jīng)網(wǎng)絡(luò)、Erf-BP神經(jīng)網(wǎng)絡(luò)、偏最小二乘算法相比,逐步回歸模型估測(cè)精度較低;劉笑笑[16]采用RF-RFE算法、逐步回歸算法、支持向量機(jī)算法分別對(duì)大興安嶺地區(qū)資源三號(hào)遙感影像中提取的49種特征變量進(jìn)行篩選,實(shí)驗(yàn)表明基于隨機(jī)森林的向后迭代算法(RF-RFE)具有更強(qiáng)的通用性,許振宇等[17]分別以不同遙感影像為數(shù)據(jù)源,對(duì)比了傳統(tǒng)多元回歸算法與機(jī)器學(xué)習(xí)算法在變量篩選、生物量模型構(gòu)建過(guò)程中的作用;邱布布等[18]應(yīng)用隨機(jī)森林算法,對(duì)比了Landsat 8 OLI影像、Landsat 7 ETM+影像對(duì)杭州市綠地地上生物量估算模型的影響。
大量研究表明機(jī)器學(xué)習(xí)算法建立的生物量預(yù)測(cè)模型具有更強(qiáng)的擬合性、更好的預(yù)測(cè)精度和更廣泛的通用性。但這些研究大都對(duì)比傳統(tǒng)回歸法與機(jī)器學(xué)習(xí)方法,或?qū)Ρ攘瞬煌臋C(jī)器學(xué)習(xí)算法之間的差異,忽略了同一種機(jī)器學(xué)習(xí)算法間不同訓(xùn)練函數(shù)對(duì)模型精度的影響。綜上所述,本研究以吉林省延邊朝鮮族自治州汪清縣的主要針葉純林樹(shù)種為研究對(duì)象,在對(duì)比不同機(jī)器學(xué)習(xí)算法之間優(yōu)劣性的基礎(chǔ)上,分析同一種機(jī)器學(xué)習(xí)算法中不同訓(xùn)練函數(shù)帶來(lái)的影響,以此探討不同機(jī)器學(xué)習(xí)算法及同一種算法間不同訓(xùn)練函數(shù)在反演地上生物量模型中的適用性。
以吉林省延邊朝鮮族自治州汪清縣為研究區(qū),該區(qū)域位于吉林黑龍江2省交界處,延邊朝鮮族自治州東北部,地形地貌以山地為主,地勢(shì)高低起伏,屬長(zhǎng)白山系老爺嶺山脈;具體地理位置為43°06′-44°03′N(xiāo),128°54′-130°41′E,東鄰俄羅斯,南沿朝鮮,縣內(nèi)轄區(qū)面積9 016 km2;平均海拔為806 m;年平均氣溫為4.9 ℃,全年總降水量約為580 mm,全年總?cè)照諘r(shí)間約2 234 h,屬中溫帶濕潤(rùn)溫涼氣候區(qū)。境內(nèi)森林資源豐富,林業(yè)總面積為32.9萬(wàn)hm2,有林地面積26.8萬(wàn)hm2,森林覆蓋率達(dá)到81.4%,主要分布的樹(shù)種為云杉(Piceaasperata)、紅松(Pinuskoraiensis)、冷杉(Abiesfabri)、落葉松(Larixgmelini)等[19]。
根據(jù)研究區(qū)的自然資源分布狀況,選擇區(qū)域內(nèi)典型樹(shù)種——冷杉、云杉、落葉松為研究對(duì)象,在研究區(qū)內(nèi)共設(shè)置了128個(gè)半徑為15 m、面積為0.07 hm2的圓形樣地。調(diào)查樣地的選擇主要依據(jù)林分的樹(shù)種組成、樣地的郁閉度及平均樹(shù)高范圍。在樣地調(diào)查過(guò)程中,首先,記錄了樣地的地貌、坡度、坡向、林分起源等基礎(chǔ)信息;其次,在樣地范圍內(nèi)每木檢尺,起測(cè)胸徑為5 cm,采用胸徑尺獲取每株單木1.3 m處的胸徑,采用VL5激光超聲波測(cè)高測(cè)距儀獲得了每木樹(shù)高、枝下高信息;最后,通過(guò)差分GPS解算獲得樣地樣木地理坐標(biāo)。
在本研究中,樣地尺度地上生物量信息根據(jù)匯總單木尺度信息獲得,以實(shí)測(cè)的單木樹(shù)高、胸徑因子數(shù)據(jù)為基礎(chǔ),采用我國(guó)林業(yè)行業(yè)標(biāo)準(zhǔn)文件[20-22]提供的地上生物量公式得到單木地上生物量,具體計(jì)算如式(1)-式(3)所示,并將其匯總到樣地尺度。
冷杉:M=0.069 45×D2.057 53×H0.508 39(1)
云杉:M=0.080 7×D2.259 57×H0.256 63(2)
落葉松:M=0.068 48×D2.015 49×H0.591 46(3)
式中:M為生物量,D為胸徑,H為樹(shù)高。
表1 樣地樣本調(diào)查因子統(tǒng)計(jì)
使用2018年6月3日采集的Landsat 8 OLI影像作為光學(xué)遙感數(shù)據(jù),數(shù)據(jù)航帶號(hào)為115/30。Landsat 8陸地資源衛(wèi)星于2013年2月11日發(fā)射,在保持Landsat 7衛(wèi)星特征的基礎(chǔ)上,對(duì)波段數(shù)量、光譜范圍、影像的分辨率等都進(jìn)行了改進(jìn)。Landsat 8 OLI共分為9個(gè)波段,空間分辨率為30 m,其中包括1個(gè)分辨率為15 m的全色波段,數(shù)據(jù)投影方式為WGS84。Landsat 8 OLI影像數(shù)據(jù)的各波段信息如表2所示。
表2 Landsat 8 OLI影像波段信息
遙感影像的質(zhì)量易受到大氣條件等自然因素和傳感器成像等硬件設(shè)備的影響,為了增強(qiáng)遙感影像的信息量,保證光譜特征的準(zhǔn)確性,本文對(duì)研究區(qū)的Landsat 8 OLI影像進(jìn)行輻射定標(biāo)、大氣校正等預(yù)處理,并從預(yù)處理后的遙感影像上提取了森林結(jié)構(gòu)的光譜特征信息、植被指數(shù)信息。
1.3.1 輻射定標(biāo) 輻射定標(biāo)的原理是將傳感器中所記錄的數(shù)字量化值或電壓轉(zhuǎn)化為絕對(duì)輻射亮度值,其目的是消除傳感器在成像過(guò)程中帶來(lái)的誤差[23-24]。采用ENVI軟件對(duì)圖像進(jìn)行輻射定標(biāo)處理,通過(guò)定標(biāo)工具(Radiometric Calibration)讀取元數(shù)據(jù)文件,并將其進(jìn)行自動(dòng)定標(biāo)。
1.3.2 大氣校正 在輻射定標(biāo)的基礎(chǔ)上,對(duì)影像進(jìn)行大氣校正處理,其目的是消除大氣和光照等外部因素帶來(lái)的影響[25]。使用ENVI軟件中FLAASH大氣校正工具對(duì)影響進(jìn)行大氣校正。
1.3.3 變量提取 本研究基于預(yù)處理的研究區(qū)影像共提取34個(gè)遙感特征因子,根據(jù)計(jì)算方式及特征因子的含義可分為3組。原始波段變量:為完整的反映了影像的原始特性,選取第2波段~第7波段參與研究。波段組合變量:為豐富影像信息,凸顯不同影像特征,提取B24、B53、B65、B74、B76、B345、B547、VIS234、Albedo、B4/Albedo10個(gè)波段組合變量。植被指數(shù)變量:其本質(zhì)是地物光譜反射率的差異比值,本研究獲取了大氣阻抗植被指數(shù)ARVI、差值植被指數(shù)DVI、增強(qiáng)型植被指數(shù)EVI、修正型土壤調(diào)整植被指數(shù)MSAVI、修正型簡(jiǎn)單比值植被指數(shù)MSR、歸一化植被指數(shù)ND43、ND67、ND563、NDVI、非線性指數(shù)NLI、垂直植被指數(shù)PVI、重歸一化植被指數(shù)RDVI、簡(jiǎn)單比值植被指數(shù)RVI、土壤調(diào)整比值植被指數(shù)SARVI、土壤調(diào)整植被指數(shù)SAVI、有效葉面積指數(shù)SLAVI、轉(zhuǎn)換型植被指數(shù)TNDVI、中紅外植被指數(shù)VI3共18個(gè)植被指數(shù)變量[26]。
隨機(jī)森林(random forest,RF)[27]是一種以決策樹(shù)為基礎(chǔ)的bagging并行集成學(xué)習(xí)算法,其隨機(jī)性主要體現(xiàn)在樣本的隨機(jī)選擇和特征變量的隨機(jī)選擇上。本研究采用隨機(jī)森林算法實(shí)現(xiàn)特征重要性排序,主要是通過(guò)從sklearn庫(kù)中調(diào)用feature_importances_方法實(shí)現(xiàn),其目的是判斷輸入特征在預(yù)測(cè)變量過(guò)程中的有用程度,通過(guò)比較各因子的相對(duì)得分,從而判斷哪些特征與目標(biāo)最相關(guān),實(shí)現(xiàn)數(shù)據(jù)的深層理解,有效地減少輸入特征的數(shù)量,提高預(yù)測(cè)模型的精確性和有效性。
BP(back propagation)神經(jīng)網(wǎng)絡(luò)是誤差逆向傳播的多層前饋神經(jīng)網(wǎng)絡(luò),由輸入層、隱含層、輸出層構(gòu)成,其中心思想是利用隱層神經(jīng)元判斷當(dāng)前輸出層的誤差大小,并參照誤差大小調(diào)整連接權(quán)值和閾值,直到誤差滿(mǎn)足停止條件則重復(fù)上述迭代過(guò)程[28]。BP神經(jīng)網(wǎng)絡(luò)的拓?fù)淠P腿鐖D1所示。
支持向量機(jī)(support vector machine,SVM)于1995年由Cortes and Vapnik提出[29],是一種適用于小樣本模型訓(xùn)練的二類(lèi)分類(lèi)器,該算法的目的是得到一個(gè)超平面,使得2類(lèi)可分?jǐn)?shù)據(jù)進(jìn)行準(zhǔn)確分類(lèi)。不同的SVM核函數(shù)之間存在一定的性能差異,核函數(shù)將空間內(nèi)線性不可分的數(shù)據(jù)映射到高維的特征空間,從而使數(shù)據(jù)在特征空間內(nèi)實(shí)現(xiàn)可分,一般常使用線性核函數(shù)、RBF核函數(shù)、多項(xiàng)式核函數(shù)3種核函數(shù)來(lái)完成輸入空間到特征空間的多維映射,式(4)~式(6)給出了3種核函數(shù)的表現(xiàn)形式。
k(xi,xj)=xiT×xj
(4)
(5)
k(xi,xj)=(xiT×xj)d
(6)
式中:σ>0為高斯核的帶寬;d≥1為多項(xiàng)式的次數(shù)。
為了更加全面、有效地對(duì)模型進(jìn)行評(píng)價(jià),引入多種評(píng)價(jià)指標(biāo),對(duì)模型精度進(jìn)行分析和判斷。
決定系數(shù)(R-Square,R2)
(7)
均方根誤差(root mean square error,RMSE)
(8)
平均絕對(duì)誤差(mean absolute error,MAE)
(9)
地上生物量與遙感影像有著復(fù)雜卻密切的關(guān)系,如何從大量的遙感影像變量中篩選出與地上生物量緊密相關(guān)的變量用于后續(xù)的模型研究是極為重要的。因此本研究在進(jìn)行數(shù)據(jù)歸一化的前提下,通過(guò)采用隨機(jī)森林的方法分析各個(gè)變量在模型構(gòu)建中的特征重要性,選取特征重要性較高的特征變量參與模型的構(gòu)建。34個(gè)遙感因子與地上生物量的特征重要性如圖2所示,通過(guò)觀察特征重要性的大小,并考慮了特征變量的獨(dú)立性確定最后應(yīng)用于建模的10個(gè)特征變量,篩選結(jié)果如圖3所示。
從圖2可以看出,原始波段變量中B3綠波段、B4紅波段、B6短波紅外1、B7短波紅外2,波段組合變量中B345、Albedo變量、VIS234變量,植被指數(shù)變量中PVI、ND67、ND563與所需估測(cè)的地上生物量之間的相關(guān)關(guān)系較高且顯著,這說(shuō)明因變量與自變量之間有較好的線性關(guān)系,因此將這10個(gè)因子作為建模變量,參與后續(xù)試驗(yàn)。
3.2.1 網(wǎng)絡(luò)結(jié)構(gòu)的確定 輸入層節(jié)點(diǎn)數(shù)為10,輸出層節(jié)點(diǎn)數(shù)為1,根據(jù)式(10)確認(rèn)隱含層為4~13,通過(guò)對(duì)比試驗(yàn),確認(rèn)確認(rèn)BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)為10∶12∶1。
(10)
式中:l為隱含層節(jié)點(diǎn)數(shù);n為輸入層節(jié)點(diǎn)數(shù);o為輸出層節(jié)點(diǎn)數(shù);m為1~10的任意整數(shù)。
3.2.2 傳遞函數(shù)及參數(shù)確定 設(shè)置tansig函數(shù)作為隱含層的傳遞函數(shù);以線性傳遞函數(shù)purelin作為輸出層的傳遞函數(shù)。設(shè)置學(xué)習(xí)速率為0.01,最大迭代次數(shù)為1 000,目標(biāo)精度為0.001,最大驗(yàn)證失敗次數(shù)為10次。
采用25%的樣本數(shù)據(jù)對(duì)模型精度進(jìn)行驗(yàn)證,采用BP神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的地上生物量模型預(yù)測(cè)的樣地地上生物量值與實(shí)測(cè)地上生物量值的對(duì)比結(jié)果如圖4所示,圖中直線為1∶1輔助判斷線。
為了探究不同SVM支持向量機(jī)的核函數(shù)的使用對(duì)地上生物量模型預(yù)測(cè)精度帶來(lái)的影響,本研究采用SVM的3種核函數(shù)分別構(gòu)建了地上生物量反演模型,其預(yù)測(cè)地上生物量值與實(shí)測(cè)值的對(duì)比結(jié)果如圖5所示,圖5中直線為1∶1輔助判斷線。
表3匯總了2種算法構(gòu)建的5個(gè)地上生物量模型的精度評(píng)價(jià)情況,具體模型構(gòu)建結(jié)果如下。利用BP神經(jīng)網(wǎng)絡(luò)算法估算生物量模型時(shí),貝葉斯正則化算法模型的決定系數(shù)R2為0.672 1、RMSE為4.263 7、MAE為3.211 8,其估算精度高于L-M算法模型(R2為0.602 9、RMSE為5.096 9、MAE為4.166 9);利用SVM支持向量機(jī)算法構(gòu)建生物量模型時(shí),多項(xiàng)式核函數(shù)模型預(yù)測(cè)精度(R2為0.487 7、RMSE為5.763 7、MAE為4.176)低于線性核函數(shù)模型(R2為0.585 8、RMSE為5.859 4、MAE為4.24)和RBF核函數(shù)模型(R2為0.561 9、RMSE為5.600 9、MAE為3.89)。
表3 地上生物量模型精度評(píng)價(jià)
對(duì)比BP神經(jīng)網(wǎng)絡(luò)算法、SVM支持向量機(jī)算法分別構(gòu)建的地上生物量模型,可知BP神經(jīng)網(wǎng)絡(luò)算法模型的整體預(yù)測(cè)精度要高于SVM算法,具體來(lái)說(shuō),L-M算法、貝葉斯正則化算法構(gòu)建的模型決定系數(shù)R2均大于0.6,而SVM算法中平均決定系數(shù)R2約為0.54,且RMSE、MAE也均大于BP神經(jīng)網(wǎng)絡(luò)模型。
綜上,采用貝葉斯正則化算法構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)地上生物量模型的預(yù)測(cè)效果最佳,該模型各層網(wǎng)絡(luò)的表達(dá)式如表4所示。
表4 BP神經(jīng)網(wǎng)絡(luò)各層傳遞函數(shù)表達(dá)式
以吉林省延邊朝鮮族自治州汪清縣的地面調(diào)查數(shù)據(jù)、Landsat 8 OLI遙感影像數(shù)據(jù)為基礎(chǔ),探究了遙感影像特征因子與地上生物量之間的關(guān)系,在采用隨機(jī)森林算法篩選因子變量的基礎(chǔ)上,構(gòu)建了以BP神經(jīng)網(wǎng)絡(luò)、SVM支持向量機(jī)為基礎(chǔ)算法的多種地上生物量估測(cè)模型。
綜合對(duì)比各模型的擬合結(jié)果可知,以貝葉斯正則化算法為BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法的地上生物量模型的表現(xiàn)優(yōu)于其他函數(shù)結(jié)構(gòu)。從模型擬合的決定系數(shù)R2來(lái)看,該模型的決定系數(shù)最大,且RMSE和MAE較小。
基于BP神經(jīng)網(wǎng)絡(luò)建立的預(yù)測(cè)模型對(duì)地上生物量有更好的解釋。對(duì)比BP神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的2種模型、SVM支持向量機(jī)算法構(gòu)建的3種模型,可知BP神經(jīng)網(wǎng)絡(luò)算法各訓(xùn)練函數(shù)所構(gòu)建的模型,其擬合精度都優(yōu)于SVM支持向量機(jī)的模型。
SVM支持向量機(jī)模型中,多項(xiàng)式核函數(shù)對(duì)數(shù)據(jù)的解釋能力最差。對(duì)比線性核函數(shù)、RBF核函數(shù)、多項(xiàng)式核函數(shù)構(gòu)建的3種生物量模型,以線性核函數(shù)、RBF核函數(shù)作為算法構(gòu)建的模型其決定系數(shù)R2無(wú)顯著差異,但二者均大于多項(xiàng)式核函數(shù)構(gòu)建的地上生物量模型。
本研究所構(gòu)建的各模型均能較好地估測(cè)地上生物量,且也能較好地體現(xiàn)各機(jī)器學(xué)習(xí)算法之間不同訓(xùn)練函數(shù)的差異性,但也存在一定的不足之處。如何將Landsat 8 OLI遙感影像數(shù)據(jù)與地面實(shí)測(cè)數(shù)據(jù)相結(jié)合,提高模型的估測(cè)精度,并實(shí)現(xiàn)其他森林結(jié)構(gòu)參數(shù)的估測(cè),是今后研究的重點(diǎn)內(nèi)容。