謝福明,字 李,舒清態(tài)
(西南林業(yè)大學(xué) 林學(xué)院,云南 昆明650224)
大氣中溫室氣體濃度上升引起的全球氣候變化,導(dǎo)致極端氣候事件頻發(fā),嚴(yán)重威脅著人類生存與社會(huì)經(jīng)濟(jì)的可持續(xù)發(fā)展,成為各國(guó)政府和科學(xué)家關(guān)注的重大環(huán)境問題。在應(yīng)對(duì)全球氣候變化背景下,森林碳匯的相關(guān)研究成為科學(xué)界關(guān)注的熱點(diǎn)[1-3]。生物量是森林生態(tài)系統(tǒng)碳匯潛力評(píng)估的重要基礎(chǔ),如何快速、準(zhǔn)確地獲取森林生物量信息,在20世紀(jì)90年代就成了森林生態(tài)系統(tǒng)與全球氣候變化研究的關(guān)鍵[4]。準(zhǔn)確評(píng)估森林碳儲(chǔ)量的時(shí)空變化,不僅可以為森林資源的經(jīng)營(yíng)管理和林業(yè)可持續(xù)發(fā)展提供的科學(xué)依據(jù),而且對(duì)碳循環(huán)及碳匯研究具有重要的意義。隨著遙感技術(shù)的不斷發(fā)展,利用數(shù)學(xué)模型結(jié)合實(shí)測(cè)樣地?cái)?shù)據(jù)進(jìn)行生物量的大尺度快速估測(cè)變得有效可行。k-最近鄰法(k-nearest neighbor,k-NN)作為一種非參數(shù)方法,已被廣泛用于多源林業(yè)調(diào)查和森林參數(shù)估計(jì)的反演。1990年,TOMPPO[5]首次將k-NN技術(shù)應(yīng)用于芬蘭森林資源監(jiān)測(cè)中并取得了較好的效果。MCROBERTS[6]記錄了該技術(shù)在國(guó)際范圍內(nèi)被廣泛用于林業(yè)應(yīng)用領(lǐng)域,包括森林調(diào)查空間插值預(yù)測(cè)、數(shù)據(jù)庫(kù)監(jiān)測(cè)、反演制圖、小區(qū)域估測(cè)和統(tǒng)計(jì)推理。從數(shù)據(jù)層面上來(lái)講,k-NN與Landsat影像,機(jī)載激光掃面數(shù)據(jù)和MODIS數(shù)據(jù)聯(lián)合使用估測(cè)評(píng)價(jià)森林屬性的研究較多,并且將機(jī)載激光掃描指標(biāo)等主動(dòng)遙感變量與光學(xué)遙感、大尺度森林變量等參數(shù)結(jié)合使用有助于提高k-NN模型的預(yù)測(cè)精度[7]。國(guó)外研究者在遺傳算法的優(yōu)化下,利用k-NN和機(jī)載激光掃描數(shù)據(jù)對(duì)森林資源調(diào)查、森林參數(shù)估測(cè)與評(píng)價(jià)等方面取得了較好的研究成果[8-10]。KATILA等[11]和TOMPPO等[12]運(yùn)用數(shù)字地圖進(jìn)行數(shù)據(jù)分層和使用遺傳算法對(duì)特征變量進(jìn)行加權(quán)來(lái)作為一種提高預(yù)測(cè)精度的手段后,該方法得到了加強(qiáng)。利用遺傳算法對(duì)衛(wèi)星影像數(shù)據(jù)特征變量加權(quán)優(yōu)化將會(huì)提高估測(cè)精度,并且將優(yōu)化好的模型應(yīng)用于單一森林屬性變量(如某個(gè)樹種)比同時(shí)應(yīng)用于多變量的精度會(huì)提高許多[13]。然而,國(guó)內(nèi)的研究學(xué)者缺少對(duì)k-NN模型算法進(jìn)行優(yōu)化改良的研究,僅局限于將傳統(tǒng)的k-NN運(yùn)用于不同的森林參數(shù)估計(jì)。如陳爾學(xué)等[14]運(yùn)用Landsat數(shù)據(jù)和傳統(tǒng)的k-NN法對(duì)小面積統(tǒng)計(jì)單元森林蓄積量估測(cè),其結(jié)果表明采用k-NN法對(duì)縣市級(jí)統(tǒng)計(jì)單元森林參數(shù)的估測(cè)效果明顯優(yōu)于只利用固定樣地?cái)?shù)據(jù)的傳統(tǒng)參數(shù)估測(cè)方法。郭穎[15]利用k-NN非參數(shù)回歸模型對(duì)甘肅省西水林場(chǎng)的森林地上生物量進(jìn)行估測(cè),并用隨機(jī)森林算法(RF)進(jìn)行特征選擇后估測(cè)精度得以提升,優(yōu)化后的算法在處理錯(cuò)誤樣本時(shí)具有良好的容錯(cuò)能力。本研究使用遺傳算法對(duì)k-NN模型進(jìn)行優(yōu)化,使模型預(yù)測(cè)結(jié)果的偏差、均方根誤差等最小化,以期提高模型的估測(cè)精度,實(shí)現(xiàn)對(duì)研究區(qū)高山松Pinus densata地上生物量?jī)?chǔ)量估計(jì)與空間反演制圖。
研究區(qū)位于滇西北迪慶藏族自治州香格里拉市境內(nèi)(26°52′11.44″~28°50′59.57″N, 99°23′6.08″~100°18′29.15″E)(圖 1)。 研究區(qū)地勢(shì)高聳,熱量不足,氣溫偏低,海拔為1 503~5 545 m,多年平均氣溫為5.5℃,歷年平均降水量為618.4 mm,平均降雪日為35.7 d,年日照率為40%~50%,屬山地寒溫帶季風(fēng)氣候。境內(nèi)密集的金沙江水系支流、冰雪融水和高原湖泊等水資源以及以棕壤、紅壤為主的森林土壤類型孕育了豐富的植物資源。森林植被面積大,覆蓋率高,南北差異分布明顯,主要分布有10種植被類型,常見的樹種有云杉Picea asperata,冷杉Abies fabri,高山松,云南松Pinus yunnanensis和高山櫟Quercus semicarpifolia等。其中,高山松適應(yīng)性廣,更新能力強(qiáng),是喜光、耐旱、耐瘠薄的優(yōu)勢(shì)樹種。一般分布于云杉、冷杉林下限,海拔為2 800~3 500 m,林分外貌整齊,成片分布,以同齡單層林常見,占全市喬木林面積的22.7%。
圖1 研究區(qū)地理位置示意圖Figure 1 Location of the study area
從地理空間數(shù)據(jù)云(http://www.gscloud.cn/)獲取 Landsat 8/OLI影像 3景覆蓋整個(gè)研究區(qū):2015年11月9日(2景),軌道號(hào)分別為132/040和132/041;2015年12月20日(1景),軌道號(hào)為 131/041(圖 1)。 并采用軟件ENVI 5.3對(duì)衛(wèi)星影像進(jìn)行輻射定標(biāo)、大氣校正(FLAASH)和幾何精校正等預(yù)處理后提取單波段、多波段組合、主成分變換、纓帽變換、植被指數(shù)、紋理和地形特征 (由DEM提取)等共計(jì)123個(gè)因子,作為建模因子備選參數(shù)(表1)。
表1 遙感因子一覽表Table 1 A list of factors derived from remote sensing
地面實(shí)測(cè)數(shù)據(jù)49塊標(biāo)準(zhǔn)地和116株高山松樣木數(shù)據(jù)(表2):實(shí)測(cè)標(biāo)準(zhǔn)地?cái)?shù)據(jù)于2014年10-11月,在云南省香格里拉市境內(nèi)的高山松分布范圍內(nèi)采集,在高山松分布范圍布設(shè)了49個(gè)大小為30 m×30 m的樣地,記錄了樹高、胸徑、樣地差分GPS定位坐標(biāo)和海拔等。其中:林分地上生物量依據(jù)式(1)進(jìn)行計(jì)算。
高山松樣木數(shù)據(jù)記錄了不同齡組下(包括幼齡林、中齡林、近熟林、成熟林、過熟林)116株高山松胸徑(DBH)和樹高(H),并測(cè)定了樹干、樹皮、樹葉、樹枝、樹冠生物量,用于擬合高山松地上生物量計(jì)算模型。本研究中的地上生物量由樹干、樹枝和樹葉3個(gè)部分的生物量構(gòu)成,生物量調(diào)查參照胥輝等[16]生物量測(cè)定方法。
表2 生物量實(shí)測(cè)數(shù)據(jù)基本信息表Table 2 Basic information of biomass measured data
首先,采用隨機(jī)抽樣法將116株樣木數(shù)據(jù)分成2個(gè)部分:2/3樣本作為建模樣本建立生物量估算模型,1/3作為檢驗(yàn)樣本對(duì)模型進(jìn)行檢驗(yàn)。其次,采用相對(duì)生長(zhǎng)模型(非線性模型),運(yùn)用最小二乘法對(duì)高山松單木地上生物量(W)模型進(jìn)行擬合,結(jié)果見式(1),擬合決定系數(shù)R2為0.980 7,均方根誤差RMSE等于46.73 kg,模型的驗(yàn)證結(jié)果如圖2所示,檢驗(yàn)決定系數(shù)R2等于0.995 7。
2.3.1 傳統(tǒng)k-最近鄰法(k-NN) 在k-NN的專業(yè)術(shù)語(yǔ)中,將待測(cè)變量及其特征變量的觀測(cè)值樣本指定為參考集,將待測(cè)變量的預(yù)測(cè)集指定為目標(biāo)集,特征變量定義的空間成為特征空間。對(duì)于諸如生物量或蓄積量等連續(xù)性變量M在像元p上的預(yù)測(cè)值mp的計(jì)算方法如下:
式(2)中:mi為變量M參考樣地點(diǎn)i上的實(shí)測(cè)值;k為計(jì)算預(yù)測(cè)值mp時(shí)考慮的近鄰個(gè)數(shù);wip為像元權(quán)重值,其計(jì)算如下:
式(3)中:i是參考集樣本;p是目標(biāo)集像元;pj是與參考集樣本j對(duì)應(yīng)的樣本;為 距離分解因子;k,t為常量,一般通過實(shí)驗(yàn)反復(fù)測(cè)試選取最佳值是與待測(cè)像元p在特征空間上最相似的k個(gè)參考集樣本。特征變量空間相似度由度量dpi,p,其計(jì)算方法如下:
式(4)中:fl,pj和fl,p分別為參考集和目標(biāo)集樣本對(duì)應(yīng)的遙感影像光譜波段及其派生因子等特征變量;nf為特征變量個(gè)數(shù);p為目標(biāo)集像元;pi為參考集樣本i對(duì)應(yīng)的像元;ωl,f為賦予特征空間中第l個(gè)特征變量的權(quán)值。
2.3.2 優(yōu)化k-最近鄰法(ik-NN)ik-NN與k-NN在方法原理上是一樣的,改進(jìn)之處在于前者使用遺傳算法賦予了特征空間里的所有變量一個(gè)評(píng)價(jià)其重要性指標(biāo)的權(quán)重向量,即式(4)中的ωl,f;而后者則賦予所有變量相同的權(quán)值。優(yōu)化的非單位矩陣ωl,f降低了不相關(guān)因子對(duì)因變量的影響,間接的起到了因子篩選的作用。
圖2 高山松單木地上生物量模型驗(yàn)證Figure 2 Validation ofPinus densata aboveground biomass model
遺傳算法優(yōu)化ωl,f過程:(1)初始化。便于描述,將初始化權(quán)重向量群體比作染色體群體,權(quán)重向量的元素個(gè)體比作基因。隨機(jī)生成大小為[npop,nf]的數(shù)組作為初始化群體,運(yùn)用二進(jìn)制(0/1)對(duì)基因進(jìn)行編碼,并計(jì)算每一個(gè)染色體的適應(yīng)度γ,其計(jì)算公式見式(5),用于對(duì)初始染色體及子代染色體選擇的評(píng)價(jià)指標(biāo)。(2)選擇。采用隨機(jī)遍歷采樣,根據(jù)自定義選擇概率ps將已有的優(yōu)良染色體復(fù)制后添入新染色體群體中,刪除劣質(zhì)染色體;染色體是否被選擇的依據(jù)是其適應(yīng)度的大小,適應(yīng)度大者被復(fù)制,小者被淘汰,確保新群體中的基因總數(shù)和初始群體相同。(3)交叉。利用交叉算子對(duì)染色體的基因編碼進(jìn)行重組,發(fā)生的概率為pc,通過交叉操作可以得到新一代染色體,子代的染色體組合了父輩的特性。交叉是遺傳算法中最主要的操作,體現(xiàn)了信息交換的思想。(4)變異。變異首先在染色體群體中隨機(jī)選擇1個(gè)個(gè)體,對(duì)于選中的個(gè)體以突變概率pm隨機(jī)地改變其基因的編碼。同生物界一樣,遺傳算法中變異發(fā)生的概率很低,通常取值很小。
留一法交叉驗(yàn)證,即對(duì)于N個(gè)樣本,每次從N個(gè)樣本中抽出1個(gè)樣本作為測(cè)試集,利用剩余的N-1個(gè)樣本作為參考集,重復(fù)N次循環(huán),直至結(jié)束。本研究將N個(gè)樣本的模型預(yù)測(cè)值(i=1,…,N)與對(duì)應(yīng)樣本的實(shí)測(cè)值(yi)進(jìn)行統(tǒng)計(jì)分析, 利用均方根誤差σ^[式(6)]和偏差e^[式(7)]及相對(duì)標(biāo)準(zhǔn)誤差百分比RMSE[式(8)]來(lái)檢驗(yàn)?zāi)P偷木取?/p>
式(5)~(8)中:γ為遺傳算法適應(yīng)度;ω為賦予特征變量的權(quán)值;nf為特征變量個(gè)數(shù);yi和y^i分別為第i個(gè)樣本的實(shí)測(cè)值與模型預(yù)測(cè)值;為模型預(yù)測(cè)值的平均值。
篩選特征變量的目的在于:①降低特征空間的維數(shù)提高算法的運(yùn)行速率,保證研究的可行性;②排除不相干變量、選擇相關(guān)性顯著的特征變量來(lái)提高模型的精度。在SPSS軟件中分析特征變量與生物量之間的相關(guān)性顯著水平,綜合考慮特征空間的維度和模型精度后,從123個(gè)特征變量中選取16個(gè)與生物量極顯著相關(guān)的特征變量作為建模變量。表3是將特征變量分為原始、顯著相關(guān)和極顯著相關(guān)3個(gè)等級(jí)后逐一評(píng)價(jià)的結(jié)果,客觀地反映了不同特征變量等級(jí)下的模型精度。
表3 不同特征變量等級(jí)下的模型精度對(duì)比Table 3 Comparison of model accuracy under different level feature variables
3.2.1k-NN模型參數(shù)優(yōu)化配置k-NN模型需要確定3個(gè)重要的參數(shù):評(píng)估特征變量空間相似度的距離參數(shù)dpi,p;計(jì)算待測(cè)像元p的預(yù)測(cè)值時(shí)考慮的在特征空間上最相似的參考集樣本個(gè)數(shù)k及其加權(quán)方案wip。依據(jù)CHIRICI等[17]和謝福明等[18]的研究,在k-NN模型距離參數(shù)指標(biāo)度量方式中,最常用的是歐氏距離(70%),其次是馬氏距離(3.5%),以及典型相關(guān)分析度量(1.9%),故本研究選取歐氏距離作為特征變量空間相似度的評(píng)價(jià)標(biāo)準(zhǔn)。k的選擇通常介于1~10,本研究結(jié)合相應(yīng)的實(shí)驗(yàn)數(shù)據(jù)選取的k=5,如圖3A:k≤5時(shí),模型精度隨k的增大而提高,并在k=5時(shí)達(dá)最佳精度;k>5時(shí),模型的精度逐漸降低。t即距離分解因子,在模型中的應(yīng)用見式(3),t通常取0~2內(nèi)的值,其對(duì)模型精度的影響較?。▓D3B),本研究t取 2。
圖3 k-NN模型精度隨k和t的變化曲線Figure 3 Change curve of model accuracy with the value of k and t
3.2.2 遺傳算法參數(shù)說明 遺傳算法最終的目的是為每一個(gè)特征變量計(jì)算出權(quán)重,并將其運(yùn)用于k-NN模型來(lái)提高生物量的預(yù)測(cè)精度。算法中的主要函數(shù)調(diào)用于Sheffield遺傳算法工具箱,其中的參數(shù)值在實(shí)驗(yàn)中反復(fù)測(cè)試、調(diào)試后確定。其中,圖4表明了適應(yīng)度隨著遺傳迭代次數(shù)(10,30或50)的增加呈緩慢下降,當(dāng)?shù)螖?shù)大于50時(shí),適應(yīng)度隨迭代次數(shù)的變化比較平穩(wěn),并趨向于穩(wěn)定。表4記錄了算法的最佳初始參數(shù)值和調(diào)用的主要算子。
表4 遺傳算法有效參數(shù)值與主要算子匯總Table 4 Parameters and main functions of genetic algorithm
k-NN模型及其優(yōu)化算法在MATLAB環(huán)境下調(diào)試、運(yùn)行,算法給予每個(gè)特征變量初始化的權(quán)重值均相等(第0代),表5為第50代優(yōu)化的特征變量權(quán)重值(算法的參數(shù)設(shè)置同2.2所述),表5數(shù)據(jù)為標(biāo)準(zhǔn)化后的數(shù)值,其和為1。
本研究的主要目標(biāo)是通過優(yōu)化方法降低像元尺度下模型的估測(cè)誤差,提高對(duì)高山松地上生物量的估測(cè)精準(zhǔn)度。表6和圖5表明:(1)基于傳統(tǒng)k-NN模型的樣本生物量預(yù)測(cè)結(jié)果為16.2~92.6 t·hm-2,平均值為54.7 t·hm-2, 模型均方根誤差為 30.0 t·hm-2,偏差為-0.418 t·hm-2,RMSE為 54.8%(圖 5A);(2)遺傳算法優(yōu)化后的ik-NN模型精度得到了提升,均方根誤差為 24.0 t·hm-2, 偏差為-0.123 t·hm-2,RMSE為43.7%(圖5B)。與傳統(tǒng)k-NN模型相比,ik-NN模型的精度均方根誤差值降低了約6.0 t·hm-2,偏差下降比例達(dá)75.6%,模型精度RMSE提高了11.1%;(3)ik-NN模型的樣本估計(jì)值為23.3~95.2 t·hm-2,在均值上與實(shí)測(cè)值比較相近,約55.0 t·hm-2。但對(duì)于高生物量或低生物量區(qū)域的估測(cè)殘差仍較大,均出現(xiàn)高值低估,低值高估的現(xiàn)象。
圖4 遺傳算法優(yōu)化中適應(yīng)度值隨遺傳代數(shù)的降低曲線Figure 4 Reduction of fitness value curve with the number of generations in optimization of genetic algorithm
表5 第50代優(yōu)化的特征變量權(quán)重值(遺傳代數(shù)為50,上限值為0.5)Table 5 Values of the elements of the weight vector for feature variables for the 50th optimization (with upper bounds 0.5 and 50 generations)
表6 高山松地上生物量實(shí)測(cè)值與模型預(yù)測(cè)值統(tǒng)計(jì)結(jié)果Table 6 Statistics of observations and model predictions of aboveground biomass of Pinus densata
像元尺度下的定量反演是一項(xiàng)極其密集的任務(wù),需要逐一計(jì)算研究區(qū)內(nèi)的每一個(gè)像元,對(duì)計(jì)算機(jī)內(nèi)存需求大,故本研究把研究區(qū)分成多塊區(qū)域后再逐一估測(cè)反演。圖6為k-NN和ik-NN 2個(gè)模型局部反演結(jié)果:k-NN 模型的預(yù)測(cè)為 20.0~97.5 t·hm-2, 平均值為 49.5 t·hm-2, 標(biāo)準(zhǔn)差為 13.1 t·hm-2(圖 6A);ik-NN 模型的預(yù)測(cè)值則為 18.4~113.7 t·hm-2, 平均值為 49.3 t·hm-2, 標(biāo)準(zhǔn)差為 13.5 t·hm-2(圖 6B)。 模型的反演結(jié)果中離散分布的像元較少,近鄰相關(guān)性好,更好地體現(xiàn)了變量的區(qū)域相關(guān)性。依據(jù)森林資源二類調(diào)查統(tǒng)計(jì)數(shù)據(jù),研究區(qū)高山松分布區(qū)面積為1.74×105hm2,其地上總生物量估測(cè)結(jié)果為0.89×107t。圖7為ik-NN模型的高山松地上生物量空間分布等級(jí)圖,生物量等級(jí)在16.8~108.9 t·hm-2之內(nèi),主要分布在45~75 t·hm-2。
圖5 模型優(yōu)化前后生物量的估測(cè)精度對(duì)比Figure 5 Comparison of estimation accuracy of aboveground biomass of Pinus densata between k-NN and ik-NN model
圖6 像元尺度下的k-NN/ik-NN模型局部反演對(duì)比Figure 6 Comparison of local inversion of k-NN/ik-NN model on pixel scale
本研究使用遺傳算法實(shí)現(xiàn)對(duì)k-NN模型中的特征變量賦予相應(yīng)的權(quán)重值后,構(gòu)建加權(quán)歐氏距離,結(jié)合衛(wèi)星數(shù)據(jù)和地面實(shí)測(cè)樣地?cái)?shù)據(jù)建立了優(yōu)化的k-NN估測(cè)回歸模型,估算出香格里拉高山松地上生物量?jī)?chǔ)量,反演出地上生物量分布等級(jí)圖。結(jié)果顯示:k-NN算法參數(shù)k和t分別取值為5和2時(shí),模型的預(yù)測(cè)效果最佳;基于遺傳算法優(yōu)化的ik-NN模型預(yù)測(cè)精度優(yōu)于傳統(tǒng)的k-NN模型,均方根誤差為24.0 t·hm-2,偏差為-0.123 t·hm-2,RMSE為43.7%。研究區(qū)像素級(jí)水平下高山松地上生物量的預(yù)測(cè)值為16.8~108.9 t·hm-2, 總估計(jì)值為 0.89×107t。
CHIRICI等[17]研究顯示:使用衛(wèi)星光譜數(shù)據(jù)作為特征變量時(shí),需要大量的樣本來(lái)獲取較小的相對(duì)標(biāo)準(zhǔn)誤差百分比,這與本研究結(jié)果相符合。本研究k-NN模型的參考樣本偏少,且參考樣本在空間分布上相對(duì)集中(圖1),所以生物量的預(yù)測(cè)結(jié)果殘差較大,出現(xiàn)高值低估,低值高估的現(xiàn)象;造成這一現(xiàn)象的另一個(gè)原因是k-NN法本身存在的缺陷,即只能局限于實(shí)測(cè)值范圍內(nèi)對(duì)未知單元進(jìn)行估測(cè),預(yù)測(cè)值不會(huì)超出實(shí)測(cè)值的范圍,模型算法中k個(gè)參考樣本間的加權(quán)求和降低了估計(jì)值的方差,從而產(chǎn)生了更大的估測(cè)誤差。但k-NN在大尺度區(qū)域上的森林資源監(jiān)測(cè)中有很大的潛力,不僅適用于森林參數(shù)的估測(cè)反演,還適用于森林調(diào)查空間插值預(yù)測(cè)、數(shù)據(jù)庫(kù)監(jiān)測(cè)、小區(qū)域估測(cè)和統(tǒng)計(jì)推理等研究[19-20],并且從以下方面做出突破可以有效提升其預(yù)測(cè)能力,為生活生產(chǎn)實(shí)踐提供更好的技術(shù)借鑒:①k-NN在搜索最近鄰個(gè)體時(shí)應(yīng)限制搜尋的范圍,如限制一個(gè)搜尋半徑或在指定的圖斑區(qū)域,而不是全局搜索,充分利用區(qū)域化變量的特性來(lái)提高模型的估測(cè)精度。②利用地物光譜的差異性,結(jié)合星載、機(jī)載高光譜數(shù)據(jù)和地面實(shí)測(cè)高光譜數(shù)據(jù)或者其他能夠區(qū)分地物的單波段,利用最近鄰法或其他機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)對(duì)地物的精細(xì)識(shí)別,提高區(qū)域尺度上的地物分類精度,進(jìn)而提高對(duì)其生理生化參數(shù)定量估測(cè)的準(zhǔn)確性。
圖7 像元尺度下香格里拉市高山松地上生物量反演結(jié)果示意圖Figure 7 Spatial distribution of Pinus densata aboveground biomass in Shangri-la at the pixel scale