摘 要:應(yīng)用地理加權(quán)回歸模型(GWR)和隨機(jī)森林回歸模型(RFR)對河北省唐山市曹妃甸區(qū)濱海區(qū)域的土壤有機(jī)碳含量空間分布進(jìn)行回歸分析,并作出精度評價(jià),揭示該地區(qū)土壤有機(jī)碳含量的空間分布特征及影響因素。研究表明,GWR模型的R2為0.51,通過訓(xùn)練得到的RFR模型的測試集擬合優(yōu)度為0.64,機(jī)器學(xué)習(xí)得到的回歸結(jié)果優(yōu)于傳統(tǒng)的數(shù)理統(tǒng)計(jì)方法,機(jī)器學(xué)習(xí)的方法能夠有效解決非線性相關(guān)問題。地表濕潤程度與土壤有機(jī)碳含量存在關(guān)系,具體表現(xiàn)在地表水體指數(shù)(LSWI)與土壤有機(jī)碳呈顯著正相關(guān),地表干度指標(biāo)(NDBSI)與土壤有機(jī)碳呈負(fù)相關(guān)。濕地內(nèi)部土壤有機(jī)碳分布存在明顯的異質(zhì)性,由于人為干擾程度不同,河流濕地等天然濕地土壤有機(jī)碳含量高于養(yǎng)殖池、水庫等人工濕地。
關(guān)鍵詞:地理加權(quán)回歸;隨機(jī)森林回歸;土壤有機(jī)碳含量
中圖分類號(hào):S153.6 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-7909(2023)03-125-5
0 引言
全球氣候變暖對人類生存環(huán)境的影響不斷擴(kuò)大。氣溫升高在一定程度上影響了土壤微生物的活性,這將促進(jìn)土壤有機(jī)碳釋放溫室氣體CO2,從而加速全球變暖。在“雙碳”目標(biāo)背景下,為了減少碳排放、增加碳匯,科學(xué)地評估地球碳循環(huán)是一個(gè)重要環(huán)節(jié),進(jìn)行土壤有機(jī)碳含量估計(jì)、研究土壤有機(jī)碳含量影響因素對于土壤碳庫的研究具有重要意義。
濕地是陸地碳循環(huán)的重要組成部分,濕地儲(chǔ)存的碳占陸地土壤碳庫的18%~30%[1-2]。當(dāng)前,學(xué)者關(guān)于不同濕地類型土壤有機(jī)碳的研究已取得豐碩成果。在流域內(nèi)沼澤濕地有機(jī)碳方面,張文菊等[3]研究了三江平原濕地土壤碳空間垂直分異,揭示了統(tǒng)計(jì)深度與碳儲(chǔ)量的關(guān)系;在高寒沼澤濕地有機(jī)碳方面,王文波等[4]研究了松潘高原地區(qū)的若爾蓋濕地,得出了濕地空間分布方式與土壤有機(jī)碳的關(guān)系;在森林濕地有機(jī)碳方面,王彪[5]研究了中國東北溫帶森林濕地碳儲(chǔ)量,總結(jié)了5種森林植被類型的濕地碳儲(chǔ)量,并提出了增強(qiáng)森林碳匯功能的建議。為補(bǔ)充關(guān)于濱海濕地土壤有機(jī)碳的空間分布研究,筆者研究了濱海濕地有機(jī)碳空間異質(zhì)性與環(huán)境因子之間的關(guān)系。
孫鈺森等[6]利用地理加權(quán)回歸克里金模型對森林的碳儲(chǔ)量作出估測,并比較了傳統(tǒng)線性模型、地理加權(quán)回歸模型、地理加權(quán)回歸克里金法3種方法估計(jì)的差異,發(fā)現(xiàn)地理加權(quán)回歸模型提高了模型擬合精度。丁亞鵬等[7]利用地理加權(quán)回歸模型對伊河流域土壤有機(jī)碳空間分布特征進(jìn)行研究,根據(jù)環(huán)境因子系數(shù)的空間分異特征大大增強(qiáng)了模型的可解釋性;李海萍等[8]利用隨機(jī)森林回歸模型對縣域范圍內(nèi)的土壤有機(jī)碳進(jìn)行估計(jì),發(fā)現(xiàn)該模型在擬合細(xì)節(jié)上更為精細(xì),并且能夠?qū)Νh(huán)境因子的重要性排序,對結(jié)果起到一定的解釋作用,可以有效解決某些環(huán)境因子與土壤有機(jī)碳之間存在非線性關(guān)系的問題,以彌補(bǔ)線性模型的不足。因此,筆者分別采用地理加權(quán)回歸模型(GWR)和隨機(jī)森林回歸模型(RFR)進(jìn)行土壤有機(jī)碳含量建模并進(jìn)行精度評價(jià),并基于研究結(jié)果討論環(huán)境因子與土壤有機(jī)碳含量之間的關(guān)系。
1 材料與方法
1.1 數(shù)據(jù)來源
土壤有機(jī)碳(SOC)含量來自2020年河北省唐山市曹妃甸區(qū)實(shí)測數(shù)據(jù)。遙感影像數(shù)據(jù)來自地理空間數(shù)據(jù)云下載的Landsat 8公開數(shù)據(jù)集。2020年8月,數(shù)據(jù)獲取當(dāng)日曹妃甸區(qū)上空無遮擋,通過ENVI軟件進(jìn)行大氣校正、輻射定標(biāo)、裁剪、鑲嵌等一系列預(yù)處理后,得到了干度指標(biāo)(NDBSI)、地表水分指數(shù)(LSWI)、纓帽變換的濕度分量(WET)、歸一化植被指數(shù)(NDVI)、地表溫度(LST)。
NDBSI根據(jù)徐涵秋[9]提出的裸土指數(shù)和建筑指數(shù)的綜合指標(biāo)計(jì)算得出,其能反映環(huán)境的干燥程度。LSWI根據(jù)近紅外波段(NIR)和短波紅外(SWIR)計(jì)算得到,能突出反映地表水體特征。纓帽變換是由Kauth等[10]提出的一種波段線性變換,其合成第三波段為濕度分量(WET),可較好地顯示植被含水量。NDVI(-1~1)利用植被在近紅外和紅光波段的反射率差異進(jìn)行計(jì)算,可反映植被的生長情況,與植被覆蓋水平呈正相關(guān)。采用大氣校正法,利用Landsat 8熱紅外傳感器TIRS收集到的第10波段反演得到LST[11]。
數(shù)字高程模型(DEM)數(shù)據(jù)來自地理空間數(shù)據(jù)云的GDEMV3 30 m數(shù)據(jù),經(jīng)處理得到高程和坡度數(shù)據(jù)。2020年曹妃甸區(qū)降水量數(shù)據(jù)來自中國科學(xué)院環(huán)境科學(xué)與數(shù)據(jù)中心,再經(jīng)過插值得到。土地利用/覆蓋類型數(shù)據(jù)來自Landsat 8影像分類結(jié)果,然后基于面向?qū)ο蟮挠跋穹诸惣夹g(shù),通過目視改正得到了2020年土地利用/覆蓋分布圖。
1.2 研究區(qū)概況
研究區(qū)以唐山市曹妃甸區(qū)為主。筆者通過對曹妃甸區(qū)土壤進(jìn)行采樣,獲取土壤有機(jī)碳含量數(shù)據(jù),并進(jìn)行有機(jī)碳含量空間分布估計(jì),研究濱海濕地與非濕地、濕地內(nèi)部間的有機(jī)碳含量分布規(guī)律。曹妃甸區(qū)南部曹妃甸港為填海造陸形成的港口,西南部主要為濱海養(yǎng)殖場和水庫(主要為人工濕地),東北部以耕地為主(見圖1)。在研究區(qū)內(nèi)按計(jì)劃進(jìn)行采樣,部分?jǐn)?shù)據(jù)從插值得到,最終獲取曹妃甸區(qū)內(nèi)82個(gè)樣本點(diǎn)土壤有機(jī)碳含量信息。
1.3 建模方法
1.3.1 GWR模型。地理加權(quán)回歸模型(GWR)是對最小二乘回歸模型(OLS)的拓展,在回歸模型中帶入了地理空間坐標(biāo),以實(shí)現(xiàn)模型自變量的系數(shù)的空間異質(zhì)性,實(shí)現(xiàn)局部最佳估計(jì)[12]。其表達(dá)式為
[yi=β0(ui,vi)+i=1nβk(ui,vi)xik+εi] (1)
式(1)中:[(ui,vi)]為i點(diǎn)的坐標(biāo),yi為i點(diǎn)的回歸結(jié)果,xik表示第i個(gè)點(diǎn)處第k個(gè)變量的值,[βk(μi,vi)]為i點(diǎn)的回歸參數(shù),[β0(μi,vi)]為i點(diǎn)的截距項(xiàng),[εi]為殘差項(xiàng),殘差分布符合[N(0,σ)]。此次研究選擇Gaussian、Adaptive Gaussian兩種空間權(quán)函數(shù)分別計(jì)算各點(diǎn)權(quán)重,其表達(dá)式為
[GWij=exp(d2ijθ2)] (2)
[A-GWij=exp(-d2ijθ2i(k))] (3)
式(2)(3)中:dij是i、j兩點(diǎn)間距離,[θ]是光滑參數(shù)。
1.3.2 RFR模型。RFR模型是一種以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)方法,其通過重抽樣構(gòu)建一系列基學(xué)習(xí)器,將這些基學(xué)習(xí)器的回歸結(jié)果組合起來并輸出,兼顧解決回歸問題和分類問題的能力。在RFR模型構(gòu)建中,需設(shè)置2個(gè)重要超參數(shù),即決策樹的數(shù)目和決策樹節(jié)點(diǎn)隨機(jī)抽選的變量個(gè)數(shù)。一般來說,當(dāng)決策樹的數(shù)目大于500后,模型整體誤差率趨于穩(wěn)定。為保障回歸結(jié)果的可靠性且不影響計(jì)算效率,此次研究決策樹的數(shù)目均設(shè)置為700。對于RFR模型來說,決策樹節(jié)點(diǎn)隨機(jī)抽選的變量個(gè)數(shù)為全部自變量個(gè)數(shù)的1/3。此次研究決策樹節(jié)點(diǎn)隨機(jī)抽選的變量個(gè)數(shù)根據(jù)自變量具體個(gè)數(shù)進(jìn)行調(diào)優(yōu)。
1.4 精度評定
研究采用決定系數(shù)(R2)、均方誤差(MSE)、均方根誤差(RMSE)、殘差平方和(RSS)來評價(jià)地理加權(quán)回歸和隨機(jī)森林回歸模型的擬合精度。其中MSE、RMSE和RSS的關(guān)系為
[RSS=i=1n(yi-yi)2] (4)
[MSE=RSSn] (5)
[RMSE=MSE=RSSn] (6)
式(4)(5)(6)中:n為樣本數(shù),為82;yi為i點(diǎn)的回歸預(yù)測值;[yi]為i點(diǎn)的實(shí)際值。R2越接近1,MSE、RMSE、RSS越小,模型擬合精度越高。
2 結(jié)果與分析
2.1 土壤有機(jī)碳含量估計(jì)
對曹妃甸區(qū)82個(gè)采樣點(diǎn)的土壤碳含量進(jìn)行檢測,并收集相關(guān)變量,通過相關(guān)系數(shù)法對顯著性大于1%水平的變量進(jìn)行描述性統(tǒng)計(jì),共計(jì)8種變量,描述性統(tǒng)計(jì)結(jié)果如表1所示。
2.2 GWR模型預(yù)測
2.2.1 模型指標(biāo)選取。研究采用相關(guān)性分析選取的模型自變量,通過皮爾遜相關(guān)系數(shù)初步篩選了與有機(jī)碳含量相關(guān)系數(shù)顯著性在5%水平以上的6個(gè)指標(biāo),分別是NDBSI、WET、LSWI、高程、坡度、降水量。相關(guān)性分析結(jié)果如圖2所示。
由于自變量之間也存在較強(qiáng)的相關(guān)性,具有較強(qiáng)的共線性,為了減少自變量的共線性問題對預(yù)測結(jié)果的影響,研究通過方差膨脹因子進(jìn)行共線性檢驗(yàn),進(jìn)一步篩選了4個(gè)變量(見表2)。纓帽變換的濕度分量(WET)、地表水分指數(shù)(LSWI)、高程、坡度的方差膨脹因子均小于10,共線性較小,可以進(jìn)行地理加權(quán)回歸。
2.2.2 GWR模型結(jié)果?;贏RCGIS軟件計(jì)算地理加權(quán)回歸工具箱,通過2種空間權(quán)函數(shù)求解回歸結(jié)果,模型精度結(jié)果如表3所示。
固定高斯空間權(quán)函數(shù)擬合優(yōu)度R2、調(diào)整后R2大于適應(yīng)高斯空間權(quán)函數(shù),所以選取固定高斯模型。其模型系數(shù)的描述性統(tǒng)計(jì)如表4所示。
4個(gè)變量的平均值、中位數(shù)均為正值,地表水分指數(shù)和纓帽變換的濕度分量對土壤碳含量影響較大。地表水分指數(shù)的變異系數(shù)最小,空間分異水平最小;纓帽變換的濕度分量的變異系數(shù)最大,空間分異水平最大。
GWR模型充分考慮到土壤有機(jī)碳及其影響因子的空間異質(zhì)性,可以在局部范圍內(nèi)對模型系數(shù)做出解釋(見圖3)。海拔是影響土壤有機(jī)碳分布的重要地形因素,楊順華等[12]學(xué)者研究發(fā)現(xiàn),土壤有機(jī)碳含量與高程呈顯著正相關(guān)。因?yàn)橐话汶S著海拔的升高,土壤微生物活性降低,土壤有機(jī)質(zhì)分解速度變慢,土壤有機(jī)碳含量升高。此次研究中,曹妃甸區(qū)濱海區(qū)域海拔較低,地勢平坦,土壤有機(jī)質(zhì)運(yùn)移不明顯,微生物對有機(jī)碳的分解作用在垂直上差異較小,因此高程對土壤有機(jī)碳的分布影響較小。此外,地表的濕潤程度也會(huì)影響土壤有機(jī)碳的分布。濕地土壤長期處于水分過飽和狀態(tài),缺少氧氣,微生物活性弱,動(dòng)植物殘?bào)w及代謝物分解速度慢,腐殖化作用較強(qiáng),土壤有機(jī)質(zhì)含量高[13]。因此,地表濕潤程度與土壤有機(jī)碳含量存在一定的正相關(guān)關(guān)系。土地利用方式也會(huì)影響土壤有機(jī)碳含量的分布。天然濕地與人工濕地的土壤有機(jī)碳含量存在差異,濱海濕地圍墾轉(zhuǎn)化為人工濕地(如養(yǎng)殖池),土壤的理化條件等會(huì)發(fā)生變化,人為干擾因素較大,土壤有機(jī)碳含量減少[14]。曹妃甸區(qū)東部濕地多為天然濕地,土壤有機(jī)碳含量較高;西部濕地主要為濱海濕地轉(zhuǎn)變的養(yǎng)殖塘,雖然地表水體指數(shù)較高,但是土壤有機(jī)碳含量低于天然濕地。
2.3 RFR模型預(yù)測
2.3.1 模型參數(shù)設(shè)置與指標(biāo)重要性。以土壤有機(jī)碳含量為因變量,以NDBSI、NDVI、高程、坡度、LST、年降水量為自變量,經(jīng)過反復(fù)調(diào)試發(fā)現(xiàn),決策樹數(shù)量在700時(shí)逐漸收斂,內(nèi)部節(jié)點(diǎn)分裂的最小樣本數(shù)為6,葉子節(jié)點(diǎn)的最小樣本數(shù)為3,樹的最大深度、葉子節(jié)點(diǎn)的最大數(shù)量按默認(rèn)分別為50、10。應(yīng)用RFR模型可以得到指標(biāo)重要性排序,表示自變量決定因變量的貢獻(xiàn)重要性(見圖4)。
NDBSI主要反映地表建筑與裸土的分布,在相關(guān)性分析中與土壤有機(jī)碳含量呈顯著負(fù)相關(guān),說明建設(shè)用地或未利用地的土地利用類型負(fù)向影響土壤有機(jī)碳含量。降水量、地表溫度重要性其次,反映了水熱條件對土壤有機(jī)碳的影響。
2.3.2 模型精度評定。將數(shù)據(jù)集進(jìn)行十折交叉驗(yàn)證,反復(fù)訓(xùn)練模型得到測試集R2達(dá)到0.644,訓(xùn)練集R2達(dá)到0.756。由表5、表6可知,RFR模型精度整體優(yōu)于GWR模型。將全部數(shù)據(jù)帶入模型進(jìn)行預(yù)測,得到隨機(jī)森林回歸預(yù)測結(jié)果。
2.3.3 土壤有機(jī)碳含量的空間分異特征。通過兩種回歸方法,得到研究區(qū)域濕地土壤有機(jī)碳的空間分布特征。曹妃甸區(qū)土壤有機(jī)碳含量呈北高南低的特征,南部填海造陸,以工業(yè)用地為主的人工陸地表面有機(jī)碳含量匱乏,而耕地、濕地土壤有機(jī)碳含量較高(見圖5);濕地內(nèi)部又呈現(xiàn)出天然濕地和人工濕地的差異。
RFR模型展現(xiàn)出的細(xì)節(jié)較GWR模型豐富。分區(qū)統(tǒng)計(jì)不同土地利用/覆蓋類型上的土壤有機(jī)碳含量,結(jié)果詳見圖6。由圖6可知,河流濕地土壤有機(jī)碳含量最高,為6.45 g/kg。河流濕地是天然濕地,受人為干預(yù)較小,土壤有機(jī)碳豐富;而人工濕地,如養(yǎng)殖場、水庫等,土壤受人為干擾因素較多,有機(jī)碳含量略低。其中,耕地土壤有機(jī)碳含量較高,反映曹妃甸區(qū)耕地質(zhì)量良好,采取了有效的農(nóng)田管理措施,未來耕地的固碳減排潛力巨大。
3 結(jié)論與討論
從結(jié)果精度來看,地理加權(quán)回歸模型的擬合優(yōu)度為0.51,通過反復(fù)訓(xùn)練得到的隨機(jī)森林回歸模型測試集的擬合優(yōu)度為0.64,即通過機(jī)器學(xué)習(xí)得到的結(jié)果精度優(yōu)于線性模型。這是因?yàn)橥寥烙袡C(jī)碳的影響機(jī)制較復(fù)雜,許多影響因子與土壤有機(jī)碳含量不一定呈線性相關(guān)。此外,隨機(jī)森林回歸模型對于變量的選取沒有共線性要求,可以充分利用數(shù)據(jù),而應(yīng)用地理加權(quán)回歸模型需要對數(shù)據(jù)進(jìn)行取舍,以滿足共線性要求。從預(yù)測結(jié)果上看,隨機(jī)森林回歸模型可以展現(xiàn)出更多的變化細(xì)節(jié)。
利用隨機(jī)森林回歸模型,可以比較模型自變量對于解釋變量的重要性。其中,地表干度指標(biāo)(即地表建筑指數(shù)、裸土指數(shù)的綜合指標(biāo))對結(jié)果影響較大。從地理加權(quán)回歸模型可以得出推論——地表干度指數(shù)與土壤有機(jī)碳含量可能呈負(fù)相關(guān)關(guān)系。對于一些城鎮(zhèn)建設(shè)用地等硬化地面,其土質(zhì)與天然土存在差異,有機(jī)質(zhì)含量較少,有機(jī)碳含量少。其次,年降水量可影響當(dāng)?shù)氐母蓾癯潭?,進(jìn)而影響土壤的理化作用。地表長期濕潤,土壤形成嫌氣狀態(tài),有利于腐殖質(zhì)的積累,使有機(jī)碳含量增加。
從兩種模型的分析結(jié)果均可得出結(jié)論,地表濕潤程度與土壤有機(jī)碳含量存在關(guān)系,濕潤土壤腐殖化作用顯著,土壤有機(jī)質(zhì)含量較高,也驗(yàn)證了濕地是陸地碳循環(huán)系統(tǒng)的重要組成部分;而土地利用類型影響土壤有機(jī)碳含量的主要原因是NDBSI的差異,如城鎮(zhèn)干燥的硬化地面土壤有機(jī)碳含量較低。濕地內(nèi)部土壤有機(jī)碳的分布也存在明顯的異質(zhì)性,其主要原因是濕地類型不同。曹妃甸區(qū)東北部土壤有機(jī)碳含量較高,而西南部較低,主要因?yàn)闁|北部濕地為天然濕地,而西南部濕地多為養(yǎng)殖池等人工濕地,天然濕地退化成人工濕地時(shí),土壤有機(jī)碳含量呈現(xiàn)減少趨勢。
根據(jù)上述研究結(jié)果,建議曹妃甸區(qū)在擴(kuò)張建設(shè)用地的同時(shí)提高綠化水平,提高土壤固碳能力;濕地土壤腐殖質(zhì)較多,是重要的土地碳庫,因此要保護(hù)濱海天然濕地;發(fā)展生態(tài)產(chǎn)業(yè),合理利用濱海資源建立人工濕地,合理開發(fā)旅游資源。
參考文獻(xiàn):
[1]KIMBLE J M,BIRDSIE R,LAL R.The potential of U.S.forest soils to sequester carbon and mitigate the greenhouse effect[M].Boca Raton:CRC Press,2003:311-331.
[2]SMITH L C,MACDONALD G M,VELICHKO A A,et al.Siberian peatlands a net carbon sink and global methane source since the Early Holocene[J].Science,2004(5656):353-356.
[3]張文菊,吳金水,童成立,等.三江平原濕地沉積有機(jī)碳密度和碳儲(chǔ)量變異分析[J].自然資源學(xué)報(bào),2005(4):537-544.
[4]王文波,白冰,張鵬騫,等.若爾蓋濕地土壤有機(jī)碳含量和密度的分布特征[J].生態(tài)學(xué)雜志,2021(11):3523-3530.
[5]王彪.中國東北溫帶森林濕地碳儲(chǔ)量與碳源/匯研究[D].哈爾濱:東北林業(yè)大學(xué),2021:18.
[6]孫鈺森,王維芳,李國春.基于地理加權(quán)回歸克里格模型的帽兒山地區(qū)森林碳儲(chǔ)量空間分布[J].應(yīng)用生態(tài)學(xué)報(bào),2019(5):1642-1650.
[7]丁亞鵬,張俊華,劉玉寒,等.基于GWR模型的伊河流域土壤有機(jī)碳空間分布特征及影響因素分析[J].生態(tài)學(xué)報(bào),2021(12):4876-4885.
[8]李海萍,杜佳琪,唐浩竣.基于隨機(jī)森林的縣域土壤有機(jī)碳密度及儲(chǔ)量估算[J].中國土壤與肥料,2021(3):1-8.
[9]徐涵秋.區(qū)域生態(tài)環(huán)境變化的遙感評價(jià)指數(shù)[J].中國環(huán)境科學(xué),2013(5):889-897.
[10]KAUTH R J,THOMAS G S.The tasselled cap a graphic description of the spectral-temporal development of agricultural crops as seen by Landsat[C]//Proceedings of symposium on machine processing of remotely sensed data.West Lafayette:Laboratory for Applications of Remote Sensing,1976:159.
[11]侯宇初,張冬有.基于Landsat8遙感影像的地表溫度反演方法對比研究[J].中國農(nóng)學(xué)通報(bào),2019(10):142-147.
[12]楊順華,張海濤,郭龍,等.基于回歸和地理加權(quán)回歸Kriging的土壤有機(jī)質(zhì)空間插值[J].應(yīng)用生態(tài)學(xué)報(bào),2015(6):1649-1656.
[13]宋洪濤,崔麗娟,欒軍偉,等.濕地固碳功能與潛力[J].世界林業(yè)研究,2011(6):6-11.
[14]周雅心.中國典型濱海濕地轉(zhuǎn)變?yōu)轲B(yǎng)殖塘對土壤碳庫及微生物特征的影響[D].福州:福建師范大學(xué),2021:56-59.