楊承亮
(南昌市水利規(guī)劃設(shè)計院,江西 南昌 330000)
隨著氣候變化和自然災(zāi)害頻發(fā),對降雨量準(zhǔn)確空間反演變得愈發(fā)重要[1]。江西作為南方立體農(nóng)業(yè)核心區(qū),其降雨量分布對水資源管理和災(zāi)害防控具有重要意義。然而,由于該省地形復(fù)雜、降雨量具有明顯的時空變化特征,傳統(tǒng)的降雨量觀測手段難以全面準(zhǔn)確地獲取其空間分布信息[2]。為此,許多研究者關(guān)注基于多源數(shù)據(jù)和機(jī)器學(xué)習(xí)算法的降雨量空間反演研究。其中,隨機(jī)森林(RF)作為一種強(qiáng)大的非參數(shù)機(jī)器學(xué)習(xí)方法,已經(jīng)在許多領(lǐng)域展現(xiàn)出了良好的預(yù)測能力[3-4]。通過結(jié)合多源數(shù)據(jù),如氣象站點(diǎn)觀測數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)以及地理信息系統(tǒng)數(shù)據(jù),可以獲得更豐富的降雨量信息,提高空間反演的準(zhǔn)確性[5]。因此,本研究以江西省為研究對象,旨在利用RF 算法和多源數(shù)據(jù),實現(xiàn)對省域降雨量空間反演,為區(qū)域水資源管理、氣象災(zāi)害預(yù)警等提供科學(xué)依據(jù)。
如圖1 所示,江西省位于中國中東部、鄱陽湖南側(cè)、武夷山北麓,總面積16.7 萬km2。區(qū)域地形自東、南、西向中北部傾斜,海拔介于0~2160 m,形成環(huán)鄱陽湖平原、江南丘陵、幕府山地、武夷山系等折疊地貌,境內(nèi)有長江贛江自南向北通過,具有徑流量大、汛期長特點(diǎn)。
圖1 江西省地形特征和氣象站點(diǎn)分布
本研究中的降雨量數(shù)據(jù)從氣象科學(xué)數(shù)據(jù)中心(https://data.cma.cn/data)下載,鑒于數(shù)據(jù)可得性,僅獲取了2020 年89 個氣象站日降雨資料。該數(shù)據(jù)經(jīng)0.1 mm 精度的質(zhì)量控制,具有良好應(yīng)用性。為實現(xiàn)對省域降水量進(jìn)行空間反演,選擇地理空間數(shù)據(jù)云(http://www.gscloud.cn)平臺提供的STRM DEM 數(shù)據(jù)作為輔助,其空間分辨率為90 m,可精確反映局部地形變異;另外還基于DEM 數(shù)據(jù)提取了坡度和坡向信息。為反映降雨量經(jīng)緯度地帶性特征,以獲取的DEM 數(shù)據(jù)為基礎(chǔ),先通過ArcGIS10.8 平臺中的rater to point 工具將DEM 柵格轉(zhuǎn)成成空間點(diǎn)數(shù)據(jù),然后利用屬性表中Calculate geometry 工具計算每一格點(diǎn)的經(jīng)度和緯度,再通過point to raster 模塊生成區(qū)域柵格式經(jīng)、緯度信息。將全部柵格數(shù)據(jù)利用cubic 方法重采樣成500 m 分辨率,用作空間反演輔助變量集。
隨機(jī)森林RF 是基于Boostrap 抽樣和bagging 理論的一種組合器算法,它由許多決策樹或回歸樹組成,每棵樹依賴于獨(dú)立采樣的隨機(jī)向量的值,并且數(shù)據(jù)中所有樹的分布相同。在RF 建模中使用boostrap 采樣允許袋外數(shù)據(jù)用于估計一般誤差,預(yù)測結(jié)果是所有聚合預(yù)測的平均輸出[6]。RF 建模需要兩個用戶定義的參數(shù):用于生長每棵樹的變量數(shù)量(mtry)、林中樹數(shù)量(ntree)。mtry 參數(shù)確定每棵樹的強(qiáng)度和樹之間的相關(guān)性,增加mtry 還會增加每棵樹的強(qiáng)度和樹之間的相關(guān)性[7]。RF 模型性能通過增加樹木強(qiáng)度和降低樹木之間的相關(guān)性而得到改善。
RF 機(jī)器學(xué)習(xí)作為數(shù)據(jù)驅(qū)動模型對數(shù)據(jù)結(jié)構(gòu)具有一定敏感性,將89 個樣本點(diǎn)按照7∶3 的比例隨機(jī)劃分成訓(xùn)練集(62個)和驗證集(27 個),分別執(zhí)行模型訓(xùn)練、獨(dú)立驗證。對于訓(xùn)練集、測試集,應(yīng)用十折交叉驗證方法計算模型的決定系數(shù)(R2)、均方根誤差(RMSE)、平均絕對誤差(MAE)來評估模型預(yù)測能力和空間反演精度。
式中:yp、yo為預(yù)測值與實際值;、為預(yù)測與實測序列的平均值;r為實測值與預(yù)測值之間皮爾遜相關(guān)系數(shù);V2p、V2o分別為預(yù)測值、實際值的方差。
江西省2020 年89 個標(biāo)準(zhǔn)氣象站點(diǎn)觀測的降雨量統(tǒng)計特征見表1。年降雨量最小值出現(xiàn)在彭澤站,僅為1285.61 mm,最大值為資溪站的2340.46 mm,兩者相差1054.86 mm;統(tǒng)計平均值為1799.53 mm,中值為1834.83 mm,單樣本KS 檢驗顯示其呈偏態(tài)分布。全部樣帶數(shù)據(jù)的離差系數(shù)為16.60%,表明全省降水量呈中度異質(zhì)性。
表1 江西省站點(diǎn)降水量統(tǒng)計特征(n=89) 單位:mm
為深入認(rèn)識站點(diǎn)降雨資料空間變異特征,使用ArcGIS10.8→Geostatistical analysis →Wizard kriging 工具得到其半方差函數(shù)Semivariance 結(jié)構(gòu)圖,其結(jié)果見圖2。由圖2 可知,區(qū)域降雨量空間分布符合高斯(Gau)模型,塊金值為0.35,偏基臺值Partial Sill 為2.23,塊基比(Nugget/Sill)為13.56%,具有強(qiáng)烈空間自相關(guān)性(25%<Nugget/Sill<75%),其空間自相關(guān)范圍為600 km。這表明,研究區(qū)不同空間位置上降水量具有一定相關(guān)性,局域降水量存在互相影響。
圖2 江西省站點(diǎn)降水量Semivariance 結(jié)構(gòu)圖
本研究以樣本植被為輸入變量,以站點(diǎn)時間降雨量為輸出目標(biāo),在Rstudio平臺中運(yùn)用Caret程序包設(shè)計RF回歸模型。RF 模型結(jié)構(gòu)受超參數(shù)影響,為確保模型穩(wěn)健性和擬合能力,使用gridsearch 方法進(jìn)行參數(shù)尋優(yōu),其結(jié)果見圖3??梢?模型訓(xùn)練精度R2隨著ntree 數(shù)量增加先呈急劇增加后平穩(wěn)趨勢,當(dāng)ntree 大于200 時,R2趨于穩(wěn)定。由于輸入變量較少,因此設(shè)置mtry 參數(shù)尋優(yōu)區(qū)間為2~8,可見當(dāng)其取值為8 時達(dá)到最大值。據(jù)此,選擇ntree、mtry 的超參數(shù)配對依次為200、8。
圖3 基于RF 算法降雨量插值模型優(yōu)化過程
基于以上優(yōu)化過程此訓(xùn)練RF 模型,并分別利用訓(xùn)練集計算精度評價指標(biāo)R2、MAE 和RMSE,結(jié)果見圖4??梢奟F建模精度良好,其R2達(dá)0.78,MAE 和RMSE 分別為91.81 mm、139.81 mm。訓(xùn)練集里真實值與預(yù)測值分布于1∶1 線兩側(cè),并具有局部離散特征,表明該模型在訓(xùn)練過程中較好擬合了降雨量與環(huán)境之間關(guān)系。因此可用以對未知區(qū)降水量進(jìn)行插值預(yù)測。
圖4 隨機(jī)森林模型訓(xùn)練精度
將上述訓(xùn)練好的RF 模型代入柵格變量數(shù)據(jù)集,進(jìn)而對省域降雨量空間分布進(jìn)行預(yù)測,其結(jié)果見圖5。由圖5 可知,降雨量柵格面值域介于1280 mm~2340 mm,柵格平均值為1823 mm,離差系數(shù)為23.54%,這與表1 中站點(diǎn)統(tǒng)計值一致,表明預(yù)測的降雨量分布集成了站點(diǎn)降雨特性。降雨量呈現(xiàn)自東北向西、北遞減分布,降水量中心位于贛東鷹潭等地,局部降雨量可達(dá)1900 mm 以上;贛中地區(qū)次之,分布范圍為1600 mm~1900 mm 之間;贛南地區(qū)降水量呈現(xiàn)自西向東增加分布,介于1500 mm~1750 mm ;贛西北地區(qū)的幕阜山地區(qū)最少,僅為1280 mm~1500 mm。這種分布特征主要受季風(fēng)運(yùn)移路徑和地形影響。從局域特征來,該非線性插值結(jié)果并未出現(xiàn)“牛眼”“機(jī)械漸變”等非自然特征,而較好體現(xiàn)了經(jīng)緯度地帶性和地形變異,因而反演的降水量分布更符合區(qū)域?qū)嶋H。
圖5 隨機(jī)森林方法反演的降水量空間分布
為進(jìn)一步評價RF 模型反演精度,基于測試集計算了精度評價參數(shù),并繪制散點(diǎn)圖,其結(jié)果見圖6??芍洫?dú)立驗證的R2達(dá)0.76,MAE 和RMSE 依次為121.11 mm、151.70 mm,相對于訓(xùn)練精度的R2減小了2.56%,MAE 和RMSE 分別增大了-31.91%、8.50%,表明RF 模型在移植后發(fā)生了一定程度精度下降,但依然在可接受范圍內(nèi)。圖6 顯示,預(yù)測值與實際觀測降雨量之間具有良好線性關(guān)系,因此空間反演結(jié)果在研究區(qū)具有一定替代性,同時表明RF 模型能挖掘降雨量—環(huán)境因素間顯性、隱式關(guān)系進(jìn)而更穩(wěn)健擬合區(qū)域降雨分布。綜合來看,使用多源環(huán)境變量與RF 算法反演省域尺度降雨量空間分布過程中不存在過擬合而且具有良好適用性。
圖6 區(qū)域降雨量反演獨(dú)立驗證精度
本研究通過聯(lián)合GIS 與RF 機(jī)器學(xué)習(xí)技術(shù),準(zhǔn)確反演了省域尺度500 m 空間分辨率的降雨量分布式信息,結(jié)論如下:RF 模型基于站點(diǎn)降水量與環(huán)境因子之間非線性關(guān)系假設(shè),模擬省域降雨量面分布,該方案克服了氣象站點(diǎn)數(shù)據(jù)密度缺陷且促進(jìn)了氣候過程模式理解,可作為具有前景的數(shù)據(jù)解析技術(shù),并能夠移植到其他地區(qū)幫助構(gòu)建穩(wěn)健的氣候要素反演模型,繪制更為精細(xì)的氣候面空間圖。然而,模型預(yù)測能力依賴于環(huán)境變量,本研究僅考慮了地形和經(jīng)緯度因子,后續(xù)研究應(yīng)納入大氣含水量、氣溫、地表溫度等信息,進(jìn)而改進(jìn)模型性能;此外還應(yīng)定量分析各環(huán)境因子重要性,深刻解釋環(huán)境因子對降雨量空間異化的影響。