樊 慶
(榆林水文水資源勘測中心,陜西 榆林 719000)
降水量是雨量學中一個非常關鍵指標,對氣候變化、水資源管理以及農業(yè)生產等方面都有著重要作用[1-3]。因此,精確預測和插值降水量的空間柵格面,對于降水狀況的監(jiān)測和預報具有重要的實踐意義。經典降水量插值局限于Anusplin、Oridinary kriging、Inverse Distance Weighting等[2-5],其基于線性關系假設,而只能反映局部站點尺度降水數量信息,無法準確解釋空間尺度連續(xù)性分布特征。支持向量機回歸模型(Support Vector Machine Regression, SVMR)是一種非參數回歸方法,通過尋找最優(yōu)超平面,使多維數據擬合收斂[6-7]。相比于其他插值方法,SVMR具有更好的穩(wěn)健性和泛化能力,可以有效處理高維數據和非線性問題。
本文基于SVR模型,對陜西省降水量進行空間插值,旨在全面探究其應用性,為雨量災害預報、水資源管理、農業(yè)生產等領域的相關決策提供科學依據。
陜西省位于我國地理中心,介于N31°42′-N39°35′、E105°29′-E111°15′,總面積20.56×104km2。受地形環(huán)境、海陸位置、季風影響,由北向南依次為溫帶大陸性季風、亞熱帶季風氣候,分屬中溫帶半濕潤區(qū)和濕潤區(qū),多年平均氣溫6℃~13℃,降水量分布范圍300~1 100mm,無霜期180~240d,日照時數2 300~2 600h,積溫一般為1 500℃~4 200℃,氣候資源呈由南向北減少。境內為陜北黃土高原、關中盆地和陜南秦巴山地分異地貌,海拔320~3 780m,植被呈地帶性分異,其中優(yōu)勢物種為馬尾松、毛竹、刺槐等。區(qū)域分屬長江、黃河流域,流域面積占比分別為35.37%、36.82%,另有27.81%屬內流區(qū)。
所使用的雨量降水資料從國家氣象科學數據中心共享獲取。共收集到研究區(qū)2001-2020年92個雨量站點逐日降水量資料(圖1),各站點不存在數據缺失。將原站點雨量數據在Excel 2016中進行處理,先合成逐年數據,再計算得到近20年來平均值。
圖1 研究區(qū)地形和雨量站點分布
SVR是一種用于建立連續(xù)變量之間非線性關系的機器學習算法。與其他回歸方法不同的是,支持向量機回歸通過在數據集中找到一條最優(yōu)曲線或者超平面,即最小化訓練誤差和最大化有效邊緣來進行回歸。支持向量機回歸的亮點在于其通過使用核函數來處理非線性問題,使輸入樣本更容易進行分離。對于訓練數據集為D={(xi,yi)},xi是n維向量,yi是標量預測值,引入松弛變量ξi和ξi*,最小化如下的目標函數:
(1)
式中:C為懲罰系數;w、b分別為模型的系數和截距。
通常引入的核函數有高斯核、多項式核和Sigmoid核函數,本文選用高斯核函數進行建模,公式如下:
K(xi,xj)=exp(-‖xi-xj‖2)/(2σ2)
(2)
式中:σ為超參數[6-7]。
1)數據預處理。將獲取的研究區(qū)DEM、NDVI數據重采樣成100m空間分辨率,設置其投影系統為UTM-CGS-1984,并利用處理后DEM柵格單元中心生成其地理經度(Lon)、地理緯度(Lat)的柵格面數據,由此構建環(huán)境變量柵格數據集,其包含DEM、NDVI、Lon和LAT等。再利用ArcGIS的Spatial Analysis→Extract→Extract multi-value to points工具,提取92個雨量站點位置所對應的環(huán)境變量信息,進而構建樣本集。
2)SVR模型訓練。按照7∶3的比例隨機劃分訓練集合測試集,前者用以構建SVR模型,模型中因變量為站點降水量值,自變量為環(huán)境變量值,利用Rstudio軟件中的caret和e1071程序包設計SVR模型,并通過grid search方法對模型中關鍵參數Cost、Sigma進行尋優(yōu)。
3)空間插值預測。將構建的SVR模型代入環(huán)境變量柵格數據集進行空間預測,生成研究區(qū)100m空間分辨率的降水量柵格圖。
4)插值精度驗證。以測試集中的因變量為真值,提取相應站點位置對應的預測值,進而計算二者之間的決定系數R2、平均相對誤差MAE、均方根誤差RMSE,用以評價SVR模型的插值精度。公式如下:
(3)
(4)
(5)
為證明SVR算法優(yōu)勢,以傳統的Ordinary Kriging(OK)、Inverse Distance Weighting(IDW)算法為對照模型。
針對每一站點降水量,統計其近20年來降水量平均值,然后計算空間92個站點降水量統計特征,見表1。由表1可知,研究區(qū)站點降水量最大值為陜南鎮(zhèn)巴站的1 317.55mm,最低值為陜北三原的353.39 mm,最大最小相差964.16mm,其統計平均值641.33mm,中值593.90mm,離差系數0.30,表明研究區(qū)降水量空間分異性強烈。進一步統計表明,其中有54個站點觀測的徑流量低于全域平均值,僅34個站點達到平均值以上,表明該站點觀測值呈非平穩(wěn)分布。因此,利用自然對數變換,使其符合正態(tài)分布形式,得到其Pks值<0.05。
表1 研究區(qū)雨量站點降雨量統計特征
本研究選擇徑向基函數(Radial Basis Function, RBF)作為核函數,設計基于R語言設計SVR模型關鍵代碼如下:
train_index <- sample(1:nrow(data), round(nrow(data) ? 0.7)) # 70%的數據用于訓練traindata <- data[trainindex, ]testdata <- data[-trainindex, ]tunegrid <- expand.grid(Cost = seq(0.1,1,0.1), Sigma= seq(0.001,0.1,0.001))svrmodel<- train (y~NDVI+DEM+Lon+Lat,data = traindata, method= ′svmRadial′, metric = "MAE" ,tuneGrid = tunegrid, trControl = control)#超參數優(yōu)化predicted <- predict(svmmodel1,traindata[,-1])R2<-cor(predicted, testdata[,-1])^2MAE<-mae(predicted, testdata[,-1])RMSE<-(predicted, testdata[,-1])##精度評估
SVR模型性能不僅受數據結構影響,還對超參數的配置敏感。利用grid search方法,先對參數設置搜索空間,其中Cost的空間為[0.1,1],Sigma為[0,0.1],其迭代步長分別為0.1和0.01。經較差驗證發(fā)現,當超參數Cost、Sigma取值分別為0.3、0.016時模型的MAE達到最小,僅為86.5mm。SVR擬合過程的魯棒性和準確性見圖2。
圖2 SVR模型參數優(yōu)化過程圖
通過對降水量數據的處理和SVMR模型的擬合,得到陜西省降水量的空間插值圖,見圖3。圖3顯示,降水量分布范圍343~1 254mm,空間平均值658mm,這與站點統計值接近。降水量最高值分布于陜南,局部可達1 100~1 300mm;關中地區(qū)次之,介于550~700mm之間;陜北地區(qū)最少,僅為343~500mm。表明研究區(qū)降水量呈現自南向北地帶性減少分布特征,這與研究區(qū)實際情況一致。另外,圖3呈現局地降水量隨地形分布的規(guī)律,并且精細刻畫出局部漸變。綜合而言,該降水量分布圖具有科學性、可靠性。
圖3 基于SVR算法陜西省降水量空間插值分布圖
利用28個站點降水量進行獨立驗證,真實降水量值與不同算法的插值結果散點圖見圖4。由圖4可知,SVR模型中散點圖聚集性較好,離散性較低,其中R2為0.71,MAE和RMSE分別為108.43、128.39mm。對照模型中的OK插值法精度參數R2為0.62,MAE和RMSE分別為129.54、143.39mm;而IDW插值精度R2更低,僅為0.59,MAE和RMSE為118.45、152.16mm,且其離散性更大。
圖4 不同算法對降水量進行空間插值的精度比較
由此可見,SVR模型插值精度更高,這歸因于其能擬合降水量分布與不同環(huán)境變量之間非線性關系。相比于OK和IDW模型的R2增加14.52%、20.34%;MAE降低16.30%、8.46%,RMSE減小9.18%、15.62%,表明SVR插值法在研究區(qū)降水量空間預測性插值具有良好應用能力。
隨著氣候變化的加劇,雨量科學越來越受到人們的關注。在雨量科學領域,降水量的空間插值是雨量預報、環(huán)境保護等經常用到的一種技術。本文引入SVR算法,改進陜西省降水量空間插值精度,結論如下:
1)SVMR模型通過良好泛化和非線性處理能力,擬合降水量分布與環(huán)境變量之間關系,得到精細尺度降水量分布圖,在省域尺度具有較好的預測效果。
2)相較于經典OK、IDW插值法,SVR存在明顯優(yōu)勢,即擬合非線性關系進而改善降水量空間插值能力,并可應用于其他雨量變量的空間插值和預測研究中。
3)SVR模型的穩(wěn)健性需考慮數據平衡性和參數率定,grid search方法可幫助對模型超參數進行快速尋優(yōu)。此外,還發(fā)現一些站點數據量不足、模型偏差等問題,建議今后研究中加入更多敏感性變量如距離海陸位置遠近、大氣含水量等,進一步優(yōu)化插值精度。