趙 華
(昌吉水文勘測局,新疆 昌吉 831100 )
降水量空間分布研究是氣象科學(xué)領(lǐng)域熱點之一[1]。目前降水量模擬主要使用數(shù)值模式,但由于氣象觀測站點限制,其在降水量時空分布方面模擬精度較低[2-3]。為了克服這一限制,學(xué)者們使用衛(wèi)星遙感技術(shù)來獲取高時空間分辨率的降水量數(shù)據(jù),并證實了能夠更準(zhǔn)確了解降水量分布式信息[4-5]。然而,由于衛(wèi)星數(shù)據(jù)分辨率通常比觀測站粗糙得多,因此需要使用降尺度方法來將衛(wèi)星數(shù)據(jù)轉(zhuǎn)換為精細(xì)柵格面數(shù)據(jù)。目前主要的降尺度方法包括統(tǒng)計降尺度方法、動態(tài)降尺度方法[6-7]。動態(tài)降尺度方法通過分析大氣-陸地系統(tǒng)之間的交互作用來降尺度,而具有較大研究成本。以隨機森林回歸算法為代表的機器學(xué)習(xí)方法不僅能預(yù)測降水量空間分布,同時也能夠有效地降尺度衛(wèi)星數(shù)據(jù)。
昌吉州位于亞洲大陸核心、我國新疆北部,總面積面積為11.2 萬km2。區(qū)域東部為準(zhǔn)格爾盆地區(qū),西南側(cè)為天山山麓,總體地勢呈現(xiàn)自西向東、自南向北傾向,海拔介于227 m~5323 m 之間,形成高寒山地、隔壁、盆地綠洲等地貌。該地區(qū)屬于溫帶大陸性干旱區(qū),具有干旱少雨、酷暑寒冬、晝夜溫差大等特點;年平均氣溫在6℃~12℃之間, 年降水量100 mm~300 mm,積溫約2500℃,日照時數(shù)為2660 h,干旱日數(shù)約250 d,太陽輻射量120 kcal/cm2以上。該地水資源主要來自于天山融雪和地表徑流,年徑流量為33.7 億m3。
從氣象科學(xué)數(shù)據(jù)中心(http://data.cma.cn/)共收集到研究區(qū)16 個站點資料,時間為2020 年。該氣象站點通過降雨量自記錄儀記錄雨滴時的微弱電信號進行降水測量。人工觀測則在定點場地安裝雨量計,由專業(yè)人員采集記錄雨水的信息,并采用自動算法、人工復(fù)核等方法,對于存在異?;蚱畹臄?shù)據(jù)進行修正或刪除,因而數(shù)據(jù)可信度高。
研究區(qū)GPM 衛(wèi)星降水?dāng)?shù)據(jù)則通過官方網(wǎng)站獲?。╤ttps://gpm.nasa.gov/data/directory)。該數(shù)據(jù)產(chǎn)品為IMERG,時間分辨率為/月,空間分辨率為0.1°(約10km),利用累加法將逐月GPM 數(shù)據(jù)合成2020 年產(chǎn)品,進而與該地地貌雨量站資料匹配。
隨機森林回歸(Random forest regression)是一種基于決策樹(CART)的集成學(xué)習(xí)方法,它通過將多個決策樹的預(yù)測結(jié)果進行平均或加權(quán)平均來得到最終的預(yù)測結(jié)果。集成學(xué)習(xí)方法可以降低單一模型的泛化誤差,提升模型的穩(wěn)定性和準(zhǔn)確度。以海拔、經(jīng)度、緯度和經(jīng)緯度等環(huán)境屬性作為隨機森林回歸模型的輸入特征,以基于氣象站點降水量數(shù)據(jù)為目標(biāo)變量,構(gòu)造的訓(xùn)練集為:T={(x1,y1), (x2,y2), …,(xn,yn)},其中xi∈X,n=16 為輸入樣本數(shù)量,yi∈Y,為地面降水量值,進而擬合降水—環(huán)境之間復(fù)雜非線性關(guān)系下:
式中:B={1,2…,B},表示CART 數(shù)據(jù);b表示boostrap樣本數(shù);tb*為單一CART,K是第k個訓(xùn)練樣本,包含目標(biāo)變量(y)和協(xié)變量(x)的成對值[8]。
本研究使用ArcGIS 軟件對文中空間數(shù)據(jù)進行預(yù)處理,降尺度模型構(gòu)建與參數(shù)優(yōu)化則在Rstudio 軟件中實行。利用隨機森林回歸算法預(yù)測得到的降水量柵格點值y'為參考值,以地面觀測站降水量y 為真值,計算決定系數(shù)(R2)、平均絕對誤差(MAE)和均方根誤差(RMSE),對昌吉地區(qū)降水量GPM 降尺度精度進行量化評估。
研究區(qū)原GPM 年降水量柵格面見圖1,其共存在2498 個像素,可知其原GPM 像素值介于降水量介于78 mm~508 mm之間,其空間平均值為178 mm,離差系數(shù)達56%,呈現(xiàn)自動向西減少的分布特征。需指出的是,該粗糙的柵格像素存在明顯機械性特征,無法精細(xì)表達降水量空間細(xì)節(jié)變化。
圖1 昌吉地區(qū)原GPM 降水量空間分布
利用半方差函數(shù)(GS+9.0 軟件)檢測原GPM 降水?dāng)?shù)據(jù)(圖3)柵格像素點之間空間自相關(guān)性。由圖2 可知,隨著空間距離增加,半方差值先從0 值迅速升高,當(dāng)空間距離達到300 km 距離時,半方差值趨于穩(wěn)定。統(tǒng)計的其塊基比為6.29%,說明存在顯著空間自相關(guān),其自相關(guān)距離約為30 km,降水量在此范圍內(nèi)呈現(xiàn)互相影響,而超出該范圍則相關(guān)性消失。上述研究表明,利用RF算法對區(qū)域降水量進行空間擬合具有可行性。
圖2 研究區(qū)降水量半方差函數(shù)特征
圖3 昌吉地區(qū)原GPM 降水量與地面觀測值之間一致性
為客觀評估研究區(qū)GPM 降水量數(shù)據(jù)可替代性,利用研究區(qū)16 個氣象站點空間數(shù)據(jù)提取了對應(yīng)位置上GPM 像素,并比較二者之間差值。如圖3 所示,衛(wèi)星記錄降水量值與地面觀測值之間具有較好一致性,散點聚集于1∶1 兩側(cè),僅有少部分離散點;統(tǒng)計得到二者間的R2達0.45,MAE 和RMSE分別為48.89 mm、61.47 mm。由此可知,昌吉地區(qū)2020 年GPM 衛(wèi)星數(shù)據(jù)在該地區(qū)具有一定可替代性。
為確保降尺度模型穩(wěn)健性,利用全部16 個氣象站點降水量資料進行充分訓(xùn)練,以地面雨量站觀測降水量為目標(biāo)特征,以DEM、地理經(jīng)度、緯度和經(jīng)緯度乘積為協(xié)變量,進而訓(xùn)練隨機森林回歸模型。利用網(wǎng)格搜索算法對該關(guān)鍵參數(shù)優(yōu)化,其中對Importance Coefficient 設(shè)定搜索范圍為0~1,步長為0.1;mtry 取 值 0~1 之 間 整 數(shù);Regularization value 為0~1 之 間,步長為0.1。由模型參數(shù)優(yōu)化過程可見當(dāng)mtry、Importance Coefficient 和Regularization value 參數(shù)組合配置依次為10、0、0.2 時,此時模型訓(xùn)練精度RMSE 達到最小,僅為14.23 mm。
利用訓(xùn)練好的隨機森林回歸模型進行降尺度處理得到昌吉州1 km 分辨率水平的降水量空間信息(圖4)??梢?降水量值域范圍為77 mm~512 mm,其空間平均值為190 mm,這些統(tǒng)計特征與原GPM 數(shù)據(jù)(圖1)相接近。西部南部天山北坡地區(qū)降水量較高,可達300 mm 以上,而東部、東北部平原地區(qū)較少,僅為200 mm 一下,該分布特征主要受到地形抬升影響。然而,與原始GPM 資料相比,降尺度后的GPM 數(shù)據(jù)不僅繼承了其數(shù)值水平和空間分異規(guī)律,還突出了在刻畫降水量分布細(xì)節(jié)信息方面的優(yōu)勢,更符合研究區(qū)實際。
圖4 昌吉地區(qū)GPM 數(shù)據(jù)降尺度降水量分布
在獲取研究區(qū)GPM 數(shù)據(jù)降尺度后柵格面基礎(chǔ)上,利用ArcGIS 工具extract 功能提取昌吉州全部氣象站點位置上對應(yīng)的降尺度后降水量數(shù)值信息,在此基礎(chǔ)以地面觀測降水量值為參考,計算二者之間差值。圖5 中顯示,地面降水量與降尺度后GPM 值之間擬合度較好,二者間的R2達0.703,MAE、RMSE 分別為37.31 mm、42.34 mm,且離散點相對較少。相比于原始GPM 數(shù)據(jù),降尺度的GPM 降水量與地面觀測值之間的R2提升了62%,而MAE 和RMSE 依次降低了24%、31%。該結(jié)果表明,研究區(qū)粗糙集GPM 數(shù)據(jù)經(jīng)隨機森林降尺度處理,提升了數(shù)值準(zhǔn)確性。
圖5 降尺度后GPM 降水量與地面觀測值之間一致性
為進一步了解隨機森林降尺度后GPM 數(shù)據(jù)具體誤差分布,先利用站點數(shù)據(jù)統(tǒng)計了點基尺度相對誤差,再利用Voroni 圖進行可視化,具體分析過程為:ArcGIS Geostatistical Analysis →Explore data Voronoi map。如圖6 所示,降尺度后GPM 數(shù)據(jù)誤差存在區(qū)域性差異,其中對中北部地區(qū)降水量存在高估,相對誤差約為0~60 mm,對南部山地存在低估,誤差約為-78 mm~0 mm。
圖6 昌吉地區(qū)GPM 降水量空間殘差分布
本研究基于隨機森林回歸降尺度算法對粗糙集的原GPM衛(wèi)星降水?dāng)?shù)據(jù)進行尺度變換處理,對昌吉州降水量空間分布進行研究。結(jié)果表明,隨機森林回歸模型通過擬合地面觀測降水量與地形、經(jīng)緯度之間非線性關(guān)系,較好模擬了昌吉地區(qū)降水量空間細(xì)節(jié)分布,并展示了空間平滑性和可靠性;經(jīng)降尺度處理后的GPM 數(shù)據(jù)精度取得較大提升,生成的降水量空間柵格圖顯示,區(qū)域降水量呈現(xiàn)自東向西、自南向北減少分布規(guī)律;區(qū)域GPM 數(shù)據(jù)降尺度后誤差呈現(xiàn)由南向北增加分布,南部山區(qū)存在低估,北方盆地存在高估。未來研究仍需進一步拓展其他機器學(xué)習(xí)或深度學(xué)習(xí)算法在降尺度過程中的應(yīng)用性,并比較不同非線性回歸技術(shù)對GPM 數(shù)據(jù)降尺度的差異性。