沈 黎
(杭州市富陽區(qū)水文水資源監(jiān)測(cè)管理中心,浙江 杭州 311400)
受到氣候變化及人類活動(dòng)的加劇,浙江省降水已呈現(xiàn)出了日漸極端的趨勢(shì)[1]。JUNG等和KARAGIANNIDIS等分別在韓國和歐洲分析了當(dāng)?shù)貐^(qū)域的極端降水事件變化趨勢(shì),均指出了區(qū)域極端降雨發(fā)生頻率呈現(xiàn)顯著增加趨勢(shì)[2- 3]。極端降雨事件的發(fā)生造成了洪澇災(zāi)害現(xiàn)象十分頻繁,對(duì)居民安全及經(jīng)濟(jì)發(fā)展產(chǎn)生了十分惡劣的影響[4- 5]。極端降雨事件指的是降水高于(或低于)觀測(cè)值區(qū)間的上限(或下限),國際上普遍采用極端降雨指數(shù)來描述區(qū)域極端降雨事件并分析區(qū)域的極端降雨變化趨勢(shì)。因此,研究區(qū)域極端降雨事件的變化規(guī)律對(duì)區(qū)域防洪政策的制定具有十分重要的意義。
目前,針對(duì)區(qū)域極端降雨指數(shù)變化規(guī)律的研究已取得了一定的進(jìn)展。楊家禎等[6]通過計(jì)算廣西省1951—2015年的11種極端降雨指數(shù),分析了廣西省極端降雨事件的發(fā)生規(guī)律,指出11種極端降雨指數(shù)均呈現(xiàn)出從廣西東北及南部向西南、西北遞減的變化趨勢(shì);張俊等[7]研究了長(zhǎng)江流域1961—2017年極端降雨指數(shù)的變化規(guī)律,指出不同年代長(zhǎng)江流域極端降雨事件發(fā)生規(guī)律有所不同,2000年以后,長(zhǎng)江流域極端降雨事件有所增加;苗正偉等[8]分析了京津冀地區(qū)1961—2017年的極端降雨事件變化規(guī)律,指出了在該時(shí)間段內(nèi)京津冀地區(qū)氣候呈現(xiàn)干旱化趨勢(shì)。
雖然,針對(duì)極端降雨指數(shù)分布規(guī)律的已有了部分研究成果,但這些成果基本集中在分析現(xiàn)存數(shù)據(jù)規(guī)律上,針對(duì)區(qū)域極端降雨指數(shù)預(yù)測(cè)模型的研究仍然較少。隨著人工智能及機(jī)器學(xué)習(xí)模型的興趣,基于機(jī)器學(xué)習(xí)模型構(gòu)建數(shù)據(jù)預(yù)測(cè)模型已成為了各個(gè)領(lǐng)域研究的熱點(diǎn)。浙江省位于我國沿海地區(qū),每年受極端降雨現(xiàn)象的影響十分嚴(yán)重,造成了浙江省嚴(yán)重的洪澇災(zāi)害。為解決這一問題,本文基于高斯回歸模型(GEP)、自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)(ANFIS)、多元自適應(yīng)回歸模型(MARS)和梯度提升決策樹算法(GBDT)構(gòu)建浙江省極端降雨指數(shù)預(yù)測(cè)模型,并將模擬結(jié)果與傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行對(duì)比,分析得出最優(yōu)模型。
浙江省位于我國東南沿海地區(qū),地處亞熱帶季風(fēng)氣候區(qū),是中國經(jīng)濟(jì)最活躍的省份之一。頻繁的臺(tái)風(fēng)現(xiàn)象造成了整個(gè)浙江省極端降雨的加劇,對(duì)全省經(jīng)濟(jì)發(fā)展造成了嚴(yán)重的影響。本文選擇浙江省杭州、慈溪、衢州、麗水等9個(gè)氣象站點(diǎn)1961—2018年的逐日氣象數(shù)據(jù),計(jì)算不同站點(diǎn)的極端降雨指數(shù)。本文數(shù)據(jù)均通過http://data.cma.cn/網(wǎng)站獲取,數(shù)據(jù)質(zhì)量控制良好,站點(diǎn)及研究區(qū)域概況如圖1所示。
圖1 研究區(qū)域概況圖
為構(gòu)建浙江省極端降雨事件的預(yù)測(cè)模型,本文選擇了世界氣象組織氣候委員會(huì)推薦的3個(gè)極端降水指數(shù),分別為每年中雨日數(shù)(R10)、大雨日數(shù)(R20)和1日最大降水量(RX1),指標(biāo)具體含義見表1。
表1 極端降水指數(shù)含義表
1.3.1高斯回歸模型
高斯回歸模型(GEP)給定訓(xùn)練集D={(xi,yi)|i=1,2,…n},其中x為D維輸入向量,y為輸出的標(biāo)量,n為訓(xùn)練樣本數(shù),輸入矩陣X為D×n列的向量,Y為目標(biāo)輸出,因此記為D=(X,Y),具體步驟可見文獻(xiàn)[9]。
1.3.2自適應(yīng)模糊神經(jīng)網(wǎng)絡(luò)
自適應(yīng)神經(jīng)模糊神經(jīng)網(wǎng)絡(luò)模型(ANFIS)將模糊評(píng)價(jià)與神經(jīng)網(wǎng)絡(luò)模型思想結(jié)合起來,采用最小二乘法和反向傳播算法進(jìn)行訓(xùn)練模型和參數(shù)調(diào)優(yōu),在訓(xùn)練過程中自動(dòng)生成輸出結(jié)果,具體步驟可見文獻(xiàn)[10]。
1.3.3多元自適應(yīng)回歸模型
多元自適應(yīng)回歸模型(MARS)能夠在不給出假定約束條件的前提下確定變量之間的關(guān)系,對(duì)輸出變量與輸入變量進(jìn)行非線性建模,其主要優(yōu)點(diǎn)可估計(jì)模型基函數(shù)的貢獻(xiàn)值,從而允許預(yù)測(cè)變量的加性和交互影響來確定相應(yīng)變量[11]。
1.3.4梯度提升決策樹算法
梯度提升決策樹算法(GBDT)是一種迭代決策樹算法,該算法通過對(duì)訓(xùn)練數(shù)據(jù)集中弱學(xué)習(xí)器的計(jì)算,得出每個(gè)樣本序列的殘差,在基于殘差訓(xùn)練回歸樹模型,并且根據(jù)回歸樹的權(quán)重更新得出新的模型,最終獲取預(yù)測(cè)結(jié)果,具體步驟可見文獻(xiàn)[12]。
1.3.5傳統(tǒng)機(jī)器學(xué)習(xí)模型
為進(jìn)一步比較不同模型的精度,得出最優(yōu)模型,本文選擇了4種傳統(tǒng)機(jī)器學(xué)習(xí)模型作為對(duì)比,分別為極端梯度提升模型(XGBoost)、極限學(xué)習(xí)機(jī)(ELM)、廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)和M5回歸樹(M5T)模型,模型具體步驟可見文獻(xiàn)[13]。
分別以相對(duì)均方根誤差(RRMSE)、決定系數(shù)(R2)、納什系數(shù)(NS)為模型誤差評(píng)價(jià)體系,具體公式如下:
(1)
(2)
(3)
GPI指數(shù)可整合3個(gè)指標(biāo)的綜合評(píng)價(jià)結(jié)果[14],公式如下:
(4)
式中,αj—常數(shù),RRMSE取1,NS和R2取-1;gj—不同指標(biāo)的縮放值的中位數(shù);yij—不同指標(biāo)的尺度值。
浙江省3種極端降雨指數(shù)的空間變化趨勢(shì)如圖2所示。由圖中可以看出,3種極端降雨指數(shù)在整個(gè)區(qū)域均有明顯的空間分布規(guī)律。R10指數(shù)在整個(gè)浙江省呈現(xiàn)了由東北至西南逐漸增加的趨勢(shì),在衢州附近的R10取值較高,多年平均R10達(dá)到了52d,而在平湖附件R10取值最低,多年平均僅為39d;在全省R20的分布規(guī)律與R10基本一致,在衢州附近,R20達(dá)到了最大值為27d,在平湖附近的R20相對(duì)較小,多年平均日降水量超過20mm的天數(shù)僅為18d;浙江省RX1呈現(xiàn)出了由西北至東南逐漸升高的趨勢(shì),RX1在洪家附近出現(xiàn)最高值,多年平均年內(nèi)日降水量最大值為142.4mm。
不同模型對(duì)浙江省不同站點(diǎn)R10模擬結(jié)果精度對(duì)比如圖3所示。由圖中可以看出,不同模型模擬R10精度有所差異,其中GEP模型在不同站點(diǎn)均表現(xiàn)出了較高的精度,GEP模型的R2、RRMSE和NS中位數(shù)分別達(dá)到了0.893、3.029%和0.887,該模型GPI達(dá)到了1.008,在所有模型中排名第1。MARS模型、ANFIS模型和GBDT模型GPI分別為0.807、0.656和0.563,排名2~4位。傳統(tǒng)機(jī)器學(xué)習(xí)模型的精度較低,其中M5T模型的精度最低,其R2、RRMSE和NS中位數(shù)分別僅為0.753、6.335%和0.686,GPI僅為-0.257,排名最低。
不同模型對(duì)浙江省不同站點(diǎn)R20模擬結(jié)果精度對(duì)比如圖4所示。由圖中可以看出,GEP模型在所有模型中精度最高,其次為MARS模型,2種模型的R2、RRMSE和NS中位數(shù)分別達(dá)到了0.958和0.950、1.084%和1.751%、0.943和0.839,2種模型的GPI分別為2.585和1.968,在所有模型中排名前2位。ANFIS模型和GBDT模型的精度次之,2種模型的GPI分別為1.858和1.194。在傳統(tǒng)機(jī)器學(xué)習(xí)模型中,XGBoost模型和ELM模型的精度高于GRNN模型和M5T模型,M5T模型精度最低,其R2、RRMSE和NS中位數(shù)僅為0.805、3.887%和0.545,GPI僅為-0.029。
不同模型對(duì)浙江省不同站點(diǎn)RX1模擬結(jié)果精度對(duì)比如圖5所示。由圖中可以看出,不同模型對(duì)RX1的模擬精度與其余2個(gè)極端降雨指數(shù)基本一致,均表現(xiàn)為GEP模型的精度最高,該模型在模擬RX1時(shí)的R2、RRMSE和NS中位數(shù)分別為0.929、0.383%和0.950,GPI達(dá)到了2.996。所有模型中,GRNN模型和M5T模型精度較低,2種模型的R2、RRMSE和NS中位數(shù)僅為0.786和0.771、1.384%和1.551%、0.811和0.765。
圖2 浙江省極端降雨指數(shù)空間變化趨勢(shì)
圖3 不同模型R10精度對(duì)比
圖4 不同模型R20精度對(duì)比
綜上所述,GEP模型在模擬R10、R20和RX1模擬中的精度較高,GPI在所有模型中均排名第1位,可作為浙江省極端降雨指數(shù)預(yù)測(cè)的標(biāo)準(zhǔn)模型使用。
為進(jìn)一步證明GEP模型的精度,本文對(duì)GEP模型在浙江省極端降雨指數(shù)預(yù)測(cè)的可移植性進(jìn)行了分析。在全省的9個(gè)站點(diǎn)中隨機(jī)選取3個(gè)作為預(yù)測(cè)組,再隨機(jī)選取3組(每組3個(gè)站點(diǎn))作為訓(xùn)練組,將訓(xùn)練組的資料進(jìn)行打亂重分配,構(gòu)建9組GEP預(yù)測(cè)模型,對(duì)R10、R20和RX1的模擬精度見表3—5。由表中可以看出,對(duì)不同指數(shù)的模擬精度,GEP模型NS均在0.910以上,R2均在0.932以上,RRMSE均在0.7%~2.8%之間,模擬精度較高,這表明GEP模型在氣候條件相似的地區(qū)內(nèi)具有極高的適用性,其預(yù)報(bào)能力高且穩(wěn)定,可作為浙江省極端降雨指數(shù)的標(biāo)準(zhǔn)模型使用。
圖5 不同模型RX1精度對(duì)比
表2 R10可移植性分析結(jié)果
表3 R20可移植性分析結(jié)果
表4 RX1可移植性分析結(jié)果
本文構(gòu)建了浙江省不同氣象站點(diǎn)的極端降雨指數(shù)預(yù)測(cè)模型,得出以下結(jié)論。
(1)通過分析比較不同模型的模擬精度可知,GEP模型在所有模型中的精度最高,在R10、R20、RX1模擬中的GPI均排名第1位。
(2)對(duì)GEP模型可移植性進(jìn)行分析,可知GEP模型在不同訓(xùn)練、預(yù)測(cè)組合下均能保證極端降雨指數(shù)預(yù)測(cè)的精度,因此,該模型可作為浙江省極端降雨指數(shù)預(yù)測(cè)的標(biāo)準(zhǔn)模型使用。
(3)粒子群算法可顯著提高機(jī)器學(xué)習(xí)模型精度,在今后的研究中,可綜合比較基于粒子群算法優(yōu)化的GEP模型和傳統(tǒng)GEP模型的精度,進(jìn)一步提高浙江省極端降雨的預(yù)測(cè)精度。