劉 娜,黃武斌,楊建才,王基鑫,王一丞,張君霞
(蘭州中心氣象臺,甘肅 蘭州 730020)
降水是一種動態(tài)非線性的多時間尺度環(huán)流系統(tǒng)在氣象上的表征,同時也是局部環(huán)流和熱效應與地形地貌相結(jié)合的產(chǎn)物。適時適量的降水能夠為農(nóng)業(yè)帶來便利,但長時間、大面積、高強度的降水可能引發(fā)山洪、泥石流等次生災害,從而危害人民的生命財產(chǎn)與安全。因此,提升短期降水預報準確率不僅為人們的生產(chǎn)生活提供參考,還能夠為水利、航海、交通運輸?shù)刃袠I(yè)提供警示,減少惡劣天氣給人類帶來的損失。
自20世紀60年代起,定量降水預報成為我國降水預報業(yè)務發(fā)展的重點方向[1]。傳統(tǒng)的降水預報方法主要包括物理統(tǒng)計模型[2]、數(shù)值天氣預報[3]和雷達外推[4-5]等,其已得到長足發(fā)展并取得了一系列較好成果,但存在考慮因素眾多、模型構(gòu)造過于復雜等問題,致使預測步驟多、累計誤差較大,特別是隨著氣象大數(shù)據(jù)的不斷積累和預報業(yè)務精細化程度要求的不斷提高,傳統(tǒng)方法在應對高時空分辨率、多變量和復雜非線性等挑戰(zhàn)上能力明顯不足。
隨著人工智能的飛速發(fā)展,氣象預報領域也逐步引入了機器學習等人工智能方法。人工智能技術(shù)能夠從海量氣象數(shù)據(jù)中提取并解讀出有用信息,發(fā)現(xiàn)新的氣候特征和大氣運動,從而實現(xiàn)對天氣現(xiàn)象更精確的預測,因此在傳統(tǒng)數(shù)值預報基礎上結(jié)合人工智能技術(shù)成為當下降水預報的研究熱點和發(fā)展方向[6]。研究表明,傳統(tǒng)降水預報方法在解決非線性問題上很難取得理想效果,而支持向量機、決策樹等人工智能模型能夠較好地應對非線性問題,且具有自學習能力,對降水的預測效果更優(yōu)[7-12],但因其對訓練樣本的依賴性大,存在過度學習和穩(wěn)健性不足等問題,需要進一步改進和完善。相比之下,隨機森林算法犯錯少、準確率高、適應性強,且在訓練模型時可以并行化計算,預測精度較高,泛化能力強。研究表明,隨機森林方法對中長期降水量預測效果較好[13-16],且基于地形的加權(quán)隨機森林方法優(yōu)于傳統(tǒng)的氣象方法和隨機森林方法[17]。
經(jīng)過幾十年的發(fā)展,我國在降水預報的精細化程度上有了很大的發(fā)展,但伴隨著全球氣候變暖引發(fā)的極端天氣、氣候事件的增多和經(jīng)濟社會的發(fā)展,社會各界對降水預報的精細化程度提出更高需求。不同地域和氣候背景下,降水性質(zhì)、成因機制往往有所區(qū)別,在降水客觀分區(qū)基礎上進行降水預報的效果更佳[18-19]。甘肅地處我國西北內(nèi)陸,其地域東西、南北跨度大,青藏高原、黃土高原及巴丹吉林沙漠、騰格里沙漠環(huán)繞,地形地貌極其復雜,降水性質(zhì)及機制區(qū)域性特征明顯。因此,本文利用降水實況觀測數(shù)據(jù)、CMA降水指導產(chǎn)品和ECMWF模式預報產(chǎn)品,結(jié)合泰森多邊形法和K-means聚類法(spatial cluster and Tyson polygon,SCTP),實現(xiàn)甘肅省降水客觀分區(qū),并通過隨機森林算法(random forest,RF)篩選與降水相關(guān)的物理量因子,構(gòu)建基于SCTP-RF算法的本地化短期定量降水的客觀預報訂正模型,為甘肅省短期定量降水預報提供一定的指導和技術(shù)支撐。
所用數(shù)據(jù)主要由歐洲中期天氣預報中心(the European Center of Medium-range Weather Forecasts,ECMWF)提供的精細化數(shù)值預報產(chǎn)品,水平分辨率為0.125°×0.125°,時間分辨率為3 h,起報時次為每日08:00和20:00(北京時,下同),預報時效為0~240 h,包括位勢高度場(GH)、溫度場(T)、風場(UV)、相對濕度(RH)、比濕(Q)(100、200、300、400、500、600、700、850、925、1000 hPa共10層)和垂直速度(w)、變高(△H)、變溫(△T)(200、300、500、700、850、925、1000 hPa共7層)以及對流有效位能(CAPE)、地面變壓(△P)、地面降水(R)、2 m露點溫度(Td2)、2 m氣溫(T2)、10 m風場(UV10),共77個要素。
另外,使用了中國氣象局(China Meteorological Administration,CMA)下發(fā)的逐3 h降水指導產(chǎn)品(TP_CMA),水平分辨率為0.05°×0.05°,起報時次、預報時效同ECMWF細網(wǎng)格模式預報產(chǎn)品一致;實況資料為甘肅省340個氣象站點(78個國家站和262個骨干站)逐3、6、12、24 h降水觀測數(shù)據(jù)(Ro)。甘肅省行政邊界是基于國家測繪地理信息局標準地圖服務網(wǎng)站下載的審圖號為GS(2019)1824號的標準地圖制作,底圖無修改。
利用2017—2019年4—9月甘肅省340站逐3 h降水實況數(shù)據(jù)進行客觀分區(qū),將2017—2019年6—8月ECMWF模式輸出的77個物理量、站點實況降水資料和TP_CMA指導產(chǎn)品作為初始模型訓練因子,對不同起報時次(08:00和20:00)進行隨機森林模型訓練,剔除負貢獻因子,利用正貢獻因子構(gòu)建模型,并對2020年6—8月進行獨立測試,檢驗模型降水預報效果。
1.2.1 SCTP-RF算法
該算法主要分為兩部分:
(1)通過泰森多邊形法和K-means空間聚類法對甘肅省4—9月降水觀測實況進行落區(qū)劃分。泰森多邊形法是由荷蘭氣候?qū)W家THIESSEN提出的一種根據(jù)離散分布的站點降雨量來計算平均面雨量的方法,即將相鄰氣象站點兩兩相連并作連線的中垂線,中垂線相交所形成的若干個多邊形即為泰森多邊形,并以泰森多邊形內(nèi)所包含的唯一氣象站的降雨量來表示這個多邊形區(qū)域內(nèi)的降雨量[20]。在此基礎上,通過K-means聚類法對這些若干個多邊形進行二次分類,以達到降低建模數(shù)量的目的,減少計算量,其核心思想是將數(shù)據(jù)分為多個類,使得每個聚類中的數(shù)據(jù)與類簇中心之間的距離之和最小。
(2)隨機森林作為一種新興起的、高度靈活的機器學習算法,擁有廣泛的應用前景,既可以用于數(shù)據(jù)集建模,也可用來預測天氣[21]。直觀地來講,它是利用bootstrap重抽樣方法從原始樣本中抽取多個樣本,并對每個樣本進行決策樹建模,綜合考慮各決策樹的結(jié)果,即通過投票以少數(shù)服從多數(shù)的原則獲取模型預測的最終結(jié)果[22-23]。隨機森林具有較高的預測準確率以及較好的容忍度(對異常值和噪聲),且不易出現(xiàn)過擬合。此外,隨機森林對高維數(shù)據(jù)分類問題也具有良好的可擴展性和并行性[24]。根據(jù)隨機森林算法理論,構(gòu)建如圖1所示的隨機森林模型,并對模式預報產(chǎn)品進行訂正(即SCTP-RF訂正產(chǎn)品)。
圖1 隨機森林算法示意圖
1.2.2 檢驗方法
(1)晴雨檢驗
對逐3 h降水的晴雨預報效果,采用晴雨預報準確率(prediction accuracy,PA)及技巧評分(skill score of prediction accuracy,SPA)等評價指標,公式定義如下:
(1)
(2)
式中:NA為有降水預報正確站(次)數(shù);NB為空報站(次)數(shù);NC為漏報站(次)數(shù);ND為無降水預報正確站(次)數(shù);PAP為ECMWF或SCTP-RF產(chǎn)品的晴雨準確率;PAN為TP_CMA產(chǎn)品的晴雨準確率。
(2)降水分級檢驗
對于逐3 h降水的分級(0.1~1.9 mm為小雨、2.0~6.9 mm為中雨、7.0~14.9 mm為大雨、≥15 mm為暴雨及以上)檢驗,采用我國氣象系統(tǒng)降水預報業(yè)務常用的TS評分(threat score)、技巧評分(skill score,SS)、漏報率(missing ratio,MR)、空報率(false alarm ratio,F(xiàn)AR)等指標,計算方法如下:
(3)
(4)
(5)
(6)
表1 降水分級的檢驗評定
甘肅省地域廣闊,地形地貌極其復雜,降水量自東南向西北逐漸遞減,中間有一相對少雨帶[25],且四季降水呈現(xiàn)明顯的緯度地帶性分布,不同季節(jié)降水變率較大。其中,河西地區(qū)屬于干旱氣候,降水呈單峰型月際分布,7月降水最多;河東地區(qū)屬于半干旱氣候,降水的月際變化也呈單峰型,全年降水量主要集中在6—9月,特別是隴東南區(qū)域的降水量較其他地區(qū)明顯偏多,年降水量為500~700 mm[26]。
朱新勝等[27]通過計算次網(wǎng)格地形坡度、坡向參數(shù)及其對到達地面太陽短波輻射通量的影響,提出了次網(wǎng)格地形熱力效應的參數(shù)化方案,該方案的引入對東亞地區(qū)夏季氣候尤其是降水的模擬有明顯改進,說明地形的坡度、坡向?qū)邓嬖谝欢ㄓ绊?。因此,本文首先利用甘肅省340站歷史降水實況與坡度(高程差與水平距離之比),采用SCTP方法,得到疊加坡度信息的甘肅省客觀降水分區(qū),但由于該分區(qū)聚合度較低,不利于后期建模,故根據(jù)本地氣候態(tài)對全省客觀分區(qū)進行優(yōu)化,最優(yōu)分區(qū)結(jié)果見圖2。從圖2看出,4—9月全省依次分為7、6、14、13、14和11個降水區(qū)域,降水越多分區(qū)越復雜,且河西地區(qū)各月降水分區(qū)差異較小,而河東地區(qū)各月降水分區(qū)則存在一定差異,這可能與該地區(qū)復雜的地形地貌有關(guān)。
圖2 甘肅省4—9月降水客觀分區(qū)
在降水客觀分區(qū)基礎上,利用隨機森林算法對甘肅省340站72 h時效內(nèi)逐3 h降水量進行訂正預報試驗,客觀訂正方案見圖3。首先,采用隨機森林算法,根據(jù)降水預報量與各因子的相關(guān)性,從ECMWF模式輸出的物理量、實況降水和TP_CMA指導產(chǎn)品共82個要素中篩選出與降水預報量相關(guān)(即正貢獻)的因子進行建模,通過上、下采樣的方法保證樣本量平衡,得出初始預報結(jié)果;然后,根據(jù)試驗結(jié)果對預報方案進行升級、調(diào)整,如優(yōu)化降水分區(qū)、調(diào)整預報因子等,生成一套最優(yōu)的定量降水預報產(chǎn)品。
圖3 定量降水預報的客觀訂正方案流程
參與初始模型訓練的要素共82個,其中ECMWF模式輸出物理量77個、站點降水實況資料4個、TP_CMA指導產(chǎn)品1個。經(jīng)反復試驗,對參與模型訓練的要素進行調(diào)整,剔除貢獻為負的要素49個,將正貢獻的33個要素作為最終參與模型構(gòu)建的因子(表2)。從表2看出,正貢獻率大于1%的因子有19個,其累計貢獻率達94.4%,包含大部分與降水相關(guān)的信息。其中,貢獻率較大的因子依次為TP_CMA指導產(chǎn)品(10.4%)、地面降水(10.21%)、200 hPa變高(10.09%)、700 hPa變溫(8.61%)、3 h降水實況(7.61%)及500、700、200 hPa相對濕度(均大于5%)。
表2 調(diào)整后對降水預報模型有正貢獻的因子及其貢獻率
2.3.1 晴雨預報檢驗
根據(jù)晴雨檢驗評分標準,對2020年汛期6—8月甘肅省340站不同起報時次(08:00和20:00)的三種客觀預報產(chǎn)品(TP_CMA、ECMWF和SCTP-RF)72 h時效內(nèi)逐3 h降水的晴雨預報效果進行對比檢驗(表3)。
表3 2020年6—8月TP_CMA、ECMWF及SCTP-RF產(chǎn)品不同起報時次下逐3 h降水的晴雨預報準確率
從表3和圖4看出,在2020年6—8月,不同起報時次的SCTP-RF訂正產(chǎn)品對甘肅省340站的晴雨預報準確率相比于TP_CMA指導產(chǎn)品均有所提高,其中08:00起報的晴雨預報準確率平均提高5.81%,20:00起報的晴雨預報準確率平均提高6.39%,且均為正技巧;與ECMWF模式預報產(chǎn)品相比,除8月晴雨預報準確率略偏低外,2個起報時次的SCTP-RF產(chǎn)品對甘肅省340站的晴雨預報效果均有明顯改善,6月和7月分別提高6.26%(5.93%)、7.21%(7.03%)。整體上,SCTP-RF訂正的逐3 h降水對甘肅汛期的晴雨預報能力較TP_CMA指導產(chǎn)品和ECMWF模式產(chǎn)品分別提升6.1%、4.2%。另外,8月的ECMWF模式產(chǎn)品對于甘肅省晴雨的預報能力表現(xiàn)最好,明顯優(yōu)于TP_CMA指導產(chǎn)品,略優(yōu)于SCTP-RF產(chǎn)品,這可能與當年8月環(huán)流形勢異常引起的降水過程較多有關(guān)[28]。
圖4 2020年6—8月08:00(a)、20:00(b)起報的ECMWF和SCTP-RF產(chǎn)品逐3 h降水的晴雨預報技巧評分
從各產(chǎn)品晴雨預報準確率空間分布(圖5)來看,TP_CMA指導產(chǎn)品和ECMWF模式預報產(chǎn)品對河西地區(qū)的晴雨預報效果較好,晴雨預報準確率基本在85%以上,特別是酒泉和嘉峪關(guān)大部以及張掖、金昌和武威北部地區(qū);河東地區(qū)的晴雨預報準確率基本維持在65%~80%之間,其中甘岷山區(qū)及隴南東南部的預報效果較差。SCTP-RF產(chǎn)品在甘肅省340站的逐3 h晴雨預報方面表現(xiàn)出一定的訂正能力,大部站點的晴雨預報準確率提升了5%,特別是河東地區(qū)提升幅度為6%~10%。需要指出的是,SCTP-RF產(chǎn)品對甘岷山區(qū)及隴南東南部地區(qū)的晴雨預報效果雖有一定改善,但由于這些區(qū)域地形地貌的復雜性和ECMWF模式本身對降水預報能力較差,致使晴雨預報訂正效果仍不理想。
圖5 2020年6—8月08:00(a、c、e)和20:00(b、d、f)起報的TP_CMA(a、b)、ECMWF(c、d)和SCTP-RF(e、f)產(chǎn)品晴雨預報準確率空間分布(單位:%)
2.3.2 分級降水檢驗
在改善晴雨預報效果的前提下,對比檢驗TP_CMA、ECMWF及SCTP-RF產(chǎn)品對甘肅省340站逐3 h降水分級預報效果。從表4發(fā)現(xiàn):針對小雨而言,SCTP-RF訂正產(chǎn)品在6、7月的TS評分優(yōu)于TP_CMA指導產(chǎn)品,TS評分分別提高1.87%、0.91%,而在8月SCTP-RF訂正產(chǎn)品的預報效果比ECMWF模式產(chǎn)品有所提升,但較TP_CMA指導產(chǎn)品表現(xiàn)差;針對中雨和大雨而言,6—8月SCTP-RF訂正產(chǎn)品的TS評分均顯著優(yōu)于TP_CMA指導產(chǎn)品,整體上也優(yōu)于ECMWF模式產(chǎn)品。具體來說,與TP_CMA指導產(chǎn)品相比,6—8月SCTP-RF訂正產(chǎn)品的中雨TS評分依次提高3.97%、3.53%、2.81%;大雨的TS評分依次提高2.35%、1.27%、1.52%。針對暴雨而言,除7、8月20:00起報外,SCTP-RF訂正產(chǎn)品的預報效果均優(yōu)于TP_CMA指導產(chǎn)品、低于ECMWF產(chǎn)品,這可能與ECMWF模式產(chǎn)品本身對暴雨預報范圍偏大有關(guān)。
表4 2020年6—8月TP_CMA、ECMWF和SCTP-RF產(chǎn)品不同起報時次下逐3 h降水分級預報TS評分
綜上所述,整體上SCTP-RF訂正產(chǎn)品逐3 h降水對甘肅省340站的中雨和大雨預報效果較TP_CMA指導產(chǎn)品有一定提升,而對小雨預報雖有正的訂正能力,但在較強降水過程中(如2020年8月)表現(xiàn)不理想;在暴雨預報上,SCTP-RF訂正產(chǎn)品的預報效果較TP_CMA指導產(chǎn)品略有提升。
圖6是SCTP-RF訂正產(chǎn)品的分級降水技巧評分空間分布??梢钥闯?,SCTP-RF產(chǎn)品對小雨預報的正訂正技巧主要集中在河西大部及河東中部地區(qū),而在隴東南地區(qū)則表現(xiàn)為負訂正技巧,特別是平?jīng)龊蛻c陽交界地帶;對中雨預報訂正整體表現(xiàn)出顯著的正技巧,尤其在河東中部及隴東南地區(qū),較TP_CMA指導產(chǎn)品提升5%~10%,個別地區(qū)(如隴東地區(qū)東部)提升10%~15%;對大雨預報的訂正效果因起報時次不同而存在空間差異,整體上20:00起報的優(yōu)于08:00,其中08:00起報的SCTP-RF產(chǎn)品在河西東部和高原邊坡附近訂正效果表現(xiàn)較差,而20:00起報的總體均有一定程度的改善。與大雨預報的訂正相反,SCTP-RF產(chǎn)品較TP_CMA指導產(chǎn)品對08:00起報的暴雨預報訂正能力優(yōu)于20:00,2個起報時次的區(qū)別主要位于隴南—天水一帶。
圖6 2020年6—8月08:00(a、c、e、g)和20:00(b、d、f、h)起報的SCTP-RF產(chǎn)品逐3 h降水分級技巧評分空間分布(單位:%)(a、b)小雨,(c、d)中雨,(e、f)大雨,(g、h)暴雨
通??陀^預報方法對于小雨的預報效果較好,而本文中ECMWF和SCTP-RF產(chǎn)品對甘肅省小雨的預報效果明顯不如TP_CMA指導產(chǎn)品(表4)。表4顯示,SCTP-RF產(chǎn)品在6、7月的小雨預報效果均優(yōu)于TP_CMA指導產(chǎn)品,TS評分分別偏高1.87%、0.91%,而8月小雨的TS評分明顯降低。因此,進一步統(tǒng)計三種產(chǎn)品對2020年8月甘肅省340站小雨的漏報率和空報率(圖7),發(fā)現(xiàn)2個起報時次TP_CMA指導產(chǎn)品的小雨漏報率均高于ECMWF和SCTP-RF產(chǎn)品,而ECMWF的小雨空報率高于TP_CMA和SCTP-RF產(chǎn)品,這說明TP_CMA產(chǎn)品側(cè)重于在“寧漏勿空”的基礎上提高小雨的TS評分,ECMWF產(chǎn)品則更傾向于通過“犧牲”空報率來提高TS評分,而SCTP-RF訂正產(chǎn)品因同時考慮了漏報率和空報率導致對8月小雨的預報呈負技巧。
圖7 2020年8月TP_CMA、ECMWF和SCTP-RF產(chǎn)品逐3 h降水的小雨漏報率(a)和空報率(b)
(1)4—9月,甘肅省降水客觀分區(qū)依次為7、6、14、13、14和11個,降水越多分區(qū)越復雜,河西地區(qū)各月降水分區(qū)差異較小,而地形地貌復雜的河東地區(qū)各月降水分區(qū)存在一定差異。
(2)整體上,SCTP-RF訂正產(chǎn)品逐3 h降水對甘肅汛期的晴雨預報能力較TP_CMA指導產(chǎn)品和ECMWF模式產(chǎn)品有一定提升,提升幅度分別為6.1%、4.2%。從空間上來看,SCTP-RF產(chǎn)品逐3 h降水對甘肅省340站的晴雨預報具有一定的訂正能力,大部分站點晴雨預報準確率提升5%,河東地區(qū)提升6%~10%。
(3)在分級的降水預報中,SCTP-RF訂正產(chǎn)品對中雨和大雨預報能力均優(yōu)于TP_CMA指導產(chǎn)品和ECMWF模式產(chǎn)品,而對小雨和暴雨預報訂正能力在強降水過程中不穩(wěn)定??傮w來說,SCTP-RF產(chǎn)品對甘肅省大部地區(qū)的中雨和大雨預報訂正效果較好,特別在河東中部及隴東南地區(qū)的技巧評分可達5%~10%,但對隴東南地區(qū)特別是平?jīng)龊蛻c陽一帶的小雨預報TS評分偏低,這是由于SCTP-RF訂正產(chǎn)品在提高TS評分的同時考慮了漏報率和空報率。
本文僅針對ECMWF模式預報產(chǎn)品進行了訂正改進,改進后對汛期6—8月甘肅省340站的晴雨預報能力有所提升,特別是對中雨和大雨分級預報提升效果明顯。然而,在研究過程中ECMWF模式輸出的物理量因子個數(shù)較少,選出的與降水相關(guān)性較大的因子并不能完全刻畫出降水的形態(tài);當ECMWF模式對天氣形勢、主雨帶預報有明顯系統(tǒng)性偏差時,SCTP-RF算法對數(shù)值模式產(chǎn)品訂正不明顯。為改善以上情況,可在后續(xù)工作中考慮增加樣本量(在現(xiàn)有站點基礎上增加區(qū)域站點或增加物理量因子)或引入其他模式產(chǎn)品進行綜合識別,以提高SCTP-RF算法在甘肅省短期定量分級降水特別是小雨和暴雨的預報能力。