陳錦鵬 黃奕丹 朱 婧 林 輝 程晶晶1, 楊德南2,
1 廈門(mén)市海峽氣象開(kāi)放重點(diǎn)實(shí)驗(yàn)室,廈門(mén) 361012 2 福建省災(zāi)害天氣重點(diǎn)實(shí)驗(yàn)室,福州 350001 3 福建省漳州市氣象局,漳州 363005 4 集美區(qū)氣象局,廈門(mén) 361021
提 要:為了提高短時(shí)強(qiáng)降水預(yù)報(bào)準(zhǔn)確性,在2019—2020年4—9月福建省逐時(shí)降水實(shí)況觀測(cè)資料與中國(guó)氣象局廣東快速更新同化數(shù)值預(yù)報(bào)系統(tǒng)(CMA-GD)模式預(yù)報(bào)產(chǎn)品的基礎(chǔ)上,應(yīng)用LightGBM集成學(xué)習(xí)算法框架,建立以30 mm·h-1為閾值的逐時(shí)降水預(yù)報(bào)模型。通過(guò)特征處理、自助聚合及超參數(shù)搜索等技術(shù)對(duì)模型進(jìn)行優(yōu)化,結(jié)合AUC、AUPR與傳統(tǒng)分類(lèi)指標(biāo),設(shè)計(jì)了包括業(yè)務(wù)模擬測(cè)試在內(nèi)的多項(xiàng)試驗(yàn),通過(guò)對(duì)比各建模方案驗(yàn)證了模型對(duì)于較長(zhǎng)時(shí)效的短時(shí)強(qiáng)降水預(yù)報(bào)的適用性。結(jié)果表明:模式預(yù)報(bào)本身的命中率和空?qǐng)?bào)率均較高,各建模方案具有不同程度的改善作用。自助聚合可以增強(qiáng)模型預(yù)測(cè)穩(wěn)定性,輕微不平衡子訓(xùn)練集能降低模型預(yù)測(cè)空?qǐng)?bào)率而取得更高的綜合評(píng)分,在驗(yàn)證集中最佳TS評(píng)分可達(dá)17.5%;對(duì)分類(lèi)信息增益貢獻(xiàn)最大的特征變量為K指數(shù),其次為500 hPa露點(diǎn)溫度和時(shí)間參數(shù)特征;試驗(yàn)指標(biāo)從優(yōu)到劣依次為:隨機(jī)交叉驗(yàn)證、小時(shí)劃分的隨機(jī)交叉驗(yàn)證、業(yè)務(wù)模擬測(cè)試,可見(jiàn)模型有效性主要來(lái)自相同或相鄰時(shí)刻的樣本信息;設(shè)計(jì)基于邏輯回歸的異質(zhì)模型動(dòng)態(tài)融合方案以改善靜態(tài)同質(zhì)模型表現(xiàn),各項(xiàng)指標(biāo)均有小幅提升,在命中率接近50%時(shí)削減空?qǐng)?bào)樣本超過(guò)52萬(wàn)個(gè)。
短時(shí)強(qiáng)降水是福建汛期內(nèi)較常發(fā)生的強(qiáng)對(duì)流天氣之一,這種極端降水天氣主要由超級(jí)單體和中尺度對(duì)流系統(tǒng)(MCS)造成(章麗娜等,2014)。隨著高分辨率中尺度數(shù)值模式在短時(shí)臨近預(yù)報(bào)預(yù)警業(yè)務(wù)中的廣泛應(yīng)用,對(duì)于短時(shí)強(qiáng)降水預(yù)報(bào)的客觀訂正技術(shù)需求也日益迫切。結(jié)合福建省業(yè)務(wù)標(biāo)準(zhǔn),將小時(shí)雨強(qiáng)超過(guò)30 mm·h-1的降水事件定為短時(shí)強(qiáng)降水。從全年的逐時(shí)數(shù)據(jù)來(lái)看,短時(shí)強(qiáng)降水的樣本比例極低。盡管過(guò)去大多數(shù)研究是基于逐日降水資料開(kāi)展的,但是逐時(shí)降水?dāng)?shù)據(jù)能反映出更加精細(xì)的特征(李德帥,2016)。另外,在降水事件時(shí)間尺度為 1 h 的情況下其非線性和隨機(jī)性特點(diǎn)將進(jìn)一步放大,加大了預(yù)報(bào)訂正的難度。
與降水客觀預(yù)報(bào)訂正技術(shù)相關(guān)的研究工作逐年增多。唐健等(2018)實(shí)現(xiàn)了主客觀融合定量降水預(yù)報(bào)(QPF)平臺(tái),其中包括多模式QPF集成技術(shù)與QPF預(yù)報(bào)場(chǎng)調(diào)整和訂正技術(shù)等,對(duì)預(yù)報(bào)業(yè)務(wù)起到了良好的支撐作用;唐冶等(2021)采用消空訂正方案對(duì)新疆區(qū)域數(shù)值天氣預(yù)報(bào)系統(tǒng)DOGRAFS的降水預(yù)報(bào)產(chǎn)品進(jìn)行訂正,小幅提高了晴雨準(zhǔn)確率和TS評(píng)分;張華龍等(2021)基于因子分析法構(gòu)建分期、分區(qū)短時(shí)強(qiáng)降水逐6 h格點(diǎn)概率預(yù)報(bào)模型,在汛期業(yè)務(wù)試驗(yàn)中相對(duì)于模式預(yù)報(bào)提升較大,尤其對(duì)于容易漏報(bào)的暖區(qū)短時(shí)強(qiáng)降水具有明顯優(yōu)勢(shì);張武龍等(2021)通過(guò)時(shí)間滯后集合預(yù)報(bào)方法構(gòu)建多個(gè)不同權(quán)重系數(shù)的集合成員進(jìn)行逐小時(shí)降水預(yù)報(bào),發(fā)現(xiàn)晴雨TS評(píng)分提升了10%左右,且有效減小了模式空?qǐng)?bào)率;洪偉和鄭玉蘭(2018)在分析福建前汛期短時(shí)強(qiáng)降水發(fā)生背景下模式預(yù)報(bào)物理量分布特征的基礎(chǔ)上,建立基于閾值判定方法的短時(shí)強(qiáng)降水預(yù)報(bào)模型,對(duì)福建西部關(guān)鍵區(qū)的TS評(píng)分白天可達(dá)0.5、夜間約為0.3;危國(guó)飛等(2020)設(shè)計(jì)了全球模式與區(qū)域模式相結(jié)合的降水分級(jí)最優(yōu)化權(quán)重集成預(yù)報(bào)算法,24 h 累計(jì)降水預(yù)報(bào)TS評(píng)分比主觀預(yù)報(bào)高出0.9%~2.3%;趙淵明和漆梁波(2021)基于上游降水實(shí)況與模式預(yù)報(bào)的匹配程度,設(shè)計(jì)動(dòng)態(tài)權(quán)重多模式短時(shí)臨近定量降水概率預(yù)報(bào)方法,有效提高定量降水概率預(yù)報(bào)的準(zhǔn)確性;潘留杰等(2022)基于卡爾曼濾波方法動(dòng)態(tài)匹配預(yù)報(bào)和觀測(cè)降水頻率進(jìn)行降水預(yù)報(bào)訂正,發(fā)現(xiàn)能夠改善模式對(duì)小量級(jí)降水預(yù)報(bào)偏大、大量級(jí)降水預(yù)報(bào)偏小的現(xiàn)象。但總體上,精細(xì)到逐小時(shí)降水的客觀預(yù)報(bào)方法研究仍相對(duì)較少。
近年來(lái),以神經(jīng)網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí)方法逐漸展現(xiàn)出在強(qiáng)對(duì)流預(yù)測(cè)方面的潛力。金子琪等(2021)采用卷積神經(jīng)網(wǎng)絡(luò)算法構(gòu)建颮線識(shí)別模型,揭示了該算法能夠?qū)W習(xí)并識(shí)別颮線和非颮線回波的圖像特征;黃驕文等(2021)構(gòu)建基于深度學(xué)習(xí)網(wǎng)絡(luò)的降水相態(tài)判識(shí)模型,針對(duì)兩年數(shù)據(jù)以及一次大范圍雨雪天氣過(guò)程進(jìn)行檢驗(yàn),判識(shí)準(zhǔn)確率為98.2%,雨、雪的TS評(píng)分分別為97.4%和94.4%,較傳統(tǒng)指標(biāo)閾值法的判識(shí)準(zhǔn)確率有較大提高;張燁方等(2021)以卷積神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ),結(jié)合多個(gè)時(shí)間序列的雷達(dá)產(chǎn)品與閃電數(shù)據(jù)研發(fā)雷電臨近預(yù)報(bào)方法,與常規(guī)采用雷達(dá)、閃電閾值控制的雷電預(yù)警算法相比準(zhǔn)確率有所提高;韓豐等(2021)以大氣層結(jié)和對(duì)流參數(shù)作為特征參數(shù),基于XGBoost集成學(xué)習(xí)方法建立短時(shí)強(qiáng)降水預(yù)報(bào)模型,同時(shí)使用分段權(quán)重?fù)p失函數(shù)進(jìn)行模型調(diào)優(yōu),命中率為0.65、空?qǐng)?bào)率為0.37、TS評(píng)分為0.47,表明模型對(duì)短時(shí)強(qiáng)降水天氣具有一定預(yù)報(bào)能力。
集成學(xué)習(xí)(ensemble learning)是機(jī)器學(xué)習(xí)領(lǐng)域最熱門(mén)的研究方向之一,基本思想是通過(guò)提升(boosting)、自助聚合(Bagging)和推疊(stacking)等方式將多個(gè)弱學(xué)習(xí)器進(jìn)行組合以獲得比單一模型更好的表現(xiàn)和更小的誤差(余東昌等,2021),其中梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)算法在分類(lèi)、回歸、排序等問(wèn)題上取得了優(yōu)異的性能,在學(xué)術(shù)界和工業(yè)界中被廣泛使用(江佳偉等,2019)。輕量梯度提升機(jī)(light gradient boosting machine,LightGBM)則是在GBDT的基礎(chǔ)上引入多項(xiàng)優(yōu)化技術(shù)進(jìn)行改進(jìn)和提升的一種算法框架,主要目的在于解決高維度大樣本數(shù)據(jù)運(yùn)行耗時(shí)及可拓展性差的問(wèn)題(劉新偉等,2021),具備內(nèi)存占用少、并行化學(xué)習(xí)和準(zhǔn)確率較高的優(yōu)點(diǎn)。在幾乎相同的精度上,LightGBM可以使傳統(tǒng)GBDT的訓(xùn)練過(guò)程加速20倍以上(Ke et al,2017),自2016年開(kāi)源以來(lái)逐漸成為Kaggle等數(shù)據(jù)挖掘競(jìng)賽中的奪冠熱門(mén)算法。
本研究應(yīng)用LightGBM集成學(xué)習(xí)算法框架建立逐小時(shí)的短時(shí)強(qiáng)降水預(yù)報(bào)模型,在特征處理、自助聚合以及超參數(shù)搜索等模型優(yōu)化技術(shù)的基礎(chǔ)上,通過(guò)多項(xiàng)對(duì)比試驗(yàn)對(duì)不同方案下的模型預(yù)測(cè)能力進(jìn)行評(píng)估,并針對(duì)業(yè)務(wù)實(shí)踐中的應(yīng)用難點(diǎn)設(shè)計(jì)了基于邏輯回歸的異質(zhì)模型動(dòng)態(tài)融合方案,在一定程度上提高了長(zhǎng)時(shí)效、精細(xì)化的短時(shí)強(qiáng)降水預(yù)報(bào)能力,為集成學(xué)習(xí)與模型融合方法在數(shù)值預(yù)報(bào)訂正中的應(yīng)用提供了有益參考。
選取2019—2020年4—9月福建地區(qū)的逐小時(shí)自動(dòng)站觀測(cè)數(shù)據(jù)作為實(shí)況資料,全省自動(dòng)站數(shù)量約為2200個(gè)。2019年和2020年收集到的有效樣本數(shù)分別為4 491 604個(gè)和4 368 497個(gè)。其中,2019年作為建模所用的已知的訓(xùn)練集和驗(yàn)證集,而2020年作為未知的測(cè)試集,旨在最大限度模擬實(shí)際業(yè)務(wù)情況下模型的表現(xiàn)。以30 mm·h-1為閾值將實(shí)況資料劃分為正負(fù)類(lèi)樣本,其中≥30 mm·h-1為正樣本,具體分布如表1。從樣本比例來(lái)看,實(shí)況資料具有極端不平衡的特點(diǎn),短時(shí)強(qiáng)降水屬于極小概率事件,后續(xù)試驗(yàn)將會(huì)對(duì)此問(wèn)題進(jìn)行探討。
表1 2019年和2020年的正負(fù)類(lèi)樣本數(shù)量
在中國(guó)氣象局廣東快速更新同化數(shù)值預(yù)報(bào)系統(tǒng)(CMA-GD)模式預(yù)報(bào)的基礎(chǔ)上開(kāi)展訂正試驗(yàn)。該模式預(yù)報(bào)產(chǎn)品的空間分辨率約為0.03°×0.03°,預(yù)報(bào)間隔為1 h,每日起報(bào)時(shí)次為08時(shí)和20時(shí)(北京時(shí),下同)。以當(dāng)日白天的短時(shí)強(qiáng)降水潛勢(shì)預(yù)報(bào)為例,由于計(jì)算耗時(shí)、傳輸延遲等因素,一般只能參考前日20時(shí)起報(bào)的CMA-GD模式產(chǎn)品。因此選擇2019年和2020年4—9月、預(yù)報(bào)時(shí)效為18~23 h(預(yù)報(bào)時(shí)段只涵蓋了下午至傍晚及后半夜)的預(yù)報(bào)產(chǎn)品,其預(yù)報(bào)變量主要有各等壓面層的溫度、位勢(shì)高度、相對(duì)濕度、露點(diǎn)溫度、水平風(fēng)場(chǎng)、垂直速度、沙氏指數(shù)和K指數(shù)等。以觀測(cè)站點(diǎn)為中心,應(yīng)用最鄰近16點(diǎn)平均插值計(jì)算對(duì)應(yīng)于該站點(diǎn)的特征變量。如此得到的“點(diǎn)”特征稱(chēng)為結(jié)構(gòu)化特征,便于集成學(xué)習(xí)模型訓(xùn)練。另外,由于數(shù)值模式升級(jí)或氣候背景變化,2019年和2020年的數(shù)據(jù)分布規(guī)律可能會(huì)存在差異,稱(chēng)為數(shù)據(jù)漂移,因此訂正模型需要具備一定的泛化能力以適應(yīng)新的數(shù)據(jù)。
集成學(xué)習(xí)是指通過(guò)訓(xùn)練與集成多個(gè)弱分類(lèi)器來(lái)提高最終學(xué)習(xí)效果的一種技術(shù)(李勇等,2014),本研究具體采用LightGBM算法框架進(jìn)行建模。LightGBM作為集成學(xué)習(xí)代表性算法之一,其基本原理是通過(guò)梯度下降法不斷擬合殘差(真實(shí)值與預(yù)測(cè)值的偏差)來(lái)迭代學(xué)習(xí)的決策樹(shù),再將所有決策樹(shù)的單獨(dú)預(yù)測(cè)進(jìn)行相加即得最終結(jié)果,因此可以由如下公式表示:
(1)
式中:X代表輸入特征變量,T代表決策樹(shù),Θn為決策樹(shù)的超參數(shù)(如最大深度、葉子節(jié)點(diǎn)數(shù)等),N為決策樹(shù)的個(gè)數(shù)。LightGBM應(yīng)用了兩種創(chuàng)新性采樣技術(shù):基于梯度的單側(cè)采樣(gradient-based one-side sampling)和互斥特征捆綁(exclusive feature bundling)。前者可以縮減用于計(jì)算信息增益的樣本數(shù)量,后者則能減少用于參與分裂點(diǎn)篩選計(jì)算的特征數(shù)量(任師攀和彭一寧,2020)。
在具體算法應(yīng)用中,對(duì)于t時(shí)刻至t+1時(shí)刻的多個(gè)站點(diǎn)累計(jì)雨量P,依托LightGBM建模工具包來(lái)挖掘與t時(shí)刻模式預(yù)報(bào)的結(jié)構(gòu)化特征變量X之間的隱含關(guān)系,即假設(shè)存在P=f(X)+ε,其中ε代表預(yù)測(cè)誤差。這樣的建模思路不僅可以大幅增加樣本數(shù)據(jù)量,而且不會(huì)受到外推時(shí)效的制約,能夠在數(shù)值模式的基礎(chǔ)上進(jìn)行較長(zhǎng)時(shí)效的預(yù)報(bào)。
對(duì)2019年特征變量進(jìn)行標(biāo)準(zhǔn)化處理,再利用其均值和標(biāo)準(zhǔn)差對(duì)2020年特征變量做相同變換。由于短時(shí)強(qiáng)降水在不同的季節(jié)具有不同的日變化規(guī)律(付超等,2019),為了讓模型盡可能地捕捉到這種規(guī)律以增強(qiáng)待挖掘的映射關(guān)系,在原始特征的基礎(chǔ)上添加時(shí)間參數(shù)特征,具體包括距離當(dāng)年1月1日的天數(shù)(日期參數(shù))和降水所在的時(shí)刻(時(shí)刻參數(shù))。
最后根據(jù)皮爾遜相關(guān)系數(shù)大小進(jìn)行特征過(guò)濾。分析特征變量?jī)蓛芍g的相關(guān)系數(shù),以0.95為判斷閾值,選擇兩個(gè)強(qiáng)線性相關(guān)特征變量中的一個(gè)進(jìn)行剔除,從而減少建模過(guò)程中的冗余數(shù)據(jù)與過(guò)擬合現(xiàn)象對(duì)模型的不利影響。
數(shù)據(jù)采樣和模型訓(xùn)練過(guò)程中均不可避免地存在隨機(jī)性。為了增加試驗(yàn)結(jié)果的可信度以及提高樣本數(shù)據(jù)利用率,有關(guān)2019年數(shù)據(jù)的試驗(yàn)中采用隨機(jī)分層4折交叉驗(yàn)證:將數(shù)據(jù)集進(jìn)行隨機(jī)采樣而劃分為4份,且保持每份子集中的正負(fù)樣本比例與全集基本一致,每次試驗(yàn)取其中3份作為訓(xùn)練集,剩余1份作為驗(yàn)證集以跟蹤模型性能變化,最后取4次試驗(yàn)結(jié)果的平均值進(jìn)行分析。
針對(duì)逐小時(shí)降水樣本極端不平衡的問(wèn)題,可以采用自助聚合(bootstrap aggregating,簡(jiǎn)稱(chēng)Bagging)方法緩解其不利影響。在訓(xùn)練集中,對(duì)大數(shù)量負(fù)樣本隨機(jī)采樣N次,每次采樣數(shù)與正樣本數(shù)的比例為P,然后與同一份正樣本組成子訓(xùn)練集,且通過(guò)調(diào)節(jié)N和P可在一定程度上提高樣本利用率與削弱樣本不平衡程度。相比于單純的平衡欠采樣,經(jīng)過(guò)Bagging處理后的數(shù)據(jù)利用率至少增加了(N-1)/2倍?;贜份子訓(xùn)練集可訓(xùn)練出N個(gè)超參數(shù)不同的同質(zhì)基模型,再對(duì)每個(gè)基模型的預(yù)測(cè)結(jié)果進(jìn)行平均。
利用模型輸出的概率預(yù)測(cè)結(jié)果對(duì)逐時(shí)降水進(jìn)行分類(lèi)預(yù)報(bào),會(huì)涉及到分類(lèi)閾值的問(wèn)題,傳統(tǒng)的檢驗(yàn)指標(biāo)(如TS評(píng)分、命中率POD和空?qǐng)?bào)率FAR等)會(huì)隨分類(lèi)閾值變化而變化。當(dāng)閾值較低時(shí),命中率提高,空?qǐng)?bào)率也隨之增加,反之則都會(huì)降低,因此傳統(tǒng)的檢驗(yàn)指標(biāo)不利于實(shí)時(shí)跟蹤和評(píng)估模型性能隨訓(xùn)練代數(shù)的變化。引入受試者工作特征曲線(receiver operating characteristic curve,ROC)曲線下面積(area under ROC curve,AUC)、精準(zhǔn)率和召回率曲線(precision-recall curve,PR)曲線下面積(area under PR curve,AUPR)來(lái)解決該問(wèn)題。ROC曲線和PR曲線均是指遍歷所有分類(lèi)概率閾值后由相應(yīng)坐標(biāo)系中的散點(diǎn)所連成的曲線。其中,ROC曲線以偽陽(yáng)性率(false positive rate,FPR)為橫坐標(biāo),以真陽(yáng)性率(true positive rate,TPR)為縱坐標(biāo);而PR曲線是以召回率Recall為橫坐標(biāo),以精準(zhǔn)率Precision為縱坐標(biāo)(黃蘇琦,2020)。其中,TPR與召回率是一致的,等同于氣象業(yè)務(wù)檢驗(yàn)中常用的命中率POD,而精準(zhǔn)率與空?qǐng)?bào)率之和為1。當(dāng)AUC為0.5 時(shí)說(shuō)明預(yù)測(cè)完全是隨機(jī)的;AUC在0.5以上才能說(shuō)明模型具有正向預(yù)測(cè)價(jià)值;AUC和AUPR越接近1,則模型整體的預(yù)測(cè)效果越趨于完美。在正負(fù)樣本不平衡的分類(lèi)問(wèn)題中,PR曲線與ROC曲線的評(píng)價(jià)結(jié)果并不一致,PR曲線更能突出不同算法之間的性能差異(Davis and Goadrich,2006),其縱軸也更加貼近氣象業(yè)務(wù)檢驗(yàn)習(xí)慣。
分別對(duì)2019年和2020年CMA-GD模式預(yù)報(bào)進(jìn)行以30 mm·h-1為閾值的二分類(lèi)檢驗(yàn)。2020年的AUC為0.7577,高于2019年的0.7022;但從更具參考意義的AUPR來(lái)看,2019年的0.2354略高于2020年的0.2178。
傳統(tǒng)的分類(lèi)檢驗(yàn)指標(biāo)與分類(lèi)閾值密切相關(guān),從命中率、空?qǐng)?bào)率、TS評(píng)分和FPR隨分類(lèi)閾值變化(圖1)的角度來(lái)對(duì)比兩者表現(xiàn)??梢园l(fā)現(xiàn),2019年和2020年模式預(yù)報(bào)的命中率變化曲線基本重合,但在分類(lèi)閾值接近30 mm·h-1時(shí)后者仍保持在47%以上,略高于2019年;對(duì)于空?qǐng)?bào)率和TS評(píng)分而言,2020年模式預(yù)報(bào)均顯著優(yōu)于2019年,側(cè)面反映了在極端不平衡數(shù)據(jù)中空?qǐng)?bào)情況對(duì)TS評(píng)分影響很大;2019年模式預(yù)報(bào)的FPR略?xún)?yōu)于2020年。整體來(lái)看模式對(duì)逐小時(shí)強(qiáng)降水預(yù)報(bào)仍不夠理想,業(yè)務(wù)應(yīng)用存在困難。
圖1 2019年和2020年CMA-GD模式預(yù)報(bào)檢驗(yàn)指標(biāo)隨分類(lèi)閾值的變化
在2019年數(shù)據(jù)集上訓(xùn)練模型和調(diào)整超參數(shù)。通過(guò)隨機(jī)4折交叉驗(yàn)證將2019年數(shù)據(jù)集劃分為75%的訓(xùn)練集和25%的驗(yàn)證集。驗(yàn)證集作為模型未曾學(xué)習(xí)過(guò)的陌生數(shù)據(jù),跟蹤其指標(biāo)變化能夠在一定程度上反映模型的過(guò)擬合程度,還可以為模型的超參數(shù)調(diào)優(yōu)提供必不可少的參考依據(jù)。
在訓(xùn)練集的全部樣本數(shù)據(jù)直接用于建模的情況下,由于過(guò)度擬合極端不平衡數(shù)據(jù),模型性能變得極不穩(wěn)定,驗(yàn)證集變化曲線大幅波動(dòng),即模型失效(圖略)。因此需應(yīng)用Bagging方法進(jìn)行處理,設(shè)定子模型數(shù)量為3個(gè),采樣的正負(fù)樣本比例為1。不同的超參數(shù)組合對(duì)模型表現(xiàn)影響極大,最大深度和葉子節(jié)點(diǎn)數(shù)從小到大意味著模型擬合能力越來(lái)越強(qiáng),但泛化能力可能下降。如圖2所示,Bagging采樣融合方法帶來(lái)的最大改變是模型在驗(yàn)證集上的穩(wěn)定性大大增加,AUC與AUPR均隨著訓(xùn)練次數(shù)增加而大致趨于收斂。同時(shí)注意到AUC和AUPR變化曲線均呈“V”形。當(dāng)超參數(shù)較小時(shí)(圖2a,2b),前5代以?xún)?nèi)的模型反而取得了較高的AUC和AUPR,這主要是因?yàn)榇藭r(shí)模型擬合能力偏弱、泛化能力偏強(qiáng)而具有高命中率的特點(diǎn)導(dǎo)致的。隨著訓(xùn)練代數(shù)的增加,模型擬合能力逐漸增強(qiáng),AUC和AUPR也有所回調(diào),隱含了模型擬合能力與泛化能力相互制約的關(guān)系。
圖2 不同超參數(shù)的模型在驗(yàn)證集上的AUC與AUPR
相比于模式預(yù)報(bào)在驗(yàn)證集上的AUC為0.706,不同超參數(shù)組合的訂正模型在該項(xiàng)指標(biāo)上均有顯著提升,且表現(xiàn)出隨著模型超參數(shù)增大而小幅增加的趨勢(shì)。另外,模式預(yù)報(bào)的AUPR為0.114,當(dāng)最大深度和葉子節(jié)點(diǎn)數(shù)較大時(shí)模型的該項(xiàng)指標(biāo)有所下滑,逐漸劣于數(shù)值模式。
為了進(jìn)一步改善模型表現(xiàn),嘗試對(duì)Bagging采樣的樣本比例進(jìn)行調(diào)節(jié)。以最大深度為8、葉子節(jié)點(diǎn)數(shù)為22的訂正模型為研究對(duì)象,當(dāng)負(fù)類(lèi)樣本數(shù)與正類(lèi)樣本數(shù)之比P逐漸增大時(shí),AUC與AUPR均有不同程度提高,AUPR尤其顯著(圖3)。當(dāng)P=6時(shí)AUC最大值超過(guò)0.97,P=10時(shí)AUPR最大值超過(guò)0.2,且注意到此時(shí)模型還存在繼續(xù)訓(xùn)練的潛力,表明了模型能夠從輕微不平衡訓(xùn)練集中學(xué)習(xí)到比平衡訓(xùn)練集更多的數(shù)據(jù)信息。
圖3 不同P值下輕微不平衡采樣的模型在驗(yàn)證集上的AUC與AUPR
分析基于輕微不平衡與平衡采樣訓(xùn)練集的建模方案在傳統(tǒng)分類(lèi)指標(biāo)上的差異。從圖4可以看到,平衡方案的優(yōu)勢(shì)在于高命中率,除此之外的其他指標(biāo)在全部概率分類(lèi)閾值上均劣于輕微不平衡方案。以P=10為例,當(dāng)分類(lèi)閾值達(dá)到0.8以上時(shí),命中率快速下滑至30%左右,同時(shí)空?qǐng)?bào)率也降低至約70%,TS評(píng)分則快速上升至超過(guò)17.5%,FPR則變化不大,整體保持在10%以下。由此可見(jiàn),面對(duì)極端不平衡的數(shù)據(jù)集,提高預(yù)測(cè)TS評(píng)分的關(guān)鍵和難點(diǎn)在于降低空?qǐng)?bào)率。
圖4 不同Bagging采樣比例的LightGBM模型預(yù)報(bào)檢驗(yàn)指標(biāo)對(duì)比
基于LightGBM的訂正模型在訓(xùn)練完成后可從累計(jì)信息增益的角度統(tǒng)計(jì)特征重要性。信息增益g的公式如下:
g(D,A)=H(D)-H(D|A)
(2)
其中
(3)
式中:D和A分別表示待分類(lèi)數(shù)據(jù)和分類(lèi)條件,H表示信息熵,n為類(lèi)別數(shù)(二分類(lèi)中為2),p(xi)為該類(lèi)別事件發(fā)生概率。對(duì)輕微不平衡模型而言,排序前十的特征變量如表2所示,最重要的特征變量為K指數(shù),且重要性遠(yuǎn)遠(yuǎn)大于之后的特征變量,可見(jiàn)K指數(shù)對(duì)于模型預(yù)測(cè)的指示意義最佳。其次為500 hPa露點(diǎn)溫度,第三和第四分別為自定義添加的時(shí)間特征——時(shí)刻參數(shù)和日期參數(shù),表明了日變化和年變化規(guī)律的挖掘?qū)τ谀P皖A(yù)測(cè)具有較大的幫助。另外,700 hPa以上經(jīng)向風(fēng)、中高層位勢(shì)高度與850 hPa相對(duì)濕度也占據(jù)一定的重要性。
表2 模型特征重要性前十排序
上述建模與調(diào)參試驗(yàn)中均無(wú)視數(shù)據(jù)集中存在的時(shí)間關(guān)系而進(jìn)行隨機(jī)交叉驗(yàn)證,為了進(jìn)一步分析輕微不平衡模型的有效性來(lái)源以及在具有時(shí)間關(guān)系的業(yè)務(wù)模擬中的表現(xiàn),分別設(shè)計(jì)2019年小時(shí)劃分的交叉驗(yàn)證試驗(yàn)以及2020年測(cè)試集試驗(yàn),模型超參數(shù)設(shè)為:最大深度為8、葉子節(jié)點(diǎn)數(shù)為22、子模型數(shù)為3、負(fù)類(lèi)與正類(lèi)樣本之比為10。
同樣基于2019年數(shù)據(jù)集,小時(shí)隨機(jī)交叉驗(yàn)證與3.2節(jié)中隨機(jī)交叉驗(yàn)證的最大不同在于,模型無(wú)法從訓(xùn)練集中學(xué)習(xí)到與驗(yàn)證集中所屬同一小時(shí)的樣本數(shù)據(jù),從而避免了時(shí)間上的信息泄露。在這種情況下,模型預(yù)測(cè)能力明顯下降,尤其是AUPR最高僅為0.024,幾乎縮減了一個(gè)數(shù)量級(jí)(圖5a),此時(shí)最高TS評(píng)分只有3.671%,命中率下降至10.959%,空?qǐng)?bào)率也升高至94.768%。不難發(fā)現(xiàn),同一小時(shí)內(nèi)的樣本信息對(duì)模型能力提升的貢獻(xiàn)極大,即便是相鄰時(shí)刻的樣本也難以彌補(bǔ)其作用。換言之,該試驗(yàn)驗(yàn)證了基于數(shù)值模式的逐時(shí)降水?dāng)?shù)據(jù)集具有時(shí)間敏感的特點(diǎn),這會(huì)給模式后處理技術(shù)帶來(lái)很大的困難。
圖5 輕微不平衡采樣的模型在(a)2019年小時(shí)劃分的交叉驗(yàn)證和(b)2020年測(cè)試集的AUC與AUPR
2020年測(cè)試集的條件更為苛刻,與訓(xùn)練集之間基本不存在時(shí)間相關(guān)性,模型甚至無(wú)法獲取鄰近時(shí)刻的樣本信息。因此,模型的最高AUC和AUPR再度下降,分別僅有0.883和0.003,表明了模型從2019年數(shù)據(jù)集中學(xué)習(xí)到的映射關(guān)系只有很小一部分適用于2020年,再次驗(yàn)證了模型有效性主要來(lái)自于相同或相鄰時(shí)刻的樣本信息。
從模擬實(shí)際業(yè)務(wù)的角度來(lái)講,盡管無(wú)法得到超出當(dāng)前時(shí)刻的樣本信息,但可以將已發(fā)生的最新樣本信息用來(lái)更新模型,使模型逐漸適應(yīng)新的數(shù)據(jù)分布。上述LightGBM模型在本質(zhì)上是基于決策樹(shù)的加性模型,導(dǎo)致很難將最新樣本信息引入其中。因此,選擇邏輯回歸(logistic regression,LR)算法作為次級(jí)模型以達(dá)到對(duì)初級(jí)靜態(tài)模型“再訂正”的目的。LR是一種相對(duì)簡(jiǎn)單的分類(lèi)算法,在具備非線性擬合能力的同時(shí)又可以避免在小樣本的情況下發(fā)生嚴(yán)重的過(guò)擬合。此外,僅把LightGBM模型的輸出概率作為次級(jí)模型的輸入特征,會(huì)存在變量過(guò)少、信息過(guò)于單調(diào)的問(wèn)題。深度神經(jīng)網(wǎng)絡(luò)(deep neural net,DNN)模型作為目前受到廣泛應(yīng)用的機(jī)器學(xué)習(xí)模型,可以提供不同的統(tǒng)計(jì)視角來(lái)作為信息補(bǔ)充(陳錦鵬等,2021)。
具體的異質(zhì)模型動(dòng)態(tài)融合方案為:分別用2019年訓(xùn)練集提前訓(xùn)練好LightGBM模型和DNN模型,其中LightGBM模型超參數(shù)與3.3節(jié)中一致,DNN模型則采用3層全連接層結(jié)構(gòu)來(lái)匹配點(diǎn)特征的輸入,網(wǎng)絡(luò)層的連接順序?yàn)檩斎雽印?4個(gè)神經(jīng)元的全連接層、32個(gè)神經(jīng)元的全連接層、16個(gè)神經(jīng)元的全連接層、失活比例為0.1的隨機(jī)失活層(用來(lái)減輕模型過(guò)擬合)以及實(shí)現(xiàn)概率歸一化的Softmax函數(shù)輸出層。在對(duì)2020年測(cè)試集的預(yù)測(cè)過(guò)程中,發(fā)現(xiàn)由于過(guò)擬合問(wèn)題的存在,訓(xùn)練代數(shù)越多反而會(huì)削弱泛化能力,故分別取第50代LightGBM模型和第10代DNN模型進(jìn)行預(yù)測(cè)。另外在進(jìn)行動(dòng)態(tài)融合前,需要先判斷過(guò)去5 d的最新數(shù)據(jù)中正樣本數(shù)量是否充足,當(dāng)正樣本數(shù)≥10時(shí)采用LR進(jìn)行融合建模,正樣本數(shù)<10時(shí)只對(duì)輸出概率求平均。具體的流程示意圖如圖6所示。
圖6 異質(zhì)模型動(dòng)態(tài)融合流程示意圖
對(duì)比試驗(yàn)中包含了數(shù)值模式、LightGBM模型、DNN模型與LR融合模型共四種預(yù)測(cè)。在命中率方面(圖7a),模式預(yù)報(bào)表現(xiàn)較穩(wěn)定,區(qū)間大致為42%~90%;LightGBM模型和DNN模型均有隨閾值升高而快速下降的特點(diǎn),實(shí)際應(yīng)用中閾值設(shè)定不宜過(guò)高;LR融合模型的下降速率則表現(xiàn)出“先高后低”趨勢(shì),分類(lèi)閾值<0.4時(shí)命中率維持在90%以上,在0.4~0.6時(shí)則為快速下滑階段,之后與單模型趨于一致。在空?qǐng)?bào)率方面(圖7b),三種訂正模型均低于模式預(yù)報(bào),其中LightGBM模型和LR融合模型在高閾值情況下會(huì)出現(xiàn)反彈。TS評(píng)分來(lái)看(圖7c),LR融合模型在LightGBM模型和DNN模型的基礎(chǔ)上能夠小幅提升,分類(lèi)閾值達(dá)0.78時(shí)可得最高TS評(píng)分為0.568%。三種訂正模型的FPR在分類(lèi)閾值≥0.5時(shí)均優(yōu)于模式預(yù)報(bào),其中LR融合模型的FPR變化趨勢(shì)與命中率相似。
圖7 不同模型預(yù)報(bào)檢驗(yàn)指標(biāo)隨分類(lèi)閾值的變化
在逐小時(shí)強(qiáng)降水預(yù)報(bào)檢驗(yàn)中,命中率尤為重要,為此需要分析在較高命中率的情況下各類(lèi)方案的表現(xiàn)。通過(guò)調(diào)節(jié)分類(lèi)閾值將四種預(yù)測(cè)的命中率控制在實(shí)際業(yè)務(wù)能夠接受的50%左右,便于對(duì)比其他指標(biāo)。如表3所示,此時(shí)三種訂正模型對(duì)于模式的空?qǐng)?bào)情況均有所改善,從而在不同程度上提高了TS評(píng)分。在空?qǐng)?bào)數(shù)方面,LightGBM模型減少了約49.7萬(wàn)個(gè)樣本,而LR融合模型在命中率提高了1.665% 的前提下減少了約52.4萬(wàn)個(gè)樣本。在極端不平衡數(shù)據(jù)中空?qǐng)?bào)數(shù)對(duì)TS評(píng)分影響極大,由于LR融合模型能夠有效降低空?qǐng)?bào)數(shù),故TS評(píng)分為最優(yōu),對(duì)比模式預(yù)報(bào)提高了將近3倍,同時(shí)分類(lèi)閾值也比較合理。
表3 不同模型在命中率約為50%時(shí)的對(duì)比
本文在逐時(shí)降水觀測(cè)資料與數(shù)值模式預(yù)報(bào)產(chǎn)品的基礎(chǔ)上開(kāi)展短時(shí)強(qiáng)降水預(yù)報(bào)訂正試驗(yàn),應(yīng)用LightGBM集成學(xué)習(xí)算法框架與多項(xiàng)模型優(yōu)化技術(shù)進(jìn)行建模和訓(xùn)練,通過(guò)對(duì)比不同建模方案在驗(yàn)證集和測(cè)試集上的表現(xiàn),得到如下結(jié)論。
(1)CMA-GD模式在短時(shí)強(qiáng)降水預(yù)報(bào)方面具有較低AUC和較高AUPR的特點(diǎn),從傳統(tǒng)指標(biāo)來(lái)看命中率和空?qǐng)?bào)率均較高,各類(lèi)建模方案的訂正模型對(duì)此具有不同程度的改善作用。其中Bagging處理能夠增強(qiáng)模型預(yù)測(cè)穩(wěn)定性,而基于輕微不平衡子訓(xùn)練集的模型在驗(yàn)證集上表現(xiàn)最佳,主要優(yōu)勢(shì)在于顯著降低了預(yù)測(cè)空?qǐng)?bào)率而取得更高的綜合評(píng)分,在驗(yàn)證集中最佳TS評(píng)分可達(dá)17.5%。
(2)LightGBM模型具有良好的可解釋性,通過(guò)合理的特征處理可以進(jìn)一步增強(qiáng)變量間的映射關(guān)系,對(duì)分類(lèi)信息增益貢獻(xiàn)最大的特征變量為K指數(shù),其次是500 hPa露點(diǎn)溫度和自定義添加的時(shí)間參數(shù)特征。
(3)從隨機(jī)交叉驗(yàn)證、根據(jù)小時(shí)劃分的隨機(jī)交叉驗(yàn)證、業(yè)務(wù)模擬測(cè)試等三類(lèi)時(shí)間相關(guān)性依次減弱的試驗(yàn)來(lái)看,隨機(jī)交叉驗(yàn)證的指標(biāo)評(píng)分最高,而業(yè)務(wù)模擬測(cè)試為最低,驗(yàn)證了LightGBM模型在短時(shí)強(qiáng)降水分類(lèi)數(shù)據(jù)集上的有效性主要來(lái)自相同或相鄰時(shí)刻的樣本信息。
(4)在業(yè)務(wù)模擬測(cè)試中LightGBM模型略?xún)?yōu)于3層全連接層架構(gòu)的DNN模型。針對(duì)實(shí)際預(yù)報(bào)業(yè)務(wù)中客觀存在的時(shí)間敏感性及數(shù)據(jù)漂移等問(wèn)題,基于邏輯回歸的異質(zhì)模型動(dòng)態(tài)融合方案能夠?qū)崟r(shí)學(xué)習(xí)來(lái)自不同統(tǒng)計(jì)視角的最新樣本信息而改善靜態(tài)同質(zhì)模型的表現(xiàn),融合模型在命中率、空?qǐng)?bào)率和TS評(píng)分等指標(biāo)上均有小幅提升,在命中率接近50%時(shí)削減空?qǐng)?bào)樣本超過(guò)52萬(wàn)個(gè)。