邱貴強(qiáng) 于 波 陶亦為 閻宏亮 王 揚(yáng)
1 山西省氣象臺(tái),太原 030006
2 北京市氣象臺(tái),北京 100089
3 國(guó)家氣象中心,北京 100081
4 北京市延慶區(qū)氣象局,北京 102100
提 要: 高山滑雪運(yùn)動(dòng)對(duì)風(fēng)極為敏感,風(fēng)速尤其是極大風(fēng)速往往是決定冬奧會(huì)賽事順利進(jìn)行的關(guān)鍵因素之一。利用2018—2021年1—3月歐洲中期天氣預(yù)報(bào)中心(ECMWF)模式預(yù)報(bào)產(chǎn)品以及冬奧會(huì)延慶賽區(qū)8個(gè)關(guān)鍵點(diǎn)位的極大風(fēng)速觀測(cè)數(shù)據(jù),基于決策樹(DT)、隨機(jī)森林(RF)和梯度提升決策樹(GBDT)三種不同類型的機(jī)器學(xué)習(xí)算法分別構(gòu)建極大風(fēng)速客觀預(yù)報(bào)模型。對(duì)比評(píng)估表明:極大風(fēng)速預(yù)報(bào)的最佳預(yù)報(bào)因子主要集中在不同高度層的風(fēng)速和風(fēng)向,個(gè)別站還包括垂直速度,若去掉風(fēng)向因子,絕大多數(shù)模型的預(yù)報(bào)準(zhǔn)確率會(huì)降低,平均絕對(duì)誤差會(huì)增加;總體上基于決策樹基學(xué)習(xí)器集成學(xué)習(xí)的GBDT和RF模型要優(yōu)于單一決策樹模型DT,平均絕對(duì)誤差最低的GBDT模型預(yù)報(bào)的極大風(fēng)速誤差介于1.56~3.57 m·s-1,較DT模型的改善率高達(dá)8.7%,同時(shí),GBDT模型對(duì)超閾值極大風(fēng)速的預(yù)報(bào)也較為優(yōu)秀;隨著預(yù)報(bào)點(diǎn)位海拔高度升高,各模型的平均絕對(duì)誤差和準(zhǔn)確率分別有增加和降低的趨勢(shì);隨著預(yù)報(bào)時(shí)效增加,各模型的平均絕對(duì)誤差表現(xiàn)出一定的周期性日變化特征。將表現(xiàn)優(yōu)異的GBDT和RF兩個(gè)模型作為初級(jí)學(xué)習(xí)器,以支持向量機(jī)模型作為次級(jí)學(xué)習(xí)器,基于stacking方法構(gòu)建集成學(xué)習(xí)模型RGL。結(jié)果表明:集成模型對(duì)極大風(fēng)速的預(yù)報(bào)較單一模型具備一定的改進(jìn)能力,且以極大風(fēng)速相對(duì)較大的高海拔站改進(jìn)更為突出,平均絕對(duì)誤差較單一模型最大可降低0.13 m·s-1,準(zhǔn)確率最高可提升0.022。相關(guān)研究成果有力保障了2022年北京冬(殘)奧會(huì)順利進(jìn)行。
2022年第24屆北京冬奧會(huì)和第13屆冬殘奧會(huì)在京舉行。在所有比賽項(xiàng)目中,室外雪上項(xiàng)目約占七成,其中延慶賽區(qū)承擔(dān)著高山滑雪和雪車雪橇項(xiàng)目的比賽,由于高山滑雪賽道長(zhǎng)、垂直落差大,而且運(yùn)動(dòng)員滑行速度快,一旦出現(xiàn)大風(fēng),很容易影響賽事正常進(jìn)行,同時(shí)還會(huì)對(duì)人身安全產(chǎn)生巨大威脅,據(jù)新聞報(bào)道2018年平昌冬奧會(huì)就曾出現(xiàn)過(guò)因大風(fēng)而導(dǎo)致高山滑雪項(xiàng)目推遲的情況。因此,做好冬奧會(huì)延慶賽區(qū)極大風(fēng)速的精細(xì)化預(yù)報(bào)尤為重要。
山地區(qū)域大氣流場(chǎng)結(jié)構(gòu)復(fù)雜(賈春暉等,2019),當(dāng)氣流遇到山地地形時(shí),流速和流向會(huì)發(fā)生改變,在動(dòng)力和熱力作用下往往還會(huì)形成一些局地環(huán)流,即使采用高分辨率數(shù)值模式來(lái)刻畫這些中小尺度現(xiàn)象,也仍然會(huì)存在預(yù)報(bào)能力不足的問(wèn)題;同時(shí),受山區(qū)觀測(cè)資料缺乏等因素影響,以往針對(duì)復(fù)雜山區(qū)的極大風(fēng)速預(yù)報(bào)研究較少,而且缺乏強(qiáng)有力的預(yù)報(bào)技術(shù)支撐。冬奧會(huì)延慶賽區(qū)位于北京市延慶區(qū)海陀山地區(qū),溝壑縱橫,地形復(fù)雜,不同位置處的風(fēng)速和風(fēng)向特征差異明顯(王倩倩等,2022;胡藝等,2022),再加上絕大多數(shù)數(shù)值模式對(duì)該地區(qū)的地形高度描述存在較大誤差,從而導(dǎo)致極大風(fēng)速預(yù)報(bào)難度較大。為了充分做好2022年北京冬(殘)奧會(huì)氣象服務(wù)保障任務(wù),本文利用優(yōu)選的ECMWF模式不同高度層要素預(yù)報(bào)產(chǎn)品以及延慶賽區(qū)極大風(fēng)速觀測(cè)數(shù)據(jù),基于三種不同類型的機(jī)器學(xué)習(xí)算法分別構(gòu)建賽區(qū)不同海拔高度點(diǎn)位的極大風(fēng)速精細(xì)化預(yù)報(bào)模型,在對(duì)比評(píng)估預(yù)報(bào)性能的基礎(chǔ)上,進(jìn)一步基于stacking方法構(gòu)建了集成學(xué)習(xí)模型RGL,并評(píng)估了較單一模型的改進(jìn)能力。
本文所用的數(shù)值模式數(shù)據(jù)為2018—2021年1月 1日至3月28日及2022年2月18日ECMWF模式20時(shí)(北京時(shí),下同)起報(bào)的不同高度層要素預(yù)報(bào)產(chǎn)品,高度層次包括10 m、900 hPa、850 hPa、800 hPa 和700 hPa,要素包括海平面氣壓、位勢(shì)高度、溫度、相對(duì)濕度、水平風(fēng)速、水平風(fēng)向和垂直速度,預(yù)報(bào)時(shí)效為72 h,預(yù)報(bào)間隔為3 h。針對(duì)某一點(diǎn)位的模式預(yù)報(bào)數(shù)據(jù),采用最鄰近法獲取。
實(shí)況數(shù)據(jù)來(lái)源于冬奧會(huì)延慶賽區(qū)自動(dòng)氣象站2018—2021年1月1日20時(shí)至3月31日20時(shí)以及2022年2月18日20時(shí)至20日20時(shí)期間的10 m 極大風(fēng)速觀測(cè)資料,某一整點(diǎn)的極大風(fēng)速定義為過(guò)去1 h內(nèi)瞬時(shí)風(fēng)速的最大值。本文選擇競(jìng)速賽道上的1、3、5、8號(hào)站(站號(hào)分別為A1701、A1703、A1705、A1708)和競(jìng)技賽道上的1、2、3號(hào)站(站號(hào)分別為A1710、A1711、A1712)以及雪車雪橇賽道上的西大莊科站(站號(hào)為A1489)作為研究對(duì)象,從站點(diǎn)空間分布及基本信息(表1,圖1)可看出,這些站點(diǎn)的分布環(huán)境較為復(fù)雜,位于山頂?shù)腁1701站海拔高度可達(dá)2177.5 m,位于山腰的A1708站海拔高度為1289.1 m,而位于山谷的A1489站海拔高度僅為928.0 m,最大垂直落差超過(guò)1000 m;另外可看出,有些站點(diǎn)(如A1703、A1710)分布在地形坡度較大的位置,而有些站點(diǎn)(如A1489)則分布在相對(duì)平坦的位置。
注:紅、青、黑五星符號(hào)分別代表高山滑雪競(jìng)速賽道、競(jìng)技賽道和雪車雪橇賽道上的氣象站,右下小圖紅色矩形為延慶賽區(qū)位置。圖1 延慶賽區(qū)地形海拔高度(填色)和主要自動(dòng)氣象站分布Fig.1 Terrain height (colored) of Yanqing Competition Zone and main automatic weather stations
表1 延慶賽區(qū)主要自動(dòng)氣象站基本信息Table 1 Information of main automatic weather stations in Yanqing Competition Zone
由于有些觀測(cè)站位于高海拔地區(qū),當(dāng)濕度較大且遇到強(qiáng)冷空氣時(shí)容易出現(xiàn)凍結(jié)的情況,從而導(dǎo)致極大風(fēng)觀測(cè)有時(shí)會(huì)出現(xiàn)故障。對(duì)于長(zhǎng)時(shí)間的缺測(cè)(3 h 以上)時(shí)次直接棄用,而對(duì)于短時(shí)間的缺測(cè),則采用線性插值方法進(jìn)行數(shù)據(jù)補(bǔ)全。
為了更好地進(jìn)行下文中的數(shù)據(jù)建模,首先對(duì)數(shù)據(jù)中的異常值進(jìn)行剔除操作,異常數(shù)據(jù)的確定方法為小于Q1-1.5IQR或大于Q3+1.5IQR的值,其中Q1為下四分位數(shù),Q3為上四分位數(shù),IQR為四分位數(shù)間距,是上四分位數(shù)Q3與下四分位數(shù)Q1之差。
決策樹(Breiman et al,1984)是一種非參數(shù)的監(jiān)督學(xué)習(xí)算法,能夠從一系列有特征和標(biāo)簽的數(shù)據(jù)中總結(jié)出決策規(guī)則,并用樹狀圖的結(jié)構(gòu)來(lái)呈現(xiàn)這些規(guī)則,該算法因容易理解而被廣泛應(yīng)用于分類和回歸問(wèn)題中,比如降水相態(tài)識(shí)別(陳雙等,2019)。
隨機(jī)森林(Breiman,2001)是機(jī)器學(xué)習(xí)bagging算法族的代表算法之一,在要素預(yù)報(bào)方面有著廣泛的應(yīng)用(王可心等,2021)。bagging算法可獨(dú)立構(gòu)建多個(gè)基學(xué)習(xí)器,且基學(xué)習(xí)器之間并無(wú)強(qiáng)依賴關(guān)系。算法具體流程為(圖2):首先,從原始訓(xùn)練集中均勻、有放回地選出多個(gè)子訓(xùn)練集;然后,在這些子訓(xùn)練集上分別進(jìn)行基學(xué)習(xí)器的訓(xùn)練;最后,將這些基學(xué)習(xí)器學(xué)習(xí)結(jié)果進(jìn)行平均以產(chǎn)生最終的模型。由于每個(gè)基學(xué)習(xí)器所采用的數(shù)據(jù)集都是獨(dú)立自助采樣,從而所有樹都互不相同,可以減少模型過(guò)擬合。
圖2 bagging算法流程圖Fig.2 Flowchart of bagging algorithm
梯度提升決策樹(Friedman,2001)是機(jī)器學(xué)習(xí)boosting算法族的代表算法之一。boosting算法的核心思想是在每一次訓(xùn)練時(shí)都更加關(guān)心預(yù)測(cè)錯(cuò)誤的樣例,而下一次迭代的目標(biāo)就是能夠更容易辨別出上一輪預(yù)測(cè)錯(cuò)誤的樣例,因此,基學(xué)習(xí)器之間存在強(qiáng)烈的依賴關(guān)系。算法具體流程為(圖3):首先,從原始訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整,給那些難以預(yù)測(cè)的樣例賦予更大的權(quán)重,而易于預(yù)測(cè)的樣例被賦予更小的權(quán)重,然后,基于調(diào)整后的樣本分布來(lái)訓(xùn)練下一個(gè)基學(xué)習(xí)器,如此重復(fù)進(jìn)行,直到基學(xué)習(xí)器數(shù)目達(dá)到事先指定的值,最后,將這些基學(xué)習(xí)器學(xué)習(xí)結(jié)果進(jìn)行加權(quán)求和以產(chǎn)生最終的模型。
圖3 boosting算法流程圖Fig.3 Flowchart of boosting algorithm
stacking是一種可以組合多個(gè)預(yù)測(cè)模型信息以生成新模型的分層集成學(xué)習(xí)算法,較單一機(jī)器學(xué)習(xí)模型,可有效提高模型預(yù)測(cè)結(jié)果(韓念霏等,2022)。算法具體流程為(圖4):以兩層框架為例,第一層稱為初級(jí)學(xué)習(xí)器,第二層稱為次級(jí)學(xué)習(xí)器,將所有的初級(jí)學(xué)習(xí)器在原始訓(xùn)練集上進(jìn)行訓(xùn)練,同時(shí)將訓(xùn)練出的結(jié)果視為新訓(xùn)練集的某個(gè)特征,然后,利用次級(jí)學(xué)習(xí)器在新訓(xùn)練集上進(jìn)行再訓(xùn)練,次級(jí)學(xué)習(xí)器的輸出即為集成模型結(jié)果。
圖4 stacking算法流程圖Fig.4 Flowchart of stacking algorithm
將1.1節(jié)數(shù)據(jù)來(lái)源中的數(shù)值模式數(shù)據(jù)及其對(duì)應(yīng)的實(shí)況數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集用來(lái)構(gòu)建模型,數(shù)據(jù)時(shí)間段為2018—2020年1—3月,而測(cè)試集用于評(píng)估模型的預(yù)報(bào)性能,數(shù)據(jù)時(shí)間段為2021年1—3月,另外,2022年2月18日數(shù)據(jù)用于對(duì)冬奧會(huì)期間特定個(gè)例的預(yù)報(bào)性能評(píng)估。
由于構(gòu)建模型的預(yù)報(bào)因子涉及不同類型的氣象要素,量綱之間會(huì)存在較大差異,為加快算法利用梯度下降求最優(yōu)解的收斂速度,將原始數(shù)據(jù)集標(biāo)準(zhǔn)化處理為均值為0、方差為1的數(shù)據(jù)集,其公式如下:
(1)
式中:μ和σ分別為原始數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差。
圖5為2018—2021年1月1日20時(shí)至3月31日20時(shí)觀測(cè)期間8個(gè)站點(diǎn)的極大風(fēng)速統(tǒng)計(jì)特征,可以看出,高海拔站A1701、A1703和A1710極大風(fēng)速的上、下四分位數(shù)以及上限值均高于低海拔站A1708、A1712和A1489,針對(duì)山頂站A1701,極大風(fēng)速上限值為33.7 m·s-1,上、下四分位數(shù)分別對(duì)應(yīng)19.6 m·s-1和10.2 m·s-1,而山谷站A1489的極大風(fēng)速上限值以及上、下四分位數(shù)分別較A1701站低12.8、9.7和7.6 m·s-1;另外,盡管山腰站A1705和A1711的海拔高度相當(dāng),但風(fēng)速分布卻差異較大,A1705站的上四分位數(shù)和上限值分別為15.0 m·s-1和29.9 m·s-1,明顯高于A1711站,這主要是由于研究期間延慶賽區(qū)盛行西北氣流,當(dāng)氣流過(guò)山頂附近A1701至A1703處的東北—西南向山脊時(shí),A1711站多受西北氣流所激發(fā)的次級(jí)環(huán)流影響,以南風(fēng)居多,且風(fēng)速相對(duì)較小,而A1705站本身位于山脊位置,受山頂附近的山脊影響程度相對(duì)較小,導(dǎo)致風(fēng)速整體較大。可見,各站點(diǎn)的極大風(fēng)速受海拔高度和周邊環(huán)境影響顯著,這在烏日柴胡等(2019)研究中也有體現(xiàn)。因此,本文針對(duì)不同點(diǎn)位進(jìn)行獨(dú)立建模。
注:箱線圖中觸須的上端和下端分別代表統(tǒng)計(jì)最大值和最小值,箱體內(nèi)三條繞線自下而上分別代表第25%、50%和75%分位值。圖5 各站點(diǎn)的極大風(fēng)速箱線圖Fig.5 Boxplots of extreme wind speed at each station
優(yōu)選預(yù)報(bào)因子的目的是避免不重要的因子進(jìn)入預(yù)報(bào)模型。有些機(jī)器學(xué)習(xí)算法(如決策樹)本身具有對(duì)特征因子進(jìn)行打分的機(jī)制,而且這些算法對(duì)非線性關(guān)系的處理較好。在此,本文利用GBDT算法來(lái)優(yōu)選預(yù)報(bào)因子,該算法是通過(guò)特征j在單顆樹中的重要度的平均值來(lái)衡量其重要性:
(2)
式中M是樹的數(shù)量。特征j在單棵樹中的重要度計(jì)算如下:
(3)
針對(duì)每個(gè)預(yù)報(bào)點(diǎn)位,將訓(xùn)練集上的ECMWF模式數(shù)據(jù)及對(duì)應(yīng)的極大風(fēng)速實(shí)況數(shù)據(jù)分別作為特征向量和標(biāo)簽值輸入到GBDT模型,根據(jù)模型輸出的特征因子重要性排序,同時(shí)兼顧到模型在測(cè)試集上的預(yù)報(bào)準(zhǔn)確率和計(jì)算量,定義各點(diǎn)位最優(yōu)預(yù)報(bào)因子的挑選標(biāo)準(zhǔn)為:針對(duì)A1701、A1703和A1708站,取重要性不低于0.02的因子,且根據(jù)預(yù)報(bào)經(jīng)驗(yàn)去掉A1703站因子中的700 hPa和900 hPa的溫度,針對(duì)其余站點(diǎn),取重要性不低于0.04的因子,且根據(jù)預(yù)報(bào)經(jīng)驗(yàn)去掉A1710站因子中的900 hPa溫度,最終將各站的預(yù)報(bào)因子數(shù)目均控制在4~5個(gè)。
通過(guò)表2可以看出,大多數(shù)點(diǎn)位極大風(fēng)速的最優(yōu)預(yù)報(bào)因子均為風(fēng)速和風(fēng)向,但不同點(diǎn)位所選用的高度層次存在差異,僅個(gè)別站(A1710)還考慮了垂直速度。若以海拔高度1600 m為分界線,該高度以下的3個(gè)站(A1708、A1712、A1489)所用的風(fēng)速層次(10 m、900 hPa和850 hPa)完全一致,但風(fēng)向?qū)哟螀s各不相同,850 hPa風(fēng)向?yàn)楣餐蜃?隨著站點(diǎn)海拔高度升高,其余風(fēng)向因子的選用層次也相應(yīng)升高;而對(duì)于1600 m高度以上的其余5個(gè)站(A1701、A1703、A1705、A1710、A1711),所用的風(fēng)速層次均包含850 hPa和800 hPa,隨著站點(diǎn)海拔高度升高,所考慮的風(fēng)速層次有升高的趨勢(shì),若以A1710站作為參照,該站海拔高度以上的A1701站考慮的是更高層次的700 hPa風(fēng)速,而該站高度以下的3個(gè)站(A1703、A1705、A1711)考慮的則是更低層次的900 hPa風(fēng)速,對(duì)于這5個(gè)站所用的風(fēng)向?qū)哟?850 hPa風(fēng)向?yàn)楣餐蜃?隨著站點(diǎn)海拔高度升高,其余風(fēng)向因子的選用層次有降低的趨勢(shì)。另外注意到,850 hPa風(fēng)速和風(fēng)向是所有站中唯一的共同預(yù)報(bào)因子,這反映出邊界層頂附近的氣象要素對(duì)極大風(fēng)速預(yù)報(bào)的重要性。
表2 各預(yù)報(bào)點(diǎn)位極大風(fēng)速的最優(yōu)預(yù)報(bào)因子Table 2 Best predictors of extreme wind speed at each station
針對(duì)每個(gè)預(yù)報(bào)點(diǎn)位,將優(yōu)選出的ECMWF模式預(yù)報(bào)因子數(shù)據(jù)(表2)及對(duì)應(yīng)的極大風(fēng)速實(shí)況數(shù)據(jù)分別作為特征向量和標(biāo)簽值構(gòu)建DT、RF和GBDT模型;通過(guò)對(duì)模型性能對(duì)比評(píng)估,選擇其中較為優(yōu)異的兩個(gè)模型作為初級(jí)學(xué)習(xí)器,以支持向量機(jī)模型(Cortes and Vapnik,1995)作為次級(jí)學(xué)習(xí)器,基于stacking方法構(gòu)建集成學(xué)習(xí)模型RGL。RGL模型的具體構(gòu)建方法為:選擇初級(jí)學(xué)習(xí)器中兩個(gè)模型之一,將3.1節(jié)中的訓(xùn)練集隨機(jī)劃分成4份,以其中3份作為次訓(xùn)練集,剩下1份作為次測(cè)試集,在第一次交叉驗(yàn)證后會(huì)得到次測(cè)試集的預(yù)測(cè)值,同時(shí)可得到3.1節(jié)中測(cè)試集的預(yù)測(cè)值。4折交叉驗(yàn)證,即將上述過(guò)程進(jìn)行4次,將4次得到的次測(cè)試集的預(yù)測(cè)值拼接成訓(xùn)練集中的新特征1,其時(shí)間段正好為2018—2020年1月1日至3月28日,所對(duì)應(yīng)的新測(cè)試集為4次得到的測(cè)試集預(yù)測(cè)值的平均值,時(shí)間段為2021年1月1日至3月28日。接著再對(duì)另一個(gè)模型重復(fù)以上步驟得到訓(xùn)練集中的新特征2以及對(duì)應(yīng)的新測(cè)試集,最后,在訓(xùn)練集的新特征1、2上,利用支持向量機(jī)模型進(jìn)一步訓(xùn)練即可得到RGL集成學(xué)習(xí)模型結(jié)果。
本文選用平均絕對(duì)誤差(MAE)和準(zhǔn)確率(Acc)對(duì)模型預(yù)報(bào)性能進(jìn)行評(píng)估,計(jì)算公式如下:
(4)
Acc=NC/N
(5)
式中:Oi和Yi分別為10 m極大風(fēng)速實(shí)況值、模型預(yù)報(bào)值,NC為|Oi-Yi|≤3 m·s-1的次數(shù),N為樣本數(shù)。MAE越接近于0,Acc越接近于1,表明模型對(duì)10 m極大風(fēng)速的預(yù)報(bào)能力越強(qiáng)。
4.1.1 總體評(píng)估
表3給出了不同模型對(duì)測(cè)試集上各預(yù)報(bào)點(diǎn)位在整個(gè)預(yù)報(bào)時(shí)效(72 h)內(nèi)極大風(fēng)速預(yù)報(bào)的平均絕對(duì)誤差和準(zhǔn)確率對(duì)比情況。從平均絕對(duì)誤差可看出,針對(duì)所有預(yù)報(bào)點(diǎn)位,GBDT和RF模型的平均絕對(duì)誤差均要低于DT模型,且以GBDT模型更低,其平均絕對(duì)誤差在1.56~3.57 m·s-1,較DT模型的改善率介于4.3%~8.7%。一方面,改善率的高低與海拔高度有關(guān),這里選擇位置較為重要且代表了不同海拔高度的A1701、A1708和A1489站進(jìn)行說(shuō)明,針對(duì)山頂站A1701,DT模型的平均絕對(duì)誤差為3.73 m·s-1,GBDT模型降低至3.57 m·s-1,較DT模型的改善率為4.3%,對(duì)于山腰站A1708,DT模型的平均絕對(duì)誤差為1.65 m·s-1,GBDT模型較DT模型降幅為0.09 m·s-1,改善率為5.5%,對(duì)于山谷站A1489,DT模型的平均絕對(duì)誤差為1.90 m·s-1,GBDT模型較DT模型降低0.16 m·s-1,改善率達(dá)8.4%;另一方面,改善率的高低還與周圍環(huán)境有一定關(guān)系,位于山腰的A1703和A1710站海拔高度差不足20 m,但改善率卻相差3.7%。從準(zhǔn)確率來(lái)看,除A1711站外,其余站點(diǎn)的GBDT和RF模型均要高于DT模型,其中,以GBDT模型為最高的站點(diǎn)占75%。
表3 不同模型對(duì)各點(diǎn)位72 h時(shí)效內(nèi)極大風(fēng)速預(yù)報(bào)的平均絕對(duì)誤差(MAE)(單位:m·s-1)和準(zhǔn)確率(Acc)Table 3 MAE (unit: m·s-1) and Acc of extreme wind speed within 72 h lead time predicted by different models at each station
另外可看出,隨著預(yù)報(bào)點(diǎn)位海拔高度升高,各模型的平均絕對(duì)誤差有增加的趨勢(shì),而準(zhǔn)確率有降低的趨勢(shì)。如果以A1705和A1711站所在的海拔高度1770 m左右為分界線,針對(duì)此高度以上的站點(diǎn)A1701、A1703和A1710,各模型的平均絕對(duì)誤差在2.47~3.73 m·s-1,準(zhǔn)確率在0.480~0.673,而對(duì)此高度以下的站點(diǎn)A1708、A1712和A1489而言,各模型的平均絕對(duì)誤差介于1.56~1.91 m·s-1,準(zhǔn)確率介于0.769~0.850,這表明,模型預(yù)報(bào)性能對(duì)海拔高度有較強(qiáng)的敏感性,即海拔高度越高的點(diǎn)位,平均絕對(duì)誤差相應(yīng)越大,而準(zhǔn)確率相應(yīng)越小,這很可能與海拔高度越高的點(diǎn)位風(fēng)速越大有關(guān)。
為進(jìn)一步探索風(fēng)向因子對(duì)極大風(fēng)速預(yù)報(bào)的影響,本文將每個(gè)點(diǎn)位預(yù)報(bào)因子中的風(fēng)向因子去掉后重新建模,并與原模型結(jié)果進(jìn)行對(duì)比分析。結(jié)果(表3)表明:在去掉風(fēng)向因子后,絕大多數(shù)模型的預(yù)報(bào)準(zhǔn)確率會(huì)出現(xiàn)降低,平均絕對(duì)誤差出現(xiàn)增加,變化幅度最為明顯的均為A1705站的RF模型,準(zhǔn)確率降幅達(dá)0.100,平均絕對(duì)誤差增幅為0.55 m·s-1。因此,在實(shí)際業(yè)務(wù)中預(yù)報(bào)極大風(fēng)速時(shí),除了應(yīng)該考慮不同層次的風(fēng)速外,還有必要考慮風(fēng)向的影響。
4.1.2 不同預(yù)報(bào)時(shí)效評(píng)估
圖6為不同模型對(duì)測(cè)試集上各預(yù)報(bào)點(diǎn)位極大風(fēng)速預(yù)報(bào)的平均絕對(duì)誤差隨預(yù)報(bào)時(shí)效的變化情況,對(duì)比可看出,針對(duì)每個(gè)預(yù)報(bào)點(diǎn)位,DT、RF和GBDT模型的平均絕對(duì)誤差值相近,而且隨時(shí)效的變化趨勢(shì)也較為一致,尤其是A1701、A1703、A1705、A1708和A1489站,如果以DT模型值為基準(zhǔn),由計(jì)算可知,GBDT、RF模型值與其相關(guān)系數(shù)可高達(dá)89%;總體上,各模型的平均絕對(duì)誤差均以天為周期上下波動(dòng),并表現(xiàn)出一定的日變化特征。
圖6 不同模型對(duì)各點(diǎn)位極大風(fēng)速預(yù)報(bào)的平均絕對(duì)誤差(MAE)隨預(yù)報(bào)時(shí)效的變化(a)A1701,(b)A1703,(c)A1705,(d)A1708,(e)A1710,(f)A1711,(g)A1712,(h)A1489Fig.6 Variation of MAE with forecasting lead time in extreme wind speed predicted by different models at stations of (a) A1701, (b) A1703, (c) A1705, (d) A1708, (e) A1710, (f) A1711, (g) A1712, and (h) A1489
由4.1.1節(jié)可知,在整個(gè)預(yù)報(bào)時(shí)效上,GBDT模型對(duì)各預(yù)報(bào)點(diǎn)位的平均絕對(duì)誤差均最小,DT模型均最大,而RF模型介于兩者之間。在此重點(diǎn)分析GBDT和DT模型在不同時(shí)效上的對(duì)比情況,可以看出,針對(duì)A1712站,GBDT模型有16個(gè)時(shí)效的平均絕對(duì)誤差要低于DT模型,而其余站點(diǎn),GBDT模型的誤差低于DT模型的時(shí)效數(shù)目均達(dá)到20個(gè)以上,其中以A1711站最多(24個(gè))。這表明,在逐3 h精細(xì)化預(yù)報(bào)時(shí)效上,GBDT模型較DT模型的預(yù)報(bào)優(yōu)勢(shì)也較為明顯。
針對(duì)GBDT模型,在一定海拔高度以內(nèi),日最大平均絕對(duì)誤差所對(duì)應(yīng)的時(shí)刻隨站點(diǎn)海拔高度升高有滯后的趨勢(shì),針對(duì)某一點(diǎn)位而言,不同時(shí)效內(nèi)最大平均絕對(duì)誤差出現(xiàn)的時(shí)刻點(diǎn)基本一致,但達(dá)到某一高度后,上述規(guī)律變得不明顯。對(duì)于低海拔站A1705、A1708、A1712和A1489,0~24、24~48和48~72 h內(nèi)的最大平均絕對(duì)誤差分別出現(xiàn)在21、45和69 h時(shí)效,正好間隔24 h,均對(duì)應(yīng)每日17時(shí);隨著站點(diǎn)海拔高度升高,對(duì)A1711站預(yù)報(bào)的最大平均絕對(duì)誤差分別位于24、48和72 h時(shí)效,正好間隔24 h,均對(duì)應(yīng)每日20時(shí);隨著海拔高度進(jìn)一步升高,對(duì)A1703站預(yù)報(bào)的最大平均絕對(duì)誤差分別位于3、30和51 h時(shí)效,對(duì)應(yīng)每日23時(shí)或02時(shí);隨著海拔高度繼續(xù)升高,對(duì)山頂及附近的站點(diǎn)A1701和A1703預(yù)報(bào)的最大平均絕對(duì)誤差分別位于6、39和60 h時(shí)效,對(duì)應(yīng)每日02、11和08時(shí)。
4.1.3 超閾值評(píng)估
高山滑雪運(yùn)動(dòng)對(duì)大風(fēng)較為敏感。圖7給出了不同模型對(duì)測(cè)試集上各預(yù)報(bào)點(diǎn)位超閾值極大風(fēng)速預(yù)報(bào)的平均絕對(duì)誤差情況,這里所選取的閾值是由該點(diǎn)位極大風(fēng)速實(shí)況的上四分位數(shù)來(lái)確定,A1701、A1703、A1705、A1708、A1710、A1711、A1712和A1489站的閾值分別為19.6、13.5、15.0、8.5、15.9、8.9、9.9、9.9 m·s-1。可以看出,針對(duì)山頂站A1701,GBDT模型的平均絕對(duì)誤差最小,為3.22 m·s-1,DT模型有所增大,RF模型進(jìn)一步增大至3.54 m·s-1,而其余點(diǎn)位的情況則有所不同,DT模型的平均絕對(duì)誤差均為最大,RF或GBDT模型的誤差相對(duì)更小,且以GBDT模型為最小的點(diǎn)位居多,比較而言,針對(duì)山腰中那些相對(duì)低海拔站A1712和A1708,RF模型的平均絕對(duì)誤差要小于GBDT模型,而對(duì)于山腰中的相對(duì)高海拔站A1703、A1705、A1710、A1711以及山谷站A1489而言,GBDT模型的平均絕對(duì)誤差則小于RF模型。A1701站的表現(xiàn)情況之所以與其余點(diǎn)位有所不同,很可能與該點(diǎn)位所處山頂位置有關(guān),該位置海拔最高且較為孤立,受自由大氣的影響相對(duì)更為明顯。綜合來(lái)看,以GBDT模型的平均絕對(duì)誤差為最小的站點(diǎn)占75%,可以說(shuō),這是一種對(duì)延慶賽區(qū)超閾值極大風(fēng)速預(yù)報(bào)較為優(yōu)秀的算法模型。
圖7 不同模型對(duì)各點(diǎn)位超閾值極大風(fēng)速預(yù)報(bào)的平均絕對(duì)誤差(MAE)Fig.7 MAE in super threshold extreme wind speed at each station predicted by different models
4.2.1 總體評(píng)估
通過(guò)集成學(xué)習(xí)模型RGL與單一模型在測(cè)試集上的對(duì)比評(píng)估(圖8)可以看出,集成模型較單一模型具備一定的改進(jìn)能力,而且對(duì)風(fēng)速大小表現(xiàn)出較高的敏感性。具體來(lái)看,針對(duì)極大風(fēng)速相對(duì)較大的高海拔站A1701、A1703、A1705和A1710,集成模型的平均絕對(duì)誤差較單一模型GBDT和RF均有所降低或與之持平,降低幅度在0.13 m·s-1以內(nèi),而準(zhǔn)確率較單一模型均有所提高,最大提升幅度為0.022,平均絕對(duì)誤差和準(zhǔn)確率變化幅度最為明顯的均為A1710站;而對(duì)于極大風(fēng)速相對(duì)較小的低海拔站A1708、A1711、A1712和A1489,集成模型的性能表現(xiàn)介于單一模型RF和GBDT之間,即集成模型的準(zhǔn)確率高于或等于RF模型而低于GBDT模型,平均絕對(duì)誤差高于GBDT模型而低于RF模型。
圖8 不同模型對(duì)各點(diǎn)位極大風(fēng)速預(yù)報(bào)的(a)平均絕對(duì)誤差(MAE)和(b)準(zhǔn)確率(Acc)Fig.8 (a) MAE and (b) Acc in extreme wind speed at each station predicted by different models
4.2.2 個(gè)例評(píng)估
為了評(píng)估集成學(xué)習(xí)模型在冬奧會(huì)保障中的實(shí)際應(yīng)用能力,本文選取了2月19—20日對(duì)比賽有較大影響的大風(fēng)個(gè)例進(jìn)行了檢驗(yàn)。
為評(píng)估20日上午這個(gè)關(guān)鍵時(shí)段的風(fēng)速預(yù)報(bào)結(jié)果,圖9給出了集成模型RGL與單一模型對(duì)賽場(chǎng)附近A1712站極大風(fēng)速的預(yù)報(bào)與實(shí)況對(duì)比情況,可以看出,集成模型對(duì)20日08時(shí)的極大風(fēng)速預(yù)報(bào)與實(shí)況完全一致,均為9.3 m·s-1,RF和GBDT模型均與集成模型預(yù)報(bào)效果相當(dāng);而對(duì)于11時(shí),集成模型的預(yù)報(bào)值(10.9 m·s-1)較實(shí)況偏低3.5 m·s-1,RF模型與集成模型性能相當(dāng),GBDT模型預(yù)報(bào)性能略低,實(shí)際上,當(dāng)時(shí)預(yù)報(bào)員可參考的其他一些客觀模型較實(shí)況也一致偏低。從另一個(gè)角度講,19日和20日的天氣形勢(shì)總體差異不大,利用19日模型臨近誤差信息則可以改進(jìn)20日的預(yù)報(bào)效果,可以發(fā)現(xiàn),集成模型對(duì)18日和19日連續(xù)兩天夜間(23時(shí)至次日05時(shí))風(fēng)速的預(yù)報(bào)較實(shí)況偏高或與之持平,而對(duì)19日白天(08—17時(shí))的風(fēng)速預(yù)報(bào)較實(shí)況偏低或與之持平。根據(jù)19日08時(shí)和11時(shí)的預(yù)報(bào)誤差(分別為0.6 m·s-1和1.8 m·s-1),可訂正得到20日08時(shí)和11時(shí)的預(yù)報(bào)值分別為9.9 m·s-1和12.7 m·s-1,與實(shí)況偏差均在2 m·s-1以內(nèi)。可見,在實(shí)際應(yīng)用中,利用模型臨近誤差信息是必要的。
圖9 2022年2月19—20日不同模型對(duì)A1712站極大風(fēng)速的預(yù)報(bào)和實(shí)況對(duì)比Fig.9 Comparison of extreme wind speed predicted by different models with observations at A1712 Stationfrom 19 to 20 February 2022
基于冬奧會(huì)延慶賽區(qū)極大風(fēng)速觀測(cè)數(shù)據(jù)以及優(yōu)選的ECMWF模式要素預(yù)報(bào)產(chǎn)品,利用三種不同類型的機(jī)器學(xué)習(xí)算法(DT、RF和GBDT)分別建立了賽區(qū)不同海拔高度點(diǎn)位的10 m極大風(fēng)速精細(xì)化預(yù)報(bào)模型,在模型對(duì)比評(píng)估基礎(chǔ)上,基于stacking方法構(gòu)建了集成學(xué)習(xí)模型RGL,并評(píng)估了較單一模型的改進(jìn)能力。主要得到如下結(jié)論:
(1)延慶賽區(qū)各點(diǎn)位極大風(fēng)速預(yù)報(bào)的最優(yōu)預(yù)報(bào)因子主要集中在不同高度層的風(fēng)速和風(fēng)向,個(gè)別站還包括垂直速度,若去掉風(fēng)向預(yù)報(bào)因子,絕大多數(shù)模型的預(yù)報(bào)準(zhǔn)確率會(huì)降低,平均絕對(duì)誤差會(huì)增加。這表明:在實(shí)際業(yè)務(wù)中預(yù)報(bào)極大風(fēng)速時(shí),除了應(yīng)該考慮不同層次的風(fēng)速外,還有必要考慮風(fēng)向的影響。
(2)針對(duì)延慶賽區(qū)不同點(diǎn)位的極大風(fēng)速預(yù)報(bào),基于決策樹基學(xué)習(xí)器集成學(xué)習(xí)的GBDT和RF模型總體上要優(yōu)于單一決策樹模型DT。從平均絕對(duì)誤差來(lái)看,所有點(diǎn)位的GBDT模型均較RF模型更小,其預(yù)報(bào)的極大風(fēng)速平均絕對(duì)誤差介于1.56~3.57 m·s-1,較DT模型的改善率最高可達(dá)8.7%,改善率的高低對(duì)海拔高度和周圍環(huán)境都有較強(qiáng)的敏感性;從準(zhǔn)確率來(lái)看,絕大多數(shù)點(diǎn)位的GBDT模型較RF模型更高。另外,GBDT模型對(duì)超閾值極大風(fēng)速的預(yù)報(bào)較為優(yōu)秀。
(3)DT、RF和GBDT模型對(duì)延慶賽區(qū)極大風(fēng)速預(yù)報(bào)的平均絕對(duì)誤差和準(zhǔn)確率均表現(xiàn)出海拔依賴性,即隨著預(yù)報(bào)點(diǎn)位海拔高度升高,平均絕對(duì)誤差有增加的趨勢(shì),而準(zhǔn)確率有降低的趨勢(shì)。隨著預(yù)報(bào)時(shí)效增加,各模型的平均絕對(duì)誤差總體上以天為周期上下波動(dòng),且表現(xiàn)出一定的日變化特征。
(4)與單一機(jī)器學(xué)習(xí)模型相比,基于stacking方法的集成學(xué)習(xí)模型對(duì)延慶賽區(qū)的極大風(fēng)速預(yù)報(bào)具備一定的改進(jìn)能力,且以極大風(fēng)速相對(duì)較大的高海拔站改進(jìn)更為突出,平均絕對(duì)誤差較單一模型最大可降低0.13 m·s-1,準(zhǔn)確率最高可提升0.022。
相關(guān)研究成果已集成開發(fā)到網(wǎng)頁(yè)平臺(tái),并在2022年冬(殘)奧會(huì)賽事服務(wù)保障中發(fā)揮重要作用。該工作僅利用有限的ECMWF模式數(shù)據(jù),主要針對(duì)冬季復(fù)雜山區(qū)的極大風(fēng)速預(yù)報(bào)模型進(jìn)行了初步研究,下一步將利用更多的資料進(jìn)行建模,同時(shí)評(píng)估模型在不同季節(jié)、不同地區(qū)的適用性,以期為高質(zhì)量的精細(xì)化預(yù)報(bào)服務(wù)提供參考和依據(jù)。