武略 焦瑞莉 王毅 夏江江 嚴(yán)中偉 李昊辰
(1 北京信息科技大學(xué) 信息與通信工程學(xué)院,北京 100101; 2 國(guó)家氣象中心,北京 100081;3 中國(guó)科學(xué)院大氣物理研究所,北京 100029;4 中國(guó)科學(xué)院大學(xué),北京 100049;5 北京郵電大學(xué) 理科學(xué)院,北京 100876;6 北京大學(xué),北京 100871)
體感溫度是指人體所感受到的冷暖程度,其大小會(huì)受到諸如氣溫、風(fēng)速、相對(duì)濕度和太陽(yáng)輻射等氣象要素的綜合影響[1-3]。體感溫度不僅直接影響各類人群的日常生活、工作、旅游等,也可影響人體健康。
體感溫度屬于人體舒適度研究范疇。人體舒適度是以人類機(jī)體與近地大氣之間的熱交換原理為基礎(chǔ),從氣象角度評(píng)價(jià)人類在不同氣候條件下舒適感的一項(xiàng)生物氣象指標(biāo)[4]。自1966年Terjung提出人體舒適度指數(shù)概念以來(lái),發(fā)達(dá)國(guó)家相繼開展了廣泛深入的研究,并提出了諸如風(fēng)效指數(shù)、不適指數(shù)、溫濕指數(shù)等不同的生物氣象指標(biāo)[5]。在1980s我國(guó)有關(guān)舒適度的研究還只是一些定性的描述,直到1990s開始才取得較快的進(jìn)展。氣象領(lǐng)域人體舒適度指數(shù)研究基礎(chǔ)和關(guān)鍵在于體感溫度的研究[6]。目前,對(duì)體感溫度的預(yù)報(bào)多為基于數(shù)值天氣預(yù)報(bào)模式預(yù)報(bào)的溫度、風(fēng)速和相對(duì)濕度的結(jié)果計(jì)算得到[7]。因此,對(duì)體感溫度的預(yù)報(bào)能力取決于數(shù)值天氣預(yù)報(bào)對(duì)溫度、風(fēng)速和相對(duì)濕度等氣象要素的預(yù)報(bào)能力。過(guò)去40 a數(shù)值天氣預(yù)報(bào)的預(yù)報(bào)水平不斷提高[8],但由于大氣系統(tǒng)存在混沌行為、人們對(duì)天氣氣候系統(tǒng)的物理機(jī)制認(rèn)識(shí)不夠、以及對(duì)外強(qiáng)迫的不準(zhǔn)確描述等原因,導(dǎo)致數(shù)值天氣預(yù)報(bào)的不確定性[9-10],所以難以做到絕對(duì)準(zhǔn)確。
受制于數(shù)值天氣預(yù)報(bào)對(duì)單一氣象要素的預(yù)報(bào)不確定性,對(duì)多氣象要素非線性組合得到的體感溫度預(yù)報(bào)也存在不確定性,數(shù)值天氣預(yù)報(bào)需要模式后處理方法來(lái)提高對(duì)氣象要素的預(yù)報(bào)能力。利用統(tǒng)計(jì)方法如模式輸出統(tǒng)計(jì)MOS[11]、相似集合AnEn[12]、卡爾曼濾波KF[13-14]等,可在數(shù)值天氣預(yù)報(bào)模式預(yù)報(bào)的變量和目標(biāo)預(yù)報(bào)量之間構(gòu)建一個(gè)統(tǒng)計(jì)關(guān)系,以此對(duì)數(shù)值模式輸出結(jié)果進(jìn)行后處理訂正預(yù)報(bào),這種方法結(jié)合了物理模擬(數(shù)值模式)和數(shù)據(jù)驅(qū)動(dòng)(統(tǒng)計(jì)方法)的優(yōu)勢(shì)——以物理模擬來(lái)實(shí)現(xiàn)對(duì)環(huán)境大氣趨勢(shì)的預(yù)測(cè)結(jié)合數(shù)據(jù)驅(qū)動(dòng)來(lái)實(shí)現(xiàn)對(duì)高分辨率局地特征的統(tǒng)計(jì),在一定程度上可以提高數(shù)值天氣預(yù)報(bào)對(duì)氣象要素的預(yù)報(bào)能力。
機(jī)器學(xué)習(xí)可以在不完全理解物理過(guò)程的情況下得到結(jié)果,以及可以相對(duì)容易的處理多種不同的數(shù)據(jù)源,機(jī)器學(xué)習(xí)對(duì)科學(xué)和技術(shù)的發(fā)展越來(lái)越重要[15]。近年大量氣象研究工作中應(yīng)用了機(jī)器學(xué)習(xí)方法[16-18]。機(jī)器學(xué)習(xí)也被作為后處理技術(shù)提高數(shù)值天氣預(yù)報(bào)模式的預(yù)報(bào)能力[19-21]。
本研究旨在基于歐洲中期天氣預(yù)報(bào)中心(ECMWF)數(shù)值天氣預(yù)報(bào)模式的輸出,利用機(jī)器學(xué)習(xí)算法提高對(duì)體感溫度的預(yù)報(bào)。第24屆冬奧會(huì)、冬殘奧會(huì)于2022年在北京城區(qū)、延慶賽區(qū)和河北張家口賽區(qū)舉行。冰雪運(yùn)動(dòng)項(xiàng)目與氣象條件關(guān)系密切,同時(shí)冬季戶外大型賽事也對(duì)氣象服務(wù)提出了嚴(yán)苛要求,作為氣象服務(wù)中的體感溫度預(yù)報(bào)可為運(yùn)動(dòng)員、服務(wù)人員和觀眾提供直觀的冷熱感覺參考,具有現(xiàn)實(shí)意義。因而本研究選擇北京地區(qū)為目標(biāo)研究區(qū)域,并著重研究冬季體感溫度的預(yù)報(bào)。
體感溫度主要受溫度、風(fēng)速和相對(duì)濕度等氣象要素的綜合影響,在以往的研究中已有廣泛的認(rèn)識(shí)[22-23]。研究使用的是呂偉林[1]的體感溫度經(jīng)驗(yàn)計(jì)算公式,該公式以溫度、風(fēng)速、相對(duì)濕度和太陽(yáng)輻射來(lái)計(jì)算體感溫度,具體為:
Tg=T+Tu+Tf+Tr。
(1)
式中:Tg為體感溫度;T為氣溫;Tu為空氣相對(duì)濕度修正項(xiàng);Tf為風(fēng)速修正項(xiàng);Tr為太陽(yáng)輻射修正項(xiàng)。
(2)
其中:u為相對(duì)濕度,而ut定義為靜風(fēng)、非太陽(yáng)直射條件下體感溫度等于氣溫時(shí)的相對(duì)濕度:
(3)
風(fēng)速修正項(xiàng)Tf為:
(4)
其中:V為風(fēng)速。
太陽(yáng)輻射修正項(xiàng)為:
Tr=0.42Ca(1-0.9Mc)Ia,
(5)
式中:Ca為所著衣物對(duì)太陽(yáng)輻射的吸收能力,衣物顏色越深,吸收輻射能力越強(qiáng),對(duì)體感溫度的增益效果越高。從夏季多數(shù)人衣著顏色偏淺、冬季多數(shù)人衣著顏色偏深這一特點(diǎn)考慮,夏半年Ca定為0.4,冬半年Ca定為0.75;Mc為云量系數(shù),云量越多,輻射增溫效果越弱,由于站點(diǎn)觀測(cè)中并沒有云量資料,所以使用降水資料進(jìn)行代替,晴天時(shí)為0,降水時(shí)為1.0;Ia為輻射增溫系數(shù),其中夏季為1.2,春、秋季為0.9,冬季為0.4。
采用2015年1月—2017年11月北京地區(qū)20個(gè)氣象觀測(cè)站的逐小時(shí)氣溫、相對(duì)濕度、風(fēng)速數(shù)據(jù),基于該數(shù)據(jù)用公式(1)計(jì)算體感溫度作為真值數(shù)據(jù)(機(jī)器學(xué)習(xí)標(biāo)注數(shù)據(jù))。站點(diǎn)詳細(xì)信息及缺失(或異常)數(shù)據(jù)占該站點(diǎn)所有數(shù)據(jù)比例如表1所示。由表可見,北京地區(qū)20個(gè)氣象觀測(cè)站的數(shù)據(jù)存在不同程度上的缺失,約2.0%~5.0%。需要對(duì)缺測(cè)資料進(jìn)行必要的數(shù)據(jù)插補(bǔ),才能保證資料的連續(xù)性。對(duì)于缺測(cè)資料的恢復(fù),常使用鄰站未缺測(cè)資料進(jìn)行比較其差值,基于差值進(jìn)行恢復(fù)?;蛘呃孟噜從攴葙Y料做線性內(nèi)插來(lái)恢復(fù)[24]。選取1個(gè)站點(diǎn)連續(xù)3 d的氣溫變化數(shù)據(jù),可以直觀的發(fā)現(xiàn)數(shù)據(jù)的缺失,如圖1紅色實(shí)線所示。
為了能更充分地利用數(shù)據(jù),使用缺失數(shù)據(jù)前后的正常數(shù)據(jù)構(gòu)造插值函數(shù),如下:
表1 北京地區(qū)20個(gè)氣象觀測(cè)站信息Table 1 Information of twenty meteorological observations stations in Beijing
(6)
其中:(xi,yi)和(xj,yj)分別表示缺失值前后的時(shí)間和氣象要素?cái)?shù)值,建立線性模型,然后對(duì)缺失時(shí)刻進(jìn)行插補(bǔ),得到了較好的結(jié)果,如圖1藍(lán)色虛線所示。
圖1 插補(bǔ)前后氣溫變化對(duì)比圖(以2015年1月1日00時(shí)(世界時(shí),下同)—3日23時(shí)為例)Fig.1 Comparison of temperature changes before and after interpolation(0000 UTC on January 1 to 2300 UTC on January 3, 2015)
模式預(yù)報(bào)數(shù)據(jù)使用歐洲中期天氣預(yù)報(bào)中心(European Centre for Medium-Range Weather Forecasts,ECMWF)數(shù)值天氣預(yù)報(bào)模式輸出氣象要素。每天按照所使用的初值分為00時(shí)(世界時(shí),下同)與12時(shí)給出2個(gè)時(shí)次的預(yù)報(bào),時(shí)間分辨率為:0~72 h逐3 h分辨率、72~240 h逐6 h分辨率;空間分辨率中近地面分辨率為0.125°×0.125°,高空分辨率為0.25°×0.25°;時(shí)間范圍為:2015年1月—2017年11月;空間范圍選華北地區(qū)(35°~45°N,110°~ 120°E)。
考慮到世界時(shí)和北京時(shí)存在8 h時(shí)差,本研究把ECMWF數(shù)據(jù)時(shí)間和觀測(cè)時(shí)間做了匹配,將北京時(shí)轉(zhuǎn)換為ECMWF數(shù)據(jù)對(duì)應(yīng)的世界時(shí)。
選取44個(gè)預(yù)報(bào)氣象要素,包括地面層預(yù)報(bào)場(chǎng)包括2 m溫度、2 m露點(diǎn)溫度、表面溫度、10 m東西風(fēng)、100 m東西風(fēng)、10 m南北風(fēng)、100 m南北風(fēng)、海面溫度、大氣柱水總量、大氣柱水汽總量、平均海平面氣壓、零度層、總云量、低云量、預(yù)報(bào)反照率、對(duì)流有效位能、降雪量、雪深、總降水量、大尺度降水;氣壓層預(yù)報(bào)場(chǎng)包括500、850 hPa的溫度、東西風(fēng)、南北風(fēng),500、850、1 000 hPa的相對(duì)濕度、比濕、散度、垂直速度、位勢(shì)高度、位勢(shì)渦度。
研究設(shè)計(jì)了3種方案進(jìn)行對(duì)比試驗(yàn),分別分析3種方案的預(yù)測(cè)效果,以選擇最優(yōu)方案進(jìn)行體感溫度的預(yù)報(bào):
方案一為利用模式預(yù)報(bào)的氣溫、風(fēng)速、相對(duì)濕度直接計(jì)算體感溫度作為預(yù)測(cè)結(jié)果,此方案為參照方案;
方案二為將ECMWF輸出的44個(gè)氣象要素作為機(jī)器學(xué)習(xí)模型的輸入X,站點(diǎn)觀測(cè)計(jì)算得到的體感溫度作為模型的輸出Y,構(gòu)建兩種機(jī)器學(xué)習(xí)模型(多元線性回歸和梯度提升回歸樹)進(jìn)行預(yù)測(cè);
方案三為使用ECMWF輸出的氣象要素組合首先計(jì)算出體感溫度,再使用MOS方法進(jìn)行統(tǒng)計(jì)預(yù)報(bào)。因MOS方法作為經(jīng)典的模式后處理訂正方法[11]應(yīng)用最為廣泛,此方案定義為基于傳統(tǒng)統(tǒng)計(jì)方法做預(yù)測(cè)的代表性參照試驗(yàn)。
如上所述,方案二使用的是機(jī)器學(xué)習(xí)算法構(gòu)建模型,對(duì)其構(gòu)建相應(yīng)的機(jī)器學(xué)習(xí)數(shù)據(jù)集,將1.2節(jié)中處理得到的代表真值的體感溫度作為監(jiān)督學(xué)習(xí)中的標(biāo)注(label)。
BNP屬于多肽類激素一種,是心血管系統(tǒng)的一種具有生物活性的重要激素,能在心肌受損時(shí)快速入血進(jìn)行調(diào)節(jié),能夠靈敏的反映出心肌受損的情況[6],并且與心肌受損程度正相關(guān),心肌損傷越嚴(yán)重BNP水平越高,它是一種常用且有效的心衰檢測(cè)指標(biāo)。目前BNP已被納入心衰診斷指南,用于心衰患者的預(yù)測(cè)和診斷工作。本研究中,鉤藤人參高劑量組BNP水平與卡托普利組BNP水平相近,并明顯低于模型組,說(shuō)明鉤藤人參高劑量組在降低HCHF大鼠BNP水平,改善心功能方面效果顯著。
圖2 GBRT示意圖Fig.2 GBRT schematic
將每套數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。訓(xùn)練集用于生成預(yù)測(cè)模型,測(cè)試集進(jìn)行實(shí)際預(yù)測(cè)。以2015年1月16日—2017年1月19日的數(shù)據(jù)集作為訓(xùn)練集(占數(shù)據(jù)集93%),2017年1月20日—3月13日的數(shù)據(jù)集作為測(cè)試集(占數(shù)據(jù)集7%)。實(shí)際需要用到的預(yù)報(bào)時(shí)效是從最近的起報(bào)時(shí)間開始第12~72 h逐3 h間隔和第78~240 h逐6 h間隔共49個(gè)時(shí)效(舍棄3 h、6 h、9 h是考慮了北京地區(qū)獲得ECMWF模式預(yù)報(bào)數(shù)據(jù)的計(jì)算和傳輸延遲)。
2.2.1 模式輸出統(tǒng)計(jì)預(yù)報(bào)方法
(7)
2.2.2 多元線性回歸(Linear Regression,LR)
線性模型利用輸入特征的線性函數(shù)進(jìn)行預(yù)測(cè),是回歸問(wèn)題最簡(jiǎn)單也是最經(jīng)典的線性方法。對(duì)于回歸問(wèn)題,線性模型預(yù)測(cè)的一般公式如下:
(8)
2.2.3 梯度提升回歸樹
梯度提升回歸樹(Gradient Booosting Regression Tree,GBRT)是由Friedman[28]提出的一種迭代的決策樹算法,該算法的基本思想是通過(guò)構(gòu)建M個(gè)弱學(xué)習(xí)器,經(jīng)過(guò)多次迭代最終組合而成一個(gè)強(qiáng)學(xué)習(xí)器[29]。GBRT作為回歸樹的一種,相對(duì)于一般決策樹算法具有防止過(guò)擬合、泛化能力較強(qiáng)等優(yōu)點(diǎn)。
模型預(yù)測(cè)的時(shí)候,對(duì)于輸入的一個(gè)樣本實(shí)例,首先會(huì)賦予一個(gè)初值,然后會(huì)遍歷每一棵決策樹,每棵樹都會(huì)對(duì)預(yù)測(cè)值進(jìn)行調(diào)整修正,最終的結(jié)果是將每一棵決策樹的結(jié)果進(jìn)行累加得到的最后得到預(yù)測(cè)的結(jié)果,如圖2及公式(9)所示,
F(x)=F0+β1T1(X)+β2T2(X)+…+
βMTM(X),
(9)
其中:F0為初值;β為權(quán)重系數(shù);T(X)為每一顆決策樹的結(jié)果。
GBRT有兩類重要的參數(shù);一是Boosting框架的重要參數(shù),二是弱學(xué)習(xí)器即CART回歸樹的重要參數(shù)。本文主要使用了第一類中的n_estimators(最大的弱學(xué)習(xí)器個(gè)數(shù),即迭代次數(shù),過(guò)小會(huì)欠擬合,過(guò)大又容易過(guò)擬合)、learning_rate(每個(gè)弱學(xué)習(xí)器的權(quán)重縮減系數(shù),即步長(zhǎng),此值較小意味著需要更多的弱學(xué)習(xí)器的迭代次數(shù)),以上兩個(gè)參數(shù)要一起調(diào)試,開始選擇一個(gè)較小的步長(zhǎng)來(lái)網(wǎng)格搜索最好的迭代次數(shù),改變步長(zhǎng)再次網(wǎng)格搜索,針對(duì)本文中的數(shù)據(jù)集,n_estimators和learning_rate分別設(shè)置為240和0.01。還設(shè)置了subsample(子采樣率,GBRT采用的是不放回抽樣),取值為1時(shí),代表所有樣本都采用,即沒有進(jìn)行子采樣;小于1時(shí)可以減小方差,防止過(guò)擬合,但也會(huì)增加樣本擬合的偏差,同樣對(duì)其進(jìn)行網(wǎng)格搜索,定為0.6。對(duì)于CART回歸樹的參數(shù),最大特征數(shù)max_features默認(rèn)為None,這是因?yàn)楸疚妮斎氲臍庀笠靥卣鳛?4個(gè),特征數(shù)不多為None時(shí)即考慮所有的特征數(shù);決策樹最大深度max_depth設(shè)置為取決于樣本和特征的數(shù)量,一般為10~100,具體數(shù)值取決于數(shù)據(jù)的分布,包括樣本量和特征量,本文設(shè)置為13。葉子節(jié)點(diǎn)最少樣本數(shù)min_samples_leaf限制了葉子節(jié)點(diǎn)最少的樣本數(shù),也受樣本數(shù)量級(jí)的影響,設(shè)置為10。其他參數(shù)均為默認(rèn)。
在進(jìn)行調(diào)參時(shí),首先從n_estimators和learning_rate進(jìn)行調(diào)試,控制learning_rate對(duì)n_estimators進(jìn)行網(wǎng)格搜索;再對(duì)max_depth和min_samples_leaf進(jìn)行網(wǎng)格搜索,得出最優(yōu)值;由于本文的特征數(shù)較少,可直接將max_features設(shè)置為None;最后考慮子采樣網(wǎng)格搜索,得到subsample的尋優(yōu)參數(shù)。而在實(shí)際問(wèn)題的應(yīng)用中,調(diào)參雖然會(huì)獲得更好的預(yù)測(cè)結(jié)果,但也會(huì)消耗較多的調(diào)參時(shí)間,如何選擇合適的算法使相關(guān)問(wèn)題得到又快又準(zhǔn)確的解決也是機(jī)器學(xué)習(xí)乃至人工智能面臨的一個(gè)挑戰(zhàn)。
2.2.4 檢驗(yàn)方法
為了更好地評(píng)價(jià)預(yù)測(cè)體感溫度的各個(gè)方法與算法,我們采用均方根誤差來(lái)對(duì)預(yù)測(cè)結(jié)果進(jìn)行檢驗(yàn)。均方根誤差(Root Mean Square Error, RMSE)是觀測(cè)值與真值偏差的平方與觀測(cè)次數(shù)比值的平方根,是回歸任務(wù)最常用的性能度量。
(10)
其中:f為所采用的算法模型;D為劃分的數(shù)據(jù)集;K為數(shù)據(jù)集D的樣本總數(shù);xk為第k個(gè)樣本的輸入;yk為第k個(gè)樣本的標(biāo)記(對(duì)應(yīng)本文中的體感溫度)。
為更好的觀察預(yù)測(cè)結(jié)果,將LR、GBRT、MOS分別與ECMWF的均方根誤差進(jìn)行比較,定義3種算法的結(jié)果為Rn,ECMWF的結(jié)果為Re,可得提升效果R的計(jì)算公式如下:
(11)
圖3 ECMWF、MOS和兩種機(jī)器學(xué)習(xí)模型的預(yù)測(cè)均方根誤差隨預(yù)報(bào)時(shí)效的變化Fig.3 Prediction of RMSEs for ECMWF, MOS and other two machine learning models with forecasting time
用4種方法分別對(duì)49個(gè)預(yù)測(cè)時(shí)效進(jìn)行預(yù)測(cè),分別計(jì)算均方根誤差并將20個(gè)站點(diǎn)的結(jié)果平均,結(jié)果如圖3所示?;贚R、 GBRT、 MOS和ECMWF模式預(yù)報(bào)得到的平均RMSE分別是3.12、3.06、3.45、4.06℃。即線性回歸和GBRT明顯優(yōu)于其他兩種,傳統(tǒng)的MOS對(duì)ECMWF的提升效果只有15%;總體而言,隨著預(yù)測(cè)時(shí)效的增長(zhǎng),4種方法的均方根誤差都呈現(xiàn)增大態(tài)勢(shì)。
從時(shí)間上分析,均方根誤差的分布可分為兩個(gè)階段:當(dāng)預(yù)報(bào)時(shí)效小于144 h時(shí),4種方法的預(yù)測(cè)效果呈現(xiàn)穩(wěn)定的日循環(huán)特征,相鄰日期之間的RMSE并沒有很大的差異。以ECMWF為例,當(dāng)預(yù)報(bào)時(shí)效大于12 h且小于36 h時(shí),ECMWF預(yù)報(bào)的RMSE由4.61 ℃下降到3.02℃并迅速回升到4.57℃,1 d內(nèi)平均均方根誤差為3.92℃。采用相同的方法計(jì)算36~60 h,平均均方根誤差為3.72℃,差距較小。但若進(jìn)一步分析LR和GBRT,可以看到日變化的最低點(diǎn)隨時(shí)效增長(zhǎng)逐漸升高,日平均均方根誤差逐漸增大,即預(yù)報(bào)時(shí)效越長(zhǎng),預(yù)報(bào)效果越差。當(dāng)預(yù)報(bào)時(shí)效大于144 h,日循環(huán)特征不再顯著,這既是由于RMSE隨預(yù)報(bào)時(shí)效的增大長(zhǎng)而變大,也是因?yàn)?0個(gè)站點(diǎn)的預(yù)測(cè)效果不同,兩者共同作用導(dǎo)致進(jìn)行平均處理后就抵消掉了日循環(huán)特征,其中LR和GBRT相比MOS較早的出現(xiàn)了消失現(xiàn)象。日循環(huán)現(xiàn)象是ECMWF的本身特點(diǎn),因此在此基礎(chǔ)上進(jìn)行訂正的3種方法也同樣具有了這種現(xiàn)象。
從方法上分析,首先4種預(yù)測(cè)方法都遵循預(yù)報(bào)時(shí)效越長(zhǎng),預(yù)報(bào)效果越差這一客觀事實(shí)。通過(guò)公式(11)計(jì)算3種算法相比于ECMWF的提升度,如表2所示。其次,選取機(jī)器學(xué)習(xí)方法GBRT、傳統(tǒng)統(tǒng)計(jì)方法MOS與ECMWF進(jìn)行比較:在12~72 h短期預(yù)報(bào)范圍內(nèi),3種方法預(yù)測(cè)的平均均方根誤差分別為2.72、3.07和3.73℃,GBRT和MOS相比ECMWF分別提升了27%和17%;在72~240 h中期預(yù)報(bào)范圍內(nèi),3種方法的平均均方根誤差分別為3.29、3.69和4.27℃,GBRT和MOS相比ECMWF分別提升了22%和13%,機(jī)器學(xué)習(xí)方法預(yù)報(bào)效果變差,但仍比MOS要好,這體現(xiàn)出了機(jī)器學(xué)習(xí)在體感溫度短中期預(yù)報(bào)這一方面的優(yōu)勢(shì),也彰顯了使用機(jī)器學(xué)習(xí)進(jìn)行天氣要素預(yù)報(bào)的必要性。
表2 3種算法提升度Table 2 The degree of improvement of the three algorithms
將20個(gè)站點(diǎn)的預(yù)測(cè)結(jié)果呈現(xiàn)在北京地區(qū)(39.6°~40.8°N,115.5°~117.2°E),如圖4所示,可以進(jìn)一步觀察到均方根誤差隨時(shí)效的增長(zhǎng)而逐漸變大,4種方法對(duì)中長(zhǎng)期的預(yù)報(bào)呈現(xiàn)疲軟態(tài)勢(shì)。通過(guò)統(tǒng)計(jì)站點(diǎn)的數(shù)目,可以發(fā)現(xiàn)其他3種方法相比ECMWF都要具有更好的預(yù)測(cè)效果,其中線性回歸在12~36 h具有更好的預(yù)測(cè)能力(平均RMSE為2.70℃),而GBRT在216~240 h中具有更好的預(yù)測(cè)能力(平均RMSE為4.01℃),與圖3中20個(gè)站點(diǎn)的平均結(jié)果相符。
進(jìn)一步分析表明,在12~36 h和60~84 h時(shí),ECMWF對(duì)20個(gè)站點(diǎn)的預(yù)報(bào)效果差異明顯(圖d1和圖d2),尤其北部的佛爺頂、湯河口和上甸子站點(diǎn)(處于40.6°~40.8°N),均方根誤差分別是9.13、8.01和5.78℃(12~36 h和60~84 h取平均,下同),在同時(shí)段相對(duì)于其他17個(gè)站點(diǎn)偏高(平均RMSE為3.4℃)。在采用3種算法訂正后,MOS能對(duì)3個(gè)站點(diǎn)起到一定的訂正效果,RMSE分別是:4.55、4.02和3.50℃,LR和GBRT取得了更好的訂正效果,RMSE分別是:3.02、3.13和2.75℃,2.89、3.20和2.74℃。
216~240 h時(shí)均方根誤差增大,LR和MOS訂正后的空間差異不明顯,站點(diǎn)的均方根誤差多分布在4~5℃。但GBRT仍存在空間差異(圖b3),以40.2°N為分界線,南部13個(gè)站點(diǎn)的平均RMSE為3.86℃,北部7個(gè)站點(diǎn)的平均RMSE為4.30℃,有明顯的南北差異。
綜上,3種訂正方法對(duì)北京地區(qū)站點(diǎn)的預(yù)測(cè)效果大致呈現(xiàn)北差南好的態(tài)勢(shì),這是因?yàn)樗鼈冊(cè)贓CMWF(也呈現(xiàn)“北差南好”的特點(diǎn),如圖d1、d2和d3所示)的基礎(chǔ)上進(jìn)行訂正。而ECMWF具有此特點(diǎn)是因?yàn)槠渚W(wǎng)格點(diǎn)和地面站點(diǎn)的高程差會(huì)導(dǎo)致誤差[30],同時(shí)北京的西北部多為山區(qū),站點(diǎn)海拔較高,所以會(huì)出現(xiàn)此南北差異。
圖4 (a1—a3) LR、(b1—b3) GBRT、(c1—c3) MOS和(d1—d3) ECMWF在20個(gè)站點(diǎn)上不同時(shí)效下逐6 h平均的預(yù)測(cè)結(jié)果(RMSE, 單位: ℃;其中高海拔站點(diǎn)在d3中用“△”框出): (a1、b1、c1、d1) 12 ~ 36 h; (a2、b2、c2、d2) 60 ~ 84 h; (a3、b3、c3、d3) 216 ~ 240 h Fig.4 (a1-a3) LR, (b1-b3) GBRT, (c1-c3) MOS and (d1-d3) ECMWF prediction results at 20 stations average by six hours in different models(RMSE, unit:℃; high altitude stations are boxed with “△” in d3): (a1, b1, c1, d1) from 12 h to 36 h;(a2,b2,c2,d2) from 60 h to 84 h; (a3,b3,c3,d3) from 216 h to 240 h
對(duì)20個(gè)站點(diǎn)分別進(jìn)行預(yù)測(cè)時(shí),發(fā)現(xiàn)預(yù)測(cè)結(jié)果在不同海拔的站點(diǎn)上效果不同。訂正效果在高海拔站點(diǎn)十分明顯,這一點(diǎn)在圖4中也得到印證,即使用機(jī)器學(xué)習(xí)預(yù)測(cè)高山站有著較好的提升效果。
如圖5,定義高度大于200 m的站點(diǎn)為高海拔站點(diǎn),將高海拔站點(diǎn)(延慶、佛爺頂、湯河口、上甸子、齋堂、霞云嶺,見圖4d3)和低海拔站點(diǎn)(觀象臺(tái)、昌平、朝陽(yáng)、大興、房山、豐臺(tái)、懷柔、門頭溝、平谷、順義、通州、海淀、密云、石景山)的預(yù)測(cè)結(jié)果分別取平均,可以看到對(duì)高山站使用機(jī)器學(xué)習(xí)預(yù)測(cè)體感溫度獲得的訂正效果優(yōu)于ECMWF的預(yù)報(bào)數(shù)據(jù)和MOS預(yù)測(cè)方法,這是由于在同一經(jīng)緯度下,溫度、氣壓等要素會(huì)隨著高度的變化而變,但是ECMWF分辨率太低(約13 km),其結(jié)果不能細(xì)致刻畫局地地形、海拔等特征,在對(duì)高山站進(jìn)行預(yù)報(bào)時(shí)就會(huì)出現(xiàn)較大的誤差。監(jiān)督學(xué)習(xí)的目的在于學(xué)習(xí)一個(gè)由輸入到輸出的映射,這一映射由模型來(lái)表示。簡(jiǎn)而言之,學(xué)習(xí)的目的就在于找到最好的這樣的模型[31]。使用高山站點(diǎn)的觀測(cè)數(shù)據(jù)作為標(biāo)記,對(duì)模型的訓(xùn)練有了更準(zhǔn)確的參考,這也是使用機(jī)器學(xué)習(xí)進(jìn)行體感溫度預(yù)測(cè)的目的之一。
圖5 高海拔和低海拔站點(diǎn)的預(yù)測(cè)均方根誤差對(duì)比(單位:℃)Fig.5 Comparison of RMSE of high altitude and low altitude stations(unit:℃)
圖3結(jié)果表明3種算法訂正效果對(duì)比ECMWF的預(yù)報(bào)數(shù)據(jù)有更好的預(yù)報(bào)效果,其中多元線性回歸與GBRT的表現(xiàn)比較接近,因此將多元線性回歸與GBRT進(jìn)行單獨(dú)比較(圖6)。由圖可見,當(dāng)預(yù)報(bào)時(shí)效較短時(shí),兩種算法的準(zhǔn)確率不相上下;當(dāng)預(yù)報(bào)時(shí)效增長(zhǎng)時(shí),GBRT逐漸展現(xiàn)出優(yōu)勢(shì)。這是由于當(dāng)預(yù)報(bào)時(shí)效較短時(shí),線性模型在ECMWF的基礎(chǔ)上結(jié)合站點(diǎn)真值已經(jīng)能夠最大限度地進(jìn)行預(yù)測(cè),當(dāng)選取算法結(jié)構(gòu)復(fù)雜的GBRT時(shí),預(yù)測(cè)結(jié)果已得不到提升。當(dāng)預(yù)報(bào)時(shí)效增長(zhǎng)時(shí),ECMWF的預(yù)測(cè)結(jié)果變差,結(jié)構(gòu)簡(jiǎn)單的線性模型不能很好的分析數(shù)據(jù)特征,這時(shí)就需要GBRT或者其他相對(duì)復(fù)雜的算法來(lái)進(jìn)一步分析數(shù)據(jù),提取隱藏于特征中的規(guī)律,從而提高預(yù)測(cè)效果。
圖6 LR與GBRT預(yù)測(cè)結(jié)果的均方根誤差比較(單位:℃;線線表示102 h)Fig.6 Comparison of root mean square errors between LR and GBRT prediction results (units: ℃; green line indicate 102 h)
結(jié)果表明,當(dāng)預(yù)報(bào)時(shí)效小于102 h(圖6中綠線所處時(shí)效),優(yōu)先選擇線性回歸模型,因?yàn)槠錅?zhǔn)確率高、易于操作、復(fù)雜度小;當(dāng)預(yù)報(bào)時(shí)效大于102 h,選用GBRT模型去獲得更好的準(zhǔn)確率。
基于氣象站觀測(cè)數(shù)據(jù),結(jié)合ECMWF的模式預(yù)報(bào)數(shù)據(jù),本文提出了基于機(jī)器學(xué)習(xí)的模式預(yù)報(bào)訂正后處理思路,應(yīng)用于北京地區(qū)地面體感溫度預(yù)報(bào),使用兩種機(jī)器學(xué)習(xí)算法與傳統(tǒng)MOS方法進(jìn)行體感溫度的訂正預(yù)測(cè)并進(jìn)行對(duì)比評(píng)估,結(jié)論如下:
(1)3種算法訂正效果對(duì)比ECMWF的預(yù)報(bào)數(shù)據(jù)有更好的預(yù)報(bào)效果,其中多元線性回歸與GBRT的表現(xiàn)明顯優(yōu)于其他兩種方法,但隨著預(yù)測(cè)時(shí)間的延長(zhǎng),預(yù)測(cè)效果都出現(xiàn)了不同程度的下降;針對(duì)多元線性回歸和GBRT,兩種算法都表現(xiàn)了很好的預(yù)測(cè)效果,具體應(yīng)用時(shí),可以不再使用單一的預(yù)測(cè)模型,而是根據(jù)預(yù)測(cè)效果結(jié)合模型的復(fù)雜程度進(jìn)行算法選擇,組建集成預(yù)報(bào)模型進(jìn)行預(yù)報(bào)。
(2)在對(duì)華北地區(qū)20個(gè)站點(diǎn)的預(yù)測(cè)中,使用機(jī)器學(xué)習(xí)的訂正效果不僅在平原地區(qū)取得了較好的效果,在高海拔站點(diǎn)的訂正效果更加突出。一方面因?yàn)楹0巫兓髿鉁?、氣壓等隨之變化,體感溫度也變化,ECMWF不能對(duì)特定高度的站點(diǎn)進(jìn)行準(zhǔn)確的預(yù)報(bào);另一方面是由于監(jiān)督學(xué)習(xí)的優(yōu)勢(shì),站點(diǎn)的觀測(cè)數(shù)據(jù)對(duì)模型的構(gòu)建有了很好的參考。