李 韜,王 磊,李月英,石美亮
衡水市氣象局,河北衡水 053000
氣象要素預(yù)報(bào)是以動力氣象學(xué)、天氣學(xué)、統(tǒng)計(jì)學(xué)以及氣象觀測資料等原理與數(shù)據(jù)為參考依據(jù),根據(jù)某一區(qū)域的天氣演變規(guī)律和氣候背景,對這一區(qū)域未來一定時段內(nèi)的天氣狀態(tài)做出定性或者定量的預(yù)測。而精細(xì)化格點(diǎn)氣象要素預(yù)報(bào)是一種將地區(qū)按既定范圍劃分成格點(diǎn)狀,以格點(diǎn)為單位做超精細(xì)化的格點(diǎn)氣象要素預(yù)報(bào)。精細(xì)化格點(diǎn)氣象要素預(yù)報(bào)是在所預(yù)報(bào)的地域生成所設(shè)定大小的分辨率格點(diǎn),每個格點(diǎn)代表了一定區(qū)域范圍內(nèi)的實(shí)時風(fēng)速、比濕、高度、溫度等各類氣象要素預(yù)報(bào)值,與傳統(tǒng)數(shù)值預(yù)報(bào)相比,精細(xì)化程度明顯提升。精細(xì)化格點(diǎn)氣象要素預(yù)報(bào)是未來天氣預(yù)報(bào)發(fā)展的主要方向。隨著國內(nèi)外氣象學(xué)者對機(jī)器學(xué)習(xí)技術(shù)的不斷深入研究,段文廣[1]等提出BP神經(jīng)網(wǎng)絡(luò)進(jìn)行精細(xì)化溫度預(yù)報(bào)的方法,該方法基于時序分析技術(shù),通過在歷史序列的溫度樣本進(jìn)行迭代學(xué)習(xí)來建立預(yù)測模型。門曉磊[2]等基于機(jī)器學(xué)習(xí)的3種后處理模型和4個數(shù)值天氣預(yù)報(bào)模式對氣溫預(yù)報(bào)進(jìn)行了多模式集合預(yù)報(bào)分析,效果表現(xiàn)較好。郭瀚陽[3]等通過深度學(xué)習(xí)對強(qiáng)對流高分辨率臨近預(yù)報(bào)進(jìn)行試驗(yàn),發(fā)現(xiàn)相較傳統(tǒng)外推臨近預(yù)報(bào)方法,在強(qiáng)對流回波臨近預(yù)報(bào)準(zhǔn)確率上有較明顯的提高。方穎等[4-7]將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用與氣象因子的預(yù)報(bào)訂和正領(lǐng)域,具有明顯的提升效果。
本文采用目前較為常用的隨機(jī)森林方法,對ECMWF數(shù)值天氣預(yù)報(bào)模式預(yù)測的2 m溫度進(jìn)行訂正。首先基于ECMWF模式計(jì)算所得的各種要素特征進(jìn)行特征選擇,即通過隨機(jī)森林算法獲得相關(guān)要素特征集,再以選擇的特征集進(jìn)行隨機(jī)森林建模,對ECMWF預(yù)測的未來3~24 h逐3 h溫度進(jìn)行訂正。為實(shí)現(xiàn)溫度的精細(xì)化預(yù)報(bào)提供新的方法和思路。
選取衡水站、石家莊站、邢臺站3個國家氣象觀測站。
模式資料來源于歐洲中期天氣預(yù)報(bào)中心,包含ECMWF數(shù)值天氣預(yù)報(bào)模式的各標(biāo)準(zhǔn)等壓面的溫濕度和近地面的風(fēng)、溫度、露點(diǎn)溫度、3 h降水量、海平面氣壓、地表溫度、總云覆蓋等歷史資料,資料時間序列為2015—2016年。模式起報(bào)時間均為20:00(北京時間),分辨率均為0.125°(緯度)×0.125°(經(jīng)度)。選取模式預(yù)報(bào)時效為03:00~24:00,時間間隔為3 h。實(shí)況數(shù)據(jù)是地面觀測站的1.5 m實(shí)況氣溫?cái)?shù)據(jù)。
從原始模式數(shù)據(jù)中提取出格點(diǎn)的各標(biāo)準(zhǔn)等壓面的溫、濕度和近地面的風(fēng)、溫度、露點(diǎn)溫度、3 h降水量、海平面氣壓、地表溫度、總云覆蓋等資料。所使用方法為線性插值,3個站點(diǎn)插值坐標(biāo)為石家莊、衡水和邢臺。
為排除因系統(tǒng)故障或者數(shù)據(jù)存儲等原因造成的數(shù)據(jù)丟失、重復(fù)、錯誤等問題,需要對模式預(yù)報(bào)格點(diǎn)數(shù)據(jù)進(jìn)行清洗。同時為了滿足特殊網(wǎng)絡(luò)模型結(jié)構(gòu)的需要,還要對數(shù)據(jù)進(jìn)行轉(zhuǎn)換、重構(gòu)等預(yù)處理。在進(jìn)行數(shù)據(jù)清洗時,重復(fù)值只獲取一次,缺失值則直接刪除。
因收集的數(shù)據(jù)較大,使得模型訓(xùn)練時間過長,同時各個氣象要素的單位不統(tǒng)一,不用要素間的數(shù)值之間可能幾個數(shù)量級的差別,因此還需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)的歸一化的預(yù)處理。本文使用Z-Score算法,計(jì)算公式如下:
將原始數(shù)據(jù)按比例放縮到同一數(shù)量級,其中,x為觀測值,y是氣象要素的總體數(shù)據(jù)均值,σ是總體數(shù)據(jù)的標(biāo)準(zhǔn)差。
基于數(shù)據(jù)驅(qū)動的訂正方法需要從大量模式預(yù)報(bào)數(shù)據(jù)和實(shí)況數(shù)據(jù)中擬合出預(yù)報(bào)與實(shí)況之間的偏差關(guān)系,而模式預(yù)報(bào)數(shù)據(jù)包含要素較多,會影響到模型訓(xùn)練的效果,如何從眾多要素中獲取那些對溫度訂正最有效的關(guān)鍵要素,從而對特征空間維數(shù)進(jìn)行壓縮,即獲取一組“少而精”且回歸誤差小的要素集變得至關(guān)重要。為此,本文在EC預(yù)報(bào)要素與站點(diǎn)實(shí)況溫度基礎(chǔ)上,基于隨機(jī)森林對各氣象要素的重要性進(jìn)行重要性評估,比較特征之間的貢獻(xiàn)大?。ㄔ?~1之間數(shù)值越大代表相關(guān)性越大),篩選出與實(shí)況氣溫相關(guān)性較大的關(guān)鍵要素,進(jìn)行下一步處理。
將EC預(yù)報(bào)的2 m溫度、2 m露點(diǎn)溫度、10 m風(fēng)速等多種要素(表1)進(jìn)行隨機(jī)森林相關(guān)性評估,結(jié)果顯示1 000 hPa溫度相關(guān)系數(shù)為0.525、2 m溫度相關(guān)系數(shù)為0.349、925 hPa氣溫相關(guān)系數(shù)為0.074、850 hPa溫度相關(guān)系數(shù)為0.031、海平面氣壓和地表溫度相關(guān)系數(shù)為0.003、其他要素的重要性均在0.002以下。因此將EC預(yù)報(bào)的1 000 hPa溫度、2 m溫度、925 hPa溫度、850 hPa溫度、海平面氣壓和地表溫度等6個特征量與1個標(biāo)簽(與模式數(shù)據(jù)時間對應(yīng)的站點(diǎn)實(shí)際觀測1.5 m溫度)整合為數(shù)據(jù)集,即數(shù)據(jù)集包含6個特征和1個標(biāo)簽,再將資料(整體數(shù)據(jù)集)隨機(jī)分為訓(xùn)練集合和測試集。測試集為隨機(jī)選取3個站點(diǎn)的各1 000組數(shù)據(jù),剩余數(shù)據(jù)為訓(xùn)練集。
表1 EC預(yù)報(bào)要素
評價指標(biāo)用于分析模型的訂正值和真實(shí)值之間存在的差異,數(shù)值越小說明模型的訂正效果越好。本文選擇用RMSE(Root Mean Squared Error, 均方根誤差)作為衡量訂正模型優(yōu)劣的指標(biāo),RMSE是氣溫頂正值與氣溫實(shí)況值之差的平方和與觀測次數(shù)比值的平方根,其數(shù)學(xué)公式為:
隨機(jī)森林是Breiman提出的一種基于決策樹組合的可用于分類、回歸以及多維數(shù)據(jù)處理的機(jī)器學(xué)習(xí)算法,其基本組成單元為決策樹,基本思想是二分遞歸分割法,在計(jì)算過程中充分利用二叉樹,在一定的分割規(guī)則下將當(dāng)前樣本分割為2個子樣本集,使得生成的決策樹的每個非葉節(jié)點(diǎn)都有2個分枝,這個過程又在子樣本集上重復(fù)進(jìn)行,直至不可再分為葉節(jié)點(diǎn)為止,由于單棵決策樹模型往往精度不高,并且容易出現(xiàn)過擬合現(xiàn)象,因此需要通過聚集多個模型來提高預(yù)測精度。較傳統(tǒng)決策樹算法而言,該算法能夠平衡分布不均勻樣本的誤差,分類精度高,對異常值和噪聲有很好的容忍度[7]。
隨機(jī)森林訂正模型的構(gòu)建和優(yōu)化基于Python語言的scikit-learn類庫實(shí)現(xiàn)。主要工作流程為:(1)有放回的隨機(jī)抽取樣本數(shù)據(jù),形成新樣本集,且大小與原始樣本集保持一致。假設(shè)輸入N 個樣本數(shù)據(jù),那么新的樣本集也是N個,此方法下得到的樣本集可能會有重復(fù)的樣本;(2)無放回隨機(jī)抽取特征。假設(shè)特征數(shù)為m,則中隨機(jī)抽取無重復(fù)的n個特征,作為該決策樹的輸入特征。正是因?yàn)殡S機(jī)森林遵循這兩點(diǎn),才使得隨機(jī)森林在不剪枝的情況下不容易出現(xiàn)過擬合現(xiàn)象。針對本文所研究的訂正問題,將選定的6個EC預(yù)報(bào)要素作為特征輸入隨機(jī)森林訂正模型,建立多個決策樹“森林”(圖1)。本文通過網(wǎng)格搜索算法,從參數(shù)組合中尋找最佳超參數(shù)配置。
圖1 隨機(jī)森林結(jié)構(gòu)示意圖
通過模型對3個站點(diǎn)的EC預(yù)報(bào)2 m溫度進(jìn)行訂正后,發(fā)現(xiàn)訂正后溫度誤差基本都處于正負(fù)2℃范圍內(nèi)(圖2),因此也具有參考性。從表2可知,模型對衡水、石家莊、邢臺的正確訂正率分別為52%、65%、71%,訂正后的3個站點(diǎn)均方跟誤差均減小,也說明模型具有正向訂正能力。邢臺站的均方根誤差從2.27℃降至1.62℃,訂正能力最強(qiáng);石家莊站均方根誤差從2.01℃降至1.58℃,訂正能力略低于邢臺站;衡水站的均方根誤差從1.61℃降至1.55℃,模型對衡水站的訂正能力有限,原因是EC對衡水站的溫度預(yù)報(bào)較為準(zhǔn)確,導(dǎo)致模型較難使訂正溫度準(zhǔn)確率有所提升。
圖2 RF訂正效果散點(diǎn)圖
表2 RF模型結(jié)果
通過對3個站點(diǎn)不同溫度區(qū)間均方根誤差分析發(fā)現(xiàn)(圖3),在衡水站,對0℃~29.9℃范圍的氣溫實(shí)現(xiàn)了有效訂正,且對0℃~9.9℃范圍的訂正能力最強(qiáng),均方根誤差減少了0.3℃,對30℃以上和0℃以下的氣溫?zé)o訂正能力。在對石家莊站的訂正中發(fā)現(xiàn),除30℃以上氣溫訂正為無效訂正外,其他溫度范圍訂正均為有效訂正,且對0℃~9.9℃范圍的訂正能力最強(qiáng),均方根誤差減少了0.7℃,對0℃以下的氣溫訂正能力較弱。在對邢臺站的訂正中,對所有溫度區(qū)間的訂正能力均為正技巧,且對0℃~9.9℃范圍的訂正能力最強(qiáng),均方根誤差減少了0.8℃,對30℃以上和0℃以下的氣溫訂正能力較弱。
圖3 不同溫度區(qū)間的均方根誤差
(1)模型總體而言對3個站點(diǎn)的基本實(shí)現(xiàn)了有效訂正值,因此訂正結(jié)果具有一定的可參考性,且訂正能力最強(qiáng)為邢臺站,石家莊站次之,對衡水站訂正能力有限。
(2)總體而言模型對衡水站的訂正能相對有限,可能原因是衡水地處平原地區(qū),氣象要素變化相對而言簡單,EC對該站的預(yù)報(bào)能力較強(qiáng),導(dǎo)致模型對該站點(diǎn)的訂正較難。
(3)模型對0℃~9.9℃區(qū)間內(nèi)的溫度訂正能力最強(qiáng),對30℃及0℃以下的氣溫訂正能力相對較弱。