陳有龍,寧雨珂,唐榮年,謝小峰
(1. 海南省南海氣象防災(zāi)減災(zāi)重點實驗室,海南 ???570203;2. 海南省氣象臺, 海南 ???570203;3. 海南大學(xué) 機電工程學(xué)院, 海南 ???570228)
數(shù)值預(yù)報已發(fā)展多年,隨著技術(shù)水平的提高,數(shù)值模式方法越來越完善,其預(yù)報精度亦越來越高,它是當前主要的客觀預(yù)報工具之一[1].但是,數(shù)值預(yù)報模式仍無法完全達到真實模擬大氣的程度,因此研究有效的和科學(xué)的訂正方法至關(guān)重要.通過對數(shù)值預(yù)報結(jié)果進行訂正,可提升氣象預(yù)報的精度,這對防災(zāi)減災(zāi)和經(jīng)濟發(fā)展具有重要的意義[2].尤其是在海南,由于其獨特的熱帶氣候以及海島地理地貌,數(shù)值預(yù)報的結(jié)果遠不能滿足要求,因此迫切需求高水平的預(yù)報訂正方法.
傳統(tǒng)的訂正方法主要是通過統(tǒng)計學(xué)的方法來修正大氣動力方程的誤差,而根據(jù)訂正思路的不同又可采用不同的模型來實現(xiàn).比如,薛堪彬等[3]從空間誤差訂正的角度提出了一種滑動雙權(quán)重平均訂正法,他們對歐洲中期天氣預(yù)報中心(ECWMF)髙分辨率模式的2米最高和最低溫度進行了偏差訂正和誤差分析;李佰平等[4]從消除時效偏差的角度提出了一種結(jié)合一元線性回歸、多元線性回歸、單時效消除偏差和多時效消除偏差平均的綜合訂正技術(shù),對ECMWF模式的地面氣溫預(yù)報進行了訂正;張玉濤等[5]則從自適應(yīng)偏差訂正的角度提出了一種基于一階自適應(yīng)卡爾曼濾波的訂正方法,對GRAPES 3千米模式的2米氣溫、2米相對濕度和10米風(fēng)開展了偏差訂正.傳統(tǒng)的訂正方法均是基于假設(shè)條件而展開統(tǒng)計學(xué)建模,并通過模型來實現(xiàn)預(yù)報偏差的訂正,然而這類方法并沒有充分利用數(shù)據(jù)所包含的豐富訂正信息,容易受到各種假設(shè)條件的限制,存在一定的局限性.
隨著機器學(xué)習(xí)的發(fā)展,越來越多的研究者開始使用基于數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)方法來進行預(yù)報偏差的訂正[6],他們通過對大量的歷史實測數(shù)據(jù)和歷史預(yù)報數(shù)據(jù)進行深度挖掘,弄清了實測和預(yù)報偏差的關(guān)系,再反過來利用這些關(guān)系對最新的預(yù)報結(jié)果進行訂正,這樣就提高了預(yù)報的準確性.此類方法完全依托于數(shù)據(jù)本身,具有很強的魯棒性.基于數(shù)據(jù)驅(qū)動的機器學(xué)習(xí)方法非常多,應(yīng)用于數(shù)值模式預(yù)報結(jié)果的訂正也很多,比如王煥毅等[6]和倪錚等[7]分別采用BP神經(jīng)網(wǎng)絡(luò)和LSTM深度神經(jīng)網(wǎng)絡(luò),對數(shù)值模式數(shù)據(jù)和實況觀測數(shù)據(jù)進行學(xué)習(xí),建立了數(shù)值模式氣溫預(yù)報誤差客觀化訂正的模型,其區(qū)別就在于所選用的模式不一樣,且所選擇的實況氣象要素不一樣.隨機森林具有高度線性化的特點,故其也被廣泛應(yīng)用于天氣預(yù)報的訂正,例如:Ho等[8]引入空間回歸法來繪制相對于參考站的典型炎熱夏季白天的峰值氣溫,并用隨機森林對實地觀測數(shù)據(jù)進行了校準;Cho等[9]使用隨機森林來處理本地數(shù)據(jù)和多個模式預(yù)測數(shù)據(jù);李文娟等[10]將隨機森林算法應(yīng)用于強對流的潛勢預(yù)測和分類,分短時強降水、雷暴大風(fēng)、冰雹和無強對流4種類別;劉揚等[11]運用隨機森林算法,構(gòu)建了暴雨災(zāi)害中人口損失的預(yù)估模型,并以精細化網(wǎng)格降水的實況分析和預(yù)報產(chǎn)品驅(qū)動模型,預(yù)估是否發(fā)生人口損失.此類方法對多個站點和多個預(yù)報時刻均是采用統(tǒng)一的隨機森林模型,但是當多個站點覆蓋的區(qū)域存在多種氣象類型時,會積累模型的誤差,從而影響預(yù)報精度.海南島就是屬于此種情況,由于其獨特的熱帶氣候以及海島地理地貌,海南島南北的氣候差異較大,且變化快,因此全島區(qū)域無法直接采用統(tǒng)一的隨機森林模型.
基于此,針對海南島的氣候特點,本文提出了一種基于時空獨立的隨機森林模型,同時,通過挑選合理的氣象要素及預(yù)報模式,對全島18個市縣的站點,采用分站點分時段的建模方式,實現(xiàn)了對海南島18個市縣氣溫數(shù)值預(yù)報的訂正,得到了高精度的預(yù)報結(jié)果.
基于數(shù)據(jù)驅(qū)動的訂正方法需要從歷史實測數(shù)據(jù)和模式預(yù)報數(shù)據(jù)擬合出實測和預(yù)報偏差的關(guān)系,而實測數(shù)據(jù)和模式數(shù)據(jù)包含較多的要素,并且存在缺失等情況,這些都會影響到模型訓(xùn)練的效果.因此,對實測數(shù)據(jù)和模式數(shù)據(jù)的預(yù)處理至關(guān)重要.為此,本文針對海南島氣溫數(shù)值進行模式訂正,分別對實測數(shù)據(jù)和模式數(shù)據(jù)進行要素選擇,如表1所示.
表1 實測數(shù)據(jù)和ECWMF模式數(shù)據(jù)的要素列表
在實測數(shù)據(jù)方面,本文的實測數(shù)據(jù)主要包括了海南省18個市縣站點(??凇|方、臨高、澄邁、儋州、昌江、白沙、瓊中、定安、屯昌、瓊海、文昌、樂東、五指山、保亭、三亞、萬寧、陵水)的實際觀測數(shù)據(jù).考慮到對氣溫訂正的需求,從每個站點挑選了8個相關(guān)的實測要素,它們分別是風(fēng)向(Wd2m)、風(fēng)速(Ws2m)、氣溫(TT)、最高氣溫(Tmax)、最低氣溫(Tmin)、相對濕度(RH)、本站氣壓(pp)和1小時降水量(R1h)作為模型輸入數(shù)據(jù).實測數(shù)據(jù)是從站點傳感器采集而來的,會出現(xiàn)缺省情況.針對此情況,本文采用前后插值的方法來彌補缺省值.
在模式數(shù)據(jù)方面,本文主要運用ECMWF模式的網(wǎng)格預(yù)測數(shù)據(jù).由于網(wǎng)格點的經(jīng)緯度和真實站點的經(jīng)緯度存在偏差,故本文采用右上角原則,根據(jù)真實站點的經(jīng)緯度,找到右上角與其最近的網(wǎng)格點,并將其作為站點對應(yīng)的網(wǎng)格點,然后針對每個選定的網(wǎng)格點,分別抽取出近地要素和高空要素,并將它們作為模型的輸入數(shù)據(jù).近地要素主要包括地表10米U風(fēng)分量(U10m)、地表10米V風(fēng)分量(V10m)、地表2米露點溫度(D2m)、地表2米溫度(T2m)、地表對流有效勢能(CAPE)、海面平均海平面壓力(MSL)、地表低云量(LCC)等七個氣象要素.高空要素則是分別從200 kPa、400 kPa、500 kPa、700 kPa、850 kPa、925 kPa、950 kPa等七個高空層來提取以下6個氣象要素,即位勢高度(GH)、相對濕度(RH)、溫度(T)、東西風(fēng)(U)、南北風(fēng)(V)、垂直速度(S).
(a)(b)圖1 樣本構(gòu)造及分段訓(xùn)練
其中,R1,R2和c1,c2分別表示每個節(jié)點劃分出來的兩個樣本子集和每個樣本子集中每個樣本的特征均值,通過遍歷每個樣本的每個特征,以尋求使得上式最小的劃分特征與劃分特征值,然后依次構(gòu)造NT棵回歸決策樹,每棵樹均能回歸出數(shù)據(jù)和氣溫標簽的關(guān)系,再將所有樹回歸出來的氣溫值進行平均,如此就得到最終的回歸結(jié)果,并形成了隨機森林模型.最后,如圖1(b)所示,逐站點逐3小時構(gòu)建相應(yīng)的隨機森林模型,并對每個站點進行時空的解耦,這樣就實現(xiàn)了對全島模式預(yù)報氣溫的精準訂正(表2).
表2 基于時空獨立的隨機森林算法
3.1 性能評價指標為了驗證所提訂正方法的有效性,本文采用了三個溫度預(yù)報的常用性能評價指標,即小于2 ℃的準確率、小于1 ℃的準確率以及均方根誤差,對真實溫度、ECMWF模式預(yù)報溫度和本文模型預(yù)報溫度的預(yù)報效果進行了評估.
小于2 ℃的準確率和小于1 ℃的準確率可以定義為:
其中,N表示預(yù)報的總次數(shù),Nr表示預(yù)報正確的次數(shù).當Nr是預(yù)報值和真實值誤差在1 ℃以內(nèi)的次數(shù)時,則k=1,此時TT1是小于1 ℃的準確率;當Nr是預(yù)報值和真實值誤差在2 ℃以內(nèi)的次數(shù)時,則k=2,此時TT2是小于2 ℃的準確率.
均方根誤差指標定義為:
其中,xi是預(yù)報值,x是真實值,N是預(yù)報次數(shù).
3.2 單點訂正精度分析以2020年4月16日??谡军c為例,預(yù)報時效為7天,時效間隔為3小時,分別采用小于2 ℃的準確率、小于1 ℃的準確率及均方根誤差等3個指標,對真實溫度、ECMWF模式預(yù)報溫度和本文模型訂正結(jié)果進行比較,結(jié)果如圖2所示.本文所提模型能夠?qū)CMWF模式氣溫預(yù)報結(jié)果進行較好地訂正,在三個指標上均優(yōu)于ECMWF的預(yù)報結(jié)果,能更加準確地逼近真實溫度,這證明了本文算法在單點訂正的有效性.
圖2 ??谡军c未來168小時的真實溫度和ECMWF模式預(yù)報溫度與本文模型訂正結(jié)果的比較
在對基于時空獨立隨機森林模型進行模型學(xué)習(xí)時,隨機森林中樹的數(shù)量(NT)和特征數(shù)占比(NF)會對回歸結(jié)果產(chǎn)生較大的影響,因此,本文采用網(wǎng)格化搜索的方式對這兩個參數(shù)進行了分析,確定了最優(yōu)參數(shù)組合.將訓(xùn)練集按7∶3的比例分成兩部分,一部分用來訓(xùn)練模型,一部分則用來驗證模型,以選出最優(yōu)參數(shù).本文設(shè)定樹的數(shù)量搜索范圍為400~1 300,特征數(shù)占比的搜索范圍為10%~90%.網(wǎng)格化搜索的結(jié)果如圖3所示,從圖3中可知,當特征數(shù)占比在范圍[50%~75%]時,且樹的數(shù)量在[400~1 300]時,本文模型的性能穩(wěn)定在某個固定的區(qū)間,波動不大,這也證明了本文所提算法具有較好的魯棒性.因此,在綜合考慮運算時間和效率的基礎(chǔ)上,本文最終選取了樹的數(shù)量為1 000,特征數(shù)占比為75%.此外,為說明本文所提的隨機森林算法在氣象預(yù)報方面的優(yōu)越性,在此將隨機森林模型與基于Boosting的GBDT模型和傳統(tǒng)線性回歸模型進行對比.仍以??谡军c為例,分別采用了三個模型進行預(yù)測,結(jié)果如圖4所示.從圖4中可以看出,本文所提模型的準確率高于GBDT和傳統(tǒng)線性回歸的準確率.
圖3 樹的數(shù)量和特征數(shù)占比這兩個參數(shù)對模型的影響圖4 本文模型與GBDT模型和傳統(tǒng)線性回歸模型的對比結(jié)果
3.3 區(qū)域訂正精度分析在單點訂正性能優(yōu)越的基礎(chǔ)上,本文接下來分析了海南島18個站點的區(qū)域訂正結(jié)果,即采用本文建立的時空獨立隨機森林模型對海南島的18個站點同時進行訂正,并以2020年4月16日T08開始起報,預(yù)報時效為7 d,時效間隔為3 h,分別顯示未來3 h、12 h、24 h、48 h和120 h的預(yù)報氣溫值和真實值.如圖5所示,與第一行的真實氣溫值比較,基于時空獨立的隨機森林模型能夠很好地對ECWMF模式預(yù)報值進行很好的區(qū)域訂正,在海南島區(qū)域,它比ECWMF模式的預(yù)報結(jié)果更加精準.
圖5 海南區(qū)域氣溫的真實值、本文模型的訂正值以及ECWMF模式的預(yù)報值
為了進一步分析區(qū)域訂正的結(jié)果,圖6展示了18個站點小于1 ℃的準確率結(jié)果,同樣,以2020年4月16日T08開始起報,圖6縱坐標為未來7天的總準確率,橫坐標則是18個站點,從圖6可以看出,本文所提的時空獨立隨機森林模型能夠?qū)?8個站點的ECWMF模式預(yù)報結(jié)果進行同時訂正,并且能讓18個站點的結(jié)果更加準確,這也驗證了本文所提算法在區(qū)域訂正的有效性.
圖6 本文所提模型和ECWMF模式在18個站點小于1 ℃的準確率結(jié)果
3.4 時空獨立特性分析為了進一步驗證本文所提方法在海南島區(qū)域訂正的優(yōu)越性,下面對比了分站點訂正的隨機森林模型和所有站點采用統(tǒng)一訂正的隨機森林模型,并對本文所提的時空獨立特性進行了分析.圖7展示了兩種模型在海南島的訂正效果,圖7中黑色實線是訂正結(jié)果,背景顏色區(qū)域則是真實溫度場.圖8則展示了兩種模型在18個站點的預(yù)報準確率情況.從圖7和圖8中可知,總體而言,這兩個模型均能實現(xiàn)對ECWMF預(yù)報值的精準訂正,但是在個別局部區(qū)域,比如??凇R高、樂東—五指山、瓊?!f寧,本文所提的時空獨立隨機森林模型的訂正效果要優(yōu)于采用統(tǒng)一模型的訂正效果.
a) 本文所提模型b) 所有站點統(tǒng)一訂正模型圖7 兩種模型對海南島氣溫的訂正效果(黑色實線為模型訂正結(jié)果,顏色區(qū)域則是真實的溫度場)?
圖8 兩種模型對海南島18個站點氣溫的訂正準確率(上圖是本文所提模型,下圖是所有站點統(tǒng)一模型)
最后針對??凇R高、樂東—五指山、瓊?!f寧三個局部區(qū)域,分別分析了表1中的各個氣象要素對兩種隨機森林模型的影響情況.對于??凇R高區(qū)域,圖9展示了兩種隨機森林模型中貢獻最大的前10個要素情況.從圖9中可以看出,貢獻最大的前10要素是相同的,但是每個要素的貢獻程度會隨著模型的變化而有所區(qū)別.在統(tǒng)一訂正模型中,??谡军c和臨高站點貢獻位于前四位的要素排序分別是:地表2米溫度、最低氣溫(過去第一小時),最高氣溫(過去第一小時)以及950 kPa溫度,其從高到低影響訂正效果.但是在本文所提的模型中,??谡军c位于前四位的要素卻分別是:地表2米溫度,950 kPa溫度、最高氣溫(過去第一小時)以及最低氣溫(過去第一小時),而臨高站點的前四位要素則與統(tǒng)一模型的前四位要素相同,這表明采用時空獨立的隨機森林模型可以反映出不同站點的區(qū)別,可以挑選出更具有特異性的要素組合,實現(xiàn)高精度的訂正效果.同理,樂東—五指山、瓊海—萬寧兩個局部區(qū)域也存在類似的現(xiàn)象,其貢獻最大的前10位要素如圖10所示.
圖9 兩種隨機森林模型中貢獻最大的前10位要素情況(海口—臨高站點)
a) 樂東—五指山b) 瓊?!f寧圖10 兩種隨機森林模型中貢獻最大的前10位要素情況
本文提出了基于時空獨立的隨機森林模型對海南島氣溫進行訂正的方法,較之于采用統(tǒng)一隨機森林模型進行訂正的方法,本方法更能夠充分考慮海南島獨特的熱帶區(qū)域以及地理地貌的氣象多樣性,能夠分站點分時段地進行單獨訂正.結(jié)果表明,本文所提的方法不論是在單站點,還是在整個海南島區(qū)域,它都明顯優(yōu)于ECWMF的預(yù)報結(jié)果,而且比統(tǒng)一隨機森林模型的訂正效果更加優(yōu)越,能夠?qū)崿F(xiàn)對全島范圍氣溫的精準訂正.此外,從各個要素的影響分析結(jié)果可知,基于時空獨立的隨機森林模型能夠根據(jù)不同站點組合不同要素,而統(tǒng)一模型無法實現(xiàn)此效果,這也是本文中的模型優(yōu)于統(tǒng)一模型的原因,此結(jié)果有助于加深對以往氣溫預(yù)測物理模型所使用的氣象要素組合的認識.