劉麗丹
(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210018)
天氣變化與人們的生活有著十分密切的關(guān)系,人們總是想方設(shè)法去預(yù)測(cè)未來的天氣變化,以期能夠利用有利天氣,防范不利天氣。傳統(tǒng)的天氣預(yù)測(cè)方法主要有天氣學(xué)方法、動(dòng)力學(xué)方法和統(tǒng)計(jì)學(xué)方法。到20世紀(jì)50年代,數(shù)值預(yù)報(bào)的出現(xiàn)使天氣預(yù)測(cè)有了革命性的變化,是大氣科學(xué)發(fā)展的一個(gè)里程碑,也是近代大氣科學(xué)成為一門精細(xì)和定量化科學(xué)的標(biāo)志[1],直到現(xiàn)在仍是天氣預(yù)報(bào)的核心。但是數(shù)值模型并不能完全模擬大氣運(yùn)動(dòng),對(duì)于很多天氣現(xiàn)象的發(fā)生、演變的內(nèi)在機(jī)理和規(guī)律,人們尚未完全掌握,提高天氣預(yù)報(bào)的準(zhǔn)確率,仍是一個(gè)世界性難題。
目前,隨著人工智能和機(jī)器學(xué)習(xí)的蓬勃發(fā)展,天氣預(yù)測(cè)也迎來了新的發(fā)展機(jī)遇。一方面,機(jī)器學(xué)習(xí)方法可以用于解決數(shù)值預(yù)報(bào)分辨率低的問題,通過降尺度方法,提高預(yù)測(cè)精度。自20世紀(jì)90年代統(tǒng)計(jì)降尺度方法發(fā)展以來,以人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)為代表的各種機(jī)器學(xué)習(xí)方法被應(yīng)用于統(tǒng)計(jì)降尺度研究。1997年,Cavasos用人工神經(jīng)網(wǎng)絡(luò)降尺度預(yù)測(cè)墨西哥東北部20個(gè)站的冬季日降水[2];2006年,Tripathi等將基于支持向量機(jī)的統(tǒng)計(jì)降尺度模型用于研究印度月降水[3];2016年,Santri等用基于最小絕對(duì)值收縮和選擇算子(Lasso[4])的分位數(shù)回歸建立統(tǒng)計(jì)降尺度模型[5],用于預(yù)測(cè)印度尼西亞單個(gè)站點(diǎn)的極端降水;周璞等用自組織映射神經(jīng)網(wǎng)絡(luò)(SOM)降尺度方法對(duì)江淮流域逐日降水量進(jìn)行了模擬評(píng)估[6]。這些方法都取得了較好的效果,但是,此類方法依賴原始天氣模型輸出產(chǎn)品,準(zhǔn)確率依然受限于對(duì)天氣規(guī)律的模擬程度。
另一方面,由數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法可能幫助人們認(rèn)識(shí)到更多的天氣規(guī)律,它不依賴任何物理模型,能夠從歷史觀測(cè)數(shù)據(jù)中尋找天氣演變規(guī)律,進(jìn)而做出預(yù)測(cè)。預(yù)測(cè)未來時(shí)間空間的氣象要素值,是屬于非平穩(wěn)時(shí)間序列的預(yù)測(cè)問題。非平穩(wěn)時(shí)間序列的預(yù)測(cè),可以采用參數(shù)方法或非參數(shù)方法,參數(shù)方法有自回歸(AR)、神經(jīng)網(wǎng)絡(luò)(NN)、支持向量回歸(SVR)和隱馬爾可夫模型(HMM)等,非參數(shù)方法有近鄰(neighborhood)和局部拓?fù)?local topology)模型、非參數(shù)貝葉斯模型和函數(shù)分解等[7]。由于用于預(yù)測(cè)的自變量之間存在相關(guān)性,天氣預(yù)測(cè)還要解決多重共線性的問題,適合的方法有Lasso回歸、Ridge回歸[8]和SVR[9]等。將這些方法用于單站天氣預(yù)測(cè),國(guó)內(nèi)外研究已有很多,但關(guān)于區(qū)域多站點(diǎn)空間相關(guān)性的研究并不多,大氣作為一個(gè)連續(xù)的系統(tǒng),各站點(diǎn)間是有一定聯(lián)系的,如果進(jìn)行多站點(diǎn)聯(lián)合預(yù)測(cè),加入?yún)f(xié)變量相關(guān)性的考量,理論上應(yīng)該能夠提高預(yù)測(cè)準(zhǔn)確率。李艷玲等用空間自回歸模型預(yù)測(cè)新疆地區(qū)氣溫與降水量[10],對(duì)新疆地區(qū)各個(gè)測(cè)站氣溫和降水量之間的空間關(guān)系進(jìn)行了研究,研究表明相鄰地區(qū)氣溫和降水量的分布在空間上具有較強(qiáng)的相關(guān)性,但是其中的空間相關(guān)矩陣是人為設(shè)定的。在概率圖模型研究領(lǐng)域,一些方法已經(jīng)被證實(shí)可以應(yīng)用于天氣預(yù)測(cè)。Wytock M等給出了條件高斯圖模型的一種估計(jì)方法,可以學(xué)習(xí)出隨機(jī)變量間的相關(guān)關(guān)系[11],最近,Huang等提出了一種基于聯(lián)合條件圖套索(JCGL)的聯(lián)合條件高斯圖模型[12],能夠?qū)W習(xí)異構(gòu)協(xié)變量的條件相關(guān)性,同時(shí)預(yù)測(cè)不同地域的不同氣象變量。
文中主要嘗試使用易獲取的國(guó)際交換站地面觀測(cè)數(shù)據(jù),應(yīng)用條件高斯圖模型,學(xué)習(xí)出可以從天氣學(xué)角度解釋的區(qū)域多站點(diǎn)降水量和平均氣溫的空間相關(guān)關(guān)系,并檢驗(yàn)聯(lián)合條件高斯圖模型聯(lián)合預(yù)測(cè)多站點(diǎn)降水量和氣溫在實(shí)際應(yīng)用中的準(zhǔn)確率和穩(wěn)定性。
概率圖模型可以簡(jiǎn)潔地刻畫出復(fù)雜分布的結(jié)構(gòu),具有表示、推理和學(xué)習(xí)的能力[13],現(xiàn)已被廣泛應(yīng)用于機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別、專家系統(tǒng)、用戶推薦、社交網(wǎng)絡(luò)挖掘、生物信息學(xué)等研究領(lǐng)域的最新成果中[14-15]。它以圖為表示工具,最常見的是用一個(gè)節(jié)點(diǎn)表示一個(gè)或一組隨機(jī)變量,節(jié)點(diǎn)之間的邊表示變量間的概率相關(guān)關(guān)系,即“變量關(guān)系圖”。根據(jù)邊的性質(zhì)不同,概率圖模型可大致分為兩類:一類是使用有向無環(huán)圖表示變量間的依賴關(guān)系,稱為有向圖模型或貝葉斯網(wǎng),另一類是使用無向圖表示變量間的相關(guān)關(guān)系,稱為無向圖模型或馬爾可夫網(wǎng)[16]。無向圖中的高斯圖模型,雖帶有強(qiáng)假設(shè),但在數(shù)學(xué)上易于處理,而且根據(jù)中心極限定理,可以較好地近似實(shí)際連續(xù)分布[17]。
假設(shè)p維隨機(jī)向量Y=(Y(1),Y(2),…,Y(p))服從多元正態(tài)分布N(μ,Σ),給定一個(gè)隨機(jī)樣本Y(1),Y(2),…,Y(n),希望估計(jì)出精度矩陣C=Σ-1,C中元素Cij=0表示Y(i)與Y(j)在給定其他所有變量的條件下相互獨(dú)立,可表示為Y(i)⊥Y(j)|YSi,j。
高斯圖模型中,隨機(jī)向量Y由圖G=(V,E)表示,其中V為圖的節(jié)點(diǎn)集,包含p個(gè)節(jié)點(diǎn),E為圖中節(jié)點(diǎn)之間的邊集,E=(ei,j)1≤i 高斯圖模型中的均值μ是常數(shù),條件高斯圖模型則允許均值μ隨協(xié)變量x改變。Y服從條件分布: Y|x~N(Γx,Σ)(或Y|x~N(-C-1Θ-1x,C-1)) 其中,Γ∈Rp×q,Θ∈Rq×p,x=(x(1),x(2),…,x(q)),Y(i)與Y(j)條件獨(dú)立則表示為Y(i)⊥Y(j)|{YSi,j,x}。這種模型不僅能模擬隨機(jī)變量Y(1),Y(2),…,Y(p)之間的條件相關(guān)關(guān)系,也能模擬Y與協(xié)變量x之間的條件相關(guān)關(guān)系。此模型也可由圖G=(V,E)表示。 以上兩種圖模型都是基于獨(dú)立同分布的數(shù)據(jù)估計(jì)單個(gè)圖模型,聯(lián)合條件高斯圖模型則可以針對(duì)異構(gòu)數(shù)據(jù)進(jìn)行多個(gè)圖模型的聯(lián)合估計(jì),除具備條件高斯圖模型的優(yōu)點(diǎn)外,還能夠刻畫多個(gè)帶噪聲協(xié)方差的多元線性回歸的聯(lián)合學(xué)習(xí)。在條件高斯圖模型的基礎(chǔ)上,增加一維離散隨機(jī)變量z∈N+,Y服從條件分布: Y|x~N(-Σk(Θk)Txk,Σk),k∈N+ Y(i)與Y(j)條件獨(dú)立表示為Y(i)⊥Y(j)|{YSi,j,x,z=k}。此模型可由一個(gè)無向圖的集合ζ={G(k)=(V,E(k)),k∈N+}表示。 輸出變量Y∈Rn×p,輸入變量X∈Rn×q,q=m×p,n為樣本量,p為站點(diǎn)數(shù),m為協(xié)變量維數(shù),即參與預(yù)測(cè)的氣象要素個(gè)數(shù)。利用條件高斯圖模型,有: Y=f(X)=-C-1Θ-1X 樣本對(duì){yi,xi}i∈n的對(duì)數(shù)似然為: -log|C|+tr[SyyC+2SyxΘ+C-1ΘTSxxΘ] 應(yīng)用Matt Wytock的估計(jì)方法[11],最小化負(fù)對(duì)數(shù)似然并加入1懲罰項(xiàng),即: 估計(jì)出精度矩陣C,C-1即為空間相關(guān)系數(shù)矩陣。 在上述模型基礎(chǔ)上,應(yīng)用聯(lián)合條件高斯圖模型,聯(lián)合預(yù)測(cè)K類氣象要素。 為方便實(shí)現(xiàn)理論成果向業(yè)務(wù)應(yīng)用的轉(zhuǎn)化,文中應(yīng)用的是1980-2011年汛期(5-9月)中國(guó)華東地區(qū)21個(gè)國(guó)際交換站的日平均氣溫、氣壓、相對(duì)濕度、風(fēng)和24小時(shí)降水量等地面觀測(cè)數(shù)據(jù),來自于國(guó)家氣象科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)的中國(guó)地面國(guó)際交換站氣候資料日值數(shù)據(jù)集(V3.0)。數(shù)據(jù)經(jīng)過清理、歸一化和中心化處理,以1980-2010年數(shù)據(jù)為訓(xùn)練集,2011年數(shù)據(jù)為測(cè)試集。 在模型預(yù)測(cè)效果評(píng)估中,采用檢驗(yàn)回歸模型較普遍的兩個(gè)評(píng)價(jià)指標(biāo):均方根誤差(RMSE)和絕對(duì)誤差(MAE),具體表達(dá)式為: 4.2.1 空間相關(guān)性學(xué)習(xí) 用處理后的數(shù)據(jù)建立條件高斯圖模型,運(yùn)行1萬次,取精度矩陣C的均值。如圖1所示,為21個(gè)站點(diǎn)間的降水量相關(guān)系數(shù)可視化矩陣,顯示了模型訓(xùn)練出的21站24小時(shí)降水量值的相關(guān)性。由于對(duì)角線上自相關(guān)性過強(qiáng),為更好地展示不同站點(diǎn)的相關(guān)性,將對(duì)角線值改為0,方便對(duì)比。 由圖1可見,對(duì)角線附近的地理位置靠近的站點(diǎn)呈正相關(guān),距離越遠(yuǎn)相關(guān)性越小,不同氣候區(qū)的站點(diǎn)會(huì)有明顯的負(fù)相關(guān)。例如:上海、杭州與定海(舟山)地理位置較近,處于長(zhǎng)江口到杭州灣一帶,明顯正相關(guān);福建中西部三個(gè)站福州、南平和永安也明顯正相關(guān);南京則與江淮流域的幾個(gè)站點(diǎn)蚌埠、合肥、霍山、東臺(tái)正相關(guān);定海與徐州明顯負(fù)相關(guān),前者濱東海,處杭州灣,后者處淮河以北,為蘇魯皖交界,相同的降水過程卻很少能同時(shí)影響此兩處;安慶與永安也明顯負(fù)相關(guān),安慶(N30°37′,E116°58′)處長(zhǎng)江下游,永安(N25°58′,E117°21′)則位于武夷山以南,兩地經(jīng)度相近,南北相差500公里左右,也很少會(huì)受相同降水過程影響,相反,夏季當(dāng)永安處于副熱帶高壓控制時(shí),為晴好天氣,安慶則會(huì)處于副熱帶高壓的邊緣多雨帶,而當(dāng)有臺(tái)風(fēng)影響永安造成降水時(shí),安慶通常會(huì)處于臺(tái)風(fēng)北側(cè)高壓控制,沒有降水。 圖2為21站平均氣溫的相關(guān)系數(shù)可視化矩陣,同樣將對(duì)角線的自相關(guān)系數(shù)設(shè)置為0??梢娙A東地區(qū)夏季各站平均氣溫均呈正相關(guān),且距離越近相關(guān)系數(shù)越大,相關(guān)系數(shù)最大的是南京與東臺(tái)、景德鎮(zhèn)與南昌、景德鎮(zhèn)與衢州,由國(guó)家氣候中心提供的2018年6月平均氣溫距平圖(圖3)可見,南京與東臺(tái)氣溫變化同步,景德鎮(zhèn)、南昌和衢州氣溫變化也同步,具體原因尚有待分析。 圖2 華東地區(qū)21個(gè)站平均氣溫相關(guān)系數(shù) 圖3 平均氣溫距平圖 4.2.2 地面氣象要素預(yù)測(cè) 在使用聯(lián)合條件高斯圖模型預(yù)測(cè)的實(shí)驗(yàn)中,不同的滑動(dòng)窗口大小和預(yù)測(cè)類數(shù)會(huì)導(dǎo)致不同的預(yù)測(cè)誤差,以預(yù)測(cè)未來24小時(shí)降水量和平均氣溫的誤差做參考,結(jié)果如表1所示。預(yù)測(cè)類數(shù)K≤3時(shí),滑動(dòng)窗口越大,預(yù)測(cè)誤差越大,而K越大,降水量預(yù)測(cè)誤差越小,平均氣溫預(yù)測(cè)誤差越大;當(dāng)K=4、滑動(dòng)窗口為5天時(shí),降水量預(yù)測(cè)誤差最?。籏=2、滑動(dòng)窗口為3天時(shí),平均氣溫預(yù)測(cè)誤差最小,當(dāng)K>4時(shí),誤差與K=4無明顯變化。說明在輸入變量維數(shù)不變的情況下,并不是輸出類數(shù)越多,預(yù)測(cè)效果越好,也不是滑動(dòng)窗口越大,預(yù)測(cè)效果越好,在具體應(yīng)用中,要充分考慮輸出變量間的結(jié)構(gòu)關(guān)系,通過對(duì)比,找到最合適的參數(shù)。 表1 聯(lián)合條件高斯圖模型不同參數(shù)預(yù)測(cè)效果對(duì)比 分別建立SVR回歸模型、Lasso回歸模型、條件高斯圖模型和聯(lián)合條件高斯圖模型,對(duì)21個(gè)站點(diǎn)進(jìn)行降水量和氣溫預(yù)測(cè)實(shí)驗(yàn),每個(gè)模型重復(fù)實(shí)驗(yàn)100次,取RMSE和MAE的均值進(jìn)行比較,結(jié)果如表2所示??梢钥闯觯?lián)合條件高斯圖模型好于條件高斯圖模型,也好于SVR和Lasso。 表2 不同模型降水與氣溫預(yù)測(cè)性能對(duì)比 概率圖模型在天氣預(yù)測(cè)上的應(yīng)用價(jià)值已被證實(shí),文中驗(yàn)證了兩種概率圖模型在天氣預(yù)測(cè)實(shí)際工作中的應(yīng)用可行性,通過采用從業(yè)者可以實(shí)時(shí)獲取的國(guó)際交換站地面觀測(cè)數(shù)據(jù),實(shí)現(xiàn)了應(yīng)用條件高斯圖模型學(xué)習(xí)各觀測(cè)站點(diǎn)間氣象要素的條件相關(guān)性,并給出了天氣學(xué)解釋和驗(yàn)證;應(yīng)用聯(lián)合條件高斯圖模型,解決了多站點(diǎn)未來24小時(shí)降水量和平均氣溫的聯(lián)合預(yù)測(cè)問題。實(shí)驗(yàn)結(jié)果表明,條件高斯圖模型能夠刻畫出響應(yīng)變量之間的條件相關(guān)性,在天氣預(yù)測(cè)上可以給出合理解釋;聯(lián)合條件高斯圖模型不僅能夠?qū)崿F(xiàn)多任務(wù)輸出,由于考慮了氣象要素間的相關(guān)性,預(yù)測(cè)能力較條件高斯圖模型有所提升,且優(yōu)于SVR和Lasso回歸。1.2 條件高斯圖模型
1.3 聯(lián)合條件高斯圖模型
2 空間相關(guān)關(guān)系學(xué)習(xí)模型
3 多要素聯(lián)合預(yù)測(cè)模型
4 實(shí)驗(yàn)與結(jié)果分析
4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)估標(biāo)準(zhǔn)
4.2 實(shí)驗(yàn)結(jié)果
5 結(jié)束語