李松青,劉立龍,容 靜,周 威,劉林波
(桂林理工大學(xué) a.測(cè)繪地理信息學(xué)院;b.廣西空間信息與測(cè)繪重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541006)
水汽是大氣的重要組成部分, 其主要集中分布在對(duì)流層底部, 波動(dòng)變化相當(dāng)劇烈。 因此, 精準(zhǔn)快速地掌握水汽的空間分布特征對(duì)天氣預(yù)報(bào)具有重要的實(shí)際意義。 隨著GPS的發(fā)展, 利用地基GPS衛(wèi)星數(shù)據(jù)反演大氣水汽含量, 以此來預(yù)測(cè)降雨量成為當(dāng)前研究的熱點(diǎn)。 在反演水汽過程中, 大氣加權(quán)平均溫度Tm是決定水汽反演精度的關(guān)鍵參數(shù)之一。 為了精確計(jì)算Tm, 需要獲取測(cè)站上空的溫度、 氣壓和水汽壓的廓線資料, 這限制了地基GPS探測(cè)水汽的使用[1]。 為了解決這一問題, 國內(nèi)外學(xué)者對(duì)不同地區(qū)的Tm模型構(gòu)建作了大量研究。 國際上, Bevis等[2]最早建立了與測(cè)站溫度相關(guān)的線性回歸模型Tm=70.2+0.72Ts, 并將之廣泛應(yīng)用于中緯度地區(qū), 但是該Tm模型與實(shí)際值的偏差會(huì)隨著站點(diǎn)高度的增加而增加[3]; Ross等[4]對(duì)全球53個(gè)無線電探空站提供的探空資料進(jìn)行分析, 得出了加權(quán)平均溫度Tm與地表溫度Ts數(shù)據(jù)的相關(guān)性隨時(shí)空變化的分布規(guī)律。 國內(nèi)學(xué)者通過研究局部地區(qū)Tm和Ts之間的關(guān)系, 建立了區(qū)域線性回歸Tm模型,如文獻(xiàn)[5-8]分別建立了我國香港、北京、湖南、新疆等地區(qū)的Tm模型, 結(jié)果表明,針對(duì)特定區(qū)域建立的加權(quán)平均溫度線性回歸模型均具有較高的精度;姚宜斌等[9]利用2010年中國無線電探空數(shù)據(jù)從數(shù)學(xué)上推導(dǎo)了加權(quán)平均溫度Tm與地表溫度Ts的非線性關(guān)系。除了區(qū)域性的Tm模型,也有研究人員基于大量數(shù)據(jù)建立了全球性的Tm模型,如Yao等[10]利用2005—2009年全球探空數(shù)據(jù)建立與地面溫度無關(guān)的全球加權(quán)平均溫度模型(global weighted mean temperature, GWMT)。 文獻(xiàn)[11-12]研究發(fā)現(xiàn),支持向量機(jī)在數(shù)據(jù)回歸預(yù)測(cè)方面較線性回歸法具有更準(zhǔn)確的預(yù)測(cè)結(jié)果和實(shí)用性。
基于以上分析,本文提出了運(yùn)用支持向量機(jī)回歸的算法對(duì)廣西地區(qū)的大氣加權(quán)平均溫度進(jìn)行建模,并與采用線性回歸法建立的大氣加權(quán)平均溫度單因素和多因素模型的精度進(jìn)行對(duì)比,以此來驗(yàn)證支持向量機(jī)回歸在大氣加權(quán)平均溫度建模方面的可行性。
支持向量機(jī)是一種小樣本的“機(jī)器”學(xué)習(xí)方法,其建立在統(tǒng)計(jì)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上,對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度和學(xué)習(xí)能力之間尋求最佳效果,以期獲得最好的推廣能力。支持向量機(jī)中的一大亮點(diǎn)是在傳統(tǒng)的最優(yōu)化問題中提出了對(duì)偶理論,主要有最大、最小對(duì)偶及拉格朗日對(duì)偶,避免了其他方法的過學(xué)習(xí)、 欠學(xué)習(xí)、 高維數(shù)、 非線性以及局部極小等問題, 并已被成功地應(yīng)用于模式識(shí)別、 回歸分析、 概率密度估計(jì)中。
與統(tǒng)計(jì)學(xué)中的非線性回歸和線性回歸不同,支持向量回歸(SVR)根據(jù)是否需要嵌入到高維空間可分為非線性回歸和線性回歸兩種方法。對(duì)于給定的樣本集合S以及任意給定的線性不敏感函數(shù)ε>0, 如果在原始空間中Rn存在超平面Q={f(x)≤ω,x>b|(ω∈Rn,b∈R}使得|yi-f(xi)|≤ε, ?(xi-yi)∈S, 則稱超平面Q是樣本集合S的線性回歸。 對(duì)于不可能在原始空間Rn線性分離的樣本集合S,先用一個(gè)非線性映射將數(shù)據(jù)映射到一個(gè)高維特征空間中(在SVM中就是找一個(gè)核函數(shù)K(x,y)=〈φ(x),φ(y)〉代替計(jì)算高維內(nèi)積(φ(x),φ(y)), 避免了所需付出的計(jì)算代價(jià));然后,在該特征空間中進(jìn)行線性回歸;最后,返回到原始空間中,這就是支持向量非線性回歸。
本文選用臺(tái)灣大學(xué)林智仁教授等開發(fā)設(shè)計(jì)的LIBSVM工具,該工具箱中主要提供四類核函數(shù):線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基(RBF)核函數(shù)、Sigmoid核函數(shù)。
非線性回歸問題的實(shí)施步驟具體如下:
① 輸入n個(gè)樣本
(x1,y1),(x2,y2),…,(xn,yn),
(1)
其中,xi為n維特征向量;yi為對(duì)應(yīng)的輸出值。構(gòu)造回歸函數(shù)為
f(x)=ω·φ(xi)+b,
(2)
式中:ω為權(quán)值向量;b為偏置;i=1,2,…,l(下同)。
② 采用一個(gè)常量ε(ε>0), 將不敏感損失函數(shù)Li用來度量模型每一次預(yù)測(cè)的好壞:
(3)
③ 將求解回歸函數(shù)的問題描述成一個(gè)二次凸優(yōu)化問題:
(4)
(5)
(6)
(7)
⑤ 引入拉格朗日函數(shù)L將目標(biāo)函數(shù)變成無約束的形式:
(8)
⑥ 選擇合適的核函數(shù)代入函數(shù)L中得到對(duì)偶優(yōu)化公式:
(9)
其中: 0≤αi,αi*≤C。
(10)
地基GPS探測(cè)水汽的原理是通過GPS衛(wèi)星信號(hào)穿越中性大氣層時(shí)天頂濕延遲(zenith wet delay, ZWD)計(jì)算大氣可降水量(precipitable water vapor,PWV)。
PWV=Π·ZWD,
(11)
式中:Π為大氣水汽轉(zhuǎn)換系數(shù):
(12)
式中:ρw為水的密度;Rv為水汽氣體常數(shù);k2′、k3為大氣折射常數(shù)。Tm是求取大氣水汽轉(zhuǎn)換系數(shù)的關(guān)鍵變量, 它是測(cè)站上空水汽壓和絕對(duì)溫度沿天頂方向的積分值。 因此, 可以利用無線電探空站的氣象數(shù)據(jù), 采用數(shù)值積分的方法計(jì)算獲取:
(13)
式中,Pi為第i層大氣的平均水汽壓(hPa);Ti第i層大氣的平均溫度(K); Δhi為第i層大氣的厚度(m)。 由于探空數(shù)據(jù)是直接探測(cè), 相對(duì)更加準(zhǔn)確,本文將用式(13)計(jì)算得到的Tm視為真值。
平方相關(guān)系數(shù)(R2)可以表示預(yù)測(cè)值與真實(shí)值之間的相關(guān)程度,R2越接近1,相關(guān)性越強(qiáng)。
平均偏差(Bias)體現(xiàn)預(yù)測(cè)情況的穩(wěn)定性, 即預(yù)測(cè)數(shù)據(jù)的離散程度。 其值的絕對(duì)值越小越穩(wěn)定。
均方根誤差(RMSE)用來衡量預(yù)測(cè)值和實(shí)際值之間偏差, 該值越小, 說明預(yù)測(cè)模型的精度越高。
采用SVR的方法分別對(duì)廣西地區(qū)4個(gè)探空站進(jìn)行Tm建模,每個(gè)站的模型構(gòu)建步驟如下:
① 選取每站每月的3個(gè)氣象要素:氣壓、地面溫度和水汽壓作為模型輸入?yún)?shù),數(shù)值積分法計(jì)算得到的每月的加權(quán)平均溫度作為模型輸出參數(shù)。將2013—2014年的數(shù)據(jù)作為訓(xùn)練集,2015年的數(shù)據(jù)作為測(cè)試集。
② 數(shù)據(jù)預(yù)處理。對(duì)輸入?yún)?shù)和輸出參數(shù)進(jìn)行歸一化映射預(yù)處理:
該映射的效果是原始數(shù)據(jù)被規(guī)整到[-1,1]區(qū)間,其中x、y∈Rn。
③ 確定核函數(shù)。選取運(yùn)用廣泛的徑向基核函數(shù)(RBF)。
④ 確定模型參數(shù)。尋找最佳的懲罰參數(shù)C和核函數(shù)參數(shù)g。
⑤ 模型的建立與輸出。將訓(xùn)練好的核函數(shù)和最佳的模型參數(shù)代入模型中,對(duì)因變量,即2015 年的每月的大氣加權(quán)平均溫度進(jìn)行計(jì)算,并將輸出結(jié)果進(jìn)行反歸一化。
選取位于廣西地區(qū)2013—2014年的4個(gè)探空站的數(shù)據(jù),利用式(3)計(jì)算每天0時(shí)和12時(shí)的Tm,分析Tm與各站氣象要素的相關(guān)性。由于篇幅所限,僅列出廣西桂林站的加權(quán)平均溫度Tm與地面氣壓P、地面溫度Ts和水汽壓e的相關(guān)關(guān)系(圖1)。
可見, 所有離散點(diǎn)都較均勻地分布于一條直線附近, 表明了Tm與P、Ts和e均具有明顯的相關(guān)性, 其中Tm與P呈負(fù)相關(guān)關(guān)系, 與Ts和e均呈正相關(guān)關(guān)系, 為進(jìn)一步定量地分析出Tm與這3種氣象因素相關(guān)性的強(qiáng)弱, 計(jì)算出廣西地區(qū)4個(gè)探空站的Tm與3種氣象因素的相關(guān)系數(shù)見表1。
圖1 桂林站Tm與P、Ts和e的散點(diǎn)圖Fig.1 Scatters of Tm to pressure P,surface atmospheric temperature Ts and vapor pressure e
整體上,Tm與地面溫度Ts的相關(guān)性最強(qiáng), 其平均相關(guān)系數(shù)達(dá)到0.89; 與地面氣壓P、 水汽壓e也具有較強(qiáng)的相關(guān)性, 其平均相關(guān)系數(shù)都在0.82左右。 從單站的相關(guān)系數(shù)來看, 每個(gè)站的Tm與3種氣象因素均具有很強(qiáng)的相關(guān)性, 其所有的相關(guān)系數(shù)基本都在0.8以上。 基于上述分析, 利用2013—2014的數(shù)據(jù)建立每個(gè)站的單因素Tm模型和多因素Tm模型,結(jié)果見表2。
為了比較SVR-Tm、回歸法建立的單因素Tm模型和多因素Tm模型的精度,應(yīng)用這3個(gè)模型分別計(jì)算2015年廣西地區(qū)4個(gè)站的Tm,其真實(shí)值和每種模型的計(jì)算值如圖2所示。
可知, 以上3種模型均可較好地計(jì)算出2015年的Tm。為了進(jìn)一步定量分析出這3種模型的精度大小,計(jì)算得到每種模型在每個(gè)站的相關(guān)系數(shù)平方、平均偏差和均方根誤差,結(jié)果見表3。
表1 Tm與三種氣象要素的相關(guān)系數(shù)
表2 本地化單因素和多因素Tm模型
表3 SVR-Tm模型和單因素、多因素模型精度對(duì)比
圖2 各模型Tm值與真實(shí)值比較Fig.2 Comparison between Tm values and actual values of each model
每種模型在每個(gè)站的R2均可達(dá)到0.98左右,說明基于SVR建立的Tm模型可達(dá)到與針對(duì)特定區(qū)域構(gòu)建的單因素和多因素Tm回歸模型達(dá)到相當(dāng)?shù)木刃Ч?。比較3種模型的Bias發(fā)現(xiàn),SVR-Tm模型比其他兩種模型的精度偏差小。從每種模型的RMSE上看,SVR-Tm模型整體上比單因素Tm模型和多因素Tm模型的稍小,驗(yàn)證了SVR在Tm計(jì)算方面的可行性。
在分析支持向量機(jī)回歸工作原理的基礎(chǔ)上,結(jié)合無線電探空數(shù)據(jù)建立了廣西地區(qū)的Tm模型,并與采用回歸法建立的單因素Tm模型和多因素Tm模型的精度進(jìn)行對(duì)比,驗(yàn)證了支持向量機(jī)回歸在大氣加權(quán)平均溫度建模方面的可行性和有效性,可為進(jìn)一步研究Tm提供參考。
桂林理工大學(xué)學(xué)報(bào)2019年3期