龍鳳翔, 張瑀琳, 李艷玉,龔冬英
(桂林市氣象局,廣西 桂林 541001)
霾是大量極細微的干塵粒等均勻地浮游在空中,使水平能見度小于10km的空氣普遍混濁現(xiàn)象,使遠處光亮物微帶黃、紅色,使黑暗物微帶藍色[1]。霾屬于天氣現(xiàn)象中的一種,隨著經濟快速發(fā)展、人類污染排放加劇,霾帶來的危害逐漸加重,除影響人們身心健康外,還對交通、旅游、工業(yè)等行業(yè)產生直接影響,加強霾的監(jiān)測,分析霾的特征,發(fā)布霾天氣預報,可以為防御霾、減輕霾的危害發(fā)揮積極作用。
潛勢預報作為霾預報常見方法,它是選取與預報對象有關的物理因子,運用概率統(tǒng)計的原理,在預報對象與預報因子之間建立某種統(tǒng)計關系,根據(jù)這種統(tǒng)計關系結果預報未來出現(xiàn)的可能性,它的預報對象以二分變量較為常見。目前常見預報方法有逐步回歸法、指標疊加法、支持向量(SVM)方法、決策樹法、Bayes分類法等。如毛程燕[2]等用逐步回歸法建立浙江中西部大霧天氣的潛勢預報模型;梁維亮[3]統(tǒng)計了南寧地區(qū)雷暴天氣和常用對流參數(shù)關系,將對流參數(shù)二值化后,采用邏輯回歸(Logistic)法建立了雷暴天氣預報概率的預報模型;陳豫英[4]用概率回歸方法建立了寧夏春季2-5月沙塵和強沙塵兩個等級的72h沙塵概率預報方程。張慶奎[5]運用指標疊加法建立了阜陽市大霧天氣潛勢預報模型,并取得了較好地預報效果。毛宇清[6]等用SVM分類和回歸方法建立了南京地區(qū)霾日分類預報和有霾日14時能見度預報方程。謝永華[7]等針對霾預報模型少,準確率低缺點,提出將統(tǒng)計預報和數(shù)值預報相結合,用多元逐步與概率回歸法混合的霾預報方法,這種混合的回歸預報算法準確率得到了顯著提高。以上各種潛勢預報方法,都在實際應用中取得了良好的預報效果。
桂林地處廣西東北部,是國際著名旅游勝地,近年來隨著經濟迅速發(fā)展和城市化推進,霾污染帶來的大氣環(huán)境問題對旅游業(yè)的發(fā)展產生了不利影響,為了降低霾的不利影響,發(fā)布較為準確的霾天氣預報,本文采用基于Logistic和事件概率回歸法、指標疊加法等三種統(tǒng)計方法建立桂林市霾的潛勢預報模型,研究各模型的優(yōu)劣,為桂林霾預警、預報和防治提供重要參考依據(jù)。
預報建模使用的資料包括2012年1月~2015年12月桂林自動氣象站逐時地面常規(guī)氣象觀測資料、桂林高空氣象觀測站逐日08時探空資料、桂林大氣成分站逐時PM2.5小時觀測數(shù)據(jù)。利用上述觀測資料,建立20時起報的桂林市霾未來24小時潛勢預報模型。
模型檢驗使用的資料有:桂林自動氣象站2016年逐時地面常規(guī)觀測資料、PM2.5觀測資料,逐日08時歐洲中心(ECMWF)細網(wǎng)格(0.25°×0.25°)數(shù)值預報產品。
霾天氣是高濃度大氣顆粒物和特殊氣象條件共同作用的結果[8]。出現(xiàn)霾天氣時常干燥無雨,風速小或靜風,大氣層結穩(wěn)定,近地層伴有逆溫,大氣擴散能力減弱,污染物濃度增大[9-10]。因此霾的預報因子主要從污染物濃度、水汽、風速、大氣層結、降水等幾個方面選取,最終得到預報因子29個。
2.1.1 污染物濃度因子
PM2.5質量濃度水平與霾的生成密切相關,其質量濃度上升時會造成大氣能見度惡化,是霾天氣產生的重要因素之一[11~13],故選擇PM2.5質量濃度作為污染物濃度因子。包括前日的PM2.5日均質量濃度(PM2.5Day)、20時PM2.5小時質量濃度(PM2.5Hour)以及PM2.5Day、PM2.5Hour過去24小時變化值(ΔPM2.5Day、ΔPM2.5Hour),通過它們能較好地反映出霾出現(xiàn)前期整個大氣的污染狀況。其中ΔPM2.5Day、ΔPM2.5Hour反映的是過去24小時內污染物濃度變化的趨勢,當PM2.5濃度在過去24小時內有增加時,預示空氣污染加重,對霾的生成有利。
2.1.2 水汽因子
包括當日20時地面相對濕度(U)、氣溫露點差(T-Td),霾出現(xiàn)時當日08時高空925hPa氣溫露點差(T-Td925)、850hPa氣溫露點差(T-Td850)以及925hPa 露點溫度(Td925)、850hPa 露點溫度(Td850)、925hPa相對濕度(U925)、850hPa相對濕度(U850)、700hPa相對濕度(U700),當中低層濕度太大時容易出現(xiàn)降水,不利于霾的形成和持續(xù)。
2.1.3 風速因子
風速影響著大氣污染物擴散的快慢,尤其是中、低層風速大小直接影響著污染物的濃度,是霾形成的重要指標之一。在風速因子方面,選取當日08時高空925hPa風速(WS925)、850hPa風速(WS850)、700hPa風速(WS700)作為霾發(fā)生時近地層、中低層風狀況。
2.1.4 層結條件
霾出現(xiàn)天氣常為靜穩(wěn)天氣,近地層常伴有逆溫,當層結不穩(wěn)定時,大氣湍流加劇,污染物極易得到稀釋和擴散。選取因子時考慮用當日的K指數(shù)(K)、S指數(shù)(S)、地面-1 000hPa溫度差(T-T1 000)、地面-925hPa溫度差(T-T925)、地面-850hPa溫度差(T-T850)、925-850hPa溫度差(T925-850)、850-700hPa溫度差(T850-700)代表了地面、近地層、中層的大氣層結狀況。
2.1.5 降水因子
霾出現(xiàn)前期及期間天氣干燥,常持續(xù)無雨天氣或弱降水天氣,當前期、當日降水較大時,則不利于霾生成。霾出現(xiàn)當日降水(R)、前日降水(R24)、前3日累計降水(R72)3個因子能較好反映霾前期、霾期間的降水狀況。
2.1.6 其他因子
主要包括前日24小時變溫(ΔT24)、24小時最高氣溫變化(ΔTmax)、24小時最低氣溫變化(ΔTmin)。24小時變溫能反映出冷空氣強弱,當負變溫幅度越大時,代表冷空氣越強,而冷空氣過境則常代來大風、降水等天氣,使得污染物得到擴散。
霾預報因子應選取與霾實況顯著相關的因子,對于一些與霾相關不大的因子,應予以剔除,具體因子篩選時,通過兩者相關系數(shù)大小進行取舍。
在計算相關系數(shù)時,將霾出現(xiàn)與否轉為0,1二值變量,通過點二列相關求出兩者相關系數(shù)。計算得知,PM2.5Day、PM2.5Hour、U、T-Td、R72、WS850與霾出現(xiàn)與否相關性較好,相關系數(shù)(r)均≥0.20,相關系數(shù)最大為PM2.5Hour。在所有初選因子中,ΔTmax、T-T925、T-Td850、T850-700、SI未通過相關性檢查。表1為通過相關性檢查的預報因子及與霾的相關系數(shù),從相關系數(shù)來看,霾出現(xiàn)主要與前日PM2.5濃度、當日降水、前期降水及前期近地層水汽條件密切相關。這些預報因子從不同角度的反映了霾前期的污染程度、霾前期及霾出現(xiàn)時的水汽、層結、風速、降水等條件,均能不同程度的反映了霾天氣潛勢,選取它們建立霾潛勢預報方程,可綜合的判斷出霾天氣出現(xiàn)的可能性。
為獲取上述各預報因子閾值,分別將霾日對應的預報因子累計頻率進行計算,從頻率較大范圍(50%~90%)中的連續(xù)選取閾值。當預報因子值滿足閾值條件時記為1,否則為0,將轉換為二值變量的預報因子與霾出現(xiàn)與否的二值變量計算相關系數(shù),選擇相關系數(shù)最大對應的閾值作為最終確認閾值。各預報因子的最佳閾值、最佳閾值出現(xiàn)概率及二值化后與霾天氣的相關系數(shù)見表1。
表1 預報因子最佳閾值、最佳閾值出現(xiàn)概率、二值化后及實際值與霾天氣的相關系數(shù)Tab.1 The optimum threshold of forecasting factor,the optimal threshold occurrence probability,correlation coefficient between actual value and haze weather after-binarization
注:**相關系數(shù)在0.01置信水平下顯著(雙側檢驗); *相關系數(shù)在0.05置信水平下顯著(雙側檢驗)。
上述結果顯示,預報因子經過二值轉換后與霾天氣均有顯著的正相關,且多數(shù)因子二值化后與霾天氣的相關系數(shù)要比實際相關系數(shù)有明顯增加,僅U700、WS850因子與霾天氣相關系數(shù)有所減小。綜合來看,用最佳閾值對預報參數(shù)進行二值轉換后的因子值比實際預報因子值使用更加合理,能更好地預測霾天氣是否出現(xiàn)。
在所選預報因子中,有些因子對霾的消空有較好的指示意義,可以作為消空指標使用,如R、R72、T-Td、PM2.5Hour、T-T925。從表2可以看出,當R>5.0mm、R72>25mm、T-T925<1.0℃時霾出現(xiàn)的概率不足5%,T-Td <4℃、PM2.5Hour<20μg/m3時霾出現(xiàn)概率不足10%,因此可以將這些取值作為霾的消空閾值,即達到這些值時,當日霾不易出現(xiàn)。
表2 霾日各因子消空指標取值及出現(xiàn)天數(shù)、累計百分比Tab.2 The values and occurrence days of blanking index of factors in haze days and cumulative percentage of haze days
模型建立使用的資料為2012~2015年霾日前一日20時地面氣象觀測資料、PM2.5資料及當日08時探空資料。
2.4.1 基于事件概率的多元線性回歸法
事件概率回歸方法基本的思路是把預報對象和預報因子看成隨機事件并根據(jù)事件出現(xiàn)與否化成0,1的二值變量,把預報事件y與m個預報因子x1, x2, …,xm事件之間的關系看成是在m個因子已經出現(xiàn)的條件下事件出現(xiàn)與否的關系,是用逐步回歸的方法求各預報因子在各種組合狀態(tài)下預報對象出現(xiàn)的條件概率[14]。以X1,X2,...,Xm為因變量,P為自變量,建立線性回歸方程:
(1)
式中P為Y=1出現(xiàn)的概率,b0,b1,b2,...,bm為回歸系數(shù),用最小二乘法求出。
根據(jù)以上方法得到霾概率多元線性回歸方程為:
Y=0.176+0.174X1+0.125X2+0.102X3
+0.121X4+0.089X5+0.091X6+0.078X7+0.078X8
(2)
(2)式最后納入方程的預報因子為PM2.5Hour(X1)、R(X2)、U(X3)、PM2.5Day(X4)、WS850(X5)、R72(X6)、WS925(X7)、ΔTmin(X8)。
采用復相關系數(shù)對式(2)進行檢驗,在顯著性水平a=0.05時,臨界值R0.05=0.195,相關系數(shù)臨界值為F> F0.05,說明霾出現(xiàn)概率預報方法在統(tǒng)計意義上是顯著的。
2.4.2 邏輯回歸法
邏輯回歸是在線性回歸基礎上套用一個邏輯函數(shù)?;驹硎怯靡唤M觀測數(shù)據(jù)擬合Logistic模型,是研究二分類變量結果Y對一些影響因素(x1,x2,...,xm)之的依存的關系[14]。其中自變量xi稱為危險因素或者暴露因素,可以是分類變量、等級變量或者是連續(xù)變量。
在m個自變量影響下,發(fā)生的概率記作:
P=P(Y=1︱x1,x2,…,xm) 0≤P≤1
(3)
它與自變量之間的Logistic回歸模型為:
(4)
其中,β0為與自變量無關的常數(shù)項,β1,β2,...,βm為回歸系數(shù),表示自變量xi改變一個單位時,對Logistic(P)的貢獻。
根據(jù)Logistic回歸法原理,利用SPSS 18.0軟件進行邏輯回歸分析,得霾出天氣潛勢預報方程:
(5)
其中,P為霾出現(xiàn)的潛勢預報因子a=2.447-0.813 X1+0.017 X2-0.669 X3-0.024 X4-1.027 X5-1.752 X6-0.399 X7-1.441 X8+0.017 X9-0.442 X10-0.213 X11-0.088 X12。其中,X1、X3、X5、X6、X7、X8、X9分別為PM2.5day、 PM2.5hour、T-Td、R、R72、U925、U850原始值轉換后的二值變量,X2、X4、X10、X11、X12分別為PM2.5hour、U、U850、T-Td925、WS850原始值。
從SPSS 18.0計算結果來看,Cox Snell R方與Nagel Kerke R方值分別為0.311、0.501,兩值擬合效果較好。從另一擬合效果來看,如預測變量分界值設為0.35,當預測沒有霾出現(xiàn)時,預測無霾的準確率為87.4%;而當預測有霾時,預報有霾的準確率達73.6%,總的準確率為84.2%,說明方程總體較穩(wěn)定。
2.4.3 指標疊加法
指標疊加法是用來預報災害性天氣的一種方法,該方法已在強對流天氣預報中取得了不錯的預報效果[15-16]。具體思路是選取一定數(shù)量的與霾天氣相關性較好的預報因子,然后確定發(fā)生霾和未發(fā)生霾時的因子閾值,當預報因子超過閾值時,記1,若達不到閾值則記0,當有N個超過閾值時,記Y=N,只要分析Y大于等于霾出現(xiàn)時的臨界值N0,就可以預報霾出現(xiàn)。
Y=X1+X2+X3+ …XN -1+XN
(6)
指標疊加法關鍵是在方程建立前,找到預報因子,方法如下:
從表1中,選取預報因子標準為二值后與霾相關系數(shù)大于0.3的因子,符合條件因子共9個,建立的潛勢預報方程如下:
Y=X1+X2+X3+X4+X5+X6+X7+X8+X9
(7)
其中X1~X9分別表示PM2.5day、PM2.5hour、U、T-Td、,T-Td925、K、R、R24、R72。當9個因子均達到閾值時,Y取值為9,說明是霾出現(xiàn)的最高閾值,而Y為0時為霾天氣潛勢預報的最小值。
利用程序讀取前日地面氣象資料、前日PM2.5資料、當日08時ECMWF細網(wǎng)格數(shù)值預報產品,首先做消空判斷,當達到消空判斷條件時退出計算模型,如未達到則將各預報因子進行二值化處理,后代入潛勢預報模型進行計算,最后得出霾天氣潛勢預報產品,詳細預報流程見下圖。
預報評分是檢驗預報質量的一個重要手段,它是按時段內發(fā)布的預報與天氣實況評定報對次數(shù)、漏報次數(shù)及空報次數(shù)。根據(jù)2005年中國氣象局頒布的《中短期天氣預報檢驗辦法》,對于災害性天氣落區(qū)預報,主要有TS評分、漏報率(PO)、空報率(FAR)3個指標,計算公式如下:
圖 桂林霾天氣潛勢預報流程Fig. Haze Weather Potential Forecasting Process in Guilin
(8)
(9)
(10)
其中,NA為預報正確次數(shù),NB為空報次數(shù),NC為漏報次數(shù)。
2.6.1 回報檢驗
在經過對方程的顯著性檢驗后,我們對 2012~2015年的霾天氣實況進行回報,按霾潛勢預報流程,先對消空因子進行條件判斷,當達到消空條件時,則判斷該日無霾,否則代入潛勢預報方程。按此流程得到基于事件概率的多元回歸模型、邏輯回歸模型、指標疊加法三種潛勢預報方程不同概率閾值的霾預報評分,見表3、表4、表5。
根據(jù)樣本回報的質量評分表可以看出,預報概率不同取值時,預報評分完全不同。其中,基于事件概率的多元回歸模型預測概率P=0.4時,空報率較高,達到47.3%,而在P=0.5時漏報率最高,高達59.2%,同時TS評分也較低。綜合來看,取P=0.45時TS評分最高,因此選取0.45作為預報概率閾值,即:當預報概率大于0.45時,預報未來24h有霾出現(xiàn),否則沒有。而邏輯回歸模型預測概率P從0.30~0.45分別取值的結果來看,差別并不像事件概率回歸法那樣明顯,各概率值對應TS分均能超過50%,空報率、漏報率均在30%左右,其中在概率閾值取0.35時,TS得分最高,大于或者小于該閾值時TS得分稍有下降,因此選取0.35作為事件概率回歸模型預報概率閾值。最后的指標疊加法預報概率閾值分別取4~6,其中閾值取5時TS評分最高,低于該值時空報率高,而高于該值時則是漏報率高, TS評分也低,在閾值為大于7時,漏報率高達73.3%,TS評分只有23.4%。
表3 基于事件概率的多元回歸模型回報檢驗Tab.3 Multivariate Regression Model Return Test based on Event Probability
表4 邏輯回歸模型回報檢驗Tab.4 Logistic Regression Model Return Test
表5 指數(shù)疊加法回報檢驗Tab.5 Exponential superposition Return Test
比較以上三種預測模型的回報檢驗效果來看,邏輯回歸模型回報檢驗驗效果最好,最穩(wěn)定,TS評分最高達52.5%,漏報率和缺測率對比其他兩種模型在TS評分最高時的漏報率、空報率都要低,而基于事件概率的多元回歸模型回報檢驗效果次之,TS評分最高為50.1%。三種模型中指數(shù)疊加模型回報檢驗效果稍差,TS評分最高只有47.8%,對應空報率、漏報率也較高,預測概率閾值在不同的取值時,TS評分變化幅度大。
2.6.2 預報檢驗
為驗證三種預報模式的實際預報效果,取2016年逐日20時地面觀測資料、PM2.5資料、次日08時 ECMWF細網(wǎng)格數(shù)值預報產品預報未來24小時是否出現(xiàn)霾天氣。預報過程同樣先做消空判斷,達到消空條件則預報無霾,否則代入潛勢預報模型。預報試驗時三種模型預報取值如下:事件概率法模型P=0.45時、邏輯回歸法P=0.35、指數(shù)疊加法Y=5則認為有霾出現(xiàn)。通過與實況比較,得出三種模型預報評分(見表6)。由表可以看出,邏輯回歸法同樣在預報檢驗中效果最好,指數(shù)疊加法預報效果較差,其中邏輯回歸法TS評分及準確率分別為50.2%、80.3%,為三種模型中最高,空報率在三種模型中也最低。事件概率法空報率最高,但其漏報率卻是三種模型中最低,只有21.4%。而指數(shù)疊加法的預報效果則介于上述者之間。總體而言三種模型都比較穩(wěn)定,盡管在預報中的準確性較回報檢驗有所下降,但三種霾天氣的潛勢預報模型仍在實際預報有較好地參考價值。
表6 三種模型試預報效果Tab.6 Prediction effect of three models (%)
2.6.3 誤差分析
(1)三種潛勢預報模型對預報的能起到參考作用,但沒有對天氣類型進行劃分,沒有結合霾天氣模型概念,因此對霾預報的準確性有一定影響。
(2)用于預報所用的次日08時探空資料、日降水是用20時起報的12小時ECMWF細網(wǎng)格數(shù)值預報產品,其數(shù)值與建模時使用的實況探空資料有一定差異,這對模型的準確性有一定影響。此外數(shù)值預報產品,其產品質量一定程度也影響了預報準確性。
(3)對預報因子進行二分值轉換時,一些因子的閾值界限不像PM2.5、降水等因子那樣劃分明顯,它們出現(xiàn)霾和不出現(xiàn)霾的值范圍重復多,部分因子劃分閾值時所占比例低,影響了預報模式的準確性。
(4)資料時間序列短,參與建模的年數(shù)只有4年,做出的預報模型代表性還不是很好。
本文分析了霾天氣潛勢預報的幾種方法,重點介紹了基于事件概率的逐步回歸、邏輯回歸、指數(shù)疊加等三種方法,并用這三種方法建立了潛勢預報模型,通過回報和試預報檢驗結果來看,三種方法在實際預報中都有較好的參考作用,預報模型穩(wěn)定。對比各自檢驗效果來看,邏輯回歸法在回報檢驗和試預報檢驗中,無論是TS預報評分還是空報率、準確性都優(yōu)于事件概率法和指數(shù)疊加法,但計算較復雜。指數(shù)疊加法預報回報檢驗和試預報檢驗效果差別小,穩(wěn)定性更高,納入預報的因子少,計算時只需將二值化后預報因子簡單相加,運算過程簡單,易操作。綜合來看,三種方法TS預報評分都在50%左右,準確率均超過70%,在預報上都具有可行性、有效性。
但受限于所用資料時間序列短、資料不全、預報因子篩選欠準確、霾天氣學成因分析缺乏,對霧霾區(qū)分方法手段缺乏,特別是霾維持時間短的現(xiàn)象及霧霾同存現(xiàn)象缺乏足夠分析,導致在預報模型的空報率、漏報率較高,預報的實效性較短。