狄瑞彤 王希凱 孟憲棟 趙京峰 侯紅運
(山東省濟寧市氣象局,山東 濟寧 272000)
能見度的高低與人們的日常生活緊密相關(guān),當能見度較低時,易引發(fā)交通事故,造成危害和經(jīng)濟損失。氣溶膠粒子、大氣透明度以及氣象要素等因素會對能見度產(chǎn)生影響,當出現(xiàn)霧、霾等天氣過程時,大氣的透明度降低,能見度變差。因此,能見度的相關(guān)研究受到廣泛的關(guān)注,對能見度的預測也顯得尤為重要。
在能見度影響因素方面,DOYLE M等人根據(jù)獲取的8個英國氣象局觀測站點的資料,使用4種不同的統(tǒng)計方法構(gòu)建了1950—1997年能見度的變化趨勢。LEE D O研究發(fā)現(xiàn),英國能見度主要受燃料燃燒和氣象條件的影響,與日照時數(shù)、風向以及風速無明顯關(guān)系,能見度提高的原因是二氧化硫排放量降低。王楠等人發(fā)現(xiàn)風速是能見度的影響因子,且與其呈正相關(guān)。姜江等人研究了北京地區(qū)大氣能見度的主要影響因子,并分析了2007—2015年北京地區(qū)能見度的時空特征分布。
在能見度預測方面,Li Xiang等人使用SAE方法從獲得的數(shù)據(jù)中進行特征提取,然后利用多元線性回歸模型進行能見度預測。DEBASHREE等人使用NO、風速等氣象因子構(gòu)建了印度加爾各答機場基于神經(jīng)網(wǎng)絡(luò)算法的能見度預測模型,預測結(jié)果表明,所使用的氣象因子對能見度的總體解釋度較高。施憫憫等人構(gòu)建了多元線性擬合模型和非線性擬合模型對合肥市能見度進行預測,結(jié)果表明非線性擬合模型對能見度的預測效果比線性擬合模型更好。丁卉等人通過構(gòu)建多個多函數(shù)統(tǒng)計模型對廣州市大氣能見度進行預測,獲得了較好的預測效果,實際測量值和模擬預測值間的相關(guān)系數(shù)高達0.9。
因此,該文利用逐步回歸方法對與能見度有影響的多源數(shù)據(jù)進行特征選擇,構(gòu)建有序邏輯回歸能見度預測模型,并通過試驗對比驗證了多源特征和構(gòu)建模型的有效性。
數(shù)據(jù)來源包括氣象數(shù)據(jù)和空氣質(zhì)量數(shù)據(jù)2個部分。該文氣象數(shù)據(jù)來源于2016—2021年濟寧國家氣象觀測站(54915,116.6014E,35.4411N)逐小時地面觀測資料(包括氣壓、水汽壓、溫度、相對濕度、降水量、風向、風速以及能見度),且這些數(shù)據(jù)均經(jīng)過“臺站級—省級—國家級”三級嚴格的質(zhì)量控制。其中,能見度數(shù)據(jù)是利用DNQ1型前向散射式能見度儀進行觀測所得的數(shù)據(jù),觀測范圍為1 m~35 000 m;空氣質(zhì)量數(shù)據(jù)來源于同期的濟寧市環(huán)境監(jiān)測站所屬的3個國控環(huán)境空氣質(zhì)量監(jiān)測站點(火炬城站、污水處理廠以及圣地度假村站)的逐時觀測資料(包括SO濃度、NO濃度、CO濃度、O濃度、PM濃度以及PM濃度),采取這3個站點各顆粒物濃度的平均值代表濟寧市的空氣質(zhì)量數(shù)據(jù)。
能見度具有小時周期性,能見度原始序列與24 h~48 h的滯后項之間的Pearson相關(guān)系數(shù)見表1,其取值范圍為[-1,1]。當其為正值時,兩者為正相關(guān);當其為負值時,兩者為負相關(guān);當取值為(0.95,1]時,表示兩者具有顯著相關(guān)性;當絕對值取值為[0,0.3)時,表示兩者的相關(guān)性極弱或者不相關(guān);當絕對值取值為[0.3,0.5)時,表示兩者呈低度相關(guān);當絕對值取值為[0.5,0.8)時,表示兩者呈中度相關(guān);當絕對值取值為[0.8,0.95)時,表示兩者呈高度相關(guān);當絕對值取值為[0.95,1]時,表示兩者呈顯著相關(guān)。
表1 Pearson相關(guān)性分析
該文根據(jù)相關(guān)性系數(shù)等級劃分,舍棄兩者相關(guān)性極弱或者不相關(guān)的特征,將與原始序列之間的相關(guān)性系數(shù)大于或等于0.3的小時能見度滯后項作為特征選擇的備選特征。所選擇的小時能見度滯后項分別為24 h、25 h、26 h、27 h以及28 h能見度滯后項,與原始能見度序列之間的相關(guān)性系數(shù)分別是0.39、0.38、0.36、0.34以及0.31,其余小時能見度滯后項均被舍棄。
已有的研究表明,氣象條件、環(huán)境條件對能見度有較大的影響,且通過前文能見度滯后項的相關(guān)性分析也可以看出其中一部分小時滯后項與能見度原始序列具有較密切的關(guān)系,為了從這些與能見度有關(guān)的信息中提取最有效的信息,該文利用逐步回歸法進行特征選擇,分別對氣象因子、環(huán)境因子以及24 h滯后項中與能見度相關(guān)性大于0.3的數(shù)據(jù)進行特征選擇,構(gòu)建多源特征融合的數(shù)據(jù)集。該方法可以剔除不顯著的特征,且使剩余特征間的共線性不明顯,使其對能見度具有較高的解釋貢獻。
逐步回歸法的基本思想如下:逐個引入影響能見度的特征,每次均引入對能見度影響最顯著的特征,并對之前已引入的特征進行檢驗,看其是否受后引入特征的影響(變得不再顯著),如果不顯著,就將其刪除;如果顯著,則保留。最終,模型中存在的特征是對能見度影響最顯著的特征,其進行特征選擇的基本步驟如圖1所示。
圖1 逐步回歸基本步驟
特征剔除的判定條件如下:為了避免新引入的特征與已選擇的特征之間存在共線性,使已選擇的特征顯著性不再明顯,當>2時開始進行篩選剔除,其方法為將已選擇的所有特征和新引入的特征相結(jié)合,與能見度進行線性回歸,從特征集中剔除統(tǒng)計值小于給定的顯著性水平的特征。
篩選結(jié)束的判定條件如下:為了避免陷入死循環(huán),令<,依次進行迭代計算,直至沒有被引入和剔除的特征。
該文結(jié)合《水平能見度等級》(GB/T 33673—2017)將能見度劃分為4個等級,且這4個能見度等級所表示的程度是逐級遞增的。為便于表達,對4個能見度等級進行量化(表2),且給出2016—2021年各等級能見度發(fā)生天數(shù)所占的比例。其中,把能見度等級定義為因變量,把影響能見度等級變化的特征定義為因變量,=(,,…,x)。當<0.5(為能見度距離,km)時,能見度等級為0,能見度被定義為“差”;當0.5≤≤2.0時,能見度等級為1,能見度被定義為“較差”;當2.0≤<10.0時,能見度等級為2,能見度被定義為“較好”,當10.0≤時,能見度等級為3,被定義為能見度“好”。
表2 能見度等級量化
從各等級能見度發(fā)生天數(shù)占比可以看出,能見度“差”等級的占比為0.6%,“較差”等級的占比為4.2%,“較好”等級的占比為51.3%,“好”等級的占比為43.9%。其中,濟寧市能見度“差”和“較差”的占比極小,能見度“較好”和“好”等級的占比很大,集中分布于這2個等級,說明濟寧市出現(xiàn)能見度較低的天數(shù)很少,能見度整體狀況較好。
由此可以看出,這4個能見度等級所表示的程度是逐級遞增的,因此該文選擇有序多分類邏輯回歸模型對能見度等級進行預測,在該過程中利用累積概率函數(shù)得到每個樣本隸屬于每個等級的概率。
傳統(tǒng)的Logistic回歸模型可以寫成關(guān)于因變量的函數(shù)表達式,如公式(1)所示。
式中:為被預測能見度等級為的值,=(0,1,2,3);為截距項參數(shù),=(,,,);為偏回歸系數(shù),=(,,,α),均為待估計參數(shù);為特征向量數(shù)量;p為當前樣本被預測為類別的概率。
該文通過累計概率函數(shù)對p進行計算,如公式(2)所示。
式中:p'為當取前個等級的累計概率;為累計概率;為能見度等級。
綜上所述,該文的4個能見度等級的預測概率p如公式(3)所示。
該文分別利用逐步回歸方法對氣象特征、環(huán)境特征以及滯后項特征進行特征選擇,在該過程中令引入的顯著性水平=0.05,令剔除的顯著性水平=0.1。經(jīng)過特征選擇后,最終共有16個特征被引入,2個特征被剔除,分別是風速和降水量。其中,氣象特征共有5個特征被引入,2個特征被剔除,被引入特征的順序依次為相對濕度、水汽壓、溫度、風向以及氣壓;環(huán)境特征全部被引入,且被引入的順序依次為CO、SO、PM、PM、O以及NO濃度;滯后項特全部被引入,且被引入的順序依次為24 h滯后項、26 h滯后項、25 h滯后項、27 h滯后項以及28 h滯后項。最終由上述數(shù)據(jù)構(gòu)成了具有多源特征融合的數(shù)據(jù)集。
為了判斷特征提取方法的有效性,現(xiàn)對其進行檢驗?;貧w模型檢驗方法主要分為3種,即似然比檢驗、計分檢驗以及Wald檢驗。其中,似然比檢驗既適用于多特征的假設(shè)檢驗,又適用于單特征的假設(shè)檢驗;計分檢驗在小樣本上的結(jié)果比似然比檢驗更接近于x分布,在大樣本空間上則相反;與似然比檢驗相比,Wald檢驗適用于單特征檢驗。因此,該文選取似然比檢驗方法。
似然比檢驗統(tǒng)計量的計算如公式(5)所示,該公式的含義為通過增加或者去掉某個特征觀察似然比的變化來分析該特征對因變量影響的顯著性。所選取的氣象特征、環(huán)境特征和滯后項特征的、值以及其他擬合信息見表3。
表3 模型擬合信息
式中:為不包含檢驗特征時該模型對應(yīng)的對數(shù)似然值;為包含檢驗特征時該模型對應(yīng)的對數(shù)似然值。。
通過分析表3可知,在分別引入氣象特征、環(huán)境特征以及滯后項特征后,似然比均發(fā)生明顯變化,值均變小,且顯著性的值均小于0.05,說明在每類特征中至少存在1個特征的偏回歸系數(shù)取值不為0,從而驗證了該特征提取方法的有效性。
為了驗證能見度預測模型的有效性,通過對比試驗的方法對其進行驗證,利用有序多分類邏輯回歸模型對不同的類別特征分別進行試驗,通過精確率、召回率和調(diào)和平均數(shù)值3個指標值對能見度預測模型的優(yōu)劣進行驗證,在該過程采用五折交叉驗證。召回率、精確率和值的計算公式分別如公式(6)~公式(8)所示。
式中:為被正確劃分且本身為正類的樣本數(shù)量;為被錯誤劃分且本身為負類的樣本數(shù)量;為被錯誤劃分為正類的負類樣本數(shù)量。
為了證明多源特征融合的有效性,圖2展示了不同類別特征能見度預測的召回率、精確率和值的對比,“氣象”代表僅包括氣象特征,“氣象+環(huán)境”代表既包括氣象特征,又包括環(huán)境特征,“氣象+環(huán)境+滯后項”代表3種特征均在內(nèi)。由圖2可知,3種特征融合的能見度預測的精確率、召回率和值均高于另外2種特征組合,“氣象+環(huán)境”特征組合表現(xiàn)次之,僅包括“氣象”特征的組合表現(xiàn)最差。在精確率方面,3種特征融合的能見度預測比包括“氣象+環(huán)境”特征組合和僅包括“氣象”特征組合分別高出0.09和0.15。在召回率方面,3種特征融合的能見度預測比包括“氣象+環(huán)境”特征和僅包括“氣象”特征的組合分別高出0.21和0.30;在值方面,3種特征融合的能見度預測比包括“氣象+環(huán)境”特征和僅包括“氣象”特征的組合分別高出0.16和0.24。其表現(xiàn)最佳的原因是所含的信息更多,對能見度特征的度量更精確,對其的分析更全面,因此利用多源特征融合可以更好地提高能見度預測精度。
圖2 不同特征能見度預測效果
為了證明有序邏輯回歸方法的有效性,圖3展示了在數(shù)據(jù)集上進行不同算法預測能見度的召回率、精確率和值的對比,該文選取了多分類邏輯回歸方法和線性回歸方法進行對比。由圖3可知,在有序多分類邏輯回歸上的表現(xiàn)是最好的,略高于多分類邏輯回歸,在線性回歸上的表現(xiàn)最差。在精確率方面,有序多分類邏輯回歸比多分類邏輯回歸和線性回歸分別高出0.02和0.14。在召回率方面,有序多分類邏輯回歸比多分類邏輯回歸和線性回歸分別高出0.02和0.25。在值方面,有序多分類邏輯回歸比多分類邏輯回歸和線性回歸分別高出0.02和0.20。其原因是能見度的等級是遞增的,而其使用的是累計概率函數(shù),與能見度的性質(zhì)相符,因此預測結(jié)果更科學、準確。在線性回歸上的表現(xiàn)最差,其原因可能是數(shù)據(jù)為非線性的,不能很好地對其進行擬合。
圖3 不同算法能見度預測效果
首先,利用Pearson相關(guān)系數(shù)研究了能見度與氣象因子、環(huán)境因子以及24 h滯后項間的相關(guān)性,并把與能見度相關(guān)性大于0.3的滯后項納入候選特征,利用逐步回歸方法對以上各類特征分別進行了特征選擇,構(gòu)造了多源特征融合的數(shù)據(jù)集。其次,提出了有序多分類能見度預測模型,使用累積概率函數(shù)計算每個樣本隸屬于每個等級的概率。最后,利用精確率、召回率以及值3個指標對模型進行評價,驗證了該文所提的多源特征融合的能見度預測方法的有效性。。