鄧國取, 陳 虎
(河南科技大學 管理學院,河南 洛陽 471023)
空氣質(zhì)量與人類日常健康生活息息相關。作為生命的四大要素之一,空氣在維持生態(tài)系統(tǒng)方面起著重要作用。近年來,人類活動嚴重加劇了空氣污染程度,空氣質(zhì)量已成為全社會廣泛關注的焦點問題。因此研究影響空氣質(zhì)量的因素,合理預測空氣質(zhì)量(Air Quality Forecasting,AQF)對大氣污染監(jiān)管和治理有著重要的現(xiàn)實意義[1]。目前的研究將AQF分為短期AQF(Short Air Quality Forecasting,SAQF)、中期AQF和長期AQF。中長期AQF通常用作較長時間內(nèi)的空氣質(zhì)量預測,主要用于規(guī)劃工業(yè)用地或居住區(qū)的分布以及實現(xiàn)中長期精細化預報,為污染防控和達標規(guī)劃提供更多的提前量。SAQF常用于輔助調(diào)控短期內(nèi)的交通網(wǎng)絡,還可輔助個人出行,預防本人過度暴露于外部污染環(huán)境中。因此,SAQF對社會發(fā)展和人們的日常生活都具有重要意義。
SAQF常用的是混合預測模型,為克服支持向量回歸(Support Vector Regression,SVR)在處理海量數(shù)據(jù)方面的不足, GHAEMI等[2]首次建立了基于Hadoop平臺的分布式計算模型。SHAH等[3]引入人工蜂群誤差最小化的參數(shù)優(yōu)化算法思想和SVR結(jié)合用于空氣質(zhì)量預測,所提出的混合模型具有更高的預測性能。但廣泛使用的算法包括蟻群優(yōu)化(Ant Colony Optimization,ACO),遺傳算法(Genetic Algorithm,GA)等算法不能很好地存儲粒子信息。同時,上述算法參數(shù)優(yōu)化時間較長,不能最大程度發(fā)揮SVR算法的優(yōu)勢[4,5]。隨著計算機性能的不斷提高,研究人員在早期神經(jīng)網(wǎng)絡的基礎上引入長短期記憶網(wǎng)絡(Long Short-Term Memory Recurrent Neural Network,LSTM)對空氣質(zhì)量進行預測,但忽略了多因素對單一空氣污染物的影響[6-8]。
目前,國內(nèi)外學者對空氣質(zhì)量的研究主要集中對空氣質(zhì)量指數(shù)(Air Quality Index,AQI)的研究。國內(nèi)學者大多是基于2012年3月國家發(fā)布的空氣質(zhì)量評價標準《環(huán)境空氣質(zhì)量標準》(GB 3095-2012),將PM2.5,PM10,SO2,CO,NO2和O3這6種污染物用統(tǒng)一的AQI作為評價標準。羅宏遠等[9]提出AQI不僅可以直觀地呈現(xiàn)出空氣質(zhì)量的變化趨勢,還可直接服務于政府工作者和相關群體。部分研究表明,除6大污染物以外,氣象因素如氣溫、天氣、風速、風向等也是影響AQI預測的重要因素[10,11]。許文軒等[12]在華北地區(qū)AQI的時空分布規(guī)律研究中引入空間異質(zhì)性和空間相關性的思想,分析了經(jīng)濟和自然因素對空氣質(zhì)量產(chǎn)生的影響。但現(xiàn)有大多數(shù)研究在測量AQI時多采用污染物濃度或氣象等直接因素,忽略了社會發(fā)展過程中工業(yè)化和城市化等直接或間接因素對AQI的影響。龔光彩等[13]以北京市為例,建立了沒有考慮社會經(jīng)濟因素的區(qū)域環(huán)境關聯(lián)模型。事實上,AQI是直接因素和間接因素的綜合表現(xiàn)結(jié)果,用單一的直接因素測量AQI不夠充分,可能存在測量誤差,從而會降低模型的預測精度。李靜萍和周景博[14]首次采用結(jié)構(gòu)方程模型(Structural Equation Model,SEM)分析工業(yè)化和城市化對城市空氣質(zhì)量的影響,不僅可以用觀測變量代替不可測的潛變量,還可以容許測量指標存在的誤差,從而能更精確地估計各因素對空氣質(zhì)量的影響。
綜上所述,本研究基于歷史氣象數(shù)據(jù),首先使用相關方法篩選影響空氣質(zhì)量預測的重要氣象因素,并構(gòu)建結(jié)構(gòu)方程模型探究經(jīng)濟社會發(fā)展中工業(yè)化和城市化兩大指標對空氣質(zhì)量的影響,篩選出對空氣質(zhì)量影響較大的非氣象影響因素;其次為提高實驗數(shù)據(jù)的規(guī)律性,依托SVR處理小樣本的優(yōu)勢,運用K-means聚類算法把數(shù)據(jù)拆分成若干類別的小規(guī)模數(shù)據(jù);最后將粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)與SVR結(jié)合,建立混合PSO-SVR模型提高空氣質(zhì)量的預測精度,以期為社會生產(chǎn)發(fā)展和人民生活提供服務。
支持向量機是一種常用的判別方法,它遵循SRM原理,在處理小樣本和高維特征空間問題上具有獨特的優(yōu)勢。支持向量機最初用于解決模式識別問題,但近年來通過引入不敏感損失函數(shù)ε來處理非線性回歸估計問題。支持向量機用于解決回歸問題時被稱為支持向量回歸(Support Vector Regression,SVR),其主要思想是通過使用非線性函數(shù)將數(shù)據(jù)集xi(i=1,…,n)映射到一個高維特征空間。具體關系表示為:
f(x)=ωTφ(x)+b
(1)
其中,f(x)為輸出值,ω和b為系數(shù),φ(x)為非線性映射函數(shù),可以將輸入值轉(zhuǎn)換為高維特征空間。ω和b的調(diào)控值如下:
(2)
其中,Rε()是經(jīng)驗風險,C是正則化參數(shù),也即懲罰因子。
(3)
(4)
K(xi,xj)=φ(xi)φ(xj)
(5)
目前研究中常用的有3類核函數(shù),包括多項式核函數(shù)、Sigmoid核函數(shù)和高斯核函數(shù)。多項式核函數(shù)是維數(shù)最高的且該類函數(shù)的計算靈也較大,從而導致該類函數(shù)的誤差值較高。對于Sigmoid函數(shù)而言,只有部分數(shù)值符合Mercer定理條件,其適用局限性導致部分數(shù)值無法保證函數(shù)的正定性。而高斯核函數(shù)在SVR研究中是最常用的一種,也被稱為徑向基核函數(shù)(Radial Basis Function,RBF)。該函數(shù)可以將數(shù)據(jù)映射到無限維,且計算復雜度相對更低。因此本研究采用RBF作為支持向量回歸的核函數(shù),函數(shù)的定義為:
(6)
在SVR模型中,預測精度主要受不敏感損失變量ε、徑向基核系數(shù)變量γ以及懲罰因子c等變量的影響。構(gòu)建PSO-SVR混合模型的目的就是進行參數(shù)尋優(yōu),找到SVR中最佳參數(shù)組合以此來提高預測精度。在進行SVR回歸預測前,需要確定懲罰因子c、徑向基核系數(shù)變量γ和不敏感損失變量ε。懲罰因子c過小會導致預測精度大幅降低,從而導致泛化能力變差,但c過大將會導致容忍度較低,從而預測精度降低。在進行參數(shù)尋優(yōu)過程中,本研究將以懲罰因子c較小的原則進行選擇。徑向基核系數(shù)變量γ控制SVR對輸入變量的敏感程度。不敏感損失變量ε表示容忍模型誤差的能力,代表擬合邊界的寬度,在實驗過程中應盡可能多的使樣本位于擬合邊界上。因此,為達到參數(shù)組合的最優(yōu),采用粒子群優(yōu)化算法對參數(shù)進行選擇。
粒子群優(yōu)化是在迭代優(yōu)化的基礎上發(fā)展起來的種群計算技術。首先,初始化一組粒子,然后通過跟蹤單個極值pibest和全局極值pgbest來更新這些粒子在下一次迭代中的速度和位置;當發(fā)現(xiàn)這兩個端點后,PSO算法將對每個粒子的速度和距離進行識別。
假設在i維搜索空間中存在m個粒子。第i個粒子表示為xi=(xi1,…,xid),其中i=1,…,m。也就是說,第i個粒子的位置為xi。第i個粒子的速度也是一個矢量,用vi=(vi1,…,vid)表示。該粒子的最優(yōu)位置為pi=(pi1,…,pid),而整個種群的最優(yōu)位置為pg=(pg1,…,pgd)。標準的粒子群算法更新了現(xiàn)有的粒子群算法,具體的定義如下:
(7)
(8)
(9)
混合PSO-SVR算法的整體流程如圖1所示。
圖1 聚類混合PSO-SVR建模流程圖
首先采用逐步回歸的方法將污染物數(shù)據(jù)、氣象數(shù)據(jù)和時間特征數(shù)據(jù)進行降維處理;其次為更好體現(xiàn)SVR對小樣本數(shù)據(jù)處理的優(yōu)勢,采用K-means對降維處理后的數(shù)據(jù)進行聚類劃分;最后將聚類劃分后的小樣本數(shù)據(jù)輸入到PSO-SVR模型中進行數(shù)值預測。具體步驟如下:
步驟1在進行逐步回歸降維處理前,假設實驗數(shù)據(jù)中存在c條樣本數(shù)據(jù),n個自變量(特征處理后的變量數(shù)據(jù)),則該集合可表示為X=(X1,…,Xn),本研究中的因變量AQI用Y表示,如下所示:
Y=β0+βiXi+ε,i=1,…,n
(10)
步驟2建立因變量Y與自變量子集{Xτ1,X1},…,{Xτ1,Xn}的二元回歸模型,共有n-1個,再次計算回歸系數(shù)以及對應的F檢驗統(tǒng)計量的值為Fk″(k?S1) ,令Fτ2″為其中的最大值;在給定顯著性水平α=0.05下,對應的臨界值為F(2),當Fτ2″≥F(2),則將Xτ2加入到回歸模型中,否則結(jié)束變量引入過程。
步驟3重復步驟2的操作,得到本研究最終的所需要的方程模型如下:
(11)
步驟4選擇l個質(zhì)心,將經(jīng)過特征編碼后的原始數(shù)據(jù)乘上對應的系數(shù)βi后,將新的數(shù)據(jù)集Yτ輸入到K-means聚類算法中得到l個數(shù)據(jù)集合,分別為u1,…,ul∈Rn,Yτi∈Rn,i=1,…,c,計算數(shù)據(jù)集Yτ中每一個樣本到質(zhì)心uj的歐氏距離,不斷更新集合的質(zhì)心,將其歸為l個集合,具體計算公式如下:
(12)
步驟5將每個集合Si中的30%作為測試集,最后輸入到PSO-SVR模型中得到S(Si,P(c,γ,ε))即為AQI的預測結(jié)果。
本研究借助Python相關工具PyCharm收集中國氣象總局發(fā)布的2017年1月1日至2019年12月31日全國34個省份的歷史空氣質(zhì)量指數(shù)(AQI)以及氣象因素(溫度、風向、風力、降雨、壓強以及濕度等,通過計算近三年各地區(qū)年均AQI顯示,北京市,天津市,山東省,河北省,山西省,陜西省,河南省,安徽省,新疆等9個地區(qū)的空氣污染在近三年中表現(xiàn)較為嚴重,為驗證混合模型的優(yōu)越性,將以北京市,天津市以及其他7個地區(qū)省會城市的氣象數(shù)據(jù)為基礎,同時使用數(shù)據(jù)采集器收集中國空氣質(zhì)量在線監(jiān)測分析平臺發(fā)布的2017年1月至2019年12月這9個城市的每日六大污染物濃度。然后將AQI,氣象因素、污染物及工業(yè)化和城市化因素作樣本數(shù)據(jù)展開研究。
研究選擇均方誤差(Root Mean Square Error,RMSE)和平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)來檢驗所提出的混合模型的預測性能。其計算公式為:
(13)
(14)
(15)
(16)
本研究選擇GA-SVR,BPNN,XGBoost和LSTM四個模型分別對加入工業(yè)化和城市化因素的實驗數(shù)據(jù)進行測試。選擇GA-SVR模型的原因是,為了對比突出PSO優(yōu)化參數(shù)效果比GA算法更適用于該模型。選擇人工神經(jīng)網(wǎng)絡ANN中的BPNN模型,主要原因是該模型在實驗數(shù)據(jù)較少時,通過徑向基神經(jīng)元和線性神經(jīng)元建立廣義回歸神經(jīng)網(wǎng)絡較穩(wěn)定,從而保證較好的預測效果。選擇XGBoost模型的原因是可以提供并行樹提升,進而能快速準確地解決大樣本數(shù)據(jù),但由于短期空氣質(zhì)量預測的樣本數(shù)據(jù)規(guī)模有限,采用該模型可能會由于樣本數(shù)量導致模型訓練效果不夠優(yōu)良,從而降低預測精度。選擇LSTM的原因是隨著計算機性能的不斷提高,在早期神經(jīng)網(wǎng)絡的基礎上開發(fā)的卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡和LSTM等得到應用,其中,LSTM在六大污染物濃度預測上的效果優(yōu)于其它模型。本研究選擇Tensorflow框架下Keras中的LSTM方法和混合模型PSO-SVR進行比較,探究二者在高峰值的擬合效果,以此進一步驗證混合模型的優(yōu)良性。如表1所示,展示了9個城市在5種模型下測驗后的平均結(jié)果。
表1 模型的評價指標
BPNN,XGBoost和LSTM模型在本研究中采用實驗前設置的默認參數(shù)。通過實驗可知,混合PSO-SVR的評價指標優(yōu)于其他模型、模型的預測時間也是最短,進一步驗證了本研究提出的混合PSO-SVR模型的優(yōu)良性。
本研究將粒子群算法和支持向量回歸、結(jié)構(gòu)方程模型和K-means聚類相結(jié)合,構(gòu)建了非等權聚類混合PSO-SVR模型,并以中國地區(qū)的9大城市為例進行了性能測試。首先對數(shù)據(jù)進行初步預處理,分析時間影響因素以及氣象影響因素,然后結(jié)合經(jīng)濟社會發(fā)展中工業(yè)化和城市化影響因素構(gòu)建結(jié)構(gòu)方程模型,最終將最優(yōu)變量組合輸入基于K-means聚類的混合PSO-SVR模型,同時進行比較分析驗證所提出的混合模型的性能。結(jié)果顯示混合模型在預測精度和運行時間方面都占據(jù)一定的優(yōu)勢。本研究的主要貢獻可歸納如下:(1)不僅計算了影響AQI的最優(yōu)的氣象變量組合,而且還引入結(jié)構(gòu)方程模型探究了經(jīng)濟社會中工業(yè)化和城市化因素對空氣質(zhì)量的非直接影響,以此提高了AQI預測精度;(2)引入無監(jiān)督聚類算法K-means,增強了建模數(shù)據(jù)的規(guī)律性,減少了單次數(shù)據(jù)預測量,提高了預測精度的同時縮短了運行時間。此外,借助 PSO優(yōu)化算法實現(xiàn)參數(shù)的自動選擇,克服了SVR收斂過早問題;(3)通過選取中國地區(qū)具有代表性的2個直轄市和7個省會城市進行模型的檢驗,驗證了該模型的可實用性;同時選擇GA-SVR,BPNN,XGBoost和LSTM四個模型做對比,進一步驗證了加入工業(yè)化和城市化因素后,本研究提出的混合PSO-SVR模型優(yōu)于其他四個模型,在高峰值的擬合中表現(xiàn)較為穩(wěn)定??諝赓|(zhì)量的變化對自然生態(tài)系統(tǒng)和經(jīng)濟社會的影響正在加速,重視并提高我國對空氣質(zhì)量狀況的預測,加強氣候變化研究至關重要。因此為增強本研究所提出的模型的適應度和準確度,下一步工作將重點研究工業(yè)化和城市化進程對大氣污染物濃度的影響,盡可能為綠色經(jīng)濟社會發(fā)展提出針對性的政策和建議。