金江強(qiáng),張懷相
(杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,浙江 杭州 310018)
?
改進(jìn)多元回歸分析在空氣質(zhì)量監(jiān)測(cè)的應(yīng)用
金江強(qiáng),張懷相
(杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,浙江 杭州 310018)
為提高空氣質(zhì)量的測(cè)量精度,利用各種空氣污染物之間的關(guān)聯(lián)性,提出了一種基于空氣污染物之間的因果關(guān)系來(lái)提高空氣質(zhì)量測(cè)量精度的算法.首先針對(duì)空氣污染物的時(shí)間序列建立了自回歸差分滑動(dòng)平均模型;然后通過(guò)F統(tǒng)計(jì)量檢驗(yàn)其格蘭杰因果關(guān)系;接著利用逐步線性回歸模型建立空氣污染物之間的定量關(guān)系;最后運(yùn)用實(shí)驗(yàn)數(shù)據(jù)分析并驗(yàn)證了算法的準(zhǔn)確性和有效性.
空氣質(zhì)量監(jiān)測(cè);無(wú)線傳感網(wǎng)絡(luò);因果關(guān)系;多元回歸
對(duì)空氣質(zhì)量的監(jiān)測(cè),既能讓人們及時(shí)獲取空氣質(zhì)量信息避免恐慌,又能量化空氣污染程度,為環(huán)境保護(hù)和治理的決策分析提供有力支持.目前,我國(guó)主要采用自動(dòng)化大氣環(huán)境監(jiān)測(cè)站來(lái)監(jiān)測(cè)空氣質(zhì)量.這種方法所采用的設(shè)備結(jié)構(gòu)復(fù)雜、價(jià)格昂貴,難以在全國(guó)大范圍內(nèi)普及.基于無(wú)線傳感網(wǎng)的空氣質(zhì)量監(jiān)測(cè)設(shè)備體積小、價(jià)格低,易于維護(hù)和布局,但是其測(cè)量精度卻不及監(jiān)測(cè)站.基于多元回歸分析的預(yù)測(cè)方法是提高空氣質(zhì)量測(cè)量精度的常用方法[1-4].文獻(xiàn)[2]利用傳統(tǒng)的多元回歸模型較好地預(yù)測(cè)了馬來(lái)西亞3天內(nèi)的臭氧濃度,文獻(xiàn)[3]提出了一種基于回歸分析與小波分析的混合模型,有效地提高了對(duì)中國(guó)東部城市PM10濃度的預(yù)測(cè)精度,文獻(xiàn)[4]提出了一種基于回歸分析和BP神經(jīng)網(wǎng)絡(luò)來(lái)提高PM10濃度預(yù)測(cè)精度的混合模型.本文在前人研究的基礎(chǔ)上,提出了一種基于多元回歸分析和格蘭杰因果分析[5]的空氣質(zhì)量測(cè)量的混合預(yù)測(cè)模型,其中格蘭杰因果分析能夠有效地篩選出相關(guān)的時(shí)間序列,而多元線性回歸分析則能夠進(jìn)一步確定相關(guān)時(shí)間序列之間的定量關(guān)系.
給定2個(gè)時(shí)間序列xt和yt,在統(tǒng)計(jì)學(xué)上,如果序列yt能對(duì)序列xt的預(yù)測(cè)提供有意義的信息,則稱(chēng)yt是xt的格蘭杰原因.格蘭杰因果檢驗(yàn)的基本思想是:首先建立包含xt和yt的假設(shè)預(yù)測(cè)模型,然后利用統(tǒng)計(jì)量檢驗(yàn)?zāi)P?,判斷此模型是否適合.
1.1多元時(shí)間序列模型——ARIMAX模型
自回歸差分滑動(dòng)平均(Auto Regressive Integrated Moving Average,ARIMA)模型是處理時(shí)間序列的經(jīng)典模型,主要包含3個(gè)基本內(nèi)容:差分模型、自回歸模型和預(yù)測(cè)誤差的滑動(dòng)平均模型.考慮了外生變量的ARIMAX模型是對(duì)ARIMA模型的擴(kuò)展,假設(shè)對(duì)時(shí)間序列xt建模,時(shí)間序列yt作為xt的外生變量,那么ARIMAX模型包括:
zt=d1xt,
(1)
vt=d2yt,
(2)
(3)
式中:αk,βk,εk為模型參數(shù),表示差分操作,d1,d2表示差分次數(shù),另外,xt=xt-xt-1,dxt=d…(xt).
式(1)和式(2)分別對(duì)序列xt和yt差分,直至序列穩(wěn)定.式(3)右邊第1項(xiàng)是自回歸部分,表示當(dāng)前觀測(cè)值與zt歷史觀測(cè)值的關(guān)系;第2項(xiàng)表示當(dāng)前觀測(cè)值與vt歷史觀測(cè)值的關(guān)系;第3項(xiàng)是滑動(dòng)平均部分,表示當(dāng)前觀測(cè)值與歷史觀測(cè)誤差的關(guān)系.
1.2F檢驗(yàn)
對(duì)于式(3),時(shí)間序列yt對(duì)xt的影響完全由等式右邊第2項(xiàng)決定,那么表示yt不是xt的因果關(guān)系的零假設(shè)為:
H0∶βk=0?k.
(4)
如果零假設(shè)被接受,就意味著僅僅用自身歷史觀測(cè)值來(lái)預(yù)測(cè)的效果和聯(lián)合外因變量來(lái)預(yù)測(cè)的效果是一樣的;相反,如果零假設(shè)被拒絕,則表示聯(lián)合外因變量yt能夠提高預(yù)測(cè)xt的效果,稱(chēng)yt是xt的格蘭杰原因.當(dāng)零假設(shè)接受時(shí),ARIMAX模型也就退化成ARIMA模型:
zt=dxt,
(5)
(6)
把式(3)所表述的模型記為模型1,式(6)所表述的模型記為模型2,樣本容量記為T(mén).為了描述模型1和模型2的適合度,本文定義模型的殘差平方和:
(7)
用SRSS1和SRSS2分別表示模型1和模型2的殘差平方和,則模型的統(tǒng)計(jì)量S定義如下:
(8)
當(dāng)零假設(shè)被接受時(shí),統(tǒng)計(jì)量S服從自由度為q和T-2(p+q+r)-1的F分布F(q,T-2(p+q+r)-1).如果計(jì)算的S值大于給定顯著性水平α下F(q,T-2(p+q+r)-1)分布的臨界值,則認(rèn)為yt是xt的格蘭杰原因.
2.1多元線性回歸預(yù)測(cè)模型
假設(shè)Y是1個(gè)可觀測(cè)的隨機(jī)變量,它受到多個(gè)因素X1,X2,…,Xk的影響,若Y與X1,X2,…,Xk有如下線性關(guān)系:
Y=β0+β1X1+β2X2+…+βkXk+e,
(9)
式中:β1,β2,…,βk是未知參數(shù),e是不可測(cè)的隨機(jī)誤差.稱(chēng)式(9)所表示的模型為多元線性回歸模型,稱(chēng)Y為被解釋變量,X1,X2,…,Xk為解釋變量.
2.2回歸方程的建立方法——逐步回歸法
逐步回歸法的主要思想為:將變量逐個(gè)引入模型,引入條件是通過(guò)偏F統(tǒng)計(jì)量的檢驗(yàn).同時(shí),每引入1個(gè)變量后對(duì)已經(jīng)選入的變量進(jìn)行檢驗(yàn),剔除其中不顯著的變量.
首先,根據(jù)一定顯著水平,給出偏統(tǒng)計(jì)量的2個(gè)臨界值,1個(gè)用作選取自變量,記做FE;另1個(gè)用作剔除自變量,記做FD(一般FE>FD).接著,進(jìn)行逐步計(jì)算:
1)對(duì)于每1個(gè)未引入的解釋變量,分別建立線性回歸模型.接著計(jì)算所有模型的統(tǒng)計(jì)值F,并選取最大的F值,記為Fmax.若Fmax>FE,將模型對(duì)應(yīng)的變量引入回歸方程,轉(zhuǎn)至步驟2.如果Fmax≤FE,表示已無(wú)變量可選入方程,則結(jié)束計(jì)算;
2)計(jì)算每個(gè)已經(jīng)選入模型的變量的F值,若F≤FD,表示該變量不顯著,應(yīng)將其從回歸方程中剔除.若還有變量未加入,則計(jì)算轉(zhuǎn)至步驟1,否則結(jié)束計(jì)算.
利用環(huán)境信息采集設(shè)備采集杭州下沙2周的空氣質(zhì)量數(shù)據(jù).實(shí)驗(yàn)對(duì)采集到的數(shù)據(jù)進(jìn)行因果關(guān)系分析和回歸分析,以尋求提高PM2.5測(cè)量精度的方法.
3.1下沙空氣質(zhì)量的格蘭杰因果關(guān)系分析
為了判定PM2.5濃度、NO2濃度、SO2濃度和O3濃度4個(gè)變量之間的格蘭杰因果關(guān)系,首先任意選擇其中2個(gè)變量作為預(yù)測(cè)變量xt和外因變量yt,然后根據(jù)式(3)和式(6)分別建立ARIMAX和ARIMA模型,ARIMAX模型中3個(gè)參數(shù)p,q和r以及ARIMA模型中2個(gè)參數(shù)p和q都按赤池信息量準(zhǔn)則(AIC)[6]來(lái)選擇.最后根據(jù)由式(7)得到的這兩個(gè)模型的殘差平方和,計(jì)算出統(tǒng)計(jì)量S和F檢驗(yàn)的臨界值C,計(jì)算結(jié)果如表1所示,表1中置信水平為0.95.
表1 空氣質(zhì)量各變量之間的格蘭杰因果關(guān)系分析
若模型的統(tǒng)計(jì)量S的值大于臨界值C,則表明該模型中的變量存在著格蘭杰因果關(guān)系.從表1可以看出:1)只有SO2濃度和PM2.5濃度是互為格蘭杰原因,格蘭杰因果關(guān)系是非對(duì)稱(chēng)的;2)格蘭杰原因沒(méi)有傳遞性.PM2.5濃度是SO2濃度的格蘭杰原因,SO2濃度是O3濃度的格蘭杰原因,但PM2.5濃度卻不是O3濃度的格蘭杰原因.
3.2下沙空氣質(zhì)量的線性回歸分析
利用逐步回歸法建立PM2.5的預(yù)測(cè)分析模型,如表2所示.其中自變量XPM2.5(t),XNO2(t)和XSO2(t)分別表示PM2.5,NO2和SO2當(dāng)前的濃度序列,自變量XPM2.5(t-1)和XNO2(t-1)分別表示PM2.5和NO2的歷史濃度序列,因變量是環(huán)保局提供的更加精確的PM2.5濃度序列,R表示模型擬合效果的系數(shù),自變量進(jìn)入的置信水平為0.05,剔除自變量的置信水平為0.1.
表2 PM2.5的預(yù)測(cè)分析表
最終得到逐步回歸的預(yù)測(cè)分析模型:
y(t)=0.24×XPM2.5(t)+0.70×XPM2.5(t-1)-0.16×XNO2(t)+0.19×XNO2(t-1)+0.11×XSO2(t).
(10)
根據(jù)式(10)所表述的模型對(duì)原始測(cè)量曲線進(jìn)行擬合,擬合結(jié)果如圖1所示.
圖1 逐步回歸模型的擬合結(jié)果
分別計(jì)算擬合前后的SRSS和相對(duì)誤差在一定范圍內(nèi)的樣本占總樣本的百分比數(shù),如表3所示.
表3 原始測(cè)量和回歸擬合方案的誤差統(tǒng)計(jì)結(jié)果
由上面的計(jì)算結(jié)果可以看出:
1)擬合后的PM2.5曲線走勢(shì)與環(huán)保局提供的PM2.5曲線走勢(shì)基本一致.在90~100,120~130兩個(gè)時(shí)間段,原測(cè)量值走勢(shì)與實(shí)際值走勢(shì)相反,經(jīng)模型預(yù)測(cè)后,其走勢(shì)基本一致;在30~40,70~80和140~160等多個(gè)時(shí)間段,模型改善了PM2.5測(cè)量值的走勢(shì),使之更符合實(shí)際值;
2)擬合后的PM2.5濃度的測(cè)量精度有了一定程度的提高.
3.3模型預(yù)測(cè)
模型的實(shí)際意義在于對(duì)未來(lái)的數(shù)據(jù)有效,對(duì)2015-04-25至2015-05-01測(cè)量的下沙空氣質(zhì)量數(shù)據(jù)應(yīng)用上述模型進(jìn)行誤差統(tǒng)計(jì),結(jié)果如表4所示.
表4 原始測(cè)量和回歸擬合方案的誤差統(tǒng)計(jì)結(jié)果
由表4可知,經(jīng)擬合后,98%的樣本相對(duì)誤差在20%以下,52%的樣本相對(duì)誤差在5%以下,說(shuō)明模型預(yù)測(cè)的精度較高.
基于F檢驗(yàn)的格蘭杰因果關(guān)系分析的實(shí)驗(yàn)結(jié)果顯示,空氣污染物濃度的時(shí)間序列之間存在著因果關(guān)系.利用逐步回歸分析建立聯(lián)合預(yù)測(cè)模型,提高了PM2.5的測(cè)量精度.本文在探索大氣污染物之間的關(guān)系時(shí),只考慮了它們的線性關(guān)系.如若考慮污染物之間的非線性關(guān)系是否能進(jìn)一步提高測(cè)量精度,還需要進(jìn)一步研究.
[1]LI C,HSU N C,TSAY S.A study on the potential applications of satellite data in air quality monitoring and forecasting[J]. Atmospheric Environment,2011,45(22):3663-3675.
[2]MUHAMAD M,SAUFIE A Z,DENI S M.Three Days Ahead Prediction of Daily 12 Hour Ozone (O3) Concentrations for Urban Area in Malaysia[J]. Journal of Environmental Science and Technology,2015,8(3):102-112.
[3]CHEN Y,SHI R,SHU S,et al.Ensemble and enhanced PM10concentration forecast model based on stepwise regression and wavelet analysis[J]. Atmospheric Environment,2013,74:346-359.
[4]SAUFIE A Z,YAHAYA A S,RAMLI N A,et al.Future daily PM10concentrations prediction by combining regression models and feedforward backpropagation models with principle component analysis(PCA)[J]. Atmospheric Environment,2013,77(3):621-630.
[5]ZHOU Y,KANG Z,ZHANG L,et al.Causal analysis for non-stationary time series in sensor-rich smart buildings[C]//Automation Science and Engineering(CASE),2013 IEEE International Conference on.Madison WI:IEEE,2013:593-598.
[6]BOZDOGAN H.Model Selection and Akaike’s Information Criterion(AIC):The General Theory and Its Analytical Extensions[J]. Psychometrika,1987,52(3):345-370.
Application of Granger Causality and Multiple Regression Analysis in Air Quality Monitoring
JIN Jiangqiang, ZHANG Huaixiang
(SchoolofComputer,HangzhouDianziUniversity,HangzhouZhejiang310018,China)
In order to improve the accuracy of measurement of air quality, this paper proposes an algorithm of improving air quality measurement precision by causality between air pollutants, based on the contact between the various air pollutants. First of all, autoregressive integrated moving average(AIMA) model with exogenous variables is established for time series of air pollutants. Secondly, Granger causality is tested for air pollutants by F-statistics. Then, stepwise linear regression mode is trained to establish a quantitative relationship in air pollutants which has causal relationship. Finally, the accuracy and effectiveness of the algorithm has been validated by the analysis of experimental data.
air quality monitoring; wireless sensor networks; causality; multiple regression
10.13954/j.cnki.hdu.2016.01.009
2015-06-23
國(guó)家科技支撐計(jì)劃資助項(xiàng)目(2014BAF07B01)
金江強(qiáng)(1988-),男,浙江臺(tái)州人,碩士研究生,無(wú)線傳感網(wǎng)絡(luò).通信作者:張懷相副教授,E-mail: hxzhang@hdu.edu.cn.
TP391
A
1001-9146(2016)01-0041-05