劉 笑
(西安財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院, 西安 710100)
當(dāng)前各國(guó)經(jīng)濟(jì)的快速發(fā)展導(dǎo)致了環(huán)境問(wèn)題越來(lái)越嚴(yán)重,不論是何種原因造成的空氣中PM2.5的濃度增加,都應(yīng)該受到關(guān)注。
近幾年,西安市霧霾日益嚴(yán)重,人們生活以及健康受到了一定的影響。研究發(fā)現(xiàn)PM2.5并非是一種成分單一的空氣污染物,空氣中的很多成分,例如小分子污染物、可溶性的氣體和固體都組成了空氣中的PM2.5。另外,有一部分學(xué)者更關(guān)注于空氣中PM2.5的組成,最終發(fā)現(xiàn)不僅僅空氣中的二氧化硫、二氧化氮對(duì)PM2.5的濃度有影響,還有很多不能想象的風(fēng)速、濕度等氣象的因素,甚至于降水量都會(huì)對(duì)空氣中PM2.5的濃度產(chǎn)生或多或少的影響。
大部分空氣質(zhì)量方面的預(yù)測(cè)都是點(diǎn)估計(jì),無(wú)論是國(guó)內(nèi)還是國(guó)外都鮮少有人會(huì)對(duì)空氣質(zhì)量整個(gè)分布的預(yù)測(cè)進(jìn)行研究,而分位數(shù)回歸的預(yù)測(cè)方法幾乎沒(méi)有被提到。在已有研究中,學(xué)者們選擇建立線性分位數(shù)回歸模型得出污染物排放是導(dǎo)致PM2.5濃度升高的最主要原因,氣象因素對(duì)PM2.5濃度變化有一定影響,但其影響小于污染物排放。在不同分位點(diǎn)上,PM2.5濃度在不同的季節(jié)差異較大,且數(shù)據(jù)大都是2009年至2015年的,缺少近幾年環(huán)境影響的變化,需要取得更新的數(shù)據(jù)進(jìn)行完善分析。
由于各因素對(duì)PM2.5濃度的影響也有可能是非線性的,因此選擇建立線性分位數(shù)回歸模型和普通多元回歸模型,檢測(cè)空氣污染物和氣象因素對(duì)PM2.5存在的影響。由于西安市空氣質(zhì)量影響最嚴(yán)重的因素為PM2.5的濃度,因此著重研究PM2.5的構(gòu)成以及成因,研究對(duì)PM2.5濃度的影響因素。
近年來(lái),很多學(xué)者對(duì)大氣環(huán)境污染情況進(jìn)行了一定的研究。徐衡對(duì)寶雞市空氣質(zhì)量的主要污染物PM2.5、O3的影響因素以及變化規(guī)律進(jìn)行了研究,得出PM2.5和O3嚴(yán)重污染空氣質(zhì)量的結(jié)論[1];杜越首先描述了中國(guó)AQI(空氣質(zhì)量指數(shù))的時(shí)空分布,然后通過(guò)貝葉斯時(shí)空模型和廣義線性模型研究氣象和經(jīng)濟(jì)因素對(duì)AQI產(chǎn)生的影響,得出大氣污染呈現(xiàn)明顯的時(shí)空聚集性的結(jié)論[2];武鵬程利用數(shù)據(jù)挖掘中的遺傳神經(jīng)網(wǎng)絡(luò)模型以及灰色關(guān)聯(lián)度的方法對(duì)武漢市的空氣質(zhì)量影響因素進(jìn)行了實(shí)證分析[3];梁鑫等通過(guò)引入次要污染物,建立新的空氣質(zhì)量評(píng)價(jià)模型,對(duì)中國(guó)近幾年主要城市的空氣質(zhì)量進(jìn)行了評(píng)價(jià)分析[4];張燕杰運(yùn)用相關(guān)分析法和主成分回歸分析法研究了空氣污染物對(duì)AQI的影響程度[5];李雪超建立了線性分位數(shù)回歸模型以及半?yún)?shù)可加分位數(shù)回歸模型,對(duì)蘭州市2013—2016年的PM2.5濃度的影響因素進(jìn)行了分析[6];顏如玉于2019年建立了普通多元回歸模型和分位數(shù)回歸模型來(lái)預(yù)測(cè)和研究上海市空氣質(zhì)量及污染源的研究[7];隨后鄭林昌等對(duì)河北省城市空氣污染物對(duì)PM2.5濃度值的影響做出研究[8]。
從上述的這些文獻(xiàn)中可以看出,大多數(shù)學(xué)者是從某一種空氣污染物,或其中某一種外在因素入手來(lái)進(jìn)行研究,得到大氣污染物會(huì)對(duì)空氣質(zhì)量產(chǎn)生負(fù)向影響的結(jié)果,但很少有學(xué)者從分位數(shù)回歸的角度去研究空氣質(zhì)量的影響因素或是研究真正影響空氣質(zhì)量物質(zhì)的成因[9]?;谝陨戏治鼋Y(jié)果,本文選擇建立線性分位數(shù)回歸模型和普通多元回歸模型,檢測(cè)空氣污染物對(duì)PM2.5存在的影響。
所選擇的數(shù)據(jù)是2017年1月到2019年12月西安市空氣質(zhì)量監(jiān)測(cè)月數(shù)據(jù)和氣象記錄月數(shù)據(jù),總共有900個(gè)數(shù)據(jù)。其中包含PM2.5濃度、SO2濃度、NO2濃度、月平均風(fēng)速、月平均溫度、月平均降水量。然后分別對(duì)污染物濃度指標(biāo)以及各氣象因素指標(biāo)進(jìn)行描述性統(tǒng)計(jì),來(lái)分析不同季節(jié)的PM2.5濃度情況,具體結(jié)果見(jiàn)表1、表2。
表1 污染物濃度指標(biāo)描述性統(tǒng)計(jì)
表2 氣象指標(biāo)描述性統(tǒng)計(jì)
2.2.1 多元線性回歸模型
在相關(guān)變量中將其他一個(gè)或多個(gè)變量視為自變量,而只有一個(gè)因變量。在實(shí)際問(wèn)題中,一個(gè)變量往往受到多個(gè)變量的影響,表現(xiàn)在線性回歸模型中的解釋變量有多個(gè),為此構(gòu)建多元線性回歸模型[10]。
多元線性回歸模型的一般形式為
Yi=β0+β1X1i+β2X2i+…+βkXki+μi,
i=1,2,…,n
(1)
式中:k為解釋變量的數(shù)目;βj(j=1,2,…,k)稱為回歸系數(shù)。式(1)也被稱為總體回歸函數(shù)的隨機(jī)表達(dá)式。它的非隨機(jī)表達(dá)式為
E(Y|X1i,X2i,…,Xki)=
β0+β1X1i+β2X2i+…+βkXki
(2)
式中,βj被稱為偏回歸系數(shù)。
在做多元線性回歸模型的參數(shù)估計(jì)時(shí)選取和一元線性回歸方程的參數(shù)估計(jì)是相同的,所以可以選用相同的方法進(jìn)行參數(shù)估計(jì),也是在要求誤差平方和(∑e)為最小的前提下,用最小二乘法求解參數(shù)。以二線性回歸模型為例,求解回歸參數(shù)的標(biāo)準(zhǔn)方程組為
(3)
解此方程可求得b0、b1、b2的數(shù)值。
2.2.2 線性分位數(shù)回歸模型
分位數(shù)回歸相對(duì)于普通的多元回歸來(lái)說(shuō)更加方便,所包含的信息也更加全面,不僅僅能看出整體的分布特點(diǎn),也能看出不同分位點(diǎn)上的變化情況。
給定τ∈(0,1),Y/X的τ階條件分位數(shù)為
(4)
式中,βτ為τ分位數(shù)的回歸系數(shù),可以用最小化來(lái)解決這個(gè)估計(jì)量問(wèn)題,即
(5)
式中,z′i=(1,x′i)′,ρτ(u)=u{τ-I(U<0)}稱為檢驗(yàn)函數(shù),常用單純型算法、內(nèi)點(diǎn)算法和平滑型算法求解。
在做多元線性回歸模型時(shí),需要了解各因素和被解釋變量的相關(guān)性,確定是否能夠合理構(gòu)建模型。各因素的相關(guān)性具體結(jié)果見(jiàn)表3。
表3 Pearson相關(guān)性分析結(jié)果
由表3可知,相關(guān)系數(shù)因?yàn)槭莾蓛上嚓P(guān),各變量之間相關(guān)系數(shù)較高,所以可能存在多重共線性。
由表4可以看出除了月平均二氧化硫的濃度之外其他的變量均不顯著。因此選擇用逐步回歸的方法選擇自變量,具體結(jié)果見(jiàn)表5。
表4 各影響因素系數(shù)
表5 逐步回歸結(jié)果
由表5可以看出,最終的回歸結(jié)果是月平均SO2濃度和平均氣溫。
為研究模型整體是否顯著,需要通過(guò)方差分析來(lái)判斷整體是否顯著,具體結(jié)果見(jiàn)表6。
表6 方差分析結(jié)果
由表6可以看出,模型整體顯著。
根據(jù)逐步回歸的結(jié)果篩選出合適的變量,將所選取的變量進(jìn)行殘差檢驗(yàn),具體結(jié)果如圖1所示。
圖1 回歸標(biāo)準(zhǔn)化殘差的標(biāo)準(zhǔn)P-P圖
根據(jù)圖1可知,各因素通過(guò)正態(tài)性檢驗(yàn),所以適合運(yùn)用普通多元回歸模型進(jìn)行檢驗(yàn)。因此構(gòu)建普通多元回歸模型。具體結(jié)果見(jiàn)表7。
根據(jù)表7可以得出回歸方程為
Y=2.495X1-51.084X2+1 605.009
(6)
由表7可以看出,月平均SO2的濃度與月平均氣溫的t檢驗(yàn)均低于0.05,說(shuō)明月平均SO2濃度與月平均氣溫對(duì)月平均PM2.5濃度具有顯著影響。
表7 各因素系數(shù)
為了解決變化趨勢(shì)的問(wèn)題,對(duì)所求的變量之間構(gòu)建線性分位數(shù)回歸模型,分析0.1、0.25、0.5、0.75、0.9分位點(diǎn)上5個(gè)不同變量對(duì)空氣中月平均PM2.5濃度的影響。
表8為構(gòu)建的線性分位數(shù)回歸模型所輸出的在不同的分位點(diǎn)上的回歸系數(shù)的結(jié)果。在每一個(gè)分位點(diǎn)上月平均SO2濃度對(duì)PM2.5濃度是正影響。SO2系數(shù)在0.1分位點(diǎn)的值最大,在0.75分位點(diǎn)的值最小,但在0.25和0.9分位點(diǎn)的值基本是相差不多的,所以它所表現(xiàn)出來(lái)的是類似于一個(gè)二次函數(shù)分布特點(diǎn)的形狀,具有起伏波動(dòng)。
月平均NO2在0.1和0.75分位點(diǎn)時(shí)對(duì)PM2.5濃度是負(fù)影響。而在其余3個(gè)分位點(diǎn)基本都是差不多的,這說(shuō)明月平均NO2濃度對(duì)月平均PM2.5濃度的影響基本為均衡狀態(tài)。
月氣溫系數(shù)在0.25、0.5、0.75、0.9分位點(diǎn)時(shí)為負(fù)值且系數(shù)越來(lái)越大呈現(xiàn)上升趨勢(shì),說(shuō)明月平均氣溫對(duì)月平均PM2.5濃度是負(fù)影響且隨著PM2.5濃度增加,氣溫的影響逐漸下降。
月平均降水量在任何分位點(diǎn)上對(duì)月平均PM2.5濃度都是負(fù)影響。
月平均風(fēng)速在0.1、0.25、0.9分位點(diǎn)上對(duì)月平均PM2.5濃度存在負(fù)影響,而在0.5和0.75分位點(diǎn)是正影響。
不同分位點(diǎn)上5個(gè)變量對(duì)PM2.5濃度影響存在差異。根據(jù)表8可以得到不同分位點(diǎn)上的回歸方程。
表8 線性分位數(shù)回歸系數(shù)
0.1分位點(diǎn)下:
0.25分位點(diǎn)下:
0.5分位點(diǎn)下:
0.75分位點(diǎn)下:
0.9分位點(diǎn)下:
對(duì)不同分位點(diǎn)下的各個(gè)變量對(duì)月平均PM2.5濃度的影響建立的線性分位數(shù)回歸模型進(jìn)行顯著性檢驗(yàn),具體結(jié)果見(jiàn)表9。
表9 系數(shù)檢驗(yàn)
根據(jù)表9可以看出,在不同分位點(diǎn)上不同變量對(duì)月平均PM2.5的影響的顯著性并不相同。在0.1分位點(diǎn)時(shí)月平均SO2濃度(X1)與月平均氣溫(X2)對(duì)月平均PM2.5濃度的影響都是顯著的且月平均氣溫(X2)對(duì)PM2.5濃度的影響要比月平均SO2濃度(X1)要明顯。
在0.25分位點(diǎn)時(shí),月平均NO2濃度(X3)與月平均風(fēng)速(X5)均對(duì)月平均PM2.5的濃度有顯著影響且月平均NO2濃度(X3)比月平均風(fēng)速(X5)對(duì)月平均PM2.5濃度的影響更為明顯。
在0.5分位點(diǎn)時(shí)只有月平均SO2濃度(X1)對(duì)月平均PM2.5的濃度影響是顯著的。這說(shuō)明在0.5分位點(diǎn)時(shí),只有月平均SO2的濃度(X1)顯著影響著月平均PM2.5的濃度。
在0.75分位點(diǎn)上只有月平均氣溫(X2)與月平均降水量(X4)對(duì)月平均PM2.5濃度的影響是顯著的且月平均氣溫(X2)比月平均降水量(X4)對(duì)月平均PM2.5的濃度影響更加顯著。
在0.9分位點(diǎn)時(shí)只有月平均氣溫(X2)與月平均降水量(X4)對(duì)月平均PM2.5濃度的影響是顯著的且月平均氣溫(X2)比月平均降水量(X4)對(duì)月平均PM2.5的濃度影響更加顯著。
通過(guò)普通多元回歸模型和分位數(shù)回歸模型的檢驗(yàn)結(jié)果都可以看出,月平均SO2濃度(X1)對(duì)空氣中PM2.5的濃度影響都是很顯著的。對(duì)比表4可以看出,在分位數(shù)回歸模型中各因素可能會(huì)在不同的分位點(diǎn)上顯示出顯著性的特點(diǎn),而普通的回歸模型中只有一個(gè)變量顯著,因此相比之下,分位數(shù)回歸模型更加合理。
從上述的比較分析中可以看出,普通多元線性回歸模型與分位數(shù)回歸模型相比較來(lái)看,分位數(shù)回歸模型較為寬松得到的信息量更加多。它不僅可以分析出各個(gè)因素的變化情況,還能看出不同分位點(diǎn)上的不同的影響即趨勢(shì)性的變化情況。特別當(dāng)誤差為非正態(tài)分布時(shí),分位數(shù)回歸模型比普通多元模型有效,因此它彌補(bǔ)了最小二乘回歸的不足。
首先進(jìn)行普通的多元線性回歸,在回歸過(guò)程中發(fā)現(xiàn)不同變量的顯著性特點(diǎn)也能正確地分析出各個(gè)變量對(duì)于所求變量的影響以及相關(guān)關(guān)系,得到了一個(gè)總的分析概括。然后,在數(shù)據(jù)整理過(guò)程中大多數(shù)的數(shù)據(jù)無(wú)法通過(guò)檢驗(yàn),變量也十分不顯著,因此又建立了分位數(shù)回歸模型,完成了線性分位數(shù)回歸的擬合??梢钥闯觯治粩?shù)回歸模型相比較與普通多元回歸模型更好,問(wèn)題也更加明顯和具體化,可以更加直觀并且可以更加明白地得到不同分位點(diǎn)下的各個(gè)變量的顯著性特點(diǎn),也更能具體地分析得到該變量的詳細(xì)變化趨勢(shì)以及它在不同分位點(diǎn)下對(duì)所求變量的影響,以及各個(gè)分位點(diǎn)下的線性關(guān)系以及趨勢(shì)性變化,對(duì)變量與所求變量間的關(guān)系更加明確清晰。
選擇月平均SO2濃度與月平均氣溫,構(gòu)建了普通多元線性回歸模型用來(lái)分析月平均SO2濃度與月平均氣溫對(duì)于月均PM2.5濃度的影響,建立回歸方程,觀察它們是否顯著是否構(gòu)建合理模型。與此同時(shí)構(gòu)建了線性分位數(shù)回歸模型,用于比較了在不同分位點(diǎn)上各個(gè)變量對(duì)不同濃度的PM2.5的影響大小的不同以及變化規(guī)律和變化程度,分析不同月份、不同季度PM2.5濃度的差異。構(gòu)成成分的不同空氣的流動(dòng)速度不同眾多因素的共同作用、共同影響造成了不同分位點(diǎn)下PM2.5的濃度不盡相同。SO2對(duì)PM2.5的濃度影響可以看作一個(gè)類似于二次函數(shù)的分布形式,在中間達(dá)到峰值,而在不同分位點(diǎn)上的顯著性不同,會(huì)有不同的差異。
而月平均氣溫在各分位點(diǎn)上系數(shù)與顯著性不能一并回答,因?yàn)樵缕骄鶜鉁卦趯?duì)空氣中PM2.5的濃度影響在不同分位點(diǎn)的表現(xiàn)并沒(méi)有特殊分布。在某幾個(gè)分位點(diǎn)展現(xiàn)出負(fù)向影響,而在個(gè)別分位點(diǎn)顯出正向影響。
空氣中存在的物質(zhì)不同,所以也并非全部都表現(xiàn)出線性關(guān)系。因?yàn)槭苤喾N因素的影響和相互作用,不同分位點(diǎn)下的因素也會(huì)不完全相同,因此不同的分位點(diǎn)下不同因素對(duì)空氣中PM2.5濃度的變化影響也不同。
總之,即使是相同的影響因素也會(huì)在各個(gè)分位點(diǎn)對(duì)不同濃度的PM2.5濃度產(chǎn)生較大的影響差異,這具體表現(xiàn)在PM2.5濃度在不同月份里存在明顯的差異上。
普通的多元回歸只能得到月平均SO2濃度與月平均氣溫對(duì)月平均PM2.5濃度都是有顯著性影響的。而在做分位數(shù)回歸分析時(shí)發(fā)現(xiàn),其實(shí)在某些分位點(diǎn)下,月平均SO2濃度與月平均氣溫是不顯著的,比如月平均SO2濃度只在0.1分位點(diǎn)時(shí)是顯著影響的,而同樣可以看出,月平均氣溫在0.75與0.9分位點(diǎn)時(shí)對(duì)月平均PM2.5濃度的影響是不顯著的。所以分位數(shù)回歸模型要比普通多元回歸模型更加清晰,也使分析更加準(zhǔn)確。