楊國(guó)穎
(蘭州石化職業(yè)技術(shù)學(xué)院,甘肅 蘭州 730060)
空氣污染對(duì)生態(tài)環(huán)境和人類(lèi)健康危害巨大,雖然國(guó)家監(jiān)測(cè)控制站點(diǎn)(國(guó)控點(diǎn))對(duì)“兩塵四氣”有監(jiān)測(cè)數(shù)據(jù),且較為準(zhǔn)確,但布控較少,數(shù)據(jù)發(fā)布時(shí)間滯后較長(zhǎng)且花費(fèi)較大,無(wú)法給出實(shí)時(shí)空氣質(zhì)量的監(jiān)測(cè)和預(yù)報(bào)。某公司自主研發(fā)的微型空氣質(zhì)量檢測(cè)儀花費(fèi)小,可對(duì)某一地區(qū)空氣質(zhì)量進(jìn)行實(shí)時(shí)網(wǎng)格化監(jiān)控氣象參數(shù)。在國(guó)控點(diǎn)近鄰所布控的自建點(diǎn),微型空氣質(zhì)量檢測(cè)儀所采集的數(shù)據(jù)與該國(guó)控點(diǎn)同一時(shí)間的數(shù)據(jù)存在一定的差異,因此,需要利用國(guó)控點(diǎn)每小時(shí)的數(shù)據(jù)對(duì)國(guó)控點(diǎn)近鄰的自建點(diǎn)數(shù)據(jù)進(jìn)行校準(zhǔn)[1-2]。
多元線(xiàn)性回歸模型的表達(dá)式為:
其中,β0,β1,…,βp的p+1個(gè)未知參數(shù),稱(chēng)為回歸系數(shù)。Y是因變量,而X0,X1,…,Xp是p個(gè)一般變量,即自變量。ε是隨機(jī)誤差,期望值為零時(shí)滿(mǎn)足正態(tài)分布N(0,σ2)。
對(duì)空氣質(zhì)量數(shù)據(jù)校準(zhǔn)這一實(shí)際問(wèn)題,(Xi1,Xi2,…,Xip;yi),i=1,2,…,n,
如何利用國(guó)控點(diǎn)數(shù)據(jù),對(duì)自建點(diǎn)數(shù)據(jù)進(jìn)行校準(zhǔn),選用多元線(xiàn)性回歸模型[3-5]。
國(guó)控點(diǎn)數(shù)據(jù)為PM2.5、PM10、CO、NO2、SO2、O3共6個(gè)監(jiān)控?cái)?shù)據(jù),時(shí)間從2018/11/14 10:00至2019/6/11 15:00,每小時(shí)統(tǒng)計(jì)一次,共計(jì)4200條數(shù)據(jù)。自建點(diǎn)數(shù)據(jù)從2018/11/14 10:02 至2019/6/11 16:32,時(shí)間間隔5 分鐘內(nèi)統(tǒng)計(jì)一次,共234717條數(shù)據(jù)。對(duì)自建點(diǎn)數(shù)據(jù)進(jìn)行處理,按照如10:00至10:59 分為一小時(shí)間隔,統(tǒng)計(jì)平均值。時(shí)間從2018/11/14 10:00至2019/6/11 16:00,共計(jì)4920條數(shù)據(jù)。
分整點(diǎn)統(tǒng)計(jì)數(shù)據(jù),自建點(diǎn)4920條,國(guó)控點(diǎn)4200條,經(jīng)初步比對(duì),發(fā)現(xiàn)自建點(diǎn)和國(guó)控點(diǎn)均存在同一整點(diǎn)數(shù)據(jù)缺失情況,共有數(shù)據(jù)4983條,國(guó)控點(diǎn)缺失整點(diǎn)數(shù)據(jù)783條,自建點(diǎn)缺失數(shù)據(jù)63條。
進(jìn)一步整理數(shù)據(jù),剔除國(guó)控點(diǎn)缺失的783條和自建點(diǎn)缺失的63條數(shù)據(jù),得到分整點(diǎn)統(tǒng)計(jì)有效數(shù)據(jù)4137條。
以國(guó)控點(diǎn)PM2.5為因變量,自建點(diǎn)11項(xiàng)數(shù)據(jù)為自變量建立多元線(xiàn)性回歸模型[6-8]。
運(yùn)用EXCEL數(shù)據(jù)分析工具箱,初步對(duì)國(guó)控點(diǎn)PM2.5進(jìn)行回歸分析。
相關(guān)系數(shù)R=0.9530,回歸方程是顯著的,且具有95.3%的可信度。
回歸方程中的x5(SO2)、x6(O3)都是不顯著的,剔除x5(SO2)、x6(O3),再次進(jìn)行回歸分析,發(fā)現(xiàn)x7(風(fēng)速)p值為0.076456>0.05。
繼續(xù)剔除x7(風(fēng)速)做多元線(xiàn)性回歸。從數(shù)據(jù)結(jié)果可以看出回歸方程是顯著的,且常數(shù)項(xiàng)和各線(xiàn)性項(xiàng)p值均<0.05,說(shuō)明此時(shí)線(xiàn)性回歸方程比較滿(mǎn)意。
可認(rèn)為去除的3個(gè)自變量的系數(shù)為0,由此得到,國(guó)控點(diǎn)PM2.5回歸方程(除SO2、O3、風(fēng)速):
y1=451.1230318+0.79243789x1+0.026076364x2+9.294 645509x3+0.078989972x4+0*x5+0*x6+0*x7-0.428006512x8-0.030787605x9-0.193950075x10-0.341499422x11
判定系數(shù)R-squared為0.9082,擬合程度非常好。
結(jié)論:國(guó)控點(diǎn)PM2.5 分整點(diǎn)預(yù)測(cè)值只需要自建點(diǎn)PM2.5、PM10、CO、NO2、壓強(qiáng)、降水量、溫度、濕度等8個(gè)數(shù)據(jù),所獲得的回歸方程擬合度較好。
采用此方法可對(duì)國(guó)控點(diǎn)PM10、CO、NO2、SO2、O3其余5個(gè)指標(biāo)逐一進(jìn)行回歸分析。
國(guó)控點(diǎn)PM10回歸方程(除O3、風(fēng)速):
y2=1287.600945+0.73533212x1+0.128642561x2+29.33321913x3+0.333424129x4+0.091232141x5+0*x6+0*x7-1.188444349x8-0.073684566x9-1.164787458x10-1.132177353x11
判定系數(shù)R-squared為0.6714,擬合程度較好。
國(guó)控點(diǎn)CO回歸方程(除SO2):
y3=25.22694251+0.008571466x1-0.001009743x2+0.441 219094x3+0.002203022x4+0*x5+0.00075464x6-0.1319257x7-0.02410081x8+0.000381987x9-0.020357718x10-0.00319-9927x11
判定系數(shù)R-squared為0.5064,擬合程度較好。
國(guó)控點(diǎn)NO2回歸方程(除CO、SO2):
y4=1331.278773+0.538119567x1-0.258976809x2+0*x3+0.411834389x4+0*x5-0.0951238x6-17.28883773x7-1.219421357x8-0.030514553x9-1.692427105x10-0.64718301x11
判定系數(shù)R-squared為0.5320,擬合程度較好。
國(guó)控點(diǎn)SO2回歸方程(除溫度、濕度):
y5=-373.850039-0.160919861x1+0.122208283x2+31.8 6182596x3+0.056660302x4-0.054798036x5+0.100801897x6-5.769067647x7+0.359102275x8+0.017623515x9+0*x10+0*x11
判定系數(shù)R-squared為0.4126,擬合程度較好。
國(guó)控點(diǎn)O3回歸方程(除降水量):
y6=-755.359663+0.958786185x1-0.5708725x2-14.3186506x3-0.576558562x4+0.06212603x5+0.569078 55x6+15.74438408x7+0.77063655x8+0*x9+2.65918267 7x10-0.209917002x11
判定系數(shù)R-squared為0.8002,擬合程度較好。
由此可得到國(guó)控點(diǎn)PM2.5、PM10、CO、NO2、SO2、O3等6項(xiàng)數(shù)據(jù)與自建點(diǎn)PM2.5、PM10、CO、NO2、SO2、O3、風(fēng)速、壓強(qiáng)、降水量、溫度、濕度等11項(xiàng)分整點(diǎn)數(shù)據(jù)的回歸方程。
利用上述給出的6個(gè)回歸方程,針對(duì)自建點(diǎn)測(cè)出的數(shù)據(jù)進(jìn)行校準(zhǔn),即通過(guò)多元線(xiàn)性回歸方程把自建點(diǎn)監(jiān)測(cè)數(shù)據(jù)處理后對(duì)外發(fā)布[9-10]。
本文自建點(diǎn)11項(xiàng)數(shù)據(jù)是按照實(shí)時(shí)統(tǒng)計(jì)(間隔在5分鐘內(nèi))分整點(diǎn)求得平均值,因此我們?cè)谘芯糠终c(diǎn)數(shù)據(jù)的基礎(chǔ)上分析認(rèn)為,空氣質(zhì)量數(shù)據(jù)的變化有一定的連續(xù)性,相鄰數(shù)據(jù)的變化遵循一定的規(guī)律。我們將回歸方程運(yùn)用到自建點(diǎn)234717條數(shù)據(jù)中,得到自建點(diǎn)隨時(shí)對(duì)外發(fā)布的校準(zhǔn)數(shù)據(jù)。
表1 自建點(diǎn)11項(xiàng)分整點(diǎn)數(shù)據(jù)校準(zhǔn)發(fā)布數(shù)據(jù)
表2 自建點(diǎn)11項(xiàng)分整點(diǎn)數(shù)據(jù)校準(zhǔn)發(fā)布數(shù)據(jù)殘差
表3 自建點(diǎn)11項(xiàng)隨時(shí)監(jiān)測(cè)數(shù)據(jù)234717條校準(zhǔn)發(fā)布
進(jìn)一步對(duì)分整點(diǎn)數(shù)據(jù)校準(zhǔn)發(fā)布和隨時(shí)數(shù)據(jù)校準(zhǔn)發(fā)布研究,發(fā)現(xiàn)一些數(shù)據(jù)小于0,呈負(fù)數(shù)出現(xiàn)。在實(shí)際監(jiān)測(cè)中,這是不可能出現(xiàn)的,即構(gòu)建的多元線(xiàn)性回歸模型存在一定的誤差,主要原因是雖然本文對(duì)國(guó)控點(diǎn)和自控點(diǎn)的數(shù)據(jù)進(jìn)行了整理校對(duì),但對(duì)存在的異常數(shù)據(jù)沒(méi)有剔除,部分自建點(diǎn)的數(shù)據(jù)經(jīng)分析針對(duì)國(guó)控點(diǎn)的數(shù)據(jù)高出2倍甚至更多,在初步構(gòu)建模型時(shí)未刪除,樣本數(shù)據(jù)的有效性受到一定的影響,模擬精度降低。
針對(duì)以上數(shù)據(jù)分析,作11 元線(xiàn)性回歸,建立y關(guān)于x1,x2,…,x11的回歸模型如下:
判定系數(shù)R-squared為0.908,擬合程度較好。
x5、x6的p值為0.68356、0.42959均大于0.05,即回歸方程中的線(xiàn)性項(xiàng)x5、x6均是不顯著的,x5最不顯著,其次是x6。
xi多元線(xiàn)性回歸共線(xiàn)性判斷,回歸模型的判定系數(shù)為,得到方差膨脹因子:
VIFi越大說(shuō)明線(xiàn)性相關(guān)越顯著,即存在共線(xiàn)性。通過(guò)計(jì)算,自建點(diǎn)VIF值分別為21.4928、26.6358、2.4873、1.6134、1.1576、2.2826、1.3750、7.1922、1.4545、10.0520、2.5397。由此可知,自變量x2中等程度共線(xiàn)性,x1、x2、x10共線(xiàn)性嚴(yán)重。
運(yùn)用MATLAB工具箱繪制預(yù)測(cè)校準(zhǔn)數(shù)據(jù)的殘差直方圖和殘差正態(tài)概率圖,如圖1所示。
圖1 多元線(xiàn)性回歸殘差直方圖和殘差正態(tài)概率圖
根據(jù)學(xué)生化殘差尋找異常值,針對(duì)國(guó)控點(diǎn)PM2.5,自建點(diǎn)共出現(xiàn)195條異常數(shù)據(jù),見(jiàn)表4。
表4 自建點(diǎn)異常數(shù)據(jù)(國(guó)控PM2.5)
需要提高模型的精度和準(zhǔn)度,剔除195項(xiàng)異常值,并將不顯著項(xiàng)x5、x6去掉,重新建立多元線(xiàn)性回歸模型[11-13]。
判定系數(shù)R-squared由0.908提高到0.942,擬合程度明顯提高。
剔除異常數(shù)據(jù)后,x7風(fēng)速的p=0.00044527<0.05,顯著性檢驗(yàn)為顯著。
在前面建立的模型解析中,因沒(méi)有剔除異常數(shù)據(jù),導(dǎo)致x7在進(jìn)一步的顯著性檢驗(yàn)中判定為不顯著項(xiàng),模型擬合的精度和準(zhǔn)度發(fā)生偏差。
國(guó)控點(diǎn)其余5個(gè)自變量(PM10、CO、NO2、SO2、O3)的分析求解類(lèi)同于國(guó)控點(diǎn)PM2.5的解法。
表5 國(guó)控點(diǎn)PM2.5與自建點(diǎn)PM2.5分整點(diǎn)對(duì)應(yīng)值倍數(shù)表
本文建立了多元線(xiàn)性回歸分析模型,利用國(guó)控點(diǎn)的分整點(diǎn)數(shù)據(jù),對(duì)自建點(diǎn)數(shù)據(jù)進(jìn)行校準(zhǔn)。模型雖然去除變量和剔除異常數(shù)據(jù)提高了精度,但由于自建點(diǎn)數(shù)據(jù)過(guò)于繁雜,在判斷異常數(shù)據(jù)上對(duì)樣本數(shù)據(jù)的分析還存在一定不足,比如國(guó)控點(diǎn)PM2.5與自建點(diǎn)PM2.5的值相比,高達(dá)10倍的數(shù)據(jù)也有出現(xiàn)。
對(duì)超出3倍以上的34條數(shù)據(jù)分析,僅有自建點(diǎn)第592條,自建點(diǎn)PM2.5是國(guó)控點(diǎn)PM2.5數(shù)值5倍左右的數(shù)據(jù)在回歸模型中被判定為異常數(shù)據(jù)予以剔除。所以在超出高倍數(shù)情況下,建立的回歸模型默認(rèn)為是有效數(shù)據(jù),這里有進(jìn)一步討論的空間和價(jià)值[14-16]。