崔上書,楊 煉,李 婷
(湖南人文科技學院數學與金融學院,湖南 婁底 417000)
空氣質量的好壞事關全國的發(fā)展大局及全國人民的身體健康,對環(huán)境空氣質量的評估與預測為一項十分有意義的工作。近3年對空氣質量預算法的研究也有不少,在空氣質量預測模型中,神經網絡分析頗受歡迎。牛玉霞[1]提到利用遺傳優(yōu)化算法和BP 神經網絡的權重和閾值,根據天氣預報的相關變量來構建空氣質量預測模型;郝永超等[2]在對邢臺市空氣質量進行預測時,同時運用了BP 神經網絡、PNN 神經網絡、Elman神經網絡模式識別方法構建空氣質量預測模型,通過對比預測空氣質量等級和實際等級評價模型,除了運用較為廣泛的神經網絡模型,還有一些評價模型的使用較為常見,比如時空混合模型[3]、灰色理論預測法[4-5]、ARIMA 預測模型[6-7]等。
受劉萍[8]、李軍成等[9]、李林等[10]論文的啟發(fā),本文結合主成分分析和多元線性回歸的方法對空氣質量進行預測,達到了較好的效果。
根據氣象部門規(guī)定,空氣中的PM2.5、PM10、SO2、CO、NO2以及O3等物質的質量濃度是影響地區(qū)空氣質量的主要因素,為了更加精確地對長沙市空氣質量預測算法進行研究,本文采用主成分分析法降維,提取出對長沙市的空氣質量影響較大的新指標。
從中國環(huán)境空氣在線監(jiān)測分析平臺抓取長沙市2020年5 月至2021年5 月每日PM2.5、PM10、SO2、CO、NO2、O3的質量濃度,得出每月平均值。
污染物質量濃度月平均值如表1 所示。
表1 (續(xù))
表1 污染物質量濃度月平均值
用Matlab 計算出變量的相關系數矩陣如下:
用Matlab 計算出相關系數矩陣的特征向量如表2所示,對應貢獻率如表3 所示。
表2 相關系數矩陣的特征向量
表3 各特征向量貢獻率
主成分1、主成分2、主成分3 的累計貢獻率超過97%,主成分分析效果很好,根據上文所求得的相關系數矩陣的特征向量,這3 個主成分可以表示為:
式(1)—(3)中:x1、x2、x3、x4、x5、x6分別表示PM2.5、PM10、SO2、CO、NO2、O3的質量濃度。
從主成分的系數可以看出,第一主成分主要反映了PM2.5、PM10、CO、NO24 個指標對空氣質量的影響,因此把第一主成分看成是顆粒物和CO、NO2的綜合指標;第二主成分看成是O3對空氣質量的影響;第三主成分看成SO2對空氣質量的影響。
根據所提取出來的3 個主成分,本文選取了3 個指標作為長沙市空氣質量的影響因素:顆粒物和CO、NO2的綜合指標,O3質量濃度,SO2質量濃度。在下文中,這3 個指標分別用y1、y2、y3來表示。
在對空氣質量的預測算研究中,以長沙市為代表來建立多元線性回歸預測模型,模型因變量為空氣質量指數(AQI),自變量為上文中提取出來的3 個主成分,即顆粒物和CO、NO2的綜合指標(y1)、O3濃度(y2)、SO2(y3)濃度。抓取長沙市2020-05-01—2021-05-01 每日的AIQ 以及PM2.5、PM10、NO2、SO2、O3、CO 的平均質量濃度,根據上文主成分分析時得出的公式利用Matlab 軟件計算出3 個自變量的y1、y2、y3的值,其中y3所得值為負數,為了方便研究,取其相反數。分析AQI 與y1、y2、y3的相關性,若相關性成立,采用線性回歸得出預測模型。
利用Matlab 軟件畫出空氣質量指數與y1、y2、y3的散點圖,如圖1 所示。
圖1 空氣質量指數與3 個指標相關性分析圖
由圖1 可見,空氣質量指數隨著空氣質量指標質量濃度上升而大致呈上升趨勢,數據點大致都位于一條直線的兩側,可以進行線性回歸。
y1、y2、y3分別代表顆粒物和CO、NO2的綜合指標,O3濃度,SO2濃度,A代表空氣質量指數(AQI)的值,βi(i=0,1,2,3)為回歸系數,由此建立線性回歸方程為:
y1、y2、y3數據來源已在前文中交代過,這里不再累述。
利用Matlab 中的regress 函數做第一次線性回歸,以確定線性回歸方程的系數。得到的具體數據(包括回歸系數、參數置信區(qū)間、相關系數R2,F值以及其對應的概率P)如表4 所示,殘差分析如圖2 所示。
表4 第一次線性回歸所得具體數據
圖2 第一次線性回歸殘差圖
由表4 中數據得到多元線性回歸方程為:A=12.5246+0.6212y1-0.1507y2+1.2705y3。
此外,表4 中R2為相關系數,F為統(tǒng)計量值,P為統(tǒng)計量對應的概率,由表4 可知,R2的擬合優(yōu)度為72.87%,R2越接近于1 說明擬合效果越好,說明第一次擬合效果不理想。根據圖2 得出異常點為23、28、75、119、120、122、176、183、193、194、195、196、212、216、222、223、226、238、250、251、259、261、263、267、271、275、325。
為了得到最優(yōu)多元線性回歸模型,本文將這些點剔除,再進行第2 次擬合,如此反復,一共進行了13次剔除異常點再擬合的操作,第14 次時發(fā)現異常點較少,擬合優(yōu)度上升不明顯,所以把第13 次得到的多元線性回歸方程作為最終的解。剔除異常點后再回歸所得的回歸方程部分數據如表5 所示。
表5 剔除異常點后再回歸所得的回歸方程
綜上得出,長沙市空氣質量指數(AQI)與影響空氣質量的3 大指標y1、y2、y3的多元線性關系為:A=7.8206+0.3463y1+0.0605y2+0.8851y3。
此外,考慮到全國各地在對空氣質量進行監(jiān)測時主要是測算PM2.5、PM10、NO2、SO2、O3、CO 的濃度,也就是說考慮的是這些物質的質量濃度對AQI 的影響,因此為了更加直觀預測出AQI 的值,本文利用主成分分析所得到的y1、y2、y3與x1、x2、x3、x4、x5、x6的關系對上文求得的長沙市空氣質量指數(AQI)與影響空氣質量的3 大指標y1、y2、y3的多元線性方程進行改造(其中y3所得值取其相反數),最終變成:A=7.8206+0.1877x1+0.4528x2-0.4943x3+0.2636x4+0.2258x5+0.2306x6。
為了更好驗證上述所建立的多元線性回歸模型,在中國環(huán)境空氣在線監(jiān)測分析平臺上抓取長沙市2021年6 月的空氣質量指數(AQI)與各主要污染物質量濃度。根據所取月份每日的主要污染物濃度,利用上文所得的線性回歸方程計算出長沙市當日的空氣質量指數,并與實際的相對比,如圖3 所示。
由圖3 可知,如果忽略氣候或者其他特殊原因所導致空氣質量波動較大的幾天,模型的精準度還是不錯的,這也恰好說明多元線性回歸模型與數據擬合效果較好。憑借此模型可在已知監(jiān)測指標質量濃度(PM2.5、PM10、NO2、SO2、O3、CO 質量濃度)的情況下,計算出空氣質量指數,便于相關部門進行環(huán)境評價與保護。
圖3 估測值與觀測值對比
本文通過主成分分析,提取出影響長沙市空氣質量的3 大指標,結合多元線性回歸模型,建立AQI 與3 大指標的多元線性回歸模型,進而寫出AQI 與PM2.5、PM10、NO2、SO2、O3、CO 的多元線性回歸模型。通過利用該多元線性回歸模型對長沙市市的空氣質量預測,也就是說,在未來,只需要觀測出或者預測出PM2.5、PM10、NO2、SO2、O3、CO 的值,便可以通過該模型預測出空氣質量指數,從而便于相關部門進行環(huán)境評價與保護。當然,對于其他地區(qū)甚至全國的空氣質量指數,也可利用該方法建立多元線性回歸模型進行預測。