張順順 盧彥希 羅崴 李東旭 馬凱
(1 廣西科技大學(xué)自動化學(xué)院 廣西柳州 545000 2 北京交通大學(xué)電氣工程學(xué)院 北京 100044 3 桂林電子科技大學(xué)信息與通信學(xué)院 廣西桂林 541004)
受經(jīng)濟快速發(fā)展的影響,我國大氣污染問題較為突出[1]。大氣污染是指大氣中一些物質(zhì)的含量達到有害程度,以致破壞生態(tài)系統(tǒng)和人類正常生存和發(fā)展的條件,對人或物造成危害的現(xiàn)象[2]。大氣污染具有污染物種類多樣的特點。由于大氣污染來源廣泛,其中包含的污染物種類也較多,如懸浮顆粒、可吸入顆粒等[3]。隨著“十四五”規(guī)劃的實施,全國城市空氣質(zhì)量持續(xù)向好,相比于2022 年提高了0.5 個百分點[4-5]??諝赓|(zhì)量與污染物濃度息息相關(guān),而污染物不僅是全球氣候變暖的關(guān)鍵影響因素之一,還會影響人類的身體健康[6]。目前主要是利用空氣質(zhì)量預(yù)報模型,提前預(yù)報空氣中污染的主要成分,達到預(yù)防改善的效果。楊衛(wèi)芬等[7]利用耦合氣象模式的通用多尺度空氣質(zhì)量(The Weather Research and Forecasting coupled with the Community Multiscale Air Quality,WRF-CMAQ)模式對常州市空氣質(zhì)量預(yù)報效果進行評估。陳敏等[8]基于WRF-CMAQ 模式對銀川市空氣質(zhì)量預(yù)報效果進行檢驗分析。陳欣昊等[9]基于WRFCMAQ 對江蘇省2014 年冬半年霧霾日的模擬與評估。但上述的研究利用傳統(tǒng)WRF-CMAQ 模型對污染物進行預(yù)報,由于生成機理不完全明晰,導(dǎo)致模型預(yù)報的結(jié)果不理想。對于傳統(tǒng)算法來說,BP 神經(jīng)網(wǎng)絡(luò)收斂速度慢容易陷入局部最優(yōu),K 均值的K 值大小不易把握,容易影響預(yù)測的精度[10-11]。針對上述存在的問題,本文提出利用主成分分析的支持向量機(Support Vector Machines for Principal Component Analysis,PCA-SVM)算法的二次預(yù)報模型,最后用氣象與污染物數(shù)據(jù)來優(yōu)化預(yù)報模型。
根據(jù)《環(huán)境空氣質(zhì)量標準》(GB 3095—2012),用于衡量空氣質(zhì)量的常規(guī)大氣污染物分別是二氧化硫(SO2)、二氧化氮(NO2)、粒徑<10 μm 的顆粒物(PM10)、粒徑<2.5 μm 的顆粒物(PM2.5)、臭氧(O3)、一氧化碳(CO)6 種。近年來,我國的PM2.5濃度一直高居不下,O3日最大8 h 平均值第90 百分位數(shù)濃度一直呈上升態(tài)勢,污染形勢異常嚴峻[12-13]。O3最大8 h 滑動平均是指1 個自然日內(nèi)8∶00—24∶00 的所有8 h 滑動平均濃度中的最大值,其中8 h 滑動平均值指連續(xù)8 h 平均濃度的算術(shù)平均值。其計算公式見式(1)。
式中:Ct為臭氧在某日t-1 時至t 時的平均污染物濃度。
CO、SO2、NO2、PM10、PM2.5計算24 h 的平均值見式(2)。
然后計算各項污染物的空氣質(zhì)量分指數(shù)(Individual Air Quality Index,IAQI),其計算公式見式(3)。
空氣質(zhì)量指數(shù)(Air Quality Index,AQI)取各分指數(shù)中的最大值,見式(4)。
式中:IAQI1,IAQI2,…,IAQIn為各污染物項目的分指數(shù)。
最后計算出6 種污染物的AQI 取最大值,見式(5)。
AQI 是基于6 項常規(guī)監(jiān)測污染物計算所得出的、用來衡量空氣質(zhì)量綜合情況的指標[10]。
根據(jù)上述公式建立模型,不同污染物的IAQI 值的結(jié)果如圖1 所示。
圖1 不同污染物的IAQI 值
從圖1 可以得知,O3的IAQI 值在不同的時刻都是最大的,所以O(shè)3為首要污染物。2020 年8 月25—28 日在監(jiān)測點A 的首要污染物都是O3,其中IAQI 值分別為79、47、109、138,則說明在25 日,O3成為首要污染物。26 日時空氣質(zhì)量為優(yōu),則當天無首要污染物。而在27 日和28 日IAQI 值超過100,O3成為了超標污染物,空氣質(zhì)量較差。
為了實現(xiàn)空氣污染物的精確預(yù)報,需要對氣象條件的原始數(shù)據(jù)進行標準化處理,然后分別計算相關(guān)系數(shù)矩陣、計算特征值和特征向量,其次選擇P 個主成分,計算綜合評價值,再次對于給出的原始數(shù)據(jù)進行數(shù)據(jù)的預(yù)處理,最后利用SVM 建立模型。建模步驟流程如圖2 所示。
圖2 PCA-SVM 算法的建模流程圖
首先需要對天氣的原始數(shù)據(jù)進行標準化,假設(shè)進行主成分分析的指標變量有m 個:x1,x2,…,xm,共有n 個評價對象,第i 個評價對象的第j 個指標的取值為aij。將各指標值aij轉(zhuǎn)換成標準化指標,見式(6)。
計算各個特征的相關(guān)系數(shù)矩陣R=(rij)m×m,見式(7)。
式中:rii=1,rij=rji,rij是 第i 個指標與第j 個指標的相關(guān)系數(shù)。
計算綜合得分,見式(8)。
式中:bj為第j 個主成分的信息貢獻率,根據(jù)綜合得分值就可進行評價。
通過主成分分析法得到的特征,用SVM 算法進行空氣污染物濃度預(yù)測,建立SVM 的數(shù)學(xué)模型見式(9)。
求得最優(yōu)值對應(yīng)的ω*、b*,可以得到分類函數(shù),見式(10)。
通過觀察所給的數(shù)據(jù)并進行分析,發(fā)現(xiàn)預(yù)報數(shù)據(jù)和實測數(shù)據(jù)都有缺失的問題,如表1 所示。預(yù)報數(shù)據(jù)采用逐月尋找的方式,缺失程度較大的實測數(shù)據(jù)采用填充后平滑處理。首先對A、B、C 3 個監(jiān)測點2020 年7 月23 日—2021 年7 月12 日的預(yù)報數(shù)據(jù)和實測數(shù)據(jù)使用2 種方法進行相應(yīng)的預(yù)處理操作,并將3 個監(jiān)測點處理后的預(yù)報數(shù)據(jù)和實測數(shù)據(jù)輸入PCA-SVM 模型進行訓(xùn)練,最后預(yù)測出2021 年7 月13 日—7 月15 日3 d 污染物單日濃度值。
表1 缺失數(shù)據(jù)情況
6 項常規(guī)監(jiān)測項目濃度及AQI 預(yù)測結(jié)果見圖3。從圖3 可知,邊界層高度的綜合得分最高為327.64,驗證了建立模型的可靠性,并通過主成分分析法,可以得出NO2、SO2、PM10、PM2.5、CO、O3對空氣質(zhì)量影響較大,而溫度、濕度、氣壓等對空氣質(zhì)量的影響較小。最后通過建立的PCA-SVM 模型得到監(jiān)測點A、B、C 在2021 年7 月13—15 日的污染物濃度及AQI 預(yù)測結(jié)果如圖4 所示,可以看出NO2、SO2、PM10、PM2.5、CO、O3二次預(yù)測值和實測值能夠很好的吻合,預(yù)測準確率能達到93.8%,說明PCA-SVM 算法能很好的對空氣的污染物進行預(yù)報,O3和PM10對空氣質(zhì)量的影響較大。
圖3 綜合評價值
圖4 污染物濃度及AQI 預(yù)測結(jié)果
本文通過計算各項污染物的空氣質(zhì)量分指數(shù),可以確定當天首要污染物,并通過對數(shù)據(jù)進行挖掘找出了氣象條件與污染物濃度之間的關(guān)系。由于WRF-CMAQ 模式結(jié)果并不理想,所以在一次預(yù)報模型模擬結(jié)果的基礎(chǔ)上,結(jié)合更多的數(shù)據(jù)源運用PCA-SVM 算法進行預(yù)測來提高預(yù)報的準確性,具有非線性映射能力、自學(xué)習(xí)等優(yōu)點。