張一準,顏七笙
(1. 東華理工大學地球科學學院,江西 南昌 330199;2. 東華理工大學理學院,江西 南昌 330199)
隨著世界范圍內(nèi)的經(jīng)濟和工業(yè)化的快速發(fā)展,空氣污染的問題日益加劇,城市空氣質(zhì)量問題已經(jīng)嚴重影響到居民的正常生活和幸福指數(shù)。2021年“十四五”開局之年,各省和地區(qū)相繼推出生態(tài)環(huán)境保護規(guī)劃,堅持以改善生態(tài)環(huán)境為核心,加快推動綠色發(fā)展,而空氣質(zhì)量問題是其中重點要解決的問題。PM2.5濃度是衡量空氣質(zhì)量的一項重要指標,我國早已于2012年在《環(huán)境空氣質(zhì)量標準》新增PM2.5檢測指標[1],因此尋求精確預(yù)測PM2.5濃度的方法對“十四五”空氣質(zhì)量改善行動計劃具有重大的意義。
目前PM2.5的預(yù)測方法主要有統(tǒng)計、數(shù)值以及機器學習等方法[2]。在統(tǒng)計模型中,如徐東等[3]基于多元線性回歸模型對成都市PM2.5的趨勢進行了預(yù)測研究,彭斯俊等[4]基于ARIMA模型對PM2.5的濃度進行預(yù)測,但預(yù)測精度有待提高,因為統(tǒng)計模型通常要求數(shù)據(jù)具有正態(tài)分布或平穩(wěn)等特性,不適宜直接用于污染物濃度的預(yù)測[5]。數(shù)值模型是以大氣動力學理論為基礎(chǔ),基于對大氣物理和化學過程的理解,建立的大氣污染度在空氣中的輸送擴散模型[6],如周廣強[7]等基于WRF-Chem模式降水對上海PM2.5預(yù)報的影響預(yù)測,但是數(shù)值模型的準確性嚴重依賴于需要不斷更新的排放源清單,預(yù)測地點的地理特點的復(fù)雜性以及污染物大氣過程的復(fù)雜性都使得預(yù)測模型的實現(xiàn)復(fù)雜化[8]。而新興的機器學習模型則在PM2.5濃度的預(yù)測上展現(xiàn)出更好的效果,如李志生[9]等根據(jù)多種樹模型進行對比,確定LightGBM預(yù)測模型在其它樹模型中訓(xùn)練更快,占用內(nèi)存更少,準確率更好的優(yōu)點,但LightGBM模型是基于偏差的算法,對噪點數(shù)據(jù)敏感,也可能會產(chǎn)生較深的決策樹,從而導(dǎo)致模型過擬合,為了彌補單一模型的不足[10],許多學者開始嘗試組合多個模型來對PM2.5濃度進行預(yù)測,例如李建新[11]等利用混合核函數(shù)(HK)對傳統(tǒng)的支持向量機(SVM)模型進行改進構(gòu)造的MRMR-HK-SVM模型預(yù)測PM2.5濃度,相較于原始的SVM模型,擬合程度較高,具有較好的泛化能力。
但在現(xiàn)有的PM2.5濃度預(yù)測模型中仍存在以下問題:
1)現(xiàn)有的預(yù)測PM2.5濃度的組合模型中,大多數(shù)模型都只是模型簡單的疊加,第一個模型的輸出作為第二個模型的輸入進行預(yù)測,或者模型多線性排列,最后的預(yù)測結(jié)果累加求均值,并沒有真正的提升和改善模型。
2)預(yù)測PM2.5濃度特征值的選取較為單一,例如黃婕[12]在對PM2.5濃度預(yù)測研究中僅以時空特征作為輸入,沒有考慮氣象因子和其它污染物對PM2.5濃度變化的影響。在空氣質(zhì)量的預(yù)測研究領(lǐng)域中,LEE et al[13]選擇了歷史污染物和氣象數(shù)據(jù)來預(yù)測空氣質(zhì)量,準確率得到明顯的提升。方曉婷[14]等人研究結(jié)果表明氣溫,濕度,風速及風向?qū)M2.5濃度有較大影響。所以在現(xiàn)有的PM2.5濃度預(yù)測研究中,PM2.5濃度的影響因子考慮的不夠全面。
3)PM2.5的影響因素眾多,每個影響因素對PM2.5濃度的影響都不相同,有的因素對PM2.5濃度變化的關(guān)系密切,有的因素對PM2.5濃度變化無明顯交集,現(xiàn)有研究總是把所有的影響因素作為模型的輸入來進行仿真預(yù)測,難免會對最后的結(jié)果造成較大的誤差。
綜上,本文選擇了適合求解內(nèi)部機制復(fù)雜問題的BP神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)模型,用麻雀搜索算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,提高BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的速度和精度,用最大相關(guān)最小冗余算法從從歷史污染物和氣象數(shù)據(jù)PM2.5、PM10、SO2、NO2、CO、O3、風向、平均氣壓、風速、平均氣溫、相對濕度等11個影響因子提取出最優(yōu)影響特征值作為模型的輸入,構(gòu)建成MRMR-SSA-BP模型,該模型能有效的彌補現(xiàn)有研究的不足和缺點,為PM2.5濃度預(yù)測提供了一種新方向。
濟南市位于山東省的中西部,南依泰山,北跨黃河,地處魯中南低山丘陵與魯西北沖積平原的交接帶上,地勢南高北低,導(dǎo)致熱島效應(yīng)嚴重,風速小,污染物不易于吹散。因為城市經(jīng)濟發(fā)展,燃煤煙塵,工業(yè)粉塵和垃圾、風沙及車輛行駛的揚塵日益增多,導(dǎo)致濟南市的空氣質(zhì)量在發(fā)布質(zhì)量周報的城市中長時間居于倒數(shù)十名內(nèi)。在2019年更被生態(tài)環(huán)境部評為環(huán)境質(zhì)量較差城市之一。
本文的歷史空氣污染數(shù)據(jù)來源于中國空氣質(zhì)量在線監(jiān)測分析平臺(https:∥www.aqistudy.cn/historydata/about.php),氣象天氣數(shù)據(jù)來源于中國氣象數(shù)據(jù)網(wǎng)(http:∥data.cma.cn)。分別采集了2019年1月1日至2019年12月31日的PM2.5、PM10、SO2、NO2、CO、O3、風向、平均氣壓、風速、平均氣溫、相對濕度的數(shù)據(jù)??偣?65組數(shù)據(jù),所有數(shù)據(jù)均為日平均值。其中2019年1月1日至2019年11月30日為訓(xùn)練數(shù)據(jù),2019年12月1日至12月31日為測試數(shù)據(jù)。
最大相關(guān)最小冗余算法(Max-Relevance and Min-Re-dundancy,MRMR)最早由彭漢川[15]等提出用來提取最優(yōu)特征值??梢允褂没バ畔⒃谔卣骷现姓页雠c結(jié)果相關(guān)性最大,并且特征之間相關(guān)性最小的特征[16]。因為PM2.5的濃度影響因素關(guān)系復(fù)雜,不排除本文選擇的特征值(PM10、PM2.5、SO2、NO2、CO、O3、風向、平均氣壓、風速、平均氣溫、相對濕度)中有相關(guān)性。所以用最大相關(guān)最小冗余算法來去除可能存在的數(shù)據(jù)冗余。互信息可以理解為一個變量中包含的關(guān)于另一個變量的信息量。假設(shè)兩個變量為X,Y則互信息為
(1)
式中:P(X)和P(Y)是變量X,Y的概率密度函數(shù),P(X,Y)是聯(lián)合概率函數(shù)。由式(1)可得互信息I(X;Y)和互信息I(Y;X)是相等的?;バ畔⒍攘苛藘蓚€隨機變量之間共有的信息量程度,這個值越大,兩個變量之間的相關(guān)性越大[17]。
以互信息為基礎(chǔ),最大相關(guān)最小冗余算法可以根據(jù)最大統(tǒng)計依賴性準則來選擇特征[18]。
MRMR算法的最大相關(guān)定義為
(2)
MRMR算法的最小冗余定義為
(3)
式中:S表示特征集合,c表示類別。I(Xi;c)為特征與目標的互信息,本文研究中表示的是11個特征值(PM10、PM2.5、SO2、NO2、CO、O3、風向、平均氣壓、風速、平均氣溫、相對濕度)和下一日的PM2.5的互信息,I(Xi;Xj)為11個特征值之間的互信息。
MRMR的特征選擇標準為
信息差
(4)
信息熵
(5)
式(4)是常用的整合準則方式,故本文用式(4)整合優(yōu)化[19]。
3.2.1 麻雀搜索優(yōu)化算法
麻雀搜索優(yōu)化算法(Sparrow Search Algorithm, SSA)是由薛建凱[20]在2020年受麻雀覓食行為和反捕食行為提出的,該算法收斂速度快,尋優(yōu)能力強。該算法的原理是在把麻雀分為發(fā)現(xiàn)者和追隨者,發(fā)現(xiàn)者本身適應(yīng)度高,搜索區(qū)域廣,在整個種群中負責搜索有豐富資源的區(qū)域。追隨者為了獲得好的適應(yīng)度,追隨者利用發(fā)現(xiàn)者來獲取資源。當整個種群面臨捕食威脅時,會立即進行反捕食行為,發(fā)現(xiàn)者和追隨者身份可以動態(tài)變化,但是所占種群數(shù)量的比重是不變的[21]。在SSA中發(fā)現(xiàn)者會優(yōu)先獲取資源,因為發(fā)現(xiàn)者負責整個麻雀種群尋找資源并為追隨者提供方向。因此發(fā)現(xiàn)者的位置更新描述為
(6)
式中:t是當前迭代次數(shù);T為最大的迭代次數(shù);α為(0,1]的隨機數(shù);Q為一個正態(tài)分布隨機數(shù);R2和ST分別為預(yù)警值和安全值,預(yù)警值和安全值分別屬于[0,1]和[0.5,1]。當R2 剩下的麻雀為追隨者,為了獲取好的適應(yīng)能力,其位置公式為 (7) 式中:A是一個1*j的矩陣,A+=AT(AAT)-1;XP是發(fā)現(xiàn)者在t+1這次迭代時的最優(yōu)位置,XW是當前最差的位置。當i>n/2時,種群收斂時符合標準正態(tài)分布隨機數(shù),值會收斂于0,表明適應(yīng)度值較低的第i個追隨者沒有獲得食物,處于饑餓狀態(tài),需要轉(zhuǎn)移地點[22]。i<=n/2時,為當前迭代時的最優(yōu)位置加上該麻雀與最優(yōu)位置的每一維距離加減,將總值均分。即為在最優(yōu)位置附近隨機找一個位置,每一維距離最優(yōu)位置的方差將會變小。 當面臨危險時,麻雀會進行反捕食或者撤回,位置更新公式為: (8) 3.2.2 BP神經(jīng)網(wǎng)絡(luò) BP神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BP)是反向傳播神經(jīng)算法。原理是一種基于誤差反向傳播的多層網(wǎng)絡(luò)。憑借其復(fù)雜模式分類能力和多維函數(shù)映射能力取得廣泛的應(yīng)用,BP神經(jīng)網(wǎng)絡(luò)分為輸入層、隱含層和輸出層,采用經(jīng)驗風險最小和梯度下降法來調(diào)整權(quán)值和閾值計算最優(yōu)值[23]。 圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) 3.2.3 SSA-BP算法 為提高準確度,采用SSA算法對BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值優(yōu)化來改善BP神經(jīng)網(wǎng)絡(luò)的性能。在本文的研究中為了提高BP神經(jīng)網(wǎng)絡(luò)的運算精度,隱藏層選擇了三層。 基于MRMR-SAA-BP模型算法流程圖如圖2所示。 圖2 MRMR-SAA-BP模型流程圖 1)收集濟南市的氣象數(shù)據(jù)和歷史污染物數(shù)據(jù),預(yù)處理數(shù)據(jù),把因為機器故障缺少的數(shù)據(jù),用相鄰兩日的平均值填充。因為特征值中不同特征取值范圍相差較大,對數(shù)據(jù)進行歸一化處理,提升訓(xùn)練速度。 2)通過最大相關(guān)最小冗余算法特征選擇選出最優(yōu)的特征子集。根據(jù)式(1)算出各項特征值之間的互信息和各項特征值與目標值的互信息。根據(jù)式(2)算出特征值與目標值得最大相關(guān)性,式(3)算出特征值之間相互的冗余。最后根據(jù)式(4)作為整合準則,選出最優(yōu)的特征子集。 3)確定BP神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)。為了提高BP神經(jīng)網(wǎng)絡(luò)的運算精度和運算速度,選擇合適的隱藏層節(jié)點數(shù)和層數(shù)。 4)根據(jù)麻雀搜索優(yōu)化算法算出適合初始權(quán)值和閾值。首先初始化種群和迭代次數(shù),根據(jù)式(6)更新發(fā)現(xiàn)者的位置描述,為追隨者提供覓食方向。追隨者為了獲得更好的適應(yīng)度,根據(jù)式(7)更新位置,同發(fā)現(xiàn)者爭奪食物,或圍繞在發(fā)現(xiàn)者周圍覓食。當麻雀的適應(yīng)度較低,處于種群邊緣,容易受到攻擊,所以根據(jù)式(8)fi≠fg一行,調(diào)整位置來躲避攻擊,而處在種群中央的麻雀會根據(jù)式(8)fi=fg一行,去接近它們相鄰的同伴,來盡量減少它們的危險區(qū)域。因為適應(yīng)度越大,得到的優(yōu)化參數(shù)解最優(yōu),把相鄰GAP代種群的距離小于可接受的最小距離作為判斷是否終止的準則,不再依賴最大進化代數(shù),能自動識別[24]。 5)BP神經(jīng)網(wǎng)絡(luò)獲取參數(shù),在歸一化的訓(xùn)練集上訓(xùn)練得到預(yù)測模型。 6)把歸一化的測試數(shù)據(jù)輸入到預(yù)測模型中,得到預(yù)測結(jié)果,計算出結(jié)果的平均絕對誤差,當平均絕對誤差值小于預(yù)設(shè)值時為符合要求,輸出結(jié)果;當平均絕對誤差值大于預(yù)設(shè)值時,重新執(zhí)行4) 5)計算出BP的權(quán)值和閾值進行預(yù)測,極大的預(yù)防了模型陷入局部最優(yōu)解的情形。 7)最后根據(jù)式(9)(10)(11)算出均方根誤差,平均絕對誤差,R-square來進行模型評價。 本文用3個評價指標來評估模型,分別為均方根誤差RMSE,平均絕對誤差MAE,R-square。數(shù)學公式為 (9) (10) (11) RMSE,MAE,當預(yù)測值與真實值完全吻合時等于0,及誤差越大,該值越大。R-square是擬合優(yōu)度的一個統(tǒng)計量。表示1減去y對回歸方程的方差與y的總方差的比值,值越大代表數(shù)據(jù)擬合度越好。 濟南的PM2.5時序圖如圖3所示,濟南市的PM2.5呈現(xiàn)出兩頭高中間低的U型圖像,在1月到3月和11月到12月PM2.5急劇升高。在夏季天氣比較熱時PM2.5濃度偏低,在冬季時PM2.5曾一度逼近300大關(guān)。圖中可以看出PM2.5具有季節(jié)性分布的特點。賀博文[25]等研究表明,承德市的PM2.5濃度夏季減少的原因可能是因為夏季偏南方較強,加上較大的降水量很大程度上緩解PM2.5的污染,加上冬季的氣候條件,導(dǎo)致排放增加,造成PM2.5濃度增加。所以風向是研究預(yù)測第二天PM2.5濃度的一個重要指標,所以本文研究中把風向放進了初始的11個研究指標當中。 圖3 濟南市PM2.5濃度時序圖 由表1可知,濟南市PM2.5濃度最低時達到了4 μg/m3,遠遠高出國家環(huán)境標準,可以從夏季和冬季的各項指標對比入手,找出夏季冬季PM2.5濃度差距巨大的原因,對PM2.5的管控治理具有現(xiàn)實意義。表1數(shù)據(jù)中除了風速的標準差較小,表示除了風速以外,其它的指標因子波動性較大,代表指標數(shù)值有高度復(fù)雜性。 表1 濟南市2019年氣象和大氣污染物數(shù)據(jù)統(tǒng)計結(jié)果 本文對于PM2.5的預(yù)測確立了11個特征數(shù)據(jù),但是各項特征不僅對PM2.5濃度有相關(guān)性,它們互相之間可能也存在緊密的關(guān)系。如果直接默認各項特征值之間相互獨立而去預(yù)測PM2.5的濃度,可能會導(dǎo)致模型預(yù)測精確度的下降?;バ畔⑹莾蓚€變量之間統(tǒng)計相關(guān)性的測度,用于表示信息之間的關(guān)系。它們相關(guān)性越高則它們的互信息值越大。特征值之間的互信息如圖4所示,根據(jù)圖中的互信息,選出與PM2.5(后一天數(shù)據(jù))相關(guān)性最大的五個特征值是風向,氣溫,平均氣壓,相對濕度,O3。但是不能只考慮相關(guān)性也得考慮特征之間的冗余度。根據(jù)MRMR算法得出最優(yōu)特征值為:PM10,PM2.5,SO2,風向,氣壓。可以看出氣溫和O3相關(guān)性特別高,但是它沒有被選入最優(yōu)特征集,因為氣溫和O3對PM10也有極強的相關(guān)性,所以不能入選。證明MRMR算法有一定的合理性,考慮了數(shù)據(jù)的冗余度。 圖4 特征指標之間的互信息 MRMR-SSA-BP模型預(yù)測PM2.5時,首先選用了MRMR選擇的最優(yōu)特征集(PM10,PM2.5,SO2,風向,平均氣壓)作為模型的輸入,再根據(jù)麻雀搜索優(yōu)化算法,算出BP神經(jīng)網(wǎng)絡(luò)的最優(yōu)權(quán)值和閾值。根據(jù)2019.1.1到2019.11.30作為訓(xùn)練集,12.1號到12.31號為測試集,MRMR-SSA-BP模型的預(yù)測結(jié)果如圖5所示。SSA-BP結(jié)果誤差圖如圖6所示,根據(jù)SSA-BP模型的誤差分析,在夏季時預(yù)測PM2.5準確度較高誤差較小,但是到春,冬兩季時誤差增多,誤差數(shù)值也變大??紤]到可能夏季和冬季對PM2.5濃度影響的因子權(quán)重在變化,在一整年中,所有的影響因子可能對PM2.5濃度的影響是處于一個動態(tài)變化的過程中,再者因為春冬兩季北方天氣轉(zhuǎn)冷,北方城市會采取集體供暖,導(dǎo)致煤炭排放增加,PM2.5濃度預(yù)測的影響因子變得更加復(fù)雜,使得春冬兩季對PM2.5濃度的預(yù)測精度降低。 圖5 MRMR-SSA-BP模型預(yù)測結(jié)果 圖6 SSA-BP模型預(yù)測結(jié)果 為了驗證MRMR-SSA-BP模型的優(yōu)越性,本文采用模型BP、MRMR-BP、SSA-BP來進行比較。采用相同的訓(xùn)練集和測試集,結(jié)果如圖7-圖9所示,模型評價指標如表2所示。從預(yù)測結(jié)果圖來看MRMR-SSA-BP模型的預(yù)測效果最好,與真實值擬合度最高。其次是SSA-BP模型,可以看出MRMR算法選出的最優(yōu)特征值是可以幫助模型提高預(yù)測精度。SSA-BP模型較普通的BP模型有了顯著的提升,證明麻雀搜索優(yōu)化算法找出最優(yōu)的權(quán)值和閾值能使BP神經(jīng)網(wǎng)絡(luò)的預(yù)測提高精確度和擬合度。從預(yù)測結(jié)果圖和三個評價指標中從表2所示各模型的評價指標與模型預(yù)測結(jié)果圖所展示的結(jié)果一樣,最優(yōu)的模型為MRMR-SSA-BP模型它較基礎(chǔ)的BP模型2種誤差分別降低了13.254和19.441。R2也從0.743上升到了0.916。表明本模型具有很大的優(yōu)勢去預(yù)測PM2.5濃度。李建新[11]等人根據(jù)SVM為基礎(chǔ)模型建立得MRMR-HK-SVM模型對贛州市的PM2.5濃度進行預(yù)測,MRMR-HK-SVM模型的RMSE為14.891,因此,總體來說本文提出的MRMR-SAA-BP模型對PM2.5有著更高的預(yù)測精度。 表2 模型評價結(jié)果 圖7 MRMR-BP模型預(yù)測結(jié)果 圖8 BP模型預(yù)測結(jié)果 圖9 SSA-BP誤差分析圖 針對PM2.5濃度預(yù)測本文以BP神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)模型,根據(jù)麻雀搜索優(yōu)化算法確立BP神經(jīng)網(wǎng)絡(luò)的最優(yōu)初始權(quán)值和閾值,根據(jù)MRMR算法選擇輸入數(shù)據(jù)的最優(yōu)特征值來對濟南市PM2.5濃度進行預(yù)測,建立了MRMR-SSA-BP模型,該組合模型不是多個模型的預(yù)測結(jié)果求平均值,它優(yōu)化了傳統(tǒng)BP模型性能上的不足和缺點,根據(jù)預(yù)測結(jié)果和模型評價充分說明了MRMR-SSA-BP模型是一種高效精確的模型。 1)根據(jù)已有的研究成果,選擇了PM10、PM2.5、SO2、NO2、CO、O3、風向、平均氣壓、風速、平均氣溫、相對濕度等11項特征值作為預(yù)測PM2.5的影響因子,雖然每個因子都對PM2.5有很強的相關(guān)性,但是特征值之間也會有影響。這樣會影響模型的預(yù)測準確度。用MRMR算法不止考慮特征值之間的相關(guān)性,也考慮特征值之間的冗余,來提高模型的運算速度和預(yù)測精確度。 2)BP神經(jīng)網(wǎng)絡(luò)預(yù)測中,初始的權(quán)值和閾值都是隨機確定的,這個初始的權(quán)值和閾值對神經(jīng)網(wǎng)絡(luò)訓(xùn)練有很大的影響,但是又沒有辦法準確的獲得,所以運用麻雀搜索優(yōu)化算法找到最優(yōu)適應(yīng)度值得個體,來確立最優(yōu)的初始權(quán)值和閾值,來提高模型預(yù)測PM2.5的穩(wěn)定性和準確性。 3)根據(jù)PM2.5的濃度時序圖可以看出,PM2.5有著強烈的季節(jié)性規(guī)律,濟南冬季時PM2.5濃度達到278μg/m3,夏季時有時只有4μg/m3,所以對于PM2.5的治理可以根據(jù)季節(jié)性規(guī)律來進行治理調(diào)整。根據(jù)MRMR-SSA-BP模型進行PM2.5濃度的預(yù)測,有很高的的擬合能力,和較為準確的預(yù)測度,為空氣污染預(yù)測,和治理空氣污染提供了新的思路和方法。 根據(jù)模型運行結(jié)果來看,雖然模型具有很好的預(yù)測能力,但是夏季和冬季的預(yù)測能力偏差較大,如圖9所示,根據(jù)SSA-BP模型的誤差分析,在夏季時預(yù)測PM2.5準確度較高誤差較小,但是到春,冬兩季時誤差增多,誤差數(shù)值也變大??紤]到可能夏季和冬季對PM2.5濃度影響的因子權(quán)重在變化,因為冬季北方城市開始集體供暖,煤炭燃燒增加,使得PM2.5的影響因子與PM2.5濃度變化的關(guān)系更為復(fù)雜。因此未來的研究中,可以把PM2.5濃度的預(yù)測進行分季節(jié)預(yù)測,把每個季節(jié)的影響因子進行處理,選出適合每個季節(jié)的最優(yōu)特征值來進行預(yù)測,提高模型預(yù)測的精確度。3.3 MRMR-SSA-BP模型
3.4 評價模型
4 結(jié)果與分析
4.1 濟南市污染情況分析
4.2 基于MRMR算法的特征選擇
4.3 MRMR-SSA-BP預(yù)測分析
4.4 模型評價
5 結(jié)論