趙 彥 明
(河北民族師范學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 河北 承德 067000)
空氣污染物對(duì)人類(lèi)健康的威脅與日俱增。2013年,Zheng等[1]指出實(shí)時(shí)預(yù)測(cè)空氣污染物濃度信息對(duì)于控制空氣污染和防止空氣污染引起的健康問(wèn)題具有重要意義。文獻(xiàn)[2-3]的研究工作表明,一般來(lái)說(shuō),顆粒物體積越小,水溶性越強(qiáng),在呼吸系統(tǒng)的穿透力與吸附率越高,對(duì)人體的健康影響越大。因此,對(duì)PM2.5粒子濃度演進(jìn)過(guò)程與預(yù)測(cè)算法的研究已成為當(dāng)前熱點(diǎn)。
現(xiàn)階段,空氣污染物粒子濃度演進(jìn)與預(yù)測(cè)算法主要包括確定算法與統(tǒng)計(jì)算法。其中確定算法主要依據(jù)氣象學(xué)相關(guān)理論和大氣物化反應(yīng)過(guò)程等先驗(yàn)知識(shí),應(yīng)用多元統(tǒng)計(jì)學(xué)理論,實(shí)現(xiàn)大氣污染物粒子濃度演進(jìn)過(guò)程模擬與濃度預(yù)測(cè),并取得較好的研究與應(yīng)用效果。主要研究成果包括:基于特定性空氣質(zhì)量預(yù)測(cè)算法[4]、WRFChem算法[5]、在不同尺度和方向上模擬空氣污染物的時(shí)空分布特征算法[6]、區(qū)域多尺度空氣質(zhì)量(CMAQ)算法[7]。但是,該類(lèi)算法是建立在一定的先驗(yàn)知識(shí)基礎(chǔ)上的,并受到多維條件約束,算法不具備普適性。
為改進(jìn)確定算法缺欠,僅依據(jù)多元統(tǒng)計(jì)理論的統(tǒng)計(jì)算法被提出。該類(lèi)算法主要包括非神經(jīng)網(wǎng)絡(luò)算法和神經(jīng)網(wǎng)絡(luò)算法。其中絕大部分非神經(jīng)網(wǎng)絡(luò)算法以回歸方式解決確定性算法的缺欠,在研究與應(yīng)用領(lǐng)域取得較好的模擬與預(yù)測(cè)效果。代表性算法包括多元線性回歸(MLR)方法[8]、支持向量回歸(SVR)方法[9]、wavelet-ARMA/ARIMA算法[10]等。
2011年Yoon等[11]的實(shí)驗(yàn)表明人工神經(jīng)網(wǎng)絡(luò)(ANN)具有非線性映射、自適應(yīng)和魯棒性較好的特征,因此在大氣污染物粒子濃度演進(jìn)過(guò)程模擬與濃度預(yù)測(cè)中具有較好應(yīng)用價(jià)值。近年來(lái),國(guó)內(nèi)外開(kāi)發(fā)了各種ANN結(jié)構(gòu)來(lái)改進(jìn)空氣污染物濃度的預(yù)測(cè)。人工神經(jīng)網(wǎng)絡(luò)算法包括通用神經(jīng)網(wǎng)絡(luò)算法與專(zhuān)用神經(jīng)網(wǎng)絡(luò)算法。通用的神經(jīng)網(wǎng)絡(luò)算法包括:基于徑向基神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量預(yù)測(cè)算法[12]、基于多層感知器的空氣質(zhì)量預(yù)測(cè)算法[13]、時(shí)間延遲神經(jīng)網(wǎng)絡(luò)(TDNN)[14]、Elman神經(jīng)網(wǎng)絡(luò)[15]、基于模糊神經(jīng)網(wǎng)絡(luò)的空氣預(yù)測(cè)算法[16]。通用神經(jīng)網(wǎng)絡(luò)算法將不同類(lèi)型的神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于大氣污染物粒子演進(jìn)模擬與濃度預(yù)測(cè)上,具有較好的效果。但是以上研究忽視了大氣污染物粒子濃度演進(jìn)過(guò)程模擬與濃度預(yù)測(cè)是一個(gè)時(shí)間序列,應(yīng)該從時(shí)間序列角度出發(fā),學(xué)習(xí)該過(guò)程的時(shí)間依賴(lài)特征。因此,基于時(shí)間依賴(lài)特征學(xué)習(xí)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)等專(zhuān)用神經(jīng)網(wǎng)絡(luò)被引入到大氣污染物粒子濃度演進(jìn)與預(yù)測(cè)領(lǐng)域?;赗NN算法的研究主要如下:2011年Feng等[17]將遞歸神經(jīng)網(wǎng)絡(luò)(RNN)應(yīng)用到空氣質(zhì)量預(yù)測(cè)中,取得較好的效果;2015年Ma等[18]指出循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以有效提取時(shí)間序列的時(shí)間依賴(lài)特征,并保證學(xué)習(xí)時(shí)間序列的能力。但是梯度消失或爆炸問(wèn)題制約循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí)間序列的長(zhǎng)時(shí)依賴(lài)性特征。長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)可解決傳統(tǒng)RNN的梯度問(wèn)題,實(shí)現(xiàn)時(shí)間序列的長(zhǎng)期依賴(lài)性學(xué)習(xí)。
LSTM算法已經(jīng)在大氣污染物粒子濃度演進(jìn)與預(yù)測(cè)領(lǐng)域取得較好的研究成果。一般LSTM算法包括LSTM method and evaluation算法[19]、ensemble-LSTM算法[20]、CNN-LSTM算法[21]、LSTM-FC算法[22];基于空氣污染物粒子濃度特征的LSTM算法包括GC-LSTM算法[23]、spatiotemporal convolutional LSTM算法[24];基于深度學(xué)習(xí)的LSTM算法包括DL-LSTM算法[25]、多輸出的DL-LSTM算法[26]、Deep DL-LSTM算法[27]。
綜上,與其他模擬與預(yù)測(cè)算法相比,基于LSTM的大氣污染物粒子濃度演進(jìn)過(guò)程模擬與濃度預(yù)測(cè)算法具有較好效果,但是還存在如下缺欠:(1) 研究方法僅考慮大氣污染物粒子濃度演進(jìn)過(guò)程的時(shí)間依賴(lài)性,而忽視該過(guò)程的空間相關(guān)性;(2) 研究方法忽視空間相關(guān)性,包括全局區(qū)域與局部區(qū)域相關(guān)性;(3) 沒(méi)有將空間相關(guān)性有效融合到LSTM算法中,實(shí)現(xiàn)集時(shí)間依賴(lài)性與空間相關(guān)性一體的LSTM大氣污染物粒子濃度演進(jìn)過(guò)程模擬與濃度預(yù)測(cè)。
基于此,本文提出基于時(shí)空相關(guān)性的LSTM算法并用于PM2.5濃度預(yù)測(cè)。本文旨在研究大氣污染的演進(jìn)過(guò)程,并融合自定義的空間特征與LSTM提取的時(shí)間特征,建立大氣演進(jìn)算法并預(yù)測(cè)粒子濃度。本文主要?jiǎng)?chuàng)新包括:(1) 指出PM2.5演進(jìn)過(guò)程是多元隨機(jī)過(guò)程,其中時(shí)間依賴(lài)性與空間相關(guān)性為主要響應(yīng)因素。(2) 提出全局與局部空間相關(guān)性及其計(jì)算方法,實(shí)現(xiàn)算法的普適性。(3) 實(shí)現(xiàn)局部區(qū)域空間信息相關(guān)性因子與LSTM算法的遺忘門(mén)和記憶門(mén)融合,建立基于局部地理信息的LSTM算法(LTS_LSTM),使LSTM算法具有局部地理信息特征學(xué)習(xí)能力。(4) 以LTS_LSTM算法學(xué)習(xí)結(jié)果為輸入,融合全局空間相關(guān)性,建立基于全局地理信息的時(shí)空相關(guān)的LSTM算法(GTS_LSTM),從地理信息的全局角度模擬空氣污染物粒子濃度演進(jìn)過(guò)程,并進(jìn)行離子濃度預(yù)測(cè)。
大氣污染物PM2.5的離子濃度演進(jìn)是一個(gè)受多元因素制約的時(shí)間序列變化過(guò)程,具有高度的時(shí)間依賴(lài)性和空間相關(guān)性,并受諸多其他因素影響。因此,具有時(shí)間與空間記憶功能的神經(jīng)網(wǎng)絡(luò)能夠更好地模擬PM2.5的演進(jìn)過(guò)程,準(zhǔn)確預(yù)測(cè)PM2.5粒子濃度。
文獻(xiàn)[28]指出大氣污染物粒子濃度演進(jìn)過(guò)程的地理相關(guān)性,并初步明確風(fēng)力、風(fēng)向和地理位置為地理相關(guān)性因素,但其忽視了地理相關(guān)性與研究區(qū)域范圍的關(guān)系。在較大的研究區(qū)域中,還存在山脈、植被等地理相關(guān)性因素。因此,根據(jù)研究區(qū)域大小,本文將研究區(qū)域劃分為全局區(qū)域與局部區(qū)域兩類(lèi)。不同區(qū)域決定地理空間信息相關(guān)性的關(guān)鍵因素也不相同?;谏鲜龇治?,繪制地理相關(guān)信息圖示,如圖1所示。
(a) 觀測(cè)點(diǎn)分布圖 (b) 影響因素示意圖
(c) 空間相關(guān)系數(shù)矩陣
圖1中,Pi和Pj表示兩個(gè)空氣質(zhì)量觀測(cè)近鄰站點(diǎn),Cmountain表示近鄰觀測(cè)站點(diǎn)Pj與Pi間影響PM2.5粒子濃度的山脈影響系數(shù),該系數(shù)由山脈的跨度、高度及與近鄰點(diǎn)Pj與Pi間連線的夾角決定。Cwind表示近鄰觀測(cè)站點(diǎn)Pj與Pi間影響PM2.5粒子濃度的風(fēng)因素影響系數(shù),該系數(shù)由風(fēng)力和風(fēng)向與近鄰點(diǎn)Pj與Pi間連線的夾角決定。Cvegetation表示近鄰觀測(cè)點(diǎn)Pj與Pi間的植被因素影響系數(shù),該系數(shù)由近鄰點(diǎn)Pj與Pi間的植被繁茂程度決定,本文采用NDVI系數(shù)表示。NDVI系數(shù)能較好地反映植被茂盛程度,且受其他條件影響較少。D(j,i)表示觀測(cè)點(diǎn)Pj與Pi間的距離,可以用兩點(diǎn)間經(jīng)緯度的歐氏距離表示。
PM2.5粒子濃度的地理空間信息τ(i,j)定義如下:
τ(i,j)=Wwind×cosθ×Mmountain×cosφ×NDVI/D(i,j)
(1)
式中:Wwind表示近鄰點(diǎn)Pj與Pi間該時(shí)段的平均風(fēng)力;Mmountain表示近鄰點(diǎn)Pj與Pi間山脈的規(guī)模。該信息表明鄰域觀測(cè)點(diǎn)Pj粒子濃度與被觀測(cè)點(diǎn)Pi粒子濃度間的相關(guān)性。山脈規(guī)模可以表示為:
Mmountain=Mlength×Mwidth×Mhigh
式中:Mlength、Mwidth、Mhigh分別為山脈的長(zhǎng)度、寬度、高度。
τ(i,j)具有良好的慢變性和風(fēng)力實(shí)時(shí)性,是一個(gè)長(zhǎng)時(shí)動(dòng)態(tài)變化過(guò)程,區(qū)域越大穩(wěn)定性越強(qiáng)。
在全局區(qū)域中,風(fēng)的實(shí)時(shí)屬性(風(fēng)力和風(fēng)向)、地理位置、地域山脈、地域植被、地域溫度濕度等因素均為關(guān)鍵影響因素,并受到時(shí)間滯后性影響;而在局部區(qū)域上,觀測(cè)點(diǎn)之間距離較近,決定地理空間信息相關(guān)性的關(guān)鍵因素主要包括風(fēng)的實(shí)時(shí)屬性(風(fēng)力和風(fēng)向)、地理位置因素。因此,將式(1)變換為:
(2)
該算法作為局部地理相關(guān)性計(jì)算準(zhǔn)則,完成局部區(qū)域地理信息相關(guān)性計(jì)算,生成具有實(shí)時(shí)特征的局部地理相關(guān)性向量,實(shí)現(xiàn)算法地理相關(guān)性學(xué)習(xí)。
PM2.5粒子濃度演進(jìn)過(guò)程是一個(gè)受多重因素影響的隨機(jī)過(guò)程,具有高度的時(shí)間依賴(lài)性,尤其是長(zhǎng)時(shí)依賴(lài)性。PM2.5粒子濃度演進(jìn)過(guò)程的時(shí)間依賴(lài)性可表示為:
ρ(θ,t)=ρ(θ,t-1,t-2,…,t-k)
(3)
式(3)表明在PM2.5粒子濃度時(shí)間序列中,樣本間存在長(zhǎng)時(shí)依賴(lài)關(guān)系。LSTM算法通過(guò)解決RNN網(wǎng)絡(luò)的梯度消失與梯度爆炸問(wèn)題實(shí)現(xiàn)長(zhǎng)短時(shí)依賴(lài)性學(xué)習(xí),并在大氣污染物粒子濃度演進(jìn)模擬與預(yù)測(cè)中取得較好進(jìn)展。但是,LSTM算法不能依據(jù)地理空間的相關(guān)性特征學(xué)習(xí)粒子濃度演進(jìn)過(guò)程中的地理信息相關(guān)性。因此,本文將自定義的空間相關(guān)性方法與LSTM算法融合,提出TS_LSTM算法,該算法能夠?qū)崿F(xiàn)大氣污染物粒子濃度的時(shí)間依賴(lài)性與空間相關(guān)性學(xué)習(xí)。
LSTM網(wǎng)絡(luò)是一種特殊類(lèi)型的RNN,由一個(gè)輸入層、一個(gè)輸出層和一系列反復(fù)連接的隱藏層組成,并以門(mén)限的形式實(shí)現(xiàn)時(shí)間依賴(lài)性學(xué)習(xí),其結(jié)構(gòu)圖如圖2所示。
圖2 LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
在此,LSTM算法的輸入向量表示為X=(x1,x2,…,xn),xi∈RT,i=1,2,…,n,n表示輸入向量的維數(shù),T表示時(shí)間序列的時(shí)間滯后性,Y=(y1,y2,…,yn)表示輸出序列,LSTM學(xué)習(xí)過(guò)程描述為:
ft=σ(Wf·[ht-1,xt]+bf)
(4)
it=σ(Wi·[ht,xt]+bi)
(5)
Ct=ft*Ct-1+it*Ct
(6)
ot=σ(Wo·[ht-1,xt]+bo)
(7)
ht=ot*tanh(Ct)
(8)
式中:it、ot和ft分別表示LSTM網(wǎng)絡(luò)的輸入門(mén)、輸出門(mén)和遺忘門(mén);Ct和ht分別表示每個(gè)神經(jīng)元細(xì)胞和記憶模塊的激活向量;W和b分別表示權(quán)重矩陣和偏置向量;*代表卷積運(yùn)算。σ(·)表示激活函數(shù);tanh(·)表示雙曲正切函數(shù)tanh()。
(9)
(10)
本文采用BPTT算法和客戶(hù)定制的RTRL算法訓(xùn)練LSTM網(wǎng)絡(luò)。訓(xùn)練步驟如下:
(1) 利用BPTT算法訓(xùn)練TS_LSTM算法;(2) 按照RTRL算法訓(xùn)練TS_LSTM算法,并在每個(gè)訓(xùn)練步中,按照自定義的最佳響應(yīng)準(zhǔn)則將BPTT的訓(xùn)練結(jié)果與本步的訓(xùn)練結(jié)果融合,實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)優(yōu)化調(diào)整。最佳響應(yīng)準(zhǔn)則為:
w(t,i,j)=max(wBPTT(t,i,j),wRTRL(t,i,j))
(11)
式中:w(t,i,j)表示第t步的權(quán)值結(jié)果;wBPTT(t,i,j)、wRTRL(t,i,j)分別表示第t步BPTT與RTRL權(quán)值結(jié)果。
研究證明,LSTM網(wǎng)絡(luò)已經(jīng)能夠較好地學(xué)習(xí)PM2.5粒子濃度的時(shí)間依賴(lài)性特征。但為有效實(shí)現(xiàn)PM2.5粒子濃度的時(shí)間依賴(lài)性和空間相關(guān)性的融合學(xué)習(xí),本文結(jié)合粒子濃度的區(qū)域分類(lèi),提出了兩步模擬與預(yù)測(cè)法:第一步改進(jìn)LSTM微觀結(jié)構(gòu),根據(jù)地理信息邏輯開(kāi)關(guān)(K),實(shí)現(xiàn)局部區(qū)域的地理信息相關(guān)性學(xué)習(xí);第二步根據(jù)地理信息邏輯開(kāi)關(guān)(K),融合全局地理信息與LSTM網(wǎng)絡(luò)的微觀輸出,實(shí)現(xiàn)全局區(qū)域的地理信息相關(guān)性學(xué)習(xí)。經(jīng)過(guò)兩步空間相關(guān)性與時(shí)間依賴(lài)性學(xué)習(xí),從局部和全局空間,算法實(shí)現(xiàn)時(shí)間依賴(lài)性與空間相關(guān)性融合學(xué)習(xí)。
時(shí)空相關(guān)性LSTM算法功能結(jié)構(gòu)如圖3所示。
(a)局部地理相關(guān)性改進(jìn)功能圖(LTS_LSTM)
(b) 全局地理相關(guān)性改進(jìn)功能圖(GTS_LSTM)(γ=sgn()×x,x表示地理信息)圖3 時(shí)空相關(guān)性LSTM算法功能圖
TS_LSTM算法步驟如下:
1) 根據(jù)地理信息邏輯開(kāi)關(guān)(K),對(duì)表示記憶與遺忘功能的式(6)改進(jìn),改進(jìn)結(jié)果為Ct=ft*Ct-1*P1t+it*Ct-1*P2t,實(shí)現(xiàn)局部地理相關(guān)信息與時(shí)間依賴(lài)信息的融合學(xué)習(xí)。Pit計(jì)算方法為:地理信息加強(qiáng)演進(jìn)進(jìn)程因素為P1t=Wwind×cosθ/D(i,j),τ(i,j)>0;地理信息減弱演進(jìn)進(jìn)程因素為P2t=Wwind×cosθ/D(i,j),τ(i,j)≤0。
2) 根據(jù)地理信息邏輯開(kāi)關(guān)(K),計(jì)算局部LSTM輸出與全局地理相關(guān)性的內(nèi)積,實(shí)現(xiàn)全局地理相關(guān)性與時(shí)間依賴(lài)性的融合學(xué)習(xí),實(shí)現(xiàn)LSTM網(wǎng)絡(luò)全局改進(jìn),并實(shí)現(xiàn)了時(shí)滯的初步學(xué)習(xí),改進(jìn)結(jié)果為:H·τ(i)。
通過(guò)上述改進(jìn),解決了LSTM網(wǎng)絡(luò)僅能實(shí)現(xiàn)時(shí)間依賴(lài)性學(xué)習(xí),而不能學(xué)習(xí)空間相關(guān)性的問(wèn)題,實(shí)現(xiàn)了全局與局部地理信息相關(guān)性與時(shí)間依賴(lài)性的融合學(xué)習(xí),探索了時(shí)間學(xué)列中如何解決空間信息相關(guān)性的問(wèn)題。
本文使用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和平均絕對(duì)百分誤差(MAPE)三個(gè)評(píng)價(jià)指標(biāo)實(shí)現(xiàn)算法性能評(píng)價(jià)。上述三個(gè)指標(biāo)計(jì)算公式如下:
(12)
(13)
(14)
本文選用全局?jǐn)?shù)據(jù)集和局部數(shù)據(jù)集實(shí)現(xiàn)算法性能研究。全局?jǐn)?shù)據(jù)集限定在京津冀地區(qū),該地區(qū)包含發(fā)展中國(guó)家的PM2.5形成的主要因素,具有良好的代表性。數(shù)據(jù)集采集自國(guó)家氣象局近七年的24小時(shí)的平均空氣粒子濃度數(shù)據(jù);局部區(qū)域數(shù)據(jù)集限定在北京地區(qū)12個(gè)空氣監(jiān)測(cè)站點(diǎn)。(全局區(qū)域包括:北部新區(qū)、豐臺(tái)云崗、農(nóng)展館、承德、廊坊、保定、石家莊、邯鄲、東麗、津南、開(kāi)發(fā)區(qū)和武清區(qū);局部區(qū)域包括:北部新區(qū)、植物園、萬(wàn)柳、奧體中心、農(nóng)展館、東四、觀園、古城、天壇、萬(wàn)壽西宮、豐臺(tái)花園和豐臺(tái)云崗)數(shù)據(jù)集包括每小時(shí)的空氣粒子濃度數(shù)據(jù)。全局和局部區(qū)域數(shù)據(jù)均采用20∶80的比例劃分測(cè)試集與訓(xùn)練集。
(a) 北京區(qū)域空氣質(zhì)量監(jiān)測(cè)站的分布圖
(b) 京津冀空氣質(zhì)量監(jiān)測(cè)站的分布圖圖4 全局與局部研究區(qū)域圖
Pearson相關(guān)系數(shù)能夠準(zhǔn)確描述數(shù)據(jù)相關(guān)性,本文采用該系數(shù)實(shí)現(xiàn)PM2.5污染物粒子濃度的空間相關(guān)性研究,計(jì)算全局(京津冀)與局部(北京)區(qū)域不同觀測(cè)站點(diǎn)的粒子濃度空間相關(guān)系數(shù),并繪制空間相關(guān)性分布圖,如圖5所示。
(a) 時(shí)滯系數(shù)為1小時(shí)
(b) 時(shí)滯系數(shù)為36小時(shí)圖5 PM2.5粒子濃度的Pearson相關(guān)系數(shù)分布圖
實(shí)驗(yàn)結(jié)果表明,在1小時(shí)時(shí)滯區(qū)間內(nèi),北京城區(qū)12個(gè)空氣監(jiān)測(cè)站點(diǎn)PM2.5濃度的Pearson相關(guān)系數(shù)高于0.8,近鄰站點(diǎn)的相關(guān)系數(shù)高于0.91。因此,12個(gè)觀測(cè)站點(diǎn)的PM2.5濃度具有較強(qiáng)的空間相關(guān)性,且近鄰站點(diǎn)的相關(guān)性高于遠(yuǎn)鄰站點(diǎn)的相關(guān)性。在36小時(shí)時(shí)滯區(qū)間內(nèi),京津冀區(qū)域12個(gè)空氣監(jiān)測(cè)站點(diǎn)PM2.5濃度的Pearson相關(guān)系數(shù)高于7.7,近鄰站點(diǎn)的相關(guān)系數(shù)高于0.89。因此,12個(gè)觀測(cè)站點(diǎn)的PM2.5濃度具有較強(qiáng)的空間相關(guān)性,且近鄰站點(diǎn)的相關(guān)性高于遠(yuǎn)鄰站點(diǎn)的相關(guān)性。綜上所述,在良好的時(shí)滯區(qū)間,全局與局部區(qū)域PM2.5粒子濃度近鄰間具有強(qiáng)相關(guān)性,全局區(qū)域相關(guān)系數(shù)低于局部區(qū)域的相關(guān)系數(shù)。
自相關(guān)系數(shù)法能夠較好地分析時(shí)間序列的時(shí)間依賴(lài)性。本文采用自相關(guān)系數(shù)方法,計(jì)算全局區(qū)域和局部區(qū)域內(nèi)12個(gè)空氣監(jiān)測(cè)站點(diǎn)的PM2.5濃度的自相關(guān)系數(shù),并繪制相關(guān)系數(shù)圖,如圖6所示。
(a) 局部區(qū)域時(shí)間依賴(lài)性 (b) 全局區(qū)域時(shí)間依賴(lài)性圖6 局部區(qū)域與全局區(qū)域空氣檢測(cè)站點(diǎn)粒子濃度的自相關(guān)系數(shù)與時(shí)間滯后的變化關(guān)系
該實(shí)驗(yàn)結(jié)果表明,在局部區(qū)域中,觀測(cè)站點(diǎn)間的離子濃度存在長(zhǎng)時(shí)依賴(lài)性,并且時(shí)間滯后關(guān)系清晰。在全局區(qū)域中,觀測(cè)站點(diǎn)間的離子濃度存在長(zhǎng)時(shí)依賴(lài)性,并且時(shí)間滯后關(guān)系清晰。與局部區(qū)域的長(zhǎng)時(shí)依賴(lài)性比較,宏觀區(qū)域的長(zhǎng)時(shí)依賴(lài)性的滯后時(shí)間要長(zhǎng)很多。
時(shí)滯性制約了時(shí)間序列算法的學(xué)習(xí)性能,PM2.5粒子濃度演進(jìn)過(guò)程受到時(shí)滯影響。因此,采用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和平均絕對(duì)百分誤差(MAPE)三個(gè)評(píng)價(jià)指標(biāo),針對(duì)不同區(qū)域?qū)λ惴ǖ臅r(shí)滯性進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果見(jiàn)表1。
表1 時(shí)滯預(yù)算法性能表
實(shí)驗(yàn)結(jié)果表明,時(shí)滯對(duì)算法的性能具有明顯影響,全局區(qū)域的時(shí)滯影響在12小時(shí)左右,局部區(qū)域時(shí)滯的影響在6小時(shí)左右,且宏觀區(qū)域的時(shí)滯總體大于微觀區(qū)域的時(shí)滯。算法性能影響上,時(shí)滯對(duì)宏觀區(qū)域影響比微觀區(qū)域更明顯,微觀區(qū)域的時(shí)滯影響變換快。結(jié)果表明時(shí)滯與區(qū)域大小具有較強(qiáng)相關(guān)性。
LSTM網(wǎng)絡(luò)結(jié)構(gòu),尤其是節(jié)點(diǎn)數(shù)對(duì)長(zhǎng)時(shí)依賴(lài)性和地理信息相關(guān)性特征學(xué)習(xí)具有重要影響。因此,針對(duì)不同區(qū)域,不同網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)目,在局部時(shí)滯1小時(shí)和全局時(shí)滯36小時(shí)條件下,采用設(shè)定的三個(gè)標(biāo)準(zhǔn)評(píng)價(jià)節(jié)點(diǎn)數(shù)對(duì)算法性能的影響,結(jié)果見(jiàn)表2。
表2 TS_LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)算法性能影響
實(shí)驗(yàn)結(jié)果表明,在相同時(shí)滯和相同的數(shù)據(jù)集上,隨著本文TS-LSTM神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)目增加,算法對(duì)時(shí)間依賴(lài)性與空間相關(guān)性學(xué)習(xí)性能逐步增強(qiáng),TS-LSTM算法能夠準(zhǔn)確模擬PM2.5粒子濃度演進(jìn)過(guò)程,并且準(zhǔn)確預(yù)測(cè)PM2.5的粒子濃度。
在全局與局部預(yù)測(cè)與觀測(cè)數(shù)據(jù)集中個(gè)采樣1 400個(gè)樣本,繪制全局與局部PM2.5預(yù)測(cè)值與觀測(cè)值分布圖如圖7所示。
(a) 全局PM2.5預(yù)測(cè)值與觀測(cè)值分布圖 (b) 局部PM2.5預(yù)測(cè)值與觀測(cè)值分布圖圖7 全局與局部區(qū)域12個(gè)檢測(cè)站點(diǎn)PM2.5預(yù)測(cè)值與觀測(cè)值分布圖
實(shí)驗(yàn)結(jié)果表明,本文算法的預(yù)測(cè)值與觀測(cè)值之間具有近似y=x+ε(ε為任意小正數(shù))的擬合分布。說(shuō)明算法的預(yù)測(cè)結(jié)果與觀測(cè)結(jié)果來(lái)自相同的數(shù)據(jù)集,因此本文算法具有良好的預(yù)測(cè)效果。
在相同訓(xùn)練和測(cè)試集、不同的輸入?yún)?shù)和不同的網(wǎng)絡(luò)構(gòu)架上,將本文的TS-LSTM算法與多元線性回歸算法(MLR)[8]、支持向量機(jī)(SVR)[9]、wavelet-ARMA/ARIMA算法[10]、模糊神經(jīng)網(wǎng)絡(luò)[16]、LSTM神經(jīng)網(wǎng)絡(luò)[19]、GC-LSTM神經(jīng)網(wǎng)絡(luò)[24]、DL-LSTM神經(jīng)網(wǎng)絡(luò)[26]算法的性能進(jìn)行比較,結(jié)果如表3所示。
表3 算法性能比較表
實(shí)驗(yàn)結(jié)果表明,在相同訓(xùn)練和測(cè)試集、不同的輸入?yún)?shù)和不同的網(wǎng)絡(luò)構(gòu)架上,人工神經(jīng)網(wǎng)絡(luò)算法具有非常好的非線性預(yù)測(cè)能力,與非神經(jīng)網(wǎng)絡(luò)相比具有更好的預(yù)測(cè)效果;深層神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力優(yōu)于淺層神經(jīng)網(wǎng)絡(luò);本文算法預(yù)測(cè)性能優(yōu)于其他LSTM網(wǎng)絡(luò),且算法性能在局部區(qū)域具有優(yōu)于全局區(qū)域的性能。綜上,與其他時(shí)間序列分析算法比較,本文的TS-LSTM算法具有較好的預(yù)測(cè)能力。
本文提出了基于時(shí)空相關(guān)性的LSTM算法,并在PM2.5演進(jìn)與濃度預(yù)測(cè)上應(yīng)用,解決了空氣污染物粒子濃度演進(jìn)過(guò)程模擬與預(yù)測(cè)算法忽視了粒子濃度的空間相關(guān)性的問(wèn)題,實(shí)現(xiàn)粒子濃度的時(shí)間依賴(lài)性與空間相關(guān)性融合,在全局與局部數(shù)據(jù)集上取得良好的演進(jìn)模擬與預(yù)測(cè)效果。在相同數(shù)據(jù)集上,采用不同的網(wǎng)絡(luò)構(gòu)架和實(shí)驗(yàn)參數(shù),與多種經(jīng)典算法比較,本文算法具有良好的預(yù)測(cè)性能和模擬效果。研究發(fā)現(xiàn)在PM2.5粒子濃度演進(jìn)模擬與數(shù)值預(yù)測(cè)上:1) 深度神經(jīng)網(wǎng)絡(luò)性能優(yōu)于淺層神經(jīng)網(wǎng)絡(luò);淺層神經(jīng)網(wǎng)絡(luò)優(yōu)于非神經(jīng)網(wǎng)絡(luò)。2) LSTM神經(jīng)網(wǎng)絡(luò)能夠較好地學(xué)習(xí)空氣濃度的長(zhǎng)時(shí)依賴(lài)性,因此其具有優(yōu)于同類(lèi)淺層神經(jīng)網(wǎng)絡(luò)的模擬效果與預(yù)測(cè)性能。3) 具有時(shí)空性能學(xué)習(xí)的多層深度LSTM神經(jīng)網(wǎng)絡(luò),具有優(yōu)于傳統(tǒng)時(shí)間序列算法和神經(jīng)網(wǎng)絡(luò)算法的性能。4) 本文算法在全局與局部空氣質(zhì)量預(yù)測(cè)上均具有良好的預(yù)測(cè)性能和良好的模擬效果。