張 恒,王 偉,孫雪蓮
(大連民族大學理學院,大連 116000)
在工業(yè)化、城鎮(zhèn)化進程逐步加劇以及經(jīng)濟高速發(fā)展的背景下,空氣質(zhì)量日益引起全社會重視,大氣污染給人民群眾身體健康及生活造成嚴重影響,同時空氣質(zhì)量也關(guān)系到城市發(fā)展?jié)摿Α?諝馕廴臼侵冈谝欢〞r間內(nèi)大氣中污染物濃度達到或超過其允許值時造成的危害。它不僅會引起人體內(nèi)有害氣體含量增加,而且還會導致人體免疫功能下降。因此,空氣質(zhì)量預測與可視化對于城市環(huán)境管理與可持續(xù)發(fā)展具有重要意義,空氣質(zhì)量好有助于增強城市綜合競爭力[1]。
當前空氣質(zhì)量的好壞主要是由空氣質(zhì)量指數(shù)的大小所決定的[2]。隨著社會經(jīng)濟的發(fā)展,環(huán)境問題日益突出,空氣質(zhì)量成為人們關(guān)注的焦點。為準確掌握空氣環(huán)境質(zhì)量狀況及變化趨勢,建立科學的空氣質(zhì)量評價體系尤為重要。因此,開展空氣污染指數(shù)時空變化研究十分必要。空氣質(zhì)量指數(shù)監(jiān)測結(jié)果既關(guān)系到六種污染物(PM2.5,PM10,SO2,NO2,CO,O3)的濃度,也關(guān)系到溫度、氣壓和風速等氣象因素,需全面考慮[3-4]。ARIMA及其他統(tǒng)計模型因其簡便、靈活的特點已大量應用于時間序列的預測[5-6]。然而空氣質(zhì)量指數(shù)時間序列存在著非線性特點,且常規(guī)的預測方法均為線性模型,因此在空氣質(zhì)量指數(shù)時間序列建模時顯示出了一定局限性[7]。因為神經(jīng)網(wǎng)絡有很強的非線性映射能力[8],所以近幾年基于神經(jīng)網(wǎng)絡預測空氣質(zhì)量指數(shù)被廣泛應用,LSTM等神經(jīng)網(wǎng)絡成為人們關(guān)注的焦點[9],然而單一非線性模型對于既有線性又有非線性的時間序列無法得到最優(yōu)結(jié)果[10]。
針對上述問題,本文提出了ARIMA-LSTM融合模型。首先采用ARIMA模型提取空氣質(zhì)量指數(shù)時間序列線性特征,然后將預測結(jié)果和真實值相減得到殘差序列,殘差序列和空氣質(zhì)量指數(shù)影響因素作為LSTM的輸入,對空氣質(zhì)量指數(shù)殘差進行修正,最后將修正結(jié)果與ARIMA模型預測結(jié)果相結(jié)合得到最終的預測結(jié)果。
ARIMA全稱為差分自回歸移動平均模型[11],由Box等[12]提出,通常被記作ARIMA(p,d,q)。p表示自回歸項數(shù),d表示時間序列平穩(wěn)差分的次數(shù),q表示移動平均項數(shù)。
ARIMA模型的數(shù)學表達式如下:
其中:xt是平穩(wěn)變量,φt是自回歸項系數(shù),wt是殘差,θt是移動平均項系數(shù)。
本文的研究對象為空氣質(zhì)量指數(shù),考慮到序列的不平穩(wěn),因此使用ARIMA(p,d,q)進行建模預測。
LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡,由Hochreiter等[13]提出,對數(shù)據(jù)序列具有記憶長期依賴關(guān)系,自學習能力強,非線性擬合能力強。本文利用這一特點,建立預測模型,如圖1所示,LSTM模型結(jié)構(gòu)的每個單元都有以下更新。
圖1 中,xt表示該時刻的數(shù)據(jù)信息,激活函數(shù)σ和tanh表達式通常取如下值:
ft表示遺忘門,可以濾除前序列時刻的狀態(tài)信息,并確定前序時刻在后續(xù)時刻中的租用;it表示輸入門,用于控制輸入信息在該時刻中的信息占比;ot表示輸出門,用于控制本時刻狀態(tài)信息的輸出占比,計算公式分別為
其中:Wf、Wi、WO均是權(quán)重矩陣。如以下公式所示,Ct表示本時刻狀態(tài)信息,其值由本時刻輸入信息以及上一時刻狀態(tài)信息決定:
其中:C't=tanh(WC·[ht-1,xt]+bc)。ht表示本時刻隱藏層的狀態(tài)信息:
本文提出了一個基于ARIMA與LSTM的融合模型。ARIMA-LSTM模型主要包括三個方面:首先,利用自回歸滑動平均方法建立一個非線性動態(tài)過程;然后,通過引入神經(jīng)網(wǎng)絡結(jié)構(gòu)來提高其學習能力和泛化性能;最后,采用兩種不同類型數(shù)據(jù)對模型進行驗證分析。第一部分為線性ARIMA模型,在時間序列Yt上做單步預測,其結(jié)果用L?t來表達;第二部分為ARIMA模型誤差Nt與空氣質(zhì)量指數(shù)的影響因素相結(jié)合,其結(jié)果用N?t來表達,其中Nt=Yt-L?t;第三部分是將預測結(jié)果L?t和N?t進行組合,預測結(jié)果表示為Y?t。圖2給出了ARIMA-LSTM模型流程。
本文采用2021年的日平均空氣質(zhì)量數(shù)據(jù)作為ARIMA模型的基礎研究數(shù)據(jù),其中前90%數(shù)據(jù)作為訓練集,后10%數(shù)據(jù)作為測試集。
神經(jīng)網(wǎng)絡訓練時,數(shù)據(jù)之間的量綱差別對于網(wǎng)絡訓練的收斂效果和預測準確性起著至關(guān)重要的作用,所以在建模之前,有必要對輸入數(shù)據(jù)做預處理,本文利用公式(9)將每一維的特征映射到[0,1]指定區(qū)間。
其中:minx(t)和maxx(t)分別為訓練數(shù)據(jù)集的最小值和最大值,將訓練輸出數(shù)據(jù)反歸一化以獲得預測值。
在模型評價方面,本研究選取了平均絕對誤差(MAPE),平均絕對百分比誤差(MAPE)以及均方根誤差(RMSE)三個指標對模型空氣質(zhì)量指數(shù)時間序列的預測性能進行了評估,各指標的值越小表明預測精度越高,預測效果也就越好。這三個評價指標的表達式如下:
其中,Xt代表實際值;Ft代表預測值;N是時間序列數(shù)據(jù)集樣本數(shù)目。
2.3.1 平穩(wěn)性檢驗及平穩(wěn)化處理
由圖2可以看出AQI序列具有一定的趨勢,并不是始終在一個常數(shù)值附近波動,初步判定該序列是不平穩(wěn)的。通過ADF檢驗和KPSS檢驗可知,ADF統(tǒng)計量為1,KPSS統(tǒng)計量也為1,ADF檢驗通過,但KPSS檢驗未通過,結(jié)合兩種檢驗的結(jié)果可知空氣質(zhì)量指數(shù)序列是不平穩(wěn)的。對AQI數(shù)據(jù)進行一階差分,記作DAQI,再驗證其平穩(wěn)性,ADF統(tǒng)計量為1,KPSS統(tǒng)計量也為0,ADF檢驗和KPSS檢驗都通過,則可以認為DAQI為平穩(wěn)時間序列。
2.3.2 模型識別及定階
通過遍歷各種參數(shù)的各種組合,采用AIC與BIC準則對最優(yōu)模型進行參數(shù)選擇,得到最優(yōu)模型,最后確定的模型為ARIMA(1,1,2)。
2.3.3 模型擬合及檢驗
根據(jù)擬合結(jié)果,殘差用LB檢驗法處理白噪聲,結(jié)果表明Q統(tǒng)計量P值在0.05以上,擬合模型已完全提取時間序列信息。最后診斷殘差分布情況,其結(jié)果見圖3。殘差分布比較正常,時序圖變化基本平穩(wěn)。最后利用Durbin-Watson檢驗法,檢驗殘差是否存在回歸分析中的一階自相關(guān)性,本文中DW值為1.9982,該值越接近2說明時間序列不存在一階相關(guān)性,即通過DW檢驗。綜上,ARIMA(1,1,2)擬合效果良好,能夠很好地預測出時序的趨勢。
2.3.4 ARIMA時間序列預測
回代預測2021年后10%的數(shù)據(jù),所得預測結(jié)果如圖4所示。其中MAE=16.6239,MAPE=0.3520,RMSE=20.2222。將獲得的預測值和實際值相減,并將獲得的殘差作為隨后LSTM模型中的一個輸入變量來校正殘差。
2.3.5 LSTM殘差修正
采用前文ARIMA模型2021年后10%AQI測試樣本得到的殘差序列,建立了考慮AQI影響因素的LSTM神經(jīng)網(wǎng)絡模型,模型預測所得殘差修正值如圖5所示。通過對上述兩種方法得出的結(jié)果對比可知,ARIMA模型具有較高的準確性和穩(wěn)定性;而基于LSTM神經(jīng)網(wǎng)絡算法可以有效提高預測精度。本文采用MATLAB軟件編程實現(xiàn)了該過程。最后,將ARIMA模型所得預測值與LSTM模型殘差預測修正值進行累加,獲得最終2021年后10%的AQI預測值,所得預測值所計算的各評價指標為MAE=3.0523,MAPE=0.0706,RMSE=3.5968。
2.3.6 結(jié)果分析
為評估提出的方法,實驗選取BP神經(jīng)網(wǎng)絡模型進行對比分析,最后的對比方法包括ARIMA、BP神 經(jīng) 網(wǎng) 絡 模 型、LSTM模 型、ARIMA-BP模型和ARIMA-LSTM融合模型,五種模型在相同數(shù)據(jù)集上進行實驗。由上述五種方法得出的最終預測結(jié)果對比如圖6所示,由預測結(jié)果計算出來的三個評價指標值見表1。
表1 五種預測模型評價指標結(jié)果對比
由對比結(jié)果可知,ARIMA模型的整體趨勢捕捉較好,但預測精度很差;BP神經(jīng)網(wǎng)絡和LSTM模型較ARIMA模型精度有所提升,這是因為在建立神經(jīng)網(wǎng)絡,輸入變量時考慮了污染物指標和氣象因素;而ARIMA-LSTM融合預測模型既能抓取線性特征又能捕捉非線性特征,雖然LSTM容易出現(xiàn)過擬合,但這種融合預測模型的LSTM模型只校正殘差,對于其總體預測效果幾乎沒有影響。通過實驗驗證了上述結(jié)論,本文融合模型與另外四種預測模型比較,該模型預測精度是最高的。
AQI作為反映空氣質(zhì)量狀況的一項重要指標,其預測結(jié)果可以為政府及有關(guān)部門及時提供大氣環(huán)境質(zhì)量變化趨勢,有助于提升環(huán)保部門大氣污染風險信息預警。針對傳統(tǒng)單一預測模型精度不高,不能滿足實際需要的問題,提出一種基于ARIMA-LSTM融合模型的空氣質(zhì)量指數(shù)預測算法,實現(xiàn)對大連地區(qū)未來一段時間內(nèi)空氣質(zhì)量狀態(tài)的準確預估。本研究利用2021年大連市空氣質(zhì)量指數(shù)數(shù)據(jù)及相關(guān)氣象數(shù)據(jù),構(gòu)建ARIMA-LSTM融合模型并開展仿真實驗,仿真實驗表明,該融合模型具有較好的預測效果,能夠提高空氣質(zhì)量預測準確率,對于空氣污染監(jiān)測、預警及防控治理有參考價值。在下一步研究中,將考慮更加全面的影響指標,進一步提升模型的穩(wěn)定性和準確性。