許 洋,顧海航
(1.上海理工大學(xué)機(jī)械工程學(xué)院,上海 200000;2.鹽城工學(xué)院)
在人類活動及自然過程中,如NO(氮氧化物)、SO(二氧化硫)、O(臭氧)以及PM(可吸入懸浮顆粒)等污染物質(zhì)進(jìn)入大氣,當(dāng)這些物質(zhì)達(dá)到了足夠的濃度且超出生物圈自凈能力時。將危害人體健康和生態(tài)環(huán)境。污染防治實(shí)踐表明,通過建立空氣質(zhì)量預(yù)報模型,提前獲知可能發(fā)生的大氣污染過程并采取相應(yīng)控制措施,是減少大氣污染,提高空氣質(zhì)量的有效方法之一。目前常用的空氣質(zhì)量預(yù)報模型為WRF-CMAQ模擬體系,該模型包括WRF和CMAQ兩部分:如圖1所示,WRF(Weather Research and Forecasting Model)用于為CMAQ(Community Multiscale Air Quality)提供所需的氣象場數(shù)據(jù)。
圖1 中尺度數(shù)值天氣預(yù)報系統(tǒng)WRF結(jié)構(gòu)
如圖2 所示,CMAQ 是一種三維歐拉大氣化學(xué)與傳輸模擬系統(tǒng),其根據(jù)來自WRF的氣象信息及場域內(nèi)的污染排放清單,基于物理和化學(xué)反應(yīng)原理模擬污染物等的變化過程,繼而得到具體時間點(diǎn)或時間段的預(yù)報結(jié)果。但是受制于模擬的氣象場以及排放清單的不確定性,以及對包括臭氧等在內(nèi)的污染物生成機(jī)理的不完全明晰,WRF-CMAQ預(yù)報模型的結(jié)果并不理想。
圖2 空氣質(zhì)量預(yù)測與評估系統(tǒng)CMAQ結(jié)構(gòu)
由此提出二次建模方法來解決該問題:在WRFCMAQ 等一次預(yù)報模型模擬結(jié)果的基礎(chǔ)上,結(jié)合實(shí)際檢測的數(shù)據(jù)源進(jìn)行再建模以提高預(yù)報的準(zhǔn)確度。首先對某空氣監(jiān)測提供的長期空氣質(zhì)量基礎(chǔ)數(shù)據(jù)進(jìn)行預(yù)處理:對缺失數(shù)據(jù)段和大量時間缺失數(shù)據(jù)的剔除,以及通過線性插值的方式補(bǔ)全數(shù)據(jù)文件,對預(yù)報數(shù)據(jù)和實(shí)際檢測數(shù)據(jù)做時間對齊處理。然后建立ELM 網(wǎng)絡(luò)模型作為預(yù)測算法,并使用遺傳算法對ELM 進(jìn)行優(yōu)化,計算最佳適應(yīng)度并更新最佳個體位置,通過極限學(xué)習(xí)訓(xùn)練和滾動預(yù)測,得到給定監(jiān)測點(diǎn)未來三天的空氣污染物濃度最優(yōu)預(yù)測結(jié)果。
圖3 空氣質(zhì)量預(yù)測二次建模思路
本文思路框架如圖4 所示:在開展建模工作之前需要對已有的一次預(yù)測以及實(shí)際檢測數(shù)據(jù)預(yù)處理,以滿足后期模型求解時數(shù)據(jù)輸入的要求。其次需要建立一個同時適用于若干監(jiān)測點(diǎn)的空氣質(zhì)量二次預(yù)報數(shù)學(xué)模型,預(yù)測未來三天數(shù)種常規(guī)污染物單日濃度值,步驟如下:①選擇合適的算法并對算法進(jìn)行初步調(diào)研;②利用算法建立模型;③預(yù)測結(jié)果。
圖4 本文整體思路框架
數(shù)學(xué)模型的實(shí)現(xiàn)可以通過單層前饋神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、BP 算法、極限學(xué)習(xí)機(jī)神經(jīng)網(wǎng)絡(luò)等算法。其中極限學(xué)習(xí)機(jī)神經(jīng)網(wǎng)絡(luò)將隨機(jī)產(chǎn)生輸入層和隱含層間的連接權(quán)值和隱含層神經(jīng)元的閾值,且在訓(xùn)練過程中無需調(diào)整,只需要設(shè)置隱含層的神經(jīng)元的個數(shù),便可以獲得唯一最優(yōu)解,具有學(xué)習(xí)速度快、泛化能力和全局搜索能力強(qiáng)的優(yōu)勢。因此采用極限學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行模型預(yù)測。
極限學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)原理如下:
選擇n 個不同訓(xùn)練樣本,其中訓(xùn)練樣本特征向量為x=[x,x,...,x],不同訓(xùn)練樣本對應(yīng)的標(biāo)簽為y=[y,y,...,y],有L 個隱藏層節(jié)點(diǎn)的激活函數(shù)為g(x)的ELM 的數(shù)學(xué)表達(dá)如式⑴。在針對式(1)的N 個方程簡化合并后可表示為式⑵。
對ELM的網(wǎng)絡(luò)訓(xùn)練等價于如下優(yōu)化問題:
當(dāng)g(x)無限可微時,隨機(jī)給定參數(shù)Wi 和bi,ELM模型訓(xùn)練過程可以近似的看作求解線性Hβ=T 關(guān)于的最小二乘解,見式⑶。
輸入權(quán)值矩陣和隱含層神經(jīng)元的閾值是在ELM模型中隨機(jī)生成,可以直接計算得出網(wǎng)絡(luò)輸出值同時迅速得到輸入層權(quán)值最優(yōu)解。
注:W為輸入權(quán)重;β為輸出的權(quán)重;b是第i個隱層單元的偏置;W*X表示W(wǎng)和X的內(nèi)積;H 表示隱層輸出矩陣;β表示權(quán)重矩陣;T表示期望輸出矩陣。
數(shù)據(jù)預(yù)處理流程如圖5 所示,選擇離預(yù)測日期比較近的二十四小時的數(shù)據(jù)進(jìn)行處理,首先獲得連續(xù)按1小時劃分的預(yù)報結(jié)果數(shù)據(jù)。由于數(shù)據(jù)文件存在時間缺失數(shù)據(jù)及異常值數(shù)據(jù),因此對三個監(jiān)測點(diǎn)實(shí)際的測試數(shù)據(jù)進(jìn)行插值處理和剔除處理。最后為了方便處理,對實(shí)際的測試數(shù)據(jù)和一次的預(yù)報數(shù)據(jù)做時間對齊處理。
圖5 數(shù)據(jù)預(yù)處理思路
對監(jiān)測站提供的監(jiān)測數(shù)據(jù)文件數(shù)據(jù),分析過程中發(fā)現(xiàn)數(shù)據(jù)文件存在的時間缺失數(shù)據(jù)及異常值數(shù)據(jù)。對數(shù)據(jù)中從2019/4/16 0:00:00 時-2021/7/12 23:00:00 時的時間數(shù)據(jù)進(jìn)行分析,把時間統(tǒng)計為以1-24 時為橫坐標(biāo),0:00:00-23:00:00 出現(xiàn)的次數(shù)為縱坐標(biāo)的圖形。圖6為逐時實(shí)際數(shù)據(jù)小時數(shù)統(tǒng)計柱狀圖。
圖6 逐時實(shí)際數(shù)據(jù)小時數(shù)統(tǒng)計柱狀圖
從圖6 中可以看出,各小時的出現(xiàn)的實(shí)際數(shù)據(jù)不一致,例如2 時和3 時統(tǒng)計個數(shù)遠(yuǎn)少于800,數(shù)量誤差較大,說明存在大量缺失數(shù)據(jù)。
由數(shù)據(jù)分析步驟可以看出,存在缺失數(shù)據(jù)數(shù)據(jù)段和大量時間缺失數(shù)據(jù),因此首先剔除缺失數(shù)據(jù)數(shù)據(jù)段,然后對數(shù)據(jù)進(jìn)行插值處理,通過線性插值方法,補(bǔ)全數(shù)據(jù)文件,使數(shù)據(jù)成為一小時間隔的數(shù)據(jù)。污染物濃度和氣象條件數(shù)據(jù)初步補(bǔ)全,但數(shù)據(jù)中含有部分異常值。異常數(shù)據(jù)會對使分析結(jié)果存在誤差,因此在對數(shù)據(jù)進(jìn)行插值處理后,采用3σ的異常值剔除原則對異常數(shù)據(jù)進(jìn)行剔除,異常值處理后數(shù)據(jù)圖像如圖7所示??梢钥闯觯啾扔谥苯幼霾逯堤幚淼臄?shù)據(jù),去除異常值后再進(jìn)行插值處理,數(shù)據(jù)變得平滑,有利于使結(jié)果更加準(zhǔn)確。
圖7 異常值處理后的污染物和氣象條件數(shù)據(jù)
圖8 為極限學(xué)習(xí)機(jī)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,圖中,x 為輸入?yún)?shù),y 為輸出參數(shù),輸入?yún)?shù)為本預(yù)測小時之前五個時刻的氣象條件和污染物濃度實(shí)際采集值,輸出量為本時刻預(yù)測污染物的濃度。
圖8 極限學(xué)習(xí)機(jī)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
ELM 算法流程大致為:首先導(dǎo)入數(shù)據(jù)對象,然后產(chǎn)生隨機(jī)生產(chǎn)訓(xùn)練集和測試集,對兩集做歸一化處理,利用ELM 算法對其進(jìn)行創(chuàng)建和訓(xùn)練,當(dāng)精度或者迭代次數(shù)達(dá)到要求的時候,對結(jié)果進(jìn)行仿真測試,然后進(jìn)行反歸一化處理,得到預(yù)測結(jié)果。
為使預(yù)測結(jié)果中AQI(空氣質(zhì)量指數(shù))預(yù)報值的最大相對誤差盡量小,且首要污染物預(yù)測準(zhǔn)確度盡量高,因此要對ELM 算法進(jìn)行優(yōu)化。ELM 優(yōu)化算法流程如圖9 所示,利用遺傳算法對ELM 進(jìn)行優(yōu)化,在建立ELM 預(yù)測模型后,通過遺傳算法計算最佳適應(yīng)度并更新最佳個體位置,通過極限學(xué)習(xí)訓(xùn)練和滾動預(yù)測,得到最優(yōu)結(jié)果。
圖9 ELM優(yōu)化算法流程圖
各污染物(SO、PM2.5、O)濃度的真實(shí)值與預(yù)測值以及各污染物濃度誤差值如下圖10—15所示,從結(jié)果中可以看出,預(yù)測值誤差均在10%范圍內(nèi),同時首要污染物濃度誤差最小,滿足要求,結(jié)果較好。
圖10 SO2真實(shí)值和預(yù)測值結(jié)果及多次擬合結(jié)果
圖11 SO2濃度誤差計算結(jié)果
圖12 PM2.5真實(shí)值和預(yù)測值結(jié)果及多次擬合結(jié)果
圖13 PM2.5濃度誤差計算結(jié)果
圖14 臭氧真實(shí)值和預(yù)測結(jié)果及多次擬合結(jié)果
圖15 臭氧濃度誤差計算結(jié)果
本文構(gòu)建的二次預(yù)報數(shù)學(xué)模型得到的預(yù)測結(jié)果準(zhǔn)確性較目前常用的預(yù)測模型有明顯提高,并對以后其他相關(guān)預(yù)報研究具有較強(qiáng)的現(xiàn)實(shí)參考意義。本文對于數(shù)據(jù)預(yù)處理使用的方法效果較好,其他相關(guān)研究中的數(shù)據(jù)均可借鑒此處理方法。但不足之處在于本模型的計算量很大且計算復(fù)雜,可根據(jù)具體情況進(jìn)行優(yōu)化并推廣應(yīng)用于其他事物的預(yù)報。