郭雪白 任朝棟 田力
摘 要:利用鄭州市2015—2016年24小時(shí)的大氣污染監(jiān)測數(shù)據(jù)和氣象數(shù)據(jù),分析鄭州市空氣質(zhì)量隨季節(jié)變化的分布特性。利用線型相關(guān)系數(shù)分析,尋找顯著相關(guān)因素,通過徑向基神經(jīng)網(wǎng)絡(luò)構(gòu)建大氣污染預(yù)測模型,對鄭州市2017年的PM2.5、PM10、SO2、NO2污染物7*24小時(shí)的濃度進(jìn)行預(yù)測,并與各污染物實(shí)際監(jiān)測值進(jìn)行對比分析。實(shí)驗(yàn)結(jié)果證明,利用線型相關(guān)系數(shù)進(jìn)行相關(guān)因素的分析能夠很好地提高預(yù)測準(zhǔn)確度;利用RBF神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果比傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)預(yù)測的結(jié)果更加準(zhǔn)確。
關(guān)鍵詞:BP人工神經(jīng)網(wǎng)絡(luò);徑向基神經(jīng)網(wǎng)絡(luò)(RBF);線性相關(guān)系數(shù)
中圖分類號:X831 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-0037(2018)2-33-4
Abstract: Use the air pollution data and meteorological data monitored in 24 hours of Zhengzhou city from 2015 to 2016, the distribution characteristics of Zhengzhou city's air quality with the seasons change were analyzed. Linear correlation coefficient analysis was used to find significant correlation factors, air pollution prediction model was constructed by Radial basis neural network, the concentration of PM2.5 and PM10, SO2, NO2 pollutants was predicted in 7*24 hours in 2017 in Zhengzhou city, and they were compared and analyzed with the real monitoring values of various pollutants. The experimental results show that using linear correlation coefficient for correlation factor analysis can improve the prediction accuracy very well. The prediction results of RBF neural network were more accurate than those of BP neural network.
Key words: BP artificial neural network; RBF; linear correlation coefficient
目前我國的空氣質(zhì)量預(yù)報(bào)模型主要還是回歸統(tǒng)計(jì)模型[1],由于該模型具有較強(qiáng)的局限性,因此它的預(yù)測精度不高。人工神經(jīng)網(wǎng)絡(luò)可有效地解決不確定、多輸入等復(fù)雜的非線性問題,故在人工智能、自動(dòng)控制和模式識別等多種領(lǐng)域取得顯著的成果[2-3]。在空氣質(zhì)量預(yù)測的研究也有些進(jìn)展,現(xiàn)有的研究多基于反向傳播(Back Propagation,BP)算法的人工神經(jīng)網(wǎng)絡(luò)建立空氣污染物的預(yù)測模型[4]。
根據(jù)鄭州市氣象數(shù)據(jù)及空氣質(zhì)量監(jiān)測數(shù)據(jù),應(yīng)用BP和RBF神經(jīng)網(wǎng)絡(luò)分別建立SO2、NO2、PM2.5和PM10[5]這4種污染物濃度的預(yù)測模型。應(yīng)用線型相關(guān)系數(shù)法分析選出關(guān)聯(lián)度較高的因素作為神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn),然后應(yīng)用神經(jīng)網(wǎng)絡(luò)對各污染物濃度進(jìn)行預(yù)測。對兩種網(wǎng)絡(luò)模型的預(yù)測精度進(jìn)行對比,為人工神經(jīng)網(wǎng)絡(luò)在城市空氣質(zhì)量預(yù)報(bào)的有效應(yīng)用探索新途徑。
1 相關(guān)算法介紹
1.1 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)發(fā)展比較成熟、應(yīng)用比較廣泛。常用的3層BP神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程包括信號正向傳播和誤差反向傳播2個(gè)階段。信號正向傳播用于網(wǎng)絡(luò)計(jì)算,由輸入求出其輸出;誤差反向傳播用于計(jì)算實(shí)際輸出與期望輸出之間的誤差,將誤差值沿網(wǎng)絡(luò)反向傳播并修正連接權(quán)值。通過對網(wǎng)絡(luò)權(quán)值與閾值的修正,使誤差沿負(fù)梯度方向下降至低于預(yù)設(shè)值,從而使網(wǎng)絡(luò)預(yù)測輸出不斷逼近期望輸出,最終實(shí)現(xiàn)從輸入到輸出的任意非線性映射。
BP神經(jīng)網(wǎng)絡(luò)具有良好的非線性逼近能力,在預(yù)測領(lǐng)域中應(yīng)用廣泛。BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本的選取對于神經(jīng)網(wǎng)絡(luò)的泛化能力具有較大的影響。BP神經(jīng)網(wǎng)絡(luò)建模過程是將所有資料作為一個(gè)樣本集進(jìn)行。而在實(shí)際應(yīng)用中,樣本數(shù)據(jù)的產(chǎn)生與多種因素有關(guān),有其內(nèi)在的特征和規(guī)律性。缺乏對樣本數(shù)據(jù)的內(nèi)在規(guī)律和特征的認(rèn)識,而僅是通過樣本數(shù)量的累加和網(wǎng)絡(luò)的反復(fù)訓(xùn)練,不僅耗費(fèi)大量的時(shí)間,而且網(wǎng)絡(luò)的預(yù)測精度得不到實(shí)質(zhì)性的提高。另外,BP神經(jīng)網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù)和學(xué)習(xí)速率都是固定的,因此,訓(xùn)練速度和精度都比較差。
1.2 RBF神經(jīng)網(wǎng)絡(luò)
徑向基函數(shù)(Radial Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)是一種性能良好的前向網(wǎng)絡(luò),具有最佳逼近、訓(xùn)練簡潔、學(xué)習(xí)收斂速度快以及克服局部最小值問題的性能。RBF神經(jīng)網(wǎng)絡(luò)的基本思想是用徑向基函數(shù)(RBF)作為隱單元,的“基”,構(gòu)成隱含層的空間,隱含層對輸入矢量進(jìn)行變換,將低維的模式輸入數(shù)據(jù)轉(zhuǎn)換到高維空間內(nèi),使得在低維空間內(nèi)的線性不可分問題在高維空間內(nèi)線性可分。
RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與多層前向網(wǎng)絡(luò)類似,它一般由輸入層、隱含層和輸出層構(gòu)成。第一層為輸入層:由信號源節(jié)點(diǎn)組成,傳遞信號到隱層。第二層為隱含層:隱含層節(jié)點(diǎn)的變換函數(shù)是對中心點(diǎn)徑向?qū)ΨQ且衰減的非負(fù)非線性函數(shù)。第三層為輸出層:一般是簡單的線性函數(shù),對輸入模式做出響應(yīng)。
RBF神經(jīng)網(wǎng)絡(luò)是一種性能優(yōu)良的前饋型神經(jīng)網(wǎng)絡(luò),RBF網(wǎng)絡(luò)可以任意精度逼近任意的非線性函數(shù),且具有全局逼近能力,從根本上解決了BP網(wǎng)絡(luò)的局部最優(yōu)問題,而且拓?fù)浣Y(jié)構(gòu)緊湊,結(jié)構(gòu)參數(shù)可實(shí)現(xiàn)分離學(xué)習(xí),收斂速度快。
2 樣本分析及處理
2.1 數(shù)據(jù)來源及選擇
研究采用的數(shù)據(jù)資料為2015—2016年鄭州市24小時(shí)的空氣質(zhì)量數(shù)據(jù)和氣象數(shù)據(jù)。SO2、NO2、PM2.5和PM10這4種污染物濃度由位于鄭州市的某環(huán)境監(jiān)測點(diǎn)測得,包括每小時(shí)的CO、NO2、SO2、O3、PM2.5和PM106種污染物。氣象數(shù)據(jù)來自于鄭州市氣象局,包括每小時(shí)的氣溫、氣壓、相對濕度、降水量、風(fēng)速5個(gè)氣象要素。將四季的氣象數(shù)據(jù)和空氣質(zhì)量數(shù)據(jù)繪制成曲線圖,如圖2和圖3所示,從圖中可以看出,每個(gè)季節(jié)的溫度變化相對穩(wěn)定,降雨量整體較少。
2.2 數(shù)據(jù)預(yù)處理
從圖2和圖3可見,各項(xiàng)氣象數(shù)據(jù)及空氣污染數(shù)據(jù)的量綱不等,且數(shù)值大小差異明顯,如氣壓的數(shù)值高達(dá)103,而風(fēng)速和降水量的數(shù)值只有101。為了避免不同因子之間量綱和數(shù)值大小的差異而產(chǎn)生模型訓(xùn)練誤差,必須對氣象數(shù)據(jù)和空氣質(zhì)量數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使處理后的數(shù)據(jù)分布在[0,1]之間,標(biāo)準(zhǔn)化公式如下:
2.3 各因素相關(guān)性分析
利用線型相關(guān)系數(shù)分析篩選和確定影響空氣污染物濃度的因子,根據(jù)篩選出的輸入因子訓(xùn)練和建立污染物預(yù)測模型。線型相關(guān)系數(shù)分析公式如下:
分析了2015—2016年每日24小時(shí)的氣象數(shù)據(jù)以及同期的空氣質(zhì)量監(jiān)測數(shù)據(jù),利用MATLAB對SO2、NO2、PM2.5和PM10 4項(xiàng)污染物因子與每日各氣象因子及昨日空氣質(zhì)量因子之間的相關(guān)性進(jìn)行分析,確定影響預(yù)測4項(xiàng)污染物的因子。通過分析,共有11項(xiàng)因子對模型預(yù)測相關(guān),各因子如表1所示:
以春季為例,借助MATLAB對數(shù)據(jù)進(jìn)行線型相關(guān)性分析,可得到SO2、NO2、PM2.5和PM10 4項(xiàng)污染物因子與各影響因子之間的相關(guān)系數(shù)矩陣,最終確定四個(gè)季節(jié)每種空氣污染物輸入因子如表2所示:
3 預(yù)測結(jié)果及分析
以春季訓(xùn)練結(jié)果為例,根據(jù)線型相關(guān)系數(shù)的分析,將SO2、NO2、PM2.5和PM10各項(xiàng)相關(guān)因子作為輸入,分別利用BP和RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并利用訓(xùn)練的網(wǎng)絡(luò)對2017年3月的24小時(shí)數(shù)據(jù)進(jìn)行預(yù)測,各項(xiàng)空氣污染物的實(shí)際檢測值和BP、RBF預(yù)測的濃度進(jìn)行比較,結(jié)果如圖4-7所示。
3.1 SO2兩種網(wǎng)絡(luò)模型預(yù)測結(jié)果
3.2 NO2兩種網(wǎng)絡(luò)模型預(yù)測結(jié)果
3.3 PM2.5兩種網(wǎng)絡(luò)模型預(yù)測結(jié)果
3.4 PM10兩種網(wǎng)絡(luò)模型預(yù)測結(jié)果
從圖中可以看出,兩種算法都較好地預(yù)測了空氣污染物的濃度。但是,BP神經(jīng)網(wǎng)絡(luò)預(yù)測誤差有高頻出現(xiàn),也就是有部分值存在較大的差別,而RBF神經(jīng)網(wǎng)絡(luò)則相對集中,誤差控制在一定范圍內(nèi),因此,RBF神經(jīng)網(wǎng)絡(luò)不僅減少了局部最優(yōu)解的出現(xiàn),而且也使預(yù)測準(zhǔn)確率得到了提升。
4 結(jié)論
在四季模型中,以春季模型為例,通過對BP和RBF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練對比發(fā)現(xiàn),RBF對于4種污染物預(yù)報(bào)精度都高于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)。由于RBF網(wǎng)絡(luò)可以任意精度逼近任意的非線性函數(shù),具有全局逼近能力,可以很好地克服BP神經(jīng)網(wǎng)絡(luò)局部最優(yōu)解的缺點(diǎn),同時(shí)通過RBF網(wǎng)絡(luò)的學(xué)習(xí)速率是不斷變化的,因此訓(xùn)練速度要比BP神經(jīng)網(wǎng)絡(luò)速度快。
雖然RBF具有比較高的預(yù)測精度,但是還是沒有達(dá)到理想的效果,后續(xù)我們將會(huì)對算法進(jìn)行優(yōu)化,或者尋求更好的算法來實(shí)現(xiàn)預(yù)測精度的提高。
參考文獻(xiàn):
[1] 趙宏,劉愛霞,王愷,等.環(huán)境空氣SO2和NO2濃度的GA_ANN預(yù)測模型研究.計(jì)算機(jī)工程與應(yīng)用,2010(8):199-201.
[2] Cobaner M, Citakoglu H,Kisi O, et al. Estimation of mean monthly air temperatures in Turkey[J].Computers and Electronics in Agricluture,2014(109):71-79.
[3] Westerlund J, Urbain J P, Bonilla J. Application of air quality combination forecasting to Bogota[J].Atmospheric Environment,2014(89):22-28.
[4] 楊曉帆,陳廷槐.人工神經(jīng)網(wǎng)絡(luò)固有的優(yōu)點(diǎn)和缺點(diǎn)[J].計(jì)算機(jī)科學(xué),1994(2):23-26.
[5] 石靈芝,鄧啟紅,路嬋,等.基于BP人工神經(jīng)網(wǎng)絡(luò)的大氣顆粒物PM10質(zhì)量濃度預(yù)測[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(5):1969-1974.