文 琴,羅 飛
(成都信息工程大學軟件工程學院,成都 610225)
熵在空氣質量指數(AQI)預測中的應用
文 琴,羅 飛
(成都信息工程大學軟件工程學院,成都 610225)
為了更準確地找出影響空氣質量指數的氣象因子與提高其預測精度,提出了基于熵、BP神經網絡和時間序列模型的組合預測模型。該方法利用增加了特征變量的轉移熵方法,得到影響AQI的氣象因子及其影響度,將得到的氣象因子與AQI實測值作為BP神經網絡的輸入因子和時間序列分析模型的特征因子,影響度作為BP神經網絡輸入因子的初始權重,構建BP神經網絡預測模型和時間序列分析預測模型,最后用熵值法組合各個預測模型的預測結果。實驗表明利用該方法對空氣質量指數進行預測可提高其預測精度。
空氣質量指數預測;轉移熵;熵值法
近年來城市空氣污染問題越來越嚴重,對自然環(huán)境和人民的生活帶來巨大沖擊,因此,建立科學的空氣質量指數預測模型尤為重要。開展空氣質量指數預測可以讓人們對影響空氣質量指數的因素以及未來城市空氣質量指數的變化有所了解和把握,為其出行提供健康指引,同時為政府相關部門制定空氣污染處理方案提供輔助材料。
張學文[1-2]給出了計算氣象要素場熵值的方法,同時認為開展熵氣象學研究可以為氣象學找出新的出路。在空氣質量指數預測的文獻中,用于分析影響空氣質量指數的氣象要素的方法主要有主成分分析[3]、統(tǒng)計對比分析[4]、統(tǒng)計和個例分析等。但是主成分分析主要是用于分析變量之間的線性關系,而大氣環(huán)境質量的預測和評價是一個多變量和非線性問題;統(tǒng)計對比分析會由于采集的數據集不同而導致最終得出不同的結論。因此,本文采用轉移熵方法找出影響AQI的氣象因子,在該方法中增加一個特征變量風場,因為在不同的風力風速情況下,氣象條件對空氣質量指數值的影響是不同的,即在考慮了影響AQI的主要因素風場的條件下再判斷其他氣象要素對AQI值的信息轉移。轉移熵[5]是能夠分析系統(tǒng)之間信息相互作用的一種有效工具,同時能夠解決非線性系統(tǒng)問題以及描述兩因素之間的相關度,這是因為在轉移熵的模型中考慮了系統(tǒng)之間的不對稱性以及動態(tài)特性。近年來轉移熵被廣泛應用于神經電信號與市場股票的時間序列分析研究中[6-7],并都取得了不錯的成果。
目前用于空氣質量指數的預測模型主要是時間序列分析模型和神經網絡模型。于萍[8]提出利用時間序列分析ARMA(1,1)模型對大連市未來10天的空氣質量進行預測,該模型短期預測較為準確,但一旦測試天數增加,預測結果可能會不穩(wěn)定。南亞翔[9]等人利用自回歸移動平均模型(ARMA算法)為卡爾曼濾波建立模型,提出將RBF神經網絡融合于卡爾曼濾波的方法,實現(xiàn)對空氣質量指數的混合預測,但卡爾曼濾波一般用于線性系統(tǒng)。王珍[10]提出采用因子分析法先將多指標進行降維,然后再用BP神經網絡模型進行綜合評價,而因子分析法是主成分分析法的推廣,這兩種分析方法均適用于線性關系的分析,但大氣環(huán)境質量的預測是一個非線性問題,用因子分析法可能會對預測結果造成一定的影響。祝翠玲[11]和郭慶春[12]等人將人工神經網絡應用到空氣質量預測及大氣污染預測中,由于每日空氣質量指數及污染物濃度呈非線性變化且受多種因素的影響,并且神經網絡具有較強的非線性處理能力和自學習能力,實驗表明將神經網絡模型用于空氣質量指數的預測,能夠提高預測結果的精度和正確率。為了準確地提取影響空氣質量指數的氣象因子,提出在考慮風場對污染物擴散影響的條件下再提取影響空氣質量指數的氣象因子。為了進一步提高空氣質量指數的預測精度,將時間序列分析模型與神經網絡預測模型的預測結果進行組合。
本文首先用轉移熵找出影響空氣質量指數的氣象要素,再用找出的氣象因子與實測空氣質量指數數據構建BP神經網絡預測模型與時間序列分析模型。然后用熵值法對BP神經網絡和時間序列分析模型的預測結果進行評價,確定各個預測模型的權重,將各個預測模型的預測結果進行組合。最終得到較單一預測模型更加準確的預測結果。
1.1 轉移熵在預測中的應用
...yn-l+1},定義轉移熵[13]:
(1)
其中,TY→X表示在考慮了時間序列Yn值的情況下,狀態(tài)Xn到狀態(tài)Xn+1的變化,即Xn到Xn+1的變化是否與因素Yn的值有關。在本文中Xn表示空氣質量指數的時間序列值,Yn表示要考察的某一個氣象因子的時間序列值。時間序列Yn到Xn的轉移熵,實際上是Yn傳遞給Xn的信息量。轉移熵的值越大,說明Yn傳遞給Xn的信息量越大,若轉移熵的值為0,說明Yn對Xn的變化沒有任何影響。本文將轉移熵用于氣象要素與空氣質量指數的因果關系分析,相關性分析。
(2)
(3)
為了更加準確地找出影響空氣質量指數的氣象因子,本文在使用轉移熵的同時,提出使用增加特征變量的轉移熵找影響空氣質量指數的主要氣象要素,公式中增加的特征變量為風場。
由于現(xiàn)有的提取影響空氣質量指數的氣象因子的方法如:統(tǒng)計分析方法與因子分析方法等沒有考慮風速和風向即風場因素對污染物擴散的影響,而空氣質量指數又是依據空氣中污染物濃度的高低判斷的,故會對預測的結果造成一定的影響。因為在不同的風速與風向情況下,各個氣象因子對污染物的擴散有變化。因此,在轉移熵公式中增加一個特征變量即影響污染物濃度的主要氣象因子風場的基礎上再考慮其他的氣象因子對空氣質量指數AQI的影響,這有利于提高預測結果的準確度。
增加了特征變量風場以后,轉移熵[14]的公式可以寫成:
(4)
式(4)中的時間序列Zn在本文中代表風場,式(4)在該預測中表示的含義是在考慮風場Zn的條件下,氣象要素Yn對空氣質量指數Xn的信息轉移熵。
1.2 熵值法在預測中的應用
為了克服單一預測模型的不準確,本文提出利用組合預測模型提高空氣質量指數的預測。組合預測模型中權重由熵值法確定。
在信息論中,熵是不確定性和無序性的度量,熵值的大小就代表不確定性大小,如果熵值小,則不確定性就小,那么所包含的信息量就越多;如果熵值大,則不確定性就大,那么所包含的信息量就越少,根據此特性,本文將熵值作為各個預測模型的預測精度的度量,用熵值法確定各個預測模型在組合預測中的權重,具體的方法如下[14]:
(1)日AQI數據序列為{xt,t=1,2,...,n},定義第i種預測模型第t時刻的相對誤差為eit(i=1,2,...,m,t=1,2,...,n)且eit∈[0,1],{eit,t=1,2,...,n}為第i種預測模型第t時刻預測相對誤差序列。
(2)將各個預測模型的預測相對誤差序列單位化,即計算第i種預測模型在第t時刻時的預測相對誤差的比重pit。
(3)計算各個預測模型的預測相對誤差的熵值,hi表示第i種預測模型的預測相對誤差的熵值。
其中k為常數且k>0,熵值。hi≥0,i=1,2,...,m。
對第i種預測模型而言,如果pit全部相等,即pit=1/n,t=1,2,...,n,那么hi取極大值,將pit=1/n帶入熵值公式得hi=kln(n),取k=1/ln(n)則hi的取值范圍為:0≤hi≤1。
(4)計算第i種預測模型的預測相對誤差序列的變異程度系數di,根據系統(tǒng)某項指標的熵值的大小與其變異程度相反的原則,定義第i種預測模型的預測相對誤差序列的變異程度系數di為:di=1-hi,i=1,2,...,m。
(5)設各種預測模型的加權系數為w1,w2,...,wm:
(6)計算組合預測值ft:
在大氣污染源不變的條件下,空氣質量指數的變化主要是由氣象條件所引起,如何準確地找出影響空氣質量指數變化的氣象要素至關重要。本文提出使用增加特征變量的轉移熵準確的找出影響空氣質量指數的氣象因子。再用找出的氣象因子與實測AQI數據構建BP神經網絡預測模型和時間序列分析模型。模型構建好了之后,用相應氣象要素數的數值預報數據歐洲細網格數據(ecmwf_thin)及當前AQI數據對未來空氣質量指數進行預報。最后用組合預測模型提高空氣質量指數的預測,組合預測模型中各個預測模型的權重由熵值法確定。具體的預測模型的建立步驟如下:
(1)首先用增加特征變量的轉移熵準確地找出影響空氣質量指數的氣象因子及其信息轉移熵。
(2)用找出的氣象因子及其信息轉移熵與當前實測的AQI值構建BP神經網絡預測模型和時間序列分析模型。
(3)預測模型構建好之后,用相應氣象要素數的數值預報數據即歐洲細網格數據(ecmwf_thin)及當前AQI數據對未來空氣質量指數進行預報。
(4)然后用熵值法將上述兩種模型的預測結果進行組合,即用組合預測的方式來提高預測的精度。
(5)預測結果評價。
3.1 數據來源
實驗采用的數據包括空氣質量指數數據和氣象要素數據??諝赓|量指數數據是成都市2016年10月~2017年1月公布的逐日實測AQI數據。用于訓練的氣象數據集采用成都市同期的實測氣象要素數據。用于預測的氣象要數數據采用歐洲細網格數據(ecmwf_thin)數值預報數據。
3.2 實驗分析
由于污染物的遷移傳輸需要一定的時間,故前日AQI對當日AQI有較大影響,因此前日AQI可以在一定程度上描述污染源的特征[15-17]。在污染源不變的條件下,污染物的擴散與沉降等能力和氣象條件有著十分重要的關系。
首先利用增加特征變量的轉移熵算法找出影響空氣質量指數的氣象要素,通過分析計算得出影響空氣質量指數的主要氣象要素及其信息轉移熵見表1。
表1 影響AQI的主要氣象因子及其信息轉移熵
用找出的影響空氣質量指數的氣象因子及其信息轉移熵與當前實測的AQI值構建空氣質量指數的BP神經網絡預測模型(模型1)和時間序列分析模型(模型2)。預測成都市2017年01月15日~2017年01月27日的AQI值。
用組合預測方法對空氣質量指數進行預測,組合預測方法的權重由熵值法確定。首先求出各個預測模型的相對誤差序列。再將相對誤差序列單位化。然后計算各個預測模型預測相對誤差的熵值hi和di,模型1的熵值h1=0.844 097 55和d1=0.155 902 45,模型2的熵值h2=0.841 761 8和d2=0.158 238 17。于是得到各個預測模型的權重wi,其中模型1的權重w1=0.503 717 634 478 470 2,模型2的權重w2=0.496 282 365 521 529 7。分別設模型1和模型2的預測值為PredictiveValue1和PredictiveValue2,最后得到組合預測模型(模型3)的表達式為:
ft=0.5037176344784702*PredictiveValue1+ 0.4962823655215297*PredictiveValue2
表2為成都市2017年01月15日~2017年01月27日的實測值以及預測模型的預測值。
表2 實測值及其預測值
本文采用平均絕對差(MAE)、均方差(MSE)、均方根差(RMSE)作為預測結果的誤差評價指標。誤差評價指標的取值范圍是0到正無窮大,當誤差指標值為0時,表示觀測值與預報完全一致,誤差指標值越小說明預報越精確。表3為三種模型預測結果的誤差指標值。
表3 誤差評價指標值
由表3可知,組合預測模型(模型3)的誤差評價指標值均低于其他兩個模型的值。因此組合預測模型的預測精度相比于其他兩個預測模型有所提高。
為了提高空氣質量指數預測的精確度,本文將信息論中的熵引入空氣質量指數預測的研究。首先采用增加了特征變量的轉移熵方法找出影響空氣質量指數的氣象因子,再用找出的氣象因子與實測AQI構建神經網絡預測模型和時間序列分析模型。然后將熵值法確定組合預測模型中各個預測模型的權重,將傳統(tǒng)單一預測模型轉為組合預測模型。本文將該方法用于預測成都市空氣質量指數的預測,實例結果表明該方法能提高預測精度。
[1] 張學文.相對分布函數和氣象熵[J].氣象學報,1986(2):88-93.
[2] 張學文,馬力.熵氣象學簡介[J].氣象,1995,21(1):52-56.
[3] 劉萍.基于主成分分析和多元線性回歸模型的空氣質量評價方法研究[D].昆明:云南大學,2015.
[4] 普映娟,王琳邦.保山城區(qū)空氣污染指數的時間序列分析[J].保山學院學報,2010,29(2):10-12.
[5] SCHREIBE T.Measuring information transfer[J].Phys Rev Lett,2000,85(2):461-464.
[6] 馬超飛.基于轉移熵的神經電信號分析研究[D].上海:華東理工大學,2013.
[7] 陳悅辰.基于轉移熵方法的市場有效性評價及不同系統(tǒng)性風險股票與收益率之間的信息流分析[D].北京:北京交通大學,2014.
[8] 于萍.時間序列分析在空氣質量指數(AQI)預測中的應用[D].大連:遼寧師范大學,2015.
[9] 南亞翔,李紅利,修春波,等.基于卡爾曼濾波的空氣質量指數預測方法[J].環(huán)境科學導刊,2016,35(3):80-84.
[10] 王珍.基于因子分析-BP神經網絡模型在空氣質量綜合評價中的應用[D].昆明:云南大學,2015.
[11] 祝翠玲,蔣志方,王強.基于B-P神經網絡的環(huán)境空氣質量預測模型[J].計算機工程與應用,2007,43(22):223-227.
[12] 郭慶春,何振芳,李力.人工神經網絡在大氣污染預測中的應用研究[J].工業(yè)儀表與自動化裝置,2012,17(4):18-22.
[13] 葉中行.信息論基礎[M].北京:高等教育出版社,2006.
[14] MONTALTO A,FAES L,MARINAZZO D.MuTE:A MATLAB Toolbox to Compare Established and Novel Estimators of the Multivariate Transfer Entropy[J].Plos One,2014,9(10):e109462.
[15] 陳華友.熵值法及其在確定組合預測權系數中的應用[J].安徽大學學報:自然科學版,2003,27(4):1-6.
[16] 周秀杰,蘇小紅,袁美英.基于BP網絡的空氣污染指數預報研究[J].哈爾濱工業(yè)大學學報,2004,36(5):582-585.
[17] 黎潔儀,梁之彥,楊國杰.廣州市空氣污染影響因子與預報建模[J].廣東氣象,2013,35(4):47-50.
Application of Entropy in Air Quality Index (AQI) Prediction
WENQin,LUOFei
(College of Software Engineering, Chengdu University of Information Technology, Chengdu 610225, China)
In order to accurately extract the meteorological factors that affect the air quality index and improve the prediction accuracy,a prediction model based on entropy,BP neural network and time series model is proposed.This method uses the information transfer entropy with the characteristic variables to obtain the characteristic factor and the specific influence degree.The obtained characteristic factor and measured values of AQI are used as the input factor of the BP neural network and the characteristic factors of the time series analysis model,the influence degree is the initial weight of the BP neural network,construct BP neural network and time series analysis model,finally,the results of each prediction model are composed by the entropy method.The experiment shows that the This method can improve the stability and the predict accuracy of the forecast of air quality index.
air quality index forecasting; transfer entropy; entropy method
2017-04-25
國家公益性行業(yè)(氣象)科研專項(GYHY201506025)
文 琴(1991-),女,四川成都人,碩士生,主要從事氣象信息化方面的研究,(E-mail)15928662936@163.com; 羅 飛(1977-),女,四川成都人,副教授,主要從事氣象信息化技術、數據集成與可視化方面的研究,(E-mail)luofei@cuit.edu.cn
1673-1549(2017)04-0096-05
10.11863/j.suse.2017.04.17
TP311
A