宗曉萍,武子瀚,劉言
(1.河北大學(xué)電子信息工程學(xué)院,河北保定 071002;2.河北大學(xué)-羅克韋爾自動化實驗室,河北保定 071002)
?
基于遺傳算法尋優(yōu)的SVR霧霾預(yù)測模型
宗曉萍1,2,武子瀚1,劉言1
(1.河北大學(xué)電子信息工程學(xué)院,河北保定071002;2.河北大學(xué)-羅克韋爾自動化實驗室,河北保定071002)
針對霧霾天氣愈發(fā)嚴重及難以預(yù)測的問題,提出一種以GA(遺傳算法)優(yōu)化支持向量回歸機(SVR)參數(shù)的預(yù)測模型.首先利用因子分析對氣象因子降維,然后再通過GA對SVR的參數(shù)尋優(yōu),并把最優(yōu)參數(shù)帶入SVR模型,對保定PM2.5濃度進行預(yù)測.對比參數(shù)模型的預(yù)測結(jié)果,為霧霾預(yù)測選出一種新的模型.
PM2.5預(yù)測; SVR; 因子分析; GA
霧霾是發(fā)生在大氣近地面層中的一種災(zāi)害天氣,會對人民的正常生活產(chǎn)生影響.同時,霧霾發(fā)生在近地層,使得大氣污染增強,空氣質(zhì)量下降,對人體健康造成嚴重危害[1].中國工程院院士鐘南山指出,霧霾不但影響呼吸系統(tǒng),而且對心血管、腦血管、神經(jīng)系統(tǒng)等也有著嚴重的危害[2].
中央氣象臺首席預(yù)報員馬學(xué)款指出,霧霾是可以預(yù)測的,然而提高預(yù)測的準確率是一個難題,主要原因是:霧霾多發(fā)生在大氣淺層,地表復(fù)雜的條件,眾多的影響因素,使得準確預(yù)測難度很大[3].
建立合理的預(yù)測模型是霧霾預(yù)測的基礎(chǔ),支持向量回歸機(SVR)在解決小樣本、非線性問題中表現(xiàn)出獨特優(yōu)勢.本文通過對保定市PM2.5例證,探討支持向量回歸方法應(yīng)用于PM2.5預(yù)測的可行性[4].
1.1支持向量回歸機基本原理
支持向量回歸機(SVR)是Vapnik開發(fā)的基于統(tǒng)計學(xué)習(xí)理論的新一代機器學(xué)習(xí)技術(shù)[5],能夠較好地解決小樣本、非線性、高維數(shù)和局部極小點等實際問題,并成功應(yīng)用于分類、回歸、時間序列預(yù)測等領(lǐng)域[6-8].
支持向量機基思想如圖1所示.圖中空心圓和叉是2類樣本,H∶ωTx+b=0是它們之間的分類超平面,H1∶ωTx+b=-1,H2∶ωTx+b=1分別是過各類樣本中距離H最近的超平面 ,分類間隔為Δ.
圖1 支持向量機基本原理Fig.1 Basic principles of SVM
對上式求最優(yōu)解,即可得到最優(yōu)分類超平面.支持向量回歸算法本質(zhì)上和分類一樣,只不過所求的最優(yōu)超平面并非間隔最大化,而是滿足分類偏差最小的超平面.
支持向量機的關(guān)鍵在于核函數(shù).不同的核函數(shù)會導(dǎo)致SVR推廣性不同,根據(jù)具體的數(shù)據(jù)選擇恰當?shù)暮撕瘮?shù)十分重要,以下經(jīng)驗規(guī)則可以借鑒:如果特征數(shù)遠小于樣本數(shù)的情況下,一般使用RBF.根據(jù)已選定的樣本與特征因子,選用RBF作為核函數(shù).
以RBF為核函數(shù)的SVR中懲罰參數(shù)C和RBF核參數(shù)g是提高模型推廣能力的重要參數(shù)[9].懲罰參數(shù)C和RBF核參數(shù)g的優(yōu)化便成為提高模型精度的關(guān)鍵.
1.2遺傳法算
遺傳算法將求解的問題表示為染色體,進而構(gòu)成染色體一群,根據(jù)優(yōu)勝劣汰的原則,從中選擇出適應(yīng)性強的染色體進行復(fù)制、交叉、變異操作,產(chǎn)生出更優(yōu)的染色體群,一代的群體通過以上的過程不斷地進化,最后收斂于一個最能適應(yīng)環(huán)境的個體上,得到最優(yōu)解[10-11].
由于使用了Matlab的GA工具箱:SGA采用二進制編碼,SGA適應(yīng)度函數(shù)為FitnV=ranking(-ObjV),交叉折疊數(shù)V為5,進化代數(shù)maxgen為200,種群范圍sizepop為20,C取值范圍(0,500),g取值范圍(0,1 000),代溝gap為0.9.
2.1氣象因子的選取
鑒于本文中主要針對PM2.5的時間序列特性進行SVR建模與預(yù)測.考慮數(shù)據(jù)統(tǒng)一性與驗證方法的普適化主要選取了保定市2013年12月1日—2015年3月14日的溫度、露點、濕度、氣壓、風(fēng)速、PM2.5、降水等氣象因子樣本.所選取數(shù)據(jù)來自中國天氣網(wǎng)和國家環(huán)保部數(shù)據(jù)中心.由于網(wǎng)絡(luò)問題等原因,原始數(shù)據(jù)中存在著一定的數(shù)據(jù)缺失.對于連續(xù)長度不超過5 h的數(shù)據(jù)缺失,采用線性插值的方法對缺失數(shù)據(jù)進行補充.對于更長時間(>5 h)的數(shù)據(jù)缺失則對該段舍去,通過求原序列中最大連續(xù)子串來獲得連續(xù)的數(shù)據(jù).保定市的PM2.5數(shù)據(jù)經(jīng)提取之后分別含有3.65%的缺失數(shù)據(jù),經(jīng)過上述處理后所使用的數(shù)據(jù)具有可信度.
趙晨曦[12]研究發(fā)現(xiàn)PM2.5的質(zhì)量濃度與氣溫、相對濕度、風(fēng)速、氣壓、水汽凝結(jié)點(露點)[3]等氣象因子有一定的相關(guān)性.
2.1.1氣象因子相關(guān)性分析
為了提高訓(xùn)練效率,減少相關(guān)性弱的因子對預(yù)測的干擾,采用因子分析法對氣象因子降維.因子分析主要研究相關(guān)陣和協(xié)方差陣的內(nèi)部依賴關(guān)系,將多個變量轉(zhuǎn)化為幾個因子,從而達到再現(xiàn)原始數(shù)據(jù)和因子之間關(guān)系的目的[13-14].而在主從分析法中,新變量維數(shù)與原始變量維數(shù)相同沒有達到降維的目的,不符合要求.
使用統(tǒng)計軟件IBM SPSS因子分析功能,可以生成相關(guān)系數(shù), KMO檢驗表格.直觀的描述了樣本之間的相關(guān)性,比較了樣本的簡單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標.
表1 對樣本進行因子分析得出的相關(guān)性Tab.1 Correlation table of factor analysis form sample
分析結(jié)果表明:PM2.5在數(shù)值上與溫度、氣壓、相關(guān)性較小,與濕度、露點、風(fēng)速相關(guān)性較大,故選取相關(guān)性較大的氣象因素作為訓(xùn)練樣本.去綱量化的氣壓相關(guān)性提升較大,選做輸入因子.
2.1.2對訓(xùn)練樣本進行KMO檢驗
使用SPSS對氣象因子進行KMO檢驗,訓(xùn)練樣本的 Kaiser-Meyer-Olkin 度量為0.759.
檢驗結(jié)果表明:KMO為0.759,KMO>0.7表示較適合做因子分析,變量偶對之間的相關(guān)性能被其他變量解釋,可以做因子分析.
2.2PM2.5預(yù)測主要步驟
Step1:數(shù)據(jù)預(yù)處理,將原始數(shù)據(jù)降維,并將篩選后的數(shù)據(jù)進行歸一化處理.
Step2:遺傳算法對懲罰參數(shù)C和RBF核參數(shù)g尋優(yōu).
Step3:利用最優(yōu)參數(shù)訓(xùn)練SVR.
圖2SVR參數(shù)尋優(yōu)流程
Fig.2SVR parameter optimization process table
Step4:利用訓(xùn)練好的數(shù)學(xué)模型,進行預(yù)測.
Step5:將保定市2015年3月15日的氣象信息輸入模型,對比PM2.5預(yù)測值與實際值.
使用遺傳算法對SVR參數(shù)尋優(yōu)流程圖如圖2.
2.3遺傳算法對SVR模型參數(shù)尋優(yōu)
將保定市2013年12月1日—2015年3月14日的氣象資料帶入模型訓(xùn)練進行參數(shù)尋優(yōu),適應(yīng)度曲線如圖3所示.
圖3 遺傳算法優(yōu)化適應(yīng)度曲線Fig.3 GA method optimization fitness curve
圖4 遺傳算法尋優(yōu)預(yù)測對比Fig.4 Contrast map of GA method optimization and prediction
3.1預(yù)測實驗
使用遺傳算法獲得的懲罰參數(shù)C和核函數(shù)參數(shù)g,輸入SVR得到預(yù)測模型,將3月15日的氣象因子輸入預(yù)測模型,得到3月15日PM2.5 24 h內(nèi)的變化曲線.圖4為實際數(shù)據(jù)與預(yù)測數(shù)據(jù)對比圖.
3.2實驗結(jié)果分析
圖4是預(yù)測模型得出的PM2.5預(yù)測值和PM2.5實際值的對比圖.SVR與遺傳算法結(jié)合后能較好地捕捉PM2.5與特征向量之間的非線性關(guān)系.實驗結(jié)果表明:PM2.5預(yù)測值與PM2.5實際值雖然存在一定的誤差,但是整體曲線擬合度比較高,而且預(yù)測曲線變化趨于平緩 (圖4,2∶00—11∶00).遇到PM2.5出現(xiàn)較大波動時,預(yù)測曲線十分敏感(圖4,11∶00—14∶00),預(yù)測曲線能夠更快地響應(yīng)實際曲線的變化,具有較好的跟蹤性.在PM2.5曲線緩慢上升時(圖4,14∶00—20∶00),預(yù)測曲線與實際曲線有一定誤差,但是增長率相似.就總體而言,在PM2.5的實際曲線保持平穩(wěn)或較穩(wěn)定的變化時預(yù)測曲線幾乎與實際曲線保持平行,表現(xiàn)出較好的擬合性,在PM2.5的實際曲線出現(xiàn)劇烈波動時,預(yù)測曲線能夠快速的響應(yīng)變化,表現(xiàn)出較好的跟隨性.
1)針對霧霾天氣愈發(fā)嚴重及難以準確預(yù)測的問題,本文通過使用SVR與遺傳算法的結(jié)合對保定市2015年3月15日PM2.5變化曲線進行預(yù)測,通過上圖中PM2.5預(yù)測值與實際值的對比得出結(jié)論:SVR與遺傳算法參數(shù)尋優(yōu)結(jié)合組成的模型對PM2.5預(yù)測有較好的效果.2)由于使用數(shù)據(jù)為PM2.5實時值,并且具有較大的綱量,把 MSE作為預(yù)測結(jié)果的評價標準不太準確.所以本文中使用點線圖作為對比,較直觀地展示出預(yù)測結(jié)果.3)通過實例證實SVR對PM2.5的預(yù)測,精度較高,跟隨性較好.4)由于資料所限對于氣象因子的選取有一定局限性,忽略了下墊面及中低層環(huán)流[15]等因素對霧霾的生成的影響,因此添加更加合理的輸入因子,是模型提高預(yù)測準確性的主要改進方向.
[1]張人禾,李強,張若楠.2013年1月中國東部持續(xù)性強霧霾天氣產(chǎn)生的氣象條件分析[J].中國科學(xué):地球科學(xué),2014,44(1):27-36.DOI:10.1007/s11430-013-4774-3.
ZHANG Renhe,LI Qiang,ZHANG Ruonan.Meteorological conditions for the persistent severe fog and haze event over eastern China in January 2013[J].Science China:Earth Sciences,2014,44(1):27-36.DOI:10.1007/s11430-013-4774-3.
[2]楊卓森.霧霾污染致人體健康效應(yīng)的研究進展[J].職業(yè)與健康,2014,30(17):2517-2520.
YANG Zhuosen.Research progress of haze pollution induced health effects in humans[J].Occupation and Health,2014,30(17):2517-2520.
[3]謝忠軍.霾預(yù)報,世界級“疑難雜癥”[N].中國氣象報,2013-02-14 (1).
[4]常濤.支持向量機在大氣污染預(yù)報中的應(yīng)用研究[J].氣象,2006,32(12):61-65.
CHANG Tao.Application of support vector machine to atmospheric pollution Prediction[J].Meteorological Monthly,2006,32(12):61-65.
[5]RALAIVOLA L,D’ALCHE-BUC F.Incremental support vector machine learning:a local approach[Z].International Conference on Neural Networks,Vienna Austria,2001.
[6]鄧乃揚,田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機[M].北京:科學(xué)出版社,2006:224-235.
[7]李國正,王猛,曾華軍.支持向量機導(dǎo)論[M].北京:電子工業(yè)出版社,2005:98-105.
[8]白鵬,張喜斌,張斌,等.支持向量機理論及工程應(yīng)用實例[M].西安:西安電子科技大出版社,2008:41-55.
[9]林升梁,劉志.基于RBF核函數(shù)的支持向量機參數(shù)選擇[J].浙江工業(yè)大學(xué)學(xué)報,2007,35(2):163-167
LIN Shengliang,LIU Zhi.Parameter selection in SVM with RBF kernel function [J].Journal of Zhejiang University of Technology,2007,35 (2):163-167.
[10]馬永杰,云文霞.遺傳算法研究進展[J].計算機應(yīng)用研究,2012,29(4):1201-1210.
MA Yongjie,YUN Wenxia.Research progress of genetic algorithm[J].Application Research of Computers,2012,29(4):1201-1210.
[11]蔡自興.人工智能及其應(yīng)用[M].北京:清華大學(xué)出版社,2007:249-283.
[12]趙晨曦,王云琦,王玉杰,等.北京地區(qū)冬春 PM 2.5 和 PM 10 污染水平時空分布及其與氣象條件的關(guān)系[J].環(huán) 境 科 學(xué),2014,35(2):418-427.
ZHAO Chenxi,WANG Yunqi,WANG Yujie,et al.Temporal and spatial distribution of PM2.5 and PM10 pollution status and the correlation of particulate matters and meteorological factors during winter and spring in Beijing [J].Environmental Science,2014,35 (2):418-427.
[13]林海明.因子分析應(yīng)用中一些常見問題的解析[J].統(tǒng)計與決策,2012,8(15):65-69.
LIN Haiming.Analysis of factor analysis of some common problems in the application [J].Statistics and Decision,2012,8(15):65-69.
[14]周全.幾種多元統(tǒng)計分析方法及其在生活中的應(yīng)用[D].武漢:長江大學(xué),2012.
ZHOU Quan.The intorduction.of several multivariate statistical method and lts application [D].Wuhan:Yangtze University,2012.
[15]陳瑞敏,吳雁,康文英,等.連續(xù)霧霾天氣污染物濃度變化及天氣形勢特征分析 [J].氣候與環(huán)境研究 ,2014,19(2):209-218.DOI:10.3878/j.issn.1006-9585.2014.13156.
CHEN Ruimin,WU Yan,KANG Wenying,et al.Analysis of pollutant concentrations and characteristics of continuous smoggy weather [J].Climatic and Environmental Research,2014,19 (2):209-218.DOI:10.3878/j.issn.1006-9585.2014.13156.
(責任編輯:孟素蘭)
Optimization SVR fog prediction model based on genetic algorithm
ZONG Xiaoping1,2,WU Zihan1,LIU Yan1
(Electronic Information Engineering College,Hebei University,Baoding 071002,China) (Hebei University-Rockwell Automation Laboratory,Baoding 071002,China)
To perform smog forecast,this paper puts forward a model,which is based on support vector regression (SVR) method and GA method.The first eigenvector dimension is reduced using factor analysis,and the SVR parameters are optimized through the GA method,and put into the SVR model for the prediction of the PM2.5 value of the city of Baoding.Through comparison, an optimized prediction model is obtained.
PM2.5 forecast; SVR; factor analysis; GA method
10.3969/j.issn.1000-1565.2016.03.014
2015-05-13
國家自然科學(xué)基金資助項目 (11271106)
宗曉萍(1964-),女,河北蔚縣人,河北大學(xué)教授,主要從事模式識別、智能控制及混合動態(tài)系統(tǒng)、機器人視覺伺服控制方向研究.E-mail:769085906@qq.com
武子瀚(1988—),男,河北張家口人,河北大學(xué)在讀碩士研究生.E-mail:543308335@qq.com
TP183
A
1000-1565(2016)03-0307-05