柳 春,李四海,魏邦龍
(1.甘肅中醫(yī)學(xué)院 信息工程學(xué)院,蘭州 730000;2.蘭州城市學(xué)院 信息工程學(xué)院,蘭州 730070)
近年來,小波分析及BP神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于大氣污染物濃度時間序列的分析和預(yù)測。通過對空氣污染指數(shù)時間序列進行連續(xù)小波變換,依據(jù)小波模極大值理論,可以發(fā)現(xiàn)序列的長期趨勢性及局部波動性和隨機性[1]。BP神經(jīng)網(wǎng)絡(luò)[2]具有很強的自學(xué)習(xí)及非線性映射能力,可用于建立氣象因子與大氣污染物SO2、NOx、可吸入顆粒物PM10等之間的非線性映射[3-6]。但是單純以氣象因子作為網(wǎng)絡(luò)輸入,并沒有很好地挖掘時間序列本身的有用信息,導(dǎo)致在時間序列非平穩(wěn)階段的預(yù)測精度不高,并且由于BP網(wǎng)絡(luò)本身采用梯度下降學(xué)習(xí)算法,容易陷入局部極小,網(wǎng)絡(luò)的訓(xùn)練誤差和泛化能力無法很好地平衡,這些問題將導(dǎo)致使用BP網(wǎng)絡(luò)預(yù)測污染物濃度時其結(jié)果并不穩(wěn)定。
LS-SVM是建立在標準支持向量機之上的一種小樣本機器學(xué)習(xí)方法,具有堅實的理論基礎(chǔ),能夠在經(jīng)驗風(fēng)險和結(jié)構(gòu)風(fēng)險之間取得平衡,泛化能力好,預(yù)測結(jié)果穩(wěn)定。首先使用小波分解充分挖掘時間序列本身的趨勢性和波動性信息,提取時間序列在不同小波尺度下的高低頻信息;然后以各尺度上的小波系數(shù)單支重構(gòu)序列和重要的氣象因子作為最小二乘支持向量機的輸入,對蘭州地區(qū)的空氣污染指數(shù)進行實例預(yù)報,結(jié)果顯示,該模型在預(yù)測精度及穩(wěn)定性方面均明顯好于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)。
蘭州位于青藏高原東北邊緣,地處南北兩山夾峙之中,市區(qū)海拔1 518m,兩山相對高度300~600 m,構(gòu)成啞鈴型河谷盆底,特殊的地形條件使其一直以來空氣污染嚴重,主要原因在于低空脫地逆溫和貼地逆溫年發(fā)生頻率高、貼地逆溫層厚度年均564m,脫地逆溫層底的年均相對高度為1 527m,這對空氣污染物的擴散產(chǎn)生不利影響[7]。
研究表明[8],靜風(fēng)、逆溫是構(gòu)成蘭州大氣污染的基礎(chǔ)原因。空氣污染指數(shù)通常是根據(jù)SO2、NO2、PM10的濃度計算得出,這3種污染物濃度與平均風(fēng)速、平均溫度呈負相關(guān),與相對濕度呈正相關(guān)[9]。
小波分析是通過一個基本小波的伸縮和平移構(gòu)成一系列小波函數(shù)用于對信號進行多尺度逼近和分析。小波變換具有良好的時頻局部化能力,信號在小波域上將被分解為任意系列頻帶的直和,小波變換享有信號處理的“數(shù)學(xué)顯微鏡”美譽。小波具有許多良好的性質(zhì),如消失矩、正交性等,小波變換主要用于信號去噪、信號壓縮及特征抽取。離散小波變換在處理波動性較大的離散序列時十分有效[10]。
設(shè)信號f(t)在Vj空間中的離散采樣序列為f(k),k=0,1,2,…,n-1,則 Mallat小波分解算法為:
其中,和分別為信號的低頻和高頻部分,h(n)和g(n)分別為低通濾波器H和高通濾波器G的系數(shù),且
Mallat重構(gòu)算法為:
LS-SVM是Suykens等人在標準支持向量機的基礎(chǔ)上提出的一種機器學(xué)習(xí)方法,通過將標準支持向量機中的損失函數(shù)設(shè)為誤差的二次項,將不等式約束設(shè)為等式約束后,將二次規(guī)劃問題轉(zhuǎn)化為求解線性KKT方程組,這樣就降低了參數(shù)優(yōu)化的難度,提高了模型的適應(yīng)性和精度,拓展了支持向量機的應(yīng)用空間[11-12]。
設(shè)訓(xùn)練樣本為:
通過非線性映射函數(shù)φ(·)將樣本映射到高維特征空間進行線性回歸:
其中,w為權(quán)值向量,b為偏置量。
根據(jù)結(jié)構(gòu)風(fēng)險最小化原則,并注意到最小二乘支持向量機的損失函數(shù)為誤差ξ的二次項,故優(yōu)化問題為:
其中,γ為正則化參數(shù)。使用拉格朗日乘子法將上述問題轉(zhuǎn)化為無約束對偶空間優(yōu)化問題并根據(jù)優(yōu)化條件,可得:
根據(jù) Mercer條件,定義核函數(shù):K(xi,xj)=φ(xi)·φ(xj)。
將式(2)的優(yōu)化問題轉(zhuǎn)化為求解線性方程組:
最后得到LS-SVM回歸方程為:
常用的核函數(shù)有徑向基核函數(shù):
選用db3小波,使用Matlab R2009中的小波工具箱對2011-04-21—2012-04-20的蘭州地區(qū)空氣污染指數(shù)序列進行三層小波分解,根據(jù)分解得到的小波系數(shù)對原始信號進行單支重構(gòu),得到原始序列的單支重構(gòu)序列{a3,d3,d2,d1},其中a3為低頻子序列,是原始序列的近似,反映了空氣污染指數(shù)的長期變化趨勢;d3,d2,d1是高頻子序列,是原始序列的細節(jié),反映了空氣污染指數(shù)在不同“焦距”下的波動性。小波分解的結(jié)果如圖1所示。
圖1 原始時間序列的小波分解
取2011-04-21—2012-04-20氣象數(shù)據(jù)中的前一日空氣污染指數(shù)、最高溫度、最低溫度、平均風(fēng)速、相對濕度及小波單支重構(gòu)序列{a3,d3,d2,d1}作為最終輸入,共9個輸入,以空氣污染指數(shù)為最終輸出,模型結(jié)構(gòu)如圖2所示。
實驗平臺為 LSSVMlabv1_8[13]及 Matlab R2009,核函數(shù)選用徑向基核函數(shù)。2011-04-21—2012-04-20日的數(shù)據(jù)作為訓(xùn)練樣本,訓(xùn)練樣本的輸入X為366×9矩陣,輸出Y為366×1向量,將數(shù)據(jù)按維度歸一化至[-1,1]。
基于徑向基核函數(shù)的LS-SVM的預(yù)測性能與正則化參數(shù)γ及核函數(shù)寬度σ密切相關(guān),參數(shù)優(yōu)化方法主要有網(wǎng)格搜索法、遺傳算法及粒子群算法。本文使用網(wǎng)格搜索法進行參數(shù)尋優(yōu),具體流程如圖3所示。
圖2 LS-SVM結(jié)構(gòu)圖
經(jīng)過網(wǎng)格搜索法尋優(yōu)后,得到最優(yōu)的γ=740,σ=20,建立并訓(xùn)練LS-SVM模型。部分代碼如下:
圖3 網(wǎng)格搜索法對LS-SVM參數(shù)尋優(yōu)流程圖
將2012-04-21—06-17日的58個樣本作為測試樣本,使用LS-SVM模型進行測試,測試結(jié)果如圖4所示。
由于特殊的地形條件,蘭州地區(qū)的空氣污染冬重夏輕的特點明顯,且由于春季多出現(xiàn)浮塵天氣,往往伴隨春季污染指數(shù)的次高峰。從圖4可以看出,2012-04-21—04-30日污染指數(shù)波動較大,其余階段較為平穩(wěn)。分析該階段的氣象因素,由于自23日凌晨起蘭州地區(qū)出現(xiàn)首次區(qū)域性沙塵暴天氣,致使連續(xù)幾天污染指數(shù)較高,到27日凌時污染指數(shù)到達250,為重度污染。自5月開始,污染指數(shù)逐步進入平穩(wěn)階段。
圖4 LS-SVM和BP網(wǎng)絡(luò)測試結(jié)果對比
從LS-SVM的預(yù)測精度看,對58個點的精度都很高,最大相對誤差僅為3.66%。從穩(wěn)定性來看,LS-SVM的穩(wěn)定性相當好,連續(xù)運行多次,結(jié)果不會發(fā)生變化。原因在于LS-SVM通過對訓(xùn)練樣本的學(xué)習(xí),能夠得到一組穩(wěn)定、最優(yōu)的訓(xùn)練樣本參數(shù)αi及偏置量b,通過這些參數(shù)及訓(xùn)練樣本能夠得到未知樣本與給定參數(shù)相對應(yīng)的預(yù)測結(jié)果。
為進一步比較驗證LS-SVM模型的優(yōu)越性,建立了BP神經(jīng)網(wǎng)絡(luò)的預(yù)測模型。以最高溫度、最低溫度、平均風(fēng)速、相對濕度4個氣象因子及前一日污染指數(shù)作為輸入,網(wǎng)絡(luò)結(jié)構(gòu)為5-13-1,各層傳遞函數(shù)為sigmoid函數(shù),采用traingdx算法進行學(xué)習(xí),誤差設(shè)為0.001,學(xué)習(xí)率lr=0.015。使用訓(xùn)練好的BP網(wǎng)絡(luò)對相同的58個測試樣本進行預(yù)測,兩種模型的測試結(jié)果對比如圖4所示。
對比發(fā)現(xiàn),LS-SVM模型能夠準確反映序列的總體變化趨勢,BP網(wǎng)絡(luò)僅能反映序列在平穩(wěn)階段的變化趨勢。對比兩種模型的預(yù)測精度,BP神經(jīng)網(wǎng)絡(luò)預(yù)測精度較好的階段集中在時間序列的平穩(wěn)階段,但在時間序列波動較大的階段,預(yù)測精度較差,這是由于網(wǎng)絡(luò)需要設(shè)置的參數(shù)較多且最佳隱層單元數(shù)不易確定,模型推廣能力不高,穩(wěn)定性不好,更重要的原因在于沒有充分挖掘有限樣本中的趨勢性及波動性信息,輸入中缺少序列本身的變化信息。LS-SVM模型的輸入中包含原始序列的低頻及高頻信息,低頻序列能夠表現(xiàn)空氣污染指數(shù)序列的長期變化趨勢,各尺度上的高頻子序列則反映了空氣污染指數(shù)序列的波動性,從模型結(jié)構(gòu)分析,由于LS-SVM模型只需根據(jù)訓(xùn)練樣本對正則化參數(shù)γ及核函數(shù)寬度σ進行尋優(yōu),參數(shù)設(shè)置少,模型使用簡單。綜合來看,LS-SVM模型預(yù)測精度高,泛化能力好、穩(wěn)定性高。將兩種模型各連續(xù)運行100次,表1對比了兩種模型的性能,其中MAE為平均絕對誤差,MSE為均方誤差。從表1可以看出,與BP神經(jīng)網(wǎng)絡(luò)相比,LS-SVM模型具有更高的預(yù)測精度及更好的穩(wěn)定性。
表1 BP神經(jīng)網(wǎng)絡(luò)和LS-SVM仿真結(jié)果對比
本文基于BP神經(jīng)網(wǎng)絡(luò)預(yù)測空氣污染指數(shù)時在時間序列的非平穩(wěn)階段預(yù)測精度低、網(wǎng)絡(luò)收斂速度慢且泛化能力較差,提出了LS-SVM預(yù)測模型并對模型參數(shù)進行了尋優(yōu)。通過對空氣污染指數(shù)的仿真實驗,表明該模型對空氣污染指數(shù)的所有階段均具有較高的預(yù)測精度和穩(wěn)定性,將該模型用于空氣污染指數(shù)預(yù)報是可行的。基于改進的支持向量機及各種智能算法對正則化參數(shù)γ和核函數(shù)寬度σ進行優(yōu)化[14-17],進一步提高LS-SVM模型的預(yù)測精度及穩(wěn)定性將是下一步的研究方向。
[1]王海鵬.基于小波變換的蘭州市近十年空氣污染指數(shù)變化[J].環(huán)境科學(xué)學(xué)報,2011,31(5):1071-1076.
[2]鄒麗娜,丁茜.基于BP算法的成績預(yù)測模型[J].沈陽師范大學(xué)學(xué)報:自然科學(xué)版 ,2011,29(2):226-229.
[3]郭慶春,何振芳,寇立群,等.BP神經(jīng)網(wǎng)絡(luò)在北京市 API預(yù)報中的應(yīng)用[J].環(huán)境工程,2011,29(4):106-108.
[4]王儉,胡筱敏,鄭龍熙,等.基于BP模型的大氣污染預(yù)報方法的研究[J].環(huán)境科學(xué)研究,2002,15(5):62-64.
[5]張靜,李旭祥,許先意,等.大氣環(huán)境數(shù)據(jù)分析預(yù)測方法對比研究[J].中國環(huán)境監(jiān)測,2010,26(6):66-70.
[6]王芳,程水源,李明君,等.遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)用于大氣污染預(yù)報[J].北京工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2009,35(9):1230-1234.
[7]姜大膀,王式功,郎咸梅,等.蘭州市區(qū)低空大氣溫度層結(jié)特征及其與空氣污染的關(guān)系[J].蘭州大學(xué)學(xué)報:自然科學(xué)版,2001,37(4):133-139.
[8]高建華.蘭州市大氣污染規(guī)律及治理對策[J].西安石油學(xué)院學(xué)報:自然科學(xué)版,2003,18(4):85-88.
[9]周秀杰,蘇小紅,袁美英.基于BP網(wǎng)絡(luò)的空氣污染指數(shù)預(yù)報研究[J].哈爾濱工業(yè)大學(xué)學(xué)報,2004,36(5):582-585.
[10]王西鋒,高嶺,張曉孿.基于小波技術(shù)的網(wǎng)絡(luò)流量分析和預(yù)測[J].計算機應(yīng)用與軟件,2008,25(8):70-72.
[11]周子英,段建南,李萍,等.基于最小二乘支持向量機的耕地面積預(yù)測研究[J].計算機應(yīng)用研究,2012,29(3):873-876.
[12]李文莉,李郁俠.基于粒子群最小二乘支持向量機的水文預(yù)測[J].計算機應(yīng)用,2012,32(4):1188-1190.
[13]BRABANTER K D,KARSMAKERS P,OJEDA F,ALZATE C,et al.LS-SVMlab Toolbox User's Guide[EB/OL].[2011-08-09].http:∥www.esat.kuleuven.be/sista/lssvmlab.
[14]張豪,羅亦泳,張立亭,等.基于遺傳算法最小二乘支持向量機的耕地變換預(yù)測[J].農(nóng)業(yè)工程學(xué)報,2009,25(7):226-231.
[15]楊紅,羅飛,許玉格,等.基于混沌優(yōu)化的LS-SVM 非線性預(yù)測控制方法[J].計算機工程與應(yīng)用,2010,46(5):229-232.
[16]徐勇,張廣輝,錢鋒.基于改進克隆選擇算法的最小二乘支持向量機[J].華東理工大學(xué)學(xué)報:自然科學(xué)版,2008,34(5):729-733.
[17]毛曉娟,何小陽,溫偉峰.一種改進的最小二乘支持向量機軟測量建模方法[J].自動化儀表,2011,32(5):39-45.