劉 微 陳福集
(福州大學(xué)經(jīng)濟(jì)與管理學(xué)院, 福建福州 350108)
環(huán)境污染問題已成為全球面臨的重大挑戰(zhàn),特別是大氣污染方面,霧霾問題嚴(yán)重影響社會(huì)發(fā)展和人類身體健康。即使在濃度相對(duì)低的情況下,具有危害性的大氣顆粒物也會(huì)對(duì)人類健康和生態(tài)系統(tǒng)造成嚴(yán)重的破壞,尤其是由細(xì)小顆粒組成的PM2.5(指環(huán)境空氣中空氣動(dòng)力學(xué)當(dāng)量直徑小于2.5μm的顆粒物,也稱細(xì)顆粒物)可以更深入滲透到人類呼吸系統(tǒng)中(1)Dockery D.W., Pope C.A.,“Acute Respiratory Effects of Particulate Air Pollution”,Annual Review of Public Health, vol.15,no.1(1994),pp.107-132.,增加人們罹患心血管和肺部疾病的風(fēng)險(xiǎn)(2)Turner M. C., Krewski D., III Pope C.A., et al.,“Long-term ambient fine particulate matter air pollution and lung cancer in a large cohort of never-smokers”,American Journal of Respiratory & Critical Care Medicine, vol.184,no.12(2011),pp.1374-1381.。因此,空氣中PM2.5的濃度一直是全球關(guān)注的焦點(diǎn),掌握其變化規(guī)律并預(yù)測(cè)未來一段時(shí)間內(nèi)的PM2.5濃度,具有重要的現(xiàn)實(shí)意義。
PM2.5來源較為復(fù)雜,如燃煤、揚(yáng)塵、汽車尾氣、工業(yè)污染等(3)伯鑫、徐峻、杜曉惠,等:《京津冀地區(qū)鋼鐵企業(yè)大氣污染影響評(píng)估》,《中國(guó)環(huán)境科學(xué)》2017年第5期。,特別是在我國(guó)的較大城市,機(jī)動(dòng)車排放是PM2.5的首要來源。(4)中華人民共和國(guó)生態(tài)環(huán)境部:《中國(guó)機(jī)動(dòng)車環(huán)境管理年報(bào)》,2018年。而影響PM2.5濃度的因素眾多,主要包括氣象因素(如大氣壓強(qiáng)、相對(duì)濕度、溫度、風(fēng)速、風(fēng)向、累計(jì)降水量等)和污染物因素(如PM10、NOx、CO、SO2、O3等)(5)Liang X., Zou T., Guo B., et al.,“Assessing Beijing's PM2.5 pollution: severity, weather impact, APEC and winter heating”,Proceedings of the Royal Society A Mathematical Physical & Engineering Sciences, vol.471(2015),p.257.,它們之間的關(guān)系較為復(fù)雜,很難進(jìn)行數(shù)學(xué)建模,使得PM2.5濃度變化具有非線性、非平穩(wěn)性等特點(diǎn),因此對(duì)其進(jìn)行預(yù)測(cè)具有一定的難度。隨著統(tǒng)計(jì)方法、數(shù)據(jù)挖掘等智能信息處理技術(shù)的發(fā)展,國(guó)內(nèi)外學(xué)者對(duì)PM2.5濃度的預(yù)測(cè)研究取得了很大進(jìn)展。近幾年來,神經(jīng)網(wǎng)絡(luò)在非線性預(yù)測(cè)方面得到廣泛應(yīng)用,F(xiàn)ranceschi等使用神經(jīng)網(wǎng)絡(luò)技術(shù)結(jié)合聚類和主成分分析算法,對(duì)PM2.5和PM10的濃度和分類進(jìn)行了預(yù)測(cè)。(6)Franceschi F., Cobo M., Figuereredo M.,“Discovering relationships and forecasting PM10 and PM2.5 concentrations in Bogotá, Colombia, using Artificial Neural Networks, Principal Component Analysis, and k-means clustering”,Atmospheric Pollution Research, no.9(2018),pp.912-922.支持向量機(jī)技術(shù)使用訓(xùn)練數(shù)據(jù)中的一小部分樣本建立模型,采用松弛變量和核函數(shù)來處理非線性問題,能夠簡(jiǎn)化計(jì)算復(fù)雜度,提高運(yùn)算速度,進(jìn)一步結(jié)合現(xiàn)代優(yōu)化算法選取合適的參數(shù),能更有效地提高預(yù)測(cè)效果。(7)Cortes C., Vapnik V.,“Support-vector networks”,Machine Learning, vol.20,no.3(1995),pp.273-297.Sun等提出了一種基于主成分分析和布谷鳥搜索優(yōu)化的最小二乘支持向量機(jī)(LSSVM)組合模型,可用于對(duì)PM2.5日平均濃度進(jìn)行預(yù)測(cè)。(8)Sun W., Sun J.,“Daily PM2.5 concentration prediction based on principal component analysis and LSSVM optimized by cuckoo search algorithm”,Journal of Environmental Management, vol.188(2017),pp.144-152.在前期工作中,我們也運(yùn)用氣象模式分析輔助粒子群優(yōu)化的支持向量機(jī)算法(PSO-SVM)對(duì)PM2.5濃度進(jìn)行了等級(jí)分類,獲得較高的分類精度和效率。(9)Liu W.,Guo G.,Chen F.,et al.,“Meteorological pattern analysis assisted daily PM2.5 grades prediction using SVM optimized by PSO algorithm”,Atmospheric Pollution Research, vol.10(2019),pp.1482-1491.
針對(duì)時(shí)間序列問題,經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition, EMD)算法速度快,能較快地捕捉到不同尺度下的序列特征信息,但是其也存在模態(tài)混疊的問題(10)Huang N.E.,Shen Z.,Long S.R.,et al.,“The empirical mode decomposition method and the Hilbert spectrum for non-stationary time series analysis”,Proceedings of Royal Society of London, vol.454(1998),pp.903-995.,而集合經(jīng)驗(yàn)?zāi)B(tài)分解(ensemble empirical mode decomposition, EEMD)方法利用噪聲的頻率均勻分布的統(tǒng)計(jì)特性彌補(bǔ)了這一不足。(11)Wu Z.H.,Huang N.E.,“Ensemble empirical mode decomposition: a noise-assisted data analysis method”,Advances in Adaptive Data Analysis, vol.1,no.1(2009),pp.1-41.近年來,進(jìn)一步將這類模態(tài)分解方法與支持向量機(jī)預(yù)測(cè)模型組合起來用于PM2.5濃度預(yù)測(cè),可以提高預(yù)測(cè)精度。秦喜文等采用EEMD和支持向量回歸的混合模型(EEMD-SVR)對(duì)北京市PM2.5濃度進(jìn)行了預(yù)測(cè),其結(jié)果比單純利用SVR方法的精度有所提高。(12)秦喜文、劉媛媛、王新民,等:《基于整體經(jīng)驗(yàn)?zāi)B(tài)分解和支持向量回歸的北京市PM2.5預(yù)測(cè)》,《吉林大學(xué)學(xué)報(bào)》(地球科學(xué)版)2016年第2期。Niu等則采用互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMD)與灰狼算法優(yōu)化參數(shù)的支持向量回歸模型用于每日PM2.5濃度預(yù)測(cè),得到了較為滿意的結(jié)果。(13)Niu M.,Wang Y.,Sun S.,et al.,“A novel hybrid decomposition-and-ensemble model based on CEEMD and GWO for short-term PM2.5 concentration forecasting”,Atmospheric Environment, vol.134(2016),pp.168-180.相空間重構(gòu)(phase space reconstruction, PSR)是分析混沌時(shí)間序列的前提和基礎(chǔ),根據(jù)Takens提出的嵌入理論,可以將一維時(shí)間序列重構(gòu)成一個(gè)多維矩陣(14)Takens F.,Detecting strange attractors in turbulence, Lecture Notes in Mathematics,Berlin:Springer-Verlag, 2006,pp.366-381.,已被廣泛應(yīng)用于多個(gè)領(lǐng)域,如短時(shí)交通流量預(yù)測(cè)(15)商強(qiáng)、楊兆升、李志林,等:《基于相空間重構(gòu)和RELM的短時(shí)交通流量預(yù)測(cè)》,《華南理工大學(xué)學(xué)報(bào)》(自然科學(xué)版)2016年第4期。、機(jī)械故障診斷(16)趙書濤、李小雙、李大雙,等:《基于相空間重構(gòu)與GSA-LVQ的有載調(diào)壓變壓器分接開關(guān)機(jī)械故障診斷》,《電測(cè)與儀表》,2021年7月2日,https://kns.cnki.net/kcms/detail/23.1202.TH.20210702.0940.002.html,2021年7月3日。等。相空間重構(gòu)技術(shù)與經(jīng)驗(yàn)?zāi)B(tài)分解技術(shù)相結(jié)合可應(yīng)用于快遞業(yè)務(wù)量預(yù)測(cè)(17)李辰穎:《基于CEEMD-SVM組合模型的快遞業(yè)務(wù)量預(yù)測(cè)》,《統(tǒng)計(jì)與決策》2019年第12期。、網(wǎng)絡(luò)流量預(yù)測(cè)(18)魏臻、陳穎、程磊:《基于VMD-DE的混沌網(wǎng)絡(luò)流量組合預(yù)測(cè)研究》,《合肥工業(yè)大學(xué)學(xué)報(bào)》(自然科學(xué)版) 2019年第12期。、短期風(fēng)功率預(yù)測(cè)(19)王賀、胡志堅(jiān)、陳珍,等:《基于集合經(jīng)驗(yàn)?zāi)B(tài)分解和小波神經(jīng)網(wǎng)絡(luò)的短期風(fēng)功率組合預(yù)測(cè)》,《電工技術(shù)學(xué)報(bào)》 2013年第9期。、溶解氧預(yù)測(cè)(20)劉晨、李莎、叢孫麗,等:《基于EEMD和螢火蟲算法優(yōu)化SVM的溶解氧預(yù)測(cè)》,《計(jì)算機(jī)仿真》2021年第1期。等,這就為更為精確和有效地進(jìn)行PM2.5濃度的時(shí)間序列預(yù)測(cè)提供了新的思路和方法。
基于以上考慮,本文創(chuàng)新性地采用經(jīng)驗(yàn)?zāi)B(tài)分解和相空間重構(gòu)技術(shù)處理復(fù)雜的PM2.5濃度時(shí)間序列,并據(jù)此建立布谷鳥算法優(yōu)化的支持向量機(jī)組合預(yù)測(cè)模型(EEMD-PSR-CS-SVR),以提高對(duì)未來24小時(shí)PM2.5濃度預(yù)測(cè)的精度和效率。其中,先利用EEMD將PM2.5濃度時(shí)間序列模型分解成一組不同尺度且相對(duì)穩(wěn)定的子序列,再通過相空間重構(gòu)技術(shù)對(duì)各子序列進(jìn)行重構(gòu)得到全新的結(jié)構(gòu),并進(jìn)一步在相空間中用布谷鳥算法優(yōu)化的SVR對(duì)各子序列進(jìn)行預(yù)測(cè),最后將各子序列預(yù)測(cè)結(jié)果進(jìn)行整合得到最終的PM2.5濃度預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果證實(shí)所提出的EEMD-PSR-CS-SVR組合預(yù)測(cè)模型能大幅度提高未來24小時(shí)PM2.5濃度預(yù)測(cè)的準(zhǔn)確率。
本文采用的數(shù)據(jù)來自北京市環(huán)境保護(hù)監(jiān)測(cè)中心(http://www.fumenc.com.cn/)發(fā)布的北京市亦莊開發(fā)區(qū)站點(diǎn)的PM2.5濃度(2013年12月5日到2018年12月31日)。由圖1可見,PM2.5濃度與氣溫呈相反趨勢(shì),秋冬季節(jié)PM2.5濃度水平較高,而春夏季節(jié)PM2.5濃度較低,這可能與冬季能源消耗導(dǎo)致的污染物排放量增加有關(guān)。為了排除這種季節(jié)影響,本文統(tǒng)一選取了此時(shí)間段的每年10月份到次年3月份的PM2.5濃度作為研究對(duì)象,共937個(gè)樣本。
圖1 北京市亦莊開發(fā)區(qū)站點(diǎn)PM2.5濃度與氣溫(2013年12月5日—2018年12月31日)
Huang等提出的經(jīng)驗(yàn)?zāi)B(tài)分解方法(EMD)能夠根據(jù)信號(hào)自身特點(diǎn),自適應(yīng)地將非線性、非平穩(wěn)性的多模態(tài)信號(hào)分解為一組平穩(wěn)單一模態(tài)的固有模態(tài)函數(shù)(intrinsic mode function, IMF)分量和一個(gè)余項(xiàng)。(21)Huang N.E.,Shen Z.,Long S.R.,et al.,“The empirical mode decomposition method and the Hilbert spectrum for non-stationary time series analysis”,Proceedings of Royal Society of London, vol.454(1998),pp.903-995.但是,傳統(tǒng)的EMD方法中IMF分量的不連續(xù)會(huì)造成相鄰波形模態(tài)混疊現(xiàn)象,為了彌補(bǔ)這一缺陷,Wu等提出集合經(jīng)驗(yàn)?zāi)B(tài)分解方法(EEMD)將白噪聲加入待分解信號(hào),補(bǔ)償分解后IMF所丟失的尺度,然后再進(jìn)行EMD分解。(22)Wu Z.H.,Huang N.E.,“Ensemble empirical mode decomposition: a noise-assisted data analysis method”,Advances in Adaptive Data Analysis, vol.1,no.1(2009),pp.1-41.EEMD本質(zhì)就是一種疊加高斯白噪聲的多次EMD分解,可利用高斯白噪聲頻率均勻分布的統(tǒng)計(jì)特性,保證模態(tài)分解的準(zhǔn)確性。(23)趙健、樊彥國(guó)、張音:《基于EEMD-BP組合模型的區(qū)域海平面變化多尺度預(yù)測(cè)》,《系統(tǒng)工程理論與實(shí)踐》2019年第10期。這種方法不僅抵消了加入的白噪聲,而且使模態(tài)混疊問題在一定程度上得到解決。
EEMD信號(hào)分解的具體步驟(24)秦喜文、劉媛媛、王新民,等:《基于整體經(jīng)驗(yàn)?zāi)B(tài)分解和支持向量回歸的北京市PM2.5預(yù)測(cè)》,《吉林大學(xué)學(xué)報(bào)》(地球科學(xué)版)2016年第2期。:
(1)給待分解信號(hào)x(t)中加入一組白噪聲ω(t),構(gòu)成新的信噪混合體信號(hào)X(t):
X(t)=x(t)+ω(t)
(1)
(2)對(duì)X(t)進(jìn)行EMD分解,使其分解為j個(gè)IMF分量和余項(xiàng):
(2)
其中,cj為第j個(gè)IMF;n為IMF的個(gè)數(shù);rn為余項(xiàng)。
(3)給待分析信號(hào)加入多組不同的白噪聲ωi(t):
Xi(t)=x(t)+ωi(t)
(3)
(4)對(duì)Xi(t)進(jìn)行EMD分解,得到不同組的IMF和余項(xiàng):
(4)
其中,cij(t)為第i組Xi(t)的第j個(gè)IMF;rin為第i組Xi(t)的余項(xiàng)。
(5)將對(duì)應(yīng)的IMF求平均:
(5)
其中,M為白噪聲的數(shù)目;cj(t)為對(duì)原始信號(hào)進(jìn)行EEMD分解后得到的第j個(gè)IMF。
相空間重構(gòu)理論最早由Packard等提出,之后Takens的嵌入理論為其建立了可靠的數(shù)學(xué)基礎(chǔ),可以將一維混沌時(shí)間序列重構(gòu)成一個(gè)多維的時(shí)間序列矩陣。(25)孟力、畢葉平:《相空間重構(gòu)文獻(xiàn)綜述可視化分析》,《系統(tǒng)仿真學(xué)報(bào)》2017年第12期。運(yùn)用此技術(shù)進(jìn)行動(dòng)力系統(tǒng)重建的關(guān)鍵在于確定時(shí)間延遲和嵌入維數(shù),其選取方法有著不同的觀點(diǎn),在本文中分別采用互信息法和虛假鄰近點(diǎn)法去求解時(shí)間延遲τ和嵌入維數(shù)m,從而重構(gòu)成一個(gè)新的多維時(shí)間序列(式6),并在這個(gè)重構(gòu)的相空間中進(jìn)行后續(xù)的分析和預(yù)測(cè)。
X={xi|i=1,2,…,N}
(6)
其中,m為嵌入維數(shù),τ為時(shí)間延遲,M為相點(diǎn)數(shù),M=N-(m-1)τ。
1. 支持向量機(jī)回歸模型(SVR)
支持向量機(jī)算法由Vapnik在20世紀(jì)90年代開發(fā)(26)Vapnik V., The Nature of Statistical Learning Theory,New York: Springer-Verlag,1995.(27)Vapnik V., Statistical Learning Theory,New York: John Wiley & Sons, 1998.,該算法基于統(tǒng)計(jì)學(xué)理論并借助于核函數(shù),是解決高緯度數(shù)據(jù)集分類和回歸的有效方法,可以靈活地解決各種非線性問題,已被證實(shí)是最穩(wěn)健和準(zhǔn)確的數(shù)據(jù)挖掘算法之一。
在SVR模型中,訓(xùn)練集為{(xi,yi)|i=1,2,…,n},其中xi∈Rn為輸入變量,yi為因變量,建立一條直線g(x)使其盡可能地接近y,其直線定義為式7:
g(x)=ωTxi+b
(7)
(8)
其中,C為懲罰因子,為待定參數(shù)。為了解決以上問題,引入了拉格朗日函數(shù),將其轉(zhuǎn)換為拉格朗日求極值問題:
其中,αi,μi為拉格朗日因子。引進(jìn)滿足Mercer條件的核函數(shù)k(xi,x),將非線性復(fù)雜問題轉(zhuǎn)化為高緯度線性問題:
(10)
本文中,采用徑向基函數(shù)作為核函數(shù):
(11)
其中,σ2為待定參數(shù)。
2. 布谷鳥算法(CS)
以徑向基為核函數(shù)的SVR非線性預(yù)測(cè)模型的性能高度依賴于參數(shù)C和σ2,這兩個(gè)參數(shù)的取值通?;诮?jīng)驗(yàn),會(huì)導(dǎo)致模型預(yù)測(cè)結(jié)果具有隨機(jī)性和不確定性。因此,采用布谷鳥搜索算法對(duì)這兩個(gè)參數(shù)進(jìn)行優(yōu)化,能很大程度上提高SVR模型的預(yù)測(cè)精度和效率。
布谷鳥搜索是Yan and Deb提出的自然啟發(fā)式算法,它模仿布谷鳥的寄生行為。(28)Yang X. S., Deb S., Cuckoo Search via Lévy flights,World Congress on Nature & Biologically Inspired Computing IEEE, 2010.該算法引入Levy飛行變換位置并遵守三條規(guī)則:每只布谷鳥一次只下一個(gè)蛋,并將其放入隨機(jī)選擇的巢中;最好的蛋將被帶到下一代;可用的宿主巢穴數(shù)量是固定的,被宿主發(fā)現(xiàn)的概率是Pa∈[0,1]。布谷鳥算法是布谷鳥孵化行為和Levy飛行的結(jié)合。在隨機(jī)形成巢穴種群后,CS通過兩條路徑更新個(gè)體:
(1)布谷鳥采用Levy飛行方式(式12)找到巢并下蛋:
Xt+1=Xt+αS=Xt+α?Levy(β)
(12)
Levy(β)~μ=t-β(1≤β≤3)
(13)
(14)
(15)
其中,S是服從Levy分布的隨機(jī)步長(zhǎng);通常α=0.01,β=1.5。
(2)宿主以概率Pa發(fā)現(xiàn)布谷鳥蛋后以隨機(jī)方式重新建窩:
Xt+1=Xt+γ?Heaviside(Pa-ε)?(Xi-Xj)
(16)
其中,γ,ε為服從均勻分布的隨機(jī)數(shù),Heaviside(x) 為跳躍函數(shù),當(dāng)Pa>ε時(shí),Heaviside(Pa-ε)=1;當(dāng)Pa<ε時(shí),Heaviside(Pa-ε)=0;當(dāng)Pa=ε時(shí),Heaviside(Pa-ε)=0.5。Xi,Xj是任意兩個(gè)鳥窩。Pa=0.25。
CS算法結(jié)合了全局和局部搜索,這使得在全局范圍內(nèi)更有效地探索搜索空間成為可能,能以更高的概率實(shí)現(xiàn)全局最優(yōu)。雖然粒子群算法(PSO)可以更早地收斂到局部最優(yōu),但不一定是全局最優(yōu)解,而CS通??梢允諗康饺肿顑?yōu)解。
集合模態(tài)分解方法(EEMD)能夠?qū)⒎蔷€性的復(fù)雜的時(shí)間序列分解為一組相對(duì)平穩(wěn)的固有模態(tài)函數(shù)分量(IMF),減少模態(tài)混疊,保證分解的準(zhǔn)確性,再采用相空間重構(gòu)技術(shù)(PSR)對(duì)這組固有模態(tài)函數(shù)分量進(jìn)行相空間重構(gòu),使支持向量機(jī)預(yù)測(cè)模型(SVR)在相空間中進(jìn)行訓(xùn)練和預(yù)測(cè),同時(shí)利用布谷鳥算法(CS)在尋找全局最優(yōu)解方面的優(yōu)勢(shì)對(duì)支持向量機(jī)預(yù)測(cè)模型的參數(shù)進(jìn)行優(yōu)化,最后將所有固有模態(tài)的預(yù)測(cè)結(jié)果進(jìn)行結(jié)合。針對(duì)未來24小時(shí)PM2.5濃度預(yù)測(cè)問題,本文根據(jù)以上分解和集合的思想,提出了EEMD-PSR-CS-SVR組合預(yù)測(cè)模型,其流程如圖2所示。
圖2 PM2.5濃度EEMD-PSR-CS-SVR組合預(yù)測(cè)模型流程
為了考察EEMD-PSR-CS-SVR組合預(yù)測(cè)模型的預(yù)測(cè)精度,并與其他預(yù)測(cè)模型進(jìn)行性能的比較,本文采用相關(guān)系數(shù)(R)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和平均絕對(duì)百分比誤差(MAPE)等評(píng)價(jià)指標(biāo)對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估:
(17)
(18)
(19)
(20)
本文采用北京市亦莊開發(fā)區(qū)觀測(cè)點(diǎn)2013年12月5日到2018年12月31日冬季PM2.5濃度時(shí)間序列作為研究對(duì)象,共937個(gè)樣本數(shù)據(jù),其中2018年11月和12月共61個(gè)數(shù)據(jù)作為測(cè)試集,剩余876個(gè)數(shù)據(jù)作為訓(xùn)練集,進(jìn)行單步預(yù)測(cè),即使用當(dāng)日PM2.5濃度的觀測(cè)值作為模型輸入預(yù)測(cè)未來24小時(shí)PM2.5的濃度值,以此重復(fù),得到61個(gè)預(yù)測(cè)值并與觀測(cè)值進(jìn)行比較分析。
通過對(duì)PM2.5濃度的訓(xùn)練集數(shù)據(jù)進(jìn)行EEMD模式分解,得到8個(gè)固有模態(tài)函數(shù)(IMF)和1個(gè)余項(xiàng)(Residual)。如圖3所示,分解出的各個(gè)IMF的波動(dòng)頻率從IMF1到IMF8逐漸降低,波動(dòng)尺度逐漸增大,余項(xiàng)呈現(xiàn)單調(diào)遞減的趨勢(shì)。因此,EEMD分解后的子序列復(fù)雜度明顯低于原始序列,更有利于后續(xù)的建模預(yù)測(cè)與分析。
圖3 PM2.5濃度時(shí)間序列的EEMD分解
對(duì)8個(gè)IMF子序列和1個(gè)余項(xiàng)進(jìn)行相空間重構(gòu)。以IMF4相空間重構(gòu)過程為例,采用互信息法計(jì)算延遲時(shí)間τ。如圖4所示,當(dāng)互信息曲線第一次到達(dá)最小值時(shí)τ=6即為此序列的延遲時(shí)間;采用虛假鄰近點(diǎn)法計(jì)算嵌入維度m=3。式21為IMF4重構(gòu)后的相空間,并在此相空間中進(jìn)行模型的訓(xùn)練及預(yù)測(cè)。全部子序列和余項(xiàng)的時(shí)間延遲τ和嵌入維數(shù)m如表1所示。
圖4 重構(gòu)延遲時(shí)間的確定——互信息曲線(以IMF4為例)
為了驗(yàn)證所提出的EEMD-PSR-CS-SVR組合預(yù)測(cè)模型的優(yōu)越性,引入一些目前常用的預(yù)測(cè)方法作為基準(zhǔn)進(jìn)行對(duì)比,主要包括以下三個(gè)方面:僅使用單一的預(yù)測(cè)模型(ARIMA, LSTM, CS-SVR, BP)、使用不同的模態(tài)分解方法分解并進(jìn)行相空間重構(gòu)后預(yù)測(cè)(PSR-CS-SVR, CEEMD- PSR-CS-SVR, EMD- PSR-CS-SVR)、使用不同參數(shù)優(yōu)化方法的SVR預(yù)測(cè)模型(EEMD-PSR-PSO-SVR, EEMD-PSR-CG-SVR)?;谶@一系列不同預(yù)測(cè)模型的未來24小時(shí)PM2.5濃度預(yù)測(cè)結(jié)果如圖5—7所示。
圖5 EEMD-PSR-CS-SVR與單一預(yù)測(cè)模型的預(yù)測(cè)結(jié)果比較
如圖5(a)所示,采用單一的預(yù)測(cè)模型(ARIMA, LSTM, CS-SVR, BP)對(duì)未來24小時(shí)PM2.5濃度進(jìn)行預(yù)測(cè),所得的預(yù)測(cè)值與觀測(cè)值偏離較多,二者的相關(guān)系數(shù)在0.4523—0.5128之間(表2),說明擬合度較低。此外,這些單一預(yù)測(cè)模型的相對(duì)誤差也遠(yuǎn)遠(yuǎn)背離0(圖5(b)),表現(xiàn)為MAPE值均大于1,RMSE值在43.9133—50.5085之間,MAE值在31.3935—35.8451之間,這系列誤差指標(biāo)均過大,說明單一預(yù)測(cè)模型在未來24小時(shí)PM2.5濃度預(yù)測(cè)中具有很大的局限性。為了提高預(yù)測(cè)精度,引入相空間重構(gòu)方法對(duì)PM2.5濃度時(shí)間序列進(jìn)行預(yù)處理后再進(jìn)行CS-SVR預(yù)測(cè)(PSR-CS-SVR),如圖6所示,其結(jié)果依然不好,預(yù)測(cè)值與觀測(cè)值的相關(guān)性僅為0.4111。因此,進(jìn)一步引入模態(tài)分解方法,先對(duì)數(shù)據(jù)進(jìn)行模態(tài)分解再對(duì)各IMF及余項(xiàng)進(jìn)行相空間重構(gòu)(EMD-PSR-CS-SVR, CEEMD-PSR-CS-SVR, EEMD-PSR-CS-SVR),此時(shí)預(yù)測(cè)精度得到了極大的提升(圖7),預(yù)測(cè)值與觀測(cè)值的相關(guān)系數(shù)提高到0.7112以上,尤其是EEMD-PSR-CS-SVR組合模型的相關(guān)系數(shù)達(dá)到了0.8990,RMSE、MAE、MAPE值分別降低到22.3677,15.5624和0.3874,是預(yù)測(cè)精度最高的組合模型,說明集合經(jīng)驗(yàn)?zāi)B(tài)分解方法和相空間重構(gòu)技術(shù)對(duì)于提高模型的預(yù)測(cè)精度是非常有效的。
圖6 EEMD-PSR-CS-SVR與不同模態(tài)分解方法的模型預(yù)測(cè)結(jié)果比較
圖7 EEMD-PSR-CS-SVR與不同參數(shù)優(yōu)化算法的SVR模型的預(yù)測(cè)結(jié)果比較
表2 所有預(yù)測(cè)模型的預(yù)測(cè)結(jié)果評(píng)價(jià)指標(biāo)對(duì)比
為了進(jìn)一步驗(yàn)證EEMD-PSR-CS-SVR組合模型的普適性,又將集合經(jīng)驗(yàn)?zāi)B(tài)分解方法和相空間重構(gòu)技術(shù)與BP以及不同參數(shù)優(yōu)化算法的SVR進(jìn)行了結(jié)合,得到EEMD-PSR-BP, EEMD-PSR-PSO-SVR, EEMD-PSR-CG-SVR組合模型。如圖7所示,這三種組合預(yù)測(cè)模型的擬合度也均較高,其預(yù)測(cè)值與觀測(cè)值的相關(guān)系數(shù)分別達(dá)到0.8331,0.8365和0.8187,且其RMSE、MAE、MAPE值也都有明顯降低(表2),證實(shí)了集合經(jīng)驗(yàn)?zāi)B(tài)分解方法和相空間重構(gòu)技術(shù)對(duì)提高預(yù)測(cè)精度的普遍有效性。
大氣中PM2.5濃度受到氣象條件、污染物排放等諸多因素的影響,具有非線性的特點(diǎn),對(duì)其進(jìn)行精確預(yù)測(cè)極具挑戰(zhàn)。針對(duì)這一難題,本文提出了基于集合經(jīng)驗(yàn)?zāi)B(tài)分解方法和相空間重構(gòu)技術(shù)的PM2.5濃度CS-SVR組合預(yù)測(cè)模型(EEMD-PSR-CS-SVR),充分發(fā)揮EEMD降低原始時(shí)間序列復(fù)雜性、PSR可利用有限數(shù)據(jù)重構(gòu)原動(dòng)力系統(tǒng)模型、CS-SVR快速收斂到全局最優(yōu)以解決非線性問題的優(yōu)點(diǎn),獲得比傳統(tǒng)預(yù)測(cè)模型精度更高的未來24小時(shí)PM2.5濃度預(yù)測(cè)結(jié)果。同時(shí),拓展實(shí)驗(yàn)結(jié)果證實(shí)EEMD-PSR也可以與其他預(yù)測(cè)模型相組合,提升其預(yù)測(cè)精度,說明這一策略對(duì)未來24小時(shí)PM2.5濃度的預(yù)測(cè)具有較好的普適性。