鄭洋洋 白艷萍 續(xù)婷
摘 要:空氣質(zhì)量指數(shù)(AQI)在波動中既具有整體的時(shí)間序列線性特征和明顯的季節(jié)性波動周期,又具有多種因素影響的不確定性,為了提高AQI的預(yù)測精度,基于Ri386 3.3.3和Matlab R2014a兩種編程軟件,提出了一種同時(shí)具有線性和非線性的復(fù)合特征的時(shí)間序列預(yù)測模型——SARIMA-SVR組合模型。以太原市2014年1月—2019年7月的AQI月均值數(shù)據(jù)為基礎(chǔ),利用SARIMA時(shí)間序列模型進(jìn)行線性預(yù)測,利用SVR模型對殘差進(jìn)行非線性預(yù)測,加和得到組合預(yù)測模型的預(yù)測結(jié)果,分析比較SARIMA,SVR和SARIMA-SVR這3種模型的預(yù)測結(jié)果和平均絕對百分比誤差。結(jié)果表明,組合預(yù)測模型發(fā)揮了2種模型各自的優(yōu)勢,相較于單一預(yù)測模型的預(yù)測結(jié)果而言,其預(yù)測精度更高,穩(wěn)定性更好。通過此模型得到的空氣質(zhì)量預(yù)測結(jié)果不僅可為人們的日常生活提供指導(dǎo),而且可為大氣污染的防治工作提供科學(xué)依據(jù)和借鑒意義。
關(guān)鍵詞:應(yīng)用數(shù)學(xué);SARIMA;SVR;SARIMA-SVR組合模型;空氣質(zhì)量指數(shù)預(yù)測
中圖分類號:O29;X84?文獻(xiàn)標(biāo)志碼:A
doi: 10.7535/hbgykj.2019yx06011
文章編號:1008-1534(2019)06-0436-06
Abstract:Air quality index (AQI) both has volatility of time series of the whole linear features, obvious seasonal fluctuation cycle, at the same time has a variety of factors of uncertainty. In order to improve the prediction accuracy of AQI, based on Ri386 3.3.3 and Matlab R2014a programming software, this paper proposes a composite characteristics of both linear and nonlinear time series prediction model,namely SARIMA-SVR combined model. Based on the monthly average data of AQI from January 2014 to July 2019 in Taiyuan, SARIMA time series model is first used for linear prediction, then SVR model is used for non-linear prediction of residual, and finally the combined prediction model is added and obtained. By analyzing and comparing the prediction results and average absolute percentage errors of SARIMA, SVR and SARIMA-SVR models, the results show that the combined prediction model gives full play to the advantages of the two models, and its prediction accuracy is higher and its stability is better than that of the single prediction model. The prediction results of air quality by this model can provide reference for the prevention and control of air pollution.
Keywords:applied mathematics; SARIMA; SVR; SARIMA-SVR combination model; air quality index prediction
空氣質(zhì)量狀況越來越受到人們的關(guān)注,國內(nèi)外研究人員提出了針對空氣質(zhì)量預(yù)測的模型,李婷婷等[1]運(yùn)用經(jīng)驗(yàn)?zāi)B(tài)分解的方法對原始的AQI數(shù)據(jù)進(jìn)行多尺度分解,運(yùn)用灰色預(yù)測、ARIMA模型、BP神經(jīng)網(wǎng)絡(luò)和SVR等方法進(jìn)行趨勢序列預(yù)測,將平均相對誤差較小的前3種單項(xiàng)預(yù)測方法進(jìn)行組合,進(jìn)而得到最終預(yù)測結(jié)果,結(jié)果表明,基于經(jīng)驗(yàn)?zāi)B(tài)分解的空氣質(zhì)量指數(shù)組合預(yù)測方法具有較高的預(yù)測精度和良好的適用性。還有一些學(xué)者運(yùn)用時(shí)間序列模型[2-8]和優(yōu)化SVM的方法[9]完成了空氣質(zhì)量的預(yù)測。但是,由于空氣質(zhì)量受多種不確定性因素的影響,單一預(yù)測方法沒有擬合AQI值變化的非線性部分,因此預(yù)測誤差相對較大。針對這一問題,筆者提出:首先利用SARIMA時(shí)間序列模型對AQI值進(jìn)行趨勢預(yù)測,其次運(yùn)用SVR模型對殘差進(jìn)行預(yù)測,也就是考慮了不確定性的干擾性因素,并將殘差的預(yù)測結(jié)果與SARIMA模型預(yù)測的趨勢數(shù)據(jù)進(jìn)行加和,形成SARIMA-SVR組合預(yù)測模型,使之更能適應(yīng)AQI時(shí)間序列的發(fā)展趨勢,預(yù)測精度更高,為預(yù)測空氣的AQI值提供了新的思路和方法。
1?理論介紹
1.1?SARIMA模型原理
SARIMA(p,d,q)×(P,D,Q)s模型是在ARIMA模型中增加了季節(jié)項(xiàng),稱為季節(jié)性自回歸滑動平均模型,ARIMA模型主要分析和研究時(shí)間序列問題。此模型是先將非平穩(wěn)時(shí)間序列轉(zhuǎn)化為平穩(wěn)時(shí)間序列,然后將因變量僅對它的滯后值以及隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸所建立起來的一種模型[10]。ARIMA模型將預(yù)測指標(biāo)隨時(shí)間推移而形成的數(shù)據(jù)序列看作是一個(gè)隨機(jī)序列,這組隨機(jī)變量所具有的依存關(guān)系體現(xiàn)著原始數(shù)據(jù)在時(shí)間上的延續(xù)性,它既受外部因素的影響,又有其自身的變動規(guī)律。
ARIMA模型包含自回歸模型AR(p)、移動平均模型MA(q)和自回歸移動平均模型ARMA(p,q),ARIMA模型的形式如下:
SARIMA模型與一般的ARIMA模型一樣,首先對季節(jié)性因素進(jìn)行D階差分,其次用差分后周期為s的季節(jié)性時(shí)間序列建立一般的ARIMA模型,其形式如下:
1.2?SVR模型原理
支持向量回歸機(jī)(support vector regression,SVR)是支持向量對于回歸問題的算法[11]。支持向量回歸的基本原理是將所有數(shù)據(jù)樣本進(jìn)行學(xué)習(xí)訓(xùn)練使其都分布在兩條直線之間,并且所有點(diǎn)到直線的總偏差最小,求此時(shí)兩條線之間的最大距離,也就是支持向量回歸的最優(yōu)超平面。使用支持向量機(jī)做回歸時(shí),其算法過程如下。
2?數(shù)據(jù)采集及分析
此次測試使用的樣本數(shù)據(jù)來源于中國空氣質(zhì)量在線監(jiān)測分析平臺歷史數(shù)據(jù)網(wǎng)(https://www.aqistudy.cn/historydata/)發(fā)布的太原市空氣質(zhì)量歷史數(shù)據(jù),選取的樣本數(shù)據(jù)為太原市2014年1月—2019年7月的月均值數(shù)據(jù),共計(jì)67組數(shù)據(jù)。圖1為太原市月度空氣質(zhì)量指數(shù)折線圖。由圖1可以看出,AQI歷史數(shù)據(jù)具有整體的周期性與季節(jié)性,以一年12個(gè)月為一個(gè)循環(huán)周期,且季節(jié)性也較為明顯,可以看出在每年冬季(12月至次年的2月)的AQI值最高,夏季(6月至8月)的AQI值最低。
3?SARIMA-SVR組合預(yù)測模型原理
由前面分析可以看出,AQI值序列整體具有時(shí)間周期性特征,同時(shí)又會有異常數(shù)據(jù)的出現(xiàn),因此具有復(fù)合特征,即其數(shù)據(jù)序列包括線性時(shí)間序列分量,也包含非線性序列分量。所以單一的預(yù)測模型對AQI值的預(yù)測精度較低,對人類生活的指導(dǎo)意義相對較小。由于SARIMA時(shí)間序列預(yù)測模型對線性預(yù)測具有優(yōu)勢,且支持向量回歸機(jī)(SVR)模型對少量的、非線性的數(shù)據(jù)預(yù)測具有優(yōu)勢,這2個(gè)預(yù)測模型優(yōu)勢互補(bǔ),因此筆者將二者組合起來進(jìn)行AQI的指數(shù)預(yù)測。
4?空氣質(zhì)量指數(shù)預(yù)測結(jié)果及分析
4.1?SARIMA模型預(yù)測結(jié)果
在本節(jié)中選取前4年共48組數(shù)據(jù)(2014年1月—2017年12月)作為SARIMA預(yù)測模型的歷史數(shù)據(jù),由圖3可知,原始的AQI數(shù)據(jù)有遞增趨勢,故該序列不平穩(wěn),對其進(jìn)行一次差分后所得折線圖如圖4所示,可以看出差分后的時(shí)序圖在均值為0附近波動,不會隨著時(shí)間的發(fā)展而改變。圖5和圖6分別為一次差分后數(shù)據(jù)序列的自相關(guān)圖和偏相關(guān)圖,可以發(fā)現(xiàn),自相關(guān)圖顯示滯后一階自相關(guān)值基本沒有超過邊界,雖然5階自相關(guān)值超出邊界,很可能屬于偶然現(xiàn)象,偏相關(guān)圖中在4階時(shí)顯著不為0,根據(jù)以上自相關(guān)和偏相關(guān)圖進(jìn)行階數(shù)的一個(gè)初步判斷,又根據(jù)R語言中的auto.arima()函數(shù)進(jìn)行自動定階,得到最優(yōu)的SARIMA模型為(2,0,0)(0,1,1)[12],如圖7為SARIMA(2,0,0)(0,1,1)[12]模型的預(yù)測結(jié)果折線圖。
4.2?SVR模型預(yù)測結(jié)果
采用的數(shù)據(jù)為太原市2014年1月至2019年7月AQI月度數(shù)據(jù),共67組,數(shù)據(jù)維數(shù)為一維,利用前3天的AQI值來預(yù)測后一天的AQI值,選取前44組的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,剩余的數(shù)據(jù)作為訓(xùn)練集,在Matlab2014a軟件上進(jìn)行多次實(shí)驗(yàn),得到最終的預(yù)測結(jié)果如圖8所示。
4.3?SARIMA-SVR組合模型預(yù)測結(jié)果
SARIMA模型能很好地捕捉到時(shí)間序列的周期性,如圖9所示。
由圖9可以看出,單一模型對峰值的預(yù)測存在較大誤差,SVR模型能較好地解決小樣本、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問題??紤]到2種預(yù)測方法各有其優(yōu)點(diǎn),為了進(jìn)一步從原始數(shù)據(jù)序列中提取出更多信息,避免有效信息的浪費(fèi),提高預(yù)測精度,筆者將2種預(yù)測方法結(jié)合起來,形成SARIMA-SVR組合預(yù)測模型,對原始數(shù)據(jù)進(jìn)行重新預(yù)測。首先,采用SARIMA模型對原始數(shù)據(jù)序列進(jìn)行預(yù)測,然后形成預(yù)測殘差,并將其作為SVR模型的樣本集,用前4組的殘差來預(yù)測后一個(gè)殘差,形成訓(xùn)練集和測試集,再利用訓(xùn)練好的SVR模型對殘差進(jìn)行預(yù)測,預(yù)測結(jié)果包含了數(shù)據(jù)序列的非線性規(guī)律和信息,最后,將SARIMA模型的預(yù)測結(jié)果與SVR模型的預(yù)測結(jié)果進(jìn)行加和,得到SARIMA-SVR組合預(yù)測模型的預(yù)測結(jié)果,如表1和圖10所示。
由表1可以看出,SVR模型對原始數(shù)據(jù)的規(guī)律捕捉和刻畫能力最差,MAPE預(yù)測的平均絕對誤差為13.10%,SARIMA模型對數(shù)據(jù)的規(guī)律刻畫能力較強(qiáng),通過歷史數(shù)據(jù)發(fā)現(xiàn),AQI值在不同月份的變化規(guī)律與SARIMA-SVR組合模型的預(yù)測結(jié)果較為相似,且在個(gè)別幾個(gè)月中,SARIMA模型的預(yù)測誤差要比SARIMA-SVR模型的預(yù)測誤差小,但是SARIMA-SVR組合模型的預(yù)測穩(wěn)定性更好,整體的平均絕對百分誤差MAPE在3種預(yù)測模型中最小,為5.15%,因此,組合預(yù)測模型的整體預(yù)測精度要比單一預(yù)測模型的預(yù)測精度高。
最后,利用SARIMA-SVR組合預(yù)測模型對太原市2019年8-12月進(jìn)行預(yù)測,最終的預(yù)測結(jié)果如表2所示。
由表2可以看出太原市在8-9月的月度平均空氣質(zhì)量指數(shù)為良好,適宜人們出行,10月份為輕度污染,而11-12月份的平均空氣質(zhì)量指數(shù)較高,相關(guān)部門的注意應(yīng)提前做好環(huán)境保護(hù)工作,防止太原市的空氣質(zhì)量進(jìn)一步惡化。
5?結(jié)?語
單一預(yù)測模型由于自身?xiàng)l件的限制,在對數(shù)據(jù)序列進(jìn)行預(yù)測時(shí),不能全面掌握數(shù)據(jù)信息而影響預(yù)測結(jié)果,因此,將2種單一預(yù)測模型進(jìn)行組合,發(fā)揮其優(yōu)勢互補(bǔ)作用得到的組合預(yù)測模型的預(yù)測精度往往更高。
1) 運(yùn)用基于SARIMA模型和SVR模型相結(jié)合的SARIMA-SVR組合預(yù)測模型,對太原市空氣質(zhì)量預(yù)測的實(shí)例分析,驗(yàn)證了該算法的有效性。
2) 在數(shù)據(jù)比較平緩的變化中出現(xiàn)峰值時(shí),SVR模型會產(chǎn)生比較大的誤差,這說明SVR模型在捕捉數(shù)據(jù)規(guī)律方面存在著不足。
SARIMA模型對空氣質(zhì)量指數(shù)的變化規(guī)律和季節(jié)波動影響的捕捉能力較強(qiáng),將2種單一模型組合起來得到的SARIMA-SVR組合模型可以綜合利用2種單一模型所提供的信息,有效地提高了預(yù)測精度。
3) SARIMA-SVR組合預(yù)測模型減少了預(yù)測的系統(tǒng)誤差。實(shí)證研究表明,基于SARIMA-SVR組合模型對預(yù)測太原市空氣質(zhì)量指數(shù)是有效的,組合預(yù)測模型的精度明顯優(yōu)于單一預(yù)測模型的精度。
4) 空氣質(zhì)量指數(shù)不會受到污染物濃度、氣象因素、車流量、工廠排放等多種因素的影響,在實(shí)證研究過程中,筆者沒有考慮這些因素,僅是對AQI值進(jìn)行了趨勢預(yù)測,因此,在將來的研究中,應(yīng)加大對影響因素的研究,利用智能優(yōu)化算法優(yōu)化參數(shù),進(jìn)一步提高預(yù)測精度。
參考文獻(xiàn)/References:
[1]李婷婷,田瑞琦,汪漂.基于經(jīng)驗(yàn)?zāi)B(tài)分解的空氣質(zhì)量指數(shù)組合預(yù)測方法及應(yīng)用[J].價(jià)值工程,2019(16):134-138.
LI Tingting,TIAN Ruiqi,WANG Piao.Air quality index combined prediction method based on EMD and its application[J].Value Engineering,2019(16):134-138.
[2]敖希琴,張怡文,陳家麗,等.基于季節(jié)性時(shí)間序列模型的合肥地區(qū)空氣質(zhì)量分析及預(yù)測[J].合肥學(xué)院學(xué)報(bào)(綜合版),2018,35(5):33-39.
AO Xiqin,ZHANG Yiwen,CHEN Jiali,et al. Analysis and prediction of air quality in Hefei Area based on seasonal time series model[J].Journal of Hefei University(Comprehensive Edition),2018,35(5):33-39.
[3]王坤,阮金梅,鄧妮.基于SARIMA模型的曲靖市空氣質(zhì)量指數(shù)預(yù)測[J].曲靖師范學(xué)院學(xué)報(bào),2018,37(3):25-29.
WANG Kun,RUAN Jinmei,DENG Ni. Prediction of air quality index in Qujing based on SARIMA model[J].Journal of Qujing Normal University,2018,37(3):25-29.
[4]VENTURA L M B,PINTO F D O,SOARES L M,et al. Forecast of daily PM2.5 concentrations applying artificial neural networks and Holt-Winters models[J].Air Quality, Atmosphere and Health,2019,12(3):317-325.
[5]孟慶云,張若晴,袁朱紅,等.基于ARIMA模型的天津市空氣質(zhì)量各項(xiàng)指標(biāo)的預(yù)測分析[J].農(nóng)業(yè)災(zāi)害研究,2018,8(5):44-45.
MENG Qingyun,ZHANG Ruoqing,YUAN Zhuhong,et al. Prediction and analysis of air quality indicators in Tianjin based on ARIMA model[J].Journal of Agricultural Catastrophology,2018,8(5):44-45.
[6]王濤,王鳳蘭,王悅婷.基于時(shí)間序列模型的PM2.5研究[J].智庫時(shí)代,2018(35):192-193.
[7]POHOATA A, LUNGU E.A complex analysis employing ARIMA model and statistical methods on air pollutants recorded in Ploiesti, Romania[J].Revista de Chimie-Bucharest-Original Eolition,2017,68(4):818-823.
[8]WU Lifeng, GAO Xiaohui, XIAO Yanli,et al. Using grey Holt-Winters model to predict the air quality index for cities in China[J].Natural Hazards,2017,88(2):1003-1012.
[9]高帥,胡紅萍,李洋,等.基于MFO-SVM的空氣質(zhì)量指數(shù)預(yù)測[J].中北大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,39(4):373-379.
GAO Shuai, HU Hongping, LI Yang, et al. Prediction of air quality index based on MFO-SVM[J].Journal of North University of China(Natural Science Edition),2018,39(4):373-379.
[10]湯銀英,朱星龍,李龍.基于SARIMA模型的鐵路月度客運(yùn)量預(yù)測[J].交通運(yùn)輸工程與信息學(xué)報(bào),2019,17(1):25-32.
TANG Yinying, ZHU Xinglong, LI Long. Monthly railway passenger traffic volume forecasting based on SARIMA model[J].Journal of Transportation Engineering and Information,2019,17(1):25-32.
[11]鄧建球,趙建忠,陳洪,等.ABC算法優(yōu)化SVR的磨損故障預(yù)測模型[J].兵工自動化,2018,37(10):60-64.
DENG Jianqiu, ZHAO Jianzhong, CHEN Hong, et al. Wear faults prediction model based on SVR optimized by ABC[J].Ordnance Industry Automation,2018,37(10):60-64.
[12]程虎彪,姜大立.基于SARIMA-SVM組合模型的戰(zhàn)時(shí)軍用物資需求預(yù)測[J].軍事運(yùn)籌與系統(tǒng)工程,2016,30(2):45-49.