李蕎每,成麗波
(長春理工大學(xué) 理學(xué)院,長春 130022)
隨著大數(shù)據(jù)時代的發(fā)展,數(shù)據(jù)處理受到了越來越多人的關(guān)注。時間序列預(yù)測方法是處理隨時間變化的數(shù)據(jù)最有效的方法之一。近年來,越來越多的人開始利用小波對時間序列進(jìn)行分析預(yù)測,尋找組合方法、模型,逐步完善理論基礎(chǔ)。2000年,Whitcher等[1]介紹使用離散小波變換進(jìn)行2個時間序列之間協(xié)方差的多尺度分析。2005年,陳飛[2]開發(fā)了一種新的經(jīng)濟(jì)時間序列預(yù)測方法。近年來,越來越多的學(xué)者發(fā)現(xiàn)小波分析適用于處理時間序列預(yù)測問題。2006年,Percival等[3]出版了Wavelet Methods for time series analysis,具體介紹了小波分析,以及基于小波的時間序列統(tǒng)計分析。2009年,周玉國等[4]將小波分析和自回歸滑動模型引入時間序列建模與預(yù)測。2011年,Leise等[5]發(fā)現(xiàn)可以通過小波變換來分析有周期或幅度變化的晝夜節(jié)律。2015年,Joo等[6]提出一種基于小波濾波的預(yù)測方法。同年,Sun等[7]提出了一種新的混合模型小波-支持向量機(jī),劉向麗等[8]提出基于小波多分辨率分析的預(yù)測方法。2016年,邱金鵬等[9]建立基于風(fēng)速的功率計算數(shù)學(xué)模型,證明了采用小波分解與時間序列模型進(jìn)行風(fēng)電功率預(yù)測的準(zhǔn)確性與可靠性。同年,Sharma等[10]提出了一種混合小波神經(jīng)網(wǎng)絡(luò),用于短期太陽輻照度的預(yù)測。2019年,吳浩等[11]提出了基于小波分析的改進(jìn)型3σ粗差探測方法。
本文建立小波分析時間序列組合模型,利用該模型對某國家單日新增病例數(shù)據(jù)進(jìn)行分析,并預(yù)測其未來發(fā)展趨勢,為防控疫情起到警示作用。
在對原始時間序列進(jìn)行小波分解重構(gòu)后,即可選用合適的時間序列模型進(jìn)行預(yù)測。本文選用的是適合非平穩(wěn)序列的ARIMA模型。
ARIMA(p,d,q)模型[13]如下
在進(jìn)行模型擬合時,必須先對序列的平穩(wěn)性進(jìn)行檢驗(yàn)。ARMA(p,q)模型的平穩(wěn)條件是:Φ(B)=0的根都在單位圓外。即ARMA(p,q)模型的平穩(wěn)性是由其自回歸部分的平穩(wěn)性決定的,故只需檢驗(yàn)AR(p)的平穩(wěn)性即可。
對任一AR(p)過程可簡記為
xt=ρxt-1+β1xt-1+…+βp-1xt-p+1+εt
式中,ρ=φ1+φ2+…+φp-1,βj=-φj+1-φj+2-…-φp,j=1,2,…,p-1。
AR(p)過程單位根檢驗(yàn)的假設(shè)條件為
構(gòu)造ADF檢驗(yàn)統(tǒng)計量[13]:
在模型擬合好后,對此模型的擬合效果進(jìn)行檢驗(yàn)。選用Durbin-Watson檢驗(yàn)進(jìn)行時間序列殘差自相關(guān)性檢驗(yàn)。文獻(xiàn)[13]中給出DW檢驗(yàn)統(tǒng)計量近似等于
根據(jù)自相關(guān)系數(shù)的定義,有
即DW≈2(1-ρ)。
因?yàn)?1≤ρ≤1,所以0≤DW≤4。當(dāng)0≤ρ≤1時,序列正相關(guān),且ρ→1時,DW→0;ρ→0時,DW→2。當(dāng)-1≤ρ≤0時,序列負(fù)相關(guān),且ρ→-1時,DW→4;ρ→0時,DW→2。由此可知當(dāng)DW值越接近2,ρ值越小,擬合效果越好。
檢驗(yàn)假設(shè)
文獻(xiàn)[13]中給出檢驗(yàn)未知參數(shù)顯著性的t檢驗(yàn)統(tǒng)計量
當(dāng)該檢驗(yàn)統(tǒng)計量的絕對值大于自由度為n-m的t分布的1-α分位點(diǎn),即
|T|≥t1-α(n-m)
或者當(dāng)該檢驗(yàn)量的P值小于α?xí)r,拒絕原假設(shè),則參數(shù)顯著。當(dāng)P值大于α,參數(shù)不顯著。
本文使用數(shù)據(jù)來源于國家健康衛(wèi)生委員會官方網(wǎng)站。采用2020年1月30日至7月31日該國單日新增病例數(shù)據(jù)進(jìn)行分析,在數(shù)據(jù)處理過程中,先按照論文[14-15]中的方法進(jìn)行了異常值篩選,再利用上述Wavelet-ARIMA模型,利用MATLAB對2020年8月至2021年1月的該國單日新增病例進(jìn)行預(yù)測。計算過程可按照以下幾個步驟進(jìn)行實(shí)施:1)首先對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,檢測異常值;2)將數(shù)據(jù)采用Symlet小波進(jìn)行分解,層數(shù)為4;3)將分解后的數(shù)據(jù)進(jìn)行重構(gòu),消除噪聲;4)用ARIMA模型對去噪后的數(shù)據(jù)進(jìn)行預(yù)測;5)進(jìn)行ADF檢驗(yàn)、T檢驗(yàn)及DW檢驗(yàn)并分析;6)得到預(yù)測及置信區(qū)間圖,并進(jìn)行分析;
例西方某國單日新增病例預(yù)測
本文選用sym小波對原始時間序列進(jìn)行4層分解,并對分解后的時間序列進(jìn)行噪聲消除并重構(gòu),得到原始時間序列與重構(gòu)時間序列對比圖(圖1及圖2)。
圖1 四層分解圖Fig.1 Four-level decomposition
圖2 Wavelet-ARIMA模型數(shù)據(jù)曲線對比圖Fig.2 Curve comparison of Wavelet-ARIMA model data
圖2中橫坐標(biāo)表示天數(shù)(單位為d),縱坐標(biāo)表示該日新增病例數(shù)(單位為人),紅色細(xì)線段表示該國單日新增病例人數(shù),黑色粗線段表示去噪后該國單日新增病例人數(shù)。結(jié)果顯示去噪后的時間序列更加平穩(wěn)。
對原始時間序列及重構(gòu)時間序列進(jìn)行殘差檢驗(yàn),結(jié)果說明重構(gòu)后的時間序列更加適用于本文模型(圖3和圖4)。
圖3 ARIMA模型殘差檢驗(yàn)的結(jié)果圖Fig.3 Results of ARIMA model residual test
圖4 Wavelet-ARIMA模型殘差檢驗(yàn)的結(jié)果圖Fig.4 Results of Wavelet-ARIMA model residual test
由圖3圖4可知,數(shù)據(jù)經(jīng)過小波去噪前后,殘差皆服從正態(tài)分布,說明模型擬合成功。接下來計算數(shù)據(jù)標(biāo)準(zhǔn)差,對其平穩(wěn)性進(jìn)行ADF檢驗(yàn),對殘差進(jìn)行DW檢驗(yàn),對參數(shù)進(jìn)行T檢驗(yàn)(表1)。
表1 檢驗(yàn)結(jié)果Table 1 Test results
由表1可知,經(jīng)過小波去噪后的標(biāo)準(zhǔn)差遠(yuǎn)小于未經(jīng)小波去噪的時間序列,T檢驗(yàn)的p值更大,ADF檢驗(yàn)的p值也更大,說明模型效果更好;通過Durbin-Watson對相關(guān)性進(jìn)行檢驗(yàn),未去噪數(shù)據(jù)結(jié)果為2.011 9,去噪數(shù)據(jù)結(jié)果為1.991 9,更接近2,進(jìn)一步驗(yàn)證重構(gòu)后的數(shù)據(jù)更加適用于本文模型。
分別用ARIMA模型和Wavelet-ARIMA模型對該國單日新增病例進(jìn)行預(yù)測,并計算置信區(qū)間(圖5和圖6)。
圖5 ARIMA模型預(yù)測結(jié)果Fig.5 Results of ARIMA model prediction
圖6 Wavelet-ARIMA模型預(yù)測結(jié)果Fig.6 Results of Wavelet-ARIMA model prediction
表2 檢驗(yàn)結(jié)果Table 2 Test results
圖5和圖6中橫坐標(biāo)表示天數(shù)(單位為d),縱坐標(biāo)表示單日新增病例數(shù)(單位為人)。圖5是直接利用ARIMA模型的計算結(jié)果,圖6是利用Wavelet-ARIMA模型的計算結(jié)果,經(jīng)過對比分析,利用Wavelet-ARIMA模型進(jìn)行預(yù)測可以得到更好結(jié)果。其中實(shí)際值超出置信區(qū)間的數(shù)據(jù)量見表2。
由表2可以看出,使用Wavelet-ARIMA模型進(jìn)行預(yù)測,超出置信區(qū)間的數(shù)量明顯減少,預(yù)測更準(zhǔn)確。
針對非線性、非平穩(wěn)的時間序列,本文提出一種基于小波分析的時間序列預(yù)測模型。首先,建立時間序列小波模型,得到去噪的平穩(wěn)時間序列。然后,用本文模型對去噪后的數(shù)據(jù)進(jìn)行預(yù)測。最后,通過ADF檢驗(yàn)、T檢驗(yàn)及Durbin-Watson檢驗(yàn)對平穩(wěn)性、參數(shù)及殘差相關(guān)性進(jìn)行檢驗(yàn)。通過以上分析可知,Wavelet-ARIMA模型比ARIMA模型更有效。由本文模型預(yù)測結(jié)果可以看出,如果不采取有效防疫措施,2020年11月末,西方某國家單日新增將達(dá)到15萬,至2021年1月,該國家單日新增將達(dá)到20萬。為控制病毒繼續(xù)傳播,該國需加強(qiáng)防疫力度。未來,在對時間序列進(jìn)行預(yù)測時,將會進(jìn)一步考慮其他因素的影響,為時間序列的預(yù)測提供更多的新思路。