遼寧省疾病預(yù)防控制中心(110005) 王 伶 姚文清
利用時間序列模型分析預(yù)測遼寧手足口病疫情趨勢*
遼寧省疾病預(yù)防控制中心(110005) 王 伶 姚文清△
目的探討遼寧地區(qū)手足口病發(fā)病趨勢特征,應(yīng)用時間序列模型進(jìn)行預(yù)測。方法收集遼寧省2008年1月-2013年12月的手足口病月發(fā)病數(shù)據(jù)建立時間序列,采用自回歸移動平均季節(jié)乘積模型擬合發(fā)病情況,對2014年1月~12月的手足口病發(fā)病數(shù)進(jìn)行預(yù)測,評價預(yù)測效果。結(jié)果建立SARIMA(0,1)×(1,1)模型,預(yù)測平均相對誤差為21.58%,希爾不等系數(shù)為0.115236。結(jié)論遼寧地區(qū)手足口病疫情趨勢平穩(wěn),呈現(xiàn)周期為12月的季節(jié)性波動,所建立的模型時防控工作具有指導(dǎo)意義。
時間序列分析 手足口病 預(yù)測
手足口病作為一種多發(fā)的兒童傳染病,其發(fā)病率和死亡率均在法定丙類傳染病中居高不下,近年來引起了社會的廣泛關(guān)注。手足口病主要通過消化道、呼吸道和接觸傳播,感染途徑易于實(shí)現(xiàn),影響發(fā)病的因素多種多樣。本文通過分析手足口病的逐月發(fā)病數(shù)據(jù),探索疫情發(fā)展趨勢特征,并嘗試運(yùn)用時間序列分析方法建立SARMA模型,以往期數(shù)據(jù)擬合數(shù)學(xué)模型,預(yù)測未來12個月發(fā)病情況,為預(yù)防控制手足口病提供科學(xué)的依據(jù)。
1.資料
數(shù)據(jù)來源于《中國疾病預(yù)防控制信息系統(tǒng)》,按“發(fā)病日期”下載2008年1月1日-2014年12月31日的手足口病病例資料,以“月”為單位建立手足口病發(fā)病數(shù)的時間序列。
2.方法
(1)HP(hodrick-prescott)濾波法:時間序列數(shù)據(jù)可以看作由趨勢成分和波動成分兩者組成,而通過設(shè)定一個損失函數(shù)使其最小化,尋找到可以描繪該序列變量發(fā)展方向的因素即趨勢成分,通過HP濾波技術(shù)分解,一個時間序列可以分解為趨勢成分和波動成分,前者代表長期變動方向,后者代表短期波動[1]。
(2)構(gòu)建時間序列模型并進(jìn)行預(yù)測:SARMA模型又稱自回歸移動平均乘積性季節(jié)模型,是時間序列分析中簡單又實(shí)用的模型之一,且預(yù)測精度較高。主要分析步驟包括:①序列平穩(wěn)性檢驗(yàn):建立模型的前提條件要求分析的時間序列為平穩(wěn)序列,判斷平穩(wěn)性的檢驗(yàn)方法中較為嚴(yán)格的檢驗(yàn)方法為單位根檢驗(yàn)。②模型的識別:SARIMA(p,q)×(P,Q)模型識別即是p,q,P,Q參數(shù)的確定,可以借助自相關(guān)函數(shù)ACF圖和偏自相關(guān)函數(shù)PACF圖進(jìn)行初步的判斷,進(jìn)而選擇幾個模型進(jìn)行下一步的分析。③模型的估計(jì)和診斷:對建立的模型利用非線性最小二乘法(NLS)進(jìn)行估計(jì),同時對模型建立的各項(xiàng)系數(shù)進(jìn)行顯著性檢驗(yàn),進(jìn)一步?jīng)Q定某項(xiàng)是否納入模型,從而優(yōu)化模型。評價結(jié)果優(yōu)化的指標(biāo)包括:調(diào)整R2,AIC信息準(zhǔn)則,SC信息準(zhǔn)則等。對模型的殘差序列自相關(guān)性進(jìn)行檢驗(yàn),如果殘差序列相關(guān)性顯著拒絕原假設(shè),即使其他指標(biāo)較優(yōu)也要拒絕使用該模型。④模型預(yù)測:經(jīng)過多次修改擬合建立合適的ARIMA模型,并對2014年1月-12月的發(fā)病數(shù)進(jìn)行預(yù)測,將預(yù)測值與實(shí)際值做比較,評價預(yù)測的精確度。
3.統(tǒng)計(jì)學(xué)處理
本文利用HP濾波法對2008年1月-2014年的月發(fā)病數(shù)據(jù)序列進(jìn)行分解,以掌握該數(shù)列的時間特征。運(yùn)用eviews8.0軟件對2008年1月-2013年12月建立SARMA模型。
1.疫情趨勢特征分析
繪制數(shù)據(jù)的時間序列圖,并利用HP濾波法對序列數(shù)據(jù)進(jìn)行趨勢與循環(huán)要素的分解,結(jié)果如圖1,可以觀察到該時間序列的長期趨勢幾乎呈一條直線,具有明顯的季節(jié)性周期波動特征,周期為12,每年7月為峰值。
圖1 2008年1月-2014年12月手足口病逐月發(fā)病數(shù)據(jù)趨勢分解圖
2.建立模型
(1)數(shù)據(jù)平穩(wěn)性檢驗(yàn)
采用ADF單位根方法對數(shù)據(jù)的平穩(wěn)性進(jìn)行檢驗(yàn),原假設(shè)為:該序列存在單位根,即該序列為非平穩(wěn)時間序列。結(jié)果表明,檢驗(yàn)統(tǒng)計(jì)量為-2.91,檢驗(yàn)統(tǒng)計(jì)量的5%臨界值為-1.94,而MacKinnon檢驗(yàn)的P值小于0.05,認(rèn)為該時間序列為平穩(wěn)序列。
(2)模型的識別
進(jìn)一步分析該序列的自相關(guān)和偏自相關(guān)圖(如圖2所示),可以看到,該序列的自相關(guān)函數(shù)在滯后階數(shù)為12、24處出現(xiàn)峰值,并呈余弦衰減,序列的偏自相關(guān)函數(shù)是拖尾的,僅在滯后階數(shù)為1和2處取值較大,可考慮對該序列建立季節(jié)性乘積SARMA模型,p選1或者2,移動平均滯后階數(shù)q選1,根據(jù)文獻(xiàn)[2],一般季節(jié)性AR和MA的自回歸算子階數(shù)不超過1。
圖2 序列的ACF圖和PACF圖
(3)模型的估計(jì)與建立
根據(jù)上文分析,利用2008年1月到2013年12月的發(fā)病數(shù)進(jìn)行低階擬合,分別建立SARIMA(1,1)×(1,1)12和SARIMA(2,1)×(1,1)12模型,其結(jié)果如表1所示。SARIMA(1,1)×(1,1)12模型的AIC和SC信息準(zhǔn)則都比SARIMA(2,1)×(1,1)12模型要小,調(diào)整R2大于后者,因此選擇SARIMA(1,1)×(1,1)12進(jìn)行建模,其結(jié)果如表1所示。
表1 模型的比較
表2 SARIMA(1,1)×(1,1)12模型系數(shù)估計(jì)結(jié)果
模型的系數(shù)結(jié)果表明,一階自相關(guān)系數(shù)及常數(shù)項(xiàng)沒有通過顯著性檢驗(yàn),其余均通過了顯著性檢驗(yàn),對模型進(jìn)行調(diào)整,嘗試建立SARIMA(0,1)×(1,1)12模型,結(jié)果模型系數(shù)均高度顯著,為了驗(yàn)證該模型是否很好的擬合了原始序列數(shù)據(jù),對該模型的殘差繪制出自相關(guān)和偏自相關(guān)圖,結(jié)果如圖3所示,殘差的自相關(guān)和偏自相關(guān)系數(shù)基本上都在置信區(qū)間里面,同時Q-stat檢驗(yàn)表明該殘差為一個白噪聲序列,說明上述模型已經(jīng)很好的解釋了原始變量的特征,擬合情況比較好,可以用于預(yù)測。
圖3 殘差的ACF圖和PACF圖
(4)模型的預(yù)測
用構(gòu)建的模型預(yù)測2014年1月到12月的發(fā)病情況,其中Theil系數(shù)為0.115236,接近0,偏差率(BP)=0.222,方差率(VP)=0.031,斜變率(CP)=0.747,說明預(yù)測精度高,效果理想[3],平均相對誤差為21.58%。其結(jié)果如表3所示。
時間序列分析是通過研究歷史數(shù)據(jù)內(nèi)在的發(fā)展規(guī)律及相依關(guān)系,利用時序自身的變化規(guī)律來預(yù)測未來某時刻的取值,它最早由美國學(xué)者博克斯和英國學(xué)者詹金斯提出來,并廣泛地應(yīng)用于經(jīng)濟(jì)、金融等研究領(lǐng)域。近年來,由于該方法避免了回歸分析中分析對象的影響因素復(fù)雜和數(shù)據(jù)資料不易獲得的難題,分析過程簡便、經(jīng)濟(jì)、易操作,因而在甲肝、流感、流行性腮腺炎等很多傳染病的分析預(yù)測中得到了應(yīng)用[4-5]。本文繪制的手足口病的時間序列趨勢圖,清楚地顯示了本地區(qū)手足口病疫情發(fā)展具有明顯的季節(jié)性特征,每年的6月、7月、8月為高發(fā)期,發(fā)病數(shù)雖然波動很大,但呈現(xiàn)總體趨勢平穩(wěn)狀態(tài)。這為防控工作提供了重要依據(jù)和參考。通過對2008年-2013年72個月發(fā)病數(shù)據(jù)的擬合,建立的模型總體上很好地把握了疫情的發(fā)展趨勢,尤其是對6-8月流行期的預(yù)測基本上達(dá)到了應(yīng)有的效果。值得注意的是,影響手足口病發(fā)病水平的因素比較多,它與個體的體質(zhì)、感染病原、衛(wèi)生保健意識、生活習(xí)慣、居住環(huán)境等息息相關(guān)[6],在實(shí)際應(yīng)用中,應(yīng)借助數(shù)理模型的技術(shù)手段結(jié)合豐富的工作經(jīng)驗(yàn),合理建立模型以準(zhǔn)確預(yù)測疫情發(fā)展趨勢,為防控工作提供有力的科學(xué)依據(jù)。
表3 2014年遼寧手足口病各月發(fā)病數(shù)預(yù)測值
預(yù)測結(jié)果與實(shí)際值比較而言,雖然模型較好地?cái)M合了往期的數(shù)據(jù),但整體預(yù)測低估了實(shí)際發(fā)病水平,且自9月之后預(yù)測值與實(shí)際值的誤差逐漸加大。分析原因:一方面,序列的趨勢分解圖提示我們發(fā)病疫情除了具有很強(qiáng)的季節(jié)性波動,在長期趨勢上存在著2年的流行周期,這一點(diǎn)不容忽視。另一方面,時間序列分析是一種適合短期預(yù)測的技術(shù),隨著預(yù)測期的延長,會加大誤差,降低預(yù)測的精度。因此,在今后的工作中,可以繼續(xù)累積新數(shù)據(jù),加入流行的周期因素修正模型,也可以探尋影響手足口病發(fā)病產(chǎn)生季節(jié)性波動的主要因素,構(gòu)建多變量的時間序列分析,進(jìn)而提高預(yù)測精度,能更準(zhǔn)確地指導(dǎo)防控工作。
[1]薛永剛,張明麗.基于HP濾波和神經(jīng)網(wǎng)絡(luò)的疾病預(yù)測模型實(shí)證研究.?dāng)?shù)理醫(yī)藥學(xué)雜志,2013,26(2):130-132.
[2]博克斯,詹金斯等著,王成璋等譯.時間序列分析預(yù)測與控制.機(jī)械工業(yè)出版社,2011,224-225.
[3]易丹輝主編.?dāng)?shù)據(jù)分析與EVIEWS應(yīng)用.北京:中國人民大學(xué)出版社,2008:54-55.
[4]陸波,閔思韜,閔紅星等.應(yīng)用ARIMA模型預(yù)測麻疹發(fā)病率的可行性研究..中國衛(wèi)生統(tǒng)計(jì),2015,32(1):106-107.
[5]朱猛,祖榮強(qiáng),霍翔等.時間序列在流感疫情預(yù)測預(yù)警中的應(yīng)用.中華預(yù)防醫(yī)學(xué)雜志,2011,45(12):1108-1111.
[6]袁國平,郭祖鵬,楊興堂,等.手足口病發(fā)病影響因素病例對照研究.中國公共衛(wèi)生,2011,27(11):1407-1409.
(責(zé)任編輯:鄧 妍)
國家科技重大專項(xiàng)(2012ZX10004-209)
△通信作者:姚文清,E-mail:yaowenqing@lncdc.com