安淑一趙 卓郭軍巧韓 悅吳 偉方 興周寶森△
應(yīng)用時(shí)間序列模型預(yù)測(cè)遼寧省麻疹疫情*
安淑一1,2趙 卓2郭軍巧2韓 悅2吳 偉1方 興2周寶森1△
目的應(yīng)用時(shí)間序列模型預(yù)測(cè)遼寧省麻疹疫情,進(jìn)一步做好麻疹防控工作。方法用eviews軟件基于遼寧省2000-2012年麻疹月發(fā)病數(shù)進(jìn)行建模。結(jié)果應(yīng)用建立模型為ARIMA(1,0,2)(0,1,1)12,預(yù)測(cè)結(jié)果均方根誤差為8.11,平均絕對(duì)誤差為6.69,平均絕對(duì)百分比誤差為6.25,希爾不等系數(shù)為0.093,協(xié)方差比例為0.932。結(jié)論應(yīng)用ARIMA模型預(yù)測(cè)麻疹疫情,預(yù)測(cè)效果較好。
麻疹 時(shí)間序列 ARIMA 預(yù)測(cè)
麻疹是嚴(yán)重危害兒童健康的一種疾病,患病后易發(fā)生嚴(yán)重的并發(fā)癥,它是由麻疹病毒引起的急性呼吸道傳染病,主要經(jīng)呼吸道傳播,麻疹患者是該病唯一的傳染源。在實(shí)施麻疹疫苗接種前,幾乎每個(gè)兒童都難以幸免麻疹病毒的感染,隨著麻疹疫苗的廣泛應(yīng)用,麻疹發(fā)病在全球得到極為有效的控制。2005年衛(wèi)生部提出在全國(guó)范圍內(nèi)消除麻疹的要求,為了更好的做好麻疹防控工作,早日實(shí)現(xiàn)消除麻疹的目標(biāo),根據(jù)遼寧省麻疹發(fā)病歷史資料,選用隨機(jī)時(shí)間序列中ARIMA模型對(duì)遼寧省2000-2012年麻疹發(fā)病情況進(jìn)行分析,并利用該模型對(duì)2013年上半年麻疹發(fā)病情況進(jìn)行預(yù)測(cè),以期進(jìn)一步做好麻疹防控工作。
ARIMA模型是一種比較成熟的預(yù)測(cè)模型,但只適用于平穩(wěn)時(shí)間序列,在實(shí)際問(wèn)題中,許多時(shí)間序列并不近似為平穩(wěn)時(shí)間序列,所以不能直接用均值為常數(shù)的平穩(wěn)過(guò)程模型建模。但是可以通過(guò)處理產(chǎn)生一個(gè)平穩(wěn)的新時(shí)間序列。若模型包含季節(jié)性成分,則使用乘積季節(jié)模型ARIMA(p,d,q)(P,D,Q)s模型建模。d和D為差分和季節(jié)性差分次數(shù)。其中p、q、P和Q分別表示連續(xù)模型和季節(jié)模型中的自回歸階數(shù)和移動(dòng)平均階數(shù)。s是季節(jié)周期。用B表示后移算子的乘積季節(jié)模型的數(shù)學(xué)形式[1]為
1.資料來(lái)源
2000-2012年遼寧省麻疹病例每月報(bào)告發(fā)病數(shù),數(shù)據(jù)來(lái)源于中國(guó)疾病監(jiān)測(cè)信息報(bào)告管理系統(tǒng)(即傳染病網(wǎng)絡(luò)直報(bào)系統(tǒng))。
2.方法
用Excel2007,EViews 6.0軟件進(jìn)行數(shù)據(jù)處理與分析。ARIMA模型建模過(guò)程按4個(gè)階段[2]進(jìn)行:(1)序列平穩(wěn)化:ARIMA的應(yīng)用需要時(shí)間序列符合平穩(wěn)性的要求;(2)模型的識(shí)別:主要是根據(jù)ACF圖和PACF圖的特征,提出可能的模型作進(jìn)一步分析;(3)模型參數(shù)估計(jì)和模型診斷:對(duì)提出的模型進(jìn)行參數(shù)估計(jì)和診斷,如模型不恰當(dāng),則回到第二階段,重新選定模型;(4)預(yù)測(cè)應(yīng)用:2000-2012年的數(shù)據(jù)用于建立模型,對(duì)2013年1-6月麻疹發(fā)病數(shù)進(jìn)行預(yù)測(cè),比較實(shí)際發(fā)病數(shù)進(jìn)行驗(yàn)證。
1.序列零均值化
對(duì)2000-2012年期間麻疹發(fā)病數(shù)據(jù)做序列圖(見(jiàn)圖1),觀(guān)察序列基本變化趨勢(shì),并對(duì)序列進(jìn)行零均值化處理(見(jiàn)圖2)。
圖1 2010-2012麻疹發(fā)病數(shù)序列圖
圖2 2010-2012麻疹發(fā)病數(shù)序列圖零均值化
2.序列的平穩(wěn)化
一個(gè)平穩(wěn)的隨機(jī)過(guò)程應(yīng)符合以下要求:均數(shù)不隨時(shí)間變化;方差不隨時(shí)間變化,自相關(guān)系數(shù)只與時(shí)間間隔有關(guān),而與所處的時(shí)間無(wú)相關(guān)。上述序列圖發(fā)現(xiàn)2000-2012年期間數(shù)據(jù)的變異程度較大,進(jìn)行單位根檢驗(yàn)(augmented dickey-fuller test,ADF),t值為-1.522,大于5%顯著性水平臨界值-1.943,判斷為非平穩(wěn)時(shí)間序列。
觀(guān)察序列圖,序列有明顯的周期性,故對(duì)序列進(jìn)行1次季節(jié)差分,再進(jìn)行ADF檢驗(yàn),t值為-4.959,小于5%顯著性水平的臨界值-1.943,判斷為平穩(wěn)時(shí)間序列。
3.模型的識(shí)別與定階
序列平穩(wěn)化后,嘗試建立ARIMA(p,d,q)(P,D,Q)12模型。12表示本季節(jié)模型以12個(gè)月為周期。上文已經(jīng)對(duì)序列進(jìn)行了1次季節(jié)差分,故d=0,D=1,目前模型為ARIMA(p,0,q)(P,1,Q)12。對(duì)于p、q、P和Q的確定,可以對(duì)序列做ACF圖和PACF圖(圖3),ACF圖呈正弦波,PACF圖1階后呈現(xiàn)拖尾。故q取1或2,p取1。季節(jié)模型的參數(shù)P、Q判斷較為困難,但根據(jù)文獻(xiàn),參數(shù)超過(guò)2階的情況很少見(jiàn)[3-5],可以分別取0、l、2由低階到高階逐個(gè)試驗(yàn),根據(jù)模型的AIC、SC、殘差情況以及系數(shù)間的相關(guān)性進(jìn)行綜合判斷。
考慮模型納入各參數(shù)有統(tǒng)計(jì)學(xué)意義,且根據(jù)數(shù)據(jù)調(diào)整后的樣本決定系數(shù)(Adjusted R2)、AIC準(zhǔn)則與SC準(zhǔn)則、考慮R2同時(shí),選擇AIC、SC最小時(shí),擬合模型為最優(yōu)模型。最后確定最優(yōu)模型p=1q=2,P=0,Q=1。此時(shí)R2=0.709,AIC=9.418,SC=9.501。模型為ARIMA(1,0,2)(0,1,1)12,(見(jiàn)表1)。
4.判斷殘差序列是否隨機(jī)
本研究建立的ARIMA(1,0,2)(0,1,1)12模型,樣本量為147,最大滯后期取12[6-7],計(jì)算Q統(tǒng)計(jì)量Q12=6.724,P=0.567,判斷殘差為隨機(jī)序列(見(jiàn)圖4),模型可以應(yīng)用。
圖3 平穩(wěn)序列的ACF圖和PACF圖
表1 模型各參數(shù)估計(jì)情況
模型數(shù)學(xué)形式為(1-0.348B)(1-B12)yt=(1-0.523B-0.486B2)(1+0.876B12)εt
5.預(yù)測(cè)
ARIMA(1,0,2)(0,1,1)12模型,預(yù)測(cè)結(jié)果均方根誤差(RMSE)為8.11,平均絕對(duì)誤差(MAE)為6.69,平均絕對(duì)百分比誤差(MAPE)為6.25,希爾不等系數(shù)為0.093,協(xié)方差比例為0.932,表明模型預(yù)測(cè)結(jié)果較為理想[6-7]。
應(yīng)用模型對(duì)傳染病的發(fā)病及流行強(qiáng)度進(jìn)行預(yù)測(cè)預(yù)警有多種方法。流行控制圖法、比數(shù)圖法主要是根據(jù)發(fā)病率的大小和疫情發(fā)展的快慢,推測(cè)疾病發(fā)生或流行的趨勢(shì)或強(qiáng)度。灰色動(dòng)態(tài)模型GM(1,1)將原始序列累加、求均值而生成新的數(shù)列,使得GM(1,1)模型預(yù)測(cè)精度降低。利用人工神經(jīng)網(wǎng)絡(luò)(ANN)模型預(yù)測(cè)發(fā)病率,其難度在于確定網(wǎng)絡(luò)結(jié)構(gòu),即如何確定隱含層的節(jié)點(diǎn)數(shù);隱含層節(jié)點(diǎn)數(shù)太少,預(yù)測(cè)精度無(wú)法保證;節(jié)點(diǎn)數(shù)太多,又易陷入局部極小值,因此如何選擇一個(gè)最佳的網(wǎng)絡(luò)結(jié)構(gòu),成為一個(gè)關(guān)鍵問(wèn)題。小波預(yù)測(cè)模型屬于時(shí)間序列分析方法中的一種,預(yù)測(cè)精度可能稍高于ARIMA模型[8],但計(jì)算步驟復(fù)雜,操作復(fù)雜。時(shí)間序列模型是基于預(yù)測(cè)對(duì)象本身的歷史數(shù)據(jù)隨時(shí)間發(fā)展變化規(guī)律建立數(shù)學(xué)模型而外推的預(yù)測(cè)方法[9-10],在理論上時(shí)間序列模型已經(jīng)有一套明確的準(zhǔn)則,適用于各種復(fù)雜的時(shí)間序列模式,由于將擬合誤差作為重要因素納入模型中,故該模型預(yù)測(cè)精度較高。而且時(shí)間序列預(yù)測(cè)所需要的只是序列本身的歷史數(shù)據(jù),不需要對(duì)時(shí)間序列的發(fā)展模式作先驗(yàn)的假設(shè),因此資料搜集整理簡(jiǎn)單易行,成本較低,而且可以通過(guò)反復(fù)識(shí)別修改,獲得最滿(mǎn)意的模型,因此在傳染病預(yù)測(cè)預(yù)警上有很好的應(yīng)用前景。
圖4 殘差的ACF圖和PACF圖
對(duì)遼寧省2000-2012年逐月麻疹發(fā)病數(shù)數(shù)據(jù)分析,發(fā)現(xiàn)遼寧省麻疹發(fā)病存在明顯的季節(jié)性,每年3、4、5、6月高發(fā),總體發(fā)病率不高,但發(fā)病波動(dòng)較大,2008年后,發(fā)病下降明顯,這與實(shí)際情況相吻合,也為麻疹季節(jié)性防控提供了依據(jù)。由于麻疹發(fā)病的影響因素很多,如人群易感性、衛(wèi)生條件、流動(dòng)人口、發(fā)生疫情后采取的控制措施、全國(guó)疫情形勢(shì)及周邊省份發(fā)病情況對(duì)遼寧省的影響等,這些因素都會(huì)對(duì)預(yù)測(cè)效果產(chǎn)生影響。本研究建立的ARIMA乘積季節(jié)模型,預(yù)測(cè)結(jié)果較好,可以作為指導(dǎo)疫情防控的參考資料。但也應(yīng)該注意到,由于疫情波動(dòng)受到諸多未知隨機(jī)因素的影響,所建立的模型也不是一成不變的,它更適合進(jìn)行短期的預(yù)測(cè),同時(shí)需要不斷添加新的實(shí)際值,以不斷擬合更能反映實(shí)際情況的預(yù)測(cè)模型,并提高預(yù)測(cè)的敏感性。與一般時(shí)間序列模型相比,ARIMA模型需要更多的歷史數(shù)據(jù),當(dāng)實(shí)際問(wèn)題影響因素多,更加復(fù)雜時(shí),模型的建立相對(duì)比較困難,應(yīng)用者需理清思路、對(duì)實(shí)際資料有深刻的理解,并不斷積累經(jīng)驗(yàn),才能獲得更合適的模型。
1.孫振球.醫(yī)學(xué)統(tǒng)計(jì)學(xué).北京:人民衛(wèi)生出版社,2010:390-403.
2.張蔚,張彥琦,楊旭.時(shí)間序列資料ARIMA季節(jié)乘積模型及其應(yīng)用.第三軍醫(yī)大學(xué)學(xué)報(bào),2002,24(8):955-957.
3.賴(lài)圣杰,李中杰,金連梅,等.傳染病暴發(fā)早期預(yù)警系統(tǒng)評(píng)價(jià)內(nèi)容及其指標(biāo).中華流行病學(xué)雜志,2009,30(6):637-640.
4.易丹輝主編.數(shù)據(jù)分析與EVIEWS應(yīng)用.北京:中國(guó)人民大學(xué)出版社,2008:137-140.
5.胡建利,梁祁,吳瑩,等.季節(jié)時(shí)間序列模型在菌痢發(fā)病預(yù)測(cè)中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(1):34-39.
6.宋廷山,劉貴基.基于Eviews軟件的回歸模型優(yōu)選問(wèn)題研究.統(tǒng)計(jì)教育,2007:23-25.
7.彭志行,陶紅,賈成梅,等.時(shí)間序列分析在麻疹疫情預(yù)測(cè)預(yù)警中的應(yīng)用研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(5):459-463.
8.吳學(xué)森,王潔貞,劉云霞,等.腎綜合征出血熱發(fā)病率的小波預(yù)測(cè)模型.中國(guó)公共衛(wèi)生,2004,20(9):1031-1033.
9.Brockwell PJ,Davis RA.Time series:Theory andmethods.2nd edition. NewYork:Springer-Verlag,1991.
10.陶芳芳,趙耐青,何懿,等.廣義相加模型在細(xì)菌性痢疾預(yù)警中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(4):481-483.
(責(zé)任編輯:郭海強(qiáng))
Forecasting M easles Epidem ic Situation by App lying the Time Series M odel in Liaoning Province
An Shuyi,Zhao Zhuo,Guo Junqiao,et al(DepartmentofEpidemiology,ChinaMedicalUniversity(110001),Shenyang)
ObjectiveTo analyze themeasles epidem ic situation by applying the ARIMA of the time seriesmodel,and provide scientific evidence for forecasting measles epidem ic.MethodsThe forecastmodel was set up based on 2000 to 2012 monthly data of the measles surveillance,in Liaoning province by ARIMA mathematics model of eviews software system.ResultsThemeasles time series of Liaoning province accord w ith ARIMA(1,0,2)(0,1,1)12model,and the rootmean square error was 8.11,themean absolute error was 6.69,themean absolute percentage error was 6.25,the theil inequality coefficient was 0.093,and the covariance proportion was 0.932,predicted result was good.ConclusionIt is practical to apply the approach of ARIMA model to predictmeasles epidem ic.
Measles;Time Series;ARIMA;Forecast
國(guó)家自然科學(xué)基金資助項(xiàng)目(30771860);青年科學(xué)基金資助項(xiàng)目(81202254)
1.中國(guó)醫(yī)科大學(xué)流行病與衛(wèi)生統(tǒng)計(jì)教研室(110001)
2.遼寧省疾病預(yù)防控制中心
△通信作者:周寶森,E-mail:bszhou@m(xù)ail.cmu.edu.cn