南通市疾病預(yù)防控制中心(226007)
陶長余 張志蘭△
應(yīng)用SARIMA模型預(yù)測南通市流行性腮腺炎發(fā)病趨勢
南通市疾病預(yù)防控制中心(226007)
陶長余 張志蘭△
季節(jié)性自回歸移動(dòng)平均(seasonal autoregressive integrated moving average,SARIMA)模型是重要的時(shí)間序列模型之一,適用于有季節(jié)變動(dòng)規(guī)律的單因素時(shí)間序列[1],應(yīng)用較為廣泛[2-3],亦被用于疾病發(fā)病趨勢預(yù)測[4-5]。流行性腮腺炎是一種由腮腺炎病毒引起的急性呼吸道傳染病,患者主要是學(xué)齡兒童,冬春季高發(fā)[6]。近年來,南通市學(xué)校及幼托機(jī)構(gòu)常發(fā)生腮腺炎的流行和爆發(fā),給正常教學(xué)秩序造成影響。為探索本市流行性腮腺炎疫情變動(dòng)規(guī)律及未來趨勢,本研究擬采用SARIMA模型擬合腮腺炎疫情波動(dòng),并建立模型,預(yù)測未來發(fā)病趨勢。
1.資料
南通市流行性腮腺炎發(fā)病數(shù)據(jù)(2004-2014年)來源于中國疾病預(yù)防控制信息管理系統(tǒng)。
2.方法
季節(jié)乘積ARIMA模型是假定季節(jié)相關(guān)與普通相關(guān)交互作用下建立的乘法模型,用符號(hào)表示記為:ARIMA(p,d,q)×(P,D,Q)s,模型結(jié)構(gòu)的數(shù)學(xué)表達(dá)為:Φ(B)ΦS(B)▽d▽=Θ(B)ΘS(B)εt。B為后移算子,p、d、q(P、D、Q)分別為(季節(jié))自回歸階數(shù)、差分次數(shù)和移動(dòng)平均階數(shù),S為周期步長[7]。主要步驟包括:①序列平穩(wěn)化:采用自然對數(shù)轉(zhuǎn)換、差分和季節(jié)差分等方法,使序列平穩(wěn)化,對變換序列平穩(wěn)性進(jìn)行單位根(ADF)檢驗(yàn)。②模型識(shí)別:根據(jù)變換后序列的自相關(guān)(ACF)和偏自相關(guān)(PACF)圖,確定 p、d、q和P、D、Q,S根據(jù)疾病的背景知識(shí)獲得。③參數(shù)估計(jì)及檢驗(yàn):使用最小二乘法估計(jì)模型參數(shù),并進(jìn)行檢驗(yàn),檢驗(yàn)水準(zhǔn)α=0.05。④模型診斷及優(yōu)化:選用Box-Ljung Q統(tǒng)計(jì)量對殘差進(jìn)行檢驗(yàn),檢驗(yàn)水準(zhǔn)α=0.05。按照施瓦茨準(zhǔn)則(SC)優(yōu)選模型。⑤模型預(yù)測:利用所建模型進(jìn)行預(yù)測。本文擬用2004年1月-2014年6月南通市腮腺炎月發(fā)病數(shù)構(gòu)建模型,對2014年7月-2014年12月發(fā)病數(shù)進(jìn)行前瞻性預(yù)測,與實(shí)際值比較以檢驗(yàn)?zāi)P皖A(yù)測效果。
3.統(tǒng)計(jì)學(xué)處理使用
Eviews 8.0軟件進(jìn)行計(jì)算分析。
對南通市2004-2014年流行性腮腺炎月發(fā)病數(shù)分析發(fā)現(xiàn),2004、2006、2012-2013年疫情相對嚴(yán)重,月發(fā)病數(shù)季節(jié)波動(dòng)幅度較大,3-7月為發(fā)病高峰季節(jié),少數(shù)年度存在雙峰現(xiàn)象,分別位于12-1月和4-5月(見圖1)。
1.序列平穩(wěn)化
2004年1月-2014年6月南通市腮腺炎月發(fā)病數(shù)隨時(shí)間波動(dòng),為降低波動(dòng)影響,對原始序列進(jìn)行自然對數(shù)轉(zhuǎn)換,經(jīng)單位根檢驗(yàn),顯示轉(zhuǎn)換后序列為平穩(wěn)序列(t=-4.3660,P=0.0005),故無須再作差分。
圖1 南通市2004-2015年腮腺炎發(fā)病數(shù)預(yù)測圖
圖2 經(jīng)自然對數(shù)轉(zhuǎn)換后序列的ACF和PACF圖
2.模型識(shí)別
序列未差分,故d=D=0。結(jié)合圖2,可能的(p,q)組合有:(1,0)、(1,3)、(0,3)。由于滯后期 k=12、24、36時(shí),樣本自相關(guān)系數(shù)顯著不為0,故P=0,Q=3。
3.參數(shù)估計(jì)及檢驗(yàn)
對上述組合進(jìn)行參數(shù)估計(jì)和檢驗(yàn),部分模型的部分參數(shù)不顯著(P>0.05),對冗余參數(shù)進(jìn)行剔除,并經(jīng)反復(fù)試驗(yàn),存在以下待選模型:(1,0,3)×(0,0,3)12、(1,0,1)×(0,0,3)12、(1,0,0)×(0,0,0)12和(0,0,3)×(0,0,3)12。
4.模型診斷及優(yōu)化
模型 ARIMA(0,0,3)×(0,0,3)12未通過殘差序列獨(dú)立性檢驗(yàn)(p<0.001),表明序列信息未被充分提取。根據(jù)施瓦茨準(zhǔn)準(zhǔn)則,比較其他3個(gè)模型的SC值,認(rèn)為選擇 ARIMA(1,0,1)×(0,0,3)12較為合適,模型表達(dá)式為:ln xt(1-0.9829B)=(1+0.2451B)(1-0.2323B12)(1-0.8655B24)(1-0.3017B36)εt(見表1)。
表1 待選模型檢驗(yàn)結(jié)果
5.模型預(yù)測
利用該模型對2014年7-12月發(fā)病數(shù)進(jìn)行前瞻性預(yù)測,預(yù)測值與實(shí)際數(shù)相對誤差平均值為 -36.83%,預(yù)測效果較好(見表2)。
表2 模型預(yù)測效果比較
將2014年7-12月實(shí)際數(shù)據(jù)加入原序列,擬合原序列并預(yù)測2015年月發(fā)病數(shù)。圖1顯示,2004-2014年病例數(shù)擬合值與實(shí)際值基本相符,模型擬合較好。對2015年發(fā)病情況預(yù)測結(jié)果顯示,2015年總體發(fā)病水平低于前11年中各年度發(fā)病水平,但月發(fā)病數(shù)波動(dòng)明顯,發(fā)病高峰季節(jié)為2-5月。
腮腺炎具有隱性感染率高、潛伏期長、前驅(qū)癥狀不典型等特點(diǎn)[6],易于在中小學(xué)校和幼兒園等集體單位形成爆發(fā)。自2004年開展監(jiān)測報(bào)告以來,流行性腮腺炎發(fā)病率一直穩(wěn)居南通市法定傳染病發(fā)病率的前10位,2012至2014年連續(xù)3年位居第4位,2013年腮腺炎爆發(fā)疫情占該市突發(fā)公共衛(wèi)生事件總起數(shù)的25%,開展對流行性腮腺炎疫情的監(jiān)測和預(yù)測工作尤為必要。
ARIMA模型能夠較好地?cái)M合時(shí)間序列中的長期趨勢、周期因素、隨機(jī)波動(dòng)等效應(yīng)。當(dāng)這些因素之間有著復(fù)雜的交互影響時(shí),簡單的ARIMA模型對上述因素的相關(guān)關(guān)系提取不足[1]。對于季節(jié)效應(yīng)明顯的傳染病疫情時(shí)間序列,運(yùn)用季節(jié)乘積ARIMA模型進(jìn)行數(shù)據(jù)擬合和短期預(yù)測,效果較好[8-9]。本文構(gòu)建季節(jié)乘積ARIMA模型,擬合效果較好,對于該市流行性腮腺炎疫情的預(yù)測預(yù)警具有一定的指導(dǎo)意義。ARIMA季節(jié)乘積模型預(yù)測結(jié)果提示,2015年總體發(fā)病水平略低于前11年中各年度發(fā)病水平,季節(jié)波動(dòng)明顯,須加強(qiáng)疫情監(jiān)測、疫苗接種、健康教育等相關(guān)防控措施落實(shí),減少和避免規(guī)模性聚集疫情的出現(xiàn)。
[1]王燕主編.應(yīng)用時(shí)間序列分析.第3版.北京:中國人民大學(xué)出版社,2012:156-160.
[2]Kao JJ,Huang SS.Forecasts using neural network versus Box-Jenkins methodology for ambient air quality monitoring data.J Air Waste ManagAssoc,2000,50(2):219-226.
[3]羅長壽,周麗英.季節(jié)時(shí)間序列模型在平菇價(jià)格預(yù)測中的應(yīng)用.貴州農(nóng)業(yè)科學(xué),2013,41(11):202-204.
[4]彭志行,陶紅,賈成梅,等.時(shí)間序列分析在麻疹疫情預(yù)測預(yù)警中的應(yīng)用研究.中國衛(wèi)生統(tǒng)計(jì),2010,27(5):459-463.
[5]胡建利,梁祁,吳瑩,等.季節(jié)時(shí)間序列模型在菌痢發(fā)病預(yù)測中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2012,29(1):34-36.
[6]楊紹基,任紅主編.傳染病學(xué).第7版.北京:人民衛(wèi)生出版社,2008:79-82.
[7]易丹輝主編.數(shù)據(jù)分析與Eviews應(yīng)用.北京:中國人民大學(xué)出版社,2008:122-148.
[8]朱猛,祖榮強(qiáng),霍翔,等.時(shí)間序列分析在流感疫情預(yù)測預(yù)警中的應(yīng)用.中華預(yù)防醫(yī)學(xué)雜志,2011,45(12):1108-1111.
[9]王超,丁勇,陸群,等.ARIMA乘積季節(jié)模型在我國甲肝發(fā)病預(yù)測中的應(yīng)用.南京醫(yī)科大學(xué)學(xué)報(bào):自然科學(xué)版,2014,34(1):75-79.
△通信作者:張志蘭
郭海強(qiáng))