海南省疾病預(yù)防控制中心(570203) 陳 莉
細(xì)菌性痢疾是海南省高發(fā)傳染病之一,其發(fā)病率一直居海南省法定甲乙類(lèi)傳染病前6位,是影響我省公眾健康的主要傳染病。近年來(lái)針對(duì)傳染病流行規(guī)律以及預(yù)測(cè)方法的研究逐漸成為疾病防控工作中的熱點(diǎn)〔1〕,本文利用海南省細(xì)菌性痢疾發(fā)病資料,采用時(shí)間序列分析法中自回歸滑動(dòng)平均混合模型法(auto regressive integrated moving average,ARIMA)建立預(yù)測(cè)模型,探討細(xì)菌性痢疾發(fā)病趨勢(shì)的預(yù)測(cè)方法,為我省的細(xì)菌性痢疾防制工作提供科學(xué)依據(jù)。
1.資料來(lái)源
資料來(lái)源于國(guó)家法定傳染病監(jiān)測(cè)報(bào)告系統(tǒng)。醫(yī)療機(jī)構(gòu)中首診醫(yī)生經(jīng)過(guò)培訓(xùn),按照傳染病報(bào)告管理規(guī)范,在系統(tǒng)中對(duì)病例進(jìn)行實(shí)時(shí)報(bào)告,可以保證數(shù)據(jù)的準(zhǔn)確性、完整性和可靠性。
2.建立模型基本原理與方法
時(shí)間序列分析基本原理是將預(yù)測(cè)對(duì)象隨時(shí)間推移而形成的數(shù)據(jù)序列視為一個(gè)隨機(jī)序列,即除去個(gè)別偶然的原因引起的觀測(cè)值外,時(shí)間序列是一組依賴(lài)于時(shí)間t的隨機(jī)變量,這組隨機(jī)變量所具有的依存關(guān)系或自相關(guān)性表征了預(yù)測(cè)對(duì)象發(fā)展的延續(xù)性,而這種自相關(guān)性一旦被相應(yīng)的數(shù)學(xué)模型描述出來(lái),就可以從時(shí)間序列的過(guò)去值及現(xiàn)在值預(yù)測(cè)未來(lái)值〔2,3〕。本文使用的自回歸滑動(dòng)平均混合模型法簡(jiǎn)記為ARIMA(p,d,p)模型。運(yùn)用SPSS11.5軟件進(jìn)行統(tǒng)計(jì)預(yù)測(cè)分析。
1.序列平穩(wěn)化檢驗(yàn)
繪制2000年1月~2009年12月海南省細(xì)菌性痢疾發(fā)病率的時(shí)間序列圖,時(shí)間單位定義為年月型,起始點(diǎn)為2000年1月。時(shí)序圖顯示2000~2009年各月細(xì)菌性痢疾發(fā)病率始終圍繞在1.25/10萬(wàn)附近隨機(jī)波動(dòng),沒(méi)有明顯的趨勢(shì)和季節(jié)性分布特征(圖1)。為穩(wěn)妥起見(jiàn),我們?cè)倮脮r(shí)間序列自相關(guān)圖進(jìn)一步輔助識(shí)別,自相關(guān)圖顯示,周期性的余弦衰減,即具有“偽周期”性質(zhì),這些都是平穩(wěn)序列常見(jiàn)的特征〔4,5〕。經(jīng)分析,原始數(shù)據(jù)可視為平穩(wěn)序列,因此無(wú)需變換和差分處理(圖2)。
圖1 海南省2000~2009年細(xì)菌性痢疾各月發(fā)病率時(shí)序圖
2.模型識(shí)別
自相關(guān)圖顯示超過(guò)5%的樣本自相關(guān)系數(shù)落入了2倍標(biāo)準(zhǔn)差范圍之外,且序列由顯著非零的相關(guān)系數(shù)衰減為小值波動(dòng)過(guò)程比較慢或者非常連續(xù),可視為不截尾。偏自相關(guān)圖顯示,除了延遲1階的偏自相關(guān)系數(shù)大于2倍標(biāo)準(zhǔn)差之外,其他的偏自相關(guān)系數(shù)都在2倍標(biāo)準(zhǔn)差范圍內(nèi)做小值隨機(jī)波動(dòng),而且由非零相關(guān)系數(shù)衰減為小值波動(dòng)的過(guò)程非常突然,所以該偏自相關(guān)系數(shù)可視為1階截尾〔4,5〕。綜合該序列自相關(guān)系數(shù)和偏自相關(guān)系數(shù)的性質(zhì),初步選定 ARIMA(1,0,0)、ARIMA(0,0,1)、ARIMA(1,0,1)3 個(gè)模型進(jìn)行擬合預(yù)測(cè)。見(jiàn)圖2、圖3
圖2 海南省2000~2009年細(xì)菌性痢疾各月發(fā)病率序列自相關(guān)圖
3.參數(shù)估計(jì)與檢驗(yàn)
根據(jù)備選模型進(jìn)行參數(shù)估計(jì)與檢驗(yàn),結(jié)果顯示模型 ARIMA(1,0,0)和 ARIMA(0,0,1)參數(shù)均有統(tǒng)計(jì)學(xué)意義,ARIMA(1,0,1)模型中MA1參數(shù)無(wú)統(tǒng)計(jì)學(xué)意義,見(jiàn)表1。
圖3 海南省2000~2009年細(xì)菌性痢疾各月發(fā)病率序列偏自相關(guān)圖
4.模型檢驗(yàn)
經(jīng)過(guò)參數(shù)檢驗(yàn),ARIMA(1,0,1)模型被剔除,殘差序列白噪聲檢驗(yàn)顯示,模型ARIMA(1,0,0)的LB檢驗(yàn)統(tǒng)計(jì)量差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05),可認(rèn)為殘差序列為白噪聲,而ARIMA(0,0,1)模型LB檢驗(yàn)統(tǒng)計(jì)量差異有統(tǒng)計(jì)學(xué)意義(P<0.05),表明殘差序列為非白噪聲。
表1 備選ARIMA模型參數(shù)估計(jì)結(jié)果
5.模型優(yōu)化
通過(guò)對(duì)3個(gè)模型的AIC和BIC值進(jìn)行比較,結(jié)果顯示ARIMA(1,0,0)模型的AIC、BIC 值為最小,表明該模型是最適合本次研究,是該序列的有效最優(yōu)擬合模型,見(jiàn)表2。
6.預(yù)測(cè)應(yīng)用
根據(jù)所建模型對(duì)2000年1月至2009年12月的細(xì)菌性痢疾發(fā)病率進(jìn)行回代預(yù)測(cè)(組內(nèi)回代),以及對(duì)2010年1~9月發(fā)病率進(jìn)行組外回代預(yù)測(cè),結(jié)果顯示,細(xì)菌性痢疾月發(fā)病率預(yù)測(cè)數(shù)據(jù)與實(shí)際數(shù)據(jù)基本吻合,趨勢(shì)基本相同,且均落入95%可信區(qū)間范圍中。見(jiàn)圖4
表2 備選ARIMA模型擬合優(yōu)化結(jié)果比較
圖4 海南省2000年1月~2010年9月細(xì)菌性痢疾各月發(fā)病率序列預(yù)測(cè)圖
7.預(yù)測(cè)結(jié)果驗(yàn)證評(píng)價(jià)
時(shí)間序列分析主要目的在于對(duì)未來(lái)值進(jìn)行預(yù)測(cè)以評(píng)估其發(fā)展趨勢(shì),本研究對(duì)2010年1~9月細(xì)菌性痢疾發(fā)病率進(jìn)行短期預(yù)測(cè),預(yù)測(cè)結(jié)果為預(yù)測(cè)值與實(shí)際值之間平均絕對(duì)誤差為0.07,平均相對(duì)誤差為9.61%。見(jiàn)表3。
表3 2010年海南省細(xì)菌性痢疾發(fā)病率預(yù)測(cè)評(píng)價(jià)結(jié)果
1.ARIMA預(yù)測(cè)模型基于原始時(shí)間數(shù)據(jù)序列,利用任何事物發(fā)展均具有一定慣性趨勢(shì)的原理,建立時(shí)間序列模型,達(dá)到預(yù)測(cè)的目的。該方法將各種影響疾病發(fā)生發(fā)展錯(cuò)綜復(fù)雜因素的綜合效應(yīng)統(tǒng)一蘊(yùn)含于時(shí)間變量之中,綜合考慮了序列的趨勢(shì)變化、周期變化和隨機(jī)干擾并借助模型參數(shù)進(jìn)行量化表達(dá),而且可以通過(guò)反復(fù)識(shí)別修改獲得滿(mǎn)意的模型〔6〕。ARIMA預(yù)測(cè)模型既吸收了回歸分析的優(yōu)點(diǎn)又發(fā)揮了移動(dòng)平均的長(zhǎng)處,具有適用范圍廣,實(shí)用性強(qiáng)、預(yù)測(cè)誤差小的特點(diǎn),是一種預(yù)測(cè)精確度較高的短期預(yù)測(cè)方法。近年來(lái),該方法已廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域各方面,特別是傳染病的發(fā)病或死亡的預(yù)測(cè)預(yù)報(bào)工作〔6-9,11〕。
2.本文利用2000~2009年海南省細(xì)菌性痢疾發(fā)病資料,通過(guò)識(shí)別、估計(jì)、診斷等過(guò)程擬合建立了ARIMA(1,0,0)預(yù)測(cè)模型,結(jié)果顯示,細(xì)菌性痢疾各月發(fā)病率實(shí)際值均落入預(yù)測(cè)值的可信區(qū)間范圍,預(yù)測(cè)值的動(dòng)態(tài)趨勢(shì)與實(shí)際情況基本一致吻合,2010年1~9月驗(yàn)證數(shù)據(jù)顯示,平均絕對(duì)誤差較小,平均相對(duì)誤差小于10%〔7〕,表明利用ARIMA模型預(yù)測(cè)海南省細(xì)菌性痢疾發(fā)病趨勢(shì)的可行性。另一方面也顯示了預(yù)測(cè)的實(shí)用性和應(yīng)用價(jià)值,根據(jù)發(fā)病率既往的變化規(guī)律(線(xiàn)性趨勢(shì)、季節(jié)性、周期性等),如果實(shí)際發(fā)病率在預(yù)測(cè)值95%可信區(qū)間范圍內(nèi)波動(dòng),表明當(dāng)月疫情基本正常,如果超出預(yù)測(cè)值95%可信限范圍,應(yīng)提示并警惕傳染病的暴發(fā)或流行的可能,可以為傳染病預(yù)警預(yù)報(bào)及干預(yù)提供依據(jù)〔8〕。
3.本研究證實(shí)了ARIMA模型法能夠較好地用于細(xì)菌性痢疾發(fā)病的預(yù)測(cè),該模型在其他傳染病發(fā)病預(yù)測(cè)中的應(yīng)用也值得進(jìn)一步探討。由于不同病種,不同地區(qū)、不同時(shí)間段傳染病發(fā)生發(fā)展的流行規(guī)律不同,構(gòu)建的模型也不盡相同,單次分析建立的ARIMA模型,不能作為永久不變的預(yù)測(cè)工具,只能用于短期預(yù)測(cè)。因?yàn)槿魏我粋€(gè)預(yù)測(cè)模型都有其使用時(shí)限,因此將ARIMA模型法應(yīng)用到其他地區(qū)或病種預(yù)測(cè)時(shí),應(yīng)該考慮隨著事件不斷發(fā)展變化,及時(shí)利用新的數(shù)據(jù)對(duì)其修訂〔9〕,才能適應(yīng)使用需要,從而達(dá)到較好預(yù)測(cè)效果。
4.使用ARIMA模型法進(jìn)行預(yù)測(cè),應(yīng)當(dāng)注意,如果研究對(duì)象慣性趨勢(shì)發(fā)生很大改變,如采取了干預(yù)措施(預(yù)防接種、加強(qiáng)環(huán)境治理)以及出現(xiàn)新發(fā)傳染病等,很大程度上改變了以往的流行規(guī)律,此時(shí)應(yīng)當(dāng)結(jié)合實(shí)際情況全面考慮謹(jǐn)慎使用預(yù)測(cè)結(jié)果,并且需要累積新的數(shù)據(jù)對(duì)模型進(jìn)行修正,或重新擬合〔9-11〕,方可達(dá)到有效預(yù)測(cè)。
1.鄧甦,李曉毅.馬爾科夫鏈在呼吸道傳染病預(yù)測(cè)中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(6):615-616.
2.孫振球.醫(yī)學(xué)統(tǒng)計(jì)學(xué).北京:人民衛(wèi)生出版社,2002:358-371.
3.Jack P.Interacrive Comparision of Forecasting Method.Time Series A-nalysis,1984:444-459.
4.王燕.應(yīng)用時(shí)間序列分析.北京:中國(guó)人民大學(xué)出版社,2005:16-90.
5.張文彤.SPSS11統(tǒng)計(jì)分析教程(高級(jí)篇).北京:北京希望電子出版社,2002:250-285.
6.史繼先,張文增,冀國(guó)強(qiáng),等.ARIMA模型在流感樣病例預(yù)測(cè)預(yù)警中的應(yīng)用.首都公共衛(wèi)生,2010,4(1):15-16.
7.彭志行,鮑昌俊,趙揚(yáng),等.ARIMA乘積季節(jié)模型及其在傳染病發(fā)病預(yù)測(cè)中的應(yīng)用.數(shù)理統(tǒng)計(jì)與管理,2008,27(2):365-367.
8.吳家兵,葉臨湘,尤爾科.ARIMA模型在傳染病發(fā)病率預(yù)測(cè)中的應(yīng)用.數(shù)理醫(yī)藥學(xué)雜志,2007,20(1):92.
9.李娜,殷菲,李曉松.時(shí)間序列分析在結(jié)核病預(yù)測(cè)應(yīng)用中的初步探討.現(xiàn)代預(yù)防醫(yī)學(xué),2010,37(8):1428.
10.趙亮,吳艷喬,彭丹,等.運(yùn)用ARIMA模型對(duì)我國(guó)人均衛(wèi)生費(fèi)用的預(yù)測(cè).現(xiàn)代預(yù)防醫(yī)學(xué),2010,37(3):412.
11.牟瑾,謝旭,李媛,等.將ARIMA模型應(yīng)用于深圳市1980-2007年重點(diǎn)法定傳染病預(yù)測(cè)分析.預(yù)防醫(yī)學(xué)論壇,2009,15(11):1052-1053.