馮 冰,張 艷,周 方
(武漢市江漢區(qū)疾病預防控制中心,武漢 430015)
·調查報告·
武漢市江漢區(qū)細菌性痢疾發(fā)病率的ARIMA模型預測應用
馮 冰,張 艷,周 方△
(武漢市江漢區(qū)疾病預防控制中心,武漢 430015)
目的探討ARIMA模型在武漢市江漢區(qū)細菌性痢疾月發(fā)病率預測應用的可行性,為該區(qū)細菌性痢疾的防控提供科學參考依據(jù)。方法使用SAS9.2軟件對2005~2013年該區(qū)菌痢月發(fā)病資料擬合ARIMA模型,利用建立的模型對2014年1~6月菌痢月發(fā)病率資料進行預測和效果評價。結果建立ARIMA(0,1,1)X(0,1,1)12模型擬合效果較好,預測2014年上半年疫情將呈緩慢上升趨勢,預測值與實際值擬合趨勢基本一致。結論ARIMA模型可以作為該區(qū)菌痢月發(fā)病水平的短期預測模型。
細菌性痢疾;ARIMA模型;預測
細菌性痢疾(菌痢)是一種由痢疾桿菌引起的常見消化系統(tǒng)傳染病(乙類),人群普遍易感,尤其兒童居多[1]。江漢區(qū)是武漢市7個中心城區(qū)中人口密度最大的地區(qū),菌痢發(fā)病率一直占據(jù)法定報告?zhèn)魅静〉那?位,被細菌污染的食物和水是造成突發(fā)公共衛(wèi)生事件的潛在威脅。研究發(fā)現(xiàn)監(jiān)測資料的分析與預警是預防控制并減少傳染病危害的關鍵舉措[2-5],而時間序列分析ARIMA模型作為傳染病發(fā)病預測的重要工具已得到廣泛應用[6-9],為此本文利用江漢區(qū)菌痢發(fā)病資料建立時間序列模型,探討該模型預測菌痢發(fā)病率的可行性,為該區(qū)菌痢的防控提供科學依據(jù)。
1.1 一般資料 2005~2013年江漢區(qū)細菌性痢疾月發(fā)病數(shù)資料來自中國疾病預防控制信息系統(tǒng),2005~2013年江漢區(qū)常住人口數(shù)來自武漢市統(tǒng)計局發(fā)布的人口統(tǒng)計年鑒。
1.2 方法 以2005年1月至2013年12月的發(fā)病率數(shù)據(jù)建立模型,用2014年1~6月發(fā)病率數(shù)據(jù)用于檢驗模型的預測效果。
1.3 統(tǒng)計學處理 應用SAS9.2軟件進行ARIMA建模:主要有序列的平穩(wěn)性檢驗、平穩(wěn)化處理;平穩(wěn)序列的白噪聲檢驗擬合ARIMA模型;模型診斷、評價;預測檢驗,以P<0.05為差異有統(tǒng)計學意義。
2.1 序列平穩(wěn)化 根據(jù)月發(fā)病數(shù)資料和人口統(tǒng)計資料計算得到2005~2014年菌痢月發(fā)病率數(shù)據(jù),菌痢發(fā)病每年都有明顯的季節(jié)趨勢,每年6~8月為發(fā)病高峰期,2011~2013年發(fā)病率較之前有下降的趨勢。故對原始時間序列進行一階差分和一次季節(jié)性差分后,消除季節(jié)性的趨勢影響,使得序列平穩(wěn)。
圖1 1階12步差分后自相關圖
2.2 模型識別與定階 根據(jù)差分后的時間序列自相關(ACF)圖的性質(圖1),樣本自相關系數(shù)滯后12階顯著在2倍標準差之外,說明差分后仍有顯著的季節(jié)效應,在滯后1階自相關和偏自相關系數(shù)值都在2倍標準差之外,說明序列還具有短期相關性,當滯后階數(shù)大于1時,自相關系數(shù)出現(xiàn)了驟減,顯示1階截尾,偏自相關系數(shù)基本都在95%CI內,呈現(xiàn)一定的衰減。因此,根據(jù)Box-Jenkins理論[6,10-11],初步嘗試擬合乘積季節(jié)模型SARIMA(0,1,1)X(0,1,1)12,SARIMA(1,1,1)X(1,1,1)12,SARIMA(1,1,1)X(0,1,1)12。
表1 備選SARIMA模型檢驗結果
2.3 模型參數(shù)估計與診斷 比較3種模型的擬合效果,結果顯示ARIMA(0,1,1)X(0,1,1)12模型最優(yōu),參數(shù)檢驗均有統(tǒng)計學意義(P<0.01),對該模型的殘差進行白噪聲檢驗,結果在多階延遲后,P>0.05,說明序列信息提取充分,模型擬合良好,見表1、2。
表2 SARIMA(0,1,1)X(0,1,1)12殘差檢驗結果
2.4 預測檢驗模型效果 根據(jù)建立的SARIMA模型對2005年1月至2013年12月的菌痢月發(fā)病率資料進行擬合,結果顯示該模型對2005年1月至2013年12月菌痢月發(fā)病率的預測值與實際值時序曲線基本一致(圖2)。模型預測2014年1~6月的發(fā)病率數(shù)據(jù),實際值均在95%CI范圍之內,預測2014年上半年疫情呈現(xiàn)緩慢上升趨勢,與實際情況一致。預測值與實際值的平均相對誤差(MAPE)為19%,根據(jù)預測模型理論[11-13],MAPE<20%,表示預測效果良好。
圖2 武漢市江漢區(qū)2005年1月至2014年6月菌痢預測月發(fā)病率
2005年1月至2013年12月江漢區(qū)菌痢月發(fā)病率時間序列每一期的數(shù)值,都是由許多不同因素共同作用的結果,諸如人口密度、經(jīng)濟狀況、氣候及環(huán)境流行的變化往往錯綜復雜,因此針對單一因素的分析難以全面把握傳染病的流行規(guī)律與變化趨勢。然而,上述因素與時間單位(年、月、天、周)緊密關聯(lián),而時間序列模型可以在不考慮預測變量的影響因素及其關系的條件,對未來的變化進行預測,具有較高的應用價值[13-16]。其中ARIMA模型綜合考慮趨勢變化、季節(jié)和周期變動以及隨機干擾的影響,是一種短期預測精確度較高的方法[7,10,13,18]。
本文利用2005~2013年江漢區(qū)細菌性痢疾月發(fā)病率資料,建立ARIMA(0,1,1)X(0,1,1)12預測模型,各月發(fā)病率預測值的變化趨勢和實際情況基本一致,效果良好,具有可行性。模型計算出的2014年1月到6月的發(fā)病率數(shù)據(jù)與實際值均在95%的可信區(qū)間內,且疫情趨勢走向基本相同,表示該模型對未來的情況進行了較好的跟蹤與預測。疾病監(jiān)測工作中,通過預測數(shù)據(jù)95%CI的上下限值可以判斷疫情的變化規(guī)律,如果超出預測值95%CI的上限值,則應警惕菌痢暴發(fā)或流行的可能[7,11]。綜上,通過建立合適的ARIMA模型預測對菌痢的風險評估具有一定的應用價值。然而,值得注意的是,一方面,影響菌痢發(fā)病的因素復雜眾多,不同時間、地區(qū)的發(fā)病率存在差異,建構的模型也會存在差異,如本次研究建立模型不同于孫小宇等[16]對北京市西城區(qū)構建的ARIMA(1,0,0)X(0,1,1)12模型和向倫輝等[17]對上海市寶山區(qū)構建的ARIMA(1,1,1)模型與;另一方面,ARIMA模型只能用于短期預測,因此,隨著時間的延伸,應不斷加入新的實際值用以修正或擬合新的預測模型,以提高預測精度,為盡早采取針對性的防控干預措施提供科學依據(jù)[10,13,18-19]。
[1]齊小秋,王宇,衛(wèi)生部疾病預防控制局,等.痢疾防治手冊[M].北京:人民衛(wèi)生出版社,2006:10-15.
[2]陳曦,洪希成,徐興建,等.ARIMA與ARIMAX模型在釘螺密度預測中的應用[J].公共衛(wèi)生與預防醫(yī)學,2014,25(2):6-9.
[3]楊培榮,田輝,嚴釧元.自回歸移動平均模型在寶雞市細菌性痢疾月發(fā)病率預測中的應用[J].公共衛(wèi)生與預防醫(yī)學,2012,23(1):16-19.
[4]古萬曦.談建立疾病預防,疫情監(jiān)測控制系統(tǒng)[J].中國現(xiàn)代醫(yī)院管理雜志,2004,2(3):71-72.
[5]王振家,馬繼勝.新形勢下公共衛(wèi)生監(jiān)測及其意義[J].地方病通報,2007,22(5):78,80.
[6]肖枝洪,郭明月.時間序列分析與SAS應用[M].武漢:武漢大學出版社,2009:1-41.
[7]吳家兵,葉臨湘,尤爾科.ARIMA模型在傳染病發(fā)病率預測中的應用[J].數(shù)理醫(yī)藥學雜志,2007,20(1):90-92.
[8]譚姣,雷靜.ARIMA模型在乙型病毒性肝炎發(fā)病率預測中的應用[J].公共衛(wèi)生與預防醫(yī)學,2013,24(4):8-10.
[9]陳超,田鑫,周劍惠,等.流行性腮腺炎疫情時間序列模型建立與應用[J].中國公共衛(wèi)生,2012,28(2):252-253.
[10]王燕.應用時間序列分析[M].3版.北京:中國人民大學出版社,2012:1-75.
[11]GeogeEP,GwilymM.時間序列分析預測與控制[M].顧嵐,譯.北京:中國統(tǒng)計出版社,1997:75-80.
[12]Khashei M,Bijari M,Hejazi SR.Combining seasonal ARIMA models with computational intelligence techniques for time series forecasting[J].Soft Computing,2012,16(6):1091-1105.
[13]高蕙璇.SAS/ETS軟件使用手冊[M].北京:中國統(tǒng)計出版社,1998:65-106.
[14]楊小兵,汪鵬,江高峰.ARIMA乘積季節(jié)模型在流行性腮腺炎發(fā)病率預測中的應用[J].公共衛(wèi)生與預防醫(yī)學,2013,24(6):39-42.
[15]張澤武,曾耀明,盧展鵬,等.ARIMA模型在東莞市細菌性痢疾預測中的應用[J].中國熱帶醫(yī)學,2013,13(3):327-329.
[16]孫小宇,初艷慧,張震,等.3種預測模型在北京市西城區(qū)痢疾發(fā)病數(shù)預測中的應用與比較[J].現(xiàn)代預防醫(yī)學,2014,41(19):3470-3474.
[17]向倫輝,袁國平,茅儉英.上海市寶山區(qū)細菌性痢疾發(fā)病率的ARIMA模型研究[J].中華疾病控制雜志,2011,15(11):990-992.
[18]張文彤.SPSS11統(tǒng)計分析教程(高級篇)[M].北京:北京希望電子出版社,2002:250-285.
[19]汪鵬,陳邦華,孔德廣,等.求和自回歸移動平均模型在武漢市手足口病疫情預測預警中的應用[J].公共衛(wèi)生與預防醫(yī)學,2015,26(1):26-29.
Application of ARIMA model to forecasting bacillary dysentery in Jianghan District of Wuhan City
FengBing,ZhangYan,ZhouFang△
(CenterofDiseaseControlandPreventionofJianghanDistrict,Wuhan,Hubei430015,China)
ObjectiveTo explore the feasibility of the application of autoregressive integrated moving average(ARIMA)model to forcast the monthly incidence rate of bacillary dysentery in Jianghan District of Wuhan,and to provide scientific references for prevention and control.MethodsSAS 9.2 software was used to fit the ARIMA model for the monthly incidence rate of bacillary dysentery from 2005 to 2013.Thereafter,the fitted model was used to forecast the data from January to June in 2014,and was evaluated by comparing the actual incidence.ResultsThe ARIMA(0,1,1)X(0,1,1)12 model had a better fitted effect,it was predicted that the incidence of bacillary dysentery of Jianghan District of Wuhan City from January to June 2014 would increase slightly,and the forecast data of bacillary dysentery from January 2005 to December 2013 consisted with the actual situation.ConclusionARIMA model can be used as short-term forecasting model to predict the monthly incidence rate of bacillary dysentery in Jianghan District of Wuhan.
bacillary dysentery;ARIMA;forecasting
10.3969/j.issn.1671-8348.2015.29.030
馮冰(1989-),碩士,公衛(wèi)醫(yī)師,主要從事公共衛(wèi)生的研究?!?/p>
,Tel:13387511876;E-mail:358466584@qq.com。
R516.4
A
1671-8348(2015)29-4123-02
2015-04-18
2015-06-06)