中國醫(yī)科大學附屬第一醫(yī)院腫瘤所二室(110001) 孟凡東 吳 迪 隋承光
2004-2015年中國狂犬病發(fā)病數(shù)據(jù)ARIMA乘積季節(jié)模型的建立及預測
中國醫(yī)科大學附屬第一醫(yī)院腫瘤所二室(110001) 孟凡東 吳 迪 隋承光
目的了解我國大陸地區(qū)2004-2015年狂犬病的發(fā)病情況,建立狂犬病發(fā)病的時間序列模型,利用模型進行短期預測,為狂犬病的預防和控制提供參考。方法通過查閱2004-2015年每月的《中華人民共和國衛(wèi)生和計劃生育委員會公報》,獲得狂犬病發(fā)病的月統(tǒng)計數(shù)據(jù),利用2004-2014年的數(shù)據(jù)建立ARIMA乘積季節(jié)模型,并利用建立的模型預測2015年數(shù)據(jù),與實際發(fā)病數(shù)據(jù)比較。結果中國2004-2015年總計報告狂犬病25561例,年平均發(fā)病率為0.1592/10萬,總計報告死亡病例22196例,年平均死亡率為0.1383/10萬,2004年-2007年,狂犬病的發(fā)病人數(shù)和死亡人數(shù)逐年上升,2008年至2015年,持續(xù)下降。狂犬病具有一定的季節(jié)趨勢,其中夏秋季節(jié)報告發(fā)病人數(shù)較多,而冬春季節(jié)發(fā)病人數(shù)較少。根據(jù)2004-2014年發(fā)病資料建立的最優(yōu)時間序列模型為ARIMA(0,1,1)(0,1,1)12,模型預測2015年發(fā)病人數(shù)為764,相對誤差7.73%。結論我國大陸地區(qū)狂犬病發(fā)病在2007年達到峰值之后,之后年發(fā)病率持續(xù)降低。ARIMA乘積季節(jié)模型能很好地擬合狂犬病發(fā)病的長期趨勢和季節(jié)趨勢,回代擬合和短期預測效果較理想。
時間序列 ARIMA乘積季節(jié)模型 狂犬病
狂犬病在世界范圍內(nèi)廣泛存在,每年大約55000人死于狂犬病,其中95%的死亡病例發(fā)生在亞洲和非洲[1]。印度的狂犬病流行最為嚴重,中國緊隨其后,列第二位[2]。在20世紀80年代前,中國每年有數(shù)千例患者感染狂犬病,嚴重威脅人們的生命健康。20世紀90年代,狂犬病的發(fā)病人數(shù)和死亡人數(shù)明顯降低,1996年全年僅報告159例狂犬病感染病例[3-4]。隨后,發(fā)病例數(shù)開始快速增加,2003年全國報告病例數(shù)超過2000例。
狂犬病由狂犬病病毒感染所致,可影響任何動物的中樞神經(jīng)系統(tǒng),但只在哺乳動物間傳播流行[5]。感染者一旦發(fā)展到臨床癥狀的出現(xiàn),狂犬病幾乎100%致死。因此,狂犬病的預防和控制非常關鍵。我國狂犬病病毒的攜帶者主要是家庭豢養(yǎng)的犬,并通過咬傷傳染給人類[6]。在中國,隨著經(jīng)濟的快速發(fā)展和家庭結構的改變,家養(yǎng)寵物狗的數(shù)量急劇上升,導致中國正面臨狂犬病的爆發(fā)流行[7]。
本研究對2004-2015年中國狂犬病的發(fā)病進行描述性分析,并利用2004-2014年的逐月發(fā)病數(shù)據(jù)建立季節(jié)性時間序列模型,對2015年的發(fā)病情況進行預測。
狂犬病的月發(fā)病數(shù)據(jù)來自歷年每月的《國家衛(wèi)生和計劃生育委員會公報》[8],人口數(shù)據(jù)來自《中國衛(wèi)生統(tǒng)計摘要》[9]。
求和自回歸移動平均(autoregressive integrated moving average,ARIMA)[10]模型是時間序列分析方法中重要而基本的模型之一,它用特定的數(shù)學模型描述與時間相關的一組隨機變量之間所具有的自相關性,以掌握預測對象的發(fā)展趨勢,并根據(jù)已獲得的時序資料對其未來進行短期預測。ARIMA乘積季節(jié)模型,即 ARIMA(p,d,q)(P,D,Q)S模型,是隨機季節(jié)模型(stochastic seasonal model)與 ARIMA模型的結合,用于分析擬合不僅含有季節(jié)性成分,還混有非季節(jié)性成分的時間序列資料。其中p、q、d分別為模型非季節(jié)部分的自回歸平均階數(shù)、移動平均階數(shù)、差分次數(shù),P、Q、D分別為季節(jié)性自回歸平均階數(shù)、移動平均階數(shù)、季節(jié)性差分次數(shù),s為一個季節(jié)周期中觀測值的個數(shù)。
ARIMA(p,d,q)(P,D,Q)S模型建模分析過程具體分3個階段進行[11]:(1)模型參數(shù)的確定,利用自相關和偏自相關分析時間序列原始數(shù)據(jù)的隨機性、平穩(wěn)性和季節(jié)性,初步確定模型參數(shù)p、d、q及P、D、Q、s的取值;(2)模型參數(shù)的檢驗,首先采用Box-Ljung檢驗模型的白噪聲,以判斷模型的擬合優(yōu)度,若有兩個或兩個以上的模型通過了Box-Ljung檢驗,則根據(jù)Akaike′s information Criterion(AIC),Schwarz′s Bayesian Criterion(BIC)選擇最適合的模型參數(shù);(3)預測應用,通過對比模型預測值與實際值的差值,評價模型預測的準確性。預測的相對誤差按下式計算:
本研究中 ARIMA(p,d,q)(P,D,Q)S模型的建立、參數(shù)檢驗、預測均借助SPSS 13.0軟件完成[12]。
中國2004-2015年總計報告狂犬病25561例,年平均發(fā)病率為0.1592/10萬,總計報告死亡病例22196例,年平均死亡率為0.1383/10萬,各年情況見表1。2004-2007年,狂犬病的發(fā)病人數(shù)和死亡人數(shù)逐年上升,2008年至2015年,持續(xù)下降。
表1 2004-2015年中國狂犬病發(fā)病及死亡數(shù)據(jù)統(tǒng)計
從狂犬病的逐月發(fā)病人數(shù)看(表2),具有一定的季節(jié)趨勢,其中夏秋季節(jié)發(fā)病人數(shù)較多,而冬春季節(jié)發(fā)病人數(shù)較少,歷年季節(jié)趨勢基本一致,見圖1。
表2 2004-2015年按月統(tǒng)計中國狂犬病發(fā)病及死亡數(shù)
以2004-2014年全國狂犬病報告發(fā)病數(shù)據(jù)構建ARIMA乘積季節(jié)模型。從圖1狂犬病發(fā)病數(shù)據(jù)的原始序列圖可見,狂犬病的發(fā)病數(shù)以年為周期的變化較明顯。2004-2007年,發(fā)病數(shù)逐年上升,2008-2014年發(fā)病數(shù)逐年減少。為獲得平穩(wěn)的序列,先對原始數(shù)據(jù)進行自然對數(shù)轉換,再分別進行一階普通差分和一階季節(jié)性差分,獲得的序列見圖2。對數(shù)轉換和差分后序列的長期趨勢和季節(jié)性趨勢基本消失,數(shù)值圍繞0上下隨機波動,可進一步進行ARIMA模型建模分析。初步判斷模型是以1年(12個月)為周期的季節(jié)乘積 ARIMA模型:ARIMA(p,1,q)(P,1,Q)12,待定參數(shù)p,q為連續(xù)模型部分的自回歸階數(shù)和移動平均階數(shù),P,Q為季節(jié)模型部分的自回歸階數(shù)和移動平均階數(shù)。對于四個待定參數(shù)p,q,P,Q的確定,通常采用從低階到高階逐個嘗試,通過比較各個模型的擬合優(yōu)度確定。一般情況下,超過2階的情況很少見。因此,本研究在確定d=1,D=1后,分別測試了在d=1,D=1的情況下,p,q,P,Q分別取 0,1,2的所有模型,共測試81個模型,綜合考慮模型的殘差白噪聲檢驗(Box-Ljung test)結果,模型參數(shù)的檢驗結果,模型的AIC、BIC等,得到的最優(yōu)模型為 ARIMA(0,1,1)(0,1,1)12。模型的參數(shù)估計結果見表3。模型殘差的Box-Ljung檢驗P>0.05。
圖2 2004-2014年狂犬病發(fā)病數(shù)經(jīng)對數(shù)轉換和一階普通差分、一階季節(jié)差分后的序列圖
表3 最優(yōu)模型 ARIMA(0,1,1)(0,1,1)12參數(shù)估計結果
(1)回代擬合 通過獲得的最優(yōu)模型ARIMA(0,1,1)(0,1,1)12對2004-2014年的發(fā)病數(shù)進行回代擬合,結果如圖3所示,擬合值和實際值基本吻合,119對數(shù)據(jù)的平均擬合誤差為11.21%。
圖3 模型 ARIMA(0,1,1)(0,1,1)12回代擬合比較
(2)預測利用建立的模型對中國2015年狂犬病的發(fā)病數(shù)進行預測,結果見表4。預測結果12個月的平均相對誤差為14.19%,按全年發(fā)病例數(shù)計,相對誤差為7.73%。
表4 模型 ARIMA(0,1,1)(0,1,1)12預測2015年狂犬病發(fā)病結果
迄今為止,狂犬病的病死率幾近100%,是人類病死率最高的急性傳染病,而我國又是全球狂犬病流行最嚴重的國家之一,年報告發(fā)病數(shù)僅次于印度[13]。因此,狂犬病的疫情監(jiān)測和預防控制,仍是我國傳染病防制工作的重中之重。本研究應用ARIMA乘積季節(jié)模型分析了中國狂犬病2004-2015年的發(fā)病情況,原始數(shù)據(jù)來自國家衛(wèi)生行政部分的疫情公報。目的在于找出近年狂犬病的流行特點,并對今后短期的流行做出預測。影響狂犬病流行的因素很多,預測模型往往很難將所有的影響因素納入。在時間序列分析中,認為其他影響因素均包含在時間因子中,將時間因素作為一個綜合影響因子進行模型的擬合與預測[14]。
利用2004-2014年中國狂犬病發(fā)病數(shù)資料,構建ARIMA乘積季節(jié)模型,最終選擇 ARIMA(0,1,1)(0,1,1)12模型。該模型殘差的白噪聲檢驗、模型參數(shù)檢驗、擬合優(yōu)度檢驗均有統(tǒng)計學意義,模型的回代擬合效果和預測效果均可接受。由于時間序列預測法所需要的只是序列本身的歷史數(shù)據(jù),因此,這一類方法在資料收集上的成本很低,有著寬廣的應用前景。但與一般時間序列模型相比,ARIMA乘積季節(jié)模型需要更多的歷史數(shù)據(jù),模型確定中的難點是尋找對序列進行平穩(wěn)性處理的方法,以提高預測模型的精度[15]。
對暴露人群進行預防處置(postexposure prophylaxis,PEP)和疫情監(jiān)測是控制狂犬病的主要措施[15]。PEP主要包括暴露后及時規(guī)范地進行傷口處理、疫苗接種與抗狂犬病血清或人狂犬病免疫球蛋白注射。這些措施的實施通常受社會經(jīng)濟條件的影響,盡管中國的社會經(jīng)濟不斷發(fā)展,在中國,特別是廣大農(nóng)村地區(qū),被犬類的動物咬傷后接受PEP處理的比例仍相對較低。一項調(diào)查顯示,2003-2004年,廣東省被犬類等咬傷的居民中32.8%進行了暴露后預防處理,其中只有37.5%的人是到當?shù)蒯t(yī)院或疾病預防控制機構進行正確的傷口處理和預防。降低狂犬病疫苗的接種價格,提高人們對狂犬病的認知,是提升PEP比例、預防和控制人感染狂犬病的關鍵。
[1]Knobel DL,Cleaveland S,Coleman PG,et al.Re-evaluating the burden of rabies in Africa and Asia.Bull World Health Organ,2005,83:360-368.
[2]郭綬衡,唐青,李浩,等.中國31省1991-2005年狂犬病流行情況比較分析.中華流行病學雜志,2007,28(4):374-376.
[3]唐青,趙秀芹,陶曉霞.中國人間狂犬病流行近況分析.中華流行病學雜志,2001,22(1):8-10.
[4]Zhang YZ,Xiong CL,Xiao DL,et al.Human Rabies in China.Emerg Infect Dis,2005,11:1983-1984.
[5]Bourhy H,Dautry-Varsat A,Hotez PJ,et al.Rabies,Still Neglected after 125 Years of Vaccination.PLoSNegl Trop Dis,2010,4:e839.
[6]Song M,Tang Q,Wang DM,et al.Epidemiological investigations of human rabies in China.BMC Infect Dis,2009,9:210-219.
[7]Wu XF,Hu RL,Zhang YZ,et al.Reemerging Rabies and Lack of System ic Surveillance in People′s Republic of China.Emerg Infect Dis,2009,15:1159-1164.
[8]衛(wèi)生部.2004-2015中華人民共和國衛(wèi)生部公報.http://www.moh.gov.cn/publicfiles/business/htmlfiles/mohbgt/pggtg/index.htm.
[9]國家衛(wèi)生計生委.2014年中國衛(wèi)生統(tǒng)計提要.http://www.moh.gov.cn/publicfiles//business/htmlfiles/zwgkzt/ptjty/digest2010/index.html.
[10]Box GEP,Jenkins GM.Time Series Analysis:Forecasting and Control.2nd ed.San Francisco:Holden-Day,1976.
[11]郭海強,丁海龍,曲波,等.應用ARIMA模型對全國2004-2009年腎綜合征出血熱疫情分析及預測.中國人獸共患病學報,2010,26(12):1137-1140.
[12]宇傳華.SPSS與統(tǒng)計分析.第2版.北京:電子工業(yè)出版社,2014,645-679.
[13]李放湘.我國狂犬病流行與防制近況.醫(yī)學動物防制,2012,28(4):394-396.
[14]徐國祥.胡清友.統(tǒng)計預測和決策.上海:上海財經(jīng)大學出版社,1998:150-275.
[15]衛(wèi)生部,衛(wèi)疾控發(fā).狂犬病暴露預防處置工作規(guī)范(2009年版).(2009-12-17).http://www.moh.gov.cn/publicfiles/business/htmlfiles/mohbgt/s10695/200912/45090.htm.
Human Rabies Incidence in China:Trends and Predictions from a Time Series Analysis from 2004 Through 2015
Meng Fandong,Wu Di,Sui Chengguang.(The first hospital of China Medical University 110001,Shenyang)
Objectivewith an increasing population of dogs and low vaccination coverage,rabies is remerging and becoming a serious public health problem in China.Control and prevention of rabies requires know ledge of recent and future incidence trends.MethodsMonthly information on the incidence of human rabies from January 2004 through December 2015 was collected from the Gazette of the Ministry of Health of the People′s Republic of China.Autoregressive integrated moving average(ARIMA)multiple seasonal models were established to fit and predict rabies incidence using these data.The dataset was divided into two parts:data reported from January 2004 to December 2014,which were used to develop the time series model,and data from 2015,which were used to validate the established model.ResultsHuman rabies remains a serious infectious disease in China.During the 12 years that this study investigated,25561 rabies cases were reported in China.The annual average number of cases was 2 130 and the incidence was 0.1592/105people.The seasonal ARIMA(0,1,1)(0,1,1)12model was the best to fit the data from the year 2004 to 2014.Using this model,we predicted 764 rabies cases in all of China in 2015.The actual number of reported cases was higher than the prediction for all of 2015(828 vs.764),for a relative predictive error of7.73%,which was statistically acceptable.Conclusionthe number of rabies cases reported reached its peak in the year of 2007,then it has been show ing a downward trend since then.The seasonal ARIMA(0,1,1)(0,1,1)12model was significant,with an acceptable estimative and predictive accuracy.The time series model can be used to analyze and predict rabies cases in China,and w ill help frame strategies to control and prevent the disease.
Time series;The seasonal ARIMA;Human rabies
(責任編輯:郭海強)