劉 濤 王顯軍 姜寶法 丁淑軍 王連森 孫大鵬 裴耀文 林 藝 王建醒 逄博
SARIMA模型預測山東省手足口病發(fā)病趨勢*
劉 濤1,2王顯軍3△姜寶法1△丁淑軍3王連森3孫大鵬3裴耀文3林 藝3王建醒3逄博3
目的 建立山東省手足口病發(fā)病的SARIMA模型并進行預測。方法 應用SPSS17.0軟件對山東省2005年1月至2011年12月手足口病月發(fā)病率進行SARIMA模型建模擬合。結果 SARIMA(1,0,1)(0,1,0)12能較好地擬合既往時間段的發(fā)病率,對2011年各月的預測值符合山東省手足口病實際發(fā)病率變動趨勢,對2012年手足口病發(fā)病率進行了預測。結論 SARIMA模型能較好地模擬手足口病發(fā)病率在時間序列上的變動趨勢,用其對未來的發(fā)病率進行預測,可為手足口病防治工作提供參考。
手足口病 SARIMA模型 時間序列分析
*:國家重大科學研究計劃資助(2012CB955502);山東省2009年科技發(fā)展計劃資助攻關項目(2009GG10002055)
1.山東大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計研究所(250012)
2.煙臺市疾病預防控制中心
3.山東省疾病預防控制中心
△通信作者:姜寶法,Email:bjiang@sdu.edu.cn;王顯軍,E-mail:xjwang62@163.com
手足口病(hand-foot-mouth disease,HFMD)是由多種腸道病毒引起的常見傳染病,以嬰幼兒發(fā)病為主。大多數患者癥狀輕微,以發(fā)熱和手、足、口腔等部位的皮疹或皰疹為主要特征。少數患者可并發(fā)無菌性腦膜炎、腦炎、急性弛緩性麻痹、呼吸道感染和心肌炎等,個別重癥患兒病情進展快,易發(fā)生死亡[1]。山東省是手足口病的多發(fā)省份,2000年、2003年、2005年、2007年煙臺、泰安、濟寧、臨沂等市的局部地區(qū)發(fā)生爆發(fā)流行[2]。由于全國手足口病的發(fā)病形式相當嚴峻,2008年5月2日衛(wèi)生部將其列入《中華人民共和國傳染病防治法》規(guī)定的丙類傳染?。?]。本次研究利用2005-2011年山東省手足口病發(fā)病資料,采用季節(jié)性求和自回歸滑動平均模型法(seasonal auto regressive integrated moving average,SARIMA)建立山東省手足口病發(fā)病率預測模型,為有關部門防制手足口病提供依據。
數據為2005-2011年山東省手足口病報告病例數,資料來自于“國家疾病監(jiān)測信息報告管理系統(tǒng)”。人口資料來自于2006-2011年山東省統(tǒng)計年鑒。
利用SPSS17.0軟件中的ARIMA模型分析方法,對山東省近6年的手足口月發(fā)病率數據進行處理和分析。首先利用2005年1月-2011年12月的發(fā)病率數據進行建模,用2011年1月到12月的數據對模型進行回顧性驗證,最后再用模型對2012年的月發(fā)病率進行預測。
求和自回歸滑動平均模型法(SARIMA)是將時間序列視為一組依賴于時間(t)的隨機變量,這組隨機變量所具有的自相關性表征了預測對象發(fā)展的延續(xù)性,而這種自相關性一旦被相應的數學模型描述出來,就可以從時間序列的過去值及現在值預測其未來的值[4]。ARIMA模型綜合考慮了序列的趨勢變化、周期變化及隨機干擾。本研究中采用的模型是考慮季節(jié)變化的季節(jié)性ARIMA模型(SARIMA),其結構為(p,d,q)(P,D,Q),其中的p、q分別為自回歸和移動平均階數,d為非季節(jié)差分次數,P、Q分別為季節(jié)性自回歸和移動平均階數,D為季節(jié)性差分次數[5]。
SARIMA模型建模的基本步驟可以分為四步[6]:①序列預處理:SARIMA模型的應用需要時間序列符合平穩(wěn)性和非白噪聲的要求;②模型的識別:主要根據自相關系數(ACF)和偏相關函數(PACF)圖的特征,提出幾種可能的模型作下一步分析;③模型參數估計和模型診斷:對提出的模型進行參數估計和診斷,如模型不合適,則回到第二階段,重新選定模型;④預測應用:2005-2011年的數據用于建立模型,利用2011年的數據用于驗證模型的擬合效果[7],并預測2012年手足口病的發(fā)病率。
繪制2005年1月-2011年12月山東省手足口病發(fā)病率的時間序列圖,如圖1。從圖中可知,手足口病發(fā)病率有逐年上升趨勢,并且每年的5月至7月份是發(fā)病高峰期,存在明顯的季節(jié)性。
(1)序列平穩(wěn)性
一個平穩(wěn)的隨機過程應符合以下要求:均數不隨時間變化;方差不隨時間變化;自相關系數只與時間間隔有關,而與所處的時間無關[8]。如圖1所示,從2007年開始序列的波動幅度加大,并且從整體上看山東省手足口病發(fā)病率呈上升趨勢,同時序列呈現出一定的季節(jié)周期性,說明序列是非平穩(wěn)序列。故需要對序列進行自然對數轉換和差分,轉換成為平穩(wěn)的時間序列。
圖1 2005-2011年山東省手足口病逐月發(fā)病率時序圖
(2)模型的識別
為了使時間序列平穩(wěn),首先進行自然對數轉換,其次進行差分。差分分為一般差分和季節(jié)性差分。由圖1可知,該序列發(fā)病率的季節(jié)性明顯,需進行一階季節(jié)性差分。差分后,該序列的ACF圖、PACF圖(圖2),可認為該時間序列通過一階季節(jié)性差分后達到平穩(wěn)序列。此時,可以構建SARIMA模型。
(3)模型參數估計和模型診斷
SARIMA(p,d,q)(P,D,Q)12中,根據差分結果,d=0,D=1。由ACF圖可知,q=0,由PACF 圖可知,p=1。季節(jié)模型的參數P、Q判斷較為困難,但根據文獻,參數超過二階的情況很少見[8],可以分別取0、1、2由低階到高階逐個試驗,結合Ljung-Box方法檢驗殘差白噪聲,淘汰非白噪聲模型,計算剩余模型的BIC值,挑選其中BIC最小的模型作為最佳模型。經過篩選符合條件的SARIMA模型有九個,見表1,最終確定最佳模型 SARIMA(1,0,1)(0,1,0)12。該模型經過Ljung-Box方法檢驗殘差白噪聲,得到統(tǒng)計量為14.909,P值為 0.531(>0.05),殘差的 ACF圖(圖3)、PACF圖(圖3)、Q-Q圖(圖4)如下,殘差為白噪聲;模型中的參數檢驗具有意義(表2)。用該模型預測2011年山東省手足口病各月發(fā)病率結果如表3所示,2011年各月的實際發(fā)病率雖然與預測值不完全一樣,但各月實測值都落入了預測值的可信區(qū)間范圍??梢钥闯瞿P皖A測值的動態(tài)趨勢與實際情況基本一致,模型對未來的情況進行了很好的跟蹤和預測。
圖2 進行自然對數轉換和一次季節(jié)差分后ACF圖和PACF圖
表1 殘差檢驗符合條件的各模型的BIC值
圖3 殘差ACF和PACF圖
圖4 殘差Q-Q圖
表2 山東省手足口病發(fā)病率模型參數估計
(4)預測應用
利用 ARIMA(1,0,1)(0,1,0)12模型,對 2005 年1月到2011年12月全省逐月發(fā)病率進行擬合。結果如圖5,可見實測值與擬合值重合程度高,顯示模型擬合較好。進一步用該模型對2012年各月的發(fā)病率進行預測,結果見表4。
表3 2011年1-12月山東省手足口病發(fā)病率與采用ARIMA模型預測發(fā)病率比較(1/10萬)
圖5 山東省手足口病各月發(fā)病率ARIMA模型擬合預測圖
表4 2012年山東省手足口病各月發(fā)病率(1/10萬)預測值
手足口病傳播速度快,傳染性強,尤其是對5歲以下兒童危害嚴重,至今尚無疫苗預防,亦無特異性治療方法。目前,防治手足口病主要采取早預防、早發(fā)現、早診斷、早治療手段。由于過度的預防會導致衛(wèi)生資源的浪費和不恰當的使用。通過模型的預測可以了解疾病的發(fā)展態(tài)勢,提早采取措施,有針對性地做好疫點、疫區(qū)的衛(wèi)生處理和傳染源管理工作,遏制疫情蔓延。此外,手足口病多為散發(fā),發(fā)病率按照既往的變化規(guī)律(季節(jié)性)發(fā)生變化。如果實際發(fā)病率在預測值95%可信限范圍內波動,表明當月疫情基本正常;如果超出預測值95%可信限范圍,表明當月疫情已不同于以往流行規(guī)律,應警惕傳染病暴發(fā)或流行的可能[7]。該研究中2012年山東省1-4月的發(fā)病率實際值均落在預測值的95%置信區(qū)間內,說明2012年山東省前四個月的手足口病的發(fā)病率基本正常。通過SARIMA模型發(fā)現,2012年夏季手足口病的發(fā)病率要高于2011年,這應該引起有關部門的注意。
用于手足口病預測的模型主要包括回歸分析預測模型和時間序列分析預測模型兩類。SARIMA模型是目前最常用的時間序列預測方法,已被廣泛應用到預防醫(yī)學各個領域[7,9-10]。手足口病的發(fā)病原因比較復雜,它與人的自身免疫力、病原、相關社會保健水平、人們的衛(wèi)生習慣及預防意識、環(huán)境條件等因素有關[11-12]?;貧w分析預測模型就是通過分析影響手足口病疾病發(fā)生的各種因素,對數據進行回歸擬合;由于自然和社會環(huán)境許多未知因素難以獲得,使其存在局限性。時間序列分析克服了因果回歸分析法中預測對象的影響因素難以掌握和數據資料不易得到的難題,利用任何事物的發(fā)展都具有一定慣性(即延續(xù)性)的原理,建立時間序列模型,以達到預測未來的目的[13]。
SARIMA的應用前提是時間序列的平穩(wěn)性,實際工作中數據往往是非平穩(wěn)序列,需對序列進行預處理,使之達到平穩(wěn)的要求;如果模型中含有季節(jié)因素,則至少應有7或8個季節(jié)周期的數據對季節(jié)參數進行估計。若序列太短,則可靠性較差;如果所研究對象的慣性趨勢發(fā)生了很大的改變(例如對主要傳染病采取了新的防治措施,或有新的傳染病傳入),則需要積累新的數據對模型進行修正甚至重新擬合[7]。本研究中2011年預測值與真實值之間相對誤差較大,原因是考慮到應用時間序列SARIMA模型需要數據個數的要求,但是2008年以前,手足口病未納入法定傳染病,導致發(fā)病數目上報數量與實際數量有太大出入。若是排除2005、2006、2007年的發(fā)病率,將無法應用該模型。這在一定程度上影響了預測精度。但是隨著時間的進行,逐步增加可靠、真實病例數收集,這可以將前期不太準確的數據摒棄,進而完善SARIMA模型,使預測值與真實值相貼近。
1.衛(wèi)生部.手足口病預防控制指南 (2009版).全科醫(yī)學臨床與教育,2010,8(2):125 -127.
2.王連森,畢振強,房玉英,等.2008年山東省手足口病流行病學分析.山東醫(yī)藥,2009,49(019):45 -47.
3.衛(wèi)生部.手足口病預防控制指南(2008年版).中國鄉(xiāng)村醫(yī)藥,2009(S1).
4.徐國祥.統(tǒng)計預測和決策.上海:上海財經大學出版社,1998:150-177.
5.潘浩,鄭揚,吳寰,等.ARIMA模型預測上海市手足口病發(fā)病趨勢.預防醫(yī)學情報雜志,2011,27(6):408 -411.
6.張文彤.SPSS統(tǒng)計分析高級教程.高等教育出版社,2004:250-289.
7.吳家兵,葉臨湘,尤爾科.ARIMA模型在傳染病發(fā)病率預測中的應用.數理醫(yī)藥學雜志,2007,20(1):90 -92.
8.溫亮,徐德忠,林明和,等.應用時間序列模型預測瘧區(qū)瘧疾發(fā)病率.第四軍醫(yī)大學學報,2004,25(6):507 -510.
9.李廷杰,陳秀山.應用時間序列統(tǒng)計方法分析廣東省1984-1993年乙型腦炎季節(jié)性分布特性.中華流行病學雜志,1998,19(2):103-106.
10.丁亞興,張之倫,朱向軍.自回歸綜合移動平均模型對天津市甲型肝炎發(fā)病預測.疾病監(jiān)測,2008,23(5):326 -328.
11.張曉云,張之倫.氣象要素對腸道傳染病的影響及預報.氣象,2002,28(005):53-55.
12.周艷麗,徐文彩,馬海艷.北京市東城區(qū)細菌性痢疾與氣象因素的時間序列分析.疾病監(jiān)測,2009,24(9):697 -700.
13.鐘朝暉,劉達偉,張燕.重慶市主城區(qū)人口死亡率的時間序列分析.中國公共衛(wèi)生,2003,19(7):796 -798.
Prediction of Hand-foot-mouth Disease Incidence Using SARI-MA Model in Shandong Province
Liu Tao,Wang Xianjun,Jiang Baofa,el al.Department of Epidemiology and Biostatistics,School of Public Health,Shandong University(250012),Jinan
ObjectiveTo establish a model to predict the incidence rate of hand-foot-mouth disease in Shandong Province.Methods
The SARIMA model for monthly hand-foot-mouth incidence rate from January 2005 to December 2011 in Shandong Province was established by SPSS 17.0.ResultsSARIMA(1,0,1)(0,1,0)12fitted very well with the incidence in the past period of time.The predicted incidence rates from January to December 2011 were accorded with the actual incidence trend of change in Shandong Province.ConclusionARIMA model could simulate a hand-foot-mouth disease incidence in time series change trend very well,and predict incidence and provide reference for the future as handfoot-mouth disease prevention and control work.
Hand-foot-mouth disease;SARIMA model;Time series analysis
(責任編輯:郭海強)