鐘球 蔣莉 周琳 李建偉 陳瑜暉 連永娥
(廣東省結(jié)核病防治研究所 廣州 510630)
廣東省結(jié)核病發(fā)病趨勢(shì)的時(shí)間序列分析
鐘球 蔣莉 周琳 李建偉 陳瑜暉 連永娥
(廣東省結(jié)核病防治研究所 廣州 510630)
目的利用乘積季節(jié)模型預(yù)測(cè)廣東省結(jié)核病的發(fā)病趨勢(shì),為制訂結(jié)核病的防控措施提供科學(xué)的依據(jù)>。方法利用最小二乘法原理,應(yīng)用自回歸求和移動(dòng)平均模型與隨機(jī)季節(jié)模型相結(jié)合的乘積季節(jié)模型,對(duì)廣東省結(jié)核病發(fā)病趨勢(shì)進(jìn)行預(yù)測(cè)>。結(jié)果利用1996年至2008年資料構(gòu)建ARIMA(0,1,1)(0,1,1)4模型,所建立的模型的預(yù)測(cè)效果良好,實(shí)際值均在預(yù)測(cè)值的95%可信區(qū)間內(nèi)>。結(jié)論采用ARIMA乘積季節(jié)模型預(yù)測(cè)廣東省結(jié)核病發(fā)病情況,擬合及預(yù)測(cè)效果較好,預(yù)測(cè)結(jié)果符合全省發(fā)病現(xiàn)狀及當(dāng)前采取的防控措施。
結(jié)核,肺/預(yù)防和控制;結(jié)核,肺/流行病學(xué);發(fā)病率;時(shí)間;廣東省
我國(guó)是全球22個(gè)結(jié)核病高負(fù)擔(dān)國(guó)家之一,每年新發(fā)結(jié)核病人估算數(shù)居第2位。由于我國(guó)結(jié)核病疫情嚴(yán)重、流行廣泛,使得國(guó)內(nèi)疫情下降速度緩慢。特別是近年來(lái),由于城市和農(nóng)村的環(huán)境發(fā)生了巨大的變化,流動(dòng)人口的增加、TB/HIV雙重感染和耐藥病人的出現(xiàn),使結(jié)核病發(fā)病和流行模式變得十分復(fù)雜,如果能對(duì)結(jié)核病的發(fā)病進(jìn)行準(zhǔn)確的預(yù)測(cè),將對(duì)結(jié)核病防治工作起到極大的推動(dòng)作用[1]。因此,本文嘗試?yán)妹绹?guó)學(xué)者Box和英國(guó)Jenkins提出的自回歸求和移動(dòng)平均模型(autoregressive integrated moving average,ARIMA)與隨機(jī)季節(jié)模型(stochastic seasonal model)相結(jié)合的乘積季節(jié)模型(product seasonal model)建立結(jié)核病發(fā)病預(yù)測(cè)模型,對(duì)結(jié)核病報(bào)告發(fā)病率進(jìn)行分析、預(yù)測(cè),為結(jié)核病控制提供科學(xué)依據(jù)。本研究利用擬合的數(shù)學(xué)預(yù)測(cè)模型,對(duì)2010年及2011年的結(jié)核病報(bào)告發(fā)病率進(jìn)行外部預(yù)測(cè),以探討該模型在該領(lǐng)域應(yīng)用的價(jià)值。
1.1 資料來(lái)源 用于預(yù)測(cè)的結(jié)核病登記發(fā)病率資料,來(lái)源于廣東省1996年至2009年每季度登記的新涂陽(yáng)肺結(jié)核患者人數(shù)及廣東省統(tǒng)計(jì)年鑒1996年至2009年全省人口數(shù)。
1.2 研究方法 采用SPSS13.0錄入人口及每季度新涂陽(yáng)肺結(jié)核患者登記情況資料,根據(jù)1996年至2008年每季度的報(bào)告報(bào)告發(fā)病率建立ARIMA乘積季節(jié)模型,用2009年的數(shù)據(jù)評(píng)價(jià)模型的預(yù)測(cè)效果,對(duì)2010—2011年的疫情進(jìn)行外部預(yù)測(cè)和分析。
1.3 時(shí)間序列模型的建立 為選擇1個(gè)最優(yōu)的預(yù)測(cè)模型,完整的ARIMA過(guò)程包括[2]:①序列平穩(wěn)化:ARIMA的應(yīng)用需要時(shí)間序列符合平穩(wěn)性的要求;②模型的識(shí)別:主要是根據(jù)ACF圖和PACF圖的特征,提出幾種可能的模型作進(jìn)一步分析;③模型參數(shù)估計(jì)和模型診斷:對(duì)提出的模型進(jìn)行參數(shù)估計(jì)和診斷,如模型不恰當(dāng),則回到第二階段,重新選定模型;④預(yù)測(cè)應(yīng)用:1996年~2008年的數(shù)據(jù)用于建立模型,2009年的數(shù)據(jù)用于驗(yàn)證模型的預(yù)測(cè)效果。
2.1 結(jié)核病發(fā)病的趨勢(shì)分析 對(duì)1996年至2009年各季度的新涂陽(yáng)肺結(jié)核登記發(fā)病率繪制時(shí)間序列分布圖(圖1)。由圖1可以看出,新涂陽(yáng)肺結(jié)核登記發(fā)病率呈現(xiàn)明顯的季節(jié)變動(dòng)規(guī)律,且年內(nèi)呈現(xiàn)波動(dòng)現(xiàn)象,基本規(guī)律為每年1、4季度登記發(fā)病率較低,
2、3季度登記發(fā)病率高。
2.2 模型的建立
2.2.1 序列的平穩(wěn)化 在對(duì)原始數(shù)據(jù)進(jìn)行取自然對(duì)數(shù)和 1階差分轉(zhuǎn)換后,做序列自相關(guān)圖,發(fā)現(xiàn)ACF序列在4、8、12、16處都有一個(gè)局部極大值,說(shuō)明存在周期為4的季節(jié)性周期,再進(jìn)行一次季節(jié)性差分消除季節(jié)因素的影響后,原始資料由明顯震蕩特征的非平穩(wěn)序列,轉(zhuǎn)化為近似平穩(wěn)的時(shí)間序列,符合ARIMA模型的平穩(wěn)性要求。
2.2.2 模型的識(shí)別 根據(jù)差分變換的次數(shù),可以確定模型形式為:ARIMA(p,1,q)(P,1,Q)4,其中p,q和P,Q是待定的參數(shù),分別表示連續(xù)模型和季節(jié)模型中的自回歸階數(shù)和移動(dòng)平均階數(shù)。4表示季節(jié)模型以4個(gè)季度為周期。由于差分后自相關(guān)系數(shù)在P>1后驟減,偏自相關(guān)系數(shù)遞減但拖尾,根據(jù)以上特征初步判斷連續(xù)模型為ARIMA(0,1,1)或ARIMA(0,1,2)[3]。季節(jié)模型的參數(shù)P、Q判斷較為困難,但根據(jù)文獻(xiàn),參數(shù)超過(guò) 2階的情況很少見[4-5],可以分別取0、1、2由低階到高階逐個(gè)試驗(yàn),根據(jù)模型的擬合優(yōu)度、殘差情況以及系數(shù)間的相關(guān)性進(jìn)行綜合判斷,直至得到最佳模型。
圖1 1996—2009年新涂陽(yáng)肺結(jié)核季度報(bào)告發(fā)病率時(shí)間序列分布情況
表1 備選模型的參數(shù)估計(jì)
表2 2009年各季度新涂陽(yáng)肺結(jié)核報(bào)告發(fā)病率實(shí)際值與預(yù)測(cè)值比較
2.2.3 參數(shù)估計(jì)與模型檢驗(yàn) (1)參數(shù)估計(jì):采用非條件最小二乘法進(jìn)行參數(shù)估計(jì),最大迭代次數(shù)為10。各備選模型參數(shù)顯示只有ARIMA(0,1,1)(0,1,1)4模型除常數(shù)項(xiàng)外,其他參數(shù)均P<0.05,有統(tǒng)計(jì)學(xué)意義。根據(jù)簡(jiǎn)潔性原則,將常數(shù)項(xiàng)去除,各備選模型結(jié)果見表1,仍只有ARIMA(0,1,1)(0,1,1)4模型所有參數(shù)具有統(tǒng)計(jì)學(xué)意義(P<0.01)。(2)模型擬合優(yōu)度檢驗(yàn)。根據(jù)擬合優(yōu)度結(jié)果中AIC和SBC準(zhǔn)則,選取兩個(gè)值均較小的模型為優(yōu),結(jié)果也顯示ARIMA(0,1,1)(0,1,1)4模型的擬合優(yōu)度較好。AIC值=20.58,SBC值=25.21,SE=0.04,Log-likelihood=3.65。(3)模型殘差檢驗(yàn)。若殘差為白噪聲,則意味著所建立的模型已包含了原始序列的所有趨勢(shì),從而模型應(yīng)用于預(yù)測(cè)是合適的;若殘差不是白噪聲,說(shuō)明模型有必要進(jìn)行改進(jìn)。對(duì)殘差序列作自相關(guān)和偏相關(guān)圖(圖2和圖3),自相關(guān)和偏相關(guān)函數(shù)基本沒有突破可信區(qū)間,可見殘差是隨機(jī)分布的;同時(shí),結(jié)果顯示ARIMA(0,1,1)(0,1,1)4模型的Box-Ljung統(tǒng)計(jì)量均無(wú)統(tǒng)計(jì)學(xué)意義(Box-Ljung最小值=2.253,P=0.133),可以認(rèn)為殘差序列是白噪聲,說(shuō)明所選模型是恰當(dāng)?shù)摹DP蛿?shù)學(xué)表達(dá)式為:(1-B)(1-B4)Zt=(1-0.379B)(1-0.652B4)α t,其中Z為季度報(bào)告報(bào)告發(fā)病率的自然對(duì)數(shù),B為后移算子,α t為隨機(jī)干擾。
2.2.4 預(yù)測(cè)值與實(shí)際值比較。采用ARIMA(0,1,1)(0,1,1)4模型,擬合1996年至2008年各季度新涂陽(yáng)肺結(jié)核登記發(fā)病率,并對(duì)我省2009年新涂陽(yáng)肺結(jié)核的各季度登記發(fā)病率進(jìn)行預(yù)測(cè),擬合及預(yù)測(cè)結(jié)果見圖1,比較實(shí)際值與擬合值和預(yù)測(cè)值可見模型擬合和預(yù)測(cè)效果良好,2009年各季度新涂陽(yáng)肺結(jié)核登記發(fā)病率的預(yù)測(cè)值與實(shí)際值(表2),相對(duì)誤差都在10%以下。
表3 2010—2011年各季度新涂陽(yáng)肺結(jié)核登記報(bào)告發(fā)病率預(yù)測(cè)結(jié)果
2.2.5 對(duì)2010—2011年各季度新涂陽(yáng)肺結(jié)核登記發(fā)病率的預(yù)測(cè) 以1996至2009年各季度新涂陽(yáng)登記發(fā)病率建立模型,對(duì)2010—2011年各季度報(bào)告登記發(fā)病率預(yù)測(cè)結(jié)果(表3)。
眾所周知,由于結(jié)核病監(jiān)測(cè)受到多種新的因素和干預(yù)措施的影響,導(dǎo)致當(dāng)前結(jié)核病疫情監(jiān)測(cè)指標(biāo)的敏感性和特異性不強(qiáng),監(jiān)測(cè)信息不能充分反映結(jié)核病的實(shí)際發(fā)病和死亡情況,從而難以及時(shí)預(yù)測(cè)結(jié)核病的發(fā)病、流行和爆發(fā),不能及時(shí)采取有效的應(yīng)對(duì)措施,導(dǎo)致結(jié)核病發(fā)病和死亡人數(shù)的增加,因此結(jié)核病的報(bào)告發(fā)病率預(yù)測(cè)研究一直備受關(guān)注。
曾應(yīng)用于結(jié)核病的流行病學(xué)數(shù)學(xué)模型主要有:Azuma模型、回歸模型、指數(shù)平滑法、灰色系統(tǒng)預(yù)測(cè)模型及ARIMA模型等。在眾多模型中,Azuma模型應(yīng)用較為廣泛,也曾對(duì)于我國(guó)結(jié)核病流行模式的研究起到一定的指導(dǎo)作用。但隨著我國(guó)結(jié)核病控制工作的進(jìn)展,結(jié)核病三大挑戰(zhàn)(流動(dòng)人口、耐藥結(jié)核病、HIV合并感染)的出現(xiàn),應(yīng)用該模型進(jìn)行現(xiàn)時(shí)的結(jié)核病流行預(yù)測(cè)遇到了一些較為嚴(yán)重的問(wèn)題。而90年代的回歸模型(直線或曲線模型、指數(shù)模型、多項(xiàng)式模型)考慮了結(jié)核疫情變動(dòng)的影響因素,保證預(yù)測(cè)值與觀察值的殘差最小,不僅可作近期預(yù)測(cè),還可作遠(yuǎn)期預(yù)測(cè)。但在建立模型時(shí)需要樣本量足夠大,樣本服從特定的統(tǒng)計(jì)分布規(guī)律等比較苛刻的要求,使得其使用受到一定的限制[6-8]。指數(shù)平滑法則給予近期觀察值以較大的權(quán)數(shù)并通過(guò)對(duì)平滑系數(shù)的控制以提高預(yù)測(cè)效果的準(zhǔn)確性,但其需要預(yù)先憑經(jīng)驗(yàn)估計(jì)出初始平均值及平滑系數(shù),往往要求有較豐富的歷史資料來(lái)進(jìn)行多次嘗試計(jì)算[9-10]。綜上所述,這些方法在進(jìn)行結(jié)核病發(fā)病預(yù)測(cè)方面的應(yīng)用均存在較大的局限性。而本文嘗試使用的ARIMA模型是將預(yù)測(cè)對(duì)象隨時(shí)間推移形成的數(shù)據(jù)序列視為一個(gè)隨機(jī)序列,利用其依存關(guān)系或自相關(guān)性表征預(yù)測(cè)對(duì)象發(fā)展的延續(xù)性,它不需要對(duì)時(shí)間序列的發(fā)展模式作先驗(yàn)假設(shè),方法的本身保證可通過(guò)反復(fù)識(shí)別修正,直至獲得滿意模型。在預(yù)測(cè)模型時(shí)需要的只是預(yù)測(cè)對(duì)象本身的歷史數(shù)據(jù),并不要求事先明確所有的影響因素,因此在資料收集的成本上很低;同時(shí),由于ARIMA模型可以將發(fā)病的各類影響因素的綜合效應(yīng)統(tǒng)一蘊(yùn)涵于時(shí)間變量中進(jìn)行分析,短期外推的精確度比線性回歸分析更高[11-13]。
本文嘗試在考慮其季節(jié)因素的情況下,利用1996年至2009年各季度新涂陽(yáng)結(jié)核報(bào)告報(bào)告發(fā)病率,建立的復(fù)合季節(jié)模型ARIMA(0,1,1)(0,1,1)4,取得的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果基本一致,各預(yù)測(cè)值均在95%可信區(qū)間內(nèi),充分體現(xiàn)了乘積季節(jié)模型用于結(jié)核病報(bào)告發(fā)病率的預(yù)測(cè)是可行的、合理的和可接受的。模型的預(yù)測(cè)結(jié)果可以與常規(guī)監(jiān)測(cè)相結(jié)合,及時(shí)發(fā)現(xiàn)報(bào)告發(fā)病率變化的異常情況,同時(shí)可以對(duì)采取的結(jié)控措施效果進(jìn)行評(píng)價(jià),為結(jié)核病的流行預(yù)警系統(tǒng)提供技術(shù)參數(shù),也可為結(jié)核病預(yù)測(cè)預(yù)警模型的建立提供借鑒。
本研究建立的復(fù)合季節(jié)模型ARIMA(0,1,1)(0,1,1)4,能較好的用于結(jié)核病的發(fā)病預(yù)測(cè),但時(shí)間序列模型不是一勞永逸和一成不變的,不能作為永久的預(yù)測(cè)工具,在實(shí)際工作中應(yīng)該不斷的收集積累數(shù)據(jù),定期更新模型,才能獲得更為準(zhǔn)確的預(yù)測(cè)結(jié)果,為結(jié)控工作提供更為科學(xué)的防控?cái)?shù)據(jù)。
[1]World Health Organization.Tuberculosis control:Surveillance,Planning,Financing.WHO Report 2005;349.
[2]張文彤.SPSS統(tǒng)計(jì)分析教程[M].北京:北京希望電子出版社,2002:250-289.
[3]孫振球.醫(yī)學(xué)統(tǒng)計(jì)學(xué)[M].北京:人民衛(wèi)生出版社,2002:461-476.
[4]溫亮,徐德忠,林明和.應(yīng)用時(shí)間序列模型預(yù)測(cè)瘧區(qū)瘧疾發(fā)病率[J].第四軍醫(yī)大學(xué)學(xué)報(bào),2004,25(6):507-5101.
[5]張蔚,張彥琦,楊旭.時(shí)間序列資料ARIMA季節(jié)乘積模型及其應(yīng)用[J].第三軍醫(yī)大學(xué)報(bào),2002,24(8):955-9571.
[6]董選軍,賈偉娜.ARIM A時(shí)間序列在傳染病預(yù)測(cè)中的比較[J].現(xiàn)代實(shí)用醫(yī)學(xué),2010,(02):142-143,147,242.
[7]Azuma Y.A simple simulation model of tuberculosis epidemiology for use without large scale computers[J].Bulletin WHO,1975,52:313.
[8]Pilheu JA.Tuberculosis 2000:problems and solutions[J].INT J T UBERC L UNG DIS,1998,2(9):696-703.
[9]Lalit Kant.BCG Revisited[J].Ind J Tub,2000,47(1):1-2.
[10]R í os M,Garc í a JM,Sánchez JA,Pérez D.A statistical analysis of the seasonality in pulmonary tuberculosis[J].Eur J Epidemiol,2000,16,(5):25-27.
[11]Pang SC,Harrison RH,Brearley J,Jegathesan V,Clayton AS:T uberculosis surveillance in immigrants throug h health undertaking s in Western Australia[J].Int J Tuberc Lung Dis 2000,4:232-232.
[12]Nagayama N,Ohmo ri M.Seasonality in various forms of tuberculosis[J].Int J Tuberc Lung Dis,2006,10:1117-1122.
[13]A ntunes JLF,Waldman EA.Tuberculosis in the twentieth century:time-series mortality in S? o Paulo,Brazil,1900-97[J].Cad Saúde Pública,1999,15:463-476.
Application of time series analysis for the prediction of incidence trend of tuberculosis in Guangdong province
Zhong Qiu,Jiang Li,Zhou Lin,Li Jianwei,Chen Yunhui,Lian Y onge
Anti-tuberculosis Research Institute of Guangdong Province,Guangzhou510630,China
ObjectiveTo utilize the product seasonal model to predict the trend of TB and provide scientific evidence for formulating the related measures of prevention and cure.MethodsThe product seasonal model was combined with ARIMA model and stochastic seasonal model by using the least square principle.ResultsThe ARIMA(0,1,1)(0,1,1)4model was established by the data from 1996 to 2008,and the effectiveness of prediction of this model showed to be good with the actual values in the 95%confidence interval of predicted values.ConclusionThe ARIMA product seasonal model shows effective to predict the incidence of TB in Guangdong province,and the results is in according to the current status of TB,moreover,it could provide information for us to take measures for TB prevention and control.
tuberculosis,pulmonary/prevention and control;tuberculosis,pulmonary/epidemiology;incidence;time;Guangdong province
Zhong Qiu(gdtb@vip.163.com)
鐘球(gdtb@vip.163.com)
國(guó)家“十一五”重大傳染病專項(xiàng)資助(基金編號(hào):2008ZX10003-007)
2010-07-26)
(本文編輯:張曉進(jìn))