羅 靜,楊 書,張 強,王 璐
(1.四川大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計教研室,成都 610041;2.成都醫(yī)學院公共衛(wèi)生系,成都 610083)
艾滋病,即獲得性免疫缺陷綜合征(acquired immune deficiency syndrome,AIDS),是由艾滋病病毒(HIV)破壞人體免疫系統(tǒng),使其喪失抵抗各種疫病能力的一種嚴重危害人類生命安全的疾病。2000年以后,特別是2005年以來,中國的艾滋病感染人數(shù)迅速上漲。在艾滋病的防控工作中,如果能在局部范圍內(nèi)對未來感染人數(shù)做一定程度預(yù)判,為“三間分布”提供信息,對制定正確的防控政策和衛(wèi)生資源配置提供依據(jù),具有一定的指導(dǎo)意義。本文以重慶市疾病控制部門提供的艾滋病疫情發(fā)展為例,采用求和自回歸移動平均(auto regressive integrated moving average,ARIMA)時間序列模型擬合預(yù)測發(fā)病率,探討模型的可行性,對相關(guān)問題進行探索性研究。
1.1 一般資料 相關(guān)數(shù)據(jù)由重慶市疾病控制部門提供,包括1993~2009年重慶市轄區(qū)月度新發(fā)艾滋病感染人數(shù),以及該市2010年衛(wèi)生統(tǒng)計年鑒。
1.2 模型建立 ARIMA模型是以序列不同時期內(nèi)的相關(guān)度量為基礎(chǔ)進行的一種精確度較高的短期預(yù)測分析方法。該法由美國學者Box和英國統(tǒng)計學者Jenkins于1976年提出,故又稱為Box-Jenkins模型[1]。在ARIMA模型中,變量的未來取值可以表達為過去若干個取值和隨機誤差的線性函數(shù)。
式中:
▽d=(1-B)d
Φ(B)=1-φ1B-…-φpBp
Θ(B)=1-θ1B-…-θqBq
其中B是后移算子,εt為各期的隨機擾動或隨機誤差,d為差分階數(shù),p和q分別表示自回歸階數(shù)和移動平均階數(shù),Xt為各期的觀察值(t=1,2,…,k)[2-3]。
建立ARIMA時間序列模型可歸納為3個階段,即序列的平穩(wěn)化、模型識別以及參數(shù)估計和模型診斷,通過這3個階段處理的反復(fù)進行,最終確定一個用于預(yù)報的“最優(yōu)”模型[4]。
1.2.1 序列的平穩(wěn)化 序列的平穩(wěn)性是ARIMA模型分析的前提條件,即要求均數(shù)不隨時間變化;方差不隨時間變化;自相關(guān)系數(shù)只與時間間隔有關(guān),而與所處的時間無關(guān)[5]。對于非平穩(wěn)的序列,可以通過差分和Box-Cox變換使均數(shù)和方差平穩(wěn)化。
1.2.2 模型識別 通過觀察序列自相關(guān)(auto correction fuction,ACF)和偏自相關(guān)(partial auto correction fuction,PACF)的截尾、拖尾性初步為序列定階,提供幾個粗模型以便進一步分析完善[6-7]。
1.2.3 參數(shù)估計和模型診斷 根據(jù)模型階數(shù),運用最大似然法估計或最小二乘法估計,計算出求和自回歸移動平均過程的各項系數(shù),并做假設(shè)檢驗。在模型的擬合中,應(yīng)滿足模型的殘差序列是白噪聲序列,即Box-Ljung Q統(tǒng)計量相比較差異無統(tǒng)計學意義(P>0.05)。若幾個模型均滿足參數(shù)相比較差異有統(tǒng)計學意義,殘差序列為白噪聲序列的要求,則使擬合優(yōu)度統(tǒng)計量赤池信息準則(akaike’s information cnitenion,AIC)和貝葉斯算法(selective bayes classifiers,SBC)均達到最小的模型為最優(yōu)模型。反之,模型參數(shù)間比較差異無統(tǒng)計學意義,或殘差序列不是白噪聲序列,都需要返回識別階段,重新調(diào)整各個階數(shù)的值,再進行參數(shù)估計和模型診斷。
表1 備選模型的參數(shù)估計
1.3 統(tǒng)計學處理 應(yīng)用SPSS 13.0統(tǒng)計軟件建立ARIMA時間序列模型并進行數(shù)據(jù)處理和分析[8-9]。
2.1 數(shù)據(jù)處理 對1993~2009年重慶市疾病控制部門提供的艾滋病月發(fā)病率作序列圖,發(fā)現(xiàn)數(shù)據(jù)總體呈上升趨勢。其中,1993~2003年月發(fā)病率較低,其大多數(shù)月份為0,最大值為0.073 9(1/10萬);2005年1月和3月呈現(xiàn)2個高峰,其后數(shù)據(jù)波動幅度增大,序列的方差在前后差別明顯。因此,以2005年1月為切點,將數(shù)據(jù)分為兩個部分。以2005年1月至2009年6月發(fā)病率作建模數(shù)據(jù),2009年7~12月的數(shù)據(jù)作驗證數(shù)據(jù),對序列進行自然對數(shù)變換,差分和季節(jié)差分后,序列平穩(wěn)。
2.2 模型識別 觀察處理后序列的ACF和PACF(圖1、2),發(fā)現(xiàn)自相關(guān)函數(shù)和偏自相關(guān)函數(shù)呈現(xiàn)遞減且拖尾??沙醪脚袛嗄P蜑槟P鸵?ARIMA(1,1,1)×(0,1,0)12、模型二 ARIMA(1,1,1)×(0,1,1)12或模型三 ARIMA(1,1,0)×(0,1,0)12。
2.3 參數(shù)估計及檢驗 模型一和模型三的參數(shù)間比較差異有統(tǒng)計學意義,模型二中MA1和SMA比較差異無有統(tǒng)計學意義。見表1。
2.4 模型診斷 表2所示,在備選模型中,模型一擬合優(yōu)度較小,且參數(shù)間無明顯相關(guān)性(r=0.267)。此外,觀察其殘差的自相關(guān)圖,結(jié)果顯示該模型的Box-Ljung Q統(tǒng)計量間比較差異均無統(tǒng)計學意義(P>0.05),可以認為殘差序列為白噪聲[10]。綜上分析,模型一為最優(yōu)模型??梢源_定重慶市艾滋病發(fā)病率的預(yù)測模型為 ARIMA(1,1,1)×(0,1,0)12,其表達式為:(1+0.545B)▽12▽lnXt=(1-0.928B)εt。
表2 備選模型擬合優(yōu)度統(tǒng)計量
2.5 模型預(yù)測 用 ARIMA(1,1,1)×(0,1,0)12模型預(yù)測重慶市2009年7~12月艾滋病發(fā)病率,結(jié)果如表3所示??梢钥闯瞿P皖A(yù)測值的動態(tài)趨勢與實際情況基本一致,模型對未來的情況進行了很好的跟蹤和預(yù)測。2009年7~12月的實際發(fā)病率雖然與預(yù)測值不完全一樣,但是各月實際值都落入了預(yù)測值95%的可信區(qū)間范圍。
圖1 原序列經(jīng)過對數(shù)轉(zhuǎn)換和兩次差分后的ACF圖
表3 2009年7~12月重慶市實際發(fā)病率與預(yù)測發(fā)病率(1/10萬)
圖2 原序列經(jīng)過對數(shù)轉(zhuǎn)換和兩次差分后的PACF圖
3.1 艾滋病發(fā)病率預(yù)測的意義 根據(jù)模型預(yù)測并結(jié)合實際情況,重慶市艾滋病感染速度呈上升趨勢。相關(guān)部門可以有針對性地采取預(yù)防控制措施。如整合艾滋病醫(yī)療資源,大力提升其診治能力;建立“重慶市艾滋病關(guān)愛之家”[11],動員全社會參與艾滋病防治,消除對艾滋病患者的恐懼和歧視;組建艾滋病職業(yè)暴露藥品庫,降低全市艾滋病職業(yè)暴露人員感染HIV的危險性等[12]。由于近幾年重慶市艾滋病感染者基數(shù)較大且不斷增加,致使發(fā)病率仍然不斷上升,所以,還應(yīng)加大其預(yù)防控制工作強度并且在預(yù)防控制手段上有所創(chuàng)新,加大對高危人群及高發(fā)地區(qū)的監(jiān)測和行為干預(yù)[13]。
3.2 ARIMA模型的應(yīng)用 時間序列分析是在不需要考慮預(yù)測變量的相關(guān)因素及其關(guān)系的情況下,利用事物發(fā)展的延續(xù)性,建立時間序列模型來預(yù)測未來的變化[14]。而傳統(tǒng)的時間序列模型要求序列具有平穩(wěn)的線性趨勢,但實際上疾病的發(fā)病情況一般有著明顯的周期變化,如果不考慮這些因素的影響,做出的預(yù)測往往不準確。本研究采用的ARIMA模型,綜合考慮了序列的趨勢變化、周期變化及隨機干擾等因素的影響,對艾滋病發(fā)病擬合度較好[15]。由于疫情波動受到諸多未知隨機因素的影響,所建立的模型不是一成不變的,它較適合進行短期的預(yù)測,同時需要不斷加入新的實際數(shù)據(jù),以不斷新擬合更能反映實際情況的預(yù)測模型,并提高預(yù)測的敏感性。
[1] Geoge EP,Gwilym M.時間序列分析預(yù)測與控制[M].北京:中國統(tǒng)計出版社,1997.
[2] 肖枝洪,郭明月.時間序列分析與SAS應(yīng)用[M].武昌:武漢大學出版社,2009.
[3] 何書元.應(yīng)用時間序列分析[M].北京:北京大學出版社,2003.
[4] 孫振球,徐勇勇.醫(yī)學統(tǒng)計學[M].北京:人民衛(wèi)生出版社,2002.
[5] 張文增,冀國強,史繼新,等.ARIMA模型在細菌性痢疾預(yù)測預(yù)警中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2009,26(6):636-639.
[6] 吳家兵,葉臨湘,尤爾科.時間序列模型在傳染病發(fā)病率預(yù)測中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2006,23(3):276.
[7] 劉曉宏,金丕煥,陳啟明.ARIMA模型中時間序列平穩(wěn)性的統(tǒng)計檢驗方法及應(yīng)用[J].中國衛(wèi)生統(tǒng)計,1998,15(3):12-14.
[8] 張文彤.SPSS11統(tǒng)計分析教程高級篇[M].北京:北京希望電子出版社,2002.
[9] 薛薇.SPSS統(tǒng)計分析方法及應(yīng)用[M].2版.北京:電子工業(yè)出版社,2009.
[10]孟蕾,王玉明.ARIMA模型在肺結(jié)核發(fā)病預(yù)測中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2010,27(5):507-509.
[11]王治倫,晏治碧,陳思源,等.建立重慶市艾滋病關(guān)愛之家體會[J].中國感染控制雜志,2004,3(3):275-276.
[12]李穎,汪洋,劉琴,等.重慶市高危人群中艾滋病防治的定性研究[J].中國衛(wèi)生事業(yè)管理,2005(2):96-97.
[13]丁賢彬,鄺富國,凌華,等.重慶市艾滋病流行現(xiàn)狀及防治策略[J].疾病控制雜志,2005,9(4):340-341.
[14]鄧丹,王潤華,周燕榮.時間序列分析及其在衛(wèi)生事業(yè)中的應(yīng)用[J].數(shù)理醫(yī)學雜志,2002,15(5):455-457.
[15]馮超,白彬.時間序列模型擬合艾滋病發(fā)病趨勢預(yù)測[J].中國公共衛(wèi)生,2005,21(7):893.