潘姣姣 董柏青 呂 煒 付志智
時(shí)間序列指隨時(shí)間變化的、具有隨機(jī)性的、且前后相互關(guān)聯(lián)的動(dòng)態(tài)數(shù)據(jù)序列,它是依特定時(shí)間間隔而記錄的指定變量的一系列取值〔1〕。近年來(lái),時(shí)間序列分析越來(lái)越廣泛地應(yīng)用在疾病的發(fā)生和死亡中。肺結(jié)核是通過(guò)呼吸道傳播的重大傳染病之一,為探討肺結(jié)核暴發(fā)早期探測(cè)預(yù)警模型,本文通過(guò)分析、選取最佳模型,擬合1989~2009年廣西肺結(jié)核發(fā)病率的變化軌跡,外展預(yù)測(cè)2010~2012年肺結(jié)核的發(fā)病趨勢(shì),現(xiàn)將結(jié)果報(bào)告如下。
1.資料來(lái)源:1989~2010年疫情資料來(lái)源于廣西壯族自治區(qū)疾病預(yù)防控制中心疫情室,人口資料來(lái)源于廣西壯族自治區(qū)統(tǒng)計(jì)局。
2.統(tǒng)計(jì)方法:
(1)曲線回歸法(curve estimation):在一般情況下,研究者對(duì)已有的數(shù)據(jù)的認(rèn)識(shí)是不完整的,不能辨別變量之間的準(zhǔn)確關(guān)系,這時(shí),可以先將數(shù)據(jù)繪制成散點(diǎn)圖,觀察數(shù)據(jù)在圖中的分布情況,再根據(jù)圖形的特點(diǎn)來(lái)確定應(yīng)采用的模型形式〔2〕。一個(gè)比較直接的方法是從擬合優(yōu)度R2值的大小進(jìn)行比較,找出最佳模型。
(2)指數(shù)平滑法:指數(shù)平滑法(exponential smoothing method)是通過(guò)去除數(shù)據(jù)中一些隨機(jī)的波動(dòng),找到其中的顯而易見(jiàn)的規(guī)律性,并對(duì)未來(lái)的發(fā)展趨勢(shì)進(jìn)行合理的預(yù)測(cè)〔2〕。指數(shù)平滑法預(yù)測(cè)步驟:①繪制序列圖;②根據(jù)序列圖判斷有效參數(shù);③繪制擬合曲線圖,觀察擬合效果;④建立指數(shù)平滑模型對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。
(3)ARIMA方法是以時(shí)間序列的自相關(guān)分析為基礎(chǔ)的,以便識(shí)別時(shí)間序列的模型,實(shí)現(xiàn)建模和完成預(yù)測(cè)任務(wù)〔3〕。一般來(lái)說(shuō):ARIMA方法把預(yù)測(cè)問(wèn)題劃分為三個(gè)階段:①模型的識(shí)別;②模型中參數(shù)的估計(jì)和模型的檢驗(yàn);③預(yù)測(cè)的應(yīng)用。
1.曲線回歸模型擬合效果分析(表1)
表1 曲線回歸法模擬廣西1989~2009年肺結(jié)核發(fā)病趨勢(shì)
2.指數(shù)平滑模型擬合結(jié)果分析
指數(shù)平滑法擬合廣西1989~2012年肺結(jié)核發(fā)病率情況如圖1,1990~2009年廣西肺結(jié)核預(yù)測(cè)發(fā)病率與實(shí)際值相差不大,實(shí)際值與擬合值基本趨勢(shì)水平相似度高,表示擬合程度好。
圖1 指數(shù)平滑法模擬廣西1989~2012年肺結(jié)核發(fā)病趨勢(shì)
指數(shù)平滑法在預(yù)測(cè)過(guò)程中會(huì)出現(xiàn)預(yù)測(cè)值偏高或者偏低,對(duì)于上升的數(shù)據(jù),預(yù)測(cè)值總是偏低;對(duì)于下降的數(shù)據(jù),預(yù)測(cè)值總是偏高〔3〕。
3.ARIMA模型擬合結(jié)果分析
(1)檢驗(yàn)序列的平穩(wěn)性 根據(jù)1989~2009年各季度肺結(jié)核報(bào)告發(fā)病率序列圖和自相關(guān)(ACF)分析圖判斷序列的平穩(wěn)性,由于發(fā)病率序列的方差前后波動(dòng)較大,并且存在明顯的季節(jié)性趨勢(shì),可以定義為不穩(wěn)定序列;因此先對(duì)發(fā)病率序列進(jìn)行一階差分使之轉(zhuǎn)化為平穩(wěn)序列,如圖2。
圖2 數(shù)據(jù)進(jìn)行轉(zhuǎn)化后的ACF和PACF圖
(2)模型識(shí)別 根據(jù)數(shù)據(jù)的自相關(guān)(ACF)和偏相關(guān)(PACF)分析圖,進(jìn)行模型的初步識(shí)別和定階。根據(jù)差分的次數(shù)可以確定模型的形式為:ARIMA(p,1,q)(P,1,Q)4,其中,p,q,P,Q 都是待定的參數(shù),分別表示連續(xù)模型和季節(jié)模型中的自回歸階數(shù)和移動(dòng)平均階數(shù),4表示季節(jié)模型以4季度為一個(gè)周期。對(duì)于p,q,P,Q的確定可以由ACF圖PACF圖判斷,圖中顯示偏回歸系數(shù)在q>1驟減,根據(jù)以上特征初步判斷模型的形式:ARIMA(0,1,1),季節(jié)模型的參數(shù) P,Q 較難判斷,但根據(jù)文獻(xiàn)可知,季節(jié)模型的參數(shù)超過(guò)2階的很少,可以分別取0,1,2,然后由低階到高階逐個(gè)試驗(yàn),根據(jù)模型的擬合優(yōu)度,殘差情況及系數(shù)間的相關(guān)性進(jìn)行綜合判斷。根據(jù)以上分析,可初步判斷時(shí)間序列的ARIMA 模型為 ARIMA(0,1,1)(0,1,0)4、ARIMA(0,1,1)(0,1,1)4或 ARIMA(0,1,1)(0,1,2)4
(3)參數(shù)估計(jì)和模型診斷 備選模型的參數(shù)估計(jì)應(yīng)該包括以下幾個(gè)方面:(1)模型參數(shù)是否有統(tǒng)計(jì)學(xué)意義:模型主要參數(shù)有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表2;(2)備選模型的擬合度比較:SPSS輸出擬合優(yōu)度統(tǒng)計(jì)量有平穩(wěn)R2在內(nèi)的8個(gè)擬合優(yōu)度統(tǒng)計(jì)量,模型擬合度最好的是 ARIMA(0,1,1)(0,1,0)4;(3)參數(shù)獨(dú)立性檢驗(yàn):若同一模型的兩個(gè)參數(shù)之間具有較高的相關(guān)性,應(yīng)考慮剔除其中一個(gè),重新計(jì)算模型;(4)殘差檢驗(yàn):若殘差為白噪聲,則意味著所建立的模型包含了原始序列的所有趨勢(shì),應(yīng)用于預(yù)測(cè)是合適的,若不是則需要繼續(xù)改進(jìn)重新估計(jì)。
表2 備選ARIMA模型的參數(shù)估計(jì)
(4)預(yù)測(cè) 1989~2009年的數(shù)據(jù)建立模型對(duì)2010~2012年各季度肺結(jié)核發(fā)病率進(jìn)行預(yù)測(cè),如圖3。
圖3 ARIMA模型擬合廣西1989~2012年肺結(jié)核發(fā)病趨勢(shì)
4.三種模型擬合結(jié)果分析及比較
三種模型擬合效果可以通過(guò)決定系數(shù)(R2)、正態(tài)BIC和殘差均方(MSE)來(lái)比較:曲線回歸法<ARIMA<指數(shù)平滑法;同時(shí)要檢查殘差是否為白噪聲,LBox Q統(tǒng)計(jì)量>0.05。指數(shù)平滑法L-Box Q=0.03<0.05,選擇決定系數(shù)最高、殘差為白噪聲的模型為最佳預(yù)測(cè)模型,即ARIMA模型,它同時(shí)可以預(yù)測(cè)年發(fā)病率和各季度發(fā)病率。
本文利用SPSS軟件包對(duì)同一資料進(jìn)行不同模型的擬合預(yù)測(cè),根據(jù)資料的具體情況及決定系數(shù)R2進(jìn)行多個(gè)模型的比較預(yù)測(cè),選擇最佳模型,克服單一模型擬合的局限性,提高現(xiàn)有資料的利用率。
指數(shù)平滑法通過(guò)監(jiān)測(cè)醫(yī)院抗菌藥物使用情況來(lái)預(yù)測(cè)醫(yī)院耐藥菌的發(fā)病率取得了良好的效果〔4〕,ARIMA模型綜合考慮了序列的趨勢(shì)變化、周期變化及隨機(jī)干擾,并借助模型參數(shù)進(jìn)行量化表達(dá);ARIMA模型可以預(yù)測(cè)和評(píng)價(jià)瘧疾防治效果〔5〕。一般來(lái)說(shuō),ARIMA模型考慮時(shí)間序列過(guò)程中的季節(jié)分布的特點(diǎn);大大消除了季節(jié)因素的影響,提高預(yù)測(cè)精度。肺結(jié)核具有季節(jié)分布特征,其擬合過(guò)程應(yīng)充分考慮周期、季節(jié)趨勢(shì),李娜〔6〕等人研究結(jié)果發(fā)現(xiàn):季節(jié)差分ARIMA模型能夠較好地?cái)M合短期內(nèi)肺結(jié)核的發(fā)病率。因此,可以認(rèn)為ARIMA模型預(yù)測(cè)季節(jié)性傳染病的效果較好,但ARIMA模型并非唯一預(yù)測(cè)季節(jié)性傳染病的方法,該模型進(jìn)行短期預(yù)測(cè)的效果較佳,一般不用于長(zhǎng)期預(yù)測(cè)。
廣西肺結(jié)核在1989~2007年間,發(fā)病率總體呈上升趨勢(shì),隨后逐年降低。本文在時(shí)間序列水平下研究廣西肺結(jié)核的發(fā)病率,通過(guò)三種不同模型進(jìn)行擬合預(yù)測(cè),經(jīng)檢驗(yàn)可知:擬合精度ARIMA模型>指數(shù)平滑法>曲線回歸法,ARIMA模型預(yù)測(cè)2010~2012年廣西肺結(jié)核的發(fā)病率呈季節(jié)性分布,實(shí)際發(fā)病率均在預(yù)測(cè)值95%置信區(qū)間內(nèi)。
傳染病的預(yù)測(cè)能了解疫情的動(dòng)態(tài)發(fā)展,及時(shí)采取措施,但傳染病的流行受到自然環(huán)境、社會(huì)環(huán)境、人文環(huán)境等多種非規(guī)律性因素的影響,本文研究單變量型ARIMA模時(shí)間序列的水平,沒(méi)有考慮到其他因素的影響;由于肺結(jié)核發(fā)病時(shí)間序列不穩(wěn)定,因此,單變量提出的預(yù)測(cè)模型不能作為長(zhǎng)期不變的預(yù)測(cè)依據(jù),只可以進(jìn)行短期預(yù)測(cè)〔7〕。對(duì)于肺結(jié)核的預(yù)測(cè),應(yīng)該盡可能收集更多的數(shù)據(jù)并不斷加入新的觀測(cè)值,建立多變量動(dòng)態(tài)預(yù)測(cè)模型,才能達(dá)到高效預(yù)測(cè)的目的。
1.杜強(qiáng),賈麗艷.SPSS統(tǒng)計(jì)分析從入門到精通.北京:中國(guó)郵電出版社,2010:377-405.
2.孫振球,徐勇勇.醫(yī)學(xué)統(tǒng)計(jì)學(xué).第3版.北京:人民衛(wèi)生出版社,2010:383-404.
3.孫振球主編.醫(yī)學(xué)統(tǒng)計(jì)學(xué)(供研究生用).北京:人民衛(wèi)生出版社,2004:358-372.
4.Ngo L,Tager IB,Hadley D.Application of exponential smoothing for nosocomial infection surveillance.American Journal of Epidemiology,1996,143(6):637-647.
5.Wangdi K,Singhasivanon P,Silawan T,et al.Development of temporal modeling for forecasting and prediction of malaria infections using timeseries and ARIMAX analyses:a case study in endemic districts of Bhutan Malaria Journal,2010,9:251-259.
6.李娜,殷菲,李曉松.時(shí)間序列分析在肺結(jié)核發(fā)病預(yù)測(cè)應(yīng)用中的初步探討 .現(xiàn)代預(yù)防醫(yī)學(xué),2010,37(8):1426-1428.
7.陳勇,陳建國(guó),朱健,等.江蘇省啟東市1972-2001年肺癌發(fā)病趨勢(shì)分析及預(yù)測(cè)模型比較研究.中華流行病學(xué)雜志,2005,26(12):955-959.