陸 波閔思韜閔紅星△岳曉玲郭忠琴
應(yīng)用ARIMA模型預(yù)測(cè)麻疹發(fā)病率的可行性研究
陸 波1閔思韜2閔紅星1△岳曉玲1郭忠琴1
目的探討應(yīng)用時(shí)間序列ARIMA模型對(duì)麻疹發(fā)病預(yù)測(cè)的可行性,為銀川市傳染病發(fā)病預(yù)測(cè)提供科學(xué)依據(jù)。方法采用Eviews6.0對(duì)銀川市2004-2008年麻疹月發(fā)病數(shù)的資料建立ARIMA模型,用單位根檢驗(yàn)法對(duì)模型的適應(yīng)性進(jìn)行檢驗(yàn),并回代驗(yàn)證其有效。結(jié)果建立模型ARIMA(1,2,0)×(1,2,0)12是合適的,R2=0.625,其預(yù)測(cè)值與實(shí)際值相吻合程度高。結(jié)論ARIMA模型能很好地模擬銀川市麻疹發(fā)病率的變動(dòng)趨勢(shì),預(yù)測(cè)效果滿意。
麻疹 預(yù)測(cè) 時(shí)間序列分析 ARIMA模型
我國自1965年使用麻疹疫苗以來,麻疹發(fā)病率和病死率明顯降低,但與國家消除麻疹時(shí)發(fā)病率達(dá)到1/100萬的目標(biāo)相距甚遠(yuǎn)。ARlMA模型[1-2],即求和自回歸滑動(dòng)平均(autoregressive integrated moving average)模型,被廣泛應(yīng)用于人口、經(jīng)濟(jì)、環(huán)境衛(wèi)生及疾病發(fā)病或死亡等研究領(lǐng)域[3]。為此,本研究運(yùn)用ARIMA模型對(duì)銀川市2004-2008年的麻疹月發(fā)病數(shù)建立數(shù)學(xué)模型,探討該模型的可行性,為麻疹的預(yù)防控制工作提供依據(jù)。
1.資料來源
銀川市2004-2008年麻疹月發(fā)病數(shù)通過國家疾病報(bào)告管理系統(tǒng)進(jìn)行收集,包括我市三區(qū)三縣所有醫(yī)療機(jī)構(gòu)的臨床診斷病例和實(shí)驗(yàn)室確診病例,用2004年1月至2008年12月麻疹月發(fā)病數(shù)建立預(yù)測(cè)模型,用2008年各月發(fā)病數(shù)進(jìn)行組外回代和組內(nèi)回代,以檢驗(yàn)?zāi)P偷念A(yù)測(cè)精度。最后,用2004-2008年所有的發(fā)病數(shù)資料建立預(yù)測(cè)模型,對(duì)2009年麻疹的發(fā)病情況進(jìn)行預(yù)測(cè)。
2.研究方法
采用Eviews6.0統(tǒng)計(jì)軟件進(jìn)行ARIMA模型的建模。ARIMA模型由兩個(gè)特殊模型發(fā)展而來,一個(gè)是自回歸或稱為AR模型,另一個(gè)是移動(dòng)平滑模型,所以ARIMA模型應(yīng)該是AR(p)模型和MA(q)模型的組合,這個(gè)模型有p+q個(gè)參數(shù)需要估計(jì)。ARIMA建模法分為三個(gè)階段進(jìn)行:(1)模型識(shí)別,此階段的輸出結(jié)果通常會(huì)建議擬合一個(gè)或多個(gè)ARIMA模型;(2)參數(shù)估計(jì)和模型檢驗(yàn),此階段用以判斷該模型的適用性;(3)預(yù)測(cè)應(yīng)用,預(yù)測(cè)時(shí)間序列的未來值及可信區(qū)間。通過這3個(gè)步驟的反復(fù)進(jìn)行,最終確定一個(gè)用于預(yù)報(bào)的“最優(yōu)”模型。
1.2004-2008年銀川市麻疹發(fā)病情況
繪制2004-2008年銀川市麻疹月發(fā)病資料的時(shí)間序列圖,可以看出:麻疹月發(fā)病數(shù)呈現(xiàn)明顯波動(dòng),每年均出現(xiàn)發(fā)病高峰月,且發(fā)病高峰出現(xiàn)的時(shí)間一致,發(fā)現(xiàn)有相對(duì)固定的季節(jié)性或周期性波動(dòng)(每年4月出現(xiàn)高峰),見圖1。
圖1 2004-2008年銀川市麻疹月發(fā)病數(shù)時(shí)序圖
2.建立預(yù)測(cè)模型
(1)模型識(shí)別
對(duì)銀川市2004-2008年麻疹發(fā)病的時(shí)間序列進(jìn)行分析后發(fā)現(xiàn),該序列的ACF呈拖尾衰減緩慢,為非平穩(wěn)序列,PACF二步截尾,尚無法識(shí)別,需要將序列平穩(wěn)化處理后再做一階季節(jié)差分,序列的ACF呈兩步截尾,而PACF呈一步截尾,所以,原始序列識(shí)別為ARIMA(1,2,0)。初步選定麻疹預(yù)測(cè)模型為取值p=1,d=2,q=0的ARIMA(1,2,0)。用2004年1月至2008年12月的麻疹月發(fā)病數(shù)建立預(yù)測(cè)模型,結(jié)果見表1。
表1 2004-2008年銀川市麻疹月發(fā)病數(shù)預(yù)測(cè)模型相關(guān)參數(shù)
(2)參數(shù)估計(jì)和模型檢驗(yàn)
麻疹發(fā)病預(yù)測(cè)模型ARIMA(1,2,0)×(1,2,0)12的參數(shù)估計(jì),模型誤差在任何時(shí)滯上P值都大于0.05,顯示該模型用于預(yù)測(cè)是合適的,可用于麻疹發(fā)病的預(yù)測(cè)。
(3)預(yù)測(cè)應(yīng)用
①建立數(shù)學(xué)模型yt=13.877+0.867159tt-1-0.346245tt-2+at,用該模型對(duì)我市2009年麻疹發(fā)病情況進(jìn)行預(yù)測(cè)。
②數(shù)據(jù)內(nèi)與數(shù)據(jù)外預(yù)測(cè) 從圖2可以看出,實(shí)際值與預(yù)測(cè)值相對(duì)較為吻合。
圖2 2004-2009年銀川市麻疹發(fā)病的數(shù)據(jù)內(nèi)與數(shù)據(jù)外預(yù)測(cè)
國內(nèi)曾對(duì)多種不同的預(yù)測(cè)方法進(jìn)行研究,諸如回歸分析法、時(shí)間序列法、灰色模型等等。有研究顯示,各種模型在疾病的預(yù)測(cè)中及醫(yī)院管理等方面均取得了較好的效果[4-6]。ARIMA模型研究對(duì)象為季節(jié)特點(diǎn)較為明顯的資料,涉及醫(yī)院管理、預(yù)防醫(yī)學(xué)及經(jīng)濟(jì)等領(lǐng)域[7]。本研究應(yīng)用ARIMA模型法預(yù)測(cè)麻疹發(fā)病率,是用疾病的過去值和現(xiàn)在值,預(yù)測(cè)未來值,收集資料所花費(fèi)的成本很低,其過程簡便、適用。另外,可參照預(yù)測(cè)數(shù)據(jù)有目的地開展傳染病的預(yù)防和控制工作。
麻疹是呼吸道傳染病,通過2004-2008年銀川市麻疹月發(fā)病數(shù)的時(shí)間序列圖可以看出:麻疹月發(fā)病數(shù)呈現(xiàn)明顯波動(dòng),每年4月為發(fā)病高峰月,且季節(jié)性比較明顯。本文在充分考慮麻疹季節(jié)性的情況下,對(duì)其進(jìn)行建模,獲得了比較滿意的預(yù)測(cè)模型ARIMA(1,2,0)×(1,2,0)12。麻疹月發(fā)病數(shù)時(shí)間序列的ACF分析圖顯示:序列數(shù)據(jù)不平穩(wěn),經(jīng)一階差分后,建立ARIMA(1,2,0),進(jìn)行檢驗(yàn)說明有統(tǒng)計(jì)學(xué)意義,用2004年1月-2008年12月的麻疹月發(fā)病數(shù)用建模,運(yùn)用Eviews6.0擬合模型,對(duì)殘差序列進(jìn)行白噪聲檢驗(yàn),結(jié)果顯示,該序列數(shù)據(jù)的五年預(yù)測(cè)效果的擬合度R2為0.625,相關(guān)系數(shù)為0.7905,通過預(yù)測(cè)實(shí)際值與預(yù)測(cè)相吻合程度高,說明用ARIMA(1,2,0)×(1,2,0)12模型能很好的預(yù)測(cè)麻疹發(fā)病情況。
本研究證實(shí)了ARIMA模型能夠較好的用于麻疹發(fā)病的預(yù)測(cè),該模型在其他傳染病發(fā)病預(yù)測(cè)中的應(yīng)用也值得進(jìn)一步探討。但是,ARIMA模型預(yù)測(cè)只有以足夠多的時(shí)間序列數(shù)據(jù)為依據(jù),才能得到較滿意的預(yù)測(cè)效果,本研究在處理序列數(shù)據(jù)中發(fā)現(xiàn),序列太短會(huì)導(dǎo)致建模困難,取較長的序列則可保證擬合模型的可靠性,通常認(rèn)為ARIMA模型法至少需要50個(gè)以上數(shù)據(jù)建模,而本次研究采用60個(gè)數(shù)據(jù)建模,預(yù)測(cè)效果較好。
1.孟蕾,王玉明.ARIMA模型在肺結(jié)核發(fā)病預(yù)測(cè)中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2010,27(5):507-509.
2.胡建利,梁祁,吳瑩,等.季節(jié)時(shí)間序列模型在菌痢發(fā)病預(yù)測(cè)中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2012,29(1):34-39.
3.Poddar SK.Influenza Virus Types and Subtypes Detection by Single StepSingle Tube Multiplex Reverse Transcription-polymerase China Reaction(RT-PCR)And Agarose Gel-Electrophoresis.Journal of Virology Methods,2002,99:63-70.
4.尹志英,繆明正.指數(shù)曲線模型在預(yù)測(cè)甲肝流行趨勢(shì)中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2007,24(5):555.
5.肖玉霞,張穎.用線性趨勢(shì)季節(jié)模型預(yù)測(cè)出院人次.中國衛(wèi)生統(tǒng)計(jì),2008,25(3):213-215.
6.胡興,胡錫健.新疆H1N1甲型流感疫情預(yù)測(cè)模型的比較研究.中國衛(wèi)生統(tǒng)計(jì),2011,28(3):342-343.
7.馮丹,曹秀堂,董軍,等.綜合性醫(yī)院收容量預(yù)測(cè)的ARIMA模型構(gòu)建研究.解放軍醫(yī)院管理雜志,2007,14(2):101-103.
(責(zé)任編輯:丁海龍)
陸波,閔思韜為并列第一作者
1.寧夏醫(yī)科大學(xué)總醫(yī)院(750004)
2.浙江大學(xué)物理系
△通信作者:閔紅星,E-mail:minhongxing@126.com