陳銀蘋,吳愛萍,余亮科,許雅麗,蔣 寧,楊 陽(yáng),張 錦,張靜宇,曹燕花
肺結(jié)核是我國(guó)發(fā)病、死亡人數(shù)最多的重大傳染病之一。根據(jù)2010年全國(guó)第五次結(jié)核病流行病學(xué)調(diào)查結(jié)果,估算我國(guó)全人群活動(dòng)性肺結(jié)核患病率為392/10萬,其中傳染性肺結(jié)核患病率為100/10萬。據(jù)此估算2010年我國(guó)現(xiàn)有活動(dòng)性肺結(jié)核患者總數(shù)為523萬,其中傳染性肺結(jié)核患者總數(shù)為134萬,占全球發(fā)病的14.3%,僅次于印度[1]。本文運(yùn)用自回歸積分移動(dòng)平均(ARIMA)-灰色模型(GM)組合模型對(duì)遷安市2004年1月—2012年12月的肺結(jié)核逐月發(fā)病率進(jìn)行擬合,并預(yù)測(cè)該市2013年肺結(jié)核逐月發(fā)病情況,以探討使用此模型預(yù)測(cè)肺結(jié)核未來發(fā)病率,為加速防控肺結(jié)核提供依據(jù)。
1.1 資料來源 遷安市2004年1月—2012年12月肺結(jié)核的發(fā)病資料來源于中國(guó)疾病預(yù)防控制信息系統(tǒng)中疾病監(jiān)測(cè)信息報(bào)告管理系統(tǒng),相應(yīng)的人口學(xué)資料來源于中國(guó)疾病預(yù)防控制信息系統(tǒng)的基本信息系統(tǒng)。
1.2 ARIMA模型
1.2.1 ARIMA模型原理 ARIMA模型是由博克思(Box)和詹金斯(Jenkins)于20世紀(jì)70年代初提出的著名時(shí)間序列預(yù)測(cè)方法,又稱為Box-Jenkins模型、博克思-詹金斯法[2]。醫(yī)學(xué)研究中,某些傳染病的發(fā)生發(fā)展規(guī)律隨時(shí)間而變化,將這組依賴于時(shí)間變化的變量稱之為時(shí)間序列資料,就是依賴于時(shí)間(t)的數(shù)據(jù),記作:Y1,Y2……Yt。如肺結(jié)核就是一種隨時(shí)間而發(fā)生有規(guī)律變化的傳染病,可以用t函數(shù)關(guān)系來描述其發(fā)生及變化規(guī)律。
1.2.2 建模步驟 (1)預(yù)處理數(shù)據(jù);(2)模型的識(shí)別:采用最小二乘估計(jì)等方法對(duì)識(shí)別階段提供的粗模型進(jìn)行參數(shù)估計(jì)并假設(shè)檢驗(yàn),確定赤池信息量準(zhǔn)則(AIC)值〔或貝葉斯信息準(zhǔn)則(BIC)值〕最小的模型[3];(3)參數(shù)估計(jì)及模型診斷:模型是否合適需要對(duì)其擬合優(yōu)度進(jìn)行檢驗(yàn),如果殘差序列不是白噪聲序列,則需要重新建立模型,重復(fù)上述步驟直到殘差序列是白噪聲序列為止;(4)預(yù)測(cè):包括點(diǎn)預(yù)測(cè)和區(qū)間預(yù)測(cè)。
1.3 GM(1,1)模型
1.3.1 GM(1,1)模型原理 灰色系統(tǒng)理論是我國(guó)學(xué)者鄧聚龍教授于19世紀(jì)80年代初提出的,主要內(nèi)容包括以灰色朦朧集為基礎(chǔ)的理論體系,以灰色關(guān)聯(lián)空間為依托的分析體系,以灰色序列生成為基礎(chǔ)的方法體系,以GM為核心的模型體系,以系統(tǒng)分析、評(píng)估、建模、預(yù)測(cè)、決策、控制、優(yōu)化為主體的技術(shù)體系。GM(1,1)模型的核心思想是利用離散隨機(jī)數(shù)經(jīng)過生成(其中包括累加、累減生成、均值生成等)變?yōu)殡S機(jī)性被顯著削弱而且較有規(guī)律的生成數(shù),建立起微分方程。GM(1,1)模型實(shí)質(zhì)是一階一個(gè)變量的微分方程模型,是一階n個(gè)變量的微分方程模型GM(1,n)中最基本的模型[4]。
1.3.2 建模步驟 設(shè)由n+1個(gè)原始數(shù)據(jù)組成的原始數(shù)據(jù)組成的原始數(shù)列為 (t=0,1,2……n),其建模具體步驟[5]如下:(1)累加生成;(2)均值生成;(3)建立GM(1,1)模型的一階線性微分方程;(4)計(jì)算 的估計(jì)值。
1.4 ARIMA-GM組合模型 由于肺結(jié)核發(fā)病率的歷
本文創(chuàng)新點(diǎn)
本研究運(yùn)用時(shí)序圖對(duì)唐山遷安市肺結(jié)核發(fā)病率數(shù)據(jù)進(jìn)行描述性分析后,發(fā)現(xiàn)肺結(jié)核發(fā)病率的歷史數(shù)據(jù)中既有線性趨勢(shì)又有非線性趨勢(shì),因此提出一種基于時(shí)間序列的自回歸積分移動(dòng)平均(ARIMA)模型和灰色模型(GM)(1,1)的組合模型。利用ARIMA季節(jié)乘積模型對(duì)周期型時(shí)間序列提取線性信息,然后用一帶閾值的GM(1,1)模型對(duì)其殘差進(jìn)行修正提取非線性特征信息,最后結(jié)合二者結(jié)果構(gòu)造出對(duì)肺結(jié)核發(fā)病率預(yù)測(cè)的組合預(yù)測(cè)方法,以彌補(bǔ)ARIMA模型非線性映射性能弱的不足,并將指標(biāo)C值、P值結(jié)合平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)綜合評(píng)價(jià)模型精度以篩選最佳預(yù)測(cè)模型。結(jié)果顯示帶閾值的ARIMA-GM組合模型的MAE為0.965 7,MAPE為18.63%,均比單個(gè)模型小,證明組合模型確實(shí)可以提高預(yù)測(cè)精度。ARIMA-GM組合模型較好地?cái)M合了唐山遷安市肺結(jié)核發(fā)病情況,預(yù)測(cè)結(jié)果能夠?qū)Ψ谓Y(jié)核的早期預(yù)測(cè)預(yù)警模型的建立提供借鑒。
史數(shù)據(jù)中既有線性趨勢(shì)又有非線性趨勢(shì),因此可以先使用ARIMA季節(jié)乘積模型預(yù)測(cè)肺結(jié)核發(fā)病率,獲得每個(gè)實(shí)際觀察值的ARIMA模型擬合序列及殘差序列,對(duì)殘差序列用一閾值更新為非負(fù)序列,然后用GM(1,1)模型預(yù)測(cè)ARIMA季節(jié)乘積模型的殘差序列。將以上ARIMA季節(jié)乘積模型的肺結(jié)核發(fā)病率預(yù)測(cè)值和GM(1,1)模型預(yù)測(cè)的殘差預(yù)測(cè)值綜合一起,即得到組合模型對(duì)2013年遷安市肺結(jié)核發(fā)病情況的預(yù)測(cè)值。
1.5 統(tǒng)計(jì)學(xué)方法 利用Excel 2003建立遷安市2004—2012年肺結(jié)核發(fā)病人數(shù)和人口數(shù)的數(shù)據(jù)庫(kù),并用Excel 2003和SPSS 13.0統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)分析。
2.1 ARIMA模型的建立 本資料肺結(jié)核月發(fā)病時(shí)間序列具有季節(jié)波動(dòng)性,即該序列不是平穩(wěn)序列。差分是消除時(shí)間序列趨勢(shì),達(dá)到時(shí)間序列平穩(wěn)化目的常用的方法,因此進(jìn)行季節(jié)性差分后得出自相關(guān)圖和偏自相關(guān)圖(見圖1)。
經(jīng)一次季節(jié)性差分后消除了季節(jié)波動(dòng)性的影響,自相關(guān)關(guān)系圖(ACF圖)呈現(xiàn)逐漸衰減趨勢(shì),處理后的序列符合運(yùn)用ARIMA模型的條件(見圖1)。可初步確定形式為ARIMA(p,d,q)(P,1,Q)12,這是一個(gè)綜合了連續(xù)模型和季節(jié)模型的復(fù)合季節(jié)模型,其中季節(jié)以12個(gè)月為周期。
對(duì)模型ARIMA(p,d,q)(P,1,Q)12中p、d、q、P和Q各參數(shù)采取從低階到高階逐個(gè)進(jìn)行嘗試的辦法,而模型階數(shù)過高會(huì)造成過擬合,各階數(shù)限定在0~2,選取參數(shù)有統(tǒng)計(jì)學(xué)意義的部分模型的結(jié)果及擬合優(yōu)度檢驗(yàn)見表1和表2。
圖1 遷安市2004—2012年肺結(jié)核發(fā)病率(1/10萬)經(jīng)季節(jié)差分自相關(guān)系數(shù)與偏自相關(guān)系數(shù)圖
Figure1 Plotting of the incidence of pulmonary tuberculosis after seasonal difference in Qian′an from 2004 to 2012
根據(jù)AIC、BIC信息準(zhǔn)則以及簡(jiǎn)約性原則,選擇AIC、BIC、標(biāo)準(zhǔn)誤差均最小的模型,模型最終確定為ARIMA(0,1,1)(0,1,1)12。對(duì)該模型的殘差序列進(jìn)行白噪聲檢驗(yàn),殘差自相關(guān)系數(shù)均很小且不表示出任何特征,按α=0.05水準(zhǔn),檢驗(yàn)結(jié)果表明殘差不存在自相關(guān),即殘差是一個(gè)隨機(jī)序列,因此可以確定肺結(jié)核發(fā)病率的預(yù)測(cè)模型(見表3)。
2.2 GM(1,1)模型殘差序列分析 針對(duì)ARIMA(0,1,1)(0,1,1)12模型得到殘差序列,取閾值為4。然后利用GM(1,1)模型預(yù)測(cè)帶閾值的殘差序列,預(yù)測(cè)模型通過了精度檢驗(yàn)(C=0.573,P=0.805),所建立的模型擬合精度為基本合格,再進(jìn)一步將該殘差序列還原后得到GM(1,1)模型預(yù)測(cè)的殘差序列。然后運(yùn)用平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)對(duì)2004—2012年發(fā)病率進(jìn)行檢驗(yàn),組合模型的MAE、MAPE都比單個(gè)模型小,說明該組合模型預(yù)測(cè)精度較高,且由MAPE的評(píng)價(jià)標(biāo)準(zhǔn)可知,組合模型的預(yù)測(cè)結(jié)果為良好預(yù)測(cè)(見表4)。
表1 ARIMA(p,d,q)(P,1,Q)12不同參數(shù)組合擬合后的部分結(jié)果
Table1 Parts of the parameters′ estimates for the ARIMA(p,d,q)(P,1,Q)12model
模型AR1MASAR1SMA常數(shù)項(xiàng)ARIMA(1,1,0)12 β---0516--0182 t值---6158--1840 P值-- 0000-0069ARIMA(0,0,1)(0,1,1)12 β--0084--0958-0176 t值--0913-1795-3801 P值-0364-00760000ARIMA(1,0,0)(0,1,1)12 β0113--0983-0176 t值1245--0755-3871 P值0216--04520000ARIMA(0,1,1)(0,1,1)12 β-0850-09440004 t值-15729-24180527 P值-0000-00180599
注:-無此項(xiàng);AR1=1階自回歸模型,MA=滑動(dòng)平均模型,SAR1=1階季節(jié)性自回歸模型,SMA=季節(jié)性滑動(dòng)平均模型
表2 備選模型擬合優(yōu)度統(tǒng)計(jì)量
Table2 Goodness-of-fit results among ARIMA(p,d,q)(P,1,Q)12models
模型AICBIC標(biāo)準(zhǔn)誤差對(duì)數(shù)似然ARIMA(1,1,0)121979-169839343679348807ARIMA(0,0,1)(0,1,1)121359-161765329530337223ARIMA(1,0,0)(0,1,1)121324-161863329727337420ARIMA(0,1,1)(0,1,1)121459-163736333472341133
表3 ARIMA(0,1,1)(0,1,1)12模型殘差檢驗(yàn)結(jié)果
Table3 White-noise test of the residuals of ARIMA(0,1,1) (0,1,1)12model
時(shí)滯自相關(guān)系數(shù)標(biāo)準(zhǔn)誤Box-Ljung統(tǒng)計(jì)統(tǒng)計(jì)量 自由度 P值1-004101010168106822007901000789206743009601001714306344-011900993142405345002500993203506696-006600983659607237-006500984096707698-0058009744518081490043009746499086410-00530096495410089411-00220095500611093112-003800955163120952
2.3 ARIMA-GM組合模型預(yù)測(cè)結(jié)果 將以上ARIMA季節(jié)乘積模型的肺結(jié)核發(fā)病率預(yù)測(cè)值和GM(1,1)模型預(yù)測(cè)的殘差預(yù)測(cè)值綜合一起,就得到了組合模型對(duì)遷安市2013年肺結(jié)核月發(fā)病率的預(yù)測(cè)值(見圖2)。
表4 ARIMA模型、GM(1,1)模型及組合模型預(yù)測(cè)殘差結(jié)果比較(2004—2012年)
Table4 Results of the residuals accuracy of ARIMA,GM (1,1) and combination models (from 2004 to 2012)
模型平均殘差MAEMAPE(%)ARIMA模型-001100143647GM(1,1)模型 001099652105ARIMA-GM組合模型 001096571863
注:MAE=平均絕對(duì)誤差,MAPE=平均絕對(duì)百分比誤差
肺結(jié)核是我國(guó)發(fā)病、死亡人數(shù)最多的重大傳染病之一,對(duì)人們的健康造成了嚴(yán)重的威脅,特別是耐藥菌株的出現(xiàn),給我國(guó)衛(wèi)生系統(tǒng)帶來了很大的挑戰(zhàn)。肺結(jié)核的預(yù)測(cè)是結(jié)核病防治工作中非常重要的一個(gè)環(huán)節(jié)。隨著預(yù)測(cè)理論及預(yù)測(cè)技術(shù)的發(fā)展與完善,越來越多的統(tǒng)計(jì)理論、預(yù)測(cè)方法及統(tǒng)計(jì)模型被應(yīng)用于傳染病的預(yù)警和預(yù)報(bào),但對(duì)一個(gè)地區(qū)來說,傳染病流行的影響因素錯(cuò)綜復(fù)雜。因此,對(duì)某單一因素的分析不能全面把握傳染病的流行特征及規(guī)律,而且各種模型的應(yīng)用條件不同,對(duì)相同的傳染病發(fā)病資料擬合不同的預(yù)測(cè)模型,其擬合的準(zhǔn)確性可能不同[6]。
ARIMA模型的優(yōu)勢(shì)在于時(shí)間序列分析可將多種影響疾病發(fā)生、發(fā)展的因素包括未知因素的綜合效應(yīng)統(tǒng)一蘊(yùn)含在時(shí)間變量中[7],通過綜合考慮序列的趨勢(shì)變化、周期變化和隨機(jī)干擾并借助統(tǒng)計(jì)模型進(jìn)行量化表達(dá),且可以通過反復(fù)識(shí)別及修改以獲得更為滿意的模型,且其過程簡(jiǎn)便、經(jīng)濟(jì)、適用,短期預(yù)測(cè)精度較高[8];而建立季節(jié)ARIMA模型時(shí),季節(jié)差分使得模型需要比較大的樣本容量,另外當(dāng)實(shí)際問題比較復(fù)雜時(shí),模型的定階也變得困難,這就需要應(yīng)用者對(duì)實(shí)際資料的特點(diǎn)有深刻的理解,并不斷積累經(jīng)驗(yàn),才能獲得更合適的模型?;疑到y(tǒng)理論是由中國(guó)學(xué)者鄧聚龍教授于20世紀(jì)80年代初創(chuàng)立的,主要應(yīng)用于復(fù)雜系統(tǒng)中某一主要變量特征值的擬合和預(yù)測(cè),以揭示該主要變量隨時(shí)間的變化規(guī)律和未來的發(fā)展態(tài)勢(shì),在一定程度上克服了傳統(tǒng)預(yù)測(cè)模型多建立在數(shù)理統(tǒng)計(jì)基礎(chǔ)上、并需要大量樣本和典型概率分布的局限性,一定程度上有助于減少時(shí)間序列的隨機(jī)性和提高預(yù)測(cè)精度;但GM(1,1)只能用于數(shù)據(jù)離散較小且發(fā)展趨勢(shì)呈單調(diào)性的情況,無法分析系統(tǒng)的波動(dòng)規(guī)律[9],并且遠(yuǎn)期預(yù)測(cè)誤差較大。
本研究考慮到肺結(jié)核發(fā)病率的歷史數(shù)據(jù)中既有線性趨勢(shì)又有非線性趨勢(shì),因此提出一種基于ARIMA-GM的組合模型,利用ARIMA季節(jié)乘積模型對(duì)周期型時(shí)間序列提取線性信息,然后用一帶閾值的GM(1,1)模型對(duì)其殘差進(jìn)行修正提取非線性特征信息,最后結(jié)合二者結(jié)果構(gòu)造出對(duì)肺結(jié)核發(fā)病率預(yù)測(cè)的組合預(yù)測(cè)方法,以彌補(bǔ)ARIMA模型非線性映射性能弱的不足,從而提高預(yù)測(cè)的精度。結(jié)果顯示ARIMA-GM組合模型的MAE為0.965 7,MAPE為18.63%,均比單個(gè)模型小,說明組合模型確實(shí)可以提高預(yù)測(cè)精度。
但實(shí)際建立擬合模型時(shí)還應(yīng)注意到,要提高組合模型的預(yù)測(cè)精度不僅取決于每個(gè)單一模型的優(yōu)劣,還應(yīng)該考慮到各種其他影響數(shù)據(jù)的外在因素,得到的模型才會(huì)更接近真實(shí)數(shù)據(jù),預(yù)測(cè)效果才會(huì)更優(yōu),也可以把其應(yīng)用在其他數(shù)據(jù)的預(yù)測(cè)上。目前,我國(guó)針對(duì)幾種主要的傳染病均通過立法的形式進(jìn)行長(zhǎng)期監(jiān)測(cè)和網(wǎng)絡(luò)報(bào)告,但針對(duì)影響傳染病發(fā)生、發(fā)展的各種自然、社會(huì)因素監(jiān)測(cè)數(shù)據(jù)的收集卻并不充分,這些均影響了數(shù)學(xué)模型預(yù)測(cè)傳染病疫情的準(zhǔn)確度[10]。因此,為提高模型預(yù)測(cè)的準(zhǔn)確度和精度,應(yīng)全面收集影響傳染病發(fā)生的相關(guān)因素,建立可以考慮到影響因素的預(yù)測(cè)模型[11]。在進(jìn)行肺結(jié)核發(fā)病情況預(yù)測(cè)時(shí),盡量綜合考慮和比較多種模型的預(yù)測(cè)效果,選擇適合本地區(qū)的預(yù)測(cè)模型進(jìn)行預(yù)測(cè);其次,應(yīng)不斷更新數(shù)據(jù)對(duì)模型進(jìn)行重新擬合且謹(jǐn)慎使用統(tǒng)計(jì)模型的預(yù)測(cè)結(jié)果。在實(shí)際工作中對(duì)肺結(jié)核發(fā)病率的預(yù)測(cè)常很難做到絕對(duì)的準(zhǔn)確,但總體上完全可以為公共衛(wèi)生人員預(yù)測(cè)疫情發(fā)展趨勢(shì)和及時(shí)采取控制對(duì)策提供可靠的科學(xué)依據(jù)。
圖2 遷安市2004—2012年肺結(jié)核月發(fā)病率及2013年肺結(jié)核預(yù)測(cè)月發(fā)病率
1 World Health Organization.Global tubereulosis control 2010[R].WHO/HTM/TB/2010.7.Geneva:WHO,2010:102.
2 Box GEP,Jenkins GM.Time series analysis:foreca-sting and control[M].San Francisco:Holden Day,1976:181-218.
3 張文彤.SPSS統(tǒng)計(jì)分析教程[M].北京:北京希望電子出版社,2002:557-582.
4 鄧聚龍.灰色理論基礎(chǔ)[M].武漢:華中科技大學(xué)出版社,2002:215,218-227.
5 黎健,吳寰宇,李燕婷.應(yīng)用EXCEL實(shí)現(xiàn)上海市乙肝發(fā)病灰色模型的預(yù)測(cè)研究[J].中國(guó)衛(wèi)生資源,2011,14(2):109-118.
6 金如鋒,邱宏,周霞,等.ARIMA 模型和GM(1,1)模型預(yù)測(cè)全國(guó)3種腸道傳染病發(fā)病率[J].復(fù)旦學(xué)報(bào):醫(yī)學(xué)版,2008,35(5):675-680.
7 Lal A,Ikeda T,French N,et al.Climate variability,weather and enteric disease incidence in new zealand:time series analysis[J].PLoS One,2013,8(12):e83484.
8 Tanaka M,Katayama F,Kato H,et al.Hepatitis B and C virus infection and hepatocellular carcinoma in China:A review of epidemiology and control measures [J].J Epidemiol,2011,21(6):401-416.
9 盛艷霞,徐娜,霍飛,等.灰色模型在預(yù)測(cè)天津市腸道傳染病發(fā)病趨勢(shì)中的應(yīng)用[J].職業(yè)與健康,2011,27(1):16-17.
10 胡建利,祖榮強(qiáng),彭志行,等.江蘇省戊型肝炎發(fā)病趨勢(shì)的時(shí)間序列模型應(yīng)用[J].南京醫(yī)科大學(xué)學(xué)報(bào):自然科學(xué)版,2011,31(12):1874-1878.
11 韓琴,蘇虹,王忱誠(chéng),等.ARIMA模型與GRNN模型對(duì)性病發(fā)病率的預(yù)測(cè)研究[J].現(xiàn)代預(yù)防醫(yī)學(xué),2012,39(6):1337-1340.