任 聃,邱 朔,楊 鵬,尚 峰
(1.解放軍總醫(yī)院第二醫(yī)學(xué)中心健康管理科,北京 100071; 2.北京市疾病預(yù)防控制中心全球健康辦公室,北京 100013; 3.空軍軍醫(yī)大學(xué)軍事預(yù)防醫(yī)學(xué)系衛(wèi)生統(tǒng)計(jì)學(xué)教研室,西安 710032; 4.中國(guó)人民解放軍聯(lián)勤保障部隊(duì)第九〇八醫(yī)院醫(yī)療保障中心,南昌 330002)
艾滋病是由于機(jī)體感染人類免疫缺陷病毒(HIV)而引發(fā)的一種傳染病,在全球范圍內(nèi)傳播,各年齡和男女性別均可發(fā)病。艾滋病傳播速度快、病死率高,目前尚無(wú)有效的疫苗和治愈方法[1-3]。已有文獻(xiàn)[4-6]報(bào)道使用自回歸移動(dòng)平均模型(ARIMA)和灰色模型(GM)對(duì)艾滋病以及HIV發(fā)病率進(jìn)行預(yù)測(cè),但尚未有結(jié)合空間插值法和預(yù)測(cè)模型對(duì)HIV發(fā)病進(jìn)行時(shí)空分布分析和預(yù)測(cè)的研究。因此,本研究擬采用空間插值法結(jié)合ARIMA模型和GM模型對(duì)我國(guó)2007—2018年HIV發(fā)病數(shù)據(jù)進(jìn)行時(shí)空分布分析和預(yù)測(cè)研究,為艾滋病防控策略制定提供理論參考依據(jù)。
從中國(guó)疾病預(yù)防控制中心公共衛(wèi)生科學(xué)數(shù)據(jù)中心平臺(tái)中的傳染病數(shù)據(jù)庫(kù)(http://www.phsciencedata.cn/)下載2007—2018年12年間全國(guó)31個(gè)省、市、自治區(qū)(不包括臺(tái)灣省)HIV的月發(fā)病數(shù)據(jù)用于本研究。
空間插值是根據(jù)已知空間數(shù)據(jù)來(lái)估算其他未知空間數(shù)據(jù)值的過程,用特定的插值方法預(yù)測(cè)測(cè)量點(diǎn)以外的位置[7-9]。常用空間插值法主要有克里格插值法(Kriging)、反距離權(quán)重插值(Inverse Distance Weighted)、自然鄰域法(Natural Neighbor)和樣條函數(shù)法(Spline)等。根據(jù)HIV發(fā)病數(shù)據(jù)的特征,本研究使用克里格插值法進(jìn)行分析。
ARIMA模型[10-11]是由自回歸模型AR和移動(dòng)平均模型MA組合而成,公式為:
其中p和q是模型的自回歸階數(shù)和移動(dòng)平均階數(shù),φ和θ是不為零的待定系數(shù),εt是獨(dú)立誤差項(xiàng)。ARIMA(p,d,q)模型建立過程主要包括四步:1)識(shí)別,找出適當(dāng)?shù)膒、d和q值,主要通過相關(guān)圖和偏相關(guān)圖來(lái)幫助解決;2)估計(jì),根據(jù)適當(dāng)?shù)膒、d和q值估計(jì)模型中所含自回歸和移動(dòng)平均項(xiàng)的參數(shù);3)診斷,判斷所選參數(shù)對(duì)數(shù)據(jù)擬合效果是否足夠好,主要看從模型估計(jì)出來(lái)的殘差是不是白噪音,通過AIC和SBC最小原則選擇最優(yōu)模型;4)預(yù)測(cè),利用所選的最優(yōu)模型進(jìn)行預(yù)測(cè)。
本研究采用平均絕對(duì)百分誤差(MAPE),比較ARIMA模型和GM(1,1)模型在預(yù)測(cè)HIV發(fā)病率中的效果:
使用R4.1.2軟件和地理信息系統(tǒng)軟件ArcGIS10.1進(jìn)行數(shù)據(jù)分析和相關(guān)圖形制作,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2.1.1 2007—2018年全國(guó)HIV月發(fā)病率趨勢(shì)
2007—2018年全國(guó)HIV的月發(fā)病率呈上升趨勢(shì),最低點(diǎn)為2007年2月的0.12/10萬(wàn),最高點(diǎn)為2018年3月的0.79/10萬(wàn)。總體上來(lái)看12年期間月發(fā)病率的趨勢(shì)具有一定的季節(jié)性,一般在每年二季度(4—6月)上升達(dá)到最高點(diǎn),三四季度(7—12月)開始下降,在一季度(1—3月)達(dá)到下降的最低點(diǎn)。見圖1。
月份圖1 2007—2018年全國(guó)HIV月發(fā)病率趨勢(shì)
2.1.2 2007—2018年全國(guó)不同省份HIV發(fā)病率
2007—2018年全國(guó)不同省份之間HIV平均發(fā)病率(發(fā)病數(shù)/總?cè)丝跀?shù))差異較大,發(fā)病率最高省份為新疆(19.79/10萬(wàn))和云南(17.05/10萬(wàn)),發(fā)病率最低省份為河北(1.10/10萬(wàn))和山東(1.13/10萬(wàn))。整體趨勢(shì)為各年度發(fā)病率分布格局相對(duì)一致,即高值中心位于新疆,其次是西南滇川地區(qū),并向東部遞減分布,在寧夏、珠三角形成低值中心。從數(shù)值上看,各地發(fā)病率均呈現(xiàn)逐漸增加趨勢(shì)。見表1。
2.1.3 2007—2018年HIV平均發(fā)病率空間趨勢(shì)
2007—2018年全國(guó)HIV發(fā)病率由南向北的變化趨勢(shì)為指數(shù)下降,由東向西的變化趨勢(shì)為指數(shù)上升(圖2A);對(duì)坐標(biāo)軸進(jìn)行45°旋轉(zhuǎn)后可看出,HIV平均發(fā)病率總體表現(xiàn)為自西南向東北降低,自西北向東南降低(圖2B)。
表1 2007—2018年全國(guó)不同省份HIV發(fā)病率情況 1/10萬(wàn)
A:原坐標(biāo);B:旋轉(zhuǎn)后坐標(biāo)。圖2 2007—2018年HIV平均發(fā)病率空間趨勢(shì)圖
2.2.1 ARIMA模型建模結(jié)果
對(duì)經(jīng)過一階差分和一階季節(jié)性差分后的時(shí)間序列作自相關(guān)(ACF)分析和偏自相關(guān)(PACF)分析,初步確定ARIMA模型的參數(shù)為p=1、q=1,由低階到高階逐一比對(duì)確定模型參數(shù),同時(shí)結(jié)合SPSS軟件ARIMA專家建模器(考慮季節(jié)因素)自動(dòng)擬合模型進(jìn)行比較,觀察參數(shù)估計(jì)、擬合優(yōu)度和殘差序列指標(biāo)的大小,依據(jù)貝葉斯信息準(zhǔn)則(BIC)判斷模型的優(yōu)劣,BIC值越小模型的擬合效果越好,最終確定擬合模型為ARIMA(1,0,1)(0,1,1),此時(shí)模型決定系數(shù)R2=0.917,均方根誤差RMSE=0.041,NormalizedBIC=-6.324。Ljung-BoxQ=13.653,P=0.431,可認(rèn)為殘差序列是白噪聲,所選模型恰當(dāng)。
根據(jù)此參數(shù)估計(jì)模型殘差的自相關(guān)系數(shù)ACF值和偏自相關(guān)系數(shù)PACF值都在可信區(qū)間范圍內(nèi),殘差相關(guān)系數(shù)不表現(xiàn)為任何規(guī)律,可判定為白噪聲序列,表明在參數(shù)p,q,d取值下擬合效果較好。
2.2.2 GM(1,1)模型建模結(jié)果
根據(jù)公式計(jì)算得出GM(1,1)模型的參數(shù)為:發(fā)展灰數(shù)a=-0.099 8,內(nèi)生控制灰數(shù)μ=0.2120,將X(0)(1)=0.209和參數(shù)代入公式計(jì)算得出GM(1,1)的模型為:
結(jié)果顯示,所有預(yù)測(cè)結(jié)果與實(shí)際值的相對(duì)誤差均<0.05,可以通過殘差檢驗(yàn)。經(jīng)檢驗(yàn)后驗(yàn)差比值C=0.063<0.35[12],表明預(yù)測(cè)精度等級(jí)為好,可以將該模型用于外推預(yù)測(cè)。
根據(jù)構(gòu)建的ARIMA模型和GM(1,1)模型,對(duì)2016、2017、2018年3年的HIV平均發(fā)病率進(jìn)行預(yù)測(cè),與實(shí)際值進(jìn)行比較(表2),計(jì)算2個(gè)模型的MAPE值。ARIMA模型和GM(1,1)模型的MAPE值分別為2.5%和3.9%,表明ARIMA模型對(duì)于此數(shù)據(jù)的預(yù)測(cè)效果優(yōu)于GM(1,1)模型。
表2 ARIMA模型和GM(1,1)模型預(yù)測(cè)結(jié)果比較
自艾滋病開始流行以來(lái),HIV發(fā)病一直呈持續(xù)走高趨勢(shì),截至2018年底,全球報(bào)道3270~4400萬(wàn)人感染了HIV[1],我國(guó)報(bào)告HIV感染者共85萬(wàn)人,死亡數(shù)高達(dá)26萬(wàn)人[15]。
本研究發(fā)現(xiàn)2007—2018年全國(guó)的HIV發(fā)病率一直呈上升趨勢(shì),具有一定的季節(jié)性特點(diǎn),每年二季度上升并達(dá)到最高點(diǎn),三四季度開始下降,在一季度達(dá)到下降最低點(diǎn)。12年間全國(guó)HIV平均發(fā)病率最高的省份為新疆和云南,最低省份為河北和山東。本研究使用空間插值法對(duì)2007—2018年全國(guó)HIV發(fā)病率變化趨勢(shì)進(jìn)行分時(shí)空分析得出12年間中國(guó)西南部和西北部的HIV發(fā)病率持續(xù)升高,尤其到2012年以后升高速度顯著變化,相對(duì)于西南和西北部,中國(guó)東部、東北部以及中部部分地區(qū)HIV發(fā)病率相對(duì)較低(與其他學(xué)者研究結(jié)果一致[16]),但也呈逐年上升趨勢(shì)。
ARIMA模型和GM(1,1)模型是2種常用的時(shí)間序列分析方法,ARIMA模型考慮了歷史數(shù)據(jù)的季節(jié)性規(guī)律[17],對(duì)中長(zhǎng)期序列數(shù)據(jù)預(yù)測(cè)效果較好,但模型參數(shù)的選擇有一定條件,操作人員需要綜合平穩(wěn)性、自相關(guān)系數(shù)、偏相關(guān)系數(shù)、BIC值、白噪聲等指標(biāo)結(jié)果綜合判斷,最新版本SPSS軟件的專家建模器模塊以及R語(yǔ)言中“auto arima”命令可幫助選擇模型參數(shù),提高建模效率;GM(1,1)建模原理與ARIMA模型不同,它專注灰色系統(tǒng)數(shù)據(jù)(灰色系統(tǒng)意味著問題不確定不完整),GM(1,1)模型需要樣本量小(最少4例即可計(jì)算)且預(yù)測(cè)效果較好,適用歷史數(shù)據(jù)量有限的時(shí)間序列數(shù)據(jù)預(yù)測(cè),但因灰色模型未考慮數(shù)據(jù)季節(jié)性與隨機(jī)性特征,中長(zhǎng)期預(yù)測(cè)精度較差。本研究對(duì)2016—2018年時(shí)間序列數(shù)據(jù)預(yù)測(cè)中,2模型都有較為精準(zhǔn)的預(yù)測(cè)效果,但ARIMA模型效果稍優(yōu)于GM(1,1)模型,主要原因是ARIMA模型綜合考慮了HIV發(fā)病數(shù)據(jù)的逐月季節(jié)性特征,而灰色模型僅考慮了數(shù)據(jù)的年度變化趨勢(shì),研究結(jié)果與相關(guān)文獻(xiàn)[4-5]結(jié)論一致。與單獨(dú)使用ARIMA和灰色模型[4-6]比較,本研究通過空間插值法發(fā)現(xiàn)HIV發(fā)病時(shí)空分布的特點(diǎn),結(jié)合ARIMA和灰色模型后能夠更全面和準(zhǔn)確的解釋和預(yù)測(cè)艾滋病疫情,為制定防制策略與措施提供科學(xué)依據(jù)。
本研究存在一定局限性,在進(jìn)行HIV發(fā)病情況預(yù)測(cè)中僅考慮發(fā)病例數(shù),未綜合考慮HIV的其他相關(guān)影響因素,例如性別、年齡、文化程度、婚姻狀況等個(gè)體影響因素,地區(qū)經(jīng)濟(jì)發(fā)展水平、艾滋病宣講實(shí)施情況等群體因素,同時(shí),由于數(shù)據(jù)獲得性的限制,分析數(shù)據(jù)只更新至2018年,這些都會(huì)一定程度上影響分析和預(yù)測(cè)結(jié)果。
南昌大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)2022年6期