張小玲,徐 丹,甘仰本,況 杰
(1.傳染病預(yù)防控制國家重點(diǎn)實(shí)驗(yàn)室研究基地、江西省動(dòng)物源與媒介生物性傳染病重點(diǎn)實(shí)驗(yàn)室、南昌市疾病預(yù)防控制中心,南昌330038;2.南昌市衛(wèi)生健康委員會(huì)疾控科,南昌 330006;3.南昌大學(xué)公共衛(wèi)生學(xué)院、江西省預(yù)防醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室,南昌330006)
艾滋病(AIDS)作為一種由人類免疫缺陷病毒(HIV)感染引起的的免疫缺陷病具有病死率高、長期危害大的特征,已成為最嚴(yán)重的公共衛(wèi)生和社會(huì)問題之一[1]。我國艾滋病疫情總體維持在低流行水平,但感染人群多樣化,流行形勢(shì)復(fù)雜化,報(bào)告感染人數(shù)呈快速上升趨勢(shì)[2]。南昌市自1994年報(bào)告首例HIV感染者后HIV/AIDS流行呈快速增長趨勢(shì),從高危人群向一般人群蔓延趨勢(shì)明顯,艾滋病防控形勢(shì)嚴(yán)峻[3]。本研究基于2007—2016年南昌市HIV/AIDS感染疫情資料建立季節(jié)性差分自回歸移動(dòng)平均模型(SARIMA)預(yù)測(cè)模型預(yù)測(cè)其今后發(fā)病情況,為制定更有針對(duì)性的艾滋病防控策略提供科學(xué)依據(jù)。
疫情數(shù)據(jù)來源于2007年1月至2017年6月艾滋病綜合防治信息系統(tǒng)中以現(xiàn)住址報(bào)告的南昌市HIV/AIDS病例,內(nèi)容包括HIV感染人群的性別、年齡、職業(yè)、感染途徑等。以每月報(bào)告的HIV/AIDS病例數(shù)構(gòu)成時(shí)間序列。
考慮到HIV/AIDS疫情可能存在一定的季節(jié)效應(yīng),故采用季節(jié)性ARIMA(p,d,q)×(P,D,Q)12模型(SARIMA)進(jìn)行預(yù)測(cè),p、d、q分別表示模型自回歸部分的階數(shù)、序列差分的次數(shù)、滑動(dòng)平均的階數(shù),P、D、Q分別表示季節(jié)性自回歸部分的階數(shù)、序列差分的次數(shù)、滑動(dòng)平均的階數(shù)。SARIMA模型建立的主要步驟為:序列平穩(wěn)化、模型識(shí)別、參數(shù)估計(jì)和模型檢驗(yàn)、模型預(yù)測(cè)與評(píng)估[4]。
評(píng)價(jià)指標(biāo)為平均絕對(duì)誤差(MAE)和平均絕對(duì)誤差率(MER)。平均絕對(duì)誤差由于離差被絕對(duì)值化,不會(huì)出現(xiàn)正負(fù)相抵消的情況,因而,平均絕對(duì)誤差能更好地反映預(yù)測(cè)值誤差的實(shí)際情況。
用R3.3.2軟件作為統(tǒng)計(jì)預(yù)測(cè)工具[5],采用stats包進(jìn)行時(shí)間序列處理,用forecast包進(jìn)行預(yù)測(cè)。
2007年1月至2016年12月南昌市累計(jì)發(fā)現(xiàn)HIV/AIDS 2218例,其中HIV感染者1182例、AIDS患者1036例,HIV/AIDS患者男女性別構(gòu)成比為5.4:1;年齡以20~59歲為主(1530例,占69%);職業(yè)分布廣泛,學(xué)生占總HIV/AIDS人數(shù)的7.2%;感染途徑以性傳播為主,占96.0%。發(fā)病時(shí)間分布以4—8月為主,占46.3%,呈現(xiàn)一定的季節(jié)性特征。見表1。
表1 南昌市2007—2016年HIV/AIDS流行情況
從圖1可知,HIV/AIDS病例人數(shù)呈逐年增多的趨勢(shì),并具有一定的季節(jié)性。ARIMA模型建模的前提條件是預(yù)測(cè)數(shù)列需要滿足平穩(wěn)化,即數(shù)據(jù)的統(tǒng)計(jì)性質(zhì)不會(huì)隨時(shí)間變化而改變。對(duì)原數(shù)據(jù)的時(shí)間序列分解圖觀察可知,該時(shí)間序列為非平穩(wěn)序列,不能直接用于ARIMA建模。因此,需要對(duì)原始數(shù)據(jù)做差分處理,消除其上升或下降趨勢(shì)。對(duì)原數(shù)據(jù)一階差分后,經(jīng)過單位根檢驗(yàn),即ADF檢驗(yàn),序列為平穩(wěn)序列(P<0.05)。
對(duì)一階差分處理后的數(shù)據(jù)求自相關(guān)函數(shù)(autocorrelation function,ACF)和偏自相關(guān)函數(shù)(partial autocorrelation function,PACF),得到ACF圖(圖2)和PACF圖(圖3),可從圖中看出,自相關(guān)系數(shù)一階以后拖尾,偏自相關(guān)系數(shù)二階以后拖尾。
經(jīng)反復(fù)調(diào)試,根據(jù)赤池信息準(zhǔn)則(adaike information criterion,AIC)和平均絕對(duì)百分誤差(MAPE)為依據(jù)確定最優(yōu)模型,見表2。
表2 ARIMA模型結(jié)果
比較待選模型的擬合優(yōu)度,根據(jù)AIC和MAPE最小原則,最終確定最優(yōu)模型為ARIMA(0,1,1)×(0,0,1)12,模型AIC值為771.0,且平均絕對(duì)百分誤差(MAPE)為29.6%。同時(shí),對(duì)ARIMA(0,1,1)×(0,0,1)12進(jìn)行Ljung-Box檢驗(yàn),P=0.686,統(tǒng)計(jì)量無統(tǒng)計(jì)學(xué)意義,說明模型殘差序列為白噪聲。模型殘差正態(tài)性診斷圖,模型殘差基本滿足正態(tài)分布,見圖4。
利用ARIMA(0,1,1)×(0,0,1)12模型對(duì)南昌市2017年1—6月HIV/AIDS患者人數(shù)及95%可信區(qū)間進(jìn)行驗(yàn)證。由表3可看出,各月實(shí)際值均落在預(yù)測(cè)值的95%可信區(qū)間,但預(yù)測(cè)值均小于實(shí)際值,絕對(duì)誤差(MAE)為7.2,絕對(duì)誤差率(MER)為20.0%,且絕對(duì)誤差率自3月開始逐漸增大。
表3 2017年1—6月南昌市HIV/AIDS患者人數(shù)預(yù)測(cè)值與實(shí)際值
利用ARIMA最優(yōu)模型(0,0,1)×(0,0,1)12用以預(yù)測(cè)2017年7—12月HIV/AIDS病例人數(shù)分別為25、25、24、25、27、24。預(yù)測(cè)趨勢(shì)與往年相比,HIV/AIDS病例數(shù)較為平穩(wěn),見圖5。
準(zhǔn)確的HIV/AIDS疫情預(yù)測(cè)可以為衛(wèi)生行政部門制定政策、做出決策提供科學(xué)依據(jù)。時(shí)間序列分析作為一種定量分析預(yù)測(cè)方法,它將各種已知和未知的影響因素綜合蘊(yùn)含于時(shí)間變量中,通過對(duì)歷史數(shù)據(jù)的處理,從而對(duì)未來流行趨勢(shì)做出定量的預(yù)測(cè)。SARIMA模型是時(shí)間序列分析方法中重要的預(yù)測(cè)模型之一,相較于傳統(tǒng)的ARIMA模型其綜合考慮了時(shí)間序列趨勢(shì)變化、周期變化和季節(jié)變化等干擾因素對(duì)疾病的影響,借助模型參數(shù)的變化對(duì)數(shù)據(jù)進(jìn)行表達(dá),可以達(dá)到較好的預(yù)測(cè)效果,已經(jīng)廣泛應(yīng)用到各種公共衛(wèi)生領(lǐng)域的預(yù)測(cè)當(dāng)中[6-10]。相關(guān)研究[11-12]表明SARIMA在預(yù)測(cè)HIV/AIDS月發(fā)病上的效果較好。
本研究利用南昌市2007年1月至2016年12月HIV/AIDS病例人數(shù)最終建立的最優(yōu)模型為SARIMA(0,1,1)×(0,0,1)12,赤池信息準(zhǔn)則(AIC)為771.0,平均絕對(duì)百分誤差(MAPE)為29.6%,且通過Ljung-Box檢驗(yàn),模型殘差為白噪聲(P=0.686)。模型對(duì)2017年1—6月發(fā)病數(shù)進(jìn)行預(yù)測(cè),均在95%置信區(qū)間內(nèi),且與實(shí)際報(bào)告病例數(shù)變動(dòng)的趨勢(shì)較為一致。模型預(yù)測(cè)2017年7—12月HIV/AIDS病例數(shù)也符合南昌市HIV/AIDS流行的動(dòng)態(tài)趨勢(shì)。值得注意的是,SARIMA模型預(yù)測(cè)的絕對(duì)誤差率自3月份開始逐漸增大,根據(jù)時(shí)間序列模型的預(yù)測(cè)評(píng)價(jià)理論[13],MAPE<20%表示預(yù)測(cè)模型良好,這提示模型依然有可優(yōu)化的空間。在今后的研究中,應(yīng)該將HIV/AIDS病例報(bào)告的影響因素納入到時(shí)間序列模型中,以進(jìn)一步提高預(yù)測(cè)的精確性。
將模型用于傳染病疫情預(yù)測(cè)時(shí),需要及時(shí)更新數(shù)據(jù)并對(duì)模型進(jìn)行修訂才能達(dá)到理想的效果。另外,本研究結(jié)果顯示SARIMA模型的預(yù)測(cè)能力隨著時(shí)間的推進(jìn)模型預(yù)測(cè)的誤差變得越來越大,故其一般只應(yīng)用于短期預(yù)測(cè)。此外,時(shí)間序列模型對(duì)重大突發(fā)情況及受外界干擾較大的事件預(yù)測(cè)能力較弱,實(shí)際應(yīng)用時(shí)若研究時(shí)間序列的趨勢(shì)發(fā)生了較大的改變,應(yīng)謹(jǐn)慎使用SARIMA預(yù)測(cè)模型預(yù)測(cè)疾病的發(fā)病趨勢(shì)。
綜上所述,本研究建立的SARIMA模型綜合考慮了HIV/AIDS疫情的時(shí)間趨勢(shì)變化、周期性變化及隨機(jī)性干擾,對(duì)南昌市HIV/AIDS疫情進(jìn)行近期預(yù)測(cè)有一定的效果。模型應(yīng)用上應(yīng)注意參考當(dāng)?shù)匕滩〗谙嚓P(guān)政策,以制定更有針對(duì)性的HIV/AIDS防控措施。
南昌大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)2020年6期