謝賜福 王孝君 熊 姿 宋麗新 許林勇
【提 要】 目的 探討SARIMA模型在肺結核發(fā)病預測中的適用性,為長沙市肺結核防控提供參考。方法 利用2005年1月-2016年12月長沙市肺結核月發(fā)病數(shù)構建SARIMA模型,以2017年1-12月的月發(fā)病數(shù)評價模型的預測效果,并采用構建的最優(yōu)模型對2018年長沙市肺結核月發(fā)病情況進行預測。結果 長沙市肺結核月發(fā)病數(shù)具有明顯的季節(jié)性特征,最優(yōu)預測模型為SARIMA(0,1,1)(0,1,1)12,其AIC=1436.703,模型殘差為白噪聲(χ2=0.119,P=0.731)。該模型的預測值與實際值的平均絕對百分誤差為21.69%,預測效果較為可靠。預計2018年長沙市肺結核的月平均發(fā)病數(shù)為332.34例,發(fā)病水平與2017年接近,但總體略有下降。結論 SARIMA(0,1,1)(0,1,1)12擬合效果較好,可用于長沙市肺結核月發(fā)病數(shù)的短期預測。
結核病(tuberculosis,TB)是由結核分支桿菌引起的慢性傳染病。據(jù)世界衛(wèi)生組織WHO發(fā)布的《2016年全球結核病報告》估計,2015年全球有1 040萬新發(fā)結核病例,其中我國約有91.8萬新發(fā)結核病例,占全球發(fā)病例數(shù)的8.83%,位居全球第3位[1]。據(jù)長沙市傳染病疫情報告系統(tǒng)數(shù)據(jù)顯示,2005-2017年長沙市結核病發(fā)病數(shù)居乙類傳染病的前3位,是威脅居民健康的主要傳染病之一。
準確預測結核病的發(fā)病情況對結核病防治工作具有重要的指導意義。目前,時間序列模型已廣泛應用于傳染病預測研究中[2-6]。季節(jié)自回歸求和移動平均模型(seasonal autoregressive integrated moving average model,SARIMA)是一種特殊的時間序列模型,可對呈季節(jié)性變化的時間序列進行擬合和預測,是目前國內常用的傳染病預測模型之一[7]。本研究利用2005-2017年長沙市肺結核的月發(fā)病數(shù),構建和評價SARIMA模型,并遴選最優(yōu)模型預測2018年長沙市肺結核的發(fā)病情況,為長沙市肺結核防控和疫情監(jiān)測提供科學依據(jù)。
2005年1月至2017年12月長沙市肺結核月發(fā)病數(shù)來源于“中國疾病預防控制信息系統(tǒng)”。其中2005年1月至2016年12月的肺結核月發(fā)病數(shù)用于構建SARIMA模型,2017年1月至12月肺結核月發(fā)病數(shù)用于評價模型的預測效果。
(1)模型簡介:自回歸求和移動平均模型(autoregressive integrated moving average model,ARIMA)是一種基于時間序列的預測方法。SARIMA模型則是在ARIMA基礎上增加了對季節(jié)性和周期性的分析,又稱為乘積季節(jié)模型,一般表示為SARIMA(p,d,q)(P,D,Q)s。其中,p為非季節(jié)自回歸階數(shù)、d為非季節(jié)差分階數(shù)、q非季節(jié)移動平均階數(shù)、P為季節(jié)自回歸階數(shù)、D為季節(jié)差分階數(shù)、Q為季節(jié)移動平均階數(shù),s為季節(jié)長度。SARIMA模型綜合考慮季節(jié)性、長期趨勢和隨機干擾等因素,對時間序列的擬合和預測效果更佳[4]。
(2)建模過程:①序列平穩(wěn)化:為消除時間序列長期趨勢及季節(jié)性的影響,通過非季節(jié)差分和季節(jié)差分,將不平穩(wěn)的原始數(shù)據(jù)轉化為平穩(wěn)序列,并通過Augmented Dickey-Fuller(ADF)檢驗驗證其平穩(wěn)性。根據(jù)非季節(jié)差分階數(shù)和季節(jié)差分階數(shù)可確定d、D值[8]。②模型識別:分析轉換后的時間序列,并繪制自相關函數(shù)(autocorrelation function,ACF)和偏自相關函數(shù)(partial autocorrelation function,PACF)圖,初步估計p、q值。此外,P、Q值主要通過嘗試和比較的方法確定,分別取0、1、2由低到高進行探索,根據(jù)模型的擬合優(yōu)度選擇恰當?shù)闹礫9]。③參數(shù)估計:運用最大似然估計法(maximum likelihood estimation,MLE),計算自回歸系數(shù)(autoregressive,AR)和移動平均系數(shù)(moving averages,MA)。④模型診斷:計算模型的擬合優(yōu)度統(tǒng)計量,通常采用Akaike信息準則(Akaike information criterion,AIC)來衡量模型與時間序列的擬合程度。其中AIC值越小,模型的擬合效果越好[10]。隨后,對模型進行Box-Ljung檢驗,若P≥0.05,則差異無統(tǒng)計學意義,可認為模型殘差為白噪聲,模型是合適的;若模型殘差不是白噪聲,則需對模型進行改進[10]。⑤模型擬合及預測:采用構建的模型擬合2005-2016年肺結核月發(fā)病數(shù),繪制擬合圖;并將2017年1-12月的實際發(fā)病人數(shù)與模型預測值進行比較,計算絕對誤差和絕對百分誤差,從而評價模型的預測效果,其值越小,模型的預測效果越好[11]。最后,采用構建的最優(yōu)模型預測2018年肺結核月發(fā)病數(shù)及其95%可信區(qū)間。
本研究采用excel 2016軟件建立數(shù)據(jù)庫,采用R-3.4.3軟件中的“tseries”和“forecast”軟件包進行數(shù)據(jù)處理與建模預測。
2005年1月至2016年12月長沙市肺結核年均發(fā)病人數(shù)為5 566.25例,月均發(fā)病人數(shù)為463.85例,其發(fā)病高峰為2007年5月,發(fā)病人數(shù)達738例。將發(fā)病人數(shù)的時間序列分解后發(fā)現(xiàn),長沙市肺結核發(fā)病人數(shù)存在一定的長期趨勢和季節(jié)性。以2007年為界,長沙市肺結核發(fā)病人數(shù)呈先上升后下降的長期趨勢;其季節(jié)性周期為12個月,通常于每年1月份出現(xiàn)第1次發(fā)病高峰,3~5月份出現(xiàn)第2次高峰(圖1)。
圖1 2005年1月-2016年12月長沙市肺結核月發(fā)病數(shù)時間序列分解圖
(1)序列平穩(wěn)化:將原始時間序列進行一階非季節(jié)差分和一階季節(jié)差分后顯示,差分后的序列接近平穩(wěn)(圖2);經ADF檢驗顯示,差異有統(tǒng)計學意義(Dickey-Fuller=-19.06,P=0.01),即經差分后的序列為平穩(wěn)非白噪聲序列。
圖2 一階非季節(jié)差分和一階季節(jié)差分后肺結核月發(fā)病數(shù)時間序列圖
(2)模型識別與定階:根據(jù)差分變換次數(shù),初步確定SARIMA(p,1,q)(P,1,Q)12模型,其中非季節(jié)差分階數(shù)d=1,季節(jié)差分階數(shù)D=1,季節(jié)長度s=12。由差分后時間序列的ACF圖(圖3)和PACF圖(圖4)可知,ACF和PACF均呈拖尾衰減,因此非季節(jié)自回歸階數(shù)p和非季節(jié)移動平均階數(shù)q需要摸索判斷。p、q、P、Q分別取0、1、2,由低階到高階逐個建模。
圖3 差分后時間序列自相關函數(shù)圖
圖4 差分后時間序列偏自相關函數(shù)圖
(3)參數(shù)估計和模型診斷:經模型參數(shù)估計和Box-Ljung檢驗獲得13個備選模型,其參數(shù)估計及檢驗結果見表1。由AIC值可知,SARIMA(0,l,1)(0,1,1)12模型的擬合效果最好(AIC=1436.703),其殘差的Box-Ljung檢驗結果為χ2=0.119,P=0.731,差異無統(tǒng)計學意義,提示模型殘差為白噪聲,所選模型恰當。
表1 備選模型的參數(shù)估計和Box-Ljung檢驗結果
(4)模型擬合及預測:圖5顯示,2005-2016年長沙市肺結核月發(fā)病數(shù)實際值與最優(yōu)模型SARIMA(0,1,1)(0,1,1)12擬合值的重合度較高。采用該模型預測的2017年1~12月肺結核發(fā)病人數(shù)與實際值相比較,結果顯示實際值均在預測值的95%CI范圍內,其平均絕對誤差和平均絕對百分誤差分別為75.30和21.69%,預測效果較好。采用最優(yōu)模型預測2018年長沙市肺結核月發(fā)病人數(shù),結果顯示2018年長沙市肺結核平均月發(fā)病人數(shù)為332.34例,發(fā)病水平與2017年接近,但總體略有下降。預計2018年的第一次發(fā)病高峰在1月份,為419.65例(95%CI:247.36~591.94);第2次高峰在3月份,預測發(fā)病人數(shù)為413.35例(95%CI:229.58~597.12)。
圖5 2005-2016年長沙市肺結核月發(fā)病數(shù)擬合圖
月份實際值預測值預測值95%CI絕對誤差絕對百分誤差(%)1304436.23328.73~543.74132.2343.502278339.32226.07~452.5861.3222.063344429.94311.21~548.6685.9424.984315413.74289.79~537.7098.7431.355340406.69277.72~535.6666.6919.616343340.06206.26~473.862.940.867393327.73189.26~466.1965.2716.618434331.74188.77~474.71102.2623.569372305.76158.42~453.1066.2417.8110306320.91169.33~472.5014.914.8711348270.88115.17~426.6077.1222.1612394264.09104.35~423.83129.9132.97
表3 2018年1-12月長沙市肺結核月發(fā)病數(shù)的預測結果
肺結核是危害人類健康的重要公共衛(wèi)生問題,準確預測肺結核發(fā)病數(shù)對防控工作具有重要的指導意義。數(shù)學模型是進行結核病預測和防控策略效果評價的有效手段。SARIMA模型是一種針對季節(jié)性變化時間序列的建模方法,僅從時間序列數(shù)據(jù)本身的規(guī)律出發(fā)進行建模預測[12],是目前結核病發(fā)病預測模型中較為可行且短期預測精度較高的方法之一。本研究采用長沙市2005年1月-2016年12月肺結核月發(fā)病數(shù)據(jù)構建SARIMA模型,并對2018年長沙市肺結核月發(fā)病數(shù)進行預測。該模型能有效擬合長沙市肺結核月發(fā)病數(shù)的長期趨勢和季節(jié)性變化規(guī)律,預測效果較為可靠,可為長沙市肺結核防控提供參考。
本研究結果顯示,長沙市肺結核發(fā)病數(shù)總體呈下降趨勢,并呈明顯的季節(jié)性和周期性,發(fā)病高峰常見于較為寒冷的冬春季節(jié),這與國內外其他研究結果一致[1,13-14]。此外,本研究還發(fā)現(xiàn)2月報告的肺結核發(fā)病數(shù)明顯低于冬春季其他月份,其原因可能來自兩個方面:一是2月實際天數(shù)少于其他月份,因此月發(fā)病數(shù)低于其他月份;二是2月多處于春節(jié)期間,患者未就診或延遲就診、醫(yī)療機構疫情報告延遲和漏報高于其他月份。
預測結果提示,2018年長沙市肺結核的月平均發(fā)病人數(shù)為332.34例,并呈輕度下降趨勢,但發(fā)病人數(shù)仍與2017年接近,提示肺結核仍然是危害長沙市居民健康的重點傳染性疾病。此外,本研究預測的2018年肺結核月發(fā)病數(shù)的95%CI可以用于結核病預警,當實際值處于預測值95%CI以內,則疫情正常;當超過95%CI的上限,則提示可能存在異常增長,應及時發(fā)出預警,提醒疾病預防控制部門加強防控[12]。
本研究也存在一定的局限性。首先,SARIMA模型不適用于長期預測,在實際應用中,應不斷收集新數(shù)據(jù)對模型進行優(yōu)化或重新建模。其次,SARIMA模型僅從數(shù)據(jù)上反映疾病的統(tǒng)計規(guī)律,在實際衛(wèi)生工作決策與防病措施制定過程中,應綜合考慮其他因素對結果的影響。