卓小康,郭振友
(桂林醫(yī)學院人文與管理學院,廣西 桂林 541000)
廣西是我國艾滋病高發(fā)地區(qū),相關統(tǒng)計顯示[1],到2017 年10 月為止,生活在廣西的艾滋病患者共計報告8 萬多例。隨著老齡化社會的發(fā)展,艾滋病傳播流行呈現出新特征,其中以老年男性HIV 感染人數快速增長為顯著特征之一[2-4],這充分表明老年人群現已成為艾滋病感染的高危群體。既往艾滋病預測研究主要以ARIMA 模型、灰色模型為主,用BP 神經網絡模型的較少。因此,本研究基于ARIMA模型和BP 神經網絡模型對2005-2017 年廣西老年人艾滋病月發(fā)病率數據建立預測模型,并擬合形成最優(yōu)預測模型,為制定老年人艾滋病防控政策、措施提供參考。
1.1 資料來源 相關數據來源于廣西疾病預防控制中心法定傳染病報告收集的廣西艾滋病發(fā)病人數數據以及廣西統(tǒng)計局2005-2017 年廣西統(tǒng)計年鑒收集的廣西總人口數據,進而計算得出廣西壯族自治區(qū)2005-2017 年老年人艾滋病月發(fā)病率數據。
1.2 ARIMA 模型建模
1.2.1 數據預處理 將2005-2016 年廣西老年人艾滋病月發(fā)病率形成包含144 個數據的時間序列,然后檢驗2005-2016 年廣西老年人艾滋病月發(fā)病率時間序列的平穩(wěn)性(圖1)。因原始數據波動幅度較大,在2011 年達到最大值,序列明顯不平穩(wěn),因此做差分使其平穩(wěn)化,經過一階差分后(圖2),數據在一定范圍內上下波動,相對穩(wěn)定,視為平穩(wěn)序列。
圖1 差分前時間序列圖
圖2 差分后時間序列圖
1.2.2 模型識別 根據自相關圖和偏自相關圖,判斷樣本p 值和q 值,通過顯示出來的特點,將全部可能的模型進行擬合與建模,綜合各個模型的統(tǒng)計量、AIC、BIC 等值進行比較,最終選擇最佳模型。
1.2.3 模型檢驗 用白噪聲檢驗判斷模型的顯著性,用參數檢驗判斷參數的顯著性[5]。若為非白噪聲序列,說明模型不具代表性,需考慮擬合其他模型。反之,模型顯著有效。
1.3 BP 神經網絡模型建模
1.3.1 數據預處理 訓練前使數據規(guī)范化,以快速獲得最佳模型。2005-2017 年廣西老年人艾滋病月發(fā)病率均大于1,不符合規(guī)范,予以歸一化處理,將月發(fā)病率通過mapminmax 函數運算映射到[-1,1]區(qū)間。
1.3.2 確定參數 將2005-2016 年廣西老年人艾滋病月發(fā)病率數據作為訓練集,2017 年1 月-12 月廣西老年人艾滋病月發(fā)病率數據作為測試集。用2005年1 月、2006 年1 月、2007 年1 月的廣西老年人艾滋病月發(fā)病率預測2008 年1 月的廣西老年人艾滋病月發(fā)病率,最后分別形成3×108 的輸入矩陣和1×108 的輸出矩陣。數據集分割之后,確定參數,如網絡層數、各層神經元節(jié)點數、激活函數、目標誤差、訓練函數等[6,7]。
1.4 統(tǒng)計學方法 利用SPSS 26.0 統(tǒng)計學軟件進行分析,借助R 4.0.3 軟件完成ARIMA 模型建模,應用MATLAB 2018b 軟件實現BP 神經網絡模型建模及預測,應用WPS Excel 軟件進行誤差分析。采用均方誤差(mean square error,MSE)、平均絕對誤差(mean absolute error,MAE)和平均絕對誤差百分比(mean absolute percent error,MAPE)3 個誤差指標評價2個模型的預測效果,數值越小,表明模型預測效果越佳[8]。計數資料以(n)表示,采用字2檢驗。以P<0.05表示差異有統(tǒng)計學意義。
2.1 ARIMA 建模結果
2.1.1 模型識別 使用auto.arima 函數進行ARIMA模型自動識別,R 軟件根據函數自動的擬合所有可能的模型,篩選掉AIC 較大的模型,選出AIC 最小的模型為最優(yōu)模型,即ARIMA(2,1,2)(2,0,0)12。
2.1.2 模型檢驗結果 模型檢驗結果中P值均大于0.05,屬于白噪聲序列,擬合模型有效。用P值函數對模型參數做t檢驗,結果顯示6 個參數的P值均小于0.05,參數顯著有效,該模型可定為最優(yōu)模型,見表1。
表1 ARIMA 模型殘差序列白噪聲檢驗
2.2 BP 神經網絡建模結果 經反復訓練網絡發(fā)現,隱含層節(jié)點數為9 時,訓練函數用trainlm,目標誤差為0.01,模型經過6 次迭代訓練后誤差達到目標值,模型決定系數R2=0.8858,此時訓練得到的模型最優(yōu),即LM算法3-9-1 結構的BP 神經網絡模型。
2.3 模型預測效果比較 利用訓練好的ARIMA(2,1,2)(2,0,0)12模型和LM算法3-9-1 結構的BP 神經網絡模型分別預測2017 年1 月-12 月廣西老年人艾滋病發(fā)病率,結果顯示兩種模型的預測值與實際值趨勢吻合,虛線、點線均在實線下方,見圖3。與2017 年發(fā)病率的實際平均值相比,兩種模型的預測平均值均小于實際平均值,但BP 神經網絡模型預測值較接近實際,見表2。BP 神經網絡模型的MSE=0.0822、MAE=0.2352、MAPE=0.1510%均小于ARIMA 模型的MSE=0.1198、MAE=0.3775、MAPE=0.2368%。
表2 ARIMA(2,1,2)(2,0,0)12 模型與LM算法3-9-1 結構的BP 神經網絡模型預測比較
圖3 2017 年預測值與實際值對比時序圖
老年人是我國艾滋病流行新出現的重點人群,相關研究表明[9,10],廣西老年人群艾滋病發(fā)病率較高,尤其是空巢老年男性以嫖娼感染為主。做好艾滋病疫情的監(jiān)測,能助力建設健康中國和實現健康老齡化。目前關于各類傳染病發(fā)病率預測的模型十分豐富,包括BP 神經網絡模型、ARIMA 模型、GM(1,1)模型、Elman 模型、Prophet 模型、Spectrum/EPP模型等。
就模型的適用條件而言,ARIMA 模型和GM(1,1)模型都是傳統(tǒng)的線性模型,前者要求數據資料是平穩(wěn)的時間序列,可充分體現趨勢性和季節(jié)性,同時也能把復雜的影響因素化繁為簡,統(tǒng)一規(guī)劃到時間變量中[11],以時間這一線性變量做研究,后者對于波動性較大數據不適用。Prophet 模型在ARIMA 模型的基礎上加入了節(jié)日這一因素,適用于處理受節(jié)日影響的數據資料。受人腦神經元學習能力的啟發(fā)出現了基于機器語言的人工神經網絡,它不受主觀因素的影響,并且能根據輸入數據自主學習,具有極強的非線性映射能力。BP 神經網絡模型是典型的非線性模型,對數據資料無特殊要求,更擅長處理數據資料中的非線性信息。Elman 模型是一種比BP 神經網絡多一層承接層動態(tài)神經網絡,使用范圍更廣。Spectrum/EPP 模型則是需要輸入分類指標的艾滋病疫情預測模型[12]。就預測精度而言,郭玉秀[13]和程燕等[14]在發(fā)病率預測研究中發(fā)現,ARIMA 模型比GM(1,1)模型預測精度高。孫錦峰等[15]在流感發(fā)病率研究中發(fā)現,ARIMA 模型比Elman 模型精度高。李順勇等[16]在艾滋病發(fā)病率研究中發(fā)現,Prophet 模型較ARIMA 模型的預測效果更優(yōu)。陳遠方等[17]在乙肝發(fā)病率研究中發(fā)現,當樣本量較大時,ARIMA模型預測精度略高于BP 神經網絡模型,反之BP神經網絡模型精度更高。由此可見,在線性模型中ARIMA 模型預測效果更好,而BP 神經網絡模型在小樣本中具有良好的適用性。
本研究結果顯示,廣西老年人艾滋病月發(fā)病率是不穩(wěn)定的,隨著影響因素的變化而上下波動,其影響因素包括民族風俗習慣、交通發(fā)展水平、經濟水平、人口流動、文化程度、國家方針政策及其它相關影響因素等[18-20],這些因素錯綜復雜,大部分以非線性關系形式存在,簡單的線性模型難以解釋清楚。綜合模型的適用條件、預測精度和本文數據自身的特點進行雙向選擇,嘗試選用傳統(tǒng)的線性模型ARIMA模型和基于機器學習的非線性模型BP 神經網絡模型對2005-2017 年廣西老年人艾滋病月發(fā)病率進行研究,模型間形成對照,擇優(yōu)應用于廣西老年人艾滋病月發(fā)病率預測,結果表明LM算法3-9-1 結構的BP 神經網絡的MSE、MAE、MAPE 均小于ARIMA(2,1,2)(2,0,0)12模型,前者預測精度更高,與陳婷[9]的研究結果一致,證實在艾滋病發(fā)病率預測方面,BP 神經網絡模型優(yōu)于其他預測模型,預測結果說服力更強,可信度更高,因此LM算法3-9-1 結構的BP 神經網絡模型的預測精度更好,更適合用于廣西老年人艾滋病月發(fā)病率的預測;同時,其可以用來預測廣西老年人艾滋病未來的發(fā)病趨勢,利于衛(wèi)生部門及時把握艾滋病的流行狀況,制定應對策略,合理使用衛(wèi)生資源。但本研究只考慮了時間與發(fā)病率之間的關系,并沒有將影響廣西老年人艾滋病發(fā)病率的具體因素作為變量納入模型中,后期研究將進一步收集具體影響因素的數據資料放入模型中綜合分析,優(yōu)化模型,提高預測性能。
總之,本文構建的模型是基于歷史報告數據所構建的,訓練好的最優(yōu)模型LM算法3-9-1 結構的BP 神經網絡模型具有一定的時效性。若建模環(huán)境發(fā)生變化影響艾滋病疫情,模型的參數也會隨著數據的改變而改變。此時,在相對穩(wěn)定的大環(huán)境背景下,訓練好的最優(yōu)模型則不再適用,需要及時補充新的月發(fā)病率數據,重新訓練建模擬合新模型,利用新模型做后續(xù)時間的預測,這樣預測結果更具科學性和參考價值。