吳 偉郭軍巧安淑一關(guān) 鵬周寶森△
應(yīng)用ARIMA-GRNN模型對(duì)腎綜合征出血熱發(fā)病率時(shí)間序列數(shù)據(jù)的預(yù)測(cè)研究*
吳 偉1郭軍巧2安淑一2關(guān) 鵬1周寶森1△
目的闡述ARIMA-GRNN模型預(yù)測(cè)腎綜合征出血熱發(fā)病率的方法和步驟,探討其在綜合征出血熱發(fā)病率預(yù)測(cè)中的應(yīng)用。方法利用遼寧省1962-2008年的腎綜合征出血熱發(fā)病率時(shí)間序列數(shù)據(jù)作為訓(xùn)練集,建立ARIMA模型和ARIMA-GRNN模型,選取2009-2011年的數(shù)據(jù)作為檢驗(yàn)集,評(píng)價(jià)模型的擬合和預(yù)測(cè)效果。結(jié)果ARIMA(2,1,1)模型和ARIMA-GRNN模型擬合值的平均誤差絕對(duì)值分別為1.14和0.77;預(yù)測(cè)值的平均誤差絕對(duì)值分別為0.53和0.20。ARIMA-GRNN模型的擬合和預(yù)測(cè)效果均優(yōu)于ARIMA模型。結(jié)論ARIMA-GRNN模型能有效模擬、預(yù)測(cè)腎綜合征出血熱的發(fā)病疫情,具有較強(qiáng)的推廣應(yīng)用價(jià)值。
腎綜合征出血熱 時(shí)間序列 發(fā)病率 預(yù)測(cè)
腎綜合征出血熱(hemorrhagic fever with renal syndrome,HFRS)是由布尼亞病毒科的漢坦病毒屬引起,包括漢坦病毒、漢城病毒、obrava-Belgrade病毒和普馬拉病毒[1]。HFRS流行范圍廣、病死率高,已經(jīng)嚴(yán)重危害人民的生命健康,屬于我國(guó)重點(diǎn)防治傳染病之一??刂艸FRS有效措施之一就是預(yù)測(cè)其發(fā)病情況,在此基礎(chǔ)上有針對(duì)性地采取滅鼠和疫苗接種措施,將會(huì)達(dá)到事半功倍的效果。對(duì)于HFRS發(fā)病率的預(yù)測(cè),近年來(lái)普遍使用的有灰色預(yù)測(cè)模型[2-4]、時(shí)間序列模型[4-5]和神經(jīng)網(wǎng)絡(luò)模型[6-9]等?;疑P蛯?duì)于單調(diào)遞增或遞減短期時(shí)間序列預(yù)測(cè)的精度尚可,對(duì)于波動(dòng)大、時(shí)間長(zhǎng)的數(shù)據(jù)預(yù)測(cè)效果較差。時(shí)間序列模型中的ARIMA模型屬于傳統(tǒng)的線性預(yù)測(cè)方法,但是當(dāng)疾病的發(fā)病變化比較復(fù)雜時(shí),其預(yù)測(cè)精度往往較低。廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural network,GRNN)具有較強(qiáng)的逼近能力、較快的學(xué)習(xí)速度,并能夠收斂于樣本量聚集較多的優(yōu)化回歸面[9]。本研究擬建立ARIMA-GRNN模型對(duì)HFRS發(fā)病率進(jìn)行預(yù)測(cè),探討其在傳染病預(yù)測(cè)中的應(yīng)用前景。
1.資料收集HFRS發(fā)病資料來(lái)源于遼寧省疾病預(yù)防控制中心,收集1962-2011年HFRS年發(fā)病率資料,其序列圖見(jiàn)圖1。
圖1 遼寧省1962-2011年HFRS年發(fā)病率序列圖
2.方法
(1)ARIMA(p,d,q)模型建立[10]ARIMA時(shí)間序列預(yù)測(cè)的建模過(guò)程按4個(gè)階段進(jìn)行:序列平穩(wěn)性檢驗(yàn)及平穩(wěn)化處理、模型的識(shí)別、模型參數(shù)估計(jì)和模型診斷、預(yù)測(cè)應(yīng)用。使用1962-2008年的數(shù)據(jù)建立模型,使用2009-2011年的數(shù)據(jù)檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果。
(2)ARIMA-GRNN模型建立[11]
根據(jù)建立的最優(yōu)ARIMA預(yù)測(cè)模型,對(duì)HFRS發(fā)病率進(jìn)行擬合分析,可以獲得每個(gè)實(shí)際觀察值的ARIMA模型擬合值;將ARIMA模型擬合值作為GRNN模型的輸入樣本A,將時(shí)間信息作為輸入樣本B,實(shí)際值作為輸出樣本,建立一個(gè)2維輸入、1維輸出的GRNN預(yù)測(cè)模型。使用1962-2008年的數(shù)據(jù)作為學(xué)習(xí)樣本,根據(jù)Donald F.Sprecht提出的光滑因子的確定方法[12],在其中隨機(jī)選取2個(gè)樣本(待估點(diǎn))用來(lái)確定光滑因子;把2009-2011年的數(shù)據(jù)作為測(cè)試樣本。所有數(shù)據(jù)按進(jìn)行歸一化后分析。最后利用訓(xùn)練好的網(wǎng)絡(luò)進(jìn)行外推預(yù)測(cè),得到的輸出值經(jīng)過(guò)反歸一化后即為最終預(yù)測(cè)值。
(3)數(shù)據(jù)處理使用Eviews8.0軟件進(jìn)行序列平穩(wěn)性檢驗(yàn);SPSS13.0軟件建立ARIMA模型;利用Matlab7.0軟件中的神經(jīng)網(wǎng)絡(luò)工具箱編程構(gòu)建ARIMAGRNN模型。
1.ARIMA(p,d,q)模型的建立過(guò)程及結(jié)果
(1)序列平穩(wěn)性檢驗(yàn)及平穩(wěn)化處理 時(shí)間序列分析需要建立在序列平穩(wěn)化的條件之上。一個(gè)平穩(wěn)的隨機(jī)過(guò)程有以下要求:均數(shù)和方差不隨時(shí)間變化,自相關(guān)系數(shù)只與時(shí)間間隔有關(guān),而與所處的時(shí)間無(wú)關(guān)[10]。觀察原始年發(fā)病率數(shù)據(jù)(圖1),可以發(fā)現(xiàn)該序列向右上方傾斜,并且波動(dòng)幅度增加,說(shuō)明原始序列存在異方差性和增長(zhǎng)趨勢(shì)。使用Eviews 8.0軟件對(duì)原始序列進(jìn)行ADF檢驗(yàn),結(jié)果顯示ADF=-1.387,P=0.152,原始發(fā)病率序列為非平穩(wěn)序列。為了使序列平穩(wěn),我們對(duì)原始序列進(jìn)行自然對(duì)數(shù)轉(zhuǎn)換,并進(jìn)行一次差分。對(duì)處理后序列進(jìn)行ADF檢驗(yàn),結(jié)果顯示ADF=-3.182,P=0.028,所以處理后序列可以認(rèn)為是平穩(wěn)序列。
(2)ARIMA(p,d,q)模型的識(shí)別 根據(jù)差分次數(shù),可以選定模型的形式為ARIMA(p,1,q),其中p和q是待定的參數(shù),表示模型中的自回歸階數(shù)和移動(dòng)平均階數(shù),其確定可以根據(jù)自相關(guān)圖和偏自相關(guān)圖進(jìn)行估計(jì)。本研究中的自回歸系數(shù)和偏回歸系數(shù)均為2階拖尾,初步考慮ARIMA(1,1,1)、ARIMA(1,1,2)、ARIMA(2,1,1)和ARIMA(2,1,2)為備選模型。
(3)ARIMA(p,d,q)模型的參數(shù)估計(jì)及診斷 根據(jù)擬合優(yōu)度、參數(shù)是否有統(tǒng)計(jì)學(xué)意義及殘差是否白噪聲決定優(yōu)模型的模型階數(shù)。備選模型參數(shù)估計(jì)及擬合優(yōu)度檢驗(yàn)結(jié)果見(jiàn)表1、2。模型ARIMA(2,1,1)的AIC及BIC值均為最小,其擬合優(yōu)度最好,并且參數(shù)AR1、AR2和MA1均有統(tǒng)計(jì)學(xué)意義(P<0.01)。對(duì)模型ARIMA(2,1,1)的殘差序列作自相關(guān)和偏自相關(guān)圖,結(jié)果顯示BOX-Ljung統(tǒng)計(jì)量均無(wú)統(tǒng)計(jì)學(xué)差異(P>0.05)。認(rèn)為殘差序列是白噪聲,所選模型恰當(dāng)。
表1 備選模型參數(shù)估計(jì)
表2 備選模型擬合優(yōu)度統(tǒng)計(jì)量
2.ARIMA-GRNN模型的建立過(guò)程及結(jié)果
隨機(jī)選取了1980年和1999年HFRS發(fā)病率作為待估點(diǎn),用來(lái)尋找最優(yōu)光滑因子。通過(guò)不斷嘗試,我們從0.05開(kāi)始選擇光滑因子每次增加一個(gè)單位量(0.01),分別得到待估點(diǎn)的預(yù)測(cè)值,將待估點(diǎn)預(yù)測(cè)值與樣本實(shí)測(cè)值之間平均平方誤差最小時(shí)的光滑因子作為最優(yōu)值。取不同光滑因子時(shí)待估點(diǎn)的預(yù)測(cè)值與樣本實(shí)測(cè)值之間的平均平方誤差見(jiàn)圖2。根據(jù)圖示,最優(yōu)光滑因子定為0.09。
圖2 最優(yōu)光滑因子的確定
3.ARIMA模型和ARIMA-GRNN模型的比較
(1)兩種模型擬合效果的比較 ARIMA模型和ARIMA-GRNN模型對(duì)1962-2008年數(shù)據(jù)的擬合誤差曲線見(jiàn)圖3。計(jì)算擬合平均誤差絕對(duì)值,ARIMA模型為1.14,ARIMA-GRNN模型為0.77。顯然,和ARIMA模型相比,ARIMA-GRNN模型對(duì)原始數(shù)據(jù)的擬合逼近效果更好。
(2)兩種模型預(yù)測(cè)效果的比較 ARIMA模型和ARIMA-GRNN模型對(duì)2009-2011年數(shù)據(jù)的預(yù)測(cè)結(jié)果見(jiàn)表3。ARIMA模型和ARIMA-GRNN模型的預(yù)測(cè)平均誤差絕對(duì)值分別為0.53和0.20。和ARIMA模型相比,ARIMA-GRNN模型的預(yù)測(cè)效果更好。
圖3 ARIMA模型和ARIMA-GRNN模型的擬合誤差曲線
表3 兩種模型對(duì)遼寧省2009-2011年HFRS發(fā)病率預(yù)測(cè)結(jié)果比較
時(shí)間序列分析作為傳統(tǒng)的線性模型分析手段,克服了影響預(yù)測(cè)對(duì)象的因素錯(cuò)綜復(fù)雜、不易分析和數(shù)據(jù)資料不易得到的難題,以時(shí)間序列變量綜合替代各種影響因素,模型的建立過(guò)程簡(jiǎn)單、經(jīng)濟(jì)、適用,短期預(yù)測(cè)精度較高[13]。但是,其缺點(diǎn)也比較明顯,如對(duì)于不規(guī)則數(shù)據(jù)序列難以確定合適的模型結(jié)構(gòu)等[11]。因此,對(duì)于HFRS發(fā)病率這類影響因素多,因素間相互作用復(fù)雜,且有一定非線性特征的時(shí)間序列,單純使用傳統(tǒng)的分析方法進(jìn)行預(yù)測(cè),其預(yù)測(cè)的精度往往難以令人滿意。廣義回歸神經(jīng)網(wǎng)絡(luò)具有較快的學(xué)習(xí)速度、較好的處理不穩(wěn)定數(shù)據(jù)的能力、網(wǎng)絡(luò)結(jié)構(gòu)較少受人為主觀因素影響和預(yù)測(cè)結(jié)果穩(wěn)定等特點(diǎn),因而可用于多種非線性關(guān)系的擬合與預(yù)測(cè)[9]。由于HFRS發(fā)病率數(shù)據(jù)中既包含線性趨勢(shì)又包含非線性趨勢(shì)。因此,可以先使用ARIMA模型預(yù)測(cè)HFRS發(fā)病率,使其線性規(guī)律包含在ARIMA模型的結(jié)果中。接著通過(guò)具有高度非線性逼近能力的GRNN模型反復(fù)學(xué)習(xí)歸納原始數(shù)據(jù)和ARIMA模型擬合值之間的關(guān)系,建立兼有ARIMA模型和GRNN模型優(yōu)點(diǎn)的ARIMA-GRNN模型。
遼寧省1962年開(kāi)始有完整的HFRS疫情資料記載。本研究對(duì)1962-2011年的疫情資料數(shù)據(jù)進(jìn)行分析,分別建立ARIMA模型和ARIMA-GRNN模型。研究結(jié)果證實(shí),ARIMA-GRNN模型對(duì)原始數(shù)據(jù)的擬合和預(yù)測(cè)效果要優(yōu)于ARIMA模型。ARIMA-GRNN模型計(jì)算簡(jiǎn)單,預(yù)測(cè)精度高,所需的資料較少且易于獲得,對(duì)于HFRS發(fā)病率資料是一種較好的預(yù)測(cè)模型,為HFRS的防控提供可靠的理論依據(jù)。在模型的實(shí)際使用過(guò)程中,確定ARIMA-GRNN模型的最優(yōu)光滑因子是建模的關(guān)鍵,光滑因子越小,網(wǎng)絡(luò)對(duì)樣本的逼近性能就越強(qiáng);光滑因子越大,網(wǎng)絡(luò)對(duì)樣本數(shù)據(jù)的逼近過(guò)程就越平滑。我們綜合考慮模型的擬合和外推能力,通過(guò)不斷嘗試,反復(fù)計(jì)算,把待估點(diǎn)預(yù)測(cè)值與樣本實(shí)測(cè)值之間平均平方誤差最小時(shí)的光滑因子作為最優(yōu)值,使模型的逼近性能和泛化性能達(dá)到平衡。雖然ARIMAGRNN模型擬合和預(yù)測(cè)效果較好,但是和其他常用的數(shù)學(xué)模型一樣,主要從數(shù)據(jù)上反映疾病的發(fā)展變化趨勢(shì),所得到的結(jié)論都只是建立在既往歷史疫情數(shù)據(jù)和單純數(shù)學(xué)統(tǒng)計(jì)分析的基礎(chǔ)上,一旦參數(shù)發(fā)生變化或無(wú)法獲得相應(yīng)參數(shù)時(shí),也就無(wú)法做出預(yù)測(cè)[14]。此外,影響HFRS發(fā)病的因素錯(cuò)綜復(fù)雜,很多影響因素未被考慮到模型參數(shù)中,可能會(huì)影響到結(jié)果的準(zhǔn)確性。因此,在實(shí)際工作中,在有條件的情況下可以全面收集影響HFRS的發(fā)病因素,建議建模時(shí)加入相關(guān)因素以進(jìn)一步提高模型精度。再次,ARIMA-GRNN模型是建立在ARIMA模型基礎(chǔ)之上的,其結(jié)構(gòu)更為復(fù)雜。但是考慮到其擬合和預(yù)測(cè)準(zhǔn)確性提高的幅度較大以及目前計(jì)算機(jī)硬件水平對(duì)于這種規(guī)模的計(jì)算還可以承受,我們認(rèn)為使用ARIMA-GRNN模型建立HFRS預(yù)測(cè)模型還是可以被接受的。
1.石健.我國(guó)腎綜合征出血熱流行病學(xué)研究進(jìn)展.中國(guó)人獸共患病學(xué)報(bào),2007,23(3):296-299.
2.劉潔,曲波,何欽成.應(yīng)用GM(1,1)模型對(duì)全國(guó)1999-2009年腎綜合征出血熱疫情分析及預(yù)測(cè).中國(guó)媒介生物學(xué)及控制雜志,2011,22(3):248-250.
3.葛洪福.灰色預(yù)測(cè)模型GM(1,1)模型在HFRS發(fā)病趨勢(shì)預(yù)測(cè)中的應(yīng)用.現(xiàn)代預(yù)防醫(yī)學(xué),2000,27(1):107.
4.吳偉,關(guān)鵬,郭軍巧,等.GM(1,1)灰色模型和ARIMA模型在HFRS發(fā)病率預(yù)測(cè)中的比較研究.中國(guó)醫(yī)科大學(xué)學(xué)報(bào),2008,37(1):52-55.
5.郭海強(qiáng),丁海龍,曲波,等.應(yīng)用ARIMA模型對(duì)全國(guó)2004-2009年腎綜合征出血熱疫情分析及預(yù)測(cè).中國(guó)人獸共患病學(xué)報(bào),2010,26(2):1137-1140.
6.丁守鑾,王潔貞,袁曉紅.腎綜合征出血熱發(fā)病率的ANN預(yù)測(cè)模型.山東大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2002,40(2):100-102.
7.朱奕奕.人工神經(jīng)網(wǎng)絡(luò)在上海市腎綜合征出血熱發(fā)病率預(yù)測(cè)中的應(yīng)用.上海預(yù)防醫(yī)學(xué),2012,24(5):229-232.
8.吳澤明,吳偉,王萍,等.應(yīng)用BP人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)腎綜合征出血熱發(fā)病率.中國(guó)媒介生物學(xué)及控制雜志,2006,17(3):223-226.
9.吳偉,郭軍巧,王萍,等.廣義回歸神經(jīng)網(wǎng)絡(luò)在腎綜合征出血熱發(fā)病率預(yù)測(cè)中的應(yīng)用.中國(guó)媒介生物學(xué)及控制雜志,2007,18(6):483-487.
10.張文彤主編.SPSS11.0統(tǒng)計(jì)分析教程.北京:北京希望電子出版社,2002,250-287.
11.嚴(yán)薇榮,徐勇,楊小兵,等.基于ARIMA-GRNN組合模型的傳染病發(fā)病率預(yù)測(cè).中國(guó)衛(wèi)生統(tǒng)計(jì),2008,25(1):82-83.
12.Sprecht DF.A general regression neural network.IEEE Trans Neural Networks,1991,2(6):568-576.
13.韓琴,蘇虹,王忱誠(chéng),等.ARIMA模型與GRNN模型對(duì)性病發(fā)病率的預(yù)測(cè)研究.現(xiàn)代預(yù)防醫(yī)學(xué),2012,39(6):1337-1340.
14.劉剛,唐宋,孫文杰.時(shí)間序列分析法在香港結(jié)核病預(yù)測(cè)中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(2):226-228.
(責(zé)任編輯:劉壯)
Application of ARIMA-GRNN Model to Predict the Incidence of Hemorrhagic Fever with Renal Syndrome
Wu Wei,Guo Junqiao,An Shuyi,et al.(Department of Epidemiology,School of Public Health,China Medical University(110122),Shenyang)
To describe the procedure of building ARIMA-GRNN model,and explore the value of potential application of the above model to predict the incidence of hemorrhagic fever with renal syndrome.ARIMA and ARIMA-GRNN models were established using the incidence of hemorrhagic fever with renal syndrome in Liaoning province from 1962 to 2008,and the fitting and predictive performances were evaluated using the data from 2009 to 2011.The mean absolute value of error for fitted value of the optimal ARIMA model and ARIMA-GRNN model were 1.14 and 0.77,respectively;and the mean absolute value of error for predicted value of the optimal ARIMA model and ARIMA-GRNN model were 1.14 and 0.77,respectively.This suggested that the fitting and predictive efficacies of ARIMA-GRNN model were better than ARIMA model.ARIMA-GRNN model could effectively fit and predict the incidence of hemorrhagic fever with renal syndrome,which was of great application value for the prevention and control of hemorrhagic fever with renal syndrome.
Hemorrhagic fever with renal syndrome;Time series;Incidence;Predict
*國(guó)家自然科學(xué)基金項(xiàng)目(No.81202254);國(guó)家自然科學(xué)基金項(xiàng)目(No.30771860)
1.中國(guó)醫(yī)科大學(xué)公共衛(wèi)生學(xué)院(110122)
2.遼寧省疾病預(yù)防控制中心
△通信作者:周寶森,Email:bszhou@m(xù)ail.cmu.edu.cn