李望晨 崔慶霞 張利平△
基于趨勢外推與ARIMA預測我國醫(yī)院診療及住院人次*
李望晨1,2,3崔慶霞1,2,3張利平1,2,3△
目的探索我國醫(yī)院診療與入院人次預測建模方案并比較其差異。方法借助SPSS、SAS軟件,以曲線擬合和ARIMA法建立模型進行擬合與預測。結(jié)果我國醫(yī)院診療與入院人次數(shù)據(jù)均符合二次曲線變化,擬合與預測效果好;ARIMA法對二階差分后平穩(wěn)序列建模未見更優(yōu)性能,其擬合性能與數(shù)據(jù)段選取無明顯聯(lián)系。結(jié)論數(shù)據(jù)預分析和方法適配很有必要;ARIMA法在時間序列分析領域有普適代表性,適于隨機長期序列建模;傳統(tǒng)曲線擬合法對于趨勢平滑數(shù)據(jù)具有優(yōu)良性能。
診療人次 住院人次 預測 曲線擬合 ARIMA
預測研究是根據(jù)過去或現(xiàn)在資料推斷未來的發(fā)展狀況,可以為決策提供依據(jù)。時間序列法對隨時間變化的時序資料進行擬合,旨在反映現(xiàn)在或過去規(guī)律,預測未來情況。醫(yī)院診療與住院人次是衡量醫(yī)療服務效能的指標,有必要根據(jù)數(shù)據(jù)資料研究其變化規(guī)律并推測未來?;谖覈\療和住院人次數(shù)據(jù)的延續(xù)性特點,可以考慮以時間為自變量進行擬合或由序列間的短期自相關性建立模型。
醫(yī)院診療和入院人次資料隨機波動小、變化較穩(wěn)定,可以選擇利用趨勢外推法[1]和 ARIMA法[2-4]建模,根據(jù)歷史資料進行縱向擬合和預測,為醫(yī)療服務與衛(wèi)生決策提供實證參考或方法借鑒。
趨勢外推法一般指曲線擬合法,如直線擬合、多項式曲線、指數(shù)曲線、生長曲線等。其基本思想是針對時序資料的趨勢變化特點,優(yōu)選并建立擬合模型進行外推預測,它要求數(shù)據(jù)變化規(guī)律應大致符合曲線特點,即符合以時序值為自變量的函數(shù)yt=f(t),t為時序。
ARIMA(p,d,q)用于平穩(wěn)序列擬合及預測,其中p和q分別為自回歸和移動平均階數(shù),d為差分次數(shù),其表達式為(1-φ1B-…-φpBp)(1-B)dxt=(1-θ1B-…-θqBq)εt,其中 Bxt=xt-1為延遲算子,{xt}為原始序列,{εt}為殘差序列,φi、θj為參數(shù)。先對原始序列進行純隨機性、平穩(wěn)性檢驗,純隨機序列沒有研究價值,趨勢性或周期性變化序列要差分變換為平穩(wěn)序列。根據(jù)樣本自相關圖、偏自相關圖以及中間檢驗結(jié)果判定擬合優(yōu)度,估計參數(shù)和識別模型,擬合時序規(guī)律后用于推測未來。
《中國衛(wèi)生統(tǒng)計年鑒》給出我國醫(yī)院診療和住院人次指標資料,統(tǒng)計指標包括總診療人次X1、綜合醫(yī)院診療人次 X2、中醫(yī)醫(yī)院診療人次X3、門急診人次X4、綜合醫(yī)院門急診人次X5、中醫(yī)醫(yī)院門急診人次X6、總?cè)朐喝藬?shù)(萬人)X7、綜合醫(yī)院入院人數(shù)X8、中醫(yī)醫(yī)院入院人數(shù)X9、每百門急診入院人數(shù)(人)X10。
對診療人次指標X1~X6進行散點圖觀察分析,2003年前數(shù)據(jù)變化不大,此后有較顯著遞增趨勢。原始數(shù)據(jù)見表1。
表1 1997-2011年診療與入院人次統(tǒng)計資料
1997-2010年數(shù)據(jù)變化呈平穩(wěn)遞增特點,可用趨勢外推法對2011年數(shù)據(jù)進行預測研究。利用SPSS軟件實現(xiàn)曲線擬合,可點選全部曲線類型納入建模過程。經(jīng)綜合對比,二次曲線或三次曲線擬合效果較好。
根據(jù)SPSS軟件得到總診療人次二次曲線yt=13.194-0.599t+0.088t2,三次曲線 yt=12.727-0 279t+0.037t2+0.002t3,據(jù)分析兩者擬合效果幾乎相同。經(jīng)模型檢驗并分析擬合指標,計算決定系數(shù)并進行F檢驗。對于二次曲線來說,決定系數(shù)R2為0.989,F(xiàn)檢驗統(tǒng)計量517.986,P值 <0.0001,說明擬合效果有統(tǒng)計學意義;對于三次曲線來說,決定系數(shù)為0.991,F(xiàn)檢驗統(tǒng)計量357.800,P值 <0.0001,說明擬合效果有統(tǒng)計學意義。經(jīng)比較兩種模型相差不大,三次曲線略微好些。
對各指標逐次進行建模驗證,也發(fā)現(xiàn)較顯著的曲線變化規(guī)律,而且二次曲線和三次曲線也可作為診療和住院指標擬合曲線模型。同法對指標X1~X10獨立進行擬合。兩種研究思路分別記為二次曲線、三次曲線建模方案I-A、I-B。ARIMA法適于平穩(wěn)序列擬合建模分析,非平穩(wěn)序列應差分消除趨勢特征。二次曲線序列yt一階差分ut仍有趨勢性,二階差分u(2)t為常數(shù)、無趨勢,二次曲線變化序列可經(jīng)二階差分化為平穩(wěn)序列,三次曲線也可經(jīng)三階差分化為平穩(wěn)序列。
根據(jù)SAS軟件,實現(xiàn)醫(yī)院總門診人次建模擬合過程,經(jīng)計算原始序列為非白噪聲、非平穩(wěn)序列,它有相關性和遞增趨勢特點,原始序列經(jīng)二階差分后才能達到平穩(wěn)。
采用條件最小二乘法進行模型擬合計算,確定二階移動平均模型 MA(2)為最優(yōu)模型:(1-B)2yt=(1-θ1B+θ2B2)εt。其中 θ1=0.76191,t值為 4.44,P值為0.0013<0.05;θ2=-0.98380,對應 t值為 -5.70,P值為0.0002<0.05,說明參數(shù)計算結(jié)果均有統(tǒng)計學意義。AIC為16.827,SBC為17.797。經(jīng)過殘差自相關性檢驗,發(fā)現(xiàn)延遲6期時卡方統(tǒng)計量為1.59,自由度為4,P值為0.8110>0.05,自相關系數(shù)分別為 -0.022,0.020,-0.171,-0.016,0.011,-0.191。說明該模型對原始序列信息提取的效果很好,殘差序列已經(jīng)沒有任何相關信息可提取,為白噪聲序列,模型對原序列擬合很好,可進行預測,經(jīng)外推得出1~5期的預測值依次為 23.22,24.32,25.42,26.52,27.61。由于時間序列適于短期外推,隨時間延遲預測誤差大、參考價值小,因此,2011年預測值取23.22。后期預測值可不斷引入新數(shù)據(jù)后重新建模。
須補充說明,若認為原始數(shù)據(jù)序列符合三次曲線特點,三階差分后用于建立模型,經(jīng)驗證,發(fā)現(xiàn)擬合效果和預測值大致相同,故沒必要考慮該建模方案。
首先,根據(jù)1997-2010年連續(xù)數(shù)據(jù)段制定基于ARIMA法的建模方案II-A,可以依次分別建立各項指標 X1~X10的擬合模型,令 yt=(1-B)2xt。表達式依次列出如下:
然后,借助SAS軟件,仍采用ARIMA法,針對所有指標分別截取不同數(shù)據(jù)段建立模型、驗證性能差異。忽略早期部分數(shù)據(jù)影響,截取2003-2010年連續(xù)數(shù)據(jù)段組成建模方案II-B;如果再以2004-2010年數(shù)據(jù)建立模型,因數(shù)據(jù)太少而無法實現(xiàn)ARIMA法預測建模,予以舍棄;追加補錄長期的1980-2010年共31個連續(xù)數(shù)據(jù)段組成建模方案II-C。在方案II-A、II-B、II-C實施過程中,分別以X1~X10各指標時序資料獨立進行建模,過程不再贅述。
最后,將全部多種時間序列數(shù)據(jù)段截取,分別用曲線擬合法和ARIMA法建模,將X1~X10各指標真實值、預測值及相對誤差情況最終分析結(jié)果匯總比較,見表2。
表2 不同建模方案預測值與真實值比較
我國診療與住院人次各指標數(shù)據(jù)隨年份呈現(xiàn)較明顯的二次曲線變化特點,趨勢變化明顯。對X1~X10各指標來說,經(jīng)散點圖初步分析發(fā)現(xiàn)數(shù)據(jù)隨時間大致有相似變化特點,可考慮同類建模方法。從擬合過程可知,方案I-A、I-B擬合效果差異不大,但I-A外推效果好些;方案II-A、II-B與II-C相比,擬合與外推效果差異不大;方案I擬合與外推簡單且效果好,二次曲線對診療人次指標預測更好,ARIMA模型對住院人次指標預測更好,二者均有代表性。我國醫(yī)院診療與住院人次各指標數(shù)據(jù)有趨勢性和平滑性,可以用簡單曲線擬合技術與經(jīng)典ARIMA法對其進行時間序列擬合建模。
診療與住院人次的影響因素復雜,時間序列模型適于事物自身的時序變化規(guī)律擬合和短期預測。醫(yī)院診療和入院人次數(shù)據(jù)變化平滑且有遞增趨勢,若假設此規(guī)律延續(xù)于未來,可建模擬合縱向規(guī)律并進行外推預測,為指導衛(wèi)生工作提供參考。曲線模型適于擬合增長數(shù)據(jù)平滑變化趨勢,其中二次或三次曲線適合前期變化小而后期呈遞增趨勢的數(shù)據(jù)。ARIMA法為平穩(wěn)序列建模經(jīng)典方法,常需較豐富資料,它對隨機性波動數(shù)據(jù)建模更具代表性。
從1997-2010年我國醫(yī)院診療和住院人次資料早期數(shù)據(jù)隨時間變化小,后期趨勢顯著且變化穩(wěn)定,其規(guī)律更符合二次或三次曲線特點。ARIMA法采用經(jīng)典原理,具有普適性和代表性,建模時需較充分資料,擬合長期不規(guī)則規(guī)律更顯優(yōu)勢。本例嘗試用不同歷史數(shù)據(jù)段建立模型,未發(fā)現(xiàn)預測效果敏感變化。除外,資料中各指標數(shù)據(jù)平滑變化,有明顯早期平緩而后平滑的趨勢特點,簡單曲線擬合法對該特定資料表現(xiàn)了優(yōu)良性能,這與ARIMA模型作為一般隨機波動性長時資料擬合分析的經(jīng)典方法并不矛盾。鑒于我國醫(yī)院診療與門診人次系列指標數(shù)據(jù)特有的趨勢性與平滑性特點,簡單曲線擬合法和ARIMA法都適于擬合外推建模,以預測未來狀況和指導衛(wèi)生決策。
[1]徐國祥.統(tǒng)計預測與決策.上海財經(jīng)大學出版社,2008:129-168.
[2]王燕.應用時間序列分析.中國人民大學出版社,2013,18-134.
[3]劉剛,唐宋,孫文杰.時間序列分析法在香港結(jié)核病預測中的應用.中國衛(wèi)生統(tǒng)計,2012,29(2):226-228.
[4]馬春柳,劉海霞,李小升.SARIMA模型在醫(yī)院住院人次預測中的應用.中國衛(wèi)生統(tǒng)計,2013,30(3):432-433.
教育部人文社科基金15YJCZH087;山東自然科學基金ZR2015HL101;山東統(tǒng)計局課題KT15186,KT15187;山東衛(wèi)計委課題2014WS0460
1.“健康山東”重大社會風險預測與治理協(xié)同創(chuàng)新中心
2.社會領域健康風險協(xié)同創(chuàng)新中心
3.濰坊醫(yī)學院公共衛(wèi)生與管理學院
△通信作者:張利平
(責任編輯:郭海強)