張 熙 李濟(jì)賓 張晉昕△
在醫(yī)學(xué)科研工作中,按一定時間間隔對客觀事物進(jìn)行動態(tài)觀察,由于隨機(jī)因素的作用,各次觀察的指標(biāo)X1,X2,X3,…,Xi,都是隨機(jī)的,這種按時間順序列排列的隨機(jī)變量(或其觀測)稱為時間序列。應(yīng)用時間序列模型進(jìn)行預(yù)測在醫(yī)學(xué)研究中已經(jīng)很普遍〔1〕,但是時間序列在醫(yī)學(xué)中的應(yīng)用也面臨一些困境。對時間序列數(shù)據(jù)建立數(shù)學(xué)模型時,序列太短會有損參數(shù)估計(jì)的穩(wěn)健性,取較長序列則可以保證擬合模型的可靠性〔2〕。而實(shí)際情形是,序列涵蓋的歷史值越長,序列中越有可能含有缺失數(shù)據(jù)。即使加強(qiáng)質(zhì)量控制,也不能完全避免。缺失數(shù)據(jù)的存在使時間序列建模出現(xiàn)困難,成為時間序列在醫(yī)學(xué)研究領(lǐng)域應(yīng)用的瓶頸。如果忽略缺失數(shù)據(jù)、直接跳過,將獲得的觀測值的先后次序當(dāng)作時間次序來建模,勢必得到錯誤的擬合模型。
有不少學(xué)者針對時間序列的缺失數(shù)據(jù)進(jìn)行了有益的嘗試,主要有:隨機(jī)回歸填補(bǔ)法、趨勢得分法 (Propensity Score,PS)、馬爾科夫鏈蒙特卡羅法 (Markov Chain Monte Carlo,MCMC)和三次樣條插值法等〔3-5〕,但是這些時間序列缺失值填補(bǔ)方法都沒有充分利用時間序列的頻域信息。為此,本課題組提出基于周期信息的時間序列缺失值填補(bǔ)方法,本文從缺失比例與序列長度兩個方面對填補(bǔ)方法進(jìn)行模擬研究和評價。
1.模擬序列
在SAS9.1〔6〕環(huán)境下,采用模型(1)生成含有周期性的隨機(jī)模擬序列:
通過電腦預(yù)實(shí)驗(yàn),將隨機(jī)型缺失的比例設(shè)置為10% ~50%,每隔10%設(shè)置一組數(shù)據(jù),共五組數(shù)據(jù),每組數(shù)據(jù)的序列長度為250;序列長度設(shè)置為30、50、100、200、250,共五組。
2.基于周期信息的時間序列缺失值填補(bǔ)方法(簡稱周期性填補(bǔ)法)
基本思想:基于序列的多個隱含周期,以相應(yīng)的周期圖峰值作為權(quán)重,計(jì)算不同周期位置的加權(quán)均數(shù)來填補(bǔ)缺失值。(1)通過周期圖峰值檢驗(yàn)搜索序列的多個隱含周期值;(2)基于不同的周期值,獲得不同周期位置上原始數(shù)據(jù)的均數(shù),并以該缺失位置上的均數(shù)作為該位置的初始填補(bǔ)值;(3)以不同的周期值相應(yīng)的峰值作為權(quán)重,獲得缺失位置上初始填補(bǔ)值的加權(quán)均數(shù);(4)用一次填補(bǔ)之后的完整序列再次進(jìn)行周期性檢驗(yàn);(5)將以上步驟循環(huán)迭代,直到前后兩次填補(bǔ)值的相對誤差不超過0.10時,循環(huán)停止,獲得最終的序列填補(bǔ)值。
3.填補(bǔ)效果的評價
通過模擬周期性時間序列數(shù)據(jù)并構(gòu)造隨機(jī)型缺失,利用普通的spline插值填補(bǔ)法與周期性填補(bǔ)法,比較相同序列長度不同缺失比例、相同缺失比例不同序列長度下兩種方法的缺失值填補(bǔ)效果。選用均方根誤差(root mean square error,RMSE)以及標(biāo)準(zhǔn)化均方根誤差(normalized root mean square error,NRMSE)〔8〕作為填補(bǔ)效果的評價指標(biāo):
^
ξin表示第n次模擬得到的第i個缺失值的填補(bǔ)值,ξi表示第i個模擬缺失值的真實(shí)值,N表示一共進(jìn)行N次模擬,本研究中N=100。
1.相同序列長度不同缺失比例下兩種填補(bǔ)方法的效果比較
表1~2給出了樣本含量是250,缺失比例分別為10%~50%時兩種缺失值填補(bǔ)方法的NRMSE和RMSE的比較結(jié)果。
經(jīng)配對資料的t檢驗(yàn)比較,不同的缺失比例情況下,兩種填補(bǔ)方法的NRMSE之間的差異均有統(tǒng)計(jì)學(xué)意義(P<0.001),由此認(rèn)為不同缺失比例下兩種填補(bǔ)方法的NRMSE值不同,填補(bǔ)效果有差異。不同的缺失比例下,兩種方法的RMSE值居于不同水平,但是缺失比例為30%時兩種方法之間的差異無統(tǒng)計(jì)學(xué)意義。
圖1顯示不同的缺失比例下,兩種方法填補(bǔ)值的填補(bǔ)誤差NRMSE與RMSE的均數(shù)變化情況。隨著缺失比例的增加,兩種方法填補(bǔ)值的填補(bǔ)誤差N RMSE與RMSE均增高,但是 spline填補(bǔ)值的 NRMSE和RMSE值始終處于周期性填補(bǔ)方法上方(位置居于上方提示誤差較大),即周期性填補(bǔ)的效果始終比spline插值填補(bǔ)法的效果好。
表1 模擬隨機(jī)型缺失序列不同缺失比例下NRMSE比較
表2 模擬隨機(jī)型缺失序列不同缺失比例不同填補(bǔ)類型RMSE比較
圖1 不同缺失比例下填補(bǔ)值的NRMSE與RMSE的比較
2.相同缺失比例不同序列長度下填補(bǔ)效果的比較
經(jīng)配對資料的t檢驗(yàn)比較,在缺失比例相同,但是序列長度不同情況下,兩種填補(bǔ)方法的 NRMSE和MRSE的差異,在序列長度較長時居于不同水平;而序列長度小于100時,兩種填補(bǔ)方法間的差異無統(tǒng)計(jì)學(xué)意義。和RMSE的變化情況。隨著序列長度的增加,兩種方法填補(bǔ)值的NRMSE均降低,提示在序列長度比較短的時候兩種填補(bǔ)方法的效果遜于序列長度較長時。但是spline填補(bǔ)值的NRMSE值始終處于周期性填補(bǔ)方法上方(位置居于上方提示誤差較大),即周期性填補(bǔ)效果始終比spline好。RMSE的結(jié)果與NRMSE的結(jié)果基本一致。
表3 模擬隨機(jī)型缺失不同序列長度序列兩填補(bǔ)方法NRMSE的比較
表4 模擬隨機(jī)型缺失不同序列長度序列兩填補(bǔ)方法RMSE的比較
圖2顯示,相同缺失比例不同序列長度下NRMSE
圖2 相同缺失比例不同序列長度下填補(bǔ)值NRMSE和RMSE的比較
本研究從相同序列長度不同缺失比例和相同缺失比例不同序列長度兩個方面對時間序列缺失值周期性填補(bǔ)法和spline插值填補(bǔ)方法的填補(bǔ)效果進(jìn)行比較。結(jié)果顯示:相同序列長度不同缺失比例下兩種填補(bǔ)方法的填補(bǔ)效果有差異;隨著缺失比例的增加,兩種填補(bǔ)方法填補(bǔ)值的NRMSE和RMSE均增加,填補(bǔ)效果隨著缺失比例的增加而變差,但周期性填補(bǔ)法的效果始終優(yōu)于spline填補(bǔ)法,而且兩者的差別不會隨著缺失比例的增加而變化。此外,序列長度對缺失值填補(bǔ)的效果也有一定的影響。模擬數(shù)據(jù)顯示:在相同缺失比例不同序列長度的情況下,兩種填補(bǔ)方法填補(bǔ)值的NRMSE和RMSE均隨著序列長度的增加而減小。而且,在序列長度較長時,周期性填補(bǔ)方法的填補(bǔ)效果優(yōu)于spline填補(bǔ)法。
針對時間序列中的缺失值問題,本研究提出一種基于時間序列蘊(yùn)含的周期信息,以不同周期的譜峰值作為權(quán)重調(diào)整獲得時間序列的填補(bǔ)值的方法,將時間序列時域和頻域信息融合應(yīng)用于時間序列缺失值的填補(bǔ)過程中,具有時間序列缺失值填補(bǔ)的個性化特點(diǎn)。模擬數(shù)據(jù)研究結(jié)果顯示,本方法缺失值填補(bǔ)效果于spline插值填補(bǔ)法。但是,對于時間序列中隨機(jī)型缺失數(shù)據(jù)的處理,需要同時考慮序列長度與缺失比例,對于序列長度較短,或者缺失比例較大的序列,本研究提出的周期性填補(bǔ)法和被普通應(yīng)用的spline插值填補(bǔ)法的效果均較差。這種情況下,需要審慎地考慮缺失數(shù)據(jù)的處理,因?yàn)榧词固钛a(bǔ)了缺失值,效果也比較差,有可能擬合錯誤的模型,扭曲序列的真實(shí)聯(lián)系。effects for missing values between imputation method based on periodicity and the cubic spline curve method using simulating time-series data with periodicity.Methods To produce stable and periodic time-series within random missing values,and compare the imputation effect of two methods under the condition of the same sequence length,different missing percentage and the same missing percentage,different sequence length.The NRMSE(Normalized Root Mean Square error)and RMSE(Root Mean Square Error)is used to estimate the imputing effectiveness.Results Under the same sequence length,the imputation error of two methods increased according to the missing percentage.Except for RMSE in 30%,the NRMSE and RMSE was smaller than those of the spline method(P <0.05).Under the same missing percentage,the difference of error for two imputation methods was no statistical significance when the sequence is short,while the effectiveness of imputation method based on periodicity was better than that of the spline method when the sequence is long.Conclusion In general,the effectiveness of imputation method based on periodicity is better than that of the spline method in time series with significant periodicity.
1.方兆本,李紅星,楊建萍.基于公開數(shù)據(jù)的SARS流行規(guī)律的建模及預(yù)報(bào),數(shù)理統(tǒng)計(jì)與管理,2003,22(5):48-57.
2.Pascal Bondon.Infuence of missing values on the prediction of a stationary time series .Journal of time series analysis,2005,26(4):519-525.
3.封建湖,車剛明,聶玉峰.?dāng)?shù)值分析原理.北京:科學(xué)出版社,2001.
4.Wayne F.Velicer,Suzanne M.Colby.A Comparison of Missing-Data Procedures for ARIMA Time-Series Analysis.Educational and Psychological Measurement,2005,6 5:596-615.
5.Koji Mutekia,John F.MacGregora,Toshihiro Ueda K,et al.Estimation of missing data using latent variable methods with auxiliary information.Chemometrics and Intelligent Laboratory Systems,2005,78:41-50.
6.高惠璇等編譯.SAS系統(tǒng)SAS/ETS軟件使用手冊.北京:中國統(tǒng)計(jì)出版社,1998:65-460.
7.Heikki Junninena,Harri Niskaa,Kari Tuppurainenc,et al.Methods for imputation of missing values in air quality data sets.Atmospheric Environment,2004(38):2895-290.
8.武艷強(qiáng),黃立人.時間序列處理的新插值方法.大地測量與地球動力學(xué),2004,24(4):43-47.