鮑曉蕾 高 輝 胡良平
多種填補方法在縱向缺失數(shù)據(jù)中的比較研究
鮑曉蕾1高 輝2胡良平3
目的 比較多種方法對縱向缺失數(shù)據(jù)的處理效果。方法 運用SAS軟件通過蒙特卡羅模擬產(chǎn)生最常見的含一個分組因素和一個重復測量因素的縱向資料,對其進行混合效應模型分析,將結(jié)果作為標準對照。分別構建任意缺失模式(AMP)和單調(diào)缺失模式(MMP)下完全隨機缺失(MCAR)、隨機缺失(MAR)和非隨機缺失(NMAR)六種缺失數(shù)據(jù)集,并使缺失率分別為10%、20%、30%、40%和50%,運用刪除法、單一填補法、多重填補法和EM算法進行處理。結(jié)果 在AMP下,當MCAR和MAR時,低缺失率(≤10%)下所有方法的效果均較好;隨著缺失率的增大,只有多重填補法的效果令人滿意。在MMP下,當MCAR和MAR時,只有線性回歸法和預測均數(shù)匹配法的效果較好。多重填補法的缺點是在一定程度上高估系數(shù)的變異程度。另一方面,填補方法對結(jié)果的影響遠超過填補次數(shù)對結(jié)果的影響。當NMAR時,所有方法都無法取得較好的處理效果。結(jié)論 對于縱向缺失資料,多重填補法仍是一種較為理想的處理方法。
縱向缺失資料 缺失模式 缺失機制 多重填補
缺失數(shù)據(jù)是生物醫(yī)學科研中經(jīng)常碰到的一個問題,在調(diào)查研究和臨床試驗研究中尤為常見。目前對缺失數(shù)據(jù)的常用處理方法包括直接刪除含缺失數(shù)據(jù)的觀測(以下簡稱刪除法)、單一填補法、多重填補法、EM算法等[1]。以往的研究認為,多重填補法考慮了數(shù)據(jù)缺失的不確定性,相對其他方法具有較大優(yōu)勢,因此在應用中很受研究者的青睞[2-3]。然而,通過查閱文獻發(fā)現(xiàn),大部分研究是基于橫斷面缺失資料展開的,對于縱向缺失資料少有涉及。近期,國外有研究發(fā)現(xiàn)多重填補法處理縱向缺失資料的效果并不理想[4-5],從而動搖了多重填補法在處理缺失數(shù)據(jù)中的地位。
因此,本文針對縱向缺失資料,考察刪除法、單一填補法、多重填補法和EM算法在處理任意缺失模式(arbitrary missing pattern,AMP)及單調(diào)缺失模式(monotone missing pattern,MMP)下完全隨機缺失(missing completely at random,MCAR)、隨機缺失(missing at random,MAR)及非隨機缺失(not missing at random,NMAR)機制的效果,對各種方法的處理效果進行綜合比較,為研究人員處理縱向缺失資料提供理論支持和幫助。
1.刪除法(deletion)
刪除法是大多數(shù)軟件默認的處理缺失數(shù)據(jù)的方法,即刪除所有存在待分析變量缺失情形的觀測。
2.單一填補法[6]
單一填補法是指用一個確定的值填補缺失值,使原來含有缺失值的數(shù)據(jù)集形成完整數(shù)據(jù)集,再按處理完整數(shù)據(jù)集的方法對其進行處理。常用的單一填補法包括均值填補法(mean imputation)、隨機抽取填補法、回歸填補法、熱平臺填補法、最近鄰填補法、末次觀測結(jié)轉(zhuǎn)法(last observation coming forward,LOCF)等。
3.多重填補法[7]
多重填補法是Rubin于1978年提出來的一種相對復雜的缺失數(shù)據(jù)填補方法。該方法的基本思想是對每一個缺失值產(chǎn)生一系列可能的填補值,從而形成若干個完整的數(shù)據(jù)集,再用分析完整數(shù)據(jù)集的方法對每一個填補后的數(shù)據(jù)集進行分析,最后把分析得到的若干個結(jié)果進行綜合,從而得到最終的分析結(jié)果。常用的多重填補法包括適用于單調(diào)缺失模式的線性回歸法(regression)、預測均數(shù)匹配法(predicted mean matching,PMM)、趨勢得分法(propensity score,PS)以及適用于任意缺失模式的馬爾科夫鏈蒙特卡羅法(Markov Chain Monte Carlo,MCMC)等。
4.EM 算法[8]
EM算法是一種迭代運算,包括預測步(E步)和估計步(M步)。預測步是給定未知參數(shù)的某個估計值,預測充分統(tǒng)計量中有關缺失數(shù)據(jù)的部分;估計步是利用預測步得到的充分統(tǒng)計量計算參數(shù)最大似然估計的校正值。該過程反復迭代,直到模型收斂為止。
5.多元正態(tài)分布假設[9]
多元正態(tài)分布是多元定量資料最常見的概率模型,大多數(shù)處理多元定量資料的方法都建立在多元正態(tài)分布的基礎上,因此在處理缺失數(shù)據(jù)時一般也假定資料滿足多元正態(tài)分布。然而在現(xiàn)實中數(shù)據(jù)并不總是滿足多元正態(tài)分布,盡管如此,正態(tài)模型在大多數(shù)時候依然是可行的。原因包括以下幾點:首先,可以通過合適的數(shù)據(jù)變換使其滿足正態(tài)假設;其次,如果某些完整變量(即不存在缺失數(shù)據(jù)的變量)不滿足正態(tài)分布,只要能用完整變量的線性方程構建不完整變量使其滿足條件正態(tài)分布,并且參數(shù)推斷也僅基于這種條件分布之上,那么多元正態(tài)分布模型依然可行;最后,即便缺失變量不滿足正態(tài)分布,只要缺失信息不是很大,多重填補的推斷依然穩(wěn)健。
1.數(shù)據(jù)集的構建
運用SAS軟件模擬在實際應用中最常見的含一個分組因素和一個重復測量因素的兩因素設計縱向資料。假定現(xiàn)欲考察兩種處理的效果,將研究對象分成兩組,一組使用處理A,一組使用處理B,每組1000例,分別在6個不同的時間點測量某定量指標的取值,比較兩種處理的差別?,F(xiàn)假設資料服從多元正態(tài)分布,兩組的均值向量分別是 μA=(3.0,2.5,2.0,1.7,1.5,1.1)′,μB=(3.0,2.7,2.5,2.4,2.3,1.1)′,方差與協(xié)方差矩陣為:
該方差與協(xié)方差矩陣的設置使得各時間點的相關系數(shù)呈遞減趨勢并保持平均相關系數(shù)在0.5左右,根據(jù)Frison和 Pocock的研究,這些取值是合理的[10]。現(xiàn)用SAS軟件的Mixed過程(混合效應模型)對其進行分析,構建結(jié)果變量關于分組因素和“時間”兩個因素的線性回歸方程,將分組因素的回歸系數(shù)估計值(^β)以及回歸系數(shù)標準誤(S^β)作為標準對照。
構造各個時間點上 AMP及 MMP下 MCAR、MAR及NMAR六種數(shù)據(jù)集,其中MCAR通過隨機抽取產(chǎn)生缺失數(shù)據(jù)得到,MAR通過對兩組按1:2的比例分別進行隨機抽取產(chǎn)生缺失數(shù)據(jù)得到,NMAR通過將結(jié)果指標在各時間點進行排序,取其中最大的部分數(shù)據(jù)作為缺失數(shù)據(jù)得到。保證六種數(shù)據(jù)集的缺失率分別為10%、20%、30%、40%和50%。
2.處理方法
對于AMP數(shù)據(jù)集,分別用刪除法、單一填補的均值填補法和LOCF、多重填補的MCMC法以及EM算法進行填補后用混合效應模型進行分析,多重填補分別填補3次、5次、10次和15次,以考察不同填補次數(shù)對結(jié)果的影響;對于MMP數(shù)據(jù)集,分別用刪除法、均值填補法、LOCF法、多重填補的線性回歸法、預測均數(shù)匹配法和趨勢得分法以及EM算法進行填補,再用線性混合效應模型進行分析。該過程循環(huán)運行10000次,每種方法得到10000個估計結(jié)果。
3.指標比較
用于比較模型處理效果的指標包括:
(1)回歸系數(shù)估計值的均值及95%置信區(qū)間:
(2)回歸系數(shù)標準誤的均值及95%置信區(qū)間:
圖1中,橫坐標表示缺失率,分別為10%、20%、30%、40%和50%,縱坐標分別表示回歸系數(shù)和系數(shù)標準誤及各自的95%置信區(qū)間,虛線表示標準對照,下同。
圖1表明,在AMP下,當MCAR和MAR時,低缺失率(≤10%)下所有方法的處理效果均較好;隨著缺失率的不斷增大,刪除法、單一填補法和EM算法的處理效果都不佳,單一填補法甚至不如刪除法,其中均值填補法嚴重低估回歸系數(shù)的變異程度;而多重填補法的處理效果依然令人滿意,當缺失率較低時幾乎與標準對照無異,當缺失率達到50%時其回歸系數(shù)也相當接近標準對照,其缺點是在高缺失率下容易高估回歸系數(shù)的變異程度,即系數(shù)的代表性有待提高。但多重填補的效果并沒有隨著填補次數(shù)的增加而增加。當缺失機制為NMAR時,各種方法的處理效果都不理想。
圖1 多種方法處理AMP下三種缺失機制數(shù)據(jù)集的效果比較
圖2 表明,在MMP下,當MCAR和MAR時,刪除法、均值填補法、LOCF法、多重填補PS法以及EM算法的結(jié)果偏離標準對照較遠,而多重填補線性回歸法和PMM法則能較好地彌補缺失數(shù)據(jù)造成的影響。當NMAR時,所有方法的處理效果都不佳。
刪除法、單一填補法、多重填補法和EM算法是目前處理缺失數(shù)據(jù)的常用方法。刪除法直接刪除含缺失值的觀測,簡單易懂且便于操作。這種以犧牲樣本量,舍棄含缺失數(shù)據(jù)的觀測所含信息的做法在數(shù)據(jù)缺失比例較少時尚可接受,然而隨著缺失數(shù)據(jù)比例的進一步增大,刪除法將失去大量的樣本信息,從而造成資料無法分析或分析結(jié)果產(chǎn)生偏倚,降低效能。若數(shù)據(jù)缺失比例很大,則可能使樣本信息完全無法利用。
單一填補法用一個確定的值代替每一個缺失值,該法同樣簡單易懂且容易操作,但忽略了缺失數(shù)據(jù)的不確定性,因而導致數(shù)據(jù)的變異程度被低估。
多重填補法的基本思想是用一系列可能的值替代缺失值,從而產(chǎn)生多個完整數(shù)據(jù)集,再對其進行綜合分析。該法考慮了缺失數(shù)據(jù)的不確定性,但相對復雜,操作起來相對困難。
EM算法是求參數(shù)極大似然估計的一種迭代算法,是尋求極大似然估計的一種強有力的方法,但其要求數(shù)據(jù)服從正態(tài)分布或混合分布,且M步?jīng)]有簡單的數(shù)值計算形式。
圖2 多種方法處理MMP下三種缺失機制數(shù)據(jù)集的效果比較
本文針對縱向缺失數(shù)據(jù),通過蒙特卡羅模擬對各種方法的處理效果進行比較,得出以下結(jié)論:在任意缺失模式下,當缺失機制為完全隨機缺失或隨機缺失時,低缺失率(≤10%)下所有方法的效果均較好;隨著缺失率的增大,只有多重填補MCMC法的處理效果依然令人滿意。在單調(diào)缺失模式下,當缺失機制為完全隨機缺失或隨機缺失時,只有多重填補的線性回歸法和預測均數(shù)匹配法的填補效果較好,其他方法效果都不佳。多重填補法的缺點是在一定程度上會高估系數(shù)的變異程度。另一方面,多重填補的效果并非隨著填補次數(shù)的增加而增加,填補方法對結(jié)果的影響遠遠超過填補次數(shù)對結(jié)果的影響。在非隨機缺失機制下,所有方法都無法取得較好的處理效果。
雖然多重填補法在處理缺失數(shù)據(jù)時具有較大優(yōu)勢,我們?nèi)孕枥斡浀囊稽c就是:盡管填補有時能有效緩解數(shù)據(jù)缺失造成的嚴重后果,但填補值畢竟不是真實值。正如Dempsters所言:“填補的思想既是誘人的,也是危險的[11]”。因此,在實際科研中,應盡可能地減少數(shù)據(jù)缺失,確保一手數(shù)據(jù)的質(zhì)量。
[1]楊軍,趙宇,丁文興.抽樣調(diào)查中缺失數(shù)據(jù)的插補方法.數(shù)理統(tǒng)計與管理,2008,27(5):821-832.
[2]張熙,林燧恒.多重填補在隨機干預試驗研究中的應用.中國衛(wèi)生統(tǒng)計,2011,28(5):537-539.
[3]武建虎,賀佳,賀憲民,等.多變量缺失數(shù)據(jù)的不同處理方法及分析結(jié)果比較.第二軍醫(yī)大學學報,2004,25(9):1013-1016.
[4]Twisk J,de Boer M,de Vente W,et al.Multiple imputation of missing values was not necessary before performing a longitudinal mixedmodel analysis.Journal of clinical epidemiology,2013,66(9):1022-28.
[5]Peters SAE,Bots ML,den Ruijter HM,et al.Multiple imputation of missing repeated outcome measures did not add to linear mixedeffects models.Journal of clinical epidemiology,2012,65(6):686-95.
[6]金勇進.調(diào)查中的數(shù)據(jù)缺失及處理(I)——缺失數(shù)據(jù)及其影響.數(shù)理統(tǒng)計與管理,2001,20(1):56-62.
[7]SAS/STAT 9.2 User's guide,second edition.Cary,NC:SAS institute Inc,2008:3765-3779.
[8]陳長生,王彤,徐勇勇,等.醫(yī)學科研中缺失數(shù)據(jù)的EM估計.第四軍醫(yī)大學學報,2002,23(1):59-61.
[9]Schafer JL.Analysis of incomplete multivariate data.Florida:CRC Press LLC,1997:194-195.
[10]Frison L,Pocock SJ.Repeated measures in clinical trials:analysis of using mean summary statistics and its implications for design.Statistics in medicine,1992,11(13):1685-1704.
[11]Dempster AP,Rubin DB.Incomplete data in sample surveys.Vol.II:Theory and Annotated Bibliography.New York:Academic Press,1983:3-10.
Comparative Study of Various Imputation Methods in Dealing with Longitudinal Missing Data
Bao Xiaolei,Gao Hui,Hu Liangping
(Lanzhou General Hospital,Lanzhou Military Area Command(730050),Lanzhou)
Objective To compare the effects of several commonly-used imputation methods in dealing with longitudinal missing data.Methods Simulate the longitudinal data with a classification factor and a repeated-measured factor using Monte Carlo simulation by SAS.Mixed effect model was used to analyze the effect of the longitudinal cohort.The result was used as standard control.Simulation datasets with MCAR,MAR and NMAR under AMPand MMPconditions were constructed,and the missing rate was set to be 10%,20%,30%,40%and 50%,respectively.Deletion method,single imputation method,multiple imputation method and EM method were carried out.The results were then compared with the standard control.Results For MCAR and MAR datasets with AMP,all the methods showed satisfactory results when the rate of missing data remained modest(≤10%).However,as the percentage increased,the multiple imputation method appeared to be the only optimal strategy.In contrast,for MCAR and MAR datasets with MMP,only the regression method and the predicted mean matching method were efficacious.It has to be noted that multiple imputation method tended to overestimate the variation of regression coefficients.In addition,the imputation methodology played a far more important role than the number of iterations in analyzing the data.For NMAR datasets,all attempted methods were unable to achieve satisfactory results.Conclusion The multiple imputation method was proved desirable in dealing with missing data in longitudinal cohort.
Longitudinal missing data;Missing pattern;Missing mechanism;Multiple imputations
1.蘭州軍區(qū)蘭州總醫(yī)院(730050)
2.中國人民解放軍95969部隊衛(wèi)生隊
3.北京生物醫(yī)學統(tǒng)計學咨詢中心
郭海強)