張 橋 李 寧 張秋菊 劉美娜△
任意缺失模式缺失數(shù)據(jù)不同填補(bǔ)方法效果比較*
張 橋1李 寧2張秋菊1劉美娜1△
目的 探討任意缺失模式下缺失數(shù)據(jù)的填補(bǔ)方法,并對(duì)不同方法填補(bǔ)效果進(jìn)行比較和評(píng)價(jià)。方法 結(jié)合我國北方絕經(jīng)期婦女鈣需要和膳食評(píng)估應(yīng)用研究課題的數(shù)據(jù),調(diào)用SAS軟件中IML模塊產(chǎn)生任意缺失模式模擬數(shù)據(jù),通過MI和MIANALYZE過程實(shí)現(xiàn)缺失數(shù)據(jù)的填補(bǔ),同時(shí)應(yīng)用準(zhǔn)確度和穩(wěn)定度兩個(gè)評(píng)價(jià)指標(biāo)來評(píng)價(jià)各方法填補(bǔ)的效果。結(jié)果 PS方法填補(bǔ)3次在本文模擬的任意缺失模式的缺失數(shù)據(jù)中填補(bǔ)效果最佳,MCMC方法填補(bǔ)效果并不理想。結(jié)論 在填補(bǔ)任意缺失模式的缺失數(shù)據(jù)時(shí),MCMC并不是唯一的多重填補(bǔ)方法,通過多重填補(bǔ)的PS方法、PMM方法和REG方法把數(shù)據(jù)填補(bǔ)成單調(diào)缺失后,再用相同方法進(jìn)行一次填補(bǔ)也是一種可選擇的填補(bǔ)方法。
缺失數(shù)據(jù) 任意缺失模式 多重填補(bǔ) 數(shù)據(jù)模擬
1.哈爾濱醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081)
2.寧波市疾病預(yù)防控制中心免疫預(yù)防所
△通信作者:劉美娜,E-mail:liumeina369@163.com
數(shù)據(jù)缺失是實(shí)驗(yàn)研究和調(diào)查研究中一個(gè)普遍存在的問題〔1〕,如何正確的處理、分析所缺失的數(shù)據(jù)在數(shù)據(jù)分析中占有重要地位。缺失數(shù)據(jù)的類型按照不同的分類方法可劃分不同類別,按缺失機(jī)制分類和按缺失模式分類兩種劃分方法〔2-3〕。
按照由Little和Rubin在1976年提出的缺失機(jī)制分類,缺失數(shù)據(jù)可以分為完全隨機(jī)缺失(missing completely at random,MCAR)、隨機(jī)缺失(missing at random,MAR)和非隨機(jī)缺失(not missing at random,NMAR)三類〔4〕。如果所缺失的數(shù)據(jù)發(fā)生的概率既與已觀察到的數(shù)據(jù)無關(guān)也與未觀察到的數(shù)據(jù)無關(guān),則該缺失數(shù)據(jù)類型為MCAR;如果缺失數(shù)據(jù)的發(fā)生概率與所觀察到的變量是有關(guān)的,而與未觀察到的數(shù)據(jù)特征無關(guān),則該缺失數(shù)據(jù)類型為MAR;若數(shù)據(jù)既不屬于完全隨機(jī)缺失也不屬于隨機(jī)缺失,那么該缺失數(shù)據(jù)類型就屬于NMAR〔5〕。按照數(shù)據(jù)缺失模式可以分為單調(diào)缺失模式和任意缺失模式兩類〔6-7〕,為了簡(jiǎn)單明了可以通過圖1來形象的理解,其中是5個(gè)變量,1~5是5個(gè)樣本,“×”表示數(shù)據(jù)能觀察到,“.”表示數(shù)據(jù)缺失。
圖1 數(shù)據(jù)缺失模式
單調(diào)缺失模式如圖1(a)所示,對(duì)數(shù)據(jù)集進(jìn)行適當(dāng)?shù)男辛凶儞Q后,可以得到這樣一個(gè)矩陣,它呈現(xiàn)出一種層級(jí)缺失的模式,矩陣中的元素yj缺失時(shí),則對(duì)任意的P≥j,元素yp也是缺失的;任意缺失模式如圖1(b)所示,數(shù)據(jù)缺失具有隨意性,沒有任何規(guī)律可循,即使通過行列變換也無法看出任何規(guī)律。
對(duì)于任意缺失模式的數(shù)據(jù)處理,查閱相關(guān)文獻(xiàn)發(fā)現(xiàn)常用的就是把缺失值直接刪除即Ad Hoc法或多重填補(bǔ)(multiple imputation,MI)中的馬爾科夫鏈蒙特卡洛(markov chain monte carlo,MCMC)方法〔8〕,對(duì)于縱向數(shù)據(jù)有時(shí)也采用單一填補(bǔ)中的LOCF(last observation carried forward)方法〔9〕。本文將探討 Ad Hoc法、LOCF填補(bǔ)、多重填補(bǔ)中的回歸方法、預(yù)測(cè)均數(shù)匹配(predictive mean matching,PMM)方法、趨勢(shì)得分(propensity score,PS)方法、MCMC方法這六種方法對(duì)任意缺失模式下缺失數(shù)據(jù)的填補(bǔ)效果。
本文所用數(shù)據(jù)來源于國家科技支撐計(jì)劃項(xiàng)目:我國北方絕經(jīng)期婦女鈣需要和膳食評(píng)估應(yīng)用研究。此課題是一個(gè)為期兩年人群干預(yù)研究,研究對(duì)象282名,通過分層隨機(jī)方法分為四組,3個(gè)鈣干預(yù)組和1個(gè)信息干預(yù)組。分別在干預(yù)前、干預(yù)1年后、干預(yù)2年后三個(gè)時(shí)間點(diǎn)對(duì)干預(yù)對(duì)象進(jìn)行調(diào)查和樣品采集,獲得研究對(duì)象的體格檢查、一般情況、飲食情況、體力活動(dòng)情況和心理與應(yīng)對(duì)等信息,同時(shí)對(duì)研究對(duì)象進(jìn)行骨密度檢測(cè),所采用儀器是美國Norland XR-36雙能X線骨密度儀,包括腰椎、髖骨和全身骨三個(gè)部位,獲得相應(yīng)部位的骨密度T值。本文主要選用志愿者的身高、體重、年齡以及三次骨密度檢查的腰椎骨密度T值作為模擬實(shí)驗(yàn)的參考數(shù)據(jù)。
參考數(shù)據(jù)中身高、體重、年齡和第一次腰椎骨密度T值為完整數(shù)據(jù),共282例,第二次和第三次腰椎骨密度T值分別缺失63人和80人,因此剩余人數(shù)分別是219和202例。參考數(shù)據(jù)中各變量的均數(shù)和標(biāo)準(zhǔn)差見表1。
表1 參考數(shù)據(jù)各變量的均數(shù)和標(biāo)準(zhǔn)
表2是參考數(shù)據(jù)中各變量間的相關(guān)系數(shù)矩陣。
表2 參考數(shù)據(jù)各變量的相關(guān)系數(shù)矩陣
本文的數(shù)據(jù)分析思路為:根據(jù)實(shí)際研究所獲數(shù)據(jù)模擬出100個(gè)完整數(shù)據(jù)集,在此基礎(chǔ)上,分別根據(jù)完整數(shù)據(jù)中第二次和第三次腰椎骨密度T值的數(shù)據(jù)缺失率(分別為22.34%和28.37%)生成100個(gè)有數(shù)據(jù)缺失的數(shù)據(jù)集,然后再用各種缺失數(shù)據(jù)填補(bǔ)方法對(duì)缺失數(shù)據(jù)集進(jìn)行填補(bǔ),最后根據(jù)評(píng)價(jià)指標(biāo)來評(píng)價(jià)各填補(bǔ)方法的優(yōu)劣。
數(shù)據(jù)分析軟件為SAS 9.1,模擬數(shù)據(jù)集采用IML模塊和SAS宏程序,缺失數(shù)據(jù)的處理和分析主要采用了PROC MI和PROC MIANALYZE過程。由于REG方法、PMM方法和PS方法只能對(duì)單調(diào)缺失模式的數(shù)據(jù)進(jìn)行填補(bǔ),所以在用如上三種方法進(jìn)行缺失數(shù)據(jù)填補(bǔ)時(shí),本文首先對(duì)第二次腰椎骨密度T值填補(bǔ)N(N=3、5、10、15、20)次,使數(shù)據(jù)變成單調(diào)缺失后,再用相應(yīng)的填補(bǔ)方法對(duì)第三次腰椎骨密度T值填補(bǔ)1次。
針對(duì)缺失數(shù)據(jù)填補(bǔ)效果優(yōu)劣的評(píng)價(jià)指標(biāo)本文采用準(zhǔn)確度和穩(wěn)定度〔10〕。對(duì)于變量Y,100個(gè)完整數(shù)據(jù)集有100個(gè)均數(shù)Y1,Y2,…,Y100,這 100 個(gè)均數(shù)的平均值為Ymean,缺失數(shù)據(jù)經(jīng)過處理后也會(huì)有100個(gè)均數(shù),…,均數(shù)的平均值為,則準(zhǔn)確度指標(biāo)定義為:BIASmeanmean
BIASmean指標(biāo)的絕對(duì)值越小說明估計(jì)均數(shù)時(shí)偏差越小,準(zhǔn)確度越高。
MSEmean指標(biāo)越大說明估計(jì)均數(shù)時(shí)穩(wěn)定度越好〔11〕。
同理可以計(jì)算100個(gè)標(biāo)準(zhǔn)誤的BIASstderr和MSEstderr。
用不同填補(bǔ)方法對(duì)模擬的缺失數(shù)據(jù)集進(jìn)行填補(bǔ),第二次和第三次腰椎骨密度T值填補(bǔ)效果較好的前五位的評(píng)價(jià)指標(biāo)結(jié)果分別如表3和表4所示:
表3 不同填補(bǔ)方法對(duì)第二次腰椎骨密度T值填補(bǔ)效果
從表3中可以看出對(duì)于第二次腰椎骨密度T值均數(shù)準(zhǔn)確性的評(píng)價(jià)指標(biāo)BIASmean絕對(duì)值最小的前五位為:0.0005、0.0006、0.0009、0.0009、0.0012、0.0012 分別為Ad Hoc方法、MCMC方法填補(bǔ)10次、MCMC方法填補(bǔ)5次、PS方法填補(bǔ)3次、MCMC方法填補(bǔ)3次、PMM方法填補(bǔ)15次。對(duì)于第二次腰椎骨密度T值均數(shù)穩(wěn)定性的評(píng)價(jià)指標(biāo)MSEmean最大的前五位為:2.4732、1.9634、1.9466、1.9107、1.9023 分別為 Ad Hoc方法、PS方法填補(bǔ)15次、PS方法填補(bǔ)10次、PS方法填補(bǔ)20次、PS方法填補(bǔ)3次。
對(duì)于第二次腰椎骨密度T值標(biāo)準(zhǔn)誤準(zhǔn)確性的評(píng)價(jià)指標(biāo)BIASstderr絕對(duì)值最小的前五位為:0.0001、0.0007、0.0008、0.0009、0.0012 分別為 LOCF 方法、PMM方法填補(bǔ)20次、PMM方法填補(bǔ)15次、PMM方法填補(bǔ)10次、PMM方法填補(bǔ)3次。對(duì)于第二次腰椎骨密度T值標(biāo)準(zhǔn)誤穩(wěn)定性的評(píng)價(jià)指標(biāo)MSEstderr最大的前五位為:0.0362、0.0280、0.0136、0.0118、0.0112 分別為PS方法填補(bǔ)3次、PS方法填補(bǔ)5次、PS方法填補(bǔ)10次、Ad Hoc方法、PS方法填補(bǔ)15次。
表4 不同填補(bǔ)方法對(duì)第三次腰椎骨密度T值填補(bǔ)效果
從表4中可以看出對(duì)于第三次腰椎骨密度T值均數(shù)準(zhǔn)確性的評(píng)價(jià)指標(biāo)BIASmean絕對(duì)值最小的前五位為:0.0014、0.0020、0.0030、0.0032、0.0039 分別為 PS方法填補(bǔ)3次、REG方法填補(bǔ)3次、PS方法填補(bǔ)15次、PS方法填補(bǔ)5次、REG方法填補(bǔ)5次。對(duì)于第三次腰椎骨密度T值均數(shù)穩(wěn)定性的評(píng)價(jià)指標(biāo)MSEmean最大的 前 五 位 為:2.0351、1.8190、1.8099、1.7976、1.7753分別為Ad Hoc方法、PS方法填補(bǔ)5次、PS方法填補(bǔ)10次、PS方法填補(bǔ)3次、PS方法填補(bǔ)15次。
從如上的結(jié)果綜合來看,PS方法填補(bǔ)3次在本文模擬的數(shù)據(jù)中填補(bǔ)效果最佳,而MCMC方法除在第二次腰椎骨密度T值的BIASmean指標(biāo)上表現(xiàn)較好外,在其他指標(biāo)中都沒有進(jìn)入填補(bǔ)效果最好的前五位。
在多重填補(bǔ)的四種方法里,PS方法在第二次和第三次腰椎骨密度T值的MSEmean指標(biāo)和MSEstderr指標(biāo)上都有很好的效果,REG方法在第三次腰椎骨密度T值的BIASstderr指標(biāo)上有很好的效果,PMM方法在第二次腰椎骨密度T值的BIASstderr指標(biāo)上有很好的效果,而MCMC方法只在第二次腰椎骨密度T值的BIASmean指標(biāo)上有較好的效果。填補(bǔ)次數(shù)越多填補(bǔ)效果不一定越好。
因此從本文可以看出,對(duì)于任意缺失模式的缺失數(shù)據(jù)集,多重填補(bǔ)的MCMC并不是唯一的多重填補(bǔ)方法,采用單調(diào)缺失模式下的多重填補(bǔ)方法把任意缺失數(shù)據(jù)填補(bǔ)成單調(diào)缺失,在此基礎(chǔ)上再進(jìn)行一次該方法的填補(bǔ),在某些條件下比MCMC填補(bǔ)的效果好。對(duì)于填補(bǔ)的次數(shù)并不是越多越好,而是要根據(jù)實(shí)際情況,進(jìn)行數(shù)據(jù)模擬,從而找出最佳的填補(bǔ)次數(shù)。
1.Amold AM,Kronmal RA.Multiple imputation of baseline data in the cardiovascular health study.American Journal of Epidemiology,2003,157(1):74-84.
2.Abraham,Todd W,Russell,et al.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.
3.James M,Robins,Wang N.Inference for imputation estimators.Biometrika,2000,87(1):113-124.
4.Little RJ,Rubin DB.Statistical Analysis with Missing Data.New York:John Wiley&Sons,1987.
5.Little RJ,Rubin DB.Statistical Analysis with Missing Data.2nd ed.Hoboken,NJ:John Wiley&Sons,2002.
6.曹陽,謝萬軍,張羅漫.多重填補(bǔ)的方法及其統(tǒng)計(jì)推斷原理.中國醫(yī)院統(tǒng)計(jì),2003,10(2):77-81.
7.李新華,夏結(jié)來.多重填補(bǔ)處理有缺失數(shù)據(jù)的2×2交叉設(shè)計(jì)資料的應(yīng)用.2004中國衛(wèi)生統(tǒng)計(jì)學(xué)術(shù)會(huì)議論文集,2004:181-187.
8.張熙,林燧恒.多重填補(bǔ)在隨機(jī)干預(yù)實(shí)驗(yàn)研究中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2011,28(5):537-539.
9.茅群霞.缺失值處理統(tǒng)計(jì)方法的模擬比較研究及應(yīng)用.四川大學(xué)碩士畢業(yè)論文,2005.
10.Collins LM,Schafer JL,Kam CM.A comparison of inclusive and restrictive strategies in modern missing data procedures.Psychol Methods,2001,6(4):330-351.
11.李寧.鈣干預(yù)試驗(yàn)骨密度缺失值的填補(bǔ)研究.哈爾濱醫(yī)科大學(xué)碩士畢業(yè)論文,2010.
A Simulated Comparison between Different Imputation Meth-ods in Arbitrary Missing Data
Zhang Qiao,Li Ning,Zhang Qiuju,et al.Department of Health Statistics,Harbin Medical University(150086),Harbin
ObjectiveTo evaluate the imputation effect of different imputation methods in arbitrary missing data.MethodsFirst of all,we use the IML model in SAS software to simulate arbitrary missing data,which is about the calcium requirements and dietary evaluation of postmenopausal women in the north of china.Imputing the missing data through the MI and MIANALYZE processes.Accuracy and stability were used for the evaluation indices to compare the imputation effect of different methods.ResultsThe effect of PS method when imputing 3 times is the best in this data,while the effect of MCMC method is not ideal.Conclusion The MCMC is not the unique multiple imputation method when imput arbitrary missing data.The PS,PMM,REG methods could turn the arbitrary missingness pattern into monotone missingness pattern,then we use the same method to imput once again.It is also an alternative imputation method.
Missing data;Arbitrary missingness pattern;Multiple imputation;Data simulation
國家科技支撐計(jì)劃(2011BAI09B02)
(責(zé)任編輯:郭海強(qiáng))