樊思敏,施三支,翟芳慧
(長春理工大學(xué) 理學(xué)院,長春 1300222)
在現(xiàn)實應(yīng)用中,由于人為、機械等因素,數(shù)據(jù)缺失比較普遍。數(shù)據(jù)缺失造成的部分信息丟失,在不同程度上影響統(tǒng)計推斷,導(dǎo)致得出結(jié)果存在一定的失真。數(shù)據(jù)缺失的處理研究引起了更多的關(guān)注。從缺失數(shù)據(jù)的缺失值排列方式來看,數(shù)據(jù)缺失可分為單調(diào)缺失和非單調(diào)缺失。從缺失數(shù)據(jù)的缺失影響因素來看,分為隨機缺失(MAR)、非隨機缺失(NMAR)和完全隨機缺失(MCAR),缺失機制概念及三種缺失機制由 Rubin(1976)[1]提出。非隨機依賴完全觀測變量時,也可稱為不可忽略機制(NI)。在不可忽視機制的基礎(chǔ)上,由Samiran Sinha等(2014)[2]提出了NI-機制。本文主要討論隨機缺失下的非單調(diào)缺失情況。
缺失數(shù)據(jù)加大了數(shù)據(jù)分析和挖掘的困難程度,提高了分析結(jié)果的偏差。最簡單的方式是刪除帶有缺失項的樣本,即完全數(shù)據(jù)分析(CC)。樣本量缺失項較少時,CC帶來的偏差較少,當缺失項較多時,由于一部分的數(shù)據(jù)信息缺失,CC方法的偏差很大。為糾正由缺失數(shù)據(jù)導(dǎo)致的結(jié)論偏倚,缺失數(shù)據(jù)處理方法相繼被提出。Horvitz和Thompson(1952)[3]最先提出了逆概率加權(quán)方法。Rubin和Laird(1977)[4]提出了用于處理缺失數(shù)據(jù)的EM算法。Zhao(1994)[5]提出了一類在MAR機制下的逆概率加權(quán)方法。Chen等(1999)[6]提出了一種用EM算法的全似然方法。Robins(2000)[7]提出了一種基于逆概率加權(quán)的改進方法,即逆概率刪失加權(quán)法(IPCW)。Ibrahim,Chen(2004)[8]在不同缺失機制情況下,把半?yún)?shù)方法應(yīng)用到多缺失協(xié)變量上。Samiran Sinha、Wang S.J和K.Saha(2014)[2]將半?yún)?shù)方法與NI-機制結(jié)合,應(yīng)用到多變量缺失中。Jiwei Zhao和Jun Shao(2015)[9]基于不可忽視(NI)機制下提出了一種半?yún)?shù)似然方法。
本文對完全數(shù)據(jù)進行隨機缺失,在隨機缺失的背景下,使用了Samiran Sinha、Wang S.J和K.Saha(2014)[2]相似的半?yún)?shù)方法處理來達到估計Logistic模型中參數(shù)的目的,并與單一均值插補、多重插補和EM算法進行了比較分析。
記Y為因變量,X為帶有缺失數(shù)據(jù)的自變量,Z為完全數(shù)據(jù)自變量,設(shè)定缺失自變量為2維的情況,樣本量為h,數(shù)據(jù)類型為離散型。示性函數(shù)為I,當數(shù)據(jù)可觀測時,示性函數(shù)為1,不可觀測為0。
設(shè)Xij(i=1,2,…,h;j=1,2)表示為第i行第j列的觀測值,Xi(-j)則表示為此觀測值缺失。本文關(guān)注數(shù)據(jù)缺失的隨機缺失,即缺失的數(shù)據(jù)與完全數(shù)據(jù)相關(guān),假設(shè)缺失機制的選擇概率為π,有:
設(shè)回歸模型為g(Y|θ,Z,X),θ為模型的參數(shù)。則似然函數(shù)為:
對上述似然函數(shù)取對數(shù),對參數(shù)求導(dǎo),得到得分函數(shù)如下:
其中,S=?log(g(Y|θ,Z,X))/?θ,ki,m(P)=g(Yi|θ,Zi,Xi)*P*f(Xir|Xi(-m),Zi)。
m的取值為1,2,12。P為相應(yīng)的缺失選擇概率,f(Xim|Xi(-m),Zi)為缺失項Xi(-m)的條件分布。由于缺失變量的條件分布未知,根據(jù)Chatterjee.N、Chen.Y.-H.和 Breslow.N.E(2003)[10]的理論可知:
當Ii1=Ii2=1,Ii=1。將得到的估計值代入得分函數(shù),產(chǎn)生新的得分函數(shù)。對得分函數(shù)求導(dǎo),得出目標參數(shù)θ。
與文獻中不同的是,Samiran Sinha、Wang S.J和 K.Saha(2014)[2]在似然方程中與NI-機制結(jié)合,文中的應(yīng)用數(shù)據(jù)模擬時進行隨機缺失,故而在MAR的背景下,將似然函數(shù)方程(2)中缺失機制的選擇概率設(shè)置為與MAR相對應(yīng)的選擇概率。
文中采用的數(shù)據(jù)為太平洋車險數(shù)據(jù)[11],數(shù)據(jù)量為50,數(shù)據(jù)量均為布爾型數(shù)值。因變量為車險理賠情況,自變量分別為調(diào)研者的性別、視力情況、抽煙史、是否有駕駛教育和相關(guān)年齡。由汪靜波(2015)[11]變量與因變量的相關(guān)性可知,理賠與視力情況、抽煙史有關(guān)。設(shè)視力情況為X1,抽煙史為X2,由于半?yún)?shù)方法的需要,自變量的數(shù)量偏少,且MAR機制與完全數(shù)據(jù)相關(guān),本文中再添加輔助變量Z=X1*X2作為完全觀測數(shù)據(jù)。對兩個自變量及輔助變量作共線性診斷,k的值為18.31,在100之內(nèi),可認為三者之間共線性小。
表1 自變量與因變量之間單因素logistic顯著性
三個自變量與因變量的單因素Logistic分析結(jié)果如上,均呈現(xiàn)出顯著性。
表2 Logistic回歸分析
表2為因變量與自變量之間的回歸分析結(jié)果,視力情況和抽煙史極為顯著,視力*抽煙對方程的顯著性不如視力情況和抽煙史。因此可得出實際應(yīng)用數(shù)據(jù)的回歸方程為:
設(shè)自變量X1、X2帶有缺失項,Z為可完全觀測數(shù)據(jù),設(shè)置的缺失率分別為10%、20%、30%、40%,數(shù)據(jù)缺失模擬結(jié)果如表3所示。
表3為在不同缺失率的情況下不同缺失數(shù)據(jù)處理方法的結(jié)果。從表中可以看出,當缺失率為10%時,綜合偏差和標準差來看,后三種方法相比均值方法效果稍微好些,當缺失率升至20%時,EM和半?yún)?shù)方法較均值插補和MI方法估計偏差更少。MI方法與均值插補相差不大。隨著缺失率的進一步增大,這四種方法明顯受到缺失率的影響,估計精度變差。而半?yún)?shù)方法較其他三種方法估計效果更好。
在實際問題中,由于信息缺失,缺失的數(shù)據(jù)給研究者帶來不少困擾。本文在離散變量背景下對完整的車險數(shù)據(jù)采用了Logistic回歸,對自變量模擬了四種缺失率,在不同缺失率的情況下運用四種缺失數(shù)據(jù)處理方法來處理缺失數(shù)據(jù)以得到模型參數(shù)估計。從分析結(jié)果表中可知,缺失率越小,幾種方法的估計精度越高。缺失率增加時,插補類方法明顯差于模型法,而半?yún)?shù)方法受到的影響較其他幾種方法小,有較好的魯棒性。
插補類方法依賴數(shù)據(jù)之間的關(guān)系,對數(shù)據(jù)插補時有一定的偏倚,EM方法和半?yún)?shù)方法未直接對數(shù)據(jù)填補,利用似然函數(shù)處理缺失部分,對數(shù)據(jù)缺失處理有更大優(yōu)勢,而半?yún)?shù)方法自身結(jié)合參數(shù)和非參數(shù)優(yōu)點,合理利用缺失部分信息,參數(shù)估計準確度和魯棒性均高于EM算法,但半?yún)?shù)方法也受限于缺失機制,實現(xiàn)過程中受到初始參數(shù)的影響,這兩者在將來都是值得探討和改進的地方。
表3 不同缺失率模擬結(jié)果