于力超
(中央民族大學(xué) 理學(xué)院,北京 100081)
在針對(duì)抽樣調(diào)查數(shù)據(jù)的統(tǒng)計(jì)推斷過程中,常存在各種各樣的問題,由于無回答等原因造成的缺失數(shù)據(jù)是一個(gè)常見問題,如果處理不當(dāng),將對(duì)抽樣調(diào)查活動(dòng)的順利實(shí)施產(chǎn)生嚴(yán)重的負(fù)面影響,研究缺失數(shù)據(jù)的處理方法意義重大。為了節(jié)省時(shí)間和人力成本,并觀察目標(biāo)變量隨時(shí)間的變化趨勢(shì),常對(duì)一批受訪者進(jìn)行跟蹤調(diào)查,得到一組縱向調(diào)查數(shù)據(jù),縱向調(diào)查數(shù)據(jù)缺失問題尤為普遍,由于變換住址、問題敏感等原因,某些縱向調(diào)查數(shù)據(jù)會(huì)出現(xiàn)缺失。目前常采用的處理方法是直接刪除法,即忽略縱向調(diào)查中的缺失數(shù)據(jù),僅用獲得完整數(shù)據(jù)的樣本進(jìn)行統(tǒng)計(jì)推斷,這樣不僅造成大量信息的浪費(fèi),影響估計(jì)結(jié)果的有效性,而且如果含缺失數(shù)據(jù)樣本與數(shù)據(jù)完全樣本分布存在差異(即數(shù)據(jù)的缺失模式不是完全隨機(jī)缺失(MCAR)),那么得到的參數(shù)估計(jì)結(jié)果有偏[1]??梢?,調(diào)查數(shù)據(jù)的質(zhì)量和缺失數(shù)據(jù)處理方法的選擇影響總體參數(shù)估計(jì)結(jié)果的無偏性和有效性,如何通過調(diào)查設(shè)計(jì)、數(shù)據(jù)收集過程控制和缺失數(shù)據(jù)統(tǒng)計(jì)處理預(yù)防和降低缺失數(shù)據(jù)的負(fù)面影響,是一個(gè)研究的熱點(diǎn)和難點(diǎn)。
國(guó)內(nèi)現(xiàn)有的關(guān)于各種大型縱向抽樣調(diào)查設(shè)計(jì)、開展和數(shù)據(jù)分析的指導(dǎo)手冊(cè)很少有專門的關(guān)于如何處理缺失數(shù)據(jù)的內(nèi)容。葉素靜等[2]對(duì)1980—2013年間92篇關(guān)于心理健康縱向調(diào)查的文章進(jìn)行了統(tǒng)計(jì),其中有59篇報(bào)道了數(shù)據(jù)有缺失,但只有39篇報(bào)告了缺失數(shù)據(jù)的處理方法且全部采用的是直接刪除法。本人曾參與了美國(guó)威斯康星大學(xué)關(guān)于威斯康星州成年人健康狀況的縱向調(diào)查(Wiscon-sin Family Health Survey(WFHS)),該調(diào)查有嚴(yán)格的數(shù)據(jù)質(zhì)量控制標(biāo)準(zhǔn),對(duì)缺失數(shù)據(jù)采用多重插補(bǔ)法進(jìn)行處理,經(jīng)事后檢驗(yàn),從參數(shù)估計(jì)結(jié)果無偏性和有效性兩方面看,多重插補(bǔ)法比直接刪除法效果好。
本文從缺失數(shù)據(jù)的事前預(yù)防和事后處理兩個(gè)方面研究和總結(jié)了一些適用于縱向抽樣調(diào)查數(shù)據(jù)缺失的預(yù)防和處理方法,重點(diǎn)研究事后處理方法。若縱向抽樣調(diào)查數(shù)據(jù)缺失機(jī)制為隨機(jī)缺失,可采用插補(bǔ)法或加權(quán)法,目的是對(duì)缺失數(shù)據(jù)集進(jìn)行調(diào)整以進(jìn)一步分析,加權(quán)法常用于沒有從受訪者處獲得任何信息的單元缺失情形,插補(bǔ)法常用于受訪者只提供了調(diào)查問卷中部分信息的項(xiàng)目缺失情形,多重插補(bǔ)法因其在估計(jì)結(jié)果無偏性和有效性方面的良好表現(xiàn),得到越來越廣泛的應(yīng)用。若縱向抽樣調(diào)查數(shù)據(jù)缺失機(jī)制為非隨機(jī)缺失,加權(quán)法和插補(bǔ)法將不可用,近年來,研究者提出似然建模方法,即用選擇模型法、模式混合模型法和共享參數(shù)模型法,通過建立似然函數(shù),用極大似然法進(jìn)行參數(shù)估計(jì),該方法因其廣泛適用性越來越受到重視[3-5]。
本文首先闡述設(shè)計(jì)階段和數(shù)據(jù)收集階段對(duì)缺失數(shù)據(jù)進(jìn)行事前預(yù)防的方法,然后在隨機(jī)缺失機(jī)制下,研究插補(bǔ)法和似然法兩種處理縱向缺失數(shù)據(jù)的方法,最后在非隨機(jī)缺失機(jī)制下,研究用似然法進(jìn)行總體參數(shù)估計(jì)的方法。本文中定義缺失數(shù)據(jù)指數(shù)據(jù)本身是客觀存在的且對(duì)總體參數(shù)估計(jì)有意義,但由于種種原因(如地址變化、問題敏感等)沒有收集到的數(shù)據(jù)。
對(duì)缺失數(shù)據(jù)的處理有兩種方式:事前預(yù)防和事后處理。事后處理只能盡量降低缺失數(shù)據(jù)帶來的不利影響,沒有一種事后統(tǒng)計(jì)處理方法能夠在相關(guān)數(shù)據(jù)缺失時(shí)對(duì)調(diào)查的目標(biāo)參數(shù)進(jìn)行無偏可靠估計(jì),所以,對(duì)于縱向抽樣調(diào)查,事前預(yù)防(即在調(diào)查的設(shè)計(jì)階段和數(shù)據(jù)收集階段采取控制措施盡量降低無回答率)是最有效的方法。
本文認(rèn)為可以采取以下幾項(xiàng)措施:
(1)注重調(diào)查問卷的設(shè)計(jì)質(zhì)量。問卷不宜過長(zhǎng),問卷項(xiàng)目應(yīng)與調(diào)查目的緊密相關(guān),問卷的設(shè)計(jì)盡量增加趣味性,盡量避免涉及個(gè)人隱私等敏感性問題,如實(shí)在無法避免,則采用沃納隨機(jī)化回答模型或西蒙斯模型[6]等隨機(jī)化應(yīng)答技術(shù),消除被調(diào)查者的防衛(wèi)心理,避免被調(diào)查者在沒有任何保護(hù)的情況下直接應(yīng)答敏感性問題。
(2)重視調(diào)查員和數(shù)據(jù)管理員的培訓(xùn),選用工作認(rèn)真、責(zé)任心強(qiáng)的工作人員。通過宣傳,強(qiáng)調(diào)調(diào)查的意義,提高群眾的參與意識(shí),并對(duì)積極參與調(diào)查的受訪者給予適當(dāng)獎(jiǎng)勵(lì)。
(3)對(duì)第一輪調(diào)查中出現(xiàn)缺失數(shù)據(jù)的受訪者進(jìn)行追訪調(diào)查,以盡可能減少缺失數(shù)據(jù)的出現(xiàn),特別是在缺失機(jī)制為不可忽略缺失的情形下,回答者與未回答者的調(diào)查數(shù)據(jù)分布有較大差異,此時(shí)進(jìn)行追訪調(diào)查很有必要。
(4)完善抽樣框信息,收集受訪者的多種聯(lián)系方式(電話、住址、郵箱等),防止因地址變更等原因?qū)е聼o法聯(lián)系受訪者的問題出現(xiàn),跟蹤抽樣框中受訪者聯(lián)系方式的變化,保證每位受訪者不至于在縱向調(diào)查過程中失聯(lián)。威斯康星縱向調(diào)查項(xiàng)目(WLS)就在威斯康星州政府和美國(guó)勞動(dòng)統(tǒng)計(jì)局的配合下,投入了大量人力財(cái)力用于維護(hù)抽樣框信息,從而能夠在整個(gè)縱向調(diào)查過程中聯(lián)系到每一位受訪者。
事前預(yù)防措施只能減少調(diào)查數(shù)據(jù)的缺失比例,但不能完全消除缺失數(shù)據(jù),需要對(duì)調(diào)查收集到的含缺失數(shù)據(jù)集采用統(tǒng)計(jì)方法進(jìn)行處理。根據(jù)數(shù)據(jù)缺失是否與缺失數(shù)據(jù)的具體值有關(guān),將數(shù)據(jù)缺失機(jī)制分為隨機(jī)缺失和非隨機(jī)缺失,需要首先明確數(shù)據(jù)的缺失機(jī)制,然后基于此選擇合適的處理方法。
隨機(jī)缺失(MAR)指變量值缺失的概率只與已經(jīng)觀測(cè)到的變量值有關(guān),與變量的缺失值無關(guān)。對(duì)含缺失縱向抽樣調(diào)查數(shù)據(jù)集,在隨機(jī)缺失機(jī)制下,常采用插補(bǔ)法或EM算法處理缺失數(shù)據(jù)。插補(bǔ)法利用已有信息推斷缺失數(shù)據(jù)的替代值,然后基于插補(bǔ)后的完整數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)推斷,用于尋找參數(shù)極大似然估計(jì)的統(tǒng)計(jì)迭代算法——EM算法也常被用于含缺失縱向抽樣調(diào)查數(shù)據(jù)集的參數(shù)估計(jì)。
對(duì)n個(gè)受訪者在T個(gè)調(diào)查時(shí)點(diǎn)進(jìn)行縱向調(diào)查,假設(shè)對(duì)各受訪者的調(diào)查是獨(dú)立進(jìn)行的,其中第i個(gè)受訪者的目標(biāo)變量向量為Yi=(yi1,...,yiT),若yij數(shù)據(jù)缺失,則記aij=0 ,否則aij=1,對(duì)第i個(gè)受訪者,可構(gòu)造指示各時(shí)點(diǎn)調(diào)查數(shù)據(jù)是否缺失的向量ai=(ai1,...,aiT),設(shè)Yio,Yim分別表示Yi中有觀測(cè)值的部分和數(shù)據(jù)缺失的部分。若ai的分布函數(shù)有以下等式關(guān)系:L(ai|Yi,Xi,θ)=L(ai|Yio,Xi,θ),則數(shù)據(jù)缺失機(jī)制為隨機(jī)缺失,其中Xi為與Yi有關(guān)的自變量。
縱向調(diào)查中,若目標(biāo)變量Y在時(shí)點(diǎn)t數(shù)據(jù)缺失與否只依賴于Y的前期值,且數(shù)據(jù)的缺失模式為單調(diào)缺失(即受訪者在某時(shí)刻退出調(diào)查,此后再未返回),此時(shí)數(shù)據(jù)缺失機(jī)制為MAR,例如,患者經(jīng)檢查如果指標(biāo)恢復(fù)正常,可以出院,此后患者的檢查數(shù)據(jù)將缺失,這種情況下數(shù)據(jù)缺失與否就完全取決于觀測(cè)到的數(shù)據(jù),而與缺失數(shù)據(jù)的具體值無關(guān)。MAR又稱可忽略缺失,此時(shí)可以忽略缺失機(jī)制,僅利用觀測(cè)值對(duì)目標(biāo)參數(shù)進(jìn)行估計(jì)。
插補(bǔ)法主要適用于調(diào)查數(shù)據(jù)中項(xiàng)目缺失的情形,插補(bǔ)并不會(huì)提高參數(shù)估計(jì)的精度,但如果插補(bǔ)方法使用得當(dāng),可以減小由于數(shù)據(jù)缺失帶來的參數(shù)估計(jì)精度損失。所謂插補(bǔ),就是基于已有數(shù)據(jù)信息,為每一個(gè)缺失數(shù)據(jù)計(jì)算一個(gè)或多個(gè)替代值,從而得到完整數(shù)據(jù)集,然后使用針對(duì)完整數(shù)據(jù)集的方法進(jìn)行統(tǒng)計(jì)推斷。為每個(gè)缺失數(shù)據(jù)計(jì)算一個(gè)替代值的方法稱為單一插補(bǔ)法,單一插補(bǔ)法的基本思想是以觀測(cè)數(shù)據(jù)為基礎(chǔ),為待插補(bǔ)變量構(gòu)造一個(gè)預(yù)測(cè)分布,如果該分布合理,則插補(bǔ)后的數(shù)據(jù)集能夠較好反映數(shù)據(jù)集的真實(shí)情況。單一插補(bǔ)法包括均值插補(bǔ)、回歸插補(bǔ)、最近距離插補(bǔ)等方法。
對(duì)縱向調(diào)查中的缺失數(shù)據(jù)采用均值插補(bǔ)法,即利用在某時(shí)點(diǎn)有觀測(cè)值的樣本目標(biāo)變量的均值作為目標(biāo)變量數(shù)據(jù)缺失樣本的缺失數(shù)據(jù)替代值。這是最簡(jiǎn)便的缺失數(shù)據(jù)插補(bǔ)方法。
回歸插補(bǔ)法類似于抽樣調(diào)查中的回歸估計(jì),利用目標(biāo)變量Y和自變量X之間的關(guān)系,構(gòu)造回歸模型,并基于觀測(cè)數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行估計(jì),然后利用已有的自變量信息,計(jì)算缺失的目標(biāo)變量值的替代值。
最近距離插補(bǔ)法通過定義測(cè)量受訪者調(diào)查變量間“距離”的函數(shù),根據(jù)受訪者在自變量上的接近程度選擇為數(shù)據(jù)缺失的受訪者提供插補(bǔ)值的受訪者,即在與含缺失值受訪者臨近的數(shù)據(jù)完全受訪者中,選擇與其“距離”最近(自變量取值最相似)的受訪者所對(duì)應(yīng)的目標(biāo)變量值作為缺失數(shù)據(jù)替代值。
最近鄰插補(bǔ)法與回歸插補(bǔ)法要求目標(biāo)變量與自變量之間相關(guān)性強(qiáng),對(duì)自變量數(shù)據(jù)質(zhì)量要求較高。在隨機(jī)缺失機(jī)制下,采用單一插補(bǔ)法操作簡(jiǎn)便,基于插補(bǔ)后的完整數(shù)據(jù)集進(jìn)行參數(shù)估計(jì),可以在一定程度上降低估計(jì)偏倚,但該方法未考慮缺失數(shù)據(jù)的不確定性,會(huì)導(dǎo)致參數(shù)估計(jì)量方差被低估,多重插補(bǔ)法是解決此問題的有效方法。
多重插補(bǔ)法是由Rubin在1978年首先提出并在專著中對(duì)其理論及應(yīng)用進(jìn)行了全面介紹[6],多重插補(bǔ)法適用于數(shù)據(jù)缺失機(jī)制是隨機(jī)缺失的情形。分插補(bǔ)步、分析步和合并步三步進(jìn)行:
(1)插補(bǔ)步。對(duì)于縱向調(diào)查中的目標(biāo)變量缺失數(shù)據(jù)Ym,從給定目標(biāo)變量觀測(cè)數(shù)據(jù)Yo和自變量數(shù)據(jù)X的條件下的預(yù)測(cè)分布P(Ym|Yo,X)中重復(fù)抽取D個(gè)插補(bǔ)值,D一般不少于5,每次抽樣都是基于一組獨(dú)立抽取的分布參數(shù)進(jìn)行。
具體的,首先從給定觀測(cè)值條件下參數(shù)的后驗(yàn)分布P(γ|Yo,X)中抽取一組參數(shù)值γ*,將其代入P(Ym|Yo,X)中,從中抽取一組插補(bǔ)值,使得~P(Ym|Yo,X,γ*)。重復(fù)進(jìn)行D次以上過程,得到D個(gè)插補(bǔ)值,從而構(gòu)造D組“完整”數(shù)據(jù)集,基于此進(jìn)行下面的分析步和合并步。
(2)分析步。對(duì)插補(bǔ)后的D個(gè)數(shù)據(jù)集用針對(duì)完整數(shù)據(jù)集的標(biāo)準(zhǔn)方法進(jìn)行參數(shù)估計(jì),得到D個(gè)參數(shù)估計(jì)值,d=1,…,D。
(3)合并步。綜合分析步所得D組參數(shù)估計(jì)結(jié)果,得到參數(shù)估計(jì)量及其方差。具體的,將分析步所得D個(gè)參數(shù)估計(jì)結(jié)果采用Rubin規(guī)則[6]進(jìn)行綜合,得到參數(shù)估計(jì)值為分析步所得D個(gè)估計(jì)結(jié)果的均值,即:
對(duì)于參數(shù)估計(jì)量的方差,首先計(jì)算D個(gè)基于“完整”數(shù)據(jù)集的參數(shù)估計(jì)量的方差估計(jì)結(jié)果,其均值記為進(jìn)而計(jì)算,則的方差估計(jì)結(jié)果為:
統(tǒng)計(jì)軟件R中有針對(duì)多重插補(bǔ)法開發(fā)的mice包[7],具體操作時(shí),將含缺失縱向調(diào)查數(shù)據(jù)輸入R,采用mice生成插補(bǔ)后的多個(gè)完整數(shù)據(jù)集(默認(rèn)為5個(gè)),Graham等(2007)[8]的研究表明,插補(bǔ)數(shù)據(jù)集個(gè)數(shù)D隨著缺失數(shù)據(jù)占比的增大應(yīng)相應(yīng)增加。
EM算法是一種有效的針對(duì)含缺失縱向調(diào)查數(shù)據(jù)集的參數(shù)估計(jì)方法,通過迭代計(jì)算,可以得到參數(shù)的極大似然估計(jì)。其基本思想是基于n個(gè)獨(dú)立觀測(cè)受訪者的目標(biāo)變量缺失數(shù)據(jù)集Ym=(Y1m,...,Ynm)與待估參數(shù)γ之間相互關(guān)系(Ym中含有與待估參數(shù)γ有關(guān)的信息),求γ的極大似然估計(jì),通過分布參數(shù)γ,Ym的分布可以寫出,進(jìn)而能夠求得Ym的合理替代值。EM算法首先設(shè)定參數(shù)的迭代初值γ(0),每一步迭代包括E步和M步。
E(Expectation)步:
設(shè)第k步迭代開始時(shí)分布參數(shù)為γ(k),由式(3)計(jì)算對(duì)數(shù)似然函數(shù)對(duì)Ym的條件期望:
其中f(Yim|Yio,γ(k))為已知Yio和當(dāng)前參數(shù)γ(k)時(shí),Yim的后驗(yàn)分布密度。
M(maximization)步:
EM算法每次迭代都會(huì)使似然函數(shù)值增加,Rubin和Little[9]指出,似然函數(shù)有界,序列將收斂到一個(gè)穩(wěn)定值,這個(gè)穩(wěn)定值就是γ的極大似然估計(jì)值。
以上介紹了幾種隨機(jī)缺失機(jī)制下縱向缺失數(shù)據(jù)的處理方法。Newman[10]通過模擬產(chǎn)生不同缺失率的縱向調(diào)查數(shù)據(jù),比較了直接刪除法、回歸插補(bǔ)法、多重插補(bǔ)法和EM算法在隨機(jī)缺失機(jī)制下參數(shù)估計(jì)的效果,發(fā)現(xiàn)多重插補(bǔ)法和EM算法能得到更準(zhǔn)確的參數(shù)估計(jì)結(jié)果,多重插補(bǔ)法求得的參數(shù)估計(jì)標(biāo)準(zhǔn)誤差更合理。雖然相比EM算法和其他單一插補(bǔ)方法,多重插補(bǔ)法耗時(shí)較長(zhǎng),計(jì)算過程更復(fù)雜,但借助計(jì)算機(jī)軟件,多重插補(bǔ)法相對(duì)其他方法更有優(yōu)勢(shì)。
與MAR相對(duì)的是非隨機(jī)缺失機(jī)制(NMAR),指目標(biāo)變量Y是否缺失與Y的具體值有關(guān),不管其是否被觀測(cè)到。例如,居民收入調(diào)查中,收入越高,出于保護(hù)隱私考慮,受訪者回答的傾向越低,此時(shí)的數(shù)據(jù)缺失機(jī)制即NMAR。沿用上文的符號(hào),NMAR 下,有L(ai|Yi,Xi,θ)≠L(ai|Yio,Xi,θ)。對(duì)于NMAR,在參數(shù)估計(jì)時(shí)必須考慮數(shù)據(jù)的缺失機(jī)制,此時(shí)插補(bǔ)法將不可用,需要對(duì)(Yi,ai)的聯(lián)合分布建模,根據(jù)聯(lián)合分布f(Yi,ai|Xi,γ,η)的不同分解方式,Little(1993)[11]將 (Yi,ai)的聯(lián)合分布模型分為選擇模型和模式混合模型。
選擇模型將Yi和ai的聯(lián)合分布分解為Yi的邊緣分布(設(shè)分布參數(shù)為γ)和ai在給定Yi時(shí)的條件分布(分布參數(shù)為η),模型中引入與目標(biāo)變量Yi有關(guān)的協(xié)變量Xi,并假設(shè)Xi數(shù)據(jù)無缺失,模型如下:
在用選擇模型處理縱向抽樣調(diào)查中的缺失數(shù)據(jù)時(shí),首先要構(gòu)建Yi=(Yio,Yim)的統(tǒng)計(jì)模型,對(duì)縱向數(shù)據(jù)中常采用潛變量增長(zhǎng)模型。
該模型要求對(duì)縱向數(shù)據(jù)的缺失機(jī)制fa|Y(ai|Yi,Xi,η)建模,以反映樣本在每個(gè)觀測(cè)點(diǎn)數(shù)據(jù)缺失的概率,常用的回歸模型包括Logistic模型和Probit模型。Wu和Carroll(1988)[12]提出共享參數(shù)模型(Shared parameter model),可以視為一種特殊的選擇模型,其利用個(gè)體增長(zhǎng)曲線的斜率和截距間接估計(jì)缺失指示變量ai的分布。
選擇模型(4)能夠直觀地將Yi和ai的聯(lián)合分布分解為Yi的邊緣分布和Yi的數(shù)據(jù)缺失機(jī)制,其中fY(Yi|Xi,γ)的參數(shù)γ是目標(biāo)變量的總體分布參數(shù),一般是我們感興趣的參數(shù)。選擇模型不用像模式混合模型一樣先估計(jì)子總體參數(shù)再求加權(quán)平均得到總體參數(shù)估計(jì)。但不可忽略缺失機(jī)制下,必須考慮目標(biāo)變量的缺失機(jī)制,由于ai=0對(duì)應(yīng)的是缺失數(shù)據(jù)Ymis,i,而且沒有Ymis,i的信息,從而造成模型不可識(shí)別。此時(shí)需要加入一些分布假設(shè),如對(duì)縱向調(diào)查目標(biāo)向量Yi的分布采用混合效應(yīng)模型建立回歸模型,加入隨機(jī)效應(yīng)項(xiàng),假定Yi個(gè)體增長(zhǎng)曲線的斜率和截距服從正態(tài)分布。Enders在2011—2013年[5,13,14]的幾篇論文中對(duì)用選擇模型處理NMAR缺失機(jī)制下縱向缺失數(shù)據(jù)的方法進(jìn)行了研究。
模式混合模型將Yi和ai的聯(lián)合分布分解為ai的邊緣分布(設(shè)分布參數(shù)為δ)和Yi在給定ai時(shí)的條件分布(分布參數(shù)為ν),模型如下:
參數(shù)估計(jì)的思想是首先構(gòu)造缺失模式,在縱向調(diào)查中,單調(diào)缺失模式下,缺失模式一般按刪失時(shí)刻劃分,缺失模式類數(shù)與調(diào)查時(shí)點(diǎn)數(shù)相同。然后在每個(gè)模式內(nèi)擬合目標(biāo)變量分布模型,得到各缺失模式下子模型的參數(shù)估計(jì)值,其中i=1,…,r,r為缺失模式類數(shù),進(jìn)而將各缺失模式下的參數(shù)估計(jì)結(jié)果整合,假設(shè)第i個(gè)缺失模式下的樣本占比為 πi,fY(Yi|Xi,γ)為目標(biāo)變量Yi的總體分布,則總體參數(shù)估計(jì)值?是r個(gè)子模型下目標(biāo)變量分布參數(shù)估計(jì)值的加權(quán)平均
模式混合模型可以將調(diào)查總體按照缺失模式分為若干組,認(rèn)為各組內(nèi)的樣本分布相似。這樣做的好處有兩點(diǎn):第一,由于存在缺失數(shù)據(jù),對(duì)總體分布直接進(jìn)行參數(shù)估計(jì)比較困難,按照缺失模式分組后對(duì)各組分別進(jìn)行參數(shù)估計(jì)相對(duì)容易,將各組參數(shù)估計(jì)結(jié)果利用缺失模式的邊緣分布作為權(quán)重加權(quán)可得總體參數(shù)估計(jì);第二,不同缺失模式下子總體目標(biāo)變量Yi的分布往往存在系統(tǒng)性的差異,我們有時(shí)更關(guān)心子總體的分布參數(shù),或者希望在估計(jì)總體參數(shù)的同時(shí)也能估計(jì)子總體參數(shù)。例如Yij為第i個(gè)受訪者在第j個(gè)調(diào)查時(shí)刻的生活質(zhì)量指標(biāo),aij為其缺失指示變量,aij=1表示受訪者在第j個(gè)調(diào)查時(shí)點(diǎn)仍存活,否則aij=0,相對(duì)于Yij的邊緣分布,我們顯然更關(guān)心存活者生活質(zhì)量指標(biāo)即aij=1條件下Yij的分布,這時(shí)模式混合模型就派上了用場(chǎng)。
當(dāng)缺失機(jī)制為NMAR時(shí),選擇模型需要對(duì)給定目標(biāo)變量值時(shí)缺失指示向量的條件分布建模,由于沒有目標(biāo)變量缺失值的信息,需要做一些主觀假設(shè)。而模式混合模型避免了對(duì)數(shù)據(jù)缺失機(jī)制建模。
但當(dāng)調(diào)查時(shí)點(diǎn)數(shù)較多時(shí),缺失模式會(huì)很多,導(dǎo)致某些模式下的樣本量過少,不足以獲得子模型下參數(shù)的可靠估計(jì),因此Roy(2003)[15]提出用潛在類別變量代替?zhèn)鹘y(tǒng)的按刪失時(shí)刻分組的方法,用這種潛在模式混合模型不僅可以減少缺失模式類數(shù),還可以捕捉樣本的本質(zhì)差別進(jìn)行分類。如何尋找潛變量進(jìn)行模式劃分,這方面的研究很有必要。
縱向抽樣調(diào)查也稱追蹤調(diào)查,在一段時(shí)間內(nèi)的不同時(shí)點(diǎn)對(duì)同一批受訪者進(jìn)行重復(fù)調(diào)查,從而觀察到事物比較完整的發(fā)展過程和關(guān)鍵節(jié)點(diǎn)。由于受訪者中途退出等原因,縱向抽樣調(diào)查中數(shù)據(jù)缺失的現(xiàn)象時(shí)有發(fā)生,目前針對(duì)這種情況,常采用的方法是直接刪除法或均值插補(bǔ)法。直接刪除法只對(duì)數(shù)據(jù)完整的樣本進(jìn)行分析,這樣勢(shì)必造成大量的信息浪費(fèi),而均值插補(bǔ)法沒有考慮缺失數(shù)據(jù)的不確定性,導(dǎo)致參數(shù)估計(jì)效率降低。本文對(duì)現(xiàn)有的縱向調(diào)查中缺失數(shù)據(jù)的處理方法進(jìn)行了歸納評(píng)述,在不同的數(shù)據(jù)缺失機(jī)制下,給出了缺失數(shù)據(jù)處理方法的使用建議。經(jīng)研究,在隨機(jī)缺失機(jī)制下,多重插補(bǔ)法使用效果較好,EM算法也能得到較準(zhǔn)確的參數(shù)估計(jì)結(jié)果;在非隨機(jī)缺失機(jī)制下,可采用選擇模型法、模式混合模型法等似然建模方法進(jìn)行參數(shù)估計(jì)。
本文按數(shù)據(jù)缺失機(jī)制將缺失數(shù)據(jù)處理方法分為兩類,今后的研究還可以按數(shù)據(jù)缺失模式、數(shù)據(jù)缺失比例等進(jìn)行分類,研究各種情形下的缺失數(shù)據(jù)處理方法。在實(shí)際的操作工作中,缺失數(shù)據(jù)的處理不容忽視,在項(xiàng)目研究方案設(shè)計(jì)和總結(jié)報(bào)告中應(yīng)當(dāng)明確說明缺失數(shù)據(jù)的事前預(yù)防和事后處理方法,這樣給出的分析結(jié)果才更加可信。