龐新生
(北京林業(yè)大學(xué)經(jīng)管院,北京 100083)
缺失數(shù)據(jù)插補(bǔ)處理方法的比較研究
龐新生
(北京林業(yè)大學(xué)經(jīng)管院,北京 100083)
文章將抽樣調(diào)查中由于項(xiàng)目無回答所形成的缺失數(shù)據(jù)作為研究著眼點(diǎn),從矩陣運(yùn)算的角度分析了此類缺失數(shù)據(jù)帶來的危害,在此基礎(chǔ)上,對缺失數(shù)據(jù)插補(bǔ)處理方法的基本問題進(jìn)行了討論,分析了各種單一插補(bǔ)方法特點(diǎn)及局限性,并介紹了簡單隨機(jī)抽樣、分層隨機(jī)抽樣條件下缺失數(shù)據(jù)多重插補(bǔ)的抽樣推斷方法,在此基礎(chǔ)上,對常用的單一插補(bǔ)和多重插補(bǔ)方法進(jìn)行了比較,并對簡單隨機(jī)抽樣、分層隨機(jī)抽樣條件下缺失數(shù)據(jù)單一插補(bǔ)與多重插補(bǔ)方法的效率進(jìn)行了實(shí)證研究與比較。
缺失數(shù)據(jù);單一插補(bǔ);多重插補(bǔ);分層隨機(jī)抽樣;簡單隨機(jī)抽樣
缺失數(shù)據(jù)是數(shù)據(jù)分析中無法回避的難題之一,由于缺失數(shù)據(jù)涉及范圍很廣泛,給出一個(gè)明確的界定是很困難的,但從來源看,既包括實(shí)驗(yàn)中的缺失數(shù)據(jù),也包括調(diào)查中的缺失數(shù)據(jù);從性質(zhì)看,既包含沒有搜集到的數(shù)據(jù),也包括搜集后遺失(或剔除)的數(shù)據(jù)。具體到抽樣調(diào)查中,既包括由于無回答所造成的缺失數(shù)據(jù),而且也包括由于回答錯(cuò)誤、填報(bào)錯(cuò)誤和匯總錯(cuò)誤等原因所造成的,在數(shù)據(jù)處理中應(yīng)該加以調(diào)整或剔除的數(shù)據(jù)。本文主要討論抽樣調(diào)查中無回答形成缺失數(shù)據(jù),根據(jù)無回答產(chǎn)生形式不同可分為單位無回答和項(xiàng)目無回答,針對單位無回答主要采用加權(quán)法降低數(shù)據(jù)缺失帶來的危害,對于項(xiàng)目無回答通常采用插補(bǔ)法進(jìn)行處理,在國外相當(dāng)多的抽樣調(diào)查中,對缺失數(shù)據(jù)進(jìn)行插補(bǔ)處理是非常普遍的,該處理方法的意義在于比列表刪除浪費(fèi)更少的信息,而且當(dāng)缺失數(shù)據(jù)為非隨機(jī)缺失時(shí),替換缺失數(shù)據(jù)技術(shù)比列表刪除更穩(wěn)健,特別是當(dāng)數(shù)據(jù)收集者與數(shù)據(jù)分析者是不同的個(gè)體時(shí),插補(bǔ)法更具優(yōu)勢[1]。
列表刪除和成對刪除是傳統(tǒng)的缺失數(shù)據(jù)處理方法,列表刪除具體做法是:刪除觀測不完全的變量,針對所有回答項(xiàng)目,采用完全數(shù)據(jù)統(tǒng)計(jì)方法分析,這種方法簡便,易于實(shí)施,不存在編造的數(shù)據(jù),但當(dāng)缺失數(shù)據(jù)多的時(shí)候,采用列表刪除會放棄相當(dāng)數(shù)量的信息,特別是當(dāng)樣本量較小的時(shí)候,采用這種方法會使數(shù)據(jù)量變得更少,可能會導(dǎo)致估計(jì)效果變差,特別是當(dāng)缺失數(shù)據(jù)為非隨機(jī)缺失時(shí),估計(jì)效果會更差。成對刪除把目標(biāo)變量回答單位都包括進(jìn)來,這種方法使用了所有有效的變量值,它的缺點(diǎn)是根據(jù)缺失數(shù)據(jù)形式不同,各個(gè)變量的樣本基礎(chǔ)總是不斷變化,換句話說,每個(gè)變量所依據(jù)的樣本量可能是不同的?;诓逖a(bǔ)的缺失數(shù)據(jù)處理技術(shù)是用適當(dāng)?shù)墓烙?jì)補(bǔ)全缺失數(shù)據(jù),這樣就允許將標(biāo)準(zhǔn)完全數(shù)據(jù)分析方法用于分析插補(bǔ)后的數(shù)據(jù)集。無論是調(diào)查數(shù)據(jù)還是試驗(yàn)數(shù)據(jù),在統(tǒng)計(jì)處理過程都可以看作數(shù)據(jù)矩陣,如圖一所示,m×n維矩陣中x21、xm2均為缺失數(shù)據(jù),用·表示。由于矩陣中存在缺失數(shù)據(jù),無法進(jìn)行矩陣運(yùn)算。從矩陣運(yùn)算角度來看,列表刪除使得原先m×n維矩陣變?yōu)?m-2)×(n-2)維矩陣,存在信息損失。成對刪除使得原先m×n維矩陣中行向量間、列向量間的維數(shù)不一致,數(shù)學(xué)意義上的矩陣不復(fù)存在,只有采用插補(bǔ)法補(bǔ)全缺失數(shù)據(jù)后得到的矩陣與原矩陣相比,維數(shù)沒有發(fā)生變化,并且能夠?qū)崿F(xiàn)所有的矩陣運(yùn)算,從這個(gè)意義上來說,插補(bǔ)法要比傳統(tǒng)缺失數(shù)據(jù)處理方法更滿足統(tǒng)計(jì)分析的要求。
圖一 含有缺失值的數(shù)據(jù)矩陣
插補(bǔ)法為每個(gè)缺失值尋找一個(gè)或多個(gè)盡可能與其相似的插補(bǔ)值。一般的插補(bǔ)模型可以表示為:
單一插補(bǔ)是指采用一定方式,對每個(gè)由于無回答造成的缺失值只構(gòu)造一個(gè)合理的替代值,將其插補(bǔ)到原缺失數(shù)據(jù)的位置上,在替代缺失數(shù)據(jù)后就構(gòu)造出一個(gè)完整的數(shù)據(jù)集,對新合成的數(shù)據(jù)可進(jìn)行相應(yīng)的統(tǒng)計(jì)分析。根據(jù)獲取插補(bǔ)值的原理不同,單一插補(bǔ)主要包括均值插補(bǔ)、隨機(jī)插補(bǔ)、熱卡插補(bǔ)、冷卡插補(bǔ)和演繹插補(bǔ)。
1.1.1 均值插補(bǔ)
均值插補(bǔ)包括無條件均值插補(bǔ)與條件均值插補(bǔ),無條件均值插補(bǔ)是用所有回答單元的均值來代替缺失值。在MCAR的假定下,總體均值的估計(jì)量是無偏估計(jì)。由于插補(bǔ)值是來自分布中心的數(shù)值,扭曲了變量的經(jīng)驗(yàn)分布,總體方差和協(xié)方差被低估了。因此,無條件均值插補(bǔ)適合進(jìn)行簡單描述的研究,而不適合較復(fù)雜的需要方差估計(jì)的分析。在無條件均值插補(bǔ)中,由于所有的缺失數(shù)據(jù)均用有回答單元的均值進(jìn)行插補(bǔ),得到的是過于集中的經(jīng)驗(yàn)分布。為了改善這種狀況,讓插補(bǔ)后的數(shù)據(jù)更好的反映總體的真實(shí)波動,從而得到更加準(zhǔn)確的方差估計(jì)量,提出了條件均值插補(bǔ)。條件均值插補(bǔ)主要包括分層均值插補(bǔ)、回歸插補(bǔ)和BUCK方法。分層均值插補(bǔ)在進(jìn)行插補(bǔ)之前,對變量Y按照數(shù)據(jù)中的某一個(gè)變量分層,然后在每一層中,用該層有記錄單元的均值插補(bǔ)該層的缺失值。在MAR的假定下,如果用于分層的變量和缺失機(jī)制中的輔助變量一致,對總體均值的估計(jì)是無偏的?;貧w插補(bǔ)是在單調(diào)缺失數(shù)據(jù)模式下,利用回歸的預(yù)測值代替缺失值。BUCK方法是將回歸插補(bǔ)推廣到更一般的無回答數(shù)據(jù)模式,該方法首先基于回答單元從樣本均值和協(xié)方差陣估計(jì)均值μ和協(xié)方差陣∑,然后使用這些估計(jì),對每一種無回答數(shù)據(jù)模式計(jì)算含有無回答的變量關(guān)于回答變量的最小二乘線性回歸,在此基礎(chǔ)上,用回歸預(yù)測值代替無回答值。在MCAR的假定下,可以通過回答的單元構(gòu)造出總體均值、總體方差的相合估計(jì),從而得到較好的回歸預(yù)測值以及較好的方差和協(xié)方差估計(jì)值。當(dāng)然,該方法也會對總體的方差和協(xié)方差產(chǎn)生低估,但是比起無條件均值插補(bǔ)還是有所改善。
1.1.2 隨機(jī)插補(bǔ)
除了條件均值插補(bǔ)這種改善分布過于集中的方法外,另外一類插補(bǔ)方法就是在插補(bǔ)值中增加隨機(jī)成分,就產(chǎn)生了相應(yīng)于均值的無條件隨機(jī)插補(bǔ)和條件隨機(jī)插補(bǔ)。在無條件隨機(jī)插補(bǔ)中,對于缺失數(shù)據(jù)不再是采用回答單元的均值進(jìn)行替代,而是在均值的基礎(chǔ)上加上隨機(jī)項(xiàng)。條件隨機(jī)插補(bǔ)同條件均值插補(bǔ)一樣可以分成兩類:分層隨機(jī)插補(bǔ)和隨機(jī)回歸插補(bǔ),這兩種方法都是在條件均值插補(bǔ)的基礎(chǔ)上增加隨機(jī)項(xiàng),而后者更是較為常見。在隨機(jī)回歸插補(bǔ)法中,插補(bǔ)值可以表示為:
1.1.3 熱卡插補(bǔ)
熱卡插補(bǔ)是從每一個(gè)缺失數(shù)據(jù)的估計(jì)分布抽取插補(bǔ)值替代缺失值,使用回答單元的抽樣分布作為抽取分布是最常見的方法。從回答單元中產(chǎn)生插補(bǔ)值所采用的抽樣方式?jīng)Q定了在熱卡插補(bǔ)下有關(guān)總體參數(shù)估計(jì)量的性質(zhì)。根據(jù)獲取插補(bǔ)值的方法不同,熱卡插補(bǔ)包括隨機(jī)抽樣熱卡插補(bǔ)、分層熱卡插補(bǔ)、最近距離熱卡插補(bǔ)和序貫熱卡插補(bǔ)。①隨機(jī)抽樣熱卡插補(bǔ)。在缺失機(jī)制是MCAR的情況下,采用該方法得到的插補(bǔ)結(jié)果的均值是總體均值的無偏估計(jì),但是會高估方差,并且這個(gè)高估的量是不可忽略的。為了改進(jìn)被高估的方差,可以采用無放回簡單隨機(jī)抽樣、限制對回答單元的使用次數(shù)、對回答單元進(jìn)行排序并進(jìn)行系統(tǒng)抽樣的方法等。
②分層熱卡插補(bǔ)。在上面提到的熱卡插補(bǔ)法中,不論是采用有放回還是無放回的簡單隨機(jī)抽樣,所利用的信息僅僅是變量Y自身的數(shù)據(jù),沒有借助調(diào)查中其他完全回答輔助信息,而分層熱卡插補(bǔ)則借助了輔助信息,同條件均值插補(bǔ)中一樣,首先按照某些輔助變量對變量Y進(jìn)行分層,然后對分層后的數(shù)據(jù)進(jìn)行上述各種熱卡插補(bǔ)。
③最近距離熱卡插補(bǔ)。利用輔助變量,定義一個(gè)測量單元間距離的函數(shù),在變量Y的無回答單元臨近的回答單元中,選擇滿足所設(shè)定的距離條件的輔助變量中的單元所對應(yīng)的變量Y的回答單元作為插補(bǔ)值。距離函數(shù)插補(bǔ)法將分層熱卡法中的輔助變量從品質(zhì)型數(shù)據(jù)擴(kuò)展到了數(shù)值型數(shù)據(jù),使得熱卡方法的應(yīng)用進(jìn)一步拓展。但是,和前面的幾種方法相比,該方法由于使用較為復(fù)雜的距離函數(shù),使得很難對在這種插補(bǔ)方法下得到的均值和方差等估計(jì)量的性質(zhì)進(jìn)行考察。
④序貫熱卡插補(bǔ)。該方法是在最近距離熱卡插補(bǔ)法的基礎(chǔ)上提出的。首先對數(shù)據(jù)進(jìn)行分層,在每層中按照選定的某一個(gè)輔助變量排序,并在其前后相鄰的10個(gè)數(shù)據(jù)中,找到使得設(shè)定的某一個(gè)距離函數(shù)的值達(dá)到最小的單元,那么該單元所對應(yīng)的變量Y的回答單元即插補(bǔ)值。這種方法通常要求用于構(gòu)建距離函數(shù)的變量和變量Y之間高度相關(guān)。一般情況下,也可以采用其他的變量,但是要求距離函數(shù)值的大小和通過該函數(shù)所確定的變量Y中的回答單元被選做插補(bǔ)值的次數(shù)成正比。
熱卡插補(bǔ)法是在實(shí)踐中最為常用,也是研究最為廣泛的一種單一插補(bǔ)方法。同均值插補(bǔ)和回歸插補(bǔ)相比較,熱卡插補(bǔ)法在保持變量的經(jīng)驗(yàn)分布方面有比較好的效果。但是,除了隨機(jī)抽樣熱卡法外,其他的方法都無法給出明確的均方誤差估計(jì)公式,這就使得無法對熱卡插補(bǔ)法的效果進(jìn)行理論上的探討。
1.1.4 冷卡插補(bǔ)
冷卡插補(bǔ)強(qiáng)調(diào)插補(bǔ)值是從以前的調(diào)查中或其他信息來源中獲得的,如歷史數(shù)據(jù)。有關(guān)這種方法的理論很少,而且與前面介紹的插補(bǔ)方法一樣,冷卡插補(bǔ)同樣不能保證消除估計(jì)偏差。冷卡插補(bǔ)法中有一種特別的插補(bǔ)方法,即完全匹配插補(bǔ)法。在這種插補(bǔ)法中,替代值和無回答值是相同的測度,但是替代值是來自該單元某些外部的記錄。通常的方法則是通過一些唯一確定無回答單元身份的變量,例如身份證號、汽車駕駛證號等,在已有的外部資料中尋找與無回答變量相匹配的值進(jìn)行插補(bǔ)。
1.1.5 演繹插補(bǔ)
演繹插補(bǔ)主要是通過輔助資料的演繹,找出插補(bǔ)值,也是一種使用輔助變量的插補(bǔ)法,簡單的用公式表示就是yi=f(xi)。該輔助資料可以來自本次調(diào)查,也可以來自其他的調(diào)查或資料。同前面的各種插補(bǔ)方法不同的是,在不考慮變量Y的任何計(jì)量誤差情況下,這種插補(bǔ)方法是完全確定性的;并且,這種方法的效率很大程度上取決于輔助資料的充分與否。
多重插補(bǔ)是單一插補(bǔ)的基礎(chǔ)上衍生來的,由Rubin在1977年首先提出,是指給每個(gè)缺失值都構(gòu)造一個(gè)以上的替代值,這樣就產(chǎn)生了若干個(gè)完全數(shù)據(jù)集,對每個(gè)完全數(shù)據(jù)集分別使用相同的方法處理,得到若干個(gè)處理結(jié)果,最后再綜合這些處理結(jié)果,最終得到目標(biāo)變量的估計(jì)。
通常討論插補(bǔ)方法時(shí),往往假定抽樣機(jī)制是可以忽略的,或者說,目前絕大多數(shù)討論主要集中在簡單隨機(jī)抽樣下的多重插補(bǔ),但在實(shí)際調(diào)查過程中,允許有多種抽樣方法,本文主要就簡單隨機(jī)抽樣、分層隨機(jī)抽樣條件下的插補(bǔ)方法做簡單地探討。由于多重插補(bǔ)處理缺失的過程較單一插補(bǔ)復(fù)雜,文中僅列出多重插補(bǔ)估計(jì)量及方差公式。
簡單隨機(jī)抽樣條件下,在對總體均值Yˉ進(jìn)行推斷時(shí),假設(shè)n個(gè)單位中僅有nobs個(gè)單位回答,采用多重插補(bǔ)處理無回答,n-nobs個(gè)缺失單位的每一個(gè)都有m個(gè)插補(bǔ)值,由此建立m套完整數(shù)據(jù)集及m個(gè)均值和方差l=1,…,m)。根據(jù)Rubin重復(fù)插補(bǔ)理論[1]可知總體均值Yˉ的多重插補(bǔ)估計(jì)是:
總體均值Yˉ的多重插補(bǔ)估計(jì)的方差為:
由于插補(bǔ)技術(shù)是一種非常重要的缺失數(shù)據(jù)處理方法,因此,在對各種插補(bǔ)方法進(jìn)行比較時(shí),需要注意幾個(gè)原則:第一,插補(bǔ)必須是建立在缺失數(shù)據(jù)的預(yù)測分布基礎(chǔ)之上;第二,在考慮插補(bǔ)時(shí),完全回答變量必須考慮在內(nèi);第三,插補(bǔ)必須基于需要插補(bǔ)變量的輔助信息;第四,超越數(shù)據(jù)取值過分的外推是要避免的;第五,為保持完全數(shù)據(jù)集的分布,插補(bǔ)值必須從預(yù)測分布中抽取;第六、必須提供一種把插補(bǔ)值考慮在內(nèi)的抽樣估計(jì)誤差計(jì)算方法。均值插補(bǔ)是唯一一種不滿足任何原則的方法,對于所有缺失數(shù)據(jù)采用唯一的插補(bǔ)值?;貧w插補(bǔ)和基于EM算法的多重插補(bǔ)滿足其中的兩個(gè)原則;隨機(jī)回歸插補(bǔ)和基于DA算法的多重插補(bǔ)滿足四條原則,在四原則的基礎(chǔ)上,隨機(jī)回歸插補(bǔ)和基于DA算法看起來最有發(fā)展前景,其次是回歸插補(bǔ)、基于EM算法的多重插補(bǔ),最差的是均值插補(bǔ),具體比較見表1。
表1 插補(bǔ)方法比較[5]
下面通過實(shí)際例子來說明簡單隨機(jī)抽樣條件下缺失數(shù)據(jù)插補(bǔ)處理方法之間效率。資料來源于一項(xiàng)關(guān)于某城市一周內(nèi)每個(gè)家庭收到廣告份數(shù)的抽樣調(diào)查(其中N=2000,n=20,Xˉ=25),如表2所示。通過分析,可以看出兩個(gè)變量之間存在較強(qiáng)的正相關(guān),即每周每個(gè)家庭收到的郵件總數(shù)越多,所收到的廣告份數(shù)也越多。如果廣告份數(shù)y為目標(biāo)變量,郵件總數(shù)x可作為輔助變量。將原有數(shù)據(jù)作為完整數(shù)據(jù)集,按照簡單隨機(jī)抽樣方式從中隨機(jī)抽取5個(gè)數(shù)據(jù)作為缺失數(shù)據(jù),見表2括號中的值為假定缺失值。
表2 某城市一周內(nèi)每個(gè)家庭收到廣告份數(shù)的抽樣調(diào)查
(1)采用多重插補(bǔ)處理缺失數(shù)據(jù)
根據(jù)Rubin和Schenker的研究顯示,在項(xiàng)目無回答率中等程度的情況下,對于研究變量,有2-3組替代值就可以滿足估計(jì)的需要。因此,可以根據(jù)最簡單的模型--最近距離法[2]為每個(gè)缺失數(shù)據(jù)插補(bǔ)三次(見表3),估計(jì)可以在此基礎(chǔ)上展開。
表3 插補(bǔ)后的數(shù)據(jù)集
如果采用比率估計(jì),對于第一個(gè)數(shù)據(jù)集數(shù)據(jù)而言,有
方差估計(jì)量的估計(jì)為
(2)采用單一插補(bǔ)處理缺失數(shù)據(jù)
為了方便,后續(xù)分析中僅就常用的單一插補(bǔ)方法---均值插補(bǔ)、均值插補(bǔ)進(jìn)行討論。
①均值插補(bǔ)。目標(biāo)變量中的缺失數(shù)據(jù)均使用完全數(shù)據(jù)集的均值進(jìn)行插補(bǔ),結(jié)果如表4所示。
采用比率估計(jì),有
②回歸插補(bǔ)。目標(biāo)變量中的缺失數(shù)據(jù)均使用根據(jù)完全數(shù)據(jù)集建立的回歸模型預(yù)測值進(jìn)行插補(bǔ),結(jié)果如表5所示。
采用比率估計(jì),有
估計(jì)量方差的估計(jì)為
表4 均值插補(bǔ)后的數(shù)據(jù)集
表5 存在缺失值的數(shù)據(jù)集
比較計(jì)算結(jié)果可以發(fā)現(xiàn),在簡單隨機(jī)抽樣條件下,當(dāng)數(shù)據(jù)缺失不嚴(yán)重時(shí),如果不考慮由于單一插補(bǔ)方法不同所導(dǎo)致偏差的差異,粗略地計(jì)算設(shè)計(jì)效應(yīng)(deff),可以發(fā)現(xiàn)回歸插補(bǔ)的效果要優(yōu)于均值插補(bǔ)。如果將完全數(shù)據(jù)估計(jì)結(jié)果作為真值,如果能充分利用輔助信息,回歸插補(bǔ)的結(jié)果并不比多重插補(bǔ)差,且多重插補(bǔ)計(jì)算較為繁瑣,但需要注意的是,無論是回歸插補(bǔ)還是均值插補(bǔ)都沒有體現(xiàn)缺失數(shù)據(jù)的不確定性,同時(shí)單一插補(bǔ)無法給出偏差的計(jì)量方法,因此不能直接根據(jù)設(shè)計(jì)效應(yīng)判斷優(yōu)劣。
下面通過實(shí)際例子來說明分層隨機(jī)抽樣條件下缺失數(shù)據(jù)插補(bǔ)處理方法之間效率。資料來源于一項(xiàng)關(guān)于居民購買彩票花費(fèi)的抽樣調(diào)查(N=844,n1=n2=n3=10,)[4]。將原有數(shù)據(jù)作為完整數(shù)據(jù)集,按照簡單隨機(jī)抽樣方式從每層中各抽取2個(gè)數(shù)據(jù)作為缺失數(shù)據(jù)(見表6),括號中為真值。
表6 存在缺失值的數(shù)據(jù)集
由表6可得表7中數(shù)據(jù),根據(jù)分層隨機(jī)抽樣一般原理可得到總體均值簡單估計(jì)。該小區(qū)居民戶購買彩票的平均支出估計(jì)為:
(1)采用多重插補(bǔ)處理缺失數(shù)據(jù)
表7 抽樣推斷中的過程數(shù)據(jù)
根據(jù)Rubin和Schenker的研究顯示,在項(xiàng)目無回答率中等程度情況下,對于研究變量,有2—3組替代值就可以滿足估計(jì)的需要。因此,可以根據(jù)最簡單的模型—最近距離法為每個(gè)缺失值插補(bǔ)2次(見表8),估計(jì)在此基礎(chǔ)上展開。
表8 插補(bǔ)后的數(shù)據(jù)集
表9 插補(bǔ)后的計(jì)算數(shù)據(jù)
將表9數(shù)據(jù)代入式(5)、(6),可得總體均值的估計(jì)為:
總體均值估計(jì)的方差估計(jì)為:
(2)采用單一插補(bǔ)處理缺失數(shù)據(jù)
考慮到易用性,采用單一插補(bǔ)方法處理缺失數(shù)據(jù)時(shí),本文主要運(yùn)用均值插補(bǔ)、熱卡插補(bǔ)構(gòu)造完全數(shù)據(jù)集。
①均值插補(bǔ)。采用目標(biāo)變量每層內(nèi)完全數(shù)據(jù)的均值補(bǔ)全缺失值(見表10),估計(jì)在此基礎(chǔ)上展開。
表10 插補(bǔ)后的數(shù)據(jù)集
表11 抽樣推斷中的過程數(shù)據(jù)
因此,估計(jì)該小區(qū)居民戶購買彩票的平均支出為:
②熱卡插補(bǔ)。采用現(xiàn)有調(diào)查數(shù)據(jù)補(bǔ)全缺失值(見表12),估計(jì)在此基礎(chǔ)上展開。
表12 插補(bǔ)后的數(shù)據(jù)集
表13 抽樣推斷中的過程數(shù)據(jù)
估計(jì)該小區(qū)居民戶購買彩票的平均支出為:
比較計(jì)算結(jié)果可以發(fā)現(xiàn),在分層隨機(jī)抽樣條件下,當(dāng)數(shù)據(jù)缺失不嚴(yán)重時(shí),如果不考慮由于單一插補(bǔ)方法不同所導(dǎo)致偏差的差異,粗略地計(jì)算設(shè)計(jì)效應(yīng)(deff),可以發(fā)現(xiàn)均值插補(bǔ)的效果要優(yōu)于熱卡插補(bǔ)。如果將完全數(shù)據(jù)估計(jì)結(jié)果作為真值,單一插補(bǔ)的結(jié)果并不比多重插補(bǔ)差,且多重插補(bǔ)計(jì)算較為繁瑣,但需要注意的是,無論是均值插補(bǔ)還是熱卡插補(bǔ)都無法體現(xiàn)缺失數(shù)據(jù)的不確定性,同時(shí)單一插補(bǔ)無法給出偏差的計(jì)量方法,因此不能直接根據(jù)設(shè)計(jì)效應(yīng)判斷優(yōu)劣。
通過實(shí)例比較可以看出,當(dāng)數(shù)據(jù)缺失不嚴(yán)重時(shí),無論是在簡單隨機(jī)抽樣還是在分層隨機(jī)抽樣情況下,單一插補(bǔ)并不比多重插補(bǔ)差,但多重插補(bǔ)彌補(bǔ)了單一插補(bǔ)法的缺陷,多重插補(bǔ)過程產(chǎn)生多個(gè)中間插補(bǔ)值,可以利用插補(bǔ)值之間的變異反映無回答的不確定性,同時(shí),多重插補(bǔ)能給出衡量估計(jì)結(jié)果不確定性的大量信息,單一插補(bǔ)給出的估計(jì)結(jié)果則較為簡單。與單一插補(bǔ)相比,多重插補(bǔ)唯一的缺點(diǎn)是需要做大量的工作來創(chuàng)建插補(bǔ)集并進(jìn)行結(jié)果分析,因?yàn)樗饕菆?zhí)行若干次相同的任務(wù),而非一次,然而數(shù)據(jù)分析中大量工作在今天的計(jì)算環(huán)境下是比較容易實(shí)現(xiàn)的。
[1][美]Donald.B.Rubin.Multiple Imputation For Nonresponse In Surveys[M],New York:John Wiley&Sons Inc.1987.
[2][美]Roderick J.A.Little,Donald B.Rubin.Statistical Analysis with Missing Data[M],New York:John Wiley&Sons Inc.2002.
[3]L.Kish著,倪加勛主譯.抽樣調(diào)查[M].北京:中國統(tǒng)計(jì)出版社,1997.
[4]金勇進(jìn)等編著.抽樣技術(shù)[M].北京:中國統(tǒng)計(jì)出版社,2008.
[5]龐新生.缺失數(shù)據(jù)處理方法的比較[J].統(tǒng)計(jì)與決策,2010,(24).
O212
A
1002-6487(2012)24-0018-05
教育部人文社會科學(xué)研究青年基金項(xiàng)目(09YJC910002);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助(RW2010-4)
龐新生(1970-),男,山西榆次人,博士,副教授,研究方向:抽樣技術(shù)和數(shù)據(jù)分析。
(責(zé)任編輯/易永生)