一、引言
對復雜樣本按照理論直接推導出方差估計一則十分困難,二則從節(jié)約費用和時間的角度考慮代價也很大。通常采用的替代方法主要有隨機組法、平衡半樣本方法、刀切法和自助法等。本文研究采用基于逆抽樣設計的方法對復雜樣本進行方差估計,并將該方法與傳統(tǒng)方法進行比較,探討其適用條件。
二、逆抽樣設計方法簡介
逆抽樣設計(Inverse Sampling Design,簡稱ISD方法)的思想由Hinkins等提出,Rao等研究了該方法的一些理論性質。該方法的基本思想是,通過選擇一個抽樣機制,對調查得到的復雜樣本進行二次抽樣。二次抽樣機制的設計抵消了初始復雜樣本中的分層、整群抽樣等效應,使得按照該抽樣機制抽選出來的子樣本具有簡單隨機樣本結構,后續(xù)分析基于這些具有簡單隨機樣本結構的子樣本進行。下圖為該方法的流程示意圖:
用數學符號來表示,假設進行某項調查,按照某種復雜抽樣設計從一有限總體中抽出了一個大小為n的初始樣本Sp,其中下標p(primary)表示初始樣本?,F希望從Sp中抽出一個大小為n'的子樣本s',使得s'被抽中的無條件概率p(s')和簡單隨機抽樣匹配,也即
由于抽取子樣本s'是一個兩步的過程,由全概率公式,有
其中,p(sp)為初始樣本sp被抽中的概率,為sp已被抽選出來的前提下,s'被抽中的條件概率。
如果不依賴于sp,則由(1)式,有
(2)式即為從初始樣本sp中選擇s'的抽樣機制。
逆抽樣設計方法包括了如下基本的三個步驟:
(1)逆掉初始樣本的復雜抽樣設計,使得能夠產生具有簡單隨機樣本結構的子樣本;
(2)重復執(zhí)行逆抽樣設計,以產生多個這樣的子樣本;
(3)基于每一個子樣本數據進行分析,最后再以適當的方式進行合并。
三、逆抽樣設計方法下的估計量構造
假設總體目標參數為θ,基于某復雜抽樣設計p(sp),調查得到一個復雜樣本sp。若存在對應于該復雜抽樣設計p(sp) 的逆抽樣設計,并將該逆抽樣設計獨立地重復執(zhí)行B次,得到了B個具有簡單隨機樣本結構的子樣本(=1,2,#8943;,B)。令和表示由第個子樣本得到的總體參數估計和該估計量的方差估計,則θ的估計可構造為
如果是θ的無偏估計,那么也同樣會是θ的無偏估計。
將基于初始復雜樣本Sp的總體參數θ的估計記為,則的方差估計可構造為:
由(4)式,如果無偏,則也是無偏的。
四、與傳統(tǒng)方法的比較研究
作為一種新的復雜樣本方差估計方法,與現有方法相比較有哪些特征?本文用一個基于實際調查數據的模擬,對這些問題進行分析。
(一)數據說明
模擬分析的數據取自2007中國公民科學素質調查,為全國數據。中國公民科學素質調查是通過全國性的抽樣調查,來了解分析我國18—69周歲的公民對科學的理解和對科學技術的態(tài)度等與公民科學素質相關問題的狀況。調查的核心指標是中國公民在科學術語、科學觀點、科學方法和科學與社會關系四個方面的具備比例和對應的得分。在對這四個方面的具備比例和對應的得分進行適當加權之后,得到一個總的科學素質具備比例和得分。調查的總樣本量是10080,通過對出現單元無回答的問卷進行刪除處理,最終得到的有效問卷共10059份。
以該數據集作為模擬總體,將各省份數據按照東、中、西部地區(qū)劃分成三層,東、中、西部的劃分情況如下:東部地區(qū)包括北京、天津、河北、遼寧、上海、江蘇、浙江、福建、山東、廣東、廣西、海南12個省、自治區(qū)、直轄市;中部地區(qū)包括山西、內蒙古、吉林、黑龍江、安徽、江西、河南、湖北、湖南9個省、自治區(qū);西部地區(qū)包括重慶、四川、貴州、云南、西藏、陜西、甘肅、寧夏、青海、新疆10個省、自治區(qū)。將這三層以按比例分配的方式從這個模擬總體中抽出5%的樣本。關注的指標有兩個,一個是總體均值,為科學素質指數的總平均得分,用來表示;另一個是總體比率,為科學方法項平均得分與總平均得分之比,用來表示,其中為科學素質指數科學方法項的平均得分。模擬總體的層結構及各層抽取的樣本量等信息如表1所示:
(二)抽樣方法的逆設計
由于采用分層抽樣從模擬總體中抽取了一個初始樣本,由逆抽樣設計方法的三個步驟,首先需要逆掉產生初始樣本的分層抽樣設計。
對于本例,
Nh和nh分別表示第h層中的總體和樣本單元數,h=1,2,3。我們的目的是要從sp中抽取一個大小為n'的子樣本s',使得,其中。顯然,n'不能大于min(nh),因為子樣本s'可能會全部來自于h層中的某一層。令n=(,,)T表示子樣本s'中各層的樣本單元數,其中0≤≤n',,則由(2)式,有:觀察(5)式背后的概率機制,得出所采用的分層抽樣方法的逆設計步驟如下:
(1)決定所要抽取的子樣本大小n',n'最大不能超過min(nh);
(2)從超幾何分布中產生3個隨機數{,,},其中++=n',且,,≥0;
(3)在第h層內,從nh個初始樣本中以不放回簡單隨機抽樣的方式抽出一個大小為的子樣本,各層之間的抽取相互獨立;
(4)合并從各層中抽得的子樣本。如此便從初始樣本sp中抽得了一個大小為n'、完全意義上的簡單隨機樣本,從而實現了初始抽樣的逆設計。
(三)對應的ISD估計量
設將上述分層抽樣的逆設計獨立地重復執(zhí)行了B次,得到了B個大小為n'的子樣本(=1,2,#8943;,B)。則總體均值的ISD估計為
的方差估計為
其中,和分別表示抽出的第個子樣本中X的均值和方差。
總體比率R的ISD估計為
的方差估計為
其中,和的定義如前所述,和分別表示第個子樣本中Y的均值和方差,則表示第個子樣本中X和Y的協(xié)方差。
(四)模擬比較
從四個方面將逆抽樣設計方法與傳統(tǒng)復雜樣本的方差估計方法進行對比:精度、靈活性、管理因素和泄密控制。對比的方法有:隨機組法(Random Group)、刀切法(Jackkinfe)和自助法(Bootstrap)。實際中泰勒級數法和平衡半樣本方法也有廣泛的應用,但泰勒級數法本身并不能單獨使用,需要結合其它方法;而平衡半樣本方法則最常用于分層的、每層抽兩個單元的設計,這與本文模擬分析所采用的抽樣設計并不一致,因而這里沒有將泰勒級數和平衡半樣本方法納入比較范圍。
1.精度
從模擬總體中抽出大小為503的樣本,基于此樣本,用不同方法對研究變量進行方差估計。為了更好地對不同方法的效果進行對比,盡量避免由于抽樣的隨機性造成的影響,進行100次獨立重復抽取,最后將結果進行平均。
對于逆抽樣設計方法,抽取的子樣本大小n'定為min(nh)=133,子樣本的抽取個數B定為1000;對于隨機組法和刀切法,需要進行隨機組的劃分,隨機組的個數定為20,每層中隨機組的大小分別為11、7和6;對于自助法,采用Rao和Wu給出的方法,從每層中有放回地抽取容量為nh-1的簡單隨機樣本,抽取次數和逆抽樣設計方法一樣,定為1000次。主要以偏倚作為精度的度量標準,表2列出了模擬分析的結果:
由表2中的結果,對于均值、比率的估計以及均值估計的方差估計,逆抽樣設計方法都取得了比較好的效果。對于比率估計的方差估計,四種方法中逆抽樣設計方法的偏倚最大。原因可能在于,消除比率估計的偏倚通常需要較大的樣本量,而采用逆抽樣設計方法,通常只能抽取相比初始樣本小得多的子樣本。
2.靈活性
靈活性可以從兩個方面來考察。從適用的估計量來看,逆抽樣設計方法和隨機組、自助法一樣,幾乎適用于任何估計量。刀切法則不適用于如分位數等的一些統(tǒng)計量。從適用的抽樣設計來看,逆抽樣設計方法有其局限性。原因在于,一方面,對于部分抽樣設計,精確的逆抽樣設計不存在,而只能采用近似的方法;另一方面,逆抽樣設計方法目前尚不適用于對數據進行了加權調整的情形。而其它三種方法則適用于幾乎任何抽樣設計,同時也適用于加權調整后的情形。
3.管理因素
管理因素主要體現在費用、時間和操作的簡便性等方面。隨機組和自助法的處理費用都相對較低,因為對這兩種方法都有現成的軟件可用,而刀切法和逆抽樣設計方法則需要編制相應的軟件程序。逆抽樣設計方法和自助法由于需要重復抽取子樣本,計算量較大,耗費的時間也比較長。以本次模擬分析為例,執(zhí)行隨機組法和刀切法所對應的計算機程序,所耗費的CPU時間不相上下,而逆抽樣設計方法和自助法所耗費的CPU時間則分別是隨機組法的11倍和32倍。從操作的簡便性來看,逆抽樣設計方法則優(yōu)于隨機組、刀切法和自助法。
4.泄密控制
采用逆抽樣設計方法則能有效地控制數據的歸屬泄密的問題。由(4)式,用逆抽樣設計的方法估計方差,不需要利用抽樣權重、層、群標識等信息,因而在一些涉及受訪者隱私數據的調查中,逆抽樣設計方法可能是一種行之有效的方差估計方法。
五、總結
對復雜樣本進行方差估計,通常采用的是隨機組、刀切法等方法,本文提出將逆抽樣設計方法應用于復雜樣本的方差估計。模擬分析的結果表明,ISD估計具有較好的收斂性,且對于線性總體參數的估計和方差估計,逆抽樣設計方法的效果都較為理想。
通過將逆抽樣設計方法與傳統(tǒng)方差估計方法進行多角度比較,本文也探討了該方法的適用條件。對比分析的結果表明,逆抽樣設計方法在靈活性、操作的簡便性和數據的泄密控制等方面特點突出,有其可取之處。實際中,可權衡精度、費用、靈活性等諸多因素,有針對性地設計抽樣調查方案,以便采用逆抽樣設計方法進行方差估計。
■ 參考文獻
1.Susan Hinkins, H. Lock Oh and Fritz Scheuren. Inverse Sampling Design Algorithms[J]. Survey Methodology, 1997, 23(1): 11-21.
2.J.N.K. Rao, A.J. Scott and E. Benhin. Undoing Complex Survey Data Structures: Some Theory and Applications of Inverse Sampling[J]. Survey Methodology, 2003, 29(2): 107-128.
3.J.N.K. Rao, C.F.J. Wu. Resampling Inference With Complex Survey Data[J]. Journal of the American Statistical Association, 1988, 83(401): 231-241.
4.倪加勛。調查概論[M]。北京:中國財政經濟出版社。2004:253-258。
5.Kirk M. Wolter著,王吉利、李毅譯。方差估計引論[M]。北京:中國統(tǒng)計出版社。1998:367-381。