閆在在,常 帥,郝曉彤,湯 榮
(內(nèi)蒙古工業(yè)大學(xué) 理學(xué)院,呼和浩特 010051)
抽樣調(diào)查是實(shí)踐中主要的數(shù)據(jù)收集工具,它的應(yīng)用領(lǐng)域,如官方統(tǒng)計(jì)、質(zhì)量控制、市場(chǎng)分析、資源統(tǒng)計(jì)等的基石。合適的抽樣設(shè)計(jì)是獲取高質(zhì)量調(diào)查結(jié)果的本質(zhì),它直接影響調(diào)查成本和調(diào)查精度。應(yīng)用中常使用不等概率抽樣設(shè)計(jì)包括放回地與單元大小成比例的PPS抽樣和不放回地與單元大小成比例的πPS抽樣,由于πPS抽樣設(shè)計(jì)不會(huì)出現(xiàn)重復(fù)的樣本單元,在實(shí)際中更受重視。如何構(gòu)造和實(shí)施πPS抽樣設(shè)計(jì)是一個(gè)公開(kāi)問(wèn)題[1-12]。Brewer,Early和Joyce(1972)[17]提出一種稱(chēng)為配置抽樣的嚴(yán)格πPS抽樣設(shè)計(jì),其樣本容量n也是隨機(jī)的,配置抽樣先給每個(gè)單元賦予一個(gè)預(yù)定的入樣概率pi,然后等概率地給總體單元配置一組序號(hào) (L1,L2,…,LN),它是 (1,2,…,N)的一個(gè)隨機(jī)排列。在[0,1]中抽取一個(gè)隨機(jī)數(shù)r,令ri=(Li+r-1)/N。若ri<pi,則i單元入樣,否則,該單元不入樣。對(duì)所有單元均按上述準(zhǔn)則確定其是否入樣,構(gòu)成一輪配置抽樣。
Brewer,Early,Joyce(1972)[13]和Brewer,Early,Hanif(1984)[14]建立了配置抽樣設(shè)計(jì)的基本理論,并與泊松抽樣比較說(shuō)明配置抽樣的優(yōu)良性,受條件泊松抽樣設(shè)計(jì)思想啟發(fā),本文提出通過(guò)不斷產(chǎn)生配置樣本,直到其樣本量實(shí)現(xiàn)預(yù)定容量n時(shí)樣本才被接受的條件配置抽樣。
考慮從目標(biāo)總體(Y1,Y2,...,YN)中采用不放回不等概率抽樣的方法抽取一個(gè)容量為n的樣本來(lái)估計(jì)總體總值Y。在估計(jì)量構(gòu)造和評(píng)價(jià)階段,必須使用總體中單元i被包含到樣本中的一階包含概率πi=Pr(i)以及任意兩個(gè)單元i和j都包含到樣本中的二階包含概率πij=Pr(i,j),對(duì)于固定的n,滿(mǎn)足見(jiàn)文獻(xiàn)[15]。Horvitz與 Thompson(1952)提出了著名的總體總和的H-T估計(jì)量:
引理1:若 πi>0(i=1,2,…,N),則Horvitz-Thompson估計(jì)是Y的無(wú)偏估計(jì),其方差為:
當(dāng)n固定時(shí),又有:
引 理 2 :若 所 有 的 πi>0,πij>0,(i,j=1,2,...,N;i≠j),則:
針對(duì)配置抽樣只能得到隨機(jī)容量樣本的缺點(diǎn),受泊松抽樣發(fā)展到條件泊松抽樣的啟發(fā),本文發(fā)展了一種固定樣本容量的近似πPS抽樣設(shè)計(jì),其實(shí)施方法:預(yù)定樣本容量n,目標(biāo)包含概率pi與輔助變量xi成正比。按如下設(shè)計(jì)進(jìn)行抽樣:
(1)利用包含概率pi實(shí)施配置抽樣,抽取一個(gè)初始樣本s0。
(2)如果s0的樣本容量滿(mǎn)足:ns0=n,則最終的樣本s=s0,否則,重復(fù)第一步。
稱(chēng)上述設(shè)計(jì)為條件配置抽樣。它實(shí)現(xiàn)了樣本容量固定,但其一階包含概率 πi≈pi,i=1,2,…,N。因此該設(shè)計(jì)為樣本容量固定的近似πPS抽樣。
根據(jù)條件泊松抽樣、2PπPS抽樣得到包含概率理論表達(dá)式的思想,得出一階、二階包含概率表達(dá)式:
一旦實(shí)現(xiàn)一階、二階包含概率的解析計(jì)算。就可以構(gòu)造總體總值的Horvitz-Thompson型估計(jì)量:
以及估計(jì)量的方差:
需要指出的是,實(shí)際上式(6)和式(7)只是一、二階包含概率理論上的形式表達(dá),并不能真正實(shí)現(xiàn)一、二階包含概率的計(jì)算。與條件泊松抽樣、2PπPS抽樣設(shè)計(jì)計(jì)算包含概率比較,瓶頸在于條件泊松抽樣、2PπPS抽樣設(shè)計(jì)下使用的初始泊松樣本具有樣本個(gè)體獨(dú)立的性質(zhì);而條件配置抽樣設(shè)計(jì)下使用的初始配置樣本個(gè)體間不獨(dú)立;如何實(shí)現(xiàn)理論上計(jì)算條件配置抽樣的包含概率有待研究,本文作為一個(gè)公開(kāi)問(wèn)題提出。擬數(shù)值上給出計(jì)算包含概率的方法并評(píng)價(jià)了提出設(shè)計(jì)的優(yōu)良性。
由于上述包含概率的表達(dá)式還沒(méi)有得出,即使有也比較復(fù)雜或者為遞歸公式,理論上給出設(shè)計(jì)的優(yōu)良性或方案間的比較非常困難,因此,數(shù)值模擬具有重要的意義。本文在小總體和小樣本時(shí),基于超總體模型下的總體,借助Monte-Carlo方法數(shù)值模擬求解包含概率,進(jìn)而分析條件配置抽樣與條件泊松抽樣、簡(jiǎn)單隨機(jī)抽樣間的差別。調(diào)查變量根據(jù)線(xiàn)性超總體模型產(chǎn)生。計(jì)算時(shí),采用超總體Y=1+2(X-0.5)+ε,輔助變量擾動(dòng)變量為了保持調(diào)查變量Y與輔助變量X的主要回歸關(guān)系,正態(tài)擾動(dòng)變量的方差的大小選擇為1/5調(diào)查變量Y的方差。使用條件配置抽樣設(shè)計(jì)和條件泊松抽樣設(shè)計(jì)產(chǎn)生容量為n的樣本,實(shí)施10000輪模擬抽樣,計(jì)算每種抽樣方法對(duì)應(yīng)的方差。算法如下:
(1)使用上述模型產(chǎn)生目標(biāo)變量Y,輔助變量X,計(jì)算入樣概率pi,i=1,2,…,N。
(2)按照配置抽樣的要求產(chǎn)生對(duì)應(yīng)的r,Li,ri。如果ri<pi,則第i個(gè)單元入樣,否則,該單元不入樣。這一樣本記為s0,如果s0的樣本容量滿(mǎn)足:ns0=n,則作為最終的條件配置樣本s=s0,否則,重新抽樣。
(3)以pi為入樣概率進(jìn)行泊松抽樣,如果成功,則第i個(gè)單元入樣,否則,該單元不入樣。這一樣本記為s0,如果s0的樣本容量滿(mǎn)足:ns0=n,則作為最終的條件泊松樣本s=s0,否則,重新抽樣。
(4)分別按照第2步和第3步實(shí)施10000次模擬抽樣,得到10000個(gè)條件配置和條件泊松樣本。
(6)采用樣本容量n固定的Horvitz-Thompson方差公式:
分別計(jì)算條件配置抽樣與條件泊松抽樣的方差。
下面給出線(xiàn)性超總體模型下,條件泊松(CP),條件配置(CC),簡(jiǎn)單隨機(jī)不放回(SRS)抽樣設(shè)計(jì)的方差比較。
線(xiàn)性模型下,CP,CC設(shè)計(jì)獲得合格樣本所需抽樣次數(shù)比較結(jié)果見(jiàn)表1所示。抽樣設(shè)計(jì)精度比較結(jié)果見(jiàn)表2和表3所示。
表2 線(xiàn)性模型下不同估計(jì)量的方差(固定n=6)
表3 線(xiàn)性模型下不同估計(jì)量的方差(固定N=30)
從上面數(shù)值計(jì)算可以看出,線(xiàn)性模型下提出的條件配置抽樣精度高于經(jīng)典的條件泊松抽樣;條件泊松抽樣精度高于簡(jiǎn)單隨機(jī)抽樣。
實(shí)例:為了分析條件配置抽樣的性能,并和已有的結(jié)果(見(jiàn)文獻(xiàn)[16])作比較??紤]文獻(xiàn)[20]中的一個(gè)總體數(shù)據(jù)。
y:Percentage of hives affected by disease
x:Mean January temperature
表4 實(shí)例中預(yù)定包含概率及AP,2Pπps,CP,Pareto,CC設(shè)計(jì)下一階包含概率(N=10,n=4)
表5 實(shí)例中CC設(shè)計(jì)下二階包含概率(N=10,n=4)
表6 實(shí)例中CC,AP,2Pπps,CP,Pareto,SRSWOR設(shè)計(jì)的方差(N=10,n=4)
因此,本文建議的條件配抽樣不僅實(shí)施簡(jiǎn)單,也容易通過(guò)Monte-Carlo模擬計(jì)算一階、二階包含概率,而且當(dāng)研究變量和輔助變量線(xiàn)性相關(guān)比較顯著時(shí)(實(shí)例中相關(guān)系數(shù)ρ=0.79655),從表6可以看出,條件配置抽樣的方差較其他抽樣的方差明顯的小。
本文提出了一種新的不等概率抽樣設(shè)計(jì).從數(shù)值模擬分析得出提出的條件配置抽樣優(yōu)于經(jīng)典的,在調(diào)查中被廣泛使用的條件泊松抽樣。以總體參數(shù)估計(jì)的方差作為抽樣設(shè)計(jì)精度的度量,從表2和表3中可以看出在線(xiàn)性趨勢(shì)模型下提出的條件配置抽樣設(shè)計(jì)精度上優(yōu)于條件泊松抽樣和簡(jiǎn)單隨機(jī)不放回抽樣設(shè)計(jì)。表1比較了條件泊松抽樣和條件配置抽樣得到合格樣本所需抽樣次數(shù)的方差,提出的設(shè)計(jì)其成功抽取樣本所需的試驗(yàn)次數(shù)少,比泊松抽樣省時(shí)。說(shuō)明條件配置抽樣更容易實(shí)施。當(dāng)研究總體中目標(biāo)變量與輔助變量相關(guān)性較顯著時(shí),條件配置抽樣的精度呈現(xiàn)出優(yōu)越性,所以提出的方法具有潛在的實(shí)際應(yīng)用的價(jià)值。