鞏紅禹,賀本嵐,王麗艷
(1.內(nèi)蒙古財經(jīng)學院,呼和浩特010051;2.中國人民大學 統(tǒng)計學院,北京100872;3.內(nèi)蒙古岱海發(fā)電有限責任公司,內(nèi)蒙古 烏蘭察布 013700)
在實際的抽樣調(diào)查中,通常關(guān)注總體的某些特征,如總量、均值、比例等?;谠O(shè)計推斷和基于模型的推斷(Fuller,2009;Bolfarine,Zacks,1992;Cassel,Sarndal,Wretman, 1977)是推斷有限總體特征的兩種不同途徑?;谠O(shè)計推斷通常假定總體固定和有限的,根據(jù)樣本觀測結(jié)果推斷總體的參數(shù)。調(diào)查者根據(jù)某種抽樣設(shè)計從總體中隨機獲取樣本,樣本中每個樣本單元的權(quán)數(shù)是它包含概率的倒數(shù)?;谀P屯茢喾椒ㄋ枷胧羌僭O(shè)有限總體是某個超總體或者某個概率分布的一次隨機實現(xiàn),估計量是基于這個超總體模型作出的。在特定的超總體模型下尋找最優(yōu)估計是理想的情形,實踐中很難找到嚴格服從某一特定分布的觀測數(shù)據(jù),于是在假定模型下尋找穩(wěn)健估計。估計量的穩(wěn)健性是指,當模型發(fā)生微小變化時,對估計量的影響也相對較小。
一直以來,抽樣技術(shù)領(lǐng)域中估計量的穩(wěn)健性問題始終受到關(guān)注,統(tǒng)計學家從兩種途徑研究這類問題,一類是討論樣本中有代表性異常點情形,比如和Chambers(1986)和Gwet、Rivest(1992)討論了樣本中有異常點時總量穩(wěn)健的比率估計,Kuk(2001)給出異常點情形下均值的穩(wěn)健估計;一類是討論當模型識別錯誤時,選擇模型下估計量的穩(wěn)健性問題(Royall,Herson,1973;Scott,Brewer,1978;Royall, Pfeffermann 1982;Rodrigues 1985;Bolfarine,Pereira 1987;tam,1995)。本文擬從后一角度討論??傮w總量的比率估計和擴張估計在簡單平衡樣本下是穩(wěn)健的,也就是說,比率估計和擴張估計的無偏性不受模型識別錯誤的影響。
設(shè)U={1,2,…,N}表示容量為N的有限總體,yk為U中第k個單元的未知觀測值;xk1,xk2,…,xkp為第k個單元已知的p個輔助觀測值;k=1,2,…,N。假定超總體回歸模型M
其中,X=(x1,…,xN)T,xTk=(1,xk1,…,xkp)是已知矩陣,β=(β0,β1,…,βp)T是未知的常量向量,var(e)=V =diag(v1,…,vN)是對角矩陣,第k個對角元素是已知的非負常量。輔助向量值xk是已知的。
超總體回歸模型引入了一種新的隨機性——總體的隨機性,有限總體y=(y1,y2,…,yN)T視為獨立隨機向量Y=(Y1,Y2,…,YN)T的一個隨機樣本。
其中:
當僅有一個輔助變量與目標變量相關(guān)時,通??紤]多項式模型
為說明問題的方便,這里正式引入簡單平衡樣本的概念。記s(J)為滿足下面條件的樣本,對于j=1,…,J,有
當β0>0時,若前n最大的x值入樣,估計量將會產(chǎn)生最大的負偏倚。如果xˉs=xˉ,比率估計在這個模型下是無偏的。從這里看出,如果總體的ξ*是比率估計模型,抽取前n個最大的x值會使模型方差達到最小,但如果總體的ξ*是含常數(shù)項的一次回歸模型,這種抽樣策略卻使估計產(chǎn)生最大的負偏倚。
比較(8)與(9)式,若
即使在模型發(fā)生微小變化的情形下,采用比率估計不會造成均方誤差大的波動。如果樣本是平衡的,二者的模型均方誤差相同,這時比率估計不失為好的估計方法。
進一步思考,若總體的ξ*是多項式模型,平衡樣本能否使得比率估計與擴張估計穩(wěn)健呢?采用擴張估計的偏倚是
采用比率估計的偏倚是
其中,j≠1(j=1時,(12)式為0)。
如果s=s(J),那么擴張估計偏倚和比率估計偏倚都是0。滿足多項式模型,采用簡單平衡抽樣設(shè)計,比率估計和擴張估計都是無偏估計。這意味著,對于滿足多項式模型的總體,采用簡單平衡抽樣設(shè)計,總量比率估計和簡單估計是能夠消除偏倚的穩(wěn)健估計。
在簡單平衡抽樣設(shè)計下,總量估計和比率估計既然都是無偏的,我們應該選擇哪個估計呢?有兩點理由選擇比率估計。(1)比率估計充分利用了總體的輔助信息,特別在樣本量很小時,擴張估計的結(jié)果容易受人質(zhì)疑,比率估計要明顯優(yōu)于擴張估計;(2)實踐當中,樣本是很難實現(xiàn)精確平衡的,只能獲得近似簡單平衡的樣本。很多數(shù)值分析表明,對不同偏離平衡程度的樣本,擴張估計同比率估計相比要更加敏感。
如果超總體模型是M(0,1:x),比率估計的均方誤差是(9)式。最優(yōu)樣本滿足條件
這時均方誤差是最小的,比率估計是最有效的。但如果超總體模型是M(1,1:x),采用平衡抽樣設(shè)計消除比率估計的偏倚,這時誤差均方誤差是
那么,就認為這個樣本是近似平衡的。這個過程可按如下操作:
(1)指定常量E。
(2)采用無放回簡單隨機抽樣。
(3)如果滿足條件(16),保留樣本;否則將樣本放回總體,重復步驟(2)。
E的選擇是任意的,當E=∞,是無約束的簡單隨機抽樣。大樣本時e(s)是近似服從標準正態(tài)分布的。當e(s)>1.96或者e(s)<-1.96時,將以0.05的顯著性水平拒絕xˉs=xˉ,即認為樣本是不平衡的。
這里采用S_PLUS軟件模擬平衡抽樣設(shè)計樣本的結(jié)果(圖1)。
圖1
這個總體中,總體單元數(shù)是N=393,xˉ=274.6972,我們分別采用簡單隨機抽樣和約束隨機抽樣(e(s)=0.01)從中抽取樣本量為50的樣本。圖1中,從左至右依次為總體x值、簡單隨機樣本x、約束簡單隨機樣本x的箱線圖,簡單隨意樣本均值為 xˉ1=236,約束隨機樣本均值為xˉ2=274.6972。從圖中看出,由約束簡單隨機抽樣獲取的樣本與總體的分布是很相似的。
如果樣本是簡單平衡的,樣本量可以通過變異系數(shù)確定。
基于模型總量的變異系數(shù)定義為:
cv是無單位測度,通常認為相對合理的變異系數(shù)cv≤10%。cv的平方稱為相對方差。為確定樣本規(guī)模,需要事先設(shè)定cv的值。
若總體的真實模型是多項式模型M(δ0,δ1,…,δj:v),選擇模型是M(1:1),簡單平衡樣本使得T^(1:1)是無偏的,其對應的方差為:
相對方差:
確定樣本規(guī)模需要事先知道合適的變異系數(shù)k、總體均值μ和方差σ2。
確定樣本規(guī)模需要事先知道合適的變異系數(shù)k、總體均值xˉ和方差σ2。
有限總體認為是超總體的一次隨機實現(xiàn),并假定樣本分布與超總體的分布是一致的,如果違背模型假定,基于模型作出有限總體參數(shù)的推斷受人質(zhì)疑,因此需要考慮基于模型估計量的穩(wěn)健性問題。本文考慮為了消除估計量的偏倚,假定多項式模型成立條件下,可以對樣本進行平衡抽樣設(shè)計,這時比率估計和擴張估計是無偏估計。
簡單平衡樣本視為樣本單元的權(quán)重是相同的,即每個樣本單元都代表相同數(shù)目的總體單元。事實上,每個單元目標變量的變異并不相同,可能與輔助信息有關(guān),比如醫(yī)院接納病人能力的不確定性與病床數(shù)相關(guān),消費能力的不確定性與收入有關(guān)等。不同變異程度樣本單元的權(quán)重應該是不同的,即每個樣本單元代表總體單元的數(shù)目不同。因此,基于模型的抽樣設(shè)計一種合理的假設(shè)是樣本單元的權(quán)數(shù)與方差的平方根成正比,它涉及到權(quán)平衡的概念。這是筆者今后面將要研究的問題。
[1]Anthony Y.C.Kuk,A.H.Welsh.Robust Estimation for Finite Populations Based on a Working Model[J].Journal of the Royal Statistical Society,Series B(Statistical Methodology),2001,2(63).
[2]A.J.Scott,K.R.W.Brewer,E.W.H.Ho.Finite Population Sampling and Robust Estimation[J].Journal of the American Statistical Association,1978,6(73).
[3]Claes-Magnus Cassel,Carl-erik Sarndal,Jan Hakan Wretman.Foundatations ofInference in Survey Sampling[M].New York:John Wiley&Sons,1977.
[4]Carlos Alberto de Bragan?a Pereira,Josemar Rodrigues.Robust Linear Prediction in Finite Populations[J].International Statistical Review/Revue Internationale de Statistique,1983,3(51).
[5]Heleno Bolfarine,Shelemyahu Zacks.Prediction Theory for Finite Populations[M].New York:Springer-verg,1992.
[6]Josemar Rodrigues,Heleno Bolfarine,André Rogatko.A General Theory of Prediction in Finite Populations[J].International Statistical Review/Revue Internationale de Statistique,1985,3(53).
[7]Jean-Philippe Gwet,Louis-Paul Rivest.Outlier Resistant Alternatives to the Ratio Estimator[J].Journal of the American Statistical Association,1992,12(87).
[8]Raymond L.Chambers.Outlier Roubust Finite Population Estimation [J].Journal of the American Statistical Association,1986,12(81).
[9]Richard M.Royall,Dany Pfeffermann.Balanced Samples and Robust Bayesian Inference in Finite Population Sampling[J].Biometrika, 1982,2(69).
[10]WayneA.Fuller.SamplingStatistics[M].NewYork:JohnWiley&Sons, 2009.