王春枝,趙國杰
(1.天津大學(xué) 管理與經(jīng)濟學(xué)部,天津 300072;2.內(nèi)蒙古財經(jīng)大學(xué) 統(tǒng)計與數(shù)學(xué)學(xué)院,呼和浩特 010070)
分層隨機抽樣條件下不同估計量的比較與選擇
王春枝1,2,趙國杰1
(1.天津大學(xué) 管理與經(jīng)濟學(xué)部,天津 300072;2.內(nèi)蒙古財經(jīng)大學(xué) 統(tǒng)計與數(shù)學(xué)學(xué)院,呼和浩特 010070)
文章以分層隨機抽樣為例,研究了在有輔助變量可以利用的情形下,分別比估計、聯(lián)合比估計、分別回歸估計和聯(lián)合回歸估計的應(yīng)用,并對其偏倚進行評估。結(jié)果表明,與簡單估計相比,這類間接估計量都是非線性的較為復(fù)雜的估計量,可以改善簡單估計的效果,且當(dāng)目標(biāo)變量和輔助變量高度相關(guān)時,各種估計量均是有效的。
分層隨機抽樣;比估計;回歸估計;輔助變量
抽樣調(diào)查中,估計方法的設(shè)計是抽樣設(shè)計的一個重要內(nèi)容,對抽樣誤差有著直接的影響。調(diào)查中的目標(biāo)量也即需通過樣本估計的總體參數(shù),常見的包括三種:總體均值、總體總量、總體比例,這三個總體參數(shù)一般都是針對總體的某一個指標(biāo),在參數(shù)估計時將該指標(biāo)作為唯一的調(diào)查變量,所得到的參數(shù)估計量屬于線性的簡單估計量,這種簡單估計只涉及所要估計的指標(biāo)本身,完全不依賴其他的關(guān)于總體的輔助信息,估計量具有無偏性、一致性、極大似然性等優(yōu)良性質(zhì)。不過,當(dāng)存在可利用的與調(diào)查變量高度相關(guān)的總體其他信息且這些信息質(zhì)量較好時,如果能夠充分利用這些信息無疑將顯著提高抽樣估計的精度。將可用來幫助調(diào)查變量估計的其他變量稱為輔助變量,利用調(diào)查指標(biāo)與輔助變量之間的相關(guān)關(guān)系,可以構(gòu)造另一類間接估計量,即比估計量或回歸估計量,與簡單估計相比,這類間接估計量都是非線性的較為復(fù)雜的估計量,可以改善簡單估計的效果。
本文以分層隨機抽樣為例,研究在有輔助變量可以利用的情形下,分別比估計、聯(lián)合比估計、分別回歸估計和聯(lián)合回歸估計的應(yīng)用,并對其偏倚進行評估。
設(shè)總體有N個抽樣單位,每個抽樣單位有兩個變量,調(diào)查變量Y和輔助變量X,記為總體比率。設(shè)從總體N中隨機抽取容量為n的樣本,以作為R的估計量,稱R?為比率估計量,其中大寫記號代表總體變量,小寫記號代表樣本變量。
可見當(dāng)n較大時,E(R?)≈R,進而估計量的方差:
對每個總體單元,令Gi=Yi-RXi,i=1,2,...,N,則,因此:
所以:
式(3)中涉及總體的,必須從樣本中估計,可用作為的估計。這個估計是有偏的,由式(2),其偏倚的階為,可見,均方誤差與偏倚具有相同的階,因此,比估計的偏倚趨于0的速度比相應(yīng)的均方誤差的平方根趨于0的速度更快,比率估計量雖然是有偏的,但當(dāng)樣本容量較大時,偏倚趨于0。進一步,用比率估計量估計總體均值,得到:
上式中,、、ρ分別為調(diào)查變量樣本方差、輔助變量樣本方差和調(diào)查變量與輔助變量的樣本相關(guān)系數(shù),Sy、Sx為相應(yīng)的標(biāo)準(zhǔn)差。
利用比估計方法時,調(diào)查變量與輔助變量間需有正線性相關(guān)關(guān)系,且大致呈正比例,如果輔助變量與調(diào)查變量間有負(fù)線性相關(guān)關(guān)系,則要采取乘積估計。估計,一般要求輔助變量的總體總量或均值是已知的;比估計方法適用面廣,可以用于簡單隨機抽樣,也可用于分層隨機抽樣、整群抽樣、多階抽樣等。由于比估計充分利用了輔助變量帶來的信息估計總體參數(shù),比單純用調(diào)查變量資料會有更好的效果。
有效地應(yīng)用比估計隱含的一個基本假定是調(diào)查變量與輔助變量基本成比例關(guān)系,也就意味著調(diào)查變量對輔助變量的回歸直線通過原點,若此假定不成立,為了進一步提高估計精度,可以使用回歸估計。一般地,對于簡單隨機抽樣,總體均值的回歸估計量定義為:
β可以是事先設(shè)定的常數(shù),也可以是從樣本中計算得到的樣本回歸系數(shù)。如果事先給定,β=β0,回歸估計量的方差為:
此時,是總體均值的無偏估計量。如果β為樣本回歸系數(shù),則,此時回歸估計量的方差為:
此種情形下,當(dāng)樣本容量n較大時,是近似無偏的;當(dāng)n趨于無窮大時,的偏倚趨于0的速度比相應(yīng)的均方誤差的平方根趨于0的速度更快,回歸估計量仍是可用估計量。
同比估計一樣,回歸估計充分利用了有關(guān)的輔助變量資料以有效地提高估計的精度,當(dāng)然,回歸估計量的優(yōu)越性只有在大樣本的情形下才能得到較好的發(fā)揮。此外,回歸估計中輔助變量可以是一個,也可以是兩個或多個。
將比估計與回歸估計的思想應(yīng)用于分層隨機抽樣中,根據(jù)應(yīng)用的場合不同,有兩種可行的方法。一種是對每層的樣本考慮比估計或回歸估計,然后根據(jù)層權(quán)進行加權(quán)處理;另一種是對調(diào)查變量和輔助變量先進行總體的參數(shù)估計,然后用他們構(gòu)造比估計量或回歸估計量。
各層分別比估計是先對各層分別進行比估計,然后按層權(quán)加權(quán)平均,以得出總體參數(shù)的估計,設(shè)總體分為L層,和ˉh為第h層的樣本均值,ˉh和ˉh為第h層的總體均值,Wh為層權(quán),則總體均值的比估計為:
由于當(dāng)每一層的樣本容量nh都比較大時,是近似無偏的,因此,此時也是近似無偏的,且從每一層比估計的方差公式可以得到:
與分層比估計的情形一樣,先在每層中對層的均值作回歸估計,然后再加權(quán),即可得到分別回歸估計量
其中βh為第h層事先設(shè)定的值或樣本回歸系數(shù),當(dāng)βh為事先設(shè)定的值時,分別回歸估計量的方差為:;若βh為樣本回歸系數(shù),則估計量的方差為:。前者為無偏估計量,后者則是有偏估計量。
對于第h層的總體均值,先對各層的調(diào)查變量與輔助變量進行分層隨機抽樣的簡單估計,進而利用比率估計量可以構(gòu)造出聯(lián)合比估計量:
基于同樣的思想,聯(lián)合回歸估計為:
當(dāng)β為事先設(shè)定時,估計量是無偏的,并且:
當(dāng)β必須從樣本估計時,一般采用按比例分配的抽樣方法得到β的估計值,,通常稱為聯(lián)合最小二乘估計。此時聯(lián)合回歸估計是有偏的,但滿足漸進一致性,估計量的方差為:
分層隨機抽樣條件下,分別比估計和聯(lián)合比估計均為有偏估計量,當(dāng)各層的樣本容量足夠大時近似無偏,當(dāng)某些層的樣本量不夠大,而總樣本量較大時,聯(lián)合比估計近似無偏。比較二者的方差,式(13)減去式(10)可得:
(1)當(dāng)R=Rh或者,每一層的總體比值都嚴(yán)格地等于整個總體的比值,此時,分別比估計與聯(lián)合比估計的精度是一樣的。
(2)當(dāng)R≠Rh,而,則時,即Rh等于第h層Y對X的線性回歸函數(shù),此時,,此時,分別比估計的精度至少和聯(lián)合比估計一樣甚至更高。這意味著分別比估計由于聯(lián)合比估計有兩個前提條件:一是調(diào)查變量與輔助變量存在顯著的線性相關(guān)關(guān)系,這個前提對任何比估計都是成立的;二是各層的樣本容量都比較大,此時分別比估計要優(yōu)于聯(lián)合比估計,否則,若一些層的樣本容量不足,分別比估計的偏倚會較大,而聯(lián)合比估計的精度會更高一些。
在回歸估計中,多數(shù)情況下,回歸系數(shù)需要利用樣本回歸系數(shù)進行估計,屬于有偏估計量,只有在大樣本情況下,才會漸進無偏。少數(shù)情況下,當(dāng)回歸系數(shù)事先設(shè)定時,估計量是無偏的。比較分別回歸估計和聯(lián)合回歸估計的方差:
利用輔助信息進行分層隨機抽樣,在樣本的代表性方面提高了抽樣效率,這是分層隨機抽樣自身所具有的優(yōu)越性。當(dāng)利用這種優(yōu)越性得到樣本后,需要對總體的參數(shù)進行估計,利用輔助變量構(gòu)建分別比估計量、聯(lián)合比估計量、分別回歸估計量、聯(lián)合回歸估計量均能夠有效地改善簡單估計的精度,其中回歸估計中的回歸系數(shù)可以是事先設(shè)定的常數(shù),也可以是從樣本得到的估計值。在大樣本的條件下,且輔助變量與目標(biāo)變量相關(guān)性有較高時,比估計量和回歸估計量近似無偏且有效。在實際情況中,通常能夠獲得歷史資料或者與要研究問題高度相關(guān)的輔助量的資料,利用這些輔助資料,有助于做出更科學(xué)的估計。
事實上,在分層隨機抽樣條件下,對于輔助變量的利用實際上存在兩個角度,分別比估計量、聯(lián)合比估計量、分別回歸估計量、聯(lián)合回歸估計量是將輔助變量的信息利用于參數(shù)估計過程中。在實踐中,輔助變量的信息還被作為分層標(biāo)志應(yīng)用于對抽樣總體的分層,進而采取簡單估計??紤]樣本容量以及目標(biāo)變量與輔助變量相關(guān)程度的不同,這兩種利用輔助變量信息的方法,在估計效果上會存在差異,哪一種利用方法效果更好?這是值得進一步研究的問題。
[1]金勇進,杜子芳,蔣妍.抽樣技術(shù)[M].北京:中國人民大學(xué)出版社,2008.
[2]趙俊康.統(tǒng)計調(diào)查中的抽樣設(shè)計理論與方法[M].北京:中國統(tǒng)計出版社,2002.
[3]馮士雍,倪加勛,鄒國華.抽樣調(diào)查理論與方法[M].北京:中國統(tǒng)計出版社,1998.
[4]劉琴,湯銀才.分層隨機抽樣中R的分別比估計量的可用性及其均方誤差的估計量[C].中國現(xiàn)場統(tǒng)計研究會學(xué)術(shù)年會論文集,2005.
[5]羅鈺瑩.分層抽樣下提高估計精度的探究[J].港澳經(jīng)濟,2016,(23).
[6]陳兵,呂恕.有輔助信息可利用時的分層抽樣下樣本輪換研究[J].統(tǒng)計與決策,2014,(15).
(責(zé)任編輯/亦 民)
Comparison and Selection of Different Estimators Under Stratified Random Sampling
Wang Chunzhi1,2,Zhao Guojie1
(1.Department of Management and Economics,Tianjin University,Tianjin 300072,China;2.School of Statistics and Mathematics,Inner Mongolia Finance and Economics University,Hohhot 010070,China)
This paper takes stratified random sampling as an example to study the application of separate ratio estimator,combined ratio estimator,separate regression estimator and the combined regression estimator under the condition that the auxiliary variable is available,and on this basis assesses the bias of the estimators.The study result shows that compared with the simple estimation method,such indirect estimators are complex nonlinear estimators,and can improve the accuracy of simple estimation method;when the target variable is highly correlated with the auxiliary variable,all estimators are valid.
stratified random sampling;ratio estimation;regression estimation;auxiliary variable
0212
A
1002-6487(2017)19-0015-03
內(nèi)蒙古自然科學(xué)基金資助項目(2014MS0701)
王春枝(1976—),女,內(nèi)蒙古巴彥淖爾人,博士研究生,副教授,研究方向:技術(shù)經(jīng)濟及管理。
趙國杰(1950—),男,河北保定人,教授,博士生導(dǎo)師,研究方向:技術(shù)經(jīng)濟及管理。