桑小峰 ,凌 亢 ,白先春
(1.南京財經(jīng)大學(xué) 經(jīng)濟(jì)學(xué)院統(tǒng)計系,南京 210046;2.南京人口管理干部學(xué)院,南京 210042)
在抽樣調(diào)查中,調(diào)查指標(biāo)的樣本信息是不可或缺的必用信息。在實際工作中,有時我們??蓳碛谢颢@得與調(diào)查指標(biāo)具有高度正相關(guān)性的輔助指標(biāo)的信息,這類輔助信息盡管不是抽樣調(diào)查的必用信息,但對提高估計精度有積極作用,因為輔助信息的使用使總的可用信息量增大了,從而在不擴大調(diào)查規(guī)模的前提下減小了由抽樣的隨機性帶來的不確定性。盡可能應(yīng)用一切可利用的相關(guān)性輔助信息提高估計精度是抽樣設(shè)計必須考慮的一個問題?;谶@種考慮的比估計法常被用于抽樣設(shè)計,例如將比估計與簡單隨機抽樣、分層隨機抽樣、整群抽樣進(jìn)行匹配,在一定條件下可大大提高抽樣設(shè)計的效率。
設(shè)我們關(guān)心的主要變量為Y,另一個與Y高度正相關(guān)的變量為X,X的總體總值是已知的。在實際抽樣調(diào)查中,X這樣的變量稱為輔助變量,一般有以下幾種常見情況:
(1)同一個變量的前一期調(diào)查結(jié)果,往往隱含著當(dāng)期與前一期相比變化不會太大的假設(shè);
(2)與主要變量之間整體上存在某種比值關(guān)系,即隱含著兩者比值關(guān)系的變化不會太大的假設(shè)。
定義主要變量的總體均值Y的比率估計量為:
定義主要變量的總體總值Y的比率估計量為:
分層抽樣是將抽樣單元按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨立、隨機地抽取樣本,將各層的樣本結(jié)合起來,對總體的目標(biāo)量進(jìn)行估計。分層抽樣保證了樣本中包含有各種特征的抽樣單元,樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而可以有效地提高估計的精度,同時分層抽樣在一定條件下為組織實施調(diào)查提供了方便。
將比估計的思想和技術(shù)用于分層隨機樣本時,對總體參數(shù)的估計有兩種途徑:一種是對每層樣本分別考慮比估計量,然后對各層的比估計量進(jìn)行加權(quán)平均,即“先比,后加權(quán)”,這種情形稱為分別比估計;另一種是對比率的分子和分母分別加權(quán)計算出總體均值或總體總量的分層估計量,然后用對應(yīng)的分層估計量來構(gòu)造比估計,即“先加權(quán),后比”,稱為聯(lián)合比估計。本研究在分別運用分別比估計和聯(lián)合比估計進(jìn)行分析的同時,與簡單線性回歸估計進(jìn)行比較研究。
總體包括江蘇省的106個縣(縣級市、地級市市區(qū)),擬對其中的10個縣(縣級市、地級市市區(qū))進(jìn)行實地人口調(diào)查,因此總樣本量n=10。
按江蘇省不同地理位置,將總體劃分為3個層N1、N2和N3,分別對應(yīng)蘇南、蘇中和蘇北,其中蘇南包括南京、無錫、蘇州、常州、鎮(zhèn)江,蘇中包括南通、揚州、泰州,蘇北包括徐州、連云港、淮安、鹽城、宿遷。
采用比例分配的原則確定各層的樣本量,根據(jù)各層的大小N1、N2和N3,在總樣本量的基礎(chǔ)上進(jìn)一步得到各層樣本量為:n1=4,n2=2,n3=4。
按照隨機抽樣的準(zhǔn)則,在各層內(nèi)隨機地抽取縣(縣級市、地級市市區(qū))進(jìn)行實地人口調(diào)查,最終入選的10個樣本點分別對應(yīng)為:南京市秦淮區(qū)、無錫市崇安區(qū)、徐州市鼓樓區(qū)、常州市金壇市、蘇州市平江區(qū)、南通市港閘區(qū)、連云港市灌云縣、淮安市盱眙縣、泰州市姜堰市和宿遷市沭陽縣。對上述10個樣本點進(jìn)行數(shù)據(jù)搜集,得表1。其中yhi代表第h層的第i個樣本縣(縣級市、地級市市區(qū))的實際調(diào)查人口數(shù),xhi代表該縣(縣級市、地級市市區(qū))登記在冊的人口數(shù)。
表1 人口調(diào)查樣本數(shù)據(jù)表
對搜集到的數(shù)據(jù)進(jìn)行計算、歸并,整理結(jié)果見表2。表中的部分指標(biāo)解釋如下:h代表層號,Xh為各層年初登記在冊的人口數(shù),s2為方差,r(0<r<1)為相關(guān)系數(shù),其中
表2 中間計算結(jié)果
sxyh=rhsyhsxh為樣本協(xié)方差,用于估計層協(xié)方差Sxyh=ρhSyhSxh。
基于上述數(shù)據(jù)整理的結(jié)果,依次采用分層隨機抽樣的簡單線性估計、分別比估計及聯(lián)合比估計對總體總值做出估計。
(1)分層隨機抽樣的簡單線性估計
(2)分層隨機抽樣的分別比估計
(3)分層隨機抽樣的聯(lián)合比估計
因此,運用三種方法對總體總值進(jìn)行估計,得到的估計量分別為:簡單線性估計為6601.3938,分別比估計為8061.1297,聯(lián)合比估計為7514.4689。
將總體總值的估計結(jié)果與調(diào)查年度年底登記在冊的人口數(shù)進(jìn)行比較,對以上三種方法的估計精度做出大致的判斷,結(jié)果見表3。
表3 誤差分析表
可見,聯(lián)合比估計的誤差最小,僅為0.53%;其次是分別比估計,誤差為7.85%;簡單線性估計的精度最差,誤差達(dá)到了11.68%。另外從估計量的標(biāo)準(zhǔn)差來看,簡單線性估計也顯著地高于分別比估計和聯(lián)合比估計,而分別比估計與聯(lián)合比估計的差異不大。因此,在本項研究中,聯(lián)合比估計的精度最好,為選取的最優(yōu)方法。
本文采用分層隨機抽樣方法抽取了江蘇省10個樣本縣(縣級市、地級市市區(qū)),然后在樣本區(qū)進(jìn)行實地的人口調(diào)查,運用統(tǒng)計方法中的非線性比估計法,充分利用前一年政府的公開統(tǒng)計數(shù)字所提供的輔助信息,對總體做出了有效估計。在本項調(diào)查研究中,相比簡單線性回歸估計而言,比估計法的誤差更小,估計的精度更高,具有更高的可信度。這為今后基于人口抽樣調(diào)查的樣本數(shù)據(jù)進(jìn)行總體估計提供了一條新的優(yōu)化技術(shù)路線,即充分利用可以得到的輔助信息,巧妙借助比估計法,提高抽樣調(diào)查總體估計的精確性和可靠性。
本項調(diào)查研究中,各層的樣本量都不大(4,2,4),結(jié)果顯示聯(lián)合比估計的精度最高,這也印證了已有的結(jié)論:如果各層的樣本量都比較大,同時各層的比率之間差異較大,則分別比估計優(yōu)于聯(lián)合比估計;如果各層的樣本量不大,或者各層的比率之間差異較小,則聯(lián)合比估計優(yōu)于分別比估計。在實際的抽樣調(diào)查中,應(yīng)重視這個理論前提,根據(jù)具體情況合理選擇分別比估計或聯(lián)合比估計的方法,以提高估計的精度和可靠性。
[1]2005年江蘇省1%人口抽樣調(diào)查資料[M].北京:中國統(tǒng)計出版社,2005.
[2]金勇進(jìn),杜子芳,蔣妍.抽樣技術(shù)[M].北京:中國人民大學(xué)出版社,2008.
[3]杜子芳.抽樣技術(shù)及其應(yīng)用[M].北京:清華大學(xué)出版社,2005.
[4]馮士雍,倪加勛,鄒國華.抽樣調(diào)查理論與方法[M].北京:中國統(tǒng)計出版社,1998.
[5]張勇,金勇進(jìn),汪飛星.PPS抽樣設(shè)計的比估計及其模擬分析[J].統(tǒng)計教育,2004,(3).
[6]楊芳芳,唐德善,楊娟.比估計法在節(jié)水工程節(jié)水量計算中的應(yīng)用[J].水利科技與經(jīng)濟(jì),2007,(4).
[7]俞純權(quán).二階抽樣下的比估計與回歸估計[J].統(tǒng)計與決策,2006,(1).