黃正棟 江雪龍
(1江蘇省蘇州市統(tǒng)計(jì)局、2江蘇省昆山市統(tǒng)計(jì)局/1局長(zhǎng)、2局長(zhǎng),江蘇蘇州、昆山215004、215300)
抽樣調(diào)查和區(qū)域調(diào)查法比較研究
——昆山市經(jīng)濟(jì)普查資料實(shí)證分析
黃正棟1江雪龍2
(1江蘇省蘇州市統(tǒng)計(jì)局、2江蘇省昆山市統(tǒng)計(jì)局/1局長(zhǎng)、2局長(zhǎng),江蘇蘇州、昆山215004、215300)
依照朱震葆研究員提出的“人口密度理論和區(qū)域調(diào)查方法”,對(duì)昆山市第二次經(jīng)濟(jì)普查資料,分別采用抽樣調(diào)查和區(qū)域調(diào)查方法進(jìn)行實(shí)證研究,結(jié)論是:區(qū)域調(diào)查法比抽樣調(diào)查法優(yōu)越。
抽樣調(diào)查;區(qū)域調(diào)查;人口密度
抽樣調(diào)查對(duì)于不同的調(diào)查對(duì)象需要建立不同的樣本框,彼此互不兼容,為此需要投入大量的社會(huì)成本。即便如此,對(duì)于某次抽樣調(diào)查,也無法了解和控制抽樣標(biāo)志以外調(diào)查資料的準(zhǔn)確程度和偏差。既然如此,朱震葆研究員設(shè)想:如果能夠抽取一部分社區(qū)(居委會(huì)和村委會(huì))作為調(diào)查對(duì)象(樣本框),使其與該縣(市區(qū))總體社會(huì)經(jīng)濟(jì)發(fā)展水平相當(dāng),來推測(cè)全縣(市區(qū))的社會(huì)經(jīng)濟(jì)發(fā)展水平,來替代一個(gè)個(gè)不同主題的樣本框,如果能夠?qū)崿F(xiàn),即可大大節(jié)省調(diào)查投入的人力、物力、財(cái)力和時(shí)間。我們根據(jù)其提出的“人口密度理論”和“區(qū)域調(diào)查方法”,依托第二次經(jīng)濟(jì)普查資料,分別采取抽樣調(diào)查和區(qū)域調(diào)查方法進(jìn)行測(cè)算,以檢驗(yàn)其理論和方法的有效性和可行性。
人口密度理論是區(qū)域調(diào)查法的理論基礎(chǔ),它有一個(gè)假設(shè):在一個(gè)國(guó)家的行政區(qū)域內(nèi),一個(gè)地區(qū)的人口密度與社會(huì)經(jīng)濟(jì)發(fā)展水平正相關(guān)。所以抽取的社區(qū)人口密度必須與全市(縣、區(qū))人口密度相等或者盡可能接近,這是一個(gè)約束條件。為了簡(jiǎn)便,本文將城區(qū)社區(qū)居委會(huì)和鄉(xiāng)村村委會(huì)統(tǒng)一以“社區(qū)”稱之。以下是全市各社區(qū)人口密度和行業(yè)門類資料。
為了比較抽樣調(diào)查和區(qū)域調(diào)查,分別按照“年末從業(yè)人員”、“主營(yíng)業(yè)務(wù)收入”和“人口密度”抽取樣本框。
區(qū)域調(diào)查法與抽樣調(diào)查法結(jié)果比較(1/4樣本),是按全市300個(gè)社區(qū)的四分之一對(duì)稱等距抽取,是75個(gè)社區(qū)匯總資料;抽樣調(diào)查法與區(qū)域調(diào)查法比較(1/6樣本),是按全市300個(gè)社區(qū)的六分之一對(duì)稱等距抽取,是50個(gè)社區(qū)匯總資料(表1)。
昆山市第二次經(jīng)濟(jì)普查資料
昆山市經(jīng)濟(jì)普查區(qū)域調(diào)查法與抽樣調(diào)查法結(jié)果比較(1/4樣本)
我們先看區(qū)域調(diào)查法與抽樣調(diào)查法結(jié)果比較(1/4樣本)表。每組都是經(jīng)濟(jì)普查最主要的三列數(shù)據(jù),即“年末從業(yè)人員”、“主營(yíng)業(yè)務(wù)收入”和“主營(yíng)業(yè)務(wù)成本”。
第一行組是用抽樣調(diào)查法,按照主營(yíng)業(yè)務(wù)收入為標(biāo)識(shí)排序后,按對(duì)稱等距抽取后匯總的數(shù)據(jù),可以獲取四組不同的樣本框,其中誤差最小的是第二組(按隨機(jī)原則,選中這組的機(jī)會(huì)只有25%),與第一次經(jīng)濟(jì)普查資料相比,主營(yíng)業(yè)務(wù)收入增長(zhǎng)率是240.23%,與全市第二次經(jīng)濟(jì)普查結(jié)果相比,絕對(duì)誤差是-71.12%,相對(duì)誤差是-22.84%。
第二行組是用抽樣調(diào)查法,按照年末從業(yè)人員為標(biāo)識(shí)排序后,按對(duì)稱等距抽取后匯總的數(shù)據(jù),可以獲取四組不同的樣本框,其中誤差最小的是第三組(按隨機(jī)原則,選中這組的機(jī)會(huì)只有25%),與第一次經(jīng)濟(jì)普查資料相比,年末從業(yè)人員增長(zhǎng)率是179.34%,與全市第二次經(jīng)濟(jì)普查結(jié)果相比,絕對(duì)誤差是-7.55%,相對(duì)誤差是-4.04%。
第三行組是用區(qū)域調(diào)查法,按照人口密度為標(biāo)識(shí)排序后,按照對(duì)稱等距抽取后匯總的數(shù)據(jù),與第一次經(jīng)濟(jì)普查資料相比,年末從業(yè)人員增長(zhǎng)率是177.47%,與全市第二次經(jīng)濟(jì)普查結(jié)果相比絕對(duì)誤差是-9.42%,相對(duì)誤差是-5.04%??梢钥吹剑瘸闃诱{(diào)查法按照年末從業(yè)人員為標(biāo)識(shí)抽取的結(jié)果誤差大1個(gè)百分點(diǎn)。不過,主營(yíng)業(yè)務(wù)收入和主營(yíng)業(yè)務(wù)成本比抽樣調(diào)查結(jié)果誤差要小,尤其是主營(yíng)業(yè)務(wù)成本,抽樣調(diào)查法相對(duì)誤差為-5.94%,而區(qū)域調(diào)查法為-2.72%,比抽樣調(diào)查法小了一半還多。
再看,將抽樣調(diào)查法二組作一下比較,分別按照主營(yíng)業(yè)務(wù)收入和年末從業(yè)人員為標(biāo)識(shí),抽取的結(jié)果大相徑庭,誤差可以高達(dá)10倍以上。分析原因,按照年末從業(yè)人員為標(biāo)識(shí)抽取的誤差,要比按照主營(yíng)業(yè)務(wù)收入為標(biāo)識(shí)抽取的要小許多,因?yàn)橹鳡I(yíng)業(yè)務(wù)收入涉及到企業(yè)的核心經(jīng)濟(jì)利益,而年末從業(yè)人員不涉及到企業(yè)的核心利益,而且核查起來要容易。
由于主營(yíng)業(yè)務(wù)收入和主營(yíng)業(yè)務(wù)成本數(shù)據(jù)準(zhǔn)確性和可靠性比年末從業(yè)人員指標(biāo)要差,所以,我們以下在作抽樣調(diào)查法和區(qū)域調(diào)查法比較時(shí),就分別以年末從業(yè)人員與人口密度為標(biāo)識(shí)(表2)。
昆山市經(jīng)濟(jì)普查抽樣調(diào)查法與區(qū)域調(diào)查法比較(1/6樣本)
這張表是六分之一樣本匯總資料。抽樣調(diào)查法是用年末從業(yè)人員為標(biāo)識(shí)按照對(duì)稱等距抽取,可以獲取六組不同的樣本框,誤差最小的是第四組(按隨機(jī)原則,選中這組的機(jī)會(huì)只有16.67%)。第二次經(jīng)濟(jì)普查年末從業(yè)人員數(shù)與第一次經(jīng)濟(jì)普查比較,增長(zhǎng)率為197.75%,與全市第二次經(jīng)濟(jì)普查結(jié)果相比,絕對(duì)誤差為10.86%,相對(duì)誤差為5.81%。
區(qū)域調(diào)查法用人口密度為標(biāo)識(shí)抽取六分之一樣本匯總資料,第二次經(jīng)濟(jì)普查年末從業(yè)人員數(shù)與第一次經(jīng)濟(jì)普查比較,增長(zhǎng)率為181.03%,與全市第二次經(jīng)濟(jì)普查結(jié)果相比,絕對(duì)誤差為-5.86%,相對(duì)誤差為-3.14%。二種方法比較,區(qū)域調(diào)查法誤差為抽樣調(diào)查法的54%,將近一半。
需特別說明的是:抽樣調(diào)查法是用年末從業(yè)人員為標(biāo)識(shí)的,應(yīng)該在全部調(diào)查項(xiàng)目中,誤差是最小的。而區(qū)域調(diào)查法是用人口密度為標(biāo)識(shí)的,抽取的只是與全市社會(huì)經(jīng)濟(jì)發(fā)展水平相當(dāng)?shù)纳鐓^(qū)樣本框,不涉及到哪一個(gè)具體社會(huì)經(jīng)濟(jì)指標(biāo),它代表的只是社會(huì)經(jīng)濟(jì)發(fā)展水平與總體(全市)相一致,也就是說,人口密度是廣義的社會(huì)經(jīng)濟(jì)指標(biāo),用它為標(biāo)識(shí)抽取的社區(qū)樣本框,可以為絕大多數(shù)的抽樣調(diào)查提供樣本框。
區(qū)域調(diào)查法是隨機(jī)抽樣和有意抽樣相結(jié)合的一種方法,“有意抽樣有時(shí)可以得到比隨機(jī)抽樣更有代表性的結(jié)果”。1不過,由于我們這次按照人口密度抽取的樣本框,已經(jīng)包括我市全部17個(gè)門類的行業(yè),沒有對(duì)一個(gè)社區(qū)進(jìn)行調(diào)整,因而是一次完全意義上的隨機(jī)抽樣,只是抽樣標(biāo)識(shí)用的是人口密度,抽樣對(duì)象是社區(qū)。所以,隨機(jī)抽樣的誤差控制理論和方法,對(duì)于我們這次區(qū)域調(diào)查法完全適用。
為了簡(jiǎn)便起見,本文只提供全市和樣本(1/6樣本)的人口密度計(jì)算資料。
1.均值
全市X=2363人/平方千米樣本X0=2405人/平方千米
2.極值
全市:最大值=78743人/平方千米最小值=203人/平方千米
樣本:最大值=78743人/平方千米最小值=203人/平方千米
3.中位數(shù)
全市=1946人/平方千米樣本=1952人/平方千米
4.標(biāo)準(zhǔn)誤差
全市S=149.5樣本s=34.65
由此可見,用人口密度為標(biāo)識(shí)抽出的樣本波動(dòng)比全市總體要小,穩(wěn)定性要高。
5.頻數(shù)
組距為5000時(shí),全市和樣本都是16個(gè)分組
全市和樣本頻數(shù)最大值都在200-5000組,全市=225,樣本=37
組距為1000時(shí),全市和樣本都是79個(gè)分組
全市和樣本頻數(shù)最大值都在200-1000組,全市=107,樣本=18
組距為100時(shí),全市和樣本都是786個(gè)分組
全市和樣本頻數(shù)最大值都在500-600組,全市=27,樣本=4
由此可見,隨著分組加密,頻數(shù)由二項(xiàng)分布,轉(zhuǎn)化為左偏正態(tài)分布。用人口密度為標(biāo)識(shí)抽出的樣本頻數(shù)分布與全市總體頻數(shù)分布完全一致。
我們用區(qū)間估計(jì)概率為95%時(shí),k=1.96
1.抽樣調(diào)查法對(duì)年末從業(yè)人員作區(qū)間估計(jì)
z 0-k v 3624-1.96*34.6482 3556 2.區(qū)域調(diào)查法對(duì)人口密度作區(qū)間估計(jì) x 0-k s 2405-1.96*34.65 2337 二者比較可以看出,用人口密度作為抽樣標(biāo)識(shí),其穩(wěn)定性要好于以年末從業(yè)人員為抽樣標(biāo)識(shí)的結(jié)果。 1.代表性檢驗(yàn) 以人口密度為標(biāo)識(shí)抽取的樣本框,完全遵照抽樣技術(shù)對(duì)稱等距隨機(jī)抽取,其過程與通常抽樣調(diào)查別無二致,其代表性與抽樣技術(shù)抽取的樣本沒有任何差別。 同時(shí),由于抽取的樣本包括全市總體全部17個(gè)行業(yè)門類,從經(jīng)濟(jì)類型代表性上看與總體相同。 2.無偏性檢驗(yàn) 我們用u檢驗(yàn)樣本的無偏性。我們假設(shè)樣本人口密度發(fā)生顯著改變。 由于1.9865小于2.576,所以假設(shè)被否定,我們認(rèn)為樣本與總體沒有顯著差異。 需要說明一下,在社會(huì)經(jīng)濟(jì)領(lǐng)域,要滿足E x=X是很難得到滿足的,基本上都是帶有偏差的,“有時(shí)某個(gè)統(tǒng)計(jì)量對(duì)待估參數(shù)雖然有微小偏誤,但卻有其他顯著優(yōu)點(diǎn),仍然可考慮選為估計(jì)量”2 3.穩(wěn)定性檢驗(yàn) 由于用人口密度抽取的樣本,標(biāo)準(zhǔn)差s=34.65僅為總體S=149.5的九分之二。并且人口密度與其他經(jīng)濟(jì)指標(biāo)相比,在短時(shí)間內(nèi)變動(dòng)要小的多。所以,我們用人口密度抽取的樣本框穩(wěn)定性是有保障的。 4.一致性檢驗(yàn) 因?yàn)槲覀兂闃舆^程嚴(yán)格遵照抽樣技術(shù)的要求進(jìn)行,所以根據(jù)抽樣理論可知,一致性原則通常均能得到滿足。 5.相關(guān)性檢驗(yàn) 用人口密度抽取的樣本,除了應(yīng)該包括總體(昆山市)全部17個(gè)經(jīng)濟(jì)類型(門類)以外,其值分布也必需與總體相關(guān),這樣抽取的樣本才真正具有經(jīng)濟(jì)上的代表性。為此,我們繼續(xù)用年末從業(yè)人員數(shù)進(jìn)行相關(guān)性檢驗(yàn)。 經(jīng)計(jì)算,得到相關(guān)系數(shù)r=0.9668>0.606(=1%)。 由此可見,用人口密度抽取的樣本不僅在經(jīng)濟(jì)類型上與總體完全一樣,而且其數(shù)值分布上也與總體高度一致,所以其經(jīng)濟(jì)代表性可以得到滿足。 從表1看,抽樣調(diào)查法以主營(yíng)業(yè)務(wù)收入為標(biāo)識(shí),按照四分之一抽取樣本,誤差最小的第二組,主營(yíng)業(yè)務(wù)收入也高達(dá)-22.84%,對(duì)于年末從業(yè)人員和主營(yíng)業(yè)務(wù)成本誤差也高達(dá)-12.46%和-22.56%,因此,整群抽樣在此已經(jīng)失效。 再看,抽樣調(diào)查法如果以年末從業(yè)人員為標(biāo)識(shí),按照四分之一抽取樣本,誤差最小的第三組,年末從業(yè)人員誤差為-4.04%,主營(yíng)業(yè)務(wù)收入和主營(yíng)業(yè)務(wù)成本分別為-4.26%和-5.94%。 區(qū)域調(diào)查法以人口密度為標(biāo)識(shí),按照四分之一抽取樣本,年末從業(yè)人員誤差為-5.04%,比抽樣法大1個(gè)百分點(diǎn),主營(yíng)業(yè)務(wù)收入和主營(yíng)業(yè)務(wù)成本誤差為-4.04%和-2.72%,則要小于抽樣法。 從表2看,抽樣調(diào)查法以年末從業(yè)人員為標(biāo)識(shí),按照六分之一抽取樣本,誤差最小的第四組,年末從業(yè)人員誤差為5.81%。 區(qū)域調(diào)查法以人口密度為標(biāo)識(shí),按照六分之一抽取樣本,年末從業(yè)人員誤差為-3.14%,比抽樣法小了將近2.7個(gè)百分點(diǎn)。 由此可見,區(qū)域調(diào)查法即使不以具體經(jīng)濟(jì)統(tǒng)計(jì)指標(biāo)(比如,這兒的“主營(yíng)業(yè)務(wù)收入”和“年末從業(yè)人員”)作為標(biāo)識(shí),同樣可以得到不比抽樣調(diào)查法差的樣本框,而且得到的是廣義樣本框。 抽樣調(diào)查通常都是多目標(biāo)調(diào)查,現(xiàn)行的國(guó)家統(tǒng)計(jì)抽樣調(diào)查制度近50來個(gè),其中調(diào)查項(xiàng)目最少的是“規(guī)模以下工業(yè)企業(yè)抽樣調(diào)查制度”,有8項(xiàng)經(jīng)濟(jì)統(tǒng)計(jì)指標(biāo),即8項(xiàng)目標(biāo)。操作過程是以“產(chǎn)品銷售收入”作為抽樣調(diào)查的標(biāo)識(shí),同時(shí)開展對(duì)全部從業(yè)人員年末數(shù)、工業(yè)總產(chǎn)值、成交稅金、所得稅、營(yíng)業(yè)利潤(rùn)、應(yīng)付工資和折舊等7項(xiàng)指標(biāo)的調(diào)查。由于至今數(shù)學(xué)理論上沒有解決在以一個(gè)目標(biāo)作為標(biāo)識(shí)時(shí),同時(shí)保證其他調(diào)查項(xiàng)目的代表性問題。因而,在用這些非標(biāo)識(shí)指標(biāo)推算總體時(shí),它們的代表性、準(zhǔn)確性、可靠性和可信性都出了問題!所以,抽樣技術(shù)在實(shí)際應(yīng)用中,遇到多目標(biāo)調(diào)查時(shí),只對(duì)作為標(biāo)識(shí)的主要社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)指標(biāo)有代表性,也就是說,目前正在貫徹執(zhí)行的國(guó)家統(tǒng)計(jì)抽樣調(diào)查制度在理論上存上缺陷。 而區(qū)域調(diào)查法只以一個(gè)“人口密度”社會(huì)指標(biāo)作為標(biāo)識(shí),對(duì)社區(qū)(居委會(huì)和村委會(huì))進(jìn)行整群抽樣(我們這次是等群抽樣),是名副其實(shí)的單目標(biāo)抽樣,從而繞過了多目標(biāo)“代表性泥淖”。 在當(dāng)前社會(huì)經(jīng)濟(jì)發(fā)展極其迅速的今天,尤其是對(duì)于像我國(guó)這樣的發(fā)展中大國(guó),社會(huì)日新月異,經(jīng)濟(jì)超常發(fā)展,還沒有等普查資料整理出來(我國(guó)一項(xiàng)大規(guī)模普查,資料的整理到發(fā)布最少需要一年以上,國(guó)外需要2-3年以上),社會(huì)經(jīng)濟(jì)狀況已經(jīng)面目全非,許許多多企業(yè)已經(jīng)消失得無影無蹤,但是它們還存在在我們的樣本框里。即使是直接管理它們的工商局和稅務(wù)局,到年末也無法統(tǒng)一它們的企業(yè)統(tǒng)計(jì)數(shù)字。因此,一年前抽樣調(diào)查建立起來的樣本框的可靠性存在問題。 相比在非不可知因素(比如,戰(zhàn)爭(zhēng)、大規(guī)模災(zāi)變、大規(guī)模疾病流行等)不存在的情況下,人口出生率、人口死亡率和人口流動(dòng)性在一段時(shí)間內(nèi)比較穩(wěn)定,從而保證了區(qū)域內(nèi)人口密度的穩(wěn)定,只要我們行政區(qū)劃發(fā)生變更時(shí),能夠及時(shí)調(diào)整,統(tǒng)計(jì)口徑上不會(huì)產(chǎn)生任何問題。所以,應(yīng)用人口密度抽取的樣本框,通常只需要逢到人口普查和人口抽樣調(diào)查的年份,每5年作一次性重新抽樣即可。 由此可見,人口密度抽取的樣本框穩(wěn)定性,顯然要高于用經(jīng)濟(jì)指標(biāo)作為標(biāo)識(shí)抽取的樣本框。 區(qū)域調(diào)查法是以社區(qū)(城鎮(zhèn)居委會(huì)和農(nóng)村村委會(huì)合稱)為抽樣對(duì)象的整群抽樣。通常以縣(縣級(jí)市和城區(qū))為總體,抽樣單位為社區(qū),樣本量,按照昆山市的經(jīng)驗(yàn),占一個(gè)縣的六分之一左右適宜,各地也可以根據(jù)情況設(shè)八分之一或者十二分之一。社區(qū)無論是居委會(huì)還是村委會(huì)通常都設(shè)會(huì)計(jì)一名,會(huì)計(jì)同時(shí)兼統(tǒng)計(jì)業(yè)務(wù)。市縣統(tǒng)計(jì)局只需要對(duì)這些會(huì)計(jì)作一些業(yè)務(wù)培訓(xùn),提高他們的榮譽(yù)感、使命感、責(zé)任心和業(yè)務(wù)能力,就可以為我們提供很好的服務(wù)。由于區(qū)域調(diào)查法抽中的社區(qū),通常5年才會(huì)變更一次,這些會(huì)計(jì)絕大多數(shù)會(huì)成為業(yè)務(wù)熟練的優(yōu)秀調(diào)查員。就我們統(tǒng)計(jì)部門來說,不需要再為每項(xiàng)抽樣調(diào)查配置調(diào)查員了。 根據(jù)昆山市這次實(shí)例,區(qū)域調(diào)查法實(shí)際上是二階段過程。 第一階段,抽取以社區(qū)為調(diào)查單位的樣本框。這一階段只需要社區(qū)人口和面積二項(xiàng)指標(biāo),計(jì)算出人口密度。為了使抽中的社區(qū)包括全市全部經(jīng)濟(jì)門類,以增加樣本的代表性,在收集社區(qū)人口密度的同時(shí),提供社區(qū)的經(jīng)濟(jì)門類資料,這次經(jīng)濟(jì)普查已經(jīng)包括這些資料,這些社區(qū)樣本框,每5年調(diào)整一次。 第二階段,就是根據(jù)每次抽樣調(diào)查的項(xiàng)目,由社區(qū)提供相應(yīng)的資料。比如,如果我們需要規(guī)模以下服務(wù)業(yè)的資料,就由這些社區(qū)提供相應(yīng)的規(guī)模以下服務(wù)業(yè)資料,根據(jù)這些社區(qū)占全市的比重(以這次經(jīng)濟(jì)普查為基年)和增長(zhǎng)率,就可以推算出全市總體的數(shù)據(jù)了。非特殊原因,基年資料每5年調(diào)整一次。 區(qū)域調(diào)查法以縣(市區(qū))為總體、以社區(qū)(居委會(huì)和村委會(huì))為抽樣對(duì)象的,不需要經(jīng)過街道和鄉(xiāng)鎮(zhèn)一級(jí)的直報(bào)制度,由此可以減少外界的干預(yù)。 (責(zé)任編輯:倪進(jìn)) 10.3969/j.issn.1674-8905.2010.05.021 1《統(tǒng)計(jì)大辭典》.鄭家亨主編,中國(guó)統(tǒng)計(jì)出版社,1995年3月版P 192。 2《實(shí)用推斷統(tǒng)計(jì)方法》.周銘主編,寧夏人民出版社,P 71。(三)幾項(xiàng)重要的檢驗(yàn)
四、幾點(diǎn)結(jié)論
1.區(qū)域調(diào)查法可以得到廣義樣本框
2.區(qū)域調(diào)查法不受多目標(biāo)代表性問題困擾
3.區(qū)域調(diào)查法樣本框穩(wěn)定
4.區(qū)域調(diào)查法是經(jīng)濟(jì)廉價(jià)的調(diào)查方法
5.區(qū)域調(diào)查法是簡(jiǎn)便易行的調(diào)查方法
6.區(qū)域調(diào)查法是抗干擾的調(diào)查方法