肖海燕
(山西大同大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,山西大同037009)
網(wǎng)絡(luò)科技的迅猛發(fā)展,使以電話、寄郵件等傳統(tǒng)的抽樣調(diào)查方法發(fā)生了根本性的改變?,F(xiàn)在,人們更喜歡利用互聯(lián)網(wǎng)快捷的傳播優(yōu)勢,去完成各種各樣的抽樣調(diào)查工作。同時(shí),大數(shù)據(jù)的出現(xiàn),對其的挖掘和分析可以逐步替代以小樣本估計(jì)總體的抽樣調(diào)查方法。大數(shù)據(jù)有其數(shù)據(jù)龐大的優(yōu)勢,數(shù)據(jù)越多,從理論上說配合適當(dāng)?shù)臄?shù)據(jù)統(tǒng)計(jì)分析方法,會更接近總體指標(biāo)的真實(shí)水平。但第一不是每個(gè)研究者都可以很輕松、低成本地獲得這樣一個(gè)龐大的數(shù)據(jù)庫;第二大數(shù)據(jù)本身很復(fù)雜,且有很多不相關(guān)的數(shù)據(jù)在里面,如何利用好的方法去提取最有效的信息,排除無關(guān)的數(shù)據(jù),將是一個(gè)有待研究的命題;第三是有些調(diào)查,如需要了解一個(gè)學(xué)?;蛞粋€(gè)地區(qū)的某些指標(biāo),也不可能從網(wǎng)絡(luò)中得到一個(gè)相關(guān)的大數(shù)據(jù)。所以以樣本分析總體的抽樣調(diào)查方法不會被大數(shù)據(jù)取代。[1-4]
抽樣調(diào)查以每個(gè)樣本單元的入樣概率是否已知,分為概率抽樣與非概率抽樣。非概率抽樣主要適用于抽樣框不完善,抽樣也不能按照隨機(jī)原則進(jìn)行,而是按照研究人員的主觀經(jīng)驗(yàn)或其他條件來提取樣本的情況。非概率調(diào)查的方法在大數(shù)據(jù)發(fā)展的今天被廣泛應(yīng)用。據(jù)統(tǒng)計(jì),市場調(diào)查中有70%的項(xiàng)目是非概率調(diào)查。為了研究非概率調(diào)查估計(jì)結(jié)果的準(zhǔn)確性與可信性,本文主要對非概率抽樣樣本容量的確定方法進(jìn)行了闡述。
非概率抽樣的總體單元難以分辨,界限模糊不清。所以在用非概率抽樣時(shí)由有經(jīng)驗(yàn)的專家進(jìn)行判斷,可以提高抽樣估計(jì)的效率。現(xiàn)在利用互聯(lián)網(wǎng)可以有效地實(shí)現(xiàn)非概率調(diào)查數(shù)據(jù)的搜集。主要有以下方法:
網(wǎng)絡(luò)抽樣經(jīng)常被形象地稱為“滾雪球抽樣”。這種非概率抽樣方法在網(wǎng)絡(luò)上能夠容易、快速地實(shí)現(xiàn)樣本選取。它是調(diào)查員事先選定一個(gè)或多個(gè)“種子”樣本點(diǎn),通過他們的關(guān)系網(wǎng)找到其他的被調(diào)查單元,從而使樣本量逐漸地?cái)U(kuò)大,直至接近于研究總體要求的樣本量。
有很多的抽樣調(diào)查都可以用網(wǎng)絡(luò)抽樣調(diào)查法。如要調(diào)查的對象是農(nóng)民工群體,保姆群體等。這些群體的人員總體不能確定,對于調(diào)查人員也很難找到群體中的每一個(gè)人。但對于被調(diào)查者,他們可能在找工作或在工作的過程中,會接觸到更多這樣的被調(diào)查單元,并且利用他們的關(guān)系網(wǎng),能夠快速、有效地增加應(yīng)答單元。
網(wǎng)絡(luò)調(diào)查通常被學(xué)者認(rèn)為由于在抽取過程中的主觀性而難具有推斷總體特征的能力。但否定這種樣本對總體的代表性似乎也不合理。所以可以用類似概率抽樣的方法進(jìn)行網(wǎng)絡(luò)抽樣,就可以利用合理的模型進(jìn)行非概率抽樣分析推斷。例如有一種方法叫作“應(yīng)答驅(qū)動抽樣”。是根據(jù)專家的縝密分析,以形成總體單元入選樣本的基本條件,然后主觀地給樣本點(diǎn)賦于一定的入樣概率。最后通過網(wǎng)絡(luò)抽樣,在一定的條件下,可以獲得一個(gè)近似于概率抽樣的樣本。這種方法已經(jīng)被應(yīng)用于艾滋病患者、吸毒人員等的調(diào)查中,并被證明是一種有效的抽樣方法。
定額抽樣也稱為配額抽樣,是將總體單元按照某個(gè)可控制的特征,將其分成幾個(gè)類別,然后給每一類別按照事先確定的比例或數(shù)量(即配額),用網(wǎng)絡(luò)調(diào)查的方式或者判斷抽樣方法選取樣本點(diǎn)。這種方法類似于概率調(diào)查中的分層抽樣。
在操作上分類的標(biāo)志通常是總體單元的某些屬性、特征,稱為“控制特征”,如被調(diào)查者的年齡、性別等。抽取樣本時(shí)按照各個(gè)控制特征來完成各類中的配額。
定額抽樣在各個(gè)類別中由于主觀性強(qiáng),給予調(diào)查員太多的自由調(diào)查的權(quán)利,所以不能確定樣本的代表性是否足夠地好。但被廣泛應(yīng)用的條件是抽選取樣本點(diǎn)時(shí)不需要精確的抽樣框,也不必使調(diào)查員象調(diào)查確定的受訪者一樣浪費(fèi)太多的時(shí)間,而且很多定額調(diào)查研究的結(jié)果接近于概率抽樣中的分層抽樣的結(jié)果,所以經(jīng)濟(jì)性更強(qiáng)。
另兩種方法是間接抽樣和適應(yīng)性抽樣,但這兩種方法更接近于概率抽樣方法。間接抽樣是把目標(biāo)總體與一個(gè)與其相關(guān)的非目標(biāo)總體單元聯(lián)接,以確定目標(biāo)總體的選擇概率。適應(yīng)性抽樣是根據(jù)第一階段的樣本密度估計(jì)不同的比率來確定第二階段增加的抽樣單元。
估計(jì)精度是決策者允許樣本估計(jì)量出現(xiàn)的誤差??梢愿鶕?jù)變異系數(shù)、方差、絕對精度與相對精度作為估計(jì)精度。但根據(jù)人們的思維習(xí)慣,經(jīng)常以絕對精度和相對精度作為判斷標(biāo)準(zhǔn)。
絕對精度也稱絕對誤差限,是指估計(jì)量與實(shí)際量的差異,一般用d表示。即要求例如需要估計(jì)某城市居民每月每戶用于食物的消費(fèi)支出額度。則預(yù)先設(shè)定估計(jì)量的絕對誤差不超過40元。
相對精度也稱相對誤差限,是指絕對精度與實(shí)際量的比值,一般用h表示。即要求例如,估計(jì)山西省城市居民收入情況,規(guī)定調(diào)查收入與真實(shí)值的誤差不超過1%。
抽樣調(diào)查是一項(xiàng)實(shí)踐活動,調(diào)查費(fèi)用通常是一個(gè)必須考慮的因素。分析費(fèi)用對樣本容量的限制變得十分有意義。
調(diào)查費(fèi)用一般根據(jù)會計(jì)中費(fèi)用的分類,分為固定費(fèi)用類與可變費(fèi)用類。公式簡單地表示為T=F0+nF1。其中T為總費(fèi)用,F(xiàn)0為固定費(fèi)用,F(xiàn)1為單位可變費(fèi)用,n為樣本容量。
固定費(fèi)用是不隨樣本量變化的費(fèi)用,例如調(diào)查團(tuán)隊(duì)前期準(zhǔn)備需要的費(fèi)用,對調(diào)查人員的培訓(xùn)費(fèi)用等??勺冑M(fèi)用是調(diào)查每個(gè)受訪者所需要的費(fèi)用?,F(xiàn)在很多抽樣是在網(wǎng)絡(luò)上完成的,為了問卷回收率高一些,需要對積極參與的被調(diào)查者采取一些激勵措施,而這些所需要的費(fèi)用也是包括在可變費(fèi)用中的。
在決策問題中,估計(jì)量的誤差會在決策中造成損失,也會影響到樣本容量的選取。損失可以利用所得到的樣本信息的貨幣收益來測定,一般表現(xiàn)為期望收益。例如最常用的一個(gè)損失函數(shù)為其中Z為估計(jì)誤差。我們一般采用無偏估計(jì)量樣本平均值來估計(jì)總體均值,這樣就有,其中n表示樣本容量,N表示總體容量,S2表示方差。
如果費(fèi)用固定,那么樣本量的上限就可以確定。假定費(fèi)用函數(shù)為T=F0+nF1,那么樣本容量的上限就可以確定為
給定絕對精度d,在1-α的置信度下,要求
當(dāng)N比較大時(shí),可粗略地取
其中S2可通過預(yù)查法得到。即對總體先做一個(gè)樣本量較少的調(diào)查計(jì)算。
如果是相對精度,則還是用前面的方法得到:
當(dāng)N比較大時(shí),這個(gè)公式可粗略地表示為:
樣本量可以取np與nl的最小值,即:n=min{np,nl}。
損失函數(shù)l(z)是由誤差z和樣本量n決定的。估計(jì)值的誤差z雖然不能事先預(yù)測,但根據(jù)抽樣理論可以求出其分布密度,繼而求出期望損失,公式是:
這樣考慮的問題便是樣本量為多少可以使總費(fèi)用與損失的和降到最低。記這兩項(xiàng)的和為F()n,那么例如經(jīng)常用到的損失函數(shù)在估計(jì)總體均值的時(shí),是用樣本均值作為估計(jì)量的。因?yàn)?即是Yˉ的無偏估計(jì)量,而誤差,則在簡單隨機(jī)抽樣中就有
抽樣方案復(fù)雜,混合著多種抽樣方法,例如分層抽樣、多階抽樣,可以簡化抽樣容量確定的方法。一般需要借助簡單隨機(jī)抽樣的結(jié)果和方案設(shè)計(jì)效應(yīng)來確定。即:n=n0·( )Deff,其中n為復(fù)雜方案的樣本容量,n0為簡單隨機(jī)抽樣的樣本容量,Deff(Design effect)為方案設(shè)計(jì)效應(yīng)。這里方案設(shè)計(jì)效應(yīng)Deff是指對于同一目標(biāo)量調(diào)查單位相同時(shí),復(fù)雜抽樣的方差與簡單隨機(jī)抽樣的方差的比值。即
非概率抽樣方法中樣本的確定方法可以參照相應(yīng)的概率抽樣方法中樣本量確定的方法。但在很多抽樣下,也常常利用經(jīng)驗(yàn)來確定樣本量,當(dāng)然這些經(jīng)驗(yàn)是建立在一定的統(tǒng)計(jì)方法下的經(jīng)驗(yàn)積累的成果。經(jīng)很多研究表明:總體容量比較小的要采取抽樣比大的樣本量,而總體容量較大的采取抽樣比相對小些的樣本也會得到較高的估計(jì)精度。
[1]杜子芳.抽樣技術(shù)及其應(yīng)用[M].北京:清華大學(xué)出版社,2005.
[2]金勇進(jìn),劉展.大數(shù)據(jù)背景下非概率抽樣的統(tǒng)計(jì)推斷問題[J].統(tǒng)計(jì)研究,2016,33(6):11-17.
[3]劉林平,范長煜,王婭.被訪者驅(qū)動抽樣在農(nóng)民工調(diào)查中的應(yīng)用:實(shí)踐與評估[J].社會學(xué)研究,2015(2):149-173.
[4]邵志強(qiáng).抽樣調(diào)查中樣本容量的確定方法[J].統(tǒng)計(jì)與決策,2012(22):12-14.