劉高生,曹 琴,趙靜文
(1.天津商業(yè)大學(xué) 理學(xué)院,天津 300134; 2.天津城建大學(xué) 經(jīng)濟(jì)與管理學(xué)院,天津 300384)
大數(shù)據(jù)具有免費(fèi)獲取、數(shù)據(jù)量大等優(yōu)點(diǎn),但如果對(duì)大數(shù)據(jù)直接進(jìn)行分析,不僅數(shù)據(jù)量龐大、耗時(shí)長(zhǎng),且計(jì)算效率低。面對(duì)如此龐大的數(shù)據(jù),需要運(yùn)用抽樣技術(shù)進(jìn)行樣本選取,抽取一部分與總體研究對(duì)象高度相關(guān)的樣本量進(jìn)行分析,根據(jù)調(diào)查數(shù)據(jù),對(duì)全體對(duì)象進(jìn)行推斷、估計(jì)。目前,抽樣調(diào)查被廣泛應(yīng)用于各個(gè)領(lǐng)域,需進(jìn)一步研究如何選擇合適的抽樣估計(jì)方法,達(dá)到更好的抽樣估計(jì)效果。
國(guó)外對(duì)抽樣調(diào)查方法的研究可追溯到19世紀(jì)。Kiaer提出了“代表性抽樣”概念,即從總體中抽出一組可代表該總體的樣本。Neyman、Hansen及Mahalanobis等進(jìn)行了進(jìn)一步的研究,提出了更加完整的抽樣調(diào)查方法理論體系。1980年,Metrika對(duì)簡(jiǎn)單估計(jì)、比率估計(jì)等估計(jì)方法的性能進(jìn)行了研究。20世紀(jì)初,Horviz和Thompson提出了無(wú)偏估計(jì)理論,抽樣調(diào)查方法的理論體系日趨完善。
國(guó)內(nèi)關(guān)于抽樣調(diào)查的理論及方法日益豐富。孫山澤[1]等、金勇進(jìn)[2]等對(duì)7種主要調(diào)查方法的公式推導(dǎo)進(jìn)行了研究,給出了這些理論的應(yīng)用條件及方法。盧宗輝[3]等提出了基于對(duì)等概率和不等概率不同抽樣方式下抽樣方差的計(jì)算與比較,研究發(fā)現(xiàn),不等概率抽樣比率估計(jì)比等概率抽樣比率估計(jì)效果更好。鄧明[4]等闡述了基于比率估計(jì)的抽樣方法對(duì)復(fù)雜的時(shí)間序列數(shù)據(jù)季節(jié)指數(shù)的估計(jì),解決了季節(jié)指數(shù)對(duì)觀測(cè)期數(shù)要求高的問(wèn)題。俞純權(quán)[5]討論了有輔助變量可利用時(shí)估計(jì)量的選擇問(wèn)題。喬松珊[6]等利用多輔助信息構(gòu)造了比率估計(jì)。盧玉桂[7]等提出了基于R軟件利用分層抽樣方法,解決完整抽樣框和非完整抽樣框兩種不同情況下樣本選取及對(duì)總體參數(shù)的估計(jì)。賀建風(fēng)[8]等提出了基于大數(shù)據(jù)將切片逆回歸得到的綜合得分作為輔助變量來(lái)構(gòu)造概率,利用不等概率抽樣獲得了更好的抽樣估計(jì)效果。
當(dāng)抽樣調(diào)查中存在輔助變量,且與目標(biāo)變量存在一定的線性關(guān)系時(shí),為估計(jì)總體均值,傳統(tǒng)的抽樣理論方法一般考慮回歸估計(jì),但回歸估計(jì)僅考慮了一個(gè)輔助變量的情況,而當(dāng)抽樣調(diào)查中存在多個(gè)輔助變量時(shí)則無(wú)法有效應(yīng)用。為充分利用變量間的交互信息,將其擴(kuò)展到多個(gè)交互輔助變量的情況,提出了多元交互回歸估計(jì)。在模型中加入交互效應(yīng),不僅可提高模型的解釋能力,還能深入研究交互效應(yīng)變量,這種類似交互式回歸的思想可參考文獻(xiàn)[9-10]。本研究運(yùn)用數(shù)據(jù)可視化的方式,將不同抽樣估計(jì)方法下復(fù)雜的理論結(jié)果用圖形直觀呈現(xiàn)出來(lái),并對(duì)不同抽樣估計(jì)方法進(jìn)行比較分析,為實(shí)際調(diào)查研究提供了一定的方法參考。
在簡(jiǎn)單隨機(jī)抽樣方法中,估計(jì)總體均值常用的估計(jì)方法為簡(jiǎn)單估計(jì)(y.bar)、比率估計(jì)(y.R)及回歸估計(jì)(y.lr)等。其中,簡(jiǎn)單估計(jì)是用樣本均值作為總體均值的估計(jì)。當(dāng)抽樣調(diào)查過(guò)程中存在與主要目標(biāo)變量相關(guān)的輔助變量時(shí),通常可以考慮利用這些輔助變量信息來(lái)提高估計(jì)值的精度。而比率估計(jì)和回歸估計(jì)只考慮了一個(gè)輔助變量的情況,考慮到抽樣調(diào)查的指標(biāo)信息中可能存在多個(gè)輔助變量,故而提出了多元交互式回歸估計(jì)(y.lrm)。
若得到的新的輔助變量很多,且存在很多對(duì)因變量不顯著的變量,可通過(guò)Lasso篩選變量的方法去掉不顯著的變量,如果這些新的輔助變量之間存在一定的相關(guān)性,可利用主成分降維法得到不相關(guān)的主成分,將得到的主成分及其交互項(xiàng)作為新的輔助變量。
設(shè)研究的總體指標(biāo)量為Yj,Xij(i=1,2,3,…k;j=1,2,3…N),從總體中抽取n個(gè)簡(jiǎn)單隨機(jī)樣本,記為:yj,xij(i=1,2,3…k;j=1,2,3…n)。
則多元交互樣本回歸系數(shù)bi(i=1,2,3…,k)可取以下向量的第i個(gè)值;
b=(x′x)-1x′y;
綜上,多元交互回歸估計(jì)的理論如下:
(1)
多元交互回歸估計(jì)的均方偏差的估計(jì)為:
(2)
由于多元交互回歸估計(jì)的方差的估計(jì)計(jì)算公式較為復(fù)雜,提出Bootstrap方法估計(jì)多元交互回歸估計(jì)的方差過(guò)程,基本過(guò)程如下:步驟1:從總體中抽取n個(gè)原始樣本,采用重抽樣技術(shù)從原始樣本中重復(fù)抽取m次產(chǎn)生一定數(shù)量的再生樣本,此過(guò)程允許重復(fù)進(jìn)行,設(shè)定m=300次。步驟2:根據(jù)步驟1中抽取的再生樣本結(jié)果,計(jì)算出多元交互回歸估計(jì)值。步驟3:將步驟1、2、3重復(fù)執(zhí)行m次,即可得到m個(gè)多元交互回歸估計(jì)的估計(jì)值。步驟4:基于步驟3的計(jì)算結(jié)果,計(jì)算出這m個(gè)多元交互回歸估計(jì)值的方差,即為利用Bootstrap方法給出的多元交互回歸估計(jì)方差的估計(jì)。Bootstrap方法估計(jì)方差步驟如圖1所示。
圖1 Bootstrap方法估計(jì)步驟示意圖Fig.1 Step diagram of Bootstrap method estimation
數(shù)值模擬的數(shù)據(jù)集從線性回歸模型Y=0.5X1+0.5X2+0.5X1*X2+e中產(chǎn)生,其中X1服從二項(xiàng)分布為B(1,0.5),X2服從正態(tài)分布N(1,1),誤差項(xiàng)e服從正態(tài)分布N(0,σ2)。多元交互回歸估計(jì)以X1、X2、X1*X2為3個(gè)輔助變量,比率估計(jì)及回歸估計(jì)以X1為輔助變量。
從N=800的總體體中抽取n個(gè)樣本,誤差項(xiàng)的方差設(shè)定分別為σ=0.1、σ=0.5。運(yùn)用簡(jiǎn)單估計(jì)、比率估計(jì)、回歸估計(jì)及多元交互回歸估計(jì)4種方法估計(jì)總體均值。當(dāng)誤差項(xiàng)方差改變時(shí),對(duì)比分析不同的估計(jì)方法對(duì)總體均值的估計(jì)。設(shè)定樣本量n=100,試驗(yàn)重復(fù)抽取m=300次,得到4種估計(jì)的箱線圖如圖2所示。
圖2 樣本均值估計(jì)箱線圖Fig.2 Box plot of sample mean estimation
在無(wú)偏估計(jì)的條件下,抽樣調(diào)查方法模型的均值估計(jì)量越集中,則估計(jì)方差越小,估計(jì)效果越好。從圖2可知,當(dāng)固定樣本量,誤差項(xiàng)方差變大時(shí),4種估計(jì)的四分位差都變大,估計(jì)效果都變差。當(dāng)固定誤差項(xiàng)方差時(shí),簡(jiǎn)單隨機(jī)抽樣中的簡(jiǎn)單估計(jì)的四分位差較大,估計(jì)效果較差,比率估計(jì)與回歸估計(jì)四分位差相差不大,估計(jì)效果相差不大,而在回歸估計(jì)的基礎(chǔ)上提出的多元交互回歸估計(jì)的四分位差最小,估計(jì)效果較好。
對(duì)模擬數(shù)據(jù)集抽取n1=100、n2=200、n3=300、n4=400的樣本,對(duì)比探究估計(jì)量的偏差及方差變化。利用Bootstrap方法,重復(fù)抽取m=300次,在σ=0.5的情況下得到這4種估計(jì)方法的估計(jì)偏差折線圖如圖3所示。
圖3 估計(jì)偏差折線圖Fig.3 Line plot for estimating deviations
由圖3可知,這4種估計(jì)的偏差都較小。當(dāng)n=100、200、300時(shí),簡(jiǎn)單隨機(jī)抽樣中的簡(jiǎn)單估計(jì)的偏差估計(jì)小于比率估計(jì)與回歸估計(jì)的偏差估計(jì),而當(dāng)n=400時(shí),比率估計(jì)與回歸估計(jì)的偏差估計(jì)均小于簡(jiǎn)單估計(jì)的偏差估計(jì),而多元交互回歸估計(jì)在任何樣本情況下的偏差估計(jì)量都是最小的。
由圖4可知,固定估計(jì)方法隨著樣本量的增加,估計(jì)方差在減小,估計(jì)精度隨之提高,當(dāng)n=400時(shí),估計(jì)方差是最小的。在固定樣本量時(shí),簡(jiǎn)單估計(jì)的方差最大,比率估計(jì)與回歸估計(jì)的估計(jì)方差相當(dāng),多元交互回歸估計(jì)的估計(jì)方差最小,估計(jì)效果最好。簡(jiǎn)單估計(jì)的估計(jì)效果最差,主要是因?yàn)楹?jiǎn)單估計(jì)沒(méi)有利用輔助變量信息,而比率估計(jì)、回歸估計(jì)及多元交互回歸估計(jì)利用了輔助變量信息,從而提高了估計(jì)精度。比率估計(jì)與回歸估計(jì)利用了一個(gè)輔助變量,估計(jì)方差比簡(jiǎn)單估計(jì)要小,而多元交互回歸估計(jì)利用了多個(gè)輔助變量及交互信息,估計(jì)方差最小,估計(jì)效果最好。
圖4 Boostrap方法得到的方差估計(jì)折線圖Fig.4 Line chart of variance estimation gained by Boostrap
圖5給出了不同方法下方差的估計(jì)條形對(duì)比圖,藍(lán)色表示利用Bootstrap方法得到的估計(jì)均值算出的方差的估計(jì),綠色表示利用估計(jì)方法的計(jì)算公式得到的方差的估計(jì)。將運(yùn)用Bootstrap方法對(duì)方差進(jìn)行估計(jì)的結(jié)果與傳統(tǒng)公式計(jì)算方差的估計(jì)結(jié)果進(jìn)行比較可知,兩種估算方法下的估計(jì)方差都隨著樣本量的增加而減小,當(dāng)樣本量很大時(shí),兩種方法得到的方差估計(jì)大致相等,這說(shuō)明利用Bootstrap方法對(duì)均值方差進(jìn)行估計(jì)所得的結(jié)果是合理有效的,可彌補(bǔ)傳統(tǒng)抽樣理論中方差估計(jì)計(jì)算復(fù)雜的缺陷,對(duì)抽樣方法理論及實(shí)際應(yīng)用具有一定的意義。
圖5 方差的估計(jì)條形對(duì)比圖Fig.5 Bar comparison chart of variance estimation
實(shí)例分析使用的數(shù)據(jù)集為Bike Sharing Dataset[11],包括N=731條觀測(cè)數(shù)據(jù),變量數(shù)目為7個(gè),其中包括6個(gè)自變量、1個(gè)因變量。各個(gè)變量的指標(biāo)含義如下:workingday-(X1)工作日,weathersit-(X2)天氣情況,temp-(X3)溫度,atemp-(X4)體感溫度,hum-(X5)濕度,windspeed-(X6)風(fēng)速,cnt-(Y)共享單車租賃數(shù)量。
對(duì)變量進(jìn)行相關(guān)分析可知,溫度、體感溫度與共享單車租賃數(shù)量相關(guān)系數(shù)接近0.6,天氣情況、濕度、風(fēng)速等研究變量都與共享單車租賃總數(shù)有一定的線性相關(guān)性,但是相關(guān)性較弱,而工作日的相關(guān)性程度最弱。為避免輔助變量間存在多重共線性,選擇體感溫度和天氣情況作為輔助變量。為估計(jì)共享單車租賃數(shù)量的均值,比率估計(jì)及回歸估計(jì)只利用體感溫度這個(gè)輔助變量,而多元交互回歸估計(jì)利用體感溫度、天氣情況及交互信息作為輔助變量。
從N個(gè)總體中隨機(jī)抽取樣本量分別為100、400的樣本,重復(fù)抽取300次,采用簡(jiǎn)單估計(jì)、比率估計(jì)、回歸估計(jì)及多元交互回歸估計(jì)方法估計(jì)共享單車租賃數(shù)量的均值,得到不同樣本量情況下估計(jì)量的箱線圖如圖6所示。
圖6 均值估計(jì)箱線圖Fig.6 Box plot of mean estimation
由表1、表2可知,隨著抽取樣本量的增加,這4種估計(jì)的方差都在減少。在固定樣本量的條件下,簡(jiǎn)單估計(jì)的四分位距最大,多元交互式回歸估計(jì)的四分位距最小,比率估計(jì)和回歸估計(jì)的四分位距相差不大,說(shuō)明提出的多元交互回歸估計(jì)在實(shí)際數(shù)據(jù)中估計(jì)效果較好。隨著抽取樣本量的增加,幾種方法得到的估計(jì)異常值有所增加,且數(shù)據(jù)異常值正負(fù)都有,這是由于樣本均值在樣本量很大的情況下服從正態(tài)分布導(dǎo)致的,結(jié)果合理。
表1 n=100的均值估計(jì)Tab.1 Mean estimation of n=100
表2 n=400的均值估計(jì)Tab.2 Mean estimation of n=400