馬金萍,郜珍
(西安財經(jīng)學院統(tǒng)計學院,西安710100)
20世紀70年代末,方開泰與王元合作創(chuàng)立了均勻設(shè)計(簡記UD)試驗法。均勻設(shè)計是數(shù)論中的一致分布理論與多元統(tǒng)計相結(jié)合,屬于偽蒙特卡羅方法的范疇。它可保證每個因素的每個水平僅做一次試驗,試驗次數(shù)比全面試驗及正交設(shè)計明顯減少,使均勻設(shè)計特別適合多因素多水平的試驗。均勻設(shè)計表記為Un(qs),其中U表示均勻設(shè)計,n表示做n次試驗,q表示每個因素有q個水平,s表示該表有s列。
對于任意一個正整數(shù)m,定義:
其中1≤nv≤n-1,v=1,2,…,m。
如取式(1)中的n1=1,nv=av,v=2,…,m(其中1<a<n為本原根),則記式(1)的H(·)為:
王元、方開泰提出的均勻設(shè)計點集的選取步驟為:
第一步:在式(1)中取m=d,求使此時的式(1)達到最小的向量(h1,h2,…,hd)(稱為生成向量);
第二步:令:則點集φn={ak=(ak1,ak2,…,akd),k=1,2,…,n}稱為Cd中的均勻設(shè)計點集。
在此通過實例應(yīng)用均勻設(shè)計進行多目標抽樣調(diào)查方案設(shè)計,分析西安市居民吸煙的影響因素。
我國是世界上最大的煙草生產(chǎn)國和消費國。根據(jù)國家衛(wèi)生計生委的數(shù)據(jù),全國吸煙人數(shù)超過3億,15歲以上的人群吸煙率為28.1%。提高煙草稅凸現(xiàn)出我國以重稅控煙的決心。掌握國民吸煙的基本情況,對加強控煙政策具有重要意義。
本次調(diào)查數(shù)據(jù)來源于西安市統(tǒng)計研究院,以西安市民吸煙同志為總體,采用隨機抽樣的方法選取抽樣對象共3400人,分析西安市民吸煙同志每日吸煙量與單位、月收入、年齡之間的關(guān)系。單位性質(zhì)在調(diào)查表里設(shè)計為事業(yè)單位、政府機關(guān)、國有企業(yè)、私營企業(yè)、外資企業(yè)、其他六大類;月收入為分段數(shù)據(jù),表現(xiàn)為1500元以下、1500~3000元、3000~5000元、5000~10000元、10000元以上五個數(shù)據(jù)段;煙齡亦為分段數(shù)據(jù),表現(xiàn)為4~10年、11~20年、20年以上。下面利用均勻設(shè)計的方法來進行研究。
由于本文調(diào)查的數(shù)據(jù)中,工作單位性質(zhì)類型是定性變量,其他為分段數(shù)據(jù)。因此對分段數(shù)據(jù),可以取其中位數(shù)進行研究。具體各因子水平如下:
自變量水平
A:單位性質(zhì)1—事業(yè)單位,2—政府機關(guān),3—國有企業(yè),4—私營企業(yè),5—外資企業(yè),6—其他;
B:月收入1265—≤1500元,2250—1500~3000元,4000—3000~5000元,7500—5000~10000元,20000—>10000元;
C:煙齡7—4~10年,15—11~20年,27—>20年。因變量水平
Y:每日吸煙量3—≤5支,8—6~10支,15—11~20支,24—>20支。
其中月收入中≤1500元用1265做水平,>10000元用20000做水平是根據(jù)西安市當年的收入水平作參考而擬定的;煙齡4~10年用7做水平,>20年用27做水平是數(shù)據(jù)調(diào)查組在調(diào)查過程中該段數(shù)據(jù)的算術(shù)平均數(shù)。
由于沒有合適的均勻設(shè)計表可供使用,可用擬水平進行構(gòu)造。由文獻[3]附錄可知U31(3130)及其使用表,從而可得U30(303),根據(jù)使用表的推薦選擇1,9,22列。A,B,C因素實際沒有30個水平,但從試驗次數(shù)考慮,需要把因素A在一列中的{1,2,3,4,5}以1擬,{6,7,8,9,10}以2擬,{11,12,13,14,15}以3擬,{16,17,18,19,20}以4擬,{21,22,23,24,25}以5擬,{26,27,28,29,30}以6擬。
因素B在一列中的{1,2,3,4,5,6}以1擬,{7,8,9,10,11,12}以2擬,{13,14,15,16,17,18}以3擬,{19,20,21,22,23,24}以4擬,{25,26,27,28,29,30}以5擬。
因素C在一列中的{1,2,3,4,5,6,7,8,9,10}以1擬,{11,12,13,14,15,16,17,18,19,20}以2擬,{21,22,23,24,25,26,27,28,29,30}以3擬。從而構(gòu)造了混合水平的設(shè)計表U30(61×51×31)如表1所示。
表1 U30(61×51×31)與抽樣調(diào)查數(shù)據(jù)
由表1可知,每個組合的個案數(shù)差異較大。根據(jù)個案數(shù)特點,抽查的數(shù)據(jù)中個案數(shù)在30以內(nèi)的取其平均數(shù),個案數(shù)大于30的,運用等距抽樣方式,確定樣本距離為30,從1~N相繼編號的樣本中抽取第30個單位,接著取第60,90個單位,……,直至抽完。
對上述的樣本,建立模型進行數(shù)據(jù)分析。依經(jīng)驗考慮多元線性回歸模型y=b0+b1x1+b2x2+...+bmxm+ε,其中Eε=0,Dε=02;b0,b1,...,bm,ε是未知參數(shù),x1,x2,…,xm是自變量,y是因變量。
在實際問題中,變量間的關(guān)系可能是線性的,也可能是非線性的。由于月收入和煙齡兩因素的數(shù)據(jù)特點,在線性回歸中為了得到更規(guī)范的結(jié)果,將表1中各因素的各水平對每日吸煙量進行多元逐步回歸分析,在SPSS中進行曲線估計,最終考慮對數(shù)曲線模型y=b0+b1x1+b2lnx2+b3lnx3,其中b0,b1,b2,b3是未知參數(shù),x1,x2,x3分別是A,B,C各因子,y是因變量Y,得到如下結(jié)果。
表2 方差分析
逐步回歸之后,對此時的回歸方程進行整體檢驗,由表2中可以看出,F(xiàn)統(tǒng)計量的觀測值為196.245,即在顯著性水平為0.05的情形下,認為y與x1,lnx2,lnx3具有線性關(guān)系。
表3 回歸系數(shù)表
表3給出了回歸參數(shù)的估計值及其假設(shè)檢驗,同時可得到多元回歸方程為:
y=-10.254-0.116x1+1.712lnx2+3.636lnx3
從其t統(tǒng)計量對應(yīng)的相伴概率均遠小于0.05可以判定,所有模型的回歸系數(shù)都是顯著的。從數(shù)據(jù)可見單位性質(zhì)對每日吸煙量影響較小,而煙齡對每日吸煙量影響最大,其次是月收入。所以,控煙應(yīng)從青少年時期開始,降低將來吸煙的風險。
應(yīng)用均勻設(shè)計解決多因素多水平問題是較好的方法,利用均勻設(shè)計的思想來設(shè)計抽樣調(diào)查方案是一種有效可行的方法,樣本滿足“均勻分散”,減少了試驗次數(shù),節(jié)約了時間和費用,同時又能獲得對試驗對象較全面的研究。
參考文獻:
[1]王元,方開泰.關(guān)于均勻分布與試驗設(shè)計(數(shù)論方法)[J].科學通報,1981,(26).
[2]方開泰.均勻設(shè)計[J].戰(zhàn)術(shù)導彈技術(shù),1994,(2).
[3]方開泰.均勻設(shè)計與均勻設(shè)計表[M].北京:科學出版社,1994.
[4]覃紅.混水平均勻設(shè)計的構(gòu)造[J].應(yīng)用數(shù)學學報,2005,28(4).
[5]張艮霞,王桂芝.均勻設(shè)計在抽樣調(diào)查中的應(yīng)用[J].山西大學學報:自然科學版,2008,31(3).
[6]劉永才.均勻設(shè)計及其應(yīng)用[J].戰(zhàn)術(shù)導彈技術(shù),2002,(1).