蘇州大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計學(xué)教研室(215123) 傅 穎 高 歌劉升學(xué) 周云華 施佳琛
樣本輪換下兩階段抽樣連續(xù)調(diào)查的統(tǒng)計方法及應(yīng)用*
蘇州大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計學(xué)教研室(215123) 傅 穎 高 歌△劉升學(xué) 周云華 施佳琛
目的為實際需要的樣本輪換下兩階段抽樣連續(xù)調(diào)查提供科學(xué)的調(diào)查方法與統(tǒng)計公式,為制定某核電站職工輻射防護措施提供依據(jù)。方法采用數(shù)理統(tǒng)計學(xué)的理論方法推導(dǎo)統(tǒng)計量的計算公式;采用本文研究的樣本輪換下兩階段抽樣連續(xù)調(diào)查的統(tǒng)計方法,對某核電站職工的白細胞數(shù)進行了連續(xù)三年的調(diào)查分析;采用SAS編程模擬調(diào)查分析100個樣本,對本文研究的調(diào)查方法及其統(tǒng)計公式作信度與效度評價。結(jié)果對樣本輪換下兩階段抽樣連續(xù)調(diào)查,推導(dǎo)出總體均值的估計量及其方差與估計方差的計算公式;該核電站職工兩階段抽樣均輪換樣本的2010年、2011年白細胞數(shù)總體均值的估計量分別為5.88、5.84(103/mm3),其標準誤分別為0.247、0.255,與一般成人白細胞均數(shù)的差異具有統(tǒng)計學(xué)意義;100個總體均數(shù)的95%可信區(qū)間均包含模擬總體均數(shù)。結(jié)論本文研究的樣本輪換下兩階段抽樣連續(xù)調(diào)查的統(tǒng)計方法具有較好的理論與實際意義以及較高的效度與信度;該核電站職工的白細胞數(shù)偏低,應(yīng)引起相關(guān)部門的高度重視。
兩階段抽樣 樣本輪換 連續(xù)調(diào)查 核電站職工 白細胞
為了調(diào)查總體在不同時間上的水平變化、平均水平或者累計,連續(xù)調(diào)查的方法已廣泛采用。樣本疲勞和代表性下降是多次調(diào)查固定樣本的兩個不可忽視的問題。不同次調(diào)查中重新抽取新樣本,也存在以下幾個嚴重問題:不能很好地體現(xiàn)出總體隨時間的變化;不能以固定樣本的前期資料對現(xiàn)期總體做出精度較高的回歸組合估計;調(diào)查時間、費用、操作要求均比固定樣本高。樣本輪換(sample rotation)是指在樣本容量不變的前提下,每隔一定時間更換部分樣本單元,既保留了部分原有樣本單元,又增加了部分新樣本單元,所以兼有全新樣本與固定樣本的優(yōu)點,是控制系統(tǒng)誤差、減小抽樣誤差、提高估計精度、減少調(diào)查費用的重要手段,是國內(nèi)外統(tǒng)計專業(yè)公認的在連續(xù)調(diào)查中采用的好方法。
目前,國內(nèi)外對一次性(橫斷面)抽樣調(diào)查的統(tǒng)計方法研究較多,理論及方法也比較成熟;而對于連續(xù)抽樣調(diào)查,主要局限于樣本輪換下簡單隨機抽樣調(diào)查的研究。本文對實際調(diào)查中常需采用的樣本輪換下兩階段抽樣連續(xù)調(diào)查的統(tǒng)計方法進行了研究。
1.調(diào)查方法
在兩階段樣本均輪換的過程中,第一階段是初級單元的輪換,使現(xiàn)期初級樣本單元中既有保留的初級單元,又有輪換的初級單元,在輪換的初級單元中所有次級單元均是新樣本。第二階段是在保留的初級單元中對次級單元進行輪換,使現(xiàn)期次級單元中既有保留的次級單元,又有輪換的次級單元。對于初級單元和次級單元均按照最優(yōu)樣本輪換率計算輪換和保留的個數(shù)并實施簡單隨機抽樣進行相應(yīng)的輪換和保留。
設(shè)總體包含L個初級單元,第i個初級單元包含Ni個次級單元。初級單元的樣本容量為l,第i個初級單元的樣本容量為ni,第h次調(diào)查保留初級單元數(shù)為vh,輪換初級單元數(shù)為別是第一階段與第二階段的抽樣比。記Yhij為第h次抽樣時總體第i個初級單元中第j個次級單元的指標值,i=1,2,…,L;j=1,2,…,Ni。yhij為第h次抽樣時樣本第i個初級單元中第j個次級單元的指標值,i=1,2,…,l;j=1,2,…,ni。
2.總體均值的估計量
在樣本輪換下的簡單隨機抽樣,前人已給出第h次抽樣總體均值的組合估計量,因第h次抽中的第i個保留初級單元內(nèi)作樣本輪換下的簡單隨機(第二階段)抽樣,故第h次抽中的第i個保留初級單元按次級單元指標均值的組合估計量為[1-2]:
因第h次抽中的第i個輪換初級單元,是采用簡單隨機抽樣獲取的新樣本,所以第i個輪換初級單元按次級單元指標樣本均值為:
這里,yhuij為第h次抽中的第i個輪換初級單元第j個次級單元的指標值,則兩階段樣本都輪換的第h次總體均值的估計量為[1-2]:
3.總體均值估計量的方差
對(3)式按方差的性質(zhì),總體均值估計量的方差為:
其中,根據(jù)初級單元大小不等的不放回抽樣的研究結(jié)果可知[3-5]:
因第h次抽中的第i個保留初級單元內(nèi)作樣本輪換下的連續(xù)抽樣調(diào)查,故(7)式中的計算公式為[3-5]:
職業(yè)放射損傷是以造血組織損傷為主,而職業(yè)群體的血細胞變化特點是以中性粒細胞為主的白細胞降低,以及血紅蛋白、血小板的下降[6]。為了了解某核電站職工的健康狀況及其在連續(xù)時間上的水平變化,探討職業(yè)病危險因素,我們對該核電站職工的白細胞數(shù)進行了兩階段抽樣下樣本輪換連續(xù)三次(年)的調(diào)查分析。
1.調(diào)查設(shè)計
(1)調(diào)查對象 以2009-2011年中國某核電站(共22個處)全體職工為調(diào)查對象,調(diào)查指標為血液學(xué)指標白細胞(WBC)數(shù)(103/mm3)。
(2)調(diào)查方法
采用兩階段抽樣下樣本輪換的連續(xù)調(diào)查,以處為初級單元,以職工為次級單元,初級單元和次級單元均進行樣本輪換。對總體22個處(L=22)統(tǒng)一編號。根據(jù)相關(guān)公式[5]估計得:2009年(h=1)按40%的抽樣比隨機抽取9個處(l=9),每個抽中處按45%的抽樣比隨機抽取次級單元組成2009年的樣本;2010年輪換初級單元數(shù)u2=6,保留初級單元數(shù)v2=3;2011年輪換初級單元數(shù)u3=5,保留初級單元數(shù)v3=4(表1)。首先在初級單元進行樣本輪換,保留部分舊的處,換入部分新的處,保持l=9不變。新?lián)Q入的各處中仍按45%的抽樣比隨機抽取次級單元;保留的各處中保留部分舊的次級單元,換入部分新的次級單元(舊的次級單元和新的次級單元來自同一個處)。2009、2010、2011年分別調(diào)查次級單元(職工)199人、218人、202人,共調(diào)查619人次。
表1 2009-2011年樣本處及其調(diào)查人數(shù)
(3)質(zhì)量控制
蘇州大學(xué)醫(yī)學(xué)部前身隸屬于核工業(yè)部,長期以來與各核電站保持著良好的課題合作關(guān)系,本次調(diào)查亦得到了該核電站的大力支持。在本次調(diào)查之前對調(diào)查員組織培訓(xùn),讓其了解整個課題的意義并掌握樣本輪換的具體實施步驟。所采血液樣本亦是由專人送指定醫(yī)院測定,實驗室檢查結(jié)果返回后數(shù)據(jù)采用雙人錄入并校對。
2.調(diào)查分析結(jié)果
(1)2009年的調(diào)查計算結(jié)果
因第一年未涉及樣本輪換,所以按照一般(非輪換樣本)二階段抽樣均值的算法,得2009年的均值ˉy=6.26(103/mm3)。
(2)2010年的調(diào)查計算結(jié)果
基本指標vh、uh、nhi、uhi、mhi、Φh、Φhi等根據(jù)本研究提供的相關(guān)公式(本文從略)或按文獻[3-5]估計。
①總體均值的估計量
由式(2)計算得第7、8、11、15、17、20六個輪換處均值的估計值分別為5.54、5.91、6.47、5.53、 5.55、5.71(103/mm3),則按式(3)計算得輪換處均值的估計值為5.79(103/mm3)。
由式(3)得2010年總體均值估計量:
②總體均值估計量的方差
由式(4)得2010年總體均值估計量的估計方差:
(3)2011年的調(diào)查計算結(jié)果
(4)統(tǒng)計推斷
一般成人白細胞數(shù)的平均值為6.50(103/mm3),將樣本輪換后的2010年、2011年該核電站職工白細胞樣本均數(shù)分別與之比較做Z檢驗,結(jié)果如表2。表中可見兩個總體均值的95%可信區(qū)間均不包含正常均值,P值均小于0.05,表明該核電站職工2010年及2011年白細胞數(shù)的總體均值低于一般成人的總體均值。
表2 核電站職工與正常人白細胞數(shù)(103/mm3)的比較
1.基于計算機模擬的效度信度評價方法
以本文應(yīng)用實例中該核電站為模擬總體,包含22個初級單位,次級單位數(shù)共3500。以次級單位(職工)白細胞數(shù)2010年調(diào)查所得樣本均數(shù)5.88、標準差2.11作為模擬總體的參數(shù)。通過SAS編程:建立模擬總體;模擬樣本輪換下二階段抽樣連續(xù)10次調(diào)查100個樣本(第一階段抽40%的初級單位,第二階段抽10%的次級單位);對模擬調(diào)查資料運用本文給出的公式計算10次調(diào)查總體均值估計量及其估計方差、總體均數(shù)95%的上下限,來評價本文研究的調(diào)查方法及其公式的效度和信度。
2.模擬調(diào)查分析結(jié)果
以樣本的序號為橫坐標,以每個樣本所得的總體均值95%可信區(qū)間為縱坐標畫圖,見圖1。圖1中的中橫線為模擬總體均數(shù)。從圖1看出,100個模擬樣本得到的100個總體均數(shù)95%可信區(qū)間全部包含模擬總體均數(shù),可認為100個樣本均數(shù)與總體均數(shù)(模擬真值)的差別無統(tǒng)計學(xué)意義,說明本文研究的樣本輪換下二階段抽樣連續(xù)調(diào)查的調(diào)查方法及其統(tǒng)計公式具有較高的效度;又因100個樣本均數(shù)均接近同一數(shù)值(模擬總體均值),同時也說明本文研究的調(diào)查方法及其統(tǒng)計公式具有良好的信度。
圖1樣本輪換下二附段抽樣連續(xù)調(diào)查分析的模擬結(jié)果
1.樣本輪換的連續(xù)調(diào)查是固定樣本與全新樣本連續(xù)調(diào)查的折中方法,既能反映變化也能節(jié)省一定資源,其理論發(fā)展相對滯后[7-8],主要集中于對簡單抽樣下樣本輪換問題的研究[9]。本文對實際需要的樣本輪換下二階段抽樣連續(xù)調(diào)查,從數(shù)學(xué)上首次推導(dǎo)出總體均數(shù)的估計量及其方差、估計方差的統(tǒng)計公式,具有統(tǒng)計理論方法學(xué)意義。
2.新的調(diào)查方法及其統(tǒng)計公式的效度與信度需采用大個數(shù)樣本多次連續(xù)調(diào)查分析來驗證,進行實例調(diào)查幾乎不可能。本文采用計算機模擬的方法,不僅能實現(xiàn)理論上的大量重復(fù)抽樣調(diào)查,還能保證獲取資料的各項條件的穩(wěn)定性。本文基于SAS進行大樣本個數(shù)(100個樣本)連續(xù)10次的計算機模擬實驗,對本文研究的調(diào)查方法及其統(tǒng)計公式,得到了高信度、高效度的評價結(jié)論。
3.樣本輪換下連續(xù)抽樣調(diào)查在國內(nèi)外應(yīng)用比較廣泛,主要應(yīng)用于住戶調(diào)查[10]、貿(mào)易[11]、社會經(jīng)濟[12]等領(lǐng)域,尚未見文獻報道用于醫(yī)學(xué)領(lǐng)域。本文首次在醫(yī)學(xué)領(lǐng)域,使用二階段抽樣下樣本輪換的方法調(diào)查分析出該核電站職工的白細胞數(shù)比正常人白細胞數(shù)低,與姚志剛[13]、馮曉敏[14]等人得出的結(jié)論一致,提示長期低劑量電離輻射已影響了放射人員的健康,放射人員要增強自我保護意識,同時相關(guān)部門要定期給職工做血液檢查并在輻射防護設(shè)計、管理和運行過程中應(yīng)更加嚴格遵守ALARA原則[15]。
4.本研究對模擬總體,同時模擬二階段橫斷面抽樣調(diào)查100個樣本(各階段抽樣比與樣本輪換模擬相同),分析結(jié)果樣本均數(shù)的標準誤比樣本輪換模擬調(diào)查平均高出30%,說明本文研究的樣本輪換下二階段抽樣連續(xù)調(diào)查的方法可大大提高抽樣精度。因篇幅所限,精度比較的模擬實驗結(jié)果本文未予介紹。
1.趙俊康.考慮偏差時的樣本輪換問題研究.山西財經(jīng)大學(xué)學(xué)報,2001,23(4):100-102.
2.Lind JT.Repeated surveys and the kalman filter.Econometrics Journal,2005,8(3):418-427.
3.Cochran WG.Sampling Techniques.3rd.New York:John Wiley&Sons,1977.
4.Fuller WA,Rao JNK.A regression composite estimator with application to the Canadian Labour Force Survey.Survey Methodology,2001,27:45-51.
5.歐輝,潘紅艷.不同規(guī)模單水平樣本輪換最優(yōu)輪換率的確定.數(shù)學(xué)理論與應(yīng)用,2010,30(3):88-92.
6.商希梅,喬建維,侯殿俊,等.150名60Coγ射線工作者輻射效應(yīng)分析研究.中國輻射衛(wèi)生,2003,12(3):183.
7.陳光慧.連續(xù)性抽樣估計方法研究綜述.統(tǒng)計與信息論壇,2010,25(12):3-9.
8.Duncan GJ,Kalton G.Issues of Design and Analysis of Surveys Across Time.International Statistical Review,1987,55(1):97-117.
9.U.K.Office of Population Censuses and Surveys.General Household Survey 1982.London:HMSO,1984.
10.陳光慧,劉建平.我國農(nóng)村住戶連續(xù)性抽樣調(diào)查方案設(shè)計.統(tǒng)計研究,2013,30(2):80-87.
11.張同利,萬壽橋,任志安.小型批發(fā)零售貿(mào)易行業(yè)抽樣中樣本輪換方法.財貿(mào)研究,1996(4):58-60.
12.喻艷.連續(xù)性統(tǒng)計調(diào)查在社會經(jīng)濟研究領(lǐng)域的應(yīng)用.現(xiàn)代經(jīng)濟信息,2011,24:264.
13.姚志剛,衣同曄,錢志遠,等.2007-2011年秦山核電站工作人員健康狀況分析.職業(yè)與健康,2012,28(11):1326-1327.
14.馮曉敏.放射工作人員的血液檢驗結(jié)果探討.中國輻射衛(wèi)生,2012,21(3):294.
15.田浩天.核電站大修集體劑量控制管理淺析.科協(xié)論壇,2013,6:64-65.
(責任編輯:丁海龍)
The Statistical Method of Sample Rotation Under Two-stage Sampling Successive Survey and its Application
Fu Ying,Gao Ge,Liu Shengxue,et al.(Department of Epidemiology and Biostatistics,School of Public Health,Soochow University(215123),Suzhou)
ObjectiveTo provide a scientific survey method and formulae of sample rotation under two-stage sampling,and to offer scientific basis for the relevant departments to set the strategy on radiation protection.MethodsWe derived the statistic formulae with mathematical statistics method.Sample rotation under two-stage sampling was applied to successive survey on the number of white blood cells(WBC)three years.SAS programming to simulate 100 samples was taken to make validity and reliability assessment on the survey method and its statistical formulae.ResultsWe derived the formulae of estimation of population mean,variance and estimated variance for the sample rotation under two-stage sampling.After two-stage sample rotation,population means of nuclear workers′WBC were respectively 5.88 and 5.84(103/mm3)in 2010 and 2011,and corresponding standard errors were respectively 0.247 and 0.255,which were of statistical differences compared with healthy adults.Simulated population means was totally included in 100 population mean 95%confidence intervals.ConclusionSample rotation under two-stage sampling and its formulae have achieved well theoretical and practical significance,which are also of high validity and reliability.For the nuclear workers,numbers of their WBC were lower than healthy adults in 2010 and 2011,which should be paid more attention to.
Two-stage sampling;Sample rotation;Successive survey;Nuclear workers;White blood cells
*:國家自然科學(xué)基金項目(項目編號:81273188)
△通信作者:高歌,E-mail:gaoge@suda.edu.cn