濮翔科高 歌阮玉華
二項(xiàng)選擇敏感問題兩階段抽樣調(diào)查樣本量的估計(jì)*
濮翔科1,2高 歌1△阮玉華3
目的研究二項(xiàng)選擇敏感問題RRT模型下兩階段抽樣調(diào)查樣本量的估計(jì)公式,探討敏感問題復(fù)雜抽樣調(diào)查設(shè)計(jì)的統(tǒng)計(jì)方法。方法使用二項(xiàng)選擇敏感問題西蒙斯模型,根據(jù)概率論和數(shù)理統(tǒng)計(jì)學(xué)的理論方法,在給出二項(xiàng)選擇敏感問題兩階段抽樣樣本比例及其方差計(jì)算公式的基礎(chǔ)上;使用哥西不等式、求條件極小值點(diǎn)等方法,從數(shù)學(xué)上推導(dǎo)二項(xiàng)選擇敏感問題西蒙斯模型下兩階段抽樣調(diào)查各階段抽樣的最優(yōu)樣本量的計(jì)算公式;通過對北京MSM人群預(yù)調(diào)查獲取相關(guān)統(tǒng)計(jì)量的數(shù)值,進(jìn)而估計(jì)北京MSM人群敏感問題RRT模型下兩階段抽樣調(diào)查各階段的最優(yōu)樣本量。結(jié)果當(dāng)限定抽樣誤差而使調(diào)查費(fèi)用最小時(shí)需要抽取13個(gè)區(qū)縣,當(dāng)限定調(diào)查費(fèi)用而使抽樣誤差最小時(shí)需要抽取9個(gè)區(qū)縣;從每個(gè)被抽中的區(qū)縣中需要抽取的MSM人數(shù)平均為51人。結(jié)論本文研究的二項(xiàng)選擇敏感問題RRT模型下兩階段抽樣調(diào)查樣本量的估計(jì)公式及相關(guān)統(tǒng)計(jì)方法具有創(chuàng)新理論意義和很好的實(shí)際應(yīng)用價(jià)值。
敏感問題 隨機(jī)應(yīng)答技術(shù) 兩階段抽樣 樣本量 男男性行為者
調(diào)查研究中經(jīng)常需要調(diào)查一些敏感問題,例如艾滋病高危行為賣淫、吸毒、男男性行為等。這些敏感問題都涉及到個(gè)人隱私,不便于公開陳述或表態(tài),以至于調(diào)查者難以獲取有關(guān)敏感問題的真實(shí)信息。但實(shí)際上,調(diào)查者關(guān)注的并非某個(gè)特定調(diào)查對象的敏感問題情況,而是被調(diào)查的整個(gè)群體中具有敏感問題的數(shù)量特征。為解決這一矛盾,Warner提出了隨機(jī)應(yīng)答技術(shù)(randomized response technique,RRT)應(yīng)用于敏感問題調(diào)查〔1〕,能有效保護(hù)調(diào)查對象的隱私并獲取較準(zhǔn)確的調(diào)查資料。此后,Simmons加以改進(jìn),設(shè)計(jì)了二項(xiàng)選擇敏感問題調(diào)查的西蒙斯模型〔2〕,由于其簡單有效,至今仍被廣泛應(yīng)用于二項(xiàng)選擇敏感問題的調(diào)查研究。目前,對二項(xiàng)選擇敏感問題復(fù)雜抽樣的調(diào)查方法已有一些研究,例如對二項(xiàng)選擇敏感問題分層隨機(jī)抽樣下總體比例與總體方差等參數(shù)的估計(jì)等研究。科學(xué)地確定樣本量是調(diào)查設(shè)計(jì)的重要環(huán)節(jié)。本文對二項(xiàng)選擇敏感問題西蒙斯模型的兩階段抽樣調(diào)查,在給出樣本比例及其方差計(jì)算公式的基礎(chǔ)上,當(dāng)限定抽樣誤差的大小而使調(diào)查費(fèi)用最小及當(dāng)限定調(diào)查費(fèi)用的大小而使抽樣誤差最小兩種情況下,推導(dǎo)出各階段最優(yōu)樣本量的計(jì)算公式,并在北京市男男性行為人群(men who have sex w ith men,MSM)的現(xiàn)場調(diào)查中取得了成功的實(shí)際應(yīng)用效果。
1.二項(xiàng)選擇敏感問題的西蒙斯模型
針對一個(gè)二項(xiàng)選擇敏感性問題,例如:“你是同性戀嗎?”;選擇一個(gè)與該敏感性問題無關(guān)的非敏感問題,例如:“你的出生月份是奇數(shù)嗎?”。西蒙斯模型〔2〕需設(shè)計(jì)一個(gè)隨機(jī)化裝置,例如:在桌上放一個(gè)一元的硬幣。每名調(diào)查對象獨(dú)立地拋擲該硬幣,事先約定:出現(xiàn)“1元”朝上(概率為P)回答自己是否是“同性戀”?出現(xiàn)“國徽”朝上,回答自己的出生月份是否是奇數(shù)?除本人以外的任何人均不知道被調(diào)查者究竟回答的是哪一個(gè)問題。在拋擲硬幣及回答過程中,調(diào)查對象的隱私受到保護(hù),可以消除顧慮,給出自己的真實(shí)答案。
2.兩階段抽樣方法
假定總體共劃分成M個(gè)群,第i個(gè)群包含Mi個(gè)觀察對象,i=1,2,…,M,平均每個(gè)群內(nèi)包含個(gè)調(diào)查對象。又假設(shè)第一階段從總體中隨機(jī)抽取了m個(gè)群,第二階段從第i個(gè)被抽取的群中隨機(jī)抽取了mi個(gè)調(diào)查對象,i=1,2,…,m,平均從每個(gè)抽中的群內(nèi)抽取了i個(gè)調(diào)查對象。對每個(gè)被抽中的調(diào)查對象,采用西蒙斯模型進(jìn)行調(diào)查。
3.總體比例的估計(jì)量及其方差
假定隨機(jī)化裝置中要回答的敏感問題所占比例為P。Pi表示第i個(gè)群內(nèi)具有敏感問題特征的個(gè)體比例為其樣本估計(jì)量;ri表示第i個(gè)抽中群內(nèi)具有無關(guān)非敏感問題特征的個(gè)體所占的比例,ri一般是已知或可以通過專門調(diào)查獲得的。Bi表示第i個(gè)群內(nèi)調(diào)查對象回答“是”的比例,根據(jù)全概率公式〔3〕有Bi=PiP為Bi的樣本估計(jì)量,假設(shè)第i個(gè)被抽取的群內(nèi)有hi個(gè)人回答“是”,則由此可得:
根據(jù)文獻(xiàn)〔4〕給出的結(jié)果,得到敏感特征總體比例的估計(jì)量p為:
其方差為:
4.樣本量的估計(jì)
實(shí)際抽樣調(diào)查所需的費(fèi)用一般可以用如下函數(shù)形式表示〔5〕:
其中C表示抽樣調(diào)查的總費(fèi)用,C0表示整個(gè)調(diào)查所需的基本費(fèi)用,C1表示每調(diào)查一個(gè)群所需的基本費(fèi)用,C2表示每一個(gè)調(diào)查對象所需的直接調(diào)查費(fèi)用。
由公式(3)經(jīng)過變形得:
解得(在抽樣誤差限定時(shí)使得調(diào)查費(fèi)用達(dá)到最小和調(diào)查費(fèi)用限定時(shí)使得抽樣誤差達(dá)到最小):
當(dāng)方差V(p)的值限定為V時(shí),由(7)式解得(抽樣誤差限定而使調(diào)查費(fèi)用達(dá)到最小):
當(dāng)調(diào)查費(fèi)用限定為C時(shí),由(6)式解得(調(diào)查費(fèi)用限定而使抽樣誤差達(dá)到最小):
1.調(diào)查方法
調(diào)查對象來自于北京市15~49歲男男性行為人群,調(diào)查時(shí)間為2010年8月至10月。根據(jù)王麗艷、劉鵬等〔6-7〕的估算方法,結(jié)合2010年第六次全國人口普查數(shù)據(jù)〔8〕估計(jì)得北京市出入MSM活動(dòng)場所的男男性行為者人數(shù)為67750人,即此次調(diào)查的研究總體。
采用兩階段抽樣方法,以北京市的16個(gè)區(qū)縣作為群,M=16;以北京市男男性行為者作為調(diào)查對象,平均每個(gè)區(qū)縣MSM人數(shù)=4234人。第一階段從北京的區(qū)縣中隨機(jī)抽取13個(gè)區(qū)縣(m=13);第二階段在被抽中的區(qū)縣共隨機(jī)抽取1523名MSM調(diào)查對象,平均從每個(gè)抽中區(qū)縣抽取約117人=117)。對抽取的1523名MSM調(diào)查對象,采用二項(xiàng)選擇敏感問題的西蒙斯模型作調(diào)查,調(diào)查指標(biāo)為:最近一次肛交時(shí)全程使用安全套的比例、最近一年男男商業(yè)性性行為的發(fā)生比例、最近一年HIV檢測結(jié)果為陽性的比例、最近一年到正規(guī)醫(yī)療機(jī)構(gòu)進(jìn)行性病檢查結(jié)果為有性病的比例等。
2.預(yù)調(diào)查結(jié)果。
使用excel 2003和SAS 9.13軟件完成調(diào)查數(shù)據(jù)的管理與計(jì)算。以肛交時(shí)是否全程使用安全套的調(diào)查為例:按公式(1)和(2),計(jì)算得北京市MSM人群最近一次肛交全程使用安全套的樣本比例為0.7763;由公式(4)和(5)計(jì)算得的樣本估計(jì)量分別為由公式(3)計(jì)算得肛交中全程使用安全套樣本比例的估計(jì)方差為0.00033,總體比例的95%CI為:0.7408~0.8118。
此次調(diào)查擬采用兩階段抽樣,以北京市的區(qū)縣為群、以MSM者為調(diào)查對象。根據(jù)預(yù)調(diào)查的實(shí)際情況預(yù)算如下:整個(gè)調(diào)查的基本費(fèi)用C0=10萬元(含項(xiàng)目合作單位合作費(fèi)、差旅費(fèi)、培訓(xùn)費(fèi)、印刷費(fèi)等),平均每調(diào)查一個(gè)區(qū)縣的基本費(fèi)用C1=10萬元(含調(diào)查協(xié)作單位協(xié)作費(fèi)、MSM活動(dòng)場所協(xié)作費(fèi)、同伴志愿者報(bào)酬、交通費(fèi)等),平均每調(diào)查一個(gè)MSM對象的直接費(fèi)用C2=3元(調(diào)查員勞務(wù)費(fèi))。此次調(diào)查采用的RRT模型為西蒙斯模型,先針對每一個(gè)調(diào)查指標(biāo)分別計(jì)算所需樣本量,然后取它們中的最大值。現(xiàn)以肛交時(shí)全程使用安全套比例的調(diào)查為例,介紹樣本量計(jì)算:
根據(jù)已計(jì)算出的北京市MSM人群男男性行為肛交時(shí)全程使用安全套比例的估計(jì)方差相關(guān)統(tǒng)計(jì)量和由公式(8)計(jì)算出從每個(gè)抽中的區(qū)縣平均需要抽取的男男性行為者的人數(shù)為:
當(dāng)抽樣誤差V(p)的值限定為V=0.00033(按預(yù)調(diào)查資料的估計(jì)結(jié)果)而使調(diào)查費(fèi)用最小時(shí),由公式(9)計(jì)算出從北京市16個(gè)區(qū)縣中需要抽取的區(qū)縣個(gè)數(shù)為:
當(dāng)調(diào)查費(fèi)用值限定為C=100萬元而使抽樣誤差最小時(shí),由公式(10)計(jì)算出從北京市16個(gè)區(qū)縣中需要抽取的區(qū)縣個(gè)數(shù)為:
在第i個(gè)被抽中的區(qū)縣內(nèi)需抽取的男男性行為者的個(gè)數(shù)可由公式(11)計(jì)算。例如某個(gè)被抽中的區(qū)縣共有男男性行為者5738人,則應(yīng)從該區(qū)縣隨機(jī)抽取的男男性行為者人數(shù)為:
敏感問題調(diào)查的隨機(jī)應(yīng)答技術(shù)自誕生以來,由于該技術(shù)能較好地保護(hù)被調(diào)查者的個(gè)人隱私和提高真實(shí)應(yīng)答率,因此很多學(xué)者進(jìn)行了研究并加以改進(jìn)完善。西蒙斯模型也是較早提出的二項(xiàng)選擇敏感問題調(diào)查模型,因其較為簡單實(shí)用,至今應(yīng)用仍較廣泛〔9〕。西蒙斯模型的簡單隨機(jī)抽樣應(yīng)用較多,但在復(fù)雜抽樣下應(yīng)用研究較少,而且對敏感問題調(diào)查樣本量的估計(jì)也較少研究。本文對二項(xiàng)選擇敏感問題西蒙斯模型兩階段抽樣調(diào)查設(shè)計(jì)方法進(jìn)行了研究,科學(xué)推導(dǎo)出敏感問題西蒙斯模型兩階段抽樣調(diào)查樣本量的計(jì)算公式,國內(nèi)外至今未見文獻(xiàn)報(bào)道。
自從改革開放以來,吸毒、艾滋病、同性戀等敏感問題正在我國受到越來越多的關(guān)注。如今我國艾滋病正從高危人群向一般人群傳播,形勢非常嚴(yán)峻。艾滋病的傳播途徑以性傳播為主,尤其是近幾年新發(fā)現(xiàn)的感染者中男男性行為者的比例逐年增高〔10-12〕,這意味著男男性行為人群是艾滋病傳播的高危人群,其高危性行為應(yīng)受到重視和干預(yù)。
1.Warner SL.Randomized response:a survey technique for eliminating evasive answer bias.Journal of the American Statistical Association,1965,60(309):63-69.
2.Horvitz DG,Shah BV,Simmons WR.The unrelated question randomized responsemodel.Proceedings of the Social Statistics Section,American Statistical Association,1967:65-72.
3.蘇良軍.高等數(shù)理統(tǒng)計(jì).北京:北京大學(xué)出版社,2007:3.
4.Wang J,Gao G,F(xiàn)an Y,et al.The estimation of sample size in multistage sampling and its application in medical survey.Applied Mathematics and Computation,2006,178(2):239-249.
5.Cochran WG著.抽樣技術(shù).張堯庭,吳輝譯.北京:中國統(tǒng)計(jì)出版社,1985,87.
6.王麗艷,夏冬艷,吳玉華,等.乘數(shù)法估計(jì)北京、哈爾濱兩市男性同性戀人群規(guī)模的研究.華南預(yù)防醫(yī)學(xué),2006,32(3):9-11.
7.劉鵬,高歌,賀志龍,等.數(shù)量特征敏感問題加法模型二階段抽樣的統(tǒng)計(jì)方法及其應(yīng)用.蘇州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2011,31(3):384-387.
8.北京市統(tǒng)計(jì)局,國家統(tǒng)計(jì)局北京調(diào)查總隊(duì).北京統(tǒng)計(jì)年鑒-2011.2011.
9.高歌,范玉波.敏感問題Simmons模型的(分層)整群抽樣研究.中國衛(wèi)生統(tǒng)計(jì),2008,25(6):562-565,569.
10.Fan S,Lu H,Ma X,etal.Behavioral and Serologic Survey of Men Who Have Sex w ith Men in Beijing,China:Implication for HIV Intervention.AIDS Patient Care and STDs,2012,26(3):148-155.
11.Li Q,Liu Y,Zhou Z,et al.Online Sex-Seeking Behaviors Among Men Who have Sex w ith Men:Implications for Investigation and Intervention.AIDS and Behavior,2012,16(6):1690-1698.
12.中華人民共和國衛(wèi)生部,聯(lián)合國艾滋病規(guī)劃署和世界衛(wèi)生組織. 2011年中國艾滋病疫情估計(jì).2011,2-6.
(責(zé)任編輯:郭海強(qiáng))
Sam ple Size Determ ination of Dichotomous Sensitive Question Survey under Twostage Sam pling
Pu Xiangke,Gao Ge,Ruan Yuhua(School of Public Health,Medical College of Soochow University(215123),Suzhou)
ObjectiveTo investigate the two-stage sampling method and determ ine the sample size for dichotomous sensitive question survey.MethodsBy using statistical theories and methods,the population proportion of dichotomous sensitive question under Simmonsmodel and its variance were estimated;Cauchy-Schwarz inequality and them inimum method were used to deduce the sample size determ ination formulae for two-stage sampling survey of dichotomous sensitive questions;the survey method and relevant formulae were applied to the two-stage sampling survey of condom use in sex behavior among MSM(men who have sex w ithmen)in Beijing.ResultsBased on the pre-survey data of MSM in Beijing,51 MSM should be extracted in each selected county.If the sampling error is to be limited,13 counties should be extracted tomake the survey costm inimum in the first stage of sampling.On the contrary,9 counties should be extracted to m inim ize the sampling error in the first stage of sampling if the survey cost is to be lim ited.ConclusionThe surveymethod and sample size determination formulae are useful in the two-stage sampling survey of dichotomous sensitive questions.An optimum sample size can be calculated by using the deduced formulae to reduce the cost and the sampling error of the survey.
Sensitive question;RRT;Two-stage sampling;Sample size;MSM
國家自然科學(xué)基金資助項(xiàng)目(81273188);江蘇省預(yù)防醫(yī)學(xué)科研課題立項(xiàng)項(xiàng)目(Y2012072);常州市應(yīng)用基礎(chǔ)研究計(jì)劃項(xiàng)目(CJ20112013)
1.蘇州大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院(215123)
2.常州市第三人民醫(yī)院肝病研究所
3.中國疾病預(yù)防控制中心性病艾滋病預(yù)防控制中心
△通信作者:高歌