劉媛媛,冀鵬浩,吳國(guó)榮
(內(nèi)蒙古農(nóng)業(yè)大學(xué) 理學(xué)院,呼和浩特 010018)
隨著抽樣調(diào)查理論的不斷發(fā)展與完善,其涉及的領(lǐng)域也越來(lái)越廣泛。在調(diào)查研究中,當(dāng)涉及個(gè)人隱私或不良信息(如偷稅、吸毒)等敏感性問(wèn)題時(shí),采用直接問(wèn)詢的方式進(jìn)行調(diào)查往往無(wú)法獲得真實(shí)數(shù)據(jù),導(dǎo)致調(diào)查結(jié)果出現(xiàn)偏差。1965 年,Warner 模型的提出開(kāi)創(chuàng)了隨機(jī)化回答技術(shù)的先河,隨機(jī)化回答技術(shù)是進(jìn)行敏感性問(wèn)題調(diào)查和推斷總體特征比例的一種行之有效的方法[1]。Warner隨機(jī)化模型的設(shè)計(jì)原理是根據(jù)要調(diào)查的敏感屬性設(shè)計(jì)兩個(gè)相對(duì)立的問(wèn)題,讓被調(diào)查者按預(yù)定概率從中抽取一個(gè)問(wèn)題回答。除被調(diào)查者外,任何人均不知道被調(diào)查者回答的是哪個(gè)問(wèn)題。被調(diào)查者可以毫無(wú)顧慮地按真實(shí)意愿作答,既有效地保護(hù)了被調(diào)查者的隱私,又可以獲得真實(shí)、可靠的調(diào)查數(shù)據(jù)。到目前為止,很多定性敏感性問(wèn)題的調(diào)查模型都是Warner模型的延續(xù)和改良。在眾多學(xué)者的努力下,大量保護(hù)度好、精度高的隨機(jī)化調(diào)查模型和估計(jì)方法相繼問(wèn)世。在模型的研究和設(shè)計(jì)過(guò)程中,由最初的通過(guò)改進(jìn)隨機(jī)化裝置,逐漸轉(zhuǎn)向?qū)⒊闃臃椒?、估?jì)方法與隨機(jī)化裝置改進(jìn)相結(jié)合,力求得到更完美、精度更高的隨機(jī)化調(diào)查模型。
在抽樣調(diào)查中,若能在有效利用與敏感變量相關(guān)的輔助信息的同時(shí),又合理地選擇抽樣方法,則對(duì)于提高調(diào)查精度將會(huì)起到很好的促進(jìn)作用。在實(shí)際調(diào)查中,一個(gè)具體的方案大多是不同的抽樣方法與估計(jì)方法各種形式的組合[2]。將分層技術(shù)與比估計(jì)法按不同次序進(jìn)行組合,可得到兩類比較復(fù)雜的非線性估計(jì)法——分別比估計(jì)法和聯(lián)合比估計(jì)法。分別比估計(jì)法是先分別對(duì)各層進(jìn)行比估計(jì),然后匯總,按層權(quán)平均得到總體參數(shù)的估計(jì)[3]。聯(lián)合比估計(jì)法是先對(duì)兩個(gè)指標(biāo)求總體均值或總量的分層估計(jì),然后用他們構(gòu)造比估計(jì)[4]。這兩類估計(jì)方法有效地利用了輔助信息與分層技術(shù),是提高目標(biāo)量估計(jì)精度較理想的方法,所以近年來(lái)引起了很多學(xué)者的關(guān)注。Kadilar 和Cingi(2006)[5]對(duì)目標(biāo)量的簡(jiǎn)單估計(jì)、比估計(jì)、分層估計(jì)和聯(lián)合比估計(jì)進(jìn)行了效率比較。閆在在和田兵(2011)[6]研究了基于輔助變量偏斜系數(shù)的分別比估計(jì)。劉媛媛等(2012)[2]基于分別比估計(jì)法,對(duì)Warner 模型中的敏感屬性比例估計(jì)量的均方誤差式進(jìn)行了理論推導(dǎo)及效率比較。王春枝和趙國(guó)杰(2017)[7]在分層抽樣方法下,結(jié)合輔助變量,探討了分別比估計(jì)法、聯(lián)合比估計(jì)法、分別回歸估計(jì)法和聯(lián)合回歸估計(jì)法的應(yīng)用條件。喬松珊和張建軍(2019)[8]研究了總體均值的分別比估計(jì)法的改進(jìn)及應(yīng)用。目前,將聯(lián)合比估計(jì)法應(yīng)用于敏感性問(wèn)題隨機(jī)化調(diào)查技術(shù)中的研究相對(duì)較少。因此,本文以改進(jìn)估計(jì)方法為切入點(diǎn),運(yùn)用聯(lián)合比估計(jì)法,對(duì)分層抽樣下Warner 模型中敏感屬性比例的估計(jì)量及其均方誤差進(jìn)行理論推導(dǎo)和效率比較,目的是提高估計(jì)量的調(diào)查精度。
根據(jù)輔助信息將總體N分成L層,用Nh表示第h層的總體容量,應(yīng)用放回簡(jiǎn)單隨機(jī)抽樣法從每層中獨(dú)立地抽取容量為nh的樣本。每層采用Warner 隨機(jī)化回答裝置:在盒子中按ph和1-ph的比例均勻地放有外形完全相同的兩類卡片,卡片上分別寫有“你有敏感屬性Y嗎?”和“你沒(méi)有敏感屬性Y嗎?”。被調(diào)查者從盒子中任取一張卡片,根據(jù)抽到的問(wèn)題與自身屬性匹配的情況作出真實(shí)的回答。該項(xiàng)調(diào)查的目的是根據(jù)調(diào)查數(shù)據(jù)估計(jì)在總體中具有敏感屬性Y的比例π[10]。記zˉh為第h層nh個(gè)被調(diào)查者中回答“是”的個(gè)數(shù)的均值;Wh=Nh N為第h層的層權(quán);πh為第h層總體的敏感屬性比例,則πh的一個(gè)無(wú)偏估計(jì)為:
進(jìn)而得到分層總體中具有敏感屬性的比例π 的一個(gè)無(wú)偏估計(jì)為:
估計(jì)量π?s的性質(zhì)有:
(1)無(wú)偏性,即E(π?s)=π;
新模型是基于分層抽樣下的Warner模型引入輔助變量,對(duì)調(diào)查的敏感屬性比例和輔助變量分別作分層估計(jì),再對(duì)他們作比估計(jì)。通過(guò)新估計(jì)量的構(gòu)造來(lái)提高總體敏感屬性比例的估計(jì)精度。具體實(shí)施和推導(dǎo)過(guò)程為:將大小為N的有限總體分成L個(gè)不相迭的子總體,其大小分別為N1,N2,…,NL(Nh皆已知,,應(yīng)用放回簡(jiǎn)單隨機(jī)抽樣法從每層中獨(dú)立進(jìn)行抽樣。設(shè)πh為第h層中的回答者具有敏感性指標(biāo)Y的比例;Xh和Xˉh分別是第h層輔助性指標(biāo)的總值和均值,敏感性指標(biāo)值和輔助性指標(biāo)值之間具有較好的正相關(guān)性。
記:
顯然有
采用的隨機(jī)化裝置Rh(h=1,2,…,L)如下:
卡片a:有敏感性指標(biāo)Y?輔助性指標(biāo)X。
卡片b:沒(méi)有敏感性指標(biāo)Y?輔助性指標(biāo)X。
每個(gè)被調(diào)查者從裝有卡片a和b的盒子中獨(dú)立地進(jìn)行隨機(jī)抽樣,然后對(duì)所抽到的卡片進(jìn)行如實(shí)回答。設(shè)ph和1-ph分別為在第h層中抽到卡片a和b的比例,在總體Y中,層間的ph取值一般是不相同的。從第h層中抽取容量為nh的樣本(),第h層中的nh個(gè)個(gè)體獨(dú)立使用隨機(jī)化裝置的回答如下:(zh1,xh1),(zh2,xh2),…,(zhnh,xhnh);h=1, 2,…,L。
設(shè):
在本文中,ER(zhi)=ph yhi+(1-ph)(1-yhi)(ER是關(guān)于隨機(jī)化回答的數(shù)學(xué)期望運(yùn)算)。則有:
第h層中個(gè)體回答“是”的比例為:
聯(lián)合比估計(jì)法是先對(duì)分層樣本的調(diào)查變量和輔助變量作分層估計(jì),再對(duì)他們作比估計(jì)。則總體敏感屬性比例πRc的聯(lián)合比估計(jì)量為:
根據(jù)式(1)至式(3)推導(dǎo)聯(lián)合比估計(jì)量π?Rc的期望和均方誤差。
其中,ER是關(guān)于隨機(jī)化回答的數(shù)學(xué)期望運(yùn)算,Ed是關(guān)于抽樣設(shè)計(jì)的數(shù)學(xué)期望運(yùn)算。
則有:
當(dāng)nh較大,、Cyxh都較小時(shí),可得
將E(π?Rc)的推導(dǎo)式(式(4))代入式(5)的第二部分,可得:
將式(6)代入式(5)得:
其中:
根據(jù)E(π?Rc)的推導(dǎo)式,得:
將式(8)至式(10)代入式(7)得:
基于分層隨機(jī)抽樣對(duì)敏感性問(wèn)題調(diào)查比例的分層估計(jì)法與聯(lián)合比估計(jì)法進(jìn)行效率比較。在分層隨機(jī)抽樣方法下,敏感屬性比例π 的估計(jì)量的方差為:
在聯(lián)合比估計(jì)方法下,敏感屬性比例π 的估計(jì)量的方差為:
當(dāng)nh較大、比估計(jì)有效時(shí),聯(lián)合比估計(jì)的精度優(yōu)于分層估計(jì)的精度的條件是2ρhCxhCyh->0 ,即ρh>Cxh2Cyh。
基于分層隨機(jī)抽樣,運(yùn)用分層估計(jì)法與聯(lián)合比估計(jì)法對(duì)某學(xué)校某專業(yè)300 名學(xué)生某門課程考試的作弊行為進(jìn)行調(diào)查。通過(guò)數(shù)值分析,估算學(xué)生作弊的比例及其方差。根據(jù)該門課程的考試成績(jī)將300 名學(xué)生分為三層,81~100 分為第一層,60~80 分為第二層,60 分以下為第三層。綜合各因素,總樣本量取n=90,按比例確定各層樣本量,層內(nèi)采用簡(jiǎn)單隨機(jī)抽樣法。每層運(yùn)用本文所建立的新模型隨機(jī)化裝置:在盒子中按ph和1-ph的比例均勻地放有外形完全相同的兩類卡片a和b。
卡片a:你在考試中有作弊行為嗎?在5次作業(yè)中獨(dú)立完成的次數(shù)是多少?
卡片b:你在考試中無(wú)作弊行為嗎?在5次作業(yè)中獨(dú)立完成的次數(shù)是多少?
每個(gè)被調(diào)查者獨(dú)立地從裝有卡片a和b的盒子中進(jìn)行隨機(jī)抽樣,然后根據(jù)抽到的問(wèn)題回答“是”或“否”及獨(dú)立完成作業(yè)的次數(shù)。將每個(gè)被調(diào)查者未能獨(dú)立完成作業(yè)的頻率作為輔助變量X。詳見(jiàn)表1。
表1 分層情況與調(diào)查數(shù)據(jù)
在分層隨機(jī)抽樣方法下,作弊比例πs的估計(jì)值及其方差估計(jì)值為:
在聯(lián)合比估計(jì)方法下,作弊比例πs的估計(jì)值及其方差估計(jì)值為:
由調(diào)查數(shù)據(jù)的算例可知,當(dāng)分層合理、各層的樣本量較大時(shí),聯(lián)合比估計(jì)法的精度優(yōu)于分層估計(jì)法的精度。運(yùn)用聯(lián)合比估計(jì)法對(duì)敏感屬性比例作估計(jì)時(shí),尋找與調(diào)查指標(biāo)相關(guān)性較高的輔助變量是調(diào)查過(guò)程中的難點(diǎn)問(wèn)題,也是導(dǎo)致兩種方法下方差估計(jì)值較接近的主要原因。
分層抽樣是抽樣調(diào)查中常用的抽樣方法,在實(shí)施過(guò)程中的組織管理和數(shù)據(jù)匯總都比較簡(jiǎn)便,若分層合理,則可較大程度地提高估計(jì)量的精度。比估計(jì)是一種比較復(fù)雜的非線性估計(jì)法,除了調(diào)查指標(biāo)Y外,還需要可利用的輔助性指標(biāo)X。若調(diào)查指標(biāo)與輔助指標(biāo)之間具有較好的正相關(guān)性,則會(huì)有效提高調(diào)查變量的估計(jì)精度。因此本文將分層技術(shù)與比估計(jì)相結(jié)合的聯(lián)合比估計(jì)法應(yīng)用于敏感問(wèn)題的隨機(jī)化調(diào)查中。得出的結(jié)論是:若各層的樣本量相對(duì)較大,比估計(jì)有效,即ρh>Cxh2Cyh,則聯(lián)合比估計(jì)法的精度優(yōu)于分層估計(jì)法的精度。