山西醫(yī)科大學(xué)公共衛(wèi)生學(xué)院(030001) 王曉榮 王 彤
在一些臨床觀(guān)察中,研究者常將能夠代表人群健康狀況的某個(gè)指標(biāo)作為因變量來(lái)分析其影響因素,然而在測(cè)量該指標(biāo)水平時(shí)由于儀器的檢測(cè)極限問(wèn)題,在某個(gè)水平之上或之下的值我們觀(guān)測(cè)不到,在數(shù)據(jù)收集時(shí)通常會(huì)用這個(gè)極限水平的值來(lái)代替那些我們觀(guān)測(cè)不到的數(shù)值。這里的因變量在理論上是連續(xù)的,但由于測(cè)量時(shí)受到某種限制,在某一點(diǎn)上被刪失或稱(chēng)截取(censoring)而用界值代替,因變量成為連續(xù)分布和離散分布的混合分布〔1〕。對(duì)此類(lèi)數(shù)據(jù)可以采用tobit回歸,或更普通的截取回歸模型進(jìn)行分析。實(shí)際工作中對(duì)于所涉及的研究總體較大的調(diào)查,在研究設(shè)計(jì)時(shí)往往會(huì)整合簡(jiǎn)單隨機(jī)抽樣、分層抽樣、整群抽樣等多種基本的抽樣技術(shù)形成多階段復(fù)雜抽樣,涉及截取因變量數(shù)據(jù)的調(diào)查也不例外。如果此時(shí)仍采用常規(guī)數(shù)據(jù)分析方法來(lái)分析復(fù)雜的截取數(shù)據(jù),忽略分層、整群及不等概率抽樣等因素所帶來(lái)的設(shè)計(jì)效應(yīng),即使樣本量足夠大,也可能得出錯(cuò)誤的推斷結(jié)論〔2,3〕。故本次研究將模擬復(fù)雜抽樣設(shè)計(jì)下的截取數(shù)據(jù),并用泰勒級(jí)數(shù)法估計(jì)待估參數(shù)及其標(biāo)準(zhǔn)誤,將其與不考慮復(fù)雜抽樣設(shè)計(jì)之結(jié)果進(jìn)行比較。
1.tobit模型的基本形式:
該方程意味著當(dāng)y*>0時(shí),所觀(guān)測(cè)到的變量y=y*,當(dāng)y*≤0時(shí),則y=0。以上是將截取點(diǎn)設(shè)為零,事實(shí)上截取臨界點(diǎn)可以為ci,ci可以對(duì)所有的i都是一樣的,但在多數(shù)情況下將隨著i的不同而變化,并且ci既可以從左截取,也可以從右截取,還可以?xún)蛇呁瑫r(shí)截取。在這些更廣泛的情況下我們稱(chēng)模型為截取回歸模型。例如醫(yī)學(xué)隨訪(fǎng)研究中常遇到的生存分析數(shù)據(jù)大多數(shù)屬于右截取情況,而tobit模型事實(shí)上是截取回歸模型在左端截取點(diǎn)為0時(shí)的特殊情況〔1〕。
2.參數(shù)估計(jì)
在tobit回歸模型中,當(dāng)誤差滿(mǎn)足正態(tài)同分布時(shí),即u|x~N(0,σ2),估計(jì)回歸系數(shù)常用的是最大似然法,似然函數(shù)的表達(dá)式如下:
上述方法是針對(duì)于簡(jiǎn)單隨機(jī)樣本而言的,對(duì)于復(fù)雜抽樣數(shù)據(jù)應(yīng)考慮更恰當(dāng)?shù)奶幚矸椒ǎ绫敬窝芯坎捎玫膮?shù)及其方差估計(jì)方法是泰勒級(jí)數(shù)法。泰勒級(jí)數(shù)法的基本思想就是通過(guò)泰勒級(jí)數(shù)展開(kāi)式用線(xiàn)性估計(jì)去逼近非線(xiàn)性估計(jì),給出方差這個(gè)非線(xiàn)性估計(jì)量的一個(gè)近似估計(jì)。然而泰勒級(jí)數(shù)法本身不能獨(dú)自地用于方差估計(jì)的構(gòu)造,它只是提供了非線(xiàn)性估計(jì)量的一種線(xiàn)性逼近算法,有時(shí)需要結(jié)合其他的復(fù)雜抽樣(刀切法、平衡半樣本法等)技術(shù)進(jìn)行分析〔4,5〕。
(1)泰勒級(jí)數(shù)展開(kāi)式如下:
對(duì)于非線(xiàn)性函數(shù)Y=f(x),x0為一個(gè)給定點(diǎn),則f(x)在x0的泰勒級(jí)數(shù)展開(kāi)為:
其中,a0,a1,a2,…,ak,…為常數(shù),如果僅保留常數(shù)項(xiàng)和一階導(dǎo)數(shù)項(xiàng),就可以得到非線(xiàn)性函數(shù)f(x)在定點(diǎn) x0處的線(xiàn)性化估計(jì)〔4〕。
(2)泰勒級(jí)數(shù)近似法估計(jì)方差〔6〕
現(xiàn)以分層整群抽樣為例探討復(fù)雜抽樣條件下tobit回歸系數(shù)的方差估計(jì)。假設(shè)現(xiàn)在有一組分層整群數(shù)據(jù),共有H個(gè)層,每個(gè)層中有M個(gè)群,每個(gè)群內(nèi)有B個(gè)觀(guān)察單位。從每個(gè)層內(nèi)抽取m個(gè)群進(jìn)行觀(guān)察。
在tobit回歸模型中,假定回歸系數(shù)B與變量y和x的關(guān)系用下面的函數(shù)表示:
2.2.2 概率敏感性分析結(jié)果 由成本效果可接受曲線(xiàn)(圖3)可以看出,當(dāng)WTP小于60 000元時(shí),仙靈骨葆膠囊具有成本效果優(yōu)勢(shì)的概率更高;當(dāng)WTP達(dá)到60 000元時(shí),芪骨膠囊成為優(yōu)選方案的概率為52.5%;當(dāng)WTP超過(guò)60 000元時(shí),芪骨膠囊具有成本效果優(yōu)勢(shì)的概率更高。
B=f(y,x)
如果函數(shù)f(y,x)的二階偏導(dǎo)數(shù)存在,運(yùn)用泰勒級(jí)數(shù)展開(kāi)式中的線(xiàn)性項(xiàng)就可以得到一個(gè)近似的線(xiàn)性表達(dá)式。
這樣就將一個(gè)非線(xiàn)性函數(shù)比值的方差估計(jì)轉(zhuǎn)變成為由y和x的方差和協(xié)方差所組成的線(xiàn)性函數(shù)。
設(shè)計(jì)效應(yīng)值越大,表明它的效率越低,若deff>1,表明所考慮的抽樣設(shè)計(jì)的效率比簡(jiǎn)單隨機(jī)抽樣低,若deff<1,表明該抽樣設(shè)計(jì)的效率比簡(jiǎn)單隨機(jī)抽樣高〔4〕.
1.模擬條件
預(yù)模擬一個(gè)10 000例的總體,總體中有兩個(gè)層,第一層中有6 000例觀(guān)察對(duì)象,將這6 000例觀(guān)察對(duì)象完全隨機(jī)地分配到100個(gè)群中,每群60例。第二層中有4 000例觀(guān)察對(duì)象,將這4 000例觀(guān)察對(duì)象完全隨機(jī)地分配到80個(gè)群中,每群50例。這樣分群可以使群內(nèi)方差與總體方差近似相等,使得群內(nèi)相關(guān)系數(shù)近似為0,保證群內(nèi)數(shù)據(jù)的異質(zhì)性〔4〕。
2.左截取數(shù)據(jù)的模擬及其參數(shù)模型分析結(jié)果
我們需要模擬三個(gè)變量:分別為x、y、u,其中x為自變量,y是應(yīng)變量,u是誤差項(xiàng),y=1+x+u,u取自均值為0標(biāo)準(zhǔn)差為1的正態(tài)分布。自變量x的產(chǎn)生如下:第一層的數(shù)據(jù)是來(lái)自(0,1)的均勻分布,例數(shù)為6 000。第二層的數(shù)據(jù)是來(lái)自均數(shù)為0.5,標(biāo)準(zhǔn)差為1的正態(tài)分布中隨機(jī)產(chǎn)生,例數(shù)為4 000。然后我們按照等比例抽取的方式,每層均隨機(jī)抽取1/10的群作為樣本(即第一層中抽取10個(gè)群,第2層中抽取8個(gè)群),重復(fù)上述過(guò)程,模擬1 000次,得到1 000個(gè)樣本,用這1 000個(gè)樣本的數(shù)據(jù)擬合左截取tobit回歸模型,每個(gè)樣本均可計(jì)算出一個(gè)回歸系數(shù)以及其標(biāo)準(zhǔn)誤,最后計(jì)算出這1 000個(gè)樣本的回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)差。在
(3)設(shè)計(jì)效應(yīng)
為比較不同抽樣設(shè)計(jì)的效率,基什(L.Kish)提出了設(shè)計(jì)效應(yīng)的概念,設(shè)計(jì)效應(yīng)(design effect,簡(jiǎn)記為deff)指的是一個(gè)特定的抽樣設(shè)計(jì)估計(jì)量的方差對(duì)相同樣本量下簡(jiǎn)單隨機(jī)抽樣的估計(jì)量的方差之比,計(jì)算公式如下:模型擬合過(guò)程中,我們不斷變換截取數(shù)據(jù)的比例,回歸系數(shù)的均數(shù)及其標(biāo)準(zhǔn)誤會(huì)隨著截取數(shù)據(jù)比例的改變而改變。
我們采用按比例截取方式來(lái)截取數(shù)據(jù),截取比例分別為5%、10%、15%,其結(jié)果見(jiàn)表1。
表1 不同截取比例下左截取tobit模型回歸系數(shù)的模擬分析
從表1中可以看出,回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)誤隨著截取比例的變化而變化,隨著截取比例的增大,從5%逐漸增大至15%,考慮抽樣特征和不考慮抽樣特征這兩種情況下,左截取tobit回歸模型的回歸系數(shù)的均數(shù)越來(lái)越偏離真值1,且標(biāo)準(zhǔn)誤逐漸增大。當(dāng)截取比例固定不變時(shí),考慮抽樣特征的情況下回歸系數(shù)的標(biāo)準(zhǔn)誤要明顯低于不考慮抽樣特征,將數(shù)據(jù)作為完全隨機(jī)處理的情形。
左截尾數(shù)據(jù)比例為5%、10%、15%時(shí),tobit模型的設(shè)計(jì)效應(yīng)deff分別為0.8539、0.8937和0.9089,我們可以看出截取數(shù)據(jù)比例越小,模型的估計(jì)效率越高,估計(jì)結(jié)果真實(shí)性和準(zhǔn)確性也越高。
3.右截取數(shù)據(jù)的模擬及其半?yún)?shù)模型分析結(jié)果
首先生成服從(0,1)均勻分布的隨機(jī)數(shù)S,令生存函數(shù)S(t)=S,第一層數(shù)據(jù)采用服從均數(shù)為0.5,標(biāo)準(zhǔn)差為1的正態(tài)分布數(shù)據(jù)作為自變量x,例數(shù)為6 000,第二層的數(shù)據(jù)采用服從均數(shù)為0.1,標(biāo)準(zhǔn)差為0.5的正態(tài)分布數(shù)據(jù)作為自變量x,例數(shù)為4 000.令總體回歸系數(shù)b=1,λ=1,利用來(lái)計(jì)算服從參數(shù)為λ的指數(shù)分布的生存時(shí)間t。然后我們按照等比例抽取的方式,每層均隨機(jī)抽取1/10的群作為樣本(即第一層中抽取10個(gè)群,第2層中抽取8個(gè)群),重復(fù)上述過(guò)程,模擬1 000次,得到1 000個(gè)樣本,用這1 000個(gè)樣本的數(shù)據(jù)擬合COX比例風(fēng)險(xiǎn)模型,每個(gè)樣本均可計(jì)算出一個(gè)回歸系數(shù)以及其標(biāo)準(zhǔn)誤,最后計(jì)算出這1 000個(gè)樣本的回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)差。在模型擬合過(guò)程中,我們不斷變換截取數(shù)據(jù)的比例,回歸系數(shù)的均數(shù)及其標(biāo)準(zhǔn)誤會(huì)隨著截取數(shù)據(jù)比例的改變而改變。
我們采用按比例截取方式來(lái)截取數(shù)據(jù),截取比例分別為5%、10%、15%,其結(jié)果見(jiàn)表2。
從表2中可以看出,回歸系數(shù)的均數(shù)和標(biāo)準(zhǔn)誤隨著截取比例的變化而變化,隨著截取比例的增大,從5%逐漸增大至15%,考慮抽樣特征和不考慮抽樣特征這兩種情況下,COX比例風(fēng)險(xiǎn)回歸模型的回歸系數(shù)的均數(shù)越來(lái)越偏離真值1,且標(biāo)準(zhǔn)誤逐漸增大。當(dāng)截取比例固定不變時(shí),考慮抽樣特征的情況下回歸系數(shù)的標(biāo)準(zhǔn)誤要明顯低于不考慮抽樣特征,將數(shù)據(jù)作為完全隨機(jī)處理的情形。
表2 不同截取比例下COX比例風(fēng)險(xiǎn)模型回歸系數(shù)的模擬分析
右截尾數(shù)據(jù)比例為5%、10%、15%時(shí),tobit模型的設(shè)計(jì)效應(yīng) deff分別為 0.8827、0.9489 和 0.9662,我們可以看出截取數(shù)據(jù)比例越小,模型的估計(jì)效率越高,估計(jì)結(jié)果真實(shí)性和準(zhǔn)確性也越高。
從上述模擬結(jié)果可以看出,不管是左截尾還是右截尾數(shù)據(jù),考慮抽樣特征后模型回歸系數(shù)的標(biāo)準(zhǔn)誤明顯低于不考慮抽樣特征的情形。因此,對(duì)于大規(guī)模的抽樣調(diào)查,如果抽樣框清楚明確,在進(jìn)行數(shù)據(jù)分析和處理時(shí)應(yīng)盡可能的將抽樣特征考慮在內(nèi),如忽略分層整群等抽樣特征而一味地用簡(jiǎn)單隨機(jī)假設(shè)條件下的方法來(lái)計(jì)算其回歸系數(shù)的標(biāo)準(zhǔn)誤,可能在一定程度上損失設(shè)計(jì)原有的估計(jì)效率〔4,5〕,這樣有時(shí)就會(huì)使得有統(tǒng)計(jì)學(xué)意義的因素變得無(wú)統(tǒng)計(jì)學(xué)意義。
1.截取數(shù)據(jù)的tobit回歸模型在醫(yī)學(xué)研究中的應(yīng)用日漸廣泛,本次模擬研究中模型誤差項(xiàng)滿(mǎn)足正態(tài)分布,且方差齊,因此在不考慮抽樣特征的情況下采用最大似然估計(jì)來(lái)估計(jì)模型中的參數(shù),但是最大似然估計(jì)的使用是有嚴(yán)格條件限制的,需要已知模型中數(shù)據(jù)誤差項(xiàng)的分布形式。如果我們調(diào)查所得的數(shù)據(jù)誤差項(xiàng)的分布未知,使用最大似然估計(jì)很可能得出錯(cuò)誤的結(jié)論,這種情況下應(yīng)考慮限制條件相對(duì)較松的半?yún)?shù)和非參數(shù)估計(jì)方法〔1〕。
2.從模擬試驗(yàn)中可以看出,隨著截取數(shù)據(jù)比例的增大,模型回歸系數(shù)的均數(shù)越來(lái)越偏離真值,且標(biāo)準(zhǔn)誤逐漸增大,當(dāng)截取數(shù)據(jù)的比例固定時(shí),考慮抽樣特征情況下模型回歸系數(shù)的標(biāo)準(zhǔn)誤要低于不考慮抽樣特征的情形。因此在應(yīng)用截取回歸模型處理問(wèn)題時(shí),首先需注意截取數(shù)據(jù)在整體數(shù)據(jù)中所占的的比例,如果截取數(shù)據(jù)的比例太大,直接使用該模型可能會(huì)得出有偏差的結(jié)論。其次,如果數(shù)據(jù)的抽樣框清楚明確,在數(shù)據(jù)分析和處理時(shí)應(yīng)充分利用數(shù)據(jù)的抽樣特征,這樣得出的結(jié)果更加真實(shí)可靠。
3.本次數(shù)據(jù)模擬時(shí)是將兩層的數(shù)據(jù)完全隨機(jī)地分到各個(gè)群中,群內(nèi)相關(guān)系數(shù)(intra-class correlation coefficient)接近于0,此時(shí)可以將群效應(yīng)忽略,僅考慮分層的影響,因此考慮抽樣特征后,其回歸系數(shù)的標(biāo)準(zhǔn)誤要低于完全隨機(jī)的情形,但是在實(shí)際應(yīng)用過(guò)程中,我們遇到的數(shù)據(jù)中群內(nèi)相關(guān)系數(shù)往往是不可能忽略的,有時(shí)甚至很大,這樣會(huì)明顯降低估計(jì)效率,很多情況下會(huì)使設(shè)計(jì)效應(yīng)遠(yuǎn)遠(yuǎn)大于1。這種情況下,筆者認(rèn)為可結(jié)合非獨(dú)立數(shù)據(jù)的建模方法來(lái)解決,如GEE等混合效應(yīng)模型。
4.tobit模型可以用于各種截取數(shù)據(jù)的處理和分析。通常使用的tobit模型中假定誤差項(xiàng)是服從正態(tài)分布的,但它還可以是指數(shù)分布、威布爾分布、對(duì)數(shù)正態(tài)分布等〔7〕。事實(shí)上,在醫(yī)學(xué)領(lǐng)域中,對(duì)于常見(jiàn)的右截取生存分析數(shù)據(jù),我們只要指定tobit模型中的誤差項(xiàng)滿(mǎn)足指數(shù)分布或威布爾分布,就可以用來(lái)處理右截取生存分析資料,這樣也使tobit回歸模型在醫(yī)學(xué)中的應(yīng)用得到了延伸。
5.本次研究復(fù)雜截取數(shù)據(jù)相關(guān)參數(shù)的方差估計(jì)采用的是泰勒級(jí)數(shù)近似法,對(duì)于大規(guī)模復(fù)雜抽樣調(diào)查來(lái)說(shuō),泰勒級(jí)數(shù)線(xiàn)性法一般能給出真實(shí)有效的近似方差估計(jì)。且只要偏導(dǎo)數(shù)存在,線(xiàn)性法總能給出統(tǒng)計(jì)量的方差估計(jì)量,但并非所有的統(tǒng)計(jì)量均能表示為平滑的線(xiàn)性函數(shù)。如果出現(xiàn)這種情況,可以考慮使用其他的數(shù)據(jù)處理技術(shù)如:平衡半樣本法,刀切法等技術(shù)來(lái)處理〔4,6〕。刀切法和平衡半樣本法都屬于樣本再利用法,可以重復(fù)利用一個(gè)樣本的信息,由于這些方法不依賴(lài)于估計(jì)量的形式,可以用于估計(jì)任何非線(xiàn)性估計(jì)量的方差,主要適用于總體中有多個(gè)層,每個(gè)層中抽取兩個(gè)群的情況,也可以用于更復(fù)雜的抽樣設(shè)計(jì)的估計(jì)量的方差估計(jì)〔8,9〕。
1.薛小平,史東平,王彤.受限因變量模型及其半?yún)?shù)估計(jì).中國(guó)衛(wèi)生統(tǒng)計(jì),2007,24(2):211-213.
2.Rao JNK,Wu CFJ.Resampling inference with complex survey data.Journal of the American Statistical Association,1988,83,401,231-241.
3.Lee ES,F(xiàn)orthofer RN.Analyzing Complex Survey Dat,Sage Publications Inc,2005.
4.馮士雍,倪加勛,鄒國(guó)華.抽樣調(diào)查理論與方法.北京:中國(guó)統(tǒng)計(jì)出版社,1998.
5.Wolter KM著,王吉利,李毅主譯.方差估計(jì)引論.北京:中國(guó)統(tǒng)計(jì)出版社,1998.
6.Risto Lehtonen,Erkki Pahkinen.Practical methods for design and analysis of complex surveys.John Wiley$Sons Ltd,The Atrium,Southern Gate,Chichester,West Sussex PO198SQ,England,2004.
7.SASInstitute Inc.SAS/STAT0 9.1 User’s Guide.Cary,NC:SASInstltute Inc,2004.
8.Thomas Lumley.Analysis of complex survey samples.Department of Biostatistics in Univers-ity of Washington,2004.
9.KF Rust,Jnk Rao.Variance estimation for complex surveys using replication techniques,Statistical Methods in Medical Research,1996,5(3):283-310.