東南大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(210009) 肖 珊 劉 沛
陽性(陰性)預(yù)測值因能直接反映診斷實驗結(jié)果陽性(陰性)者有多大的概率有病(無病),故常作為評價診斷實驗預(yù)測能力的重要指標(biāo)。由于預(yù)測值是由靈敏度、特異度和患病率構(gòu)成的多重比(multiple proportions)指標(biāo),故相對于靈敏度、特異度、患病率這類單一比(single proportions)指標(biāo)而言,其置信區(qū)間的估計要復(fù)雜的多。目前常用的預(yù)測值區(qū)間估計方法為對數(shù)似然比法(log-odds 法)〔1,2〕,但這一方法的應(yīng)用受一些條件的限制且估計的置信區(qū)間往往過于保守〔3〕。本文以陽性預(yù)測值為例,在介紹預(yù)測值區(qū)間估計log-odds法(含兩種不同調(diào)整方式)〔3,4〕的基礎(chǔ)上,提出了修正log-odds法。鑒于貝葉斯統(tǒng)計在處理小樣本數(shù)據(jù)和高準(zhǔn)確度診斷實驗數(shù)據(jù)上的優(yōu)勢,本文從客觀貝葉斯分析的角度出發(fā)〔5,6〕,提出了預(yù)測值區(qū)間估計的客觀貝葉斯法。通過比較四種方法的精密度和可靠度,探討其在實際工作中的應(yīng)用條件。
記p0為研究人群中某種疾病(記為D)的患病率,假設(shè)所研究的診斷實驗(記為T)為陽性和陰性二分類結(jié)果。記p1為診斷實驗T的靈敏度,即來自研究人群患有疾病D的個體被診斷為陽性的概率,p2為診斷實驗T的特異度,即來自研究人群不患疾病D的個體被診斷為陰性的概率。則來自研究人群并被診斷為陽性的個體,其患有疾病D的概率,即陽性預(yù)測值(記為ppv)可表示為〔7〕:
在實際工作中,p0、p1和p2的真實值往往不可知,但可通過樣本數(shù)據(jù)得到其估計值^p0=x0/n0,^p1=x1/n1和^p2=x2/n2,其中n0表示來自研究人群的一個隨機樣本所包含的個體數(shù),x1為此樣本中患有疾病D的個體數(shù);n1為從研究人群中隨機抽取的疾病D的患者人數(shù),x1為這n1個疾病D的患者被試驗T診斷為陽性的人數(shù);n2為從研究人群中隨機抽取的不患疾病D的人數(shù),x2為這n2個不患疾病D的個體被試驗T診斷為陰性的人數(shù)。下面將介紹利用x0/n0、x1/n1和x2/n2估計ppv區(qū)間的四種方法。
1.log-odds法〔2〕
將公式(1)改寫為
將以上區(qū)間的下、上限進行以e為底的指數(shù)變換,可得θ的100(1-α)%置信區(qū)間的下、上限,再分別代入公式(2),得ppv的100(1-α)%置信區(qū)間的上、下限。
特別地,當(dāng)x0=0或x1=0或x0=n2或x2=n2時,公式(3)、(4)將無意義;當(dāng)x1=n1或x2=0時,由公式(4)可知,p1或p2對(^θ)的方差var(ln(^θ))沒有任何貢獻。為解決這些問題,通常有兩種做法。
(1)當(dāng) xi=0(i=0,1,2)時,令 xi=0.5(i=0,1,2);當(dāng) xi=ni(i=0,1,2)時,令 xi=ni- 0.5(i=0,1,2)。將調(diào)整后的 xi(i=0,1,2)代入公式(3)、(4)中計算ppv的100(1-α)%置信區(qū)間,并記為ppv1/2。
(2)無論 xi=0(i=0,1,2)或 xi=ni(i=0,1,2)是否發(fā)生,均令 xi=xi+c(i=0,1,2)且 ni=ni+2c(i=0,1,2),其中c為選定的某個常數(shù),c的取法有很多,比如0.3〔4〕。這樣公式(3)、(4)中的ln(^θ)和(^v)重新估計為
在本文中,取c=0.3,用重新估計后的ln(^θ)和(^v)計算ppv的置信區(qū)間,并記為ppvC。
2.修正log-odds法
由于用log-odds法計算的區(qū)間往往過于保守〔3〕,因此,在前面描述的方法基礎(chǔ)上,本文提出了一種改進方法,其基本思想是使改進后方法估計的區(qū)間變窄,改進方法如下:
由初等數(shù)學(xué)知識可知,
3.客觀貝葉斯法
用貝葉斯方法估計ppv的區(qū)間,除了像log-odds法和修正log-odds法那樣可利用p0、p1和p2的總體信息和樣本信息外,還可利用p0、p1和p2的先驗信息。在本文中,為與log-odds法及修正log-odds法進行比較,筆者從客觀貝葉斯分析的角度出發(fā)〔5,6〕,對 p0、p1和 p2均取無信息先驗,使貝葉斯分析的結(jié)果主要受實驗數(shù)據(jù)的影響,稱之為客觀貝葉斯法。
根據(jù)常識,p0、p1和 p2的取值范圍為[0,1],在沒有任何其他先驗信息的前提下,對p0、p1和p2的一個合理選擇是?。?,1]上的均勻分布,即 Uniform(0,1),表示對[0,1]區(qū)間上的任何值都沒有偏愛。另外,Uniform(0,1)還可用Beta分布的形式表達(dá)為Beta(1,1),根據(jù)共軛分布原理〔8〕,p0、p1和 p2的后驗分布為,
利用 p0、p1和 p2的后驗分布(9)、(10)和(11),可以通過計算機進行Monte Carlo模擬估計ppv的區(qū)間,具體過程如下:(1)分別從后驗分布Beta(xi+1,ni-xi+1),(i=0,1,2)隨機抽取 p0、p1和 p2的一個估計值^p0、^p1和 ^p2;(2)將 ^p0、^p1和 ^p2代入公式(1),得到 ppv的一個估計值p^pv;(3)重復(fù)步驟(1)N次(N一般比較大,如10000),得N個ppv的估計值,將這N個估計值由小到大排序;(4)找到最接近Nα/2和N(1-α/2)的整數(shù),取對應(yīng)的ppv估計值為1-α可信水平為的區(qū)間的下界和上界。
需要說明的是,由客觀貝葉斯法計算的ppv區(qū)間一般稱為可信區(qū)間(credible interval),與log-odds法或修正log-odds法計算的ppv置信區(qū)間(confidence interval)雖然在概念上存在差別,但兩者均可衡量點估計的可靠性。因此,本文將客觀貝葉斯法計算的可信區(qū)間(記為ppvB)當(dāng)作置信區(qū)間計算其覆蓋概率(coverage probability),進而比較其與log-odds法及修正logodds計算的ppv置信區(qū)間在可靠度上的差別。
4.覆蓋概率
在估計某個總體參數(shù)的置信區(qū)間時,往往要先給定置信水平1-α(如α=0.05),此1-α也稱為置信區(qū)間的名義覆蓋概率。由于分類數(shù)據(jù)的非連續(xù)性,率的真實覆蓋概率往往不等于名義覆蓋概率〔9〕。所謂真實覆蓋概率,是指對某個真值已知的總體參數(shù),根據(jù)可能觀察到的樣本,按某種方法計算的多個置信區(qū)間中,包含這個總體參數(shù)的區(qū)間所占的加權(quán)比例(權(quán)重為對應(yīng)樣本出現(xiàn)的概率)。本文中,ppv真實覆蓋概率的計算公式為
其中,I(ppv∈[L,U])是示性函數(shù),當(dāng)計算的區(qū)間包含ppv時,取值為1,否則,取值為0。
評價不同方法區(qū)間估計的優(yōu)劣可從兩個方面入手,一是估計的精密度,區(qū)間長度越小,精密度越高〔10〕;二是可靠度,真實覆蓋概率越接近名義覆蓋概率,可靠度越好,當(dāng)真實覆蓋概率大于名義覆蓋概率時,稱該區(qū)間估計的方法是保守的;否則,稱為非保守的〔9〕。
1.四種方法的精密度比較
在較小樣本(ni=10,(i=0,1,2)),適中樣本(ni=50,(i=0,1,2))以及較大樣本(ni=80,(i=0,1,2))的情況下,利用本文介紹的四種方法,筆者估計了低陽性預(yù)測值(ppv=0.1),中陽性預(yù)測值(ppv=0.5)以及高陽性預(yù)測值(ppv=0.9)的置信水平(或可信水平)為95%的區(qū)間,結(jié)果見表1。
表1 四種方法估計陽性預(yù)測值置信水平(或可信水平)為95%的區(qū)間
由表1可知,與客觀貝葉斯法估計的區(qū)間ppvB相比,log-odds法估計的區(qū)間ppv1/2和ppvC總體上要寬一些,而修正log-odds估計的區(qū)間ppvM要窄一些。當(dāng)樣本量較大時(如第3列樣本),這四種方法估計的區(qū)間相似;當(dāng)樣本量較小時(如第1列樣本),四種方法估計的區(qū)間長度存在差別,且這種差別在pi(i=0,1,2)接近0或1時(如樣本1和樣本7)更明顯。
2.四種方法的可靠度比較
在樣本量 ni=10,30,50,80,100,(i=0,1,2)的情況下,利用本文的四種方法,筆者估計了低陽性預(yù)測值(ppv=0.1),中陽性預(yù)測值(ppv=0.5)和高陽性預(yù)測值(ppv=0.9)的名義覆蓋概率為99%,95%和90%區(qū)間的實際覆蓋概率,結(jié)果見表2。
由表2可知,在同一名義覆蓋概率 (如95%)下,客觀貝葉斯法估計的區(qū)間ppvB和log-odds估計的區(qū)間ppv1/2和ppvC的實際覆蓋概率總體上高于名義覆蓋概率,而修正log-odds法估計的區(qū)間ppvM的實際覆蓋概率低于名義覆蓋概率,也就是說,log-odds法和客觀貝葉斯法都是偏保守的,而修正log-odds法是非保守的。當(dāng)樣本量較大(如 ni=80,(i=0,1,2)),在實際覆蓋概率和名義覆蓋概率的絕對差值方面,客觀貝葉斯法估計的區(qū)間和修正log-odds法估計的區(qū)間ppvM很接近,且均小于log-odds估計的區(qū)間ppv1/2和ppvC;當(dāng)樣本量較小時(如 ni=10,(i=0,1,2)),與其他三種區(qū)間相比,ppvB的真實覆蓋概率更接近名義覆蓋概率,這在pi(i=0,1,2)接近于0或1時更明顯。
表2 四種方法估計陽性預(yù)測值區(qū)間(名義覆蓋概率為99%,95%,90%)的真實覆蓋概率(%)
80 99.03 94.99 90.30 100 99.04 95.01 90.25
從以上分析可知:(1)與客觀貝葉斯法相比,logodds法估計的區(qū)間總體來說更寬,且實際覆蓋概率與名義覆蓋概率的差別更大,因而其精密度和可靠度均不如客觀貝葉斯法。這可能與客觀貝葉斯法可利用p0、p1和p2的先驗信息有關(guān)。根據(jù)貝葉斯原理可知,無信息先驗并不等于沒有先驗信息,因為它至少提供了待估參數(shù)的取值范圍以及在總體分布中的地位信息〔11〕。這是其優(yōu)點也是其缺點,缺點是降低了貝葉斯統(tǒng)計推斷的質(zhì)量,優(yōu)點是減少了貝葉斯統(tǒng)計推斷中的主觀成分,使統(tǒng)計結(jié)果在先驗信息不充分時主要依賴于實驗數(shù)據(jù),因此常常被用于和經(jīng)典統(tǒng)計方法的比較。本文在利用其優(yōu)點的同時,我們也建議,在實際工作中當(dāng)先驗信息充分時,應(yīng)合理地加入先驗,此時只需對本文提出的方法在公式(9)、(10)、(11)處作適當(dāng)?shù)男薷募纯伞?2)從覆蓋概率指標(biāo)來看,客觀貝葉斯法是一種偏保守的估計,而修正log-odds法是一種非保守的估計。這說明本文在log-odds法的基礎(chǔ)上提出的改進方法達(dá)到了使估計區(qū)間變窄的目的。(3)當(dāng)樣本量較大時(如ni≥50),客觀貝葉斯法和修正log-odds法的精密度和可靠度均比較接近,但計算上后者更簡單,此時建議使用修正log-odds法;當(dāng)樣本量較小(如ni<50),尤其是pi(i=0,1,2)接近于0或1時,修正 logodds法的精密度稍高,但可靠度卻遠(yuǎn)不如客觀貝葉斯法,此時建議使用客觀貝葉斯法。
1.劉璐,張建國,徐棟國,等.評估診斷試驗的陽性預(yù)測能力和陰性預(yù)測能力的指標(biāo).?dāng)?shù)理醫(yī)藥學(xué)雜志,1996,9(1):52-55.
2.Monsour MJ,Evans AT,Kupper LL.Confidence intervals for post-test probability.Statistics in Medicine,1991,10(3):443-456.
3.Mossman DM,Berger JO.Intervals for posttest probabilities:a comparison of 5 methods.Medical decision making,2001,21(6):498-507.
4.Bedrick EJ.Estimating the variance of empirical logits and contrasts in empirical log probabilities.Biometrics,1984,40:805-809.
5.Berger JO.Bayesian analysis:a look at today and thoughts of tomorrow.Journal of the American Statistical Association,2000,95(452):1269-1276.
6.金輝,劉沛.醫(yī)學(xué)中的貝葉斯統(tǒng)計應(yīng)用及其研究進展.中國衛(wèi)生統(tǒng)計,2009,26(5):542-544.
7.施侶元主編.流行病學(xué).北京:人民衛(wèi)生出版社,2006:291-292.d 8.Ntzoufras I.Bayesian modeling using WinBUGS.NJ:John Wiley&Sons,2009:9-10.
9.Agresti A,Coull BA.Approximate is better than“exact”for interval estimation of binomial proportions.The American Statistician,1998,52:119-125.
10.劉沛.四種方法計算總體率可信區(qū)間的比較研究.中國衛(wèi)生統(tǒng)計,2005,22(6):323-326.
11.茆詩松主編.貝葉斯統(tǒng)計.北京:中國統(tǒng)計出版社,2005:96-97.