診斷實驗陽性預(yù)測值區(qū)間估計的四種方法比較*

2011-03-11 14:01:58東南大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系210009

中國衛(wèi)生統(tǒng)計 2011年1期

東南大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系(210009) 肖珊劉沛

陽性(陰性)預(yù)測值因能直接反映診斷實驗結(jié)果陽性(陰性)者有多大的概率有病(無病)，故常作為評價診斷實驗預(yù)測能力的重要指標(biāo)。由于預(yù)測值是由靈敏度、特異度和患病率構(gòu)成的多重比(multiple proportions)指標(biāo)，故相對于靈敏度、特異度、患病率這類單一比(single proportions)指標(biāo)而言，其置信區(qū)間的估計要復(fù)雜的多。目前常用的預(yù)測值區(qū)間估計方法為對數(shù)似然比法(log-odds 法)〔1，2〕，但這一方法的應(yīng)用受一些條件的限制且估計的置信區(qū)間往往過于保守〔3〕。本文以陽性預(yù)測值為例，在介紹預(yù)測值區(qū)間估計log-odds法(含兩種不同調(diào)整方式)〔3，4〕的基礎(chǔ)上，提出了修正log-odds法。鑒于貝葉斯統(tǒng)計在處理小樣本數(shù)據(jù)和高準(zhǔn)確度診斷實驗數(shù)據(jù)上的優(yōu)勢，本文從客觀貝葉斯分析的角度出發(fā)〔5，6〕，提出了預(yù)測值區(qū)間估計的客觀貝葉斯法。通過比較四種方法的精密度和可靠度，探討其在實際工作中的應(yīng)用條件。

方法與原理

記p0為研究人群中某種疾病(記為D)的患病率，假設(shè)所研究的診斷實驗(記為T)為陽性和陰性二分類結(jié)果。記p1為診斷實驗T的靈敏度，即來自研究人群患有疾病D的個體被診斷為陽性的概率，p2為診斷實驗T的特異度，即來自研究人群不患疾病D的個體被診斷為陰性的概率。則來自研究人群并被診斷為陽性的個體，其患有疾病D的概率，即陽性預(yù)測值(記為ppv)可表示為〔7〕:

在實際工作中，p0、p1和p2的真實值往往不可知，但可通過樣本數(shù)據(jù)得到其估計值^p0=x0/n0，^p1=x1/n1和^p2=x2/n2，其中n0表示來自研究人群的一個隨機樣本所包含的個體數(shù)，x1為此樣本中患有疾病D的個體數(shù);n1為從研究人群中隨機抽取的疾病D的患者人數(shù)，x1為這n1個疾病D的患者被試驗T診斷為陽性的人數(shù);n2為從研究人群中隨機抽取的不患疾病D的人數(shù)，x2為這n2個不患疾病D的個體被試驗T診斷為陰性的人數(shù)。下面將介紹利用x0/n0、x1/n1和x2/n2估計ppv區(qū)間的四種方法。

1.log-odds法〔2〕

將公式(1)改寫為

將以上區(qū)間的下、上限進行以e為底的指數(shù)變換，可得θ的100(1－α)%置信區(qū)間的下、上限，再分別代入公式(2)，得ppv的100(1－α)%置信區(qū)間的上、下限。

特別地，當(dāng)x0=0或x1=0或x0=n2或x2=n2時，公式(3)、(4)將無意義;當(dāng)x1=n1或x2=0時，由公式(4)可知，p1或p2對(^θ)的方差var(ln(^θ))沒有任何貢獻。為解決這些問題，通常有兩種做法。

(1)當(dāng) xi=0(i=0，1，2)時，令 xi=0.5(i=0，1，2);當(dāng) xi=ni(i=0，1，2)時，令 xi=ni－ 0.5(i=0，1，2)。將調(diào)整后的 xi(i=0，1，2)代入公式(3)、(4)中計算ppv的100(1－α)%置信區(qū)間，并記為ppv1/2。

(2)無論 xi=0(i=0，1，2)或 xi=ni(i=0，1，2)是否發(fā)生，均令 xi=xi+c(i=0，1，2)且 ni=ni+2c(i=0，1，2)，其中c為選定的某個常數(shù)，c的取法有很多，比如0.3〔4〕。這樣公式(3)、(4)中的ln(^θ)和(^v)重新估計為

在本文中，取c=0.3，用重新估計后的ln(^θ)和(^v)計算ppv的置信區(qū)間，并記為ppvC。

2.修正log-odds法

由于用log-odds法計算的區(qū)間往往過于保守〔3〕，因此，在前面描述的方法基礎(chǔ)上，本文提出了一種改進方法，其基本思想是使改進后方法估計的區(qū)間變窄，改進方法如下:

由初等數(shù)學(xué)知識可知，

3.客觀貝葉斯法

用貝葉斯方法估計ppv的區(qū)間，除了像log-odds法和修正log-odds法那樣可利用p0、p1和p2的總體信息和樣本信息外，還可利用p0、p1和p2的先驗信息。在本文中，為與log-odds法及修正log-odds法進行比較，筆者從客觀貝葉斯分析的角度出發(fā)〔5，6〕，對 p0、p1和 p2均取無信息先驗，使貝葉斯分析的結(jié)果主要受實驗數(shù)據(jù)的影響，稱之為客觀貝葉斯法。

根據(jù)常識，p0、p1和 p2的取值范圍為［0，1］，在沒有任何其他先驗信息的前提下，對p0、p1和p2的一個合理選擇是?。?，1］上的均勻分布，即 Uniform(0，1)，表示對［0，1］區(qū)間上的任何值都沒有偏愛。另外，Uniform(0，1)還可用Beta分布的形式表達(dá)為Beta(1，1)，根據(jù)共軛分布原理〔8〕，p0、p1和 p2的后驗分布為，

利用 p0、p1和 p2的后驗分布(9)、(10)和(11)，可以通過計算機進行Monte Carlo模擬估計ppv的區(qū)間，具體過程如下:(1)分別從后驗分布Beta(xi+1，ni－xi+1)，(i=0，1，2)隨機抽取 p0、p1和 p2的一個估計值^p0、^p1和 ^p2;(2)將 ^p0、^p1和 ^p2代入公式(1)，得到 ppv的一個估計值p^pv;(3)重復(fù)步驟(1)N次(N一般比較大，如10000)，得N個ppv的估計值，將這N個估計值由小到大排序;(4)找到最接近Nα/2和N(1－α/2)的整數(shù)，取對應(yīng)的ppv估計值為1－α可信水平為的區(qū)間的下界和上界。

需要說明的是，由客觀貝葉斯法計算的ppv區(qū)間一般稱為可信區(qū)間(credible interval)，與log-odds法或修正log-odds法計算的ppv置信區(qū)間(confidence interval)雖然在概念上存在差別，但兩者均可衡量點估計的可靠性。因此，本文將客觀貝葉斯法計算的可信區(qū)間(記為ppvB)當(dāng)作置信區(qū)間計算其覆蓋概率(coverage probability)，進而比較其與log-odds法及修正logodds計算的ppv置信區(qū)間在可靠度上的差別。

4.覆蓋概率

在估計某個總體參數(shù)的置信區(qū)間時，往往要先給定置信水平1－α(如α=0.05)，此1－α也稱為置信區(qū)間的名義覆蓋概率。由于分類數(shù)據(jù)的非連續(xù)性，率的真實覆蓋概率往往不等于名義覆蓋概率〔9〕。所謂真實覆蓋概率，是指對某個真值已知的總體參數(shù)，根據(jù)可能觀察到的樣本，按某種方法計算的多個置信區(qū)間中，包含這個總體參數(shù)的區(qū)間所占的加權(quán)比例(權(quán)重為對應(yīng)樣本出現(xiàn)的概率)。本文中，ppv真實覆蓋概率的計算公式為

其中，I(ppv∈［L，U］)是示性函數(shù)，當(dāng)計算的區(qū)間包含ppv時，取值為1，否則，取值為0。

結(jié)果與分析

評價不同方法區(qū)間估計的優(yōu)劣可從兩個方面入手，一是估計的精密度，區(qū)間長度越小，精密度越高〔10〕;二是可靠度，真實覆蓋概率越接近名義覆蓋概率，可靠度越好，當(dāng)真實覆蓋概率大于名義覆蓋概率時，稱該區(qū)間估計的方法是保守的;否則，稱為非保守的〔9〕。

1.四種方法的精密度比較

在較小樣本(ni=10，(i=0，1，2))，適中樣本(ni=50，(i=0，1，2))以及較大樣本(ni=80，(i=0，1，2))的情況下，利用本文介紹的四種方法，筆者估計了低陽性預(yù)測值(ppv=0.1)，中陽性預(yù)測值(ppv=0.5)以及高陽性預(yù)測值(ppv=0.9)的置信水平(或可信水平)為95%的區(qū)間，結(jié)果見表1。

表1 四種方法估計陽性預(yù)測值置信水平(或可信水平)為95%的區(qū)間

由表1可知，與客觀貝葉斯法估計的區(qū)間ppvB相比，log-odds法估計的區(qū)間ppv1/2和ppvC總體上要寬一些，而修正log-odds估計的區(qū)間ppvM要窄一些。當(dāng)樣本量較大時(如第3列樣本)，這四種方法估計的區(qū)間相似;當(dāng)樣本量較小時(如第1列樣本)，四種方法估計的區(qū)間長度存在差別，且這種差別在pi(i=0，1，2)接近0或1時(如樣本1和樣本7)更明顯。

2.四種方法的可靠度比較

在樣本量 ni=10，30，50，80，100，(i=0，1，2)的情況下，利用本文的四種方法，筆者估計了低陽性預(yù)測值(ppv=0.1)，中陽性預(yù)測值(ppv=0.5)和高陽性預(yù)測值(ppv=0.9)的名義覆蓋概率為99%，95%和90%區(qū)間的實際覆蓋概率，結(jié)果見表2。

由表2可知，在同一名義覆蓋概率 (如95%)下，客觀貝葉斯法估計的區(qū)間ppvB和log-odds估計的區(qū)間ppv1/2和ppvC的實際覆蓋概率總體上高于名義覆蓋概率，而修正log-odds法估計的區(qū)間ppvM的實際覆蓋概率低于名義覆蓋概率，也就是說，log-odds法和客觀貝葉斯法都是偏保守的，而修正log-odds法是非保守的。當(dāng)樣本量較大(如 ni=80，(i=0，1，2))，在實際覆蓋概率和名義覆蓋概率的絕對差值方面，客觀貝葉斯法估計的區(qū)間和修正log-odds法估計的區(qū)間ppvM很接近，且均小于log-odds估計的區(qū)間ppv1/2和ppvC;當(dāng)樣本量較小時(如 ni=10，(i=0，1，2))，與其他三種區(qū)間相比，ppvB的真實覆蓋概率更接近名義覆蓋概率，這在pi(i=0，1，2)接近于0或1時更明顯。

表2 四種方法估計陽性預(yù)測值區(qū)間(名義覆蓋概率為99%，95%，90%)的真實覆蓋概率(%)

80 99．03 94．99 90．30 100 99．04 95．01 90．25

討論

從以上分析可知:(1)與客觀貝葉斯法相比，logodds法估計的區(qū)間總體來說更寬，且實際覆蓋概率與名義覆蓋概率的差別更大，因而其精密度和可靠度均不如客觀貝葉斯法。這可能與客觀貝葉斯法可利用p0、p1和p2的先驗信息有關(guān)。根據(jù)貝葉斯原理可知，無信息先驗并不等于沒有先驗信息，因為它至少提供了待估參數(shù)的取值范圍以及在總體分布中的地位信息〔11〕。這是其優(yōu)點也是其缺點，缺點是降低了貝葉斯統(tǒng)計推斷的質(zhì)量，優(yōu)點是減少了貝葉斯統(tǒng)計推斷中的主觀成分，使統(tǒng)計結(jié)果在先驗信息不充分時主要依賴于實驗數(shù)據(jù)，因此常常被用于和經(jīng)典統(tǒng)計方法的比較。本文在利用其優(yōu)點的同時，我們也建議，在實際工作中當(dāng)先驗信息充分時，應(yīng)合理地加入先驗，此時只需對本文提出的方法在公式(9)、(10)、(11)處作適當(dāng)?shù)男薷募纯伞?2)從覆蓋概率指標(biāo)來看，客觀貝葉斯法是一種偏保守的估計，而修正log-odds法是一種非保守的估計。這說明本文在log-odds法的基礎(chǔ)上提出的改進方法達(dá)到了使估計區(qū)間變窄的目的。(3)當(dāng)樣本量較大時(如ni≥50)，客觀貝葉斯法和修正log-odds法的精密度和可靠度均比較接近，但計算上后者更簡單，此時建議使用修正log-odds法;當(dāng)樣本量較小(如ni＜50)，尤其是pi(i=0，1，2)接近于0或1時，修正 logodds法的精密度稍高，但可靠度卻遠(yuǎn)不如客觀貝葉斯法，此時建議使用客觀貝葉斯法。

1．劉璐，張建國，徐棟國，等．評估診斷試驗的陽性預(yù)測能力和陰性預(yù)測能力的指標(biāo)．?dāng)?shù)理醫(yī)藥學(xué)雜志，1996，9(1):52-55．

2．Monsour MJ，Evans AT，Kupper LL．Confidence intervals for post-test probability．Statistics in Medicine，1991，10(3):443-456．

3．Mossman DM，Berger JO．Intervals for posttest probabilities:a comparison of 5 methods．Medical decision making，2001，21(6):498-507．

4．Bedrick EJ．Estimating the variance of empirical logits and contrasts in empirical log probabilities．Biometrics，1984，40:805-809．

5．Berger JO．Bayesian analysis:a look at today and thoughts of tomorrow．Journal of the American Statistical Association，2000，95(452):1269-1276．

6．金輝，劉沛．醫(yī)學(xué)中的貝葉斯統(tǒng)計應(yīng)用及其研究進展．中國衛(wèi)生統(tǒng)計，2009，26(5):542-544．

7．施侶元主編．流行病學(xué)．北京:人民衛(wèi)生出版社，2006:291-292．d 8．Ntzoufras I．Bayesian modeling using WinBUGS．NJ:John Wiley＆Sons，2009:9-10．

9．Agresti A，Coull BA．Approximate is better than“exact”for interval estimation of binomial proportions．The American Statistician，1998，52:119-125．

10．劉沛．四種方法計算總體率可信區(qū)間的比較研究．中國衛(wèi)生統(tǒng)計，2005，22(6):323-326．

11．茆詩松主編．貝葉斯統(tǒng)計．北京:中國統(tǒng)計出版社，2005:96-97．

診斷實驗陽性預(yù)測值區(qū)間估計的四種方法比較*

方法與原理

結(jié)果與分析

討 論

討論