楊 朝 偉
(南京財經(jīng)大學 應(yīng)用數(shù)學學院,南京 210023)
診斷試驗在醫(yī)療保健中起著非常重要的作用。它可以通過對患者的癥狀、體征以及各種檢查結(jié)果來判斷患者得了哪些疾病,同時也能判斷患者未患哪些疾病,而在診斷試驗中很重要的一環(huán)就是診斷試驗準確度的研究。診斷試驗準確度簡單地說就是在診斷試驗中區(qū)分不同疾病狀態(tài)的能力,評價診斷試驗準確度有很多指標,比如優(yōu)勢比和Youden指數(shù)等。
1971年,Lusted[1]提出了一種新的評價方法即ROC曲線,這是一種用來評價有兩類診斷結(jié)果(陽性、陰性)的診斷試驗準確度的方法,它有很多的優(yōu)點:首先,ROC曲線呈現(xiàn)了可視化的診斷準確度;其次ROC曲線也不需要選擇一個特殊的決策閾值,同時也不受患病率的影響。此外,根據(jù)Campbell[2]的研究,它也不受試驗結(jié)果量綱的影響,也就是說對試驗結(jié)果作單調(diào)變換,如線性、對數(shù)變換,ROC曲線不發(fā)生變化。因此在提出之后,ROC曲線就成為評價兩類診斷結(jié)果準確性最常用的方法。
但是在實際中,經(jīng)常會碰到有3種或3種以上診斷結(jié)果的情形,這使得傳統(tǒng)的ROC曲線評價方法不再適用。因此,近年來,學者們開始將研究重心從ROC曲線轉(zhuǎn)移到ROC曲面上來,以應(yīng)對有3種或3種以上診斷結(jié)果的情形,相關(guān)的研究也已有大量成果出現(xiàn)[3-8]。當診斷結(jié)果有3類時,可以將被測對象分為3類,記測量數(shù)據(jù)為X,任意給定兩個臨界值α1,α2且α1≤α2,將滿足X≤α1的對象判定為第一類,將滿足α1≤X≤α2的對象判定為第二類,剩余的判斷為第三類。Nakas,Yiannoutsos[3]基于ROC曲線的定義提出以Tα2對Tα1和Tα3作圖得到的曲面為ROC曲面的定義,這里的Tαi為將第i類的對象正確判別為第i類的概率,i=1,2,3;同時還提出了以ROC曲面下的體積作為診斷試驗準確度的評價指標,體積越大,診斷測試方法就越準確。
本文將提出一種半?yún)?shù)方法用來對一個有3類結(jié)果的連續(xù)型診斷測試進行ROC曲面分析,這也是Nakas,Yiannou-Tsos[3]和Xiong[4]研究的情形,不過他們使用的是參數(shù)方法和非參數(shù)方法,本文研究的是半?yún)?shù)方法。該方法的核心思想是在一個半?yún)?shù)密度函數(shù)比模型下進行ROC曲面的構(gòu)建,在一些文獻中,半?yún)?shù)密度函數(shù)比模型已經(jīng)成功運用到了ROC曲面的分析研究中,如參考文獻[9],文中所使用的模型是比例優(yōu)勢模型,而本文使用的模型是連續(xù)比例邏輯斯蒂回歸模型,并且使用連續(xù)比例邏輯斯蒂回歸模型得到的結(jié)果十分優(yōu)良,計算也很簡便,運用一些邏輯斯蒂軟件即可得到結(jié)果。
令D=k表示第k類,k=1,2,3,對一個給定的測試結(jié)果X=x,連續(xù)比例邏輯斯蒂回歸模型有如下形式:
其中:m=1,2,α1和α2是尺度參數(shù),β1和β2是pxl的向量參數(shù),r(x)是一個關(guān)于x的pxl光滑方程,在大部分應(yīng)用中r(x)=x或者r(x)=(x,x2)T,在連續(xù)比例邏輯斯蒂回歸模型中:
因為
P(D=1|X=x)+P(D=2|X=x)+P(D=3|X=x)=1
可得
從而
這里的i=1,2,3。
由貝葉斯公式可得
因此
令Fk(x)=P(X≤x|D=k),k=1,2,3,fk(x)是Fk(x)的密度函數(shù),k=1,2,3,有
exp(θk+gk(x;η))
其中
為了保證模型可辨識,將α1和θ1合并,容易得到如下的三樣本半?yún)?shù)密度比模型:
X31,…,X3n3~f3(x)
Xk1,…,Xknk~fk(x)=exp(θk+sk(x;η))f3(x),k=1,2
sk(x;η)=
以{T1,…,Tn}表示合并的樣本:
{X11,…,X1n1;X21,…,X2n2;X31,…,X3n3}
這里的Pi=dF3(Ti),i=1,…,n是概率的躍遷且總和為1,與Qin,Zhang(1997)[9]類似,L在受到如下的約束條件的情況下:
這里k=1,2。
L的最大值可以通過拉格朗日乘數(shù)法在
l(θ,η)是剖面對數(shù)似然函數(shù),且
注意到,約束條件:
等價于
這說明exp{θk+sk(Ti;η)}dF3(t)是一個分布函數(shù)。
因此F3(t)的半?yún)?shù)最大似然估計是
類似地,F(xiàn)j(t),j=1,2的半?yún)?shù)最大似然估計是
這里的s1,s2∈[0,1]。用
j=1,2
從而得到ROC曲面估計值為
實例的數(shù)據(jù)來源于Reaven,Miller[11]進行的一項糖尿病研究。在該數(shù)據(jù)中,145名非肥胖成年人被分為3個人群,其中76人正常,36人為糖尿病前期,33人為顯性糖尿病。以空腹血糖(PLG)為例進行ROC曲面分析。由于原始數(shù)據(jù)在量級上變化很大,因此對數(shù)據(jù)進行對數(shù)變換。此外根據(jù)Qin,Zhang[10]的相關(guān)研究,發(fā)現(xiàn)模型在r(x)=x時擬合得比較好,代入后擬合的結(jié)果為α2=43.393 0,β1=-3.350 4,β2=-4.825 1,θ1=0.020 7,θ2=-16.688 2。對ROC曲面進行估計時,以R(0.2,0.4)為例,得到的估計值為0.939 8,相應(yīng)的95%置信區(qū)間為(0.878, 0.984)。對于VUS的分析,其估計值為0.686 6,置信區(qū)間為(0.587,0.789)。此外也得到了使用非參數(shù)方法構(gòu)建的ROC曲面和使用半?yún)?shù)方法構(gòu)建的ROC曲面。如圖1,圖2所示:
圖1 基于實例的非參數(shù)ROC曲面估計值Fig. 1 Non-parametric ROC surface estimators based on the real example
圖2 基于實例的半?yún)?shù)ROC曲面估計值Fig. 2 Semi-parametric ROC surface estimators based on the real example
從圖1和圖2可以看出,圖2中的半?yún)?shù)ROC曲面要比圖1中的非參數(shù)ROC曲面更加光滑,這說明了半?yún)?shù)方法要比非參數(shù)方法更優(yōu)越。此外,若用非參數(shù)方法對有序數(shù)據(jù)進行ROC曲面分析,雖然不需要進行任何的分布假設(shè),但是估計非常粗糙,當數(shù)據(jù)分布不佳時,體積的估計值將嚴重低于實際ROC曲面下的體積,因此在估計ROC曲面時,更適宜用半?yún)?shù)方法。
將連續(xù)比例邏輯斯蒂回歸模型與半?yún)?shù)方法相結(jié)合,提出了一種bootstrap方法來構(gòu)造ROC曲面的置信區(qū)間,并得到了ROC曲面估計量的表達式。相比于非參數(shù)方法,用半?yún)?shù)方法得到的ROC曲面更平滑,得到的結(jié)果也更精確。此外在計算半?yún)?shù)最大似然估計時,傳統(tǒng)的方法是利用牛頓迭代法之類的數(shù)值計算方法,而這里是用一些邏輯斯蒂回歸程序,這樣可以很快速地得到結(jié)果,因此方法也更容易實現(xiàn)。但在實際應(yīng)用中還存在著一些不足,這是因為由于缺少相應(yīng)的軟件,半?yún)?shù)方法相比于參數(shù)或非參數(shù)方法對于部分曲面下體積估計的有效性和穩(wěn)健性還沒有學者進行評價。