秦正積 沈 毅△ 崔曉莉 肖 靜 何 書
ROC(receiver operating characteristic curve)分析被認為是一種評價診斷信息和診斷決策的最有效的方法。ROC曲線采用共同的、容易解釋的尺度——曲線下面積來判斷診斷指標(biāo)對疾病的區(qū)分能力。在疾病診斷中,臨床上往往有各種不同的診斷方法或手段,涉及的診斷指標(biāo)非常多。有時對一個指標(biāo)在不同的時間點進行測量或者在不同的部位進行不同的測量,不同的指標(biāo)對疾病各方面敏感性是不一樣的,此時會面臨選擇什么時候和什么指標(biāo)進行疾病診斷。本文以logistic回歸建立模型,提出了多指標(biāo)的ROC分析聯(lián)合診斷方法,可以綜合考慮多指標(biāo)對診斷的貢獻。
在疾病診斷中,用某金標(biāo)準(zhǔn)檢測個體(檢測結(jié)果Y),假設(shè)正常組有nn個觀察值,記為xnj(Y=0,j=1,2,…,nn);異常組有 na個觀察值,記為 xai(Y=1,i=1,2,…,na);同時可用其他診斷指標(biāo) m個,記為:X={X1,X2,…,Xm}。如以金標(biāo)準(zhǔn)檢測結(jié)果為結(jié)局變量,X為解釋變量,異常個體發(fā)生的條件概率=P(Y=1|X1,X2,…,Xm)則 logistic 回歸模型可表示為[1]:
模型參數(shù)估計出來后,可計算每個個體的預(yù)測概率。
目前在ROC曲線分析中的,利用logistic回歸模型的預(yù)測概率P為分析指標(biāo),取截斷點Pk有:若Pi≥Pk,Yi=1;若 Pi< Pk,Yi=0。據(jù)此,可計算相應(yīng)的敏感度和特異度,構(gòu)建ROC曲線。
本研究中采用SAS編程,利用logistic回歸模型,用非參數(shù)法計算各診斷指標(biāo)獨立ROC分析以及多診斷指標(biāo)聯(lián)合ROC分析。
急性腎損傷(AKI)是心臟外科術(shù)后常見的嚴(yán)重并發(fā)癥[2],目前缺乏敏感、實時、特異、簡便的診斷 AKI的生物學(xué)標(biāo)志物,導(dǎo)致AKI發(fā)生過程中不能及時發(fā)現(xiàn)和明確,不能給予積極的治療。在“觀察成人心臟手術(shù)術(shù)后血半胱氨酸蛋白酶抑制劑C(簡稱CyC)和尿半胱氨酸蛋白酶抑制劑C濃度變化”的研究中,每例病人按以下時間點收集所有入選病人尿標(biāo)本:手術(shù)當(dāng)天術(shù)前(before)、到達ICU6小時(icu6)、術(shù)后1~7天(分別為 oneday,twoday,threeday,fourday,fiveday,sixday,sevenday),并檢測尿中尿CyC濃度。
用SAS軟件對各測量點CyC作logistci回歸模型ROC分析和非參數(shù)方法[3],計算ROC曲線下面積表明兩法結(jié)果一致。分析中,logistic回歸ROC分析未提供估計的標(biāo)準(zhǔn)誤和面積為0.5的統(tǒng)計推斷。
由表1可知:before的診斷價值不大(S=0.5476,P=0.4514)。其余診斷指標(biāo)ROC曲線下面積假設(shè)檢驗均有統(tǒng)計學(xué)意義,且S為0.74~0.8,提示有診斷價值。術(shù)后兩天時診斷價值最高,第四天后診斷價值比較接近。
(1)一元logistic回歸建立ROC曲線及參數(shù)估計
從專業(yè)上看,該指標(biāo)是判斷AKI的不同時間點的標(biāo)志物,可通過一次測量值判斷也可利用多次測量的值聯(lián)合進行判斷。如果將所有指標(biāo)聯(lián)合判斷,各指標(biāo)均達到某一值,可視為病例(即串聯(lián)聯(lián)合診斷)。多指標(biāo)的聯(lián)合診斷,可考慮各指標(biāo)分別作為判斷指標(biāo)時,只需達到其中一個診斷指標(biāo)截斷值就可判該個體為病例,即并聯(lián)聯(lián)合診斷。此處,可用各指標(biāo)單獨作logistic回歸分析的結(jié)果,采用統(tǒng)一的個體預(yù)測概率作為診斷指標(biāo),用非參數(shù)法計算ROC曲線下的面積S,得到聯(lián)合診斷A的S及其統(tǒng)計量。表2中分別計算了有before和無before的各項擬合指標(biāo)。
表1 各診斷指標(biāo)獨立ROC分析結(jié)果
由表2可知,去掉before比不去掉before的診斷價值有改善,但從可信區(qū)間看,還難以作出有差異的判斷。
(2)多元logistic回歸建立ROC曲線及參數(shù)估計
表2 各診斷指標(biāo)聯(lián)合ROC分析結(jié)果
分析時,將金標(biāo)準(zhǔn)診斷結(jié)局作為Y,各不同時間點測得CyC作為自變量,擬合logistic回歸模型,得到個體預(yù)測概率,然后用預(yù)測概率作非參數(shù)ROC分析(結(jié)果見表2)。
由表2可知,去掉before時,診斷B比診斷A的曲線下面積大0.091,診斷價值較好一些。未去掉before時,用logistic回歸擬合不能估計,而用非參數(shù)法,估計顯然不合理。
在SAS軟件中利用logistic回歸模型計算ROC曲線下面積和非參數(shù)法分析得到的ROC曲線下面積是一致的。由于 logistic回歸法構(gòu)建的模型中預(yù)測概率與自變量的關(guān)系是單調(diào)變化的,即預(yù)測概率P和自變量X之間構(gòu)成一一映射,因此用預(yù)測概率與用X直接做非參數(shù)ROC分析結(jié)果是一致的,這與有關(guān)研究一致[4]。
聯(lián)合診斷中,診斷A法采用了單獨logistic回歸時的預(yù)測概率P作為分析指標(biāo),盡管它能將所有指標(biāo)綜合進行考慮,但是由于所有指標(biāo)均采用一個截斷值,為兼顧所有指標(biāo)的診斷結(jié)果,反而使得有些診斷效果好的,診斷效率降低,診斷效果差的可能會得到較高的估計,因此得到的曲線下面積并非最佳的診斷評價,導(dǎo)致得到的截斷點不是最佳的工作點。
在診斷B法中,其分析利用多元logistic回歸模型,由各指標(biāo)的線性組合,計算預(yù)測概率,然后用預(yù)測概率計算ROC曲線下面積,并找到預(yù)測概率的最佳工作點。應(yīng)用時可將各指標(biāo)的線性組合作為綜合指標(biāo),進行疾病診斷。由logistic回歸模型擬合及參數(shù)估計方法-極大似然法的性質(zhì)可知[5],該方法利用各指標(biāo)線性組合,能最大限度的由自變量預(yù)測金標(biāo)準(zhǔn)判斷的疾病狀態(tài)或結(jié)局,即能提高診斷的靈敏度和特異度,從而增加診斷曲線下的面積[4]。在獨立診斷時,由于單一自變量準(zhǔn)確預(yù)測金標(biāo)準(zhǔn)結(jié)局的能力低,因此使得靈敏度和特異度降低,導(dǎo)致診斷曲線下面積減少。分析中,一元logistici回歸建立ROC曲線無意義的指標(biāo)納入診斷B時,無法估計參數(shù)。經(jīng)分析預(yù)測概率構(gòu)成的數(shù)據(jù),發(fā)現(xiàn)部分概率完全為0,或者為1,提示資料為退化資料,宜對數(shù)據(jù)進行特殊處理或用軟件PROPROC進行處理[6]。
1.李曉松主編.醫(yī)學(xué)統(tǒng)計學(xué),第2版,北京:高等教育出版社,2008,205-206.
2.Mehta RL,Pascual MT,Soroko S,et al.Spectrum of acute renal failure in the intensive care unit:the PICARD experience.Kidney Int,2004,66(4):1613-1621.
3.宇傳華,徐勇勇.非參數(shù)法估計ROC曲線下面積,中國衛(wèi)生統(tǒng)計,1999,16(04):241-244.
4.陳衛(wèi)中,潘曉平,倪宗瓚.logistic回歸模型在ROC分析中的應(yīng)用,中國衛(wèi)生統(tǒng)計,24(1):22-24.
5.Metz CE,Herman BA,Shen JH.Maximum likelihood estimation of receiver operating characteristic(ROC)curves from continuously distributed data.statist,med,1998,17:1033-1053.
6.宇傳華,徐勇勇.ROC分析方法及其在醫(yī)學(xué)研究中的應(yīng)用,西安:第四軍醫(yī)大學(xué)(博士論文),2000,57-59.