南通大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(226019)
賈玉龍 周 潔 陳 穎 沈 毅△
【提 要】 目的 本研究擬從模型的校準(zhǔn)度、鑒別力和臨床效益三個(gè)方面,采用4個(gè)指標(biāo)說(shuō)明模型評(píng)價(jià)的指標(biāo)體系。方法 采用logistic建模策略,通過(guò)Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)計(jì)算擬合直線的截距A和斜率B以考察模型的校準(zhǔn)度,計(jì)算受試者工作特征曲線下面積C評(píng)價(jià)模型的鑒別力,繪制決策曲線D并比較相同概率閾值下的凈收益(net benefit)衡量預(yù)測(cè)模型的臨床效益。以某醫(yī)院肝癌外科手術(shù)患者隨訪三年的隊(duì)列為例,計(jì)算并比較兩個(gè)預(yù)測(cè)模型(MELD和UKELD)的“ABCD”指標(biāo)。結(jié)果 通過(guò)計(jì)算兩模型的“ABCD”指標(biāo),從校準(zhǔn)度、鑒別力和臨床效益三個(gè)方面對(duì)模型進(jìn)行比較,綜合評(píng)價(jià)表明MELD模型較優(yōu)。結(jié)論 由“ABCD”構(gòu)成的臨床模型評(píng)價(jià)體系可以更好地評(píng)估預(yù)測(cè)模型的準(zhǔn)確性和嚴(yán)密性,且其評(píng)價(jià)結(jié)果更具有說(shuō)服力。
對(duì)臨床模型的評(píng)價(jià)一般包括校準(zhǔn)度、鑒別力和臨床效益三個(gè)方面。其中,校準(zhǔn)度反映了模型預(yù)測(cè)值和真實(shí)值之間的擬合程度,可用擬合直線的截距和斜率進(jìn)行衡量;鑒別力反映了模型對(duì)真陽(yáng)性和真陰性的判斷能力,可通過(guò)ROC曲線計(jì)算AUC值進(jìn)行評(píng)價(jià),AUC也被稱為一致性統(tǒng)計(jì)量(concordance statistics,C-statistics),即“C”統(tǒng)計(jì)量;臨床效益則更關(guān)注模型能否從陽(yáng)性患者中鑒別出更多的真陽(yáng)性,可運(yùn)用決策曲線(decision curve)計(jì)算模型的凈收益。由于擬合直線的截距一般用A表示,斜率用B表示,AUC用C表示,決策分析用D表示,EWSteyerberg提出用“ABCD”準(zhǔn)則描述上述進(jìn)行模型評(píng)價(jià)的四個(gè)指標(biāo)[5]。下面我們對(duì)該準(zhǔn)則逐一解釋。
1.模型的校準(zhǔn)度
臨床結(jié)局大部分為二分類變量。如生與死、好與差、有效與無(wú)效等,以結(jié)局事件發(fā)生與否為因變量,預(yù)測(cè)模型得分為自變量構(gòu)建logistic回歸模型(建模時(shí)可對(duì)年齡、性別進(jìn)行調(diào)整),計(jì)算每個(gè)個(gè)體結(jié)局事件的預(yù)測(cè)概率,并按照預(yù)測(cè)概率的順序?qū)?shù)據(jù)重新分組(建議分為5~10組),進(jìn)行Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn),考察預(yù)測(cè)結(jié)果和實(shí)際狀況的吻合程度[6-7]。以各組的實(shí)際發(fā)生率為因變量(Y),預(yù)期發(fā)生率為自變量(X)繪制散點(diǎn)圖,并擬合回歸直線[8]。如果實(shí)際值和期望值完全一致,該擬合線的斜率為1,截距為0,設(shè)為參考線;所擬合的直線與參考線越接近,說(shuō)明該預(yù)測(cè)模型的校準(zhǔn)度越高[9]。
2.模型的鑒別力
模型的鑒別力體現(xiàn)在正確區(qū)分陽(yáng)性和陰性結(jié)局,C統(tǒng)計(jì)量是描述廣義線性模型鑒別能力的重要指標(biāo)之一。對(duì)于二分類變量,以1-特異度(假陽(yáng)性率)為橫坐標(biāo),靈敏度(真陽(yáng)性率)為縱坐標(biāo)繪制ROC曲線,其曲線下面積AUC即為C值。C值越接近1表明鑒別能力越高[10]。
3.模型的臨床效益
模型的臨床效益是基于從陽(yáng)性患者中鑒別出更多的真陽(yáng)性,這樣既可避免醫(yī)療資源不必要的消耗,又可減少過(guò)度治療對(duì)假陽(yáng)性患者的傷害[11]。用一種簡(jiǎn)單易懂的數(shù)學(xué)模型即可量化預(yù)測(cè)模型的凈收益(net benefit,NB)為:
[真陽(yáng)性數(shù) -假陽(yáng)性數(shù)×pt/(1-pt)]/樣本數(shù)
其中,pt代表概率閾值,而pt/(1-pt)作為權(quán)重系數(shù),定義假陽(yáng)性決策對(duì)于真陽(yáng)性決策的相對(duì)權(quán)重。以pt為橫坐標(biāo),凈收益為縱坐標(biāo),所作決策曲線可反映不同pt時(shí)模型的臨床效益;還可把幾條決策曲線放入同一坐標(biāo),通過(guò)相同pt下各決策曲線的縱坐標(biāo)大小即可直觀地比較預(yù)測(cè)模型的臨床效益優(yōu)劣。其中pt可以結(jié)合臨床實(shí)際取值[4,8,12]。若認(rèn)為假陽(yáng)性所造成的傷害相對(duì)有限,可將pt設(shè)置為較低數(shù)值;反之則可設(shè)置為較高值,以免過(guò)度治療所造成的危害。顯而易見,決策曲線圖中,存在兩條參考線,一條反映無(wú)任何治療下的凈收益,另一條則是所有患者均接受治療的凈收益。
1. 數(shù)據(jù)來(lái)源
本數(shù)據(jù)來(lái)源于某醫(yī)院肝癌外科手術(shù)的隊(duì)列研究,入組196例肝癌手術(shù)患者,隨訪時(shí)間3年,以患者死亡為觀察終點(diǎn),基線信息如表1。
收集患者入診時(shí)的年齡、性別等基線信息以及血清鈉(Na)、總膽紅素(TBIL)、肌酐(Cr)和國(guó)際標(biāo)準(zhǔn)化比值(INR)等實(shí)驗(yàn)室指標(biāo)。通過(guò)疾病預(yù)防控制中心或電話隨訪收集患者的生存信息。
表1 基線信息
2.模型公式
目前對(duì)肝癌患者的死亡預(yù)測(cè)主要來(lái)源于終末期肝病模型,本研究選擇其中較為經(jīng)典的MELD體系。該體系包括MELD、iMELD、uMELD等若干個(gè)模型。其中,MELD模型[13]最先用于預(yù)測(cè)肝硬化患者的短期生存率,后衍生為終末期肝病患者死亡風(fēng)險(xiǎn)的評(píng)估模型,其具有納入指標(biāo)少易獲得、預(yù)測(cè)準(zhǔn)確易推廣的特點(diǎn),是目前臨床最為常用的肝癌預(yù)測(cè)模型之一。此外,我們還選擇了一個(gè)UKELD[14]模型,該模型比MELD模型多一個(gè)指標(biāo):血清鈉,所以預(yù)測(cè)結(jié)果也有所不同[15]。本研究通過(guò)比較MELD模型和UKELD模型的預(yù)測(cè)結(jié)果,以說(shuō)明如何用“ABCD”準(zhǔn)則進(jìn)行模型評(píng)價(jià)。
MELD模型和UKELD模型的評(píng)分公式如下:
(1)MELD=11.2×ln(INR)+9.6×ln[Cr(mg/dL)]+3.8×ln[TBIL(mg/dL)]+6.4
(2)UKELD=5×[1.5×ln(INR)+0.3×ln[Cr(μmol/L)]+0.6×ln[TBIL(μmol/L)]-13×ln[Na(mmol/L)]+70]
3. 統(tǒng)計(jì)學(xué)分析
1. 基線信息(見表1)
本研究共納入196例肝癌手術(shù)患者,年齡(54.38±9.89)歲,男性152人,女性44人,隨訪3年后生存組104人,死亡組92人,病死率46.94%。兩組間性別、INR、Cr及模型得分之間差異均有統(tǒng)計(jì)學(xué)意義。
2.校準(zhǔn)度評(píng)價(jià)指標(biāo)A和B
3. 鑒別力指標(biāo)C值(見圖3)
圖3為MELD模型和UKELD模型ROC曲線的組合,其中MELD的C值(0.713)大于UKELD(0.665),說(shuō)明MELD的鑒別力優(yōu)于UKELD。
圖1 MELD模型校準(zhǔn)圖
圖2 UKELD模型校準(zhǔn)圖
圖3 ROC曲線圖
4. 臨床效益指標(biāo)D值(見圖4)
圖4中有兩條參考線,一條是無(wú)任何治療下的參考線(斜率為0的長(zhǎng)虛線),其凈收益為0;另一條是所有患者均接受治療的參考線(切線斜率為負(fù)值的長(zhǎng)虛線),凈收益隨著pt的增加而減小,在pt=46.90%時(shí)凈收益降為0;實(shí)線代表MELD模型,短虛線代表UKELD模型。兩曲線在一定的pt下,凈收益均高于兩條參考線,表明具有一定的臨床應(yīng)用價(jià)值。同時(shí),MELD決策曲線基本均在UKELD之上,表明MELD模型的凈收益高于UKELD模型,臨床效益更好。
圖4 決策曲線圖
5.模型指標(biāo)匯總比較
表2羅列兩模型的“ABCD”指標(biāo),通過(guò)對(duì)比表明MELD模型的校準(zhǔn)度、鑒別力和臨床效益都優(yōu)于UKELD模型,說(shuō)明MELD模型對(duì)肝癌手術(shù)患者3年后生存狀況的預(yù)測(cè)效果更好。
表2 模型指標(biāo)匯總比較
本研究主要探討了如何綜合運(yùn)用“ABCD”準(zhǔn)則來(lái)評(píng)估預(yù)測(cè)模型的效能并做出最優(yōu)選擇,為有效評(píng)估預(yù)測(cè)模型整體效能提供了一個(gè)框架。對(duì)兩模型比較的結(jié)果表明,四項(xiàng)評(píng)價(jià)指標(biāo)均反映出MELD模型效能優(yōu)于UKELD模型。MELD不僅擬合直線更貼合參考線,而且其AUC更大,凈收益也在一定閾值概率之內(nèi)大于UKELD模型。
校準(zhǔn)度是反映預(yù)測(cè)模型預(yù)測(cè)效能的最佳特征之一,也就是模型預(yù)測(cè)概率與實(shí)際發(fā)生概率的一致程度。通常我們將logistic回歸和Hosmer-Lemeshow擬合優(yōu)度檢驗(yàn)相結(jié)合,以評(píng)價(jià)模型的一致性。但是,良好的校準(zhǔn)度并不表示模型能將患者和非患者完美的鑒別開來(lái),而ROC曲線一直作為預(yù)測(cè)模型鑒別力及人群篩檢研究的可視化評(píng)價(jià)指標(biāo)而被推崇,根據(jù)其AUC可簡(jiǎn)單直觀地評(píng)價(jià)預(yù)測(cè)模型的鑒別能力,以彌補(bǔ)校準(zhǔn)度的不足。然而,僅考慮鑒別力和一致性尚不能真正反映一個(gè)模型對(duì)臨床決策的貢獻(xiàn)。假陽(yáng)性和假陰性的優(yōu)先篩檢問題以及針對(duì)鑒別結(jié)果的后續(xù)臨床決策效益評(píng)價(jià),更是判斷臨床模型優(yōu)劣的關(guān)鍵所在;同時(shí),即便AUC較大,如果沒有一個(gè)合理的pt,該模型也沒有任何臨床意義[17]。所以,決策曲線和凈收益更直觀地表達(dá)了預(yù)測(cè)模型的實(shí)際臨床效益。根據(jù)不同pt下的凈收益大小,可做出患者后續(xù)是否采取及采取何種臨床診療措施的最大凈收益決策,但pt的確定是運(yùn)用決策曲線評(píng)價(jià)臨床效益的一個(gè)難點(diǎn)[10],可依據(jù)臨床實(shí)踐經(jīng)驗(yàn)或從meta分析及高質(zhì)量的同質(zhì)人群隊(duì)列研究中得到。本文pt=51.30%選自Cucchetti的一篇研究人群同為肝癌手術(shù)患者的三年病死率報(bào)道[18]。
本研究是一個(gè)生存隊(duì)列,但logistic回歸僅考慮二分類結(jié)局,無(wú)法利用生存時(shí)間所提供的信息。目前對(duì)生存資料也提出一些比較新穎的模型評(píng)價(jià)方法及指標(biāo),如“C統(tǒng)計(jì)量”的變體[7]等。但考慮到模型評(píng)價(jià)的方法學(xué)體系,以及軟件實(shí)現(xiàn)的便利性,故本文仍以logistic回歸建模和計(jì)算相關(guān)評(píng)價(jià)指標(biāo)。
當(dāng)然,該模型評(píng)價(jià)體系既適合現(xiàn)存預(yù)測(cè)模型的評(píng)估,也適合對(duì)于新建模型的評(píng)價(jià)和驗(yàn)證?!癆BCD”四個(gè)評(píng)價(jià)指標(biāo)取長(zhǎng)補(bǔ)短,相得益彰,彌補(bǔ)了傳統(tǒng)的僅用AUC進(jìn)行模型評(píng)價(jià)的缺陷,為預(yù)測(cè)模型的選擇、應(yīng)用及嚴(yán)密謹(jǐn)慎的臨床決策提供了可靠的依據(jù)。