馬春桃 熊 巍 田茂再,3,4
·論著·
重復測量診斷試驗的ROC曲線廣義線性混合效應模型*
馬春桃1熊 巍2田茂再1,3,4
目的 針對重復測量診斷數(shù)據(jù),為同時考慮協(xié)變量對診斷試驗準確性評價的影響,度量重復測量數(shù)據(jù)間的相關性,本文探索新的ROC曲線的建模方法。方法 通過廣義線性混合效應模型對ROC曲線進行模擬,并采用貝葉斯參數(shù)估計方法,利用WinBUGS軟件予以實現(xiàn),進而計算不同協(xié)變量取值下的ROC曲線下面積(AUC)以對診斷試驗結(jié)果進行評價。結(jié)果 實例數(shù)據(jù)分析結(jié)果表明,基于廣義線性混合效應模型的ROC曲線建模方法可以有效地刻畫重復測量診斷試驗數(shù)據(jù),給出更有解釋意義的回歸參數(shù),提供臨床分析的參考依據(jù)。結(jié)論 基于廣義線性混合效應的ROC曲線模型在解決重復測量診斷試驗的準確度評價問題起著至關重要的作用。
ROC曲線 混合效應 貝葉斯 重復測量 診斷試驗
在醫(yī)學診斷等領域中,為了準確評價某一診斷方法的準確度,試驗常以重復測量的方式進行[1]。重復測量診斷試驗是指一個患者接受多個試驗或者某試驗被同一患者重復接受多次的情況。同一患者的重復測量值之間是非獨立的,后一次的診斷試驗結(jié)果可能受到前面試驗結(jié)果的影響,診斷試驗結(jié)果在所測量的時間范圍內(nèi)可能成趨勢性變化,不同患者之間的試驗結(jié)果一般是獨立的[2]。為正確區(qū)分人群健康狀態(tài)、及時干預病人疾病進程和治療,重復測量診斷試驗的準確性是研究的關鍵。為此,應綜合考慮混合效應模型和ROC曲線分析方法度量重復測量診斷數(shù)據(jù)間的相關關系。
ROC曲線(receiver operating characteristic curves)方法已廣泛應用于臨床診療醫(yī)學領域,是描述和比較診斷試驗的一種重要的綜合評價方法。目前,有關診斷試驗準確性最常用的指標為靈敏度和特異度,ROC曲線通過構(gòu)圖能夠反映不同臨界點下靈敏度和特異度的關系,并可通過計算ROC曲線下面積(AUC)判斷診斷試驗的效率。但是常規(guī)的ROC分析方法不能用來處理重復測量診斷數(shù)據(jù),在實際問題研究中存在些許缺陷:或是建立的隨機效應模型不包含協(xié)變量,無法考慮多種混雜因素(協(xié)變量)對診斷試驗準確度的影響;或是建立的模型為ROC曲線的間接模型,難以給出回歸參數(shù)的合理性解釋。例如一類常用的間接模型就是先計算協(xié)變量組合的準確度指標(如AUC),再建立協(xié)變量對該指標影響的線性回歸模型。而該類間接模型,其分析對象主要為ROC曲線的某種綜合指標(如AUC),無法直接討論協(xié)變量的影響;并且協(xié)變量不含有“疾病狀態(tài)”這個重要的指示變量;與此同時該模型只能模擬協(xié)變量為分類變量的情形,這也要求協(xié)變量組合中有足夠的患者數(shù)據(jù)來計算準確度指標。
混合效應模型不僅可以分析重復測量數(shù)據(jù),還能處理諸如含有缺失數(shù)據(jù)或不均衡數(shù)據(jù)的資料?;旌闲P图瓤紤]了固定效應也考慮了隨機效應,能夠有效刻畫數(shù)據(jù)不獨立的情況,使得信息利用更加充分;另外該模型不僅能夠用于說明變量水平及變化趨勢,也適用于分析協(xié)變量存在的情況。廣義線性混合效應模型是廣義線性模型和混合效應模型的推廣,對響應變量是離散變量和分類變量的情形均適用,并通過在模型中加入隨機效應項來刻畫數(shù)據(jù)內(nèi)部的相關性、異質(zhì)性及過離散等問題。因此,廣義線性混合效應模型非常適用于處理重復測量診斷試驗數(shù)據(jù)。
為有效解決以上難題,本文給出適合重復診斷測量試驗的ROC模型,考慮利用廣義線性混合效應模型對ROC曲線進行模擬。該方法與傳統(tǒng)方法相比,具有一定優(yōu)勢:一方面該方法直接對ROC曲線建模,不僅給出更有解釋意義的回歸參數(shù),還考慮了協(xié)變量和隨機效應的多重影響;另一方面該模型適用廣泛,對離散和連續(xù)的協(xié)變量均適用,對診斷試驗結(jié)果的分布也沒有特定要求。這為醫(yī)學診斷試驗評價的ROC曲線分析提供了新的思路,為臨床試驗提供一定依據(jù)。
1.ROC曲線廣義線性混合效應模型
通過廣義線性混合效應模型,已知基準函數(shù)向量h(p)和協(xié)變量值x,建立隨機效應回歸模型:
ROCx(p)=g[γ′h(p)+β′x+λ′z]
其中,g(·)是已知的連接函數(shù),且g(·)必須是嚴格單調(diào)上升或下降的函數(shù),這樣才能確保ROC曲線在(0,1)區(qū)間內(nèi)是單調(diào)遞增的;h(p)是定義ROC曲線的形狀和位置的已知的基準函數(shù)向量;γ是假陽性率FPRs影響相應真陽性率TPRs的未知參數(shù)向量;β是協(xié)變量對ROC曲線影響的回歸參數(shù)向量;λ為隨機效應向量,且假定λ~N(0,D)。一般地,連接函數(shù)選取probit連接函數(shù),即g=Φ(·),基準函數(shù)向量h(p)=[1,Φ-1(p)]′,Φ(·)指累積標準正態(tài)分布函數(shù),Φ-1(·)指累積標準正態(tài)分布函數(shù)的逆函數(shù)。
ROC曲線下面積(AUC)是評價診斷試驗最常用的一個指標,它表示診斷系統(tǒng)中“患病”(陽性)和“不患病”(陰性)診斷結(jié)果分布與“金標準”的重疊程度,體現(xiàn)了診斷試驗的價值,面積越大診斷價值越高。理論上AUC的取值范圍為0.5~1,兩端點分別表示完全無價值的診斷及完善的診斷。一般ROC曲線面積在0.50~0.70,表示診斷準確度低,在0.70~0.90,表示診斷準確度中等,0.90以上,認為診斷準確度較高。
2.參數(shù)估計方法
本文采用馬爾科夫蒙特卡洛(Markov chain Monte Carlo,MCMC)的貝葉斯方法來估計ROC曲線廣義線性混合效應模型。相比于極大似然估計方法,該方法更加靈活準確,且用于估計的隨機效應變量個數(shù)可以是任意的。本文用WinBUGS軟件來進行計算。具體的參數(shù)估計過程如下[3-5]:
第一步,給定假陽性率集,Γ=(p)
基于Alonzo和Pepe(2001)的模擬研究,可選擇50個等間距的FPRs,即Γ=(1/51,…,50/51),不僅可以保證模型參數(shù)估計的有效性和穩(wěn)健性,還能節(jié)約模型估計的運算時間,實現(xiàn)用較小的假陽性率集獲得較大假陽性率集的統(tǒng)計功效。
第二步,確定參數(shù)γ,β,D的先驗分布
(γ|A)~U(-A,A)
(β|B)~U(-B,B)
(D-1|V,v)~Wishart(V-1,v)
第三步,MCMC過程
為獲得γ,β,D的后驗分布,此處采用Gibbs抽樣方法,迭代更新方法如下,對于第k步,k=1,…,n,直至收斂:
(1)(γ|λ(k),p,y)
(2)(β|λ(k),y)
(3)(D|λ(k))
(4)(λ|γ(k),β(k),D(k),y)
通過數(shù)值迭代產(chǎn)生λ(k+1)。
第四步,繪制ROC曲線并計算曲線下面積AUC
根據(jù)模型參數(shù)的貝葉斯估計結(jié)果,可以繪制不同協(xié)變量組合下的ROC曲線,并計算其AUC,評價診斷試驗的準確度。
某研究組為探討在考慮體質(zhì)指數(shù)(BMI)、每天的飲酒量等影響因素后,谷丙轉(zhuǎn)氨酶ALT(U/L)對肝膽病的診斷價值,在某醫(yī)院收集了52名疑似肝炎患者的資料。經(jīng)臨床診斷,患者31例,非患者21例,并對他們進行了10次重復測量。數(shù)據(jù)資料的下載地址為:http://archive.ics.uci.edu/ml/datasets.html。本研究收集分析的部分數(shù)據(jù)見表1和表2。表3 給出了幾個重要特征變量的分布。
表1 52名疑似肝炎患者的資料
表2 變量描述
表3 各指標的統(tǒng)計描述±s)
表3表明,患者與非患者的體質(zhì)指數(shù)、酗酒量、谷丙轉(zhuǎn)氨酶的測量值是顯著不同的,經(jīng)檢驗證實,患者與非患者之間各指標的差別均有統(tǒng)計學意義?;颊叩捏w質(zhì)指數(shù)、酗酒量、谷丙轉(zhuǎn)氨酶的測量值均高于非患者。對本實例,我們考慮幾種不同的情形深入分析。
1.不考慮協(xié)變量和數(shù)據(jù)間的相關性對肝炎診斷準確性的影響。由R軟件繪制得到相應的ROC曲線見圖1,計算AUC為0.75,可以認為谷丙轉(zhuǎn)氨酶對肝炎的診斷的準確度尚可。
圖1 未考慮協(xié)變量和隨機效應影響的ROC曲線
表4 三種模型DIC及相關數(shù)值比較
表4列出了如上三個模型的DIC值,可以看出模型3的DIC值最小,所以選擇帶截距、時間項隨機效應的ROC曲線回歸模型進行下一步分析,即
ROCx(p)=Φ(γ1+γ2Φ-1(p)+β1x1+β2x2+λ0+λ1t)
該模型可以在WinBUGS軟件中用貝葉斯圖建模的方法表示成如圖2所示的有向關系圖。
觀察模擬結(jié)果迭代過程的蹤跡和自相關函數(shù)圖(如圖3、圖4),各參數(shù)的迭代軌跡趨于一條近似平穩(wěn)的水平線,滯后一次的自相關函數(shù)趨于0,這表明模擬結(jié)果的迭代過程基本收斂,得到的貝葉斯參數(shù)估計結(jié)果(表5)可以用于下一步的統(tǒng)計推斷。圖5的核密度函數(shù)圖給我們一些啟示,隨機效應方差的核密度函數(shù)基本呈偏態(tài)分布,所以參數(shù)估計結(jié)果取中位數(shù)更好。故我們?nèi)≈形粩?shù)作為各參數(shù)的估計結(jié)果。
圖2 帶截距、時間項隨機效應的ROC曲線 混合效應模型有向圖
由表5可知,Φ-1(p) 和各參數(shù)的后驗均數(shù)的 95%的置信區(qū)間都沒有包含0,表明各協(xié)變量對 ALT
診斷肝膽疾病準確度的影響均有統(tǒng)計學意義。不同患者間的隨機效應方差為0.101,可以認為不同患者的ALT對肝膽疾病診斷試驗的準確度不同,存在“個體效應”。不同患者時間的隨機效應方差也有統(tǒng)計學意義,方差為0.149,可以認為不同患者的ALT對肝膽疾病的診斷準確度存在著隨時間而變化的趨勢。估計方程結(jié)果顯示,在考慮了“個體效應”后,體質(zhì)指數(shù)BMI值越小,每天的飲酒量越多,谷丙轉(zhuǎn)氨酶對肝膽疾病的診斷準確性越高,也就是說,當采用谷丙轉(zhuǎn)氨酶診斷肝膽疾病時,區(qū)分非肥胖患者的準確度高于肥胖患者的準確度,區(qū)分酗酒患者的準確度高于不酗酒患者的準確度。
圖3 迭代10萬次各參數(shù)迭代軌跡
圖4 各參數(shù)迭代10萬次自相關函數(shù)圖
根據(jù)分層擬合的模型,可以得到不同肥胖程度不同酗酒量下,谷丙轉(zhuǎn)氨酶診斷肝膽疾病的ROC曲線。分別選取BMI值為23,26,29,酗酒量為0,5,10,20,計算相應的AUC,見表6。
由表6可知,不同肥胖程度,不同酗酒量下的AUC不同。若不考慮協(xié)變量和隨機效應對ROC曲線的影響,有可能導致ALT對于肥胖患者或者不嗜酒的患者的預測肝膽疾病的準確性下降,給臨床疾病的確診和干預治療提供不良的診斷信息。所以基于廣義線性隨機效應的ROC曲線模型可以有效地對重復測量試驗診斷數(shù)據(jù)進行刻畫和分析。
圖5 迭代10萬次核密度函數(shù)圖
參數(shù)均值標準差MC誤差中位數(shù)95%置信區(qū)間gamma113660035000041360(0774,1993)gamma214360058000021436(1320,1553)beta109930049000010992(0897,1097)beta2-0181005000001-0180(-0281,-0079)sigma[1,1]01070032000010101(0065,0187)sigma[2,2]01560062000010149(0046,0299)
表6 不同肥胖程度,不同酗酒量下AUC
本文主要探討了針對重復診斷數(shù)據(jù)的ROC曲線廣義線性混合效應模型的原理及其參數(shù)估計方法,并結(jié)合醫(yī)學實例,闡釋了該模型的軟件實現(xiàn)與應用。重復測量診斷數(shù)據(jù)是醫(yī)藥衛(wèi)生研究中常見的數(shù)據(jù)形式,診斷試驗的準確度評價也是醫(yī)學研究不可或缺的部分。本文介紹的ROC曲線廣義線性混合效應模型,是一種考慮協(xié)變量層次效應對診斷試驗準確度影響的直接回歸模型,同時還度量了重復測量診斷數(shù)據(jù)間的相關性,建立了帶有隨機效應的回歸模型。利用診斷準確度的綜合指標(ROC曲線下面積),對協(xié)變量影響和隨機效應影響下的診斷試驗準確度進行合理評價,綜合性強,準確性高。在實際應用中,該方法建模靈活,解釋合理,通過WinBUGS軟件編程可方便實現(xiàn),不僅可以用于診斷試驗結(jié)果為連續(xù)性的重復測量數(shù)據(jù)和有序多分類的重復測量數(shù)據(jù)的分析,而且對于診斷試驗結(jié)果的分布不作特定要求,根據(jù)協(xié)變量和隨機效應對診斷試驗準確度綜合指標的影響,繪制不同條件下的ROC曲線并計算其曲線下面積,從而形象直觀地評價診斷試驗的準確度,為臨床決策提供理論依據(jù)。
[1]李康,魏韋.醫(yī)學診斷試驗評價的ROC分析——重復測量診斷數(shù)據(jù)的ROC曲線.中國醫(yī)院統(tǒng)計,2001,8(1):3-6.
[2]Zhou XH著.宇傳華譯.診斷醫(yī)學統(tǒng)計學.北京:人民衛(wèi)生出版社,2005.
[3]尉潔,宋嬌嬌,劉桂芬.基于貝葉斯估計的診斷試驗ROC曲線回歸模型.中國衛(wèi)生統(tǒng)計,2010,27(2):152-154.
[4]Zhao Y,Staudenmayer J,Coull BA,et al.General Design Bayesian Generalized Linear Mixed Models.Statistical Science,2006,21(1):35-51.
[5]O′Malley AJ,Zou KH.Bayesian multivariate hierarchical transformation models for ROC analysis.Stat Med,2006,25(3):459-479.
(責任編輯:劉 壯)
ROC Curve Based on Generalized Linear Mixed Effects Models in Repeated Diagnostic Tests
Ma Chuntao,Xiong Wei,Tian Maozai
(CenterofStatistics,theSchoolofStatistics,RenminUniversityofChina(100872),Beijing)
Objective To investigate the impact of covariates on diagnostic test and assess the correlation between repeated measurement data,this paper explores innovative modeling techniques of ROC curve.Methods We introduce the new ROC curve method based on generalized linear mixed effects model and apply Bayesian techniques to parameters estimation with Winbugs Software.Further,areas under the ROC curve(AUC) with different values of covariates could be calculated in terms of assessment.Results Cases analysis results indicate the proposed method efficiently explores the repeated measurement data and provides parameters with practical significance,serving as a golden reference.Conclusion The ROC curve based on generalized linear mixed effects models can be effectively used to solve the test accuracy evaluation problem of the repeated diagnostic trials.
ROC curve;Mixed effects;Bayesian;Repeated measurement;Diagnostic tests
*:教育部哲學社會科學研究重大課題攻關項目(No.15JZD015),國家自然科學基金(No.11271368),北京市社會科學基金重大項目(No.15ZDA17),教育部高等學校博士學科點專項科研基金(No.20130004110007),國家社會科學基金重點項目(No.13AZD064),教育部人文社會科學重點研究基地重大項目(15JJD910001),北京市社科聯(lián)項目決策咨詢項目(No.2016010021),中國人民大學科學研究基金(中央高?;究蒲袠I(yè)務費專項資金資助)項目成果(No.15XNL008)
1.中國人民大學應用統(tǒng)計科學研究中心,中國人民大學統(tǒng)計學院(100872)
2.對外經(jīng)濟貿(mào)易大學大數(shù)據(jù)與風險管理研究中心,統(tǒng)計學院
3.蘭州財經(jīng)大學統(tǒng)計學院
4.新疆財經(jīng)大學統(tǒng)計與信息學院
△通信作者: 田茂再,E-mail:mztian@ruc.edu.cn