谷鴻秋,王俊峰,章仲恒,周支瑞
隨著精準(zhǔn)醫(yī)學(xué)時代的到來,臨床預(yù)測模型在醫(yī)療診斷治療決策、患者預(yù)后管理及公共衛(wèi)生資源配置等方面的應(yīng)用越來越多,其價值也愈發(fā)重要。建立臨床預(yù)測模型是一項復(fù)雜的系統(tǒng)工程,涉及研究問題、數(shù)據(jù)集、變量、模型以及結(jié)果報告諸多環(huán)節(jié),盡管有眾多文獻討論過其中的方法學(xué)問題[1-5],《個體預(yù)后與診斷的多變量預(yù)測模型透明報告》(TRIPOD)研究組也給出了報告規(guī)范[6],但仍有很多臨床預(yù)測模型在方法學(xué)上存在缺陷。在本系列文章開篇文章的基礎(chǔ)上[7],本文將臨床預(yù)測模型建立的全過程歸納總結(jié)為8個步驟,并將其中的重要概念及原則做一系統(tǒng)介紹。
從統(tǒng)計技術(shù)的角度來說,臨床預(yù)測模型是臨床研究中比較高級的研究類型,但并非所有的問題都適合用臨床預(yù)模型來回答。例如,干預(yù)/暴露措施的效應(yīng)估計與比較則適合用t檢驗/方差分析,卡方檢驗,Log-rank檢驗等傳統(tǒng)的統(tǒng)計學(xué)假設(shè)檢驗或者校正模型來回答。臨床預(yù)測模型則適合回答疾病的診斷或預(yù)后相關(guān)問題,特別是預(yù)測因子的組合如何準(zhǔn)確的估計患病或事件發(fā)生的概率。
不同的臨床預(yù)測模型問題適合用不同的研究設(shè)計數(shù)據(jù)來回答。對于診斷類問題,其預(yù)測因子與結(jié)局均在同一時點或很短的時間內(nèi),適合采用橫斷面研究數(shù)據(jù)構(gòu)建診斷模型;對于預(yù)后類問題,其預(yù)測因子與結(jié)局有縱向的時間邏輯,適合采用隊列研究數(shù)據(jù)擬合預(yù)后模型。隨機對照臨床試驗可視為入選更為嚴(yán)格前瞻性隊列,因此也可用于建立預(yù)后模型,但在外推性受限?;仡櫺缘年犃醒芯恳蚱漕A(yù)測因子與結(jié)局的數(shù)據(jù)并非系統(tǒng)性的收集,導(dǎo)致信息偏倚,不推薦用其建立預(yù)后模型。傳統(tǒng)的病例對照研究不適合建立預(yù)測模型,不過剿式病例對照或者病例隊列研究在罕見結(jié)局或者預(yù)測因子測量昂貴的研究中是經(jīng)濟、可行的方案。此外,隨著計算機信息技術(shù)的快速發(fā)展,疾病注冊數(shù)據(jù)庫和電子病歷資料也成為構(gòu)建預(yù)測模型的重要數(shù)據(jù)來源[8]。
臨床預(yù)測模型中變量的篩選有三種策略:①基于文獻報道;②基于統(tǒng)計方法;③基于醫(yī)學(xué)認識。這三種策略并非孤立,通常在篩選模型變量時會同時結(jié)合這三種策略,或者在不同的篩選階段應(yīng)用不同的策略。建立預(yù)測模型前,研究者應(yīng)該系統(tǒng)檢索文獻,收集整理已報道的預(yù)測因子作為備選預(yù)測因子。而后,利用統(tǒng)計方法,并結(jié)合醫(yī)學(xué)認識和專家經(jīng)驗,從備選因子中選出最終納入模型的預(yù)測因子。目前并無廣泛認可的最優(yōu)統(tǒng)計方法篩選預(yù)測因子,常見的預(yù)測因子篩選策略有兩種:全模型策略或者篩選模型策略。全模型策略是將所有的潛在因子納入統(tǒng)計模型,且不進行篩選。全模型策略可以避免模型過度擬合以及預(yù)測因子的篩選偏倚[9],但在實踐操作中,全模型不好定義,研究者的認識、變量測量的質(zhì)量及數(shù)據(jù)集的樣本量等都會影響到最終預(yù)測因子變量清單的確定,且納入所有潛在的預(yù)測因子也不切實際。篩選模型策略是借助統(tǒng)計模型評估預(yù)測因子與結(jié)局的關(guān)系,并基于一定的準(zhǔn)則,比如P值,AIC或BIC值等來篩選變量。P<0.05是通常的標(biāo)準(zhǔn),P<0.1或者更高的界值有可能引入并不重要的變量。AIC或BIC是模擬擬合指標(biāo),值越低說明模型擬合越好[10]。篩選模型策略在具體操作時有不同的方法,常見的方法包括向后法、向前法以及逐步法[11]。向后法是從全模型開始逐步剔除冗余的變量,一旦剔除則不再納入;向前法則是從零開始將變量逐個納入模型中,一旦納入則不再剔除;逐步法則是向前法與向后法的綜合,每次新變量納入統(tǒng)計模型時,還需評估已納入的變量。實踐中向后法使用更為普遍,因其首先評估了全模型效應(yīng)。此外,一些新的回歸技術(shù),如LASSO回歸越來越受到研究者的重視[12]。由于預(yù)測模型的終極目標(biāo)是預(yù)測,因此,也可直接將模型的預(yù)測表現(xiàn)作為變量篩選的準(zhǔn)則。
篩選預(yù)測模型的預(yù)測因子雖然有各種統(tǒng)計方法[13],但任何預(yù)測模型的變量篩選,都不能完全依賴于統(tǒng)計方法,應(yīng)該結(jié)合專業(yè)知識以及專業(yè)領(lǐng)域的經(jīng)驗。此外,在確定預(yù)測模型的預(yù)測因子時,一些實際的因素,如指標(biāo)測量的難易度、測量成本、以及應(yīng)用的難易度等也應(yīng)考慮在內(nèi)。
預(yù)測模型中處理變量時首先可能遇到的問題就是缺失值。雖說處理缺失值最好的方法是防止出現(xiàn)缺失值,但缺失值是任何研究都無法回避的問題。當(dāng)缺失的樣本例數(shù)大時,直接剔除不僅可能引入選擇偏倚,而且導(dǎo)致信息丟失,樣本量減少,把握度下降[4],因此,缺失值插補,特別是多重插補是一個重要的彌補方法[14]。缺失值插補可利用患者未缺失的所有變量信息去估計其缺失變量最有可能的值。考慮到模型建立后的實際應(yīng)用,不建議用“缺失”分類來代替缺失值。此外,不同的變量類型在納入模型時,也需做不同的處理。分類變量的某些類的頻數(shù)或者比例過低時,應(yīng)考慮將相近的類合并;連續(xù)變量需首先考察變量分布,對于嚴(yán)重左偏或右偏的數(shù)據(jù),可以考慮進行相應(yīng)的變量轉(zhuǎn)換使變量更接近正態(tài)分布;連續(xù)變量通常假定為線性關(guān)系納入模型,但研究者應(yīng)該借助限制性立方樣條(Restricted Cubic Splines,RCS)函數(shù)或者多項式(Fractional Polynomials,F(xiàn)Ps)考察非線性擬合是否更為合適,如J型或U型曲線[15-17]。也有研究者將連續(xù)變量切割后納入模型中,如果切割后模型的效能丟失少,應(yīng)用的方便性提高,這在后期將預(yù)測模型推向大眾應(yīng)用時是可取的,但在模型建立初期不推薦采用此策略[1,3]。此外,連續(xù)變量變化的尺度通常為1個單位(如1歲),但考慮到實際效應(yīng),研究者也可嘗試其它尺度,比如1個標(biāo)準(zhǔn)差或者10個單位(如10歲)。
在模型擬合階段,研究者需要考慮以下問題:①數(shù)據(jù)集的劃分;②模型形式的選擇;③系數(shù)估計的算法。使用全部的數(shù)據(jù)擬合模型,建立預(yù)測模型,可以最大程度的利用樣本,但這樣的模型不穩(wěn)定,“遷移”能力差,當(dāng)場景稍有變動,模型的預(yù)測能力就有可能發(fā)生變化。因此,擬合預(yù)測模型前,研究者通常將數(shù)據(jù)集劃分為訓(xùn)練集和驗證集, 以訓(xùn)練集數(shù)據(jù)擬合預(yù)測模型,以驗證集數(shù)據(jù)評估模型[17]。劃分訓(xùn)練與驗證數(shù)據(jù)集時,常見的策略包括隨機拆分樣本、交叉驗證(Cross-validation)[19]及Bootstrap重抽樣[20]。選擇預(yù)測模型時,研究者需考慮結(jié)局變量類型及數(shù)據(jù)來源。二分類變量結(jié)局多適于診斷模型或短期的預(yù)后模型,常用Logistic回歸擬合;事件-時間變量多見于長期的預(yù)后模型,常用Cox回歸擬合。此外,若結(jié)局為事件的發(fā)生次數(shù)(如一年內(nèi)哮喘發(fā)作次數(shù)、心衰患者的住院次數(shù)等),可用泊松回歸擬合,若結(jié)局為于連續(xù)變量,可用線性回歸擬合。系數(shù)估計時,線性回歸中常用最小二乘估計法,Logistic和Cox回歸常用最大似然(ML)估計法。一些新的估計技術(shù),如shrinkage技術(shù)[21]和懲罰最大似然估計[22]的運用也日漸普遍。除了傳統(tǒng)的統(tǒng)計方法,一些基于機器學(xué)習(xí)的算法,如決策樹、隨機森林、神經(jīng)網(wǎng)絡(luò)等也在模型擬合中得到廣泛的應(yīng)用。
在預(yù)測模型建立后,還需要對模型的表現(xiàn)進行評估,以考察其可重復(fù)性及外推性,因此,嚴(yán)格的預(yù)測模型評估過程包括了內(nèi)部以及外部數(shù)據(jù)的驗證。當(dāng)使用和訓(xùn)練集同源的數(shù)據(jù)集時,稱之為內(nèi)部驗證。常用的內(nèi)部驗證方法包括隨機拆分驗證、交叉驗證以及Bootstrap重抽樣, 其中Boostrap重抽樣是目前業(yè)界最為推崇的內(nèi)部驗證方法[20]。當(dāng)使用和訓(xùn)練集不同源的數(shù)據(jù)集時,稱為外部驗證。外部驗證可采用不同時間、不同地域、不同時間及地域的數(shù)據(jù)集[23]。
無論是內(nèi)部驗證還是外部驗證,均需要采用的一定的指標(biāo)評估模型的表現(xiàn)。區(qū)分度(Discrimination)和校準(zhǔn)度(Calibration)是兩個最常見的模型評價指標(biāo)[24]。區(qū)分度是指模型區(qū)分是否患有待診斷的疾?。ㄔ\斷模型)或是否發(fā)生預(yù)期的事件(預(yù)后模型)的能力,也就是將患者按照風(fēng)險的大小進行排序的能力。最常見的區(qū)分度刻畫指標(biāo)如AUC,或者C統(tǒng)計量。校準(zhǔn)度則是評估預(yù)測的概率與實際觀察到的概率的一致性,常見的統(tǒng)計指標(biāo)如Brier得分,其假設(shè)檢驗采用Hosmer-Lemeshow擬合優(yōu)度檢驗,最常見的展現(xiàn)方式是校準(zhǔn)度圖,即按預(yù)測的概率的10等份分人群,以每等份預(yù)測概率的均值為X軸,實際事件的比例為Y軸。理想的狀況下,校準(zhǔn)度圖是一條截距為0,斜率為1的一條直線。此外,也有學(xué)者建議用校準(zhǔn)截距(Calibration-in-the-large)、校準(zhǔn)斜率以及決策曲線分析(Decision-curve analysis)來評價預(yù)測模型[1]。有時候,研究者想要比較新開發(fā)的模型對現(xiàn)有模型的改進,或者關(guān)注單個預(yù)測因子的預(yù)測效能增加值(Incremental value),此時用AUC值評價并不靈敏,推薦的指標(biāo)是綜合區(qū)分改善度(IDI)和凈重分類改善度(NRI)[25]。關(guān)于模型的驗證,我們將在下一篇文章詳細討論,此處僅做簡要概念介紹。
為更好的應(yīng)用臨床預(yù)測模型,研究者還需考慮模型的呈現(xiàn)方式。臨床預(yù)測模型本質(zhì)上是預(yù)測因子的數(shù)學(xué)公式組合,為方便臨床應(yīng)用,研究者常將不同的預(yù)測因子的取值賦予不同的評分,最終的累計得分對應(yīng)一定的事件概率,此即評分-概率對照表, 或依據(jù)得分高低劃分高危低危人群,以便臨床干預(yù)治療。此外,列線圖(Nomogram)也是一種常見的呈現(xiàn)方式[26]。若預(yù)測模型比較復(fù)雜,則可以EXCEL工具、網(wǎng)頁工具或者手機APP等電子方式進行展示和應(yīng)用。如預(yù)測10年ASVCD發(fā)生概率的工具(http://tools.acc.org/ASCVD-Risk-Estimator)。
臨床預(yù)測模型最有效的分享和推廣方式便是在學(xué)術(shù)期刊上報告其結(jié)果。但此前很多臨床預(yù)測模型的報告質(zhì)量堪憂,為此,《個體預(yù)后與診斷的多變量預(yù)測模型透明報告》(TRIPOD)從標(biāo)題和摘要、介紹、方法、結(jié)果、討論以及其它七個方面,提出了22條檢查條目,以規(guī)范報告內(nèi)容,提高研究質(zhì)量[6]。研究者在撰寫研究報告時,可從http://www.tripod-statement.org/獲取更詳細的參考信息。
本文系統(tǒng)梳理了臨床預(yù)測模型建立的全過程,相關(guān)概念以及重要原則,以期為臨床研究者提供概念性的認知,指導(dǎo)臨床預(yù)測模型類研究。臨床預(yù)測模型涉及的統(tǒng)計方法和操作流程較多,我們將在后續(xù)的文章中做具體介紹。