孫 磊 李祿全 楊曉慧
【提 要】 目的 針對臨床預后重要影響因素自動篩選和重要性分析問題,探討一種基于決策曲線分析(DCA)的研究方法。方法 回顧性分析1998-2013年收治的食管閉鎖患兒的臨床資料,包括一般情況、實驗室檢查等臨床資料,根據(jù)統(tǒng)計決策理論建立簡明易用的決策曲線分析模型,對臨床數(shù)據(jù)進行分析。結果 結合臨床實際意義,自動篩選出13個重要影響因素,并對這些影響因素做獨立分析,并給出重要性排序。結論 本文方法明顯優(yōu)于分布檢驗分析結果和ROC分析結果,主要體現(xiàn)在對樣本數(shù)據(jù)要求不高,既能避免龐雜的啞變量處理,簡易直觀地篩選出重要影響因素,又能避免多重共線性問題導致篩選結果的不確定性。
識別醫(yī)學臨床預后的重要影響因素,對醫(yī)學診療具有十分重要的指導意義。在傳統(tǒng)醫(yī)學問題中,對致病或預后等影響因素的篩選,常用的傳統(tǒng)方法有分布檢驗分析方法和受試者工作特征曲線(receiver operating characteristic curve,ROC)分析方法。分布檢驗分析方法,通常根據(jù)資料數(shù)據(jù)的分布類型,采用相應的檢驗方法計算P值,通過所得P值,判斷其是否具有統(tǒng)計學意義。ROC分析方法,通過曲線下面積(area under curve,AUC)評判不同預測模型的優(yōu)劣。但是這些方法可能存在一些問題,首先對于連續(xù)或二分類結果的模型,龐雜的啞變量處理和計算結果對啞變量賦值方法的高度依賴性,導致篩選結果不確定[1];其次,在使用常規(guī)統(tǒng)計學方法處理的過程中,很難避免陷入多因素間多重共線性問題導致篩選結果的不確定。
為了避免上述臨床醫(yī)學統(tǒng)計分析中面臨的問題,本文將引入決策曲線分析(decision curve analysis,DCA)方法來進行影響因素的篩選,DCA方法的優(yōu)勢主要體現(xiàn)在:其一,對樣本數(shù)據(jù)集的要求不高,處理數(shù)據(jù)前無需進行繁瑣的預處理,并且可應用于具有連續(xù)或二分類結果的模型,很好地避免了啞變量問題;其二,使用DCA方法分析處理數(shù)據(jù)過程中,各因素之間完全獨立,所得結果更加客觀直接,有效避免了傳統(tǒng)醫(yī)學統(tǒng)計分析中多重共線性問題。
DCA方法,在2006年由紀念斯隆凱特琳癌癥研究所的Andrew Vickers博士首次提出。在統(tǒng)計決策分析理論中,通過引入損失函數(shù)便可以考察統(tǒng)計推理結果的優(yōu)劣。DCA方法即是一種簡潔易懂的數(shù)學模型,以評估預測模型的可用性及效益[2]。該方法相當于在回歸預測分析的基礎上,引入了損失函數(shù)。
本文將DCA方法應用于對影響因素的篩選,這里先描述幾個概念,P:對真正影響因素施加干預的受益值;L:對非影響因素施加干預的損失值;Pi:患者i患病(或死亡)的概率。當Pi>Pt時判定為有影響,給予干預。所以較為合理的干預時機是,當且僅當Pi×P>(1-Pi)×L,即預期的受益高于預期的損失。也即Pi>L/(P+L)即為合理的干預時機,于是把L/(P+L)定義為Pi的閾值,即Pt。但對二元的預測指標來說,如果結果是陽性,則強制Pi=1,陰性則Pi=0。這樣,二元和其他類型的指標就有了可比性。當且僅當Pi>Pt,其中Pt是一些由pt/(1-pt)=L/P定義的閾值概率,即Pt=L/(P+L),閾值概率0 DCA曲線的橫坐標為閾概率。當各種評價方法達到某個值時,患者i的患病的概率記為Pi;當Pi達某個閾值(記為Pt),就界定為影響因素,采取一定干預措施。采取干預措施后,自然也就改變了原有的利弊平衡,縱坐標就是利減去弊之后的凈獲益率(net benefit,NB)。當所有因素都沒有做干預,凈獲益為0。斜的那條表示樣本中所有因素都是影響因素,對所有因素都做了干預,凈獲益是個斜率為負值的反斜線,其他的曲線就與它們相比較。凈收益率可以表示為: (1) 其中,TPC表示真陽性個數(shù),FPC表示假陽性個數(shù),n表示樣本總數(shù)。 根據(jù)實際臨床應用,隨機抽取的患者樣本(例如用于計算Pi的樣本)。令a為Pi>Pt情況下患者死亡個體的比例,b為Pi>Pt情況下患者未死亡個體的比例,c為Pi 被干預治療的凈收益率可表示為:NBtreated=a-bL/P,即有 (2) 未被干預治療的凈收益率可表示為:NBuntreated=d-cP/L,即有 (3) 將治療和未治療計算的凈收益相加,自然得出整體凈收益定義為NBoverall=(a+d)-bL/P-cP/L,即有 (4) 決策曲線分析的優(yōu)勢在于能以圖形方式顯示各因素的“凈收益”,通過應用在診斷樣本個體時,當且僅當Pi>Pt在閾值概率Pt的函數(shù)中獲得。它有助于比較用于計算Pi的替代預測模型[3]。因此,它有助于決定對預測模型中的哪一個或哪幾個因素做出選擇,通常是以凈收益率大于0,即存在凈收益值來判定該模型的結果。 通過回顧性分析1998-2013年收治的食管閉鎖患兒的臨床資料,包括一般情況、實驗室檢查等,并比較存活和死亡患兒的臨床資料,得到210例樣本數(shù)據(jù),其中存活170例,死亡40例,病死率為19.05%。 對該臨床數(shù)據(jù)采用R3.4.0統(tǒng)計分析軟件進行分析,通過繪制DCA曲線,觀察各因素對治療轉歸結果的凈收益率,從而篩選出對預后轉歸結果的影響因素,這里DCA曲線縱坐標表示為凈獲益率(NB),其中最大凈收益率為病死率,即19.05%。橫坐標風險閾值(risk threshold)設為(0,1)。通過對各個因素進行決策曲線分析,繪制出相應的DCA曲線,進而篩選出凈獲益率大于0的那些因素,即可得對預后轉歸結果的影響因素。 (a)simple1、2、3、4、5表示因素分別為:出生體重、室間隔缺損、入院日齡、法樂氏四聯(lián)癥、肺動脈閉鎖;(b)simple1、2、3、4、5表示因素分別為:房間隔缺損、動脈導管未閉、肺動脈發(fā)育異常、孕期羊水過多、先天性肛門閉鎖;(c)simple1、2、3、4、5表示因素分別為:總的呼吸機輔助呼吸時間、雙腎重度積水、肺炎、呼吸衰竭、右位心。 圖1不同臨床預后因素繪制的DAC曲線 由圖1可知,患兒的出生體質量、室間隔缺損、入院日齡、肺動脈閉鎖、房間隔缺損、動脈導管未閉和先天性肛門閉鎖等因素的DCA曲線圖的凈收益率在一定閾值區(qū)間內大于零,這表明這些因素對患兒的轉歸結果有一定的影響。 通過R統(tǒng)計軟件處理分析繪制DCA曲線圖,得出具體影響患兒預后轉歸結果的因素有:出生體重、入院日齡、住院時間、室間隔缺損、房間隔缺損、動脈導管未閉、肺動脈閉鎖、肺動脈狹窄、肺動脈發(fā)育異常、肺不張、先天性肛門閉鎖、雙腎重度積水、肺炎、呼吸衰竭、總的呼吸機輔助呼吸時間和第一次呼吸機輔助呼吸時間等。通過對臨床數(shù)據(jù)中各因素做DCA曲線,對比分析發(fā)現(xiàn),有些因素的凈收益率始終為零,或者出現(xiàn)負值(對該因素施加干預后,損失值大于收益值),表明這些因素對患者轉歸結果沒有影響。對于部分DCA曲線凈收益率大于零的因素,表明對患者轉歸結果有影響[4]。 現(xiàn)實中,有些因素雖然在數(shù)據(jù)分析中具有統(tǒng)計學意義和臨床決策凈收益,然而在臨床醫(yī)學中并無實際意義,比如住院時間和上機時間等。將這些具有凈收益率的因素篩選出來,再與有多年相關臨床經驗的醫(yī)生交流探討及查閱近幾年相關研究文獻[5-7],最終篩選出對患兒先天性食道閉鎖轉歸有影響的13個因素:出生體重、入院日齡、房間隔缺損、室間隔缺損、動脈導管未閉、肺動脈閉鎖、肺動脈狹窄、肺動脈發(fā)育異常、肺不張、先天性肛門閉鎖、雙腎重度積水、肺炎、呼吸衰竭。 在分布檢驗分析中,對食管閉鎖患兒所有資料數(shù)據(jù)采用SPSS 20.0統(tǒng)計軟件處理分析,對于正態(tài)分布的連續(xù)變量以均數(shù)±標準差表示,采用兩獨立樣本t檢驗;偏態(tài)分布的連續(xù)變量以中位數(shù)(四分位間距)[M(P25~P75)]表示,采用非參數(shù)檢驗;計數(shù)資料以百分比表示,采用Fisher's精確概率法檢驗,以P<0.05為差異有統(tǒng)計學意義。通過計算所得P值,進而分析得出對食管閉鎖轉歸結果影響因素[5,8]。在運用ROC分析方法對食管閉鎖患兒預后轉歸結果進行分析時,將各指標因素對預后轉歸結果進行ROC曲線分析,通過AUC值的大小,判斷各因素對預后轉歸結果的影響,為了方便應用,可以將AUC所有的值轉換到0.5~1之間,即如果算得的結果小于0.5則用1-AUC取代AUC,AUC越接近于1表明該因素對轉歸結果影響越大[9-13]。 通過表1中三種方法的對比結果,可以得知傳統(tǒng)分析方法得出的結果,DCA方法基本也能判別出來,而在傳統(tǒng)分析方法無法準確判別的因素,DCA也能做出判別。通過將三種分析方法得出的結果,與有多年相關臨床經驗的醫(yī)生交流探討,得出DCA篩選的影響因素跟臨床結果更吻合。如呼吸衰竭、肺炎等指標,傳統(tǒng)分析方法判斷其并無統(tǒng)計學意義,但在實際臨床中,醫(yī)生的確將其視為重要影響因素。 通過DCA方法,篩選出對臨床預后影響的重要因素,但在實際臨床應用中,醫(yī)護人員可能更關心在篩選出的眾多影響因素中,對預后轉歸結果影響相對較大的某一個或某幾個因素。因此,本文又提出基于DCA方法的預后轉歸影響因素重要性排序。 通過對篩選出的13個因素進行重要性排序,以期對臨床醫(yī)生提供更直觀的建議。分別對樣本中存活組和死亡組求均值,篩選出存活組中最靠近均值的7個不同樣本,同理選出死亡組最靠近均值的6個不同樣本,組成新樣本為13階方陣,然后再對樣本進行中心化處理,進而求出其特征值,根據(jù)特征值絕對值大小進行排序,得出各預后轉歸影響因素的重要性大小。 表1 三種方法篩選影響因素結果比較 *采用Fisher精確概率法。 表2 各影響因素重要性大小排序 *:i表示虛數(shù)單位,這里利用復數(shù)模長比較大小。 通過對先天性食管閉鎖新生兒預后轉歸結果的13個影響因素特征值絕對值大小比較,可以得出各因素影響重要性排序分別為:呼吸衰竭、肺炎、雙腎重度積水、出生體重、入院日齡、肺動脈狹窄、肺動脈閉鎖、先天性肛門閉鎖、動脈導管未閉、肺動脈發(fā)育異常、肺不張、室間隔缺損、房間隔缺損。這與臨床專家根據(jù)經驗給出的重要性排序基本相一致。 本文基于DCA方法篩選臨床預后的重要影響因素,不僅有效克服了傳統(tǒng)分析方法中連續(xù)和二分類模型對啞變量賦值方法的依賴性,也較好地避免了傳統(tǒng)分析方法中多重共線性問題。通過與傳統(tǒng)分析方法對比,DCA方法能更有效評判預測因素的確定性及效益。最后,對篩選的臨床預后影響因素進行重要性排序,更客觀直接地得出結果,對臨床實際應用具有很好的指導意義。實例分析
1.基于DCA的預后轉歸影響因素篩選
2.DCA方法與傳統(tǒng)分析方法結果比較
3.基于DCA的預后轉歸影響因素重要性排序
討 論