孟詳喻,田國(guó)祥,仇成鳳,李勝,曾憲濤
循證理論與實(shí)踐
生存資料的二次研究系列之三:預(yù)后相關(guān)二次研究的基本概念介紹
孟詳喻1,2,田國(guó)祥3,仇成鳳4,李勝1,2,曾憲濤1,2
越來(lái)越多的研究者開(kāi)始關(guān)注預(yù)后的二次研究。由于預(yù)后資料的特殊性和復(fù)雜性,許多研究者在開(kāi)展二次研究時(shí)往往會(huì)遇到一些困難。產(chǎn)生這些困難的絕大多數(shù)原因在于對(duì)預(yù)后資料、時(shí)間-事件變量以及相關(guān)統(tǒng)計(jì)方法基本概念的陌生。本文對(duì)預(yù)后相關(guān)的二次研究所涉及的基本概念進(jìn)行淺析,以資為正確理解并解決研究過(guò)程中的問(wèn)題提供參考。
預(yù)后;二次研究;時(shí)間-事件資料;生存分析
隨著循證醫(yī)學(xué)的問(wèn)世和不斷發(fā)展,越來(lái)越多的醫(yī)務(wù)工作者和醫(yī)學(xué)科研人員開(kāi)始投入到循證醫(yī)學(xué)研究的熱浪之中。雖然循證醫(yī)學(xué)研究的范疇很廣,但當(dāng)前最熱門(mén)的當(dāng)屬系統(tǒng)評(píng)價(jià)/Meta分析[1]。Meta分析是對(duì)證據(jù)資料的定量整合,通過(guò)Meta分析匯總的證據(jù)可以作為系統(tǒng)評(píng)價(jià)的部分資料[2]。隨著系統(tǒng)評(píng)價(jià)/Meta分析研究的不斷推廣與深入,新的研究模式如網(wǎng)狀Meta分析、劑量-效應(yīng)關(guān)系的Meta分析以及定性系統(tǒng)評(píng)價(jià)等開(kāi)始受到越來(lái)越多的關(guān)注[2-4];其涉及的結(jié)局類(lèi)型也由單純的二分類(lèi)變量結(jié)局和連續(xù)性變量結(jié)局?jǐn)U展到預(yù)后相關(guān)的時(shí)間-事件(time-to-event,TTE)結(jié)局[5]。由于預(yù)后資料的特殊性和復(fù)雜性,許多研究者在開(kāi)展相關(guān)二次研究時(shí)往往會(huì)遇到一些困難。產(chǎn)生這些困難的絕大多數(shù)原因在于對(duì)預(yù)后資料、TTE結(jié)局以及相關(guān)統(tǒng)計(jì)方法基本概念的陌生。本文對(duì)預(yù)后相關(guān)的二次研究所涉及的基本概念進(jìn)行淺析,以資為正確理解并解決研究過(guò)程中的問(wèn)題提供參考。
1.1預(yù)后 疾病預(yù)后(prognosis)是指預(yù)測(cè)某種疾病發(fā)生之后可能出現(xiàn)的各種結(jié)局及其頻率。預(yù)后的評(píng)價(jià)指標(biāo)包括病死率、反應(yīng)率、緩解率、復(fù)發(fā)率、治愈率與轉(zhuǎn)移率等[6]。上述指標(biāo)的計(jì)算一般為一定觀察期內(nèi)某一人群中出現(xiàn)相關(guān)事件的人數(shù)占總?cè)藬?shù)的比例,并不考慮自觀察起點(diǎn)至事件發(fā)生所經(jīng)歷的時(shí)間。單純用上述類(lèi)型的事件率指標(biāo)來(lái)評(píng)價(jià)預(yù)后所能提供的信息很有限,尤其是在隨訪期較長(zhǎng)的情況下。要全面評(píng)價(jià)預(yù)后則需要對(duì)TTE資料進(jìn)行分析。
1.2時(shí)間-事件結(jié)局 TTE結(jié)局(TTE outcome)是一類(lèi)特殊類(lèi)型的結(jié)局,其綜合考慮事件的發(fā)生與否以及從觀察起點(diǎn)至事件發(fā)生所經(jīng)歷的時(shí)間。TTE結(jié)局事件可以是死亡、罹患某種疾病、疾病復(fù)發(fā)、疾病進(jìn)展、腫瘤遠(yuǎn)處轉(zhuǎn)移或疾病康復(fù)等。對(duì)特定觀察對(duì)象,就某TTE結(jié)局變量而言其可能出現(xiàn)的情況有三種,即在隨訪期內(nèi)某一時(shí)間點(diǎn)出現(xiàn)事件、直到隨訪期結(jié)束仍未出現(xiàn)事件或隨訪期內(nèi)失訪或退出研究。若出現(xiàn)后三種情況,則稱其刪失。
1.3刪失 刪失(censoring)是指不清楚TTE結(jié)局事件出現(xiàn)的具體時(shí)間。例如,觀察對(duì)象直到隨訪期結(jié)束仍未出現(xiàn)事件,則只能判斷該對(duì)象的無(wú)事件時(shí)間大于整個(gè)觀察期的時(shí)間跨度;如果某一觀察對(duì)象在隨訪期內(nèi)某一時(shí)間點(diǎn)失訪或退出研究,則只能判斷該對(duì)象的無(wú)事件時(shí)間大于觀察起點(diǎn)至末次隨訪的時(shí)間跨度。
1.4臨床研究中常見(jiàn)的TTE結(jié)局 在臨床研究中,常見(jiàn)的TTE結(jié)局指標(biāo)有:總生存(overall survival,OS),其結(jié)局事件為死亡;無(wú)進(jìn)展生存(progression free survival,PFS),其結(jié)局事件為疾病進(jìn)展或死亡;疾病進(jìn)展歷時(shí)(time toprogression,TTP),其結(jié)局事件為疾病進(jìn)展;療效持續(xù)時(shí)間(duration of response,DoR),其起點(diǎn)為記錄到客觀療效的時(shí)點(diǎn),結(jié)局事件為疾病進(jìn)展;以及無(wú)遠(yuǎn)處轉(zhuǎn)移生存(metastasis free survival,MFS),結(jié)局事件為腫瘤遠(yuǎn)處轉(zhuǎn)移。在不同類(lèi)型的臨床研究中,上述TTE變量的隨訪起點(diǎn)可能有所差異。在隨機(jī)試驗(yàn)中,除DoR之外的其他結(jié)局指標(biāo)的隨訪起點(diǎn)一般為隨機(jī)分組的時(shí)點(diǎn),而在非隨機(jī)試驗(yàn)中則一般為進(jìn)入研究的時(shí)點(diǎn)。
2.1生存分析 生存分析(survival analysis)是一系列用于分析TTE變量資料的統(tǒng)計(jì)分析方法。雖然“生存分析”這一概念中有“生存”二字,但其涉及的TTE變量的事件類(lèi)型并不僅限于死亡。無(wú)論事件類(lèi)型是發(fā)病、病情進(jìn)展、疾病復(fù)發(fā)或腫瘤遠(yuǎn)處轉(zhuǎn)移,或不同事件類(lèi)型的組合(如綜合考慮疾病進(jìn)展與死亡),在分析TTE資料時(shí)均采用生存分析的方法。
生存分析的內(nèi)容包括三個(gè)方面,一是對(duì)TTE資料進(jìn)行描述性分析,如估計(jì)中位生存時(shí)間、繪制Kaplan-Meier(K-M)曲線等;二是進(jìn)行預(yù)后比較,如對(duì)比某隨機(jī)對(duì)照試驗(yàn)中試驗(yàn)組與對(duì)照組在接受不同化療方案治療后的存活情況;三是分析潛在預(yù)測(cè)變量與預(yù)后之間的關(guān)系,找出與預(yù)后關(guān)系緊密的預(yù)測(cè)因素[7]。
2.2生存曲線 生存曲線(survival curves)是以觀察時(shí)間為橫坐標(biāo),生存率為縱坐標(biāo),將各個(gè)時(shí)點(diǎn)的生存率在坐標(biāo)系上連接以描述生存過(guò)程的曲線。對(duì)于事件類(lèi)型不是死亡的TTE結(jié)局,上述定義中的“生存”可以理解為“未出現(xiàn)事件的狀態(tài)”,如“生存率”可以理解為“無(wú)事件率”。由于TTE資料存在刪失,各時(shí)點(diǎn)的生存率無(wú)法通過(guò)常規(guī)方法計(jì)算得出。最常用的時(shí)點(diǎn)生存率估計(jì)方法為基于乘積限估計(jì)的K-M法,通過(guò)該方法得出的生存曲線即K-M曲線[8]。其具體計(jì)算方法在此不做贅述,感興趣的讀者請(qǐng)參閱相關(guān)專(zhuān)著[9]。一般而言,K-M曲線的形態(tài)在樣本量較小時(shí)呈階梯狀,隨著樣本量的增加將逐漸趨于平滑。
2.3中位生存期與平均生存期 中位生存期(median survival)的定義為觀察群體的累積生存率達(dá)到50%的時(shí)間點(diǎn)。對(duì)于各類(lèi)終點(diǎn)事件,中位生存期的等價(jià)概念可以通俗地理解為觀察群體中累積半數(shù)的個(gè)體已發(fā)生目標(biāo)事件的時(shí)間點(diǎn)。中位生存期屬于K-M法生存估計(jì)的范疇,其具體計(jì)算為生存函數(shù)等于或小于0.5的最短生存時(shí)間。請(qǐng)讀者們注意,由于刪失的存在,中位生存期不是簡(jiǎn)單的觀察群體生存期的中位值,而必須通過(guò)K-M等統(tǒng)計(jì)方法估計(jì)得出。
類(lèi)似于中位生存期,平均生存期(mean survival)也不是簡(jiǎn)單觀察群體生存期的算數(shù)均值,而需通過(guò)計(jì)算K-M生存曲線下方面積得出。
由于樣本生存時(shí)間大多呈偏態(tài)分布,因此一般推薦用中位生存期來(lái)描述生存時(shí)間中心位置。在此提醒二次研究者,切記不要將中位生存期與平均生存期當(dāng)成類(lèi)似或接近的概念進(jìn)行處理;此外,這兩個(gè)指標(biāo)對(duì)于整體生存狀況的反映都是極為有限的。
2.4Log-Rank檢驗(yàn) Log-rank檢驗(yàn)(Log-rank test)是用于比較兩組或多組人群的K-M曲線是否存在統(tǒng)計(jì)顯著差異最常用的統(tǒng)計(jì)檢驗(yàn)方法[10]。該統(tǒng)計(jì)檢驗(yàn)方法本質(zhì)上是卡方檢驗(yàn),是對(duì)不同K-M曲線資料的整體比較。對(duì)任一樣本,將記錄到的事件發(fā)生時(shí)間點(diǎn)從小到大進(jìn)行排序,兩時(shí)間點(diǎn)間的時(shí)間段為一組(第一組的起點(diǎn)為隨訪起點(diǎn),記為0),如此將整個(gè)TTE資料劃分為不同的結(jié)局組,分別對(duì)各結(jié)局組統(tǒng)計(jì)觀察例數(shù)并計(jì)算期望例數(shù),之后進(jìn)一步計(jì)算出Log-rank統(tǒng)計(jì)量,該統(tǒng)計(jì)量在零假設(shè)下服從自由度為樣本組數(shù)-1(如兩組比較則自由度為1)的卡方分布,對(duì)照卡方分布表即可得出Log-rank檢驗(yàn)的P值,將其與所選定的檢驗(yàn)水準(zhǔn)進(jìn)行比較即可判斷差異是否顯著[11]。文獻(xiàn)中生存曲線圖上標(biāo)注的P值多為L(zhǎng)og-rank檢驗(yàn)的P值。
2.5Cox比例風(fēng)險(xiǎn)模型 在本系列先前的文章中,我們介紹了基于乘積限估計(jì)的K-M法、生存曲線、中位與平均生存期等TTE資料的描述性統(tǒng)計(jì)方法,以及用于比較不同K-M曲線的Log-rank檢驗(yàn)[12,13]??梢钥闯?,這些生存分析方法都是單因素分析方法,所能反映的信息有限,基于這些方法分析得出的結(jié)論存在較大的局限性。TTE資料最常用的多因素分析方法即基于Cox比例風(fēng)險(xiǎn)模型(Cox proportional hazards model)的分析,簡(jiǎn)稱Cox回歸分析。該模型將TTE結(jié)局指標(biāo)作為因變量,探索不同的預(yù)測(cè)變量(如年齡、性別、疾病分期或治療方案等)與TTE結(jié)局指標(biāo)之間的關(guān)聯(lián)。換言之,Cox回歸分析能夠探索觀察人群的某些特征與TTE結(jié)局之間的潛在關(guān)系。由于Cox比例風(fēng)險(xiǎn)模型只估計(jì)模型中的預(yù)測(cè)變量與結(jié)局變量間的回歸系數(shù),而對(duì)基準(zhǔn)風(fēng)險(xiǎn)函數(shù)不做具體演算估計(jì),因此Cox比例風(fēng)險(xiǎn)模型是一種半?yún)?shù)模型。相比參數(shù)模型,Cox模型對(duì)生存分布不作具體假設(shè),運(yùn)算簡(jiǎn)便且分析結(jié)果與相應(yīng)的參數(shù)模型接近,因而被認(rèn)為是一種“穩(wěn)健”的模型。Cox模型的經(jīng)典模式為,其中h(t,X) 為風(fēng) 險(xiǎn)函數(shù);h0(t)即基準(zhǔn)風(fēng)險(xiǎn)函數(shù),是時(shí)間t的函數(shù);βi為因子X(jué)i對(duì)應(yīng)的回歸系數(shù),通過(guò)最大似然估計(jì)計(jì) 算及其標(biāo)準(zhǔn)誤[14]。Cox比例風(fēng)險(xiǎn)模型是最常用的TTE資料多因素分析方法,我們將在后續(xù)討論中對(duì)其分析結(jié)果進(jìn)行詳細(xì)說(shuō)明。
在此提醒二次研究者,提取數(shù)據(jù)時(shí)應(yīng)同時(shí)提取HR值及其95%CI,前者是對(duì)效應(yīng)的點(diǎn)估計(jì),后者則能夠反映估計(jì)的精確度。就Meta分析(證據(jù)定量合并)而言,其本質(zhì)就是一個(gè)映射(函數(shù))關(guān)系,將一組二維向量(不同單個(gè)原始研究的點(diǎn)估計(jì)與精確度)按一定法則映射為單個(gè)二維向量,即合并后的點(diǎn)估計(jì)與精確度;在證據(jù)層面,這兩個(gè)維度分別表明了效應(yīng)的大小及其可靠程度,是基于證據(jù)進(jìn)行推薦時(shí)的關(guān)鍵信息之一。正是由于映射關(guān)系這一本質(zhì),我們無(wú)法排除低質(zhì)量的原始研究數(shù)據(jù)影響整個(gè)分析結(jié)果質(zhì)量的可能性,因此應(yīng)盡可能使用高質(zhì)量的原始研究數(shù)據(jù)。若不考慮研究設(shè)計(jì)層面的影響,多因素Cox回歸分析納入的信息量大并對(duì)潛在混雜因素進(jìn)行了校正,因而預(yù)后相關(guān)二次研究中應(yīng)優(yōu)先考慮使用多因素HR及其95%CI作為基礎(chǔ)數(shù)據(jù)。另一方面,由于難以評(píng)價(jià)原始研究模型選取的準(zhǔn)確性及其過(guò)擬合風(fēng)險(xiǎn),切忌機(jī)械地認(rèn)為基于多因素Cox回歸分析的研究報(bào)道是“絕對(duì)可靠”的。如果原始研究在充足樣本量的基礎(chǔ)上采用了正則化或交叉驗(yàn)證等手段選取模型,則其數(shù)據(jù)質(zhì)量要相對(duì)較好。
在預(yù)后相關(guān)的原始研究中,TTE結(jié)局是用于評(píng)價(jià)預(yù)后的最佳結(jié)局指標(biāo)。TTE變量資料所包含的信息是二維的,即事件狀態(tài)(發(fā)生事件或刪失)以及至事件或刪失點(diǎn)的歷時(shí)。相比只考慮事件發(fā)生與否的時(shí)點(diǎn)事件率指標(biāo),如5年生存率等,基于TTE資料的預(yù)后分析更為準(zhǔn)確、全面。常見(jiàn)的TTE結(jié)局指標(biāo)有總生存、無(wú)進(jìn)展生存與疾病進(jìn)展歷時(shí)等。
TTE變量資料的分析方法統(tǒng)稱“生存分析”。生存分析的內(nèi)容包括三個(gè)方面,即描述性分析、預(yù)后比較以及探究預(yù)測(cè)變量與預(yù)后之間的關(guān)聯(lián)。常見(jiàn)的描述性生存分析有中位或平均生存期的估計(jì)與生存曲線的繪制,這些方法基于K-M乘積限估計(jì)。可以通過(guò)Log-rank檢驗(yàn)或Cox回歸分析進(jìn)行預(yù)后比較,Cox回歸分析還可用于探索多個(gè)預(yù)測(cè)變量與預(yù)后之間的聯(lián)系。預(yù)后比較與預(yù)后關(guān)聯(lián)分析最常用的統(tǒng)計(jì)量是風(fēng)險(xiǎn)比HR,為某一群體的風(fēng)險(xiǎn)與相應(yīng)另一群體的風(fēng)險(xiǎn)之比。預(yù)后相關(guān)二次研究中應(yīng)優(yōu)先考慮提取文獻(xiàn)報(bào)道中的多因素HR及其95%CI作為原始數(shù)據(jù);在相關(guān)數(shù)據(jù)缺失的情況下,基于K-M生存曲線的二次研究是可以考慮的備選方法。
[1] 曾憲濤,田國(guó)祥,張超,等. Meta分析系列之十五:Meta分析的進(jìn)展與思考[J]. 中國(guó)循證心血管醫(yī)學(xué)雜志,2013,5(6):561-3.
[2] 曾憲濤,冷衛(wèi)東,郭毅,等. Meta分析系列之一:Meta分析的類(lèi)型[J].中國(guó)循證心血管醫(yī)學(xué)雜志,2012,4(1):3-5.
[3] 曾憲濤,曹世義,孫鳳,等. Meta分析系列之六:間接比較及網(wǎng)狀Meta分析[J]. 中國(guó)循證心血管醫(yī)學(xué)雜志,2012,4(5):399-402.
[4] 徐暢,張永剛,韓芳芳,等. 劑量-反應(yīng)關(guān)系Meta分析的方法學(xué)簡(jiǎn)介[J]. 中國(guó)循證醫(yī)學(xué)雜志,2015(10):1236-9.
[5] 周支瑞,張?zhí)灬?,李博,? 生存曲線中Meta分析適宜數(shù)據(jù)的提取與轉(zhuǎn)換[J]. 中國(guó)循證心血管醫(yī)學(xué)雜志,2014,6(3):243-7.
[6] 黃悅勤. 臨床流行病學(xué)(第四版)[M]. 北京:人民衛(wèi)生出版社,2014.
[7] Kleinbaum DG,Klein M. Survival Analysis: A Self-learning Text (3rd edition)[M]. Springer,2012.
[8] Kaplan EL,Meier P. Nonparametric estimation from incomplete observations[J]. J Amer Statist Assn,1958,53(282):457-81.
[9] 彭非. 生存分析[M]. 北京:中國(guó)人民大學(xué)出版社,2004.
[10] Liu X. Survival Analysis: Models and applications[M]. Wiley,2012.
[11] Peto R,Peto J. Asymptotically Efficient Rank Invariant Test Procedures[J]. J R StatSoc Series A,1972,135(2):185-207.
[12] 孟詳喻,靳英輝,程小珂,等. 生存資料的二次研究系列之一:應(yīng)用R軟件實(shí)現(xiàn)生存曲線中數(shù)據(jù)提取與生存曲線的合并[J]. 中國(guó)循證心血管醫(yī)學(xué)雜志,2016,18(1):2-6.
[13] 孟詳喻,田國(guó)祥,拜爭(zhēng)剛,等. 生存資料的二次研究系列之二:R軟件重建time-to-event結(jié)局的單個(gè)患者數(shù)據(jù)[J]. 中國(guó)循證心血管醫(yī)學(xué)雜志,2016,18(2):135-41.
[14] CoxDR. Regression Models and Life-Tables[J]. J R StatSoc Series B,1972,34(2):187-220.
[15] Bernstein L,AndersonJ,Pike MC. Estimation of the proportional hazard in two-treatment-group clinical trials[J]. Biometrics,1981,37(3):513-9.
本文編輯:姚雪莉
Basic concepts of conducting a prognosis-related secondary research: an introduction
MENG Xiang-yu*,TIAN Guo-xiang, QIU Cheng-feng, LI Sheng, ZENG Xian-tao. *Center for Evidence-Based and Translational Medicine, Zhongnan Hospital of Wuhan University, Wuhan 430071, China.
ZENG Xian-tao, E-mail: zengxiantao1128@163.com
[Abstracts] More and more attention has been paid on prognosis-related secondary research. Due to the complexity and particularity of data describing prognosis, confusion and difficulty is often experienced by beginning investigators. Lack of knowledge and appropriate understanding on prognosis analysis, time-to-event variable and relevant statistical approaches are the major causes for this situation. In this article, we have a brief discussion on the fundamentals of prognosis analysis, in order to help researchers of secondary analysis be prepared for potential problems they may encounter during their study.
Prognosis; Secondary study; Time-to-event data; Survival analysis
R4
A
1674-4055(2016)03-0257-03
1430071 武漢,武漢大學(xué)中南醫(yī)院循證與轉(zhuǎn)化醫(yī)學(xué)中心;2430071 武漢,武漢大學(xué)循證與轉(zhuǎn)化醫(yī)學(xué)中心;3100700 北京,北京軍區(qū)總醫(yī)院干四科;4418000 懷化,懷化市第一民醫(yī)院臨床藥學(xué)研究室
曾憲濤,E-mail:zengxiantao1128@163.com
10.3969/j.issn.1674-4055.2016.03.01