北京大學(xué)腫瘤醫(yī)院 付浩 編譯
中國胸腺瘤協(xié)作組 全體成員 審校
中國胸腺瘤協(xié)作組成員單位:上海交通大學(xué)附屬胸科醫(yī)院:方文濤(胸外科)、谷志濤(胸外科),王常祿(放療科),張杰(病理科);復(fù)旦大學(xué)附屬中山醫(yī)院:譚黎杰(胸外科);華山醫(yī)院:龐烈文(胸外科);同濟(jì)大學(xué)附屬肺科醫(yī)院:陳崗(病理科);中山大學(xué)附屬腫瘤醫(yī)院:傅劍華(胸外科);鄭州大學(xué)附屬腫瘤醫(yī)院:李印(胸外科);青島大學(xué)醫(yī)學(xué)院附屬醫(yī)院:沈毅(胸外科);天津醫(yī)科大學(xué)附屬腫瘤醫(yī)院:于振濤(胸外科);四川省腫瘤醫(yī)院:韓泳濤(胸外科);北京大學(xué)附屬第三醫(yī)院:閆天生(胸外科);北京大學(xué)附屬腫瘤醫(yī)院:曹登峰(病理科),陳克能(胸外科),付浩(胸外科)(通訊作者:陳克能,E-mail: chenkeneng@bjmu.edu.cn;方文濤,E-mail: vwtfang@hotmail.com)
預(yù)后因素是患者診治中非常重要的內(nèi)容,大多數(shù)腫瘤患者的治療決策取決于各種危險(xiǎn)因素的存在與否。最突出的例子就是TNM(即腫瘤,淋巴結(jié),遠(yuǎn)處轉(zhuǎn)移)分期,但很多疾病都不能簡單通過分期一個(gè)指標(biāo)解決所有問題,而是要具體分析每個(gè)患者的綜合預(yù)后因素。目前在判斷胸腺瘤預(yù)后的臨床研究中,一個(gè)主要的困難是缺乏實(shí)踐指南,以至于到底哪些是預(yù)后因素尚不明確。本文敘述了臨床實(shí)踐中的一些問題并指出了臨床研究中存在的各種偏倚,并試圖提供解決方案,其中有許多方面在其它文獻(xiàn)中作了詳細(xì)討論,但忽視了偏倚的存在。
毋庸置疑,可靠的預(yù)后因素具有重要的臨床意義。若可以較為準(zhǔn)確的預(yù)測病程,那么治療方法的選擇、患者隨訪的方法和咨詢回答都會(huì)大大改善。因此,如其他疾病一樣,胸腺瘤的所謂預(yù)后因素比比皆是[1-7]。其中,毫無疑問準(zhǔn)確判斷預(yù)后的能力在過去的二十年中有了跨越式發(fā)展。但是,仍只有極少數(shù)的標(biāo)志物被納入國際指南用于疾病的診斷、治療和隨訪。本文將討論這些所謂預(yù)后標(biāo)志物最終失敗的原因,并提供一些建議以盡量避免在未來的研究中類似情況的發(fā)生。
下面將列舉幾個(gè)在其它地方討論過的例子,雖然不是胸腺瘤有關(guān)的內(nèi)容[8-13]。其中一些例子來自于診斷因素的研究,因?yàn)樵谙嚓P(guān)統(tǒng)計(jì)問題方面尤其是偏倚,診斷因素研究和預(yù)后因素研究中有很多共同之處。此外,診斷因素的例子通常具有簡單易得的優(yōu)勢,這些例子均是大家所熟知的疾病。出于同樣的原因,本文也提到一些關(guān)于腫瘤標(biāo)志物研究和早期篩查的參考文獻(xiàn)。
偏倚是一個(gè)被過度使用的詞,已很難給出一個(gè)確切的定義。本文中“偏倚”是指樣本和總體之間的系統(tǒng)差別。例如,選擇美國老年醫(yī)保的高齡人群來研究甲狀腺乳頭狀癌的預(yù)后,就存在重大偏倚,即甲狀腺乳頭狀癌的中位年齡小于45歲,而所選樣本是65歲及以上的老年人。這種差異被稱為系統(tǒng)誤差,不是因?yàn)槌闃诱`差造成的,不會(huì)隨樣本量增加而克服。甲狀腺癌例子存在所有說教比喻的通?。浩刑黠@了,掩蓋了其他微小但重要的偏倚。舉一個(gè)例子,假設(shè)一種“ 新的預(yù)后因子(NPF) ”在某些惡性腫瘤中過度表達(dá),多次體外研究之后一項(xiàng)胸腺瘤的回顧性臨床研究報(bào)道其可能是潛在的預(yù)后因素,切除組織中表達(dá)NPF與不良預(yù)后相關(guān)(P<0.05)。其他三項(xiàng)研究對此也進(jìn)行了類似的回顧性分析,也報(bào)道了類似的結(jié)果。這三項(xiàng)研究中樣本量最大的研究(比原研究還要大)確認(rèn)了表達(dá)NPF者與非表達(dá)者之間存在生存差異。其他兩項(xiàng)研究被認(rèn)為是樣本量小,未得出陽性結(jié)論。原研究者認(rèn)為后兩個(gè)研究樣本量較小不具有足夠的說服力并聲稱可以擴(kuò)大樣本量來驗(yàn)證,于是設(shè)計(jì)前瞻性研究先測定NPF的水平再探討與結(jié)果的相關(guān)性,但他們失望地發(fā)現(xiàn)NPF的表達(dá)與生存沒有顯著相關(guān)性。
這是因?yàn)榛仡櫺匝芯恐写嬖诘钠袑?dǎo)致的嗎?我們只能推測,但患者資料描述中提供了一個(gè)線索?;仡櫺匝芯坷玫氖谴鎯?chǔ)的組織標(biāo)本,完全有可能組織庫中庫存的標(biāo)本來自較大的腫瘤可以滿足不同研究的需要,而組織庫中并未保存體積小的腫瘤。若果真如此,則樣本(組織庫中的腫瘤標(biāo)本)和總體(所有的胸腺瘤)存在系統(tǒng)性誤差。而前瞻性研究時(shí)需要納入所有入組患者的標(biāo)本,故偏倚較小或無偏倚?;仡櫺匝芯恐g結(jié)論的不同可能源于這一偏倚。盡管只是假設(shè),但該假設(shè)具有諸多的現(xiàn)實(shí)成分:大多數(shù)預(yù)后因素是經(jīng)回顧性研究得出的,并可被一些(但并非全部)回顧性研究重復(fù)證實(shí)。但是大多數(shù)此類預(yù)后因素經(jīng)不起標(biāo)準(zhǔn)更加嚴(yán)格的前瞻性研究的驗(yàn)證。事實(shí)上,所有回顧性研究都易出現(xiàn)偏倚。當(dāng)然,前瞻性研究中也存在偏倚,但偏倚較小,且偏倚原因易于解釋。
2.1 病例抽樣偏倚 因病例選擇而導(dǎo)致的偏倚稱為患者選擇偏倚或選擇偏倚。該偏倚指入選患者組成的樣本在疾病風(fēng)險(xiǎn)上偏向一極,要么太好,要么太壞,而不能代表該疾病的一般狀況。癌胚抗原(carcino-embryonic antigen,CEA)是大家公認(rèn)的結(jié)腸癌患者的預(yù)后標(biāo)記物。Thomson等[14]的研究中,36例結(jié)腸癌患者有35例CEA升高,其敏感性為97%,這表明CEA有一定的診斷價(jià)值。但是10年后,情況就不理想了,I期、II期、III期及IV期患者的敏感性分別為5%、25%、45%及65%[15]。這有力的推翻了將CEA作為診斷性標(biāo)志物的用途。即使IV期患者,97%和65%的區(qū)別也很大,不能將此簡單歸因于一種因素。然而,有一種原因可以解釋,那就是Thomson的研究對象明顯不同于多數(shù)結(jié)腸癌患者,即選擇偏倚。盡管PANS雜志并未交待這些患者的詳細(xì)資料,很有可能這些病例均為局部晚期結(jié)腸癌患者。這就是選擇偏倚最常見的來源。
另一常見的選擇偏倚來源在前文中已經(jīng)詳細(xì)交待,在討論分析NPF的可用組織時(shí),庫存腫瘤標(biāo)本是體積較大的腫瘤而小者并未保留保本。從這個(gè)層面上看,CEA和NPF研究的偏倚來源是相同的,而從另一層面看又是不同的,在CEA研究中作者刻意選擇極端晚期樣本,而NPF研究中無此傾向,研究只利用組織庫中所有可利用的標(biāo)本。正是這一選擇偏倚導(dǎo)致得出錯(cuò)誤結(jié)論的危險(xiǎn),研究資料無其它選擇并不意味著樣本不存在偏倚。
2.2 對照選擇偏倚 對照選擇偏倚是另一種選擇偏倚,是在病例對照研究中選擇對照組時(shí)產(chǎn)生的[16-18]。理想情況下病例組和對照組之間的區(qū)別應(yīng)只是研究因素不同,如暴露、疾病、治療等。事實(shí)上,找到這樣的對照組幾乎是不可能的。如用血清肽篩查前列腺癌的例子就源于這種困難,病例組是25例經(jīng)證實(shí)了的男性前列腺癌患者,對照組為健康男性,但是年齡小于40歲和血清中未檢測到PSA[19]。一方面,選擇對照組的條件或者依據(jù)并不像病例組那么嚴(yán)格,另一方面,對照組不可能進(jìn)行活檢以排除隱匿性惡性腫瘤,對照組因年齡小患前列腺癌的風(fēng)險(xiǎn)低,但是作者這么做又給兩組帶來另一個(gè)混雜因素:年齡。那么這時(shí)比較血清肽在病例組和對照組中的差異,不僅需要相關(guān)的專業(yè)知識(shí),還需要這樣一個(gè)假設(shè):血清肽檢測值與年齡沒有關(guān)系。該例子也指出,選擇不帶偏倚的對照是不可能的。因此大多數(shù)研究傾向進(jìn)行某種形式的匹配以減少偏倚,但不能完全消除偏倚。
2.3 雙向數(shù)據(jù)挖掘的偏倚 這種偏倚更科學(xué)的名字應(yīng)該是過擬合,但是數(shù)據(jù)雙向挖掘清楚的概括了偏倚的根源,更適用說明文解釋。數(shù)據(jù)雙向挖掘是指用相同的數(shù)據(jù)進(jìn)行多次關(guān)聯(lián)分析而產(chǎn)生的偏倚。雖然數(shù)據(jù)雙向挖掘的方式很多,但是在預(yù)后因素研究中體現(xiàn)尤為明顯,當(dāng)一個(gè)連續(xù)變量被不同界值在同一數(shù)據(jù)劃分的時(shí)候就會(huì)產(chǎn)生。在發(fā)表的研究中很難找到該偏倚的詳細(xì)例子,因此本文使用一個(gè)未經(jīng)發(fā)表的例子。盡管該例子中的研究數(shù)據(jù)和設(shè)計(jì)方案都是真實(shí)的,但是本文對這些數(shù)據(jù)的分析僅用于說明雙向數(shù)據(jù)挖掘偏倚。該例子提出的臨床問題是,在術(shù)前化療的患者中,PET掃描的攝取變化是否可以預(yù)測新輔助化療后腫瘤的病理反應(yīng),其臨床實(shí)用價(jià)值很明確,新輔助化療后病理反應(yīng)差的患者,即應(yīng)改變治療方案或早期手術(shù),以把握治療時(shí)機(jī)和減少新輔助治療帶來的副反應(yīng)。研究者收集用于臨床研究的數(shù)據(jù)如表1和表2所示。大多數(shù)SUV值大幅下降的患者有病理反應(yīng),反之亦然。事實(shí)上,僅有1例患者SUV值降幅大于35%而病理反應(yīng)小于60%。表2的統(tǒng)計(jì)結(jié)果非常令人鼓舞:SUV預(yù)測病理反應(yīng)的敏感性為100%,特異性為90%。此外,估計(jì)陰性預(yù)測值為100%,也就是說,只要患者SUV值沒有下降就意味著沒有病理反應(yīng)。但是大多數(shù)讀者反對表1和表2的結(jié)論,他們指出該研究樣本量過小和置信區(qū)間過寬。這當(dāng)然是一個(gè)值得關(guān)注的問題,但是即使樣本量足夠大,仍然會(huì)有人持反對意見。見圖1所示的數(shù)據(jù),首先我們暫時(shí)忽略虛線,可以看出SUV下降與治療反應(yīng)之間是存在一定關(guān)聯(lián)的。圖的左上部分幾乎是空白的,一般來講,SUV下降幅度越大對應(yīng)的治療反應(yīng)也應(yīng)該越大。根據(jù)大多數(shù)標(biāo)準(zhǔn),SUV下降和治療反應(yīng)之間的關(guān)聯(lián)系數(shù)是0.50是有意義的。這組數(shù)據(jù)的擬合線顯示了一個(gè)固定的SUV值預(yù)測26%的治療反應(yīng),而且SUV每下降10%,對應(yīng)的治療反應(yīng)則增加6%。這樣我們有理由相信PET掃描對最終治療反應(yīng)有一定的預(yù)測價(jià)值。然而,表2夸大了數(shù)據(jù)分析結(jié)果。從圖1可以看出他們選擇的界值(虛線)試圖將不能分類的患者數(shù)量降到最低。這是選擇界值常用的方式,圖1清楚的反應(yīng)了表2所列敏感性的大小取決于如何定界值。這些界值不能依靠一組單中心數(shù)據(jù)來選擇,所以也不能評估敏感性,特異性和陽性陰性預(yù)測值。如表3所示,即使界值很小的變動(dòng),都會(huì)對報(bào)道參數(shù)產(chǎn)生明顯的影響,甚至可以改變研究結(jié)論。然而,如果用圖1代替表1,表2在一定程度上給SUV的預(yù)后價(jià)值評估奠定了基礎(chǔ)。這個(gè)過度樂觀的結(jié)論不僅是因?yàn)闃颖玖啃?,而且還因?yàn)橹髮?shù)據(jù)的二次和三次挖掘造成的。
表 1 SUV下降與新輔助治療后病理反應(yīng)的關(guān)系Tab 1 Correlation of a decrease in SUV after neoadjuvant therapy with pathologic response
表 2 SUV下降>35%預(yù)測新輔助治療后病理反應(yīng)的相關(guān)參數(shù)Tab 2 Outcome Parameters for a Decrease in SUV of 35% in Predicting Pathological Response to Neoadjuvant Therapy
表 3 SUV界值改變對結(jié)果參數(shù)的影響Tab 3 Effect of changes in thresholds on outcome parameters
數(shù)據(jù)挖掘偏倚也可以在其他情況下出現(xiàn)。如果某人想得到一個(gè)預(yù)后值而對大量變量擬合一個(gè)模型,這個(gè)模型通常是對手頭上的數(shù)據(jù)進(jìn)行反復(fù)調(diào)整(這種情況下就存在過度擬合)。在同一組數(shù)據(jù)中評估模型的預(yù)測性能一定會(huì)導(dǎo)致樂觀的結(jié)論[20]。雖然已經(jīng)設(shè)計(jì)了一些統(tǒng)計(jì)方法來降低這些樂觀的結(jié)論,但是這些統(tǒng)計(jì)方法并沒有得到廣泛應(yīng)用,也沒有被雜志編輯和審稿人所常規(guī)接受[21,22]。即使這些方法不能完全消除因過度擬合造成的樂觀結(jié)論,但是最終結(jié)論適用于單中心數(shù)據(jù)。
須強(qiáng)調(diào)的是,通過巧妙的統(tǒng)計(jì)分析消除偏倚是極其困難的。理想情況下,一些統(tǒng)計(jì)模型可以減少偏倚,但代價(jià)是設(shè)定更多的假設(shè),但是這些假設(shè)并不都是可以被證實(shí)的,其中一些問題在各種生物標(biāo)志物研究指南和有影響的教科書中有討論[23,24]。比如,上述假設(shè)“新預(yù)后因子”的例子,假設(shè)在回顧性研究開始時(shí),研究者懷疑他們的研究樣本存在腫瘤大小的偏倚。除了在單因素分析中簡單分析“新預(yù)后因子”與結(jié)局的相關(guān)外,他們可以選擇把腫瘤大小和“新預(yù)后因子”放入多因素分析中,對腫瘤大小校正使結(jié)論更可靠。但是大多數(shù)類似的分析并沒有注意模型所需要的假設(shè)。首先,需要選擇一個(gè)合適的多因素回歸模型,盡管Cox模型由于對假設(shè)要求寬松,在腫瘤學(xué)中已成為標(biāo)準(zhǔn)模型,但是仍然要求比例風(fēng)險(xiǎn)(PH)保持不變。只有某個(gè)因素和結(jié)局的相關(guān)性大?。ㄍǔS孟鄬ξkU(xiǎn)度表示)不隨時(shí)間變化而變化PH才可以使用。但絕大多數(shù)的臨床研究者并不能抓住這個(gè)假設(shè)的真正含義,而大多數(shù)數(shù)據(jù)分析者,可能由于缺少其他可替代的方法,并沒有嚴(yán)格的審查就接受了這樣一個(gè)假設(shè)。
圖 1 不同個(gè)體新輔助治療后SUV變化與病理反應(yīng)的關(guān)系Fig 1 Individual data points of changes in SUV after neoadjuvant therapy and pathologic response
圖 2 篩選和評估臨床實(shí)用預(yù)后因素的流程Fig 2 Phases in the identification and evaluation of a robust clinically applicable prognostic factor
除了PH模型還需要考慮函數(shù)形式。比如腫瘤大小,在模型里是否作為連續(xù)變量。盡管一般都假設(shè)腫瘤大小具有線性效應(yīng),即不管基礎(chǔ)的大小是多少,大小每增加一個(gè)單位(比如1 cm)對應(yīng)的影響效應(yīng)增加是一樣的,但往往實(shí)際模型更接近S型曲線,因?yàn)樘貏e大或者特別小的腫瘤,模型曲線更平坦。大多數(shù)研究不管結(jié)論如何,都傾向采用線性模型,因?yàn)樗麄冋J(rèn)為(或許樂觀的認(rèn)為)S型曲線的中間部位才有效,可以近似認(rèn)為是直線。但是如果研究最初納入的腫瘤標(biāo)本體積比隨機(jī)樣本中的腫瘤大,則S曲線中對分析影響最大的部分應(yīng)該是左邊較為平坦的部分(即對應(yīng)較小腫瘤的部分)。因此,一些研究者選擇根據(jù)大小進(jìn)行分組研究,而且分組研究結(jié)果更容易解讀。如前文所述,分組也存在一些問題,即選擇不同的界值對同一組數(shù)據(jù)進(jìn)行分析,導(dǎo)致過度擬合(雙向數(shù)據(jù)挖掘偏倚)。
本文列舉了預(yù)后因素研究中一些常見的偏倚來源及其對結(jié)論可能的影響,但這些偏倚不是被首次發(fā)現(xiàn)和討論,無數(shù)研究已進(jìn)行過類似的探討。但是,在許多發(fā)表的研究中仍然存在這些偏倚,而且未對這些偏倚的影響進(jìn)行說明,這使得研究結(jié)果很難達(dá)到研究者的預(yù)期目標(biāo)。嚴(yán)格來講,這些偏倚并不是純統(tǒng)計(jì)學(xué)問題,只是它們是在統(tǒng)計(jì)分析時(shí)被發(fā)現(xiàn),而且統(tǒng)計(jì)學(xué)家試圖通過統(tǒng)計(jì)模型來校正這些偏倚。但是在研究完成后處理偏倚是不合適的。最好的辦法是在設(shè)計(jì)階段就考慮周全,并讓不同的成員,包括統(tǒng)計(jì)學(xué)家、病理學(xué)家、放射學(xué)家等參與討論。雖然這可能會(huì)延緩數(shù)據(jù)搜集進(jìn)度,但有利于結(jié)果的分析和解釋,增強(qiáng)結(jié)論的可信度。
減少這些偏倚不僅僅是研究者的責(zé)任。編輯、審稿人和讀者都應(yīng)該嚴(yán)格遵循臨床研究原則來要求高質(zhì)量的研究報(bào)道。存在這樣一個(gè)簡單的問題,即某個(gè)因素何時(shí)可以被歸為“預(yù)后的”因素。圖2顯示了一個(gè)預(yù)后因素發(fā)生的經(jīng)典過程。目前的做法是在A點(diǎn)標(biāo)記預(yù)后因素,即在臨床研究之后和驗(yàn)證之前。但這樣做導(dǎo)致某些所謂的預(yù)后因素得不到驗(yàn)證或不能通過驗(yàn)證或只是部分驗(yàn)證,但仍被稱為“預(yù)后因素”。建議在稱某個(gè)因素為預(yù)后因素之前要進(jìn)行仔細(xì)驗(yàn)證并考慮其臨床實(shí)用價(jià)值。實(shí)際上,只有到B點(diǎn)后才能被稱為預(yù)后因素,這樣更具臨床意義。雖然達(dá)到B點(diǎn)的因素遠(yuǎn)遠(yuǎn)比A點(diǎn)的少,但是A點(diǎn)的因素很多都是未經(jīng)驗(yàn)證的假陽性預(yù)后因素,所以在B點(diǎn)我們并未漏評預(yù)后因素。
總之,準(zhǔn)確預(yù)測患者結(jié)局是非常有意義的,關(guān)鍵在于發(fā)現(xiàn)足夠多的預(yù)后因素。但是我們的數(shù)據(jù)中存在很多固有偏倚,而且統(tǒng)計(jì)分析細(xì)節(jié)中也存在導(dǎo)致樂觀結(jié)論的問題。本文指出了一些常見問題,以避免研究者和讀者被誤導(dǎo)。建議在研究中持謹(jǐn)慎態(tài)度,嚴(yán)格評估數(shù)據(jù),對結(jié)果耐心驗(yàn)證。