黃興輝 陳金寶 楊紫荊 呂晶晶 侯雅文 陳 征△
在醫(yī)學(xué)臨床研究中,組間生存率差異的檢驗(yàn)是常見(jiàn)的研究問(wèn)題之一。Log-rank檢驗(yàn)[1]是目前最常用的方法,其在風(fēng)險(xiǎn)率成比例假定成立時(shí)具有較高的檢驗(yàn)效能,但當(dāng)不滿足比例風(fēng)險(xiǎn)假定,特別是兩條生存曲線交叉時(shí),交叉點(diǎn)前后生存率高低逆轉(zhuǎn)可能導(dǎo)致正負(fù)差異相互抵消,從而使Log-rank檢驗(yàn)的檢驗(yàn)效能大幅降低。為此,Pepe和Fleming[2]提出了一類加權(quán)Kaplan-Meier檢驗(yàn),它通過(guò)兩組Kaplan-Meier估計(jì)值的累積加權(quán)差來(lái)構(gòu)建統(tǒng)計(jì)量,同時(shí)已有研究表明[3],當(dāng)風(fēng)險(xiǎn)率交叉時(shí),加權(quán)Kaplan-Meier檢驗(yàn)的檢驗(yàn)效能比Log-rank檢驗(yàn)高。對(duì)此Lin[4]提出一種基于兩條生存曲線間面積值大小來(lái)構(gòu)造統(tǒng)計(jì)量的面積檢驗(yàn)法,不管風(fēng)險(xiǎn)率是否成比例、生存曲線是否交叉,其統(tǒng)計(jì)量構(gòu)造均不受影響,避免了交叉點(diǎn)前后正負(fù)差異相互抵消的問(wèn)題;然而在原假設(shè)下其檢驗(yàn)統(tǒng)計(jì)量假設(shè)服從標(biāo)準(zhǔn)正態(tài)分布,但經(jīng)作者模擬研究發(fā)現(xiàn),該檢驗(yàn)法一類錯(cuò)誤偏離預(yù)設(shè)的檢驗(yàn)水準(zhǔn),且其統(tǒng)計(jì)量呈非正態(tài)性,檢驗(yàn)結(jié)果可靠性受到影響。本文基于置換檢驗(yàn)思想,對(duì)原面積檢驗(yàn)法[4]進(jìn)行校正,得到置換面積檢驗(yàn)法,用兩條生存曲線間面積值大小構(gòu)造統(tǒng)計(jì)量,利用置換重抽樣技術(shù)得到相應(yīng)的拒絕域,而不依賴于統(tǒng)計(jì)量原始分布,從而校正了面積檢驗(yàn)法統(tǒng)計(jì)量呈非正態(tài)性的問(wèn)題;同時(shí)通過(guò)模擬研究和實(shí)例驗(yàn)證分析,對(duì)置換面積檢驗(yàn)法、Log-rank檢驗(yàn)、加權(quán)Kaplan-Meier檢驗(yàn)和面積檢驗(yàn)法進(jìn)行性能比較。
比較兩組間生存率的差異,原假設(shè)是在任意時(shí)刻t上,兩組對(duì)應(yīng)的生存率相等,即H0:S1(t)=S2(t),備擇假設(shè)為:H1:S1(t)≠S2(t)。
將兩條生存曲線之間的絕對(duì)面積值大小作為衡量差異的指標(biāo)[4],根據(jù)上述面積指標(biāo)定義可以將其表示為:
利用正態(tài)近似的原理,面積指標(biāo)Δ均值和方差可以分別估計(jì)為:
置換重抽樣的思想是根據(jù)所研究的問(wèn)題構(gòu)造一個(gè)檢驗(yàn)統(tǒng)計(jì)量[5],并利用原始樣本,按照排列組合的原理,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量的理論抽樣分布;然后求出從該分布中獲得原始樣本及更極端樣本的概率(P值),并界定此概率值,由此作出推論。在原假設(shè)下,本文通過(guò)計(jì)算檢驗(yàn)統(tǒng)計(jì)量Δ*的偏度系數(shù)和峰度系數(shù)[6],同時(shí)結(jié)合正態(tài)性檢驗(yàn)驗(yàn)證Δ*的正態(tài)性;并且將面積檢驗(yàn)法和置換思想結(jié)合提出一種置換面積檢驗(yàn)法,通過(guò)999次重抽樣過(guò)程得到Δ*的拒絕域。置換面積檢驗(yàn)法對(duì)原始數(shù)據(jù)分布不作要求,從而校正面積檢驗(yàn)法統(tǒng)計(jì)量不服從正態(tài)分布而導(dǎo)致影響檢驗(yàn)穩(wěn)定性的問(wèn)題。
具體步驟如下:
1.建立原假設(shè)、備擇假設(shè);
2.將兩組原始生存數(shù)據(jù)混合起來(lái),進(jìn)行無(wú)放回重抽樣,并且計(jì)算檢驗(yàn)統(tǒng)計(jì)量Δ*(1);
3.重復(fù)第2步999次,依次計(jì)算得到Δ*(2),Δ*(3),……Δ*(1000);
4.計(jì)算雙側(cè)概率P值:p=sum{|Δ*(n)|>|Δ*|}/1000。
本文采用Monte-Carlo模擬來(lái)比較Log-rank檢驗(yàn)、加權(quán)Kaplan-Meier檢驗(yàn)、面積檢驗(yàn)和置換面積檢驗(yàn)法的檢驗(yàn)效能和I類錯(cuò)誤,并且評(píng)價(jià)各種檢驗(yàn)方法的穩(wěn)健性和適用性。檢驗(yàn)效能的比較分下列三種類型[3,8-9](包含六種模擬情形):(1)組間風(fēng)險(xiǎn)率滿足成比例假定(圖1A);(2)兩條生存曲線部分發(fā)散:前中期發(fā)散(后期收斂)(圖1B);兩條生存曲線后期發(fā)散(前中期收斂)(圖1C);(3)兩條生存曲線交叉:生存曲線交叉于前期,交叉點(diǎn)約位于S(t)=0.6~0.8(圖1D);生存曲線交叉于中期,交叉點(diǎn)約位于S(t)=0.4~0.6(圖1E);生存曲線交叉于后期,交叉點(diǎn)約位于S(t)=0.2~0.4(圖1F)。一類錯(cuò)誤中兩組生存時(shí)間均由參數(shù)為0.25的指數(shù)分布產(chǎn)生,在每一種參數(shù)下都模擬設(shè)置了刪失比例為0%、15%、30%、45%的情形,同時(shí)考慮了均衡設(shè)計(jì)(N1=N2=20,50,100)以及非均衡設(shè)計(jì)(N1=20,N2=50;N1=50,N2=100)對(duì)各種檢驗(yàn)方法統(tǒng)計(jì)性能的影響。
每一個(gè)參數(shù)組合下模擬1000次,顯著性水平α=0.05。首先產(chǎn)生服從于某一特定分布(如分段指數(shù)分布、威布爾分布)生存時(shí)間X,當(dāng)無(wú)右刪失時(shí),記錄生存時(shí)間T=X,狀態(tài)δ=1;當(dāng)右刪失存在時(shí),兩組刪失時(shí)間C分別由服從于U(0,a)和U(0,b)的均勻分布產(chǎn)生,記錄生存時(shí)間T=min(X,C),δ=I[X≤C](稱I(·)為指示函數(shù));并通過(guò)設(shè)定參數(shù)a和b的值控制每組平均刪失比例。
圖1 模擬類型圖
在原假設(shè)下得到不同樣本量、刪失率組合下的檢驗(yàn)統(tǒng)計(jì)量Δ*,分別計(jì)算其偏度系數(shù)和峰度系數(shù),同時(shí)結(jié)合Shapiro-Wilk正態(tài)性檢驗(yàn)判斷檢驗(yàn)統(tǒng)計(jì)量是否服從于正態(tài)分布。通過(guò)模擬研究發(fā)現(xiàn),在5種樣本量與4種刪失率的不同組合下:其檢驗(yàn)統(tǒng)計(jì)量的偏度系數(shù)最小值和最大值分別是1.033、1.436(正態(tài)分布偏度系數(shù)為0),峰度系數(shù)最小值和最大值分別是1.206、3.290(正態(tài)分布峰度系數(shù)為3),提示檢驗(yàn)統(tǒng)計(jì)量呈右偏態(tài);并且Shapiro-Wilk正態(tài)性檢驗(yàn)結(jié)果顯示在不同樣本量和刪失率組合下檢驗(yàn)統(tǒng)計(jì)量均不服從正態(tài)分布(P<0.001)。
由于模擬研究中樣本量、刪失率以及模擬類型組合較多,為了更清晰展示一類錯(cuò)誤率和檢驗(yàn)效能,以及方便總結(jié)模擬結(jié)果,本文利用方差分析技術(shù)[10],建立以下四個(gè)模型。模型構(gòu)造的思想為:在考慮控制了其他多余影響因素下,研究主要影響因素對(duì)檢驗(yàn)法的影響。比如模型1,在控制刪失率(CENSORE)、不同模擬情形下(SITUATION),研究不同樣本量(NUM)組合下各種檢驗(yàn)法的表現(xiàn)(模型2、模型3同理);對(duì)于模型4,控制所有影響因素,單純看各種檢驗(yàn)方法的表現(xiàn)。I類錯(cuò)誤評(píng)價(jià)指標(biāo):結(jié)果變量Y減去尺度水平0.05再乘以100,即評(píng)價(jià)指標(biāo)為平均偏差值,方法表現(xiàn)越好其期望E(Y)越接近于0;檢驗(yàn)效能評(píng)價(jià)指標(biāo):結(jié)果變量Y為平均拒絕率,即評(píng)價(jià)指標(biāo)為平均拒絕率,方法表現(xiàn)越好則其期望E(Y)越大。
模型1:E(Y)=TEST×NUM+CENSORE+SITUATION
模型2:E(Y)=TEST×CENSORE+NUM+SITUATION
模型3:E(Y)=TEST×SITUATION+CENSORE+NUM
模型4:E(Y)=TEST+SITUATION+CENSORE+NUM
表1反應(yīng)一類錯(cuò)誤的結(jié)果,面積檢驗(yàn)的I類錯(cuò)誤偏離預(yù)設(shè)的檢驗(yàn)水準(zhǔn),而基于置換面積檢驗(yàn)法以及其他幾種檢驗(yàn)法的I類錯(cuò)誤均在0.05左右輕微波動(dòng),其中加權(quán)Kaplan-Meier檢驗(yàn)相對(duì)保守;整體來(lái)看,刪失比例和不同樣本量組合對(duì)I類錯(cuò)誤影響不大。
表1 四種檢驗(yàn)方法的一類錯(cuò)誤(平均偏差值)
檢驗(yàn)效能的結(jié)果展現(xiàn)在表2,隨著樣本量增大,各檢驗(yàn)方法的檢驗(yàn)效能均有所提高;隨著刪失率增大,面積檢驗(yàn)法以及置換面積檢驗(yàn)法的檢驗(yàn)效能都呈下降趨勢(shì),而Log-rank檢驗(yàn)、加權(quán)Kaplan-Meier檢驗(yàn)均在刪失率為45%時(shí)出現(xiàn)反轉(zhuǎn);情形A時(shí),即成比例,各檢驗(yàn)法的檢驗(yàn)效能均在0.7以上,Log-rank檢驗(yàn)表現(xiàn)最佳;情形D時(shí),即生存曲線交叉于早期,面積檢驗(yàn)和置換面積檢驗(yàn)的檢驗(yàn)效能最高;其它所有情形下,B、C、E、F,即生存曲線前中期發(fā)散(后期收斂)、后期發(fā)散(前中期收斂)、生存曲線交叉于中期或后期,置換面積檢驗(yàn)法的檢驗(yàn)效能均最高。
綜合一類錯(cuò)誤(表1)和檢驗(yàn)效能(表2),樣本量是否均衡對(duì)五種檢驗(yàn)法的影響不大;置換面積檢驗(yàn)法與其它檢驗(yàn)法相比,既較好地控制了I類錯(cuò)誤,又在生存曲線交叉、生存曲線部分發(fā)散(收斂)時(shí)提高了檢驗(yàn)效能,特別是組間風(fēng)險(xiǎn)率成比例假設(shè)失效或生存曲線交叉時(shí)具有較高效能。
表2 四種檢驗(yàn)方法的檢驗(yàn)效能(平均拒絕率)
實(shí)例一(風(fēng)險(xiǎn)率成比例):在一項(xiàng)兩種藥物對(duì)治療膀胱癌患者療效的臨床試驗(yàn)中[11],共收集340例患者,其中安慰劑組納入188名患者,噻替派組納入152名患者,兩組刪失率分別為38.3%和26.3%,終點(diǎn)事件為出現(xiàn)膀胱癌復(fù)發(fā),到研究截止時(shí)間尚未發(fā)生終點(diǎn)事件為右刪失。經(jīng)Grambsch-Therneau檢驗(yàn)得到組間風(fēng)險(xiǎn)率成比例假定有效(χ2=0.07,P=0.789),其生存曲線見(jiàn)圖2A。兩組療效的差異檢驗(yàn)顯示,Log-rank、加權(quán)KM、面積檢驗(yàn)、置換面積檢驗(yàn)的P值均小于0.05,提示噻替派的治療效果優(yōu)于安慰劑組,具體結(jié)果見(jiàn)表3。
實(shí)例二(成比例假設(shè)失效且生存曲線交叉):一項(xiàng)兩種藥物(吉非替尼、卡鉑-紫杉醇)治療肺腺癌的臨床研究中[12],共收集1217例患者,其中吉非替尼組納入患者609例,卡鉑-紫杉醇組納入患者608例,兩組刪失率分別為25.6%和18.3%,主要終點(diǎn)事件為惡化或者死亡,到研究截止時(shí)間尚未發(fā)生終點(diǎn)事件為右刪失。由于原文數(shù)據(jù)無(wú)法獲得,因此參照Royston[13]的方法模擬產(chǎn)生了本例兩組樣本量均為100的模擬數(shù)據(jù)。圖2B顯示在中位生存期附近(S(t)=0.5,約隨訪至第6個(gè)月)兩條生存曲線出現(xiàn)明顯交叉,并經(jīng)Grambsch-Therneau檢驗(yàn)得到組間風(fēng)險(xiǎn)率成比例假定失效(χ2=10.00,P=0.002),置換面積檢驗(yàn)結(jié)果(P=0.042)提示兩種藥物(吉非替尼、卡鉑-紫杉醇)治療肺腺癌的效果有統(tǒng)計(jì)學(xué)差異,與此相反Log-rank、加權(quán)KM、面積檢驗(yàn)的結(jié)果均顯示差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。由于生存曲線出現(xiàn)交叉,從圖2B直觀發(fā)現(xiàn)交叉點(diǎn)前卡鉑-紫杉醇組生存率可能高于吉非替尼組,但卡鉑-紫杉醇不能提供長(zhǎng)期療效,在約第6個(gè)月后發(fā)生逆轉(zhuǎn),吉非替尼組生存率可能會(huì)高于卡鉑-紫杉醇組。因此進(jìn)一步比較短期和長(zhǎng)期(交叉點(diǎn)前、后)兩組生存率的差異,隨訪至第6個(gè)月的Log-rank檢驗(yàn)結(jié)果提示短期上兩組差異無(wú)統(tǒng)計(jì)學(xué)意義(χ2=0.272,P=0.602),而對(duì)于交叉點(diǎn)后的時(shí)期,基于二次型χ2檢驗(yàn)[14]結(jié)果(χ2=4.098,P=0.043)發(fā)現(xiàn)從長(zhǎng)期角度看,吉非替尼組能提供更好的療效。
圖2 實(shí)例的生存曲線圖(A:實(shí)例一,B:實(shí)例二)
表3 四種檢驗(yàn)法在實(shí)例一、二的應(yīng)用結(jié)果
在刪失率為45%的時(shí)候,Log-rank檢驗(yàn)、加權(quán)Kaplan-Meier檢驗(yàn)的檢驗(yàn)效能出現(xiàn)反轉(zhuǎn),而其他檢驗(yàn)法的檢驗(yàn)效能均下降,考慮到情形D(生存曲線交叉于前期)、情形F(生存曲線交叉于后期)時(shí),隨著刪失率升高到一定比例時(shí),可能在模擬中出現(xiàn)生存曲線不交叉或者近似成比例的情況,從而導(dǎo)致Log-rank檢驗(yàn)、加權(quán)Kaplan-Meier檢驗(yàn)的檢驗(yàn)效能在刪失率為45%時(shí)出現(xiàn)反轉(zhuǎn)。
本文將置換思想與面積檢驗(yàn)法結(jié)合起來(lái),在多個(gè)樣本量和刪失率組合下,既能夠較好的控制I類錯(cuò)誤,又在面積檢驗(yàn)法的基礎(chǔ)上,提高了檢驗(yàn)效能,與其他幾種檢驗(yàn)方法相比,綜合表現(xiàn)較優(yōu);置換面積檢驗(yàn)法可以用兩條生存曲線間的面積直觀反映兩組生存率的差異大小,不管成比例假定是否成立,生存曲線是否交叉均能適用。因此本文建議當(dāng)兩條生存曲線滿足比例假定時(shí),首選Log-rank檢驗(yàn)法;而當(dāng)兩條生存曲線風(fēng)險(xiǎn)率成比例假設(shè)失效,特別是生存曲線出現(xiàn)交叉時(shí),推薦更穩(wěn)健的置換面積檢驗(yàn)法。
中國(guó)衛(wèi)生統(tǒng)計(jì)2019年1期