南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系(211166)
李清雅 魏永越 施倩雯 段巍巍 陳 峰△
【提 要】 目的 本研究以生存結(jié)局為切入點(diǎn),探討含兩個(gè)中介變量時(shí)的中介生存分析模型(Aalen相加風(fēng)險(xiǎn)模型、Cox比例風(fēng)險(xiǎn)模型、加速失效時(shí)間AFT模型),為預(yù)后的多中介變量分析方法的選擇提供應(yīng)用建議。方法 通過(guò)統(tǒng)計(jì)模擬試驗(yàn),設(shè)定不同的相關(guān)系數(shù)、效應(yīng)比、刪失率等,從第一類錯(cuò)誤及檢驗(yàn)效能等方面對(duì)上述三種方法進(jìn)行統(tǒng)計(jì)學(xué)性質(zhì)評(píng)價(jià)。結(jié)果 中介變量與暴露的相關(guān)系數(shù)越大,越容易發(fā)現(xiàn)中介變量的中介效應(yīng);刪失率與效應(yīng)比對(duì)Aalen模型的影響較大,對(duì)其他兩種模型的影響較小;隨著刪失率的降低,Aalen模型的第一類錯(cuò)誤反而膨脹,故Aalen模型不適用于多中介變量的分析;樣本量越大,三種模型的檢驗(yàn)效能差別減小且趨于穩(wěn)定。不同參數(shù)設(shè)定下,AFT模型的檢驗(yàn)效能最大,其次為Cox模型,最后為Aalen模型。結(jié)論 AFT模型優(yōu)于其他兩種方法,推薦用于生存結(jié)局的多中介變量的中介分析;進(jìn)行中介分析時(shí)需要足夠的樣本量。
中介分析(mediation analysis)是研究暴露通過(guò)中介變量對(duì)結(jié)局效應(yīng)的一種方法,是研究疾病發(fā)生機(jī)制的工具之一[1-4]。在醫(yī)學(xué)研究中,大量確證性研究采用中介分析,建立中介模型來(lái)進(jìn)行因果關(guān)系的分析。由于研究情境復(fù)雜,常用的考慮單個(gè)中介變量的中介模型往往不能滿足實(shí)際問(wèn)題的分析需求,需要考慮多個(gè)中介變量才能更清晰地解釋暴露對(duì)結(jié)局的效應(yīng),這方面的研究越來(lái)越受到理論界的關(guān)注[5-7]。特別在生存分析中,多中介模型的研究和應(yīng)用剛剛起步[8,9]。
目前,針對(duì)生存結(jié)局,常用的三種針對(duì)多個(gè)中介變量的生存模型分析方法有:Aalen相加風(fēng)險(xiǎn)模型,Cox比例風(fēng)險(xiǎn)模型和加速失效時(shí)間(AFT)模型。三種模型分別描述了特定尺度下的中介效應(yīng),Aalen相加風(fēng)險(xiǎn)模型是基于風(fēng)險(xiǎn)之差,Cox模型基于對(duì)數(shù)風(fēng)險(xiǎn)之比,AFT模型基于平均生存時(shí)間之比。然而,至今尚無(wú)報(bào)道對(duì)以上三種方法進(jìn)行比較評(píng)價(jià)。
本研究以生存結(jié)局為切入點(diǎn),探討兩個(gè)中介變量的中介生存分析模型,通過(guò)統(tǒng)計(jì)模擬試驗(yàn),設(shè)定不同的相關(guān)系數(shù)、效應(yīng)比、刪失率等,從第一類錯(cuò)誤及檢驗(yàn)效能等方面對(duì)上述三種方法進(jìn)行統(tǒng)計(jì)學(xué)性質(zhì)評(píng)價(jià),為預(yù)后的多中介變量的中介分析方法的選擇提供應(yīng)用建議。
用S表示個(gè)體的暴露,M1和M2表示兩個(gè)中介變量,Y表示結(jié)局變量,S、M1、M2和Y的因果關(guān)系見(jiàn)圖1。
圖1 兩中介變量的因果關(guān)系圖
首先,定義結(jié)局變量Y是關(guān)于疾病發(fā)展時(shí)間T的函數(shù),Y=H(T)。Y(s,m1,m2)是將暴露S、中介變量M1和中介變量M2的值分別設(shè)為s、m1、m2時(shí)反事實(shí)(指在不同條件下有可能發(fā)生但違反現(xiàn)存事實(shí))的結(jié)局變量的值;M2(s,m1)是將暴露S、中介變量M1的值分別設(shè)為s、m1時(shí)反事實(shí)的中介變量M2的值;M1(s)是將暴露S的值設(shè)為s時(shí)反事實(shí)的中介變量M1的值。將自然直接效應(yīng)和間接效應(yīng)擴(kuò)展到兩中介變量模型,定義如下三個(gè)特定路徑效應(yīng)[10-11]:
ΔS→Y=Y(s1,M1(s0),M2(s0,M1(s0)))-Y(s0,M1(s0),M2(s0,M1(s0)))
ΔS→M2→Y=Y(s1,M1(s0),M2(s1,M1(s0)))-Y(s1,M1(s0),M2(s0,M1(s0)))
ΔS→M1Y=Y(s1,M1(s1),M2(s1,M1(s1)))-Y(s1,M1(s0),M2(s1,M1(s0)))
(1)
分別構(gòu)建M1和M2的線性回歸模型:
(2)
(3)
(4)
其中λi表示個(gè)體i發(fā)展成某種疾病的風(fēng)險(xiǎn);λ0(t)是基線風(fēng)險(xiǎn)。
在風(fēng)險(xiǎn)差異的尺度下重新表達(dá)特定路徑效應(yīng)(PSEs):
(5)
相加風(fēng)險(xiǎn)模型假設(shè)風(fēng)險(xiǎn)是被線性預(yù)測(cè)的,與相加風(fēng)險(xiǎn)模型不同,Cox模型假設(shè)風(fēng)險(xiǎn)是呈指數(shù)(對(duì)數(shù)風(fēng)險(xiǎn)尺度上呈線性)被預(yù)測(cè)的:
(6)
在對(duì)數(shù)風(fēng)險(xiǎn)比的尺度下重新表達(dá)特定路徑效應(yīng)(PSEs):
(7)
與Cox比例風(fēng)險(xiǎn)模型類似,以加速失效時(shí)間(AFT)模型建立生存結(jié)局的模型:
(8)
其中ε是服從極值分布的隨機(jī)變量,是尺度參數(shù)。在平均生存時(shí)間比的尺度下重新表達(dá)特定路徑效應(yīng)(PSEs):
(9)
可通過(guò)重抽樣的方法計(jì)算ΔAalen、ΔCox和ΔAFT的方差和可信區(qū)間[12]。
(1)指定ΔS→Y,即對(duì)應(yīng)λS(或γS,θs)值;
(2)指定樣本量(N)、S與M1、S與M2、和M1與M2的相關(guān)系數(shù)r1、r2和r3,可產(chǎn)生多元標(biāo)準(zhǔn)正態(tài)分布隨機(jī)數(shù)S、M1和M2;此時(shí)r1、r2和r3即為δS,αS和αM值;
(3)指定效應(yīng)比R,即間接效應(yīng)/直接效應(yīng),可知ΔS→M1Y,根據(jù)公式可計(jì)算求得λM1值;
(4)把變量S、M1、M2和設(shè)定的系數(shù)代入指數(shù)回歸模型的風(fēng)險(xiǎn)函數(shù)λi=exp(λSSi+λM1M1i+λM2M2i),基于指數(shù)分布隨機(jī)產(chǎn)生生存時(shí)間;
(5)根據(jù)樣本量(N)和刪失率(cen%)隨機(jī)產(chǎn)生截尾,1代表死亡,0代表刪失。
(6)設(shè)λM2=0,比較方法的第一類錯(cuò)誤;設(shè)λM2= 1,比較方法的檢驗(yàn)效能。
模擬試驗(yàn)中考慮的影響因素包括S與M1、S與M2、M1與M2的相關(guān)系數(shù),效應(yīng)比、刪失率、樣本量等。中介變量與中介變量以及中介變量與暴露之間的關(guān)系越復(fù)雜,越難將中介變量的效應(yīng)從暴露對(duì)結(jié)局的效應(yīng)中分解出來(lái),會(huì)影響中介分析的檢驗(yàn)效能。由于生存資料的刪失率越高,模型預(yù)測(cè)越不準(zhǔn)確,模擬試驗(yàn)時(shí)刪失率取值70%以下。參數(shù)設(shè)置見(jiàn)表1。
表1 模擬試驗(yàn)參數(shù)設(shè)置情況
(1)根據(jù)不同的參數(shù)設(shè)置產(chǎn)生模擬數(shù)據(jù);
(2)對(duì)產(chǎn)生的同一模擬數(shù)據(jù)分別用三種方法進(jìn)行分析,提取相關(guān)結(jié)果,包括三個(gè)特定路徑效應(yīng)(PSEs)的點(diǎn)估計(jì)、區(qū)間估計(jì)(95%CI)及假設(shè)檢驗(yàn)P值;
(3)重復(fù)(1)~(2)步驟1000次,對(duì)1000次的結(jié)果進(jìn)行匯總,得到三種方法的第一類錯(cuò)誤和檢驗(yàn)效能。
(1)刪失率對(duì)第一類錯(cuò)誤的影響
在Aalen模型中,當(dāng)相關(guān)系數(shù)r1固定時(shí),隨著相關(guān)系數(shù)r2的增大,第一類錯(cuò)誤逐漸膨脹,并超過(guò)0.05;當(dāng)相關(guān)系數(shù)r1、r2均固定時(shí),隨著刪失率(cen%)的增加,第一類錯(cuò)誤逐漸減小。
在Cox模型中,當(dāng)相關(guān)系數(shù)r1固定時(shí),隨著相關(guān)系數(shù)r2的增大,第一類錯(cuò)誤逐漸增大且趨于0.05;當(dāng)相關(guān)系數(shù)r1、r2均固定時(shí),隨著刪失率(cen%)的增加,第一類錯(cuò)誤逐漸減小。
在AFT模型中,結(jié)果與Cox模型類似。當(dāng)樣本量較大(N=500)時(shí),三種模型的第一類錯(cuò)誤受刪失率的影響很小。
圖2顯示了當(dāng)M1與M2的相關(guān)系數(shù)r3=0,效應(yīng)比R=0.1,刪失率(cen%)為70%時(shí),三種模型的第一類錯(cuò)誤的比較。橫坐標(biāo)為兩個(gè)中介變量(M1、M2)與暴露(S)的相關(guān)系數(shù)(r1、r2)的組合,縱坐標(biāo)為第一類錯(cuò)誤。
圖2 三種模型的第一類錯(cuò)誤的比較
(2)M1與M2的相關(guān)性對(duì)第一類錯(cuò)誤的影響
當(dāng)刪失率(cen%)為70%,效應(yīng)比R為0.1時(shí),隨著M1與M2的相關(guān)系數(shù)r3逐漸增大,三種模型的第一類錯(cuò)誤的差別逐漸減小且趨于穩(wěn)定。
(3)樣本量的影響
總體來(lái)講,隨著樣本量N的增加,不同情景下,三種模型的第一類錯(cuò)誤逐漸趨于穩(wěn)定。Aalen模型的第一類錯(cuò)誤略有膨脹,其他兩種模型的第一類錯(cuò)誤趨于設(shè)定的0.05。
表2顯示了當(dāng)M1與M2的相關(guān)系數(shù)r3=0,效應(yīng)比R=0.1,刪失率(cen%)為70%時(shí),樣本量N對(duì)三種模型的第一類錯(cuò)誤的影響。
(1)刪失率對(duì)檢驗(yàn)效能的影響
在Aalen模型中,當(dāng)M1與S的相關(guān)系數(shù)r1固定時(shí),隨著相關(guān)系數(shù)r2的增大,檢驗(yàn)效能出現(xiàn)先增大后減小的趨勢(shì);當(dāng)相關(guān)系數(shù)r1、r2均固定時(shí),隨著刪失率(cen%)的增加,檢驗(yàn)效能逐漸減小,當(dāng)刪失率(cen%)為70%時(shí),檢驗(yàn)效能最小。
在Cox模型中,當(dāng)M1與S的相關(guān)系數(shù)r1固定時(shí),隨著相關(guān)系數(shù)r2的增大,檢驗(yàn)效能出現(xiàn)先增大后減小的趨勢(shì);當(dāng)相關(guān)系數(shù)r1、r2均固定時(shí),隨著刪失率(cen%)的增加,檢驗(yàn)效能逐漸減小,刪失率在30%以下時(shí),檢驗(yàn)效能的差別很小。
在AFT模型中,當(dāng)M1與S的相關(guān)系數(shù)r1固定時(shí),隨著相關(guān)系數(shù)r2的增大,檢驗(yàn)效能出現(xiàn)先增大后減小的趨勢(shì);當(dāng)相關(guān)系數(shù)r1、r2均固定時(shí),隨著刪失率(cen%)的增大,檢驗(yàn)效能略減小,同時(shí)檢驗(yàn)效能普遍較高(大于0.8),當(dāng)相關(guān)系數(shù)r1、r2均等于0.7時(shí),檢驗(yàn)效能出現(xiàn)低值,對(duì)這種情況需要做進(jìn)一步研究。
當(dāng)樣本量較大(N=500)時(shí),三種模型的檢驗(yàn)效能受刪失率的影響很小。
圖3顯示了當(dāng)M1與M2的相關(guān)系數(shù)r3=0,效應(yīng)比R=0.1,刪失率(cen%)為70%時(shí),三種模型的檢驗(yàn)效能的比較。橫坐標(biāo)為兩個(gè)中介變量(M1、M2)與暴露(S)的相關(guān)系數(shù)(r1、r2)的組合,縱坐標(biāo)為檢驗(yàn)效能。
表2 樣本量對(duì)三種模型的第一類錯(cuò)誤的影響
圖3 三種模型的檢驗(yàn)效能的比較
(2)M1與M2的相關(guān)性對(duì)檢驗(yàn)效能的影響
隨著中介變量M1與M2的相關(guān)系數(shù)r3的增大,三種模型的檢驗(yàn)效能呈減小的趨勢(shì)。三種模型的檢驗(yàn)
效能的大小排序均為:AFT模型>Cox模型>Aalen模型,Aalen模型的檢驗(yàn)效能偏低。
(3)樣本量對(duì)檢驗(yàn)效能的影響
總體來(lái)講,隨著樣本量N的增加,不同情景下,三種模型的檢驗(yàn)效能逐漸增大,且差距逐漸減小,趨于穩(wěn)定。當(dāng)樣本量較小(N=100)時(shí)無(wú)法檢驗(yàn)出來(lái)的效應(yīng);樣本量增大時(shí),各模型的檢驗(yàn)效能也隨之增大。當(dāng)樣本量較大(N=500)且M1與S的相關(guān)系數(shù)r1較大時(shí),三種模型的檢驗(yàn)效能基本一致。
表3顯示了當(dāng)M1與M2的相關(guān)系數(shù)r3=0,效應(yīng)比R=0.1,刪失率(cen%)為70%時(shí),樣本量N對(duì)三種模型的檢驗(yàn)效能的影響。
表3 樣本量對(duì)三種模型的檢驗(yàn)效能的影響
本研究主要討論了兩個(gè)中介變量的特定路徑效應(yīng)(PSEs),以及兩中介變量之間不存在交互作用的情況。隨著中介變量的增多,中介變量與中介變量以及中介變量與暴露之間的影響必定更加復(fù)雜,此時(shí)對(duì)模型的構(gòu)建和方法的選擇需要做進(jìn)一步深入的研究。
當(dāng)M1與S的相關(guān)系數(shù)r1固定時(shí),隨著M2與S的相關(guān)系數(shù)r2的增大,三種模型的檢驗(yàn)效能均出現(xiàn)先增大后減小的趨勢(shì),原因是在小樣本量(N=100)的條件下,M2與暴露S相關(guān)性過(guò)高,難以從暴露對(duì)結(jié)局的效應(yīng)中分解出M2對(duì)結(jié)局的效應(yīng)。當(dāng)樣本量擴(kuò)大至500時(shí),這種趨勢(shì)不再存在,三種方法的檢驗(yàn)效能均增大并趨于穩(wěn)定,提示中介變量與暴露的相關(guān)性越高,需要更大的樣本量才能檢驗(yàn)出中介效應(yīng)。
當(dāng)暴露與中介變量間的相關(guān)系數(shù)固定時(shí),隨著中介變量間的相關(guān)系數(shù)r3的增大,三種模型的檢驗(yàn)效能呈減小的趨勢(shì)。中介變量間的相關(guān)性越高,兩個(gè)中介變量對(duì)結(jié)局的效應(yīng)發(fā)生重疊,越難將兩個(gè)中介變量的中介效應(yīng)區(qū)分開(kāi)來(lái),也就越難發(fā)現(xiàn)中介變量M2對(duì)結(jié)局Y的效應(yīng),此時(shí)可通過(guò)增大樣本量,以提高檢驗(yàn)效能。
模擬試驗(yàn)結(jié)果顯示,無(wú)論在何種情況下,隨著樣本量的增加,檢驗(yàn)效能趨于穩(wěn)定。即使在暴露與中介變量相關(guān)性較高的情況下,也能保持足夠的檢驗(yàn)效能。這說(shuō)明,進(jìn)行中介分析,必須要有足夠的樣本量。
隨著刪失率的增加,檢驗(yàn)效能逐漸減小,實(shí)際數(shù)據(jù)的分析過(guò)程中會(huì)遇到很多刪失率較大的數(shù)據(jù),對(duì)于高刪失率的數(shù)據(jù),在方法的選擇上要更加慎重。有研究顯示,對(duì)于大樣本(≥500)或刪失率較小(≤30%)的數(shù)據(jù),Cox模型和AFT 模型的有效性及偏倚性相近,分析結(jié)果均較為可靠。對(duì)于樣本較小(300~400)或刪失率較高(40%~60%)的數(shù)據(jù),AFT模型的分析結(jié)果似乎更為可靠,此時(shí)應(yīng)首先考慮采用該模型進(jìn)行分析。但當(dāng)樣本量不足200或刪失率超過(guò)70%時(shí),兩類模型的適用性都不佳。當(dāng)出現(xiàn)樣本量不足或刪失率過(guò)高的情況下,可考慮選擇其他模型對(duì)生存結(jié)局進(jìn)行分析。
在Aalen相加風(fēng)險(xiǎn)模型、Cox比例風(fēng)險(xiǎn)模型和加速失效時(shí)間(AFT)模型下的多中介變量的中介分析描述了特定尺度下的中介效應(yīng),Aalen相加風(fēng)險(xiǎn)模型是基于風(fēng)險(xiǎn)差異,Cox模型基于對(duì)數(shù)風(fēng)險(xiǎn)比,加速失效時(shí)間(AFT)模型基于平均生存時(shí)間比,模型解釋時(shí)需要注意。三種模型下的解析表達(dá)式都可以通過(guò)因果關(guān)系圖上各個(gè)箭頭對(duì)應(yīng)的效應(yīng)參數(shù)被直觀地解釋。
通過(guò)模擬試驗(yàn)發(fā)現(xiàn),隨著刪失率的降低,Aalen模型的第一類錯(cuò)誤膨脹。Cox模型的解析表達(dá)式只有在結(jié)局不常見(jiàn)的假設(shè)下才能得到,是其應(yīng)用的局限性。不同參數(shù)設(shè)定下,AFT模型的檢驗(yàn)效能最大,其次為Cox模型,最后為Aalen模型。AFT模型優(yōu)于其他兩種方法,推薦用于生存結(jié)局的多中介變量的中介分析。同時(shí),進(jìn)行中介分析時(shí)需要足夠的樣本量,才能發(fā)現(xiàn)多個(gè)中介變量的中介效應(yīng)。