何孟霜,夏文俊,孫靜茹,來 鵬
(南京信息工程大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,南京 210044)
ACTG175是一個比較治療艾滋病藥物zidovudine(齊多呋定)或didanosine(去羥肌苷)的單藥治療,與zidovudine和didanosine的聯(lián)合治療或zidovudine和zalcitabine(扎西他賓)的聯(lián)合治療的隨機(jī)臨床試驗(yàn).1995年研究的初步結(jié)果表示,ACTG175和CPCRA007被NIAID首次宣布已經(jīng)在定義治療艾滋病感染者的標(biāo)準(zhǔn)和塑造后續(xù)臨床研究抗逆轉(zhuǎn)錄病毒藥物方面發(fā)揮了重要作用[1].
HIV病毒對人體有CD4+受體的淋巴細(xì)胞,主要是CD4+T淋巴細(xì)胞進(jìn)行攻擊,它同時也會侵襲神經(jīng)細(xì)胞.HIV病毒對人體細(xì)胞的感染有兩大特點(diǎn):變異和潛伏.這也是感染艾滋病后的潛伏期比較長以及艾滋病疫苗很難研制成功的最大原因.CD4+細(xì)胞是人體免疫系統(tǒng)中的一種重要免疫細(xì)胞,其數(shù)量體現(xiàn)了藥物對HIV的抑制效果[2].CD4+計數(shù)的升高是由于藥物有效抑制了病毒復(fù)制,機(jī)體有機(jī)會產(chǎn)生新的未被病毒感染的CD4+細(xì)胞,從而增強(qiáng)人的免疫系統(tǒng)并減少各種機(jī)會性感染,所以其檢測結(jié)果對艾滋病治療效果和對患者免疫功能的判斷有重要作用.
在流行病學(xué)文獻(xiàn)中,平均治療效果是評估治療效果并被廣泛接受的一種方法.但是需要注意的是,療效平均值的估計會受到分布的有偏性、重尾或異常值等的影響,有可能導(dǎo)致療效判定的誤判.所以,更穩(wěn)健的基于中位數(shù)的平均治療效果評判方法是迫切需要的.此外,在藥物臨床試驗(yàn)中,由于試驗(yàn)對象只能包含在一個測試組內(nèi),這導(dǎo)致該對象的其他測試組數(shù)據(jù)是缺失的,所以藥物臨床試驗(yàn)數(shù)據(jù)本身是一個缺失數(shù)據(jù)問題.對該信息的有效利用,有助于提高藥效對比分析的準(zhǔn)確性.Firpo[3]利用Nadaraya-Watson核估計得到傾向得分函數(shù),通過Horvitz-Thompson逆概率加權(quán)方法研究了基于中位數(shù)的治療效果對比.更進(jìn)一步的,Wang和Lai[4]提出了一種利用經(jīng)驗(yàn)似然技術(shù)[5]對設(shè)定的參數(shù)工作模型進(jìn)行改進(jìn)的方法,能夠有效計算藥物療效的中位數(shù)差.考慮到方法的靈活有效性,本文引入該方法到藥物療效評價的研究中.為此,本文針對ACTG175的艾滋病藥物臨床試驗(yàn)數(shù)據(jù),在治療對象相對數(shù)據(jù)缺失的情況下使用經(jīng)驗(yàn)似然方法及中位數(shù)差對其進(jìn)行療效對比研究,以期給出切實(shí)可行、有效的藥物療效對比分析方法,并可廣泛應(yīng)用于藥品療效分析中.
ACTG175數(shù)據(jù)主要包含下列解釋變量:age(年齡)、wtkg(體重千克)、hemo(血友病,0=無,1=有)、homo(同性戀活動,0=無,1=有)、drugs(藥物靜脈注射毒品史,0=無,1=有)、karnof(卡氏評分0~100)、oprior(開始研究治療前無zidovudine抗逆轉(zhuǎn)錄病毒療法,0=否,1=是)、z30(治療開始前30天使用zidovudine,0=否,1=是)、zprior(治療開始前使用zidovudine,0=否,1=是)、preanti(之前接受了抗逆轉(zhuǎn)錄病毒治療的天數(shù))、race(種族,0=白人,1=非白人)、gender(性別,0=女,1=男)、str2(抗逆轉(zhuǎn)錄病毒治療歷史,0=無,1=有)、strat1(抗逆轉(zhuǎn)錄病毒治療歷史,1=是“未經(jīng)過抗逆轉(zhuǎn)錄病毒療法”,0=否)、strat2(1=是“經(jīng)過2到52周的抗逆轉(zhuǎn)錄病毒療法”,0=否)、symptom(癥狀指標(biāo),0=無癥狀,1=有癥狀)、treat(治療指標(biāo),0=zidovudine,1=其他療法)、offtrt(退出治療在96±5周,0=否,1=是)、r(CD4+T細(xì)胞在96±5周的計數(shù)是否缺失,0=失蹤,1=有觀察)、days(直到第一次出現(xiàn)病癥的天數(shù)):1) CD4+T細(xì)胞的數(shù)目至少下降50,2)事件顯示為艾滋病,或者(3)死亡).為了方便后續(xù)計算,分別將上述變量定義為(x1,x2,…,x19,x20).
ACTG175數(shù)據(jù)中四種藥物治療方案分別是:arms=0為zidovudine單獨(dú)用藥,arms=1為zidovudine和didanosine聯(lián)合用藥,arms=2為zidovudine和zalcitabine聯(lián)合用藥,arms=3為didanosine單獨(dú)用藥.本文通過研究在arms=0、1、2、3這四種不同的藥物治療方案下,經(jīng)過20周后CD4+T細(xì)胞的數(shù)量差異來觀察這四類不同的藥物治療方案是否顯著不同.
為了比較藥物療效,以arms=0和arms=1這兩種方案的比較為例,設(shè)Y0i和Y1i分別表示arms=0和arms=1時的第i個病人在第20周時的CD4+T細(xì)胞數(shù)目,Y1i-Y0i即為方案1和方案0的療效差異.但是由于病人只存在這兩種方案之一的情況,接受其中一種用藥方案時,另外一種用藥方案的情況則是缺失的,因此令δi表示病人所在分組情況:
整個數(shù)據(jù)集可分為arms=0和1兩種情況.觀察到的數(shù)據(jù)集可表示為(Yi,Xi,δi),i=1,2,…,N,其中Yi=δiY1i+(1-δi)Y0i,Xi=(x1i,…,x20i)T表示第i個觀測向量.
對于傳統(tǒng)的基于均值差來反映藥效療效的方法,可以通過已知的(Y1i,Xi)和(Y0i,Xi)來計算.記不同藥物下隨機(jī)向量的聯(lián)合分布分別為F1(y,x)和F0(y,x),那么Y1i和Y0i的邊緣分布分別為F1(y)和F0(y),顯然療效期望差表示為:
考慮到自變量過多,而過多的自變量容易導(dǎo)致擬合模型產(chǎn)生冗余信息,變量間也可能出現(xiàn)強(qiáng)相關(guān)關(guān)系.因此,本文通過研究因變量與自變量之間的相互影響,應(yīng)用逐步回歸檢驗(yàn)方法篩選出不同藥物治療方案下的重要變量,即原始多元線性回歸模型:
y=β0+β1x1+β2x2+…+β20x20+ε,
利用逐步篩選得到的重要變量構(gòu)建多元線性回歸模型:
ψ(x,β,t)=F1(t|x,β)-1/2,
逆概率加權(quán)方法最早是由Horvitz和Thompson[6]提出,通過對觀測的yi進(jìn)行加權(quán),從而改進(jìn)建模效果.arms=0和1兩種方案表明在觀察其中一種用藥方案時,另外一種用藥方案的情況是缺失狀態(tài),即20周的CD4+T細(xì)胞數(shù)據(jù)缺失.不妨設(shè)這種缺失是隨機(jī)缺失,也就是
P(δ=1|Y1,Y0,X)=P(δ=1|X)=ω(X,θ).
(1)
前面所給出參數(shù)模型中假設(shè)了正態(tài)分布模型作為工作模型進(jìn)行計算,但該假設(shè)的正確性需要對四種用藥方案下20周的CD4+T數(shù)目進(jìn)行正態(tài)性檢驗(yàn).如果拒絕正態(tài)性假設(shè),則無論是在F1還是F0的工作模型下,上述采用的基于參數(shù)模型的中位數(shù)回歸比較的結(jié)果都會有較大偏差,而逆概率加權(quán)法,從公式(1)可以發(fā)現(xiàn)利用到的X的信息不充分.
本文將采用經(jīng)驗(yàn)似然方法對條件正態(tài)分布F1和F0下的結(jié)果進(jìn)行修正,通過對缺失概率和偽似然函數(shù)的模型改進(jìn),獲取更多信息,來確定不同方案的中位數(shù).Owen[7-8]首次系統(tǒng)地提出了經(jīng)驗(yàn)似然法,并用來處理非參數(shù)統(tǒng)計問題.經(jīng)驗(yàn)似然方法作為一種非參數(shù)統(tǒng)計方法有很多優(yōu)點(diǎn),除置信區(qū)間的域保持性、變換不變性及由數(shù)據(jù)決定置信域的形狀外,還有Bartlett糾偏性及無需構(gòu)造樞軸統(tǒng)計量等優(yōu)點(diǎn)[9].
已知(y1i,xi),i=1,2,…,m和(y0i,xi),i=1,2,…,n,定義如下的偽似然函數(shù):
其中,F(xiàn)1(y1i,xi)和F0(y0i,xi)具有共同的邊緣分布F(x),則arms=1時第i個個體的抽取概率為pi=dF1(y1i,xi),i=1,2,…,m,而arms=0時第i個個體的抽取概率為qi=dF0(y0i,xi),i=1,2,…,n.由E(ω(X,θ)-η)=0,E[ψ(X,β,ξ)]=0,η=E[ω(X)]=p(δ=1),可構(gòu)建帶約束的對數(shù)似然函數(shù)為:
(2)
其中,pi,qi滿足以下條件:
為求對數(shù)似然函數(shù)的最大值,引進(jìn)拉格朗日乘子λ1,λ2,τ1,τ2,得到:
(3)
其中,λ1,λ2,τ1,τ2滿足下面四式:
將λ1,λ2,τ1,τ2的估計值代入(3)式,可求得針對arms=1中每個個體的缺失率pi,i=1,2,…,m和針對arms=0中每個個體的缺失率qi,i=1,2,…,n.則經(jīng)驗(yàn)似然調(diào)整后的兩個分布下的中位數(shù),可通過求解下列方程組得到:
(4)
在參數(shù)模型下,假設(shè)20周的CD4+T細(xì)胞數(shù)目服從條件正態(tài)分布,通過逐步回歸檢驗(yàn)方法篩選出不同藥物治療方案下與目標(biāo)變量具有較大聯(lián)系的自變量.篩選結(jié)果顯示F1的均值和x11,x12,x13,x16,x20相關(guān),F(xiàn)0的均值和x13,x16,x20相關(guān),即條件分布函數(shù)為:
F1(y|X,β)~N(β1+β2x11+β3x12+
β4x13+β5x16+β6x20,1),
F0(y|X,γ)~N(γ1+γ2x13+γ3x16+γ4x20,1),
其中F1,F(xiàn)0分別代表arms=1和arms=0時20周的CD4+T細(xì)胞數(shù)目的分布函數(shù),β1,…,β6和γ1,…,γ4為未知參數(shù).由極大似然估計法,可得arms=1和0兩種方案中的20周的CD4+T細(xì)胞數(shù)目服從的正態(tài)條件分布函數(shù)如下:
F1(y|X,β)~N(335.009-44.87x11->35.2x12-80.107x13-46.067x16+0.18x20,1),F(xiàn)0(y|X,γ)~N(243.122- 53.453x13-40.145x16+0.163x20,1).
表1 四種方案的正態(tài)性檢驗(yàn)結(jié)果Tab.1 Normality test results of four schemes
然而,對四種方案下20周的CD4+T細(xì)胞數(shù)目進(jìn)行正態(tài)性檢驗(yàn)(表1),可以看出各方案下的Shapiro-Wilk檢驗(yàn)統(tǒng)計量的值均接近1,p值顯著小于0.05,表明四種方案都拒絕了正態(tài)性的原假設(shè),即不服從正態(tài)分布.故考慮引入逆概率加權(quán)及經(jīng)驗(yàn)似然的中位數(shù)回歸模型調(diào)整分布,結(jié)合式(1)、(3)、(4)計算不同方案的中位數(shù)差,將所求中位數(shù)兩兩組合進(jìn)行比較,結(jié)果見表2.
從表2可以看出,樣本中位差、逆概率加權(quán)和經(jīng)驗(yàn)似然等方法估計中位數(shù)之差時發(fā)現(xiàn),arms=0時20周的CD4+T細(xì)胞數(shù)目明顯少于其它3種方案,arms=1時20周的CD4+T細(xì)胞數(shù)目多于arms=2和3,arms=2和3之間20周的CD4+T細(xì)胞數(shù)目幾乎沒有差異.可以初步判斷,arms=1的療效優(yōu)于其它3種方案,arms=0的療效劣于arms=2和3,arms=2和3的療效幾乎沒有差異.而在基于參數(shù)模型的中位數(shù)回歸比較時觀測到的療效差異和其它方法相比差距較大,尤其體現(xiàn)在arms=3和1的比較中,該方法所得結(jié)果arms=3的療效要優(yōu)于arms=1的療效,與另外三種比較方法結(jié)果相反,其它比較結(jié)果同另外三種比較方法類似.由于比較中位數(shù)之差沒有利用協(xié)變量的信息,參數(shù)模型的中位數(shù)回歸基于很強(qiáng)的正態(tài)分布假設(shè),逆概率加權(quán)方法未利用全部信息,而經(jīng)驗(yàn)似然估計修正了這三種比較方法的缺陷,其結(jié)果最貼近真實(shí)情況,即arms=1的療效優(yōu)于其它3種方案,arms=0的療效劣于arms=2和3,arms=2和3的療效幾乎沒有差異.為了對這種差異的顯著性進(jìn)行驗(yàn)證,本文采用Bootstrap來估計中位數(shù)之差的置信區(qū)間并進(jìn)行檢驗(yàn)判斷.
表2 四種比較方法下療效中位數(shù)差異的綜合結(jié)果Tab.2 The comprehensive results of the difference in the median efficacy of the four comparison methods
Bootstrap是非參數(shù)統(tǒng)計中一種重要的估計統(tǒng)計量方差進(jìn)而進(jìn)行區(qū)間估計的統(tǒng)計方法,也稱為自助法[10].取顯著性水平為0.05,得到4個用藥方案抗艾滋的療效差異對比的置信區(qū)間見表3.
表3 中位數(shù)之差的置信區(qū)間Tab.3 Confidence interval for the difference between the medians
表3給出了在四種中位數(shù)比較方法下,對arms=0、1、2、3這幾種治療方案相互比較的結(jié)果,顯著性水平取0.05.縱向觀察經(jīng)驗(yàn)似然法下兩兩比較的結(jié)果,發(fā)現(xiàn)arms=0和arms=1、2、3中20周的CD4+T細(xì)胞數(shù)目的中位數(shù)之差的置信區(qū)間都在零點(diǎn)右側(cè),說明arms=0時20周的CD4+T細(xì)胞數(shù)目顯著小于其它3種方案20周的CD4+T細(xì)胞數(shù)目,表明zidovudine單獨(dú)用藥的抗艾滋效果顯著最差.而arms=2、3和arms=1時20周的CD4+T細(xì)胞數(shù)目的中位數(shù)相比,20周的CD4+T細(xì)胞數(shù)目的中位數(shù)之差的置信區(qū)間都在零點(diǎn)左側(cè),因此認(rèn)為arms=1時20周的CD4+T細(xì)胞數(shù)目顯著大于arms=2、3時20周的CD4+T細(xì)胞數(shù)目,表明zidovudine和didanosine聯(lián)合用藥的抗艾滋效果要顯著優(yōu)于zidovudine、zalcitabine聯(lián)合用藥和didanosine單獨(dú)用藥的效果.而arms=2和3中位數(shù)差的置信區(qū)間包含零值且關(guān)于零值幾乎對稱,因此認(rèn)為zidovudine與zalcitabine聯(lián)合用藥和didanosine單獨(dú)用藥的抗艾滋效果沒有顯著差別.綜上,arms=1即zidovudine和didanosine聯(lián)合用藥能有效提高20周的CD4+T細(xì)胞數(shù)量,從而抑制病毒復(fù)制,表現(xiàn)出較好的的抗艾滋療效.
通過觀察表3,比較arms=1和3、arms=2和3這兩組的中位數(shù)之差時,基于參數(shù)模型的中位數(shù)回歸比較法的置信區(qū)間相較其它幾種比較方法,結(jié)果粗糙且可信度低,而經(jīng)驗(yàn)似然方法下的置信區(qū)間與其它幾種方法的置信區(qū)間相比差異更顯著且可信度更高.
本文根據(jù)ACTG 175的數(shù)據(jù)分析不同用藥方案下的抗艾滋療效差異.基于參數(shù)模型的中位數(shù)回歸建立在正態(tài)分布模型假設(shè)之下,計算簡便快速,但是由于假設(shè)條件過強(qiáng),導(dǎo)致結(jié)果偏差較大.為此采用經(jīng)驗(yàn)似然調(diào)整分布,根據(jù)缺失數(shù)據(jù)的特點(diǎn),定義偽似然函數(shù)并引進(jìn)拉格朗日乘子,結(jié)合極大似然法求解出中位數(shù)之差.最后利用Bootstrap抽樣方法得到置信區(qū)間以觀察各組方案的療效差異.對結(jié)果分析,得到結(jié)論:zidovudine和didanosine聯(lián)合用藥的抗艾滋效果顯著最優(yōu),zidovudine單獨(dú)用藥的抗艾滋效果要顯著劣于zidovudine、zalcitabine聯(lián)合用藥和didanosine單獨(dú)用藥,zidovudine和zalcitabine聯(lián)合用藥和didanosine單獨(dú)用藥的抗艾滋效果沒有顯著差別,zidovudine單獨(dú)用藥的抗艾滋效果顯著最差.