長春中醫(yī)藥大學(xué)藥學(xué)院(130117) 韓曦英 孫 健 李秀昌
醫(yī)藥學(xué)研究中常常要研究對于某種處理(treatment)對二值結(jié)局變量的效應(yīng)(effect)的大小。如研究某種藥物的副作用時,是否服用該藥物為兩值處理變量(服用該藥物,T=1;未服用該藥物,T=0),其結(jié)局變量為兩值變量(有副作用Y=1;沒有副作用Y=0),等等[1-2]。但是在觀察研究中往往存在著混雜因素,最常見的如年齡、性別、文化程度、認(rèn)知水平等等?;祀s因素既與處理因素相關(guān)又與結(jié)局變量之間存在相關(guān)關(guān)系,導(dǎo)致處理因素與結(jié)局變量之間的真實關(guān)系受到干擾,即處理效應(yīng)的估計變得不準(zhǔn)確。如何控制混雜因素是研究者在觀察性研究中主要關(guān)注的問題[3]。
當(dāng)混雜因素是可以完全觀測時,可以通過加權(quán)、匹配、分層等方法將可觀測的混雜進(jìn)行均衡,消除混雜偏倚。目前廣泛使用的是傾向得分(propensity score)法[4-7]。如別玉坤[8]等利用傾向得分匹配法對兩種方法治療膽總管結(jié)石的療效進(jìn)行評價;KD SONG[9]等應(yīng)用傾向得分匹配法比較反復(fù)肝切除術(shù)與射頻(RF)消融術(shù)治療復(fù)發(fā)性肝細(xì)胞癌(HCC)的長期療效;Takuma[10]等采用傾向得分匹配法比較符合米蘭標(biāo)準(zhǔn)肝癌病人的肝動脈化療栓塞聯(lián)合射頻消融術(shù)與手術(shù)切除等等。但是有些混雜因素是不可觀測的,如認(rèn)知能力、文化背景、家庭環(huán)境影響、家族基因等等。如何通過統(tǒng)計學(xué)方法將不可觀測的混雜的效應(yīng)從處理效應(yīng)中剝離掉是目前處理效應(yīng)估計問題中的熱點。
Gao[11]提出一種動態(tài)離散模型中處理效應(yīng)的估計方法,無需假定不可觀測混雜的分布,只要其方差較大,即個體之間的差異較大,就能基于極大似然估計方法給出處理效應(yīng)較好的估計[12-15]。本文將這種方法使用到帶有不可觀測混雜的兩值結(jié)果的處理效應(yīng)模型中(相當(dāng)于T=2的兩期動態(tài)離散模型),給出具體的估計量形式。
1.模型
帶有不可觀測混雜的二值結(jié)局變量的處理效應(yīng)模型由兩個方程構(gòu)成:
模型中第一個方程為選擇方程,表示第i個個體是否接受了處理(如是否服用了研究藥物);第二個方程為結(jié)局方程,表示第i個個體是否出現(xiàn)了待評價的二值結(jié)局,如是否出現(xiàn)了副作用等。
2.估計方法與主要結(jié)論
參數(shù)估計的框架工作來源于Gao[11]的文章中T=2的情況。其主要引理和定理如下:
由引理1和引理2,可直接獲得以下定理:
由定理2有:
其中
由上述似然函數(shù)并不能得到參數(shù)的顯示表達(dá)解,可以通過R程序利用牛頓算法進(jìn)行迭代同時得到參數(shù)β和λ的極大似然估計量。具體過程可以通過R程序?qū)崿F(xiàn)。
3.估計性質(zhì)
估計量與Gao[11]中的估計量具有相同的近似性質(zhì)。
1.模擬結(jié)果
使用R程序?qū)Ρ疚牡墓ぷ鬟M(jìn)行模擬。其中x1~N(0,1),x2=x1+N(0,1),ε1、ε2~N(0,1),β=0.5,進(jìn)行模擬,結(jié)果如表1。
表1 模型中不同的αi分布下處理效應(yīng)參數(shù)的模擬結(jié)果(n=1000)
2.實例
某中醫(yī)院采用針刺配合雷火灸、常規(guī)針刺結(jié)合電針兩種不同的針灸方法分別作為對照和處理方法治療陽虛寒凝型膝骨關(guān)節(jié)炎臨床癥狀,對療效進(jìn)行考察評價。
根據(jù)中西醫(yī)診斷和入組標(biāo)準(zhǔn)共納入雷火灸組32例、電針組33例,患者共65例,兩組均為每日治療1次,7天為一療程,每療程休息1天,連續(xù)4個療程。4療程結(jié)束后評價兩組膝骨性關(guān)節(jié)炎的療效。療效評價指標(biāo)確定為二值結(jié)果變量,即
雖然在進(jìn)行臨床觀察入組前經(jīng)檢驗兩組協(xié)變量(性別、患病部位、年齡、病程、VAS積分、WOMAC疼痛評分、WOMAC僵硬評分、WOMAC功能活動積分、WOMAC總分)均達(dá)到平衡,結(jié)果見表2。但臨床研究中可能有不可觀測的混雜因素影響分組結(jié)果或者療效結(jié)果,如患者以往經(jīng)驗、學(xué)習(xí)背景等影響的對于某種療法的認(rèn)同感等等,這些因素都在本模型中作為不可觀測的混雜因素αi,故可適用于本文所提之模型。
表2 兩組治療前協(xié)變量平衡統(tǒng)計分析結(jié)果
表3 兩組治療后臨床療效
如何處理不可觀測的混雜因素在處理效應(yīng)的估計問題中一直是人們比較關(guān)心的問題。特別在觀察性研究中,進(jìn)行非隨機化的對比研究,不能人為地設(shè)置處理因素,受試對象是否接受處理也不是由隨機化確定的。
在這個過程中不可避免地會有可觀測的和不可觀測的混雜因素同處理因素共同對結(jié)局變量產(chǎn)生影響??捎^測的混雜因素產(chǎn)生的偏倚已經(jīng)有較多的手段去處理。而不可觀測的混雜因素,往往是個體異質(zhì)性,人們通常對其分布狀況是沒有先驗信息,實驗設(shè)計和觀察期間也沒有辦法對其進(jìn)行有效的控制。在統(tǒng)計過程中直接估計出來的難度非常大,因此在處理效應(yīng)的估計中目前主流的做法是將不可觀測的混雜在估計的過程中去掉。本文采用的處理效應(yīng)方法在假設(shè)個體異質(zhì)性的離散程度較大的前提下,對帶有不可觀測混雜的兩值結(jié)局變量的處理效應(yīng)進(jìn)行估計具有較好的估計性質(zhì),比較簡便可行。
[1] Rubin DB.Inference and missing data (with discussion).Biometrika,1976(63):581-592.
[2] Rubin DB.Bayesian inference for causal effects:The role of randomization.The Annals of Statistics,1978(6):34-58.
[3] Wooldridge JM.Econometric analysis of cross section and panel data.The MIT press,2002.
[4] Rosenbaum PR,Rubin DB.The central role of the propensity score in observational studies for causal effects.Biometrika,1983(70):41-55.
[5] Luo Z,Gardiner JC,Bradley CJ.Applying Propensity Score Methods in Medical Research:Pitfalls and Prospects.Medical Care Research and Review:formerly Medical Care Review,2010,67(5):528.
[6] Vansteelandt S,Daniel RM.On regression adjustment for the propensity score.Statistics in Medicine,2014(33):4053-4072,
[7] 張亮,李嬋娟,夏結(jié)來,等.傾向得分區(qū)間匹配法用于非隨機對照試驗的探索與研究.中國衛(wèi)生統(tǒng)計,2012,29(1):53-57.
[8] 別玉坤,楊成林,曹衛(wèi),等.傾向得分匹配法對兩種方法治療膽總管結(jié)石的療效再評價.中國普通外科雜志,2014,23(8):1059-1062.
[9] KD Song,HK Lim,,H Rhim,等.肝切除術(shù)后復(fù)發(fā)性肝細(xì)胞癌反復(fù)肝切除術(shù)與射頻消融術(shù)的比較:傾向得分匹配研究.國際醫(yī)學(xué)放射學(xué)雜志,2015,38(4):378.
[10]Takuma Y,Takabatake H,Morimoto Y,et al.采用傾向得分匹配法比較符合米蘭標(biāo)準(zhǔn)肝癌病人的肝動脈化療栓塞聯(lián)合射頻消融術(shù)與手術(shù)切除.國際醫(yī)學(xué)放射學(xué)雜志,2014,(1):82.
[11]Gao W,Bergsma W,Yao Q.Estimation for Dynamic and Static Panel Probit Models with Large Individual Effects.Journal of Time,2016.
[12]Arellano M.Discrete choices with panel data .Investigaciones Economicas,2001,27:423-458
[13]Bartolucci F,Farcomeni A.A multivariate extension of the dynamic logit model for longitudinal data based on a latent Markov heterogeneity structure.Journal of the American Statistical Association,2009,104(486):816-831.
[14]Honoré BE,Kyriazidou E.Panel data discrete choice models with lagged dependent variables.Econometrica,2000,68(4):839-874.
[15]Lancaster T.The incidental parameter problem since 1948.Journal of econometrics,2000,95(2):391-413.