楊 偉,唐進(jìn)法,易丹輝,李學(xué)林**,李偉霞,周曉華
(1.中國中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所 北京 100700;2.中央民族大學(xué)理學(xué)院 北京 100081;3.河南中醫(yī)藥大學(xué)第一附屬醫(yī)院 鄭州 450000;4.中國人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心北京 100872;5.北京大學(xué)北京國際數(shù)學(xué)研究中心 北京 100871)
GBM 傾向評(píng)分加權(quán)法用于因果推斷的研究*
楊 偉1,2,唐進(jìn)法3,易丹輝4**,李學(xué)林3**,李偉霞3,周曉華5
(1.中國中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所 北京 100700;2.中央民族大學(xué)理學(xué)院 北京 100081;3.河南中醫(yī)藥大學(xué)第一附屬醫(yī)院 鄭州 450000;4.中國人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心北京 100872;5.北京大學(xué)北京國際數(shù)學(xué)研究中心 北京 100871)
目的:在觀察性研究或非隨機(jī)化試驗(yàn)中,由于混雜因素***的存在,研究人員從數(shù)據(jù)中進(jìn)行因果推斷的能力受到阻礙,本研究利用GBM傾向評(píng)分加權(quán)法對(duì)一組觀察性醫(yī)學(xué)數(shù)據(jù)進(jìn)行了分析,以期指導(dǎo)相關(guān)醫(yī)學(xué)人員進(jìn)行他們自己的因果推斷研究。方法:目前,四類主要的傾向評(píng)分法:匹配、分層、逆概率加權(quán)和混雜變量調(diào)整,已經(jīng)被普遍用于因果推斷的研究。傾向評(píng)分法理論上是可以消除可觀測到的混雜因素的偏倚,使處理變量接近隨機(jī)分配設(shè)計(jì)的效果,從而達(dá)到估計(jì)處理因素對(duì)結(jié)局因果效應(yīng)的目的。結(jié)果:考慮到逆概率加權(quán)法相對(duì)于其它方法的優(yōu)勢,本文概括了它用于因果效應(yīng)估計(jì)的適用條件,特別說明了運(yùn)用一個(gè)現(xiàn)代多元非參數(shù)統(tǒng)計(jì)技術(shù)——廣義Boosted模型(GBM)傾向評(píng)分加權(quán)法的關(guān)鍵環(huán)節(jié)及優(yōu)劣。結(jié)論:當(dāng)存在大量不同類型的混雜因素且它們與處理因素之間的線性、非線性或交互效應(yīng)等函數(shù)形式無法確定以及其它問題的時(shí)候,GBM傾向評(píng)分加權(quán)法能克服在精確地估計(jì)傾向評(píng)分過程中所受到的阻礙,并給出相對(duì)更加接近于隨機(jī)化的因果效應(yīng)。
GBM 傾向評(píng)分加權(quán) 因果推斷 觀察性研究 非隨機(jī)化試驗(yàn)
在觀察性研究或非隨機(jī)化試驗(yàn)中面臨的一個(gè)非常大的挑戰(zhàn)就是從數(shù)據(jù)中進(jìn)行因果推斷(Causal Inferences)并估計(jì)因果效應(yīng)(Causal Effects)。在醫(yī)學(xué)研究中,雖然隨機(jī)對(duì)照試驗(yàn)(RCTs)被認(rèn)為是因果推斷的黃金標(biāo)準(zhǔn),但RCTs用于因果推斷并不總是可能的或可行的[1,2],比如,患者遵循醫(yī)囑使用某種藥物的行為符合真實(shí)世界情況,即醫(yī)生根據(jù)患者的個(gè)人信息、既往史、疾病情況以及患者意愿等信息而非隨機(jī)的分配藥物治療,故不同治療組患者的基線特征分布顯示差異,即存在混雜因素,而關(guān)注的結(jié)局會(huì)受到這些混雜的影響。若此時(shí)直接分析治療對(duì)結(jié)局的因果效應(yīng),則顯然是不合理的[3]。即使是在一個(gè)RCT可行且被實(shí)施的情況下,由于出現(xiàn)的治療不依從問題破壞了隨機(jī)化,這也會(huì)影響我們關(guān)于治療或處理因素對(duì)療效結(jié)局的因果推斷[4,5,6]。在所有這些情況下,使用一些統(tǒng)計(jì)方法或技術(shù)對(duì)混雜因素進(jìn)行統(tǒng)計(jì)調(diào)整也許可能得出更有效的因果推斷,比如,協(xié)方差分析法(Analysis of Covariance(ANCOVA)models)[7],工 具 變 量 法(Instrumental Variable Approaches)[8]以及傾向評(píng)分法(Propensity Score Models)[9,10]。
本文介紹的傾向評(píng)分(Propensity Score,PS)在概念上是一個(gè)簡單的統(tǒng)計(jì)工具,它允許研究人員通過平衡非隨機(jī)設(shè)計(jì)的非等價(jià)組來做出更精確的因果推斷。簡單的說,PS就是給定很多潛在的混雜變量取值,研究個(gè)體被分配到處理組而非對(duì)照組的概率。以PS為條件,所有觀測到的混雜變量與處理分配相互獨(dú)立,且在大樣本的情況下,混雜變量在不同處理組之間的分布幾乎相同,且估計(jì)的處理變量對(duì)結(jié)局的因果效應(yīng)不會(huì)受到混雜的影響[11]。Rosenbaum和Rubin以及Stuart提出了利用PS進(jìn)行分層(stratification)和配比(matching)來分析因果效應(yīng)[10,12]。Hirano等提出了利用PS進(jìn)行加權(quán)(weighting)來分析因果效應(yīng)[13]。雖然這些方法已經(jīng)開始被廣泛的使用[10,14,15,16,17],但是文獻(xiàn)中幾乎所有的例子都是使用帶參數(shù)的Logistic回歸模型來估計(jì)PS,并且假設(shè)模型中的混雜變量關(guān)于處理變量的對(duì)數(shù)優(yōu)勢比(Log-odds)是線性的。雖然,通過變量選擇技術(shù),比如向前法等,模型也可能挑選出的交互項(xiàng)或非線性項(xiàng),但更靈活的PS估計(jì)方法卻很少得到關(guān)注。
本文闡述廣義Boosted模型(Generalized Boosted Models,GBM))是一種現(xiàn)代多元非參數(shù)回歸技術(shù),可用于對(duì)PS的估計(jì)。根據(jù)數(shù)據(jù)變量的類型,GBM利用自適應(yīng)算法自動(dòng)的去估計(jì)大量混雜變量與處理變量之間的非線性關(guān)系,特別是它們之間線性、非線性或交互關(guān)系等函數(shù)形式無法確定時(shí),此方法很有優(yōu)勢[18]。目前,估計(jì)PS的很多統(tǒng)計(jì)方法缺乏靈活性,且需要進(jìn)行混雜變量選擇。而變量選擇風(fēng)險(xiǎn)會(huì)使得因果效應(yīng)估計(jì)有偏,比如,變量選擇過程中遺漏對(duì)處理分配很重要的混雜變量,或者錯(cuò)誤指定了線性、非線性或交互關(guān)系。本研究利用GBM傾向評(píng)分加權(quán)法對(duì)來自6省市37家醫(yī)院集中監(jiān)測數(shù)據(jù)進(jìn)行分析。以使用丹紅注射液是否聯(lián)合其它藥物為處理因素,實(shí)驗(yàn)室檢查指標(biāo)谷丙轉(zhuǎn)氨酶(ALT)用藥前后是否異常變化作為結(jié)局,用實(shí)例闡述GBM傾向評(píng)分加權(quán)法的優(yōu)勢及應(yīng)用過程,以期指導(dǎo)相關(guān)醫(yī)學(xué)人員進(jìn)行他們自己的因果推斷研究。
本研究數(shù)據(jù)來自6省市37家醫(yī)院參與研究的醫(yī)院集中監(jiān)測平臺(tái),監(jiān)測對(duì)象是從2009年4月至2013年8月所有使用丹紅注射液的住院患者,共計(jì)納入有效病例數(shù)30888例。數(shù)據(jù)包括患者基本信息、病癥情況、給藥情況、綜合情況、實(shí)驗(yàn)室檢查指標(biāo)這五大類信息,共收集1834個(gè)變量。其中,患者基本信息包含年齡、性別、體重指數(shù)、懷疑過敏物、醫(yī)院、住院科室等78個(gè)變量,病癥情況包含適應(yīng)病癥、是否中醫(yī)辨證等671個(gè)變量,給藥情況包含是否首次使用丹紅注射液、用藥次數(shù)、合并用藥名稱等970個(gè)變量,綜合情況包含病情變化情況、癥狀改善情況等115個(gè)變量,實(shí)驗(yàn)室檢查指標(biāo)包含血常規(guī)、尿常規(guī)、谷丙轉(zhuǎn)氨酶(ALT)、谷草轉(zhuǎn)氨酶(AST)等96個(gè)變量。我們提取有ALT檢查的患者共5619例,用藥前后都有ALT檢查的患者共625例。
表1 ALT異常值情況
本研究需要說明兩類人群:(1)在所有使用丹紅注射液且合并用5種及以下藥物(簡稱“丹紅合并5種以下”)的患者中,記錄其用藥前后的ALT值變化情況;(2)在所有使用丹紅注射液且合并用5種以上藥物(簡稱“丹紅合并5種以上”)的患者中,記錄其用藥前后的ALT值變化情況。我們定義處理變量為“丹紅合并5種”,丹紅合并5種以上取值1,丹紅合并5種以下取值0;安全結(jié)局為用藥前后ALT值是否有異常變化,異常變化取值1,正常變化取值0。理化指標(biāo)依各家醫(yī)院不同范圍分別考慮異常值情況。具體分布如下表1。
通過對(duì)混雜因素在兩個(gè)處理組之間的組間比較、特征選擇及臨床經(jīng)驗(yàn)判斷,考慮與處理選擇和結(jié)局都可能相關(guān)的混雜因素包括:年齡、性別、體重指數(shù)、個(gè)人藥物食物等過敏史、家族藥物過敏史、過敏性疾病史、醫(yī)院、住院科室、是否辨證、是否首次用丹紅、用藥次數(shù)、最后一次給藥間隔、最后一次靜滴速度、單次給藥量、溶媒種類、病情情況、癥狀情況、證候判定、體征情況等共87種,它們是與處理變量和ALT異常變化可能有關(guān)的所有混雜因素。這些混雜中的多分類變量都經(jīng)過啞變量編碼。
本文利用GBM傾向評(píng)分加權(quán)法對(duì)醫(yī)院集中監(jiān)測數(shù)據(jù)進(jìn)行分析及因果推斷的主要過程分為:定義因果效應(yīng)、GBM估計(jì)傾向評(píng)分、傾向評(píng)分樣本加權(quán)、評(píng)估混雜因素平衡準(zhǔn)則、PS加權(quán)估計(jì)平均因果效應(yīng)、敏感性分析。
本文在觀察性研究或非隨機(jī)化試驗(yàn)中,定義了一個(gè)在接受處理和未接受處理(即對(duì)照)之間的因果效應(yīng),它主要利用了虛擬事實(shí)(counterfactuals)的概念[11,13]。假定研究總體中每個(gè)個(gè)體都有兩個(gè)可能的結(jié)局值:y1是個(gè)體被分配或接受處理?xiàng)l件時(shí)的結(jié)局值,y0是個(gè)體被分配或接受對(duì)照條件時(shí)的結(jié)局值。這兩個(gè)值對(duì)每個(gè)個(gè)體僅有一個(gè)值被觀察到,而另一個(gè)值是不可能被觀察到的。我們稱未觀察到的那個(gè)值為虛擬結(jié)局值。令z為處理變量,如果個(gè)體接受處理,則z=1,否則z=0,從而被觀察的結(jié)局值y=zy1+(1-z)y0??傮w人群的平均因果效應(yīng)(Average Treatment Effect,ATE)定義為 E(y1)-E(y0),記為 ATE[19],即
比如,在所有使用丹紅注射液的患者中,合并用其它藥物的處理相對(duì)于未合并用其它藥物的對(duì)照對(duì)結(jié)局變量影響的平均因果效應(yīng),即理想上所有使用丹紅注射液的患者,如果他們都合并用其它藥物與他們?nèi)绻嘉春喜⒂闷渌幬锵啾容^,我們期望觀察到兩組患者在ALT指標(biāo)異常變化的差異。
然而,通常我們只對(duì)對(duì)象接受某種處理的事實(shí)與他們未接受此處理的虛擬進(jìn)行比較的因果效應(yīng)感興趣,即處理組平均因果效應(yīng)(Average Treatment effect among the Treated,ATT),記為 ATT[19]。定義 E(y1|z=1)為處理組個(gè)體接受處理?xiàng)l件后的平均結(jié)局值,E(y0|z=1)為處理組個(gè)體接受對(duì)照條件后的平均結(jié)局值。那么,處理組平均因果效應(yīng)
比如,在所有使用丹紅注射液且合并用其它藥物的患者中,處理的事實(shí)與虛擬之間的平均因果效應(yīng),即理想上所有使用丹紅注射液且合并用其它藥物的患者與他們?nèi)绻嘉春喜⒂闷渌幬锵啾容^,我們期望觀察到兩組患者在ALT指標(biāo)異常變化的差異。
根據(jù)不同因果效應(yīng)的定義,大多數(shù)醫(yī)學(xué)研究中要求研究人員都需要確定一個(gè)確切的因果問題,通常他們會(huì)對(duì)ATT的估計(jì)更感興趣,因?yàn)樗烁嗟谋┞队谀撤N風(fēng)險(xiǎn)的個(gè)體信息。本研究的數(shù)據(jù)分析主要是估計(jì)ATT。
對(duì)每個(gè)接受處理的個(gè)體而言,E(y0|z=1)中的結(jié)局值y0是無法觀測到的,可利用對(duì)照組數(shù)據(jù)進(jìn)行估計(jì)。然而,當(dāng)多個(gè)混雜變量在處理組和對(duì)照組之間存在差異時(shí),此估計(jì)值是有偏的,從而ATT的估計(jì)也會(huì)有偏。利用PS平衡組間差異、調(diào)節(jié)估計(jì)偏倚成為必要的分析手段[11]。在給定一組觀察到的混雜變量條件下,PS是指總體中個(gè)體接受處理而不是對(duì)照條件的概率,記為e(X)=P(z=1|X)。假定X表示一組可觀測到的基線混雜變量的向量,則傾向評(píng)分e(X)是關(guān)于向量X的函數(shù)。給定e(X)的條件下所有觀察到的混雜變量分布在處理組與對(duì)照組之間幾乎匹配或相同,即處理分配變量接近隨機(jī)分配設(shè)計(jì)(random assignment designs)的效果[11]。換句話說,給定e(X)的條件下,對(duì)照組中可觀測到的y0分布等于處理組中無法觀測到的y0分布,從而,可以利用對(duì)照組觀測到的y0的數(shù)據(jù)來估計(jì)E(y0|z=1,e(x)),且估計(jì)得到的ATT為處理組平均因果效應(yīng)的無偏估計(jì)[11]。在此之前,關(guān)鍵是要正確或精準(zhǔn)的估計(jì)傾向評(píng)分e(X),那么在具體實(shí)現(xiàn)GBM估計(jì)e(X)的過程中,必須明確兩個(gè)重要問題:
(1)估計(jì)e(X)的模型選擇及函數(shù)形式的確定
目前,估計(jì)PS的方法大多數(shù)是利用參數(shù)線性Logistic或Probit回歸建立基線混雜因素對(duì)處理變量的函數(shù)關(guān)系而得出的,但此函數(shù)關(guān)系必須正確。那么,模型建立過程中就會(huì)涉及變量主效應(yīng)、變量間交互項(xiàng)或變量多項(xiàng)式項(xiàng)的選擇[14,15,16,17],即都是從變量選擇開始。比如,可利用變量主效應(yīng)擬合一個(gè)回歸模型,然后估計(jì)傾向評(píng)分對(duì)數(shù)據(jù)進(jìn)行分層,在每層中對(duì)處理組和對(duì)照組的混雜變量的均值和標(biāo)準(zhǔn)差進(jìn)行組間顯著性檢驗(yàn)(這里可以考慮不同的顯著性水平p<0.05或p<0.1或 p<0.2)。若某些混雜變量組間差異統(tǒng)計(jì)顯著,則模型再考慮它們的交互項(xiàng)或更高階的多項(xiàng)式項(xiàng)。此過程一直繼續(xù)到?jīng)]有顯著差異出現(xiàn)為止。但隨著大量混雜變量的增加,這些傳統(tǒng)的回歸方法和變量選擇策略可能就不實(shí)用了,比如很可能會(huì)遺漏重要的混雜變量或者錯(cuò)誤指定函數(shù)關(guān)系。而GBM算法是基于廣義增強(qiáng)回歸的一個(gè)現(xiàn)代的非參數(shù)Boosting方法,它能提供一個(gè)靈活的、強(qiáng)大的且自動(dòng)的數(shù)據(jù)自適應(yīng)算法,可用于估計(jì)處理變量和大量混雜變量之間的非線性關(guān)系以及大量混雜變量多階交互項(xiàng)的關(guān)系,即使是這些混雜變量中大多數(shù)是彼此相關(guān)的或它們與處理變量不相關(guān)的情況。另外,從預(yù)測誤差方面來看,Boosting方法優(yōu)于其它的方法[20,21]。許多Boosting算法的變種已經(jīng)出現(xiàn)在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)計(jì)算文獻(xiàn)中,比如AdaBoost算法[22],Gradient Boosting machine 算法[20],GBMs算法[23]以及LogitBoost算法[24]等。特別是當(dāng)模型中存在大量混雜變量,且它們與處理選擇之間線性、非線性或交互效應(yīng)等函數(shù)形式無法確定以及在沒有太大降低估計(jì)精度的情況下,此方法用于構(gòu)建大量混雜變量的傾向評(píng)分模型的優(yōu)勢更明顯[25]。
(2)估計(jì)PS模型中的混雜變量選擇。
一般來說,GBM估計(jì)e(X)的模型中應(yīng)盡可能地選擇所有即與處理變量相關(guān)又與結(jié)局相關(guān)的基線混雜變量,也可以考慮其它策略,比如只包括和處理變量有關(guān)的基線混雜變量等[9,26])。通常,需要納入分析的混雜變量個(gè)數(shù)以及估計(jì)傾向評(píng)分的模型都是未知的,所以傾向評(píng)分的估計(jì)需要進(jìn)行混雜變量選擇和函數(shù)形式的確定。一般的變量選擇都是根據(jù)統(tǒng)計(jì)顯著性或降低預(yù)測誤差的準(zhǔn)則在模型中進(jìn)行變量選擇或變量函數(shù)形式的確定。但傾向評(píng)分模型中混雜變量選擇的一個(gè)關(guān)鍵準(zhǔn)則是基于傾向評(píng)分的條件下,如何使處理組與對(duì)照組的混雜變量分布幾乎匹配或相似。
本文研究主要利用GBM估計(jì)傾向評(píng)分,然后再給對(duì)照組的個(gè)體進(jìn)行逆概率加權(quán),使得對(duì)照組個(gè)體特征變量的分布與處理組個(gè)體特征變量的分布平衡[14,18,19,,27]。令 f(X|z=1)表示處理組個(gè)體的混雜變量分布,f(X|z=0)表示對(duì)照組個(gè)體的混雜變量分布。如果處理是被隨機(jī)分配的,則希望這兩個(gè)分布是一樣的。而實(shí)際上,它們是不同的,所以需要構(gòu)造一個(gè)權(quán)重w(X),使得
其中w(X)=e(X)/[1-e(X)]。很顯然,如果對(duì)照組個(gè)體i具有與處理組個(gè)體相似的混雜變量,則被分配到處理組的概率更大,即個(gè)體i將有更大的e(X),從而就有更大的權(quán)重w(X),反之亦然。例如,如果處理組和對(duì)照組中65歲女性的比例分布分別為10%和5%,那么自然希望附權(quán)重2(=0.1/0.05)到對(duì)照組中每個(gè)65歲女性個(gè)體上,使得他們和處理組具有相同特征個(gè)體一樣的比例分布。GBM傾向評(píng)分加權(quán)法就是基于廣義增強(qiáng)回歸(Generalized boosted regression)模型來估計(jì)傾向評(píng)分并進(jìn)行逆概率加權(quán)的方法。
使用傾向評(píng)分進(jìn)行調(diào)整以后的數(shù)據(jù)在混雜因素上的組間平衡需要得到評(píng)估,GBM算法是以處理組和對(duì)照組之間混雜變量特征達(dá)到平衡為準(zhǔn)則,它不對(duì)兩組混雜變量的均值和標(biāo)準(zhǔn)差(means and standard deviations)進(jìn)行組間顯著性檢驗(yàn),而是利用常用的測量平衡或匹配的最佳工具:平均標(biāo)準(zhǔn)絕對(duì)均值差(Average Standardized Absolute Mean difference,ASAM)和 K-S統(tǒng) 計(jì) 量(Kolmogorov-Smirnov test statistic)[10]。比如,當(dāng)ASAM小于0.2時(shí)或K-S統(tǒng)計(jì)量達(dá)到最小時(shí),就認(rèn)為混雜因素在組間達(dá)到平衡。由于計(jì)算ASAM的過程要用到每個(gè)混雜變量在處理組的標(biāo)準(zhǔn)差,而當(dāng)數(shù)據(jù)存在缺失或標(biāo)準(zhǔn)差為0的情況時(shí),ASAM無法計(jì)算,所以本研究采用K-S統(tǒng)計(jì)量作為測量兩組混雜變量平衡的工具。K-S統(tǒng)計(jì)量在GBM算法過程是逐漸減小的,當(dāng)達(dá)到某個(gè)最小值開始,隨后K-S統(tǒng)計(jì)量會(huì)逐漸增大。這里不能確保算法對(duì)K-S統(tǒng)計(jì)量會(huì)有全局的最小值,若K-S統(tǒng)計(jì)量無法達(dá)到最小,則調(diào)整參數(shù)或考慮其他的估計(jì)方法是必要的。
當(dāng)我們估計(jì)平均因果效應(yīng)的時(shí)候,傾向評(píng)分可以被用來對(duì)觀察值進(jìn)行加權(quán)處理[13]。為了估計(jì)ATT,關(guān)鍵就是估計(jì)E(y0|z=1),在此先給對(duì)照組樣本中的每個(gè)個(gè)體i(i=1,2,…,N)加權(quán)wi=e(Xi)/[1-e(Xi)],它表示具有特征向量X的個(gè)體i可能被隨機(jī)選擇分配到處理組的優(yōu)勢比。如果個(gè)體i是在處理組,則它被觀測到的結(jié)局值為yi=y1i;如果個(gè)體i處在對(duì)照組,則它被觀測到的結(jié)局值為yi=y0i。如果我們假設(shè)給定X的條件下處理變量z與結(jié)局值yi是獨(dú)立的,即
那么,我們可以給出E(y0|z=1)的估計(jì)為:
這里i∈C表示對(duì)照組中第i個(gè)觀測個(gè)體。等式(3)可以用來估計(jì)處理組個(gè)體接受對(duì)照條件后的平均結(jié)局值[7]。令NT和i∈T分別表示處理組中樣本量及第i個(gè)觀測個(gè)體,則
可以用來估計(jì)處理組個(gè)體接受處理?xiàng)l件后的平均結(jié)局值[7]。從而,處理組平均因果效應(yīng) ATT的估計(jì)為在大樣本且給定幾個(gè)假設(shè)條件的情況下,加權(quán)的因果效應(yīng)估計(jì)幾乎是無偏的。其中,最重要的假設(shè)就是觀測到的混雜變量可以解釋處理組與對(duì)照組之間所有事先存在的差異,而這些差異會(huì)影響分析的結(jié)局。此外,還要求個(gè)體的結(jié)局不受其他個(gè)體的處理變量以及其它與處理無關(guān)的因素的影響。本研究建立結(jié)局變量的對(duì)數(shù)似然比相對(duì)于處理變量的Logistic回歸模型,則處理變量的回歸系數(shù)值可作為處理組平均因果效應(yīng)的估計(jì)值。
通常,我們只對(duì)觀察到的變量構(gòu)建估計(jì)傾向評(píng)分的模型,模型中不包含未觀察到的混雜因素即潛在偏倚,我們需要對(duì)是否可能存在潛在的混雜進(jìn)行識(shí)別,即所謂的敏感性分析。潛在偏倚的存在會(huì)導(dǎo)致混雜變量觀察值相同的個(gè)體其接受處理的概率不同,即處理分配依賴于未觀察到的混雜變量。例如,混雜變量觀察值相同的研究個(gè)體,當(dāng)存在一些未觀察到的潛在混雜變量,即這些潛在變量分布存在差異,則研究個(gè)體被分配到處理組的概率也不同。從而,對(duì)權(quán)重和平均因果效應(yīng)的估計(jì)會(huì)產(chǎn)生誤差。由于無法從數(shù)據(jù)中估計(jì)出潛在偏倚,故只能通過檢驗(yàn)或評(píng)估研究結(jié)果對(duì)潛在偏倚的敏感程度來識(shí)別是否還存在其它的潛在變量,即對(duì)潛在混雜識(shí)別的敏感性分析[9,18]。
若研究中確實(shí)存在潛在偏倚,研究個(gè)體被分配到處理組的真實(shí)優(yōu)勢比(即真實(shí)權(quán)重)就不是wi=w(Xi),而是wi=w(Xi,Hi),這里H表示無法觀測到的潛在混雜。為了檢驗(yàn)ATT對(duì)潛在混雜的敏感性,我們需要識(shí)別隨著傾向評(píng)分權(quán)重wi的變化,變化的敏感性。通常的做法是從傾向評(píng)分模型中移除一個(gè)觀測混雜變量,把它當(dāng)成H,對(duì)傾向評(píng)分重新估計(jì),得到的新的權(quán)重為w(Xi),而原始的權(quán)重為w(Xi,H)。通過從傾向評(píng)分模型中依次移除一個(gè)混雜變量,我們可以檢驗(yàn)ATT對(duì)潛在偏倚是否敏感[18]。
本文利用GBM估計(jì)傾向評(píng)分,通過使K-S統(tǒng)計(jì)量達(dá)到最小,不斷加權(quán)調(diào)整模型,很好的平衡了丹紅合并5種以下和加權(quán)的丹紅合并5種以上的混雜因素。理論上,很大的迭代次數(shù)能使K-S統(tǒng)計(jì)量達(dá)到最小,但迭代次數(shù)越多,模型估計(jì)的時(shí)間越長。實(shí)際應(yīng)用中選擇較大的迭代次數(shù),若K-S統(tǒng)計(jì)量無法達(dá)到最小,再加大迭代次數(shù),或考慮其他的估計(jì)方法。本研究設(shè)定迭代次數(shù)為20000。另外,取一個(gè)折中的4階交互項(xiàng)可確保模型形式的正確識(shí)別和模型的精確估計(jì),即在估計(jì)傾向評(píng)分的模型中自動(dòng)考慮混雜變量之間的四階交互項(xiàng)。一般來說,若要考慮5階或更高階的交互項(xiàng),則要求研究樣本足夠的大。此外,模型中設(shè)定一個(gè)足夠小的收縮系數(shù)用于排除模型中大多數(shù)不相關(guān)的混雜變量,產(chǎn)生一個(gè)僅體現(xiàn)最重要作用的混雜變量和交互項(xiàng)的稀疏模型[24,28]。本研究取一個(gè)非常小的數(shù)值0.0005。再有,利用leave-one-out刀切法(jackknife)來估計(jì)因果效應(yīng)的標(biāo)準(zhǔn)差。本研究的全部算法都可基于R統(tǒng)計(jì)軟件中的gbm、survey和Twang等包[29]編程實(shí)現(xiàn)。
根據(jù)上面討論的過程,K-S統(tǒng)計(jì)量達(dá)到最小值的迭代次數(shù)為5217次。根據(jù)觀察到的87個(gè)混雜變量對(duì)模型對(duì)數(shù)似然度整體改善的貢獻(xiàn),算法自動(dòng)測量并排序每個(gè)混雜變量對(duì)處理變量的重要程度。模型似然度的大約67%的增加是由于4個(gè)混雜變量導(dǎo)致的:醫(yī)院代碼(22.48%)、用藥次數(shù)分組(21.81%)、住院科室(16.14%)和單次給藥量(7.37%)。這四個(gè)混雜變量似乎都與處理變量丹紅合并用藥種類數(shù)有關(guān)。對(duì)每個(gè)變量的邊際分布,可利用偏依賴圖(Partial dependence plots)[20]來查看。邊際分布圖顯示:當(dāng)對(duì)其它86個(gè)混雜變量分布邊際積分以后,患者被分配到丹紅合并5種以上的對(duì)數(shù)優(yōu)勢比與每個(gè)混雜變量之間的關(guān)系為非線性的(參見圖1)。從圖1看出,比如,住在內(nèi)分泌科或腎臟病科或心血管內(nèi)科患者更有可能被分配到丹紅合并5種以上組,這種非線性體現(xiàn)了GBM方法的優(yōu)勢。如果能夠根據(jù)專業(yè)知識(shí)認(rèn)為其中一些混雜變量和處理變量沒有太大相關(guān)性,則可以考慮排除少量的混雜變量,最終接受包含更小混雜變量集的傾向評(píng)分模型。根據(jù)本數(shù)據(jù)分析的經(jīng)驗(yàn),我們從模型中刪除少量不重要的混雜變量之后,傾向評(píng)分模型估計(jì)的結(jié)果幾乎沒有變化。
圖2中左圖顯示了“丹紅合并5種以上”和“丹紅合并5種以下”的傾向評(píng)分的分布,大多數(shù)個(gè)體的權(quán)重集中在0~0.5之間,少數(shù)個(gè)體的權(quán)重超過1.5達(dá)到2。兩組的傾向評(píng)分重疊范圍很小。理想上,我們希望看到兩組的傾向評(píng)分之間有更大的重疊,因?yàn)樾〉闹丿B范圍會(huì)使因果效應(yīng)的估計(jì)有更大的方差,從而出現(xiàn)傾向評(píng)分加權(quán)后對(duì)照組與處理組的混雜變量分布不能很好匹配的危險(xiǎn)。然而,GBM模型中非線性關(guān)系暗示著在傾向評(píng)分之間的差異并不等于兩組混雜變量均值之間的差異。McCaffrey等和Ridgeway用實(shí)例說明即使兩組傾向評(píng)分的分布幾乎相同,也并不能給兩組混雜變量均值帶來更好的平衡,反之,用不同的迭代次數(shù),即使GBM估計(jì)的傾向評(píng)分和權(quán)重迥然不同,但也能在兩組混雜變量分布上產(chǎn)生很好的平衡[18,30]。
圖1 四個(gè)混雜變量偏依賴圖(Partial dependence plots)。Drug表示用藥次數(shù)分組,HOS表示醫(yī)院代碼,DEP表示住院科室
圖2 左圖為“丹紅合并5種以上(Treatment)”和“丹紅合并5種以下(Control)”患者的傾向評(píng)分分布箱線圖。右圖為權(quán)重在“丹紅合并5種以下”患者中的分布直方圖
混雜變量之間的均值差在利用PS給對(duì)照組個(gè)體進(jìn)行加權(quán)之前是可以直接被觀察到的。表2給出了“丹紅合并5種以上”和“丹紅合并5種以下”兩組部分基線混雜變量在傾向評(píng)分加權(quán)前后的分布特征及K-S統(tǒng)計(jì)量、檢驗(yàn)p值。
我們可以發(fā)現(xiàn):在“丹紅合并5種以上”患者人群中,醫(yī)院代碼為SLJ,住院科室為心血管內(nèi)科等變量的比例要明顯更高;年齡、住院天數(shù)的平均值稍微更低??v觀模型中所有87個(gè)混雜變量,未加權(quán)的K-S統(tǒng)計(jì)量有十幾個(gè)混雜變量的K-S統(tǒng)計(jì)量大于0.2。兩組混雜變量之間的差異在利用PS給對(duì)照組個(gè)體進(jìn)行加權(quán)之后被大大的減小了。K-S統(tǒng)計(jì)量平均值由0.12減小到0.06,減小了50%。實(shí)際上,模型中共有87個(gè)變量,我們只在表2中列出影響模型似然度變化比較大且兩組間差異明顯的前25種混雜變量的情況。
表2 兩組部分基線混雜變量在傾向評(píng)分加權(quán)前后的分布特征及K-S統(tǒng)計(jì)量、檢驗(yàn)p值
圖3是加權(quán)前后的p值與均勻分布值的比較圖,經(jīng)過傾向評(píng)分加權(quán)后,87個(gè)基線混雜變量在兩組之間的差異接近于隨機(jī)分配的結(jié)果,即患者被隨機(jī)分配到“丹紅合并5種以上”和“丹紅合并5種以下”組。兩組之間混雜變量的K-S分布無差異獨(dú)立性檢驗(yàn)值服從[0,1]均勻分布,值是對(duì)混雜變量的組間檢驗(yàn)值,連續(xù)變量則為t檢驗(yàn)值,分類變量則為卡方檢驗(yàn)值。許多混雜變量(紅色實(shí)圓)加權(quán)前在兩組間有顯著的差異,故拒絕原假設(shè),即許多值接近于0。大多數(shù)混雜變量(空心圓)加權(quán)后在兩組間的差異不顯著,故值都沿著[0,1]均勻變量的累積分布45度的直線分散開,即p值服從[0,1]均勻分布一樣。
構(gòu)建ALT指標(biāo)異常變化的對(duì)數(shù)似然比與處理變量“丹紅合并5種”之間的Logistic回歸模型,則模型中變量“丹紅合并5種”前的回歸系數(shù)值可作為處理組平均因果效應(yīng)的估計(jì)值。下面表3的頭兩行表示不同方法估計(jì)得到的及檢驗(yàn) p值。未加權(quán)l(xiāng)ogistic回歸分析表明“丹紅合并5種以上”導(dǎo)致ALT發(fā)生異常變化的對(duì)數(shù)優(yōu)勢比大于0(0.016),估計(jì)的因果效應(yīng)不具有統(tǒng)計(jì)顯著性(p值=0.498>0.05);但經(jīng)過GBM傾向評(píng)分加權(quán)后,logistic回歸分析表明“丹紅合并5種以上”導(dǎo)致ALT發(fā)生異常變化的對(duì)數(shù)優(yōu)勢比大于0(0.047),估計(jì)的因果效應(yīng)具有統(tǒng)計(jì)顯著性(p值=0.048<0.05)。
利用PS加權(quán)和少數(shù)未平衡的混雜變量加入模型中進(jìn)行調(diào)節(jié)相結(jié)合的方法來估計(jì)因果效應(yīng),可獲得雙穩(wěn)健(doubly robust)的因果效應(yīng)估計(jì)[9,31,32]。如果傾向評(píng)分估計(jì)正確或回歸模型指定正確,則它們的估計(jì)是一致的。例如,在對(duì)ALT指標(biāo)分析時(shí),注意到加權(quán)后,雖然使得住院科室混雜變量分布在兩組間更接近,但還是存在很明顯的分布差異,如住在心血管內(nèi)科患者中“丹紅合并5種以上”組占77.8%的患者,而“丹紅合并5種以下”組只占58.8%。所以,這時(shí)候把“住院科室”等混雜變量加入到傾向評(píng)分加權(quán)后的logistic回歸模型,可以適當(dāng)調(diào)節(jié)還存在的混雜偏倚,估計(jì)更穩(wěn)健的因果效應(yīng)。從表3的最后一列可以看到,混雜變量調(diào)節(jié)后的因果效應(yīng)又減小到0.036,且依然不具有統(tǒng)計(jì)顯著性(p值=0.091>0.05)。說明這里對(duì)ALT的分析結(jié)論需要謹(jǐn)慎對(duì)待。
一般來說,傾向評(píng)分模型以及回歸模型形式對(duì)估計(jì)因果效應(yīng)很敏感,但對(duì)很強(qiáng)的因果效應(yīng),其估計(jì)的結(jié)果應(yīng)該是一致的。本研究中Logistics回歸模型對(duì)ALT指標(biāo)的分析出現(xiàn)不一致的情況,表明“丹紅合并5種以上”對(duì)ALT異常變化的因果效應(yīng)并不是很強(qiáng)。
McCaffrey還用實(shí)例說明GBM模型對(duì)e(X)估計(jì)的預(yù)測誤差更小,即GBM提供更精確的傾向評(píng)分e(X)的估計(jì);同時(shí)也能很好的平衡兩組混雜變量均值;因果效應(yīng)的估計(jì)值更小且具有更小的標(biāo)準(zhǔn)誤差[18]。
圖3 加權(quán)前后兩組87個(gè)混雜變量差異檢驗(yàn)的p值與均勻分布值的比較圖
由于PS估計(jì)的模型中涉及觀察到的變量太多,在不影響分析結(jié)果示范解釋的情況下,表4只列出前幾行敏感性分析結(jié)果。第一列字母Var表示從估計(jì)傾向評(píng)分模型中移除的觀察到的混雜變量;第二列E0表示排除Var后由傾向評(píng)分模型估計(jì)的E(y0|z=1),即等式(15)的值;第三列range(ai)表示排除Var中對(duì)應(yīng)變量后得到的一組ai值的范圍(最小值和最大值);第四列obseved(ρ)表示第三列的ai值與結(jié)局yi計(jì)算的相關(guān)系數(shù)cor(ai,yi)=ρ;第五列range(ρ)表示從第三列ai值的經(jīng)驗(yàn)分布中找到的盡可能最大的和最小的ρ;第六列range(E0)表示使得ρ盡可能最大和最小的多組ai值,代入等式(15),估計(jì)得到E(y0|z=1)的最大值和最小值。第7列為 break even(ρ)。
表4的結(jié)果表明,有些混雜變量的range(E0)與E0比較,變化都不大,且它們對(duì)應(yīng)的break even(ρ)都很小,則說明ATE1對(duì)潛在偏倚不敏感,即表4暗示著本研究可能不存在未觀察到的潛在混雜。
表3 用未加權(quán)Logistic回歸、GBM傾向評(píng)分加權(quán)和雙穩(wěn)健法對(duì)因果效應(yīng)的估計(jì)
表4 丹紅合并5種的估計(jì)因果效應(yīng)的敏感性分析
對(duì)觀察性研究或非隨機(jī)化設(shè)計(jì)的資料或存在混雜因素的研究資料進(jìn)行因果推斷,目前比較成熟的統(tǒng)計(jì)方法就是傾向評(píng)分法??紤]到大量混雜因素的存在,GBM估計(jì)傾向評(píng)分的方法非常具有吸引力,它提供一種自適應(yīng)估計(jì)傾向評(píng)分算法,可分析包含多個(gè)混雜變量和多種類型變量(連續(xù)的、名義的或有序的)的數(shù)據(jù)。由于GBM是一種非參數(shù)的估計(jì)方法,則可以避免模型被錯(cuò)誤指定而導(dǎo)致因果效應(yīng)估計(jì)有偏,且當(dāng)處理變量和大量混雜變量之間的非線性關(guān)系,特別是當(dāng)模型中混雜變量與處理變量之間的函數(shù)形式無法確定時(shí),此方法的優(yōu)勢凸顯。
本文醫(yī)學(xué)實(shí)例數(shù)據(jù)中包含大量的臨床信息且它們和丹紅合并5種的關(guān)系存在非線性的情況(如圖1)。雖然丹紅合并5種以下和丹紅合并5種以上的多數(shù)基線混雜變量在加權(quán)前存在較大差異,但經(jīng)過加權(quán)平衡以后,PS估計(jì)模型中所有混雜變量組間均值差異幾乎達(dá)到平衡(如表2),若不消除這些混雜變量的組間差異,則會(huì)影響對(duì)因果效應(yīng)的估計(jì)。GBM提供更精確的傾向評(píng)分的估計(jì)對(duì)兩組混雜變量均值平衡的更好,且加權(quán)估計(jì)并沒有太大的提高因果效應(yīng)估計(jì)的標(biāo)準(zhǔn)誤。GBM提供更精確的傾向評(píng)分e(X)的估計(jì)對(duì)兩組混雜變量均值平衡的更好,且加權(quán)估計(jì)并沒有太大的提高因果效應(yīng)估計(jì)的標(biāo)準(zhǔn)誤??紤]到模型的復(fù)雜度,如果存在一些混雜變量對(duì)模型似然度的改善很小且它們?cè)趦山M的差異也幾乎很小,特別是如果能夠根據(jù)專業(yè)知識(shí)認(rèn)為其中一些混雜變量和處理變量沒有太大相關(guān)性,則可以考慮排除這些混雜變量,最終只接受包括更小混雜變量集的傾向評(píng)分模型。
雖然,GBM相比于其他模型有很多的優(yōu)勢,但研究人員在利用GBM傾向評(píng)分加權(quán)法的過程中必須適當(dāng)?shù)恼{(diào)整估計(jì)PS的模型和估計(jì)因果效應(yīng)的模型。(1)在估計(jì)PS的模型過程中,通過變量選擇的統(tǒng)計(jì)原則和臨床經(jīng)驗(yàn),納入分析的混雜變量;靈活確定估計(jì)傾向評(píng)分的模型函數(shù)形式確定,設(shè)置模型為4階的最高階交互項(xiàng);再有,足夠大的迭代次數(shù)(本研究為20000)和足夠小的收縮系數(shù)(本研究為0.0005)能夠提供更好的模型,但是卻大大增加了迭代計(jì)算的復(fù)雜度,且同時(shí)減小混雜變量對(duì)模型的邊際改善,可能導(dǎo)致算法不收斂。因此,給定一個(gè)合適的交互項(xiàng)階數(shù)以及一個(gè)足夠小的收縮系數(shù),GBM很自然的成為一個(gè)估計(jì)傾向評(píng)分的有效工具。(2)GBM傾向評(píng)分對(duì)數(shù)據(jù)加權(quán)后,并不能完全平衡數(shù)據(jù)中每個(gè)混雜變量在兩組間的差異。雖然存在的差異并不大,且混雜變量在兩組的分布基本接近,但最好利用傾向評(píng)分加權(quán)結(jié)合線性回歸調(diào)節(jié)的方法對(duì)估計(jì)因果效應(yīng)再進(jìn)行估計(jì),在加權(quán)后數(shù)據(jù)上構(gòu)建的Logistics回歸模型中加入適當(dāng)?shù)幕祀s變量,可獲得雙穩(wěn)健的因果效應(yīng)估計(jì)。當(dāng)研究的處理對(duì)結(jié)局存在很強(qiáng)的因果效應(yīng)時(shí),則模型中對(duì)因果推斷的結(jié)果保持一致。本研究中對(duì)ALT的分析結(jié)果出現(xiàn)不一致的情況,說明本研究中“丹紅合并5種以上”對(duì)ALT異常變化的因果效應(yīng)并不是很強(qiáng)。
本研究利用GBM傾向評(píng)分加權(quán)法,對(duì)一組觀察性醫(yī)學(xué)數(shù)據(jù)按照以下過程:定義因果效應(yīng)、估計(jì)傾向評(píng)分、傾向評(píng)分樣本加權(quán)、評(píng)估混雜因素平衡準(zhǔn)則、PS加權(quán)的Logistics回歸估計(jì)平均因果效應(yīng)、對(duì)潛在混雜識(shí)別的敏感性分析,進(jìn)行了分析,以期指導(dǎo)相關(guān)醫(yī)學(xué)人員根據(jù)各自的研究項(xiàng)目進(jìn)行相關(guān)的因果推斷研究。
1 Mccall,R B,Green B.Social Policy Report,XVIII.2004.Beyond the methodological gold standards of behavioral research:Considerationsfor practiceand policy.
2 West SG..Alternatives to randomized experiments.Current Directions in Psychological Science,2009,18(5):299-304.
3 楊偉,易丹輝,謝雁鳴,等.基于GBM傾向評(píng)分法對(duì)疏血通注射液導(dǎo)致谷丙轉(zhuǎn)氨酶異常變化的影響分析.中國中藥雜志,2013,(18):3039-3047.
4 Mercer S L,Devinney B J,Fine L J,et al.Study designs for effectiveness and translation research:Identifying trade-offs.American Journal of Preventative Medicine,2007,33(2):139-154.
5 Sanson-Fisher R W,Bonevski B,Green L W,et al.Limitations of the randomized controlled trial in evaluating population-based health interventions.American Journal of Preventative Medicine,2007,33(2):155-161.
6 Stuart E A,Perry D F,Le H N,Ialongo NS.Estimating intervention effects of prevention programs:Accounting for noncompliance.Prevention Science,2008,9:288-298.
7 Shadish W R.,Cook T D.,Campbell D T.(2002).Experimental and quasi-experimental designs for generalized causal inference.Boston:Houghton-Mifflin.
8 Harder V S.,Stuart E A,Anthony J.Propensity Score Techniques and the Assessment of Measured Covariate Balance to Test Causal Associations in Psychological Research.Psychological Methods,2010,15(3):234-249.
9 Rosenbaum,P.(2002).Observational studies(2nd).New York:Springer-Verlag.
10 Stuart EA.Matching Methods for Causal Inference:A review and a look forward.Statistical Science,2010,25(1):1-21.
11 Rosenbaum PR.,Rubin D B.The central role of the propensity score in observational studiesfor causal effects.Biometrika,1983,70(1):41-55.
12 Rosenbaum P R.,Rubin D B.Reducing bias in observational studies using sub-classification on the propensity score.J Am Stat Assoc,1984,79:516-524.
13 Hirano K.,Imbens G.,Ridder G..Efficient estimation of average treatment effects using the estimated propensity score.Econometrica,2003,71:1161-1189.
14 Hirano K.,Imbens G.Estimation of causal effects using propensity score weighting:An application to data on right heart catheterization.Health Servicesand Outcomes Research Methodology,2001,2:259-278.
15 Mojtabai R.,Graff Zivin J.Effectiveness and cost-effectiveness of four treatment modalities for substance disorders:A propensity score analysis.Health Serv Res,2003,38:233-259.
16 Harder V.S.,Stuart E.A.,Anthony J.Adolescent can nabisproblemsand young adult depression:Male-female stratified propensity score analyses.Am JEpidemiol,2008,168:592-601.
17 Slade E P,Stuart E A,Salkever D S,et al.Impacts of age of onset of substance used is orders on risk of adult incarceration among disadvantage Durban youth:A propensity score matching approach.Drug Alcohol Depen,2008,95:1-13.
18 McCaffrey D F,Ridgeway G,Morral A R.Propensity Score Estimation With Boosted Regression for Evaluating Causal Effects in Observational Studies.Psychological Methods,2004,9(4):403-425.
19 Wooldridge J.(2001).Econometric analysis of cross section and panel data.Cambridge:MITPress.
20 Friedman J H.Greedy function approximation:A gradient Boosting machine.Ann Stat,2001,29:1189-1232.
21 Madigan D,Ridgeway G.Discussion of Least angle regression by Efron.Ann Stat,2004,32:465-469.
22 Freund Y,Schapire R.A decision-theoretic generalization of on-line learning and an application to boosting.J Comput Sys Sc Int,1997,55:119-139.
23 Ridgeway G.The state of boosting.Computing Science and Statistics,1999,31:172-181.
24 Friedman J H,Hastie T,Tibshirani R.Additive logistic regression:A statistical view of Boosting.Ann of Stat,2000,28:337-374.
25 Buhlmann P,Yu B.Boosting with the L2 loss:Regression and classification.JAm Stat Assoc,2003,98:324-339.
26 West SG.,Biesanz JC,Pitts SC.Causal inference and generalization in field settings experimental and quasi-experimental designs.In H.T.Reis&C.M.Judd(Eds.),Handbook of research methods in social and personality psychology,2000:40-88.New York:Cambridge University Press.
27 Rosenbaum P R,Rubin D B.Constructing a control group using multivariate matched sampling methods that incorporate the propensity score.Am Stat,1985,39:33-38.
28 Tibshirani R.Regression shrinkage and selection via the lasso.J Roy Stat Soc,Series B,1996,58(1):267-288.
29 Ridgeway G.,Mccaffrey D,Morral A.(2010).Toolkit for Weighting and Analysis of Nonequivalent Groups:A tutorial for the twang package.Packagemanual.
30 Ridgeway G.Assessing the effect of race bias in post-traffic stop outcomes using propensity scores.Journal of Quantitative Criminology,2006,22(1):1-29.
31 Huppler-Hullsiek K.,Louis T.A.Propensity score modeling strategies for thecausal analysisof observational data.Biostatistics,2002,2:1-15.32 Bang H.,Robins J.Doubly robust estimation in missing data and causal inferencemodels.Biometrics,2005,61:692-972.
GBM Propensity Score Weighting for Causal Inference Research
Yang Wei1,2,Tang Jinfa3,Yi Danhui4,Li Xuelin3,Li Weixia3,Zhou Xiaohua5
(1.Instituteof Basic Research in Clinical Medicine China Academy of Chinese Medical Sciences,Beijing 100700,China;2.Collegeof Science,Minzu University of China,Beijing 100081,China;3.The First Affiliated Hospital of Henan University of TCM,Zhengzhou 450000,China;4.Center for Applied Statisticsof Renmin University of China,Beijing 100872,China;
5.Beijing International Center for Mathematical Research,Peking University,Beijing 100871,China)
ObjectiveIn observational studies or non-randomized design,the researchers'ability to make causal inferences from data was hampered by confounding factors.This study used this method to analyze a group of observational medical data in order to instruct relevant medical personnel to carry out their own causal inference studies.MethodsAt present,the four main types of propensity scoring methods:matching,stratification,inverse probability weighting and covariate adjustment have been widely used in the study of causal inference.Propensity score method can theoretically eliminate the bias of the observable confounding factors,so that the treatments variables are close to the result of random assignment design,thus,it is estimated that the treatment factor has a causal effect on the outcome.ResultsConsidering the advantages of the inverse probability weighting method over other methods,this paper summarizes the applicable conditions for the estimate of causal effect,particularly illustrates the use of a modern nonparametric statistical technology--Generalized Boosted Models(GBM)and its advantages and disadvantages.ConclusionWhen there is a lot of different types of confounding factors,and uncertain functional forms for their associations with treatment selection in linear,non-linear or interaction effect,and other issues,GBM propensity score weightingmethod can overcomethe obstaclesin theprocessof accurately estimatingpropensity score.
GBM,Propensity Score Weighting,Causal Inference,Observational Studies,Non-randomized Design
10.11842/wst.2017.09.009
R33
A
2017-08-11
修回日期:2017-09-12
* 國家自然科學(xué)基金委青年科學(xué)基金項(xiàng)目(81502898):大型觀察性醫(yī)學(xué)數(shù)據(jù)的因果圖模型研究,負(fù)責(zé)人:楊偉;重大新藥創(chuàng)制專項(xiàng)子課題(2015ZX09501004-001-007):臨床需長期使用的中藥口服制劑安全性監(jiān)測研窮,負(fù)責(zé)人:李學(xué)林。
** 通訊作者:易丹輝,教授,博士生導(dǎo)師,主要研究方向:風(fēng)險(xiǎn)管理與保險(xiǎn)、預(yù)測與決策;李學(xué)林,主任藥師,博士生導(dǎo)師,主要研究方向:中藥上市后再評(píng)價(jià)和中藥的應(yīng)用形式研究
*** 混雜因素也稱為混雜變量,這兩種說法本文會(huì)交替使用。
(責(zé)任編輯:張娜娜,責(zé)任譯審:王 晶)