張 亮 李嬋娟△ 夏結(jié)來(lái)△ 王永吉 王 陵 蔣志偉
在臨床試驗(yàn)、流行病學(xué)病因研究以及大部分觀察性試驗(yàn)研究和設(shè)計(jì)中,傾向得分方法已經(jīng)被廣泛的應(yīng)用到這些非隨機(jī)對(duì)照試驗(yàn)中來(lái)降低由于混雜因素導(dǎo)致的選擇性偏倚,從而保證組間基線數(shù)據(jù)的均衡可比〔1-3〕。傾向得分是在給定可觀察的基線協(xié)變量條件下,研究對(duì)象分配到處理組或者對(duì)照組的條件概率,如果處理分配是強(qiáng)可忽略(strongly ignorable)的,那么根據(jù)傾向得分可獲得平均處理效應(yīng)的非偏估計(jì)〔4〕。傾向得分方法包括:匹配(matching)、分層(stratification)、回歸校正(regression adjustment)、加權(quán)(weighting)等。其中匹配法在觀察性數(shù)據(jù)研究中應(yīng)用最為廣泛。本文通過(guò)Monte Carlo模擬產(chǎn)生數(shù)據(jù)集,利用傾向得分的95%置信區(qū)間進(jìn)行匹配,并與logistic回歸分析和傾向得分卡鉗匹配比較,探索研究?jī)A向得分區(qū)間匹配法在均衡組間協(xié)變量降低選擇性偏倚從而正確估計(jì)處理效應(yīng)的能力。
早在1976年,Miettinen就提出用多元混雜因子把多個(gè)協(xié)變量綜合成為一個(gè)單一變量〔5〕。1983年,Rosenbaum和Rubin提出了在隊(duì)列研究中,基線期估計(jì)傾向得分(propensity scores,PS)控制選擇性偏倚〔4〕。在流行病學(xué)研究中,估計(jì)藥物處理效應(yīng)和試驗(yàn)處理的結(jié)果時(shí)用這種方法控制因混雜因素導(dǎo)致的選擇性偏倚越來(lái)越流行。根據(jù)研究對(duì)象的所有觀察特征,通常采用一個(gè)多變量logistic回歸模型來(lái)估計(jì)傾向得分。傾向得分的范圍在0到1之間,它表示研究個(gè)體分配到處理組或?qū)φ战M的概率。具有相同傾向得分的研究對(duì)象有著相同的機(jī)會(huì)接受處理,任何具有相同傾向得分的兩個(gè)研究對(duì)象,對(duì)于具體的協(xié)變量可能值不相同,但是對(duì)于進(jìn)入模型的全部協(xié)變量將在組間趨于均衡〔6〕。假定在所有協(xié)變量都被觀察到的情況下,采用PS法,就好像進(jìn)行了隨機(jī)分配一樣,所以有的研究者稱之為“事后隨機(jī)化”。
傾向得分的定義:在觀察到的協(xié)變量(xi)條件下,研究對(duì)象i(i=1,…,N)被分配到特定處理組(Zi=1)而非對(duì)照組(Zi=0)的條件概率,可以表達(dá)為:
假定在給定的一組特征變量Xi下,分組變量是獨(dú)立的,則:
傾向得分是組間均衡性的一個(gè)函數(shù),反應(yīng)觀察到的所有協(xié)變量體現(xiàn)個(gè)體特征的作用,從而可以有效控制混雜因素使得組間各個(gè)協(xié)變量均衡一致。
傾向得分估計(jì)的方法有很多種,目的是把影響處理因素的眾多協(xié)變量用一個(gè)單值的傾向得分來(lái)表示,然后再進(jìn)行分析。傾向得分的估計(jì)方法有:①?gòu)V義線性模型(包括logistic回歸模型、Probit模型、廣義加法模型等);②判別分析;③Cox風(fēng)險(xiǎn)模型;④分類樹(shù)技術(shù);⑤神經(jīng)網(wǎng)絡(luò)技術(shù);⑥貝葉斯估計(jì)等。其中l(wèi)ogistic回歸模型是最常用也是最簡(jiǎn)便易行的方法。
logistic回歸屬于概率型非線性回歸,其模型的參數(shù)具有鮮明的實(shí)際意義,現(xiàn)已成為處理二分類反應(yīng)數(shù)據(jù)的常用方法〔7〕。
傾向得分匹配是在所有進(jìn)入對(duì)照組的個(gè)體中選擇與進(jìn)入處理組個(gè)體傾向得分相同或相近的個(gè)體與之配對(duì),從而達(dá)到均衡組間協(xié)變量的目的。在所有協(xié)變量都可以被觀察到的情況下,通過(guò)傾向得分匹配可以得到處理效應(yīng)的無(wú)偏估計(jì)〔8〕。
卡鉗匹配(caliper matching)的定義是處理組與對(duì)照組個(gè)體傾向得分差值在事先設(shè)定的某個(gè)范圍內(nèi)才能進(jìn)行匹配。卡鉗的設(shè)定是非常重要的,Austin多次通過(guò)Monte Carlo模擬比較了研究者實(shí)際應(yīng)用中經(jīng)常選用的卡鉗值,研究結(jié)果證明最合適的卡鉗值是傾向得分經(jīng)logit變換后標(biāo)準(zhǔn)差的20%或者將其絕對(duì)值設(shè)為0.02、0.03〔9〕。
區(qū)間匹配(interval matching)利用的是每個(gè)個(gè)體的傾向得分95%置信區(qū)間進(jìn)行匹配,方法是從處理組第一個(gè)個(gè)體開(kāi)始,在對(duì)照組中找到置信區(qū)間與之重合最多并且重合需大于處理組個(gè)體置信區(qū)間的特定百分比,滿足這個(gè)條件的個(gè)體作為匹配對(duì)象,然后對(duì)照組中匹配了的個(gè)體不參與處理組其他個(gè)體的匹配即進(jìn)行無(wú)放回匹配(圖1)。
圖1 傾向得分匹配法與傾向得分區(qū)間匹配法
本文用檢驗(yàn)效能、I類錯(cuò)誤、標(biāo)準(zhǔn)化差異以及匹配比例四個(gè)指標(biāo)來(lái)評(píng)價(jià)比較傾向得分區(qū)間匹配法和logistic回歸分析以及傾向得分卡鉗匹配,其中標(biāo)準(zhǔn)化差異能夠很好地反映組間協(xié)變量的均衡情況。
標(biāo)準(zhǔn)化差異在近年的傾向得分研究中應(yīng)用較多〔10〕,其概念由Flury和Reidwyl在1986年首次提出〔11〕。
對(duì)于二分類變量,標(biāo)準(zhǔn)化差異定義為:
其中,pT和pC分別表示處理組和非處理組中待檢驗(yàn)變量的陽(yáng)性率。
對(duì)于連續(xù)性變量,標(biāo)準(zhǔn)化差異定義為:
采用Monte Carlo模擬比較傾向得分區(qū)間匹配法、傾向得分卡鉗匹配法和logistic回歸分析三種方法,數(shù)據(jù)模擬和統(tǒng)計(jì)分析通過(guò)軟件SAS 9.1實(shí)現(xiàn)。本研究經(jīng)過(guò)兩次建模,多次模擬來(lái)評(píng)價(jià)傾向得分區(qū)間匹配法均衡組間協(xié)變量的能力。
根據(jù)協(xié)變量與處理因素和結(jié)局變量的關(guān)系,協(xié)變量可分為:①只和處理因素有關(guān);②只和結(jié)局變量有關(guān);③與處理因素和結(jié)局變量都有關(guān);④與處理因素和結(jié)局變量都無(wú)關(guān)。根據(jù)這四類變量和相關(guān)程度強(qiáng)弱,本文模擬的協(xié)變量包括表1所列9個(gè)協(xié)變量。
表1 模擬協(xié)變量的分類
Monte Carlo模擬的目標(biāo)就是檢驗(yàn)傾向得分區(qū)間匹配法在處理組間均衡這9個(gè)協(xié)變量的能力〔13〕。根據(jù)Bernoulli分布產(chǎn)生9個(gè)獨(dú)立的隨機(jī)二分類協(xié)變量,利用 SAS 9.1的函數(shù) rand('bernoulli',P),P=0.5產(chǎn)生數(shù)據(jù)集。然后對(duì)每個(gè)研究對(duì)象采用Bernoulli分布根據(jù)下列回歸模型生成一個(gè)分組變量Ti:
其中,β0,treat為常數(shù)項(xiàng),調(diào)節(jié) β0,treat可以控制處理組與對(duì)照組間樣本比例,β1~β6為回歸系數(shù),exp(βi)為與處理因素有關(guān)的各協(xié)變量OR值。
再對(duì)每一個(gè)研究對(duì)象,在分組變量Ti的條件下,根據(jù)下列回歸模型及Bernoulli分布產(chǎn)生一個(gè)結(jié)果變量Yi:
其中,α0,outcome為常數(shù)項(xiàng),調(diào)節(jié) α0,outcome可以控制對(duì)照組陽(yáng)性結(jié)果的發(fā)生率,βtreat、α1~α6為回歸系數(shù),exp(βtreat)為處理因素的OR值,exp(αi)為與結(jié)果有關(guān)的各協(xié)變量OR值。
(1)弱相關(guān)模型:
對(duì)于上面兩個(gè)logistic回歸中協(xié)變量的回歸系數(shù),設(shè)定弱相關(guān)模型參數(shù)為:中等相關(guān)的回歸系數(shù)為log(1.25),強(qiáng)相關(guān)的回歸系數(shù)為 log(1.5)。設(shè)定 β0,treat=-1.366,這樣就能保證大約40%的研究對(duì)象進(jìn)入到處理組。設(shè)定α0,outcome=-2.688,保證對(duì)照組陽(yáng)性結(jié)果的發(fā)生率約為15%。βtreat的設(shè)定:log(1.1)、log(1.5)、log(2)、log(2.5)和 log(3)。通過(guò)改變 β0,treat、α0,outcome和βtreat這三個(gè)參數(shù),可以調(diào)整處理組與對(duì)照組的比例,對(duì)照組陽(yáng)性結(jié)果的發(fā)生率,和處理因素與結(jié)果效應(yīng)的關(guān)系。模擬產(chǎn)生1000個(gè)樣本量為500的數(shù)據(jù)集進(jìn)行傾向得分區(qū)間匹配研究分析并與卡鉗值為傾向得分經(jīng)logit變換后標(biāo)準(zhǔn)差的20%的卡鉗匹配以及傳統(tǒng)的logistic回歸分析進(jìn)行比較〔14〕。
(2)強(qiáng)相關(guān)模型:
調(diào)整模型參數(shù),對(duì)于上面兩個(gè)logistic回歸中協(xié)變量的回歸系數(shù),設(shè)定強(qiáng)相關(guān)模型參數(shù)為:中等相關(guān)的回歸系數(shù)為log(1.5),強(qiáng)相關(guān)的回歸系數(shù)為log(1.75)。設(shè)定β0,treat=-1.889,這樣就能保證大約40%的研究對(duì)象進(jìn)入到處理組。設(shè)定α0,outcome=-3.687,保證對(duì)照組陽(yáng)性結(jié)果的發(fā)生率約為10%。模擬產(chǎn)生1000個(gè)樣本量為500的數(shù)據(jù)集進(jìn)行傾向得分區(qū)間匹配研究分析并與卡鉗值為傾向得分經(jīng)logit變換后標(biāo)準(zhǔn)差的20%的卡鉗匹配以及傳統(tǒng)的logistic回歸分析進(jìn)行比較。
(1)最優(yōu)卡鉗區(qū)間的選擇
我們分別設(shè)定卡鉗區(qū)間為處理組個(gè)體傾向得分置信區(qū)間長(zhǎng)度的90%、85%、80%、70%進(jìn)行模擬匹配,通過(guò)檢驗(yàn)效能、I類錯(cuò)誤、標(biāo)準(zhǔn)化差異、匹配比例四個(gè)指標(biāo)來(lái)評(píng)價(jià),然后得出最優(yōu)卡鉗區(qū)間值。
表2 兩種模型下不同卡鉗區(qū)間匹配評(píng)價(jià)
通過(guò)模擬不同卡鉗區(qū)間進(jìn)行匹配,我們可以從表1中看出,當(dāng)卡鉗區(qū)間選擇處理組置信區(qū)間的80%時(shí),檢驗(yàn)效能、I類錯(cuò)誤、標(biāo)準(zhǔn)化差異和匹配比例都是令人滿意的。根據(jù)卡鉗區(qū)間為80%,進(jìn)一步模擬比較區(qū)間匹配法、logistic回歸法和卡鉗匹配法的檢驗(yàn)效能、I類錯(cuò)誤、標(biāo)準(zhǔn)化差異和匹配比例。
(2)檢驗(yàn)效能
區(qū)間匹配、logistic回歸及卡鉗匹配三種方法在強(qiáng)弱相關(guān)兩種模型下的檢驗(yàn)效能比較結(jié)果見(jiàn)表3。
當(dāng)處理因素OR值不斷增大時(shí),三種方法在兩種模型下的檢驗(yàn)效能都是逐漸增大的。不管是強(qiáng)相關(guān)模型還是弱相關(guān)模型,logistic回歸法的檢驗(yàn)效能均高于區(qū)間匹配法,區(qū)間匹配法均高于卡鉗匹配。進(jìn)一步模擬表明,改變處理組與對(duì)照組的比例,改變對(duì)照組陽(yáng)性結(jié)果發(fā)生率,其結(jié)論不變。
(3)I類錯(cuò)誤
區(qū)間匹配、logistic回歸及卡鉗匹配三種方法在強(qiáng)弱相關(guān)兩種模型下的Ⅰ類錯(cuò)誤比較結(jié)果見(jiàn)表4。
表3 三種方法兩種模型在不同處理因素OR值下的檢驗(yàn)效能(%)
在弱相關(guān)模型和強(qiáng)相關(guān)模型中,logistic回歸法的I類錯(cuò)誤最低,但三種方法都能控制I類錯(cuò)誤在0.05以內(nèi)。在強(qiáng)相關(guān)模型中,區(qū)間匹配法的I類錯(cuò)誤和卡鉗匹配基本一致,logistic回歸法的I類錯(cuò)誤高于其他兩種方法,三種方法都能將I類錯(cuò)誤控制在0.05左右。進(jìn)一步模擬表明,改變處理組與對(duì)照組的比例,改變對(duì)照組陽(yáng)性結(jié)果發(fā)生率,其結(jié)論不變。
(4)標(biāo)準(zhǔn)化差異
PS區(qū)間匹配法和PS卡鉗匹配法在強(qiáng)弱相關(guān)兩種模型下的標(biāo)準(zhǔn)化差異比較結(jié)果見(jiàn)表5。
表4 三種方法兩種模型的I類錯(cuò)誤
表5 不同方法兩種模型的標(biāo)準(zhǔn)化差異(%)
在弱相關(guān)模型下,區(qū)間匹配法和卡鉗匹配法都能很好的均衡各個(gè)協(xié)變量,其與結(jié)果有關(guān)的協(xié)變量的標(biāo)準(zhǔn)化差異均小于10%,而在強(qiáng)相關(guān)模型下,區(qū)間匹配法能夠?qū)⑷康?個(gè)協(xié)變量的標(biāo)準(zhǔn)化差異全部降低到10%以內(nèi),均衡了所有的協(xié)變量。
(5)匹配比例
PS區(qū)間匹配和PS卡鉗匹配兩種方法兩種模型的匹配比例比較結(jié)果見(jiàn)表6。
表6 不同方法兩種模型的匹配比例(%)
在弱相關(guān)模型下,區(qū)間匹配的匹配比例高于卡鉗匹配,也是其檢驗(yàn)效能高于卡鉗匹配的一個(gè)原因;在強(qiáng)相關(guān)模型下,兩者的匹配比例要低于弱相關(guān)下的匹配比例,區(qū)間匹配在強(qiáng)相關(guān)模型下處理組個(gè)體的置信區(qū)間變窄,導(dǎo)致匹配精度的提高;強(qiáng)相關(guān)模型下,區(qū)間匹配的匹配比例略低于卡鉗匹配,但是其檢驗(yàn)效能在不同處理因素OR值下是高于卡鉗匹配的。
通過(guò)上面的模擬研究發(fā)現(xiàn):(1)采用傾向得分區(qū)間匹配法能夠很好的均衡組間協(xié)變量。(2)從檢驗(yàn)效能、I類錯(cuò)誤、標(biāo)準(zhǔn)化差異和匹配比例四個(gè)評(píng)價(jià)指標(biāo)等綜合考慮認(rèn)為卡鉗區(qū)間設(shè)為處理組置信區(qū)間的80%是合適的。(3)通過(guò)模擬比較,區(qū)間匹配法在四個(gè)評(píng)價(jià)指標(biāo)中與logistic回歸法和傾向得分卡鉗匹配無(wú)明顯差異,區(qū)間匹配法在處理因素不同OR值的情況下的檢驗(yàn)效能稍好于卡鉗匹配,其I類錯(cuò)誤也小于卡鉗匹配。用標(biāo)準(zhǔn)化差異判斷兩種方法均衡協(xié)變量的能力時(shí),區(qū)間匹配法和卡鉗匹配都能均衡組間協(xié)變量。(4)兩種模型下,區(qū)間匹配法、logistic回歸法和卡鉗匹配都有良好的檢驗(yàn)效能和控制I類錯(cuò)誤的能力。不管是弱相關(guān)模型還是強(qiáng)相關(guān)模型,logistic回歸法稍好于區(qū)間匹配法,區(qū)間匹配法稍好于卡鉗匹配法。區(qū)間匹配法在強(qiáng)相關(guān)模型下均衡組間協(xié)變量的能力比弱相關(guān)模型更強(qiáng)。傾向得分區(qū)間匹配法在觀察性研究中均衡組間協(xié)變量的能力得到了印證,也反映出傾向得分區(qū)間匹配法的可行性和實(shí)用性。
在流行病學(xué)病因研究、大量的觀察性研究中,運(yùn)用傾向得分區(qū)間匹配法能夠有效地均衡組間協(xié)變量的分布,在組間協(xié)變量均衡的基礎(chǔ)上進(jìn)一步評(píng)價(jià)處理因素的效應(yīng),從而得到接近隨機(jī)對(duì)照研究的結(jié)果〔15〕。由于傾向得分是協(xié)變量的一個(gè)函數(shù),無(wú)論有多少個(gè)協(xié)變量,都可以綜合成為一個(gè)傾向得分來(lái)表示,實(shí)際上起到了降維的作用,而且傾向得分區(qū)間匹配法操作簡(jiǎn)便,容易理解,能夠很好地對(duì)結(jié)果進(jìn)行解釋。logistic回歸法用于分析結(jié)局變量與協(xié)變量之間的關(guān)聯(lián)關(guān)系,而傾向得分方法推斷的是因果關(guān)系,在因果關(guān)系論證強(qiáng)度上大于logistic回歸法。傾向得分方法同樣適用于混雜因素很多,結(jié)局變量發(fā)生率很低的情況,而logistic回歸法并不適合〔16〕。另外,某些非隨機(jī)化臨床試驗(yàn),如醫(yī)療器械的臨床評(píng)價(jià),Ⅳ期臨床試驗(yàn)等,可以通過(guò)傾向得分方法進(jìn)行分析〔17〕。
傾向得分方法在實(shí)際應(yīng)用中,研究者一定要對(duì)數(shù)據(jù)資料和方法有足夠的了解,因?yàn)閮A向得分方法永遠(yuǎn)只是局限于可觀察到的協(xié)變量,而一些未知的混雜因子仍然可能對(duì)結(jié)果產(chǎn)生影響。因此科學(xué)運(yùn)用傾向得分方法可以有效地控制混雜因素,得到結(jié)果的無(wú)偏估計(jì)。
本研究的局限性在于:(1)只模擬了二分類協(xié)變量的情況,沒(méi)有對(duì)多分類和連續(xù)型協(xié)變量進(jìn)行模擬;(2)模型只選擇了弱相關(guān)模型和強(qiáng)相關(guān)模型兩種進(jìn)行研究分析;(3)只選擇了四類評(píng)價(jià)指標(biāo)進(jìn)行綜合評(píng)價(jià);(4)對(duì)于最優(yōu)卡鉗區(qū)間的選擇上只局限于簡(jiǎn)單的模擬。對(duì)于本研究的不足,我們將在以后進(jìn)一步分析研究。
1.Austin PC.A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003.Statistics in Medicine,2008,27:2037-2049.
2.Austin PC.Type I Error Rates,Coverage of Confidence Intervals,and Variance Estimation in Propensity-Score Matched Analyses.The international Journal of Biostatistics,2009,5:1-21.
3.Newgard CD,Hedges JR,Mullins RJ.Advanced Statistics:The Propensity Score—A Method for Estimating Treatment Effect in Observational Research.Academic Emergency Medicine,2004,11:953-961.
4.Rosenbaum PR,Rubin DB.The central role of the propensity score in observational studies for causal effects.Biometrika,1983,70:41-55.
5.Miettinen OS.Stratification by a multivariate confounder score.Am J Epidemiol,1976,20:104-609.
6.Til Stürmer,Manisha Joshi,Glynn RJ,et al.A review of the application of propensity score methods yielded increasing use,advantages in specific settings,but not substantially different estimates compared with conventional multivariable methods.Journal of Clinical Epidemiology,2006,59:437-447.
7.孫振球,徐勇勇主編.醫(yī)學(xué)統(tǒng)計(jì)學(xué).第2版.北京:人民衛(wèi)生出版社,2008,333-336.
8.Austin PC,Mamdani1 MM.A comparison of propensity score methods:A case-study estimating the effectiveness of post-AMI statin use.Statistics in Medicine,2006,25:2084-2106.
9.Austin PC.Some methods of propensity-score matching had superior performance to others:results of an empirical investigation and Monte Carlo simulations.Biometrical Journal,2009,51:171-184.
10.Perkins SM,Tu W,Underhill MG,et al.The use of propensity scores in pharmacoepidemiologic research.Pharmacoepidemilology and Drug Safety,2000,9:93-101.
11.Flury BK,Reidwyl H.Standard distance in univariate and multivariate analysis.The American Statistician,1986,40:249-251.
12.Normand SLT,Landrum MB,Guadagnoli E,et al.Validating recommendations for coronary angiography following an acute myocardial infarction in the elderly:a matched analysis using propensity scores.Journal of Clinical Epidemiology,2001,54:387-398.
13.Austin PC.Comparing paired vs non-paired statistical methods of analyses when making inferences about absolute risk reductions in propensity-score matched samples.Statistics in Medicine,2011,30:1292-301.
14.Dehejia RH,Wahba S.Propensity score-matching methods for nonexperimental causal studies.Review of Economics and Statistics,2002,84:151-161.
15.詹思延主編.流行病學(xué)進(jìn)展.第12卷.北京:人民衛(wèi)生出版社,2010,358-375.
16.王永吉,夏結(jié)來(lái),蔡宏偉,等.傾向指數(shù)匹配法與logistic回歸分析方法對(duì)比研究.現(xiàn)代預(yù)防醫(yī)學(xué),2011,38(12):2017-2018.
17.王永吉,蔡宏偉,夏結(jié)來(lái),等.傾向指數(shù)(第一講):傾向指數(shù)的基本概念和研究步驟.中華流行病學(xué)雜志,2009,31(3):347-348.
中國(guó)衛(wèi)生統(tǒng)計(jì)2012年1期