胡美婧 李滿娣 林奕蝶 張 露 姚 強(qiáng) 徐銘涵 朱彩蓉△
【提 要】 目的 比較不同傾向性評(píng)分方法及l(fā)ogistic回歸法在不同樣本量的條件下估計(jì)處理效應(yīng)的優(yōu)劣。方法 采用Monte Carlo模擬方法生成數(shù)據(jù)集,比較各統(tǒng)計(jì)分析方法估計(jì)處理效應(yīng)的優(yōu)劣。評(píng)價(jià)指標(biāo)包括效應(yīng)點(diǎn)估計(jì)值、相對(duì)偏倚及均方誤差等。結(jié)果 當(dāng)樣本量為900時(shí),傾向性評(píng)分逆處理概率加權(quán)法、分層法、回歸調(diào)整法的相對(duì)偏倚最小。logistic回歸法的相對(duì)偏倚最大,穩(wěn)健性最差。當(dāng)樣本量為650時(shí),逆處理概率加權(quán)法的相對(duì)偏倚最小,均方誤差最小。當(dāng)樣本量為400時(shí),逆處理概率加權(quán)法的均方誤差最小,穩(wěn)健性最好。當(dāng)樣本量為300時(shí),傾向性評(píng)分匹配法的均方誤差最大。當(dāng)樣本量為200時(shí),傾向性評(píng)分匹配法相對(duì)偏倚最小。結(jié)論 在處理數(shù)據(jù)結(jié)構(gòu)較為簡(jiǎn)單的觀察性研究資料時(shí),logistic回歸法可能產(chǎn)生較大偏倚,傾向性評(píng)分逆處理概率加權(quán)法為較優(yōu)選擇。
自1983年Rosenbaum和Rubin提出傾向性評(píng)分(propensity score,PS)方法以來(lái)[1],使用該方法控制觀察性研究中的選擇偏倚在公共衛(wèi)生和臨床研究中日益流行[2-6]。但傾向性評(píng)分法估計(jì)處理效應(yīng)、控制偏倚的能力是否強(qiáng)于logistic回歸法尚存爭(zhēng)議。Martens[7]等人認(rèn)為傾向評(píng)分法估計(jì)效應(yīng)真值的能力始終優(yōu)于logistic回歸法,但另一些研究者[8]認(rèn)為傾向評(píng)分法與logistic回歸法或Cox比例風(fēng)險(xiǎn)模型相比,估計(jì)處理效應(yīng)的能力基本一致。
此外,傾向性評(píng)分法具有匹配、分層、加權(quán)、回歸調(diào)整等多種應(yīng)用形式,國(guó)內(nèi)外研究者對(duì)不同傾向性評(píng)分法進(jìn)行了模擬研究[9-11]。Austin[12]等人對(duì)不同傾向性評(píng)分方法估計(jì)相對(duì)危險(xiǎn)度的優(yōu)劣進(jìn)行比較時(shí),模擬數(shù)據(jù)集樣本量設(shè)置為10000。國(guó)內(nèi)研究者孫婷[13]等人在探討不同傾向性評(píng)分方法估計(jì)處理效應(yīng)的優(yōu)劣時(shí),分別生成樣本量為500或2000的數(shù)據(jù)集。由于以上研究均未設(shè)置樣本量較小的模擬場(chǎng)景,本研究模擬數(shù)據(jù)集樣本量變化范圍為200至900,比較logistic回歸法及不同傾向性評(píng)分利用方式間的處理效應(yīng)估計(jì)差異,為選擇適宜的統(tǒng)計(jì)分析方法處理不同樣本量尤其是樣本量較小條件下的觀察性研究資料提供建議。
傾向性評(píng)分法的基本原理是用傾向性評(píng)分值代替多個(gè)組間協(xié)變量,使組間混雜因素的分布得以均衡,從而減少偏倚。傾向性評(píng)分值是指在給定一組協(xié)變量(如x1,x2…xn)的情況下,任一研究對(duì)象被分到處理組或?qū)φ战M的條件概率。第n個(gè)研究對(duì)象被劃分到處理組(T=1)的條件概率如下式:
e(xn)=P(Tn=1|xn)
(1)
e(xn)與P的意義相同,即為第n個(gè)研究對(duì)象的傾向性評(píng)分值[1]。若某兩個(gè)個(gè)體來(lái)自不同組別,其傾向性評(píng)分值相等,則可以認(rèn)為這兩個(gè)個(gè)體的協(xié)變量是均衡分布的。傾向性評(píng)分法主要通過(guò)以下兩個(gè)步驟來(lái)實(shí)現(xiàn):①通過(guò)logistic回歸、probit回歸等方法估計(jì)傾向性評(píng)分值[14]。②選擇適宜的傾向性評(píng)分法應(yīng)用模式,如匹配、分層、加權(quán)及回歸調(diào)整法[15-18]等均衡協(xié)變量,最后根據(jù)研究資料的實(shí)際情況選擇統(tǒng)計(jì)模型進(jìn)行分析。
1.協(xié)變量的生成
本研究共生成三個(gè)獨(dú)立的隨機(jī)二分類(lèi)變量,x1-x3~Bernoulli(P=0.5)。三個(gè)協(xié)變量分別代表:僅與處理因素相關(guān)的協(xié)變量,與處理因素及結(jié)局變量均相關(guān)的協(xié)變量,僅與結(jié)局變量相關(guān)的協(xié)變量。
2.處理變量的生成
本研究模擬處理變量與結(jié)局變量均為二分類(lèi)變量,先采用logistic回歸模型估計(jì)傾向性得分值,再根據(jù)協(xié)變量與處理因素的關(guān)系生成處理變量,如下式:
(2)
c0,t為常數(shù)項(xiàng),通過(guò)預(yù)模擬調(diào)節(jié)該值以控制處理組與對(duì)照組的比例;ai為回歸系數(shù)。T為二分類(lèi)處理因素,根據(jù)伯努利分布,rand(‘Bernoulli’,Pt),即生成模擬個(gè)體的分組變量。當(dāng)T為0時(shí),該個(gè)體歸為對(duì)照組;反之歸為處理組。設(shè)置回歸系數(shù)ai,ORi=exp (ai),回歸系數(shù)由unif(-1,1)隨機(jī)產(chǎn)生,OR1=1.8,OR2=2;使處理組與對(duì)照組間的比例約為2∶3,常數(shù)項(xiàng)c0,t調(diào)節(jié)為1.3。
3.結(jié)局變量的生成
根據(jù)結(jié)局變量與協(xié)變量及處理因素的關(guān)系生成結(jié)局變量,如下式:
(3)
c0,y為常數(shù)項(xiàng),調(diào)節(jié)該值以控制陽(yáng)性結(jié)果發(fā)生的比例。bi為回歸系數(shù),b0為處理效應(yīng)。Y為二分類(lèi)結(jié)局變量,根據(jù)伯努利分布,rand(‘Bernoulli’,Py),生成模擬個(gè)體的結(jié)局變量,數(shù)據(jù)集模擬完成。當(dāng)Y為0時(shí),個(gè)體結(jié)局事件未發(fā)生;反之該個(gè)體結(jié)局事件發(fā)生。設(shè)置回歸系數(shù)bi(i=2,3),OR2=2,OR3=1.8;真實(shí)處理效應(yīng)b0=-0.53。使對(duì)照組陽(yáng)性結(jié)果發(fā)生率約20%,常數(shù)項(xiàng)c0,y調(diào)節(jié)為2.1。
本研究使用SAS 9.4軟件模擬數(shù)據(jù),分別生成1000個(gè)樣本量為900、650、400、300及200的數(shù)據(jù)集,并應(yīng)用logistic回歸法、傾向性評(píng)分卡鉗值為0.02的1∶1最近鄰匹配法、逆處理概率加權(quán)法、分層法(5層)和回歸調(diào)整法進(jìn)行分析。選用以下指標(biāo)報(bào)告結(jié)果:處理效應(yīng)點(diǎn)估計(jì)值(Average(b0))、標(biāo)準(zhǔn)誤(SE)及95%置信區(qū)間(CI),絕對(duì)偏倚(AB)、相對(duì)偏倚(RB),均方誤差(MSE)。最終的處理效應(yīng)估計(jì)值為各樣本量對(duì)應(yīng)1000個(gè)數(shù)據(jù)集結(jié)果的均值。
4.模擬結(jié)果
如表1可見(jiàn),樣本量為900時(shí),logistic回歸法的處理效應(yīng)點(diǎn)估計(jì)值為-0.41,相對(duì)偏倚與均方誤差均大于四種傾向性評(píng)分方法。傾向性評(píng)分方法中,匹配法的相對(duì)偏倚為3.77%,逆處理概率加權(quán)法、分層法與回歸調(diào)整法均實(shí)現(xiàn)無(wú)偏估計(jì)。5種方法的95%置信區(qū)間都包含真值,且具有統(tǒng)計(jì)學(xué)意義。樣本量為650時(shí),logistic回歸法的相對(duì)偏倚最大,95%置信區(qū)間包含真值卻不具有統(tǒng)計(jì)學(xué)意義。傾向性評(píng)分加權(quán)法實(shí)現(xiàn)了無(wú)偏估計(jì),其他的傾向性評(píng)分方法得到的處理效應(yīng)估計(jì)值與加權(quán)法接近。樣本量為400時(shí),logistic回歸法的相對(duì)偏倚最大。傾向性評(píng)分逆處理概率加權(quán)法的均方誤差最小,穩(wěn)定性最好。5種方法的95%置信區(qū)間雖然包含真值,卻都不具有統(tǒng)計(jì)學(xué)意義。樣本量為300時(shí),傾向性評(píng)分方法中,匹配法的相對(duì)偏倚與均方誤差最大。傾向性評(píng)分逆處理概率加權(quán)法與分層法表現(xiàn)較優(yōu)。樣本量為200時(shí),傾向性評(píng)分方法中匹配法相對(duì)偏倚最小,但均方誤差仍最大。
表1 不同統(tǒng)計(jì)分析方法的效應(yīng)估計(jì)結(jié)果
在本研究設(shè)置的不同樣本量條件下,logistic回歸法的相對(duì)偏倚始終高于四種傾向性評(píng)分方法,估計(jì)處理效應(yīng)的能力相對(duì)較差。本研究的結(jié)果與Martens[7]等人的研究一致。logistic回歸法并不適用于混雜因素較多或結(jié)局變量發(fā)生率較低的研究資料[19]。雖然本研究?jī)H模擬了三個(gè)協(xié)變量,其中只有一個(gè)變量與處理因素及結(jié)局變量均相關(guān),但設(shè)置的對(duì)照組陽(yáng)性結(jié)局發(fā)生率僅為20%,陽(yáng)性結(jié)果發(fā)生率不高導(dǎo)致logistic回歸法的處理效應(yīng)估計(jì)值的相對(duì)偏倚較大。而Shah[20]等人的研究結(jié)論與本研究存在差異,認(rèn)為兩種方法的效應(yīng)估計(jì)結(jié)果基本一致。Shah等人納入了43篇同時(shí)使用logistic回歸法以及傾向性評(píng)分法的研究,其中有8篇文獻(xiàn),兩種方法得到的比值比或相對(duì)危險(xiǎn)度的統(tǒng)計(jì)學(xué)意義有差別,均為傾向性評(píng)分方法無(wú)統(tǒng)計(jì)學(xué)意義且大部分研究的統(tǒng)計(jì)學(xué)顯著性處于臨界點(diǎn),這種有方向性的差異可能會(huì)導(dǎo)致兩種方法的真實(shí)差異被掩蓋[7];此外,在使用匹配法的研究中,暴露組甚至可能超過(guò)40%的患者未成功匹配[20],因此研究者未結(jié)合自身數(shù)據(jù)特點(diǎn)選擇合適的統(tǒng)計(jì)分析方法,反而會(huì)使得傾向性評(píng)分法的統(tǒng)計(jì)效能降低。發(fā)表偏倚[21]也可能對(duì)綜述結(jié)果產(chǎn)生一定影響。研究者若同時(shí)使用兩種方法進(jìn)行分析,當(dāng)方法間的結(jié)果發(fā)生分歧時(shí),如果研究者僅報(bào)告其中一種方法,會(huì)導(dǎo)致綜述的結(jié)果傾向于兩種研究方法的結(jié)果一致。
在不同樣本量條件下,傾向性評(píng)分逆處理概率加權(quán)法為分析混雜結(jié)構(gòu)簡(jiǎn)單的觀察性研究資料的最優(yōu)選擇,傾向性評(píng)分分層法與回歸調(diào)整法次之。Austin在比較傾向性評(píng)分回歸調(diào)整法、匹配法和分層法估計(jì)相對(duì)危險(xiǎn)度的能力時(shí),傾向性評(píng)分回歸調(diào)整法占據(jù)優(yōu)勢(shì),而分層法的均方誤差可能小于匹配法[12]。本研究的模擬結(jié)果與Austin的研究較為一致,傾向性評(píng)分逆概率加權(quán)法、分層法、回歸調(diào)整法相對(duì)占據(jù)優(yōu)勢(shì),且傾向性評(píng)分回歸法的表現(xiàn)僅次于加權(quán)法。相對(duì)于Austin的研究,本研究協(xié)變量類(lèi)型、混雜結(jié)構(gòu)等參數(shù)設(shè)置得較為簡(jiǎn)單,處理變量與結(jié)局變量模型均只含有線性關(guān)系。有研究表明,當(dāng)處理與結(jié)局變量模型均只含有線性關(guān)系或只有結(jié)局變量模型中含有非線性關(guān)系時(shí),傾向性評(píng)分加權(quán)法估計(jì)效果比在其他復(fù)雜混雜結(jié)構(gòu)下更好[13]。在混雜結(jié)構(gòu)簡(jiǎn)單時(shí),使用傾向性評(píng)分逆處理概率加權(quán)法或可得到風(fēng)險(xiǎn)差的相合估計(jì)[22]。
當(dāng)樣本量為200時(shí),傾向性評(píng)分匹配法的相對(duì)偏倚最小,但尚不能認(rèn)為傾向性評(píng)分匹配法適用于樣本量較小的觀察性研究資料。在研究設(shè)置的不同樣本量中,傾向性評(píng)分匹配法并未隨著樣本量減少而估計(jì)處理效應(yīng)的能力增強(qiáng)。且傾向性評(píng)分匹配法始終未能實(shí)現(xiàn)無(wú)偏估計(jì),可能因?yàn)槠ヅ浞▽?dǎo)致一定樣本信息的損失或存在處理組個(gè)體未成功匹配的情況,因此影響估計(jì)的準(zhǔn)確性。有研究者認(rèn)為在分析過(guò)程中應(yīng)當(dāng)盡可能避免損失信息,并不推薦傾向性匹配法[23]。
樣本量的大小會(huì)對(duì)統(tǒng)計(jì)分析的準(zhǔn)確性和穩(wěn)健性造成影響,研究者在進(jìn)行小樣本研究分析時(shí),需要更謹(jǐn)慎的解釋結(jié)果。隨著樣本量的減少,實(shí)現(xiàn)無(wú)偏估計(jì)的傾向性評(píng)分分析方法也逐漸減少,統(tǒng)計(jì)分析的準(zhǔn)確性降低;各統(tǒng)計(jì)分析方法的標(biāo)準(zhǔn)誤差均增大,均方誤差增加,統(tǒng)計(jì)分析穩(wěn)健性也隨之降低。
本研究也存在一定的局限性:①研究的模擬場(chǎng)景較為簡(jiǎn)單,后續(xù)研究可以構(gòu)建更加復(fù)雜的模擬場(chǎng)景、更多結(jié)局變量類(lèi)型以提高模擬真實(shí)性。②傾向性評(píng)分方法與logistic回歸法均只能納入所有被觀察到的協(xié)變量[24],未被觀察到的混雜因素必然會(huì)對(duì)結(jié)果造成影響,需進(jìn)一步探究未包含重要的混雜因素可能對(duì)此類(lèi)統(tǒng)計(jì)分析方法的準(zhǔn)確性帶來(lái)的影響。③其他更加復(fù)雜的統(tǒng)計(jì)分析方法,如工具變量、貝葉斯[25]等并未納入比較,因?yàn)榇祟?lèi)方法需要進(jìn)行的假設(shè)較多,應(yīng)用和驗(yàn)證均相對(duì)復(fù)雜,對(duì)統(tǒng)計(jì)軟件以及使用者的專(zhuān)業(yè)能力要求也十分高,仍待進(jìn)一步的探索和優(yōu)化,以滿足普通研究者的需要。
在不同樣本量條件下,傾向性評(píng)分法得到的處理效應(yīng)估計(jì)值始終比logistic回歸法更接近真值。四種傾向性評(píng)分方法估計(jì)處理效應(yīng)的能力存在差異,在分析簡(jiǎn)單混雜結(jié)構(gòu)的觀察性研究資料時(shí),傾向性評(píng)分逆概率加權(quán)法是較優(yōu)選擇。不同傾向性評(píng)分法的統(tǒng)計(jì)分析準(zhǔn)確性與穩(wěn)健性均隨著樣本量的增大而提高,研究者分析小型觀察性研究資料時(shí)需更加謹(jǐn)慎。傾向性評(píng)分法是科學(xué)研究發(fā)展過(guò)程中提出的有力工具之一,用以處理真實(shí)世界中混雜因素眾多造成的組間不可比問(wèn)題,在大數(shù)據(jù)時(shí)代具有重要的現(xiàn)實(shí)意義。規(guī)范其使用條件,從方法學(xué)角度對(duì)其進(jìn)行完善,進(jìn)一步探索可彌補(bǔ)其劣勢(shì)的新方法必然成為研究新趨勢(shì)。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年6期