朱 迪 劉 寶
21世紀(jì)以來(lái),真實(shí)世界研究(real-world study)在我國(guó)發(fā)展迅速,已逐漸成為藥物研發(fā)與監(jiān)管、相關(guān)衛(wèi)生政策制定的重要依據(jù)。我國(guó)在2002年提出要使用醫(yī)保數(shù)據(jù)為藥物處方與藥物經(jīng)濟(jì)學(xué)評(píng)價(jià)提供支持;2010年,“真實(shí)世界證據(jù)”一詞首次被應(yīng)用于一項(xiàng)中藥的研究中;2012年,中國(guó)醫(yī)師協(xié)會(huì)開(kāi)展了一項(xiàng)關(guān)于“如何在觀察性研究中評(píng)估健康干預(yù)效果”研究;2018年,3項(xiàng)我國(guó)的真實(shí)世界研究支持了貝伐珠單抗在我國(guó)的適應(yīng)證拓展;2019年,國(guó)家藥審中心發(fā)布了《真實(shí)世界證據(jù)支持藥物研發(fā)的基本考慮(征求意見(jiàn)稿)》,涵蓋上市前臨床研發(fā)和上市后再評(píng)價(jià)等環(huán)節(jié)[1-3]。
大量真實(shí)世界研究需要使用觀察性數(shù)據(jù)進(jìn)行因果推斷,如政策效果評(píng)估中需要考察政策實(shí)施帶來(lái)的結(jié)果與影響,藥物經(jīng)濟(jì)學(xué)評(píng)價(jià)中需考察不同用藥方案成本與健康結(jié)果的差異[4]。因果推斷的具體方法包括匹配法、斷點(diǎn)回歸法、工具變量法、結(jié)構(gòu)方程模型法等等,其中最為常用的方法之一是傾向性評(píng)分匹配法(propensity score matching, PSM)[5-6]。
PSM應(yīng)用十分廣泛,但同時(shí)也具有一定局限性。有學(xué)者論證了PSM的局限性,并提出“粗化精準(zhǔn)匹配”(coarsened exact matching, CEM);CEM在某些方面比常見(jiàn)匹配方法更加具有優(yōu)勢(shì),且已有一定的實(shí)證性研究驗(yàn)證了其效果[7-8]。
本研究首先對(duì)因果推斷及真實(shí)世界研究進(jìn)行介紹,然后對(duì)真實(shí)世界研究中常用的“匹配(matching)”方法進(jìn)行闡述;在此基礎(chǔ)上進(jìn)一步介紹CEM,并基于文獻(xiàn)闡述其與 PSM 等匹配方法比較的優(yōu)勢(shì),為CEM的推廣與應(yīng)用做鋪墊。
因果推斷是尋找觀測(cè)到的現(xiàn)象的成因的過(guò)程,通過(guò)模型與統(tǒng)計(jì)方法,對(duì)兩者之間的因果關(guān)系進(jìn)行判斷[4]。
現(xiàn)在最常用于因果推斷的模型是1970年提出的“反事實(shí)框架(counterfactual framework)”,也叫“潛在結(jié)果框架(potential outcomes framework)”。反事實(shí)框架基于這樣一種邏輯:一個(gè)個(gè)體接受或未接受某種干預(yù)時(shí),結(jié)果指標(biāo)的差異即為干預(yù)產(chǎn)生的結(jié)果,因此便可以將干預(yù)與結(jié)果之間建立因果關(guān)系;但是一個(gè)個(gè)體不可能同時(shí)處于干預(yù)和不干預(yù)兩種不同的狀態(tài),因此要通過(guò)多種方式(如選擇相似的個(gè)體、同一個(gè)體先后觀察兩種干預(yù)狀態(tài)和結(jié)果指標(biāo)等)來(lái)模擬不能與被觀測(cè)的狀態(tài)同時(shí)存在的另一種狀態(tài),建立“虛擬的事實(shí)”,進(jìn)行因果推斷[9]。
在實(shí)際應(yīng)用中,因果推斷的重要作用是觀察不同的健康干預(yù)措施后的健康產(chǎn)出,以測(cè)量健康干預(yù)措施的效果[9]。一般會(huì)通過(guò)內(nèi)部效度(internal validity)和外部效度(external validity)來(lái)評(píng)估因果推斷的有效性。內(nèi)部效度用來(lái)衡量干預(yù)與結(jié)果之間關(guān)系的確實(shí)性程度,因果推斷越準(zhǔn)確,則內(nèi)部效度越高,結(jié)論越可信;外部效度用來(lái)衡量研究結(jié)果的代表性與普遍性,樣本人群對(duì)總體人群越有代表性、結(jié)論越能在更多人群中推廣,則外部效度越高,研究與結(jié)論越具有現(xiàn)實(shí)意義。
隨機(jī)對(duì)照試驗(yàn)(randomized-control trial, RCT)具有很好的內(nèi)部效度,被視為因果推斷的金標(biāo)準(zhǔn);但由于其納入排除標(biāo)準(zhǔn)嚴(yán)格,樣本人群對(duì)總體人群的代表性較弱;為了更好地進(jìn)行因果推斷,RCT往往對(duì)干預(yù)措施有一定的限制,這種與實(shí)際情況的差異也會(huì)導(dǎo)致外部效度的下降。另外,RCT也面臨難以操作、成本高昂等問(wèn)題,有時(shí)也會(huì)因?yàn)閭惱韱?wèn)題而難以實(shí)施[9-10]。
由于RCT具有上述局限性,研究者們開(kāi)始尋找通過(guò)觀察性數(shù)據(jù)進(jìn)行因果推斷的方法。國(guó)內(nèi)外已有越來(lái)越多的學(xué)者開(kāi)始使用觀察性數(shù)據(jù)進(jìn)行真實(shí)世界研究,國(guó)內(nèi)也有學(xué)術(shù)組織對(duì)相關(guān)研究建立了方法學(xué)框架。真實(shí)世界研究體系主要包括建立研究型數(shù)據(jù)庫(kù)、研究設(shè)計(jì)、政策轉(zhuǎn)化 3大內(nèi)容。研究者需要從電子病歷、醫(yī)保數(shù)據(jù)庫(kù)等中獲取信息并進(jìn)行整合,“基于科研目的,形成統(tǒng)一、標(biāo)準(zhǔn)化、可用的研究型數(shù)據(jù)庫(kù)形式”[11]。真實(shí)世界研究的設(shè)計(jì)思路與RCT略有不同:RCT需要首先明確研究目標(biāo)并進(jìn)行研究設(shè)計(jì),以此為基礎(chǔ)進(jìn)行干預(yù)并收集數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析與政策建議;真實(shí)世界研究則在明確研究目的后,對(duì)已有的觀察性數(shù)據(jù)進(jìn)行探索與全面了解,以此為基礎(chǔ)形成相應(yīng)的研究設(shè)計(jì),之后對(duì)數(shù)據(jù)進(jìn)行整理與分析,并提出政策建議[5]。
與RCT等干預(yù)性研究比較,真實(shí)世界研究所需要的觀察性數(shù)據(jù)相對(duì)容易獲得,對(duì)總體人群更加具有代表性,外部效度較高;但基于觀察性數(shù)據(jù)進(jìn)行研究設(shè)計(jì)與因果推斷時(shí)面臨內(nèi)部效度較低的問(wèn)題,主要體現(xiàn)為各種偏倚與混雜影響結(jié)果的真實(shí)性、可靠性[12]。
“匹配”是使用真實(shí)世界觀察性數(shù)據(jù)進(jìn)行因果推斷時(shí)的重要方法,可以提高因果推斷的內(nèi)部效度[10]。匹配是為了根據(jù)研究目的從總體的觀察性數(shù)據(jù)集中識(shí)別出這樣一組子數(shù)據(jù)集:這個(gè)子數(shù)據(jù)集由RCT產(chǎn)生,根據(jù)是否接受健康干預(yù)措施可被分為干預(yù)組與對(duì)照組,使兩組樣本在除了健康干預(yù)之外的協(xié)變量情況盡可能一致。如果能夠識(shí)別出這樣的子數(shù)據(jù)集并去除其他樣本,就相當(dāng)于從觀察性數(shù)據(jù)集中識(shí)別出了經(jīng)過(guò)隨機(jī)對(duì)照的研究設(shè)計(jì)得到的數(shù)據(jù)集,便能夠使用觀察性數(shù)據(jù)模擬隨機(jī)對(duì)照試驗(yàn),提升證據(jù)力度與內(nèi)部效度[7]。
最理想的情況下,干預(yù)組中的每個(gè)樣本都能匹配到對(duì)照組中的某個(gè)樣本,且兩個(gè)對(duì)應(yīng)的樣本在所有協(xié)變量上的情況完全一致。這種情況被稱為精準(zhǔn)匹配(exact matching)。在這種情況下,干預(yù)組與對(duì)照組在健康產(chǎn)出上的差異完全由干預(yù)帶來(lái)。但在實(shí)際情況中往往無(wú)法做到精準(zhǔn)匹配,只能為干預(yù)組中的部分樣本匹配到“相似”的樣本作為對(duì)照。此時(shí),健康產(chǎn)出的差異不完全是由干預(yù)帶來(lái)的,因此在匹配后還需要進(jìn)一步借助統(tǒng)計(jì)模型進(jìn)行推斷。
想要得出可信的因果推斷結(jié)論,需要降低模型依賴性和干預(yù)組與對(duì)照組之間的不平衡性。有效的的匹配可以實(shí)現(xiàn)這樣的目的[8]。
2.2.1 匹配降低模型依賴性模型依賴性(model dependence)是指統(tǒng)計(jì)推斷會(huì)受到統(tǒng)計(jì)模型選擇的影響,導(dǎo)致不同的統(tǒng)計(jì)模型可能會(huì)給出不同的結(jié)果,影響結(jié)果的真實(shí)性、可靠性。
使用觀察性數(shù)據(jù)進(jìn)行統(tǒng)計(jì)推斷時(shí),需要基于數(shù)據(jù)情況、研究目的等多種因素進(jìn)行研究設(shè)計(jì)并選擇統(tǒng)計(jì)模型?,F(xiàn)實(shí)情況中,面對(duì)大量的觀察性數(shù)據(jù),研究者難以很好地掌握所有的數(shù)據(jù)細(xì)節(jié),因此并不知道何種統(tǒng)計(jì)模型最適合于當(dāng)前的觀察性數(shù)據(jù)。這時(shí),研究者會(huì)基于經(jīng)驗(yàn)和實(shí)際情況使用多種模型進(jìn)行嘗試,并得到多種研究結(jié)果;之后,研究者會(huì)根據(jù)經(jīng)驗(yàn)與專業(yè)知識(shí)等,對(duì)模型與結(jié)果進(jìn)行選擇、報(bào)告與發(fā)表。在因果推斷的過(guò)程中納入研究者的經(jīng)驗(yàn)與專業(yè)知識(shí)有利于得到更加可信的研究結(jié)果,但也可能導(dǎo)致研究者的偏好、利益相關(guān)等因素影響到模型與研究方法的選擇,進(jìn)而影響研究結(jié)果[7]。
上述情況的存在使模型依賴性成為衡量研究結(jié)果真實(shí)可靠與否的重要維度。有學(xué)者設(shè)計(jì)出了指標(biāo)來(lái)測(cè)算模型依賴性大小,用于衡量統(tǒng)計(jì)推斷結(jié)果對(duì)模型選擇依賴程度。通俗地來(lái)講,對(duì)于一個(gè)數(shù)據(jù)集,如果使用不同模型得出的統(tǒng)計(jì)推斷結(jié)果差異較大,即模型的選擇對(duì)統(tǒng)計(jì)推斷有很大的影響,則被認(rèn)為模型依賴性較大;如果使用不同的模型得出的統(tǒng)計(jì)推斷結(jié)果幾乎沒(méi)有差異,即模型的選擇基本不影響統(tǒng)計(jì)推斷,則被認(rèn)為模型依賴性較小。模型依賴性小的因果推斷更加真實(shí)、可靠;有效的匹配可以降低模型依賴性[7-8]。
2.2.2 匹配降低不平衡性如前文所述,匹配的目標(biāo)是通過(guò)對(duì)真實(shí)世界觀察性數(shù)據(jù)的處理與刪減,使最終篩選出的數(shù)據(jù)集近似從嚴(yán)格設(shè)計(jì)的隨機(jī)對(duì)照實(shí)驗(yàn)中得到的數(shù)據(jù)集;最理想的情況是精準(zhǔn)匹配[13]。因此,可以用匹配后得到的數(shù)據(jù)集與精準(zhǔn)匹配時(shí)得到的數(shù)據(jù)集之間的差距來(lái)衡量匹配的效果,即越接近精準(zhǔn)匹配,則匹配的效果越好;這種差距被稱為“不平衡性(imbalance)”。
數(shù)據(jù)集的不平衡性降低時(shí),其模型依賴性也會(huì)越降低;有效的匹配可以降低數(shù)據(jù)集的不平衡性,同時(shí)也會(huì)降低其模型依賴性;基于這樣的數(shù)據(jù)集得出的因果推斷更加真實(shí)可靠[7]。
有效的匹配應(yīng)該經(jīng)歷兩大步驟:首先,需要將干預(yù)組與對(duì)照組中的“非一般經(jīng)驗(yàn)支持樣本(units outside the common empirical support)”從觀察性數(shù)據(jù)集中去除,否則會(huì)對(duì)研究的外推性提出要求,而這是根據(jù)數(shù)據(jù)本身無(wú)法給出的;然后,在剩余的樣本中,根據(jù)樣本之間的相似程度,將干預(yù)組與對(duì)照組的樣本進(jìn)行匹配。只有識(shí)別出了哪些是可以進(jìn)行有效匹配樣本,才能夠判斷哪些是非一般經(jīng)驗(yàn)支持樣本;但是只有當(dāng)匹配過(guò)程降低了數(shù)據(jù)集的不平衡性,才能夠識(shí)別出能夠有效匹配的樣本;然而,要衡量數(shù)據(jù)集的不平衡性的變化,首先要將非一般經(jīng)驗(yàn)支持樣本去除。雖然研究者們提出了很多識(shí)別、去除非一般經(jīng)驗(yàn)支持樣本的方法,如核密度估計(jì)等,但是這種邏輯循環(huán)卻無(wú)法避免;也因?yàn)槠渌N種困難,很多研究在實(shí)踐中跳過(guò)了第一步驟,直接對(duì)整個(gè)觀察性數(shù)據(jù)集進(jìn)行匹配[8]。
現(xiàn)在最常用的匹配方法之一是 PSM。基于協(xié)變量計(jì)算每個(gè)樣本的傾向性評(píng)分后,將干預(yù)組與對(duì)照組之間評(píng)分最接近的樣本匹配在一起,可以使匹配后的數(shù)據(jù)集接近于通過(guò)完全隨機(jī)對(duì)照試驗(yàn)產(chǎn)生的數(shù)據(jù)集。但是,和大量其他方法一樣,PSM 方法也無(wú)法解決前文提到的邏輯循環(huán)等難題;且由于PSM基于傾向性評(píng)分進(jìn)行匹配,并非直接基于協(xié)變量進(jìn)行匹配,因此無(wú)法保證配對(duì)成功的樣本的協(xié)變量取值相似;在實(shí)踐中需要進(jìn)行多次嘗試,或者加入一些其他限制條件,直到匹配出干預(yù)組與對(duì)照組在協(xié)變量的不平衡性在可接受范圍內(nèi)的結(jié)果。這種匹配方法在不斷地嘗試的過(guò)程中去發(fā)現(xiàn)不平衡性較低的結(jié)果,隨機(jī)性大,效率低下,在某些情況下效果較差。另外,由于PSM通過(guò)匹配來(lái)模擬完全隨機(jī)對(duì)照試驗(yàn),因此會(huì)產(chǎn)生“傾向性評(píng)分悖論(propensity score paradox)”:在數(shù)據(jù)集本身不平衡性較大的時(shí)候,可以一定程度上減少不平衡性;但是若數(shù)據(jù)集的不平衡性本身已經(jīng)較低,希望通過(guò)匹配來(lái)使其進(jìn)一步降低,此時(shí)PSM會(huì)增加其不平衡性[7,14-15]。
King和Nielsen[7]、Iacus等[8]提出的CEM能夠一定程度上克服上述困難。CEM的思想是先“粗化”,再精準(zhǔn)匹配?!按只辈⒎窃谶@里首次出現(xiàn),它是一種研究者常用的數(shù)據(jù)處理方法。比如,對(duì)于教育程度變量,研究者一般會(huì)將其分類為小學(xué)、高中、大學(xué)等,而較少更加細(xì)致地分為小學(xué)一年級(jí)、小學(xué)二年級(jí)等;又如,對(duì)于年齡變量,根據(jù)不同的研究類型,可以將其作為連續(xù)性變量納入研究,也可將其分段并作為分類變量納入研究,這種分段即為粗化思想的應(yīng)用。雖然在匹配過(guò)程中進(jìn)行粗化會(huì)不可避免地帶來(lái)信息的損失,但是CEM后的統(tǒng)計(jì)分析仍然使用原數(shù)據(jù)集中的值,而不是在CEM中粗化后的值;因此,CEM的粗化對(duì)后續(xù)建模與統(tǒng)計(jì)分析帶來(lái)的影響很小。
CEM的實(shí)施可大致分為4步:1)將所有要納入匹配的協(xié)變量記為X= (X1,X2, . . . ,Xk),X是一個(gè)用來(lái)表示每個(gè)樣本在k個(gè)協(xié)變量上取值的k維向量;復(fù)制每個(gè)樣本的X,并記為X*,用于進(jìn)行后續(xù)粗化和匹配。2)根據(jù)研究目的、文獻(xiàn)、國(guó)際標(biāo)準(zhǔn)、研究者的經(jīng)驗(yàn)或?qū)I(yè)知識(shí)等,對(duì)X*中的每個(gè)變量進(jìn)行粗化。3)根據(jù)每個(gè)協(xié)變量的粗化情況建立層,并將所有X*放入相應(yīng)的層內(nèi);例如,如果在第二步中每個(gè)變量都被粗化為了3類,那么在這一步就會(huì)建立3k個(gè)層。4)判斷每個(gè)層中是否同時(shí)存在干預(yù)組和對(duì)照組,如果是,則保留這個(gè)層以及其中的樣本,反之則刪除;最后根據(jù)篩選后留下的X*在原數(shù)據(jù)集中找到對(duì)應(yīng)的X,得到最終的匹配結(jié)果。
與PSM等常見(jiàn)匹配方法相比,CEM具有許多優(yōu)勢(shì)和特性[8,16-17]:1)匹配的有效與否由兩組間的不平衡性判斷,不平衡性降低則匹配有效;CEM 的原理決定了它不會(huì)使不平衡性上升,保證了匹配的有效性。在進(jìn)行粗化時(shí),不平衡性的上限就已被決定,后續(xù)的匹配過(guò)程不會(huì)使不平衡性上升。2)CEM在進(jìn)行粗化和匹配時(shí),對(duì)每個(gè)協(xié)變量的處理是獨(dú)立的,對(duì)一個(gè)協(xié)變量的處理不會(huì)影響其他協(xié)變量的粗化與匹配。研究者可以對(duì)每個(gè)協(xié)變量進(jìn)行單獨(dú)處理,有利于降低兩組間的不平衡性,同時(shí)也能夠單獨(dú)研究每個(gè)協(xié)變量對(duì)降低不平衡性的貢獻(xiàn)。PSM 等方法需要使用所有協(xié)變量構(gòu)建傾向性評(píng)分,并根據(jù)傾向性評(píng)分進(jìn)行匹配,研究者難以對(duì)每個(gè)協(xié)變量進(jìn)行單獨(dú)的處理與研究。3)CEM 符合“一致性原則(congruence principle)”,有利于因果推斷。常用的匹配方法不基于原始數(shù)據(jù)進(jìn)行匹配,如PSM方法基于傾向性評(píng)分進(jìn)行匹配,馬氏距離法使用原始數(shù)據(jù)計(jì)算馬氏距離進(jìn)行匹配,這會(huì)導(dǎo)致因果推斷力度變?nèi)酢EM 基于原始數(shù)據(jù)進(jìn)行匹配,在更加符合直覺(jué)的同時(shí),有利于做出有力因果推斷。4)CEM不需要提前去除非一般經(jīng)驗(yàn)支持樣本。如前文所述,匹配面臨邏輯循環(huán):有效的匹配需要首先去除非一般經(jīng)驗(yàn)支持樣本,而這需要基于有效的匹配。CEM 將去除樣本和匹配兩個(gè)步驟合二為一,在同一個(gè)層中不同時(shí)存在干預(yù)組和對(duì)照組的樣本時(shí),這個(gè)層中的樣本便未被匹配并被去除。這樣的操作簡(jiǎn)單、易理解,且由于不需要提前去除樣本,更有利于比較匹配前后數(shù)據(jù)集的不平衡性,以衡量匹配的效果。5)對(duì)于質(zhì)量較好的數(shù)據(jù)集,CEM能夠保留大量的樣本,且速度比其他匹配方法更快。有研究使用真實(shí)的數(shù)據(jù)集比較不同匹配方法的效果,發(fā)現(xiàn)CEM能夠保留最多樣本量,且計(jì)算機(jī)運(yùn)算時(shí)間最短;也有一項(xiàng)實(shí)證研究對(duì)相同的數(shù)據(jù)庫(kù)分別使用了 PSM和CEM,發(fā)現(xiàn)CEM保留了更多的樣本[8,18-19]。大量的樣本保證了數(shù)據(jù)集對(duì)目標(biāo)人群的代表性,同時(shí)也能夠增強(qiáng)因果推斷的力度。6)CEM可以降低的模型依賴性。由于CEM不會(huì)使不平衡性上升,可以穩(wěn)定地降低數(shù)據(jù)集的不平衡性。模型依賴性會(huì)隨著不平衡性的下降而下降,因此CEM可以在較低的模型依賴性下做出更加可信的因果推斷。另外,CEM可以納入幾乎所有類型的協(xié)變量;CEM可以將缺失作為單獨(dú)的一種取值來(lái)進(jìn)行匹配。CEM的效果受到粗化方式的影響,粗化得越合理、越細(xì)致,則匹配效果越好;不過(guò)有研究在同一數(shù)據(jù)集中嘗試不同的粗化方式,發(fā)現(xiàn)更加合理的粗化方式確實(shí)能夠使匹配后的不平衡性下降得更多,但沒(méi)有明顯的優(yōu)勢(shì),即粗化方式的不同不會(huì)顯著地影響匹配效果,研究者在粗化方式的選擇上有較大的自由空間[8]。
部分實(shí)證研究已采用了CEM。在Pubmed數(shù)據(jù)庫(kù)中以“coarsened exact matching”為關(guān)鍵詞進(jìn)行檢索,截止到2019年4月,共有131篇文獻(xiàn);其中66篇為公共衛(wèi)生領(lǐng)域的實(shí)證性研究,43篇為關(guān)于臨床操作項(xiàng)目的實(shí)證性研究,9篇為關(guān)于臨床用藥的實(shí)證性研究。
大多干預(yù)性研究通過(guò)對(duì)干預(yù)組及其對(duì)照組進(jìn)行匹配,評(píng)估干預(yù)措施對(duì)醫(yī)療費(fèi)用/健康產(chǎn)出的影響,進(jìn)而評(píng)估干預(yù)措施/政策的實(shí)施效果,為監(jiān)管與決策提供證據(jù)。
美國(guó)與歐洲都已開(kāi)始使用真實(shí)世界研究為藥品監(jiān)管提供證據(jù)。美國(guó)食品藥品管理局(FDA)于2018年發(fā)布了《真實(shí)世界證據(jù)項(xiàng)目框架》,指出真實(shí)世界研究可提供健康產(chǎn)品的安全性、有效性證據(jù),可以輔助決策,發(fā)揮加快審批流程等重要作用;歐洲藥品管理局EMA于2018年發(fā)布文件闡述了真實(shí)世界研究在藥品上市前后可以發(fā)揮的不同作用[20-21]。
已有一些真實(shí)世界研究為藥品的監(jiān)管提供了支持。一項(xiàng)2014年的真實(shí)世界研究為Invega Sustenna的適應(yīng)證拓展提供了證據(jù);一項(xiàng)2016年的真實(shí)世界研究作為一項(xiàng)單臂的Ⅱ期臨床試驗(yàn)的對(duì)照,加快了Bavencio在歐洲和美國(guó)的上市;另有三項(xiàng)我國(guó)的回顧性真實(shí)世界研究為貝伐珠單抗在我國(guó)的適應(yīng)證拓展提供了證據(jù)[22-23]。
隨著我國(guó)醫(yī)院電子病歷數(shù)據(jù)庫(kù)、醫(yī)保數(shù)據(jù)庫(kù)等的完善,真實(shí)世界研究能夠在藥品上市后的安全性與有效性評(píng)估、費(fèi)用研究、藥物經(jīng)濟(jì)學(xué)評(píng)價(jià)、預(yù)算影響分析等方面發(fā)揮重要作用,為藥品監(jiān)管與相關(guān)決策提供支持。
真實(shí)世界研究需要采用包括匹配在內(nèi)的多種方法提升其真實(shí)性、可靠性,提升其證據(jù)力度。PSM是最常用的方法之一,它使用協(xié)變量構(gòu)建傾向性評(píng)分,將具有多個(gè)維度的個(gè)體特征壓縮至一維并以之為匹配的依據(jù);CEM不對(duì)個(gè)體特征的維度數(shù)量進(jìn)行壓縮,而是對(duì)每個(gè)維度的取值進(jìn)行粗化,并基于多維特征進(jìn)行匹配。這種原理上的差異產(chǎn)生了匹配結(jié)果上的差異。
一些實(shí)證性研究顯示PSM等匹配方法能夠匹配出更多的樣本,但是要納入所有可能對(duì)結(jié)果有影響的協(xié)變量,否則會(huì)影響結(jié)果的真實(shí)性。CEM能夠避免匹配過(guò)程中的邏輯循環(huán),在匹配后大幅降低干預(yù)組與對(duì)照組之間的不平衡性并降低模型依賴性;但是一些實(shí)證性研究顯示CEM獲得的樣本量較少,特別是在協(xié)變量中包含大量分類變量的情況下,CEM的結(jié)果可能會(huì)失去對(duì)原人群的代表性。樣本量越大則能夠?qū)υ巳河懈玫拇硇?,兩組間越均衡則更能得出真實(shí)可信的結(jié)論;PSM與CEM在這兩方面各有優(yōu)劣,研究者需要結(jié)合數(shù)據(jù)的實(shí)際情況與研究設(shè)計(jì)在樣本量與均衡性兩方面進(jìn)行權(quán)衡,選擇恰當(dāng)?shù)钠ヅ浞椒╗7,15,24-25]。
除了可單獨(dú)使用外,CEM也可與其他匹配方法共同使用,提高匹配效果。比如,可以在CEM將變量粗化、分層并匹配后,將同一層內(nèi)的干預(yù)組與對(duì)照組樣本使用其他匹配方法進(jìn)行二次匹配;或者也可以在CEM之后,對(duì)得到的數(shù)據(jù)集整體直接使用其他的匹配方法再次匹配,此時(shí)是將CEM作為去除非一般經(jīng)驗(yàn)支持樣本的手段,提升匹配效果[8,14]。
CEM是一種優(yōu)秀的匹配方法,但國(guó)內(nèi)還鮮有實(shí)證性研究使用;PSM和CEM各有優(yōu)劣,適用于不同類型的數(shù)據(jù)與研究設(shè)計(jì)。近幾年,越來(lái)越多的研究開(kāi)始使用真實(shí)世界數(shù)據(jù),更加需要基于實(shí)際情況選擇合適的匹配方法,以獲得更加科學(xué)可信的研究結(jié)果。
中國(guó)藥物經(jīng)濟(jì)學(xué)2019年10期