戚洋洋
上海市重大傳染病和生物安全研究院
北京康特瑞科統(tǒng)計科技有限責(zé)任公司
蔣志偉
北京康特瑞科統(tǒng)計科技有限責(zé)任公司
王永吉
北京康特瑞科統(tǒng)計科技有限責(zé)任公司
夏結(jié)來
西京醫(yī)院
汪萱怡*
上海市重大傳染病和生物安全研究院
復(fù)旦大學(xué)教育部/衛(wèi)健委醫(yī)學(xué)分子病毒學(xué)重點(diǎn)實(shí)驗室
復(fù)旦大學(xué)生物醫(yī)學(xué)研究院
復(fù)旦大學(xué)附屬兒科醫(yī)院
隨機(jī)對照試驗通過隨機(jī)化分組,能夠最大限度地減少有效性估計過程中的偏倚與混雜影響,保證了可靠性。但其有局限性:①試驗人群的高度選擇性,在研究結(jié)論外推時面臨挑戰(zhàn),如新冠病毒疫苗在孕婦人群的使用;②對于發(fā)病率低的罕見病等疾病,試驗難以實(shí)施。1993年,Kaplan 等[1]在雷米普利治療高血壓病療效的前瞻性研究中首次提出了“真實(shí)世界研究(real world study,RWS)”的概念。2016年,美國頒布了《21 世紀(jì)治愈法案》(21st Century Cures Act),提出了開展真實(shí)世界研究的方法,以及由此產(chǎn)生的真實(shí)世界證據(jù)(real world evidence,RWE)在藥物開發(fā)中的應(yīng)用。目前,對于真實(shí)世界研究定義的共識是指針對預(yù)設(shè)的臨床問題,采用預(yù)設(shè)的研究設(shè)計,在真實(shí)世界環(huán)境下按照研究方案系統(tǒng)性收集與研究對象健康有關(guān)的原始數(shù)據(jù)(真實(shí)世界數(shù)據(jù),real world data,RWD)或基于常規(guī)產(chǎn)生的二手?jǐn)?shù)據(jù)進(jìn)行分析,獲得臨床證據(jù)(RWE)的研究過程。概括地說,真實(shí)世界研究就是基于科學(xué)的設(shè)計,收集分析RWD,形成RWE 的研究[2]。
真實(shí)世界研究的流行病學(xué)方法學(xué)進(jìn)展不大,常見的有隊列研究(cohort study)、病例對照研究(case-control study)、家庭續(xù)發(fā)率研究(secondary attack rates in families)。隊列研究由因及果,基于新發(fā)病例,能提供更多關(guān)于疾病自然史的信息以及發(fā)病率和相對風(fēng)險的直接估計,能確立暴露與疾病之間的時間關(guān)系,可以研究與暴露相關(guān)疾病的多種結(jié)局[3-4];但隨訪時間一般相對較長,需要樣本量較大,研究費(fèi)用高,不適于罕見病研究。病例對照研究需要樣本量較小,研究的關(guān)鍵是識別病例,而不是跟蹤大量研究對象,因此經(jīng)濟(jì)、高效。但病例對照研究通常只能分析單一的感染結(jié)局;沒有關(guān)于病例來源的人群信息,無法確定發(fā)病率和流行率;容易產(chǎn)生選擇偏倚、就醫(yī)行為偏倚、回憶偏差等,對疫苗保護(hù)效果的估計帶來偏差。家庭續(xù)發(fā)率研究通過估計指示病例家庭中的疾病續(xù)發(fā)情況,結(jié)合疫苗免疫記錄計算疫苗效果[5-6]。家庭續(xù)發(fā)率研究的優(yōu)勢在于可以降低研究對象間病原暴露的差異所導(dǎo)致的偏倚[7]。因前期的計劃生育政策,國內(nèi)家庭多為三口之家,給該類研究帶來不便。
在新冠病毒大流行期間,一些以往不常用的觀察性流行病學(xué)方法被運(yùn)用到新冠病毒疫苗的效果評價中,包括檢測陰性設(shè)計、實(shí)用性臨床試驗,以及階梯式楔形設(shè)計。檢測陰性設(shè)計在傳統(tǒng)病例對照設(shè)計的基礎(chǔ)上進(jìn)一步發(fā)展,其中對照組人群應(yīng)符合與病例組相同的臨床病例定義,并通過實(shí)驗室檢測結(jié)果進(jìn)行區(qū)分,目標(biāo)病原體檢測陽性者為病例組,檢測陰性者為對照組,同時比較兩組疫苗接種情況,估計疫苗的保護(hù)效果[8]。該設(shè)計中,病例組和對照組通常來自相同的社區(qū)或在同一醫(yī)療機(jī)構(gòu)尋求治療,減少了傳統(tǒng)病例對照設(shè)計所涉及的不同社區(qū)間,由于疫苗獲取和疾病風(fēng)險的差異,以及就醫(yī)行為差異造成的選擇偏倚;可以利用常規(guī)監(jiān)測系統(tǒng),如嚴(yán)重急性呼吸道感染監(jiān)測,經(jīng)濟(jì)、快速評價流感疫苗或新冠病毒疫苗的保護(hù)效果。實(shí)用性臨床試驗旨在評價干預(yù)措施在真實(shí)世界環(huán)境日常實(shí)踐中的有效性[9],表現(xiàn)為對研究對象不進(jìn)行嚴(yán)格的納入和排除限制,具有廣泛代表性,包括弱勢人群[10-11];但保留研究中心層面的隨機(jī)化以減少選擇偏倚[12-13]。階梯式楔形設(shè)計是指干預(yù)措施在若干時間段內(nèi)按順序隨機(jī)給予不同集群,即在初始階段,所有集群都未暴露于干預(yù)措施,隨后每隔一段時間,隨機(jī)將部分集群從對照組轉(zhuǎn)移到干預(yù)組,最終所有的集群都暴露于干預(yù)。該設(shè)計多用于評價疫苗免疫的免疫屏障效應(yīng)。
RWE 源于高質(zhì)量的RWD和科學(xué)的研究設(shè)計。但由于缺乏對研究個體的隨機(jī)化,真實(shí)世界研究統(tǒng)計分析更需密切關(guān)注對混雜或偏倚的控制。不同于真實(shí)世界研究中的流行病學(xué)方法學(xué),對于已知并可測量的混雜,統(tǒng)計學(xué)方法學(xué)除了配對分析、分層分析、協(xié)方差分析以及多因素分析等經(jīng)典方法外,近些年還發(fā)展了一些新的統(tǒng)計方法,例如,對于已知并可測量混雜的傾向評分,以及對于未知或未測量混雜的工具變量。以下對真實(shí)世界研究常用統(tǒng)計學(xué)方法進(jìn)行概述。
傾向評分作為一種分析觀察性研究的方法,應(yīng)用十分廣泛,由Rosenbaum 和Rubin 于1983年在反事實(shí)理論的基礎(chǔ)上首次提出[14]。該方法在真實(shí)世界研究中可用于均衡協(xié)變量的組間分布,各組研究對象根據(jù)評分相同或相近的原則匹配成對,保證整體各匹配組特征協(xié)變量的分布是均衡可比的??梢哉J(rèn)為,不同組間存在的混雜因素基線的不均衡性對處理效應(yīng)估計的影響被抵消了,相當(dāng)于“類隨機(jī)化”或“事后隨機(jī)化”,從而控制組間偏倚,使得RWD 達(dá)到“接近受試者隨機(jī)入組”的效果。
傾向評分模型是由多個協(xié)變量共同構(gòu)建的函數(shù),是指在給定協(xié)變量的條件下,每個研究對象被劃分到處理組的條件概率。假設(shè)在給定協(xié)變量的情況下,第i個研究對象被分入處理組的條件概率表示為:
式中,G代表組別或處理因素,其中G=1 為處理組,G=0 為對照組;X為協(xié)變量向量,X=x1,x2,…,xm。當(dāng)研究對象i所在組別G與協(xié)變量X相互獨(dú)立時,有P(G1,G2,…,Gn|X)=∏Ni=1e(X)Gi{1-e(X)}1-Gi。其中,e(X)即為傾向評分。
即,假如某個研究對象分配到處理組的傾向評分與另外一名雖然擁有不同基線特征(即不同的協(xié)變量取值)且為處理組的研究對象的傾向評分相同,則構(gòu)建此傾向評分的多個協(xié)變量整體上在這兩個研究對象之間是均衡的。
在估計傾向評分后,有4 種研究方法可以使用該評分來控制協(xié)變量:傾向評分匹配、傾向評分分層、傾向評分協(xié)變量調(diào)整和傾向評分逆概率加權(quán),可以提高組間的均衡性,從而減少或者消除協(xié)變量對治療效應(yīng)估計的影響[15]。
傾向評分匹配應(yīng)用最為廣泛,可以將多個協(xié)變量或者混雜因素納入模型估計每個研究對象的傾向評分。針對處理組每個個體,在對照組中匹配與該研究對象評分相同或最相近的研究對象,最終達(dá)到組間協(xié)變量整體均衡。下面介紹傾向評分匹配中最常用的匹配方法:最近鄰匹配(nearest neighbor matching)和卡鉗匹配(caliper matching)。
最近鄰匹配是指將兩組研究對象進(jìn)行隨機(jī)排序,從該組第一例研究對象起到最后一例,依次在對照組中選擇與其傾向評分最接近的研究對象匹配,形成具有相似傾向評分的處理組和對照組匹配數(shù)據(jù)集;而卡鉗匹配較最近鄰匹配需增加一個限制條件,該限制條件為處理組與對照組個體用傾向評分進(jìn)行匹配時,需要在事先設(shè)定的處理組和對照組傾向性得分差值范圍內(nèi)進(jìn)行匹配,即匹配的研究對象之間的傾向評分差異最多相差此固定的卡鉗值寬度。因此,設(shè)定的卡鉗值大小會直接影響處理組研究對象能匹配到對照組研究對象的數(shù)量,較大的卡鉗值意味著在此得分差值范圍內(nèi),能夠匹配到較多較相似的研究對象,匹配后的數(shù)據(jù)集樣本量就越大,但相應(yīng)地會降低組間協(xié)變量的均衡性;而較小的卡鉗值意味著傾向評分更接近,能夠匹配到更相似的研究對象,能夠增加組間協(xié)變量的均衡性,但匹配成功的概率降低,最終導(dǎo)致匹配后數(shù)據(jù)集的樣本量較小,甚至?xí)霈F(xiàn)處理組研究對象無法匹配到對照組研究對象的可能。Cochran 等[16]研究指出,卡鉗值使用兩組傾向評分logit 的合并標(biāo)準(zhǔn)差的60%可以消除由于測量的混雜因素所引起的86%~91%的偏倚,取傾向評分logit 的合并標(biāo)準(zhǔn)差的20% 至少消除98%~99%的偏倚。Austin[17]使用蒙特卡洛模擬來檢驗傾向評分匹配的卡鉗寬度與風(fēng)險差異及均值差異估計間的關(guān)系,在應(yīng)用中推薦使用20%的卡鉗值,或者取兩組間傾向性得分絕對差值為0.02 或0.03 等。根據(jù)近些年的研究成果,傾向評分經(jīng)過logit變換后標(biāo)準(zhǔn)差的百分比較固定值更加適宜。也有研究者對三分組研究中傾向評分匹配的卡鉗值寬度進(jìn)行研究,模擬結(jié)果同樣顯示,卡鉗值取傾向評分經(jīng)過logit 變換后標(biāo)準(zhǔn)差的20%是比較合適的差值范圍[18]。
傾向評分分層是另一種常用的方法,用于調(diào)整研究中處理組和對照組間的系統(tǒng)差異,是將每個研究對象的傾向評分作為分層的標(biāo)準(zhǔn),通過模型估計傾向評分后,確定傾向評分界值的范圍并劃分區(qū)間,將劃分好的區(qū)間作為分層因素進(jìn)行分析。此時,同一分層內(nèi)的基線協(xié)變量的組間分布應(yīng)是均衡可比的。當(dāng)各分層樣本量充足時,可以對每個分層進(jìn)行單獨(dú)的分析,也可以對每個分層的處理效應(yīng)進(jìn)行權(quán)重賦值,再使用加權(quán)平均的方法估計處理效應(yīng)。使用傾向評分分層進(jìn)行分析的關(guān)鍵是合理的設(shè)定分層和權(quán)重,比較分層內(nèi)傾向評分組間是否均衡是檢驗設(shè)定層數(shù)是否合理的方法。
傾向評分協(xié)變量調(diào)整方法是將多個基線協(xié)變量納入模型后計算的傾向評分作為最終的協(xié)變量引入模型中,將結(jié)局變量作為因變量、組別變量或者暴露因素作為自變量、由多個協(xié)變量擬合的傾向評分作為回歸模型中的協(xié)變量進(jìn)行建模,估計處理效應(yīng)。有研究者認(rèn)為,在此傾向評分作為協(xié)變量納入模型的基礎(chǔ)上,還需要納入構(gòu)建該傾向評分的基線協(xié)變量或者與結(jié)局或者處理效應(yīng)相關(guān)的協(xié)變量[19]。協(xié)變量調(diào)整的方法納入所有的研究對象進(jìn)行分析,最大限度地保留了所有的原始數(shù)據(jù)信息,但兩組之間的協(xié)變量可能不具有可比性,不能像傾向評分匹配或傾向評分分層一樣控制研究中存在的偏倚,增加無效估計的可能性;但傾向評分校正是基于模型的分析,因此并不鼓勵使用該方法。
傾向評分逆概率加權(quán)可以調(diào)整觀察性研究中的混雜因素對結(jié)局造成的影響,通過估計每個研究對象的傾向評分,以此為基礎(chǔ)賦值權(quán)重,然后對每個個體進(jìn)行逆概率加權(quán),估計處理效應(yīng)。該方法基于一個以所有研究對象為基礎(chǔ)的虛擬人群(合成樣本)。在該樣本中,觀察對象的暴露分組與可測量的基線協(xié)變量相互獨(dú)立,即組間可測量的協(xié)變量具有近似的分布。有研究者在應(yīng)用時提出了不同的權(quán)重配置方法。一種最常用的方法是逆概率加權(quán),觀察單位的權(quán)重定義為觀察單位實(shí)際接受處理組概率的倒數(shù)[18]。另一種方法是修飾逆概率加權(quán),該方法會定義一個臨界值,臨界值通常根據(jù)權(quán)重分布的百分?jǐn)?shù)來定義,如處理組權(quán)重分布的1%分位數(shù),對照組權(quán)重分布的99%分位數(shù)。權(quán)重超過臨界值的觀察單位會被排除出估計處理效應(yīng)的數(shù)據(jù)集,或?qū)?quán)重統(tǒng)一修飾為臨界值[20-22]。
傾向評分主要分為以下步驟[23]:①根據(jù)專業(yè)意義判斷,以組別變量為因變量,已知可測量的協(xié)變量作為自變量構(gòu)建logistic 或probit 模型。②以現(xiàn)有的RWD擬合模型,估計參數(shù)。③估計每個研究對象的傾向評分,范圍在0~1 之間。④根據(jù)估計的傾向評分,通過傾向評分匹配或傾向評分分層等方法使納入模型的基線協(xié)變量在各組間的分布達(dá)到均衡。⑤選擇合適的統(tǒng)計方法評價使用傾向評分方法后基線協(xié)變量在組間分布的均衡性。⑥采用傳統(tǒng)分析步驟對校正均衡后的RWD 進(jìn)行分析,估計處理效應(yīng)。
在經(jīng)典回歸模型中,最小二乘法成立的重要前提是解釋變量(自變量)與模型誤差項不相關(guān)。如果自變量與結(jié)局變量之間未測量的混雜以及逆向因果關(guān)聯(lián)會使解釋變量與模型的誤差項相關(guān),與經(jīng)典回歸模型的假設(shè)不一致,則效應(yīng)估計量會出現(xiàn)偏倚。上述傾向評分、基于回歸模型調(diào)整協(xié)變量的方法只能控制已知測量的混雜因素,不能控制未知或無法測量的混雜。工具變量由Wright于1928年首次提出,尤其適用于控制未知或無法準(zhǔn)確測量的混雜因素,使用該方法能夠有效控制未觀測到的混雜,從而進(jìn)行自變量與結(jié)局變量的因果推斷,但不能有效地調(diào)整混雜因素或協(xié)變量[24]。其因果圖模型如圖1 所示。
圖1 工具變量的因果圖模型
其中IV表示工具變量,X為暴露(處理因素),Y為結(jié)局,U表示X與Y之間的混雜集合,包括所有的可以測量的混雜因素和未知或不可測量的混雜因素。若某變量與暴露因素X相關(guān),只能通過影響處理因素來影響結(jié)局變量,與暴露和結(jié)局的混雜因素不相關(guān),則該變量可視作工具變量。
工具變量的統(tǒng)計學(xué)原理如下式所示,在傳統(tǒng)最小二乘法統(tǒng)計模型的兩側(cè)加工具變量Z,同時取協(xié)方差。
即σYZ=β1σXZ+σεZ,等式兩側(cè)除以X與Z的協(xié)方差σXZ,則,如σεZ=0,則。只要設(shè)法找到滿足條件的一個工具變量Z,即可得到X相對Y的無偏估計的效應(yīng)量β1。因此,利用工具變量可排除解釋變量中與誤差項相關(guān)的部分,從而得到無偏倚的因果效應(yīng)估計[25]。
工具變量的方法相當(dāng)于在非試驗環(huán)境中模擬了一個隨機(jī)試驗,經(jīng)過隨機(jī)后,組間可比性是可預(yù)期的,與實(shí)際暴露相關(guān),可以直接推斷暴露于結(jié)局的關(guān)系,使混雜因素在組間均衡可比,即能夠很好地解釋暴露因素對研究結(jié)局的影響。
相比傳統(tǒng)的隨機(jī)對照試驗(randomized controlled trial,RCT),真實(shí)世界研究的研究對象納入排除標(biāo)準(zhǔn)更為寬松,因而更具人群代表性;干預(yù)措施更加靈活,總體上更加貼近實(shí)際情況,可以彌補(bǔ)RCT 數(shù)據(jù)證據(jù)的不足,使研究結(jié)果適于外推,提高了外部有效性。同時,研究中也會存在較多的混雜偏倚,因此尤其要注重前期研究設(shè)計,并選擇適宜的統(tǒng)計方法。傾向評分因易于操作、步驟明確及使用效率高等優(yōu)點(diǎn),在觀察性研究中或者非隨機(jī)化研究中使用尤為廣泛,該方法在使用時也應(yīng)考慮其統(tǒng)計效能以及應(yīng)用范圍,在明確可測量混雜因素的基礎(chǔ)上,可以選擇傾向評分。當(dāng)混雜因素未知或者不可測量,工具變量更為合適,但工具變量較難尋找。在新冠病毒大流行期間,全球各主要監(jiān)管機(jī)構(gòu),包括世界衛(wèi)生組織,都以超常規(guī)的程序批準(zhǔn)了疫苗的緊急使用。在此背景下,真實(shí)世界研究設(shè)計與統(tǒng)計分析在新冠病毒疫苗安全性、有效性與持久性確認(rèn),以及疫苗免疫策略的制訂與調(diào)整中展示了極其重要的作用與貢獻(xiàn)。