蔣青青,王世琦,黃 申,曹世義
華中科技大學(xué)同濟醫(yī)學(xué)院公共衛(wèi)生學(xué)院(武漢 430030)
劑量反應(yīng)關(guān)系指某種暴露或干預(yù)水平的動態(tài)變化與結(jié)局指標(biāo)發(fā)生風(fēng)險的潛在關(guān)系。其在流行病學(xué)領(lǐng)域應(yīng)用非常廣泛,既可用于觀察性研究,也可用于隨機對照試驗,甚至是基因多態(tài)性研究。根據(jù)GRADE證據(jù)評價體系,基于多個提供了劑量反應(yīng)關(guān)系數(shù)據(jù)的原始研究,合理使用函數(shù)模型及參數(shù)估計方法,對其劑量反應(yīng)結(jié)果進行定量合并,得出綜合的劑量反應(yīng)直線或曲線的劑量反應(yīng)Meta 分析(dose-response Meta-analysis, DRMA)是證實因果關(guān)系的強有力證據(jù)。
DRMA模型自2014年正式引入中國后,以曾憲濤、徐暢等人為代表的中國學(xué)者發(fā)表了20余篇相關(guān)方法學(xué)及軟件操作論著。相關(guān)Meta分析系列叢書不斷更新關(guān)于DRMA的制作規(guī)范,極大地促進了DRMA在國內(nèi)的發(fā)展。雖然DRMA的寫作方法日趨成熟,但目前國際上尚無DRMA的統(tǒng)一報告規(guī)范,且已發(fā)表DRMA結(jié)果的可靠性和文章質(zhì)量水平不一。主要原因之一是DRMA的統(tǒng)計方法較為復(fù)雜,部分作者在其統(tǒng)計學(xué)層面的理解和應(yīng)用存在問題。本文系統(tǒng)梳理了DRMA的本質(zhì)、各步驟統(tǒng)計方法及常見統(tǒng)計分析問題,以期從統(tǒng)計學(xué)角度提高國內(nèi)學(xué)者對DRMA的整體理解,為提高DRMA的整體質(zhì)量奠定一定理論基礎(chǔ)。
DRMA指將相同臨床或公共衛(wèi)生問題的不同研究中某種劑量反應(yīng)關(guān)系加權(quán)合并,以獲得“平均”劑量效應(yīng)。本質(zhì)上,DRMA是一種Meta回歸模型,不僅可采用線性分析,也可采用非線性分析[1-2]。線性模型即一次函數(shù)模型,線性關(guān)系主要反映整體變化趨勢,即該直線的斜率;而通過對線性模型引入二次項、三次項或高次項的非線性模型,則更關(guān)注暴露劑量與結(jié)局指標(biāo)發(fā)生風(fēng)險的非線性關(guān)系,即逼近曲線上橫坐標(biāo)任意一點對應(yīng)的縱坐標(biāo)值。
DRMA中兩個最基本的問題就是估算回歸系數(shù)和合并回歸系數(shù)?;貧w系數(shù)的估算方法有多種,如普通最小二乘法(ordinary least square,OLS)、廣義最小二乘法(generalized least squares method,GLST)和最大似然估計(maximum likelihood estimation,ML)等;回歸系數(shù)的合并包括將所有原始研究看成一個整體的“一階段法”和考慮了各原始研究之間異質(zhì)性的“二階段法”。根據(jù)不同回歸系數(shù)估算方法以及劑量趨勢合并方法的任意組合可知,DRMA模型存在多種情況,其中基于“二階段法”的GLST模型是DRMA中應(yīng)用最多的模型[3]。首先通過GLST估算單篇研究的劑量反應(yīng)斜率或曲線,然后根據(jù)經(jīng)典的固定效應(yīng)、隨機效應(yīng)或混合模型將每篇研究的斜率或曲線進行合并。
為了避免重復(fù)研究,我們首先可以在系統(tǒng)評價與Meta分析注冊平臺上查詢是否已經(jīng)存在類似主題且“正在進行中”的研究,其中醫(yī)學(xué)領(lǐng)域內(nèi)應(yīng)用較廣泛的是Cochrane協(xié)作網(wǎng)和PROSPERO國際化注冊平臺[4-5]。目前只有隨機對照試驗的Meta注冊是必須的,其他類型的Meta是非強制性注冊。徐暢等學(xué)者評估了2011—2017年間發(fā)表的DRMA注冊情況,發(fā)現(xiàn)僅有8.51%(45/529)的DRMA于研究前完成注冊,且多變量回歸結(jié)果顯示注冊過的DRMA整體報告質(zhì)量更高[6]。因此,鼓勵并建議大家在進行DRMA前進行注冊,提高系統(tǒng)評價與Meta分析的透明性、可靠性,同時避免偏倚和加強國際合作。
其次,明確相關(guān)原始研究暴露因素有三個及以上劑量組對應(yīng)的效應(yīng)值,并提取文獻中最高劑量組與最低劑量組的相對危險度(relative risk,RR)或比值比(odds ratio,OR)及其95%置信區(qū)間(confidence interval,CI)等數(shù)據(jù)。對提取的相關(guān)數(shù)據(jù)進行二分類Meta分析,得到效應(yīng)量RR或OR的合并值。如果合并的效應(yīng)值有統(tǒng)計學(xué)意義,說明暴露與疾病之間是有關(guān)聯(lián)的,則進一步探討這種關(guān)聯(lián)是否存在劑量反應(yīng)關(guān)系。
通常情況下,原始研究按目的可分為分析性研究和描述性研究。分析性研究包括隨機對照試驗(randomized controlled trial,RCT)、臨床對照試驗、隊列研究、病例對照研究等,描述性研究包括橫斷面研究和生態(tài)學(xué)研究。DRMA只能納入同種研究或同類研究,要么只納入RCT或只納入隊列研究等;要么納入同類研究,如只納入分析性研究或只納入描述性研究。
大部分初學(xué)者會遇到納入文獻偏少而產(chǎn)生能否繼續(xù)做DRMA的質(zhì)疑。對這個問題,可從研究可行性和統(tǒng)計效能角度綜合考慮。首先,2篇及以上的數(shù)量就足夠;其次,評估合并后的統(tǒng)計效能。按照傳統(tǒng)回歸分析的統(tǒng)計效能計算原則,回歸分析中要求每一個變量至少需要10個樣本(部分資料也建議用20個樣本,當(dāng)然樣本越多越好),反映在回歸圖里面,每個樣本就是一個點。同理,將DRMA里面的“暴露層次(每篇至少3層)”當(dāng)作樣本,當(dāng)納入研究暴露層次總和大于10時,合并的結(jié)果被認為具有足夠的統(tǒng)計效能。
確定暴露水平分類的劑量值是DRMA的關(guān)鍵問題。研究通過分析2017年發(fā)表的DRMA中劑量值的確定方法發(fā)現(xiàn)第一組(向下開區(qū)間)、最后一組(向上開區(qū)間)和閉合區(qū)間的劑量值并沒有統(tǒng)一的計算標(biāo)準(zhǔn)[7],各類計算方法見表1。除此之外,將上限值除以1.5或是除以1.2都可能作為向下開區(qū)間的劑量值[8]。建議將多種方法都試一下,看看結(jié)果是否有明顯改變。
表1 2017年發(fā)表的劑量反應(yīng)Meta分析SCI中劑量值的確定Table 1. Determination of dose value in SCI of dose-response Meta-analysis published in 2017
部分原始研究沒有暴露分組的具體數(shù)值,僅對劑量進行了定性描述,如low、moderate、high。建議參照類似研究或權(quán)威數(shù)據(jù)中同地區(qū)人群的暴露量化標(biāo)準(zhǔn),使用此標(biāo)準(zhǔn)當(dāng)作low、moderate、high分組的劑量。因此,可明確近似原則為量化劑量的核心,未來研究需進一步探究劑量值的確定方法。
DRMA原始研究中數(shù)據(jù)要求至少具有三個及以上組別,且需統(tǒng)一各項原始研究參照劑量。通常以每個研究最低劑量組為參照,其它劑量組均與參照組進行對比。在匯總評價劑量反應(yīng)關(guān)系時,如果所有研究的參照暴露水平劑量均為0,則原始劑量直接用于擬合模型。若參照暴露水平不同或不為0,如體重指數(shù)等,則需對參照劑量進行中心化。對于線性模型,將每個原始劑量Xj減去同研究參照劑量X0,而在Liu[9]等提出的二次隨機效應(yīng)模型中,一次和二次項的中心化值不同,分別為 Xj- X0和 X2j– X20。為便于操作,可以通過Excel、R軟件等對參照組進行轉(zhuǎn)換,具體方法可參考周權(quán)等學(xué)者的研究[10-11]。
DRMA對原始研究數(shù)據(jù)的依賴程度較高,一般需要提取研究(id)、研究類型(type)、劑量(dose)、病例(cases)、人數(shù)/人年數(shù)(per-years)、效應(yīng)量、效應(yīng)量的標(biāo)準(zhǔn)誤(SE)等數(shù)據(jù),但原始研究常未提供標(biāo)準(zhǔn)格式數(shù)據(jù)。一方面,可以向原文作者申請索取數(shù)據(jù),但通常應(yīng)答率較低;其次是利用已有數(shù)據(jù)進行估算和轉(zhuǎn)換。具體公式可參考徐暢等發(fā)表的關(guān)于DRMA模型中缺失值的評估及效應(yīng)指標(biāo)的轉(zhuǎn)換一文,其中指標(biāo)轉(zhuǎn)換大致包括以下幾種情況[12]:
(1)估算SE:①原始研究中只提供了RR值及95%CI,可通過Stata中的代碼實現(xiàn)估算 SE:gen double se=( (logub-loglb )/(2*invnorm(.975)))。②原始研究提供了90%、99%或其他置信區(qū)間,估算方法類似[12]。
(2)估算置信區(qū)間(具體計算公式見參考文獻):①根據(jù)P值,計算置信區(qū)間[13]。②根據(jù)四格表資料,計算置信區(qū)間[14]。③根據(jù)標(biāo)準(zhǔn)誤,計算置信區(qū)間[15]。
(3)將OR轉(zhuǎn)換為RR:假設(shè)P1是暴露組結(jié)局事件的發(fā)生率,P0是非暴露組結(jié)局事件的發(fā)生率,則 RR=P1/P0,OR=[P1/(1-P1)]/[P0/(1-P0)]。P0在 小于10%時,OR跟RR基本相等;P0在大于10%時,需要利用公式互換:RR=OR/[(1-P0)+P0*OR]。
DRMA本質(zhì)是回歸分析,關(guān)鍵是選擇線性、分段線性或非線性模型(包括限制性立方樣條函數(shù)模型、多項式模型、靈活分段多項式模型)對其進行擬合[1,16]。通常情況下,首先進行非線性DRMA,然后根據(jù)得出的核心變量結(jié)果對其線性情況進行統(tǒng)計學(xué)檢驗。以下是判斷DRMA線性和非線性關(guān)系常用的三種統(tǒng)計方法:一是非線性檢驗,又稱Wald檢驗,實質(zhì)是卡方檢驗,即檢驗函數(shù)非線性部分的回歸系數(shù)均為0的可能性,若P<0.05,則可認為該函數(shù)為非線性,反之亦然;二是似然比檢驗,分別構(gòu)建并比較線性模型和非線性模型的似然函數(shù),再進行統(tǒng)計推斷,選擇似然性大的模型[3];三是擬合優(yōu)度檢驗,又稱決定系數(shù),它是回歸平方和與總離均平方和的比,在線性和非線性關(guān)系中選擇比值較大的模型。研究顯示,48.39%發(fā)表的DRMA未報告非線性檢驗的指標(biāo)值[7]。未來需根據(jù)統(tǒng)計檢驗結(jié)果,確定DRMA到底是線性關(guān)系還是非線性關(guān)系,并注明模型的顯著性。
各研究間異質(zhì)性的大小是對單篇研究參數(shù)進行加權(quán)合并時模型選擇的判斷依據(jù)。常用的Meta分析異質(zhì)性統(tǒng)計學(xué)指標(biāo)有Q統(tǒng)計量、I2統(tǒng)計量、H統(tǒng)計量等。若Q統(tǒng)計量對應(yīng)的P值<0.10或I2>50%則認為納入的研究之間存在顯著異質(zhì)性[17],此時效應(yīng)值的合并采用隨機效應(yīng)模型中的D-L法(DerSimonian-Laird method);反之采用固定效應(yīng)模型[18]。在線性模型中,固定效應(yīng)模型或隨機效應(yīng)模型均可,因為并不會改變異質(zhì)性檢驗的P值。目前一般分析軟件默認的是固定效應(yīng)模型,隨機效應(yīng)模型需要添加相應(yīng)命令。黃育北等基于Stata的GLST模塊,利用飲酒與肺癌發(fā)病風(fēng)險的分析數(shù)據(jù),詳細介紹了DRMA中各種模型的選擇及分析流程,張超等介紹Stata中DRMA中兩種不同隨機效應(yīng)模型(普通模型和考慮參數(shù)間相關(guān)性的隨機效應(yīng)模型)的應(yīng)用也為初學(xué)者提供了理論參考[19-20]。
非線性DRMA作圖通常用限制性立方樣條(restricted cubic spline,RCS)作為鏈接函數(shù),限定自變量數(shù)據(jù)范圍首尾兩端區(qū)間內(nèi)是線性函數(shù)。定義曲線擬合中平滑的拐點為節(jié)點,實質(zhì)上是一條各節(jié)點處光滑的分段多項式[21]。區(qū)間分段使用百分位數(shù)法,不同節(jié)點數(shù)量及其相應(yīng)百分位數(shù)的選擇見表2。
表2 常見不同節(jié)點數(shù)量及其相應(yīng)百分位數(shù)的選擇Table 2. Selection of number of common different nodes and their corresponding percentile
目前節(jié)點個數(shù)的取值沒有固定標(biāo)準(zhǔn),需根據(jù)樣本量及參考比較不同節(jié)點數(shù)下模型的擬合優(yōu)度進行調(diào)整。Orsini提出,通常使用3或4個節(jié)點進行DRMA繪圖[3]。本研究總結(jié)已發(fā)表的DRMA發(fā)現(xiàn),三個節(jié)點的使用占比最高[7],詳見表3。需要注意的是,模型或節(jié)點的選擇不只是依賴統(tǒng)計學(xué)方法,也需結(jié)合臨床實際問題,且往往其對模型或節(jié)點的選擇意義更重要[22]。
表3 2017年發(fā)表的劑量反應(yīng)Meta分析SCI中限制性立方樣條的節(jié)點數(shù)Table 3. Number of restricted cubic spline in SCI by dose-response Meta-analysis published in 2017
目前,DRMA的實操軟件主要包括Stata,R和SAS軟件等。羅美玲[23]、周權(quán)[24-25]、徐暢[26]、郭鵬[27]等結(jié)合實例闡述了DRMA各步驟的方法并演示了各統(tǒng)計分析軟件中的代碼操作;曾憲濤[28]、張?zhí)灬訹29]等編著的Meta分析指導(dǎo)書籍也為初學(xué)者探索DRMA提供了重要指導(dǎo)。上述3種軟件進行DRMA時各有特點和優(yōu)劣。Stata軟件的操作界面簡約,代碼運用靈活,可結(jié)合使用面板和代碼,具有較強的可操作性。R是一款自由開源軟件,軟件包種類繁多,更新快,圖形制作方面較Stata軟件更精美,呈現(xiàn)能力更強大。SAS軟件做DRMA只需要較少的代碼就能得到所有的分析結(jié)果,但其局限性在于繪圖不夠美觀,以及靈活性不夠。建議合理選用一種統(tǒng)計分析軟件或三者聯(lián)合起來使用,充分發(fā)揮軟件特點,以達到最佳效果。
DRMA模型提出并發(fā)展至今已有30余年,盡管模型已較為完善,但其統(tǒng)計方法上仍存在不足之處[2]。其一,DRMA對數(shù)據(jù)完整性要求較高,通過不同估算方法得出的結(jié)果通常存在差別,建議進行穩(wěn)定性檢驗,以觀察這些估算及轉(zhuǎn)換是否會對整體結(jié)果產(chǎn)生明顯影響[12,30]。其二,當(dāng)前無特定的DRMA偏倚校正方法,一方面可借鑒觀察性研究Meta分析偏倚校正方法,同時還需要根據(jù)反映研究質(zhì)量的內(nèi)部偏倚、反映目標(biāo)設(shè)置普遍性的外部偏倚和實際臨床意義等繼續(xù)攻克偏倚處理這一難題[31]。其三,DRMA目前無有效手段進行檢測與調(diào)整亞組分析中各亞組間的交互作用。
曹世義[7]等發(fā)現(xiàn)已發(fā)表的DRMA論文對PRISMA和AMSTAR的總體依從率相對較低,整體在方法學(xué)和統(tǒng)計學(xué)方面存在不足;張維欣[32]、徐暢[33-34]等發(fā)現(xiàn)中文和英文期刊上發(fā)表的DRMA整體報告質(zhì)量還有待提高。目前國際上暫無統(tǒng)一的DRMA報告規(guī)范,基于DRMA統(tǒng)計分析的復(fù)雜性,一方面可以參考徐暢[35]等研制的適用于中國作者的DRMA報告指南,另外也期望更多學(xué)者致力于劑量反應(yīng)方法學(xué)的研究,促使DRMA在統(tǒng)計分析方法上早日形成國際統(tǒng)一的報告規(guī)范,提高DRMA的整體報告質(zhì)量。