張方圓,沈傲梅,曾憲濤,強萬敏,靳英輝
高質(zhì)量的系統(tǒng)評價是醫(yī)療決策的重要依據(jù),對系統(tǒng)評價進(jìn)行質(zhì)量評價尤為重要。來自荷蘭、加拿大研究機構(gòu)的臨床流行病學(xué)、循證醫(yī)學(xué)專家于2007年制定并發(fā)表了系統(tǒng)評價方法學(xué)質(zhì)量評價工具AMSTAR(A Measure Tool to Assess Systematic Reviews)[1],在隨后的10年間,AMSTAR成為國際認(rèn)可,應(yīng)用最為廣泛的評價工具[2-6]。隨后大量應(yīng)用AMSTAR工具的相關(guān)文獻(xiàn)出現(xiàn),研究顯示AMSTAR的使用對規(guī)范系統(tǒng)評價制作與報告,促進(jìn)高級別證據(jù)的產(chǎn)生和傳播起到了積極的促進(jìn)作用。2010年國內(nèi)學(xué)者對AMSTAR進(jìn)行了翻譯和解讀,將其正式引入國內(nèi)[7]。在AMSTAR的使用過程中有研究者指出其存在一些問題,如有些條目較難理解或解釋不清、評價選項不合適等,從而影響了評價結(jié)果的準(zhǔn)確性[8-12]。2017年,由原研發(fā)小組專家成員聯(lián)合非隨機干預(yù)研究領(lǐng)域?qū)<摇⑨t(yī)學(xué)統(tǒng)計學(xué)家、工具評價制定方法學(xué)家,在綜合相關(guān)評論性文章、網(wǎng)站反饋意見和自身實踐經(jīng)驗的基礎(chǔ)上,對AMSTAR進(jìn)行修訂和更新,并在2017年9月推出AMSTAR 2[13],其英文版可從http://amstar.ca/docs/AMSTAR-2.pdf上免費獲取。本文旨在對AMSTAR 2進(jìn)行解讀,以期為研究者更清晰地理解和更科學(xué)地使用AMSTAR 2提供參考。
1.1 AMSTAR 2適應(yīng)范圍 AMSTAR 2的適應(yīng)范圍包括基于隨機對照研究(RCTs)或非隨機干預(yù)研究(NRSI)或兩者都有的系統(tǒng)評價。但不包括診斷性試驗系統(tǒng)評價、網(wǎng)狀meta分析、單個病例數(shù)據(jù)的meta分析、概況性評價和現(xiàn)實主義評價。
1.2 AMSTAR 2條目所做更改 與AMSTAR相比,AMSTAR 2保留了原來的十項內(nèi)容,但做了相應(yīng)文字的修改,增加了四項新的內(nèi)容分別是“研究問題和納入標(biāo)準(zhǔn)是否遵循了PICO原則?”,“是否在納入標(biāo)準(zhǔn)中對研究類型的選擇進(jìn)行了說明?”,“meta分析時是否評估了納入研究的偏倚風(fēng)險對meta分析結(jié)果或其它證據(jù)綜合結(jié)果可能產(chǎn)生的影響?”,“是否對研究結(jié)果的異質(zhì)性進(jìn)行了合理的解釋和討論?”。其中有關(guān)異質(zhì)性的條目在AMSTAR中是作為解釋說明的內(nèi)容放在條目9“合成納入研究結(jié)果的方法是否恰當(dāng)?”中的。原評價中的“是否說明相關(guān)利益沖突?”拆分為兩個。
1.3 AMSTAR 2評價選項 AMSTAR 2在第一版的基礎(chǔ)上刪除了“不清楚”和“不適應(yīng)”評價選項,并且根據(jù)評價標(biāo)準(zhǔn)的滿足程度評價為“是”、“部分是”和“否”;完全滿足評價標(biāo)準(zhǔn)時,評價為“是”;部分滿足標(biāo)準(zhǔn)時,評價為“部分是”;當(dāng)系統(tǒng)評價中沒有報告相關(guān)信息時,評價為“否”。各條目評價選項具體的更改情況見表1。
1.4 AMSTAR 2評分原則 AMSTAR 2并不是根據(jù)每個條目的評價結(jié)果提供一個總分,因為高得分可能會掩蓋一些非常嚴(yán)重的方法學(xué)缺陷,如系統(tǒng)評價中存在文獻(xiàn)檢索不全面或沒有對納入的研究進(jìn)行偏倚風(fēng)險評估。因此,AMSTAR 2研發(fā)團隊推薦重點考慮關(guān)鍵的條目是否存在方法學(xué)缺陷,并據(jù)此評價系統(tǒng)評價的總體質(zhì)量即對總的評價結(jié)果進(jìn)行“信心(Overall Confidence)”分級,見表2。盡管系統(tǒng)評價的每個步驟都非常重要,AMSTAR 2研究團隊遴選出影響系統(tǒng)評價制作及其結(jié)果效度關(guān)鍵的7個條目,分別為條目2、4、7、9、11、13和15。需要注意的是,關(guān)鍵條目的選取可以根據(jù)特定的情況進(jìn)行調(diào)整。
條目1指出研究問題和納入標(biāo)準(zhǔn)應(yīng)遵循PICO原則。研究者需在系統(tǒng)評價中明確具體的PICO,確保評價者能夠判斷納入的研究是否合理及是否存在異質(zhì)性,也有助于判斷研究結(jié)果的適用性,必要時補充隨訪期限。評價者需從摘要、引言、方法學(xué)部分提取PICO信息。
條目2要求研究者在系統(tǒng)評價中詳細(xì)說明具有前期設(shè)計方案,當(dāng)與計劃書出現(xiàn)偏離時,要進(jìn)行報告和解釋。制作系統(tǒng)評價前制定詳盡的研究計劃書非常必要,遵循計劃書能夠降低系統(tǒng)評價制作過程中的偏倚風(fēng)險。研究者可通過注冊(如PROSPERO、Cochrane協(xié)作網(wǎng))、公開發(fā)表(如BMJ Open)、提交科研辦公室或倫理委員會對計劃書進(jìn)行審核。當(dāng)能夠獲取計劃書時,評價者還應(yīng)將系統(tǒng)評價與計劃書進(jìn)行對比,當(dāng)全文內(nèi)容與計劃書存在不一致時,作者應(yīng)進(jìn)行說明和解釋。
條目3強調(diào)在納入標(biāo)準(zhǔn)中需要對研究類型的選擇進(jìn)行說明。系統(tǒng)評價中對納入研究類型的選擇應(yīng)該謹(jǐn)慎。僅納入RCT時,需要考慮是否會導(dǎo)致納入的研究不夠全面,如當(dāng)沒有相關(guān)的RCT存在、納入的RCT缺少不良反應(yīng)等不利結(jié)局指標(biāo)、統(tǒng)計效能不足、RCT納入人群存在局限性、干預(yù)/對照措施缺乏代表性;出現(xiàn)以上情況時,為了對研究問題的文獻(xiàn)基礎(chǔ)獲得更全面的總結(jié),可以同時納入RCTs和NRSI。當(dāng)RCT不能提供必須的結(jié)果數(shù)據(jù)時,或已制作完成RCT部分的系統(tǒng)評價時可以僅納入NRSI。無論納入或排除NRSI,作者都應(yīng)予以說明。當(dāng)同時納入RCT和NRSI時,進(jìn)行定量合成則應(yīng)該按照研究設(shè)計的不同分別進(jìn)行。
條目4要求研究者采用系統(tǒng)的檢索策略。至少應(yīng)檢索兩種電子數(shù)據(jù)庫,檢索報告應(yīng)該包括年份及數(shù)據(jù)庫,如Central、EMBASE和MEDLINE等,及采用的關(guān)鍵詞和/或主題詞和全部的檢索策略。還應(yīng)通過檢索綜述、專業(yè)注冊庫,咨詢特定領(lǐng)域的專家以及檢索納入研究的參考文獻(xiàn)進(jìn)行補充。應(yīng)檢索所有相關(guān)語種的文獻(xiàn),當(dāng)有語種限制時應(yīng)進(jìn)行說明?;疑墨I(xiàn)在政策報告或項目評價方面有時是非常重要的資源,需要檢索灰色文獻(xiàn)時,應(yīng)檢索試驗注冊庫、會議摘要、學(xué)位論文以及個人網(wǎng)站上未發(fā)表的報告等資源。
條目5要求文獻(xiàn)的篩選具有可重復(fù)性。文獻(xiàn)的篩選流程包括根據(jù)題目和摘要進(jìn)行初篩,再通過閱讀全文確定納入的文獻(xiàn)。要求至少應(yīng)有兩名評價者獨立進(jìn)行文獻(xiàn)的篩選,意見不統(tǒng)一時,應(yīng)通過共識過程達(dá)成一致。如果一名評價者負(fù)責(zé)文獻(xiàn)篩選時,要求其與另一名評價者先選取文獻(xiàn)樣本,從中篩選符合納入標(biāo)準(zhǔn)的文獻(xiàn)且取得良好的一致性,kappa相關(guān)系數(shù)應(yīng)達(dá)到80%或以上。
條目6要求數(shù)據(jù)的提取具有可重復(fù)性。同樣要求至少有兩名評價者獨立進(jìn)行數(shù)據(jù)提取,基本要求與條目5類似。
條目7要求研究者提供排除文獻(xiàn)清單并說明排除的原因。排除文獻(xiàn)的原因有很多,包括研究人群、干預(yù)措施或?qū)φ战M與研究問題不相符或不相關(guān)。研究者需要提供潛在相關(guān)又不符合納入標(biāo)準(zhǔn)的文獻(xiàn)清單,并標(biāo)注排除文獻(xiàn)的原因。需要注意的是不應(yīng)該根據(jù)偏倚風(fēng)險排除文獻(xiàn)。
條目8強調(diào)應(yīng)對納入的研究進(jìn)行詳細(xì)的描述。應(yīng)詳細(xì)描述納入研究的研究對象、干預(yù)措施、結(jié)局指標(biāo)、研究類型和研究場所等信息。這些信息有助于評價者根據(jù)PICO原則判斷納入的研究是否恰當(dāng),也有助于評價者根據(jù)研究對象和干預(yù)措施判斷該系統(tǒng)評價是否與自身的實踐或政策制定相關(guān)。此外,這些信息也有助于判斷研究間是否存在臨床異質(zhì)性。
條目9指出應(yīng)采用合適的評價工具對納入研究的偏倚風(fēng)險進(jìn)行評估。這是系統(tǒng)評價方法學(xué)質(zhì)量評價過程中至關(guān)重要的一個步驟,尤其是當(dāng)納入NRSI時。評價者需要分析系統(tǒng)評價的作者是否合理的評估了納入研究在避免、減小或控制基線的混雜、選擇性偏倚、實施偏倚、測量偏倚、不完整報道數(shù)據(jù)及選擇性報告結(jié)果等方面所做的工作。推薦使用Cochrane handbook相關(guān)工具,RoB for RCT(http://training.cochrane.org/handbook)和ROBINS-I[14]。第二版RCT偏倚風(fēng)險評估工具也已經(jīng)發(fā)布,將來AMSTAR 2也會推薦應(yīng)用。納入研
究的作者可能采用不同的評價工具進(jìn)行納入研究的方法學(xué)評價,系統(tǒng)評價者需考慮所用工具是否可以全面評價原始研究的方法學(xué)質(zhì)量,有無需要補充的評價項目。評價者仍需注意,評價工具里提到的偏倚是最常見的幾種,深入的評價所有可能的偏倚來源需要相關(guān)方法學(xué)專家的介入。
表1 AMSTAR 2評價清單
條目 描述及評價標(biāo)準(zhǔn)評價選項1 1 作m e t a分析時,系統(tǒng)評價作者是否采用了合適的統(tǒng)計方法合并研究結(jié)果?R C T s:“是”:□作m e t a分析時,說明合并數(shù)據(jù)的理由□是□且采用合適的加權(quán)方法合并研究結(jié)果;當(dāng)存在異質(zhì)性時予以調(diào)整 □否□且對異質(zhì)性的原因進(jìn)行分析 □未進(jìn)行m e t a分析N R S I:“是”:□作m e t a分析時,說明了合并數(shù)據(jù)的理由□是□且采用合適的加權(quán)方法合并研究結(jié)果;當(dāng)存在異質(zhì)性時予以調(diào)整 □否□且將混雜因素調(diào)整后再合并N R S I的效應(yīng)估計,并非合并原始數(shù)據(jù);當(dāng)調(diào)整效應(yīng)估計未被提供時,需說明原始數(shù)據(jù)合并的理由□未進(jìn)行m e t a分析□且當(dāng)納入R C T s和N R S I時,需分別報告R C T s合并效應(yīng)估計和N R S I合并效應(yīng)估計1 2 作m e t a分析時,系統(tǒng)評價作者是否評估了每個納入研究的偏倚風(fēng)險對m e t a分析結(jié)果或其它證據(jù)綜合結(jié)果潛在的影響?“是”:□是□僅納入偏倚風(fēng)險低的R C T s □否□或當(dāng)合并效應(yīng)估計是基于不同等級偏倚風(fēng)險的R C T s和/或N R S I研究時,應(yīng)分析偏倚風(fēng)險對總效應(yīng)估計可能產(chǎn)生的影響□未進(jìn)行m e t a分析1 3 系統(tǒng)評價作者解釋或討論每個研究結(jié)果時是否考慮納入研究的偏倚風(fēng)險?“是”:□僅納入偏倚風(fēng)險低的R C T s □是□或R C T s存在中度或重度偏倚風(fēng)險或納入非隨機研究時,討論偏倚風(fēng)險對研究結(jié)果可能產(chǎn)生的影響 □否1 4 系統(tǒng)評價作者是否對研究結(jié)果的任何異質(zhì)性進(jìn)行合理的解釋和討論?“是”:□研究結(jié)果不存在有統(tǒng)計學(xué)意義的異質(zhì)性□是□或存在異質(zhì)性時,分析其來源并討論其對研究結(jié)果的影響 □否1 5 如果系統(tǒng)評價作者進(jìn)行定量合并,是否對發(fā)表偏倚(小樣本研究偏倚)進(jìn)行充分的調(diào)查,并討論其對結(jié)果可能的影響?“是”: □是□采用圖表檢驗或統(tǒng)計學(xué)檢驗評估發(fā)表偏倚,并討論發(fā)表偏倚存在的可能性及其影響的嚴(yán)重程度 □否□未進(jìn)行m e t a分析1 6 系統(tǒng)評價作者是否報告了所有潛在利益沖突的來源,包括所接受的任何用于制作系統(tǒng)評價的資助?“是”:□是□報告不存在任何利益沖突,或描述資助的來源以及如何處理潛在的利益沖突 □否
表2 系統(tǒng)評價質(zhì)量4個等級的含義
條目10要求研究者報告納入研究的資助來源。商業(yè)資助的研究項目更易出現(xiàn)傾向資助方產(chǎn)品的結(jié)果。研究者需要報告納入研究的資助來源或描述納入研究沒有報告資助來源的情況,進(jìn)而根據(jù)資助來源情況對納入研究的結(jié)果進(jìn)行分析。
條目11強調(diào)進(jìn)行meta分析時,研究者應(yīng)采用合適的統(tǒng)計方法合并研究結(jié)果。在制定系統(tǒng)評價計劃書時,研究者就應(yīng)該詳細(xì)的陳述其進(jìn)行meta分析時遵循的原則,包括獲取單一效應(yīng)量(如納入研究具有同質(zhì)性,但效能低下時),以及根據(jù)異質(zhì)性的大小判斷是否進(jìn)行數(shù)據(jù)合并。對RCTs進(jìn)行meta分析時,需解釋采用隨機效應(yīng)模型或固定效應(yīng)模型的原因,及異質(zhì)性分析的方法。研究者需根據(jù)研究的類型對合并效應(yīng)量分別進(jìn)行報告,如合并了RCT和NRSI,合并效應(yīng)量傾向于樣本量大的研究,NRSI的樣本量可能會較大,但NRSI的偏倚也常常高于RCT,NRSI的納入也會帶來異質(zhì)性的增加。且合并了RCT和NRSI的研究,其合并效應(yīng)量通常也比較精確,因為在進(jìn)行置信區(qū)間計算時是默認(rèn)無偏倚的,而實則NRSI可能存在較大偏倚,故對納入NRSI的置信區(qū)間的解釋應(yīng)謹(jǐn)慎。對NRSI研究結(jié)果進(jìn)行合并時,需對調(diào)整效應(yīng)量而不是原始數(shù)據(jù)進(jìn)行統(tǒng)計合并;此外,當(dāng)調(diào)整效應(yīng)量不可行時,需驗證原始數(shù)據(jù)合并的合理性。
條目12要求研究者進(jìn)行meta分析時,需要評估納入研究的偏倚風(fēng)險對meta分析結(jié)果或其它證據(jù)綜合結(jié)果可能產(chǎn)生的影響。僅納入高質(zhì)量的RCTs時,偏倚風(fēng)險對結(jié)果的影響較小;當(dāng)納入的RCTs質(zhì)量參差不齊時,需要采用回歸分析評估其對研究結(jié)果的影響,或者僅對低偏倚風(fēng)險的研究結(jié)果進(jìn)行效應(yīng)量合并。對納入的NRSI,應(yīng)估計低度或中度偏倚風(fēng)險和/或僅估計低偏倚風(fēng)險研究的合并效應(yīng)量。進(jìn)行定性分析時,同樣需要討論偏倚風(fēng)險對單個研究結(jié)果可能產(chǎn)生的影響。
條目13指出對研究結(jié)果進(jìn)行解釋或討論時需要考慮納入研究的偏倚風(fēng)險。即便是沒有進(jìn)行meta分析也需要在結(jié)果分析時對偏倚風(fēng)險的影響進(jìn)行討論,尤其是納入的研究質(zhì)量高低不同,或納入了NRSI時。既要討論RoB對合并效應(yīng)量的影響,也要討論和解釋是否RoB的不同是納入研究不同效應(yīng)量的原因。當(dāng)制定可能會改變臨床照護(hù)或政策的推薦意見時,一定要對納入研究的偏倚風(fēng)險進(jìn)行充分考慮。
條目14要求研究者對研究結(jié)果的異質(zhì)性進(jìn)行合理的解釋和討論。異質(zhì)性的來源很多,包括研究設(shè)計、分析方法、人群和干預(yù)強度等方面的差異,需根據(jù)PICO原則及偏倚的來源進(jìn)行分析。研究者需要驗證異質(zhì)性存在的可能性,以及就異質(zhì)性對研究結(jié)論和推薦意見產(chǎn)生的影響進(jìn)行討論。
條目15指出研究者進(jìn)行定量分析時,應(yīng)對發(fā)表偏倚進(jìn)行合理的分析,并討論其對結(jié)果可能產(chǎn)生的影響。可以采用統(tǒng)計學(xué)檢驗或圖表輔助評估是否存在發(fā)表偏倚,但其敏感性不高,陰性結(jié)果同樣可能存在發(fā)表偏倚。某種程度上來說,發(fā)表偏倚的嚴(yán)重程度取決于研究的背景,如醫(yī)藥公司資助的研究更可能受到發(fā)表偏倚的影響。因此,研究者需要開展更深層次、更全面的文獻(xiàn)檢索,在結(jié)果分析和討論部分需要考慮發(fā)表偏倚的影響,并進(jìn)行敏感性分析。
條目16強調(diào)對所有潛在利益沖突來源進(jìn)行報告,包括在制作系統(tǒng)評價過程中所接受的任何資助。醫(yī)藥公司資助的系統(tǒng)評價較無資助的研究,得出干預(yù)有效的可能性更高,研究者需報告系統(tǒng)評價制作的直接資助來源;即便未接受資助,若研究者與系統(tǒng)評價中涉及產(chǎn)品的公司存在關(guān)系時,也應(yīng)進(jìn)行報告。此外,研究者專業(yè)利益沖突也應(yīng)給予重視,尤其是當(dāng)研究者在該領(lǐng)域發(fā)表了大量原始研究且被納入到系統(tǒng)評價的制作中時。
AMSTAR 2是在第一版的基礎(chǔ)上,綜合多方的意見,經(jīng)過嚴(yán)格的修訂程序而形成的。與第一版相比,AMSTAR 2細(xì)化了各條目的評價標(biāo)準(zhǔn),完善了評價選項,并提供了系統(tǒng)評價質(zhì)量等級的評價標(biāo)準(zhǔn)。此外,AMSTAR 2還納入了評價NRSI的內(nèi)容,豐富了評價工具的適用范圍。經(jīng)研發(fā)小組驗證,AMSTAR 2具有較好的評價者間一致性和實用性,是一種值得推薦的系統(tǒng)評價方法學(xué)質(zhì)量評價工具。但是,關(guān)于AMSTAR 2的信效度還有待進(jìn)一步的驗證。作為新發(fā)布的評價工具,還需要時間和實踐去不斷完善,希望大家在使用過程中能夠提出寶貴的意見。
致謝:感謝武漢大學(xué)循證與轉(zhuǎn)化醫(yī)學(xué)中心郭毅教授在本文翻譯過程中給予的校訂與建議。
[1]Shea BJ,Grimshaw JM,Wells GA,et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews[J]. BMC Med Res Methodol,2007,7:10.
[2]Pussegoda K,Turner L,Garritty C,et al. Systematic review adherence to methodological or reporting quality[J]. Systematic Reviews,2017,6(1):131.
[3]Seo H,Kim KU. Quality assessment of systematic reviews or metaanalyses of nursing interventions conducted by Korean reviewers[J].BMC Med Res Methodol, 2012,12(1):129.
[4]Lichtner V,Dowding D,Esterhuizen P,et al. Pain assessment for people with dementia:a systematic review of systematic reviews of pain assessment tools[J]. BMC Geriatr,2014,14:138.
[5]Zeng X,Zhang Y,Kwong JSW,et al. The methodological quality assessment tools for preclinical and clinical studies, systematic review and meta-analysis, and clinical practice guideline:a systematic review[J]. Journal of evidence-based medicine,2015,8(1):2.
[6]Jin YH,Wang GH,Sun YR,et al. A critical appraisal of the methodology and quality of evidence of systematic reviews and meta-analyses of traditional Chinese medical nursing interventions:a systematic review of reviews[J]. Bmj Open,2016,6(11):e011514.
[7]熊俊,陳日新. 系統(tǒng)評價/Meta分析方法學(xué)質(zhì)量的評價工具AMSTAR[J]. 中國循證醫(yī)學(xué)雜志,2011(09):1084-9.
[8]Faggion CM. Critical appraisal of AMSTAR:challenges,limitations,and potential solutions from the perspective of an assessor[J]. BMC Medical Research Methodology,2015,15(1):63.
[9]Wegewitz U,Weikert B,Fishta A,et al. Resuming the discussion of AMSTAR:What can (should) be made better?[J]. BMC Medical Research Methodology,2016,16(1):111.
[10]Pieper D,Mathes T,Eikermann M. Can AMSTAR also be applied to systematic reviews of non-randomized studies?[J]. BMC Res Notes,2014,7:609.
[11]Burda BU,Holmer HK,Norris SL. Limitations of A Measurement Tool to Assess Systematic Reviews (AMSTAR) and suggestions for improvement[J]. Systematic Reviews,2016,5(1):58.
[12]Kung J,Chiappelli F,Cajulis OO,et al. From Systematic Reviews to Clinical Recommendations for Evidence-Based Health Care:Validation of Revised Assessment of Multiple Systematic Reviews(R-AMSTAR) for Grading of Clinical Relevance[J]. Open Dent J,2010,4:84-91.
[13]Shea BJ,Reeves BC,Wells G,et al. AMSTAR 2:a critical appraisal tool for systematic reviews that include randomised or non-randomised studies of healthcare interventions,or both[J]. BMJ,2017:j4008.
[14]Sterne JA,Hernan MA,Reeves BC,et al. ROBINS-I:a tool for assessing risk of bias in non-randomised studies of interventions[J].BMJ,2016,355:i4919.