黃笛,黃瑞秀,,郭晨煜,黃橋,曾憲濤,任學群,靳英輝,王行環(huán)
信息時代的來臨,是機遇亦是挑戰(zhàn),在獲取海量信息的同時,我們不得不面臨如何處理這些海量信息的難題。對證據(jù)質量進行分級,并在此基礎上結合患者價值觀和意愿作出推薦是循證醫(yī)學最顯著的特點[1]。依據(jù)循證的理念,將信息按研究要求進行分類、分級并提出明確的推薦意見,可以為決策者進行臨床決策提供有效參考。本文回顧了證據(jù)分級與推薦強度的發(fā)展演進過程,并對目前國際上三十余部指南制定手冊所推薦的證據(jù)分級與推薦強度進行系統(tǒng)歸納、總結,以期為指南制定工作者提供方法學參考。
證據(jù)分級的概念由美國社會學家Campbell和Stanley于20世紀60年代提出,被用于評價教育領域部分原始研究的設計。1979年,加拿大定期體檢特別工作組(Canadaian Task Force on the Periodic Health Examination, CTFPHE;現(xiàn)更名為Canadian Task Force on Preventive Health Care,CTFPHC)首次對醫(yī)學領域的研究證據(jù)進行質量分級并給出了推薦意見[1]。此后,證據(jù)質量和推薦強度的分級進入了不斷探索的快速發(fā)展階段[1-5](表1)。
全球許多組織和機構對證據(jù)質量和推薦強度的分級標準進行了規(guī)范,但標準不一,方法各異。我們對這些分級標準進行歸納總結,其發(fā)展大致有以下特點:
(1)證據(jù)分級標準經(jīng)歷了單純重視研究設計類型——研究設計類型與證據(jù)質量兼顧——證據(jù)體三個階段。早期的分級標準如CTFPHE等基于研究設計類型將RCT列為最高級別的證據(jù),此后David Sackett對該分級標準進行完善,對RCT提出了質量標準,認為大樣本RCT優(yōu)于小樣本RCT,USPSFT進一步結合研究質量對證據(jù)進行分級,而GRADE更是徹底打破了依據(jù)研究設計類型對證據(jù)定級的準則,提出綜合考慮研究設計類型、方法學質量、結果一致性、直接性、精確性等因素來對證據(jù)進行分級。
表1 證據(jù)分級及推薦強度的演進
(2)最高級別的證據(jù)由單個RCT——多個RCT的Meta分析——多個RCT的Meta分析和高質量單個RCT并重轉變。如CTFPHE、David Sackett均將單個RCT列為最高級別證據(jù),而AHCPR、NHMRC將多個RCT的Meta分析列為最高級別證據(jù),NEEBGDP、SIGN等認為高質量單個RCT可以和多個RCT的Meta分析共同作為最高級別證據(jù)。
(3)推薦強度與證據(jù)級別不再一一對應。早期的CTFPHE、David Sackett、AHCPR等將推薦強度與證據(jù)級別一一對應,高質量證據(jù)給予高級別的推薦,而后歐洲臨床營養(yǎng)與代謝學會(EPSEN)、美國耳鼻喉及頭頸外科學會(AAO-HNSF)、GRADE、澳大利亞Joanna Briggs循證衛(wèi)生保健中心(Joanna Briggs Institute,JBI)等組織采用的標準在考慮證據(jù)質量的同時,結合證據(jù)的適用性、患者價值觀與意愿等因素綜合給出推薦意見,此分析理念下高級別的證據(jù)有可能弱推薦,低級別的證據(jù)也有可能強推薦。
(4)證據(jù)來源多樣化。CTFPHE等許多標準將專家意見納入證據(jù)范疇,紐約州立大學下州醫(yī)學中心提出的證據(jù)金字塔也首次將動物研究和體外研究作為最低級別證據(jù)。
(5)從臨床問題的單一方面延伸到多個方面。更多的標準主要關注干預性研究證據(jù)的分級,而OCEBM 2001年的標準則涉及了病因、診斷、預防、治療、危害、預后、經(jīng)濟學分析等7個方面,其2011年發(fā)布的標準則包括了診斷、預后、干預、危害4個方面。
(6)所采用標準從分散趨向統(tǒng)一。由各機構或組織自定標準逐漸向采用統(tǒng)一的更加科學的標準轉變,盡管目前存在較多的標準,但我們查閱34部指南制定手冊[6]后發(fā)現(xiàn),大多數(shù)指南制定手冊推薦采用GRADE或根據(jù)GRADE改編的標準。
2.1 GRADE證據(jù)質量與推薦強度分級方法英國國家衛(wèi)生與服務優(yōu)化研究所(NICE)、歐洲人類生殖與胚胎學會(ESHRE)、中華醫(yī)學會等19部指南制定手冊[7-25]推薦采用GRADE分級方法。其中,中華醫(yī)學會[10]、NHMRC[24]及加拿大醫(yī)學會(CMA)[25]不僅推薦采用GRADE分級方法,還可采用其他分級方法,如中華醫(yī)學會還推薦可采用OCEBM標準,NHMRC可采用其自定分級標準,CMA可采用SIGN及USPSTF標準。
GRADE是由GRADE工作組于2004年推出的證據(jù)質量和推薦強度分級方法。“證據(jù)質量”在指南中被定義為在多大程度上確信效應估計值支持作出推薦,“推薦強度”為在多大程度上確信干預效果利大于弊或者弊大于利。在GRADE分級方法中,隨機對照試驗最初被定為高質量證據(jù),其質量可因5個因素下降,觀察性研究被定為低質量證據(jù),其質量可因3個因素上升,最終證據(jù)質量被分為高、中、低、極低4級(表2)。在綜合考量證據(jù)質量及其他影響因素,如利弊平衡、患者價值觀和意愿、成本的基礎上,GRADE系統(tǒng)將推薦意見分為強、弱兩級(表3)。當明確顯示干預措施利大于弊或弊大于利時,則視為強推薦或強不推薦,當利弊不確定或無論質量高低的證據(jù)均顯示利弊相當時,則視為弱推薦或弱不推薦[1,4,26,27]。
一些指南制定機構盡管推薦采用GRADE,但在應用時對其進行了調整。NICE[7]不推薦通過高、中、低、極低、強、弱等標簽來給證據(jù)質量及推薦強度分級,而建議通過對推薦意見進行描述來體現(xiàn)證據(jù)及推薦級別,如可用“建議”、“提供”等來反映強推薦,用“考慮”來反映弱推薦。同時,相當一部分指南制定機構,如ESHRE[8]、美國遺傳咨詢學會(NSGC)[11]、澳大利亞腎臟健康學會(KHA-CARI)[14]、世界衛(wèi)生組織(WHO)[17]、美國感染協(xié)會(IDSA)[22]更傾向于用“條件性”或“酌情處理”來代替弱推薦。SIGN[28]雖然采用的是其自定的分級方法,但其于2013年對推薦意見的分級方法作了調整,停止使用原來A、B、C、D 的4級分法,改為根據(jù)GRADE對推薦強度進行強、弱分級,其同樣建議用“條件性”取代弱推薦[29]。同時,相當多的指南制定手冊給出了其建議使用的推薦意見描述方法,例如用“we recommend”、“we suggest”等來分別描述強推薦與弱推薦,推薦意見的描述方法將在下一篇系列文章中進行詳細講解。
2.2 其他證據(jù)分級與推薦強度標準34部指南制定手冊中,除19部采用GRADE外,另有4部[30-33]采用根據(jù)GRADE改編的版本、12部[24,25,28,30,34-40]采用各自相應的標準(表4)。其中美國臨床腫瘤學會(ASCO)[30]采用改編自AHRQ,USPSTF和GRADE的標準,但其文中未具體闡述;CMA[25]的分級標準除可采用GRADE外,其證據(jù)分級標準還可采用SIGN及USPSTF,其推薦強度標準亦可采用SIGN及SORT[41];NHMRC[24]首要推薦采用GRADE,也可采用NHMRC分級標準。安大略腫瘤護理(CCO)[42]、國際卒中組織(WSO)[43]及國際糖尿病聯(lián)盟(IDF)[44]未明確指定采用何種分級標準。
2.2.1 證據(jù)分級ACOEM、AAN、SVS[31-33]推薦使用其根據(jù)GRADE改編后的標準對證據(jù)進行分級。ACOEM[31]基于研究質量及數(shù)量將證據(jù)劃分為A、B、C、I共4個等級,至少兩個或以上高質量研究支持被定為A級證據(jù),至少一個高質量和/或多個中等質量的研究支持為B級,至少一個中等質量研究支持為C級,高質量研究證據(jù)不足/證據(jù)相互矛盾/專家共識為Ⅰ級;針對隨機對照試驗和隨機交叉試驗,ACOEM通過11條標準(隨機化、分配隱藏、基線可比、對患者/研究者/評價者施盲、干擾控制、依從性、脫落率、評價時機等價、意向性分析)及偏倚情況對研究質量進行評價,每個條目分別給予0、0.5、1的評分,總分介于0~11分,≤3.5分為低質量,4~7.5分為中等質量,8~11為高質量。AAN[32]將證據(jù)質量劃分為高、中、低、極低4級,將兩個Ⅰ級研究支持定為高級別證據(jù),一個Ⅰ級研究/兩個Ⅱ級研究支持為中級證據(jù),一個Ⅱ級研究/兩個Ⅲ級研究支持為低級別證據(jù),少于兩個Ⅲ級研究支持為極低級別證據(jù);針對干預性研究,AAN用Ⅰ、Ⅱ、Ⅲ、Ⅳ對研究質量進行劃分,在目標人群中進行的RCT、客觀的結果評價、基線可比或進行了差異校正、分配隱藏、結局指標明確、納入排除標準明確等條件滿足時方可被定為Ⅰ級研究,隊列研究同時滿足分配隱藏、結局指標/納入排除標準明確等條件時定為Ⅱ級研究,病例對照研究且詳細描述了影響結果的混雜、客觀地進行了結果評價等時定為Ⅲ級研究,未納入所關注疾病或接受某干預措施的目標人群/未明確定義干預措施或結局測量指標/未描述效應量及統(tǒng)計精確的研究為Ⅳ級研究。SVS[33]借鑒了原美國胸科醫(yī)師協(xié)會CHEST[18]的方法對GRADE進行改編,將證據(jù)分為高、中、低3級,將原GRADE中的“低”與“極低”合并為“低”級以提高使用的便捷性,但其文中也指出改編后的實施效果尚不明確。而我們在查閱了CHEST的證據(jù)分級方法后發(fā)現(xiàn),CHEST已于2014年申明停止使用改編版GRADE,改回使用標準版GRADE,同時采用GRADE的4級證據(jù)分級方法。
表2 GRADE證據(jù)質量分級
表3 GRADE推薦強度
表4 各指南制定手冊的證據(jù)分級與推薦強度標準
表4 各指南制定手冊的證據(jù)分級與推薦強度標準(續(xù)表)
表4 各指南制定手冊的證據(jù)分級與推薦強度標準(續(xù)表)
SIGN、EPSEN、CMA[25,28,34]均推薦采用SIGN證據(jù)分級方法,將證據(jù)分為1++、 1+、1-、2++、2+、2-、3、4,將RCTs高質量的Meta分析、系統(tǒng)評價、偏倚風險非常小的RCTs共同作為1++級證據(jù)。其中EPSEN[34]采用的是SIGN分級系統(tǒng)1999-2012[45],而SIGN在2013年對其分級系統(tǒng)進行了修改,但僅根據(jù)GRADE對其推薦意見分級方法進行了修改,而證據(jù)分級仍延用其原來的方法[29]。國際卒中組織(WSO)[43]指出更多的中風方面的指南使用的是SIGN分級方法,但WSO在文中并未指定采用何種分級方法。新西蘭臨床實踐指南組(NZGG)[35]在評價證據(jù)體質量到形成推薦意見的過程中采用了根據(jù)SIGN改編的判斷表(Considered Judgement Form),其根據(jù)研究的設計類型及質量(plus/minus/neutral,詳細評價標準查見NZGG指南制定手冊 )對證據(jù)進行陳述總結來反映證據(jù)體的質量級別(good/fair/expert opinion/insufficient)。
USPSTF、CMA[25,39]建議采用USPSTF證據(jù)分級方法,依據(jù)研究質量、樣本量、結果一致性、適用性及間接性等將證據(jù)分為高、中、低3級。
AAO-HNSF[40]借鑒OCEBM的分級方法重新自定了證據(jù)分級方法,將證據(jù)分為A、B、C、D、X共5個等級,指代高、中等、低、極低、特殊情況級別的證據(jù),分別對應OCEBM中的1、2、3-4、5、NA,其中隨機試驗的系統(tǒng)評價被定義為A級,即高質量證據(jù),而明顯利大于弊卻無法提供證據(jù)支持的特殊情況就被定義為X級。
NHMRC[24]除推薦采用GRADE外,也可采用NHMRC證據(jù)分級方法,將證據(jù)分為Ⅰ、Ⅱ、Ⅲ-1、Ⅲ-2、Ⅲ-3、Ⅳ,但NHMRC也申明未來將不會對NHMRC證據(jù)分級與推薦強度標準進行更新[46]。
2.2.2 推薦強度ACOEM、AAN[31,32]均根據(jù)GRADE給出其自定的推薦強度標準。如ACOEM[31]根據(jù)證據(jù)質量給出強推薦(A)、中度推薦(B)及弱推薦(C)或強不推薦(A)、中度不推薦(B)及弱不推薦(C),當證據(jù)不足時,可給出基于共識推薦(I)、基于共識無推薦(I)及基于共識不推薦(I)。AAN[32]則將推薦強度分為A、B、C三級,A級指強推薦,基于高質量證據(jù),且明顯獲益大而風險小,B級為中級推薦,基于一般證據(jù),利弊相當,C級為最低級別推薦,效果不明確。
EACTS、ESC、ACCF/AHA[36-38]按干預效果明顯利大于弊、利弊相當或不確定、弊大于利將推薦強度分為Ⅰ、Ⅱ、Ⅲ三級,其中Ⅱ又細分為兩級,更多證據(jù)支持有利的推薦定為Ⅱa,較少證據(jù)支持有利的定為Ⅱb。
USPSTF[39]綜合考慮證據(jù)質量、干預效果的利弊及患者意愿等因素后將推薦強度劃分為A、B、C、D、I共5級,如高質量的證據(jù)顯示利大于弊時會給出推薦使用某干預措施的意見,對應的便是A級推薦。
EPSEN[34]采用SIGN1999-2012分級系統(tǒng)[45],但僅采用了其證據(jù)分級方法,對其推薦意見的分級作了調整。EPSEN將推薦意見根據(jù)研究設計類型、研究數(shù)量、適用性、一致性、外推性等因素分為A、B、O、P級,其中A的推薦級別最高,P則對應的是專家意見或基于指南制定小組經(jīng)驗給出的最佳實踐。
AAO-HNSF[40]基于美國兒科學會(American Academy of Pediatrics,AAP)的分級標準,根據(jù)證據(jù)質量和利弊平衡將推薦意見分為強推薦、弱推薦、有條件推薦,如高質量證據(jù)(級別A/B)顯示利明顯大于弊或弊明顯大于利時會給出強推薦或強不推薦。需要注意的是,由于某些特殊情況而無法開展研究獲取高質量證據(jù),而既往經(jīng)驗和預期結果顯示利明顯大于弊時,仍可作出強推薦;當證據(jù)質量不確定或證據(jù)顯示獲益較少時可結合其他影響因素酌情給出推薦意見。
NHMRC[24]推薦GRADE或其自定的NHMRC分級標準給出推薦意見級別。如可采用GRADE的強、弱分級,亦可根據(jù)證據(jù)級別、應用性等將推薦意見分為A、B、C、D級,當證據(jù)級別較高可用于指導實踐時,則給出A級推薦。
科學合理的證據(jù)分級及推薦強度標準能夠為決策者進行快速決策提供有效參考。明確的推薦意見比證據(jù)級別對決策者的影響更為直接,可以幫助決策者在盡可能短的時間內了解采用某干預措施可能帶來的利弊后果,從而增強決策者的信心。同時,證據(jù)質量是給出推薦意見的一個重要考量因素,對證據(jù)質量缺乏審慎評價易產生誤導性的推薦意見,最終給患者造成傷害。因此,對指南的證據(jù)分級及推薦強度標準進行規(guī)范、采用科學透明且實用性強的證據(jù)質量及推薦強度分級標準是指南科學發(fā)展的必然要求。本文歸納、總結了目前全球三十余部指南制定手冊推薦的證據(jù)質量與推薦強度分級標準,對其分級情況、具體內涵、更新狀態(tài)進行了展示與描述,發(fā)現(xiàn)目前大多數(shù)的指南制定手冊建議采用GRADE或對其進行改編后進行證據(jù)質量和推薦強度分級,另有一部分,特別是早期的指南制定手冊也推薦了各自相應的分級標準,這些分級標準在可讀性、適用性、操作性等方面各有利弊。指南制定者還需根據(jù)各自指南制定的特點有針對性的選擇或調整證據(jù)分級標準。