王 瑞 王慧珊 王穎雯 張 萍 張崇凡,
2000年,近20個國家和國際組織共同成立GRADE (Grading of Recommendations Assessment,Development and Evaluation)工作組,制定出證據質量分級和推薦強度標準并于2004年正式推出[1]。GRADE在系統(tǒng)評價和臨床實踐指南制作中都起到了積極的推動作用,逐漸得到更多有影響的學術組織和機構(WHO、Cochrane協(xié)作網和NICE等)的首肯,也得到了主流期刊的審稿專家認可。
GRADE主要特征可以概括為:①基于醫(yī)學相關的廣泛專業(yè)視角制定包括但不限于臨床醫(yī)學、循證醫(yī)學、臨床流行病學、衛(wèi)生統(tǒng)計學、衛(wèi)生政策制定、衛(wèi)生經濟、人文、倫理等;②適用于制作系統(tǒng)評價、衛(wèi)生技術評估及指南;③界定了證據體質量分級,提出證據體的升降級明確和綜合的判斷標準;④強調重要臨床結局對證據的實質影響;⑤基于利弊判斷信心的推薦強度;⑥從證據體的偏倚風險、患者價值觀、公平性、可接受性和可行性等視角做出從證據到推薦意見的綜合判斷。
隨著在系統(tǒng)評價和指南制定中越來越普遍應用GRADE,GRADE的中文翻譯一直比較模糊和不確定,基于字面的翻譯“推薦等級的評估、制定與評價”似乎無不可,但規(guī)范表達和運用非常必要。將GRADE翻譯得精準和有神韻的確有難度(即使是翻譯專業(yè)人士),復旦大學GRADE中心團隊建議翻譯為“證據體評估和推薦意見分級策略”。主要從以下幾點考慮:①GRADE適用于系統(tǒng)評價、衛(wèi)生技術評估及指南制作,不論是證據評估和推薦意見分級,均基于證據,雖然GRADE英文全稱中沒有“evidence”(證據),但意指證據,而且不僅是證據,而應當是證據體。證據體是圍繞最佳決策的全方位信息,包括了臨床問題的提出、經PICO轉化,系統(tǒng)文獻檢索,文獻篩選和評價,形成系統(tǒng)評價/Meta分析,也包括系統(tǒng)評價的證據體到推薦意見的綜合考慮。②圖1為GRADE工作組經典的圖示,藍色框是證據的系統(tǒng)發(fā)現、評價和整合過程(系統(tǒng)評價/Meta分析),翻譯為證據體評估;粉色框為證據體到推薦意見的多視角的決策過程,翻譯為推薦意見分級。③GRADE是可以實現目標的方案集合,也即策略,同樣GRADE英文全稱中中沒有“strategy”(策略),但在行文使用和閱讀理解時體現這是一種策略是必要的。
系統(tǒng)地學習GRADE的系列文獻對于系統(tǒng)評價是必需的。GRADE工作組迄今為止已經連續(xù)在JournalofClinicalEpidemiology發(fā)表了33篇[2-32]體現GRADE方法學研究進展的文章??傮w概括為:展現證據總結表和證據概要表的應用(第1[1]、12和13篇[12,13]),構建問題和證據體的升降級因素(第2~10篇[3-11]),證據到推薦意見的呈現和考慮因素(第14~16篇[15-17]),證據評價新問題研究結果(第11[12]、17~22[18-23]、26~33篇[27-32],第23和25篇尚未刊出,第24篇于2022年2月刊出)。學習這些文獻時,語言的準確理解有一定的難度,臨床醫(yī)生還會受到方法學專業(yè)知識的困惑,特別是第11[12]、17~22[18-23]、26~33[27-32]篇文獻,均是在系統(tǒng)評價和指南制作中運用GRADE的困惑而做出的深入研究和解釋,沒有指南制作經驗的醫(yī)生可能體會不到其精要所在。即使是有經驗的指南制作者在閱讀這些文獻時也常需要深入思考、反復揣摩,甚至與同行、流行病學專家和統(tǒng)計學專家交流學習。
作為臨床醫(yī)生參與指南的制定,第1~16篇[2-17]是理解GRADE的基礎性文章,如果不學習和掌握這些基礎性文獻會存在2個問題,一是與指南制作方法學人員交流有距離,二是不能很好地完成指南制作賦予的分工。作為指南制作方法學人員很好地理解第17~22[18-23]、26~33[27-32]篇文獻更有利于理解和掌握GRADE。
GRADE工作組現已聯(lián)合國際指南協(xié)作網(Guidelines International Network, G-I-N)共同發(fā)布了以GRADE為核心的國際指南從業(yè)資質認證課程(International Guideline Credentialing & Certification Program, INGUIDE)。整套課程分為4個級別,授課對象分別為指南工作組和專家組成員(第1級),指南制作方法學家(第2級),指南工作組主席(第3級),指南方法學培訓師(第4級)。第1~2級課程現已開放注冊。第1級課程共包含4個模塊:①問題重要性排序,②指南工作組成員構成和角色分配、組建指南工作組的過程,③確認指南問題范圍和目標受眾、利益相關者和指南用戶的參與,④利益沖突的管理。第2級課程將針對G-I-N和加拿大麥克馬斯特大學的指南制定清單(GIN-McMaster)中的每一個領域進行詳細講解,包括考慮結局和干預措施的重要性、價值偏好和效用、確定證據的檢索和納入、評價證據體的質量強度和可信程度等內容。
圖1 證據體評估和推薦意見分級策略(GRADE)示意圖
指南的制定是在學習文獻基礎上的實踐探索,再經典的指南制作流程圖,再長時間的理論課學習,都不能代替全程參與指南制作過程的實踐。復旦大學GRADE中心制作指南有9個標準步驟,每個步驟又分為1~12環(huán)節(jié),共135個環(huán)節(jié),在每個環(huán)節(jié)下還會有1~15個要點問題,控制和把握了指南制作的步驟、環(huán)節(jié)和要點的質量,才能保證指南制作的總體質量。遺憾的是,繁瑣的環(huán)節(jié)和要點不總是能發(fā)現問題,比如從證據體到推薦,面對患者價值觀環(huán)節(jié),幾乎無法窮盡這一環(huán)節(jié)需要關注的要點,不同患者病程是不同的,同一患者的生活環(huán)境是動態(tài)的,價值觀隨時可能修正。即使發(fā)現問題也不是總能找到恰當的處理方法,比如,證據體偏倚風險評價有“5降3升”原則,結局指標不精確性的判斷是極為復雜的,要考慮證據體的樣本量,要兼顧效應值的置信區(qū)間,還要求系統(tǒng)評價人員在可能存在不確定因素下預先設置可接受的置信區(qū)間范圍[21],但仍有尚不確定的問題。恰當處理方法也可能存在局限,比如,盡管GRADE工作組系統(tǒng)地檢索、復習和評價目前所有的Meta分析時處理缺失數據的方法,迭代式討論并篩選出最合理的4種處理缺失數據的方法,并在此基礎上最終形成結構化、過程透明、相對更具可操作性和更合理的方法來處理缺失數據并評價其對證據質量的影響[18],但仍不能很好地解決原始研究未能充分報告缺失數據情況下,缺失數據對證據質量的影響,推薦的處理方法仍顯得武斷和主觀,所以GRADE工作組建議在討論數據缺失相關敏感性分析結果時,承認這種局限性。
GRADE方法也在不斷地與時俱進,GRADE組建的39個興趣組(有些興趣小組非?;钴S,少數處于休眠狀態(tài)),針對在指南制作過程中新的或不確定的問題仍在開展研究,研究結果匯總到GRADE工作組進行討論,給出解決方案。
需要引起重視的是,隨著GRADE被廣泛傳播和被知曉,蘭州大學GRADE 中心團隊總結了2019 年中文期刊公開發(fā)表的226篇中國指南[33],10.2%(23 篇)的指南證據質量和推薦強度分級均采用GRADE 分級系統(tǒng),6.6%(15 篇)的指南按照GRADE 工作組要求規(guī)范呈現分級標準及內容。拋開經系統(tǒng)培訓學習并有豐富實踐經驗的指南制作專業(yè)人員,憑著對GRADE淺嘗則止的理解,以GRADE之名未行其實的指南制作是十分危險的,其危害在于:①在形式上混淆了低質量和高質量指南的分辨;②指南制作的科學性、透明性不能得以彰顯,當然用專業(yè)的指南評價工具(如AGERRⅡ)是可以分辨的;③不當和錯誤地運用GRADE步驟、環(huán)節(jié)和要點,可能會產生截然相反的推薦意見;④在指南應用時為可能存在的利益沖突披上了“正義”的外衣。
《中國循證兒科雜志》2021年第6期選擇了16篇[1-32]以英文形式發(fā)表的GRADE方法學研究前沿的文獻,邀請中國4家GRADE中心指南制作專家、國外華人資深指南制作專家、循證醫(yī)學專家、臨床流行病學專家、醫(yī)學統(tǒng)計學專家、醫(yī)學編輯對上述文獻做解讀??偨Y起來,對這些文獻語言的理解是有難度的,對全面完整理解原文的思想仍有距離,盡管如此,依然相信這次專業(yè)的文獻解讀,對更好地、全面地學習和理解GRADE會有極大的幫助。
最后需要說明的是,解讀者是根據對原文的理解進行解讀,但局限于解讀者的角度可能受解讀者經驗和偏好影響,不一定完全反映原文的思想和內容。建議讀者有興趣或需要應用GRADE時,應進一步閱讀原文。
致謝蘭州大學GRADE中心陳耀龍教授,北京GRADE中心劉建平教授,寧波GRADE中心夏君教授,加拿大麥克馬斯特大學健康研究方法證據及影響系姚曉梅教授對本文提出的建議和意見。