劉海波 劉芳 桑紅
210002南京總醫(yī)院皮膚科
國(guó)內(nèi)外的臨床實(shí)踐指南中,存在多種關(guān)于證據(jù)級(jí)別和推薦強(qiáng)度的評(píng)價(jià)系統(tǒng),這些評(píng)價(jià)系統(tǒng)各異,標(biāo)準(zhǔn)不一[1]。為解決該問(wèn)題,多個(gè)國(guó)家和組織包括WHO在2000年成立的“推薦分級(jí)評(píng)價(jià)、制定與評(píng)估(grades of recommendations assessment,development and evaluation,GRADE)”工作組于2004年推出了GRADE證據(jù)質(zhì)量分級(jí)和推薦強(qiáng)度評(píng)價(jià)系統(tǒng)[2]。相比其他評(píng)價(jià)系統(tǒng),GRADE系統(tǒng)具有合理性、規(guī)范性、透明性等優(yōu)點(diǎn)[1,3],已被包括WHO在內(nèi)的一百多個(gè)組織或協(xié)會(huì)采用,成為各國(guó)指南制定的標(biāo)準(zhǔn)。2009年[4]和2013年[5]頒布的“歐洲蕁麻疹診療指南”中均采用了GRADE系統(tǒng)對(duì)證據(jù)質(zhì)量和推薦強(qiáng)度進(jìn)行分級(jí),2009版中,對(duì)二代抗組胺藥物反應(yīng)欠佳的慢性自發(fā)性蕁麻疹患者劑量增加至4倍的方案證據(jù)質(zhì)量為低,推薦強(qiáng)度為弱推薦;而2013版中,該方案已變?yōu)閺?qiáng)推薦。這兩版指南中,證據(jù)質(zhì)量是如何判定的?證據(jù)質(zhì)量為低的意義是什么?強(qiáng)弱推薦對(duì)患者、醫(yī)生以及政策制定者分別意味著什么?又是由什么因素決定的呢?回答這些問(wèn)題必須要理解GRADE系統(tǒng)。GRADE系統(tǒng)在國(guó)內(nèi)指南的制定中已有應(yīng)用[6?8],但尚處于起步階段,皮膚科領(lǐng)域頒布的指南中,尚未采用GRADE系統(tǒng)。本文擬介紹GRADE系統(tǒng),以期未來(lái)皮膚科制定指南能應(yīng)用該系統(tǒng),提高指南的指導(dǎo)性。
近年來(lái)國(guó)內(nèi)發(fā)表了多種常見疾病的診療指南[9?11]。應(yīng)用指南研究與評(píng)價(jià)工具AGREE(appraisal of guidelines for research and evaluation)[12]對(duì)一些指南質(zhì)量評(píng)估發(fā)現(xiàn),中文指南的質(zhì)量盡管逐年上升,但在AGREE包括的6個(gè)評(píng)價(jià)指標(biāo)(范圍與目的、參與的人員、制定的嚴(yán)謹(jǐn)性、表達(dá)的清晰性、應(yīng)用性、獨(dú)立性)方面均低于國(guó)際平均水平[13]。目前中文指南存在的問(wèn)題主要有未注重在國(guó)際實(shí)踐指南注冊(cè)平臺(tái)注冊(cè)以及評(píng)審,未說(shuō)明決策制定過(guò)程及使用的共識(shí)方法、未對(duì)證據(jù)質(zhì)量和推薦強(qiáng)度進(jìn)行分級(jí)(GRADE分級(jí))、未說(shuō)明利益沖突的處理方法等。另外,我國(guó)在患者指南制定方面仍是空白。
國(guó)際指南協(xié)作網(wǎng)(guideline international network,GIN)已經(jīng)建立了全球最大的國(guó)際指南數(shù)據(jù)庫(kù),截至2017年10月,已收錄了來(lái)自88個(gè)國(guó)家的6 423部指南。國(guó)外指南在制定的方法學(xué)上遠(yuǎn)較我國(guó)規(guī)范、合理。2011年,美國(guó)醫(yī)學(xué)科學(xué)院發(fā)布了制定指南應(yīng)該遵循的6大原則[14];2012年,國(guó)際指南聯(lián)盟在《國(guó)際指南聯(lián)盟:邁向臨床實(shí)踐指南制定的國(guó)際標(biāo)準(zhǔn)》一文中明確提出了高質(zhì)量臨床實(shí)踐指南應(yīng)遵循的11條標(biāo)準(zhǔn)[15]。NICE(national institute for health and care excellence)[16]和WHO[17]也對(duì)指南制定的方法和流程做過(guò)多次更新。GIN于2012年推出了第一部患者指南制定手冊(cè),并在2015年進(jìn)行了更新[18]?;颊咧改现饕槍?duì)患者和非專業(yè)人群。以美國(guó)國(guó)家綜合癌癥網(wǎng)絡(luò)(national comprehensivecancernetwork,NCCN)為代表的多個(gè)機(jī)構(gòu)已開始連續(xù)發(fā)布患者指南,它能夠在一定程度上促進(jìn)醫(yī)患溝通和共同決策[18]。2014年,專門針對(duì)指南的注冊(cè)機(jī)構(gòu)國(guó)際實(shí)踐指南注冊(cè)平臺(tái)正式啟動(dòng),極大地促進(jìn)了指南制定過(guò)程的科學(xué)化和透明化[19]。
國(guó)外指南一個(gè)顯著的特點(diǎn)是對(duì)證據(jù)質(zhì)量和推薦強(qiáng)度進(jìn)行了分級(jí)和展示。目前多數(shù)分級(jí)系統(tǒng)將證據(jù)質(zhì)量根據(jù)研究類型分為3級(jí)至6級(jí)不等,例如Ⅰ級(jí)到Ⅳ級(jí)證據(jù),將隨機(jī)對(duì)照試驗(yàn)(RCT)視為Ⅰ級(jí)證據(jù),推薦強(qiáng)度也分為3級(jí)至5級(jí)不等。這些系統(tǒng)晦澀難解,且存在諸多問(wèn)題,如不同RCT實(shí)施的標(biāo)準(zhǔn)相差甚大,有的RCT結(jié)果非常不可靠。GRADE系統(tǒng)是一個(gè)全新的證據(jù)質(zhì)量評(píng)價(jià)體系,它根據(jù)相應(yīng)標(biāo)準(zhǔn)對(duì)存在的相關(guān)研究進(jìn)行證據(jù)質(zhì)量再評(píng)價(jià),將證據(jù)質(zhì)量根據(jù)結(jié)局指標(biāo)效應(yīng)值的可靠程度進(jìn)行分級(jí),避免見到RCT就認(rèn)為是高級(jí)別證據(jù)或見到觀察性研究就認(rèn)為是低級(jí)別證據(jù)的錯(cuò)誤。另外,GRADE系統(tǒng)也為指南中如何進(jìn)行推薦強(qiáng)度分級(jí)提供了一種系統(tǒng)的方法。GRADE系統(tǒng)于2003年被引入《WHO指南制定手冊(cè)》[3],明確定義了證據(jù)質(zhì)量和推薦強(qiáng)度及證據(jù)的升降級(jí)標(biāo)準(zhǔn),注重患者的選擇意愿及就推薦強(qiáng)度的強(qiáng)弱進(jìn)行詮釋等。利用GRADE系統(tǒng)制定指南[20],首先從明確問(wèn)題開始。例如,對(duì)二代非鎮(zhèn)靜類抗組胺藥物療效不佳的慢性自發(fā)性蕁麻疹患者,增加劑量至4倍的方案與其他方案相比,在改善瘙癢、生活質(zhì)量、病情嚴(yán)重程度方面有何優(yōu)勢(shì)?對(duì)于這個(gè)問(wèn)題,先將改善瘙癢、生活質(zhì)量、病情嚴(yán)重程度等結(jié)局指標(biāo)分為關(guān)鍵性與非關(guān)鍵性兩類[20]。其次,收集證據(jù)和形成效應(yīng)估計(jì),經(jīng)檢索納入符合標(biāo)準(zhǔn)的研究,通過(guò)這些研究的數(shù)據(jù)綜合得出每個(gè)結(jié)局指標(biāo)的效應(yīng)估計(jì)值及該估計(jì)值的可信區(qū)間,然后對(duì)證據(jù)質(zhì)量評(píng)級(jí),納入的研究類型為決定證據(jù)質(zhì)量的重要因素[20],RCT被定為高質(zhì)量證據(jù),5種因素可導(dǎo)致證據(jù)質(zhì)量下降;觀察性研究被定為低質(zhì)量證據(jù),3種因素可提高證據(jù)質(zhì)量[3,20]。根據(jù)研究的升降級(jí)因素可在GRADEpro軟件中對(duì)每個(gè)結(jié)局指標(biāo)的證據(jù)質(zhì)量進(jìn)行分級(jí)。總的證據(jù)質(zhì)量應(yīng)基于關(guān)鍵結(jié)局指標(biāo)的證據(jù)質(zhì)量而不是非關(guān)鍵結(jié)局指標(biāo)[20],即如果生活質(zhì)量是關(guān)鍵結(jié)局指標(biāo),其證據(jù)質(zhì)量為極低時(shí),則總的證據(jù)質(zhì)量為極低,而非參考非關(guān)鍵結(jié)局指標(biāo)如瘙癢的證據(jù)質(zhì)量。如有不止一個(gè)關(guān)鍵結(jié)局指標(biāo),則總的證據(jù)質(zhì)量取決于關(guān)鍵結(jié)局指標(biāo)中證據(jù)質(zhì)量最低的評(píng)級(jí)。最后,綜合考慮利弊平衡、患者價(jià)值觀和選擇意愿、資源配置以及證據(jù)質(zhì)量四個(gè)方面的因素來(lái)決定推薦的方向和強(qiáng)度[3]。
以前文所述增加抗組胺藥物劑量至4倍的方案治療慢性自發(fā)性蕁麻疹為例,對(duì)證據(jù)質(zhì)量評(píng)級(jí)。假設(shè)經(jīng)檢索發(fā)現(xiàn)5個(gè)符合標(biāo)準(zhǔn)的RCT,通過(guò)Meta分析,合并結(jié)果后差異有統(tǒng)計(jì)學(xué)意義,得出“來(lái)自高質(zhì)量RCT的Meta分析結(jié)果顯示,增加劑量方案比其他方案在改善生活質(zhì)量方面好”,開始被定為高質(zhì)量證據(jù)。以下5種因素可導(dǎo)致證據(jù)質(zhì)量下降:①研究局限性:研究在分配隱藏方面存在嚴(yán)重問(wèn)題,可能會(huì)導(dǎo)致偏倚;②不精確:5個(gè)RCT樣本量未達(dá)到最佳信息量(optimal information size)[21],合并效應(yīng)量的可信區(qū)間較寬,精確性較差;③結(jié)果不一致:5個(gè)RCT的效應(yīng)大小和方向有不同程度差異,結(jié)果間存在異質(zhì)性;④間接證據(jù):關(guān)注的是生活質(zhì)量指標(biāo),而5個(gè)RCT只報(bào)道了癥狀緩解情況,則對(duì)結(jié)論的信心因間接性而降低;⑤發(fā)表偏倚:5個(gè)RCT全部或部分由企業(yè)贊助,有陰性結(jié)果的研究未發(fā)表,存在發(fā)表偏倚可能。使用GRADE系統(tǒng)綜合這5個(gè)方面的因素[20]對(duì)證據(jù)質(zhì)量重新評(píng)價(jià)后,可能會(huì)得出證據(jù)質(zhì)量為低甚至極低的結(jié)論。對(duì)于觀察性研究的證據(jù)質(zhì)量評(píng)級(jí),則可能會(huì)因?yàn)棰傩?yīng)量大,②存在劑量-反應(yīng)關(guān)系和③所有混雜或其他偏倚因素增加我們對(duì)效應(yīng)估計(jì)值的信心這3個(gè)因素的影響,由低質(zhì)量上升為高質(zhì)量證據(jù)[22]。因此,由GRADE系統(tǒng)評(píng)價(jià)證據(jù)質(zhì)量是十分必要的,對(duì)證據(jù)質(zhì)量認(rèn)識(shí)不足,可能導(dǎo)致指南推薦不當(dāng)。GRADE系統(tǒng)將證據(jù)質(zhì)量分為高、中、低、極低四類,高級(jí)質(zhì)量(high):非常確信真實(shí)的效應(yīng)值接近效應(yīng)估計(jì)值;中級(jí)質(zhì)量(moderate):對(duì)效應(yīng)估計(jì)值有中等程度的信心,真實(shí)值有可能接近估計(jì)值,但仍存在二者大不相同的可能性;低級(jí)質(zhì)量(low):對(duì)效應(yīng)估計(jì)值的確信程度有限,真實(shí)值可能與估計(jì)值大不相同;極低質(zhì)量(very low):對(duì)效應(yīng)估計(jì)值幾乎沒(méi)有信心,真實(shí)值很可能與估計(jì)值大不相同[23]。
GRADE系統(tǒng)的推薦強(qiáng)度只有強(qiáng)推薦和弱推薦兩級(jí),這兩級(jí)推薦強(qiáng)度對(duì)患者、臨床醫(yī)生和政策制定者的意義GRADE工作組也提供了明確的指導(dǎo)意見[24]。GRADE工作組建議指南制定者敘述時(shí)可使用“We recommend”和“We suggest”來(lái)分別表達(dá)“強(qiáng)”和“弱”推薦[25],前文提到的2009版[4]和2013版[5]歐洲蕁麻疹診療指南采用了這種表達(dá)方式。推薦強(qiáng)度分級(jí)要綜合考慮4個(gè)關(guān)鍵因素:利弊平衡、證據(jù)質(zhì)量、價(jià)值觀和選擇意愿以及資源配置[24]。以使用奧司他韋治療H5N1禽流感患者為例,展示如何給出推薦強(qiáng)度:①利弊平衡:對(duì)使用奧司他韋的獲益并不是很確定,因?yàn)槎鄠€(gè)重要或關(guān)鍵結(jié)局指標(biāo)沒(méi)有觀察;②證據(jù)質(zhì)量:極低;③價(jià)值觀和選擇意愿:考慮到H5N1禽流感的高死亡率以及奧司他韋較低的不良反應(yīng),所有患者可能都愿意接受治療;④成本(資源配置):考慮到H5N1禽流感零星散發(fā)的特點(diǎn),價(jià)格可以接受。綜合這4個(gè)方面因素,給出弱推薦的可能性較大。對(duì)臨床醫(yī)生而言,弱推薦的意義為“你應(yīng)該認(rèn)識(shí)到不同的治療選擇在不同患者身上都有其合理性,你應(yīng)該幫助每個(gè)患者做出符合他或她本人價(jià)值觀和選擇意愿的處理決定”。但是,不同專家給出的推薦強(qiáng)度意見可能不一致,如有的專家可能考慮到價(jià)值觀和選擇意愿方面,由于H5N1禽流感的高死亡率及所有患者均可能愿意接受治療,則給出強(qiáng)推薦的建議。在這種情況下,則需指南委員會(huì)成員討論或者投票來(lái)決定推薦強(qiáng)度。
GRADE系統(tǒng)提供了一套規(guī)范的證據(jù)質(zhì)量分級(jí)和推薦強(qiáng)度分級(jí)體系,它對(duì)證據(jù)質(zhì)量升降級(jí)的因素做了詳細(xì)的解釋,也對(duì)如何從證據(jù)到質(zhì)量做了明確的定義[20,24]。首先需理解GRADE系統(tǒng),我們才能理解歐洲蕁麻疹診療指南中證據(jù)質(zhì)量和推薦強(qiáng)度是如何判定的以及它們所代表的意義。在指南中給出證據(jù)質(zhì)量對(duì)未來(lái)的研究還有一定的啟發(fā)性。如2009版歐洲蕁麻疹指南中,增加至4倍劑量的抗組胺藥物方案應(yīng)用于反應(yīng)不佳的慢性自發(fā)性蕁麻疹患者,為低質(zhì)量證據(jù)。正是基于這一點(diǎn),后續(xù)研究者針對(duì)該方案設(shè)計(jì)了一系列RCT研究[5],由于新的研究加入,其證據(jù)質(zhì)量發(fā)生了變化,相應(yīng)的推薦強(qiáng)度也發(fā)生了變化。因此,在2013版本中將該方案的推薦強(qiáng)度由原來(lái)的弱推薦提高至強(qiáng)推薦[4?5]。國(guó)內(nèi),北京大學(xué)第三醫(yī)院曾在GRADE中國(guó)中心的幫助下制定并發(fā)表了基于GRADE系統(tǒng)的指南[6,26],因其制定過(guò)程規(guī)范而被美國(guó)國(guó)家指南文庫(kù)收錄。皮膚科醫(yī)生也應(yīng)該認(rèn)識(shí)到在指南中應(yīng)用GRADE系統(tǒng)的必要性和重要性,并積極與GRADE中國(guó)中心、AGREE工作組、GIN等國(guó)內(nèi)外組織合作,制訂質(zhì)量更高的指南。