周 奇 張 淵 楊 楠 陳耀龍
臨床決策不僅要考慮研究的證據質量,還需要考慮結局指標的重要性、患者偏好與價值觀、利弊平衡、資源使用、公平性、可接受性、可行性等因素,最后綜合上述因素給出臨床決策最佳的方向和強度[1,2]。
本文重點解讀GRADE工作組推出的系列文章的第19篇中的偏倚風險和間接性進行可靠性分級的原理[3]。由于結局指標重要性也可表述為患者偏好與價值觀,下文統(tǒng)一簡稱為“結局重要性”。需要說明的是,在解讀中以文獻[4]為例,深化理解GRADE在結局重要性上的運用,以期更清晰地理解和正確使用GRADE。
基于前期的文獻回顧、具體實例運用和專家線上咨詢等主要過程,GRADE工作組形成了針對“結局重要性”進行證據質量分級的方法學指導。該方法學指導于2017年4月的GRADE工作組會議上被正式通過[3,5]。該方法學指導與此前干預性研究的證據體分級原理類似,在進行結局重要性證據分級時,所有研究設計的證據都從“高質量”開始,然后基于5個降級因素[6-11]的考量,最終給出綜合性證據等級:高、中等、低或極低質量。本文將解讀如何基于“偏倚風險”和“間接性”2個降級因素對結局重要性進行證據分級;“不一致性”、“不精確性”及“發(fā)表偏倚”降級因素在GRADE指南20[12]中解讀。
1.1 偏倚風險 GRADE工作組確定了4個影響“結局重要性”研究偏倚風險的領域(表1):①受試者遴選領域:指入選的研究樣本在多大程度上反映預期人群,如果不同的人群特征與結局重要性有關,不恰當的樣本選擇將導致對結局重要性的估計出現偏差。②數據完整性領域:指應答者和未應答者在多大程度上相似,隨訪過程中的高失訪率或橫斷面研究的低回復率可能導致參與者與未參與者在結局重要性上存在系統(tǒng)差異。③測量工具領域:指多大程度上選擇了有效的工具測量結局重要性,并且測量結果得到管理。④數據分析領域:是指估計值在多大程度上被不恰當的數據分析扭曲,而分析中的調整、分層和模型選擇能否避免混雜因素造成的結果扭曲。
針對偏倚風險的4個評價領域,評價者需要對7個標志性問題進行回答,每個標志性問題回答結果為“是”(Y)、“可能是”(PY)、“可能不是”(PN)或“不是”(N),基于回答結果對各個領域給出偏倚風險的程度——“低偏倚風險”、“中等偏倚風險”、“高偏倚風險”、“極高偏倚風險”。最終基于4個領域的偏倚風險程度,給出總體的偏倚風險,即低、中等、高、極高偏倚風險(表1)。
1.2 間接性 在間接性方面,GRADE工作組提出2個影響結局重要性的領域(表2)。①PICO的間接性:如果納入證據體的研究人群、干預方案和測量結局與研究問題所關注的研究人群、干預方案和測量結局不一樣,勢必會降低對證據體結果的可靠程度[13]。例如:關注的臨床問題是“糖尿病患者最關心哪些預后結局?”,此時針對該臨床問題系統(tǒng)評價納入的人群中,有20%左右的人群是高血糖人群,那么在“P”這個層面上,證據體存在一定的間接性,通常需要降級。②方法學的間接性:用于形成結局重要性的方法也可能作為間接性的來源。例如,研究人員使用間接測量工具(即多屬性效用量表)來衡量結局的效用,而這些工具的開發(fā)和映射算法,一般是基于其他人群樣本,因此會存在間接性[14]。
表1 偏倚風險評價領域和標志性問題
針對間接性的2個評價領域,評價者需要對4個標志性問題進行回答。基于回答結果,綜合得出證據體需要降級的級數。
表2 間接性評價領域和標志性問題
文獻[4]中針對靜脈血栓栓塞性疾病管理的系列結局進行了重要性證據分級,本文節(jié)選了其中“預防性使用醫(yī)療裝置的治療負擔”和“不良事件”兩個結局,對偏倚風險和間接性的分級進行實例解讀(表3)。
表3 VTE管理重要性結局的偏倚風險與間接性分級
2.1 預防性使用醫(yī)療裝置的治療負擔 3篇橫斷面研究[15-17]評估了預防性使用醫(yī)療裝置的治療負擔的重要性,其分級結果顯示:在偏倚風險方面,在測量工具領域均存在不同程度的偏倚,尤其是文獻[17]研究者直接采用詢問的方式獲取受試者更喜歡的給藥途徑,而沒有采用合理的測量工具。除此之外,研究者也沒有核查受試者是否理解工具的含義,同時也沒有描述治療后的可能結局。因此,基于3篇中等或高偏倚風險的研究,在偏倚風險方面降1級。在間接性方面,3篇研究在PICO方面存在間接性,文獻[16]評估的是順序壓縮裝置和血栓彈力襪干預的效果,而文獻[15,17]評估的是足泵裝置的干預效果??紤]到足泵裝置干預與研究問題所關注的干預措施有所差異,因此在間接性方面也需要降1級。
2.2 治療相關的不良事件 4篇橫斷面研究[18-21]評估了治療相關不良事件的重要性,其分級結果顯示:在偏倚風險方面,僅文獻[19]為低偏倚風險,文獻[18,21]未闡述受試者人群的回復率,文獻[20]未給出明確的抽樣方法,文獻[18,20]直接采用詢問方式獲取受試者更喜歡的給藥途徑,而未采用合理的測量工具。綜合4篇研究,在偏倚風險方面降1級。在間接性方面,基于對4個標志性問題判定后,4篇研究在PICO和方法學上均未發(fā)現相關的間接性,故不降級。
3.1 結局重要性評價并非結局測量工具 結局重要性是患者或受試者對結局的價值觀偏好,此前尚無專門的評價工具,而原文作者首次提出了結局重要性研究偏倚風險的評估工具。結局測量工具是對結局的定義和量化,可以采用基于共識的衛(wèi)生測量工具選擇標準(COSMIN)進行評估[22],因此兩者在本質上的使用是有所差異的。
3.2 結局重要性的偏倚風險評價與干預性研究判斷類似 每個領域的偏倚風險對結局重要性研究估計值的影響大小分為低、中等、高、極高,只有所有領域為低偏倚風險時,該研究才為低偏倚風險,而只要有1個領域為極高偏倚風險,研究即為極高偏倚風險。結局重要性的證據體根據有偏倚風險的研究對證據體的貢獻評為不嚴重、嚴重或非常嚴重,分別選擇不降級、降1級和降2級[23]。
3.3 系統(tǒng)評價和指南對間接性的判斷有所差異 在大多數情況下,系統(tǒng)評價作者只納入符合PICO納入標準的研究,保證直接性,僅有少數情況在人群和結局測量方面存在間接性[10]。指南評價結局重要性的目的相比系統(tǒng)評價更為具體,因此證據的間接性判斷更為普遍。例如,對于比較出血風險重要性的系統(tǒng)評價而言,服用阿司匹林后發(fā)生的出血與服用華法林后發(fā)生的出血相比不存在間接性,但在指南制定中,患者服用華法林帶來的出血風險相比阿司匹林帶來的出血風險顯得更為重要。
結局指標重要性的證據分級原理雖然相對于以往干預性、診斷性研究證據分級而言有所差異,但整體上都是圍繞5個降級因素進行的。盡管結局重要性評估對指南決策具有重要意義,但調查研究顯示中國指南和WHO指南應用GRADE的比例(9.5%vs81.3%)和報告結局遴選的比例(9.9%vs81.3% )都低[24-26]。為進一步改善我國指南對結局重要性評估的推廣與應用,國內已成立的蘭州大學GRADE中心、寧波諾丁漢 GRADE中心、北京GRADE中心、復旦大學GRADE中心應聯合起來,未來就結局重要性研究的開展、患者參與指南制定、結局重要性分級方法的使用等優(yōu)先主題開展相應的方法學研究。