陳耀龍 楊 楠 周 奇
預后因素在不同研究和研究內(nèi)部之間的結(jié)果不一致,因此需要對每個預后因素與結(jié)局風險的估計值進行單獨分級。預后因素應用分為2類,1類與研究設(shè)計和分析相關(guān),包括分層隨機、調(diào)整風險分析和預后模型,可以稱之為“非情景化”;另1類是直接用于患者的醫(yī)生臨床決策,稱之為“情景化”。
預后因素證據(jù)質(zhì)量定義為預后因素對患者群體未來某事件發(fā)生風險估計值的確定性,根據(jù)對預后因素相關(guān)的風險變化(有或無預后因素者未來事件發(fā)生概率)接近估計值的信心程度將預后因素的證據(jù)質(zhì)量分為高、中、低和極低。然后通過以下方式制定本指導:①系統(tǒng)性調(diào)查已發(fā)表的預后因素系統(tǒng)評價和Meta分析;②與其他成員協(xié)商討論和收集反饋意見;③在GRADE工作組例會上介紹和討論。
由于預后因素的最佳證據(jù)通常為觀察性研究(隊列研究、登記或數(shù)據(jù)庫鏈接研究等),因此無論是觀察性研究還是RCT,預后因素研究的起始證據(jù)質(zhì)量均為高,先考慮降級領(lǐng)域,再考慮升級領(lǐng)域。
1.1 降級領(lǐng)域 降級領(lǐng)域包含偏倚風險、不一致性、間接性、不精確性和發(fā)表偏倚等5個領(lǐng)域。
1.1.1 偏倚風險 評估單個預后研究的偏倚風險,主要關(guān)注研究設(shè)計和實施中可能導致高估或低估真實風險比(RR)、危險比(HR)、比值比(OR)。預后研究的質(zhì)量(QUality In Prognosis Studies,QUIPS)評價工具專用于評估針對預后因素研究的偏倚風險[1]。其他偏倚風險工具,如預測模型偏倚風險評估工具(PROBAST)[2]和紐卡斯爾-渥太華量表(NOS)[3]也可用于評估預后研究。
預后因素在很多情況下存在關(guān)聯(lián),單獨考慮1個因素的預測結(jié)果存在誤導,因此研究者在同時考慮多個因素時,需要通過多變量分析進行調(diào)整,找出獨立的預后因素,生成調(diào)整后的估計值。如果證據(jù)中主要是一些未調(diào)整或只調(diào)整部分主要預后因素的研究,就需要對偏倚風險領(lǐng)域進行降級。
不同研究的結(jié)果也可影響偏倚風險的判斷,如果證據(jù)體同時包含高和低偏倚風險的研究,兩者的結(jié)果不一致,則應只選擇低偏倚風險研究的結(jié)果進行合并,不對偏倚風險領(lǐng)域進行降級。如果高偏倚風險和低偏倚風險的研究結(jié)果基本一致,則可以合并所有研究的結(jié)果,高偏倚風險研究在合并結(jié)果中的權(quán)重高可考慮降級,權(quán)重低可考慮不降級。
1.1.2 不一致性 分為3個層次,分別是點估計值的變異性、可信區(qū)間的重疊程度、絕對風險的點估計值與臨床決策閾值的關(guān)系。由于預后研究的樣本量通常很大,可信區(qū)間比較窄,常規(guī)的統(tǒng)計學異質(zhì)性的評估方法(如I2值)很容易提示顯著的異質(zhì)性,因此對不一致性領(lǐng)域的降級需慎重。
在非情景化評估時,當點估計值的可信區(qū)間均位于無效線(RR、HR或OR=1.0)一側(cè)時,無論估計值大小不同或是存在統(tǒng)計學異質(zhì)性,都不需要降級。即使存在異質(zhì)性,如果通過研究假設(shè)可以解釋不一致的結(jié)果,或敏感性分析顯示不一致的研究在合并結(jié)果中權(quán)重較低,也不需要降級。
1.1.3 間接性 是由于目標人群所提供的管理方式與待評估的系統(tǒng)評價中所包含的研究人群的管理方式存在較大差異。在非情景化應用時,目標人群可能是納入臨床試驗的受試者,觀察性研究中受干預影響的人群或是臨床決策指南的潛在目標人群。在情景化應用時,目標人群直接為臨床決策的目標患者。如果研究的結(jié)局不能完全代表所關(guān)注的結(jié)局,也可考慮對間接性領(lǐng)域進行降級。
1.1.4 不精確性 鑒于預后研究的樣本量通常較大,因此無需先判斷樣本量是否滿足最優(yōu)信息樣本量。在非情景化應用時,可直接根據(jù)合并結(jié)果的可信區(qū)間是否跨越無效線,若跨越則認為結(jié)果不精確,需要對不精確性領(lǐng)域進行降級。
在情景化應用時,需要結(jié)合可信區(qū)間和臨床決策閾值關(guān)系進行評估。由于基線風險的不同,相同的點估計值具有不同的絕對風險,因此需要將其轉(zhuǎn)化為絕對風險的差異。如果點估計值處在可信區(qū)間的上下界時,絕對風險差異都不改變臨床決策時,不論可信區(qū)間寬窄或是跨越無效線,均不需要對不精確性領(lǐng)域降級(圖1)。
圖1 基于預后因素的不精確性降級考慮
1.1.5 發(fā)表偏倚 預后因素的發(fā)表偏倚比較常見,特別是對于一些重要的預后因素。漏斗圖是最為常用的非量化發(fā)表偏倚的檢測方式,如果漏斗圖左右不對稱或提示存在研究缺失,則可能存在發(fā)表偏倚。根據(jù)量化檢驗方法(如Begg檢驗、Debray檢驗、Peter檢驗和Egger檢驗等)的顯著性檢測結(jié)果可直接判斷是否存在發(fā)表偏倚風險。
1.2 升級領(lǐng)域 升級領(lǐng)域包含大的效應值、劑量效應關(guān)系和反向混雜。作者暫未發(fā)現(xiàn)預后因素系統(tǒng)評價升級的例子,但在非情景化應用時,觀察到強的關(guān)聯(lián)(RR>5或<0.2),并且在偏倚風險和不精確性領(lǐng)域未降級,則有必要在大的效應值領(lǐng)域升1級,對于非常強的關(guān)聯(lián)(RR>5或<0.2)最多可升2級[4]。
注意事項:①RCT通常對納入人群嚴格限制,部分符合條件的患者可能拒絕參加,如果拒絕參加的原因與預后存在相關(guān),則可能存在偏倚風險,需要進行降級。②在極少見的情況下,醫(yī)生僅評估1個易測量的預后因素,但該因素與其他眾多次要預后因素有關(guān),幾乎與包括所有因素的整體模型預測效果一樣。例如,考慮到臨床醫(yī)生評估D-二聚體正常患者在3個月隨訪期內(nèi)預計有98.9%的概率不會出現(xiàn)血栓,幾乎與Wells臨床預測模型(考慮7個預后因素)得分≤1的患者98.6%的預測概率相同。在這種情況下,對于D-二聚體正常的患者,未經(jīng)調(diào)整的估計值與包括所有相關(guān)變量的模型提供的信息水平基本相同,無需對偏倚風險領(lǐng)域進行降級。③對于系統(tǒng)評價作者和指南制定人員,決策的風險閾值可能不同,導致對不精確性的判斷也不同。指南制定人員依賴系統(tǒng)評價的數(shù)據(jù),系統(tǒng)評價可提供有無預后因素的絕對風險,也有助于研究不同決策閾值的影響。
為進一步推動GRADE在預后因素評估中的應用,本文提出以下建議。
2.1 根據(jù)不同的研究目標開展更多預后因素研究 可分為3種類型:①總體預后研究,旨在建立廣泛定義人群中的典型風險;②預后因素研究,旨在確立特定患者特征如何影響風險;③結(jié)局(或風險)預測模型,旨在開發(fā)一個完整的預后模型,同時考慮一些預后因素將患者劃分為不同的風險等級[5]。
2.2 提高預后研究報告的完整性 預后研究的GRADE分級依賴更多的信息,例如研究人群特征、多因素分析方法等。建議研究者在報告預后研究時可參考加強流行病學觀察性研究的報告(STROBE)聲明[6]和對個人預后或診斷的多變量預測模型的透明化報告(TRIPOD)聲明[7]等報告規(guī)范,保證提供全面的分級信息。
2.3 培訓預后因素的GRADE分級方法 建議針對已掌握干預類研究GRADE分級方法人員進行培訓,快速增加掌握預后因素分級的專業(yè)人員,以適應GRADE方法快速更新的現(xiàn)狀[8]。