夏 君 劉海波 劉 欣 張 淵
在做衛(wèi)生決策時需要對結(jié)局指標(biāo)的重要性進(jìn)行評估,需要探索人們對研究者試圖影響的那些結(jié)局指標(biāo)的關(guān)注程度如何。例如,慢性阻塞性肺病(COPD)患者表示愿意付出13.46美金的代價來避免輕度不良事件的發(fā)生,而愿意付出67.51美金的代價來獲得癥狀的緩解。這個例子說明COPD患者的價值偏好中更注重“癥狀緩解”,換言之,患者賦予“癥狀緩解”這個臨床結(jié)局更高的價值或權(quán)重。本文關(guān)注如何用GRADE方法來判斷結(jié)局指標(biāo)的相對重要性類研究證據(jù)的把握度。
對結(jié)局指標(biāo)重要性的把握度也會影響到證據(jù)產(chǎn)生決策的過程,結(jié)局指標(biāo)之間的重要程度差異會影響到對干預(yù)措施所致獲益和損害的權(quán)衡判斷。
1.1 不一致性 根據(jù)GRADE方法,評估者如果發(fā)現(xiàn)證據(jù)體中存在無法解釋的不一致性,則可對其進(jìn)行降級。然而,結(jié)局指標(biāo)重要性相關(guān)證據(jù)體的不一致性評價存在以下幾處挑戰(zhàn):①目前的系統(tǒng)評價或者衛(wèi)生技術(shù)評估對結(jié)局指標(biāo)重要性缺乏明確、統(tǒng)一的定義,并且對其重要性評估的工具也很多樣化[1-3]。因此很難判斷觀察到的結(jié)局指標(biāo)之間重要程度的差異是因測量工具還是其他潛在的因素而致。②關(guān)于結(jié)局指標(biāo)重要程度的定量研究很罕見。③某些結(jié)局(例如支付意愿)有相關(guān)研究時也往往僅有單個研究,而無法進(jìn)行整合分析。但是這種情況不一致性評估相對容易,因?yàn)椴灰恢滦缘膯栴}對單個研究不適用。
無論研究結(jié)果是否合并估計,當(dāng)評估不一致性時,GRADE工作組建議均遵循以下步驟:①判斷不一致性是否存在;②如發(fā)現(xiàn)不一致性,則對納入研究進(jìn)行異質(zhì)性探索,如果異質(zhì)性可以被合理的原因(如臨床因素或方法學(xué)因素等)解釋,則無須對不一致性降級;③有亞組差異時,需要確認(rèn)該差異的可信度。
有一些信號可以對異質(zhì)性大小或程度起到提示作用,例如,目測森林圖中各個研究效應(yīng)值可信區(qū)間的重疊程度,I2值和s2值[4,5]。如上述均不存在重要的異質(zhì)性,則不一致性無須降級。反之,就需要對異質(zhì)性的來源進(jìn)行探索,評價者應(yīng)對各個納入研究的人群特征、干預(yù)措施、對照措施、結(jié)局指標(biāo)、方法學(xué)(如偏倚風(fēng)險)的特征逐一進(jìn)行比對。當(dāng)發(fā)現(xiàn)亞組差異時,評價者需要確認(rèn)該差異的可信度,但目前還沒有可以用來評價結(jié)局指標(biāo)重要程度相關(guān)的亞組分析的評價標(biāo)準(zhǔn),可以參考使用對亞組之間干預(yù)效應(yīng)差異可信度評價的方法。
對于同類的信息,系統(tǒng)評價人員和指南專家組可以有不同的應(yīng)用方式。系統(tǒng)評價人員通常在研究之間足夠同質(zhì)的情況下才考慮整合分析,合并后如果發(fā)現(xiàn)異質(zhì)性,則需按前面提到的步驟進(jìn)行探索,例如按人群、干預(yù)、對照、結(jié)局、方法等特征做亞組分析,并將探索結(jié)果進(jìn)行描述性總結(jié),闡明發(fā)現(xiàn)的差異。上述各個亞組此時就形成了不同重要程度的多個結(jié)局指標(biāo)。指南專家組可以根據(jù)各個結(jié)局指標(biāo)之間重要程度的差異來分別作出推薦意見,或者針對所有的結(jié)局指標(biāo)作出弱推薦(或有條件推薦),但此時需強(qiáng)調(diào)各個結(jié)局指標(biāo)重要程度的差異對推薦意見實(shí)施時的影響。當(dāng)探討與結(jié)局指標(biāo)重要程度相關(guān)的不一致性以及異質(zhì)性時,盡量避免使用“差異(variability)”的表達(dá)方式, 因?yàn)檠芯恐g真實(shí)存在的差異有另外的方法進(jìn)行評價。
1.2 不精確性 對結(jié)局指標(biāo)重要程度進(jìn)行不精確性評價時需要同時參考證據(jù)體的樣本量和效應(yīng)值的可信區(qū)間。有關(guān)這一問題定量分析的系統(tǒng)評價也是非常罕見的[6]。
當(dāng)評估不精確性時,GRADE工作組建議遵循以下步驟: ①評價結(jié)局指標(biāo)相對重要程度的可信區(qū)間。系統(tǒng)評價人員應(yīng)明確闡述其評價標(biāo)準(zhǔn),如對可信區(qū)間有一個明確的取值范圍作為決策閾值。但這個取值范圍通常受各種研究因素的影響,例如干預(yù)措施的類型或者資源占用程度等因素,因此從中截取決策閾值并非易事。研究設(shè)計的差異、測量工具的多樣化、結(jié)局指標(biāo)呈現(xiàn)方式的不同等因素都會導(dǎo)致可信區(qū)間不可獲。此時,不精確性評價可以依據(jù)研究的樣本量來判斷。
指南專家組評價不精確性時可以依據(jù)結(jié)局指標(biāo)相對重要程度的可信區(qū)間是否跨越了預(yù)先設(shè)定的決策閾值。當(dāng)結(jié)局指標(biāo)的重要程度結(jié)合干預(yù)效果絕對效應(yīng)值顯示的獲益明顯大于受損時,不精確性無須降級。
在此過程中,系統(tǒng)評價人員和指南專家組均需考慮證據(jù)體的樣本量,可以引用系統(tǒng)評價信息量(review information size)作為決策閾值[7]。指南的推薦意見產(chǎn)生過程中,當(dāng)某結(jié)局指標(biāo)的獲益和受損差異近似時,推薦方向可以參考55%的決策閾值結(jié)合可信區(qū)間大于50%的過半數(shù)原則 (即>55%的患者會作出同樣的選擇,誤差<5%)[8,9]。要求每個單組的樣本量達(dá)到380人,才能可靠地估計上述55%的決策閾值伴隨95%的把握度(95% CI: 50%~60%)和5%的精準(zhǔn)度[8]。可以理解為,在用GRADE方法對關(guān)于結(jié)局指標(biāo)重要程度的證據(jù)體進(jìn)行精準(zhǔn)性評價時,樣本量達(dá)到380人是一個通用的經(jīng)驗(yàn)法則。 當(dāng)數(shù)據(jù)顯示較大的臨床凈獲益,而需要對此判斷推薦強(qiáng)度時,GRADE工作組建議采納80% 或者90%的決策閾值(即80%或90%的患者均會作出同樣的選擇)[8,9]。評價來自選擇實(shí)驗(yàn)(direct choice study)的研究證據(jù)時,達(dá)到上述80%或90%的決策閾值分別需要246和139人的樣本量。如果用經(jīng)驗(yàn)法則延伸一下,可以理解為當(dāng)證據(jù)體的樣本量達(dá)到250或者140人時,通??梢哉J(rèn)為是精準(zhǔn)的。
在對結(jié)局指標(biāo)重要程度做不精確性評價時選擇實(shí)驗(yàn)比較罕見,所以系統(tǒng)評價通常是基于每個結(jié)局指標(biāo)來做評價。此時,建議預(yù)先設(shè)置可接受的可信區(qū)間范圍,同時采用上述精準(zhǔn)度評價閾值(原文中有案例進(jìn)一步說明上述理論,讀者可閱讀原文加深理解)。
1.3 發(fā)表偏倚 發(fā)表偏倚對結(jié)局指標(biāo)重要程度評價很重要。不同于干預(yù)性研究,常見的導(dǎo)致發(fā)表偏倚的原因是延遲發(fā)表或者未發(fā)表的研究,很可能會提供與既往研究不同的結(jié)果。但是還沒有可靠的方法可以準(zhǔn)確地評估這個領(lǐng)域的發(fā)表偏倚,因此通常只會在有確鑿證據(jù)的情況下對發(fā)表偏倚進(jìn)行降級。
1.4 證據(jù)體質(zhì)量升級 在這方面的研究證據(jù)是很有限的,常用的3個升級標(biāo)準(zhǔn)[10]在此處不一定適用。探索性地提出幾點(diǎn)參考建議:①評價納入研究是否存在重要的偏倚風(fēng)險,繼而導(dǎo)致研究結(jié)果偏離真實(shí)值。如果這種偏倚不存在,或者影響結(jié)果的風(fēng)險極小,則可以考慮將證據(jù)體升級。在研究COPD患者如何判斷對各個結(jié)局指標(biāo)價值偏好的系統(tǒng)評價中,EQ-5D(一個測量工具)測量后的數(shù)據(jù)整合結(jié)果顯示患者對輕、中、重、非常嚴(yán)重COPD的判斷值分別為0.85(95%CI:0.84~0.86)、 0.80(95%CI:0.79~ 0.80)、0.72(95%CI:0.72~0.73)和0.68(95%CI:0.67~0.69)。 雖然納入研究之間在價值偏好方面體現(xiàn)了一定程度的不一致性,但同時,數(shù)據(jù)也呈現(xiàn)了疾病進(jìn)展期間負(fù)效用發(fā)生明顯的梯度變化。這一現(xiàn)象提示有信心地認(rèn)為健康狀態(tài)呈現(xiàn)的效用梯度,可以降低對不一致性可能造成的影響的顧慮,因此可以考慮不對證據(jù)體質(zhì)量降級,或者不用降整個的一級。當(dāng)兩個健康狀態(tài)在結(jié)局指標(biāo)重要程度上呈現(xiàn)很大的差異,差異足夠促成決策時,認(rèn)為也是可信的證據(jù)體質(zhì)量升級的因素。當(dāng)然,前提條件是上述的差異是精準(zhǔn)的,并且研究和數(shù)據(jù)沒有重要的偏倚。實(shí)施評價時,如果量表的測量范圍為0~1時,可以參考結(jié)局指標(biāo)相對重要程度的最小重要差異值(minimal important difference),如0.05~0.07。
GRADE在結(jié)局指標(biāo)重要程度的評價領(lǐng)域是一個創(chuàng)新性的嘗試[11]。這些探索性的評價方法對系統(tǒng)評價、衛(wèi)生技術(shù)評估、決策模型以及臨床實(shí)踐指南都很有用。這個領(lǐng)域主要的挑戰(zhàn)之一是證據(jù)的多樣化導(dǎo)致異質(zhì)性,并影響Meta分析的可行性。Meta分析結(jié)果的缺失對不一致性和不精確性的影響尤其大。另一個難點(diǎn)是原始研究分析和報道數(shù)據(jù)時不注意區(qū)分患者對主要結(jié)局指標(biāo)價值偏好的差異,而將其混合到不一致性和不精確性評價中。這篇文章對解決上述問題,以及對GRADE EtD過程中的“價值偏好”的評價提供了重要的參考信息[12-17]。