彭曉霞 劉雅莉
從不一致性、不精確性和發(fā)表偏倚等維度,對診斷準確性評價證據(jù)的確定性進行評級,與干預、預測或其他研究的證據(jù)評級遵循相同的基本邏輯,但在操作層面上存在不同。
除了證據(jù)之間的不一致性、不精確性和發(fā)表偏倚對證據(jù)確定性評級的影響外,診斷準確性評價證據(jù)的確定性是否可以升級,還取決于診斷試驗結(jié)果是否與其對應的臨床結(jié)局(如:患病可能性或疾病的嚴重程度)存在較強的相關性。例如,隨著肌鈣蛋白T水平升高,急性心肌梗死的可能性顯著增加,而不僅僅是因為選擇不同診斷截斷值(cut-off point)所導致的敏感度或特異度在數(shù)字上的增加,這樣的證據(jù)將增強對該診斷試驗的信心。然而,與針對干預性研究證據(jù)確定性評級方法不同,診斷準確性評價證據(jù)確定性升級還需要進一步的理論和實踐研究,因為,針對是否以及如何將劑量效應關系納入診斷準確性評價的證據(jù)確定性分級,至今尚未達成共識。
需要特別注意的是,診斷準確性評價的確定性評級與診斷準確性高低(即敏感度與特異度)常常并不一致。有時,系統(tǒng)綜述納入的診斷準確性評價研究都是設計周密、實施嚴謹?shù)难芯?;而且系統(tǒng)綜述作者進行了調(diào)查研究,可以解釋納入獨立研究之間的不一致性;此外,幾乎沒有理由懷疑發(fā)表偏倚的存在。但是,系統(tǒng)綜述的作者仍然認為敏感度的95%CI過寬而將敏感度評為中等確定性,將特異度評為高度確定性。
診斷準確性評價的證據(jù)概要展示形式不同于治療或干預效果評價等研究。GRADE建議采用3級分層形式來描述證據(jù)概要,并可以在GRADE的官方APP(GRADEpro)中進行開發(fā):①采用簡單的總結(jié)表和證據(jù)摘要來描述研究發(fā)現(xiàn),僅提供診斷準確性相關信息(如:患病率、敏感度、特異度、假陽性率與假陰性率等);②用表格呈現(xiàn)有助于制定決策的其他特征信息,如在診斷準確性評價過程中獲得與診斷試驗直接相關的并發(fā)癥(如:造影劑導致的急性腎功能損傷或靜脈炎等);③在提出決策建議的過程中,提供患者相關的重要結(jié)果信息,同時對與診斷試驗相關的有益和無益的健康影響做出的明確判斷對決策制定也是非常有用的。在證據(jù)概要中清晰展示以上信息將有助于確保決策的透明性。
診斷試驗準確性評價是指以當前公認的疾病診斷標準(如疾病診斷的金標準)為參考,來評價新的診斷測試的診斷準確性,主要指標為敏感度(真陽性率)與特異度(真陰性率),但在實際決策過程中,還要關注假陽性率與假陰性率對后續(xù)治療決策的影響以及對疾病最終預后的影響,以及在特定醫(yī)療環(huán)境下某種疾病在就診患者中所占的比例[1]。與治療或干預效果評價一樣,診斷試驗準確性評價的系統(tǒng)綜述也是進行臨床決策的最高級別證據(jù),因為在完成系統(tǒng)綜述過程中,作者會分析每項獨立研究的偏倚風險,篩選低偏倚風險的研究納入系統(tǒng)綜述,從而確保系統(tǒng)綜述結(jié)果的真實性。但是,基于診斷準確性評價的系統(tǒng)綜述證據(jù)體進行臨床決策時,還需要進一步評價證據(jù)是否具有不確定性,以及針對不確定性是否能找到合理的解釋,從而做出相應的證據(jù)升級或降級處理,提高決策的透明性。
相對于原始診斷試驗準確性評價研究的偏倚風險,人們對診斷準確性證據(jù)體的確定性評價并不熟悉,本文將重點解讀如何基于研究證據(jù)之間的不一致性、不精確性及發(fā)表偏倚做出證據(jù)確定性升級或降級的判斷。
2.1證據(jù)確定性評價的主要維度
2.1.1 不一致性 診斷試驗準確性評價證據(jù)之間是否存在不一致性,以及針對不一致性是否能找到合理解釋是影響該證據(jù)確定性是否被降級的重要依據(jù)。診斷試驗準確性評價證據(jù)的不一致性評價與干預效果評價不同,后者可以通過效應指標點估計的相似程度,點估計值95%CI重疊的程度,各獨立研究效應值大小的異質(zhì)性檢驗結(jié)果,以及在Meta分析時隨機效應估計的方差估計等對已有研究證據(jù)之間的一致性進行評價;但是,診斷試驗準確性評價則需分別評價各獨立研究獲得的敏感度與特異度估計值之間是否不一致。以2014年發(fā)表的心臟MR診斷肺動脈高壓準確性評價的Meta分析為例[2],圖1顯示不同研究的敏感度點估計值0.81~0.98,特異度點估計值0.69~0.89,特異度異質(zhì)性檢驗I2=0,敏感度異質(zhì)性檢驗I2=47.2%,雖然<50%,但仍需對Hagger等的研究[3]進行分析,發(fā)現(xiàn)該研究在MR與右心導管(金標準診斷)檢查之間的間隔時間為30 d,明顯長于其他4項研究。在診斷試驗中,診斷測試與金標準檢查之間的時間間隔原則上應盡可能短,但考慮到肺動脈高壓患者的心室質(zhì)量指數(shù)在30 d之內(nèi)不會發(fā)生太大變化,因此決定不對該研究“不一致性”進行降級處理。相反,如果各獨立研究之間的敏感度或特異度的95%CI出現(xiàn)互不重疊的現(xiàn)象,又無法找到可以解釋的導致不一致性的原因時,可能要考慮對該證據(jù)的“不一致性”進行降級處理。
圖1 心臟MR心室質(zhì)量指數(shù)預測肺動脈高壓的敏感度與特異度[3]
2.1.2 不精確性 診斷準確性評價指標除敏感度(真陽性率)、特異度(真陰性率)外,還有假陽性率、假陰性率、診斷比值比(DOR)等,以上參數(shù)的95%CI較寬時,均會降低證據(jù)的確定性評級。然而,95%CI多寬時應降級,則需要根據(jù)具體研究信息加以判斷。眾所周知,CI的寬窄取決于樣本量及結(jié)局事件數(shù)的大小。因此,當臨床決策在特定情境下,需要權衡敏感度、特異度、假陽性率與假陰性率之間的相互影響,以及決策導致的結(jié)果時,應預先設定可以反映臨床意義的CI閾值。當CI的上下限值包含了可以導致不同決策的值時,應考慮將證據(jù)的確定性給予降級。例如,當系統(tǒng)綜述作者或指南開發(fā)團隊將0.8作為某一特定情境下可接受的最低敏感度時,那么,敏感度95%CI為0.72~0.88時,對于該決策需求都可能太寬了,從而無法判斷采用該診斷結(jié)果是否能帶來更多的臨床獲益。相反,如果敏感度的95%CI在0.82~0.92,下限>0.8,因此,可以支持綜述作者或指南開發(fā)團隊做出決策,這時,可以認為該95%CI足夠窄。對于決策制定者而言,應該將敏感度和特異度估計值及其95%CI轉(zhuǎn)化為在設定患病率下的真陽性、假陽性、真陰性及假陰性的絕對值及其95%CI。接下來,根據(jù)臨床決策需求,判斷哪一個指標是臨床決策最關注的指標,如果這個指標的95%CI較窄,及時其他指標95%CI較寬,也沒有必要對該證據(jù)進行降級處理。
2.1.3 發(fā)表偏倚 總的來說,診斷試驗準確性評價證據(jù)的確定性評級與治療性研究一樣,對發(fā)表偏倚進行評估,包括:存在利益風險的研究,樣本量較小但準確性高且估計精確度也高的研究,以及已完成但未發(fā)表的研究。盡管對發(fā)表偏倚的高度質(zhì)疑會導致人們對診斷試驗準確性評價證據(jù)的確定性給予降級,但事實上,對于是否存在發(fā)表偏倚,知之甚少。廣泛用于檢測發(fā)表偏倚的方法是繪制漏斗圖及其不對稱性檢驗,如Egger's 或 Begg's 檢驗,但這種方法會不恰當?shù)卦黾咏导壍目赡?,因為樣本量大小常常與診斷試驗準確性評價研究的患者結(jié)局或特征有關,而不是與發(fā)表偏倚相關。
事實上,Deeks'檢驗或剪補法(the trim and fill method)更適用于檢驗診斷試驗準確性評價的發(fā)表偏倚。尤其是剪補法,其優(yōu)點在于提供無偏的診斷準確性估計值和直觀的視圖顯示,基于觀察研究和模擬研究,允許作者通過納入模擬研究,目測診斷準確性的變化程度。如果這一變化微不足道,那么就沒有必要因發(fā)表偏倚對證據(jù)確定性進行降級。但無論哪種統(tǒng)計方法,都存在局限性。其實,確認發(fā)表偏倚最好的方法是了解哪些已經(jīng)完成的研究沒有發(fā)表。但是,在尚無實現(xiàn)診斷準確性評價研究注冊的標準方法時,這些信息并不容易獲取。
2.2 決定證據(jù)確定性升級或降級的其他因素
2.2.1 診斷準確性評價的劑量效應關系 在因果判斷中有一條非常重要的標準,即暴露因素(或干預因素)與研究效應之間是否存在劑量效應關系,如果存在,則會增強因果判斷的強度。如,在吸煙與肺癌發(fā)生風險之間的相對危險度(RR)>1的前提下,如果隨著吸煙暴露水平的升級,RR值也相應升高,那么,這種劑量反應關系會進一步增強人們對吸煙導致肺癌這一因果判斷的信心。對于診斷準確性評價而言,大家對是否以及如何根據(jù)劑量反應關系來支持證據(jù)確定性的升級或降級尚未達成共識,因為診斷準確性評價的“劑量水平”體現(xiàn)在診斷截點值上,對于測量值高于診斷截點值即為診斷陽性的案例來說,診斷截點值的升高,一定會表現(xiàn)為敏感度的降低與特異度的升高,但這些數(shù)字上的改變并沒有真正的臨床意義,真正的臨床意義最終要取決于敏感度或特異度的改變是否切實影響了疾病結(jié)局。但針對診斷試驗對疾病轉(zhuǎn)歸應用的RCT并不像干預效果評價那般常見。
2.2.2 其他考慮 是否對診斷準確性評價證據(jù)進行降級,在很多時候需要根據(jù)具體問題做出特殊考量。例如:敏感度高意味著假陽性(漏診)低,特異度高意味著假陰性(誤診)低,首先根據(jù)診斷對目標疾病的影響大小,即誤診產(chǎn)生的影響更大,還是漏診產(chǎn)生的影響更大,來判斷證據(jù)分級時更側(cè)重于哪個指標;另一方面,在同一項診斷準確性評價證據(jù)中,敏感度與特異度的估計精確度并不完全一致,如果敏感度更重要,而敏感度的95%CI卻相對較寬時,作者可能會考慮降級處理。
2.3 證據(jù)概要和GRADE分級結(jié)果匯總表 雖然證據(jù)概要和調(diào)查結(jié)果匯總表的展示對決策透明性至關重要,但是,學習診斷準確性評價證據(jù)體的證據(jù)概要和調(diào)查結(jié)果匯總其實是一種挑戰(zhàn)。
GRADE在GRADEpro中提供了研究結(jié)果匯總(Summary of findings, SOF)模板,在該模板中,除了可以展示診斷準確性評價的系統(tǒng)綜述基本特征(包括納入研究個數(shù)、樣本例數(shù)、研究設計類型)和證據(jù)確定性影響因素(包括偏倚風險、間接性、不一致性、不精確性及發(fā)表偏倚等)外,還可以呈現(xiàn)目標疾病患病率,診斷試驗的敏感度、特異度、假陽性率與假陰性率及其95%CI,并展示每1 000名疑似患者在使用該診斷試驗后,在不同先驗患病率條件下,獲得的真陽性、假陽性、真陰性及假陰性病例數(shù)及其95%CI。以上信息的展示雖然看起來有點復雜,但GRADEpro的用戶測試表明,當前的格式有助于總結(jié)系統(tǒng)綜述的研究結(jié)果,給指南小組提供透明性較好的展示。
從研究者發(fā)現(xiàn)一項有潛在診斷價值的診斷試驗(diagnostic test),到采用目標疾病金標準對該診斷試驗進行準確性評價,并不是診斷試驗可以直接向臨床轉(zhuǎn)化應用的最直接證據(jù),還需要對該診斷試驗在臨床應用后是否會改善臨床結(jié)局進行評價,但這一認識并未在我國臨床研究中達成共識。GRADE證據(jù)評價不僅重視原始研究的真實性,更重視該證據(jù)臨床轉(zhuǎn)化的意義與直接性。因此,GRADE證據(jù)評價首先可以推動我國臨床研究者對診斷試驗研究有更全面、更系統(tǒng)的認識,提高我國診斷試驗研究的質(zhì)量。
在診斷準確性評價的系統(tǒng)綜述基礎上,評價證據(jù)的間接性、不一致性、不精確性與發(fā)表偏倚對證據(jù)確定性的影響并不容易理解,雖然在本次解讀過程中,盡量采用了簡單的案例加以說明,但在實際應用中,還需要有專業(yè)團隊的指導與幫助。
推薦大家采用GRADEpro提供的研究結(jié)果匯總模板呈現(xiàn)診斷試驗準確性評價的GRADE證據(jù)分級結(jié)果,這對指南開發(fā)小組準確把握GRADE指南的診斷準確性證據(jù)評級方法、提高循證決策的透明性是至關重要的。