劉雅莉 彭曉霞
作者概述診斷性試驗主要包括兩類用于評價檢查或診斷策略的方法:第1類為理想情況下設(shè)計的診斷性隨機對照試驗(D-RCT),也可以設(shè)計為觀察性研究;第2類為診斷準(zhǔn)確性試驗(DTA)。D-RCT設(shè)計中,患者被隨機分配到新的或舊的診斷試驗或診斷策略組,每組研究對象根據(jù)檢查結(jié)果接受最佳、可及的治療,研究者同時評估和比較兩組患者的重要結(jié)局指標(biāo)?;谶@類設(shè)計,研究者可直接評估新的診斷試驗(待評價標(biāo)準(zhǔn))對患者終點結(jié)局指標(biāo)(如病死率、生活質(zhì)量等)產(chǎn)生的效果。在實際情況下更多見DTA這類設(shè)計,即研究對象同時接受待評價標(biāo)準(zhǔn)和參考標(biāo)準(zhǔn)(金標(biāo)準(zhǔn)),然后評估待評價標(biāo)準(zhǔn)的診斷準(zhǔn)確性,并據(jù)此估計其對患者最終結(jié)局的影響。DTA在四格表中提供真陽性、假陽性、假陰性和真陰性數(shù)據(jù),據(jù)此可計算敏感度(真陽性率)與特異度(真陰性率)等一系列評價指標(biāo)。
關(guān)于GRADE方法,基于干預(yù)、預(yù)后及診斷準(zhǔn)確性研究的證據(jù)體對證據(jù)質(zhì)量和推薦強度分級的基礎(chǔ)理論大同小異,但診斷準(zhǔn)確性研究有其特點,在證據(jù)質(zhì)量評價過程中需特殊對待。
證據(jù)質(zhì)量評價通常不是針對單個原始研究,理想情況下是通過系統(tǒng)評價或衛(wèi)生經(jīng)濟學(xué)方法進(jìn)行證據(jù)綜合,基于某具體臨床問題在結(jié)局指標(biāo)層面的證據(jù)體(body of evidence)、利用GRADE系統(tǒng)評估其證據(jù)質(zhì)量。證據(jù)質(zhì)量是指對觀察值的真實性有多大把握,分為高、中、低和極低4個等級;推薦強度是指多大程度上能夠確信遵守推薦意見時會利大于弊或弊大于利,分為強推薦和弱推薦[1]。
需注意的是,利用GRADE對診斷性研究證據(jù)體的證據(jù)質(zhì)量進(jìn)行分級評價這種診斷措施或策略是否對患者的最終結(jié)局產(chǎn)生影響。對于診斷準(zhǔn)確性研究,GRADE同樣包括相關(guān)升級和降級因素的證據(jù)質(zhì)量評價,以及針對從證據(jù)到?jīng)Q策過程中推薦意見的推薦強度分級等內(nèi)容。無論是D-RCT還是DTA,其起始證據(jù)質(zhì)量均應(yīng)為“高”。GRADE對診斷研究證據(jù)體的證據(jù)質(zhì)量分級仍然主要考察5個降級因素和3個升級因素。
對于基于D-RCT的證據(jù),可通過終點結(jié)局指標(biāo)(如病死率)來評價待評價標(biāo)準(zhǔn)與先前診斷方法相比的效果,其GRADE證據(jù)質(zhì)量分級原理與干預(yù)性系統(tǒng)評價類似。對于當(dāng)前診斷系統(tǒng)評價納入研究中最常見的DTA證據(jù),通過敏感度與特異度等指標(biāo),評估待評價標(biāo)準(zhǔn)與金標(biāo)準(zhǔn)比較的準(zhǔn)確性,其GRADE分級原理和方法是本文論述的重點。
本文重點解讀偏倚風(fēng)險、間接性的2個降級因素對證據(jù)質(zhì)量的影響。
在實際評估時,降級需謹(jǐn)慎,尤其注意針對不同領(lǐng)域評估時避免重復(fù)降級。
2.1 診斷試驗設(shè)計需關(guān)注的問題 衛(wèi)生保健中的檢驗(test)常指診斷(diagnose),包括體征、癥狀、影像學(xué)檢查、實驗室檢查、心理評估、病理學(xué)檢查、微生物學(xué)檢查及其他檢查等。廣義的檢驗(test)常用于篩查、風(fēng)險評估、診斷、預(yù)后評估、分期、監(jiān)控或監(jiān)測等。在實踐中,診斷試驗的準(zhǔn)確性會因其在診斷路徑中所處位置的不同而不同,有以下幾個目的:① 替代(Replacement):1種檢測手段因其價格低廉、非侵入性或具有更好的準(zhǔn)確性而替代另1種舊的檢測手段;② 分診(triage):在現(xiàn)有診斷路徑前,添加新的檢查,目的是篩選該檢測出現(xiàn)特定結(jié)果的患者進(jìn)入下一步診斷路徑,從而起到分流作用。這種分流檢查不一定更準(zhǔn)確,但是價格低廉且可行性好,而侵入性檢查或是價格昂貴的檢查不適用于分診;③ 加載(add-on):即在現(xiàn)有診斷路徑后,附加1種新檢查,以進(jìn)一步降低誤診率或漏診率。這種加載檢查旨在提高診斷的準(zhǔn)確性,但可能存在更復(fù)雜、價格更昂貴等不足;④ 并聯(lián)或串聯(lián)試驗(parallel or combined testing):新舊檢查并聯(lián)或串聯(lián)使用,可為衛(wèi)生專業(yè)人員提供更為準(zhǔn)確的診斷信息。
對于診斷準(zhǔn)確性研究設(shè)計而言,有確立金標(biāo)準(zhǔn)、合理選擇研究對象、樣本量估算、獨立并盲法判定測量結(jié)果、診斷試驗可靠性分析等要點,但需要關(guān)注以下幾點。
2.1.1 臨床中常被推薦的是針對不同臨床特點的多種檢查的組合或所形成的策略,不局限于某一種檢測方法 實際工作中,臨床醫(yī)生、公共衛(wèi)生人員、研究者常常根據(jù)不同情況將多種檢查組合在一起或形成一種策略用于診斷。例如宮頸癌是女性高發(fā)腫瘤,早診斷、早治療可明顯提高患者預(yù)后,因此漏診對臨床影響較大。宮頸上皮內(nèi)瘤變(CIN)被認(rèn)為是宮頸癌的癌前病變,對于通過醋酸目視檢查法 (VIA)診斷為CIN患者,臨床醫(yī)生可能會直接給予局部治療或進(jìn)一步檢測人乳頭狀瘤病毒(HPV),從而可提高宮頸癌的檢出率[2,3]。然而,對于疑診HIV感染患者,應(yīng)盡量避免誤診。因此臨床采用的是一種檢查方法組合應(yīng)用策略,首先選用敏感度高但特異度較低的ELISA法檢測,對于ELISA陽性者,再進(jìn)一步采用特異度高的HIV RNA定量檢測確診,并開展后續(xù)治療。
2.1.2 提出明確的衛(wèi)生保健或臨床問題 借鑒PICO原則構(gòu)建臨床問題:人群(population);用于干預(yù)的檢查(或策略)(intervention test or strategies);對比的檢查或策略(comparison test or strategy);結(jié)局指標(biāo)(outcomes of interest)。
2.1.3 評估患者重要結(jié)局指標(biāo)的影響 診斷試驗可對識別患者為患有或不患有目標(biāo)疾病的后果進(jìn)行推斷,然而并非準(zhǔn)確性高的診斷試驗就一定有很高的臨床應(yīng)用價值,例如對于并不能提高人群重要結(jié)局和患者重要結(jié)局的診斷試驗,即便其準(zhǔn)確性很高,其臨床應(yīng)用價值也會大打折扣。
診斷準(zhǔn)確性研究通常為橫斷面設(shè)計,旨在區(qū)分患者和疑似患病但實際無病的人。該設(shè)計針對某一疾病的疑似患者,每位研究對象同時接受待評價標(biāo)準(zhǔn)和金標(biāo)準(zhǔn)檢測,四格表數(shù)據(jù)比較準(zhǔn)確性(第一步)。為了判斷待評價標(biāo)準(zhǔn)和金標(biāo)準(zhǔn)結(jié)果對患者結(jié)局指標(biāo)的影響,待評價標(biāo)準(zhǔn)和金標(biāo)準(zhǔn)中被檢測為陽性的患者(或先前研究中檢測為陽性的患者)進(jìn)行治療或不治療,研究者進(jìn)一步評估和比較不同診斷方法患者的重要結(jié)局。
2.2 GRADE在診斷準(zhǔn)確性研究證據(jù)質(zhì)量評估中的應(yīng)用 Xpert@MTB/RIF (Xpert)是一種被廣泛應(yīng)用于同時檢測痰標(biāo)本中結(jié)核分枝桿菌復(fù)合物以及利福平耐藥的快速、自動化的核酸擴增方法。研究目的旨在評價“Xpert”在疑似結(jié)核(TB)腦膜炎患者中診斷結(jié)核腦膜炎的準(zhǔn)確性如何。臨床問題明確為:研究對象(Participants):懷疑患有結(jié)核腦膜炎者;試驗前接受何種基礎(chǔ)檢查(Prior testing):接受Xpert檢查者需先行健康檢查(病史和體格檢查),必要時拍胸片;作用(Role):用新檢測代替常規(guī)檢查;場所(Settings):初級保健中心(檢測在實驗室進(jìn)行);待評價試驗:Xpert;參考試驗(Reference test):結(jié)核菌培養(yǎng);結(jié)局:試驗準(zhǔn)確性;研究設(shè)計類型:橫斷面研究。
2.2.1 偏倚風(fēng)險 即研究局限性,主要考慮診斷性試驗在其研究設(shè)計、實施、測量環(huán)節(jié)中出現(xiàn)的各種偏倚對證據(jù)質(zhì)量的影響,存在嚴(yán)重偏倚風(fēng)險時降1級,有非常嚴(yán)重的偏倚風(fēng)險時降2級。診斷準(zhǔn)確性研究的偏倚風(fēng)險評價工具有多種,但QUADAS-2是最常用的工具之一,目前也是GRADE工作組所推薦的[4,5],由4個領(lǐng)域及其信號問題的回答完成偏倚風(fēng)險和適用性兩方面的評價。4個領(lǐng)域包括:病例選擇、待評價試驗、參考試驗(金標(biāo)準(zhǔn))和病例流程與時間間隔可能引入的偏倚風(fēng)險。各領(lǐng)域內(nèi)容信號問題的回答包括“是”、“否”或“不確定”,以判斷其為“低風(fēng)險”、“高風(fēng)險”或“風(fēng)險不確定”[,4]。
診斷試驗研究通常納入具有代表性的某病種疑似患者。在橫斷面研究中,一般采用連續(xù)納入或隨機選擇的疑似患者。如果納入的是較為嚴(yán)重的某疾病患者和健康對照人群,將會高估診斷試驗的準(zhǔn)確性。另一方面,診斷準(zhǔn)確性研究的待評價標(biāo)準(zhǔn)均與金標(biāo)準(zhǔn)比較,如果部分納入患者未采用金標(biāo)準(zhǔn)評價,也會增加偏倚風(fēng)險。
偏倚風(fēng)險主要考量系統(tǒng)評價納入診斷試驗的方法學(xué)質(zhì)量。本例“Xpert”一文共納入29個診斷試驗[6]。QUADAS-2評估其在病例選擇、待評價試驗和病例流程和時間間隔3個領(lǐng)域均為“低”偏倚風(fēng)險;在金標(biāo)準(zhǔn)領(lǐng)域有14%(4/29)偏倚風(fēng)險為“不確定”。因大多數(shù)研究為“低”偏倚風(fēng)險,故本例偏倚風(fēng)險未降級[6]。
2.2.2 間接性 與干預(yù)性研究一樣,診斷試驗的間接性也需要從人群、待評價標(biāo)準(zhǔn)、金標(biāo)準(zhǔn)和結(jié)局指標(biāo)這幾方面來判斷。間接性主要包括2個方面:一是待評價標(biāo)準(zhǔn)與金標(biāo)準(zhǔn)在研究中的結(jié)果與實際應(yīng)用的結(jié)果可能存在差異,因為研究納入的患者、診斷措施、對照措施等可能均與實際應(yīng)用時的狀況存在差別;二是待評價的多個標(biāo)準(zhǔn)之間沒有直接比較,而是各自與金標(biāo)準(zhǔn)比較,在面對間接性比較時,會考慮降級。
2.2.2.1 人群的間接性 多指研究人群和推薦的目標(biāo)人群間有較大差異。例如納入診斷試驗接受診斷的人群與系統(tǒng)評價擬回答的臨床問題所關(guān)注的人群間存在不一致性,則會導(dǎo)致間接性,這可能與納入患者的疾病譜系、研究實施的環(huán)境、患者前期檢測等有關(guān)。不同的檢查環(huán)境,如急診和社區(qū)就診患者間就存在不一致性,亦為人群的間接性。
2.2.2.2 干預(yù)或待評價標(biāo)準(zhǔn)的間接性 不同國家、地區(qū)、醫(yī)院所使用的設(shè)備型號或規(guī)格不一致,可能引起待評價試驗的間接性。在不同的環(huán)境下,不同限值和閾值的設(shè)置也會導(dǎo)致間接性。有些情況,不同標(biāo)本轉(zhuǎn)運的條件(如室溫與冷藏)也會導(dǎo)致不一致性。
2.2.2.3 對照診斷措施的間接性 理想情況下,待評價標(biāo)準(zhǔn)應(yīng)與金標(biāo)準(zhǔn)比較,金標(biāo)準(zhǔn)是指疾病公認(rèn)的診斷標(biāo)準(zhǔn)。若待評價試驗未與金標(biāo)準(zhǔn)進(jìn)行對比,就無法確定疾病診斷的準(zhǔn)確性。有時,診斷準(zhǔn)確性試驗在比較同一種診斷措施,例如不同水平的D-二聚體之間比較等,若評價試驗所參考的金標(biāo)準(zhǔn)不一致,也會引起間接性的問題。另一種情況是臨床問題關(guān)注2個檢測之間進(jìn)行選擇,而它們都不是金標(biāo)準(zhǔn),則可以將它們在同一試驗中直接與金標(biāo)準(zhǔn)比較,例如欲比較HPV和VIA,在同一研究中,將2種檢測同時獨立與金標(biāo)準(zhǔn)(陰道鏡檢查或活檢)進(jìn)行比較,以評估其準(zhǔn)確性或相對準(zhǔn)確性。但是,如果是2個不同的研究,分別將HPV和VIA與陰道鏡檢查或活檢進(jìn)行比較,所獲得的HPV和VIA 相比較的結(jié)果就屬于間接比較,若間接比較結(jié)果與直接比較結(jié)果間存在不一致,但無合理的原因解釋,則考慮降級。
2.2.2.4 結(jié)局指標(biāo)及測量 作為診斷準(zhǔn)確性研究,其結(jié)局指標(biāo)為根據(jù)四格表數(shù)據(jù)計算所得的敏感度、特異度等一系列指標(biāo),以上是與患者重要結(jié)局相關(guān)的中間指標(biāo),并非代表患者的終點指標(biāo)。但如果僅關(guān)注診斷試驗的準(zhǔn)確性,此方面可不降級。此外,作為制訂指南推薦意見的支持證據(jù)時,常常因為診斷準(zhǔn)確性研究是患者重要結(jié)局相關(guān)的中間指標(biāo),而非患者的終點結(jié)局,衛(wèi)生決策者可能因為其間接性而考慮降級。
2.2.2.5 實例解讀 “Xpert”一文共納入29個研究、433例患者。判斷“證據(jù)是否足夠直接”分為4個選項:“是”、“可能是”、“可能否”和“否”。對于真陽性指標(biāo),從患者、待評價標(biāo)準(zhǔn)、金標(biāo)準(zhǔn)、結(jié)局指標(biāo)等方面對不直接性進(jìn)行判斷。在患者方面,系統(tǒng)評價關(guān)注的是初級和二級衛(wèi)生保健機構(gòu)的患者,而其納入的3個研究關(guān)注的是三級衛(wèi)生保健機構(gòu)的住院患者。評估者經(jīng)過比較,認(rèn)為納入研究中三級衛(wèi)生保健機構(gòu)的患者與初級和二級衛(wèi)生保健機構(gòu)的患者相似,因此在患者間接性方面未降級,該項判斷結(jié)果為“可能是”。在待評價標(biāo)準(zhǔn)和金標(biāo)準(zhǔn)檢查方面,Xpert和細(xì)菌培養(yǎng)都屬于臨床中的常規(guī)檢查方法,不同機構(gòu)間無明顯差異,因此未降級,該項判斷結(jié)果為“是”。在Xpert和細(xì)菌培養(yǎng)比較方面,不存在間接比較,因此不降級,該項判斷結(jié)果為“是”。在結(jié)局指標(biāo)方面,本研究為診斷準(zhǔn)確性研究,重點關(guān)注敏感度、特異度等與患者重要結(jié)局相關(guān)的中間指標(biāo),從僅關(guān)注診斷試驗準(zhǔn)確性角度,可以不降級,該項判斷結(jié)果為“是”。但如從該診斷措施是否對患者所關(guān)注的最終結(jié)局的影響考慮是否降級,未做判斷,而由隨后的臨床決策者綜合考慮。綜上,“Xpert“一文,對于不直接性/間接性未予降級。
采用GRADE評估診斷準(zhǔn)確性研究的證據(jù)質(zhì)量方法是全面且透明的。與干預(yù)、預(yù)后和其他研究一樣,診斷試驗準(zhǔn)確性研究的證據(jù)質(zhì)量中,偏倚風(fēng)險和間接性2個方面的評估方法學(xué)基礎(chǔ)大同小異,但也各有特點并存在挑戰(zhàn)。盡管D-RCT可以更有效地關(guān)注患者的重要結(jié)局指標(biāo)(如病死率等)來評價待評價標(biāo)準(zhǔn)的效果,但出于可行性考慮,臨床更多采用針對診斷準(zhǔn)確性的DTA設(shè)計。對于RCT有其較為成熟的偏倚風(fēng)險評估工具(RoB)[7],但DTA目前更多應(yīng)用的是其方法學(xué)質(zhì)量評估工具(QUADAS-2),未來可能會開發(fā)出專門針對DTA的偏倚評估工具。DTA是當(dāng)前應(yīng)用最為廣泛的診斷準(zhǔn)確性研究,其關(guān)注的敏感度、特異度等可能并非患者重要結(jié)局的終點指標(biāo),存在間接性,有時一些提示有較好準(zhǔn)確性的診斷性試驗在應(yīng)用時并未對患者的最終結(jié)局產(chǎn)生實質(zhì)性影響。臨床決策者在應(yīng)用此類證據(jù)時需考慮到其對患者重要結(jié)局可能產(chǎn)生的影響。
隨著診斷方法學(xué)快速發(fā)展,診斷性研究、診斷試驗系統(tǒng)評價和診斷領(lǐng)域指南也引起業(yè)界更多關(guān)注。診斷系統(tǒng)評價為制訂診斷領(lǐng)域指南奠定了很好的基礎(chǔ),但其方法學(xué)也有待于不斷發(fā)展和完善。相信GRADE在診斷準(zhǔn)確性研究的證據(jù)質(zhì)量評價中的應(yīng)用在未來能被更多國內(nèi)學(xué)者關(guān)注和熟練掌握。