摘 要 疾病診斷是臨床治療和干預(yù)的基礎(chǔ)和前提,因此診斷試驗是臨床研究的一個重要內(nèi)容。正確了解診斷試驗的設(shè)計要點(diǎn)、評價原則和注意事項不僅可以加強(qiáng)對診斷試驗內(nèi)涵的認(rèn)識,同時也可以避免將其錯誤應(yīng)用。此外,應(yīng)用臨床流行病學(xué)方法對診斷試驗進(jìn)行評價研究,有助于正確認(rèn)識診斷試驗的價值,科學(xué)解讀診斷試驗的結(jié)果,從而提高臨床醫(yī)師的診斷水平。本文從診斷試驗的概念入手,講解診斷試驗的設(shè)計要點(diǎn)和規(guī)范,評價的基本原則,真實(shí)性、可靠性和臨床應(yīng)用價值的評價指標(biāo),提高診斷試驗效果的方法等內(nèi)容,以期為研究者們應(yīng)用診斷試驗提供參考。
關(guān)鍵詞 診斷試驗 金標(biāo)準(zhǔn) 真實(shí)性 可靠性 聯(lián)合試驗
中圖分類號:R-331 文獻(xiàn)標(biāo)志碼:C 文章編號:1006-1533(2024)15-0023-05
引用本文 丁聿寧, 王瑞平. 診斷試驗設(shè)計要點(diǎn)和規(guī)范[J]. 上海醫(yī)藥, 2024, 45(15): 23-27; 86.
基金項目:上海市衛(wèi)生健康委員會衛(wèi)生行業(yè)臨床研究專項(202240371);上海申康醫(yī)院發(fā)展中心第二輪促進(jìn)市級醫(yī)院臨床技能與臨床創(chuàng)新三年行動計劃——研究型醫(yī)師創(chuàng)新轉(zhuǎn)化能力培訓(xùn)項目(SHDC2022CRS053);上海市皮膚病醫(yī)院引進(jìn)人才科研基金項目(2021KYQD01);上海人才發(fā)展基金資助項目(2021SHRCFZ01);上海申康醫(yī)院發(fā)展中心促進(jìn)市級醫(yī)院臨床技能與臨床創(chuàng)新三年行動計劃(2023—2025年)CRU協(xié)同數(shù)據(jù)質(zhì)量提升項目(SHDC2024CRX032);上海市皮膚病醫(yī)院IIT基金項目(LCIIT-2023-14)
Diagnostic test design elements and specifications
DING Yuning, WANG Ruiping
(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)
ABSTRACT Disease diagnosis is the basis and premise of clinical treatment and intervention, so diagnostic tests are an important part of clinical research. Correct understanding of the design points, evaluation principles and precautions of diagnostic tests can not only strengthen the knowledge of the connotation of diagnostic tests, but also avoid their wrong application. In addition, the application of clinical epidemiological methods to evaluate diagnostic tests helps to correctly recognize the value of diagnostic tests, scientifically interpret the results of diagnostic tests, and thus improve the diagnostic level of clinicians. This article starts with the concept of diagnostic tests, explains the design points and specifications of diagnostic tests, the basic principles of evaluation, the evaluation indexes of authenticity, reliability and clinical application value, and the methods to improve the effect of diagnostic tests, so as to provide reference for researchers to apply their diagnostic tests.
KEY WORDS diagnostic test; gold standard; authenticity; reliability; joint testing
診斷試驗(diagnostic test, DT)是臨床研究的一個重要組成部分,正確了解DT的設(shè)計要點(diǎn)、評價原則和注意事項不僅能夠加強(qiáng)對DT的內(nèi)涵認(rèn)識,同時也可以避免錯誤應(yīng)用。應(yīng)用臨床流行病學(xué)方法對DT進(jìn)行真實(shí)性、可靠性和臨床應(yīng)用基質(zhì)等方面的評價研究,有助于正確認(rèn)識DT價值,科學(xué)解讀DT結(jié)果,從而提高臨床醫(yī)師的臨床診療能力和水平。本文從DT概念入手,解讀DT的設(shè)計要點(diǎn)和規(guī)范,DT的評價基本原則,DT的真實(shí)性、可靠性和臨床應(yīng)用價值的評價指標(biāo),提高DT效果的方法等內(nèi)容,以期為研究者們應(yīng)用DT開展臨床研究奠定基礎(chǔ)。
1 DT概念
DT是臨床研究的一種重要類型。診斷的本質(zhì)是將患者與非患者區(qū)別開來,那些用于區(qū)分患者與非患者的試驗方法或檢測檢查方法都可以統(tǒng)稱為“診斷試驗”。DT是一個廣泛的概念,包括病史、體格檢查所獲得的所有臨床測量資料;生化檢查、病原微生物檢查等實(shí)驗室檢查指標(biāo);超聲診斷、磁共振和放射性核素等影像學(xué)檢查資料;皮膚超聲、皮膚計算機(jī)斷層掃描(computed tomography, CT)即等器械檢查結(jié)果等。臨床醫(yī)師對疾病進(jìn)行診斷時,可以利用DT,對人群的疾病或健康狀況做出確切判斷[1]。
臨床上,DT可以有定性和定量等多種數(shù)據(jù)類型,DT中的多分類數(shù)據(jù)通常是有序變分類的定性變量。無論診斷數(shù)據(jù)為何種數(shù)據(jù)類型,臨床應(yīng)用時原則上均應(yīng)該先要簡化數(shù)據(jù)形式,大多數(shù)臨床應(yīng)用中的數(shù)據(jù)類別為有序變量數(shù)據(jù),如腫瘤分化程度的分級。有時需要將這些復(fù)雜的數(shù)據(jù)類別轉(zhuǎn)化為簡單的兩分類數(shù)據(jù)(正常/異常、有/無、疾病/健康),如高血壓的診斷,通常簡單地將收縮壓≥140 mmHg和(或)舒張壓≥90 mmHg者診斷為高血壓,進(jìn)而將對象區(qū)分為“高血壓患者”和“非高血壓患者”。
如前所述,DT的目的主要是用于疾病診斷,診斷對指導(dǎo)治療有決定性意義。疾病的臨床診斷過程并不總是完美,在獲得最后的診斷之前,醫(yī)生利用各個DT所提供的信息不斷修正其診斷。所以DT的評價對臨床工作的指導(dǎo)有著非常重要的意義。然而,目前對DT的研究和評價相對落后。因此,準(zhǔn)確理解DT的評價方法有助于正確認(rèn)識DT的實(shí)用性及其價值,避免憑經(jīng)驗選擇的盲目性和片面性。
2 DT的設(shè)計要點(diǎn)
如同其他類型的臨床研究,規(guī)范的DT同樣需要有前期的設(shè)計和規(guī)劃。在DT的設(shè)計過程中,需要研究者們明確DT的目的、DT的金標(biāo)準(zhǔn)選擇、研究對象的定義,樣本量估算,制定DT的真實(shí)性評價、可靠性評價和臨床應(yīng)用價值評價標(biāo)準(zhǔn)等內(nèi)容。
2.1 明確研究目的
開展DT研究前,項目團(tuán)隊?wèi)?yīng)根據(jù)擬評價的診斷試劑/設(shè)備/技術(shù)的特點(diǎn),制定清晰明確的研究目標(biāo),說明DT的主要目的和核心評價指標(biāo)體系等內(nèi)容,為制定詳細(xì)的研究流程奠定基礎(chǔ)。
2.2 研究對象
DT臨床研究中,研究對象應(yīng)能代表試驗檢查對象的目標(biāo)人群,即基于該DT開發(fā)的診斷方法在今后臨床應(yīng)用時應(yīng)具有普遍適用性和鑒別疾病的能力。一個成熟的DT建立,通常需要經(jīng)過3個研究階段。①建立試驗研究初期,正常人可作為對照組;典型患者為病例組。②試驗研究中期,研究對象應(yīng)選擇早期和病情較輕的患者,包括那些可能會干擾DT結(jié)果的有合并癥患者。例如,在評價皮膚CT診斷基底細(xì)胞癌時,研究對象應(yīng)包括癌前病變患者,以及合并日光性角化病患者。無病組應(yīng)包括其他皮膚病患者。③試驗研究后期,最好選取多中心、較大樣本的患者。這組研究對象代表目標(biāo)臨床患者人群,包括該病的各種臨床類型,如不同病情嚴(yán)重程度(輕、中、重),不同病程階段(早、中、晚),不同癥狀和體征(典型和不典型),有和無并發(fā)癥者,還有那些確實(shí)無該病,但易與該病相混淆的其他疾病,以使試驗的結(jié)果具有代表性。這樣的DT評價結(jié)果真實(shí)性最高,具有較大的科學(xué)意義和臨床實(shí)用價值。
2.3 樣本量
臨床研究中,樣本量是在保證研究結(jié)論具有一定可靠性的前提下所確定的最小樣本數(shù),其意義是降低研究中的抽樣誤差。樣本量過小,診斷指標(biāo)就可能不穩(wěn)定,影響對DT結(jié)果的評價。DT臨床研究中,樣本量通常根據(jù)被評價DT的靈敏度(sensitivity, Se)和特異度(specificity, Sp)分別計算研究所需的患者人數(shù)和對照人數(shù),最后合起來得到樣本含量。DT中,樣本大小與顯著性水平α值、允許誤差δ、試驗Se、Sp有關(guān)。樣本量計算是,α值越大,所需樣本量越小,通常取α=0.05或0.01;允許誤差δ越小,樣本量越大,通常δ取0.05或0.10。
例如,擬開展一項DT,評價新型宮頸癌診斷試劑盒對女性宮頸癌的臨床早期診斷價值,前期的預(yù)實(shí)驗結(jié)果提示,該診斷試劑對早期宮頸癌診斷的Se=75%,Sp=60%,試估算本次DT所需要的樣本量。
2.4 DT“金標(biāo)準(zhǔn)”
金標(biāo)準(zhǔn)是指公認(rèn)的疾病診斷標(biāo)準(zhǔn),又稱為標(biāo)準(zhǔn)診斷、參考標(biāo)準(zhǔn)等。金標(biāo)準(zhǔn)是指目前醫(yī)學(xué)界公認(rèn)的診斷某種疾病最準(zhǔn)確的、可靠的方法。常用的金標(biāo)準(zhǔn)有:病理學(xué)診斷、尸體解剖、手術(shù)發(fā)現(xiàn)、影像學(xué)檢查,也可采用公認(rèn)的綜合臨床診斷標(biāo)準(zhǔn)。
須注意的是,待評價的DT如果不與“金標(biāo)準(zhǔn)”對比,就無法證明待評價DT的準(zhǔn)確性;若金標(biāo)準(zhǔn)選擇不妥,就會造成對研究對象“患病組”“無病組”劃分上的錯誤,從而影響對DT的正確評價。實(shí)際工作中,研究者應(yīng)根據(jù)臨床具體情況選擇合適的標(biāo)準(zhǔn)診斷方法,如常應(yīng)用病理學(xué)檢查作為腫瘤診斷的金標(biāo)準(zhǔn)。須說明的是,金標(biāo)準(zhǔn)具有相對性,任何一個金標(biāo)準(zhǔn)只是特定時期下醫(yī)學(xué)發(fā)展的產(chǎn)物,它相對穩(wěn)定,但不具有永恒性,研究者需根據(jù)研究目標(biāo)選擇當(dāng)前最權(quán)威的診斷結(jié)果作為“金標(biāo)準(zhǔn)”。
3 DT的真實(shí)性評價
真實(shí)性是指DT的結(jié)果與實(shí)際情況的符合程度。研究診斷性試驗真實(shí)性,最基本的方法是將待評價的試驗與診斷該病的金標(biāo)準(zhǔn)進(jìn)行盲法比較,以評價其對疾病診斷的真實(shí)性。一般而言,真實(shí)性是反映DT實(shí)際測量結(jié)果與真值之間的符合程度,是DT研究與評價的最主要內(nèi)容。DT的結(jié)果與金標(biāo)準(zhǔn)進(jìn)行比較應(yīng)實(shí)施獨(dú)立的盲法評價,所謂“獨(dú)立”指所有研究對象要同時進(jìn)行DT和金標(biāo)準(zhǔn)方法的測定;所謂“盲法”指DT和金標(biāo)準(zhǔn)方法結(jié)果的判斷或解釋相互獨(dú)立。評價DT真實(shí)性的指標(biāo)包括Se、Sp、假陽性率(false positive rate, FPR)、假陰性率(false negative rate, FNR)、總符合率(agreement rate, AR)、約登指數(shù)(Youden’s index, YI)和陽性似然比(positive likelihood ratio, PLR)等。
3.1 真實(shí)性評價指標(biāo)計算
根據(jù)DT結(jié)果和金標(biāo)準(zhǔn)診斷結(jié)果可以建立一個四格表。如表1所示,將DT結(jié)果和金標(biāo)準(zhǔn)結(jié)果比較會得出四種情況:“金標(biāo)準(zhǔn)”為患者,DT也為患者,這種情況的患者數(shù)為“A”;“金標(biāo)準(zhǔn)”為患者,DT為非患者,這種情況的患者數(shù)為“C”;“金標(biāo)準(zhǔn)”為非患者,DT為患者,這種情況的患者數(shù)為“B”;“金標(biāo)準(zhǔn)”為非患者,DT也為非患者,這種情況的患者數(shù)為“D”。通過這個四格表就可以計算DT常用的真實(shí)性評價指標(biāo)。
Se又稱為真陽性率,是指實(shí)際患病且被DT判定為“患者”的百分比,反映被評價DT發(fā)現(xiàn)患者的能力,Se值越大,說明發(fā)現(xiàn)患者的能力越強(qiáng)。其計算公式為Se=A/(A+C)×100%。
FNR又稱為漏診率,是實(shí)際患病但DT判定為“非患者”的百分比。FNR與Se互補(bǔ),也是反映DT發(fā)現(xiàn)患者的能力,F(xiàn)NR越小越好。其計算公式為FNR=C/(A+C)×100%。
Sp又稱為真陰性率,是實(shí)際未患病者被DT同樣判定為“非患者”的百分比,反映DT鑒別非患者的能力,該值越大越好。其計算公式為Sp=D/(B+D)×100%。
FPR又稱為誤診率,是實(shí)際未患病者被DT判定為“患者”的百分比。FPR與Sp互補(bǔ),同樣反映DT鑒別非患者的能力,該值越小越好。其計算公式為FPR=B/(B+D)×100%。
AR又稱為一致率,表示DT中真陽性患者數(shù)和真陰性非患者數(shù)之和占全體受檢人員的百分比。反映正確判定“患者”和“非患者”的綜合能力??偡下试礁撸鎸?shí)性越好。其計算公式為AR=(A+D)/(A+B+C+D)×100%。
YI又稱為正確診斷指數(shù),是一項綜合性指標(biāo),其計算公式為YI=Se+Sp-1,YI在0~1之間波動,用于判定DT正確判定患病和無病的能力。
3.2 DT界值
臨床上,開展DT的根本目的是幫助醫(yī)生正確判定被檢查人群患病還是無病,所以DT結(jié)果的正常和異常要有明確的界定,這個分界值就稱為界值(cut-off point),也稱為參考值。臨床實(shí)踐中,患病者與無病者的DT結(jié)果往往會出現(xiàn)重疊,這就需要一個判定標(biāo)準(zhǔn),人為地將其分為“陽性”和“陰性”。
通常情況下,DT可分為以下幾類:①主觀指標(biāo):根據(jù)被診斷者的主訴確定,如疼痛、失眠等,包括一些診斷量表。②客觀指標(biāo):用儀器客觀測定的指標(biāo),如體溫、血壓、生化檢查結(jié)果、CT影像等。③半客觀指標(biāo):根據(jù)診斷者的主觀感知來判斷的指標(biāo),如腫塊的質(zhì)地等。
對于連續(xù)變量測量值,DT的界值需要注意其一致性。如高血壓的診斷通常采用世界衛(wèi)生組織規(guī)定的高血壓診斷標(biāo)準(zhǔn),即收縮壓≥140 mmHg和(或)舒張壓≥90 mmHg。若在不同地區(qū)或不同時期采用的標(biāo)準(zhǔn)不一致,則診斷結(jié)果也會不同。臨床上,醫(yī)生希望DT的Se和Sp都很高,即患病者均陽性,無病者均陰性的理想結(jié)果,這時患病者與無病者的測定值完全沒有重疊,但這種情景實(shí)際上并不常見。由于DT本身存在的缺陷以及疾病的復(fù)雜性,大多數(shù)時候患病者的結(jié)果和無病者的結(jié)果相互重疊不能完全區(qū)分開(圖1)。
臨床實(shí)踐中,DT出現(xiàn)圖1所展示的情景更常見,這時需要確定一個劃分陽性和陰性的界值。不同的界值選擇會影響DT的Se和Sp等指標(biāo)(圖2)。在實(shí)際選擇DT界值標(biāo)準(zhǔn)時,一般要遵循以下原則:
1)高Se水平DT標(biāo)準(zhǔn):對于那些預(yù)后差、漏診后果嚴(yán)重、目前臨床上有有效的治療手段、尤其是早期治療可獲得較好治療效果的疾病,則應(yīng)該將DT的陽性標(biāo)準(zhǔn)定在高Se的水平,盡可能診斷出所有的患者。如圖2(A)所示,將判定界值向“左”移動,這時DT的Se升高,而Sp降低、假陽性增多,導(dǎo)致需要進(jìn)一步確診的可疑病例增多,從而增加檢查成本。
2)高Sp水平DT標(biāo)準(zhǔn):臨床治療效果不理想的疾病,確診和治療費(fèi)用比較昂貴的疾病,疾病預(yù)后不嚴(yán)重且現(xiàn)有治療方法不理想,或?qū)⒎腔颊哒`診為患者時后果嚴(yán)重時,應(yīng)將診斷陽性標(biāo)準(zhǔn)定在高Sp水平,盡量排除非患者,見圖2(B)。
3)較高水平Se和Sp的DT標(biāo)準(zhǔn):當(dāng)假陽性和假陰性的重要性相等時,一般可以將DT界值標(biāo)準(zhǔn)定在患者與非患者分布的分界線處。
臨床實(shí)踐中,對于連續(xù)變量的DT需要選擇一個區(qū)分正常和異常的診斷界值,通??梢圆捎谩罢龖B(tài)分布法”“百分位數(shù)法”“受試者工作特征(receiver operating characteristic, ROC)曲線法”和“臨床經(jīng)驗判定法”等方式確定。
4 DT的可靠性評價
可靠性(reliability)也稱為可重復(fù)性或信度,是指DT在完全相同的條件下,進(jìn)行重復(fù)試驗獲得結(jié)果的穩(wěn)定性。因為在研究過程中,數(shù)據(jù)測量和采集過程會存在系統(tǒng)誤差和隨機(jī)誤差,導(dǎo)致測量值的不穩(wěn)定。DT可靠性評價的設(shè)計與真實(shí)性評價不一樣,可靠性評價主要是評價測量變異的大小。
定量變量:通過用變異系數(shù)和標(biāo)準(zhǔn)差表示結(jié)果的可靠性。其中變異系數(shù)=標(biāo)準(zhǔn)差/均數(shù)×100%,變異系數(shù)越小,標(biāo)準(zhǔn)差越小,可靠性越好。
定性變量:通過用觀察符合率和卡帕(Kappa)值表示。觀察符合率是指兩名觀察者對同一事物的觀察或同一名觀察者對同一事物的兩次觀察結(jié)果的一致性百分率。Kappa值是判斷不同觀察者間校正機(jī)遇一致率后觀察的一致率情況,其含義為實(shí)際符合率與最大可能符合率之比。如表2所示,兩名皮膚病理醫(yī)生對200名疑似皮膚腫瘤患者的皮膚病理切片判讀的結(jié)果,可以通過計算觀察符合率和Kappa值來評價DT的可靠性。
觀察符合率=(A+D)/N×100%=(40+ 135)/200×100%=87.5%
觀察符合率P0=(A+D)/N=87.5%
機(jī)遇符合率Pc=(R1C1/N+R2C2/N)/N×100%=(55×50/200+150×145/200)/200×100%=61.25%
Kappa=(P0-Pc)/(1-Pc)=(87.5%-61.25%)/(1-61.25%)=0.69
kappa值充分考慮了機(jī)遇因素對結(jié)果一致性的影響,其取值介于[-1, 1],當(dāng)kappa值為0.75~1.00時表示“符合很好”,取值為0.40~0.74時表示“符合一般”,取值為0.01~0.39時表示“缺乏符合”。
5 DT臨床應(yīng)用價值評價
DT的開發(fā)起源于臨床,其最終必定要回歸臨床應(yīng)用。因此,對于DT的臨床應(yīng)用價值評價必不可少。DT臨床應(yīng)用價值主要為臨床收益的內(nèi)容,主要包括預(yù)測值的估計、新確診病例和衛(wèi)生經(jīng)濟(jì)學(xué)評價,以及提升DT效率的方法。
預(yù)測值(predictive value, PV)是反映應(yīng)用DT的檢查結(jié)果來評估受試者患病或不患病的可能性大小指標(biāo)。根據(jù)DT結(jié)果的陽性和陰性,預(yù)測值也分為陽性預(yù)測值和陰性預(yù)測值。
陽性預(yù)測值(positive predictive value, PPV)是指DT結(jié)果為陽性者中真正患者所占的百分比。對于一項DT來說,PPV越大,說明DT陽性后受試者患病的概率越大。以表2為例,DT的PPV計算公式為A/(A+B)×100%。
陰性預(yù)測值(negative predictive value, NPV)是指DT結(jié)果為陰性者中真正為非患者所占的百分比。對于一項DT來說,NPV越大,說明DT陰性后受試者為無病者的概率越大。以表2為例,DT的NPV計算公式為D/(C+D)×100%。
當(dāng)患病率固定不變時,DT的Se越高,F(xiàn)NR將會越低,陰性預(yù)測值越高,當(dāng)Se為100%時,陰性預(yù)測值也為100%;相反,DT的Sp越高,F(xiàn)PR越低,陽性預(yù)測值越高。
當(dāng)DT的Se和Sp確定后,陽性預(yù)測值和患病率成正比,陰性預(yù)測值和患病率成反比。一般來說,人群中患病率越高,所診斷的患者數(shù)就越多,陽性預(yù)測值就越高,而陰性預(yù)測值就越低。
因此,為提高DT的效率,常規(guī)可以采取“選擇患病率高的人群開展DT”和“采用聯(lián)合試驗”的方案。聯(lián)合DT是將2種及以上DT結(jié)合起來對結(jié)果進(jìn)行綜合判讀,包括“串聯(lián)”和“并聯(lián)”兩組形式。其中“串聯(lián)”類似于物理學(xué)電路圖中的“串聯(lián)”,即當(dāng)2種DT均提示陽性時才能確定為“病例”,因此提高了判定受試者為陽性的標(biāo)準(zhǔn),DT的Se降低,而Sp升高。“并聯(lián)”同樣類似于物理學(xué)電路圖中的“并聯(lián)”,即2種DT中只要有一個提示陽性便可以確定為“病例”,因此降低了判定受試者為陽性的標(biāo)準(zhǔn),DT的Se提高,而Sp降低。
參考文獻(xiàn)
[1] 詹思延. 臨床流行病[M]. 2版. 北京: 人民衛(wèi)生出版社, 2011.