韓宏志,官 鑫,陳思含,姜瑾秋,李欣欣
(吉林大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)編輯部,吉林 長(zhǎng)春 130021)
診斷試驗(yàn)是生物醫(yī)學(xué)研究中較為常用且較為復(fù)雜的研究方法。在金標(biāo)準(zhǔn)的選擇、樣本含量估算、最佳診斷界值的選擇、診斷試驗(yàn)的真實(shí)性評(píng)價(jià)(靈敏度、特異度、總符合率、約登指數(shù)和似然比)、診斷試驗(yàn)的可靠性評(píng)價(jià)(一致性評(píng)價(jià)、組間變異系數(shù)、Bland-Altman圖和Kappa系數(shù))和診斷試驗(yàn)實(shí)用性評(píng)價(jià)(陽性預(yù)測(cè)值、陰性預(yù)測(cè)值和經(jīng)濟(jì)性評(píng)價(jià))等知識(shí)點(diǎn)具有很強(qiáng)的專業(yè)性,通常研究者很難在短時(shí)間內(nèi)熟練正確掌握,導(dǎo)致已發(fā)表的診斷試驗(yàn)研究論文總體質(zhì)量不高。目前,研究者參考英文醫(yī)學(xué)期刊普遍使用的《診斷試驗(yàn)研究報(bào)告標(biāo)準(zhǔn)》(Standards for Reporting Diagnostic Accuracy Studies,STARD)、中華醫(yī)學(xué)會(huì)系列雜志診斷準(zhǔn)確性研究建議使用的《STARD 2015對(duì)照檢查清單》和中國(guó)高??萍计诳芯繒?huì)醫(yī)學(xué)期刊專業(yè)委員會(huì)推薦使用的《中國(guó)高校醫(yī)學(xué)期刊論文統(tǒng)計(jì)報(bào)告推薦清單(2021版)》對(duì)該類研究進(jìn)行規(guī)范,但由于這幾種清單條目多,內(nèi)容細(xì),專業(yè)性較強(qiáng),對(duì)于不具備統(tǒng)計(jì)學(xué)基礎(chǔ)的研究者而言,熟練掌握并正確應(yīng)用較困難,醫(yī)學(xué)期刊編輯處理該種類型稿件也較為吃力,因此現(xiàn)已正式發(fā)表的該類文章仍存在諸多問題。現(xiàn)就醫(yī)學(xué)編輯在日常審稿過程常見的幾種診斷試驗(yàn)應(yīng)用錯(cuò)誤進(jìn)行辨析,旨在提高醫(yī)學(xué)期刊中診斷試驗(yàn)研究試驗(yàn)設(shè)計(jì)、統(tǒng)計(jì)學(xué)分析和結(jié)果報(bào)告的科學(xué)性、準(zhǔn)確性和規(guī)范性。
某項(xiàng)研究[1]探討血清淀粉樣蛋白 A (Serum amyloid A protein,SAA)、白細(xì)胞介素 6(Interleukin-6,IL-6)和腫瘤壞死因子 α(Tumor necrosis factor-α,TNF-α)水平檢測(cè)對(duì)特發(fā)性間質(zhì)性肺炎(idiopathic interstitial pneumonia,IIP)的診斷價(jià)值,研究者選取124例IIP患者作為IIP組,選取同期該院 130名健康體檢者作為對(duì)照組進(jìn)行診斷試驗(yàn),這是一種不規(guī)范的對(duì)照組選取,采用上述3種實(shí)驗(yàn)室指標(biāo)診斷IIP的類似研究已有相關(guān)文獻(xiàn)報(bào)道,因此該研究不屬于診斷試驗(yàn)準(zhǔn)確性評(píng)價(jià)的早期探索階段,不宜選用正常人(健康志愿者)作為對(duì)照組,病例組也不能僅選取典型病例,也應(yīng)選取不同嚴(yán)重程度(輕、中和重)、不同病程階段(早、中和晚)、不同癥狀和體征(典型和不典型)及有無并發(fā)癥的患者;另外健康體檢者與IIP患者在臨床癥狀和體征上存在很大區(qū)別,不需要應(yīng)用實(shí)驗(yàn)室指標(biāo)進(jìn)行鑒別診斷。診斷試驗(yàn)研究對(duì)象選取時(shí)對(duì)照組應(yīng)選擇那種在癥狀和體征上與疾病組高度相似,在臨床工作中極易與待診斷疾病混淆的人群,以考核待診斷試驗(yàn)的適用范圍和鑒別診斷能力。選取健康體檢者作為對(duì)照組所進(jìn)行的診斷試驗(yàn),會(huì)過高評(píng)估待診斷試驗(yàn)的診斷效率。醫(yī)學(xué)期刊編輯在處理該種類型稿件時(shí),應(yīng)注意診斷試驗(yàn)研究對(duì)象選取的合理性和代表性,把好研究對(duì)象選取質(zhì)量關(guān)。
某項(xiàng)研究[2]探討免疫熒光原位雜交(fluorescence in situ hybridization, FISH)技術(shù)檢測(cè)腦脊液中循環(huán)腫瘤細(xì)胞對(duì)于肺癌腦膜轉(zhuǎn)移的診斷價(jià)值,研究者選擇16例肺癌腦轉(zhuǎn)移患者作為病例組,8例腦部非腫瘤疾病患者作為對(duì)照組,初步判斷該研究所選用的樣本量過少,可導(dǎo)致診斷指標(biāo)預(yù)測(cè)結(jié)果的不穩(wěn)定,無法滿足統(tǒng)計(jì)的準(zhǔn)確性和可靠性,進(jìn)而影響對(duì)診斷結(jié)果的評(píng)價(jià)。診斷試驗(yàn)樣本含量估算與顯著性水平(α)、預(yù)計(jì)該方法診斷患者的靈敏度及靈敏度的容許誤差和預(yù)計(jì)該方法診斷非患者的特異度及特異度的容許誤差有關(guān)。診斷試驗(yàn)應(yīng)在研究設(shè)計(jì)階段進(jìn)行病例組和對(duì)照組樣本含量的估算,并給出樣本含量估算的計(jì)算公式或軟件名稱(版本號(hào))等相關(guān)信息,其中病例組樣本含量由靈敏度估計(jì),對(duì)照組樣本含量由特異度估計(jì),在診斷試驗(yàn)設(shè)計(jì)時(shí)要基于靈敏度進(jìn)行病例組樣本含量估計(jì)和基于特異度進(jìn)行對(duì)照組樣本含量估計(jì),之后選取兩者的最大值。因此醫(yī)學(xué)期刊編輯在審稿過程中要注意診斷試驗(yàn)研究樣本量,對(duì)于病例組和對(duì)照組樣本含量小于30例的診斷試驗(yàn),建議作者重新采用PASS軟件或Power and Sample Size網(wǎng)站進(jìn)行樣本含量估算,樣本含量相應(yīng)增加后進(jìn)行重新試驗(yàn),以保證診斷試驗(yàn)的真實(shí)性和可靠性。
某研究者[3]應(yīng)用受試者工作特征(receiver operating characteristic,ROC)曲線評(píng)價(jià)基質(zhì)金屬蛋白酶 9(matrix metalloproteinase-9,MMP-9)對(duì) ST段抬高型心肌梗死(St-segment elevation myocardial infarction,STEMI)的診斷價(jià)值,研究者選取某醫(yī)院心臟中心重癥監(jiān)護(hù)室55例年滿18周歲初次診斷為STEMI漢族患者作為STEMI組,選取同期于該中心普通病房住院診療年滿18周歲的50例有非典型胸痛表現(xiàn)(冠狀動(dòng)脈造影提示左右冠狀動(dòng)脈未見異常)的漢族患者作為對(duì)照組,但2組研究對(duì)象主要人口學(xué)特征[性別構(gòu)成、年齡分布、吸煙率和體質(zhì)量指數(shù)(body mass index,BMI)]和主要臨床特征[白細(xì)胞計(jì)數(shù)、單核細(xì)胞計(jì)數(shù)和血肌酐(serum creatinine,Scr)]等基數(shù)資料比較差異均有統(tǒng)計(jì)學(xué)意義(P<0.05或P<0.01),由于研究對(duì)象年齡分布和性別構(gòu)成等人口學(xué)特征與疾病嚴(yán)重程度或并發(fā)癥發(fā)生情況可能存在相關(guān)關(guān)系而影響診斷試驗(yàn)的準(zhǔn)確性,因此醫(yī)學(xué)期刊編輯應(yīng)正確讀取診斷試驗(yàn)研究對(duì)象的一般人口學(xué)特征和疾病嚴(yán)重程度等基線資料,判斷其是否具有可比性。
在某些診斷試驗(yàn)研究進(jìn)行了多指標(biāo)的聯(lián)合診斷評(píng)價(jià),但未明確指出聯(lián)合診斷試驗(yàn)的方法(并聯(lián)試驗(yàn)或串聯(lián)試驗(yàn)),并且在結(jié)果中還存在錯(cuò)誤,如某研究者[4]研究支氣管肺泡灌洗液(bronchoalveolar lavage fluid,BALF)-半乳甘露聚糖(galactomannan,GM)試驗(yàn)聯(lián)合血清GM侵襲性肺曲霉病(invasive pulmonary aspergillosis,IPA)的診斷價(jià)值,其中BALF-GM試驗(yàn)陽性的靈敏度為84.6%,特異度為62.5%,血清GM試驗(yàn)陽性的靈敏度為76.5%,特異度為56.5%,而BALF-GM試驗(yàn)與血清GM試驗(yàn)均為陽性(串聯(lián)試驗(yàn))的靈敏度(95.3%)與特異度(87.0%)均較單獨(dú)應(yīng)用時(shí)升高,存在計(jì)算錯(cuò)誤。在聯(lián)合試驗(yàn)中不可能出現(xiàn)靈敏度與特異度同時(shí)升高的情況。而另一位研究者[5]采用血清中前列腺特異抗原(prostate specific antigen,PSA)[總PSA(tPSA)和游離PSA(free PSA, fPSA)]、細(xì)胞角蛋白19片段抗原21-1(cytokeratin 19 fragment antigen 21-1,CYFRA21-1)單獨(dú)和聯(lián)合檢測(cè)評(píng)價(jià)對(duì)乳腺癌的診斷價(jià)值,文中未敘述聯(lián)合試驗(yàn)的具體方法,直接得出tPSA+fPSA+CYFRA21-1聯(lián)合檢測(cè)的靈敏度和特異度均高于tPSA、fPSA和CYFRA21-1單獨(dú)檢測(cè),也是存在計(jì)算錯(cuò)誤。靈敏度和特異度這 2個(gè)指標(biāo)可以綜合反映待評(píng)價(jià)診斷方法診斷能力的優(yōu)劣。不同的診斷試驗(yàn)臨界值具有不同的靈敏度和特異度,靈敏度升高,特異度下降;特異度升高,靈敏度下降。在并聯(lián)試驗(yàn)時(shí),2種診斷方法聯(lián)合診斷的靈敏度高于單獨(dú)任一種診斷方法,但聯(lián)合試驗(yàn)的特異度低于任一種診斷方法;在串聯(lián)試驗(yàn)時(shí),2種診斷方法聯(lián)合診斷的特異度高于單獨(dú)一種診斷方法,但靈敏度低于任意一種診斷方法。因此在聯(lián)合試驗(yàn)時(shí),不會(huì)出現(xiàn)聯(lián)合試驗(yàn)的診斷靈敏度和特異度均高于任意一種診斷方法的情況。這是一種較為普遍的診斷試驗(yàn)錯(cuò)用誤用的形式,應(yīng)引起醫(yī)學(xué)期刊編輯的足夠重視,此類錯(cuò)誤源于研究者主觀傾向于所研究診斷方法的聯(lián)合試驗(yàn)應(yīng)優(yōu)于單獨(dú)一種和對(duì)診斷試驗(yàn)統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)掌握不準(zhǔn)確。
某項(xiàng)研究[6]采用 GEvivid7 pro彩超行經(jīng)胸超聲心動(dòng)圖(TTE,3S探頭)和經(jīng)食道超聲心動(dòng)圖(TEE,6T探頭)探討2種檢測(cè)方法在感染性心內(nèi)膜換瓣術(shù)前的診斷價(jià)值,該研究存在諸多不足之處,主要表現(xiàn)在:①在“1.2”方法中敘述了采用 2種方法檢查,但未敘述是由同一位醫(yī)生還是不同醫(yī)生操作,2種方法是存在先后順序檢查還是遵循盲法,診斷試驗(yàn)應(yīng)遵循隨機(jī)化原則,在該研究中體現(xiàn)在不同醫(yī)生判斷診斷試驗(yàn)結(jié)果時(shí)應(yīng)采用隨機(jī)化順序;②在“1.3”統(tǒng)計(jì)分析中敘述了采用聯(lián)合檢驗(yàn)(并聯(lián)和串聯(lián))的計(jì)算公式,但結(jié)果部分未進(jìn)行相關(guān)計(jì)算;③在結(jié)果部分給出了2種檢查方法的陽性似然比和陰性似然比,但似然比的數(shù)值為0.5~1.0,表明2種方法對(duì)該疾病的診斷價(jià)值不大,因此該研究所得出的 2種檢查方法對(duì)感染性心內(nèi)膜炎換瓣術(shù)前具有重要的臨床診斷價(jià)值的結(jié)論不準(zhǔn)確。似然比是評(píng)價(jià)診斷試驗(yàn)真實(shí)性的重要指標(biāo),其不受受檢人群患病率的影響,當(dāng)似然比大于 1時(shí),表示應(yīng)用該診斷試驗(yàn)對(duì)疾病的診斷概率增加,當(dāng)似然比小于1時(shí),表明該診斷試驗(yàn)對(duì)疾病的診斷價(jià)值??;當(dāng)似然比為1~2或0.5~1時(shí),表示該種診斷試驗(yàn)對(duì)疾病的診斷作用不大[7]。醫(yī)學(xué)期刊編輯可以基于似然比的數(shù)值判斷作者對(duì)診斷試驗(yàn)結(jié)論的準(zhǔn)確性。對(duì)于評(píng)價(jià)2種方法對(duì)同一種疾病的診斷價(jià)值,建議采用Kappa一致性檢驗(yàn)。
某研究者[8]應(yīng)用 ROC 曲線評(píng)價(jià)甲胎蛋白(alpha-fetoprotein,AFP)、α-L-巖藻糖苷酶(α-L-fucosidase,AFU)、CA199和γ谷氨酰轉(zhuǎn)移酶(glutamyltransferase,GGT)單獨(dú)或聯(lián)合檢測(cè)對(duì)原發(fā)性肝癌(primary hepatic carcinoma, PHC)的診斷價(jià)值,以AFP、AFU、CA199和GGT正常參考值上限作為診斷PHC的臨界點(diǎn)。醫(yī)學(xué)參考值范圍(reference range)指包括絕大多數(shù)正常人的某指標(biāo)觀測(cè)值的波動(dòng)范圍[9],當(dāng)醫(yī)學(xué)參考值范圍建立后要評(píng)價(jià)是否可以用于醫(yī)學(xué)實(shí)踐一般需重新觀測(cè)一部分健康者和患者用原觀測(cè)方法(金標(biāo)準(zhǔn))與參考值范圍進(jìn)行評(píng)價(jià)[10]。醫(yī)學(xué)參考值范圍的上限和下限不能作為診斷某種疾病的界值。該研究未充分考慮上述 4種診斷標(biāo)志物在健康人群、疾病人群以及與疾病人群相似人群中的分布情況,也未權(quán)衡誤診和漏診所帶來的影響,因此在試驗(yàn)設(shè)計(jì)上不夠科學(xué)嚴(yán)謹(jǐn)。診斷試驗(yàn)是用于臨床醫(yī)生判斷患者是否患病,需要設(shè)定試驗(yàn)結(jié)果的正常與異常的界值,也稱為截?cái)帱c(diǎn),以此值為界將研究對(duì)象經(jīng)待評(píng)價(jià)診斷標(biāo)準(zhǔn)的檢測(cè)結(jié)果分為陽性與陰性,并且診斷試驗(yàn)的結(jié)果通常在患者與無病者之間存在重疊和交叉,因此確定截?cái)帱c(diǎn)是診斷試驗(yàn)的關(guān)鍵性步驟。診斷試驗(yàn)臨界點(diǎn)的確立方法主要包括正態(tài)分布法、百分位數(shù)法、ROC曲線法、最大約登指數(shù)和臨床確定法。醫(yī)學(xué)期刊編輯審理該類型稿件時(shí),應(yīng)建議作者選擇合理的方法確定最佳臨界值。
描述診斷試驗(yàn)檢出結(jié)果時(shí),靈敏度和特異度必須與相應(yīng)的決策閾值一起給出,在描述AUC結(jié)果時(shí),應(yīng)報(bào)道AUC及95%置信區(qū)間(95%CI),AUC與0.5比較差異是否有統(tǒng)計(jì)學(xué)意義。某研究[11]探討血清肺腺癌轉(zhuǎn)移相關(guān)轉(zhuǎn)錄因子 1 (metastasis-associated lung adenocarcinoma transcript-1,MALAT-1)聯(lián)合PSA檢測(cè)對(duì)前列腺癌的診斷價(jià)值,該文章在研究設(shè)計(jì)與統(tǒng)計(jì)學(xué)分析中出現(xiàn)如下錯(cuò)誤:①在文中未體現(xiàn)出AUC與0.5比較差異是否有統(tǒng)計(jì)學(xué)意義;②研究中的聯(lián)合檢驗(yàn)未說明是并聯(lián)試驗(yàn)還是串聯(lián)試驗(yàn),但在原文的表2中靈敏度介于單獨(dú)應(yīng)用MALAT-1或PSA檢驗(yàn),而特異度高于單獨(dú)應(yīng)用MALAT-1和PSA檢驗(yàn),不符合串聯(lián)試驗(yàn)和并聯(lián)試驗(yàn)中靈敏度與特異度變化的規(guī)律;③表1(原文中表2)和圖1(原文中圖3A)中及結(jié)果部分均說明聯(lián)合試驗(yàn)(MALAT-1和PSA檢驗(yàn))診斷前列腺癌的AUC(0.865)高于單獨(dú)使用MALAT-1(0.759)和PSA(0.800),但圖1A顯示3條ROC曲線存在交叉,因此不能按照曲線離機(jī)會(huì)對(duì)角線最遠(yuǎn)判斷哪條曲線AUC最大,SPSS軟件無比較AUC大小的功能,通常應(yīng)用MedCalc軟件進(jìn)行AUC大小的比較,另外研究者還可以采用 AUC 95%CI進(jìn)行判斷,MALAT-1+PSA的95%CI(0.782~0.925)包含PSA的AUC值(0.800),因此P>0.05,不能說明MALAT-1+PSA與PSA的診斷能力有差別。
圖1 MALAT-1和PSA診斷前列腺癌的ROC
表1 MALAT-1和PSA對(duì)前列腺癌的診斷效能
某研究[12]評(píng)估乳腺影像學(xué)報(bào)告及數(shù)據(jù)系統(tǒng)(Breast Imaging Reporting and Data System,BI-RADS)診斷標(biāo)準(zhǔn)與超聲彈性成像(ultrasonic elastography, UE)改良5分法判斷乳腺導(dǎo)管內(nèi)腫物良惡性的價(jià)值,首先采用常規(guī)超聲發(fā)現(xiàn)病灶,對(duì)其進(jìn)行BI-RADS評(píng)分,在此基礎(chǔ)上進(jìn)入U(xiǎn)E模式,獲得實(shí)時(shí)彈性成像圖像后再進(jìn)行評(píng)分,因這 2種診斷方法均屬于主觀,后一種診斷試驗(yàn)結(jié)果的判讀受第一種診斷試驗(yàn)結(jié)果的影響,相當(dāng)于增加了臨床資料作為確立診斷的臨床依據(jù),未能做到所研究 2種診斷方法的獨(dú)立,也未遵循診斷試驗(yàn)結(jié)果判定過程中的盲法,診斷試驗(yàn)的觀察者應(yīng)在不知金標(biāo)準(zhǔn)診斷結(jié)果的情況下,應(yīng)用被評(píng)價(jià)的診斷方法檢查患者或測(cè)定患者標(biāo)本,即盲法判斷試驗(yàn)結(jié)果,避免觀察者造成的偏倚。該診斷試驗(yàn)的偏倚屬于評(píng)價(jià)者臨床解讀偏倚,這種偏倚增加了試驗(yàn)的靈敏度,降低了試驗(yàn)的特異度。在診斷試驗(yàn)研究中,對(duì)于較主觀的資料判讀常受到臨床資料,如年齡、性別、癥狀、體征、實(shí)驗(yàn)室和影像資料的影響,提高判斷的準(zhǔn)確性,這種情況在臨床實(shí)踐過程是可的,但在診斷試驗(yàn)研究中容易產(chǎn)生偏倚,這種偏倚增加了靈敏度,但對(duì)特異度的影響較小。
中國(guó)臨床試驗(yàn)注冊(cè)中心規(guī)定所有在人體中和采用取自人體的標(biāo)本進(jìn)行的研究,包括各種診斷技術(shù)、試劑、設(shè)備的診斷性試驗(yàn),均需進(jìn)行臨床試驗(yàn)注冊(cè)。在中國(guó)臨床試驗(yàn)注冊(cè)中心以診斷試驗(yàn)為研究類型注冊(cè)的試驗(yàn)有3 400項(xiàng),占全部注冊(cè)項(xiàng)目的5.55% (2022年8月30日)。而現(xiàn)已經(jīng)發(fā)表的診斷試驗(yàn)文章僅有極少的一部分進(jìn)行了臨床試驗(yàn)注冊(cè)。多數(shù)國(guó)際期刊要求所有前瞻性臨床研究均應(yīng)設(shè)計(jì)方案并進(jìn)行臨床試驗(yàn)注冊(cè),投稿時(shí)要提交方案注冊(cè)號(hào),診斷準(zhǔn)確性臨床研究類型文章投稿需要從雜志中下載 STARD 報(bào)告規(guī)范聲明(http://www.stard-statement.org/)模板并上傳。中華醫(yī)學(xué)會(huì)系列雜志要求診斷試驗(yàn)參照《STARD 2015對(duì)照檢查清單》進(jìn)行報(bào)告撰寫,進(jìn)行臨床試驗(yàn)注冊(cè),并在投稿時(shí)提供診斷試驗(yàn)研究注冊(cè)號(hào)和注冊(cè)名稱?!吨袊?guó)高校醫(yī)學(xué)期刊論文統(tǒng)計(jì)報(bào)告推薦清單(2021版)》對(duì)診斷試驗(yàn)評(píng)價(jià)方面的研究論文在試驗(yàn)設(shè)計(jì)、質(zhì)量控制和統(tǒng)計(jì)學(xué)分析等諸多方面提出了很多建設(shè)性意見,但對(duì)于診斷試驗(yàn)研究是否進(jìn)行臨床試驗(yàn)注冊(cè)未給予明確規(guī)定。本文作者建議,對(duì)于前瞻性的診斷試驗(yàn)研究,應(yīng)進(jìn)行臨床試驗(yàn)注冊(cè),并上傳共享完整研究方案。
診斷試驗(yàn)屬于醫(yī)學(xué)統(tǒng)計(jì)學(xué)中比較復(fù)雜的統(tǒng)計(jì)學(xué)方法,醫(yī)學(xué)期刊編輯在處理該種類型稿件時(shí)會(huì)感覺困難,建議應(yīng)加強(qiáng)該種類型統(tǒng)計(jì)學(xué)方法的學(xué)習(xí),掌握診斷試驗(yàn)的基本原則和應(yīng)用條件,參照現(xiàn)有相關(guān)的診斷試驗(yàn)聲明進(jìn)行報(bào)告的撰寫,希望本篇文章能為醫(yī)學(xué)編輯處理該類稿件提供幫助和指導(dǎo)。