宮 曉
(廣東藥科大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系,廣東 廣州 510310)
繼續(xù)教育園地
影像診斷研究的研究設(shè)計與統(tǒng)計學考慮
宮 曉
(廣東藥科大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系,廣東 廣州 510310)
隨著醫(yī)學成像技術(shù)的發(fā)展,影像學指標在醫(yī)學診療實踐中占據(jù)越來越重要地位,被用于很多疾病的篩查和診斷。基于影像學指標的疾病診斷研究,也成為目前醫(yī)學研究中的熱點,成為醫(yī)學診斷的主要發(fā)展方向之一。本文旨在通過對影像診斷研究中的研究設(shè)計和統(tǒng)計問題進行探討,希望有助于后續(xù)研究中研究策略的選擇。
影像學;診斷研究;研究設(shè)計;統(tǒng)計學
影像診斷是指通過影像學指標對患者是否患有特定疾病進行診斷,對疾病的嚴重程度和預(yù)后進行評價的策略。隨著醫(yī)學成像技術(shù)的發(fā)展,影像學指標在醫(yī)學診療實踐中占據(jù)越來越重要地位,被用于很多疾病的篩查和診斷。基于影像學指標的疾病診斷研究,也成為目前醫(yī)學研究中的熱點,成為醫(yī)學診斷研究的主要發(fā)展方向之一。目前很多研究者未采取系統(tǒng)的研究方法開展研究,未能將臨床發(fā)現(xiàn)轉(zhuǎn)化為高質(zhì)量的研究證據(jù)。本文旨在通過對影像診斷研究中的統(tǒng)計問題進行探討,希望有助于后續(xù)研究中統(tǒng)計策略的選擇。
從將某個疑似指標納入評價體系,到確認診斷價值,到一個成熟診斷方案的提出,往往是多個研究假設(shè)依次證實的過程。通常我們將這系列假設(shè)分為4個階段[1]:階段1,某疾病患者與健康者相比,診斷試驗結(jié)果指標的分布是否存在差異。階段2,診斷試驗陽性的患者比試驗陰性者更有可能患某種疾病。階段3,在疑似患者或篩查人群中,試驗結(jié)果是否有助于區(qū)分患者和健康者。階段4,采用此診斷方案的群體與未采用此診斷方案的群體相比,其臨床結(jié)局是否有改善。
上述4個階段,可分為3部分:階段1與階段2,主要研究目的為指標初篩,初步確定一個指標的診斷價值;階段3,主要研究目的為指標確認,確認該診斷策略可用于診斷某種疾病,并確定恰當?shù)脑\斷界值;階段4,則是從臨床結(jié)局的角度,去考慮某項診斷的成本效益,對診斷模型在真實世界中的應(yīng)用效果進行評價。目前較多的研究都屬于前3個階段,階段4常需較大的樣本量,并進行長期的追蹤研究。
2.1 階段1 階段1中初步篩選變量,因此,主要研究策略為橫斷面和回顧性研究,較多使用來自科室臨床實踐或醫(yī)院信息系統(tǒng)中收集的方便樣本。主要研究對象為已明確診斷患有某種疾病的患者和不患某種疾病的健康者,本階段常同時對多個指標進行研究,對可能產(chǎn)生差異的指標進行初步篩選。因此,本階段主要的統(tǒng)計分析方法為組間比較,常用t檢驗或卡方檢驗等統(tǒng)計方法,探索患者組和健康組2組間某一指標或多個指標的統(tǒng)計分布是否存在差異。
一個指標可成功用于診斷,必須要求患者與健康者2組人群在該指標的分布上存在差異,即差異性假設(shè)檢驗的P值小于假設(shè)檢驗水準α(通常為0.05)。然而P值大小僅可表明是否存在統(tǒng)計學差異,存在差異并不代表該指標可用于診斷,只有差異足夠大,才可成功區(qū)分2組人群而成為一個高效的診斷指標。如圖1所示,A指標在患者和健康者中存在差異,但差異較小,以任何值作為診斷界值,都難以同時取得較好的敏感度和特異度,因此難以成為一個診斷指標;B指標差異較大,但誤判率仍較高,可考慮合并其他指標同時使用;C指標則可以較好地區(qū)分患者與健康者。
第1階段的研究只需較少的投入便可很快獲得產(chǎn)出,但這一階段只是對診斷指標的初步考量,不能夠直接轉(zhuǎn)換為臨床實踐。本階段的陰性結(jié)果可幫助盡早避免高投入、耗時長的后續(xù)階段。
2.2 階段2 與階段1類似,階段2主要設(shè)計方法也為橫斷面和回顧性研究,使用的數(shù)據(jù)樣本常為方便樣本,但其研究角度存在差異。階段1從患者與健康者2組人群出發(fā),將患者組和正常組進行比較,結(jié)局指標為組內(nèi)某一指標或多個指標的統(tǒng)計分布;階段2則從診斷結(jié)果出發(fā),將指標結(jié)果陽性組與陰性組進行比較,結(jié)局指標為根據(jù)金標準獲得的組內(nèi)真實的陽性率或陰性率。階段2主要的統(tǒng)計分析方法也為組間比較,常用卡方檢驗、95%置信區(qū)間等統(tǒng)計方法。
對診斷結(jié)果進行評價,最常用的指標是敏感度和特異度(表1)。敏感度為a/(a+c),即患者中診斷試驗取得陽性結(jié)果的比例;特異度為d/(b+d),即健康者中,診斷試驗取得陰性結(jié)果的比例。另外,陽性似然比、陰性似然比、陽性預(yù)測值、陰性預(yù)測值、正確百分比(一致率)等也為常用的診斷結(jié)果評價指標。
表1 診斷試驗結(jié)果與金標準的對比
診斷界值的初步確定,也常在這一階段完成。恰當診斷界值(Cut-off Value)的選擇直接影響到診斷的敏感度和特異度。ROC曲線是最常用的診斷評價方法,可評價診斷指標的總體效果,并確定恰當?shù)脑\斷界值。評價指標總體的預(yù)測價值,主要根據(jù)ROC曲線的曲線下面積指標。如圖2所示,C指標的曲線下面積遠大于A指標和B指標,即可推斷,C指標的診斷價值大于A與B。診斷界值的確定,則通常基于約登指數(shù)進行計算,即“敏感度+特異度-1”取得最大值時所處的界值。圖2中,C指標最左上的點即為根據(jù)約登指數(shù)確定的診斷界值。除了ROC曲線之外,近年來有學者[2]提出決策曲線分析等方法,也越來越多地用于診斷模型的比較和診斷界值的確定。
圖1 健康者與患者在A、B、C 3項指標上的分布差異
圖2 A、B、C 3項指標的ROC曲線及C指標的診斷界值
階段2的結(jié)論往往也不可以直接轉(zhuǎn)化為臨床實踐。臨床實踐的轉(zhuǎn)化,通常需階段3和階段4中大規(guī)模試驗研究和綜述研究提供的更高級別的證據(jù)。
2.3 階段3 階段3,即對階段1和階段2發(fā)現(xiàn)的“有前途”的指標進行評價。因為這一階段主要是對診斷指標進行確認,并確定診斷界值,因此常采用試驗研究的方法以提供更高級別的證據(jù),即開展獨立的、設(shè)盲的、與金標準比較的試驗研究。“獨立”,意味著所有的研究對象都同時接受金標準和新方法的檢測,金標準和新方法獨立進行,互不影響?!霸O(shè)盲”,意味著評價診斷結(jié)果時,兩者互不干擾。
這一階段,常以疑似患者作為研究對象,即最接近診斷指標應(yīng)用場景的人群,包括不同級別醫(yī)療機構(gòu)的門診患者,或擬進行疾病篩檢的社區(qū)人群。本階段在同一研究對象上同時應(yīng)用新的診斷策略和金標準的方法,對兩者進行比較。統(tǒng)計方法方面,常采用配對卡方檢驗、敏感度、特異度的95%置信區(qū)間等方法,對新的診斷策略進行評價。ROC曲線同樣適用于這一階段的研究。階段3的研究中,通常也可進一步調(diào)整診斷界值,但新的界值通常仍需額外的試驗予以確認。一個診斷指標被應(yīng)用于臨床,常需多個診斷試驗或Meta分析予以證實,且針對不同級別的醫(yī)療機構(gòu)或不同的應(yīng)用場景確定對應(yīng)的診斷界值。
2.4 階段4 階段4,通常為前瞻性研究,包括隊列研究或試驗研究,也常以真實世界注冊研究的形式開展,或者使用數(shù)學模型、綜述研究等方法進行評價。這一階段研究對象通常為真實世界人群,或最接近真實世界的樣本,對采用某診斷方案的群體與未采用此診斷方案的群體進行比較。診斷只是復(fù)雜醫(yī)學過程中的一個環(huán)節(jié),可為疾病的診斷和治療提供信息,因此長期的健康結(jié)局更值得予以關(guān)注。第4階段的研究,即對長期的健康結(jié)局指標進行評價,如預(yù)后指標、受檢者的長期受益情況、成本效果等。當一種診斷措施普遍用于臨床實踐或大規(guī)模應(yīng)用于人群篩檢時,其結(jié)果的敏感度和特異度,往往會對患者的健康、家庭和社會產(chǎn)生極大影響。特別對于尚無“金標準”的診斷研究,或是早期診斷、篩檢,更需結(jié)合患者的預(yù)后和長期受益來確定診斷的界值,如對乳腺癌篩查的長期效果評價[3],即為此類研究。
本文主要以是否患病為因變量進行闡釋,但臨床實踐中,影像診斷的結(jié)局變量往往有更廣的范疇。影像診斷,可幫助確定或排除疾病、監(jiān)測疾病進展、評價預(yù)后、監(jiān)測疾病進展、健康管理等。疾病的診斷只是診療行為的一個中間環(huán)節(jié),確診后治療措施的正確選擇、更好的預(yù)后、更高的生存質(zhì)量及更高的成本效益等同樣值得關(guān)注。將此類結(jié)局與影像指標進行關(guān)聯(lián),將有助于采取更好的醫(yī)療實踐。近年來,較多研究采用成本效果、成本效益分析等方法評價影像診斷后的長期效果。以乳腺癌篩查項目為例,基于影像學的乳腺癌篩查項目已被多個國家采用,但近期研究[3]發(fā)現(xiàn),由于較高的假陽性和乳腺癌自身病程等原因,這一項目可能并未產(chǎn)生很好的成本效益。
高敏感度、高特異度診斷模型的建立,應(yīng)當拓展測量維度,而不是局限于傳統(tǒng)的影像學指標。拓展測量維度,一方面應(yīng)拓展影像學指標的獲取方式;另一方面應(yīng)結(jié)合其他維度的指標以輔助建立診斷模型。無論是直接由計算機生成的影像數(shù)據(jù),或?qū)⒂跋駭?shù)據(jù)導(dǎo)入計算機,均可由程序軟件直接對影像圖像的位置、數(shù)量、形狀、面積、亮度/灰度等特征進行識別,形成更為精確、客觀、多維的影像指標體系。影像資料的縱向積累,即整合動態(tài)數(shù)據(jù)或整合隨訪數(shù)據(jù),也可為影像診斷提供更全面的信息。
隨著精準醫(yī)學概念的提出,結(jié)合生命歷程資料和組學信息開展診斷實踐逐漸成為一個流行的趨勢。將影像學指標與其他類型數(shù)據(jù)維度進行結(jié)合,可提高影像診斷的精準程度,促進個體化醫(yī)學的發(fā)展和應(yīng)用。維度信息至少包括但不限于以下幾個方面[4]:性別、年齡、婚姻狀況、受教育程度等人口學特征;體格檢查資料;實驗室檢查,尤其是基因組學、蛋白組學等組學資料;便攜檢測技術(shù)和可穿戴設(shè)備產(chǎn)生的持續(xù)監(jiān)測資料;生命歷程、生活方式等行為特征資料。
大數(shù)量、多維度指標的產(chǎn)生,為診斷模型的統(tǒng)計建模帶來了機會和挑戰(zhàn)。雖然t檢驗、卡方檢驗/配對卡方檢驗、回歸分析等傳統(tǒng)統(tǒng)計方法仍在影像診斷研究中占有主流地位,但新興的建模方法正被越來越多的采用。如使用主成分等方法對數(shù)據(jù)進行降維;使用懲罰回歸對多維指標進行篩選;使用廣義線性模型、廣義相加模型等探索變量間的非線性關(guān)系等。另外,數(shù)據(jù)挖掘算法和機器學習算法中的貝葉斯方法、決策樹、支持向量機、神經(jīng)網(wǎng)絡(luò)、Bagging和Boosting等建模方法和交叉驗證等模型評價策略,也逐漸被用于診斷研究的統(tǒng)計建模。
一個成功的診斷模型,要求測量指標有較小的測量變異,即對檢測儀器及檢測方法的穩(wěn)定性有較高要求。此外,還有眾多因素決定了在某一場景下提出的診斷策略是否可成功地推廣到其他場景[5]。①對疾病的定義。不同人群、種族,不同的衛(wèi)生系統(tǒng),常對某些疾病,如心力衰竭、糖尿病等有不同的定義方式。②檢查的實施方式。不同的器械制造商,不同的監(jiān)測流程和技術(shù)等,都會對診斷結(jié)果產(chǎn)生影響。③診斷界值。診斷界值的不同,無論是診斷界值設(shè)定的差異,或是影像醫(yī)師對界值的感知差異,都會直接影響診斷結(jié)果的敏感度和特異度。④不同場景中正常人群與患者的指標分布,以及正常人群與患者的比例。不同級別醫(yī)院患者中,疾病的檢出率存在顯著差異。即,由于入院偏倚的存在,不同場景中獲取的診斷策略不應(yīng)直接采用。⑤具體的臨床問題、其他診斷措施的采用等。
基于上述原因,不同人群、機構(gòu)的診斷模型往往需調(diào)整后方可應(yīng)用于其他人群和機構(gòu)。因此,診斷研究的報告,應(yīng)當遵循相應(yīng)的報告指南[6-7],以促進研究的推廣應(yīng)用。
綜上所述,診斷模型的價值不僅在于診斷是否患有疾病,其最終價值是為通過正確的診斷、預(yù)后的判斷,以及診斷后治療方式的選擇去獲得更高的健康產(chǎn)出。診斷模型的建立、應(yīng)用,以及持續(xù)的改進和維護,需要整個衛(wèi)生體系共同的努力。大規(guī)模臨床數(shù)據(jù)的積累、數(shù)據(jù)挖掘算法和機器學習技術(shù)的發(fā)展,為基于影像學指標的診斷和預(yù)測提供了新的發(fā)展契機;正確、靈活運用先進的統(tǒng)計建模方法,將為臨床實踐提供高質(zhì)量的證據(jù),促進醫(yī)學診療技術(shù)的發(fā)展和進步。
[1]Sackett DL,Haynes RB.The architecture of diagnostic research[J].BMJ,2002,324:539-541.
[2]Kerr KF,Brown MD,Zhu K,et al.Assessing the clinical impact of risk prediction models with decision curves:guidance for correct interpretation and appropriate use[J].J Clin Oncol,2016,34:2534-2540.
[3]Loberg M,Lousdal ML,Bretthauer M,et al.Benefits and harms of mammography screening[J].Breast Cancer Rse,2015,17:63.
[4]Schork NJ.Personalized medicine:time for one-person trials[J].Nature,2015,520:609-611.
[5]Irwig L,Bossuyt P,Glasziou P,et al.Designing studies to ensure that estimates of test accuracy are transferable[J].BMJ,2002,324:669-671.
[6]Moons KG,Altman DG,Reitsman JB,et al.Transparent reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD):explanation and elaboration[J].Ann Int Med,2015,162:W1-W73.
[7]Cohen JF,Korevaar DA,Altman DG,et al.STARD 2015 guidelines for reporting diagnostic accuracy studies:explanation and elaboration[J].BMJOpen,2016,6:e012799.
10.3969/j.issn.1672-0512.2017.06.049
廣州市教育局廣州高校創(chuàng)新創(chuàng)業(yè)教育項目(201709T 22)。
宮曉(1985-),男,山東威海人,醫(yī)學博士,講師。主要研究方向為臨床研究與臨床試驗方法學,機器學習與數(shù)據(jù)挖掘方法研究。 E-mail:x.gong@foxmail.com。
2017-09-15)