地里亞爾·地里夏提,魯劍德,木拉提·熱夏提,熱衣漢·西里甫,拜合提亞·阿扎提
(新疆醫(yī)科大學第一附屬醫(yī)院:1.泌尿中心, 2.腎病一科,新疆烏魯木齊 830054)
腎細胞癌(renal cell carcinoma,RCC)是泌尿系最常見的惡性腫瘤之一,每年約有40萬腎癌新發(fā)病例和17萬死亡病例[1]。腎透明細胞癌(clear cell renal cell carcinoma,ccRCC)、乳頭狀腎細胞癌(papillary renal cell carcinoma,pRCC)、嫌色性腎細胞癌(chromophobe renal cell carcinoma,chRCC)是腎癌最常見的亞型,約占全部腎臟惡性腫瘤的85%~90%[2]。目前,隨著全民體檢工作的推廣及影像學的發(fā)展,腎癌的檢出率大大提高。計算機斷層掃描(computed tomography,CT)作為腎癌診斷的首選影像學手段之一,可以將腎臟腫塊劃分為囊性和實性腫塊,為腎腫瘤良惡性的鑒別提供線索[3]。然而,相較于其他良性腎腫瘤,腎嗜酸細胞瘤[4](renal oncocytoma,RO)、腎乏脂肪血管平滑肌脂肪瘤[5](angiomyolipoma without visible fat,AMLwvf)作為臨床上主要的難辨別的腎良性腫瘤[6],難以通過CT圖像直接與腎惡性腫瘤辨別[7]。
近年來,人工智能輔助診斷系統(tǒng)在醫(yī)學影像學領域取得了突破性進展,通過構建合適的機器學習模型(machine learning,ML),并結合CT等常規(guī)影像學數(shù)據(jù),能夠輔助診療各類疾病[8]。利用ML模型鑒別診斷腎癌的良惡性,具有效率快、效能高的優(yōu)點[9]。迄今,已有不少關于基于CT的ML模型鑒別診斷腎腫瘤良惡性的研究,但尚無該方法的系統(tǒng)評價。因此,本研究采用Meta分析方法評價基于CT的ML模型鑒別診斷難辨別腎良性腫瘤與腎細胞癌的價值,以期為臨床應用提供幫助。
1.1 納入與排除標準納入標準:①基于CT的ML鑒別診斷AMLwvf、RO與腎細胞癌的診斷性試驗;②以病理學檢查、臨床診斷及隨訪為金標準,具有明確腎腫瘤良惡性診斷的研究;③可以直接獲取或者計算獲取真陽性(true positive,TP)、假陽性(false positive,F(xiàn)P)、假陰性(false negative,F(xiàn)N)、真陰性(true negative,TN)數(shù)據(jù)的研究。
排除標準:①研究對象非基于CT的ML鑒別診斷難辨別腎良性腫瘤與腎細胞癌的研究。②數(shù)據(jù)不全、無法提供評價指標或重復發(fā)表的文獻。③綜述、Meta分析、書信及會議摘要。④僅有腎癌亞型鑒別診斷研究。⑤非基于CT的機器學習模型鑒別診斷腎腫瘤良惡性的研究。
1.2 文獻檢索策略計算機檢索 PubMed、The Cochrane Library、Web of Science、Medline、CNKI、萬方數(shù)據(jù)庫中發(fā)表的基于CT的ML模型鑒別診斷難辨別腎良性腫瘤與腎細胞癌的相關文獻。中英文檢索詞包括:腎癌、腎腫瘤、人工智能、機器學習、深度學習、卷積神經網絡、K最近鄰、支持向量機、隨機森林、計算機斷層掃描、CT、kidney neoplasms、renal cancer、renal tumor、renal cell carcinoma、renal mass、ai、artificial intelligence、machine learning、deep learning、hierarchical learning、random forest、computed tomography等。檢索年限由建庫至2022年3月,根據(jù)檢索結果收集符合要求的研究。
1.3 數(shù)據(jù)提取由2位研究者對納入的文獻進行篩選,提取資料并完成交叉核對,若出現(xiàn)意見分歧,則通過第3位研究者參與達成最終意見。資料提取內容:作者、發(fā)表年份、資料來源、研究類型、學習模型(ML算法)、樣本量(驗證策略)、樣本基本信息、金標準、四格表數(shù)據(jù)及算法模型的敏感度、特異度、準確度等信息。
1.4 納入文獻質量評估應用英國國家健康與臨床卓越研究所推薦的診斷準確性研究質量評估工具(Quality Assessment of Diagnostic Accuracy Studies-2,QUADAS-2)評估納入的文獻質量[10]。QUADAS-2質量評價的重點在于評價臨床適應性和評估偏倚風險[11],由納入的相關問題評估偏倚風險。納入文獻的基本特征和模型特征分別見表1、2,質量評價結果見圖1。
1.5 統(tǒng)計學分析采用RevMan 5.4、Stata 14.0和Meta-Disc 1.4統(tǒng)計軟件進行統(tǒng)計分析。應用Meta-Disc1.4計算Spearman相關系數(shù)檢驗有無閾值效應引起的異質性;采用Q檢驗及I2檢驗非閾值效應引起的異質性,I2<50%時,表明存在低異質性,采用固定效應模型;I2≥50%,則存在高度異質性,采用隨機效應模型合并。若ROC曲線圖呈“肩膀樣”分布,則存在閾值效應,若沒有則不存在。應用Stata 14.0統(tǒng)計軟件計算各文獻的合并敏感度、合并特異性、合并陽性似然比、合并陰性似然比、合并診斷比,繪制總受試者工作特征曲線(summary receiver operating characteristic,SROC),計算曲線下面積(area under the curve,AUC)。繪制Deek’s漏斗圖評價文獻發(fā)表偏倚性。若研究存在異質性,采用亞組分析及Meta回歸探索異質性來源。亞組分析及Meta回歸將根據(jù)測試集數(shù)量、驗證策略、學習模型種類進行。測試集數(shù)量分為>100例測試集及≤100例測試集;驗證策略分為分組驗證策略及非分組驗證策略(交叉驗證策略、留一驗證策略);學習模型分為傳統(tǒng)ML模型[支持向量機(SVM)、K最鄰近(KNN)、隨機森林(RF)]及深度學習模型[卷積神經網絡(CNN)]。觀察亞組間差異及Meta分析各組影響的顯著性(P<0.05)以確定異質性來源。
圖1 納入文獻的質量評價結果
表1 納入文獻的基本特征
表2 納入文獻的模型特征
2.1Meta分析結果檢索到中文文獻126篇,英文文獻819篇,通過閱讀標題、摘要及全文篩除重復文獻378篇,根據(jù)納入和篩除標準,最終納入文獻12篇。閾值效應:Spearman相關系數(shù)0.182,P=0.572(P>0.05),說明敏感性對數(shù)與1-特異性對數(shù)不相關,提示不存在閾值效應。異質性檢驗發(fā)現(xiàn)研究間存在異質性,采用隨機效應模型進行Meta分析。合并敏感性、合并特異性、陽性似然比、陰性似然比、診斷比值比分別為0.76(95%CI:0.68~0.83)、0.84(95%CI:0.78~0.89)、4.9(95%CI:3.5~7.0)、0.28(95%CI:0.21~0.37)、18(95%CI:11~28)。繪制SROC曲線,AUC=0.87,表明基于CT的ML模型鑒別診斷難辨別腎良性腫瘤與腎細胞癌的準確性較高(圖2)。
A、B:基于CT的機器學習模型鑒別診斷腎腫瘤良惡性的森林圖;C:基于CT的機器學習模型鑒別診斷難辨別腎良性腫瘤與腎細胞癌的SROC曲線。圖2 基于CT的ML模型鑒別診斷腎腫瘤良惡性的森林圖與SROC曲線圖
2.2 發(fā)表偏倚采用Deek’s漏斗圖評估發(fā)表偏倚,P=0.264(P>0.05),研究間近似對稱中心軸分布,表明不存在發(fā)表偏倚(圖3)。
2.3 亞組分析和Meta回歸亞組分析結果見表3,測試集數(shù)量≤100例組和>100例分組的ML模型鑒別診斷難辨別腎良性腫瘤與腎細胞癌的準確性差異無統(tǒng)計學意義;非分組策略相較于分組策略合并敏感性、AUC值更高(0.79和0.63,0.87和0.82);經典ML模型相較于深度學習模型合并敏感性、AUC值更高(0.81和0.66,0.88和0.82)。Meta回歸以測試集數(shù)量、驗證策略、ML種類為協(xié)變量進行Meta回歸分析討論異質性來源,結果提示以上3個因素均不是異質性來源(P值分別為0.22、0.16、0.05)。
圖3 基于CT的機器學習模型鑒別診斷難辨別腎良性腫瘤與腎細胞癌的Deek’s漏斗圖
表3 亞組分析結果
當前,人工智能在泌尿外科診療過程的應用已經成為研究熱點,運用ML算法模型輔助臨床醫(yī)生完成影像學診斷已成為該研究領域重要的組成部分。將紋理特征參數(shù)運用ML模型分析可以更加清晰地反映病灶的微觀病理變化,輔助完成疾病的精確診斷、治療方案指定、預后的定量分析等[24]。有研究證實,在腎腫瘤放射組學的研究中,采用ML算法的研究準確性高于其他算法模型,顯著提升疾病診斷的準確性、穩(wěn)定性[25]。在泌尿外科診療中良惡性腎腫瘤的治療方案不同,例如:腎錯構瘤的治療以消除癥狀、預防破裂出血及保護腎功能為主,由于外科手術可能導致腎功能不全等不良結果,無癥狀或微小腫瘤患者應盡量避免行腎切除術[26]。而對于非轉移性ccRCC,乃至國際轉移性腎細胞癌聯(lián)合數(shù)據(jù)庫評分低危的轉移性ccRCC都以手術治療作為優(yōu)先選擇,在無法確定癌組織邊緣時甚至需要一定程度的擴大手術范圍。盡管大多數(shù)腎良性腫瘤與惡性腫瘤通過結合臨床特征及影像學特點可以分辨,但仍有許多良性腎腫瘤患者因誤診而進行不必要的腎切除術。AMLwvf和RO是典型的難與腎惡性腫瘤辨別的良性腫瘤,前者由于脂肪含量較少,其病灶的密度、信號、囊變在CT上與RCC的區(qū)別不大[27];后者則由于與chRCC均起源于遠端小管或集合管閏細胞,在CT上與chRCC極為相似。而將腫瘤內部異質性特征量化、可視化的影像組學紋理分析技術通過ML模型的分析可以有效地鑒別難辨別腎良性腫瘤與腎細胞癌[28],為臨床患者的精確診療和預后判斷提供有效的證據(jù)。
本研究采用Meta分析的方法,系統(tǒng)評價基于CT的ML模型鑒別診斷難辨別腎良性腫瘤與腎細胞癌的準確性。共納入12項研究24組四格表數(shù)據(jù),AUC值為0.87,說明基于CT的ML模型鑒別診斷難辨別腎良性腫瘤與腎細胞癌的準確性較高。合并敏感性、特異性分別為76%和84%,說明模型分辨腎細胞癌的準確性高于難辨別腎良性腫瘤。診斷比值比數(shù)值越大表明判別效果越好,本研究診斷比值比為18,同樣表明了模型的較高診斷價值。
本研究異質性檢驗顯示Q=21.445,I2=91%,異質性較大。Spearman相關系數(shù)0.182,P=0.572(P>0.05),說明敏感性對數(shù)與1-特異性對數(shù)不相關,提示不存在閾值效應。亞組分析中,測試集數(shù)量≤100例組與>100例組的ML模型鑒別診斷難辨別腎良性腫瘤與腎細胞癌的準確性差異無統(tǒng)計學意義;非分組策略相較于分組策略合并敏感性、AUC值更高(0.79和0.63、0.87和0.82),經典機器學習模型相較于深度學習模型合并敏感性、AUC值更高(0.81和0.66、0.88和0.82)。然而,由于亞組研究數(shù)據(jù)存在組內異質性,因此對該亞組結果的解讀需更加謹慎,需要更多高質量研究來證實亞組間差異。Meta分析表明測試集數(shù)量、驗證策略、ML種類3個因素均不是異質性來源。然而,經典ML模型與深度學習模型的Meta回歸顯著性為臨界值(P=0.05),而兩者合并敏感性、AUC值又存在差異。因此,學習模型差異可能是潛在出現(xiàn)異質性的原因,因納入分析的研究數(shù)量、質量限制而沒有得到顯著性結果。
因此,筆者認為造成異質性的因素可能是ML差異、提取特征的差異、CT對比劑類型、掃描厚度等原因。此外,本系統(tǒng)評價存在一定的局限性:①僅納入了中英文文獻,存在語言偏倚的可能;②由于金標準為組織病理學結果,僅有手術或腎穿患者納入了研究,存在選擇偏倚;③研究的樣本量少,且全部為回顧性研究,缺乏前瞻性研究,可能存在選擇偏倚。
腎腫瘤放射組學的研究是近年泌尿外科影像學發(fā)展的熱門,基于紋理特征的紋理分析在多個研究中已經證實了其優(yōu)越的診斷能力[29]。事實上,紋理特征僅僅是ML模型學習特征的一部分,影像學圖像中的組織形狀本身就可以成為ML的學習對象,這在肺腫瘤的模型研究中已經得到了驗證[30]。因此,通過多元數(shù)據(jù)構建的多模態(tài)機器學習模型有望在未來成為腎腫瘤良惡性鑒別的突破口。
綜上,本研究結果顯示,基于CT的ML模型在鑒別診斷難辨別腎良性腫瘤與腎細胞癌的敏感性、特異性及AUC值較高,具有臨床推廣應用潛力。受納入文獻數(shù)量和質量的限制,上述結論尚需開展更多高質量研究予以驗證。