杜 鵬 王煥軍 石宇強 劉 洋 盧虹冰 郭 燕 潘維濱 張 曦 徐肖攀*
膀胱癌(bladder cancer,BC)是泌尿系統(tǒng)最常見的惡性腫瘤,在美國癌癥協(xié)會最新發(fā)布的“Cancer Statistics,2018”中,BC位居男性惡性腫瘤發(fā)病率第四位,病死率第八位[1]。高復發(fā)率是BC的重要特點之一,數(shù)據(jù)顯示,50%~70%的非肌層浸潤性膀胱腫瘤(non-muscle-invasive bladder cancer,NMIBC)患者會于術(shù)后18個月中再次發(fā)現(xiàn)膀胱腫瘤[2]。對于檢測中極易漏檢的Tis期病灶只存在黏膜層的NMIBC患者,54%會發(fā)展為肌層浸潤性膀胱癌(muscle-invasive bladder carcinoma,MIBC)。MIBC患者經(jīng)根治性膀胱全切術(shù)以及盆腔淋巴結(jié)清除后,90%的局部病灶會得到有效控制,其術(shù)后5年內(nèi)的復發(fā)率降為10%左右[3-5]。因此,術(shù)前精準預測BC患者的復發(fā)概率,以便醫(yī)師為患者制定合理有效的治療方案,具有十分重要的臨床意義。
目前,臨床普遍采用歐洲癌癥研究與治療組織(European Organization for Research on Treatment of Cancer,EORTC)發(fā)布的風險評分表,對BC患者的術(shù)后復發(fā)風險進行預測。該模型主要采集腫瘤數(shù)目、尺寸、組織病理學分期、分級、有無原位癌以及復發(fā)次數(shù)6個指標,對患者術(shù)后1年或5年的復發(fā)率和進展率進行評估[6-8]。但是,該預測模型只給出了復發(fā)風險的定性分層評估,綜合預測性能偏低,受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)僅為0.6,且在預測高風險組或者接種過卡介苗的患者時相較于真實值偏差較大[6-8]。為此,臨床迫切需要一種更準確的預測模型,以實現(xiàn)BC患者復發(fā)風險的準確預測。
近年來,基于影像組學方法的研究,彰顯出影像特征對于膀胱腫瘤特性診斷和預測的巨大潛能[9-14]。然而,影像組學特征能否有效用于腫瘤復發(fā)預測,目前還未見到任何文獻報道?;诖耍狙芯繑M結(jié)合影像組學分析方法,對NMIBC患者的術(shù)前影像進行分析,實現(xiàn)BC復發(fā)的術(shù)前準確預測。
選取2016年中山大學第一附屬醫(yī)院收治的28例BC患者的術(shù)前T2WI、DWI與ADC影像數(shù)據(jù),其中無復發(fā)22例,復發(fā)6例。通過醫(yī)師手動勾勒方式,從每位患者的多參數(shù)磁共振成像(magnetic resonance imaging,MRI)影像中尋找腫瘤最大的圖層,并從中勾勒出腫瘤感興趣區(qū)域(region of interest,ROI)。由于T2WI、彌散加權(quán)成像(diffusion- weighted imaging,DWI)與表觀彌散系數(shù)(apparent diffusion coefficient,ADC)數(shù)據(jù)的灰度范圍差異較大,在進行特征提取前,需對其灰度范圍進行離散化,將其離散到統(tǒng)一灰度級。為此,分別從8個、16個、32個、64個及128個灰度尺度對腫瘤影像進行灰度標準化,如圖1所示。
有研究者對能夠表征腫瘤特性的影像特征進行了總結(jié),這些影像組學特征包括一階特征、二階特征和高階特征等[13-16]。①一階特征:如直方圖特征,能夠描述整個ROI與圖像灰度的頻率分布密切相關(guān)的全局特性;②二階特征:如基于灰度共生矩陣(gray level cooccurrence matrix,GLCM)的特征,能夠描述圖像灰度局部分布特性;③高階特征:如基于灰度游程長度矩陣(gray level run Length matrices,GLRLM)的特征,能夠很好的描述圖像灰度區(qū)域性分布特性。
本研究從每種模態(tài)的特定灰度級腫瘤ROI中可提取80個特征,其中直方圖特征共8個,GLCM特征共39個,GLRLM特征共33個。每個模態(tài)有5個灰度級圖像,共提取400個特征,三種影像模態(tài)共提取1200個特征,見表1。
模型的分類效果會受到特征之間的相關(guān)性和冗余影響[17-18]。因此,合理的特征選擇對提升預測分類的模型具有十分重要的作用。目前,常用的特征選擇算法有基于雙側(cè)t-test的特征分析與基于支持向量機(SVM)的遞歸特征消除(support vector machine based recursive feature elimination,SVM-RFE)的最優(yōu)子集選擇?;陔p側(cè)t-test的方法是假設(shè)特征與特征之間是相互獨立的,其特征篩選策略完全忽略了特征之間的相關(guān)性,因此特征冗余現(xiàn)象依然存在?;赟VM-RFE方法能將特征子集選擇過程與分類器訓練過程有機結(jié)合起來,充分衡量了特征之間的相關(guān)性,能有效削減特征的冗余,提升模型的預測效能和穩(wěn)健性[13-14]。因此,本研究采用SVM-RFE方法對提取的特征集進行最優(yōu)特征子集的篩選。
表1 基于T2WI、DWI及ADC模態(tài)的特征提取數(shù)量(個)
表2 各類特征在不同灰度尺度下3種模態(tài)中提取的特征綜合預測性能比較
基于所得的每個ROI的最優(yōu)特征集,構(gòu)建最終的復發(fā)預測模型的分類器,并評估其預測效果(如圖1所示)。本研究使用SVM方法構(gòu)建復發(fā)預測模型,其基本原理是建立一個超平面將特征集的高維映射加以區(qū)分,其中映射集是用于分類的特征集的一個高維映射[12-14]。在使用時,所有特征需歸一化到[-1,1]區(qū)間,以提高運算效率。本研究采用LIBSVM-3.20軟件包,采用徑向基函數(shù)構(gòu)建分類超平面,并使用Grid Search方法進行參數(shù)尋優(yōu)。考慮到有限的樣本例數(shù),本研究采用三折交叉驗證并重復100輪,以充分驗證模型的預測性能,得到最終平均預測結(jié)果。預測效能評價指標包括敏感性、特異性、準確性和AUC。
為了驗證不同模態(tài)的特征預測效能,分別對不同灰度尺度下從3種模態(tài)中提取的所有特征的綜合預測性能進行比較分析,其結(jié)果見表2,如圖2所示。
圖2 不同模態(tài)中提取的所有特征對膀胱復發(fā)的預測效果圖
采用RFE-SVM對本研究提取的1200個特征進行遞歸剔除,最終得到由25個特征組成的最優(yōu)特征子集,用于預測模型簡化與效能提升,如圖3所示。
圖3 基于SVM-RFE的最優(yōu)特征子集選擇過程示圖
基于25個特征構(gòu)成的最優(yōu)特征子集,構(gòu)建復發(fā)預測模型,并對膀胱腫瘤數(shù)據(jù)進行復發(fā)預測,其結(jié)果見表3。
表3 基于最優(yōu)特征子集的BC復發(fā)預測模型綜合性能分析(%)
醫(yī)學影像在BC臨床診斷中彰顯出強大的潛力,Wang等[9]通過對比BC患者術(shù)后的磁共振動態(tài)增強成像(dynamic contrast-enhanced magnetic resonance imaging,DCE MRI)與DWI信息,發(fā)現(xiàn)DWI序列相比于DCE MRI序列在區(qū)分患者術(shù)后的BC復發(fā)與炎癥方面表現(xiàn)更好。Wang等[10]進一步的研究發(fā)現(xiàn):DWI序列在區(qū)別BC與腺性膀胱炎方面也表現(xiàn)優(yōu)異。在比較ADC與標準化表觀彌散系數(shù)(normalized apparent diffusion coefficient,nADC)在評估BC病理分級的潛力時,發(fā)現(xiàn)nADC序列在鑒別BC病理的高低級別上表現(xiàn)更優(yōu)異[11]。然而目前,臨床醫(yī)師還無法通過NMIBC患者的術(shù)前影像對其復發(fā)的可能性進行預測。
隨著醫(yī)學影像信息處理技術(shù)的發(fā)展,從影像中挖掘出大量與特定癌癥相關(guān)的影像組學特征,為臨床醫(yī)師提供人眼無法直接獲取的深層信息,輔助其進行癌癥特性診斷,已成為當前的研究熱點。Xu等[12]發(fā)現(xiàn),影像特征能夠有效區(qū)分腫瘤與正常膀胱壁組織,從而實現(xiàn)膀胱腫瘤與非腫瘤組織鑒別。在此基礎(chǔ)上,Xu等[13]進一步發(fā)現(xiàn)了多個與BC肌層浸潤相關(guān)的影像特征,初步實現(xiàn)了膀胱浸潤性的術(shù)前預測。此外,Zhang等[14]還通過對比研究高、低級別膀胱癌的特征差異,找出具有顯著性差異的影像特征,實現(xiàn)了膀胱腫瘤分級的術(shù)前準確預測。
基于以上分析,本研究主要從以下兩個角度進行:①基于多參數(shù)MRI影像組學特征構(gòu)建的膀胱腫瘤復發(fā)預測模型,進行術(shù)前復發(fā)預測;②基于SVM的特征遞歸選擇與分類策略構(gòu)建復發(fā)預測模型,尋找具有全局最優(yōu)的預測性的特征子集,提升BC復發(fā)預測模型的綜合性能。
在多參數(shù)MRI影像中尋找腫瘤最大的圖層,并從中勾勒出腫瘤ROI,并對每個ROI進行多尺度的離散化。其次,對每種模態(tài)的特定灰度級腫瘤ROI提取直方圖特征、GLCM特征及GLRLM特征,構(gòu)建復發(fā)預測模型的特征集。DWI與ADC中提取的影像組學特征對BC復發(fā)預測的準確性均明顯高于從T2中提取的特征。將以上從T2WI、DWI和ADC的3種模態(tài)中提取的特征相互結(jié)合,并驗證其預測效果,結(jié)果顯示:其效果明顯遜于單獨使用任何一種模態(tài)的效果。其原因可能是,樣本例數(shù)量較少,其陰性樣本22例,陽性樣本6例,導致特征數(shù)遠大于樣本例數(shù),尤其是陽性樣本例數(shù)。該現(xiàn)象會造成特征的大量冗余,在分類中產(chǎn)生過飽和等現(xiàn)象,造成嚴重分類誤差。
為了減少特征冗余,降低模型的過擬合程度,從而有效提高模型對BC復發(fā)預測的綜合性能與泛化能力,本研究在提取的1200個特征的基礎(chǔ)上,進一步采用RFE-SVM選擇最優(yōu)特征子集,用于定量描述復發(fā)與非復發(fā)BC的影像差異,從而明顯提高了預測模型的綜合性能,靈敏度、特異度、準確率和AUC分別提升到83.33%、100%、96.43%和1.0(見表3、如圖3所示)。此外,考慮到復發(fā)(6例)與未復發(fā)(22例)樣本的極度不均衡性,該模型較好地抑制了因樣本明顯的非均衡性而對少類樣本造成的預測偏差,在保持對未復發(fā)BC預測良好特異性的同時,可有效增強對復發(fā)BC的預測能力。
本研究結(jié)果表明,基于T2WI、DWI及其ADC的影像組學特征,能夠?qū)C患者的復發(fā)風險進行定量表征,基于多參數(shù)MRI影像組學構(gòu)建的膀胱腫瘤復發(fā)預測模型能夠有效的進行復發(fā)預測,基于多參數(shù)MRI的影像組學特征在BC復發(fā)預測中具有巨大的潛能。
此外,本研究仍存在一定局限,如原始樣本量偏低,有復發(fā)樣本和無復發(fā)的樣本例數(shù)極不均衡。在后續(xù)研究中,將繼續(xù)收集更多符合條件患者的MRI數(shù)據(jù),可著重增加復發(fā)樣本的收集力度,在一定程度上引入更加均衡的正、負樣本,對以上模型進行更全面的分析和驗證。