黃 程,毛 寧,李天平,張 涵,張永霞,謝海柱
(1.濱州醫(yī)學(xué)院醫(yī)學(xué)影像學(xué)院,山東 煙臺 264003;2.山東省煙臺毓璜頂醫(yī)院影像科,山東 煙臺 264000)
乳腺癌是女性最常見的惡性腫瘤[1]。由于三陰性乳腺癌缺乏用于治療的雌激素受體(estrogen receptor,ER)、孕激素受體(progesterone receptor,PR)及表皮生長因子受體2(human epidermal growth factor receptor 2,HER2)基因的表達,治療困難,預(yù)后較差[2]。因此,早期明確診斷三陰性乳腺癌并及時進行針對性治療尤為重要。
乳腺對比增強能譜X 線攝影(contrast-enhanced spectral mammography,CESM)已成為診斷乳腺疾病的主要檢查方法之一[3],然而肉眼觀察對判斷其分子分型價值有限。影像組學(xué)是一種運用計算機算法從醫(yī)學(xué)影像圖像中高通量地提取數(shù)字化特征的方法[4],具有一定的臨床應(yīng)用價值[5-6]?;贑ESM 的影像組學(xué)預(yù)測三陰性乳腺癌的價值已有文獻報道[7-8],但缺少測試集且對模型的評價方法過于單一。因此,筆者將研究對象分為測試集及訓(xùn)練集,并運用更完善的模型評估方法,進一步探討基于CESM 重建圖的影像組學(xué)模型預(yù)測三陰性乳腺癌的價值。
1.1 一般資料 回顧性分析2017 年7 月至2020 年6 月在煙臺毓璜頂醫(yī)院行乳腺CESM 檢查的女性乳腺癌患者787 例。本研究經(jīng)煙臺毓璜頂醫(yī)院醫(yī)學(xué)倫理委員會同意。其中檢查時間為2017 年7 月至2019 年10 月的605 例患者為訓(xùn)練集,檢查時間為2019 年11 月至2020 年6 月的182 例患者為測試集。訓(xùn)練集中非三陰性乳腺癌502 例,三陰性乳腺癌103 例;測試集中非三陰性乳腺癌153 例,三陰性乳腺癌29 例。為解決訓(xùn)練集患者分類不平衡問題,從訓(xùn)練集非三陰性乳腺癌患者中隨機刪除399 例,三陰性乳腺癌患者與非三陰性乳腺癌患者各103 例。
1.2 納入及排除標(biāo)準(zhǔn) ①納入標(biāo)準(zhǔn):行CESM 檢查,且病理證實為乳腺癌;其分子分型經(jīng)免疫組化檢查證實。②排除標(biāo)準(zhǔn):CESM 檢查前有乳腺手術(shù)、化療、放療、激素、靶向治療史;患有其他惡性腫瘤;圖像質(zhì)量不理想;多灶性乳腺癌;非腫塊型乳腺癌;臨床資料不完整者。
1.3 儀器與方法 采用GE Senographe DS 全數(shù)字化乳腺機。對比劑為碘海醇(碘含量350 mg/mL),劑量1.3 mL/kg 體質(zhì)量,注射流率3.0 mL/s。注射2 min后開始采集圖像,按常規(guī)乳腺攝影時的壓迫方法,選取頭尾位及內(nèi)外斜位進行投照,在5 min 內(nèi)完成4 個視圖的采集,即頭尾位與內(nèi)外斜位的低能圖、重建圖。首先采集正常側(cè)乳腺的圖像,然后采集病變側(cè)乳腺的圖像。由2 名低年資醫(yī)師(醫(yī)師1、2,均有4 年CESM 診斷經(jīng)驗)使用Radcloud 軟件(http://radcloud.cn)分別在頭尾位、內(nèi)外斜位重建圖中手動勾畫腫瘤的邊界,勾畫ROI(圖1);再由1 名高年資醫(yī)師(醫(yī)師3,具有10 年乳腺影像診斷經(jīng)驗)進行審核。
圖1 女,62 歲,ROI 勾畫示意圖 圖1a 頭尾位勾畫示意圖 圖1b內(nèi)外斜位勾畫示意圖
1.4 影像組學(xué)特征的提取及一致性 運用Radcloud軟件提取影像組學(xué)特征,包括一階統(tǒng)計學(xué)特征、形狀特征及紋理特征。勾畫ROI 時,隨機選擇150 例患者,由2 名醫(yī)師同時勾畫,根據(jù)ROI 內(nèi)的影像組學(xué)特征評估2 名醫(yī)師每個特征的一致性;2 周后由醫(yī)師1 再次勾畫,評估ROI 內(nèi)每個影像組學(xué)特征不同時間的一致性,保留具有較高一致性的影像組學(xué)特征進一步分析。余238 例圖像的ROI 由醫(yī)師1 勾畫完成。
1.5 選擇影像組學(xué)特征與建立模型 對訓(xùn)練集影像組學(xué)特征行單變量分析,保留在三陰性乳腺癌患者與非三陰性乳腺癌患者中差異有統(tǒng)計學(xué)意義的特征。后運用最小絕對值收斂和選擇算子(least absolute shrinkage and selection operator,LASSO)算法對影像組學(xué)特征進一步篩選,結(jié)合十折交叉驗證選擇LASSO 中超參數(shù)λ 的最佳取值。篩選剩余影像組學(xué)特征建立用于預(yù)測三陰性乳腺癌的邏輯回歸模型。
1.6 模型評價 運用模型計算每例患者為三陰性乳腺癌的概率,訓(xùn)練集的約登指數(shù)作為截斷值,概率大于該截斷值則預(yù)測為三陰性乳腺癌。運用ROC 曲線(準(zhǔn)確率及平衡準(zhǔn)確率)對模型的預(yù)測性能進行評估,其中平衡準(zhǔn)確率為特異度與敏感度的平均值。運用自舉法計算AUC 的95%置信區(qū)間(95%CI)。運用決策曲線對模型在測試集中不同診斷閾值的凈收益進行評估。凈收益為以該閾值為診斷閾值時,對患者進行治療后綜合考慮未獲益患者比例與獲益患者比例后獲得的獲益,以幫助臨床醫(yī)師進行臨床決策。
1.7 統(tǒng)計學(xué)分析 運用R(3.6 版本)進行統(tǒng)計分析?;颊吣挲g以表示,分別統(tǒng)計訓(xùn)練集、測試集中不同分子分型、乳腺影像報告和數(shù)據(jù)系統(tǒng)(prostate imaging reporting and data system,PI-RADS)分類及組織學(xué)分級的患者例數(shù)。運用組內(nèi)相關(guān)系數(shù)(intraclass correlation coefficient,ICC)評價特征的一致性,不同醫(yī)師與不同時間的ICC 均大于0.8 則相應(yīng)影像組學(xué)特征具有較高的一致性。當(dāng)計量資料滿足正態(tài)性及方差齊性時,運用單變量方差分析,否則運用Mann-Whitney U 檢驗。以P<0.05 為差異有統(tǒng)計學(xué)意義。
2.1 一般資料 訓(xùn)練集206 例,年齡(55.18±10.25)歲,其中Luminal A 型、Luminal B 型、Her-2 過表達型及三陰性乳腺癌分別為41、39、23、103 例,PI-RADS 分類Ⅲ、Ⅳ、Ⅴ類患者分別為41、145、20 例,組織學(xué)分級為Ⅰ、Ⅱ、Ⅲ級患者分別47、82、72 例。測試集182 例,年齡(54.36±10.05)歲,其中Luminal A型、Luminal B 型、Her-2 過表達型及三陰性乳腺癌分別為59、64、30、29 例,PI-RADS 分類Ⅲ~Ⅴ類分別為33、131、18 例,組織學(xué)分級Ⅰ~Ⅲ級分別為44、77、61 例。
2.2 特征篩選 在1 409 個特征中1 056 個特征具有較高的一致性,最終12 個影像組學(xué)特征納入模型,其中4 個提取自頭尾位重建圖像,8 個提取自內(nèi)外斜位重建圖像。12 個影像組學(xué)特征均為紋理特征。模型例稱及其相應(yīng)系數(shù)見表1。
表1 模型中包含的特征及參數(shù)
2.3 模型評價 模型在訓(xùn)練集及測試集中的AUC分別為0.87[95%CI(0.82,0.92)]、0.86[95%CI(0.80,0.92)],截斷值為0.54,準(zhǔn)確率分別為0.81、0.77,敏感度分別為0.79、0.76,特異度分別為0.83、0.77,平衡準(zhǔn)確率分別為0.81、0.76(圖2a)。在對測試集進行的決策曲線分析中,閾值概率<0.68 時,其凈收益大于“均為陽性”與“均為陰性”模型(圖2b)。
圖2 模型的評價 圖2a 模型在訓(xùn)練集與測試集中的ROC 曲線圖2b 模型在測試集中的決策曲線。
三陰性乳腺癌由于其獨特的生物學(xué)特性,早期明確診斷對提高療效、改善患者預(yù)后具有重要意義。本研究基于CESM 檢查頭尾位與內(nèi)外斜位重建圖的影像組學(xué)特征建立邏輯回歸模型預(yù)測三陰性乳腺癌,在訓(xùn)練集與測試集中均有良好表現(xiàn),在決策曲線分析中表現(xiàn)出了較高的凈收益。
目前已有相關(guān)研究探究了基于CESM 的影像組學(xué)對預(yù)測三陰性乳腺癌的價值。La 等[7]提取了CESM圖像內(nèi)的影像組學(xué)特征并建立模型區(qū)分三陰性乳腺癌與非三陰性乳腺癌,AUC 為0.76。但該研究僅52 例患者,缺少測試集,結(jié)果缺乏可靠性。此外,模型的評價指標(biāo)僅包含AUC。Marino 等[8]評估了基于100 例患者CESM 圖像的影像組學(xué)模型對預(yù)測乳腺癌分子分型的價值;雖然模型在預(yù)測三陰性乳腺癌時準(zhǔn)確率高達100%,但依舊缺少測試集,結(jié)果缺乏可靠性,需進一步驗證;對模型的評估僅用到了準(zhǔn)確率,評價指標(biāo)過于單一,未對模型全面評估。本研究共納入388 例患者,其中測試集182 例,且運用ROC曲線對模型進行評估,均取得良好表現(xiàn);其中AUC高于La Forgia 等[7]的研究,訓(xùn)練集準(zhǔn)確率低于Marino等[8]的研究,這可能是由于其模型存在過擬合,而本研究為解決過擬合問題,在運用LASSO 篩選特征的過程中運用了十折交叉驗證。
在機器學(xué)習(xí)的分類模型訓(xùn)練過程中,因變量分類不平衡是常見的問題之一。在既往研究中,通常運用系統(tǒng)性過采樣(synthetic minority oversampling,SMOTE)算法解決分類不平衡問題[9-12]。該算法雖解決了分類不平衡問題,但易導(dǎo)致部分訓(xùn)練集數(shù)據(jù)并非患者真實數(shù)據(jù),對模型準(zhǔn)確率造成一定影響。本研究非三陰性乳腺癌患者多于三陰性乳腺癌患者,分類不平衡問題明顯,后運用隨機欠采樣方法刪除部分訓(xùn)練集中的非三陰性乳腺癌患者,使訓(xùn)練集中三陰性乳腺癌患者與非三陰性乳腺癌患者的數(shù)量達到平衡,測試集中保持原始樣本量,既解決了訓(xùn)練集分類不平衡問題,又客觀地反映了模型在真實三陰性乳腺癌與非三陰性乳腺癌患者比例下的表現(xiàn)。
MRI 檢查是目前乳腺癌最重要的診斷方法之一[13-14]。Wang 等[15]研究了基于動態(tài)增強掃描MRI檢查(dynamic contrast enhanced-magnetic resonance imaging,DCE-MRI)的影像組學(xué)模型預(yù)測三陰性乳腺癌的價值,AUC 達0.78。Leithner 等[16]建立了基于DCE-MRI 和ADC 圖的影像組學(xué)特征模型預(yù)測乳腺癌分子分型的模型,在預(yù)測三陰性乳腺癌中AUC 達0.86。本研究中模型在測試集中的AUC 為0.86,表明基于CESM 重建圖像的影像組學(xué)模型預(yù)測三陰性乳腺癌的表現(xiàn)不差于DCE-MRI。
本研究存在一定的局限性:①為回顧性研究,且樣本來自單中心,應(yīng)運用前瞻性多中心研究進一步探究;②手動勾畫ROI,效率低下,不利于大樣本研究,且存在一定主觀性,對結(jié)果的可重復(fù)性造成了一定影響;③模型僅應(yīng)用了影像組學(xué)特征,未加入臨床預(yù)測因子,應(yīng)加入臨床預(yù)測因子對模型進一步優(yōu)化;④應(yīng)用的機器學(xué)習(xí)方法單一,應(yīng)加入深度學(xué)習(xí)進一步探究;⑤影像組學(xué)特征僅提取于重建圖像,應(yīng)結(jié)合低能圖像影像組學(xué)特征對模型進一步優(yōu)化。
綜上所述,基于CESM 重建圖像的影像組學(xué)模型對預(yù)測三陰性乳腺癌具有一定的價值。在未來的研究中應(yīng)進一步加大樣本量并結(jié)合深度學(xué)習(xí)進行多中心研究,提高模型的預(yù)測效能。