李繪, 李姣, 黎浩江, 陳樹超, 劉立志, 陳洪波*
(1.桂林電子科技大學(xué)生命與環(huán)境科學(xué)學(xué)院, 桂林 541001; 2.中山大學(xué)腫瘤防治中心, 廣州 510060)
乳腺癌是女性最常見的癌癥,也是全球女性癌癥死亡的主要原因[1]。內(nèi)分泌治療是乳腺癌綜合治療的重要組成部分[2],對乳腺癌術(shù)后預(yù)防復(fù)發(fā)、轉(zhuǎn)移具有重要地位。他莫昔芬是雌激素受體拮抗劑,能夠與細(xì)胞膜上雌激素受體結(jié)合,形成復(fù)合物,進而阻止雌激素發(fā)揮作用,是乳腺癌術(shù)后的重要治療手段。研究乳腺癌術(shù)后他莫昔芬治療預(yù)后關(guān)鍵因子,對于提高乳腺癌的治療效果具有重要的臨床意義。
近年來,有研究者致力于從生物信息學(xué)角度研究乳腺癌術(shù)后他莫昔芬治療預(yù)后因子。皮瓣內(nèi)切酶(flap endonuclease-1)[3],PDHA2-APRT基因?qū)4]、MAFG-AS1[5]等被認(rèn)為是乳腺癌他莫昔芬治療后重要的預(yù)后生物標(biāo)志物,具有重要的臨床意義。CXCL10可作為預(yù)測乳腺癌預(yù)后的生物標(biāo)志物,也可作為治療他莫昔芬耐藥的治療靶點,對他莫昔芬治療效果的預(yù)后良好。TRAF4的高表達(dá)預(yù)示他莫昔芬治療乳腺癌的預(yù)后不良,且將促進他莫昔芬耐藥[6]。另外,也有一些研究從醫(yī)學(xué)影像中尋找預(yù)后標(biāo)志物,如磁共振成像中的表面彌散系數(shù)就被證明為可用于評估他莫昔芬治療乳腺癌有效性的標(biāo)志物,醫(yī)學(xué)圖像中的預(yù)后標(biāo)志物相較于生物信息中的標(biāo)志物,更加直觀,也更容易獲得,因此基于乳腺密度提出能夠反映乳腺密度變化趨勢的乳腺密度變化率(mammographic density change ratio,MDCR)這一指標(biāo)作為乳腺癌術(shù)后他莫昔芬治療療效預(yù)后的預(yù)后影像標(biāo)志物。
對于乳腺癌患者來說,乳腺鉬靶X線影像是最常見的檢查手段,從乳腺鉬靶X線影像中獲取精準(zhǔn)的預(yù)后標(biāo)志物更具有臨床意義。乳腺密度(mammographic density, MD),是指乳腺鉬靶X線影像中乳房腺體組織在乳房整體投影中所占的比例。它是乳房內(nèi)腺體組織相對數(shù)量的一種測量方法[7],已被證明與乳腺癌篩查的敏感性和特異性有關(guān)。MD已被提出可以作為預(yù)測患乳腺癌的風(fēng)險、癌癥復(fù)發(fā)的可能性,以及對新輔助化療的反應(yīng)和生存率的生物標(biāo)志物。MD的變化反映了乳腺中膠原蛋白的數(shù)量以及上皮細(xì)胞和非上皮細(xì)胞的數(shù)量的變化。MD不是靜態(tài)特性,與大多數(shù)乳腺癌風(fēng)險因素不同,MD可以發(fā)生改變,MD的變化與乳腺癌患病的風(fēng)險增加、診斷時的晚期腫瘤分期以及局部復(fù)發(fā)和第二原發(fā)癌癥的風(fēng)險增加相關(guān)。MD增加與乳腺癌風(fēng)險增加有關(guān),并且MD降低會伴隨著風(fēng)險的降低[8]。
在臨床實踐中,主要根據(jù)放射科醫(yī)師的視覺主觀評估獲得MD,且已被證實具有顯著的醫(yī)師內(nèi)和醫(yī)師間的差異性。定量成像分析軟件Cumulus software 已開發(fā)用于乳腺鉬靶定量測量乳房中的致密組織,是測量MD的金標(biāo)準(zhǔn)。這是一種基于交互式閾值的半自動觀察者輔助工具,觀察者主觀選擇有助于識別的閾值灰度級,將腺體組織與脂肪分離。但是該方法需要人工識別閾值,不僅耗費時間和精力,還會由于醫(yī)師的主觀因素導(dǎo)致誤差?;贙-means聚類算法的交互式計算機輔助分割程序測量MD,需要人工判斷是否為胸肌,然后基于K-means聚類算法分割出腺體組織,然后計算MD。然而,該方法需要對觀察者進行培訓(xùn)且測量結(jié)果受觀察者主觀因素影響?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)來估計MD的方法中生成一個腺體概率圖,MD根據(jù)腺體概率圖與乳腺面積的比值來估計。但是由于每位患者的腺體分布具有差異性,且部分鉬靶圖像中腺體呈分布較散、灰度較暗、結(jié)構(gòu)細(xì)微的特征,該方法只能提取致密區(qū)的腺體,對非致密區(qū)效果不佳?;谌矸e網(wǎng)絡(luò)分割乳房和致密的纖維腺體區(qū)域,該方法使用VGG16網(wǎng)絡(luò)作為基本網(wǎng)絡(luò)結(jié)構(gòu)并微調(diào)網(wǎng)絡(luò),分別實現(xiàn)分割乳房和腺體密集區(qū)域。但是分割方法需要標(biāo)注標(biāo)簽比較困難,且無法分割出非致密區(qū)的腺體。
針對當(dāng)前乳腺密度測量中所存在的問題,提出了一種基于深度學(xué)習(xí)的乳腺密度自動測量方法。首先利用深度學(xué)習(xí)的方法實現(xiàn)乳房區(qū)域精準(zhǔn)分割,然后采用通道注意力機制下的壓縮激勵卷積神經(jīng)網(wǎng)絡(luò)(squeeze-and-excitation convolutional neural network,SE-CNN)網(wǎng)絡(luò)實現(xiàn)MD的自動測量,以獲得準(zhǔn)確的乳腺癌術(shù)后他莫昔芬治療患者的MD值。為了研究乳腺癌術(shù)后他莫昔芬治療效果評價關(guān)鍵因子,本研究對治療前后的乳腺密度變化率的預(yù)后能力進行分析,探索乳腺癌術(shù)后他莫昔芬治療預(yù)后分析方法,試圖從影像學(xué)的視角尋找術(shù)后他莫昔芬治療效果好的乳腺癌患者,提高乳腺癌的治療效果。
本研究由中山大學(xué)腫瘤防治中心倫理委員會審核通過,審批號為SZR2020-170。數(shù)據(jù)均來自中山大學(xué)腫瘤防治中心,共有模型數(shù)據(jù)和預(yù)后數(shù)據(jù)兩個獨立的數(shù)據(jù)集,其中模型數(shù)據(jù)用來訓(xùn)練MD自動測量模型,預(yù)后數(shù)據(jù)用來獲得MDCR,并進行乳腺癌術(shù)后他莫昔芬治療預(yù)后分析。
1.1.1 模型數(shù)據(jù)
在MD自動測量模型訓(xùn)練時,由于在SE-CNN閾值回歸網(wǎng)絡(luò)模型設(shè)置閾值標(biāo)簽時,人工標(biāo)注閾值存在主觀性和不準(zhǔn)確性的問題,而中山大學(xué)腫瘤防治中心的新引進的Selenia Dimensions儀器可以間接得到腺體區(qū)域的灰度閾值,以此為標(biāo)簽來可以規(guī)避人工標(biāo)注帶來的誤差。因此訓(xùn)練MD自動測量模型采用來自該機器的數(shù)據(jù),共包括246張鉬靶圖像,來自246位患者,采集時間為2021年3月—2021年6月,圖像分辨率大小為1 136×944。
1.1.2 預(yù)后數(shù)據(jù)
數(shù)據(jù)集共858張乳腺鉬靶圖像,圖像分辨率大小為1 915×2 295。該數(shù)據(jù)集來自429位患者?;颊叱醮沃委煏r間為2008年4月—2015年12月。在隨訪期間,所有患者根據(jù)《NCCN乳腺癌臨床實踐指南(第8版)》[9]進行他莫昔芬治療。每位患者采集鉬靶圖像的時間點分別為手術(shù)前和手術(shù)后進行內(nèi)分泌治療后15個月,年齡中位數(shù)為44歲(25~61歲),身高中位數(shù)為158 cm(142~170 cm),體重中位數(shù)為56 kg(35~165 kg)。隨訪時間中位數(shù)為59.8個月(6~82個月),其結(jié)果為總生存率、無進展生存率、無遠(yuǎn)處轉(zhuǎn)移生存率和無區(qū)域復(fù)發(fā)生存率。
如圖1所示,本實驗分為兩部分,首先是基于模型數(shù)據(jù)的MD自動測量模型的訓(xùn)練與驗證,并通過五折交叉驗證找尋效果最好的模型;接著基于預(yù)后數(shù)據(jù)進行MDCR的乳腺癌預(yù)后分析,即通過MD自動測量模型得出預(yù)后數(shù)據(jù)的MDCR值,并由預(yù)后分析方法得出MDCR值作為預(yù)后因子的預(yù)后能力。
圖2 MD自動測量模型流程圖Fig.2 Flow chart of MD automatic measurement model
圖1 實驗設(shè)計框圖Fig.1 Experimental design block diagram
MD是指腺體面積占乳房面積的比例,即MD=GA/BA,其中GA和BA分別為腺體面積和乳房面積。如圖2所示,首先利用U-Net Plus方法實現(xiàn)乳房區(qū)域的分割,獲得乳房面積BA,接下來SE-CNN實現(xiàn)乳房區(qū)域的灰度閾值回歸,獲得乳房區(qū)域內(nèi)腺體分割的閾值,從而實現(xiàn)腺體區(qū)域的提取,獲得腺體面積GA,最后計算MD值。
1.3.1 基于U-Net Plus 網(wǎng)絡(luò)的乳房區(qū)域分割
U-Net Plus網(wǎng)絡(luò)在二維CT切片中分割食道癌和食道癌表現(xiàn)優(yōu)異,其優(yōu)勢在于采用兩個U型結(jié)構(gòu)來增強復(fù)雜抽象的特征的提取能力,可以有效解決不規(guī)則和模糊的邊界分割問題。所使用的鉬靶圖像中,乳房區(qū)域邊界較暗、輪廓模糊,使用U-Net Plus網(wǎng)絡(luò)能夠有效地完成乳房區(qū)域分割任務(wù),去除周圍的肌肉和乳頭等組織。
對模型的超參數(shù)進行設(shè)置,batch-size設(shè)置為6,在保證訓(xùn)練收斂情況下epoch設(shè)置為500,學(xué)習(xí)率設(shè)置為0.000 05,使用Adam優(yōu)化器和交叉熵?fù)p失函數(shù)。經(jīng)過測試,基于U-Net Plus方法的乳房區(qū)域分割的DICE(dice similarity coefficient)值達(dá)到0.997,精準(zhǔn)分割出乳房區(qū)域,該網(wǎng)絡(luò)可以用于鉬靶圖像中的乳房區(qū)域的精準(zhǔn)分割。
1.3.2 基于SE-CNN的乳腺閾值提取
在鉬靶圖像中,脂肪組織表現(xiàn)為灰度較小,而腺體組織表現(xiàn)為不透明或灰度較大。因而可依據(jù)灰度閾值區(qū)分腺體組織和脂肪組織。由于腺體組織在乳房圖像中具有大部分腺體集中、少部分腺體分散的分布特征,且腺體組織亮度不一的特點,實現(xiàn)閾值回歸則要求網(wǎng)絡(luò)具有更強的特征提取能力。基于通道注意力機制提出SE-CNN模型來滿足這一要求。如圖3所示,該模型以卷積層、非線性層和最大池化層組成大模塊,為加深卷積層數(shù),模型使用5個大模塊,使得網(wǎng)絡(luò)對特征提取能力加強。同時模型學(xué)習(xí)通道之間的相關(guān)性,針對通道施加注意力,在每個模塊加入SE(squeeze-and-excitation)模塊[10],通過學(xué)習(xí)的方式來自動獲取每個特征通道的重要程度,然后依照這個重要程度去提升有用的特征并抑制對當(dāng)前任務(wù)無用的特征,提高閾值回歸的準(zhǔn)確度。
圖3 SE-CNN結(jié)構(gòu)示意圖Fig.3 Diagram of SE-CNN structure
對模型的超參數(shù)進行設(shè)置,batch-size設(shè)置為16,在保證訓(xùn)練收斂情況下epoch設(shè)置為500,學(xué)習(xí)率設(shè)置為0.000 1,使用Adam優(yōu)化器和均方誤差損失函數(shù)。
主要探索乳腺鉬靶X線影像中的MDCR值對乳腺癌術(shù)后他莫昔芬治療預(yù)后方法。由本文提出的自動測量方法分別計算手術(shù)前和手術(shù)后的MD值,從而可以得到MD的變化率MDCR,即
MDCR=(MD1-MD2)/MD1
(1)
式(1)中:MD1為患者手術(shù)前的乳腺密度;MD2為患者內(nèi)分泌治療至隨訪時間時的乳腺密度。
1.5.1 MD自動測量模型評價方法
利用深度學(xué)習(xí)方法研究了MD自動測量模型,從而實現(xiàn)自動計算MDCR值。其中乳房面積由 U-Net Plus 方法提取。提出了一種通過確定鉬靶圖像中腺體灰度閾值的方法來提取腺體,進而確定腺體面積,最終獲得精確的MD值。采用平均絕對誤差(mean absolute error,MAE)、決定系數(shù)R2和Bland-Altman一致性分析方法來評估腺體提取閾值新方法的性能,MAE、R2分別定義為
(2)
(3)
式中:vpredict為預(yù)測值;vlabel為標(biāo)簽值;vlmean為標(biāo)簽值的平均值。
在Bland-Altman一致性分析中,當(dāng)預(yù)測值和真實值之間的絕大多數(shù)位于95% 一致性界限內(nèi),可以認(rèn)為這兩組數(shù)據(jù)具有較好的一致性,在臨床上是可以接受的。
1.5.2 預(yù)后評價方法
采用R語言中的密度圖方法求解MDCR切割值,將患者進行分組。利用Kaplan-Meier生存分析方法分析單因素對乳腺癌術(shù)后他莫昔芬治療預(yù)后的影響。當(dāng)P<0.05,認(rèn)為兩組之間無進展生存的差別有統(tǒng)計學(xué)意義。Cox 回歸分析,利用數(shù)學(xué)模型擬合生存分布與影響因子之間的關(guān)系,評價影響因子對生存函數(shù)分布的影響程度,進一步驗證預(yù)后方法的臨床意義。
在閾值回歸模塊中,采用AlexNet、VGG11、ResNet50 模型的結(jié)果與SE-CNN模型做對照,如表1所示,SE-CNN的閾值回歸結(jié)果平均絕對誤差值小于其他3種模型,決定系數(shù)值高于其他3種模型,說明SE-CNN的閾值回歸結(jié)果準(zhǔn)確性更高。
表1 閾值回歸模型實驗結(jié)果對照
圖4 Bland-Altman一致性分析Fig.4 Bland-Altman consistency analysis
對AlexNet、VGG11、ResNet50以及SE-CNN 模型測試集閾值輸出與機器閾值標(biāo)簽做Bland-Altman 一致性分析。如圖4(a)為SE-CNN模型的 Bland-Altman
圖,可以看出,98%(1/49)的樣本在95%一致性界限之內(nèi),在一致性界限范圍以內(nèi),兩組數(shù)據(jù)差值的絕對值最大為24.43,差值平均值為0.33。圖4(b)為AlexNet模型的Bland-Altman圖,92%(4/49)的樣本在95%一致性界限之內(nèi),在一致性界限范圍以內(nèi),兩組數(shù)據(jù)差值的絕對值最大為28.14,差值平均值為2.59。由此表明,AlexNet模型閾值結(jié)果與機器閾值標(biāo)簽的一致性差于SE-CNN模型。圖4(c)、圖4(d)分別為VGG11模型和ResNet模型的Bland-Altman圖,根據(jù)分析可以得出SE-CNN模型閾值結(jié)果與機器閾值標(biāo)簽的一致性優(yōu)于VGG11模型和ResNet模型。因此,SE-CNN模型閾值結(jié)果相比其他3種模型,具有最好的一致性,是最準(zhǔn)確可靠的。
為了對乳腺癌術(shù)后他莫昔芬治療效果進行預(yù)后分析,需要對乳腺癌患者進行分組。采用與患者預(yù)后信息無關(guān)的密度圖方法計算和繪制核密度估計值。密度圖由R的軟件包ggplot2和函數(shù)geom_density(直方圖的平滑版本)執(zhí)行。
圖5 MDCR切割值分析Fig.5 MDCR cutting value analysis
如圖5(a)所示,當(dāng)MDCR值為5.3時,曲線達(dá)到峰值,可用作最佳切割值。為了評估切割值的有效性,使用R的rms軟件包執(zhí)行受限3次樣條(restricted cubic spline,RCS)函數(shù),并使用RCS公式參數(shù)建立總生存率的Cox回歸模型。如圖5(b)所示,隨著MDCR的增加,乳腺癌有進展的風(fēng)險變小,當(dāng)MDCR=5.3時達(dá)到風(fēng)險減小的臨界值,進一步驗證了切割值選擇的可靠性。利用MDCR=5.3作為切割值,將乳腺癌患者分成兩組,并進行術(shù)后他莫昔芬治療預(yù)后分析。
獲得MDCR切割值后,乳腺癌患者被分成兩組:Group A(MDCR≥5.3),Group B(MDCR<5.3)。圖6顯示了兩組之間的生存曲線。通過Logrank檢驗,得到兩組之間的無進展生存期P值為0.032。說明兩組之間具有顯著差異。同時可以發(fā)現(xiàn),當(dāng)MDCR≥5.3時,患者的生存曲線在上面,即這批乳腺癌患者的術(shù)后他莫昔芬治療效果要好于另一組。多變量Cox回歸分析如表2所示,同樣可以發(fā)現(xiàn)MDCR的風(fēng)險率為2.654[95%CI(置信區(qū)間),1.102~6.395],P=0.030。由此可以說明,MDCR可以作為乳腺癌術(shù)后他莫昔芬治療預(yù)后關(guān)鍵因子。
通過Cox回歸分析來確定乳腺癌進展的獨立影響因素。首先進行K-M分析,篩掉一些無意義的變量,將P小于0.1的因素納入Cox回歸模型。K-M方法對以下因素進行分析:年齡、身高、體重、身體質(zhì)量指數(shù)(body mass index,BMI)、MDCR,分析結(jié)果顯示年齡、BMI、MDCR與乳腺癌進展相關(guān)。進一步做Cox多因素分析結(jié)果如表2所示,MDCR[風(fēng)險比率(hazard ratio,HR)=2.654,95%CI,1.102~6.395,P=0.030]、BMI(HR=0.272,95%CI,0.088~0.846,P=0.024)是乳腺癌他莫昔芬治療患者發(fā)生轉(zhuǎn)移或復(fù)發(fā)的獨立危險因素,有較低的MDCR、較高的BMI的隨訪乳腺癌患者發(fā)生轉(zhuǎn)移或復(fù)發(fā)的風(fēng)險增加。
圖6 生存曲線Fig.6 Survival curve
表2 多變量Cox多因素分析
通過對乳腺密度自動提取模型研究及對乳腺癌術(shù)后他莫昔芬治療效果分析,得出以下結(jié)論。
(1)為了對乳腺癌進行自動預(yù)后分析,提出了一種基于通道注意力的SE-CNN,精準(zhǔn)地從鉬靶X射線影像中計算乳腺密度。通過性能對比分析可以看出,決定系數(shù)R2=0.74,通過一致性分析可以看出,98%的樣本分布在可接受的范圍內(nèi)。因此 SE-CNN 可以實現(xiàn)準(zhǔn)確、自動提取MD。
(2)預(yù)后分析時,通過密度方法求得MDCR的切割值,對被試進行分組,兩組之間的無進展生存期為:HR=2.654(95%CI,1.102~6.395),P=0.030,具有顯著效應(yīng)。MDCR值高的患者預(yù)后較好,反之則較差。說明MDCR值可以作為乳腺癌術(shù)后他莫昔芬治療預(yù)后的潛在因子。