許 榮,歐陽(yáng)秋芳,林 晴,郭鵲暉,劉磊磊,肖 凡,游 濤
(福建中醫(yī)藥大學(xué)附屬第二人民醫(yī)院超聲科,福建 福州 350003)
乳腺癌已成為全球第一大癌[1]。雌激素受體(estrogen receptor, ER)和孕激素受體(progesterone receptor, PR)均屬乳腺癌細(xì)胞分子生物學(xué)行為的主要決定因素,與應(yīng)否進(jìn)行內(nèi)分泌治療相關(guān),且影響患者預(yù)后[2]:ER、PR雙陰性乳腺癌患者不適于接受內(nèi)分泌治療,且預(yù)后較差。目前僅能依靠穿刺活檢或手術(shù)病理等有創(chuàng)手段獲得乳腺癌分子指標(biāo),檢測(cè)時(shí)間較長(zhǎng);且乳腺癌具有異質(zhì)性,局部組織檢測(cè)結(jié)果無(wú)法全面反映腫瘤侵襲性。利用影像組學(xué)可提取醫(yī)學(xué)圖像中肉眼無(wú)法識(shí)別的信息,提高診斷準(zhǔn)確率[3]。本研究觀察以超聲影像組學(xué)預(yù)測(cè)ER、PR雙陰性乳腺癌的價(jià)值。
1.1 一般資料 回顧性分析2013年1月—2021年12月342例(共359個(gè)病灶)于福建中醫(yī)藥大學(xué)附屬第二人民醫(yī)院經(jīng)病理確診乳腺癌患者,男1例、女341例,年齡25~90歲、平均(54.5±12.3)歲;326例為單發(fā)病灶、16例為多發(fā)病灶(1例3個(gè)、15例2個(gè)病灶);其中119例見(jiàn)127個(gè)ER(-)PR(-)病灶、223例見(jiàn)232個(gè)其他病灶[36例共36個(gè)ER(+)PR(-)、2例共2個(gè)ER(-)PR(+)、185例共194個(gè)ER(+)PR(+)病灶];按7∶3比例將全部病灶分為訓(xùn)練集(n=251)和測(cè)試集(n=108):訓(xùn)練集含95個(gè)ER、PR雙陰性病灶及156個(gè)其他病灶,測(cè)試集含32個(gè)ER及PR雙陰性病灶及76個(gè)其他病灶。納入標(biāo)準(zhǔn):①于活檢或術(shù)前接受乳腺超聲檢查,且檢查前未曾接受腫瘤相關(guān)活組織檢查、新輔助化學(xué)或放射治療及消融、局部切除或全身治療等;②經(jīng)活檢或手術(shù)病理確診為原發(fā)性乳腺癌,且ER、PR免疫組織化學(xué)染色結(jié)果明確。排除超聲圖像質(zhì)量不符合診斷要求者。本研究經(jīng)院醫(yī)學(xué)倫理委員會(huì)批準(zhǔn)(SPHFJP-T2022007-01)。檢查前患者均知情同意。
1.2 儀器與方法 囑患者仰臥,雙手上舉并置于頭部?jī)蓚?cè),充分暴露雙側(cè)乳房及腋窩。應(yīng)用Philips Epiq5、 Philips Epiq7、Philips IU22、GE Voluson E9、GE Voluson E10或Siemens Sequoia S2000彩色多普勒超聲診斷儀及頻率9~12 MHz高頻線陣探頭掃查雙側(cè)乳房及腋窩,檢出病灶后留取二維圖像并保存于超聲工作站。
1.3 影像組學(xué)分析
1.3.1 分割病灶 由具有5年和12年以上超聲工作經(jīng)驗(yàn)的主治醫(yī)師和副主任醫(yī)師各1名分別選取各病灶最大切面圖像進(jìn)行分析,采用ITK-SNAP軟件沿病灶邊界手動(dòng)分割,獲得病灶ROI(圖1),之后由1名具有15年以上工作經(jīng)驗(yàn)的超聲科主任醫(yī)師進(jìn)行復(fù)核,選取最佳ROI提取其超聲影像組學(xué)特征。
圖1 基于常規(guī)灰階超聲圖像(A)分割乳腺病灶ROI(B,紅色區(qū)域)示意圖
1.3.2 提取特征 采用Pyradiomics 3.0版軟件基于病灶ROI共提取1 314個(gè)影像組學(xué)特征,包括252個(gè)一階統(tǒng)計(jì)量(first order)、12個(gè)形狀特征(shape)、336個(gè)灰度共生矩陣(gray level co-occurrence matrix, GLCM)、224個(gè)灰度區(qū)域大小矩陣(gray level size zone matrix, GLSZM)、224個(gè)灰度游程長(zhǎng)度矩陣(gray level run length matrix, GLRLM)、196個(gè)灰度依賴矩陣(gray level dependence matrix, GLDM)及70個(gè)鄰域灰度差矩陣(neighbourhood gray tone difference matrix, NGTDM)。
1.3.3 篩選特征 對(duì)1 314個(gè)影像組學(xué)特征進(jìn)行預(yù)處理,包括手動(dòng)刪除內(nèi)容相同的字符串信息、按列將多維數(shù)據(jù)拆分為一維數(shù)據(jù)、采用方差分析法剔除方差為零數(shù)據(jù),獲得1 205個(gè)有效特征并進(jìn)行標(biāo)準(zhǔn)化處理,并采用最小絕對(duì)收縮和選擇算子(least absolute shrinkage and selection operator, LASSO)算法篩選最佳影像組學(xué)特征,保存為影像組學(xué)標(biāo)簽。
1.3.4 建立模型 根據(jù)影像組學(xué)標(biāo)簽,采用支持向量機(jī)(support vector machine, SVM)對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,設(shè)置參數(shù)“核函數(shù)(kernel)”為“徑向基核函數(shù)(radial basis function kernel,rbf)”采用基于TPE(tree-structured Parzen estimator)算法的貝葉斯優(yōu)化對(duì)超參數(shù)“C(懲罰參
數(shù))”和“gamma(核函數(shù)的參數(shù))”進(jìn)行參數(shù)空間搜索,篩選出診斷性能較優(yōu)的參數(shù)帶入模型,建立預(yù)測(cè)ER和PR雙(-)乳腺癌的影像組學(xué)模型,并以測(cè)試集驗(yàn)證模型效能。
1.4 統(tǒng)計(jì)學(xué)分析 采用Python3.7.1軟件行統(tǒng)計(jì)分析。以±s表示患者年齡,行獨(dú)立樣本t檢驗(yàn)比較。繪制受試者工作特征(receiver operating characteristic, ROC)曲線,計(jì)算曲線下面積(area under the curve, AUC),評(píng)估影像組學(xué)模型的診斷效能。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
ER和PR雙(-)乳腺癌與其他乳腺癌患者年齡差異無(wú)統(tǒng)計(jì)學(xué)意義[(54.2±12.7)歲vs.(54.9±11.4)歲,t=0.543,P=0.588]。
經(jīng)LASSO算法共篩選出37個(gè)最佳影像組學(xué)特征(圖2)以構(gòu)建影像組學(xué)模型,其中權(quán)重系數(shù)絕對(duì)值最大的前10個(gè)特征詳見(jiàn)表1;所獲模型在訓(xùn)練集預(yù)測(cè)ER及PR雙陰性乳腺癌的AUC為0.872[95%CI(0.820,0.924)],敏感度、特異度、準(zhǔn)確率、陰性預(yù)測(cè)值和陽(yáng)性預(yù)測(cè)值分別為80.00%(76/95)、77.56%(121/156)、78.49%(197/251)、86.43%(121/140)和68.47%(76/111),在測(cè)試集的AUC為0.867[(95%CI(0.798,0.936)],敏感度、特異度、準(zhǔn)確率、陰性預(yù)測(cè)值和陽(yáng)性預(yù)測(cè)值分別為75.00%(24/32)、84.21%(64/76)、81.48%(88/108)、88.89%(64/72)、66.67%(24/36)。見(jiàn)圖3。
表1 經(jīng)LASSO算法篩選出的權(quán)重系數(shù)絕對(duì)值最大的前10個(gè)影像組學(xué)特征及其權(quán)重系數(shù)
圖2 基于LASSO回歸篩選ER及PR雙(-)乳腺癌超聲影像組學(xué)特征 A.以LASSO算法篩選影像組學(xué)特征的均方誤差圖,紅線代表均方誤差的平均值,藍(lán)色區(qū)域代表均方誤差的標(biāo)準(zhǔn)差范圍,λ為L(zhǎng)ASSO系數(shù),根據(jù)平均標(biāo)準(zhǔn)誤差最小值獲得最佳λ值(虛線處),用以篩選特征; B.篩選出的37個(gè)影像組學(xué)特征的系數(shù)分布圖
圖3 超聲影像組學(xué)模型預(yù)測(cè)訓(xùn)練集和測(cè)試集ER和PR雙(-)乳腺癌的ROC曲線
ER及PR表達(dá)水平與乳腺癌發(fā)生、發(fā)展及預(yù)后密切相關(guān)。乳腺上皮經(jīng)過(guò)一般增生、不典型增生發(fā)展至乳腺癌,在此過(guò)程中,ER、PR表達(dá)水平表達(dá)呈現(xiàn)出先升再降的漸變過(guò)程[4]。ER、PR雙陽(yáng)性乳腺癌分子分型屬于Luminal A或Luminal B型,分化程度較高,對(duì)內(nèi)分泌治療敏感,預(yù)后相對(duì)較好;而ER、PR雙陰性乳腺癌分子分型屬于人表皮生長(zhǎng)因子受體2(human epidermal growth factor receptor-2, HER-2)過(guò)表達(dá)型或三陰型,不受內(nèi)分泌調(diào)控,內(nèi)分泌治療無(wú)效,預(yù)后較差。分子生物學(xué)因素影響腫瘤的生物學(xué)表達(dá)和組織病理學(xué)改變,進(jìn)而影響其超聲表現(xiàn)[2];乳腺癌ER和PR表達(dá)與其超聲特征存在相關(guān)性[5]。WANG等[6-7]發(fā)現(xiàn)乳腺癌ER、PR表達(dá)水平與超聲所示腫瘤形態(tài)、邊緣及后方回聲等均相關(guān),但其與腫瘤內(nèi)部回聲的相關(guān)性尚不確定;也有學(xué)者[8]認(rèn)為乳腺癌內(nèi)部回聲與其受體表達(dá)水平無(wú)明顯相關(guān)性。
影像組學(xué)為客觀、定量評(píng)估腫瘤內(nèi)部特征提供了新的思路和方法。目前主要基于乳腺M(fèi)RI、乳腺鉬靶攝影及乳腺超聲等[9-12]開(kāi)展基于機(jī)器學(xué)習(xí)的傳統(tǒng)影像組學(xué)和基于深度學(xué)習(xí)的影像組學(xué)研究分析乳腺癌分子分型。WU等[13]分析264例乳腺癌(201例為L(zhǎng)uminal型、63例為非Luminal型)的超聲表現(xiàn),以其中184例為訓(xùn)練集、80例為測(cè)試集,所獲影像組學(xué)模型鑒別測(cè)試集Luminal型與非Luminal型乳腺癌的AUC為0.786。ZHANG等[14]基于3 360個(gè)乳腺癌病灶的鉬靶片和聲像圖構(gòu)建多模態(tài)深度學(xué)習(xí)模型,其鑒別Luminal與非Luminal乳腺癌的AUC高達(dá)0.929。傳統(tǒng)機(jī)器學(xué)習(xí)模型可分析建模過(guò)程中所用具體特征及其權(quán)重,且具備可解釋性;深度學(xué)習(xí)模型的診斷效能更高,但所需樣本量較多,且模型訓(xùn)練過(guò)程的可解釋性較低。
LASSO算法通過(guò)構(gòu)建懲罰函數(shù)以壓縮特征系數(shù)、進(jìn)而選擇特征,應(yīng)用范圍廣、篩選效率高,可有效控制過(guò)擬合、降低模型復(fù)雜程度。本研究基于LASSO回歸篩選出37個(gè)乳腺癌最佳超聲影像組學(xué)特征,能在不同程度上反映ER及PR雙陰性與其他乳腺癌內(nèi)部紋理復(fù)雜度、回聲強(qiáng)度及均勻度的差異,有利于鑒別診斷;其中權(quán)重系數(shù)絕對(duì)值最大的前10個(gè)特征分別為SRE、Imc1、Mean、Complexity、SZNN、Center Of Mass Index2、CS、SRHGLE、GLNN及IDMN。SRE衡量短運(yùn)行長(zhǎng)度體素區(qū)域分布的程度,其數(shù)值越大,紋理越細(xì)膩。信息相關(guān)性Imc1利用體素對(duì)熵計(jì)算紋理的復(fù)雜性,能量化圖像紋理的復(fù)雜度。Mean反映圖像的平均灰階強(qiáng)度,代表整體回聲水平。Complexity衡量圖像的不均勻程度。SZNN可量化圖像不同區(qū)域的變化程度,是衡量腫瘤異質(zhì)性的重要影像組學(xué)特征之一。CS反映GLCM的偏度和均勻性,回聲越不均勻,則該值越大。SRHGLE與SRE類似,體現(xiàn)高回聲紋理的細(xì)膩程度。GLNN反映圖像灰階強(qiáng)度均勻程度。IDMN用于度量圖像紋理局部變化,反映圖像紋理的同質(zhì)性,亦是圖像局部均一性的量化指標(biāo)。本研究基于最佳影像組學(xué)特征構(gòu)建的超聲影像組學(xué)機(jī)器學(xué)習(xí)模型預(yù)測(cè)訓(xùn)練集及測(cè)試集ER和PR雙陰性乳腺癌的AUC分別為0.872及0.867,提示其預(yù)測(cè)ER和PR雙陰性乳腺癌的效能較佳。
綜上所述,利用超聲影像組學(xué)可有效預(yù)測(cè)ER、PR雙陰性乳腺癌。但本研究為回顧性觀察,樣本量有限,且以多種超聲設(shè)備采集圖像,有待后續(xù)加以完善。