王小莉, 瞿 航, 成維艷, 趙 義, 蔡玉建, 王 葦
(揚(yáng)州大學(xué)附屬醫(yī)院 影像科, 江蘇 揚(yáng)州, 225009)
乳腺癌是婦女最常見(jiàn)惡性腫瘤之一,近年來(lái)發(fā)病率逐年上升,病死率亦明顯提高,已嚴(yán)重影響女性身體健康[1]。早發(fā)現(xiàn)、早診斷、早治療是降低病死率及改善乳腺癌預(yù)后的關(guān)鍵,而影像學(xué)檢查起著舉足輕重的作用。乳腺X線攝影是乳腺疾病最基本檢查手段之一,且操作簡(jiǎn)單、方便。目前,隨著計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算機(jī)自動(dòng)提取圖像紋理信息并結(jié)合機(jī)器學(xué)習(xí)為人工智能輔助診療提供了新方法[2]。本研究基于乳腺X線攝影圖像結(jié)合影像組學(xué)及機(jī)器學(xué)習(xí)方法建立3種分類模型,對(duì)乳腺病變良惡性進(jìn)行預(yù)測(cè)分類,并對(duì)3種模型診斷效能進(jìn)行比較,旨在為乳腺病變X線的鑒別和診斷提供新的線索。
回顧性分析本院2018年6月—2019年12月手術(shù)病理檢查顯示為乳腺病變的296例女性患者的臨床資料,患者均為單發(fā)病灶。惡性病變149例,年齡30~94歲,平均(54.6±12.5)歲; 病理類型包括浸潤(rùn)性癌134例、導(dǎo)管內(nèi)癌6例、黏液腺癌5例、導(dǎo)管內(nèi)乳頭狀癌2例、包裹性乳頭狀癌2例。良性病變147例,年齡28~79歲,平均(48.7±9.6)歲,病理類型包括纖維腺瘤114例、乳腺增生14例、炎癥6例、導(dǎo)管內(nèi)乳頭狀瘤9例、囊腫4例。患者術(shù)前均行乳腺攝影檢查,均為病變頭足位(CC)及內(nèi)外斜位(MLO), 且有完整的臨床資料。排除標(biāo)準(zhǔn): 因攝影質(zhì)量影響病變觀察及感興趣區(qū)(ROI)勾畫者; 攝片前已行穿刺、新輔助化療或手術(shù)者。
采用美國(guó)GE公司 Senographe-Essential全數(shù)字化乳腺X線攝影機(jī)及后處理工作站拍攝標(biāo)準(zhǔn)的CC及MLO X線片。
1.3.1 圖像導(dǎo)出及感光趣區(qū)(ROI)選擇: 將所有患者病變側(cè)原始數(shù)據(jù)由圖像存儲(chǔ)與傳輸系統(tǒng)(PACS)工作站導(dǎo)出,導(dǎo)出格式為Dicom, 利用ITKsnap軟件由2名高年資影像醫(yī)師同時(shí)對(duì)病變?cè)贑C位及MLO位的ROI進(jìn)行勾畫,當(dāng)ROI選取范圍有爭(zhēng)議時(shí),共同協(xié)商確定ROI勾畫范圍。
1.3.2 數(shù)據(jù)預(yù)處理與特征提取: 使用基于python的pyradiomics工具包[3]提取乳腺X線圖像的一階、二階和高階特征值,包括經(jīng)小波濾波后的一階特征、形狀特征、灰度共生矩陣(GLCM)、灰度依賴矩陣(GLDM)、灰度游程矩陣特征(GLRLM), GLCM和GLRLM的參數(shù)計(jì)算包括角二階矩、相關(guān)性、熵、長(zhǎng)游程因子、短游程因子等高通量特征,其中GLCM/RLM的參數(shù)計(jì)算包括步長(zhǎng)為1, 方向?yàn)樗健⒋怪薄?5°、135°方向,共計(jì)提取9個(gè)特征。數(shù)據(jù)集中訓(xùn)練集和測(cè)試集比例為7∶3。訓(xùn)練隊(duì)列中所有患者均用于訓(xùn)練預(yù)測(cè)模型,而測(cè)試隊(duì)列中的患者均用于獨(dú)立評(píng)估模型的性能。分析前,方差為0的變量被排除,然后對(duì)特征參數(shù)采用均值替換的方法對(duì)異常值進(jìn)行處理,進(jìn)一步對(duì)特征參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,再進(jìn)一步對(duì)特征參數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化處理方法為: (單個(gè)特征數(shù)據(jù)-數(shù)據(jù)列的平均值)/數(shù)據(jù)列的標(biāo)準(zhǔn)差。
1.3.3 特征篩選: 首先采用t檢驗(yàn)和秩和檢驗(yàn)等方法綜合分析,將差異有統(tǒng)計(jì)學(xué)意義的自變量保留。采用Lasso進(jìn)行降維,根據(jù)最優(yōu)截?cái)帱c(diǎn)保留特征數(shù),最終納入9個(gè)特征參數(shù),見(jiàn)圖1、2。
圖1 經(jīng)Lasso降維后提取的9個(gè)特征圖
圖2 Lasso特征系數(shù)收斂圖(垂直虛線表示最佳α值)
1.3.4 3種分類模型的建立及效能比較: 將提取的9個(gè)特征參數(shù)分別采用支持向量機(jī)(SVM)、邏輯回歸(LR)、隨機(jī)森林(RF)進(jìn)行分類學(xué)習(xí),并建立3種分類器模型。在訓(xùn)練集上進(jìn)行十折交叉驗(yàn)證以優(yōu)化模型參數(shù),隨后通過(guò)獨(dú)立測(cè)試集獲得最終分類結(jié)果,并進(jìn)行模型效能評(píng)估。模型分類效能包括敏感度、特異度、準(zhǔn)確度及曲線下面積(AUC)。
經(jīng)LASSO降維后共提取出9個(gè)影像組學(xué)特征參數(shù),分別為形態(tài)特征(球形、長(zhǎng)軸長(zhǎng)度)、一階特征(均勻性、均值絕對(duì)偏差)和高階特征[灰度級(jí)大小區(qū)域矩陣(大面積低灰度比)、相鄰灰度色調(diào)差矩陣(強(qiáng)度)、灰度共生矩陣(對(duì)比度、集聚突變、群集趨勢(shì))]。一階特征(均勻性、均值絕對(duì)偏差)和高階特征中的灰度級(jí)大小區(qū)域矩陣(大面積低灰度比)、相鄰灰度色調(diào)差矩陣(強(qiáng)度)、灰度共生矩陣是肉眼無(wú)法觀察和評(píng)價(jià)的。
特征降維后獲得9個(gè)特征參數(shù),分別輸入機(jī)器學(xué)習(xí)算法SVM、LR、RF進(jìn)行分類學(xué)習(xí),通過(guò)準(zhǔn)確度、AUC、敏感度及特異度進(jìn)行十折交叉驗(yàn)證,取其平均值作為最終分類結(jié)果,效能參數(shù)見(jiàn)表1。
表1 SVM、LR及RF分類模型效能參數(shù)
SVM、LR與RF的AUC分別是0.820、0.758、0.805, 見(jiàn)圖3。SVM的診斷效能高于LR,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。見(jiàn)圖4。
圖3 SVM、LR及RF3種模型的AUC比較
圖4 SVM、LR及RF3種模型診斷效能比較
乳腺癌是女性常見(jiàn)惡性腫瘤之一, X線影像檢查是乳腺疾病最基本的檢查手段,早發(fā)現(xiàn)、早診斷、早治療是降低病死率及改善乳腺癌預(yù)后的關(guān)鍵。傳統(tǒng)X線影像診斷是醫(yī)師根據(jù)病變形態(tài)學(xué)特征進(jìn)行觀察定性,診斷結(jié)果來(lái)源于醫(yī)師個(gè)人主觀經(jīng)驗(yàn)判斷,很多深層次影像信息并未被挖掘利用,診斷效能有限[4]。由于腫瘤異質(zhì)性腫瘤中廣泛而大量存在,因此需要尋找新的方法定量評(píng)估腫瘤,影像組學(xué)是一種從放射影像圖像中高通量地提取并分析大量高級(jí)且定量的影像學(xué)特征的檢查手段[5-6]。
本研究中,經(jīng)LASSO降維后所提取的9個(gè)影像組學(xué)特征參數(shù),形態(tài)特征(球形、長(zhǎng)軸長(zhǎng)度)、一階特征(均勻性、均值絕對(duì)偏差)和高階特征[灰度級(jí)大小區(qū)域矩陣(大面積低灰度比)、相鄰灰度色調(diào)差矩陣(強(qiáng)度)、灰度共生矩陣(對(duì)比度、集聚突變、群集趨勢(shì))],其中一階特征和高階特征是由計(jì)算機(jī)分析提取,通過(guò)人的肉眼難以觀察以及評(píng)價(jià)。研究[7]顯示,灰度共生矩陣能更好地反映乳腺腫瘤的異質(zhì)性,提高診斷的準(zhǔn)確度、特異度,其提取的紋理特征參數(shù)中,對(duì)比度是局部強(qiáng)度變化的度量; 集聚突變是灰度共生矩陣不對(duì)稱性的指標(biāo),較高值代表平均值不對(duì)稱性更大; 群集趨勢(shì)是對(duì)具有相似灰度值的體素進(jìn)行分組的一種度量。這3個(gè)值均反映圖像中一定距離和方向的體素灰度之間的相關(guān)性,從而描述圖像紋理的粗糙程度。與本研究相似, LI Z等[8]發(fā)現(xiàn),乳腺 X 線的紋理分析(灰度共生矩陣和游程矩陣)可顯著提高乳腺良惡性腫瘤鑒別診斷效能,基于圖像的傳統(tǒng)影像診斷、紋理分析及基于圖像的傳統(tǒng)影像診斷結(jié)合紋理分析3種診斷方法的AUC分別為0.873、0.863、0.961。
機(jī)器學(xué)習(xí)算法有多種,本研究采用這3種是經(jīng)典算法。3種模型中, SVM診斷效能最優(yōu), SVM、LR與RF的診斷效能(即AUC)分別為0.820、0.758、0.805,且SVM與LR模型比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05), 說(shuō)明本研究中SVM診斷效能最優(yōu),這與趙爽等[9]對(duì)公開數(shù)據(jù)集BreaKHis中82例患者的乳腺腫瘤分析結(jié)果一致。因此SVM在解決小樣本、非線性及高維等分類問(wèn)題上表現(xiàn)優(yōu)異,廣泛用于腫瘤類型的區(qū)分。在RF模型中,訓(xùn)練集影像特征標(biāo)簽AUC和分類準(zhǔn)確度分別為0.955和0.869, 而測(cè)試集影像特征標(biāo)簽對(duì)模型驗(yàn)證的AUC和分類準(zhǔn)確度分別為0.705和0.669, 由于RF算法存在過(guò)擬合現(xiàn)象,測(cè)試集的診斷效能明顯低于訓(xùn)練集,這也是導(dǎo)致其與SVM比較差異無(wú)統(tǒng)計(jì)學(xué)意義的原因。3種分類模型診斷特異度均大于0.850, 有助于防止和降低乳腺X線篩查假陽(yáng)性導(dǎo)致的過(guò)度治療,與相關(guān)研究[10-11]結(jié)果一致,但敏感度偏低,考慮乳腺X線為二維圖像,不能像磁共振成像一樣以三維方式顯示病變情況。此外,不規(guī)則病變?cè)赗OI勾畫時(shí)存在局限性,后期會(huì)考慮半自動(dòng)分割甚至全自動(dòng)分割方法,但全自動(dòng)分割目前尚處于研究階段[12]。
影像組學(xué)和機(jī)器學(xué)習(xí)在乳腺良惡性病變方面的應(yīng)用價(jià)值已得到相關(guān)研究證實(shí),但也存在一定局限性。首先,本研究中ROI勾畫是手動(dòng)操作,雖然操作均由2名高年資醫(yī)師對(duì)于境界欠清或不清的病變協(xié)商處理,但由于病變與正常組織難以分界,手動(dòng)測(cè)量誤差在所難免,可在后續(xù)研究中采用半自動(dòng)甚至自動(dòng)勾畫。其次,本研究樣本量較少,且為單中心研究,有一定局限性,尚需多中心、大樣本數(shù)據(jù)對(duì)結(jié)果加以驗(yàn)證。綜上所述,影像組學(xué)及機(jī)器學(xué)習(xí)方法建立的分類模型應(yīng)用于預(yù)測(cè)乳腺病變良惡性是可行的,為乳腺良惡性病變的診斷提供了新的途徑。