吳林永,趙羽佳,林鵬,李昕,楊紅,何云*
1.廣西醫(yī)科大學(xué)第一附屬醫(yī)院超聲科,廣西南寧 530021;2.通用電氣醫(yī)療保健公司,上海 210000;
乳腺導(dǎo)管內(nèi)癌(ductal carcinomainsitu,DCIS)屬于原位癌,局限于乳腺導(dǎo)管的基底膜內(nèi)的上皮組織惡性增生,發(fā)病率占乳腺癌的20%~30%,10年生存率可達(dá) 88%[1-2]。乳腺導(dǎo)管內(nèi)癌微浸潤(ductal carcinomainsituwith microinvasion,DCIS-MI)是DCIS突破基底膜,且浸潤灶最長直徑<1 mm,發(fā)病率不足乳腺癌的 1%[3]。DCIS-MI的檢出率隨著影像技術(shù)的發(fā)展而升高[4]。DCIS-MI是DCIS向乳腺浸潤性癌進(jìn)展的中間階段[5],較DCIS表現(xiàn)出更高的侵襲性生物學(xué)行為,與手術(shù)方案的選擇、術(shù)后需輔助化療以及患者預(yù)后較差密切相關(guān)[6-8]。
影像組學(xué)作為人工智能的子領(lǐng)域,將醫(yī)學(xué)圖像轉(zhuǎn)換為高通量成像特征,并選擇與腫瘤密切相關(guān)的特征,以建立基于影像組學(xué)特征的預(yù)測模型,提供準(zhǔn)確的腫瘤表型分析信息和臨床決策模型[9-10]。影像組學(xué)的步驟主要包括圖像分割、特征提取、數(shù)據(jù)分組與標(biāo)準(zhǔn)化、特征選擇、模型構(gòu)建與評(píng)估。影像組學(xué)不僅將主觀視覺的圖像提取成客觀的數(shù)據(jù),并可提取到圖像深處的肉眼無法觀察到的信息[11]。
因此,本研究基于超聲圖像的影像組學(xué)特征構(gòu)建術(shù)前預(yù)測DCIS-MI的鑒別模型,探索影像組學(xué)特征術(shù)前預(yù)測DCIS-MI的價(jià)值,為臨床快速有效決策提供依據(jù)。
1.1 研究對(duì)象 回顧性分析2015年1月—2020年6月廣西醫(yī)科大學(xué)第一附屬醫(yī)院經(jīng)外科手術(shù)或穿刺活檢病理證實(shí)的400例DCIS占位性病變。納入標(biāo)準(zhǔn):①乳腺原發(fā)占位性病變;②經(jīng)病理證實(shí)為DCIS或DCIS-MI;③病理證實(shí)前1個(gè)月內(nèi)行超聲檢查。排除標(biāo)準(zhǔn):①繼發(fā)性或術(shù)后復(fù)發(fā)的DCIS或DCIS-MI;②病變超聲圖像分辨不清或存在邊界爭議;③病理證實(shí)前未行放療、化療、中藥治療等。最終納入103例DCIS占位性病變,其中DCIS 80例,DCISMI 23例。
1.2 儀器與方法 采用邁瑞、百勝、GE、日立超聲彩色多普勒診斷儀,探頭頻率7~14 MHz,掃查范圍包括雙側(cè)乳腺及腋窩淋巴結(jié),記錄病灶的超聲特征,包括部位、大小、形態(tài)、邊界、內(nèi)部回聲、有無鈣化、導(dǎo)管是否擴(kuò)張、內(nèi)部及周邊血流分布等。選取病灶最大且清晰的圖像導(dǎo)入 ITKSNAP 3.80軟件(http://www.itksnap.org)。
1.3 圖像分割 在ITKSNAP軟件中,由1位具有5年超聲診斷工作經(jīng)驗(yàn)的主治醫(yī)師沿病變邊緣手工勾勒病變感興趣區(qū)(ROI);并由1位具有10年超聲診斷工作經(jīng)驗(yàn)的副主任及以上醫(yī)師對(duì)ROI再次確認(rèn)。2位醫(yī)師均采用盲法評(píng)估。若評(píng)估意見不同,則重新勾勒;若意見相同,則保存ROI圖像并導(dǎo)入GE Intelligence Foundry 1.3軟件用于后續(xù)分析。
1.4 特征提取 在Intelligence Foundry軟件對(duì)5234項(xiàng)影像組學(xué)特征進(jìn)行提?。▓D1E)。
圖1 特征提取量化過程。A.ROI的勾畫;B~D.通過ROI分別提取灰度共生矩陣、游程長度矩陣和灰度直方圖特征;E.上述特征經(jīng)過小波轉(zhuǎn)換等衍生的特征分類
1.5 數(shù)據(jù)分組和標(biāo)準(zhǔn)化 對(duì)生成的數(shù)據(jù)集按7∶3分成訓(xùn)練組和驗(yàn)證組[12]。最大最小值標(biāo)準(zhǔn)化方法采用線性化方法轉(zhuǎn)換原始數(shù)據(jù)到[0,1]的范圍,歸一化公式為:y=(x-最小值)/(最大值-最小值)。該方法實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的等比例縮放,其中 x、y分別為轉(zhuǎn)換前后的值[13]。
1.6 特征選擇 通過Spearman相關(guān)系數(shù)以0.95為閾值去除高相關(guān)性特征;再使用統(tǒng)計(jì)檢驗(yàn)聯(lián)合隨機(jī)森林以1.25倍重要性均值為閾值的方法選擇特征[14-15];最終選擇的特征用于后續(xù)模型的構(gòu)建。
1.7 模型構(gòu)建和評(píng)估 本研究依據(jù)決策樹機(jī)器學(xué)習(xí)算法(ID3算法)開發(fā)的代碼,基于Python軟件實(shí)現(xiàn)構(gòu)建DCIS-MI的預(yù)測模型[16]。訓(xùn)練組用于構(gòu)建預(yù)測模型,同時(shí)采用 5倍交叉驗(yàn)證方法,即訓(xùn)練組分為5份:4份用于訓(xùn)練,1份用于驗(yàn)證,將頻率最優(yōu)作為預(yù)測結(jié)果。獨(dú)立的驗(yàn)證組用于驗(yàn)證預(yù)測模型的穩(wěn)定性和可靠性。采用受試者工作特征(ROC)曲線及曲線下面積(AUC)、準(zhǔn)確度、敏感度和特異度評(píng)估或驗(yàn)證模型的效能及可靠性,AUC越接近 1,效能越高。
1.8 診斷標(biāo)準(zhǔn)及結(jié)果判定 Ki-67以<14%和≥14%分為低表達(dá)和高表達(dá)[17]。雌激素受體(estrogen receptor,ER)、孕激素受體(progesterone receptor,PR)、人類表皮生長因子受體-2(human epidermal growth factor receptor 2,HER-2)均分為陰性及陽性,符合廣西醫(yī)科大學(xué)第一附屬醫(yī)院病理科免疫組化陽性標(biāo)準(zhǔn)。
1.9 統(tǒng)計(jì)學(xué)方法 應(yīng)用SPSS 23.0軟件,符合正態(tài)分布的計(jì)量資料以±s表示,組間比較采用t檢驗(yàn)或校正t檢驗(yàn),不符合正態(tài)分布的計(jì)量資料采用 Mann-WhitneyU檢驗(yàn)。計(jì)數(shù)資料組間比較采用χ2檢驗(yàn)。P<0.05表示差異有統(tǒng)計(jì)學(xué)意義。
2.1 訓(xùn)練組與驗(yàn)證組臨床資料比較 訓(xùn)練組納入72例,其中DCIS 56例,DCIS-MI 16例;驗(yàn)證組納入31例,其中DCIS 24例,DCIS-MI 7例。兩組病灶大小差異有統(tǒng)計(jì)學(xué)意義(P<0.05),患者年齡、免疫組化指標(biāo)(ER、PR、HER-2、Ki-67)和超聲表現(xiàn)(形態(tài)、邊界、回聲、縱橫比、鈣化、病灶內(nèi)及周邊血流)組間差異均無統(tǒng)計(jì)學(xué)意義(P>0.05,表1)。
表1 訓(xùn)練組和驗(yàn)證組患者臨床病理資料比較
2.2 特征選擇 通過多種方法聯(lián)合對(duì)特征進(jìn)行降維,最終選擇 27項(xiàng)特征用于后續(xù)預(yù)測模型構(gòu)建(圖 2、表2)。
圖2 27項(xiàng)構(gòu)建DCIS-MI預(yù)測模型的影像組學(xué)特征的熱圖。A為訓(xùn)練組熱圖,B為驗(yàn)證組熱圖
表2 構(gòu)建DCIS-MI預(yù)測模型的27項(xiàng)影像組學(xué)特征
2.3 模型構(gòu)建和評(píng)估 通過決策樹機(jī)器學(xué)習(xí)算法構(gòu)建模型,訓(xùn)練組和驗(yàn)證組預(yù)測模型的AUC分別為0.90(95%CI0.81~0.99)和0.73(95%CI0.51~0.95)(圖3),準(zhǔn)確度、敏感度及特異度分別為0.79、0.94、0.75和0.74、0.71、0.75。
圖3 訓(xùn)練組模型(A)與驗(yàn)證組模型(B)的ROC曲線
2.4 影像組學(xué)評(píng)分在不同臨床病理參數(shù)亞組中的價(jià)值評(píng)估 通過不同亞組間比較,在ER(-/+)、病灶大?。?2.5 cm/≥2.5 cm)和病灶內(nèi)鈣化(無/有)亞組中,ER(-)、病灶大小(<2.5 cm)、病灶內(nèi)鈣化(無)亞組的AUC提示具有更高的診斷效能;而在PR(-/+)、HER-2(-/+)、Ki-67(低表達(dá)/高表達(dá))和年齡(<55歲/≥55歲)亞組中,PR(+)、HER-2(+)、Ki-67高表達(dá)和年齡≥55歲亞組的AUC提示具有更高的診斷效能(表3)。
表3 影像組學(xué)評(píng)分在不同臨床病理參數(shù)的分析
隨著超聲技術(shù)的發(fā)展,DCIS和DCIS-MI的檢出率越來越高,并在臨床和影像表現(xiàn)上具有一定程度的相似性[18-19],兩者大多表現(xiàn)為形態(tài)多不規(guī)則,邊界不清,多數(shù)縱橫比<1,后方回聲多無衰減,微小鈣化多見,病灶內(nèi)部和周邊可見彩色血流。美國癌癥聯(lián)合委員會(huì)指出DCIS-MI病變是乳腺癌T1期的亞型之一,歸為T1mic期管理[20]。陳擎等[21]報(bào)道,有惡性腫瘤家族史、未絕經(jīng)的DCIS患者更容易發(fā)生微浸潤。DCIS-MI較DCIS在臨床上觸及腫塊的機(jī)會(huì)更大,比DCIS更容易出現(xiàn)淋巴血管浸潤及腋窩淋巴結(jié)轉(zhuǎn)移,預(yù)后較差[22-23]。《中國抗癌協(xié)會(huì)乳腺癌診治指南與規(guī)范(2017年版)》建議在DCIS行乳房切除術(shù)時(shí)進(jìn)行前哨淋巴結(jié)活檢術(shù)[24],然而對(duì)于術(shù)前決定采用保乳手術(shù)的DCIS,評(píng)估微浸潤對(duì)手術(shù)方案的選擇仍有重要價(jià)值。DCIS-MI多在術(shù)前被診斷為DCIS,術(shù)后充分病理評(píng)估最終診斷[25]。
影像組學(xué)是人工智能應(yīng)用于醫(yī)學(xué)影像領(lǐng)域的熱門學(xué)科,在一定程度上提高圖像信息的利用度,可在更細(xì)微的層面進(jìn)行疾病的鑒別診斷。影像組學(xué)主要利用各種機(jī)器學(xué)習(xí)算法,提取訓(xùn)練組具有意義的信息,通過對(duì)信息的深入解讀優(yōu)化,以產(chǎn)生對(duì)研究內(nèi)容的準(zhǔn)確預(yù)測。一個(gè)獨(dú)立的數(shù)據(jù)集來驗(yàn)證模型的廣泛性,并作為進(jìn)一步優(yōu)化模型的反饋[26]。影像組學(xué)已廣泛應(yīng)用于疾病的診斷、預(yù)后、生物學(xué)行為判斷等。Liu等[27]根據(jù)MR圖像提取的放射組學(xué)特征預(yù)測晚期直腸癌新輔助放化療療效,驗(yàn)證組的AUC達(dá)到0.98。Park等[28]基于術(shù)前 MRI圖像開發(fā)影像組學(xué)模型,評(píng)估浸潤性乳腺癌患者的無病生存期,在訓(xùn)練組和驗(yàn)證組中較高的影像組學(xué)評(píng)分與較差的 DFS顯著相關(guān)。以上研究結(jié)果提示影像組學(xué)是鑒別乳腺病變和判斷生物學(xué)行為的重要方法。
本研究基于超聲圖像,提取5234項(xiàng)影像組學(xué)特征,采用Spearman相關(guān)系數(shù)以0.95為閾值去除高相關(guān)性特征,經(jīng)統(tǒng)計(jì)檢驗(yàn)聯(lián)合隨機(jī)森林以1.25倍重要性均值為閾值的方法,選擇27項(xiàng)特征用于預(yù)測模型構(gòu)建。通過決策樹機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測模型。訓(xùn)練組和驗(yàn)證組預(yù)測模型AUC分別為0.90和0.73,且影像組學(xué)評(píng)分在不同臨床病理參數(shù)亞組分析中同樣具有良好的診斷效能,提示基于超聲圖像的影像組學(xué)特征術(shù)前預(yù)測DCIS-MI具有一定的價(jià)值。
本研究的局限性:①樣本量較少,且是單中心研究;②ROI的手工勾畫主觀性較強(qiáng);③本研究僅對(duì)病灶的最大層面進(jìn)行研究,未對(duì)病灶整體進(jìn)行研究。
總之,本研究基于超聲圖像的影像組學(xué)特征,構(gòu)建術(shù)前 DCIS-MI的預(yù)測分類模型,經(jīng)驗(yàn)證組驗(yàn)證具有良好的預(yù)測效能,可在一定程度上術(shù)前輔助診斷DCIS-MI,為臨床快速有效決策提供依據(jù)。