章鳴嬛,顧雅佳,肖勤,劉文堅,張璇,陳瑛△
(1.上海杉達(dá)學(xué)院大數(shù)據(jù)分析與處理研究中心,上海 201209;2.復(fù)旦大學(xué)附屬腫瘤醫(yī)院放射診斷科,上海 200032;3.澳門城市大學(xué)人文社會科學(xué)學(xué)院,澳門 999078)
據(jù)2018年的統(tǒng)計數(shù)據(jù)顯示,全球每年有超過50萬婦女死于乳腺腫瘤,超過120萬婦女患有乳腺腫瘤[1]。據(jù)中國抗癌協(xié)會公布的統(tǒng)計數(shù)字顯示,我國乳腺腫瘤發(fā)病率以每年3%的速率遞增,己接近歐洲中等發(fā)達(dá)國家水平。
乳腺X線攝影技術(shù)是目前通過普查早期發(fā)現(xiàn)和診斷乳腺腫瘤的首選方法[2]。乳腺影像報告和數(shù)據(jù)系統(tǒng)(BI-RADS)是美國放射學(xué)會推薦采用的一種乳腺影像報告診斷標(biāo)準(zhǔn)。在最新修訂的BI-RADS分類診斷標(biāo)準(zhǔn)第五版[3]中,BI-RADS包括1~6六個類別,其中第4類(BI-RADS4)表明受檢者罹患惡性腫瘤的可能性為3%~94%。
DDSM是美國佛羅里達(dá)大學(xué)開發(fā)的應(yīng)用于乳腺腫瘤篩查的數(shù)字鉬靶X線圖像數(shù)據(jù)庫,共包含超過兩千個病例的圖像數(shù)據(jù)。每個病例包括左右兩側(cè)乳房CC及MLO兩個視角的四張圖像。
國內(nèi)外很多學(xué)者將計算機(jī)輔助檢測(CAD)應(yīng)用于對醫(yī)學(xué)圖像的研判。模式識別中的分類算法大多能適用于乳腺腫瘤圖像的識別。1999年,Penareyes等[4]將模糊系統(tǒng)和遺傳算法相結(jié)合,用于乳腺腫瘤識別。2003年,Abonyi等[5]通過構(gòu)建有監(jiān)督聚類模型對乳腺腫瘤數(shù)據(jù)集進(jìn)行分類。2008年,Lin等[6]利用粒子群算法尋找SVM最佳參數(shù)的算法,用于乳房腫塊的識別,準(zhǔn)確率較同類分類器有較大提升。2014年,Dheeba等[7]設(shè)計了基于PSO算法的小波神經(jīng)網(wǎng)絡(luò),用于識別乳腺腫瘤數(shù)據(jù)。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)因其較強(qiáng)的特征表達(dá)及信息提取能力,能實現(xiàn)特征自動提取和分類器訓(xùn)練,故在圖像分類[8]、目標(biāo)檢測[9]和圖像分割[10]領(lǐng)域均取得了顯著的成績,也廣泛應(yīng)用于乳腺腫瘤影像自動識別領(lǐng)域[11]。
本研究探索了在設(shè)計乳腺鉬靶圖像分類器過程中提取ROI的新方法。經(jīng)驗證,該方法可為醫(yī)生的臨床判斷提供輔助檢測的依據(jù),并為細(xì)分BI-RADS4和進(jìn)一步精準(zhǔn)診斷奠定基礎(chǔ)。
試驗圖像來自DDSM公開數(shù)據(jù)庫。乳腺腫瘤的X線影像表現(xiàn)主要為鈣化、腫塊陰影及結(jié)構(gòu)紊亂三類[12]。成簇微小鈣化灶是乳腺腫瘤的重要X線征象,故檢測和識別乳腺X線圖像中的鈣化灶已成為乳腺腫瘤篩查CAD系統(tǒng)的研究熱點之一[13]。在鈣化灶中,呈簇狀分布的多形性鈣化灶[14]較為常見。故將DDSM中分類為BI-RADS4且呈簇狀分布多形性鈣化的鉬靶圖像為對象,選取良性和惡性病例各20例。
DDSM的每幅圖像均包含了鉬靶原圖(以下簡稱“原圖”)和降采樣后的圖像(以下簡稱“縮略圖”)??s略圖中已用紅圈勾畫出病灶區(qū)域??s略圖分辨率較低,信息損失較多,故不可直接用于處理和分析。原圖尺寸較大,且存在大量的無效區(qū)域,故也不宜直接作為處理和分析的對象。由于原圖中并未標(biāo)注病灶區(qū)域,而縮略圖相對于原圖的縱橫比例未做任何改變,因此,可根據(jù)縮略圖上的病灶區(qū)域的坐標(biāo)位置,定位出原圖中的病灶位置。這是初步切割出的ROI。
在縮略圖上做縱、橫兩個方向的遍歷,當(dāng)遇到紅色像素點時,就記錄該點的位置坐標(biāo)。根據(jù)若干相關(guān)的像素點求得病灶區(qū)域的外切矩形,并得到該外切矩形左上角A和右下角B的坐標(biāo)。利用此二者的坐標(biāo),即可確定原圖中的病灶區(qū)域。
ROI定位過程見圖1。
圖1 ROI定位過程
MNPQ是已由醫(yī)生勾畫出的紅色病灶區(qū)域。ACBD為其外切矩形。A點坐標(biāo)計為A(XA,YA)。設(shè)病灶區(qū)域的高和寬分別為h和w,則B點坐標(biāo)可計為(XA+w,YA+h)。定位過程如下:
(1)當(dāng)檢測到某像素點的灰度值在(255,0,0)附近時,便記錄該點的位置坐標(biāo)。
(2)將其橫、縱坐標(biāo)分別寫入列表X_list和Y_list。因此,X_list中至少包括[XM,XN,XP,XQ],Y_list中至少包括[YM,YN,YP,YQ]。
(3)由幾何關(guān)系可知,A點和B點的坐標(biāo)可分別表示為A(min(X_list), min(Y_list))和B(max(X_list), max(Y_list))。
(4)由縮略圖上A、B兩點的坐標(biāo),即可在原圖上截取出對應(yīng)位置的ROI。
以某幅BI-RADS4類良性圖像為例展示截取結(jié)果。
圖2截取原圖的ROI
Fig.2The segmentation of ROI on the raw image
圖2(a)勾畫了紅圈的縮略圖,圖2(b)顯示了該病灶區(qū)的外切矩形。圖2(c)是從原圖中截取的ROI。由圖2(c)可見,雖然ROI中仍存在部分無效區(qū)域,但已較容易找到鈣化點的位置。
得到的ROI中仍存在無效區(qū)域,需進(jìn)一步處理。可逐行逐列掃描ROI,再對切分所得的子圖進(jìn)行選擇。一幅原圖可能切分出若干張含有鈣化點病灶的子圖,在醫(yī)生指導(dǎo)下挑選其中含有較明顯病灶的子圖。
圖3 逐行逐列掃描并切分ROI
起始分割點為坐標(biāo)原點(左上角),見圖3。黑框內(nèi)是第一次切分所得的子圖,藍(lán)框內(nèi)是右移64個像素后得到的子圖,黃框內(nèi)是下移64個像素后得到的子圖,依次逐行逐列掃描并切分。由于病灶多集中在圖像中央地帶,四周較少,故依次再分別從坐標(biāo)原點右移15和30個像素,從坐標(biāo)原點下移15和30個像素作為切分的起始點。據(jù)此方法路線可得到若干切分后的子圖。
分別嘗試了64×64、128×128和256×256三種尺寸。經(jīng)驗證,128×128的切分尺寸效果最佳。這是因為64×64尺寸較小,病灶所占據(jù)的比例過大,特征反而不明顯;256×256尺寸又較大,而某些ROI甚至不足256×256,無法對ROI進(jìn)行有效切分。若病灶特征過于明顯,在后續(xù)模式識別時可能會出現(xiàn)過擬合現(xiàn)象。因此,在選擇子圖時應(yīng)加入若干包含殘缺病灶的子圖,以增強(qiáng)模型的泛化性能。
批量切分所有圖像的ROI。共采集有效的學(xué)習(xí)樣本1 236幅,其中包含良性病灶的子圖608幅,包含惡性病灶的子圖628幅。
為驗證上述ROI提取算法的有效性,分別設(shè)計機(jī)器學(xué)習(xí)分類器和CNN卷積神經(jīng)網(wǎng)絡(luò)分類器,對試驗圖像加以識別。
利用機(jī)器學(xué)習(xí)分類器進(jìn)行識別前,需提取圖像的特征參數(shù)。分類性能取決于特征參數(shù)的設(shè)定。常用的參數(shù)提取方法有小波變換[15]、Gabor濾波[16]和灰度共生矩陣[17]等?;谏鲜龇椒ㄌ崛〔⑷诤希驳玫?3個參數(shù)。參數(shù)的構(gòu)成見表1。
表1 53個特征參數(shù)的構(gòu)成
使用靈敏度分析算法進(jìn)行參數(shù)篩選以降低模型的復(fù)雜度,最終獲得32個影響力較大的參數(shù)。通過靈敏度分析,可剔除靈敏度絕對值較小的參數(shù),達(dá)到優(yōu)化模型的目的。
設(shè)計支持向量機(jī)、決策樹和集成分類器并分別測試其性能。集成分類器的設(shè)計是對若干分立分類器進(jìn)行投票集成。使用軟投票方式來集成分類器。其算法原理見式1。
(1)
經(jīng)典的CNN模型有VGGNet[18]和AlexNet[19]等。AlexNet的網(wǎng)絡(luò)層數(shù)為8層,包括5層卷積和3層全連接層。激活函數(shù)ReLU后設(shè)有LRU層,用以歸一化激活函數(shù)的結(jié)果。本研究在AlexNet的基礎(chǔ)上,去除其局部響應(yīng)歸一化(LRU)層,并綜合考慮了過擬合等問題,調(diào)整了卷積層部分參數(shù)的設(shè)置,使模型性能有較大提升。其卷積層的模型結(jié)構(gòu)見表2。
兩種分類器均采用隨機(jī)抽樣方式,利用十折交叉驗證法組織樣本數(shù)據(jù)。在訓(xùn)練集和測試集中,均保證良性子圖和惡性子圖的分布接近總體分布。采用測試集的準(zhǔn)確率作為模型的評價指標(biāo)。
表3為各機(jī)器學(xué)習(xí)分類器在測試集上的準(zhǔn)確率對比。
表2 改進(jìn)后的AlexNet卷積層結(jié)構(gòu)
表3 各機(jī)器學(xué)習(xí)分類器的準(zhǔn)確率
由表3可知,集成分類器的性能最佳,其測試集上的準(zhǔn)確率可達(dá)99.3%。
本研究分別使用VGG16、VGG11和AlexNet訓(xùn)練模型,并設(shè)計了改進(jìn)后的AlexNet。圖4為各CNN在測試集上的準(zhǔn)確率對比。
圖4 各CNN的準(zhǔn)確率
VGG16為16層VGG,VGG11為11層VGG,AlexNet_v2為經(jīng)典的AlexNet。AlexNet_v1為改進(jìn)后的AlexNet。橫坐標(biāo)為測試次數(shù),有效測試次數(shù)≥75次;縱坐標(biāo)為測試集上的準(zhǔn)確率。由圖4可知,AlexNet_v1的預(yù)測效果最佳,且準(zhǔn)確率相較于其它分類器最為平穩(wěn),其平均測試準(zhǔn)確率為98.68%。
對比機(jī)器學(xué)習(xí)分類器和CNN分類器可知,兩者的最高準(zhǔn)確率接近。由于后者的計算復(fù)雜度較高,對硬件環(huán)境的要求也很高,一般要用到GPU圖像處理部件。因此,集成分類器對于識別鉬靶鈣化圖像具有更好的推廣價值。
由實驗結(jié)果可知,運(yùn)用本研究的技術(shù)路線采集樣本并進(jìn)行模式識別,可達(dá)到優(yōu)良的分類性能。若不提取圖像的ROI,直接識別整幅圖像,其測試集上的準(zhǔn)確率最高僅為52.2%。
本研究的技術(shù)路線可應(yīng)用于乳腺腫瘤大規(guī)模篩查的工作中,可提升篩查效率,減輕醫(yī)生負(fù)擔(dān)。將一幅圖像輸入系統(tǒng),系統(tǒng)能根據(jù)設(shè)定的切分起始點和切分尺寸,自動掃描圖像并輸出若干子圖。若某幅圖像的所有子圖中包含一張預(yù)測類別為惡性的子圖,即可初步判定該圖像的擁有者為惡性腫瘤患者,將提示醫(yī)生進(jìn)一步診斷確認(rèn)。
BI-RADS標(biāo)準(zhǔn)中,BI-RADS4表明受檢者罹患惡性腫瘤的可能性為3%~94%。這一概率區(qū)間太大,不利于精準(zhǔn)診斷及相應(yīng)的治療。若能基于人工智能技術(shù)對BI-RADS4類圖像的類別進(jìn)行4a、4b和4c類的自動細(xì)分,縮減其各自罹患惡性腫瘤的概率區(qū)間,則非常有利于對患者的精準(zhǔn)診斷及制定相應(yīng)的治療方案。
本研究為上述問題的預(yù)初實驗。該方法已可對BI-RADS4類的鈣化圖像進(jìn)行良、惡二分類識別。后續(xù)將采集合適的樣本,將本研究的技術(shù)路線延伸到對BI-RADS4的精細(xì)分類上。
本研究基于坐標(biāo)匹配和子圖切分技術(shù)來定位乳腺鉬靶圖像的ROI。利用該方法及后續(xù)的分類器模型可高效識別BI-RADS4的簇狀分布多形性鈣化鉬靶圖像。因此,該技術(shù)路線可應(yīng)用于乳腺腫瘤鉬靶影像鈣化灶的自動篩查,并為細(xì)分BI-RADS4奠定技術(shù)基礎(chǔ)。
致謝
感謝周智駿、潘雍昊、劉若塵和郭宗安同學(xué),承擔(dān)了本課題的部分技術(shù)實現(xiàn)工作。