付其林,鄧安生,曲衍鵬
(大連海事大學 信息科學技術學院,遼寧 大連 116026)
乳腺癌是影響女性健康的常見疾病之一.根據(jù)世界衛(wèi)生組織國際癌癥研究所的統(tǒng)計,世界上每年有100多萬婦女死于乳腺癌,2016年乳腺癌的發(fā)病率增加了13.6%[1].其早期的診斷主要靠專家通過乳腺X光圖像[2]進行篩查.然而,即使是專業(yè)的放射科醫(yī)生有時也無法發(fā)現(xiàn)乳腺X光圖像異常.而且在醫(yī)學調(diào)查后發(fā)現(xiàn),有時醫(yī)生診斷出的異常通常是良性的.因此,通過CAD系統(tǒng)輔助醫(yī)生進行乳腺癌判別受到了很大關注.
在CAD處理過程中,圖像處理對于提取高質(zhì)量特征以獲得準確的診斷結果起著至關重要的作用.一般來說,乳腺癌診斷的圖像處理過程包括以下三個步驟:感興趣區(qū)域(ROI)提取、圖像增強和特征提取.乳腺X光圖像通常包含標簽和偽影.噪聲、血管組織和腺體組織也可能影響異常區(qū)域的搜索,導致分類精度差.因此,特征提取通常不適合用于整個乳腺X光圖像,而是適合于特定的區(qū)域,如ROI[3].為了提取ROI,通常先對圖像進行去噪處理.在文獻[4]中,為了避免某些區(qū)域微觀結構所造成的影響,使用中值濾波器對乳腺區(qū)域進行平滑處理.然后利用灰度信息結合模糊C均值聚類方法將像素分為脂肪組織和致密組織兩類.在文獻[5]中作者使用了質(zhì)心法和最大內(nèi)接圓提取ROI區(qū)域.
圖像增強的目的是提高目標特征的可識別性和圖像質(zhì)量,以滿足特定應用場景的分析需求[6].常用的圖像增強方法主要有以下幾種:1)直方圖均衡化[7];2)中值濾波[8];3)小波變換[9].在增強ROI之后,會提取特征進行進一步分析.一般將特征提取方法分為以下四類:1)統(tǒng)計方法:如灰度共生矩陣(GLCM)[10];2)幾何方法:如棋盤格特征法[11]和結構方法[12];3)模型方法:典型的方法有馬爾可夫隨機場模型方法[13]和吉布斯隨機場模型方法[14];4)信號處理方法:利用線性變換或濾波將紋理轉換到變換域,然后應用某種準則提取特征[15].
傳統(tǒng)的醫(yī)學圖像增強方法通常是完整地處理從原始圖像中提取的ROI.然而在ROI中,并不是所有的信息都與決策相關.在整個ROI中由于不相關或無用信息的增強與突出,可能會產(chǎn)生很多不相關的特征數(shù)據(jù).這會影響后續(xù)的特征選擇和診斷決策等數(shù)據(jù)分析工作.
為了解決這些問題,本文基于信息熵對ROI圖像局部增強(IR)策略進行研究,分層次地提高乳腺圖像特征的質(zhì)量.具體來說,本文首先采用文獻[16]中的方法獲得乳腺癌圖像的ROI.然后使用滑動窗口算法[17]對得到的ROI進行分割.通過圖像信息熵的值來評估每個窗口塊的重要性[18].因為圖像信息熵表明對象和給定特征集的標簽之間存在正依賴關系,所以最高熵值的窗口更能決定圖像標簽,更適合表示整個ROI.此外,還采用脈沖耦合神經(jīng)網(wǎng)絡(PCNN)方法[19]對信息熵最高的窗口塊進行增強.為了進一步保證特征的質(zhì)量,不同閾值的PCNN將反復增強優(yōu)勝窗口塊,創(chuàng)建一個圖像增強結果池.對于乳腺X光圖像,將候選增強塊嵌入原始ROI后,使用熵權法對各自提取的特征進行對比,計算的最大值的一組特征將表示這幅圖像.最后將基于該策略(IR)提取的特征與原始圖像特征、全局增強圖像特征和隨機選擇窗口的局部增強圖像特征的乳腺癌診斷結果進行比較.本文使用的分類器包括JRip[20],PART[21],AdaBoostM1[22],RandomForest(RF)[23].實驗結果表明,在分類精度和AUC指標[25]方面,基于本文所提方法所獲得特征的診斷結果明顯優(yōu)于其他特征來源的評估結果.為了驗證所提方法的適用性,本文還根據(jù)不同滑動窗口結構的IR所獲得的特征,給出了計算結果.
本節(jié)介紹了圖像信息熵的概念,并將其作為本文的指標.同時回顧了本文中使用的特征提取、圖像增強方法.
圖像信息熵是一種特征的統(tǒng)計形式,它反映了圖像中平均信息量的多少[18].圖像的一維熵表示圖像中灰度分布的聚集特征所包含信息量,令Pi表示圖像中灰度值為i的像素所占的比例,則定義灰度圖像的一元灰度熵為:
(1)
圖像的一維熵可以表示圖像灰度分布的聚集特征,卻不能反映圖像灰度分布的空間特征,為了表征這種空間特征,可以在一維熵的基礎上引入能夠反映灰度分布空間特征的特征量來組成圖像的二維熵.選擇圖像的鄰域灰度均值作為灰度分布的空間特征量,與圖像的像素灰度組成特征二元組,記為(i,j),其中i表示像素灰度值,j表示鄰域灰度均值:
Pij=f(i,j)/N2
(2)
上式反應了某像素位置上灰度值與其周圍像素灰度分布的綜合特征,其中f(i,j)為特征二元組(i,j)出現(xiàn)頻數(shù),N為圖像尺度.則定義離散圖像二維熵為:
(3)
構造的圖像二維熵可以在圖像所包含信息量的前提下,突出反映圖像中像素位置的灰度信息和像素鄰域內(nèi)灰度分布的綜合特征.
熵權法就是根據(jù)信息熵的定義,對于某項指標,可以用熵值來判斷某個指標的離散程度,其熵值越小,指標的離散程度越大,該指標對綜合評價的影響(即權重)就越大,如果某項指標的值全部相等,則該指標在綜合評價中不起作用.最后通過計算每個樣本特征的熵權值來選擇最佳特征.
對于給定的特征集,具有較高圖像信息熵的對象與決策更為相關.因此在這種情況下,利用圖像信息熵作為度量工具,在所提出的策略中選擇最佳的ROI局部信息,并利用熵權法計算得到每個乳腺圖像的最佳特征進行融合.
本文使用的特征提取方法是灰度共生矩陣(GLCM).GLCM是通過研究灰度空間相關性特征來描述紋理的一種常用方法[10].在文獻[10]中,提出了如何使用GLCM描述紋理特征.GLCM方法是通過計算灰度圖像來獲得共生矩陣.然后通過計算GLCM得到矩陣的一些特征值,分別表示圖像的一些紋理特征.GLCM 可以反映圖像灰度在方向、相鄰區(qū)間、變化幅度等方面的綜合信息,它是分析圖像局部模式及其排列規(guī)律的基礎.本文突出顯示了基于GLCM提取的如對比度、紋理熵、相關性、方差等紋理特征.
脈沖耦合神經(jīng)網(wǎng)絡(PCNN)是一種迭代圖像增強模型,它模擬了哺乳動物視覺皮層神經(jīng)元對視覺信號的響應.PCNN方法可以提高圖像的亮度,增強圖像的邊緣,使紋理細節(jié)更加突出[19].因此,采用PCNN對乳腺圖像進行處理,使其紋理更清晰且更容易識別.PCNN的框架可以看作是一個單層的二維神經(jīng)網(wǎng)絡,其中每個神經(jīng)元對應于輸入圖像的每個像素.圖1顯示了一個PCNN神經(jīng)元模型,其中包括一個接受域、一個非線性調(diào)制域和一個脈沖發(fā)生器.各部分的功能介紹如下.
圖1 PCNN神經(jīng)元模型Fig.1 PCNN neuron model
對于圖像中坐標為(i,j)的像素,接受域的輸入由反饋輸入Fij和線性連接輸入Lij組成,定義如下:
Fij[n]=Sij[n]
(4)
Lij[n]=e-αLLij[n-1]+VL∑WijklYkl[n-1]
(5)
其中Fij作為外部輸入信號,等于該像素灰度Sij.Lij是鄰域神經(jīng)元的連接輸入,它通過Ykl和Wijkl加權和得到.Ykl初始化為0,是相鄰神經(jīng)元的輸出.對于PCNN,將每個神經(jīng)元的輸出作為相鄰神經(jīng)元的輸入.Wijkl是內(nèi)部連接矩陣,存儲相鄰神經(jīng)元連接的加權系數(shù).n是脈沖點火迭代次數(shù).αL是Lij的衰減常數(shù).VL是連接輸入的內(nèi)在電勢.
Uij作為調(diào)制域的輸出,是由Fij和Lij兩個輸入通道通過調(diào)制信號形成的內(nèi)部活動項.它的定義如下.
Uij[n]=Fij[n](1+βLij[n])
(6)
其中β為連接強度系數(shù).
在脈沖發(fā)生器中,將Uij與動態(tài)閾值Eij進行比較,生成輸出脈沖Yij.當神經(jīng)元動態(tài)閾值Eij超過內(nèi)部活動項Uij時, 脈沖發(fā)生器關閉,脈沖停止.然后,閾值開始呈指數(shù)遞減.當動態(tài)閾值低于Uij時,脈沖發(fā)生器再次打開,神經(jīng)元被觸發(fā)或激活,脈沖序列按如下方式輸出.
Eij[n]=e-aEEij[n-1]+VEYij[n-1]
(7)
(8)
其中VE是振幅常數(shù).αE是動態(tài)閾值Eij的時間衰減常數(shù).它可以確定處理所有像素的循環(huán)中的迭代次數(shù).Yij是PCNN脈沖輸出函數(shù).
利用脈沖發(fā)生器的輸出,公式(9)提高了每個像素的灰度值.
(9)
基于上述方法,本文提出了一種基于信息熵的圖像局部增強策略(IR)用于乳腺X光圖像風險評估.圖2說明了提議方案的流程圖.該策略包括三個步驟:
1)圖像預處理和ROI提取.
2)ROI分割和局部評估.
3)ROI局部增強和特征融合.
圖2 提出方法的體系結構Fig.2 Architecture of the proposed approach
本節(jié)對乳腺圖像進行預處理,提取乳腺組織區(qū)域以供進一步分析.首先去除胸肌和其他偽影,如定位標簽和膠帶.由于大多數(shù)致密組織和實質(zhì)形態(tài)位于乳腺纖維腺盤區(qū),因此將從這些區(qū)域提取特征.根據(jù)組織密度的乳腺癌診斷標準,無論組織的密度級別如何,纖維腺區(qū)以外的區(qū)域都含有脂肪組織,因此在纖維腺體區(qū)域之外提取的特征并不能為組織密度分類提供有力證據(jù).本節(jié)從每張乳腺X光圖像中提取大小為256×256像素的纖維腺盤區(qū)域.如圖3所示,在提取纖維腺盤區(qū)域時,將乳腺邊界的最長垂直距離(通常是和乳頭區(qū)域的垂直距離)和乳腺邊界的平行距離線的交點作為ROI區(qū)域的中心點.基于這個中心點,提取大小為256×256像素的樣本纖維腺盤區(qū)域作為ROI[16].
圖3 從乳腺X光攝影圖像中提取ROIFig.3 Extracting ROI from mammography images
在該策略中,采用滑動窗口算法分割ROI區(qū)域來獲取初始提取的ROI的局部信息.為了使實驗更加全面和可信,將滑動窗口的大小分別指定為160×160,176×176,192×192,208×208,224×224像素.同時為了評估每個窗口塊在ROI中的重要性,我們將選擇具有最高圖像信息熵的窗口塊,以獲得進一步的增強.
具體來說,該策略在對每幅乳腺圖像的ROI進行局部分割后,選擇熵值最大的塊區(qū)域進行增強.為了保證圖像增強過程的質(zhì)量,本文通過PCNN多輪策略進一步改進優(yōu)勝塊,創(chuàng)建一個圖像增強結果池.對于乳腺X光圖像,本文將候選增強塊嵌入原始ROI后,使用熵權法對各自提取的特征進行對比,將計算結果值最大的一組特征表示這幅圖像.
如前所述,αE應盡可能取合適的值,以確保Eij能夠衰減的足夠慢,以便通過不同的點火時間來區(qū)分相鄰的灰度值.因此,PCNN將所選窗口塊上的圖像增強進程實現(xiàn)為一個多輪策略,根據(jù)每個策略閾值αE的不同,從而創(chuàng)建一個圖像增強結果池.在此過程中,表示每張乳腺X光照片的候選特征集數(shù)量與PCNN算法中αE不同值個數(shù)相同.如圖4所示,所有候選增強窗口都將嵌入到原始ROI中,由GLCM生成特征,以供進一步評估.
圖4 ROI局部增強Fig.4 ROI Local enhancement
本文所提策略利用熵權法對局部改進ROI提取的候選特征進行評估.另外在評估窗口塊的過程中,其余圖像是用從整個原始ROI中提取的特征來表示.最后通過不同輪的圖像增強處理,可以得到每幅乳腺圖像的優(yōu)勝特征集.這些特征集的融合將作為最終的乳腺圖像數(shù)據(jù)集.
在接下來的實驗中,對比研究將使用IR策略的兩種變體:全局增強ROI(GR)方法和隨機局部增強ROI(RR)方法.具體來說,GR方法是指在所提出的策略的圖像增強過程中增強整體ROI的方法.當IR策略隨機選擇窗口塊進行進一步增強時,稱為RR方法.這兩種方法的應用將證明IR方法的有效性和優(yōu)越性.
本文使用的實驗數(shù)據(jù)來源于乳腺圖像分析學會(MIAS)數(shù)據(jù)庫中提取的圖像,包括161名女性(322例)的左右側位斜位(MLO)乳腺X光照片.并基于BI-RADS[24]設置乳腺X光圖像風險評估指標.
本文通過使用混淆矩陣,分類精度和AUC的統(tǒng)計檢驗,將基于該策略(IR)提取特征的風險評估結果與基于原始ROI方法、GR方法和RR方法的評估結果進行比較.此外,本文還討論了該策略在不同滑動窗口尺寸下的性能.表1介紹了本文實現(xiàn)方法的配置參數(shù).
表1 基于信息熵的局部增強策略配置
Table 1 Configuration of local enhancement
strategy based on information entropy
方 法 參 數(shù) 脈沖耦合神經(jīng)網(wǎng)絡1.衰減常數(shù) αL= 0.069312.固有電勢 VL= 1.003.連接強度系數(shù) β = 0.24.振幅常數(shù) VE = 2005.時間衰減常數(shù) αE = 0.0016.更新的輪數(shù) n=100灰度共生矩陣1.距離 d= 12.方向角度 0°,45°,90°,135°特征融合1.Pij=f(i,j)/N22.二維熵 H=-∑255i=0∑255j=0PijlogPij
本節(jié)采用混淆矩陣,分類精度t檢驗和AUC指標進行乳腺X光圖像風險評估.
4.1.1 混淆矩陣
基于原始、RR、GR和IR數(shù)據(jù)集特征的BI-RADS度量混淆矩陣結果在表2中進行描述.并采用100棵樹的RF方法實現(xiàn)分類任務.滑動窗口的大小設置為160×160像素.
本文所提的IR策略目的是為了減少類混淆,例如減少表2中II類和III類之間的混淆.因為II類和III類構成了BI-RADS主體,所以減少類混淆是具有現(xiàn)實意義的.如表2所示,原始數(shù)據(jù)集在區(qū)分II類和III類方面表現(xiàn)得很差.例如,通過RF方法,19個II類成員錯誤地分為III類,11個III類成員錯誤地分為II類.雖然通過RR和GR改進了RF的分類結果,但是IR的性能仍然優(yōu)于其他所有方法.第II類和第III類中很少有樣本錯誤地分為另一類.可以看出IR策略顯著提高了分類能力.實驗表明,與原始數(shù)據(jù)集和傳統(tǒng)的圖像增強策略GR相比,IR策略能夠取得更好的風險評估結果.此外,使用信息熵來評估窗口塊比隨機選擇窗口塊效果更好.
表2 BI-RADS的混淆矩陣和分類精度
Table 2 BI-RADS confusion matrix and classification accuracy
Original(69.25%)ⅠⅡⅢⅣⅠ371840Ⅱ1354190Ⅲ01112012Ⅳ022012RR(82.91%)ⅠⅡⅢⅣⅠ481001Ⅱ07727Ⅲ471275Ⅳ111715GR(90.06%)ⅠⅡⅢⅣⅠ53240Ⅱ27590Ⅲ041363Ⅳ01726IR(90.99%)ⅠⅡⅢⅣⅠ52115Ⅱ08123Ⅲ341342Ⅳ43126
4.1.2 分類精確度的統(tǒng)計檢驗
本文采用顯著性水平為0.05的t檢驗,通過前面介紹的4種分類方法,對得到的分類準確率進行統(tǒng)計分析.這樣做是為了確保結果不具有偶然性.t檢驗的結果用三個標簽進行注釋:更好(v)、等效()或更差(*).這些通過統(tǒng)計得到的顯著性結果在每個表的右欄進行匯總.
從表3所示的結果可以得出結論,提出的IR策略在統(tǒng)計上優(yōu)于其他方法.這表明,IR策略確實以一種有效和卓越的方式提高了乳腺X光圖像風險評估的特征質(zhì)量.
表3 分類精度的t檢驗
Table 3 T test for classification accuracy
數(shù)據(jù)集AdaboostM1JRipPARTRFSummaryIR90.4488.2789.6791.84(v/ /?)RR80.39?79.68?77.48?82.16?(0/0/4)GR88.40?86.28?86.72?89.60?(0/0/4)Original61.12?65.90?64.87?67.19?(0/0/4)
4.1.3 AUC的統(tǒng)計檢驗
在數(shù)據(jù)不平衡的情況下,分類準確率通常不能提供一個全面的效果評估,而受試者工作特征曲線(ROC)提供了一種附加的評價方法[25].ROC曲線有助于評價分類器的性能.利用曲線下面積(AUC)度量可以分析和評價學習算法的預測能力.AUC是統(tǒng)計上一致的度量.與使用分類精度相比,它更具鑒別性.因此,可以把AUC作為整體分類準確率的標準.在本節(jié)中,比較了分類器上不同數(shù)據(jù)集在AUC值上的分類精度.AUC的結果如表4所示.AUC值越高,性能越好.可以看出表中出現(xiàn)的“*”的數(shù)量遠遠大于出現(xiàn)“v”的數(shù)量.這也反映了IR方法的良好性能.
在本節(jié)中,我們使用不同的滑動窗口大小來驗證所提方法的優(yōu)越性.本文將步長設置為16像素,使用大小分別為160×160,176×176,192×192,208×208,224×224像素的滑動窗口得到5個局部增強數(shù)據(jù)集.同時本文使用100棵樹的RF分類器對所有數(shù)據(jù)集進行評估.
表4 AUC的t檢驗
Table 4 T test for AUC
數(shù)據(jù)集AdaboostM1JRipPARTRFSummaryIR0.980.930.930.98(v/ /?)RR0.94?0.89?0.90?0.96?(0/0/4)GR0.980.92?0.95v0.97?(1/1/2)Original0.85?0.85?0.81?0.90?(0/0/4)
從圖5中可以看出,與原始乳腺癌數(shù)據(jù)集相比,增強圖像得到的特征數(shù)據(jù)集分類準確率更高.而且在大多數(shù)情況下,采用不同滑動窗口大小的IR方法得到的數(shù)據(jù)集優(yōu)于GR和RR策略得到的數(shù)據(jù)集.此外在某些情況下,我們還可以看出滑動窗口的大小會對最終特征集的質(zhì)量產(chǎn)生顯著影響.
圖5 對BI-RADS使用不同滑動窗口大小的分類精度Fig.5 Classification accuracy for different slidingwindow sizes for BI-RADS
總的來說,我們通過實驗可以看出,與原始方法、RR方法和GR方法相比,IR策略的分類精度得到較大提高.通過采用不同的分類器對統(tǒng)計中的分類精度和AUC指標進行比較,進一步證明了IR策略的優(yōu)越性.而且隨著滑動窗口大小的不同,IR數(shù)據(jù)集也取得了一致較好的效果.從實驗結果中我們可以得到利用圖像信息熵選擇醫(yī)學圖像處理任務的重要部分是可行的,局部評估得到的信息比全局評估得到的信息更具代表性.
本文提出了一種基于信息熵的圖像局部增強策略(IR),用于分層次地提高乳腺圖像特征的質(zhì)量.因為具有較高熵的樣本更能決定決策標簽,所以該方法根據(jù)窗口塊的圖像信息熵最大值對ROI進行局部分割和增強.最終的特征數(shù)據(jù)集是融合多輪圖像增強池中具有最佳熵權法值的特征而生成的.今后的工作將采用其他特征提取和圖像增強方法,來得到質(zhì)量更高、更具代表性的特征數(shù)據(jù).