申楠,邢素霞,何湘萍,潘子妍,王瑜
1.北京工商大學(xué)人工智能學(xué)院,北京100048;2.北京海淀婦幼保健院乳腺病防治中心,北京100080
乳腺癌作為一種具有高發(fā)病率和死亡率的惡性腫瘤,已成為威脅全球女性健康甚至生命的主要?dú)⑹?。乳腺癌的早期病癥在乳腺鉬靶圖像中主要表現(xiàn)為微鈣化點(diǎn)。乳腺鉬靶圖像中存在較多的乳腺纖維組織,其在圖像中表現(xiàn)為高亮區(qū)域,而微鈣化區(qū)域在圖像中表現(xiàn)為細(xì)小的高亮區(qū)域,因此乳腺纖維組織和微鈣化區(qū)域在亮度即灰度值上易混淆,增大了乳腺鉬靶圖像微鈣化區(qū)域的檢測(cè)難度。為此,很多研究在微鈣化區(qū)域檢測(cè)上做出了很多有意義的探索,如彭慶濤等[1]提出基于小波分析和灰度紋理特征相結(jié)合的微鈣化區(qū)域提取方法,微鈣化點(diǎn)檢出率為85%;商小寶[2]提出一種基于旋轉(zhuǎn)不變局部二值模式的早期乳腺鈣化點(diǎn)檢測(cè)方法,真陽性率為95.6%,假陽性率為5.6%;王科舉[3]利用周圍區(qū)域矩陣反映射乳腺微鈣化區(qū)域特征,并結(jié)合隨機(jī)森林分類器,特異性達(dá)到88%,曲線下面積達(dá)到0.922 4;Karale 等[4]提取乳腺微鈣化區(qū)域的密度特征、形狀特征、不變矩、Haralick 特征、基于方向梯度直方圖的特征,每幅圖像的平均誤報(bào)率為2.59%,并能達(dá)到100%的靈敏度;Suhail等[5]利用改進(jìn)的Fisher 線性判別方法對(duì)微鈣化區(qū)域進(jìn)行線性變換,平均準(zhǔn)確率達(dá)96%。這些研究均為微鈣化點(diǎn)的計(jì)算機(jī)輔助診斷的臨床應(yīng)用做出了貢獻(xiàn)。
為進(jìn)一步提高微鈣化區(qū)域的檢測(cè)準(zhǔn)確率,降低檢測(cè)假陽性率,本研究提出一種基于Adaboost-決策樹(Adaboost-Decision Tree,AB-DT)的乳腺微鈣化區(qū)域真假陽性檢測(cè)方法,并采用10 折交叉驗(yàn)證確定AB-DT模型的性能。
乳腺鉬靶圖像為灰度圖像,鈣化點(diǎn)的形態(tài)各異,有管狀、圓形、爆米花狀、輪圈狀、桿狀、球狀、點(diǎn)狀和發(fā)育不良型[6](圖1)。而乳腺組織區(qū)域中微鈣化點(diǎn)區(qū)域相對(duì)正常區(qū)域在紋理、灰度方面差異明顯[7],因此可提取感興趣區(qū)域(Region of Interest,ROI)的紋理和灰度特征作為分類器的輸入特征。本研究提取ROI的Haralick 紋理特征和灰度游程矩陣特征建立特征集。
圖1 鈣化點(diǎn)類型Fig.1 Types of calcifications
Haralick 等[8]于1973年提出基于灰度共生矩陣的紋理特征統(tǒng)計(jì)方法?;叶裙采仃嚪从沉藞D像灰度分布關(guān)于方向、局部鄰域和變化幅度的綜合信息,由于灰度共生矩陣的數(shù)據(jù)量較大,一般不直接作為區(qū)分紋理的特征,而是把基于它構(gòu)建的一些統(tǒng)計(jì)量作為紋理分類特征。為簡(jiǎn)化特征提取的計(jì)算過程,僅對(duì)ROI內(nèi)每個(gè)像素與其8 鄰域所組成的像素對(duì)進(jìn)行統(tǒng)計(jì),對(duì)應(yīng)距離d= 1,且不考慮方向角度。
利用灰度共生矩陣提取19 個(gè)特征參數(shù),分別是[9]:能量、熵、對(duì)比度、相異性、相關(guān)性、自相關(guān)系數(shù)、突出聚類、陰暗聚類、差熵、差方差、同質(zhì)性、相關(guān)信息度1、相關(guān)信息度2、逆差距、最大概率、和平均、和熵、和方差以及平方和,定義如表1所示,表2為所用到的變量定義。
表2 Haralick紋理特征的變量描述Tab.2 Variable description of Haralick texture features
灰度游程矩陣統(tǒng)計(jì)圖像中某個(gè)方向上同灰度值g連續(xù)的像素長(zhǎng)度l的出現(xiàn)頻率,是一個(gè)二維統(tǒng)計(jì)矩陣[10]。設(shè)一個(gè)M×N大小圖像的統(tǒng)計(jì)矩陣為p(i,j|θ),即在θ方向構(gòu)建的游程矩陣在(i,j)坐標(biāo)下的位置,Ng為最大像素值,Nr為不同的像素沿方向θ的行走距離[11]?;诨叶扔纬叹仃嚳梢杂?jì)算7 個(gè)紋理特征參數(shù)[12]:短游程優(yōu)勢(shì)、長(zhǎng)游程優(yōu)勢(shì)、長(zhǎng)游程不均勻性、游程百分比、灰度不均勻性、低灰度級(jí)游程優(yōu)勢(shì)和高灰度級(jí)游程優(yōu)勢(shì),詳見表3。
表3 基于灰度游程矩陣的特征定義Tab.3 Feature definition based on grey-level run length matrix
Schapire 等[13]對(duì)Boosting 算法進(jìn)行改進(jìn)得到Adaboost算法。Adaboost算法運(yùn)用迭代的思想,在使用樣本訓(xùn)練集的過程中,挑選其中的關(guān)鍵分類特征,增加前一輪被錯(cuò)誤分類的樣本的權(quán)重,減小被正確分類的樣本的權(quán)重,重復(fù)多次,逐步訓(xùn)練各弱分類器,并采用加權(quán)多數(shù)表決的方法調(diào)整各弱分類器的權(quán)重,最終篩選出權(quán)重系數(shù)最小的弱分類器構(gòu)造成一個(gè)強(qiáng)分類器。
Adaboost 算法具有很強(qiáng)的適應(yīng)性和靈活性。弱分類器可以與大多數(shù)的分類器兼容,如決策樹、支持向量機(jī)、樸素貝葉斯以及K 最近鄰等算法,可根據(jù)實(shí)際應(yīng)用組合分類器,以獲得最佳的分類識(shí)別效果[14]。
決策樹是一種重要的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法[15]。由于決策樹算法易于理解和實(shí)現(xiàn),對(duì)噪聲數(shù)據(jù)具有良好的魯棒性,與此同時(shí)具有很好的預(yù)測(cè)性能,因此被廣泛用于各種實(shí)際領(lǐng)域。決策樹是一種分類樹結(jié)構(gòu)的預(yù)測(cè)模型,描述了對(duì)象屬性與對(duì)象值之間映射屬性關(guān)系。學(xué)習(xí)時(shí),根據(jù)最小化損失函數(shù)的原則,利用訓(xùn)練集數(shù)據(jù)建立決策樹模型;預(yù)測(cè)時(shí),利用決策樹模型對(duì)新的數(shù)據(jù)進(jìn)行分類。其中,單層決策樹(也稱決策樹樁)是一種較為典型的簡(jiǎn)單決策樹,只基于單個(gè)特征來做決策,僅有一次分裂的過程[16],因此處理數(shù)據(jù)非常迅速、簡(jiǎn)單易行、實(shí)時(shí)性好,十分適合作為弱分類器。
DDSM (Digital Database for Screening Mammography)是由南佛羅里達(dá)大學(xué)于1999年提供數(shù)字化乳腺圖像庫,該數(shù)據(jù)庫是一個(gè)高分辨率的乳腺鉬靶圖像標(biāo)準(zhǔn)數(shù)據(jù)庫,含2 620 個(gè)病例[17]。每個(gè)病例包含右側(cè)頭尾位、左側(cè)頭尾位、右側(cè)側(cè)斜位、左側(cè)側(cè)斜位這4個(gè)視圖的圖像(圖2)。每個(gè)視圖的標(biāo)注文件包含醫(yī)師手動(dòng)標(biāo)注的病灶區(qū)域、病灶類型、病灶等級(jí)等相關(guān)信息。
圖2 DDSM圖像Fig.2 Images from digital database for screening mammography
將來自DDSM 的圖像轉(zhuǎn)換格式后,從中手動(dòng)截取400 幅128×128 像素的ROI,其中200 幅為醫(yī)生標(biāo)注的鈣化區(qū)域圖像,另外200 幅為疑似鈣化區(qū)域圖像。如圖3所示,圖3a 為乳腺鉬靶的原始圖像,圖3b為用OVERLAY 文件生成的金標(biāo)準(zhǔn)圖像,圖3c 和圖3d 分別為從乳腺鉬靶圖像中截取的疑似鈣化區(qū)域和微鈣化區(qū)域圖像。
圖3 乳腺鉬靶圖像、對(duì)應(yīng)的金標(biāo)準(zhǔn)圖像及其所含的疑似鈣化區(qū)域和微鈣化區(qū)域放大圖Fig.3 Mammography,the corresponding gold standard image and the enlarged images of suspected calcification region and microcalcification region
乳腺微鈣化區(qū)域檢測(cè)方法流程如圖4所示。提取圖像的Haralick 紋理特征及灰度游程矩陣特征,26維特征組成特征集來量化乳腺的微鈣化區(qū)域。決策樹作為弱分類器,通過Adaboost 集成算法生成強(qiáng)分類器AB-DT。
圖4 乳腺微鈣化區(qū)域檢測(cè)方法流程圖Fig.4 Flowchart of breast microcalcifications detection
在AB-DT 算法中,決策樹的數(shù)量k影響著分類器的性能,當(dāng)k值較小時(shí),AB-DT 算法的分類誤差較大,算法分類性能差;而AB-DT 算法的復(fù)雜性與k值成正比,k值越大,算法的復(fù)雜度越高,運(yùn)行時(shí)間也越長(zhǎng)。在400幅ROI圖像中,隨機(jī)選取80%的ROI圖像作為訓(xùn)練集,剩余的20% 作為測(cè)試集。通過MATLAB 中的集成學(xué)習(xí)工具箱,搭建AB-DT 模型。設(shè)置決策樹的數(shù)量為500,繪制決策樹的數(shù)量與分類錯(cuò)誤率的關(guān)系曲線,如圖5所示。橫坐標(biāo)表示決策樹的數(shù)量,縱坐標(biāo)表示分類錯(cuò)誤率。
由圖5可知,當(dāng)k≥484 時(shí),分類錯(cuò)誤率趨于穩(wěn)定,圖像存在多個(gè)分類錯(cuò)誤率最低點(diǎn),綜合分類準(zhǔn)確率和運(yùn)算復(fù)雜度,決策樹的數(shù)量k應(yīng)設(shè)置為462(即第一個(gè)分類錯(cuò)誤率最低點(diǎn)的橫坐標(biāo))。
圖5 決策樹數(shù)量與分類錯(cuò)誤率的關(guān)系曲線Fig.5 Relationship between the number of decision trees and classification error rate
為驗(yàn)證和量化此分類算法的效果,采用準(zhǔn)確率(Accuracy)、敏感性(Sensitivity)、特異性(Specificity)、陽性預(yù)測(cè)值(Positive Predictive Value,PPV)、陰性預(yù)測(cè)值(Negative Predictive Value, NPV)及F1分?jǐn)?shù)(F1-score)對(duì)訓(xùn)練的模型進(jìn)行評(píng)價(jià),其定義如下所示。
設(shè)陽性代表微鈣化區(qū)域,陰性表示非鈣化區(qū)域。式中,TP(True Positive,真陽性)表示測(cè)試集中被正確分類的微鈣化區(qū)域樣本個(gè)數(shù);FP(False Positive,假陽性)表示測(cè)試集中被錯(cuò)誤分類的微鈣化區(qū)域樣本個(gè)數(shù);TN(True Negative,真陰性)表示測(cè)試集中被正確分類的正常組織樣本個(gè)數(shù);FN(False Negative,假陰性)表示測(cè)試集中被錯(cuò)誤預(yù)測(cè)的正常組織樣本個(gè)數(shù)。
采用10折交叉驗(yàn)證來驗(yàn)證所使用的AB-DT模型的性能,將樣本集中所有的樣本數(shù)據(jù)隨機(jī)分成10組,選擇其中9組數(shù)據(jù)作為訓(xùn)練樣本,訓(xùn)練出分類模型,最后1組樣本數(shù)據(jù)作為測(cè)試數(shù)據(jù),驗(yàn)證訓(xùn)練的模型的準(zhǔn)確率。
將決策樹的數(shù)量設(shè)置為462,測(cè)試結(jié)果顯示模型分類準(zhǔn)確率為91.75%,敏感性為91.75%,特異性為91.79%,陽性預(yù)測(cè)值為92.35%,陰性預(yù)測(cè)值為91.56%,F(xiàn)1分?jǐn)?shù)為0.918 7。實(shí)驗(yàn)結(jié)果表明此模型具有較強(qiáng)的學(xué)習(xí)能力和泛化能力,并且具有較高的預(yù)測(cè)精度。
為進(jìn)一步驗(yàn)證AB-DT算法的魯棒性與有效性,將本文算法與其他文獻(xiàn)中所提方法進(jìn)行性能比較。Cai等[18]提出基于卷積神經(jīng)網(wǎng)絡(luò)的乳腺鈣化區(qū)域分類算法,該算法在中山大學(xué)附屬腫瘤醫(yī)院和南方醫(yī)科大學(xué)附屬南海醫(yī)院的數(shù)據(jù)庫上取得88.59%的準(zhǔn)確率,89.32%的精準(zhǔn)率,86.89%的特異性和88.43%的敏感性;王科舉[3]提出基于周圍區(qū)域矩陣的微鈣化區(qū)域檢測(cè)算法,在MIAS數(shù)據(jù)集上得到88.84%的準(zhǔn)確率,90.00%的敏感性和88.80%的特異性;蔡雅麗等[19]利用局部二值模式和灰度共生矩陣特征進(jìn)行乳腺鈣化檢測(cè),支持向量機(jī)、隨機(jī)森林和Adaboost算法均可較好地區(qū)分正常樣本和鈣化樣本,檢測(cè)的準(zhǔn)確率分別為90.0%、81.5%、87.5%,敏感性分別為83.60%、78.40%、79.30%,特異性分別為91.10%、86.00%、87.00%;Chakravarthy等[20]提出螢火蟲算法進(jìn)行微鈣化區(qū)域的檢測(cè),在MIAS數(shù)據(jù)庫中的實(shí)驗(yàn)準(zhǔn)確率為86.75%,敏感性為90.08%,特異性為83.42%,陽性預(yù)測(cè)值為86.78%,陰性預(yù)測(cè)值為90.21%,F(xiàn)1分?jǐn)?shù)為0.874 2。比較每種算法的準(zhǔn)確率、敏感性和特異性,本文提出的AB-DT算法在微鈣化區(qū)域檢測(cè)上具有更好的準(zhǔn)確率、敏感性、特異性。
本研究針對(duì)微鈣化點(diǎn)檢查精度不高的問題,提出一種乳腺鉬靶圖像微鈣化真假陽性檢測(cè)的方法。首先提取ROI的Haralick紋理特征和灰度游程矩陣特征,然后結(jié)合Adaboost算法和決策樹算法,構(gòu)建強(qiáng)分類器ABDT對(duì)區(qū)域進(jìn)行分類,將微鈣化區(qū)域和正常組織分離開來,并通過10折交叉驗(yàn)證,驗(yàn)證了該分類方法的有效性,分類正確率高達(dá)91.75%。本研究提出的方法在輔助乳腺微鈣化點(diǎn)檢測(cè)中具有一定的臨床應(yīng)用價(jià)值。