殷愷銘,閆士舉,宋成利
(上海理工大學(xué)醫(yī)療器械與食品學(xué)院,上海 200093)
DOI:10.13929/j.1003-3289.201710047
每年全球有超過(guò)55萬(wàn)女性死于乳腺癌,超過(guò)110萬(wàn)女性罹患乳腺癌,且發(fā)病率呈不斷上升趨勢(shì)[1-2]。近年來(lái),計(jì)算機(jī)輔助診斷(computer assisted diagnosis,CAD)技術(shù)快速發(fā)展,其中乳腺癌風(fēng)險(xiǎn)評(píng)估模型在乳腺癌發(fā)病預(yù)測(cè)方面發(fā)揮著重要作用[3-6]?;阢f靶圖像量化特征的乳腺癌近期發(fā)病預(yù)測(cè)模型無(wú)需采用基因檢測(cè)技術(shù),對(duì)個(gè)體女性近期發(fā)病預(yù)測(cè)效果較好[7]。
圖1 改進(jìn)的LTP模式工作流程圖
圖2 鉬靶圖像經(jīng)分割、改進(jìn)LTP算子變換后圖像和VAR圖 A.原始鉬靶圖像; B.分割后圖像; C.LTPhighP,R圖像; D.LTPlowP,R圖像; E.VARhighP,R圖; F.VARlowP,R圖
基于鉬靶圖像量化特征的CAD模型廣泛采用均值、偏度、峰度等灰度統(tǒng)計(jì)特征,基于分形維數(shù)的特征[8-10],基于灰度共生、行程矩陣的紋理特征[11]或基于旋轉(zhuǎn)均勻局部二進(jìn)制(local binary pattern, LBP)模式的紋理特征[12]。既往研究[8-12]多使用圖像的整體紋理特征,而乳腺密度不均勻,且正常組織與病變組織的局部紋理特征存在較大差異,僅通過(guò)整體紋理特征不足以有效表征患者的個(gè)體圖像特性。而LBP特征雖具有灰度不變性和旋轉(zhuǎn)不變性等顯著優(yōu)點(diǎn),但對(duì)噪聲和光照條件較為敏感,可能影響預(yù)測(cè)精度。本研究基于局部三元模式(local ternary pattern, LTP),提出一種新型提取乳腺結(jié)構(gòu)紋理特征并進(jìn)行分類的方法。
1.1 實(shí)驗(yàn)圖像 收集匹茲堡大學(xué)醫(yī)學(xué)中心臨床數(shù)據(jù)庫(kù)中195名女性篩查者的390幅雙側(cè)頭尾(craniocaudal, CC)位全數(shù)字化乳腺鉬靶圖像,均采用Hologic Selenia FFDM系統(tǒng)(Hologic Inc., Bedford, MA, USA)采集。
1.2 方法 ①對(duì)CC位鉬靶圖像進(jìn)行乳腺分割;②于雙側(cè)乳腺區(qū)提取新型紋理特征和常規(guī)特征;③基于雙側(cè)乳腺不對(duì)稱特性,合并左右側(cè)乳腺紋理特征;④以主成分分析(principal component analysis, PCA)法對(duì)高維特征進(jìn)行降維,以K最近鄰(k-nearest neighbor, KNN)分類算法對(duì)新型紋理特征進(jìn)行分類,并將其與常規(guī)紋理特征的AUC值進(jìn)行對(duì)比以供優(yōu)選;⑤將新型紋理特征與常規(guī)特征融合,采用LADTree(logistic alternating decision tree)算法進(jìn)行分類,獲得乳腺癌風(fēng)險(xiǎn)預(yù)測(cè)得分(圖1)。
1.2.1 圖像分割 通過(guò)鉬靶圖像的強(qiáng)度直方圖,采用迭代閾值法檢測(cè)乳腺與背景圖像間最優(yōu)曲線,移除圖像背景區(qū)域;通過(guò)定向區(qū)域生長(zhǎng)法去除鉬靶圖像中胸肌和皮膚區(qū)域(圖2A、2B)。
1.2.2 特征提取 首先分別從左右側(cè)乳腺區(qū)域中提取圖像常規(guī)特征,包括灰度統(tǒng)計(jì)特征(標(biāo)準(zhǔn)差、均值、偏度、峰度等)、基于圖像分形維數(shù)特征和基于圖像的直方圖特征。
紋理特征是一種反映圖像中同質(zhì)現(xiàn)象的視覺(jué)特征,體現(xiàn)物體表面中具有緩慢變化或周期性變化的結(jié)構(gòu)組織排列屬性。LTP是由Tan等[13]提出的一種結(jié)構(gòu)紋理特征,該算法是對(duì)局部二值模式的改進(jìn)和范化,對(duì)噪聲具有較強(qiáng)的魯棒性,在乳腺密度均勻區(qū)相比于LBP具有更強(qiáng)的區(qū)分能力,且可均衡乳腺經(jīng)不同強(qiáng)度X線照射得到鉬靶圖像的像素值。LTP算法中提出了閾值區(qū)間,將LBP算子的鄰域中心值mc作為中心值,并引入中心值區(qū)間([mc-t,mc+t])為閾值區(qū)間。若鄰域值在閾值區(qū)間,則將該鄰域值編碼為0;若鄰域值大于中心值,則將該鄰域值編碼為1;若鄰域值比中心區(qū)間??;則將該鄰域值編碼為-1。具體流程如下:
(1)
其中G為算子鄰域的權(quán)值,閾值t由實(shí)驗(yàn)者自定義獲得,權(quán)值的編碼方式與原始LBP算子[14]相同,編碼過(guò)程見(jiàn)圖3:
采用原始3×3鄰域LBP編碼模式時(shí),在計(jì)算鄰域與中心像素差值的過(guò)程中,由于各鄰域與中心像素的距離不同,無(wú)法準(zhǔn)確反映鄰域像素點(diǎn)與中心像素點(diǎn)的位置關(guān)系。Ojala等[14]提出了圓域LBP,即以圓形鄰域代替正方形鄰域,最終得到的新算子在半徑為R的圓域內(nèi)可選P個(gè)像素點(diǎn),可極大地涵蓋鄰域像素點(diǎn)的信息,故圓域LTP算子可提高紋理特征的提取精度(公式2):
(2)
在原始LTP算子中,閾值t由實(shí)驗(yàn)者根據(jù)特定應(yīng)用領(lǐng)域圖像的特征估計(jì)獲得。針對(duì)鉬靶圖像,由于乳腺密度區(qū)域存在不規(guī)則性,且正常組織和病變組織的灰度、紋理分布存在很大差異,單一閾值無(wú)法保證適應(yīng)整幅乳腺圖像。因此,本研究提出一種自適應(yīng)閾值,以充分表征不同乳腺組織的局部紋理特征。
在鉬靶圖像的每個(gè)圓域內(nèi),通過(guò)計(jì)算中心像素與鄰域像素的離散程度來(lái)確定相應(yīng)閾值,其中離散度tm會(huì)隨著不同鄰域變化而變化,表明離散度對(duì)不同的樣本鄰域具有自適應(yīng)性。因此,將離散度作為閾值能更好地量化像素與鄰域之間的關(guān)系。具體實(shí)現(xiàn)步驟如下:
(1)計(jì)算鄰域的平均對(duì)比度:
(3)
其中Δmi為鄰域各像素與中心點(diǎn)的差值,P為鄰域點(diǎn)數(shù);
(2)通過(guò)鄰域的對(duì)比度和差值計(jì)算鄰域的波動(dòng)程度V:
(4)
(3)通過(guò)波動(dòng)程度定義離散值tm:
(5)
LTP特征對(duì)局部像素值的變化敏感,但不能反映灰度變化,即若鄰域中圖像灰度值的大小順序相同,則得到的編碼值相同,可很大程度上忽略鉬靶圖像中的灰度變化信息,而鉬靶圖像灰度變化在紋理特征中非常重要。
鉬靶圖像的紋理是空間結(jié)構(gòu)(模式)和灰度對(duì)比度(強(qiáng)度)兩者的正交,其中灰度值的變化不會(huì)改變模式,對(duì)比度代表灰度值的變化強(qiáng)度。此外,對(duì)比度具有旋轉(zhuǎn)不變性,而模式受圖像旋轉(zhuǎn)的影響。為實(shí)現(xiàn)二者的優(yōu)勢(shì)互補(bǔ),本研究提出的方法中加入了表示圖像強(qiáng)度(局部對(duì)比度)的參數(shù),即方差。通過(guò)方差和LTP算子互補(bǔ),可更好地體現(xiàn)鉬靶圖像的模式和強(qiáng)度,從而提取出更具價(jià)值的紋理特征。由于LTP算子分為L(zhǎng)TPhighP,R和LTPlowP,R,因此其對(duì)應(yīng)的局部方差強(qiáng)度也分為VARhighP,R和VARlowP,R(公式6、7)。
(6)
(7)
則鉬靶圖像的紋理特征通過(guò)LTP與VAR的聯(lián)合分布表示為:
Fh=LTPhighP,R/VARhighP,R
(8)
Fl=LTPlowP,R/VARlowP,R
(9)
再將得到的Fh和Fl特征直方圖連接,即為鉬靶圖像的紋理特征。由原始圖像經(jīng)乳腺組織分割及改進(jìn)LTP算子變換后的圖像可清晰直觀地顯示乳腺組織的紋理(圖2C、2D),VAR圖譜可反映乳腺鉬靶圖像強(qiáng)度的變化(圖2E、2F)。
1.2.3 左右側(cè)乳腺紋理特征合并及降維 乳腺病變往往始于一側(cè),因此左右側(cè)乳腺的不對(duì)稱性對(duì)預(yù)測(cè)乳腺癌具有重要意義。本研究將左右側(cè)乳腺特征值相減,再進(jìn)行特征歸一化,獲得最終紋理特征[15]。本研究對(duì)每幅鉬靶圖像進(jìn)行新型紋理特征提取,獲得199 680維數(shù)據(jù)量;如直接采用KNN分類器訓(xùn)練該數(shù)據(jù),不僅分類效率極低,且分類精度將受影響,故本研究采用PCA方法對(duì)提取出的特征進(jìn)行降維。
PCA[16]法是將原有特征通過(guò)線性投影形成新的低維數(shù),從而達(dá)到降維目的。針對(duì)本研究提取的乳腺紋理特征,該方法具有以下優(yōu)點(diǎn):①可根據(jù)數(shù)據(jù)點(diǎn)集中建立1個(gè)低維的特征子空間,反映數(shù)據(jù)點(diǎn)集相對(duì)于乳腺紋理特征的平均差異;②本研究提取的紋理特征維度過(guò)于冗長(zhǎng),包含大量無(wú)用特征,經(jīng)PCA法變換后,可保留乳腺紋理特征的主要信息,且具有很好的穩(wěn)定性;③隨著紋理特征維數(shù)降低,圖像模式之間的距離相應(yīng)縮小,避免了在高維空間上進(jìn)行分類的復(fù)雜性;④在降維過(guò)程中,PCA法可消除模式相關(guān)性,降低誤分率。
圖3 LTP算子編碼過(guò)程圖
圖4 不同紋理特征(A)及融合紋理特征(B)預(yù)測(cè)乳腺癌的ROC曲線
1.2.4 特征分類 KNN分類算法是一種有效的機(jī)器學(xué)習(xí)算法,在類別決策時(shí)僅與極少量的相鄰樣本相關(guān),而非通過(guò)判斷類域的方式來(lái)聚類,可高效、準(zhǔn)確分析類域交叉或重疊較多的樣本。本研究提取出的新型紋理特征實(shí)則為圖像直方圖,多個(gè)直方圖間存在較多重疊及交叉,適用于KNN分類算法。
針對(duì)融合特征族,即新型紋理特征與常規(guī)特征的集合分類,本研究采用LADTree算法,是基于LogitBoost策略的類別交替分類器樹(shù)。LogitBoost算法在Boost算法的基礎(chǔ)上進(jìn)行了改進(jìn),其優(yōu)點(diǎn)為將數(shù)個(gè)弱分類器通過(guò)組合,搭建為強(qiáng)分類器,可明顯提高分類精度、避免數(shù)據(jù)的過(guò)擬合。
為對(duì)分類方法的預(yù)測(cè)性能進(jìn)行客觀比較,本研究采用留一法對(duì)分類結(jié)果進(jìn)行驗(yàn)證,即每次驗(yàn)證從全體樣本中選取一個(gè)樣本作為測(cè)試集,其余樣本作為訓(xùn)練集訓(xùn)練分類器,重復(fù)此過(guò)程,直到遍歷所有樣本。
1.3 統(tǒng)計(jì)學(xué)方法 采用weka統(tǒng)計(jì)分析軟件,采用ROC曲線分析不同紋理特征預(yù)測(cè)乳腺癌的效能,獲得曲線下面積(area under the curve, AUC)和準(zhǔn)確率、敏感度以及特異度。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
針對(duì)采用本研究方法提取出的新型紋理特征、基于灰度共生矩陣和游程矩陣提取的紋理特征以及基于旋轉(zhuǎn)不變LBP算子提取的紋理特征,分別經(jīng)KNN分類后進(jìn)行AUC、準(zhǔn)確率、敏感度、特異度的診斷指標(biāo)對(duì)比的結(jié)果見(jiàn)表1、圖4A。通過(guò)集合方式將3種紋理特征分別與常規(guī)特征進(jìn)行融合,經(jīng)LADTree分類器進(jìn)行分類,其效能對(duì)比見(jiàn)表2、圖4B。
表1 不同紋理特征預(yù)測(cè)乳腺癌效能對(duì)比
表2 不同融合紋理特征預(yù)測(cè)乳腺癌效能對(duì)比
針對(duì)鉬靶圖像乳腺密度不均勻、紋理分布不規(guī)則的問(wèn)題,本研究采用改進(jìn)的LTP算子結(jié)合PCA法,提出了一種新型的紋理特征。與以往模型中的紋理特征比較,本研究提出的新型紋理特征更強(qiáng)調(diào)提取區(qū)域紋理特征,更貼合乳腺組織的解剖特征;同時(shí),結(jié)合PCA法刪除影響預(yù)測(cè)精度的干擾特征,并采用KNN算法對(duì)單一紋理特征進(jìn)行分類及LADTree算法對(duì)新型特征與常規(guī)特征進(jìn)行融合后分類。本研究基于改進(jìn)算法提取的新型紋理特征和融合常規(guī)特征預(yù)測(cè)乳腺癌的效能均高于常規(guī)紋理特征,提示本研究方法可提取出更多有價(jià)值的紋理特征,且與常規(guī)特征融合可進(jìn)一步提高預(yù)測(cè)精度。雖然本研究采用的紋理特征提取算法的運(yùn)行效率較低,但相信隨著計(jì)算機(jī)硬件技術(shù)的發(fā)展,尤其是圖形處理器的普遍應(yīng)用,可逐漸得以克服和解決。
[
]
[1] Yang Q, Li L, Zhang J, et al. A new quantitative image analysis method for improving breast cancer diagnosis using DCE-MRI examinations. Med Phys, 2015,42(1):103-109.
[2] Aghaei F, Tan M, Hollingsworth AB, et al. Computer-aided breast MR image feature analysis for prediction of tumor response to chemotherapy. Med Phys, 2015,42(11):6520-6528.
[3] Dai J, Hu Z, Jiang Y, et al. Breast cancer risk assessment with five independent genetic variants and two risk factors in Chinese women. Breast Cancer Res, 2012,14(1):R17.
[4] Varesco L, Viassolo V, Viel A, et al. Performance of BOADICEA and BRCAPRO genetic models and of empirical criteria based on cancer family history for predicting BRCA mutation carrier probabilities: A retrospective study in a sample of Italian cancer genetics clinics. Breast, 2013,22(6):1130-1135.
[5] Lee AJ, Cunningham AP, Kuchenbaecker KB, et al. BOADICEA breast cancer risk prediction model: Updates to cancer incidences, tumour pathology and web interface. Br J Cancer, 2014,110(2):535-545.
[6] Gail MH,Mai PL. Comparing breast cancer risk assessment models. J Natl Cancer Inst, 2010,102(10):665-668.
[7] Tan M, Pu J, Cheng S, et al. Assessment of a four-view mammographic image feature based fusion model to predict near-term breast cancer risk. Ann Biomed Eng, 2015,43(10):2416-2428.
[8] Chang YH, Wang XH,Hardesty LA, et al. Computerized assessment of tissue composition on digitized mammograms. Acad Radiol, 2002,9(8):899-905.
[9] Wang X, Lederman D, Tan J, et al. Computerized prediction of risk for developing breast cancer based on bilateral mammographic breast tissue asymmetry. Med Eng Phys, 2011,33(8):934-942.
[10] Wang X, Lederman D, Tan J, et al. Computerized detection of breast tissue asymmetry depicted on bilateral mammograms: A preliminary study of breast risk stratification. Acad Radiol, 2010,17(10):1234-1241.
[12] Reyad YA, Berbar MA, Hussain M. Comparison of statistical, LBP, and multi-resolution analysis features for breast mass classification. Journal of Medical Systems, 2014,38(9):100.
[13] Tan X, Triggs B. Enhanced local texture feature sets for face recognition under difficult lighting conditions. IEEE Trans Image Process, 2010,19(6):1635-1650.
[14] Ojala T, Pietik?inen M, M?enp?? T. Gray scale and rotation invariant texture classification with local binary patterns//Computer Vision-ECCV 2000. Berlin: Springer-Verlag, 2000:404-420.
[15] Zheng B, Tan M, Ramalingam P, et al. Association between computed tissue density asymmetry in bilateral mammograms and near-term breast cancer risk. Breast J, 2014,20(3):249-257.
[16] Yamamoto H,Yamaji H, Abe Y, et al. Dimensionality reduction for metabolome data using PCA, PLS, OPLS, and RFDA with differential penalties to latent variables. Chemometrics & Intelligent Laboratory Systems, 2009,98(2):136-142.