?ね跚?+呂亞男+李東紅+宋立新
摘要:乳腺影像案例不僅具有圖像的底層特征,同時也有圖像的語義特征。為了實現(xiàn)乳腺影像的高效檢索,提高計算機輔助診斷的確信度,提出了一種基于關聯(lián)規(guī)則的多模檢索方法。首先,采用基于關聯(lián)規(guī)則的特征選擇算法選擇出與影像語義相關的底層特征,實現(xiàn)特征降維,利用Apriori算法挖掘被選擇的特征與語義特征之間的關聯(lián)規(guī)則。然后,利用關聯(lián)分類引擎算法根據(jù)得到的關聯(lián)規(guī)則構建關聯(lián)分類模型,實現(xiàn)由底層特征獲知視覺語義特征的目的。最后,將關聯(lián)分類模型得到的語義特征作為輸入語義,與圖像的底層特征相結合,進行圖像相似性度量,實現(xiàn)多模檢索。通過查準率和查全率以及相關排序平均值等進行了實驗對比,實驗結果表明,提出的多模檢索方法有效的提高了圖像的檢索精度并且能夠由圖像的底層特征獲知圖像的視覺語義特征。該方法縮減了底層特征和視覺語義特征之間的語義鴻溝,提高了圖像的檢索性能,能夠為醫(yī)生提供更有意義的決策支持。
關鍵詞:乳腺影像;關聯(lián)規(guī)則;特征選擇;關聯(lián)分類;多模檢索
DOI:1015938/jjhust201702023
中圖分類號: TN91173
文獻標志碼: A
文章編號: 1007-2683(2017)02-0124-05
Abstract:The mammogram case has images of low level features and semantic features In order to achieve efficient retrieval of breast imaging cases, and enhance the certainty of computer aided diagnosis, a multimode retrieval method based on association rules is proposed in this paper First of all, feature selection algorithm based on the association rules can be used to select the low level features associated with image semantic features, to achieve the dimension reduction The associative rules which between the selected features and the semantic features can be excavated by using the Apriori algorithm And then, the associative classifier engine will be used to build the associative classification model depend on the associative rules to capture the visual semantic features Finally, take obtained semantic from the association classification as input semantic, combining with the low level features of image, to implement the mammogram case multimode retrieval We conducted experiments comparing by precision and recall rate and relevance ranking average value and so on, as the results show, multi mode retrieval method proposed by this paper can effectively improve the performance of breast imaging case retrieval, and provide visual semantic features of image by its lowlevel features Multimode retrieval reduced the semantic gap between image low level features and visual semantic features, improved the accuracy of image retrieval and provided more meaningful decision support for doctors
Keywords:mammogram;association rules;feature selection;associative classification;multimode retrieval
0引言
醫(yī)學影像是醫(yī)生診斷的一重要依據(jù)[1],作為乳腺癌診斷以及乳房健康普查的首選方法是鉬靶乳腺X線影像 [2]。如何能夠快速、準確的從乳腺數(shù)據(jù)庫中找到和待查詢病例最相似的案例輔助醫(yī)生進行判斷成為一個急需要解決的重要問題。基于文本的圖像檢索把圖像檢索問題轉(zhuǎn)換成傳統(tǒng)的文本檢索問題,但這種方法人工標注的工作量過大并且圖像標注具有很強的主觀性和不精確性[3]?;趦?nèi)容的圖像檢索在醫(yī)學領域應用時,所提取的圖像底層特征無法達到人類的理解水平,圖像底層特征與語義特征間具有“語義鴻溝”(semantic gap)問題[4-6],在醫(yī)學背景下無法保證有意義的查詢[7]。為此,需要一種結合圖像底層特征和圖像語義特征的多模檢索方式。
近年來,在圖像檢索領域,結合圖像信息內(nèi)容和圖像高層語義的檢索方式受到越來越多的關注。謝天文[8]等提出了一種聯(lián)合圖像高級語義特征和內(nèi)容低級特征的醫(yī)學圖像檢索方法,提高了圖像的檢索效果,但需要醫(yī)生的輔助描述語義,不能根據(jù)圖像的底層特征獲知圖像的語義特征。田海曼等[9]人利用基于內(nèi)容的分級檢索方法,通過腫瘤的紋理、形狀以及邊界特征對其良性和惡性進行計算機輔助診斷,取得了良好的效果,但無法獲得腫塊的視覺語義特征。關聯(lián)規(guī)則能夠克服這種不足,近年來被越來越多的應用到醫(yī)學圖像的數(shù)據(jù)挖掘方面。王曙燕等[10]利用改進的Apriori算法挖掘關聯(lián)規(guī)則,建立了醫(yī)學圖像分類器,取得了較好的圖像分類效果,蔣云等[11]構造了增強關聯(lián)規(guī)則分類器對醫(yī)學圖像進行分類,提高了分類的正確率,但這兩種方法將關聯(lián)規(guī)則直接應用到醫(yī)學案例的正常和異常的判斷,無法提供與診斷結果相關的視覺語義特征。
針對以上問題,本文采用基于關聯(lián)規(guī)則的特征選擇算法進行特征選擇,利用關聯(lián)規(guī)則挖掘算法獲取底層特征和語義特征之間的關聯(lián)規(guī)則,同時,降低底層特征的維數(shù)。然后通過關聯(lián)分類引擎算法建立分類模型,通過圖像的底層特征獲得圖像的視覺語義特征,實現(xiàn)機器輔助標注,縮小語義鴻溝,并將該視覺語義特征作為語義輸入,結合圖像底層特征,實現(xiàn)了底層特征和語義特征結合的多模檢索。
1關聯(lián)分類模型的建立
11關聯(lián)規(guī)則的相關概念
通過關聯(lián)規(guī)則可以發(fā)現(xiàn)項集之間的關聯(lián)性。設I={I1,I2,I3,……},稱I為項集,D是一事務數(shù)據(jù)庫,其中每個事務TI,若A是項目集,當且僅當AT時,我們說事務T包含了A,關聯(lián)規(guī)則是A→B的格式,其中A和B都屬于項集I但是不相交。A稱為規(guī)則的前項,B稱為規(guī)則的后項。關聯(lián)規(guī)則里面有兩個重要的參數(shù),分別是支持度和置信度。支持度指的是在一個事務集中包含A同時包含B的概率,即P(A∪B),記為sup,反映了關聯(lián)規(guī)則在數(shù)據(jù)庫中的重要性;置信度指的是支持度與該事務集中只包含A的概率的比值,即P(A|B),記為conf,置信度衡量了關聯(lián)規(guī)則的可信程度,即:
本文挖掘關聯(lián)規(guī)則的算法采用的是由Agrawal等人[12]提出的經(jīng)典Apriori算法。在挖掘過程中,使用的是類關聯(lián)規(guī)則挖掘,規(guī)則的前項為數(shù)據(jù)項集,后項為類別屬性項集。其中數(shù)據(jù)項集是由八種特征值組成,屬性項集是由三種腫塊的形狀組成,分別為卵圓形、不規(guī)則形和分葉形。每條規(guī)則用R來代表,挖掘出的規(guī)則形式如下:R∶D→C,其中,D={Data1,Data2……Datan},為數(shù)據(jù)項集合,C={C1,C2,C3},是類標識集合。
使用Apriori算法進行關聯(lián)規(guī)則挖掘之后要對所得到的規(guī)則進行剪枝,最后得到強關聯(lián)規(guī)則。假定兩條規(guī)則R1和R2,若滿足下面任意條件,則稱R1的優(yōu)先級別優(yōu)于R2。
1)R1的置信度高于R2的置信度,即conf(R1)>conf(R2);
2)若conf(R1)=conf(R2),R1的支持度高于R2的支持度,即sup(R1)>sup(R2);
3)若conf(R1)=conf(R2),且sup(R1)=sup(R2),R1擁有比R2更少的項。
本文關聯(lián)規(guī)則的剪枝方案是:選擇優(yōu)先級高的規(guī)則覆蓋優(yōu)先級低的,如果優(yōu)先級別相同的話選擇前項比較多的覆蓋前項相對少的規(guī)則,最后得到強關聯(lián)規(guī)則,利用得到的強關聯(lián)規(guī)則建立關聯(lián)分類模型,對數(shù)據(jù)集進行分類訓練。
12特征選擇
本文采用基于關聯(lián)規(guī)則的StARMiner算法[13]挖掘了影像底層特征與形狀語義以及與腫瘤良惡性語義之間的關聯(lián)規(guī)則,達到降維目的同時實現(xiàn)底層特征與語義的有效關聯(lián)。設T是一個醫(yī)學圖像數(shù)據(jù)集,T里面包含有多種類別的圖像,X是其中的一個圖像類別的集合,Xi是X中的一個圖像,每個 都有N個特征,假設fi是Xi的第i個特征,μfi(x)和σfi(x)分別為在圖像X中fi特征的均值和方差。該算法有3個閾值,是由用戶定義的,分別為γmin、Δμmin和Δσmax。其中γmin為在H0不成立時存在的最低置信度;Δμmin為fi在類X中的均值與其它類中均值的最小差值;Δσmax為fi在類X中的最大方差值。如果滿足下面的3個條件,就可以找到X類圖像和特征之間的關聯(lián)關系,也就是說特征fi是將X類圖像與其它類圖像區(qū)分出來的關鍵,是應該保留的特征。本文影像底層特征一共有32個,使用該算法保留的與影像形狀有關特征為8個,特征如表1所示。
13關聯(lián)分類算法
關聯(lián)分類算法是在關聯(lián)規(guī)則的基礎上發(fā)展起來,采用的是ACE[17](associative classifier engine)關聯(lián)分類引擎算法。在建立圖像形狀的關聯(lián)分類模型時,首先選擇作為訓練圖像的底層特征,采用最小長度描述方法對特征進行離散化,然后利用經(jīng)典的Apriori算法進行關聯(lián)規(guī)則挖掘,并通過基于規(guī)則興趣度的關聯(lián)規(guī)則剪枝算法得到強關聯(lián)規(guī)則,最后采用關聯(lián)分類引擎ACE算法進行關聯(lián)分類,實現(xiàn)關聯(lián)分類模型的構建。
ACE算法中有4個參數(shù),分別為A(h),F(xiàn)(h),N(h)和wmin,分類算法的置信度公式如下:
w=4A(h)+F(h)4A(h)+F(h)+N(h)(6)
其中,W表示該圖像屬于某種類別的可信度,4個參數(shù)的含義如下:
1)A(h)為圖像特征滿足整個規(guī)則的個數(shù);
2)F(h)為圖像特征部分滿足規(guī)則的個數(shù);
3)N(h)為圖像特征均不滿足規(guī)則的個數(shù);
4)wmin是該圖像屬于某種類別的可信程度的最低值,本文中wmin為05。
14乳腺腫塊形狀分類模型的建立
乳腺腫塊的良惡性與不同的腫塊形狀之間存在相關性[18],如卵圓形等比較規(guī)則的類型一般表現(xiàn)為良性,而分葉和不規(guī)則類型則往往呈現(xiàn)惡性。因此,本文在使用與形狀有關的底層特征構建關聯(lián)分類模型時,按照不同腫塊形狀的良惡性可能進行二分類,然后再對節(jié)點進行細致分類,分類方式如圖1所示。
本文選取了美國南佛羅里達大學構建的數(shù)字乳腺X線圖像數(shù)據(jù)庫(DDSM,digital database for screening mammography)中的170幅圖像,其形狀描述語義為醫(yī)學影像專家標注,共有170幅圖像,其中:卵圓類型為61幅,不規(guī)則類型為62幅,分葉類型為47幅,各選每種類型35幅圖像參與數(shù)據(jù)挖掘。用來進行測試的圖像有65幅,該模型對于形狀的分類準確率如表2所示。
15檢索系統(tǒng)
本文提出的檢索系統(tǒng)的模型如圖2所示。
首先獲取輸入案例的底層特征,選擇出與圖像形狀以及腫瘤良惡性有關系的特征,選取的和圖像形狀有關的特征如表1。然后利用選擇出來的形狀特征得到分類關聯(lián)規(guī)則,通過關聯(lián)分類算法構建圖像形狀分類模型,通過該模型獲知輸入圖像的形狀語義,最后,結合圖像與良惡性有關的底層特征,與圖像特征向量數(shù)據(jù)庫中特征向量,得到和輸入案例最相似的圖像。
2檢索結果
圖像檢索中分別對特征向量中的語義和底層特征部分,分別采用歐式距離度量式(7)進行相似度量,其中i為案例影像語義或底層的第i個特征。本文所用的底層特征均是進行了特征歸一化的數(shù)據(jù)。在離散語義特征和連續(xù)底層特征相似度量基礎上。為了融合兩者的相似性采用式(8)計算。
)
其中:dk(i,j)是樣本i和樣本j在第k個屬性的相似度,這里,k=1或2,分別對應語義特征和底層特征。 wk取0或1,對缺失屬性取0。
檢索系統(tǒng)中一共包含有170幅圖像,為了查看本文方法在乳腺腫塊圖像檢索方面的效果,與圖像檢索領域常用的基于內(nèi)容的圖像檢索[19]方法進行了實驗對比,隨機選擇5個圖像進行檢索,檢索出前10幅圖像,形狀語義參與檢索,邊緣和良惡性作為參與評價檢索性能的語義,對比實驗結果如圖3所示。
圖3(a)為按照語義相似性大小排序得到的對比結果,其中帶條紋的為本文方法所得結果,無條紋的為基于內(nèi)容的圖像檢索方法的語義結果;圖3(b)為兩種情況下語義所占百分比的對比結果。從圖3中可以看出,對于同一幅圖像本文提供出更多的語義完全相同和語義相似的案例。
輔助醫(yī)生診斷的最終目的是能夠為醫(yī)生判斷腫瘤的良惡性提供決策支持。本文通過查全率-查準率曲線[20]以及相關排序平均值對多模圖像檢索方法和基于內(nèi)容圖像檢索方法的檢索性能進行評估,對比結果如圖4所示。
圖(a)為查全率-查準率曲線對比結果,從圖中可以看出,本文方法的查準率與查全率均高于基于內(nèi)容的圖像檢索方法,并且通過關聯(lián)規(guī)則算法進行特征選擇后的檢索性能比未降維的效果更好。圖(b)為降維后兩種方法的相關排序平均值對比結果,相關排序平均值越大,說明該方法的檢索效果越好,從圖中可以看出,本文方法的相關排序平均值的均值高于基于內(nèi)容的檢索方法。通過性能對比結果可知,本文這種對特征進行選擇,并且結合腫塊圖像視覺語義特征和圖像底層特征的多模檢索方法具有較好的效果。
3結語
本文提出了一種融合圖像語義和底層特征的多模檢索方法。對于一幅腫塊圖像,先判斷出它的形狀語義,然后轉(zhuǎn)化成語義特征向量,選擇符合該形狀特征的圖像,再結合與圖像高層語義相關的底層特征進行多模檢索。從實驗的對比結果可以看出,基于本文給出的關聯(lián)規(guī)則的多模檢索方法提供的檢索結果,在輔助語義標注和輔助診斷上具有較好的性能,彌補了基于內(nèi)容單模態(tài)檢索信息不足的局限。后續(xù)可以考慮增加樣本數(shù)目,改進關聯(lián)規(guī)則挖掘算法,為邊緣語義建立關聯(lián)分類模型,以便為腫瘤良惡性判斷提供更有效更全面的語義信息。
參 考 文 獻:
[1]TANG H L,HANKA R, IP H H S Histological Image Retrieval Based on Semantic Content Analysis [J]. Information Technology in Biomedicine, IEEE Transactions on, 2003, 7(1): 26-36
[2]HUANG Y L, CHEN D R Watershed Segmentation for Breast Tumor in 2D Sonography [J]. Ultrasound in medicine & biology, 2004, 30(5): 625-632
[3]張磊大規(guī)?;ヂ?lián)網(wǎng)圖像檢索與模式挖掘[J].中國科學:信息科學,2013, 43(12):1641-1653
[4]溫超,耿國華基于內(nèi)容圖像檢索中的“語義鴻溝”問題[J].西北大學學報(自然科學版),2005,35(5):536-540
[5]SMEULDERS A W M, WORRING M, SANTINI S, et al Contentbased Image Retrieval at the End of the Early Years[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2000, 22(12): 1349-1380
[6]李志欣,施智平,李志清,等 圖像檢索中語義映射方法綜述[J]. 計算機輔助設計與圖形學學報, 2008, 20(8): 1085-1096
[7]曹厚德 醫(yī)學影像技術的主要進展及前瞻[J]. 中國醫(yī)療器械雜志, 2003, 27(4): 234-237
[8]謝天文,湯偉軍,趙秋楓,等 聯(lián)合圖像高級語義特征和內(nèi)容低級特征的醫(yī)學圖像檢索[J]. 生物醫(yī)學工程學雜志,2009,26(6): 1237-1240
[9]田海曼,林江莉,陳科,等 基于內(nèi)容的乳腺腫瘤超聲圖像分級檢索[J]. 四川大學學報(工程科學版), 2012,44(S1):177-181
[10]王曙燕,周明全,耿國華 醫(yī)學圖像的關聯(lián)規(guī)則挖掘方法研究[J]. 計算機應用, 2005, 25(6): 1408-1409
[11]蔣蕓,李戰(zhàn)懷,王勇,等 基于增強關聯(lián)規(guī)則的醫(yī)學圖像分類新方法[J]. 西北工業(yè)大學學報, 2006,24(3): 401-404
[12]AGRAWAL R,SRIKANT R Fast Algorithms for Mining Association Rules[C]// 20th int conf Very Large Data Bases, VLDB 1994, 1215: 487-499
[13]BUGATTI P H, RIBEIRO M X,TRAINA A J M, et al Contentbased Retrieval of Medical Images by Continuous Feature Selection[C]// ComputerBased Medical Systems, 2008, CBMS′08, 21st IEEE International Symposium on IEEE, 2008: 272-277
[14]ZHENG B, LU A, HARDESTY L A, et al A Method to Improve Visual Similarity of Breast Masses for an Interactive Computeraided Diagnosis Environment [J]. Medical Physics, 2006, 33(1): 111-117.
[15]PETRICK N, CHAN H P, WEI D, et al Automated Detection of Breast Masses on Mammograms Using Adaptive Contrast Enhancement and Texture Classification [J]. Medical physics, 1996, 23(10): 1685-1696.
[16]JIN R,MENG B, SONG E, et al Computeraided Detection of Mammographic Masses Based on Contentbased Image Retrieval[C]//Medical Imaging International Society for Optics and Photonics, 2007: 65141W-65141W-8
[17]RIBEIRO M X, BUGATTI P H,TRAINA Jr C, et al Supporting Contentbased Image Retrieval and Computeraided Diagnosis Systems with Association Rulebased Techniques[J]. Data & Knowledge Engineering, 2009, 68(12): 1370-1382
[18]于代友,劉秀梅,等,BIRADS在乳腺腫塊X線診斷中的應用價值[J]. 中國臨床醫(yī)學影像雜志,2014,25(9):615-618
[19]MENG F J, GUO B L Research on ContentBased Image Retrieval Technology [J]. Applications Research of Computer, 2004, 21(7):21-27
[20]常瑞峰, 宋立新 乳腺X線影像鈣化病灶檢索技術研究[J].中國圖象與圖形學報, 2011,16(1): 97-102
(編輯:溫澤宇)