吳 俊 劉勝藍 馮 林, 于來行
1(大連理工大學創(chuàng)新創(chuàng)業(yè)學院 遼寧大連 116024)2(大連理工大學電子信息與電氣工程學部控制科學與工程學院 遼寧大連 116024)3(大連理工大學電子信息與電氣工程學部計算機科學與技術(shù)學院 遼寧大連 116024)(shuxuewujun@mail.dlut.edu.cn)
?
基于基元相關(guān)性描述子的圖像檢索
吳 俊1劉勝藍2馮 林1,3于來行3
1(大連理工大學創(chuàng)新創(chuàng)業(yè)學院 遼寧大連 116024)2(大連理工大學電子信息與電氣工程學部控制科學與工程學院 遼寧大連 116024)3(大連理工大學電子信息與電氣工程學部計算機科學與技術(shù)學院 遼寧大連 116024)(shuxuewujun@mail.dlut.edu.cn)
圖像檢索系統(tǒng)性能很大程度上取決于提取的圖像描述子,其中顏色差分直方圖(color difference histogram, CDH)已經(jīng)在圖像檢索中顯示出了較好的性能.但是這種描述子仍然有一定的局限性:1)只考慮到了像素間顏色差分的整體分布;2)忽略像素間的空間位置分布.因此提出了1種新的基元相關(guān)性描述子(texton correlation descriptor, TCD)提取圖像特征,并將其應(yīng)用于圖像檢索系統(tǒng)中.具體提取過程分為3個步驟:1)利用圖像底層特征(顏色和局部二值模式)檢測一致性區(qū)域,選擇圖像中包含區(qū)分性信息的局部區(qū)域;2)提出顏色差分特征和基元頻率特征分別描述圖像像素間的對比度和空間位置信息,其中顏色差分特征融合了描述局部鄰域的顏色差分相關(guān)性統(tǒng)計和全局顏色差分直方圖,基元頻率特征也融合了描述局部鄰域的基元頻率相關(guān)性和基元頻率直方圖;3)聯(lián)合一致性區(qū)域中的這2種特征得到最后的TCD描述子.這種特征描述了圖像中2種互相獨立并互相補充的特性:對比度和空間位置關(guān)系,并同時考慮到了這2種特性在局部和全局區(qū)域中的描述,因此在圖像檢索實驗中會有更好的性能.在圖像數(shù)據(jù)集中的實驗結(jié)果顯示了TCD描述子的檢索效果明顯優(yōu)于其他幾種特征描述子,證實了TCD描述子在圖像檢索中的有效性和穩(wěn)定性.
基元相關(guān)性描述子;一致性區(qū)域;顏色差分特征;基元頻率特征;圖像檢索
近年來隨著互聯(lián)網(wǎng)和移動終端上圖像數(shù)據(jù)的急劇增長,如何快速有效地從數(shù)據(jù)庫中檢索用戶需要的圖像已成為計算機視覺領(lǐng)域的熱點問題.由于圖像數(shù)據(jù)的多樣性和復雜性,系統(tǒng)仍很難對圖像描述的內(nèi)容準確定位分析及檢索.圖像檢索系統(tǒng)[1]大致可分成3類:基于文本、基于內(nèi)容和基于語義[2].傳統(tǒng)的基于文本的圖像檢索系統(tǒng)需要提前人工對所有圖像進行標注,再利用文本檢索技術(shù)查找對應(yīng)的圖像.但是這對于現(xiàn)實生活中的海量圖像數(shù)據(jù)是不可能的,而且每個人對同一幅圖像的理解標注也可能不同.另外,由于人工智能和視覺認知領(lǐng)域的局限性,基于語義的圖像檢索系統(tǒng)仍有一定的限制.目前應(yīng)用最廣泛的是基于內(nèi)容的圖像檢索(CBIR)系統(tǒng)[3-6],這種方式主要分成3步:1)分別提取查詢圖像樣本和數(shù)據(jù)庫圖像的底層特征,如顏色、紋理和形狀等;2)選擇合適的相似性度量,評估查詢樣本與數(shù)據(jù)庫各圖像的相似性程度;3)利用相似性程度對數(shù)據(jù)庫圖像排序,并輸出最接近查詢樣本的前N幅圖像,即為檢索結(jié)果.其中對圖像底層特征描述的準確性和有效性很大程度上決定了圖像檢索系統(tǒng)的性能.
Fig. 1 The flow chart of image feature extraction.圖1 圖像特征提取流程圖
目前圖像底層特征主要集中在對圖像的顏色、紋理和形狀的1種或多種特征的描述,其中特征提取過程可分成3部分,如圖1所示:
① 對圖像進行預處理.通過圖像降噪[7]和圖像銳化技術(shù)[8],減少噪聲對圖像信息的干擾并增強圖像中的區(qū)分性信息;或者將彩色圖像轉(zhuǎn)化成灰度圖像[9],提取灰度圖像信息.
② 檢測圖像中有區(qū)分性信息的區(qū)域.根據(jù)圖像特征描述區(qū)域的不同,又可以分成圖像的全局特征和局部特征.全局圖像特征針對圖像的所有區(qū)域進行描述,考慮圖像中所有可能的相關(guān)信息.例如統(tǒng)計顏色信息的顏色直方圖、統(tǒng)計紋理信息的局部二值模式(local binary pattern, LBP)[10-11]和統(tǒng)計邊緣信息的方向梯度直方圖(histogram of gradient, HOG)[12]等.而局部圖像特征是只描述了圖像中更具有區(qū)分信息的局部區(qū)域.Lowe[13]提出的尺度不變性特征變換特征(scale-invariant feature transform, SIFT)就是檢測并描述尺度空間中感興趣點附近局部鄰域的特征.由于Gabor小波[14]具有與哺乳動物視覺感知細胞相似的特性,在圖像分析中有著重要的作用.多尺度、多方向的Gabor濾波能描述不同分辨率下的局部圖像方向信息,Serre等人[15]基于靈長類視覺皮層的分層視覺處理過程提出的HMAX模型中的S1層也是采用了Gabor濾波模擬人腦對圖像的處理過程.其他一些有關(guān)圖像局部特征提取方法的性能比較參考文獻[16].
③ 對檢測到的圖像區(qū)域采用適當特征描述方法.其中基于直方圖統(tǒng)計[17]的策略是最常用的特征描述方法,這種統(tǒng)計方法簡單有效,在許多圖像特征描述子中被廣泛應(yīng)用.但是由于只考慮像素在圖像中的整體出現(xiàn)頻率,而忽略了像素間的關(guān)系,限制了基于直方圖統(tǒng)計特征描述子的性能.基于此,顏色矩(color moments)[18]、顏色相關(guān)圖(color correlo-gram)[19]和顏色一致向量(color coherence vector)[20]被提出,同時得到圖像像素的顏色分布信息和相互之間的空間位置相關(guān)性.此外,由于單一特征對圖像信息描述的有限性,目前基于多特征融合的圖像表示也受到了廣泛的關(guān)注.BoC-BoF特征[21]就是融合了基于RootSift描述子的特征詞袋和HSV顏色詞袋中的邊緣和顏色特征.基于底層特征綜合分析算法(CAUC)[22]和分層融合顏色和形狀算法[23]在圖像檢索中也取得了比較好的效果.Zhang等人[24]提出的圖融合算法也同時考慮到了圖像全局和局部特征,更有效地描述圖像信息.
受人眼視覺感知對圖像區(qū)域的選擇機制啟發(fā),Liu等人[25]提出了微結(jié)構(gòu)描述子(micro-structure descriptor, MSD).通過比較中心像素與周圍鄰居間的梯度方向關(guān)系檢測圖像中的局部微結(jié)構(gòu)區(qū)域,再利用相關(guān)性統(tǒng)計原則描述此區(qū)域內(nèi)像素間的空間關(guān)系.此外,多紋理直方圖(multi-texton histogram, MTH)[26]和顏色差分直方圖(color difference his-togram, CDH)[27]也是檢測圖像中顯著性區(qū)域,即中心像素與周圍鄰居有相似顏色值或梯度方向的區(qū)域,再統(tǒng)計此區(qū)域內(nèi)中心像素與鄰居像素間的共生對,同時利用了共生矩陣和直方圖的優(yōu)勢.可以看出像素間顏色差分信息能夠很好地描述圖像特征,并在圖像檢索實驗中取得了比較好的效果.但是CDH仍然存在一些不足:1)CDH對于在圖像中視覺感知一致的區(qū)域提取顏色差分性,只考慮到了這些區(qū)域內(nèi)顏色差分的全局特征,而忽略了區(qū)域中的局部分布特性;2)CDH中的顏色差分性只提取了這些區(qū)域中心像素與周圍鄰居有相似特性時的差異性,即它們之間的顏色差分總和,而忽略了它們之間本身的相似性程度,即它們之間相似的個數(shù)或頻率.
為了解決這些問題,本文提出了一種新的圖像特征提取模型——基元相關(guān)性描述子(texton corr-elation descriptor, TCD).本文工作集中在特征提取過程中的后2步,即區(qū)域檢測和該區(qū)域內(nèi)特征的統(tǒng)計方法.首先,利用圖像2種底層特征(顏色值和LBP紋理結(jié)構(gòu)),檢測圖像中一致性區(qū)域.在這些區(qū)域內(nèi)的特征統(tǒng)計中,針對問題1,通過融合本文提出的顏色差分相關(guān)性統(tǒng)計方法和全局顏色差分直方圖,描述了圖像區(qū)域中結(jié)構(gòu)的顏色差分信息;針對問題2,通過融合圖像的基元頻率相關(guān)性和頻率直方圖統(tǒng)計,描述了圖像區(qū)域中結(jié)構(gòu)的頻率信息.
1.1 HSV顏色空間與顏色量化
在圖像處理中,顏色是重要的視覺屬性,顏色空間的選擇對圖像特征向量的性能影響顯著[28-29].目前已經(jīng)有很多好的顏色空間模型,例如RGB,YIQ,Lab,HSV等.其中由于HSV顏色空間非常接近人眼對視覺感知的理解,在圖像處理中得到了廣泛的應(yīng)用.在HSV顏色空間中,顏色被劃分成3種元素:色調(diào)(hue)、飽和度(saturation)和亮度(value).由于HSV顏色空間是基于圓柱坐標系統(tǒng)提出的,色調(diào)值在0~360°之間變化,對應(yīng)表示的顏色從紅色到黃色、綠色、藍綠色、藍色,再到品紅,再回到紅色一直變化;飽和度和亮度值都是在0~1之間變化.
但是,對于1幅顏色圖像,像素點的顏色屬性有很多種可能,所以直接在此顏色空間中統(tǒng)計顏色特征會需要很大的計算量.為了減少計算量,選擇更具有代表性的顏色特征,對顏色空間進行量化處理很有必要.在本文中,我們選擇將HSV顏色空間等距量化到72類顏色區(qū)間,其中色調(diào)、飽和度和亮度分別被量化到8,3,3類,得到量化后的顏色圖像每一像素點的取值為0~71.
1.2 局部二值模式(LBP)紋理檢測
紋理也是圖像的1個重要視覺屬性,圖像的紋理分析在計算機視覺和圖像處理中受到廣泛的應(yīng)用.但是由于紋理基元的復雜性,目前還沒有對圖像紋理基元統(tǒng)一的定義.Julesz[30-31]的紋理基元理論認為紋理是有一些規(guī)則性的結(jié)構(gòu)元素組成的.Ojala等人[10-11]提出的局部二值模式(LBP)就是基于這種假設(shè)提出的.
對于灰度圖像中,假設(shè)中心像素點的灰度值為gc,取半徑為R的P個鄰居點,其中灰度值分別為g0,g1,…,gP-1.以中心像素灰度值作為閾值,與其周圍鄰居的灰度值作比較,得到中心點處的像素分布為
(1)
(2)
通過將得到的二進制數(shù)轉(zhuǎn)化成十進制的LBP值,表示圖像紋理的1種結(jié)構(gòu).即:
(3)
利用這種紋理檢測方法,總共可能會產(chǎn)生2P中模式.為了得到其中更具區(qū)分性的紋理結(jié)構(gòu),Ojala等人提出“等價模式”的概念,即得到的二進制數(shù)再一次循環(huán)計算中01變化次數(shù)至多為2,否則稱為“非等價模式”.如果取半徑R=1,鄰居數(shù)P為8,那么會有256種LBP模式.其中等價模式有58種,其他為非等價模式.
Fig. 2 The process of detecting image uniform regions.圖2 圖像一致性區(qū)域檢測過程
在數(shù)字圖像中相似的圖像區(qū)域會有相似的局部結(jié)構(gòu),對這些區(qū)域提取特定結(jié)構(gòu)的特征表示對圖像檢索有著很好的性能.這些基于結(jié)構(gòu)化的方法都是以Julesz的紋理基元理論為基礎(chǔ)提出的,即圖像中的局部結(jié)構(gòu)都是些有規(guī)則的,圖像由這些規(guī)則性的局部結(jié)構(gòu)組成.由于人眼對視覺感知一致性區(qū)域的敏感性,對有相似顏色和紋理結(jié)構(gòu)的一致性區(qū)域的特征描述可以有效地提供圖像的區(qū)分信息,提高圖像檢索的效果.
由于本文提取的一致性區(qū)域包括顏色和紋理相似性區(qū)域,用來分別提取圖像對應(yīng)的顏色HC和紋理特征信息HT.由于圖像中這2種底層特征的顯著性并不相同,本文對提取的加以權(quán)值得到最后的圖像特征向量:
H=(α·HC,β·HT),
(4)
其中,α和β(0≤α,β≤1)分別表示顏色和紋理特征所占的權(quán)重系數(shù).
2.1 一致性區(qū)域檢測
在圖像檢索系統(tǒng)中,檢索效果很大程度上依賴于圖像特征表示的性能.對圖像中包含區(qū)分性信息的區(qū)域進行特征統(tǒng)計,能更好地提高圖像特征向量的區(qū)分性.本文選擇同時利用顏色和紋理檢測圖像中的特征一致性區(qū)域,如圖2所示.首先分別利用顏色等距量化和局部二值模式(LBP)表示圖像中像素點的底層特征,在HSV顏色空間中對圖像顏色值等距量化,得到圖像的量化顏色值圖,同時計算灰度圖像下的LBP閾值,采用“等價模式”策略下的LBP閾值,得到圖像的LBP閾值圖.然后利用3×3大小的窗口分別檢測2幅底層特征圖中的一致性區(qū)域.例如,對于量化顏色值圖,比較圖2中3×3窗口(為便于顯示,圖2中3×3窗口都是不重疊的,實際本文選擇窗口依次滑動,考慮所有像素點在中心位置的可能性,圖像邊緣像素點除外)中心像素點與周圍8個鄰居像素點間的差異性,選擇存在鄰居像素點與中心像素點有相同量化顏色值的區(qū)域(即相鄰像素點在HSV顏色空間中有相似的顏色特征).通過這種方法,分別檢測出圖像中的顏色和紋理一致性區(qū)域,在這些區(qū)域的3×3小鄰域中,中心像素點與鄰域像素點有非常相似的顏色或紋理特征.
利用圖像底層特征對一致性區(qū)域的檢測過程可分為4步:
1) 在HSV空間中等距量化各像素點顏色值,轉(zhuǎn)化灰度圖像,計算“等價模式”下LBP閾值圖;
2) 利用3×3模塊檢測圖像,依次滑動模塊,檢測圖像中除邊界區(qū)域外的所有像素點;
3) 選擇中心像素點與鄰居存在相似量化顏色值或LBP閾值的區(qū)域;
4) 分別得到原始圖像的顏色和紋理一致性區(qū)域.
2.2 相關(guān)性統(tǒng)計
為了有效表示一致性區(qū)域中的圖像特征,本文的基元相關(guān)性描述子TCD提出了1種新的統(tǒng)計策略:即基于顏色差分和基元頻率的統(tǒng)計.對于這些特征一致性區(qū)域,可以通過2種互不相交的屬性加以描述:即空間分布和對比度.其中空間分布是對一致性區(qū)域中周圍鄰居與中心像素的相似性分布,而對比度則是這些區(qū)域中周圍鄰居與中心像素的相似性程度.這2種特征屬性是相互獨立,并且相互補充的.為了提取這2種特征屬性,本文提出2種統(tǒng)計策略(如圖3所示):1)基于顏色差分的特征統(tǒng)計,這種方法描述了鄰域內(nèi)中心像素點和周圍鄰居如果有相似底層特征時的相似性程度(顏色差分越小,說明與中心像素點越相似);2)基于基元頻率的特征統(tǒng)計,這種方法描述了鄰域內(nèi)周圍鄰居與中心像素點的基元結(jié)構(gòu)相似的概率(概率越大,說明鄰居中與中心像素點相似的個數(shù)越多).對圖像中的特征區(qū)域同時提取這2種特征可以更好地描述圖像信息,對圖像檢索系統(tǒng)提供更好的區(qū)分性能.
H1 and H2 represent color and texture feature HC and HTFig. 3 The process of TCD in uniform regions.圖3 一致性區(qū)域中基元相關(guān)性統(tǒng)計流程圖
假設(shè)彩色圖像為f(x,y),對應(yīng)的底層特征圖像為Tk(x,y)(k=1,2),其中T1(x,y)∈{0,1,…,71}表示量化顏色值圖,T2(x,y)∈{0,1,…,58}表示LBP閾值圖.
首先統(tǒng)計圖像一致性區(qū)域中的顏色差分特征.由于HSV顏色空間是基于圓柱坐標系統(tǒng)提出的,需要先轉(zhuǎn)化成笛卡爾坐標系統(tǒng)H′S′V′,其中再利用笛卡兒坐標系中的歐氏距離計算像素間的顏色差.對于像素點gc=(xc,yc)和距離為D的第i個鄰居gi=(xi,yi)的顏色差計算公式為
(5)
(6)
(7)
其中:
(8)
通過描述圖像一致性區(qū)域中相鄰像素點間有相似結(jié)構(gòu)時的顏色差分與區(qū)域內(nèi)總顏色差分的比值,可以提供此局部區(qū)域中像素間的對比度信息.因此本文提出的顏色差分相關(guān)性統(tǒng)計特征描述可定義為
(9)
Fig. 4 Two images which have the same color difference correlation.圖4 顏色差分相關(guān)性相同的2幅圖
(10)
但是由于這種直方圖統(tǒng)計策略會忽略特征的空間位置關(guān)系,所以單一直方圖也不能很好地描述圖像顏色特征.為了同時利用圖像的顏色差分相關(guān)性統(tǒng)計特征CH和顏色差分直方圖特征CF的優(yōu)勢,本文利用1種相應(yīng)的特征融合方法[32],融合后的圖像顏色差分特征為
(CFk(Tk(gc))+1).
(11)
CFk(Tk(gc))+CHk(Tk(gc))=
(12)
Fig. 5 The distinction of different patterns with their spatial structure correlation.圖5 利用空間位置分布區(qū)分不同的結(jié)構(gòu)模式
從式(12)可以看出,等號右側(cè)第1項是一致性區(qū)域中相鄰像素間的顏色差分在整幅圖像中的全局出現(xiàn)概率;式(12)第2項是顏色差分相關(guān)性統(tǒng)計,即一致性區(qū)域中相鄰像素間的顏色差分在該局部鄰域內(nèi)的出現(xiàn)概率.圖4(a)(b)的顏色差分相關(guān)性統(tǒng)計結(jié)果相同,但是可以通過式(12)的第1項來區(qū)分這2幅圖的特征.
(13)
(14)
(15)
(TFk(Tk(gc))+1).
(16)
其中,式(16)等號右側(cè)第1項是圖像結(jié)構(gòu)的基元相關(guān)性統(tǒng)計,統(tǒng)計了一致性中相鄰像素點有相同結(jié)構(gòu)Tk的概率;第2項主要是基元直方圖統(tǒng)計信息,描述了這些結(jié)構(gòu)Tk的全局出現(xiàn)概率.利用這種特征融合的方法可以同時具備直方圖和相關(guān)性統(tǒng)計策略的優(yōu)勢,避免其中的不足.式(16)還可寫為
THk(Tk(gc))×TFk(Tk(gc))=
(17)
可以看出,式(17)等號右側(cè)第1項是相關(guān)性統(tǒng)計的結(jié)果;第2項是局部鄰域內(nèi)2個有相同結(jié)構(gòu)Tk的像素點相鄰的概率,正是由于這1項,可以區(qū)分出圖4所示的這2幅圖像特征.
(18)
其中,H1和H2分別表示顏色和紋理特征基元統(tǒng)計特征HC和HT.根據(jù)這2種特征在圖像檢索應(yīng)用中的性能賦以相應(yīng)的權(quán)值得到本文最后的基元相關(guān)性描述子(TCD)特征向量(如式(4)所示).
3.1 實驗設(shè)置
本文實驗使用圖像檢索中常用的Corel圖像數(shù)據(jù)集,使用2組數(shù)據(jù)集來評價本文算法的性能.一組為Corel-1000數(shù)據(jù)集,共有1 000幅圖像,總共分為10類,包括非洲人、海灘、建筑、公交車、恐龍、象、鮮花、馬、山和食物,每類包含100幅;另一組為Corel-10K數(shù)據(jù)集,共有10 000幅圖像,總共分為100類,包括老虎、蔬菜、卡片等,每類包括100幅圖像.此外,UKbench數(shù)據(jù)集也用來驗證特征描述子的有效性,此數(shù)據(jù)集包含10 200幅圖像,共分為2 550類(每類4幅圖像).在檢索中,本文選擇將所有圖像作為查詢圖像評估特征的性能.
本文采用查全率與查準率來驗證特征提取模型在Corel-1000,Corel-10K,UKbench數(shù)據(jù)集中的有效性.首先對數(shù)據(jù)集中每幅圖像分別作為查詢樣本進行圖像檢索,然后對每類圖像檢索得到的查全率和查準率求平均值.每個查詢樣本的查全率及查準率計算過程如下:
(19)
(20)
而對于UKbench數(shù)據(jù)集采用N-S得分[33](最高結(jié)果為4)檢測特征描述子性能.
在檢索過程中,圖像之間的相似性是其提取的特征向量之間的相似性度量決定的.目前已經(jīng)有很多對相似性度量方面的研究,在不同情況下會有不同的效果,所以對提取的特征向量選擇合適的相似性度量是圖像檢索系統(tǒng)的關(guān)鍵一步.由于L1距離在圖像區(qū)分中的有效性和高效性,本文選擇L1距離作為圖像間的相似性度量.
3.2 顏色空間和量化類數(shù)的選擇
不同顏色空間、顏色量化類數(shù)的選擇對本文提出的特征提取模型的有效性有重要的影響.本文實驗對比不同的顏色空間(包括HSV,RGB,Lab這3種顏色空間)和量化策略對特征提取模型的影響.對比實驗結(jié)果如表1所示,分別統(tǒng)計了這3種顏色空間中不同量化策略下在Corel-1000圖像數(shù)據(jù)集中檢索的平均查準率和查全率,檢索過程中選擇輸出圖像數(shù)目依次為10,20,30,40,50幅.HSV顏色空間等距量化類數(shù)從72~192維,RGB顏色空間等距量化類數(shù)從16~128維,Lab顏色空間等距量化類數(shù)從45~180維.從表1可以看出,本文的TCD特征提取模型在HSV顏色空間中的查準率最好.在返回20幅圖像時檢索結(jié)果能達到74.54%以上,而在其他2種顏色空間至多只能達到63.85%和64.52%.除此之外,可以看出在HSV顏色空間中隨著顏色量化從72類增加到128類,查準率也有一定的提高,但是再增加到192類時檢索查準率反而有所下降.隨著顏色量化類數(shù)的增加,提取的特征維數(shù)也會增加.雖然查準率略有提升,但減慢了檢索速度,因此本文選擇72類量化顏色值.因此,雖然高維量化會對特征區(qū)分度有所提高,但并不是量化類數(shù)越高檢索效果越好,過高反而會降低特征性能,還會延長檢索的時間.因此本文選擇在HSV顏色空間的基礎(chǔ)上,并且在描述顏色一致性時,將像素點的顏色等距量化到72類.在描述紋理一致性區(qū)域時,采用59維局部二值模式(LBP)閾值.
Table 1 Retrieval Results of TCD in Different Categories in Corel-1000 Dataset
在TCD特征描述子中模型參數(shù)的選擇也對其性能有較大的影響.圖5是選擇不同的α和β權(quán)值,在Corel-1000圖像數(shù)據(jù)集中返回20幅圖像時的檢索結(jié)果.可以看出,當α=0.20和β=0.80時效果最好,當α增加或降低時,都會使得檢索效果下降.因此,本文的TCD特征為H=(0.20·HC, 0.80·HT).
3.3 圖像檢索實驗對比
在本節(jié)中本文通過與其他3種圖像特征描述子顏色差分直方圖(CDH)、微結(jié)構(gòu)描述子(MSD)和多紋理直方圖(MTH)相比較,證明了本文提出的基元相關(guān)性描述子(TCD)在圖像特征描述中的優(yōu)越性.表3是這4種特征描述子在Corel-1000圖像數(shù)據(jù)集中每類圖像的平均查準率和平均查全率的基元相關(guān)性描述子(TCD)在圖像特征描述中的率(檢索過程中選擇輸出圖像數(shù)目為20幅).可以看出TCD描述子在公交車、恐龍和鮮花類都有很好的檢索效果,其中在恐龍類中查準率最高,能達到99.75%;在非洲人、建筑、象和食物也有比較好的檢索效果,明顯高于其他3種特征描述子.但是在馬和山類圖像中檢索效果略低于MSD描述子(檢索查準率分別低1.05%和2.15%左右).在海灘類中的檢索效果也低于CDH描述子(檢索查準率低14.85%左右),這是因為在海灘類圖像中,圖像的顏色特征區(qū)分性更為顯著,類內(nèi)紋理的差異性相對較大,這使得本文TCD描述子性能有所降低,而只著重于描述圖像顏色差分的CDH描述子會有比較好的性能.
Table 2 The Selection of Model Parameters
從整體上看,本文的TCD描述子在Corel-1000圖像數(shù)據(jù)集中的檢索效果明顯優(yōu)于其他3種描述子.如圖6所示,選擇輸出圖像數(shù)目分別從10~100幅統(tǒng)計這4種特征描述子在Corel-1000和Corel-10K圖像數(shù)據(jù)集中的平均查準率和查全率.從圖6(a)可以看出,TCD描述子在輸出20幅圖像時的查準率能達到74.54%,而CDH,MSD,MTH描述子分別只有62.83%,68.44%,62.03%.而且隨著輸出圖像數(shù)目的增加,TCD描述子的查準率雖有下降,但是也明顯高于其他3種特征描述子.圖6(b)中的結(jié)果是在Corel-10K圖像數(shù)據(jù)集中這幾種特征描述子的檢索性能對比.可以看出,本文的TCD特征描述子的檢索效果也明顯優(yōu)于其他的特征描述子.這證實了本文提出了TCD描述子在圖像檢索系統(tǒng)中有更優(yōu)的性能和穩(wěn)定性.
Fig. 6 The average retrieval performance comparison in Corel datasets.圖6 在Corel圖像數(shù)據(jù)集的特征描述子檢索性能比較
UKbench圖像數(shù)據(jù)集旨在評估特征描述子對圖像物體空間變換的識別性能.表4給出了本文提出的TCD特征與CDH,MSD,MTH在此數(shù)據(jù)集中的檢索結(jié)果.可以看出TCD在UKbench數(shù)據(jù)集中的N-S得分能達到3.36,比其他3種特征都高.此外,表4中也有其他一些文獻提出的圖像特征中在UKbench數(shù)據(jù)集中的檢索效果,可以看出這些特征檢索結(jié)果也均不超過3.36.因此,這證實了TCD特征對圖像物體空間旋轉(zhuǎn)的穩(wěn)定性.
顏色差分直方圖(CDH)、微結(jié)構(gòu)描述子(MSD)和多紋理直方圖(MTH)在圖像檢索應(yīng)用中都已經(jīng)取得了比較好的實驗效果.其中CDH利用像素點間顏色值之間的歐氏距離來衡量圖像區(qū)域的視覺感知差異性,同時考慮到了圖像顏色和梯度方向特征的顏色差分特性以及特征之間的空間位置關(guān)系.雖然這種顏色差分能比較好地描述圖像像素的對比度信息,但是由于沒考慮到圖像局部鄰域內(nèi)顏色差分特性和像素間的空間結(jié)構(gòu),在圖像特征描述中也有一定的局限性.MSD通過定義有相似梯度方向的微結(jié)構(gòu)元檢測圖像中的“潛在”顏色區(qū)域,再利用相關(guān)性統(tǒng)計策略提取圖像特征.但是MSD過分重視圖像的顏色特征,當圖像間邊緣方向非常接近而顏色差異較大時,圖像MSD特征的差別就會較大,因此并不能對圖像做出合理的區(qū)分.MTH是利用共生矩陣和直方圖統(tǒng)計策略的優(yōu)勢,同時提取圖像的顏色紋理信息.但是由于只考慮鄰域內(nèi)像素的空間分布,忽略了像素間的對比度信息.本文提出的TCD描述子同時考慮了圖像一致性區(qū)域中像素間的對比度和空間位置分布信息,通過圖像中像素點間顏色差分和頻率特征分別描述這2種信息,然后用適當?shù)臋?quán)值平衡顏色和紋理一致性區(qū)域中的基元特征.因此,本文的TCD描述子會有更好的特征描述性能,在圖像檢索應(yīng)用中能有更好的檢索效果.
Table 3 Retrieval Results of Each Kind of Images in Corel-1000 Dataset
Table 4 The Performance Comparison of Different Image Representations in UKbench Dataset
表4 在UKbench數(shù)據(jù)集中各特征模型性能比較
本文提出了一種新的圖像特征描述子基元相關(guān)性描述子(TCD),主要過程為:1)利用圖像顏色和紋理檢測圖像中的一致性區(qū)域.2)利用像素點間的顏色差分特征描述對比度信息,其中顏色差分相關(guān)性和全局顏色差分直方圖統(tǒng)計分別描述了圖像局部鄰域和全局中底層特征的顏色差分信息,二者的融合能同時利用這2種統(tǒng)計策略的優(yōu)勢,更好地描述圖像中的對比度信息;利用基元頻率特征描述圖像像素的空間位置分布信息,其中也同時融合了圖像底層特征的基元相關(guān)性和基元頻率直方圖統(tǒng)計.通過聯(lián)合一致性區(qū)域像素間中的對比度和空間位置分布,能更好地描述圖像信息.3)得到顏色和紋理一致性區(qū)域中的基元特征統(tǒng)計,并通過權(quán)值聯(lián)合這2種特征得到最終的TCD特征向量.通過在Corel-1000,Corel-10K,UKbench數(shù)據(jù)集中的圖像檢索實驗,也證實了本文TCD描述子在圖像特征描述中的有效性和穩(wěn)定性.
本文通過多特征融合提取圖像一致性區(qū)域中的信息,對圖像檢索效果進一步提高.但是仍存在一定的局限性:1)多特征融合技術(shù)仍需進一步研究,提高圖像檢索準確率,同時降低特征維數(shù);2)對圖像空間信息有待進一步提高.此外,對人眼視覺感知還需進一步研究,借助視覺認知的機制更好地描述圖像信息.
[1]Datta R, Joshi D, Li J, et al. Image retrieval: Ideas, influences, and trends of the new age[J]. ACM Computing Surveys, 2008, 40(2): Article No 5
[2]Liu Y, Zhang D, Lu G, et al. A survey of content-based image retrieval with high-level semantics[J]. Pattern Recognition, 2007, 40(1): 262-282
[3]Datta R, Li J, Wang J Z. Content-based image retrieval: Approaches and trends of the new age[C] //Proc of the 7th ACM SIGMM Int Workshop on Multimedia Information Retrieval. New York: ACM, 2005: 253-262
[4]Singhai N, Shandilya S K. A survey on: Content based image retrieval systems[J]. International Journal of Computer Applications, 2010, 4(2): 22-26
[5]ElAlami M E. A new matching strategy for content based image retrieval system[J]. Applied Soft Computing, 2014, 14: 407-418
[6]Bian W, Tao D. Biased discriminant euclidean embedding for content-based image retrieval[J]. IEEE Trans on Image Processing, 2010, 19(2): 545-554
[7]Buades A, Coll B, Morel J M. A review of image denoising algorithms, with a new one[J]. Multiscale Modeling & Simulation, 2005, 4(2): 490-530
[8]Ding F, Zhu G, Shi Y Q. A novel method for detecting image sharpening based on local binary pattern[C] //Proc of Digital-Forensics and Watermarking. Berlin: Springer, 2014: 180-191
[9]Song M, Tao D, Chen C, et al. Color to gray: Visual cue preservation[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1537-1552
[10]Ojala T, Pietik?inen M, M?enp?? T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987
[11]Ojala T, Pietik?inen M, M?enp?? T. Gray scale and rotation invariant texture classification with local binary patterns[C] //Proc of the 6th European Conf on Computer Vision. Berlin: Springer, 2000: 404-420
[12]Dalal N, Triggs B. Histograms of oriented gradients for human detection[C] //Proc of 2005 IEEE Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 2005: 886-893
[13]Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110
[14]Jones J P, Palmer L A. An evaluation of the two-dimensional Gabor filter model of simple receptive fields in cat striate cortex[J]. Journal of neurophysiology, 1987, 58(6): 1233-1258
[15]Serre T, Wolf L, Bileschi S, et al. Robust object recognition with cortex-like mechanisms[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2007, 29(3): 411-426
[16]Mikolajczyk K, Schmid C. A performance evaluation of local descriptors[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615-1630
[17]Swain M J, Ballard D H. Color indexing[J]. International Journal of Computer Vision, 1991, 7(1): 11-32
[18]Stricker M A, Orengo M. Similarity of color images[C] //Proc of SPIE 2420. Bellingham: SPIE, 1995: 381-392
[19]Huang J, Kumar S R, Mitra M, et al. Image indexing using color correlograms[C] //Proc of 1997 IEEE Conf on Computer Vision and Pattern Recognition. Los Alamitos, CA: IEEE Computer Society, 1997: 762-768
[20]Pass G, Zabih R, Miller J. Comparing images using color coherence vectors[C] //Proc of the 4th ACM Int Conf on Multimedia. New York: ACM, 1997: 65-73
[21]Feng Jinli, Yang Hongju. Image retrieval method research based on BoC-BoF feature[J]. Computer Science, 2015, 42(4): 297-301
[22]Zhang Yongku, Li Yunfeng, Sun Jingguang. Image retrieval based on multi-feature fusion[J]. Journal of Computer Application, 2015, 35(2): 495-498
[23]Pan Yongsheng, Ji Xiaoping. New image retrieval method based on multiple feature fusion[J]. Science Technology and Engineering, 2014 (15): 219-223
[24]Zhang Shaoting, Yang Ming, Cour T, et al. Query specific fusion for image retrieval[C] //Proc of the 12th European Conf on Computer Vision. Berlin: Springer, 2012: 660-673
[25]Liu Guanghai, Li Zuoyong, Zhang Lei, et al. Image retrieval based on micro-structure descriptor[J]. Pattern Recognition, 2011, 44(9): 2123-2133
[26]Liu Guanghai, Zhang Lei, Hou Yingkun, et al. Image retrieval based on multi-texton histogram[J]. Pattern Recognition, 2010, 43(7): 2380-2389
[27]Liu Guanghai, Yang Jingyu. Content-based image retrieval using color difference histogram[J]. Pattern Recognition, 2013, 46(1): 188-198
[28]Singha M, Hemachandran K. Performance analysis of color spaces in image retrieval[J]. Assam University Journal of Science and Technology, 2011, 7(2): 94-104
[29]Xia Wan, Kuo C-C J. Color distribution analysis and quantization for image retrieval[C] //Proc of SPIE 2670. Bellingham: SPIE, 1996: 8-16
[30]Julesz B. Textons, the elements of texture perception, and their interactions[J]. Nature, 1981, 290(5802): 91-97
[31]Julesz B. Texton gradients: The texton theory revisited[J]. Biological Cybernetics, 1986, 54(4/5): 245-251
[32]Feng Lin, Wu Jun, Liu Shenglan, et al. Global correlation descriptor: A novel image representation for image retrieval[J]. Journal of Visual Communication and Image Representation, 2015, 33: 104-114
[33]Zhang Shaoting, Ming Yang, Cour T, et al. Query specific rank fusion for image retrieval[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2015, 37(4): 803-815
[34]Jégou H, Douze M, Schmid C. Improving bag-of-features for large scale image search[J]. International Journal of Computer Vision, 2010, 87(3): 316-336
[35]Wengert C, Douze M, Jégou H. Bag-of-colors for improved image search[C] //Proc of the 19th ACM Int Conf on Multimedia. New York: ACM, 2011: 1437-1440
[36]Perronnin F, Liu Y, Sánchez J, et al. Large-scale image retrieval with compressed fisher vectors[C] //Proc of 2010 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3384-3391
[37]Jégou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C] //Proc of 2010 IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3304-3311
Wu Jun, born in 1993. Master candidate at Dalian University of Technology. His main research interests include pattern recognition and machine learning.
Liu Shenglan, born in 1984. PhD. Postdoctor at Dalian University of Technology. His main research interests include pattern recognition and machine learning.
Feng Lin, born in 1969. Professor and PhD supervisor at Dalian University of Technology. His main research interests include intelligent image processing, robotics, data mining, and embedded systems.
Yu Laihang, born in 1982. PhD candidate at Dalian University of Technology. His main research interests include image processing, data mining.
Image Retrieval Based on Texton Correlation Descriptor
Wu Jun1, Liu Shenglan2, Feng Lin1,3, and Yu Laihang3
1(School of Innovation and Entrepreneurship, Dalian University of Technology, Dalian, Liaoning 116024)2(SchoolofControlScienceandEngineering,FacultyofElectronicInformationandElectricalEngineering,DalianUniversityofTechnology,Dalian,Liaoning116024)3(SchoolofComputerScienceandTechnology,FacultyofElectronicInformationandElectricalEngineering,DalianUniversityofTechnology,Dalian,Liaoning116024)
The performance of content-based image retrieval (CBIR) depends to a great extent on the image feature descriptor. Among these descriptors, color difference histogram (CDH) has showed the great discriminative performance in CBIR. However, there are still some limitations in it: 1)only taking color difference of pixels in global region into account; 2)not considering the spatial structure among pixels. In this paper, to solve these problems, we propose a novel image representation, called texton correlation descriptor (TCD), which is applied to CBIR. First, we define uniform regions which contain discriminative information of images and then detect them by analyzing the relationship among low-level features (color value and local binary patterns) of pixels. Second, in order to character contrast and spatial structure information in uniform regions respectively, we propose the color difference feature which fuses color difference correlation and global color difference histogram, and texton frequency feature which fuses texton frequency correlation and texton frequency histogram. Finally, by combining these feature vectors, TCD not only characters two orthogonal properties: spatial structure and contrast, but also takes these properties in local and global uniform regions into account simultaneously so that TCD has better performance in CBIR. The experimental results show that the retrieval results of TCD is higher than that of other descriptors in image datasets, and thus demonstrate that TCD is more robust and discriminative in CBIR.
texton correlation descriptor (TCD); uniform regions; color difference feature; texton frequency feature; image retrieval
2015-08-10;
2016-03-22
國家自然科學基金項目(61173163,61370200);中國博士后科學基金項目(ZX20150629) This work was supported by the National Natural Science Foundation of China (61173163, 61370200) and the China Postdoctoral Science Foundation (ZX20150629).
馮林(fenglin@dlut.edu.cn)
TP181