林 雅,陳華華
(杭州電子科技大學(xué)通信工程學(xué)院,浙江杭州310018)
在信息大爆炸時(shí)代,每天都有成千上萬的視頻、圖像、文字出現(xiàn)。如何充分地利用這些信息,是一個(gè)重要的課題。為了能夠從浩瀚的圖像庫(kù)中獲取用戶所需要的內(nèi)容,基于內(nèi)容的圖像檢索技術(shù)得到廣泛地關(guān)注,并成為研究的一個(gè)熱點(diǎn)[1]。圖像的特征提取與特征表示是基礎(chǔ)核心。其中顏色、紋理、形狀及空間位置關(guān)系是圖像的最直觀的特征,也是圖像視覺的重要感知特性[2]。顏色直方圖以其特征提取簡(jiǎn)單、對(duì)尺度與旋轉(zhuǎn)變化不敏感等優(yōu)點(diǎn),廣泛用于圖像的檢索,但無法體現(xiàn)顏色信息的空間分布。文獻(xiàn)3提出了用空間金字塔模型結(jié)合顏色直方圖來表述圖像特征的空間關(guān)系。圖像的邊緣能夠描述圖像局部最顯著的變化,但是沒有考慮邊緣的顏色信息。文獻(xiàn)4以圖像邊緣輪廓為基礎(chǔ),提出了基于邊緣的顏色直方圖和方向直方圖的彩色圖像檢索方法,但是都沒有考慮到圖像的顏色、邊緣方向、空間位置等潛在的關(guān)系。針對(duì)上述的分析,本文提出了基于相同或相似的方向圖的空間顏色直方圖的算法。首先將HSV顏色空間轉(zhuǎn)化到直角坐標(biāo)系,再計(jì)算其顏色方向,然后獲取相同或相似方向圖,最后在此方向圖上計(jì)算空間顏色直方圖。
顏色直方圖是一種能夠有效地表示圖像的全局顏色信息的特征,具有良好的魯棒性,對(duì)旋轉(zhuǎn)、平移等形變都不敏感,并且計(jì)算簡(jiǎn)單。大多數(shù)的圖像都以紅、綠、藍(lán)為三原色的顏色(RGB)空間表示的,然而符合人類視覺感知效果的是以色調(diào)、飽和度、亮度為參數(shù)的顏色(HSV)空間[5]。因此,將RGB空間轉(zhuǎn)換到HSV空間,并計(jì)算其顏色直方圖。為了降低特征的維數(shù),將H、S、V3個(gè)通道分別均勻量化成8、3、3份。最后,可以獲取8×3×3=72維的顏色直方圖。圖像中每個(gè)象素點(diǎn)的位置記為(x,y),則每個(gè)象素點(diǎn)所對(duì)應(yīng)的量化顏色值為
HSV顏色空間能更好地反應(yīng)人類的視覺感知效果,所以在HSV空間提取圖像的顏色邊緣方向。HSV是圓柱體坐標(biāo)系,其中,將它轉(zhuǎn)化到直角坐標(biāo)系,轉(zhuǎn)化公式如下所示:
對(duì)H、S、V3個(gè)通道分別利用sobel算子提取水平方向和垂直方向的邊緣,記作S'y、V'y。此時(shí),圖像的每一個(gè)象素點(diǎn)(x,y)的水平方向和垂直方向的分量分別為將它們看成兩個(gè)向量,計(jì)算其向量夾角θ,如下式所示:
由于向量夾角的取值范圍為0-360°之間,所以可以將其均勻量化成m份。最后,圖像量化后的方向大小為
相同或相似的邊緣方向暗示其象素顏色之間的某種聯(lián)系,這種潛在的關(guān)系可以通過計(jì)算相同或相似方向圖的顏色直方圖來體現(xiàn)。
1.3.1 相同或相似方向圖
用3×3的滑動(dòng)窗在方向圖O( x,y)上從左到右、從上到下依次滑過,在每個(gè)3×3象素內(nèi),如果中心象素的值i與周圍8個(gè)象素的值有相同,則該相同象素與中心象素屬于同一區(qū)域。遍歷全圖后,將同一區(qū)域連接起來,就構(gòu)成相同或相似方向圖。
1.3.2 特征描述
在上述構(gòu)成的相同或相似方向圖上,提取其相對(duì)應(yīng)的顏色量化值構(gòu)成基于相同或相似方向圖的新顏色量化圖,并用C( x,y)=n,n∈{1,2,…,72}表示。同時(shí),考慮到上述相同或相似方向圖的獲取方法,在新的顏色量化圖C( x,y)上用相同的方法計(jì)算每個(gè)中心象素n與周圍8個(gè)象素相同的個(gè)數(shù),并用()N n表示。最后將其歸一化處理,得到的特征表示為為在每個(gè)3×3象素內(nèi)其中心象素n與周圍8個(gè)象素有相同的總個(gè)數(shù)。
空間金字塔是一種簡(jiǎn)單且計(jì)算高效,對(duì)特征表示的一種拓展[6]。將圖像按等級(jí)劃分,在各個(gè)劃分區(qū)域提取特征,然后賦予其相對(duì)應(yīng)的權(quán)重。最后將這些特征組合起來,作為圖像的一種新的特征表示??臻g金字塔的顏色直方圖的表示方法為:
式中,f'(n)為劃分區(qū)域中對(duì)應(yīng)的顏色直方圖,L為最高劃分等級(jí),r為當(dāng)前劃分等級(jí)。如取L=2,當(dāng)r=0時(shí)有一個(gè)72維特征向量,當(dāng)r=1時(shí)有2×2劃分,有一個(gè)2×2×72維特征向量,當(dāng)r=2時(shí)有4×4劃分,有一個(gè)4×4×72維特征向量。將3個(gè)結(jié)合起來組成的新特征向量的總的維數(shù)為三者維數(shù)之和。
首先將輸入的圖像轉(zhuǎn)化到HSV顏色空間,分別對(duì)其H、S、V3個(gè)通道進(jìn)行均勻量化并轉(zhuǎn)化到直角坐標(biāo)系中;其次利用sobel算子對(duì)3個(gè)通道分別提取水平和垂直方向的邊緣并計(jì)算方向角大小;然后對(duì)方向角進(jìn)行量化,將相同或相似的區(qū)域連通構(gòu)成方向圖,并在方向圖上提取顏色直方圖;最后對(duì)顏色直方圖采用基于空間金字塔結(jié)構(gòu)模型進(jìn)行描述。
獲取上述的特征H( n)后,采用L1距離計(jì)算圖像間內(nèi)容的相似度。假設(shè)待查詢圖像為Q,其對(duì)應(yīng)的特征為 Hq=( q1,…,qk),圖像數(shù)據(jù)庫(kù)中目標(biāo)圖像為T,其對(duì)應(yīng)的特征為則Q與T之間的相似性距離為
本實(shí)驗(yàn)采用常用的corel-1000圖像庫(kù)進(jìn)行算法的性能測(cè)試。圖庫(kù)包含10類不同的圖像,即:非洲、海灘、建筑、汽車、恐龍、大象、花卉、馬、雪山、食物,每類有100張。
每類隨機(jī)抽取5張圖作為待檢索的對(duì)象,共形成50次的查詢,每次查詢選取最相似的前10張圖作為檢索結(jié)果,并采用MAP(mean average precision)評(píng)價(jià)檢索效果,公式如下所示:
式中,i表示圖像庫(kù)中的第i類圖。
利用本文提出的方法與方法SPCH[3]、ECOH[4]做比較,SPCH是在空間金字塔上計(jì)算顏色直方圖,ECOH是結(jié)合了綜合邊緣顏色直方圖和邊緣方向直方圖,比較結(jié)果如表1所示:
表1 與其它算法的MAP比較
由表1可知,本文算法的MAP比其他2種方法都要高,尤其比SPCH效果好,因?yàn)榭紤]了圖像的邊緣方向。相比ECOH在某些類別中(如海灘、雪山類)檢索率沒有那么好,原因可能是該類別圖像的目標(biāo)對(duì)象不好確定,背景也相似,而且利用soble算子提取的邊緣效果也沒有ECOH中利用canny算子提取的邊緣好。
本實(shí)驗(yàn)測(cè)試環(huán)境為奔騰T2390處理器,2G內(nèi)存的XP系統(tǒng)配置的筆記本電腦,MatlabR2010a仿真軟件。實(shí)驗(yàn)結(jié)果如表2所示,由此可知,本文算法的耗時(shí)比ECOH短,但是遠(yuǎn)大于SPCH。需要尋找到耗時(shí)與檢索率之間的平衡點(diǎn),由于檢索率相對(duì)比較重要,而耗時(shí)可以通過軟、硬件提高,所以本文算法還是相對(duì)比較好的。
表2 與其它算法的耗時(shí)情況比較(s)
本文提出了基于相同或相似方向圖的空間顏色直方圖的算法,其不僅充分利用了顏色的方向信息,而且通過方向信息獲取相同或相似方向圖,并考慮到圖像的顏色、邊緣方向、空間位置等潛在的關(guān)系。實(shí)驗(yàn)表明,本算法比起文獻(xiàn)3,4的算法,具有較好的平均檢索率,雖然在耗時(shí)上并不占優(yōu)勢(shì),但是能夠找出用戶所需內(nèi)容的圖像。
[1]Datta R,Joshi D,Li J,etal.Image retrieval:ideas,influences and trends of the new age[J].ACM Computing Surveys,2008,40(2):1 -5.
[2]孫君頂,原芳.基于內(nèi)容的圖像檢索技術(shù)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(8):240-244.
[3]張?chǎng)?,劉秉?quán),張德園.空間金字塔顏色直方圖在圖像分類中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(18):152-155.
[4]楊芳宇,王向陽(yáng).一種基于邊緣綜合特征的彩色圖像檢索算法[J].計(jì)算機(jī)科學(xué),2010,37(2):256-260.
[5]Swain M J,Ballard D H.Indexing via color histograms[C].Osaka:International Conference on Computer Vision,1990:390-393.
[6]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[C].Washington:Computer Vision and Pattern Recognition,2006:2 169 -2 178.