孫 超,周海英
(中北大學電子與計算機科學技術學院,山西 太原 030051)
傳統(tǒng)的基于內(nèi)容的圖像檢索系統(tǒng)(CBIR)是建立在低層視覺特征的相似性度量的基礎上,然而人們對圖像的認知通常是在語義理解的基礎上,這種差距形成了“語義鴻溝”[1]。為了更好地貼近人對圖像的認知,提出一種提取圖像中有意義核心目標對象的方法,能夠有助于圖像內(nèi)容的語義表達。圖像的核心對象通常位于接近圖像中心的位置,在顏色和紋理上與周邊區(qū)域有明顯差別,本身所占區(qū)域也比較大,決定著該圖像的主體語義內(nèi)容。本文提出的圖像中核心對象的提取方法是將圖像劃分為1個中心區(qū)域和4個周邊區(qū)域以獲取每個區(qū)域上顏色和紋理顯著的對象。首先對圖像進行預處理,然后針對每個區(qū)域進行顯著性處理,通過計算顯著相關色(SCC)以鑒別區(qū)域中的核心目標圖像片,并作為訓練集用于BP神經(jīng)網(wǎng)絡訓練,從而實現(xiàn)對圖像對象的劃分和結果優(yōu)化。
人工神經(jīng)網(wǎng)絡在模擬動物的神經(jīng)行為方面具有高速并行、容錯性強的特點,并能實現(xiàn)信息的分布式存儲和表達。BP神經(jīng)網(wǎng)絡采用誤差逆?zhèn)鞑シ绞?,對特征鑒別和模式分類有較好的作用。
圖像預處理主要完成對圖像的濾波、色彩量化和分割等前期處理。本文采用同組濾波技術(Peer Group Filtering)對圖像進行濾波、去除噪聲、平滑圖像[2]。CCF*-tree是一種基于分裂和聚類算法的混合方法(見圖1),可以較好地保持顏色的多數(shù)性和差異性[3],使用該方法將圖像量化為64色,結果見圖1b。圖像分割是圖像分析、理解和識別的關鍵技術,是一個信息不足的、不適定性問題[4]。本文采用JSEG 算法[5],分割結果不宜太過粗糙,圖1c中共有137個塊。
圖1 圖像的64色量化和JSEG分割結果
顏色相關直方圖(color correlations)可以反映一個區(qū)域中顏色的分布和基本紋理[6]。圖像被劃分為5個DAW區(qū)域(默認感興趣區(qū)域)D1,D2,D3,D4,D5,如圖 2 所示,中心區(qū)域占25%,其余區(qū)域均分。對每個DAW區(qū)域和對應的SR區(qū)域(周邊區(qū)域)計算顏色相關直方圖提取SCC[7],計算時使用距離集合D={1}。每一DAW區(qū)域的SCC像素是滿足公式(1)的顏色對 (ci,cj),CDAW(ci,cj)和CSR(ci,cj)分別是DAW區(qū)域和SR區(qū)域的顏色相關直方圖中顏色對(ci,cj)的數(shù)目(下標指區(qū)域)。
圖2 SCC像素
對于這5個部分,DAW區(qū)域分別為區(qū)域1到5,與SR區(qū)域的對應關系如下:
就周邊區(qū)域來說,物體多數(shù)會分布于整個水平方向上,所以對于 D1,D2,D3,D4,SR 區(qū)域不包括處于同一水平的區(qū)域。計算時將DAW區(qū)域和所對應的SR區(qū)域的顏色相關直方圖的值代入公式(1)。圖2a~圖2e顯示了依據(jù)不同DAW區(qū)域計算所得的SCC像素,依次對應的DAW區(qū)域為 D5,D1,D2,D3,D4。
在JSEG分割的塊中選取可以顯著標示對應DAW區(qū)域的塊。選取原則為:
1)塊中含對應DAW區(qū)域的SCC像素的比例比較高;
2)要有多于一半的部分屬于對應的DAW區(qū)域;
3)塊中屬于所對應DAW區(qū)域的比例要相對高。
利用以上條件,每個塊用公式(2)計算判定值PCi,j超出閾值tPC的塊,結果見表1。
表1 圖2f中編號1,3,4的塊的RS,IS值
對于每個DAW區(qū)域(如j=1)將所有分割所得塊代入公式(2)進行計算,滿足公式(2)的塊被分到該區(qū)域,得到一個可以顯著代表這一區(qū)域的塊的集合。圖3為每個部分的核心塊。
圖3 每個部分的核心塊
每個JSEG分割所產(chǎn)生的塊的特征由顏色和紋理兩類特征以及塊中SCC像素的比例構成,顏色特征為塊在HSV空間的一階矩和二階矩,紋理特征提取采用共生矩陣,其中距離為 1,角度取 0°,45°,90°,135°共 4 個矩陣。對共生矩陣計算能量、熵、慣性矩3個紋理參數(shù),求能量(E)、熵(N)、慣性矩(I)的均值和標準差作為最終6維紋理特征。因為每個塊的大小不一,計算共生矩陣時,要乘以相應的比例,變換到統(tǒng)一尺度。對于每一圖片,有5部分所對應的SCC像素,對應的每個塊有5個不同的比例值(就是計算核心塊使用的RS值)。于是,每個分割塊對應一個17維的特征向量如圖4所示。
圖4 每個分割塊對應一個17維的特征向量
對于每個DAW區(qū)域,都要生成一套樣本集,每個區(qū)域自身的核心部分包含的塊的特征向量作為正例,反例選取其他對應區(qū)域的核心部分。對應關系為:D1對應{D3,D4,D5};D2對應{D3,D4,D5};D3對應{D1,D2,D5};D4對應{D1,D2,D5};D5對應{D1,D2,D3,D4}。對每一 DAW 區(qū)域建立神經(jīng)網(wǎng)絡,將樣本分別輸入其中。選用BP網(wǎng)絡,訓練函數(shù)為traingd,輸入層有17個節(jié)點,輸出層1個節(jié)點,激勵函數(shù)采用logsig,學習速率0.03,訓練要求精度為0.0007。共有5個神經(jīng)網(wǎng)絡,每個對應一個DAW區(qū)域。
將分割產(chǎn)生的所有塊的特征向量輸入訓練好的5個神經(jīng)網(wǎng)絡中,結果如圖5所示。
圖5 神經(jīng)網(wǎng)絡輸出的結果
采用以下原則優(yōu)化結果(見圖6):
1)對上一步產(chǎn)生的5個分類結果,填充被圖像本身像素所包圍的空白部分,去掉小于5%的不連通的塊,去掉 {D1,D2,D3,D4}中包含的{D5}的塊;
2)根據(jù)SCC像素比例判定是否要合并處于同一水平的D1和D2,D3和D4;
3)對于沖突的塊,歸類于RSi,j值大的區(qū)域。最后得到3~5個區(qū)域。
圖6 圖1最終被分為4部分
使用本文方法對大量圖像進行了測試,圖7顯示了一部分圖片的處理結果。
圖7 部分實驗結果
實驗表明本文方法對圖像核心語義對象的提取具有以下特點:1)可以提取各區(qū)域顏色比較集中且與其他區(qū)域有較大差別的部分,較完整地得到由不同顏色,不同成分組成的目標對象,可以確保對圖像重要語義對象的有效抽取;2)可以得到中心對象的輪廓;3)能夠避免傳統(tǒng)圖像分割產(chǎn)生的大量冗余;4)對于有獨特對象分布特點的圖像,可以靈活確定感興趣的DAW區(qū)域;5)能夠存儲包含主要信息的圖像主要部分,為進一步的圖像語義處理和檢索奠定基礎。
[1]GUDIVADA V N,RAGHAVAN V V.Content-based image retrieval system[J].IEEE Computer,1995,28(9):18-22.
[2]DENG Y,KENNEY C,MOORE M S,et al.Peer group filtering and perceptual color image quantization[C]//Proc.ISCAS 1999.[S.l.]:IEEE Press,1999:2-24.
[3]王永剛.彩色圖象處理若干算法的研究與其應用[D].上海:上海交通大學,2005.
[4]楊潤玲,周軍妮,劉利.基于改進型FCM聚類的圖像分割新方法[J].電視技術,2008,32(6):12-14.
[5]DENG Y,MANJUNATH B S,SHIN H.Color image segmentation[C]//Proc.CVPR 1999.[S.l.]:IEEE Press,1999:2446-2451.
[6]HUANG J,KUMAR S R,MITRA M,et al.Image indexing using color correlograms[C]//Proc.1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,1997:762-768.
[7]KIM S Y,PARK S Y,KIM M H.Central object extraction for objectbased image retrieval[C]//Proc.CIVR 2003.[S.l.]:CIVR,2003:39-49.