楊 雪,范 勇,高 琳,邱運(yùn)春
(西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川綿陽(yáng)621010)
基于紋理基元塊識(shí)別與合并的圖像語(yǔ)義分割
楊 雪,范 勇,高 琳,邱運(yùn)春
(西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川綿陽(yáng)621010)
針對(duì)當(dāng)前像素級(jí)別的圖像語(yǔ)義分割算法難以利用全局形狀特征,導(dǎo)致分割對(duì)象輪廓模糊,造成錯(cuò)誤識(shí)別的問(wèn)題,提出一種區(qū)域級(jí)別的基于紋理基元塊識(shí)別與合并的圖像語(yǔ)義分割算法。該算法采用紋理基元等特征,考慮到相鄰像素點(diǎn)間的相互關(guān)系,保留物體間的棱角和邊緣信息,分割出輪廓清晰的對(duì)象。在MSRC圖片庫(kù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明,該算法能對(duì)多種語(yǔ)義對(duì)象進(jìn)行分割和識(shí)別,具有運(yùn)行速度快、識(shí)別率高和分割效果好等優(yōu)點(diǎn)。
紋理基元;特征字典;k-d樹(shù)最近鄰搜索;k-means算法;識(shí)別;合并;語(yǔ)義分割
圖像語(yǔ)義分割是基于內(nèi)容的圖像壓縮、圖像檢索[1]等多媒體應(yīng)用領(lǐng)域中的關(guān)鍵技術(shù)[2-3],把圖像分割和圖像的識(shí)別與理解結(jié)合起來(lái),對(duì)輸入圖像進(jìn)行語(yǔ)義分割的研究非?;钴S,也是當(dāng)前國(guó)內(nèi)外圖像處理領(lǐng)域的研究前沿。但是當(dāng)圖像中同時(shí)存在多類不同形狀和大小的對(duì)象時(shí),如何有效地獲取不同語(yǔ)義對(duì)象之間的邊緣信息,依然是個(gè)具有挑戰(zhàn)性的問(wèn)題[1]。
圖像語(yǔ)義分割是指將圖像分割成具有一定語(yǔ)義含義的分割塊,并對(duì)每個(gè)分割塊進(jìn)行相應(yīng)的語(yǔ)義標(biāo)識(shí)。一種緊湊的形貌特征表示能夠提高分割與識(shí)別的性能,為此,紋理基元(texton)常常被用于對(duì)象的特征表達(dá)[4],并被證明在物體分類中是有效的[5]。紋理基元這個(gè)術(shù)語(yǔ)是文獻(xiàn)[6]首先提出的,是人類視覺(jué)感官描述的最小單元,有點(diǎn)類似于音色中的音位。
目前,像素級(jí)別的圖像語(yǔ)義分割算法[7],一般是基于紋理基元映射圖進(jìn)行像素點(diǎn)特征向量的學(xué)習(xí)和預(yù)測(cè),由于通過(guò)預(yù)測(cè)每個(gè)像素點(diǎn)特征向量的語(yǔ)義類別來(lái)對(duì)圖像進(jìn)行分割,從而使得標(biāo)識(shí)出的物體輪廓特征丟失得比較明顯。為此,本文提出一種新的紋理基元映射方法,得到基于區(qū)域級(jí)別的紋理基元塊映射圖,通過(guò)對(duì)紋理基元塊的識(shí)別與合并完成圖像的語(yǔ)義分割。
本文的語(yǔ)義分割基本思路是,訓(xùn)練部分采用支持向量機(jī)(Support Vector Machine,SVM)學(xué)習(xí)對(duì)象的顏色特征模型;測(cè)試部分對(duì)待測(cè)圖片集的每個(gè)像素提取17維紋理基元特征向量,再利用本文提出的方法構(gòu)建待測(cè)圖片的紋理基元塊映射圖,最后采用SVM分類器識(shí)別各個(gè)紋理基元塊,標(biāo)記并合并相鄰?fù)惖姆指顗K,完成圖像的語(yǔ)義分割和對(duì)象識(shí)別。本文算法流程如圖1所示。
圖1 算法流程
圖像的特征總是融合在圖像的顏色、紋理、布局和未知的上下文信息中,一個(gè)完整全面的圖像特征往往需要圖像多個(gè)方面的信息來(lái)共同描述,因此,在圖像特征提取中不能僅考慮單個(gè)方面的信息。對(duì)圖像某方面的信息來(lái)說(shuō),通常單個(gè)像素點(diǎn)所包含的信息會(huì)受到相鄰點(diǎn)的影響,在提取像素點(diǎn)單方面信息時(shí),需要結(jié)合圖像的上下文信息。本文用到的紋理基元特征是由高斯、高斯-拉普拉斯、高斯偏導(dǎo)組成的一組濾波器產(chǎn)生的17維向量[7],將分別涵蓋圖像的顏色、紋理和上下文各方面的信息。
下面將描述本文的濾波過(guò)程:
其中,6σ取不大于其值的整數(shù)。
Gaussians濾波器由式(1)計(jì)算所得。濾波時(shí)y方向的卷積結(jié)果作為x方向的輸入,x方向的卷積結(jié)果作為高斯濾波器的濾波結(jié)果。
LoG(Laplacian of Gaussians)濾波器由式(3)和式(1)計(jì)算所得,分別用filterA和filterB表示。由filterA的y方向卷積結(jié)果作為filterB的x方向輸入,再由filterA的x方向卷積結(jié)果作為filterB為y方向的輸入,將這2個(gè)卷積結(jié)果相加,作為L(zhǎng)oG濾波器的濾波結(jié)果。
DoG(Derivative of Gaussian)濾波器由式(2)和式(1)計(jì)算所得,同樣分別用filterA和filterB來(lái)表示。由filterA的y方向卷積結(jié)果作為filterB的x方向輸入,得到第一個(gè)DoG濾波器的濾波結(jié)果。再交換filterA和filterB,重復(fù)上述卷積過(guò)程,將結(jié)果作為相同σ下的第2個(gè)DoG濾波器的濾波結(jié)果。
3個(gè)高斯濾波器(σ分別取0.7,1.4和2.8)分別與輸入圖像Lab顏色空間的3個(gè)顏色通道相卷積,這樣就得到了9個(gè)濾波器響應(yīng)圖像。
4個(gè)LoG濾波器(σ分別取0.7,1.4,2.8和5.6)則僅僅與輸入圖像的Lab顏色空間的L通道進(jìn)行卷積,由此得到了4個(gè)濾波器響應(yīng)圖像。
4個(gè)DoG濾波器分為x軸方向的和y軸方向的2組(平滑尺度σ分別取1.4和2.8),每組有2個(gè)濾波器。另外,這4個(gè)DoG濾波器也僅與輸入圖像的Lab顏色空間的L通道進(jìn)行卷積,最后得到了4個(gè)濾波器響應(yīng)圖像。
經(jīng)由上述3種濾波器的作用之后,輸入圖像的每個(gè)像素有一個(gè)17維的濾波器響應(yīng)數(shù)據(jù),即是一個(gè)17維的紋理基元特征向量。
本文算法的核心在于如何利用像素點(diǎn)的17維紋理基元特征向量通過(guò)k-means算法和k-d樹(shù)最近鄰搜索算法構(gòu)建紋理基元塊的映射分割圖。
以所有測(cè)試圖像的每個(gè)像素點(diǎn)的17維紋理基元特征向量作為k-means算法的數(shù)據(jù)樣本輸入x。以最終輸出的k′個(gè)聚類中心創(chuàng)建特征字典,并建立k-d樹(shù)[8],對(duì)測(cè)試集中的每個(gè)像素點(diǎn)進(jìn)行最近鄰搜索,即將所有像素點(diǎn)分成了k′類。至此,每張測(cè)試圖片完成了初始分割,得到了對(duì)應(yīng)的紋理基元塊映射圖。
針對(duì)K-means算法只能在已知分類數(shù)k的情況下進(jìn)行聚類的問(wèn)題,本文提出以較大的k值作為初始聚類中心個(gè)數(shù),在更新聚類中心μ時(shí),舍棄無(wú)樣本點(diǎn)的中心,以此來(lái)自動(dòng)減小k值。
由于k-means算法對(duì)初始聚類中心比較敏
感[9],因此本文提出輪次聚類方法。具體的操作是以聚類結(jié)果中的聚類中心μ′再次作為k-means算法的數(shù)據(jù)樣本輸入x′,以中心個(gè)數(shù)k′為再一輪的初始聚類中心個(gè)數(shù),進(jìn)行第二輪聚類。重復(fù)該步驟,直到第n輪聚類或中心個(gè)數(shù)k′小于閾值θ。
算法的具體步驟如下:
(1)數(shù)據(jù)樣本輸入是{x(1),x(2),…,x(m)},x(i)∈所有測(cè)試圖片像素點(diǎn)的17維紋理基元特征向量集。
(2)隨機(jī)選取k個(gè)聚類中心點(diǎn)為μ1,μ2,…,μk。
(3)重復(fù)以下1)~3)過(guò)程直到收斂:
1)計(jì)算每個(gè)點(diǎn)x(i)到聚類中心μj的距離,并聚類到離該點(diǎn)最近的聚類中去:
2)調(diào)整聚類中心的個(gè)數(shù)k:
若αj≤1,則舍棄聚類中心j,k′=k-1。
3)計(jì)算每個(gè)聚類中所有點(diǎn)的坐標(biāo)平均值,并將這個(gè)平均值作為新的聚類中心。
(4)以{x′(1),x′(2),…,x′(m)},x′(i)∈{μ1,μ2,…,μk}為數(shù)據(jù)樣本輸入,重復(fù)步驟(2)、步驟(3)。
(5)重復(fù)步驟(4),直至第n輪聚類或中心個(gè)數(shù)k′小于閾值θ。
上一節(jié)利用紋理基元特征向量構(gòu)造了測(cè)試圖片的紋理基元塊映射圖,在識(shí)別每個(gè)塊之前需要先訓(xùn)練對(duì)象的特征模型。
在訓(xùn)練部分,本文采用基于HSV空間的20色非均勻顏色量化算法[10]提取顏色特征。針對(duì)每種對(duì)象類別,利用人工標(biāo)識(shí)圖計(jì)算原圖對(duì)象區(qū)域的20維顏色直方圖,與對(duì)應(yīng)的類別標(biāo)注共同構(gòu)成數(shù)據(jù)集。本文采用支持向量機(jī)(Support Vector Machine, SVM)訓(xùn)練該數(shù)據(jù)集,產(chǎn)生顏色特征模型。
在測(cè)試部分,也采用文獻(xiàn)[10]的算法提取每個(gè)紋理基元塊的顏色特征,結(jié)合顏色特征模型采用SVM預(yù)測(cè)算法對(duì)紋理基元塊進(jìn)行語(yǔ)義預(yù)測(cè)和標(biāo)識(shí),最后同類標(biāo)識(shí)且相鄰的塊被合并為一類,從而得到最終的語(yǔ)義分割圖片。
本文使用了MSRC(Microsoft Research Center)圖片庫(kù)進(jìn)行語(yǔ)義的學(xué)習(xí)和訓(xùn)練。MSRC由劍橋大學(xué)計(jì)算機(jī)視覺(jué)科研小組提供,是圖像語(yǔ)義分割研究中常用的典型數(shù)據(jù)庫(kù),其中包含建筑物、草地、樹(shù)、牛、羊等對(duì)象。每種對(duì)象由若干張?jiān)瓐D和人工標(biāo)識(shí)圖對(duì)應(yīng)組成,如圖2所示,不同顏色代表不同的對(duì)象類別,黑色表示空類,在訓(xùn)練和測(cè)試過(guò)程中忽略黑色標(biāo)識(shí)的區(qū)域。
圖2 原圖和人工標(biāo)識(shí)圖
在實(shí)驗(yàn)中,將該圖片庫(kù)隨機(jī)分成訓(xùn)練集和測(cè)試集,各集占總圖片數(shù)的比例分別為40%和60%。最后,算法的分割效果和評(píng)估則都以人工標(biāo)識(shí)圖為目標(biāo)和參照。
6.1 本文實(shí)驗(yàn)結(jié)果
通過(guò)大量實(shí)驗(yàn)得出輪次n的經(jīng)驗(yàn)值為4或5,閾值θ可以稍大于待測(cè)圖像中的對(duì)象類別數(shù),一般可設(shè)置在5~20之間。下面以圖2為例來(lái)說(shuō)明本文的語(yǔ)義分割過(guò)程。從圖3可以看到每一輪聚類后構(gòu)建的紋理基元塊映射圖,用k表示某一輪的初始聚類中心數(shù),k′表示該輪聚類結(jié)束后的中心數(shù),則: (a)k=400,k′=385;(b)k=385,k′=47;(c)k=47,k′=33;(d)k=33,k′=9。
圖3 輪次聚類的中間過(guò)程示例
在圖3的紋理基元塊映射圖中,每種顏色代表一個(gè)字典索引,不表示任何類別含義。由于k′個(gè)聚類中心是由所有測(cè)試圖片的像素點(diǎn)共同計(jì)算出的,在單獨(dú)一張紋理基元塊映射圖中,不一定包含k′種分割塊??梢钥闯?k′值越大,紋理基元塊就越小越多,當(dāng)經(jīng)過(guò)n輪聚類后k′達(dá)到合適值時(shí),就可以將圖片大致分割成所希望的分割結(jié)果,并且基本能體現(xiàn)出對(duì)象的輪廓和形狀。如圖4中的最后一張圖所示,水的部分已經(jīng)被完整地分割出來(lái)了,牛和草地則分別被分割成一些大大小小的塊。下一步便是如何識(shí)別這些塊的類別,圖4展示了特征模型的獲取以及紋理基元塊利用特征模型進(jìn)行識(shí)別與合并,得到最終的語(yǔ)義分割圖的過(guò)程。
圖4 塊識(shí)別與合并過(guò)程
6.2 對(duì)比實(shí)驗(yàn)結(jié)果
本文將與同樣使用該圖片庫(kù)進(jìn)行實(shí)驗(yàn)的系統(tǒng)TextonBoost作對(duì)比,TextonBoos系統(tǒng)是一個(gè)在像素點(diǎn)級(jí)別對(duì)圖像語(yǔ)義進(jìn)行訓(xùn)練和預(yù)測(cè)的系統(tǒng),存在標(biāo)識(shí)語(yǔ)義物體邊緣模糊、對(duì)象粘連和一定的誤識(shí)別等缺點(diǎn)。下面,從定性和定量2個(gè)方面對(duì)TextonBoost系統(tǒng)和本文算法的實(shí)驗(yàn)結(jié)果進(jìn)行比較分析。
首先,從定性角度來(lái)驗(yàn)證本文提出的基于紋理基元塊識(shí)別與合并的方法能夠分割出輪廓清晰的物體,并正確識(shí)別出對(duì)象的類別。圖5是實(shí)驗(yàn)結(jié)果對(duì)比圖,每組圖片的第1列是原圖,第2列是人工標(biāo)識(shí)圖,第3列是TextonBoost系統(tǒng)的結(jié)果圖,第4列是本文算法的結(jié)果圖。
圖5 對(duì)比實(shí)驗(yàn)結(jié)果
從圖5可以看出,本文提出的算法能較準(zhǔn)確地分割和識(shí)別對(duì)象。因?yàn)闉V波器組全面提取了圖像的紋理顏色特征,并在提取過(guò)程中充分考慮到了每個(gè)像素點(diǎn)與相鄰像素點(diǎn)的相互關(guān)系,很好地保留了對(duì)物體間的明確區(qū)分有著重要作用的棱角和邊緣信息,所以能較好地分割出對(duì)象與對(duì)象之間的界限。通過(guò)對(duì)比可以明顯地發(fā)現(xiàn),TextonBoost系統(tǒng)標(biāo)識(shí)出的物體明顯丟失了輪廓特征,且在類別分割方面,把第1組圖中的鳥(niǎo)誤識(shí)別成了水和草地,把第3組圖片中的所有區(qū)域都識(shí)別成了書(shū),而第4組中則漏識(shí)別了左邊的小牛,在第8組圖片中將水的部分誤識(shí)別成了天空,同樣存在部分誤識(shí)別的還有第5組和第9組,而本文算法能很準(zhǔn)確地標(biāo)識(shí)出各個(gè)對(duì)象的類別,并且對(duì)象的邊緣很明晰,不存在粘連問(wèn)題。
本文從分割精度、識(shí)別率以及耗時(shí)3個(gè)方面來(lái)做量化對(duì)比。
為了客觀地比較,以人工標(biāo)識(shí)圖的分割區(qū)域?yàn)榛鶞?zhǔn)來(lái)對(duì)比算法的分割精度F[11],F=2PR/(P+R)。其中,P表示算法分割區(qū)域與人工分割對(duì)象共有像素點(diǎn)數(shù)占人工分割對(duì)象總像素?cái)?shù)的百分比;R表示算法分割區(qū)域與人工分割對(duì)象共有像素點(diǎn)數(shù)占算法分割區(qū)域總像素?cái)?shù)的百分比,只有P與R同時(shí)取得較大值時(shí),才能獲得較高的精度[12]。圖6為TextonBoost系統(tǒng)和本文算法對(duì)圖5中圖像的精度比較結(jié)果。需要指出的是,此處F值是針對(duì)圖像中的主要對(duì)象計(jì)算的,依次為鳥(niǎo)、羊、書(shū)、牛、貓、路、鳥(niǎo)、牛、自行車、板凳??梢钥闯?本文算法的F值明顯較高。
圖6 圖5中分割結(jié)果的精度對(duì)比
本文采用文獻(xiàn)[13]提出的識(shí)別率計(jì)算方法作為評(píng)價(jià)標(biāo)準(zhǔn),即正確識(shí)別樣本與總樣本之商,結(jié)果如圖7所示。相比較TextonBoost系統(tǒng),本文算法對(duì)于圖7中的前10類物體都取得了更高的識(shí)別率。其中,牛和羊2類物體的準(zhǔn)確率提高最為顯著,分別提高了33.2%和39.9%,而飛機(jī)類的識(shí)別率降低了23.2%,這是因?yàn)镾VM訓(xùn)練時(shí)選擇的是顏色特征,牛羊與草地等的顏色特征相差較大,而圖片集中的飛機(jī)顏色偏白,與天空顏色接近所致,增強(qiáng)特征描述可以改善該問(wèn)題。
圖7 識(shí)別率對(duì)比
TextonBoost系統(tǒng)和本文算法在相同的訓(xùn)練集和測(cè)試集下的耗時(shí)對(duì)比如表1所示。
表1 運(yùn)行時(shí)間的比較s
本文提出一種基于紋理基元塊識(shí)別與合并的語(yǔ)義分割算法,在計(jì)算紋理基元塊時(shí)改進(jìn)k_means算法,給出輪次聚類方法,使其能自適應(yīng)地減少聚類中心數(shù)量。算法利用紋理基元特征將圖片中的對(duì)象預(yù)分割成了由若干塊組成的輪廓明顯的區(qū)域,再根據(jù)顏色特征模型識(shí)別塊類型并合并相同類型的塊,最終得到語(yǔ)義分割結(jié)果圖。在MSRC圖片庫(kù)上的實(shí)驗(yàn)表明,本文提出的算法速度快,能有效準(zhǔn)確地分割識(shí)別出圖片中的對(duì)象,且具有很好的邊緣輪廓效果。此外,由于紋理基元塊是根據(jù)特征模型進(jìn)行識(shí)別的,下一步工作將融合提取多種對(duì)象特征,增強(qiáng)特征模型,以擴(kuò)展本文算法的適用范圍。
[1]Johnson M A,Hall H.Semantic Segmentation and Image Search[EB/OL].(2010-11-04).http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.169.536.
[2]Acharyya M,Kundu M K.Image Segmentation Using Wavelet Packet Frames and Neuro-fuzzy Tools[J].International Journal of Computational Cognition,2007, 5(4):27-43.
[3]Wang Song,Kubota T,Siskind J,et al.Salient Closed Boundary Extraction with Ratio Contour[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(4):546-561.
[4]Malik J,Belongie S,Leung T,et al.Contour and Texture Analysis for Image Segmentation[J].International Journal of Computer Vision Computer Vision,2001, 43(1):7-27.
[5]Varma M,ZissermanA.AStatisticalApproachto TextureClassificationfromSingleImages[J].InternationalJournalofComputerVision,2005, 62(1/2):61-81.
[6]Julesz B.Textons,the Elements of Texture Perception, and Their Interactions[J].Nature,1981,290(5802): 91-97.
[7]Shotton J,Winn J,Rother C,et al.TextonBoost:Joint Appearance,Shape and Context Modeling for Multiclass Object Recognition and Segmentation[C]//Proceedings of European Conference on Computer Vision.[S.l.]: IEEE Press,2006:1-15.
[8]王 碧,霍紅衛(wèi).基于KD樹(shù)的多維數(shù)據(jù)分布方法[J].計(jì)算機(jī)工程,2003,29(3):105-107.
[9]袁 方,周志勇.初始聚類中心優(yōu)化的k-means算法[J].計(jì)算機(jī)工程,2007,33(5):224-227.
[10]邱兆文,張?zhí)镂?一種新的圖像顏色特征提取方法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2004,36(12): 1699-1701.
[11]Sharon A,MeiravG,RonenB,etal.Image Segmentation by Probabilistic Bottom-up Aggregation andCueIntegration[C]//ProceedingsofIEEE ConferenceonComputerVisionandPattern Recognition.Washington D.C.,USA:IEEE Computer Society,2007:1-8.
[12]劉戰(zhàn)杰,馬儒寧,鄒國(guó)平,等.一種新的基于區(qū)域生長(zhǎng)的彩色圖像分割算法[J].山東大學(xué)學(xué)報(bào):理學(xué)版, 2010,45(7):76-80.
[13]Shtton J,Winn J,Rother C,et al.Textonboost for Image Understanding:MulticlassObjectRecognitionand Segmentation by Jointly Modeling Texture,Layout,and Context[J].International Journal of Computer Vision, 2009,81(1):2-23.
編輯 顧逸斐
Image Semantic Segmentation Based on Texture Element Block Recognition and Merging
YANG Xue,FAN Yong,GAO Lin,QIU Yunchun
(College of Computer Science&Technology,Southwest University of Science&Technology,Mianyang 621010,China)
Aiming at the problem that the current image semantic segmentation algorithm at pixel level is difficult to use global shape features,leading the fuzzy contour of object and some wrong recognitions.This paper presents a new regional level image semantic segmentation algorithm based on texture element block recognition and merging.This algorithm uses the texture element feature to segment objects with a clear outline,which fully considers the relationship between adjacent pixels and keeps corners and edge information between objects.Experiments conducted on the MSRC database show that this method can segment and recognize a variety of semantic.Besides,it has the advantages of high efficiency,high recognition rate and good segmentation effect.
texture element;feature dictionary;k-d tree nearest neighbor search;k-means algorithm;recognition; merging;semantic segmentaion
楊 雪,范 勇,高 琳,等.基于紋理基元塊識(shí)別與合并的圖像語(yǔ)義分割[J].計(jì)算機(jī)工程, 2015,41(3):253-257.
英文引用格式:Yang Xue,Fan Yong,Gao Lin,et al.Image Semantic Segmentation Based on Texture Element Block Recognition and Merging[J].Computer Engineering,2015,41(3):253-257.
1000-3428(2015)03-0253-05
:A
:TP391.41
10.3969/j.issn.1000-3428.2015.03.047
四川省教育廳科技基金資助項(xiàng)目(12zd1005);西南科技大學(xué)網(wǎng)絡(luò)融合實(shí)驗(yàn)室開(kāi)放基金資助項(xiàng)目(12zxwk09)。
楊 雪(1989-),女,碩士研究生,主研方向:計(jì)算機(jī)視覺(jué);范 勇,教授、博士;高 琳,講師、博士;邱運(yùn)春,碩士研究生。
2014-04-16
:2014-05-08E-mail:766134800@qq.com