王挺進(jìn),趙永威,李弼程
(信息工程大學(xué)信息系統(tǒng)工程學(xué)院,鄭州450002)
基于顯著圖加權(quán)視覺語(yǔ)言模型的圖像分類方法
王挺進(jìn),趙永威,李弼程
(信息工程大學(xué)信息系統(tǒng)工程學(xué)院,鄭州450002)
傳統(tǒng)基于視覺語(yǔ)言模型(VLM)的圖像分類方法在參數(shù)估計(jì)階段,通常采用最大似然估計(jì)的方式統(tǒng)計(jì)視覺單詞的分布,忽略了圖像背景噪聲對(duì)該模型參數(shù)估計(jì)的影響。為此,提出一種新的圖像分類方法。利用基于視覺注意的顯著性檢測(cè)算法提取圖像中的顯著區(qū)域和背景區(qū)域,構(gòu)建的圖像帶有顯著圖標(biāo)識(shí)的視覺文檔,訓(xùn)練視覺單詞的顯著度權(quán)重和條件概率,并使用顯著圖加權(quán)視覺語(yǔ)言模型進(jìn)行圖像分類。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)VLM等方法相比,該方法能有效克服圖像背景噪聲的影響,增強(qiáng)視覺單詞的區(qū)分性,提高分類準(zhǔn)確率。
圖像信息;視覺語(yǔ)言模型;圖像分類;背景區(qū)域;顯著圖
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,圖像信息呈爆炸式增長(zhǎng)。面對(duì)大規(guī)模的圖像數(shù)據(jù),如何利用計(jì)算機(jī)進(jìn)行高效、有序的組織并進(jìn)行圖像的分類和檢索,已然成為當(dāng)前計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)和難點(diǎn)之一。而圖像分類結(jié)果的好壞直接影響著后續(xù)的高層次處理結(jié)果,比如物體定位和行為檢測(cè)等。
傳統(tǒng)的圖像分類方法通常對(duì)圖像進(jìn)行整體描述,提取顏色、邊緣、紋理等全局特征構(gòu)成圖像直方圖進(jìn)行表示。近年來(lái),由于“詞袋模型”在文本處理領(lǐng)域取得了巨大的成功,其思想被研究者們移植到計(jì)算機(jī)視覺領(lǐng)域,將圖像表示成一系列視覺關(guān)鍵詞的直方圖。但是傳統(tǒng)的“詞袋模型”忽略了視覺單詞之間的聯(lián)系,為了獲得更好的性能,研究者們開始對(duì)“詞袋模型”進(jìn)行改進(jìn):在特征提取方面,文獻(xiàn)[1]提出一種改進(jìn)的尺度不變特征變換(Scale Invariant Feature Transform, SIFT)特征用來(lái)構(gòu)建視覺詞袋進(jìn)行圖像分類,極大降低了特征維數(shù)和計(jì)算復(fù)雜度;在視覺詞典生成方面,文獻(xiàn)[2]提出一種基于上下文語(yǔ)義信息的圖像塊視覺
單詞生成方法,在一定程度上提高了視覺單詞的區(qū)分性;文獻(xiàn)[3]提出一種基于隨機(jī)化視覺詞典組的方法,降低了視覺單詞的同義性和歧義性,增強(qiáng)了目標(biāo)的區(qū)分性;在語(yǔ)義表達(dá)方面,文獻(xiàn)[4]提出了一種多方向上下文特征結(jié)合空間金字塔模型的場(chǎng)景分類,該方法將圖像塊在特征域的相似性同空間域的上下文關(guān)系有機(jī)地結(jié)合起來(lái)并加以類別區(qū)分;文獻(xiàn)[5]提出一種基于視覺詞組包模型的圖像分類方法,將圖像的局部特征聚成視覺詞組,再通過詞袋模型進(jìn)行分類,取得了不錯(cuò)的效果;文獻(xiàn)[6]提出一種隨機(jī)化的視覺詞組物體搜索方法,提高了復(fù)雜背景條件下的區(qū)分性。為了克服底層視覺特征與高層語(yǔ)義之間的語(yǔ)義鴻溝,還有的學(xué)者用概率潛在語(yǔ)義分析(Probabilistic Latent Semantic Analysis,PLSA)模型和潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型等主題分析模型來(lái)找出圖像最可能屬于的主題或者潛在語(yǔ)義,從而完成圖像分類。
然而,上述改進(jìn)方法忽略了圖像特征之間的分布規(guī)律,圖像集合類內(nèi)和類間的統(tǒng)計(jì)信息也無(wú)法獲得。鑒于此,越來(lái)越多的人開始從概率統(tǒng)計(jì)的角度進(jìn)行研究。比較有代表性的是文獻(xiàn)[7]提出的視覺語(yǔ)言模型(Visual Language Model,VLM),該方法借鑒文本處理領(lǐng)域統(tǒng)計(jì)語(yǔ)言模型的思想,將其移植到計(jì)算機(jī)視覺領(lǐng)域,認(rèn)為圖像和文本類似,也是由某種視覺單元按照一定的視覺語(yǔ)法排列而成。文獻(xiàn)[8]在視覺語(yǔ)言模型的基礎(chǔ)上提出了尺度不變視覺語(yǔ)言模型,解決了圖像分類過程中尺度匹配問題;同年,文獻(xiàn)[9]將視覺語(yǔ)言模型用于場(chǎng)景識(shí)別,取得了比較好的結(jié)果;文獻(xiàn)[10]在將視覺語(yǔ)言模型運(yùn)用到物體姿態(tài)和結(jié)構(gòu)估計(jì)上,又進(jìn)一步擴(kuò)大了該模型的運(yùn)用范圍;文獻(xiàn)[11]在專利中進(jìn)一步完善并詳細(xì)的描述了視覺語(yǔ)言模型的整個(gè)訓(xùn)練和分類過程;文獻(xiàn)[12]給出一種基于視覺語(yǔ)言模型的圖像語(yǔ)義挖掘方法,該方法是在二元視覺語(yǔ)言模型的基礎(chǔ)上通過視覺單詞的權(quán)重進(jìn)行選擇,然后構(gòu)建圖像的視覺語(yǔ)言模型,最后進(jìn)行圖像分類,取得了不錯(cuò)的效果。由此可見,視覺語(yǔ)言模型在計(jì)算機(jī)圖像處理領(lǐng)域已經(jīng)逐漸開始發(fā)展起來(lái),受到越來(lái)越多的研究者的青睞,并成為一個(gè)新的研究熱點(diǎn)。
然而,傳統(tǒng)的視覺語(yǔ)言模型完全借鑒了統(tǒng)計(jì)語(yǔ)言模型的方法,將整幅圖像劃分成同等重要的視覺單詞集合,只是對(duì)視覺單詞排列的視覺語(yǔ)法進(jìn)行假設(shè),簡(jiǎn)單地通過視覺單詞或視覺單詞組合出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì)。但是,這樣的處理并沒有考慮到圖像和文本的本質(zhì)不同,圖像的背景復(fù)雜多變,不同的物體可以有相同的背景,同一類物體背景往往不是單一的,分布在背景中的視覺單詞對(duì)圖像內(nèi)容表達(dá)的貢獻(xiàn)程度比在前景目標(biāo)上的要小得多。針對(duì)上述問題,本文提出一種基于顯著圖加權(quán)視覺語(yǔ)言模型的圖像分類方法。利用基于視覺注意的顯著性檢測(cè)技術(shù)實(shí)現(xiàn)圖像前景和背景的劃分,將不同區(qū)域的同一視覺單詞賦予不同的顯著度權(quán)重,增強(qiáng)視覺單詞的區(qū)分性。
視覺語(yǔ)言模型的思想來(lái)源于文本處理中的統(tǒng)計(jì)語(yǔ)言模型,是一種通過統(tǒng)計(jì)視覺單詞間的概率分布,以達(dá)到分析圖像塊之間空間相關(guān)信息的模型。文本處理中的最小單位是具有特定含義的單詞,而圖像中最小的單位為像素,無(wú)法表達(dá)具體的內(nèi)容,因此,通常采用具有多個(gè)像素的圖像塊來(lái)進(jìn)行描述。
給定一幅圖像I,首先把圖像分成m×n個(gè)大小相等、互不遮擋的圖像塊,每一個(gè)圖像塊都根據(jù)它的視覺特征用一個(gè)視覺單詞表達(dá)。這樣,圖像I就可以表達(dá)成一個(gè)視覺文檔I={w00,w01,…,wmn},其中,wij表示圖像中第i行、第j列的視覺單詞。然后,每一幅圖像就可以利用文本處理領(lǐng)域中的概率分布估計(jì)方法獲得圖像塊語(yǔ)義之間的相互依賴關(guān)系。比較常用的是一元視覺語(yǔ)言模型和二元視覺語(yǔ)言模型,其中,一元視覺語(yǔ)言模型假設(shè)圖像中的視覺單詞都是獨(dú)立的,二元視覺語(yǔ)言模型假設(shè)圖像中的視覺單詞都是兩兩相關(guān)的,即每一個(gè)視覺單詞只依賴于它的左最近鄰,其條件概率估計(jì)方法如下:
其中,Ck表示圖像集中的第k個(gè)類別;count(wij|Ck)表示在圖像類別Ck中視覺單詞wij出現(xiàn)的次數(shù);count(wij,wi,j-1|Ck)表示在圖像類別Ck中相鄰視覺單詞對(duì)(wij,wi,j-1)出現(xiàn)的次數(shù)。
然而,由于條件概率的計(jì)算方法采用了極大似然估計(jì),可能會(huì)出現(xiàn)零概率的現(xiàn)象,即數(shù)據(jù)的稀疏性問題,因此訓(xùn)練過程中通常需要采用相應(yīng)的平滑算法對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行平滑避免零概率事件的出現(xiàn)。
最后,每一個(gè)待分類圖像按照訓(xùn)練過程一樣將其轉(zhuǎn)換成一個(gè)視覺文檔表示,按照?qǐng)D像視覺單詞和類別間的聯(lián)合概率來(lái)估計(jì)待分類圖像的類別。根據(jù)貝葉斯公式有:
其中,C?為圖像最終所屬的類別。
由于光照、尺度、物體遮擋以及復(fù)雜背景等各種因素的影響,使得圖像分類一直是一個(gè)非常具有挑戰(zhàn)性的難題。傳統(tǒng)視覺語(yǔ)言模型通過分塊的方法將圖像轉(zhuǎn)換成視覺文檔,利用文檔處理領(lǐng)域中統(tǒng)計(jì)語(yǔ)言模型的方法分析視覺單詞間的空間位置信息。然而,文本中每一個(gè)單詞都具有特定的含義,對(duì)于圖像分類而言,同一個(gè)視覺單詞可能在背景區(qū)域,也可能在前景區(qū)域,使得映射到同一個(gè)視覺單詞上的圖像塊可能對(duì)圖像語(yǔ)義的表達(dá)具有不同的重要性。而通常情況下人們只關(guān)心圖像中最為顯著的目標(biāo),通過分析該目標(biāo)的內(nèi)容進(jìn)行類別判定,背景區(qū)域中的視覺單詞屬于類別判定依據(jù)的輔助信息,不當(dāng)?shù)睦迷撔畔⑸踔量赡軙?huì)影響分類結(jié)果的準(zhǔn)確率。為了克服圖像背景噪聲的影響,文獻(xiàn)[13]利用圖像背景噪聲的隨機(jī)性,通過EMD(Earth Mover Distance)[14]來(lái)計(jì)算圖像局部特征和圖像之間的相關(guān)性程度,并賦予一定的權(quán)重,然后濾除掉設(shè)定的權(quán)重閾值以下的局部特征,以達(dá)到降低圖像背景噪聲影響的目的,并取得了不錯(cuò)的效果。文獻(xiàn)[15]指出了圖像背景中的視覺詞組(Visual Phrases,VP)對(duì)圖像內(nèi)容的識(shí)別具有負(fù)面影響,利用標(biāo)注信息將背景中的視覺詞組直接去除。文獻(xiàn)[16]分析了同一類物體可能出現(xiàn)在不同的位置和不同的背景當(dāng)中,復(fù)雜多變的背景信息會(huì)干擾圖像相似度的計(jì)算,降低圖像分類準(zhǔn)確率。
因此,圖像背景和前景中的視覺單詞對(duì)于圖像的描述應(yīng)該具有不同的貢獻(xiàn)程度,前景目標(biāo)中的視覺單詞應(yīng)該被優(yōu)先考慮,并且適當(dāng)提高它的權(quán)重。圖1為2幅不同類別,且視覺單詞分布的區(qū)域也不相同的圖像,但2幅圖中的每一個(gè)視覺單詞卻具有相同的頻次。其中,實(shí)心小矩形、三角和圓圈代表不同區(qū)域的特征;中間的空心圓形區(qū)域代表前景目標(biāo);其他區(qū)域代表背景。以一元視覺語(yǔ)言模型為例,傳統(tǒng)視覺語(yǔ)言模型按式(1)會(huì)估計(jì)出圓點(diǎn)代表的視覺單詞在2幅圖像中的條件概率相同。然而,可以看出圓點(diǎn)代表的視覺單詞在圖1(a)中比在圖1(b)中更能表達(dá)該類圖像的語(yǔ)義,應(yīng)該具有更高的權(quán)重。
圖1 頻次相同但顯著位置不同的圖像示例
綜上所述,為了有效降低圖像背景噪聲的影響,提高視覺語(yǔ)言模型參數(shù)估計(jì)的準(zhǔn)確性和視覺單詞的區(qū)分性,進(jìn)而提高該模型的語(yǔ)義表達(dá)能力和圖像分類準(zhǔn)確率,本文提出一種顯著圖加權(quán)視覺語(yǔ)言模型的圖像分類方法,實(shí)現(xiàn)流程如圖2所示,其中,虛框表示參數(shù)訓(xùn)練過程。該方法首先采用基于視覺注意的顯著性檢測(cè)算法提取圖像中受人眼關(guān)注的顯著區(qū)域,然后根據(jù)圖像區(qū)域顯著度的不同,賦予視覺單詞一定的權(quán)重,并對(duì)視覺語(yǔ)言模型估計(jì)的參數(shù)進(jìn)行加權(quán)處理。
圖2 顯著圖加權(quán)視覺語(yǔ)言模型的圖像分類實(shí)現(xiàn)流程
3.1 顯著區(qū)域的提取
圖像顯著度表示的是圖像特征的顯著程度。基于視覺注意的顯著性檢測(cè)對(duì)于圖像內(nèi)容的表達(dá)和分析過程有著非常重要的意義,它能夠模仿人類所具有的感知選擇能力判斷圖像中哪些區(qū)域?qū)τ谌搜蹃?lái)說是顯著的,檢測(cè)完以后用灰度進(jìn)行量化,最終可以得到顯著圖,利用顯著圖不同的顯著程度能夠提高現(xiàn)有圖像處理的分析能力。如2012年,文獻(xiàn)[17]利用顯著圖提取和層次時(shí)間記憶(Hierarchical Temporal Memory,HTM)用來(lái)進(jìn)行物體識(shí)別和分類,2013年,文獻(xiàn)[18]提出一種顯著性引導(dǎo)視覺匹配的近似重復(fù)圖像檢索,在詞袋模型的基礎(chǔ)上提高
了平均準(zhǔn)確率。
1998年提出的Itti算法文獻(xiàn)[19]是一種經(jīng)典的顯著性檢測(cè)算法,大致分為高斯濾波、計(jì)算底層空間特征圖和計(jì)算顯著圖3個(gè)階段。而本文采用的基于圖論的視覺顯著(Graph Based Visual Saliency, GBVS)算法[20]是在Itti算法的基礎(chǔ)上引入了圖論的知識(shí)把圖像轉(zhuǎn)換為有向完全圖,并用馬爾科夫鏈生成顯著圖,提取的顯著區(qū)域比Itti算法更加準(zhǔn)確。GBVS算法的特征提取階段和Itti算法類似,都是利用顏色、亮度、方向3個(gè)特征生成多個(gè)尺度的特征圖,GBVS算法的顯著圖生成階段按如下步驟進(jìn)行:
(1)定義2個(gè)特征圖M:[n]2→R,特征圖中節(jié)點(diǎn)的距離定義如下:
(2)將特征圖M中的所有節(jié)點(diǎn)兩兩相連得到有向完全圖G,并且節(jié)點(diǎn)M(i,j)到節(jié)點(diǎn)M(p,q)所在的邊按下式賦予一定的權(quán)重:
(3)將從同一個(gè)節(jié)點(diǎn)出發(fā)的邊的權(quán)重歸一化到區(qū)間[0,1]。在圖G上定義馬爾科夫鏈,從節(jié)點(diǎn)兩兩對(duì)比中得到顯著值,并對(duì)顯著值歸一化后得到最終的顯著圖SM[21]。有了顯著圖SM以后,對(duì)原圖像提取顯著區(qū)域:
其中,SMp表示顯著圖SM中的第p百分位數(shù)(將一組n的觀測(cè)值按數(shù)值大小進(jìn)行排列,處于第p%位置的數(shù)值稱為第p百分位數(shù));R表示提取的顯著區(qū)域。百分位數(shù)p的值越大,提取的顯著區(qū)域越小,當(dāng)p的值為0時(shí),提取的顯著區(qū)域就為整幅圖像。圖3是當(dāng)p=75時(shí),GBVS算法和Itti算法提取的顯著區(qū)域結(jié)果對(duì)比。
圖3 GBVS算法和Itti算法顯著區(qū)域提取結(jié)果對(duì)比
3.2 顯著圖加權(quán)視覺語(yǔ)言模型的構(gòu)建
對(duì)于圖像庫(kù)中的每一幅圖像I,首先,根據(jù)視覺語(yǔ)言模型的假設(shè),將其分成m×n個(gè)大小相等、互不遮擋的圖像塊,對(duì)每一個(gè)圖像塊按照文獻(xiàn)[8]方法提取8維的紋理直方圖特征,該特征不僅對(duì)旋轉(zhuǎn)具有很好的魯棒性,而且相比SIFT特征、RGB和HSV顏色特征而言維度更低,計(jì)算更為方便;再將所有的特征通過k-means聚類,生成視覺詞典V;然后,將圖像中每一個(gè)圖像塊對(duì)應(yīng)的特征向量映射到視覺詞典中具體的視覺單詞上,這樣,圖像I就可以按式(1)表示成一個(gè)視覺文檔;最后,將處在圖像中不同區(qū)域的視覺單詞進(jìn)行顯著度標(biāo)識(shí)。不失一般性,每一個(gè)視覺文檔可以表示成m×n個(gè)帶有顯著圖標(biāo)識(shí)的視覺單詞的集合,即:
其中,wi對(duì)應(yīng)視覺詞典V中的視覺單詞;yi表示該視覺單詞所處的區(qū)域,y=1表示該視覺單詞處在顯著區(qū)域,y=-1表示該視覺單詞處在背景區(qū)域。然后每一個(gè)視覺單詞的條件概率根據(jù)所處的區(qū)域加上不同的顯著度權(quán)重,其參數(shù)估計(jì)和顯著度權(quán)重計(jì)算表達(dá)式如下:
此外,本文還考慮到另外2種情況:(1)當(dāng)視覺單詞wi的顯著權(quán)重αi,k為1的時(shí)候,非顯著權(quán)重βi,k就為0(或者非顯著權(quán)重βi,k為1的時(shí)候,顯著權(quán)重αi,k就為0),就會(huì)使得式(11)(或者式(12))中的乘積為0。為了避免這種情況的出現(xiàn),本文也對(duì)顯著度權(quán)重進(jìn)行簡(jiǎn)單的平滑處理;(2)當(dāng)視覺單詞wi沒有出現(xiàn)在類別Ck中時(shí)候,顯著度權(quán)重就沒法通過式(13)~式(15)獲得。因此,本文假設(shè)這樣的視覺單詞在類別Ck中顯著權(quán)重和非顯著權(quán)重是相等的,都取值為0.5,在沒
有先驗(yàn)知識(shí)或者訓(xùn)練數(shù)據(jù)不夠充分的情況下這樣的假設(shè)也是合理的。
對(duì)于一幅待分類圖像,按照訓(xùn)練過程將其生成對(duì)應(yīng)帶有顯著圖標(biāo)識(shí)的視覺文檔,然后按照貝葉斯公式計(jì)算該圖像屬于各個(gè)類別的概率,以最大值所屬類別判為該圖像的最終分類結(jié)果。對(duì)應(yīng)一元視覺語(yǔ)言模型和二元視覺語(yǔ)言模型的分類計(jì)算方法分別為:
其中,ωwi,k表示第k個(gè)類別中第i個(gè)視覺單詞wi的顯著度權(quán)重,處于顯著區(qū)域時(shí)取值為顯著權(quán)重αi,k,處于背景區(qū)域時(shí)取值為非顯著權(quán)重βi,k。特別要說明的是,當(dāng)圖像的所有區(qū)域都定義為顯著區(qū)域時(shí),即默認(rèn)所有的視覺單詞都是顯著的,這樣每一個(gè)視覺單詞的顯著權(quán)重都為1,非顯著權(quán)重都為0,則本文方法退化為傳統(tǒng)的視覺語(yǔ)言模型,所以,可以說傳統(tǒng)視覺語(yǔ)言模型是本文方法的一個(gè)特例。
本文實(shí)驗(yàn)數(shù)據(jù)采用構(gòu)建的Callech-101圖像庫(kù)[22],共包含了101個(gè)物品分類共8 677幅圖像。這里從圖像庫(kù)中選取6個(gè)類別進(jìn)行實(shí)驗(yàn),分別為飛機(jī)、汽車、人臉、鋼琴、蝴蝶和消防車共6個(gè)類別,每一個(gè)類別的圖像的數(shù)量在90~800不等,且每一個(gè)類別的圖像都具有較大的類內(nèi)差異和復(fù)雜的背景信息,更能驗(yàn)證本文改進(jìn)方法的性能。圖4給出了每一類圖像的示例。
圖4 6類實(shí)驗(yàn)圖像示例
為了獲取可靠的實(shí)驗(yàn)結(jié)果,將所選擇的圖像類別隨機(jī)分為訓(xùn)練集和測(cè)試集2個(gè)部分,每一類的圖像隨機(jī)選擇80幅圖像進(jìn)行實(shí)驗(yàn),其中,50幅圖像作為訓(xùn)練集,30幅圖像作為測(cè)試集。此外,為了方便圖像進(jìn)行多種分塊處理,將所有圖像大小均統(tǒng)一重置成200×200像素。最后重復(fù)進(jìn)行10次獨(dú)立實(shí)驗(yàn),并將所有類別的平均準(zhǔn)確率(Mean Average Precision,MAP)作為最終的性能評(píng)價(jià)指標(biāo),其定義如下:
本文分析不同視覺詞典大小對(duì)視覺語(yǔ)言模型分類結(jié)果的影響。分別采用4種不同的視覺單詞數(shù)目,包括{50,100,200,300},圖像的分塊數(shù)量為20× 20塊,其分類性能的比較情況如圖5所示。
圖5 不同詞典大小對(duì)分類結(jié)果的影響
實(shí)驗(yàn)結(jié)果表明,選取合適的詞典大小的確對(duì)分類性能有一定的影響:一方面,視覺單詞數(shù)目太少時(shí),不能有效地表達(dá)圖像內(nèi)容的復(fù)雜性,且容易造成同一視覺單詞表示不同圖像內(nèi)容的情況,即視覺單詞的歧義性問題;另一方面,增大視覺詞典的規(guī)模的確能在一定程度上提高分類的性能,但是,當(dāng)視覺詞典規(guī)模達(dá)到一定程度時(shí)對(duì)分類效果的提升并不明顯,并且隨著視覺單詞數(shù)目的增多,也容易造成視覺單詞的同義性問題。此外,視覺語(yǔ)言模型參數(shù)估計(jì)的復(fù)雜度也將隨之增大,更容易產(chǎn)生數(shù)據(jù)的稀疏問題。因此,本文在實(shí)驗(yàn)中采用分類性能較高的視覺單詞數(shù)目200。
本文分析不同的圖像分塊規(guī)則對(duì)視覺語(yǔ)言模型分類結(jié)果的影響。實(shí)驗(yàn)結(jié)果如圖6所示,其中,分塊規(guī)則的條件為p=60。由圖6可以看出,分塊數(shù)目也是決定視覺語(yǔ)言模型分類性能的一個(gè)重要參數(shù),分塊數(shù)目較小時(shí)造成圖像塊描述圖像比較粗糙,對(duì)圖像語(yǔ)義的表達(dá)帶來(lái)很多冗余的信息,影響了圖像分類的結(jié)果,然而分塊數(shù)目過多也容易造成生成的圖
像塊太小,描述過于精細(xì)對(duì)圖像語(yǔ)義的表達(dá)又不準(zhǔn)確。針對(duì)不同的圖像庫(kù)選擇合適的分塊數(shù)目能有效增強(qiáng)圖像語(yǔ)義的表達(dá)能力,提高視覺語(yǔ)言模型的分類準(zhǔn)確率。從實(shí)驗(yàn)結(jié)果可以看出,不同的分塊數(shù)目條件下本文方法的分類準(zhǔn)確率都要優(yōu)于傳統(tǒng)視覺語(yǔ)言模型。
圖6 不同分塊數(shù)目下2種方法的平均準(zhǔn)確率對(duì)比
本文再分析不同的百分位數(shù)對(duì)視覺語(yǔ)言模型分類結(jié)果的影響。實(shí)驗(yàn)結(jié)果如圖7所示。特別要說明的是當(dāng)百分位數(shù)取值為0時(shí),提取的顯著區(qū)域?yàn)檎鶊D像,此時(shí),本文方法退化為傳統(tǒng)視覺語(yǔ)言模型。在圖7的實(shí)驗(yàn)結(jié)果中,百分位數(shù)取值為0時(shí)表示取整幅圖為顯著區(qū)域,即傳統(tǒng)的視覺語(yǔ)言模型。隨著百分位數(shù)的增大,提取的顯著區(qū)域就越小,然而不同圖像類別的前景目標(biāo)在圖像中所占的顯著比例是不一樣的。一方面,提取的顯著區(qū)域越精準(zhǔn),訓(xùn)練的權(quán)重就越可靠,分類的結(jié)果越好;另一方面,提取的顯著區(qū)域太粗糙時(shí),也有可能造成圖像語(yǔ)義表達(dá)的冗余,降低了視覺語(yǔ)言模型的分類準(zhǔn)確率。如百分位數(shù)取值為25時(shí),提取的顯著區(qū)域過大,百分位數(shù)取值為90時(shí),提取的顯著區(qū)域又過小,2種情況的分類結(jié)果反而比傳統(tǒng)視覺語(yǔ)言模型要低。但是由圖7的實(shí)驗(yàn)結(jié)果已經(jīng)充分說明了在合適的百分位數(shù)條件下(如p取值為60時(shí))本文提出的顯著圖加權(quán)視覺語(yǔ)言模型可以通過挖掘圖像中視覺單詞的顯著性程度,有效地提高視覺單詞的語(yǔ)義區(qū)分性,改善了視覺語(yǔ)言模型的分類性能。
圖7 不同p下2種方法的平均準(zhǔn)確率對(duì)比
將顯著圖加權(quán)視覺語(yǔ)言模型的圖像分類和傳統(tǒng)視覺語(yǔ)言模型的圖像分類方法以及文獻(xiàn)[10,14]中的視覺語(yǔ)言模型改進(jìn)方法的實(shí)驗(yàn)結(jié)果做了對(duì)比,如表1所示。文獻(xiàn)[10]方法采用多尺度視覺語(yǔ)言模型解決了分類目標(biāo)的尺度匹配問題,文獻(xiàn)[14]方法則利用視覺單詞的頻次和圖像頻數(shù)對(duì)視覺單詞的權(quán)重進(jìn)行了優(yōu)化,兩者從不同的角度在一定程度上彌補(bǔ)了傳統(tǒng)視覺語(yǔ)言模型的不足,但在參數(shù)估計(jì)時(shí)仍然忽略了圖像背景噪聲的影響,在圖像背景較為復(fù)雜的情況下減弱了參數(shù)估計(jì)的準(zhǔn)確性,降低了圖像分類的性能。而本文提出的顯著圖加權(quán)視覺語(yǔ)言模型針對(duì)視覺單詞所區(qū)域的不同,增加了估計(jì)參數(shù)的顯著度權(quán)重,有效降低了圖像背景噪聲的影響。從表1可以看出,本文方法的性能優(yōu)于其他方法。
表1 4種方法平均準(zhǔn)確率比較%
本文提出一種基于顯著圖加權(quán)視覺語(yǔ)言模型的圖像分類方法。該方法將基于視覺注意的顯著性檢測(cè)算法與視覺語(yǔ)言模型相結(jié)合,采用顯著圖加權(quán)機(jī)制挖掘視覺單詞的顯著性。實(shí)驗(yàn)結(jié)果表明,該方法具有較好的分類性能,其分類準(zhǔn)確率得到提高。然而,本文方法的性能依賴于顯著圖提取的準(zhǔn)確性,提取顯著區(qū)域的參數(shù)需要人為設(shè)定,在一定程度上降低了該方法的自適應(yīng)性,因此,如何準(zhǔn)確地分割前景目標(biāo)和提高其自適應(yīng)性是今后的研究重點(diǎn)。
[1]Gao Haolin,Dou Linhui,Chen Weijin.Image Classification with Bag-of-Words Model Based on Improved SIFT Algorithm[C]//Proceedings of the 9th Asian Control Conference.[S.l.]:IEEE Press,2013:1-6.
[2]劉碩研,須 德.一種基于上下文語(yǔ)義信息的圖像塊視覺單詞生成算法[J].電子學(xué)報(bào),2010,38(5):1156-1161.
[3]趙永威,郭志剛,李弼程,等.基于隨機(jī)化視覺詞典組和上下文語(yǔ)義信息的目標(biāo)檢索方法[J].電子學(xué)報(bào), 2012,40(12):2472-2480.
[4]胡正平,涂瀟蕾.多方向上下文特征結(jié)合空間金字塔模型的場(chǎng)景分類[J].信號(hào)處理,2011,27(10): 1536-1542.
[5]張琳波,王春恒,肖柏華,等.基于Bag-of-Phrases的圖像表示方法[J].自動(dòng)化學(xué)報(bào),2012,38(1):46-54.
[6]Jiang Yang,Meng Ji,Yuan Jin.Randomized Visual Phrases for Object Search[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.New York,USA:IEEE Press,2012:3100-3107.
[7]Wu Lei,Li Meng,Li Zi,et al.Visual Language Modeling for Image Classification[C]//Proceedings of International WorkshoponWorkshoponMultimediaInformation Retrieval.Pairs,France:IEEE Press,2007:115-124.
[8]Wu Lei,Hu Yong,Li Meng,et al.Scale-invariant Visual Language Modeling for Object Categorization[J].IEEE Transactions on Multimedia,2009,11(2):286-294.
[9]Pham T T,MaisonnasseL,MulhemP,etal.Visual Language Model for Scene Recognition[C]//Proceedings of Singaporean-French Ipal Symposium.New York,USA: ACM Press,2009:76-85.
[10]Narayanaswamy S,BarbuA,SiskindJM.A Visual Language Model for Estimating Object Pose and Structure in a Generative Visual Domain[C]//Proceedings of IEEE International Conference on Robotics and Automation.Landon,UK:IEEE Press,2011:4854-4860.
[11]Li Minjin,MaWuyang.VisualLanguageModeling for Image Classification:USA,US008126274B2[P].2012-02-28.
[12]金 聰,劉金安,金樞煒.基于視覺語(yǔ)言模型的圖像語(yǔ)義挖掘研究[J].圖書情報(bào)工作,2013,57(5): 120-123.
[13]Liu Shi,Bai Xia.Discriminative Features for Image Classification and Retrieval[J].Pattern Recognition Letters,2012,33(6):744-751.
[14]Rubner Y,Tomasi C,Guibas L J.The Earth Mover’s Distance as a Metric for Image Retrieval[J].International Journal of Computer Vision,2000,40(2):99-121.
[15]Chen Tao,Kang Ya,Zhang Deng.Discriminative Soft Bagof-Visual Phrase for Mobile Landmark Recognition[J].IEEE Transactions on Multimedia,2013,16(3):612-622.
[16]Yan Yupeng,Tian Xinmei,Yang Linjun,et al.Semanticspatial Matching for Image Classification[C]//Proceedings of IEEE International Conference on Multimedia and Expo.New York,USA:IEEE Press,2013:1-6.
[17]Kostavelis I,Nalpantidis L,Gasteratos A.Object Recognition Using Saliency Maps and HTM Learning[C]//Proceedings of IEEE International Conference on Imaging Systems and Techniques.Paris,France:IEEE Press,2012:528-532.
[18]Li Lin,Jiang Shan,Zha Zheng,et al.Partial-duplicate Image Retrieval via Saliency-guided Visually Matching[J].IEEE Transactions on Multimedia,2013,20(3):13-23.
[19]Itti L,Koch C,Niebur E.A Model of Saliency-based Visual Attention for Rapid Scene Analysis[J].IEEE TransactionsonPatternAnalysisandMachine Intelligence,1998,20(11):1254-1259.
[20]Harel J,KochC,PeronaP.Graph-basedVisual Saliency[C]//ProceedingsofAdvancesinNeural Information Processing Systems.Washington D.C.,USA: IEEE Press,2006:545-552.
[21]馬儒寧,涂小坡,丁軍娣,等.視覺顯著性凸顯目標(biāo)的評(píng)價(jià)[J].自動(dòng)化學(xué)報(bào),2012,38(5):870-876.
[22]Li Feifei,Fergus R,Perona P.Learning Generative Visual Models from Few Training Examples:An Incremental Bayesian Approach Tested on 101 Object Categories[J].Computer Vision and Image Understanding,2007,106(1): 59-70.
編輯 劉 冰
Image Classification Method Based on Weighted Visual Language Model for Saliency Map
WANG Tingjin,ZHAO Yongwei,LI Bicheng
(Institute of Information System Engineering,Information Engineering University,Zhengzhou 450002,China)
At the parameter estimation stage of the image classification method based on the traditional Visual Language Model(VLM),the distribution of visual words is usually analysed via maximum likelihood estimation,which ignores the adverse effect of image background noise.In view of the problem,an image classification method of weighted VLM for saliency map is put forward.The salient regions and background regions are extracted via saliency detection algorithm based on visual attention,the visual documents of images with salient labels are constructed,and the salient weights and conditional probability are estimated in the training phase.The images are classified with weighted VLM for saliency map.Experimental results show that,this method can effectively reduce the influence of image background noise,and enhances the discrimination performance of visual words,so as to improve the performance of image classification based on VLM.
image information;Visual Language Model(VLM);image classification;background region;saliency map
王挺進(jìn),趙永威,李弼程.基于顯著圖加權(quán)視覺語(yǔ)言模型的圖像分類方法[J].計(jì)算機(jī)工程,2015, 41(3):204-210.
英文引用格式:Wang Tingjin,Zhao Yongwei,Li Bicheng.Image Classification Method Based on Weighted Visual Language Model for Saliency Map[J].Computer Engineering,2015,41(3):204-210.
1000-3428(2015)03-0204-07
:A
:TP391
10.3969/j.issn.1000-3428.2015.03.039
王挺進(jìn)(1988-),男,碩士研究生,主研方向:圖像分析與處理;趙永威,博士研究生;李弼程,教授、博士、博士生導(dǎo)師。
2014-03-21
:2014-04-28E-mail:363078125@qq.com