王培培,陳斯宇
(吉林大學(xué),吉林 長春 130000)
由于共享信息的不斷膨脹,網(wǎng)絡(luò)中圖像的數(shù)量也在快速增長,其中隱藏著復(fù)雜且眾多的信息量,因此,如何對網(wǎng)絡(luò)上的圖像信息進(jìn)行有效而迅速的管理成為了當(dāng)今時代的熱點問題。圖像自動標(biāo)注是解決圖像檢索過程中至關(guān)重要的步驟,這一過程取決于檢索過程中圖像的內(nèi)容,計算機根據(jù)圖像的內(nèi)容自動生成圖像對應(yīng)的標(biāo)注性關(guān)鍵字[1-3]。在圖像檢索過程中,經(jīng)常采用三種特征,分別為:顏色特征、形狀特征和紋理特征[4-6]。其中顏色特征可以最簡單的描述一副圖像的視覺特征;形狀特征可以最本質(zhì)的決定整幅圖像的含義,同時可以最直接的用于對圖像進(jìn)行識別;紋理特征可以描述圖像結(jié)構(gòu)與顏色分布,是刻畫像素鄰域灰度空間分布的一種特征。圖像自動標(biāo)注作為實現(xiàn)圖像高層語言的理解,通過計算機生成圖像的語言描述,幫助人類迅速有效地理解圖像,具有重要的實用價值。文獻(xiàn)[7]融合PLSA和隨機游走模型的自動圖像方法,對已經(jīng)標(biāo)注的圖像文本信息,構(gòu)建一個非對等模態(tài)的PLSA模型,來計算圖像初始語言標(biāo)注,然后與相關(guān)聯(lián)的視覺信息構(gòu)建標(biāo)注圖像,在所構(gòu)建的相似性圖像上隨機游走,進(jìn)一步分析初始語言標(biāo)注的潛在語言關(guān)聯(lián),最終獲得圖像的精準(zhǔn)化語言標(biāo)注,該方法能夠更好的標(biāo)注圖像效果和檢索性能,然而,該方法過于依賴圖像的視覺特性,很容易引起多義和同義現(xiàn)象。文獻(xiàn)[8]采用一種小波域K-Means遙感圖像分類標(biāo)注算法,利用K-Means提取遙感圖像的紋理特征,對遙感圖像在小波域的分布特征進(jìn)行濾波處理,利用語義對濾波后的圖像采取矢量分割歸類,對快速標(biāo)注的圖像進(jìn)行視覺分析,該方法能夠?qū)ψ兓膱D像得到更好的檢測結(jié)果,但是在分割的過程中很容易造成過分割和欠分割的現(xiàn)象。文獻(xiàn)[9]基于多特征融合與PLSA-GMM的圖像自動標(biāo)注方法,在圖像檢索過程中提取顏色特征、形狀特征和紋理特征,然后融合PLSA與GMM構(gòu)建圖像底層特征和所標(biāo)注的關(guān)鍵詞之間的聯(lián)系,實現(xiàn)對圖像的自動標(biāo)注,采用Corel 5k數(shù)據(jù)庫驗證結(jié)果表明該方法能夠較好的對圖像進(jìn)行標(biāo)注,但圖像處理的效率較低。
基于以上研究的優(yōu)缺點,本文根據(jù)圖像在空間位置上的特征關(guān)系,將判別模型與生成模型的優(yōu)點相結(jié)合來提高圖像標(biāo)注的性能,通過構(gòu)建層疊圖像標(biāo)注模型與自適應(yīng)劃分標(biāo)注的方法相結(jié)合,利用相對很少的訓(xùn)練圖像實現(xiàn)更好的標(biāo)注結(jié)果,增強圖像區(qū)域自適應(yīng)劃分標(biāo)注的精度,有利于增強圖像的畫質(zhì)感,提高圖像標(biāo)注的效率。
對于任意一幅圖像,人類更容易被與周圍事物反差相對較大的事物所吸引。圖像的位置特征在人類視覺方面有著至關(guān)重要的影響。相鄰區(qū)域的高度對比,與相距較遠(yuǎn)區(qū)域的高度對比,人類的視覺通常對前者的沖擊更為敏感?;叵肴祟悓κ挛镉^察的情景,人類常常通過轉(zhuǎn)動視角把吸引自己的事物匯聚在視角中心。與此相似,在圖像采集過程中,圖像的空間位置特征屬于圖像標(biāo)注的一部分,假設(shè)圖像在空間中的某點Q,其在空間坐標(biāo)系中的坐標(biāo)表示為(X,Y,Z),左右視覺像的平面坐標(biāo)分別表示為(ul,vl)和(ur,vr),在空間中圖像的位置關(guān)系如圖1所示。
圖1 空間中圖像的位置關(guān)系
在空間視覺系統(tǒng)中,通過建立在同一個視覺坐標(biāo)系下的圖像,得到兩組關(guān)于空間三維信息的線性方程,可以表示為
(al1-ulcl1)·X+(al2-ulcl2)·Y+(al3-ulcl3)·Z
=ulZl-Xl(bl1-vlcl1)·X+(bl2-vlcl2)·Y
+(bl3-vlcl3)·Z
=vl·Zl-Yl
(1)
(ar1-urcr1)·X+(ar2-urcr2)·Y+(ar3-urcr3)·Z
=urZr-Xr(br1-vrcr1)·X+(br2-vrcr2)·Y
+(br3-vrcr3)·Z
=vr·Zr-Yr
(2)
其中,(al1,al2,al3)、(bl1,bl2,bl3)、(cl1,cl2,cl3)和(Xl,Yl,Zl)分別表示左視覺的參數(shù)坐標(biāo);(ar1,ar2,ar3)、(br1,br2,br3)、(cr1,cr2,cr3)和(Xr,Yr,Zr)分別表示右視覺的參數(shù)坐標(biāo)。假設(shè)所使用的左右視覺參數(shù)均為已知,且對視覺模型進(jìn)行構(gòu)建,已知左右視覺坐標(biāo)(ul,vl)、(ur,vr)和內(nèi)外參數(shù),即可求解點Q的空間位置坐標(biāo)(X,Y,Z),用方程可表示為
aX+bY+cZ=1
(3)
其中,H=(a,b,c)T表示已知的方程系數(shù)。將圖像空間位置引入到測試過程中,利用區(qū)域輪廓距離圖像中心的大小構(gòu)建空間位置特征函數(shù),提高圖像區(qū)域顯著性。歸一化后的圖像位置特征函數(shù)表示為
(4)
Ei即表示第i個圖像區(qū)域的位置特征函數(shù),且滿足Ei∈[0,1];(xi,yi)點表示第i個圖像區(qū)域的質(zhì)點坐標(biāo);H和W分別表示圖像區(qū)域的高度和寬度。通過上述公式便可求解出空間中的任意圖像坐標(biāo)點,求出對應(yīng)的空間位置。
本文提出的層疊圖像標(biāo)注模型主要思想是利用自適應(yīng)算法給一幅待標(biāo)注的圖像進(jìn)行聚類,然后判斷這幅待標(biāo)注圖像的類別,選取其中類別概率相對高的幾種聚類作為該圖像的相關(guān)圖像集合,利用模型和待標(biāo)注圖像的相關(guān)圖像集合對圖像進(jìn)行標(biāo)注。
在本文的層疊自動標(biāo)注模型中,將待標(biāo)注的圖像分配到其對應(yīng)的聚類里面,這相當(dāng)于圖像標(biāo)注中的第一層標(biāo)注(主題標(biāo)注),主題標(biāo)注是給待標(biāo)注的圖像標(biāo)注幾個待選擇的主題內(nèi)容,所謂的主題是對所有的訓(xùn)練圖像進(jìn)行聚類得到的,因此每個聚類下所有的圖像內(nèi)容都應(yīng)與主題一一對應(yīng),主題概念只針對同一個視覺下的抽象概念,不具備實際意義。
本文通過構(gòu)建圖像和關(guān)鍵詞的方法構(gòu)建兩者之間的聯(lián)系。將每個關(guān)鍵詞和所對應(yīng)的圖像構(gòu)成一個集合,同個集合中的圖像最少對應(yīng)某一種相同的關(guān)鍵詞,這樣圖像集合的個數(shù)便取決于所標(biāo)注的詞匯個數(shù)。由于實際生活中同一種場景里面的不同物體之間必然存在著某種客觀聯(lián)系,因此通過相同的語義目標(biāo)所建立的同一個集合里不同物體之間一定會存在著直接或間接的聯(lián)系,這樣就可以方便的建立相似場景里圖像和關(guān)鍵詞之間的關(guān)系了。
根據(jù)以上分析,需要設(shè)計迭代算法,選擇最優(yōu)圖像集合對相關(guān)圖像進(jìn)行拓展,在層疊圖像標(biāo)注模型中,對待標(biāo)注圖像進(jìn)行訓(xùn)練的權(quán)值用公式可表示為
(5)
(6)
(7)
(8)
那么第t+1次迭代時對應(yīng)圖像的權(quán)值用公式可表示為
(9)
(10)
(11)
綜上所述,待標(biāo)注圖像集合迭代算法終止條件用公式可表示為:
(12)
其中,αbn表示按降序排列時相對應(yīng)圖像的權(quán)值;R表示最終所選定圖像集合的大??;θ表示相鄰兩次迭代相對應(yīng)圖像差值的閾值大??;?表示迭代次數(shù)閾值大小。
每幅圖像區(qū)域和標(biāo)注詞之間并不是完全對應(yīng)關(guān)系,上節(jié)的目的只是為了找到整幅待標(biāo)注圖像中最合適的若干標(biāo)注詞,為了準(zhǔn)確找到圖像標(biāo)注詞,本節(jié)采用自適應(yīng)劃分標(biāo)注的方法對圖像進(jìn)行標(biāo)注。
按照密度運行的多樣性可知,應(yīng)在圖像區(qū)域里面確定一個最優(yōu)的標(biāo)注,把每幅圖片打包成一個整體,經(jīng)過自適應(yīng)劃分后,將圖像作為包中的一個典范。假設(shè)把標(biāo)注集合C(x(t))的圖像bi作為一個包,圖像塊zi∈bi作為包中的一個典范,就圖像集合R而言,在自適應(yīng)劃分標(biāo)注中,圖像集合用公式可表示為
G={Fi,Hi}·Ki
(13)
其中,G表示學(xué)習(xí)樣本;Hi表示Fi相對應(yīng)的標(biāo)注集合;Ki表示學(xué)習(xí)樣本G中圖像的個數(shù)。就h∈H而言,如果圖像Fi中有一樣的標(biāo)注,可將其規(guī)定為正包,不一樣的標(biāo)注規(guī)定為負(fù)包。通過計算zi與正負(fù)包之間的距離,能夠求得zi在不同標(biāo)注值h下的得分值。那么選擇最大得分值所對應(yīng)的圖像標(biāo)注便是圖像的最佳標(biāo)注,得分值用公式表示為
(14)
其中,F(xiàn)Z(u,v)表示標(biāo)注為v時圖像u所對應(yīng)的得分值FZ;minFi表示在圖像空間位置范圍內(nèi),與典范圖像u最近的Fi包中的任何一個典范圖像;maxFi表示圖像空間位置范圍內(nèi),與典范圖像u最遠(yuǎn)的Fi包中的任何一個典范圖像;minFi和maxFi應(yīng)分別滿足如下公式
(15)
(16)
綜上所述,可以通過求得分值FZ最大時的標(biāo)注作為圖像典范的最佳標(biāo)注,因此便可以實現(xiàn)圖像區(qū)域的自適應(yīng)劃分標(biāo)注。
為了驗證提出的層疊圖像空間位置特征自適應(yīng)標(biāo)注方法的可行性,本文在Corel5k數(shù)據(jù)包上進(jìn)行實驗,該數(shù)據(jù)包包含多組圖片集合共10000幅圖像,每個數(shù)據(jù)包中包含相同主題的圖像有200幅,每幅圖像中有2~10個左右的關(guān)鍵詞,總計關(guān)鍵詞為520個。將圖像的視覺特征劃分為64×64的圖像區(qū)域,并將圖像區(qū)域劃分成1618維度的特征向量,其中顏色特征為162維度、形狀特征為240維度、紋理特征為118維度。最后將這些特征聚集成為視覺圖像,把每幅圖像打成一個包,從而構(gòu)建層疊圖像標(biāo)注模型。
為了驗證本文設(shè)計的標(biāo)注性能,在Corel5k數(shù)據(jù)包上,將最佳性能的98個關(guān)鍵詞和總計的520個關(guān)鍵詞分別構(gòu)成集合,基于語義標(biāo)注結(jié)果對文獻(xiàn)[7]、文獻(xiàn)[8]、文獻(xiàn)[9]和本文的方法進(jìn)行對比。語義標(biāo)注結(jié)果如表1所示。
表1 語義標(biāo)注結(jié)果
從表1中可以看出,本文提出的自適應(yīng)標(biāo)注算法標(biāo)注結(jié)果明顯優(yōu)于其它幾種算法,即使當(dāng)一些關(guān)鍵詞沒有顯示在最初標(biāo)注的情況下,但通過本文算法在某種程度上也能使多數(shù)關(guān)鍵詞標(biāo)注在圖像中。本文提出的算法在最佳性能關(guān)鍵詞為98個時,語義標(biāo)注的結(jié)果分別高出文獻(xiàn)[7]、文獻(xiàn)[8]和文獻(xiàn)[9]約13%、19%和26%。總關(guān)鍵詞為520個時,對圖像語義標(biāo)注結(jié)果明顯優(yōu)于文獻(xiàn)[7]、文獻(xiàn)[8]和文獻(xiàn)[9],且語義標(biāo)注的結(jié)果分別高出18%、20%和28%,表明本文方法具有更好的特征識別效果與標(biāo)注的全面性。
為了進(jìn)一步驗證本文提出方法的可行性,基于Corel5k數(shù)據(jù)包上,在總關(guān)鍵詞為520、標(biāo)注詞由2個增加到10個時,將圖像標(biāo)注的準(zhǔn)確性與文獻(xiàn)[7]、文獻(xiàn)[8]和文獻(xiàn)[9]進(jìn)行橫向?qū)Ρ?,有關(guān)準(zhǔn)確性的對比結(jié)果如圖2所示。
圖2 圖像標(biāo)注準(zhǔn)確性對比結(jié)果
從圖中可以看出,當(dāng)標(biāo)注詞由2個增加到10個時,圖像標(biāo)注的準(zhǔn)確率呈下降的趨勢,但與其它三種方法相比,本文所提的自適應(yīng)劃分標(biāo)注方法具有最好的標(biāo)注性能,準(zhǔn)確率最高。標(biāo)注準(zhǔn)確率在關(guān)鍵詞高達(dá)到10個時,分別高出文獻(xiàn)[7]、文獻(xiàn)[8]和文獻(xiàn)[9]約15.7%、20.3%和35.2%。
隨著網(wǎng)絡(luò)信息的快速發(fā)展,網(wǎng)絡(luò)上的圖像信息管理成為了人們關(guān)注的重點問題,針對這一情況,本文提出了層疊圖像空間位置特征的自適應(yīng)標(biāo)注方法。首先,類比人類采集圖像的過程,根據(jù)圖像的空間位置特征求解出空間中的任意圖像坐標(biāo)點,歸一化圖像位置特征函數(shù),求出對應(yīng)的空間位置。其次,對待標(biāo)注的圖像進(jìn)行聚類,選取其中類別概率相對高的幾種聚類作為該圖像的相關(guān)圖像集合,利用迭代算法對待標(biāo)注圖像進(jìn)行擴展。最后,按照密度運行的多樣性,把標(biāo)注集合的圖像作為一個包,求解出最大得分值對應(yīng)的圖像,得到最佳標(biāo)注。實驗結(jié)果表明,本文提出的自適應(yīng)劃分標(biāo)注算法能夠充分利用圖像包含的特征,分析標(biāo)注出更多的關(guān)鍵詞,提高標(biāo)注的全面性,同時也顯著提高了標(biāo)注的準(zhǔn)確性。