柯 逍,李紹滋
(1. 廈門(mén)大學(xué)智能科學(xué)與技術(shù)系,廈門(mén) 361005;2. 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,廈門(mén) 361005)
基于區(qū)域空間與詞匯加權(quán)的圖像自動(dòng)標(biāo)注
柯 逍1,2,李紹滋1,2
(1. 廈門(mén)大學(xué)智能科學(xué)與技術(shù)系,廈門(mén) 361005;2. 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,廈門(mén) 361005)
圖像自動(dòng)標(biāo)注是圖像檢索與圖像理解中重要而又極具挑戰(zhàn)性的問(wèn)題.針對(duì)現(xiàn)有模型忽略了圖像不同區(qū)域?qū)D像整體貢獻(xiàn)程度的差異性,提出了基于區(qū)域空間加權(quán)的標(biāo)注方法,改善了圖像的區(qū)域特征生成概率估計(jì).此外,針對(duì)現(xiàn)有模型未考慮詞匯本身重要性以及詞匯分布對(duì)標(biāo)注性能的影響,提出了基于詞匯固定權(quán)值的標(biāo)注方法、基于平滑詞匯頻率的標(biāo)注方法以及基于詞匯 TF-IDF加權(quán)的標(biāo)注方法,對(duì)詞匯的生成概率估計(jì)部分進(jìn)行了改進(jìn).綜合以上區(qū)域空間改進(jìn)與詞匯改進(jìn),提出了 WDVRM 圖像標(biāo)注模型.通過(guò)在 Corel數(shù)據(jù)庫(kù)進(jìn)行的實(shí)驗(yàn),驗(yàn)證了 WDVRM 模型的有效性.
圖像自動(dòng)標(biāo)注;區(qū)域加權(quán);詞匯加權(quán);相關(guān)模型
圖像自動(dòng)標(biāo)注是指根據(jù)圖像的視覺(jué)內(nèi)容,由計(jì)算機(jī)自動(dòng)產(chǎn)生圖像所對(duì)應(yīng)的文本標(biāo)注信息.圖像自動(dòng)標(biāo)注對(duì)于圖像檢索很有意義.經(jīng)過(guò)圖像自動(dòng)標(biāo)注后,用戶(hù)只需要提交文本關(guān)鍵詞進(jìn)行檢索,檢索方式相比基于內(nèi)容的圖像檢索更加便捷,也更符合大多數(shù)用戶(hù)的搜索習(xí)慣.目前商業(yè)化的圖像搜索引擎,如Google、Yahoo、Baidu等,對(duì)圖像標(biāo)注所采用的技術(shù)還屬于自然語(yǔ)言處理領(lǐng)域,即主要利用網(wǎng)頁(yè)中圖像的上下文信息作為圖像的標(biāo)注,如圖像的文件名及URL、ALT標(biāo)簽、錨文本以及圖像周?chē)沫h(huán)繞文本等信息.但這類(lèi)方法并沒(méi)有使用圖像內(nèi)部特征,效果也不理想.文中所研究的圖像自動(dòng)標(biāo)注不同于這些商業(yè)化搜索引擎的標(biāo)注方法,研究主要針對(duì)圖像的視覺(jué)內(nèi)容產(chǎn)生相應(yīng)圖像的標(biāo)注,可稱(chēng)為基于內(nèi)容的圖像自動(dòng)標(biāo)注.基于內(nèi)容的圖像自動(dòng)標(biāo)注對(duì)于構(gòu)建新一代圖像搜索引擎具有非常重要的意義.
此外,圖像自動(dòng)標(biāo)注還屬于圖像理解的范疇,與人對(duì)圖像的理解層次相對(duì)應(yīng),Eakins[1]將圖像語(yǔ)義分為3個(gè)級(jí)別,從低到高依次是視覺(jué)特征層、表達(dá)層、情感層.其中,視覺(jué)特征層包含特征語(yǔ)義,表達(dá)層包含對(duì)象語(yǔ)義與空間關(guān)系語(yǔ)義,情感層包含場(chǎng)景語(yǔ)義、行為語(yǔ)義與情感語(yǔ)義.高的層次通常包含了比低層次更高級(jí)更抽象的語(yǔ)義,此外,更高層的語(yǔ)義往往需要通過(guò)較低層的語(yǔ)義推理獲得.圖像自動(dòng)標(biāo)注就對(duì)應(yīng)于圖像理解中的表達(dá)層,主要研究對(duì)象語(yǔ)義與空間關(guān)系語(yǔ)義.
近年來(lái),圖像自動(dòng)標(biāo)注領(lǐng)域十分活躍,人們利用統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí)方法提出了各種學(xué)習(xí)模型,建立圖像視覺(jué)特征與標(biāo)注關(guān)鍵詞之間的關(guān)系.2002年,Duygulu等[2]提出了機(jī)器翻譯模型,將圖像自動(dòng)標(biāo)注看成是兩種語(yǔ)言之間的翻譯問(wèn)題:一種語(yǔ)言由描述圖像內(nèi)容的視覺(jué)詞匯構(gòu)成,另一種語(yǔ)言由文本詞匯構(gòu)成.通過(guò)Normalized Cut將每幅圖像分割為互不重疊的若干區(qū)域[3],并對(duì)圖像中所有區(qū)域利用K-Means算法進(jìn)行聚類(lèi),得到視覺(jué)詞匯類(lèi)別 blob,圖像的標(biāo)注問(wèn)題就可以看作是從視覺(jué)詞匯類(lèi)別 blob到語(yǔ)義關(guān)鍵詞的翻譯過(guò)程.Monay等[4]提出了LSA模型,通過(guò)引入隱變量建立圖像特征與關(guān)鍵詞的關(guān)系.Jeon等[5]提出了跨媒體相關(guān)模型 CMRM,利用語(yǔ)義關(guān)鍵字與視覺(jué)關(guān)鍵字的聯(lián)合概率進(jìn)行標(biāo)注,采用與機(jī)器翻譯模型一樣的離散特征進(jìn)行表征區(qū)域特征,blob是通過(guò)聚類(lèi)得到,而聚類(lèi)過(guò)程不可避免地帶來(lái)一定的信息損失.Lavrenko等[6]提出了連續(xù)相關(guān)模型CRM,它直接利用了圖像區(qū)域的連續(xù)特征值,利用非參數(shù)高斯核進(jìn)行視覺(jué)特征生成概率的連續(xù)估計(jì).Feng等[7]提出了多伯努利相關(guān)模型 MBRM,將圖像分割為規(guī)則的矩形區(qū)域來(lái)取代復(fù)雜的區(qū)域分割算法,同時(shí)引入多伯努利分布取代多項(xiàng)式分布來(lái)刻畫(huà)詞匯的概率分布.Zhao等[8]提出了TSVM-HMM模型,將判別分類(lèi)模型(SVM)與生成式模型(HMM)相結(jié)合,并選取5%的圖像對(duì)每個(gè)區(qū)域進(jìn)行人工標(biāo)注,進(jìn)而提高最終的標(biāo)注結(jié)果.Gustavo等[9]提出了 SML模型,將半監(jiān)督學(xué)習(xí)引入圖像自動(dòng)標(biāo)注中,從而避免了圖像的分割過(guò)程.Yong等[10]將全局特征、區(qū)域特征與上下文特征相結(jié)合并應(yīng)用于擴(kuò)展的CMRM模型中. Stefanie等[11]利用視覺(jué)分眾分類(lèi)(visual folksonomy)思想,對(duì)Flickr圖像庫(kù)的部分水果與蔬菜圖像進(jìn)行標(biāo)注.
各種模型假設(shè)各個(gè)關(guān)鍵詞之間相互獨(dú)立,并沒(méi)有考慮詞與詞之間的關(guān)系.而利用詞與詞之間的相關(guān)性可以起到改進(jìn)標(biāo)注性能的作用.Jin等[12]提出了CLM 模型,利用 EM 算法計(jì)算詞與詞之間的隱含相關(guān)性;TMHD 模型[13]利用 WordNet進(jìn)行詞關(guān)系的度量.Liu等[14]提出了 AGAnn模型,對(duì)自適應(yīng)圖(adaptive graph)標(biāo)注的結(jié)果應(yīng)用詞與詞的相關(guān)性進(jìn)行改善.Kang等[15]提出了互相關(guān)標(biāo)記傳播模型CLP,考慮了在相鄰的圖像之間,利用標(biāo)記的相關(guān)性,同時(shí)傳播多個(gè)標(biāo)記(每個(gè)標(biāo)記對(duì)應(yīng)一個(gè)詞匯).
筆者主要針對(duì)圖像標(biāo)注模型中的相關(guān)模型進(jìn)行研究,主要包括:針對(duì)現(xiàn)有標(biāo)注模型忽略了圖像不同區(qū)域?qū)D像整體貢獻(xiàn)程度的差異性,提出了基于區(qū)域空間加權(quán)的標(biāo)注方法,對(duì)圖像的區(qū)域特征生成概率估計(jì)進(jìn)行了改進(jìn).針對(duì)現(xiàn)有模型忽略詞匯本身重要性以及詞匯分布對(duì)標(biāo)注性能的影響,提出了基于詞匯固定權(quán)值的標(biāo)注方法、基于平滑詞匯頻率的標(biāo)注方法以及基于詞匯 TF-IDF (term frequency-inverse document frequency)加權(quán)的標(biāo)注方法,改進(jìn)了詞匯的生成概率估計(jì).綜合以上區(qū)域空間改進(jìn)與詞匯改進(jìn),提出了WDVRM圖像標(biāo)注模型.
目前的模型都沒(méi)有考慮圖像各個(gè)區(qū)域在生成概率估計(jì)中所起的作用.本節(jié)主要針對(duì)圖像自動(dòng)標(biāo)注中的圖像區(qū)域特征生成概率估計(jì)部分進(jìn)行了研究.
將圖像分割成若干個(gè)區(qū)域有兩種方法:①使用圖像分割算法,如較新的 Normalized Cut等;②采用固定分塊的方法,如將圖像分割成若干個(gè)固定大小的矩形塊.用Normalized Cut分割現(xiàn)在Corel圖像庫(kù)中的圖像,會(huì)出現(xiàn)大量同一語(yǔ)義對(duì)象被分割成不同區(qū)域的情況,使得標(biāo)注性能很難提高.通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)[7],采用固定分塊的標(biāo)注結(jié)果比使用分割算法要好得多,固定分塊還可以節(jié)省分割圖像所花費(fèi)的大量時(shí)間,將重點(diǎn)放在如何構(gòu)造更合理的詞匯與圖像區(qū)域特征生成概率以及更好地刻畫(huà)詞匯與圖像之間的關(guān)系上.所以采用固定分塊的策略,而分塊的數(shù)目,以及每個(gè)塊的大小如何選取,上述文章都沒(méi)有給出解釋.
通過(guò)對(duì) Corel圖像庫(kù)的研究發(fā)現(xiàn),塊大小選取的原則應(yīng)該是盡可能使得每個(gè)塊只包含單一目標(biāo)或物體(即每個(gè)塊只包含一個(gè)語(yǔ)義對(duì)象),而又不產(chǎn)生過(guò)多相似的塊.這就使得分塊不能太大,太大的分塊會(huì)使一個(gè)塊內(nèi)可能包含兩個(gè)甚至兩個(gè)以上的語(yǔ)義對(duì)象,而如果分塊取的過(guò)小,會(huì)出現(xiàn)一幅圖像中的相似塊太多,使得計(jì)算時(shí)間大量增加.通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),對(duì) Corel圖像庫(kù)采用 4×6的固定分塊,可以取得很好的效果.通過(guò)這種分塊策略,每個(gè)塊剛好都由正方形構(gòu)成.圖 1是采用固定 4×6分塊后的結(jié)果圖,可以發(fā)現(xiàn),絕大多數(shù)塊的視覺(jué)內(nèi)容都符合上面提出的分塊原則,即每個(gè)塊盡可能地只包含一個(gè)語(yǔ)義對(duì)象.
圖1 固定分塊結(jié)果Fig.1 Results of fixed blocks
傳統(tǒng)的圖像標(biāo)注模型將區(qū)域與圖像的相似性定義為某個(gè)區(qū)域與圖像中各個(gè)區(qū)域相似度的平均值.然而,現(xiàn)實(shí)情況并非如此,如圖像中前景對(duì)象區(qū)域相比背景區(qū)域應(yīng)該更重要.通過(guò)觀察大量圖像發(fā)現(xiàn),前景目標(biāo)出現(xiàn)在中間的概率要大于出現(xiàn)在四周的概率,中間區(qū)域出現(xiàn)的目標(biāo)在圖像中應(yīng)該更重要,即中間區(qū)域應(yīng)該賦予更高的權(quán)值.也就是說(shuō),圖像中的每個(gè)區(qū)域所占的權(quán)重不應(yīng)該都簡(jiǎn)單地認(rèn)為相等,而應(yīng)該對(duì)每個(gè)區(qū)域賦予不同的權(quán)重.同時(shí),前景目標(biāo)區(qū)域所占面積一般比背景區(qū)域要小不少,如果背景區(qū)域與目標(biāo)區(qū)域采用相同的權(quán)值,將會(huì)使得圖像區(qū)域特征生成概率偏向背景區(qū)域.針對(duì)以上結(jié)論,提出了基于區(qū)域空間加權(quán)的圖像標(biāo)注方法.通過(guò)實(shí)驗(yàn),選取最佳的24個(gè)塊權(quán)值分配方案,如圖2所示.
圖2 區(qū)域空間權(quán)值分配方案Fig.2 Assignment of weighted district space
具體的分配方案為:①中間4個(gè)灰色塊分配最高的權(quán)重 wrs1;②中間塊周?chē)?8個(gè)塊分配次高的權(quán)重;③周?chē)?8個(gè)次黑塊分配較低的權(quán)重wrs3;④4個(gè)角上的黑色塊分配最低的權(quán)重 wrs4.如何確定各個(gè)塊的具體加權(quán)值將在后面的實(shí)驗(yàn)部分給出.
CLM、TMHD、AGAnn等模型取消了估計(jì)詞匯生成概率時(shí)各個(gè)關(guān)鍵詞之間相互獨(dú)立的假設(shè),利用詞與詞之間的相關(guān)性起到改進(jìn)標(biāo)注結(jié)果的作用.然而,這些模型主要考慮詞與詞之間的關(guān)系,并沒(méi)有考慮不同關(guān)鍵詞的重要程度不同,以及詞頻與詞匯分布給圖像標(biāo)注性能帶來(lái)的影響.本節(jié)針對(duì)圖像自動(dòng)標(biāo)注中的詞匯生成概率估計(jì)部分進(jìn)行了較為深入的研究.
通過(guò)觀察目前普遍使用的用于評(píng)測(cè)圖像標(biāo)注性能的Corel,5000圖像庫(kù)可以發(fā)現(xiàn),圖像的標(biāo)注詞存在著諸多問(wèn)題:①詞匯的語(yǔ)義層次問(wèn)題,如既有“tiger”、“bear”、“l(fā)ion”等具體的動(dòng)物,也有 “animal”這樣的動(dòng)物總稱(chēng),而且 “tiger”、“bear”、“l(fā)ion” 等與“animal” 往往不會(huì)同時(shí)出現(xiàn)在一幅圖像中;②復(fù)合名字問(wèn)題,如獅子魚(yú) “l(fā)ionfish”,在標(biāo)注時(shí)寫(xiě)成了 “l(fā)ion”與 “fish”兩個(gè)詞,這給圖像標(biāo)注帶來(lái)了極大的困難;③詞匯的抽象性問(wèn)題,如標(biāo)注詞匯大量出現(xiàn)諸如“city”、“school”、“autumn” 等無(wú)法與圖像區(qū)域相對(duì)應(yīng)的詞匯,即對(duì)于標(biāo)注無(wú)具體意義的抽象性詞匯.這些問(wèn)題產(chǎn)生的可能原因是 Corel,5000圖像庫(kù)是由不同人所標(biāo)注的.
除了上述問(wèn)題,圖像中不同區(qū)域?qū)D像的貢獻(xiàn)程度不同,而通過(guò)觀察圖像所對(duì)應(yīng)的標(biāo)注詞集合也可以發(fā)現(xiàn)類(lèi)似的情況.不同詞匯對(duì)于標(biāo)注的貢獻(xiàn)程度是不同的,圖像所對(duì)應(yīng)標(biāo)注的前景目標(biāo)如 “tiger”、“plane” 等較一些背景目標(biāo)如 “sky”、“l(fā)ake” 等更為重要,同時(shí)一些無(wú)法與圖像區(qū)域相對(duì)應(yīng)的標(biāo)注詞對(duì)標(biāo)注是沒(méi)有任何貢獻(xiàn)的,反而還會(huì)影響到整體的詞匯生成概率分布.此外,圖像中的背景區(qū)域一般比較大,會(huì)占用較多的圖像塊,而前景目標(biāo)往往只占用較少的塊,所以如果不對(duì)前景與背景詞匯進(jìn)行區(qū)分,會(huì)造成圖像的標(biāo)注結(jié)果中背景詞匯的生成概率大大超過(guò)前景詞匯的生產(chǎn)概率,使得標(biāo)注結(jié)果都偏向于背景詞匯,對(duì)標(biāo)注結(jié)果產(chǎn)生影響.據(jù)了解,目前的各種模型都沒(méi)有針對(duì)以上角度進(jìn)行研究.從自然語(yǔ)言處理領(lǐng)域的命名實(shí)體研究得到啟發(fā),提出了基于詞匯固定權(quán)值的標(biāo)注方法.將所有標(biāo)注詞分為 5類(lèi):① 無(wú)歧義的前景詞,如 “tiger”、“plane”、“cars”等;②有歧義的前景詞,如 “plant”、“animals”、“paintings”等;③無(wú)歧義的背景詞,如 “mountain”、“sky”、“desert”等;④歧義的背景詞,如 “water”、“ground”、“night”等;⑤抽象詞匯,如 “city”、“outside”、“school”等.這 5 類(lèi)詞匯在計(jì)算詞匯生成概率時(shí)將賦予不同的權(quán)重,權(quán)重從無(wú)歧義的前景詞到抽象詞匯按從高到低賦予具體的權(quán)值,分別記作fw+、fw-、bw+、bw-、aaw ,具體的權(quán)值分配方案將在后面的實(shí)驗(yàn)部分給出.
通過(guò)觀察 Corel 5000圖像庫(kù)的標(biāo)注結(jié)果可以發(fā)現(xiàn),不同詞匯出現(xiàn)的次數(shù)差異很大.圖 3為 Corel 5000圖像庫(kù)中對(duì)所有374個(gè)標(biāo)注詞出現(xiàn)次數(shù)進(jìn)行的統(tǒng)計(jì).可以發(fā)現(xiàn),它們符合 Zipf分布的特點(diǎn)[16].其中,出現(xiàn)次數(shù)超過(guò)100次的詞僅有44個(gè),超過(guò)50次的詞只有81個(gè),超過(guò)20次的詞有149個(gè),超過(guò)10次的詞有217個(gè),也就是說(shuō)大約42%的詞出現(xiàn)次數(shù)不超過(guò)10次,約24%的詞出現(xiàn)次數(shù)不超過(guò)5次.
圖3 Corel 5000圖像庫(kù)中標(biāo)注詞出現(xiàn)的次數(shù)統(tǒng)計(jì)Fig.3 Annotation words’ frequencies in Corel 5000 library
通過(guò)分析可知,有 40%以上的標(biāo)注詞對(duì)應(yīng)相當(dāng)少的圖像,訓(xùn)練這些標(biāo)注詞是相當(dāng)困難的.此外,出現(xiàn)次數(shù)較多的那些詞大部分是背景詞,而出現(xiàn)次數(shù)較少的那些詞往往是更需要的前景詞.圖像自動(dòng)標(biāo)注的任務(wù)是同時(shí)對(duì)圖像中的前景與背景進(jìn)行標(biāo)注,并沒(méi)有評(píng)估是否標(biāo)注出更多的前景詞,但是當(dāng)用戶(hù)主觀地評(píng)價(jià)標(biāo)注結(jié)果好壞時(shí),總是更關(guān)心是否有更多的前景詞匯被標(biāo)注出來(lái).目前的各類(lèi)模型都沒(méi)有考慮詞頻以及詞匯分布對(duì)詞匯生成概率產(chǎn)生的影響,如果可以提高那些大量出現(xiàn)的次數(shù)較少詞的標(biāo)注結(jié)果,將會(huì)對(duì)系統(tǒng)的整體性能產(chǎn)生很大的影響.針對(duì)這種情況,提出了基于平滑詞匯頻率的標(biāo)注方法,其基本思想是:對(duì)于那些出現(xiàn)次數(shù)較多的背景詞賦予較低的權(quán)重,而出現(xiàn)次數(shù)較少的前景詞賦予較高的權(quán)重,通過(guò)對(duì)詞匯進(jìn)行加權(quán)起到平滑詞頻對(duì)詞匯生成概率產(chǎn)生的影響,提升那些大量的出現(xiàn)次數(shù)較少詞的標(biāo)注結(jié)果,進(jìn)而提升整體標(biāo)注性能.
由于所有標(biāo)注詞的出現(xiàn)次數(shù)大致符合 Zipf分布,即每個(gè)標(biāo)注詞出現(xiàn)次數(shù)ivN 與這個(gè)標(biāo)注詞出現(xiàn)次數(shù)排名iR存在反比關(guān)系,即
式中μ和θ均為反比例函數(shù)的參數(shù),具體參數(shù)值可通過(guò)最小二乘法來(lái)確定.經(jīng)過(guò)對(duì)數(shù)變換,式(1)可以轉(zhuǎn)換成
vi在圖像庫(kù)中出現(xiàn)的總次數(shù)排名.
針對(duì)如何確定某幅圖像中最重要的詞,即從如何確定對(duì)某幅圖像最富有“信息量”的詞出發(fā),提出基于詞匯TF-IDF的標(biāo)注方法.TF-IDF[17]是自然語(yǔ)言處理領(lǐng)域中常用的方法,在文本分類(lèi)與文本聚類(lèi)中使用相當(dāng)廣泛.其基本思想是:如果某個(gè)詞或短語(yǔ)在某一篇文章中出現(xiàn)的頻率很高,同時(shí)在其他文章中出現(xiàn)的次數(shù)較少,則認(rèn)為該詞或者短語(yǔ)具有很好的類(lèi)別區(qū)分能力,適合用來(lái)分類(lèi).
把 TF-IDF用于圖像自動(dòng)標(biāo)注中,將詞匯的生成概率與TF-IDF相結(jié)合.其中,這里的詞條頻率fTF為某個(gè)詞在某幅圖像中出現(xiàn)的頻率,逆文檔頻率 fIDF則反映該詞匯在所有圖像中普遍重要性的度量,即如果某個(gè)詞在某幅圖像中出現(xiàn),且這個(gè)詞在其他圖像中出現(xiàn)的次數(shù)較少,則認(rèn)為該詞對(duì)于那幅圖像具有很好的語(yǔ)義區(qū)分能力,也就是上面提到的該詞對(duì)于某幅圖像富有“信息量”;相反地,如果該詞在其他圖像中出現(xiàn)的次數(shù)較多,則這個(gè)詞很可能是背景或普遍性詞匯,也就是不具備良好的語(yǔ)義區(qū)分性.
基于詞匯TF-IDF的權(quán)值計(jì)算公式為
本節(jié)將介紹提出的結(jié)合區(qū)域空間加權(quán)與詞匯加權(quán)的圖像自動(dòng)標(biāo)注模型(weighted district and vocabulary relevance model,WDVRM).該模型基于多伯努利相關(guān)模型(multiple Bernoulli relevance models,MBRM),MBRM 模型在圖像自動(dòng)標(biāo)注領(lǐng)域已經(jīng)被證明為一個(gè)非常成功的模型.對(duì)其進(jìn)行改進(jìn),加入了基于區(qū)域空間加權(quán)的圖像區(qū)域特征生成概率改進(jìn),以及基于詞匯加權(quán)的詞匯生成概率改進(jìn).
MBRM 模型屬于圖像自動(dòng)標(biāo)注模型中的相關(guān)模型.特征表示采用了圖像區(qū)域的連續(xù)特征值,MBRM模型相比以往模型有兩個(gè)重大改進(jìn):①將圖像分割為規(guī)則的矩形區(qū)域來(lái)取代復(fù)雜的圖像分割算法,在提高標(biāo)注準(zhǔn)確率的同時(shí)降低了模型的時(shí)間復(fù)雜度;②引入多伯努利分布取代了以往模型中使用的多項(xiàng)式分布,通過(guò)多伯努利分布來(lái)對(duì)詞匯的概率分布進(jìn)行建模.
每幅圖像I表示為一系列互不重疊的區(qū)域集合,DI={d1,… ,dΘ||},這里采用固定分塊方法,|Θ|為區(qū)域的個(gè)數(shù).對(duì)每個(gè)圖像區(qū)域 di提取 m維的特征向量Fi,定義圖像區(qū)域的視覺(jué)生成概率為 P (~|I ).詞匯F生成概率采用了多伯努利分布,多伯努利分布相比多項(xiàng)式分布式是一個(gè)更合理的詞匯描述方式,其具體優(yōu)點(diǎn)可以參見(jiàn)文獻(xiàn)[7].假設(shè)標(biāo)注詞集合 WI是從|V|個(gè)多伯努利分布 PV(~|I)獨(dú)立采樣的結(jié)果,其中|V|為標(biāo)注詞個(gè)數(shù).一幅圖像I的產(chǎn)生就可以由區(qū)域特征生成概率與詞匯生成概率這兩個(gè)獨(dú)立的條件分布構(gòu)成.
假設(shè)圖像 G為訓(xùn)練圖像庫(kù)以外的一幅圖像,G的特征向量可以表示為 FG={FG1, … ,FG|Θ|},其中FiG為圖像G中第i個(gè)區(qū)域的特征向量.WT為所有標(biāo)注詞匯 |V| 的一個(gè)子集.對(duì)圖像 G的視覺(jué)表示與詞匯表示的聯(lián)合概率進(jìn)行建模,記為 P ( FG, WT).假設(shè)聯(lián)合概率 P ( FG, WT)中,F(xiàn)G與 WT的隱含關(guān)系與訓(xùn)練圖像集中某幅圖像的視覺(jué)特征與詞匯的隱含關(guān)系相似,而這個(gè)具體的隱含關(guān)系無(wú)法得知,所以針對(duì)訓(xùn)練集中的每一幅圖像都計(jì)算其視覺(jué)特征與詞匯聯(lián)合概率的期望.聯(lián)合產(chǎn)生 FG與 WT概率的過(guò)程有4個(gè)步驟.
(1) 按照概率 PΩ(I)從訓(xùn)練集Ω選取一幅訓(xùn)練圖像I.
(2) 對(duì) i = 1,… ,n ′(n′為圖像區(qū)域個(gè)數(shù)):①按照條件概率密度函數(shù) PFI(~|I)生成第 i個(gè)區(qū)域的視覺(jué)特征Fi;②利用第 1節(jié)提出的算法對(duì) FiI進(jìn)行區(qū)域空間加權(quán).
(3) 按照多伯努利分布 PV(~|I)生成詞匯集合WI.
(4) 利用第2節(jié)提出的3種算法對(duì) WI進(jìn)行詞匯加權(quán).
這里每幅圖像的標(biāo)注詞個(gè)數(shù)與圖像區(qū)域的個(gè)數(shù)不存在一對(duì)一的關(guān)系,只是尋找對(duì)于整幅圖像最適合的若干個(gè)標(biāo)注詞.根據(jù)上面的概率生成過(guò)程,WDVRM 模型中圖像視覺(jué)表示與詞匯標(biāo)注的聯(lián)合概率為
式中?I為對(duì)詞匯加權(quán)的權(quán)值.WDVRM 模型利用WT式(5)進(jìn)行圖像標(biāo)注,具體流程為:給定一個(gè)未標(biāo)注圖像G,利用固定分塊方法將它分為|Θ|個(gè)區(qū)域,提取每個(gè)區(qū)域特征 FGi,利用式(5)確定最可能與這些特征向量集合同時(shí)出現(xiàn)的詞匯子集,作為該圖像的標(biāo)注.
與其他模型類(lèi)似,在實(shí)現(xiàn)的時(shí)候,將詞匯子集的長(zhǎng)度固定為 5.然而在一個(gè)較大的詞匯集合內(nèi),即便對(duì)每幅圖像只取5個(gè)標(biāo)注詞,所出現(xiàn)的組合數(shù)仍然很多,幾乎是不可計(jì)算的.幸運(yùn)的是每個(gè)詞在每幅圖像中或者不出現(xiàn),或者只出現(xiàn) 1次,這樣就可以假設(shè)詞匯間是相互獨(dú)立的,進(jìn)而對(duì)式(5)進(jìn)行簡(jiǎn)化,即
式中 wj為標(biāo)注詞集合內(nèi)的某一個(gè)詞,對(duì)每個(gè)詞分別計(jì)算它與測(cè)試圖像出現(xiàn)的聯(lián)合概率,取聯(lián)合概率最大的若干個(gè)詞作為該圖像的標(biāo)注.
主要討論對(duì)式(6)的參數(shù)估計(jì)問(wèn)題.PΩ(I)是圖像I在訓(xùn)練圖像庫(kù)中出現(xiàn)的概率,由于沒(méi)有任何的先驗(yàn)知識(shí),所以假設(shè) PΩ(I)服從均勻分布,即 PΩ(I)=1/|Ω|,其中|Ω|為訓(xùn)練圖像的數(shù)目.
條件概率密度函數(shù) PF( ~|I)是用來(lái)生成區(qū)域的視覺(jué)特征向量 F1,… ,F|Θ|,對(duì)PF( ~|I)的分布使用非參數(shù)核密度函數(shù)進(jìn)行估計(jì),PF( ~|I)的估計(jì)為
式中:m為特征的維數(shù);|Θ|為圖像區(qū)域的個(gè)數(shù);ξi是測(cè)試圖像G對(duì)第i個(gè)位置的區(qū)域空間加權(quán);ψj是訓(xùn)練圖像 I對(duì)第 j個(gè)位置的區(qū)域空間加權(quán).式(7)對(duì)圖像 I的每個(gè)區(qū)域特征 Fj都采用高斯核函數(shù)進(jìn)行估計(jì).高斯核的參數(shù)由特征協(xié)方差矩陣Σ來(lái)確定,Σ = αΛ,其中α為高斯核的寬度,確定P在 FiI附近的平滑程度,Λ為單位矩陣.
PV(v|I)是多伯努利分布的第v個(gè)元素,為訓(xùn)練圖像庫(kù)中某幅圖像 I產(chǎn)生標(biāo)注 WI的概率.對(duì)每個(gè)詞采用貝葉斯估計(jì)
式中λ1、λ2、λ3分別為基于詞匯固定權(quán)值、基于平滑詞匯頻率與基于詞匯 TF-IDF 3種方法的加權(quán)值.對(duì)3種方法加權(quán)可以綜合這 3種方法的優(yōu)勢(shì):詞匯固定權(quán)值的改進(jìn)主要針對(duì)詞匯本身的重要程度,平滑詞匯頻率的改進(jìn)主要針對(duì)詞匯出現(xiàn)次數(shù),避免詞匯生成概率偏向出現(xiàn)次數(shù)多的詞,詞匯 TF-IDF的改進(jìn)重點(diǎn)是針對(duì)詞匯的重要性與區(qū)分度.
為了驗(yàn)證提出方法與模型的有效性,并同其他模型進(jìn)行公平比較,實(shí)驗(yàn)采用了圖像自動(dòng)標(biāo)注中普遍使用的 Corel 數(shù)據(jù)集.這個(gè)圖像庫(kù)是由 50個(gè) Corel Stock Photo文件夾組成的5,000張圖片.每個(gè)文件夾包含 100張相同主題的圖片,其涵蓋了豐富的內(nèi)容,包括風(fēng)景、動(dòng)物、植物、國(guó)家、城市、建筑、歷史文物、人物、交通工具等.每幅圖像有 1~5個(gè)詞作為其標(biāo)注,詞匯總數(shù)量為 374.將數(shù)據(jù)集分為 3個(gè)部分:①訓(xùn)練集 4,000幅圖像;②驗(yàn)證集 500幅圖像;③測(cè)試集500幅圖像.其中,驗(yàn)證集包括每個(gè)文件夾下的10幅圖像,主要用于模型參數(shù)的確定,待參數(shù)確定以后,將驗(yàn)證集全部加到訓(xùn)練集中形成新的訓(xùn)練集.這樣就與其他模型采用的 4,500幅訓(xùn)練圖像、500幅測(cè)試圖像相一致,每幅圖像固定返回5個(gè)標(biāo)注詞.
每幅圖像按照這種提出的分塊方法,分為 6×4=24個(gè)塊,需要對(duì)每個(gè)塊都計(jì)算其底層特征.本文的主要工作在于新模型的建立,所以并沒(méi)有使用一些較新的特征,為了便于比較,采用了與 MBRM 相同的 30維特征,具體包括:9維的 RGB空間顏色矩;9維的Lab空間顏色矩;12維的Gabor紋理特征,包括3個(gè)尺度與4個(gè)方向.
與其他的模型一樣,采用單個(gè)詞的查準(zhǔn)率、查全率與 F度量來(lái)評(píng)估標(biāo)注結(jié)果.假設(shè)某一個(gè)關(guān)鍵詞為w,cN為標(biāo)注正確的圖像數(shù),sN為檢索返回的圖像數(shù),tN為測(cè)試圖像庫(kù)中包含標(biāo)注詞w的圖像數(shù),則
對(duì)所有出現(xiàn)在測(cè)試集中的關(guān)鍵詞都計(jì)算以上 3個(gè)指標(biāo),最后把得到每個(gè)詞的查準(zhǔn)率、查全率以及 F度量取平均作為最終的評(píng)價(jià)指標(biāo).此外,與很多模型類(lèi)似,實(shí)驗(yàn)還統(tǒng)計(jì)了至少被正確標(biāo)注一次的關(guān)鍵詞數(shù)量,記作 “NZR”.它反映了模型對(duì)標(biāo)注詞匯的覆蓋程度,是一個(gè)很重要的標(biāo)注性能評(píng)價(jià)指標(biāo).
4.2.1 參數(shù)設(shè)置
通過(guò)在驗(yàn)證集與測(cè)試集上進(jìn)行大量實(shí)驗(yàn),實(shí)驗(yàn)部分采用的具體參數(shù)值為:
4.2.2 實(shí)驗(yàn)結(jié)果與分析
首先分別驗(yàn)證只使用基于區(qū)域空間加權(quán)的方法(記作 WDRM)與只使用基于詞匯加權(quán)的方法,其中WVRM(Fix)表示只使用詞匯固定權(quán)值的方法,WVRM(Freq)表示只使用平滑詞匯頻率的方法,WVRM(TF-IDF)表示只使用詞匯 TF-IDF的方法,WVRM(Combined)表示將 3種詞匯加權(quán)方法進(jìn)行組合.與MBRM模型進(jìn)行對(duì)比,結(jié)果如表1所示.
從表1可以看出,基于區(qū)域空間加權(quán)的方法有效地改善了圖像視覺(jué)生成概率,除了查準(zhǔn)率比 MBRM稍低,其余3項(xiàng)指標(biāo)都比MBRM模型要高,但是提升的幅度還不明顯.3種基于詞匯加權(quán)的方法也都是有效的,尤其體現(xiàn)在查全率和NZR這兩個(gè)指標(biāo)上,除了基于詞匯固定權(quán)值的方法以外,另外兩種詞匯加權(quán)方法以及結(jié)合3種詞匯加權(quán)的方法在查全率和NZR指標(biāo)上相比MBRM均有明顯提高.
表1 使用區(qū)域空間加權(quán)與使用詞匯加權(quán)的對(duì)比Tab.1 Comparison between methods of weighted district and weighted vocabulary
下面的實(shí)驗(yàn)主要用于驗(yàn)證結(jié)合區(qū)域空間加權(quán)與3種詞匯加權(quán)方法的模型,實(shí)驗(yàn)都加入了基于區(qū)域空間加權(quán)的方法,分別計(jì)算每一種詞匯加權(quán)方法的標(biāo)注結(jié)果以及 3種方法組合的結(jié)果,將提出的 WDVRM模型與現(xiàn)在常見(jiàn)的模型進(jìn)行對(duì)比,包括 TM、CRM、MBRM、CLM、GLM[18]、CLP.實(shí)驗(yàn)結(jié)果如表 2 所示,在表2中WDVRM(Fix)表示采用詞匯固定權(quán)值的方法,WDVRM(Freq)表示采用平滑詞匯頻率的方法,WDVRM(TF-IDF)表示采用詞匯 TF-IDF的方法,WDVRM(Combined)表示將上面 3種方法進(jìn)行組合.
表2 各模型性能比較Tab.2 Comparison of different models’ performances
從表 2可以看出,3種詞匯加權(quán)方法以及將這 3種方法進(jìn)行組合都是有效的,各項(xiàng)評(píng)價(jià)指標(biāo)基本上都比進(jìn)行現(xiàn)在流行的幾種模型要好.查準(zhǔn)率最高的是采用基于詞匯平滑的方法,達(dá)到了 0.235.最后一組實(shí)驗(yàn)綜合了3種詞匯加權(quán)方法,除了查準(zhǔn)率以外的另3個(gè)指標(biāo)都是最高的:查全率高達(dá) 0.296,比前面模型中查全率最高的 CLP模型要高出 20%;F度量達(dá)到0.260,比前面模型中 F度量最高的 MBRM 與 GLM要高出 13%.此外,在至少被正確標(biāo)注出一次的關(guān)鍵詞數(shù) “NZR”這個(gè)評(píng)價(jià)指標(biāo)上,WDVRM 模型達(dá)到了133,比前面模型也提高了不少.
表 2中最后兩個(gè)方法的查全率以及至少被正確標(biāo)注一次的關(guān)鍵詞數(shù)目相比前面各模型有了較大的提高,即通過(guò)對(duì)詞匯進(jìn)行 TF-IDF加權(quán)可以大大優(yōu)化詞匯的生成概率,提高標(biāo)注詞的覆蓋程度.采用固定分塊的模型效果要好于采用圖像分割的模型,比如MBRM與 WDVRM的總體效果要好于 TM、CMRM、CLM 等模型.一個(gè)原因是分割算法產(chǎn)生的分割錯(cuò)誤會(huì)隨著計(jì)算圖像的視覺(jué)生成概率而一直傳播,而固定分塊則不會(huì);此外,采用連續(xù)特征的模型(如 WDVRM 與 MBRM 模型)效果要好于離散特征模型(如 TM、CMRM、CLM、GLM 等模型),即連續(xù)特征可以更好地估計(jì)圖像區(qū)域特征間的關(guān)系,避免聚類(lèi)blob過(guò)程時(shí)帶來(lái)有用信息的損失.
WDVRM 標(biāo)注模型性能的提升不僅僅表現(xiàn)在各項(xiàng)評(píng)價(jià)指標(biāo)的提高,模型的標(biāo)注結(jié)果相比其他模型包含了更多的前景詞以及對(duì)圖像貢獻(xiàn)較大、人們更關(guān)心的詞匯.這方面的改進(jìn)并不能在現(xiàn)有的評(píng)價(jià)體系中體現(xiàn),所以選取了幾幅比較有代表性的圖像與MBRM 標(biāo)注結(jié)果進(jìn)行了對(duì)比,每個(gè)標(biāo)注詞的順序是按照概率從大到小排列,如表3所示.
通過(guò)表3可以發(fā)現(xiàn),相比MBRM模型,前兩幅圖WDVRM 模型分別多正確標(biāo)注出了 “bengal”與“windmills”.而如果將這幾幅圖一起對(duì)比,可以很明顯地發(fā)現(xiàn),MBRM 方法的背景詞大多排在前景詞之前,而 WDVRM 模型則很好地突出了圖像的目標(biāo)與重點(diǎn),模型賦予更高的概率給這些重點(diǎn)詞.通過(guò)對(duì)比,再次驗(yàn)證了 WDVRM 模型對(duì)圖像區(qū)域特征生成概率估計(jì)與詞匯生成概率估計(jì)的改進(jìn)是有效的.
傳統(tǒng)的相關(guān)模型中區(qū)域與圖像的相似性定義為區(qū)域與圖像中所有區(qū)域相似性的平均,并沒(méi)有考慮到圖像中的不同區(qū)域?qū)φw相似性的貢獻(xiàn)程度不同,為此提出了基于區(qū)域空間加權(quán)的標(biāo)注策略,改善了圖像區(qū)域的視覺(jué)生成概率;另一方面,現(xiàn)有的模型都沒(méi)有考慮詞匯本身重要性以及詞匯分布對(duì)標(biāo)注性能的影響.因此,提出了基于詞匯固定權(quán)值的標(biāo)注策略、基于平滑詞匯頻率的標(biāo)注策略以及基于詞匯TF-IDF加權(quán)的標(biāo)注策略對(duì)詞匯生成概率估計(jì)部分進(jìn)行了改進(jìn).通過(guò)在 Corel數(shù)據(jù)庫(kù)上進(jìn)行的實(shí)驗(yàn)表明,WDVRM 模型使得標(biāo)注性能有了明顯提高.下一步的研究工作可通過(guò)引入 WordNet,將詞匯間的關(guān)系與現(xiàn)有的模型相結(jié)合.將圖像自動(dòng)標(biāo)注應(yīng)用到圖像檢索中,構(gòu)建新一代的圖像檢索系統(tǒng).此外,還可以考慮對(duì)視頻進(jìn)行標(biāo)注.
[1]Eakins J P. Automatic image content retrieval-are we getting anywhere[C]//Proceedings of Third International Conference on Electronic Library and Visual Information Research.Cambridge,UK,1996:123-135.
[2]Duygulu P,Barnard K,F(xiàn)reitas J,et al. Object recognition as machine translation:Learning a lexicon for a fixed image vocabulary[C]//Proceedings of the 7th European Conference on Computer Vision. Copenhagen,Denmark,2002:97-112.
[3]Shi J,Malik J. Normalized cuts and image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(8):888-905.
[4]Monay F,Gatica-Perez D. On image auto-annotation with latent space models[C]//Proceedings of the ACM International Conference on Multimedia.Berkeley,USA,2003:275-278.
[5]Jeon J,Lavrenko V,Manmatha R. Automatic image annotation and retrieval using cross-media relevance models[C]//Proceedings of the 26th Annual InternationalACM SIGIR. Toronto,Canada,2003:119-126.
[6]Lavrenko V,Manmatha R,Jeon J. A model for learning the semantics of pictures[C]//Proceedings of Advance in Neutral Information Processing.Vancouver/Whistler,Canada,2003.
[7]Feng S L,Manmatha R,Lavrenko V. Multiple Bernoulli relevance models for image and video annotation[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington,USA,2004:1002-1009.
[8]Zhao Yufeng,Zhao Yao,Zhu Zhenfeng. TSVM-HMM:Transductive SVM based hidden Markov model for automatic image annotation[J].Expert Systems with Applications,2009,36(6):9813-9818.
[9]Gustavo C,Antoni B C,Pedro J M, et al. Supervised learning of semantic classes for image annotation and retrieval[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007,29(3):394-410.
[10]Wang Yong,Mei Tao,Gong Shaogang,et al.Combining global,regional and contextual features for automatic image annotation[J].Pattern Recognition,2009,42:259-266.
[11]Stefanie L,Roland M,Robert S,et al. Automatic image annotation using visual content and folksonomies[J].Multimedia Tools and Applications,2009,42:97-113.
[12]Jin Rong,Chai Joyce Y,Si Luo. Effective automatic image annotation via a coherent language model and active learning[C]//Proceedings of the 12th Annual ACM International Conference on Multimedia. New York,USA,2004:892-899.
[13]Jin Y,Khan L,Wang L,et al. Image annotation by combining multiple evidence and WordNet[C]//Proceedings of the 13th Annual ACM International Conference on Multimedia. Hilton,Singapore,2005:706-715.
[14]Liu Jing,Li Mingjing,Ma Weiying,et al. An adaptive graph model for automatic image annotation[C]// Proceedings of the ACM SIGMM Workshop on Multimedia Information Retrieval.Santa Barbara,USA,2006:61-69.[15]Kang Feng,Jin Rong,Sukthankar R. Correlated label propagation with application to multi-label learning[C]//Proceedings of the 2006IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York,USA,2006:1719-1726.
[16]Alex S,Yannick M,Didier S. Theory of Zipf's Law and Beyond[M]. Berlin:Springer-Verlag,2009.
[17]Wu Ho Chang,Luk Robert Wing Pong,Wong Kui Lam,et al. Interpreting TF-IDF term weights as making relevance decisions[J].ACM Transactions on Information Systems,2008,26(3):1-37.
[18]Tong Hanghang,He Jingrui,Li Mingjing,et al. Graph based multi-modality learning[C]//Proceedings of the 13th Annual ACM International Conference on Multimedia. Hilton,Singapore,2005:862-871.
Image Automatic Annotation Based on Weighted District Space and Vocabulary
KE Xiao1,2, LI Shao-zi1,2
(1. Department of Cognitive Science,Xiamen University,Xiamen 361005,China;2. Fujian Key Laboratory of the Brain-Like Intelligent System,Xiamen 361005,China)
Image automatic annotation is a significant and challenging problem in image retrieval and image understanding. Existing models ignored that different regions of images had different contributions to the overall images. So an annotation method based on weighted district space to improve the generation probability estimation of regional features of the images was proposed. On the other hand, existing model did not take into account the importance of vocabulary as well as vocabulary distribution which impacted the annotation performance. Three methods to overcome the above problems were proposed, including: fixed vocabulary weight method, smooth vocabulary frequency method and weighted vocabulary’s TF-IDF method. These methods can improve the generation probability estimation of vocabulary. By integrating all above improved methods of weighted district space and weighted vocabulary, WDVRM image annotation model were proposed. Experiments conducted on Corel datasets have verified that the WDVRM model is quite effective.
image automatic annotation;weighted district;weighted vocabulary;relevance model
TP391
A
0493-2137(2011)03-0248-09
2009-11-27;
2010-06-03.
國(guó)家自然科學(xué)基金資助項(xiàng)目(60873179,60803078);高等學(xué)校博士學(xué)科點(diǎn)專(zhuān)項(xiàng)科研基金資助項(xiàng)目(20090121110032);深圳市科技計(jì)劃基礎(chǔ)研究基金資助項(xiàng)目(JC200903180630A).
柯 逍(1983— ),男,博士研究生,kevinkexiao@163.com.
李紹滋,szli@xmu.edu.cn.