曹瑛
摘要:本文著眼于圖像底層視覺和文本標簽這兩種模態(tài)信息,探討基于雙模語義空間的圖像標注技術(shù)。將視覺特征與文本標注表示為同一對象的兩種視圖方式,考慮兩個特征空間之間的語義對偶關(guān)系,在雙模主題構(gòu)成的對稱空間上構(gòu)建一個非概率主題標注模型,為圖像標注研究提供新思路和理論依據(jù)。
關(guān)鍵詞:圖像標注;雙模;語義
中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2017)10-0098-01
隨著網(wǎng)絡(luò)多媒體數(shù)據(jù)的劇增,圖片正呈爆炸式增長,人們?nèi)绾螐暮A康膱D像中找到自己想要的圖像是當(dāng)前研究的熱點。如果能將圖片用若干文本進行標注,就能將圖像的檢索問題轉(zhuǎn)換成更為成熟的文本檢索問題來處理,所以實現(xiàn)圖像語義檢索的關(guān)鍵便是自動圖像標注技術(shù),即給未知圖像添加能描述其內(nèi)容的文本關(guān)鍵詞的方法。
1 自動標注常用算法
圖像自動標注方法大概可以分成兩類:有監(jiān)督分類的方法和關(guān)聯(lián)建模的方法。其中有監(jiān)督分類的方法是將各個語義類別看作獨立的概念,為每個語義類別建立單獨的分類器[3]。新進一幅圖片,通過計算視覺特征相似度,將相應(yīng)的文本關(guān)鍵詞傳播給新圖片。
關(guān)聯(lián)模型這類方法利用現(xiàn)有的已標注好的圖像數(shù)據(jù)集,試圖在無監(jiān)督的基礎(chǔ)上學(xué)習(xí)圖像的視覺特征和文本關(guān)鍵詞之間的關(guān)聯(lián),再將這種關(guān)聯(lián)應(yīng)用于未標注的新圖像,通過統(tǒng)計推理來預(yù)測新圖像的語義信息。
借助有標注的圖像訓(xùn)練集,運用無監(jiān)督學(xué)習(xí)的方法對圖像視覺特征和標簽關(guān)鍵詞之間的語義關(guān)聯(lián)進行建模,對于新的未標注圖像,通過這種關(guān)聯(lián)再進行統(tǒng)計推理得到標注詞匯。這種基于概率關(guān)聯(lián)的模型方法最早提出的有機器翻譯模型、跨媒體相關(guān)模型、對偶跨媒體相關(guān)模型[2]。近年來LDA模型[3]取得了更好的成效,首先在圖像的視覺特征空間和文本特征空間分別生成潛在主題,選擇一個子集形成混合的LDA模型來實現(xiàn)語義標注?;诟怕实腜LSA-MIXED模型[4],則是將視覺特征和文本特征串聯(lián)組合成一個混合的特征空間,完成基于潛在語義分析的圖像標注。PLSA-FUSION模型[5]則是通過分別建立視覺潛在語義空間和文本潛在語義空間,然后采用動態(tài)自適應(yīng)的方法進行融合,形成它們共同的潛在主題空間。
這些提取圖像不同模態(tài)潛在主題的統(tǒng)計模型在圖像標注領(lǐng)域已取得成功的應(yīng)用,但是在這些基于PLSA的圖像標注模型中,既沒有考慮文本關(guān)鍵詞之間的語義關(guān)聯(lián),也沒有考慮視覺特征之間的語義關(guān)聯(lián),如果能將這兩種因素都進行考慮,必然會提升圖像標注的性能。
本文著力于構(gòu)建一個語義空間能夠很好的反映圖像與圖像、標注與標注、圖像與標注之間的語義對應(yīng)關(guān)系,提出基于雙模語義空間的圖像標注技術(shù)。首先將視覺特征與文本標注表示為同一對象的兩種視圖方式,運用偏最小二乘(PLS)的多元統(tǒng)計分析理論,考慮兩個特征空間之間的語義對偶關(guān)系,抽取得到雙模態(tài)共有語義信息,在雙模主題構(gòu)成的對稱空間上構(gòu)建一個非概率主題標注模型,為圖像標注研究提供新思路和理論依據(jù)。
2 雙模語義的圖像標注
我們擬在數(shù)據(jù)集上,將視覺特征與對應(yīng)的標注看成是從同一表示層面描述相同對象形成的不同視圖,提取同一對象在各表示層面上的語義表示,綜合考慮圖像與圖像、標注與標注、圖像與標注之間的語義對應(yīng)關(guān)系,構(gòu)建雙模態(tài)的潛在語義主題空間。圖像集中的m幅圖像的兩種模態(tài)特征分別表示為視覺特征和文本特征,使用偏最小二乘(PLS)從數(shù)據(jù)集中為圖像視覺特征和標簽文本特征抽取對偶主題空間,通過模型化語義相關(guān)性的統(tǒng)計依賴關(guān)系來建立雙模主題的語義對應(yīng)關(guān)系。圖像投影到雙模主題空間計算圖像與圖像的相似度,標注與標注的相似度進一步改善圖像的標注。
新來一幅未標注圖像,視覺特征表示為
,經(jīng)變換得到:
(1)
其中,,然后根據(jù)訓(xùn)練得到的ξi,按照下面的公式,遞推出未標注圖像在視覺主題空間的投影向量:
(2)
(3)
其中,pk是回歸系數(shù),tk0是中間變量,最終圖像的標注屬性可以這樣計算出來:
(4)
可以看到矩陣y方便的表示圖像的標簽屬性,而對于每一幅待標注圖像最終得到預(yù)測向量,它的每個分量代表對應(yīng)標簽的預(yù)測結(jié)果,預(yù)測結(jié)果越接近,分配該標簽關(guān)鍵詞的可能性越大。我們通過對每一個標簽關(guān)鍵詞預(yù)設(shè)一個闡值來判斷它是否作為圖像的標注信息。
參考文獻
[1]Blei DM, Jordan MI. Modeling annotated data. In: Proc. of the 26th Intl ACM SIGIR Conf. on Research and Development in Information Retrieval. New York: ACM Press, 2003. 127-134.
[2]Jeon J, Lavrenko V, Manmatha R. Automatic image annotation and retrieval using cross-media relevance models. In: Proc. of the 26th Intl ACM SIGIR Conf. on Research and Development in Information Retrieval. New York: ACM Press, 2013. 119-126.
[3]Lavrenko V, Manmatha R, Jeon J. A model for learning the semantics of pictures. In: Thrun S, Saul LK, Scholkopf B, eds. Advances in Neural Information Processing Systems 16. Cambridge: MIT Press, 2004. 553-560.
[4]Monay F, Gatica-Perez D. Modeling semantic aspects for cross-media image indexing. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2009,29(10):1802-1817.
[5]李志欣,施智平,李志清, 史忠植. 融合語義主題的圖像自動標.Journal of Software,2011,22(4):801-812endprint