黃 育,張 鴻
1.武漢科技大學 計算機科學與技術學院,武漢 430065;2.智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室(武漢科技大學), 武漢 430065)(*通信作者電子郵箱zhanghong_wust@163.com)
基于潛語義主題加強的跨媒體檢索算法
黃 育1,2,張 鴻1,2*
1.武漢科技大學 計算機科學與技術學院,武漢 430065;2.智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室(武漢科技大學), 武漢 430065)(*通信作者電子郵箱zhanghong_wust@163.com)
針對不同模態(tài)數據對相同語義主題表達存在差異性,以及傳統(tǒng)跨媒體檢索算法忽略了不同模態(tài)數據能以合作的方式探索數據的內在語義信息等問題,提出了一種新的基于潛語義主題加強的跨媒體檢索(LSTR)算法。首先,利用隱狄利克雷分布(LDA)模型構造文本語義空間,然后以詞袋(BoW)模型來表達文本對應的圖像;其次,使用多分類邏輯回歸對圖像和文本分類,用得到的基于多分類的后驗概率表示文本和圖像的潛語義主題;最后,利用文本潛語義主題去正則化圖像的潛語義主題,使圖像的潛語義主題得到加強,同時使它們之間的語義關聯(lián)最大化。在Wikipedia數據集上,文本檢索圖像和圖像檢索文本的平均查準率為57.0%,比典型相關性分析(CCA)、SM(Semantic Matching)、SCM(Semantic Correlation Matching)算法的平均查準率分別提高了35.1%、34.8%、32.1%。實驗結果表明LSTR算法能有效地提高跨媒體檢索的平均查準率。
跨媒體檢索;潛語義主題;多分類邏輯回歸;后驗概率;正則化
當前,現實世界中的很多應用都涉及多模態(tài)文件,在多模態(tài)文件里信息由不同模態(tài)的數據組成,例如一篇新聞文章由圖片和相應的文字描述組成。在近幾年來,與多媒體相關的研究發(fā)展迅速,其中跨媒體檢索成為一個研究的熱點。在跨媒體檢索中,如何挖掘不同類型數據之間的內在聯(lián)系,進而計算跨媒體數據之間的相似度,是跨媒體檢索需要解決的關鍵問題[1]。
為了解決這個問題,典型相關性分析(Canonical Correlation Analysis, CCA)、核典型相關性分析(Kernel Canonical Correlation Analysis, KCCA)[2]、稀疏典型相關性分析(Spase Canonical Correlation Analysis, SpaseCCA)、結構稀疏典型相關分析(Structured Spase Canonical Correlation Analysis, Structured Spase CCA)等圍繞CCA的算法被提出用來實現不同模態(tài)數據之間的相互檢索[3]。它們的主要思想是將不同模態(tài)的數據通過某種映射,使得映射后的向量之間的皮爾遜相關系數最大。但是它們都沒有有效利用不同模態(tài)數據的類別信息。為了利用數據的類別信息,可以將圖像特征或文本特征表達成視覺詞袋(Bag of Visual Words, BoVW)或者單詞詞袋(Bag of Words, BoW),一些通過隱狄利克雷分布(Latent Dirichlet Allocation, LDA)[4]來實現不同模態(tài)數據的關聯(lián)建模的方法也相繼被提出。為了進一步探究文本圖像所蘊含的相關聯(lián)語義[5-6],多模態(tài)文檔隨機場等概率圖模型方法也被用來對不同模態(tài)數據之間的關聯(lián)關系建模[7]。最近由于深度學習[8]的興起,很多與深度學習相關的模型也被用于跨媒體檢索[9-10],如玻爾茲曼機[11]和卷積神經網絡等深度學習模型。同時為了實現海量數據的高效檢索,一些基于哈希(Hash)[12]的算法也被用于跨媒體檢索的研究[13-15],如局部敏感哈希(Locality Sensitive Hashing, LSH)算法、多視圖哈希索引等。
本文為了探究不同模態(tài)數據之間的語義相關關系以及如何有效地利用數據的標簽信息,提出了一種新的基于潛語義主題加強的跨媒體檢索算法。算法的主要流程如下:
1)利用多分類邏輯回歸對圖像和文本進行分類,得到分類模型,然后利用分類模型計算圖像和文本基于多分類的后驗概率,使用該后驗概率向量表示圖像和文本的潛語義主題。
2)由于文本的潛語義主題比圖像潛語義主題更加明晰,為了使文本和圖像的潛語義主題的相關性最大,用文本潛語義主題正則化圖像潛語義主題,使圖像和文本的潛語義主題趨于一致。
3)利用皮爾遜相關系數來度量文本和圖像向量之間的相似性,實現圖像和文本之間的相互檢索。
實驗結果表明,本文方法能夠有效地提高跨媒體檢索的準確率。
利用多分類邏輯回歸模型提取圖像和文本的潛語義主題,該模型也稱softmax回歸。Softmax回歸是有監(jiān)督學習算法,通過訓練數據建立模型,然后利用模型估算測試數據基于每一個類別的后驗概率。將m個已標記訓練數據樣本表示為{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))},其中輸入樣本特征x(i)∈Rn+1,n+1為輸入文本或圖像特征的維度;y(i)∈{1,2,…,k}為對應類別的標記值,不同的標簽值對應不同的類別信息,k為總類別數。對于給定的測試輸入X,用假設函數針對每一個類別j估算出后驗概率值p(y=j|x),也就是計算x基于每一種分類結果出現的概率。因此,假設函數會輸出一個k維向量(向量的各個元素之和為1)來表示測試數據基于k個類別的估算概率值,可用如下公式表示:
(1)
求解θ,需要設置一個代價函數,如果能夠使用優(yōu)化算法求解代價函數的最小值,即可得到θ。通過在代價函數中添加一個權重衰減項,Softmax模型的代價函數可以表示為:
(2)
求解得到θ后,就可以得到文本和圖像基于各個類別的后驗概率,用該后驗概率向量表示圖像和文本的潛語義主題。
本文提出的基于潛語義主題加強的跨媒體檢索算法,就是在提取圖像和文本潛語義主題的基礎上,為了使圖像和文本的潛語義主題之間的相關性最大,用正則化的方法對圖像潛語義主題進行加強。算法流程如圖1所示。
圖1 基于潛語義主題加強的跨媒體檢索算法
由于圖像是在像素級別上的語義抽象,通過多分類邏輯回歸模型得到的潛語義主題并不明晰,而文本得到潛語義主主題較為明確,因此可用文本的潛語義主題來正則化圖像的潛語義主題,使圖像的潛語義主題得到加強,同時也使圖像和文本的潛語義主題之間的關聯(lián)性最大化。圖像的潛語義主題用X=[x1,x2,…,xn]T∈Rn×k表示,文本的潛語義主題用T=[t1,t2,…,tn]T∈Rn×k表示。正則化圖像就是使圖像的潛語義主題X與文本的潛語義主題T所表達的語義主題盡可能地趨于相近,即:
H:xi→ti
(3)
H為一個線性轉換矩陣:
T=XH
(4)
把式(4)展開來為:
(5)
其中:hi為H的列向量。用最小二乘算法來求得最優(yōu)的H,其約束條件為:
xiThk≥0;?i=1,2,…,N;?k=1,2,…,K
(6)
∑xiTH=1;?i=1,2,…,K
(7)
式(6)~(7)是根據文本特征和圖像特征,經過多分類邏輯回歸得到的基于各個類別的后驗概率向量的元素之和為1,且每一個的概率都大于0得來的。式(4)可以轉換為最小二乘法的規(guī)范形式:
b=Mx
(8)
其中:b∈RNK,x∈RK2為列向量,M∈RNK×K2為稀疏矩陣。將式(8)展開為:
(9)
為了表達成最小二乘的規(guī)范形式,引進矩陣S∈RN×K2如下:
(10)
則式(4)在式(6)、(7)的約束條件下可以表達為求解:
(11)
s.t.Mx≥0;Sx=1
根據式(11)即可求解得到正則化因子H。
整個算法的流程如下。
算法1 基于潛語義主題加強的跨媒體檢索算法。
輸入:帶有類別信息的圖像和文本,統(tǒng)一表示為{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))}。
1)根據式(1)、(2)求解得到圖像和文本的潛語義主題。
圖像的潛語義主題:X=[x1,x2,…,xn]T
文本的潛語義主題:T=[t1,t2,…,tn]T
2)對每一個類別(i=1,2,…,L)求解:
s.t.Mx≥0;Sx=1
根據式(9)、(10)中M、b、S的定義計算正則化矩陣。
輸出:正則化矩陣H=[H1,H2,…,HL]。
圖像的潛語義主題乘上正則化因子,即可得到初步正則化的圖像,使用文本每一個類別的后驗概率乘上初步正則化圖像的每一類別的后驗概率,即可實現圖像和文本的潛語義主題之間的關聯(lián)最大化。
3.1 實驗數據集和數據表示
為了驗證本文算法的有效性,實驗在Wikipedia和TVGraz這兩個跨媒體檢索常用的數據集上進行。Wikipedia數據集包含2 866個文本圖像數據對,這些文本圖像數據對屬于10個不同的類別,實驗隨機選取2 173個文本圖像數據對作訓練,剩余693個圖像文本數據對作測試。TVGraz包含2 058個圖像文本數據對,這些圖像文本數據對同樣屬于10個不同的類別,實驗采用1 588個文本圖像數據對做訓練,500個圖像文本數據對測試。在所有實驗中,圖像表示基于詞袋(BoW)模型,即用1 024個視覺詞碼量化圖像提取的SIFT(Scale-InvariantFeatureTransform)特征;文本表示基于LDA模型,即計算每個文本基于100個隱含主題的概率。
3.2 度量標準
實驗采用皮爾遜相關系數來度量特征向量之間的相似性,通過相似性對檢索結果進行排序,將排序后的檢索結果作為查詢返回的結果。其計算公式如下:
3.3 實驗結果的評價
實驗采用平均查準率(mean Average Precision, mAP)和召回率對算法的性能進行評價。查準率(Average Precision,AP)的計算公式如下:
其中:L為查詢返回的結果中相關結果的個數;R為查詢返回的結果總數;prec(r)表示返回的結果在r處的排名精度;δ(r)=1表示返回的結果相關;δ(r)=0則表示返回的結果不相關。本文實驗中R=10。
3.4 實驗結果與分析
在Wikipedia和TVGraz兩個數據集上實驗,將本文提出的LSTR算法與主流跨媒體CCA算法、SM(SemanticMatching)算法、SCM(SemanticCorrelationMatching)算法的平均查準率(mAP)進行對比,mAP為文本檢索圖像和圖像檢索文本的AP的平均值。對比情況如表1所示。
表1 Wikidedia和TVGraz數據集中算法性能對比
從表1可以看出,本文算法性能明顯高于對比算法的性能,尤其是文本檢索圖像的平均查準率。其次,從表1不同數據集的對比可以看出,在TVGraz數據集上各個算法的性能明顯高于Wikipedia數據集。這是由于TVGraz數據集的圖像都是一個特定的物體或動物類別比較明顯,而Wikipedia圖像反映的內容則比較抽象,類別屬性模糊。
實驗不僅對整體數據的平均查準率進行了分析,還比較了不同類別的樣例在Wikipedia數據集上的平均查準率。
圖2為圖像檢索文本的不同類別樣例的平均查準率,圖3為文本檢索圖像的不同類別樣例的平均查準率(),圖4為不同類別樣例平均查準率。對比圖2~4可看出,本文算法的性能大幅度高于對比算法的性能,特別是文本檢索圖像。這是因為文本檢索圖像時,圖像是被文本正則化之后的圖像,它的潛語義主題與文本的潛語義主題相近,而圖像檢索文本時,圖像只是利用多分類回歸模型提取的潛語義主題,沒有經過相應文本的正則化。
圖2 不同類別樣例的平均查準率(圖像檢索文本)
圖3 不同類別樣例的平均查準率(文本檢索圖像)
圖4 不同類別樣例的平均查準率
平均查準率只是信息檢索算法性能評價的一個標準,除了平均查準率,實驗還在Wikipedia數據集上對文本檢索圖像和圖像檢索文本的檢索結果的準確率-召回率曲線進行了分析,如圖5~6所示。
圖5 圖像檢索文本的準確率-召回率曲線
圖6 文本檢索圖像的準確率-召回率曲線
從圖5~6可看出:本文提出的LSTR算法隨著召回率的增大,其檢索結果準確率的下降幅度比CCA、SM、SCM等跨媒體檢索算法的下降幅度要平緩,即本文算法的準確率受召回率的影響較小,也就是當檢索結果的召回率增大時,本文算法仍能保持較高的準確率。
本文提出的基于潛語義加強的跨媒體檢索算法,在Wikipedia和TVGraz兩個數據集上的實驗,驗證了本文算法能有效提高跨媒體檢索的查準率,尤其是文本檢索圖像的查準率,為跨媒體檢索提供了一種新的思路:使用文本的語義去強化圖像的語義,使圖像和文本的潛語義主題達到一致,來實現圖像和文本的相互檢索。但另一方面,本文算法在圖像檢索文本時查準率提高的幅度不大,這是因為沒有相應的文本對查詢的圖像進行語義加強,圖像和文本的關聯(lián)沒有最大化,所以如何對無文本注釋的圖像加強其潛語義主題還有待進一步的探索。
)
[1] 吳飛, 莊越挺.互聯(lián)網跨媒體分析與檢索:理論與算法 [J]. 計算機輔助設計與圖形學學報, 2010, 22(1):1-9.(WUF,ZHUANGYT.CrossmediaanalysisandretrievalontheWeb:theoryandalgorithm[J].JournalofComputer-AidedDesignandComputerGraphics, 2010, 22(1):1-9.)
[2]CHENX,LIUH,CARBONELLJG.Structuredsparsecanonicalcorrelationanalysis[EB/OL]. [2016- 03- 10].https://www.cs.cmu.edu/~jgc/StructuredSparseCanonicalCorrelationAnalysisAISTATS2012.pdf.
[3] 張鴻, 吳飛, 莊越挺, 等.一種基于內容相關性的跨媒體檢索方法[J]. 計算機學報, 2008, 31(5):820-826.(ZHANGH,WUF,ZHUANGYT,etal.Cross-mediaretrievalmethodbasedoncontentcorrelation[J].ChineseJournalofComputers, 2008, 31(5):820-826.)
[4]PUTTHIVIDHYD,ATTIASHT,NAGARAJANSS.Topicregressionmulti-modallatentDirichletallocationforimageannotation[C]//Proceedingsofthe2010IEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEE, 2010: 3408-3415.
[5]WUF,JIANGX,LIX,etal.,Cross-modallearningtorankvialatentjointrepresentation[J].IEEETransactionsonImageProcessing, 2015, 24(5): 1497-1509.
[6]GONGY,KEQ,ISARDM,etal.Amulti-viewembeddingspaceformodelingInternetimages,tags,andtheirsemantics[J].InternationalJournalofComputerVision, 2014, 106(2):210-233.
[7] ZHEN Y, YEUNG D Y. A probabilistic model for multimodal hash function learning[C]// KDD 2012: Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2012: 940-948.
[8] SHANG X, ZHANG H, CHUA T-S. Deep learning generic features for cross-media retrieval[C]// MMM 2016: Proceedings of the 22nd International Conference on MultiMedia Modeling, LNCS 9516. Berlin: Springer, 2016: 264-275.
[9] FROME A, CORRADO G, SHLENS J, et al. DeViSE: a deep visual-semantic embedding model[EB/OL]. [2016- 03- 10]. https://papers.nips.cc/paper/5204-devise-a-deep-visual-semantic-embedding-model.pdf.
[10] MA L, LU Z, SHANG L, et al. Multimodal convolutional neural networks for matching image and sentence[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 2623-2631.
[11] SRIVASTAVA N, SALAKHUTDINOV R. Multimodal learning with deep Botzmann machines[EB/OL]. [2016- 03- 10]. http://jmlr.org/papers/volume15/srivastava14b/srivastava14b.pdf.
[12] WU F, YU Z, YI Y, et al. Sparse multi-modal hashing[J]. IEEE Transactions on Multimedia, 2014, 16(2):427-439.
[13] ZHUANG Y, YU Z, WANG W, et al. Cross-media hashing with neural networks[C]// MM 2014: Proceedings of the 22nd ACM International Conference on Multimedia. New York: ACM, 2014: 901-904.
[14] RAFAILIDIS D, CRESTANI F. Cluster-based joint matrix factorization hashing for cross-modal retrieval[C]// SIGIR 2016: Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2016: 781-784.
[15] ZHAO F, HUANG Y, WANG L, et al. Deep semantic ranking based hashing for multi-label image retrieval[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1556-1564.
This work is partially supported by the National Natural Science Foundation of China (61003127, 61373109).
HUANG Yu, born in 1991, M. S. candidate. His research interests include machine learning, cross-media retrieval.
ZHANG Hong, born in 1979, Ph. D., professor. Her research interests include cross-media retrieval, machine learning, data mining.
Cross-media retrieval based on latent semantic topic reinforce
HUANG Yu1,2, ZHANG Hong1,2*
(1. School of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan Hubei 430065, China;2. Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System (Wuhan University of Science and Technology), Wuhan Hubei 430065, China)
As an important and challenging problem in the multimedia area, common semantic topic has different expression across different modalities, and exploring the intrinsic semantic information from different modalities in a collaborative manner was usually neglected by traditional cross-media retrieval methods. To address this problem, a Latent Semantic Topic Reinforce cross-media retrieval (LSTR) method was proposed. Firstly, the text semantic was represented based on Latent Dirichlet Allocation (LDA) and the corresponding images were represented with Bag of Words (BoW) model. Secondly, multiclass logistic regression was used to classify both texts and images, and the posterior probability under the learned classifiers was exploited to indicate the latent semantic topic of images and texts. Finally, the learned posterior probability was used to regularize their image counterparts to reinforce the image semantic topics, which greatly improved the semantic similarity between them. In the Wikipedia data set, the mean Average Precision (mAP) of retrieving text with image and retrieving image with text is 57.0%, which is 35.1%, 34.8% and 32.1% higher than that of the Canonical Correlation Analysis (CCA), Semantic Matching (SM) and Semantic Correlation Matching (SCM) method respectively. Experimental results show that the proposed method can effectively improve the average precision of cross-media retrieval.
cross-media retrieval; latent semantic topic; multiclass logistic regression; posterior probability; regularization
2016- 09- 23;
2016- 12- 22。 基金項目:國家自然科學基金資助項目(61003127,61373109)。
黃育(1991—),男,湖北武漢人,碩士研究生,主要研究方向:機器學習、跨媒體檢索; 張鴻(1979—),女,湖北襄陽人,教授,博士,主要研究方向:跨媒體檢索、機器學習、數據挖掘。
1001- 9081(2017)04- 1061- 04
10.11772/j.issn.1001- 9081.2017.04.1061
TP391.41
A