徐炎 曹春萍
關(guān)鍵詞:
語義鴻溝;語義核;
支持向量機;改進EMD
摘要:針對跨越語義鴻溝方法中未考慮文本間語義相關(guān)性和樣本數(shù)量增加時計算量過大的問題,提出了一種語義核SVM結(jié)合改進EMD跨越語義鴻溝方法.該方法首先考慮到文本特征間的語義關(guān)系,提取與圖像共生的文本關(guān)鍵詞,結(jié)合HowNet通用本體庫和內(nèi)部統(tǒng)計特征構(gòu)造語義核函數(shù),然后將語義核函數(shù)嵌入SVM進行關(guān)鍵詞分類,得到最佳候選關(guān)鍵詞,從而解決文本間語義相關(guān)性問題;再通過最佳減小矩陣對EMD算法進行改進,從而減小計算量.對比實驗結(jié)果表明,該方法充分利用了與圖像共生的文本特征間的語義關(guān)系,標(biāo)注準(zhǔn)確率明顯高于其他3種方法,且標(biāo)注時間縮短為其他方法的1/5左右.
Abstract:Aiming at the problem that the semantics relation among texts is not considered and the amount of computation is too large while samples increases in crossing semantic gap methods,a method of crossing semantic gap was proposed based on semantic kernel SVM combined with improved EMD. Firstly, to solve the semantic relation problem among texts, the method constructed the semantic kernel function based on taking semantic relations of text features into consideration, extracting text features coexisting with images and combining HowNet common ontology repository.Then the semantic kernel function was embedded into the SVM to classify keywords for obtaining best candidate words. Secondly, the algorithm improved EMD with best decreasing matrix to cut down the amount of computation. The experiment result showed that the method proposed takes full consideration of semantic relation in the texts related,the annotation accuracy rate was obviously higher than the other 3 methods and the annotation time was cut down to 1/5 of before.
0 引言
跨媒體語義研究針對的是混合在一起的語義內(nèi)容相同但模態(tài)不同的信息對象[1].共生的文本和圖像作為常見的跨媒體語義研究對象一直是業(yè)界研究的熱點,相關(guān)研究主要集中在圖像語義標(biāo)注、語義圖像檢索SIR(semantic image retrieval)等方面[2-4].無論是圖像語義標(biāo)注還是圖像檢索,其關(guān)鍵步驟都是描述圖像內(nèi)容及其語義,其中語義鴻溝作為主要的難點一直制約著標(biāo)注和檢索的準(zhǔn)確率.A.W.M.Smeulders等[5]將語義鴻溝定義為:在給定的情形下,用戶從視覺數(shù)據(jù)中獲取的信息與其對視覺數(shù)據(jù)的理解間存在的不一致.為了消除視覺數(shù)據(jù)的多義性,以便獲得準(zhǔn)確的語義表達,研究人員利用跨媒體特征,從不同模態(tài)的數(shù)據(jù)中尋找語義相關(guān)信息,從而對視覺特征的語義進行限定.Y.Cao等[6]提出,深度視覺語義哈希模型(DVSH)通過端到端的深度學(xué)習(xí)架構(gòu)生成圖像和語句的哈希碼可用以跨越語義鴻溝.該方法雖然考慮到圖像與文本間的語義特征,但忽略了文本內(nèi)在的語義關(guān)聯(lián),且深度學(xué)習(xí)架構(gòu)對計算力要求較高.B.Wang等[7]提出的對抗跨模檢索方法 ACMR,采用基于對抗性學(xué)習(xí)的方法獲得可以將圖像與文本直接進行比較的共享子空間,用以跨越語義鴻溝.該方法的缺點在于:采用三重限制獲取共享子空間中的統(tǒng)一表征,而當(dāng)樣本數(shù)據(jù)量增大時計算量增長過快.V.S.Tseng等[8]提出的FMD模型,通過結(jié)合Web頁面中與帶標(biāo)注信息的圖像內(nèi)容相關(guān)的文字描述部分,實現(xiàn)用戶特定需求的語義理解.FMD模型分為三步:首先構(gòu)建基于圖像分割的視覺特征模型,識別圖像中的對象并進行特征提取,通過比較不同圖像間對象的相似度,得到已標(biāo)注的詞與對象的關(guān)系;然后構(gòu)建基于決策樹的文字模型,利用C4.5算法對由相關(guān)文本中提取的關(guān)鍵詞進行分類,得到最合適的候選詞;最后融合兩種模型,根據(jù)最短視覺距離將最合適的候選詞標(biāo)注圖像,從而跨越語義鴻溝.在提取關(guān)鍵字并利用決策樹分類的過程中,F(xiàn)MD模型僅采用去停用詞和詞干化處理相關(guān)文本得到待分類關(guān)鍵詞,忽略了文本特征間的語義關(guān)系.此外,由于 C4.5 決策樹算法存在因訓(xùn)練集規(guī)模小而結(jié)果不可靠的缺點,導(dǎo)致最終候選詞不可靠[9].同時,通過計算不同圖像中對象的相似度得到最短視覺距離的方法會因訓(xùn)練樣本數(shù)量不足而導(dǎo)致準(zhǔn)確率不高.
支持向量機SVM(support vector machine)在解決小樣本、非線性和高維度模式識別問題方面具有良好的性能,基于語義核函數(shù)的SVM可以結(jié)合文本特征間的語義關(guān)系對文本進行分類[10].EMD(earth movers distance)算法是計算跨模態(tài)數(shù)據(jù)相似度的常用方法之一,其定義為:將一個分布變換為另一個分布所需的最小工作量,作為距離函數(shù)有一個非常好的特點是存在下界.基于此,本文擬對EMD進行改進以減小計算量,并將語義核SVM結(jié)合改進EMD,以解決未考慮文本特征間語義關(guān)系的問題,進而提高標(biāo)注的準(zhǔn)確率,在樣本數(shù)據(jù)量增大時減小所需計算量.
1 EMD算法及其改進
1.1 EMD基本原理
EMD是使用最廣泛的衡量兩種模態(tài)對象相似度的方法之一,當(dāng)樣本量較小時,其計算次數(shù)少的優(yōu)勢尤為明顯.設(shè)P={p1,p2,…,pn}和Q={q1,q2,…,qn}為n維直方圖,其中pi和qi是直方柱(也稱權(quán)重或概率).矩陣D=[d]稱為地面距離矩陣,其中dij是pi與qi之間的地面距離.地面距離可以由任意度量距離定義,例如歐氏距離和曼哈頓距離.當(dāng)直方柱由pij轉(zhuǎn)換為qij時,直方柱中發(fā)生變化的部分為fij,矩陣F=[fij]稱為流矩陣.這一轉(zhuǎn)換過程定義為fij與dij的乘積.P和Q之間的EMD定義為分布P轉(zhuǎn)換為分布Q所需的最小工作量,即P和Q之間的EMD投影下界為一組正交向量的EMD之和除以向量數(shù)的平方根,單一投影的計算時間復(fù)雜度為O(n).當(dāng)所需計算對象數(shù)量增加時,EMD算法計算更耗時[13].為了解決這一問題,結(jié)合EMD算法計算低維直方圖比高維直方圖快速這一特點,利用n×n′(n′? ? ?改進的EMD算法的計算方法為:投射矩陣G(0)的初始值為隨機生成的正交矩陣,在第k次迭代訓(xùn)練中,先通過固定矩陣G得到變換矩陣E。
然后,給定變換矩陣E再計算得到投射矩陣G.VS為變換前向量空間,VT為變換后的向量空間,ws和wt分別為變換前后的特征向量.由于正交的限制,計算有一定難度.但是如果選擇平方歐幾里得距離作為地面距離函數(shù)d,則目標(biāo)問題轉(zhuǎn)化為奇異值分解問題:
2 基于語義核函數(shù)的SVM
語義核函數(shù)可通過將線性不可分問題中的數(shù)據(jù)點映射到高維空間,把問題轉(zhuǎn)化為線性可分問題,然后通過計算高維空間中數(shù)據(jù)點間的距離來實現(xiàn)分類.此方法的優(yōu)勢在于通過在原始空間中的計算即可得到高維空間中數(shù)據(jù)點間距離,且文本數(shù)據(jù)的稀疏性使得計算距離非常有效.語義核函數(shù)的概念由G.Siolas[11]首次提出,實際上是利用文檔維度正交地調(diào)整原始空間中的數(shù)據(jù)向量.對于任意向量x,z∈X,當(dāng)核函數(shù)K(x,z)=Φ(x)·Φ(z)時K有效,其中X是輸入向量空間,Φ是向量空間X到特征空間F的映射.對于任意文檔向量x,z∈X,語義核函數(shù)K(x,z)=xTMz,其中M為對稱矩陣,稱為度量矩陣,每個矩陣代表輸入空間的X維之間的語義相似度[12].語義核函數(shù)依賴于度量矩陣M的構(gòu)造.按知識來源,語義核函數(shù)可分為基于外部知識源和內(nèi)部統(tǒng)計特征的語義核函數(shù)兩部分.此處的外部知識源為本體,內(nèi)部統(tǒng)計特征為語義相似度.因此,
其中,φti,tj對應(yīng)特征矩陣中的元素; k用來控制與ti相關(guān)聯(lián)的詞數(shù);RelHowNet為ti和tj在本體庫HowNet中的語義相似度;Simsyn為ti與tj的同義詞間的相似度;k1,k2為平滑系數(shù),且 k1+k2=1.當(dāng)訓(xùn)練文本充足時,基于統(tǒng)計特征的語義核函數(shù)性會更好.反之,當(dāng)訓(xùn)練文本數(shù)量不足或者無法依據(jù)統(tǒng)計特征得到語義關(guān)系時,基于本體的語義核函數(shù)性會更好.因此,結(jié)合這一特性可得
3 語義核SVM結(jié)合改進的EMD跨越語義鴻溝方法? 為解決最短視覺距離因訓(xùn)練樣本數(shù)量不足而導(dǎo)致準(zhǔn)確率不高的問題,采用改進EMD計算關(guān)鍵詞和圖像間的距離.為解決待分類關(guān)鍵詞忽略文本特征間語義關(guān)系,以及C4.5算法因訓(xùn)練集規(guī)模小而導(dǎo)致最終候選詞不可靠的缺點,采用基于語義核函數(shù)的SVM對關(guān)鍵詞進行分類.
語義核SVM結(jié)合改進的EMD跨越語義鴻溝的具體過程如下:模型輸入為共生圖文,首先構(gòu)建基于圖像分割的視覺特征模型,提取圖像的顏色、紋理和形狀特征,識別圖像中的對象.其次,對相關(guān)文本分詞、去停用詞,通過卡方統(tǒng)計選擇語義相似度較高的候選詞,由TF\|IDF計算得到候選詞的權(quán)重,構(gòu)造語義核函數(shù).再次,結(jié)合HowNet通用本體庫構(gòu)建基于語義核函數(shù)的SVM對候選詞分類,得到最佳候選詞.最后,由改進EMD計算出最佳候選詞與圖像中對象的距離,選擇距離最短的候選詞描述圖像,從而跨越語義鴻溝.該方法流程如圖2所示.
4 圖像標(biāo)注實驗結(jié)果與分析
為了測試本文方法的圖像描述準(zhǔn)確率,進行圖像標(biāo)注實驗.實驗數(shù)據(jù)來源于百度搜索得到的15 000個網(wǎng)頁中的圖文共生數(shù)據(jù),網(wǎng)頁中的圖片均帶有一個或多個標(biāo)簽,共10個類別的主題,分別為熊貓、狗、貓、汽車、輪船、飛機、冰激凌、面條、電話和杯子.在15 000張圖片中取10 000張作為訓(xùn)練數(shù)據(jù),其余5000張作為測試數(shù)據(jù).實驗環(huán)境為64位Windows10操作系統(tǒng),
測試樣本數(shù)量為500~5000張圖片時,4種方法的F值對比結(jié)果見圖4.由圖4可以看出,當(dāng)訓(xùn)練數(shù)目一定、測試數(shù)目增加時,準(zhǔn)確率均呈一定下降的趨勢;本文方法相比較基于傳統(tǒng)SVM的標(biāo)注方法,F(xiàn)值提升18.7%,比FMD模型提高了8.1%.
選擇實際標(biāo)簽數(shù)量為1~6個的圖片為測
試數(shù)據(jù),每種標(biāo)簽數(shù)量的圖片均為200張時,4種方法的F值對比結(jié)果見圖5.由圖5可以看出,當(dāng)實際標(biāo)簽數(shù)量增加,即圖像內(nèi)容更復(fù)雜時,SVMt,SVMv和FMD的F值迅速下降,由本文方法產(chǎn)生的F值雖然也呈下降趨勢,但仍保持較高位,標(biāo)注準(zhǔn)確率明顯高于其他3種方法.
對10—100張圖片進行標(biāo)注,4種方法所花費的時間結(jié)果見圖6.由圖6可見,本文提出的方法有效減小了計算量,縮短了標(biāo)注時間,標(biāo)注時間縮短為其他標(biāo)注方法的1/5左右.
5 結(jié)語
本文采用基于語義核的SVM結(jié)合改進EMD的跨越語義鴻溝方法對圖像進行標(biāo)注.該方法考慮與圖像共生文本間的語義特征,通過基于外部知識源和內(nèi)部統(tǒng)計特征的語義核函數(shù)得到文本特征間的語義關(guān)系,采用基于語義核的SVM對相關(guān)文本的文本特征分類,得到最佳候選關(guān)鍵詞,同時為了減少計算時間,提出減小變換矩陣改進EMD算法衡量文本特征與圖像對象的距離,選取與圖象距離最小的關(guān)鍵詞作為標(biāo)注詞.實驗結(jié)果表明,本文方法有效提高了標(biāo)注準(zhǔn)確率,減小了計算量.然而當(dāng)圖像內(nèi)容變得復(fù)雜時,本文方法由于對象識別準(zhǔn)確率下降,可能導(dǎo)致標(biāo)注準(zhǔn)確率下降,因此今后的研究方向?qū)⒓性谔岣邎D像內(nèi)容識別的準(zhǔn)確率上.
參考文獻:
[1] WEI S,WEI Y,ZHANG L,et al. Heterogeneous data alignment for cross\|media computing[C]∥International Conference on Internet Multimedia Computing and Service.New York:ACM,2015:84.
[2] LU Z,PENG Y. Image annotation by semantic sparse recoding of visual content[C]∥ACM International Conference on Multimedia. New York:ACM,2012:499.
[3] 許紅濤,周向東,向宇,等.一種自適應(yīng)的Web圖像語義自動標(biāo)注方法[J].軟件學(xué)報,2010,21(9):2183.
[4] VIKHAR P A,SHINKAR D V,MISHRA N. Improving the performance of CBIR system using relevance feedback[C]∥International Conference and Workshop on Emerging Trends in Technology.New York:ACM,2010:554.
[5] SMEULDERS A W M,WORRING M,SANTINI S,et al.Content\|based image retrieval at the end of the early years[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2000,22(12):1349.
[6] CAO Y,LONG M,WANG J,et al. Deep visual\|semantic hashing for cross\|modal retrieval[C]∥Proceedings of the 22nd ACM SIGKDD International Comference.New York:ACM,2016:1445.
[7] WANG B,YANG Y,XU X,et al.Adversarial cross\|modal retrieval[C]∥ACM on Multimedia Conference.New York:ACM,2017:154.
[8] TSENG V S,SU J H,WANG B W,et al.Web image annotation by fusing visual features and textual information[C]∥ACM Symposium on Applied Computing.New York:ACM,2007:1056.
[9] ELAIDI H,BENABBOU Z,ABBAR H. A comparative study of algorithms constructing decision trees:ID3 and C4.5[C]∥LOPAL 18 Proceedings of the International Conference on Learning and Optimization Algorithms:Theory and Applications. New York:ACM,2018:26.
[10] MAI F,HUANG L,TAN J,et al.The research of semantic kernel in SVM for chinese text Classification[C]∥2017 International Conference on inteligent Information Processing.New York:ACM,2017:1.
[11] SIOLAS G. Support vector machines based on a semantic kernel for text categorization[C]∥Proceedings of the IEEE\|INNS\|ENNS International Joint Conference on Neural Networks. IEEE Computer Society.Piscataway:IEEE,2000:5205.
[12] 張玉峰,王志芳.文本分類中的語義核函數(shù)研究[J]. 情報科學(xué),2010(7):970.
[13] WAN X J,PENG Y X.The earth movers distance as a semantic measure for document similarity[C]∥Proceedings of the 14th ACM International Conference on Information and Knowledge Management.New York:ACM,2005:301.
[14] SHI J,MALIK J.Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Maching Intelligence,2000,22(8):888.