李 昂 杜軍平 寇菲菲 薛 哲 徐 欣 許明英 姜 陽
(北京郵電大學(xué)計算機學(xué)院(國家示范性軟件學(xué)院)北京 100876)
(智能通信軟件與多媒體北京市重點實驗室(北京郵電大學(xué))北京 100876)
(junpingdu@126.com)
科技資訊聚焦了中外高新技術(shù)的前沿動態(tài).實時跟進最新的科技資訊,有助于促進國家戰(zhàn)略科技力量的發(fā)展,驅(qū)動科技創(chuàng)新,進而確保國家高質(zhì)量發(fā)展[1].科技資訊中包含大量的多媒體信息(如圖像、文本等),具備體量大、來源豐富、類型多樣等特點[2-3].隨著用戶感興趣的科技資訊模態(tài)不再單一,檢索需求也呈現(xiàn)出從單一模態(tài)到跨模態(tài)的發(fā)展態(tài)勢[4-5].憑借跨媒體科技資訊檢索,用戶能夠從多源異構(gòu)的海量科技資源中獲取目標科技資訊;研究者亦能近一步設(shè)計出符合用戶需求的應(yīng)用,包括科技資訊推薦[6]、個性化科技資訊檢索[7]等.跨媒體科技資訊檢索作為當(dāng)下的研究熱點,仍舊面臨著多媒體數(shù)據(jù)間異構(gòu)鴻溝和語義鴻溝亟待打破的難題[8-9].本文旨在解決現(xiàn)有跨媒體科技資訊檢索中僅考慮了媒體內(nèi)數(shù)據(jù)判別損失和媒體間數(shù)據(jù)在映射后的不變性損失,卻忽略了媒體間數(shù)據(jù)在映射前后的語義一致性損失和語義內(nèi)的媒體判別性損失,使得跨媒體檢索效果存在局限性的問題.
跨媒體科技資訊檢索方法種類繁多.先前的工作[10-14]聚焦于傳統(tǒng)的統(tǒng)計關(guān)聯(lián)分析方法,通過優(yōu)化統(tǒng)計值來學(xué)習(xí)公共空間的線性投影矩陣[15],目的是建立一個共享子空間,使得不同媒體類型的數(shù)據(jù)對象的相似性可以映射到該子空間中,再使用常見的距離進行度量.然而,文獻[10-14]所述的方法依賴于數(shù)據(jù)的線性表示,僅通過線性投影很難完全模擬現(xiàn)實世界中跨媒體數(shù)據(jù)的復(fù)雜相關(guān)性.因此,一些研究[16-20]通過深度學(xué)習(xí)方法解決上述問題,利用其強大的抽象能力處理多媒體數(shù)據(jù)的多層非線性變換,進行跨媒體相關(guān)學(xué)習(xí).然而,現(xiàn)有的基于深度學(xué)習(xí)的跨媒體檢索模型通常只專注于保留耦合的跨媒體樣本(例如圖像和文本)的成對相似性[21],卻忽略了一種媒體的一個樣本可能存在多個相同媒體的語義不同的樣本,因此無法保留跨媒體語義結(jié)構(gòu).保留跨媒體語義結(jié)構(gòu)需要使得相同語義不同媒體的數(shù)據(jù)間距離最小化,且相同媒體不同語義的數(shù)據(jù)間距離最大化.最近的工作[22-26]引入對抗學(xué)習(xí)的思想,通過聯(lián)合執(zhí)行標簽預(yù)測并保留數(shù)據(jù)中的底層跨媒體語義結(jié)構(gòu),為公共子空間中不同媒體的樣本生成媒體不變表示.然而,文獻[22-26]所述的方法聚焦于建模媒體內(nèi)數(shù)據(jù)的語義判別性和媒體間數(shù)據(jù)在子空間映射后的語義不變性,卻忽略了媒體間數(shù)據(jù)在映射前后的語義一致性和語義內(nèi)的媒體判別性,使得跨媒體檢索效果存在局限性.
針對上述問題,引入語義內(nèi)的媒體約束來加強將不同類型的媒體數(shù)據(jù)映射到共享高級語義空間的能力,提出一種面向科技資訊的基于語義對抗和媒體對抗的跨媒體檢索(semantics-adversarial and mediaadversarial cross-media retrieval,SMCR)方法.SMCR 方法采用對抗博弈[27]的思想,構(gòu)建特征映射器和媒體判別器,進行極小化極大化游戲.SMCR 方法追隨先前工作[28-29],采用標簽預(yù)測來確保數(shù)據(jù)在特征投影后仍保留在媒體內(nèi)的區(qū)別.與先前工作不同的是,SMCR 方法同時最小化相同語義的文本-圖像對中不同媒體的數(shù)據(jù)分別在特征映射前和特征映射后的距離,以確保不同媒體間數(shù)據(jù)在映射過程中的語義一致性得以保留.此外,通過構(gòu)建基礎(chǔ)映射網(wǎng)絡(luò)和精煉映射網(wǎng)絡(luò)共同輔助建模語義內(nèi)的媒體約束,使映射后的數(shù)據(jù)做到語義上接近自身和媒體上遠離自身,來增強特征映射網(wǎng)絡(luò)混淆媒體判別網(wǎng)絡(luò)的能力.媒體判別網(wǎng)絡(luò)負責(zé)區(qū)分數(shù)據(jù)的原始媒體,一旦媒體判別網(wǎng)絡(luò)被欺騙,整個博弈過程收斂.
本文的主要貢獻包括3 個方面:
1)提出一種面向科技資訊的基于語義對抗和媒體對抗的跨媒體檢索方法(SMCR),通過端到端的方式同時保持媒體內(nèi)的語義判別性、媒體間的語義一致性、語義內(nèi)的媒體判別性,能夠有效地學(xué)習(xí)異構(gòu)數(shù)據(jù)的公共表示;
2)通過構(gòu)建基礎(chǔ)特征映射網(wǎng)絡(luò)和精煉特征映射網(wǎng)絡(luò)聯(lián)合進行多媒體數(shù)據(jù)特征映射,輔助語義內(nèi)的媒體約束,有效地增強了特征映射網(wǎng)絡(luò)混淆媒體判別網(wǎng)絡(luò)的能力;
3)在2 個數(shù)據(jù)集上進行的大量實驗表明,本文提出的SMCR 方法優(yōu)于當(dāng)前最前沿的跨媒體檢索方法,包括傳統(tǒng)的方法和基于深度學(xué)習(xí)的方法.
科技資訊跨媒體檢索是近年來的研究熱點,旨在學(xué)習(xí)一個公共子空間[13,24,30],使得不同媒體的數(shù)據(jù)在該子空間中可以直接相互比較,以跨越不同媒體間存在的語義鴻溝.
一類經(jīng)典的方法當(dāng)屬傳統(tǒng)的統(tǒng)計關(guān)聯(lián)分析方法[10-14],它是公共空間學(xué)習(xí)方法的基本范式和基礎(chǔ),主要通過優(yōu)化統(tǒng)計值來學(xué)習(xí)公共空間的線性投影矩陣.例如,Hardoon 等人[12]提出典型關(guān)聯(lián)分析(canonical correlation analysis,CCA)方法,CCA 方法是一種關(guān)聯(lián)2 個多維變量之間線性關(guān)系的方法,可以被視為使用復(fù)雜標簽作為引導(dǎo)特征選擇朝向底層語義的一種方式.該方法利用同一語義對象的2 個視角來提取語義的表示.Wang 等人[13]提出一種基于耦合特征選擇和子空間學(xué)習(xí)的聯(lián)合學(xué)習(xí)(joint feature selection and subspace learning,JFSSL),受CCA 和線性最小二乘法之間潛在關(guān)系的啟發(fā),將耦合線性回歸用于學(xué)習(xí)投影矩陣,使來自不同媒體的數(shù)據(jù)映射到公共子空間中.同時,JFSSL 將l2正則用于同時從不同的特征空間中選擇相關(guān)和不相關(guān)的特征,并且在映射時使用多媒體圖正則化來保留媒體間和媒體內(nèi)的相似性關(guān)系.Zhai 等人[14]提出了一種新的跨媒體數(shù)據(jù)特征學(xué)習(xí)算法,稱為聯(lián)合表示學(xué)習(xí)(joint representation learning,JRL).該方法能夠在統(tǒng)一的優(yōu)化框架中聯(lián)合探索相關(guān)性和語義信息,并將所有媒體類型的稀疏和半監(jiān)督正則化集成到一個統(tǒng)一的優(yōu)化問題中.JRL旨在同時學(xué)習(xí)不同媒體的稀疏投影矩陣,并將原始異構(gòu)特征直接投影到聯(lián)合空間中.然而,僅通過線性投影很難完全模擬現(xiàn)實世界中跨媒體數(shù)據(jù)的復(fù)雜相關(guān)性.
隨著深度學(xué)習(xí)的興起,許多研究聚焦于將能夠?qū)崿F(xiàn)多層非線性變換的深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于跨媒體檢索中[16-20].例如,Yan 等人[17]提出一種基于深度典型相關(guān)分析(deep canonical correlation analysis,DCCA)的跨媒體圖像字幕匹配方法.通過解決非平凡的復(fù)雜性和過度擬合問題,使該方法適用于高維圖像和文本表示以及大型數(shù)據(jù)集.Peng 等人[18]提出一種跨媒體多重深度網(wǎng)絡(luò)(cross-media multiple deep network,CMDN),通過分層學(xué)習(xí)來利用復(fù)雜而豐富的跨媒體相關(guān)性.在第1 階段,CMDN 不像先前工作僅利用媒體內(nèi)的分離表示,而是聯(lián)合學(xué)習(xí)每種媒體類型的2種互補的分離表示;在第2 階段,由于每種媒體類型都有2 個互補的獨立表示,該方法在更深的2 級網(wǎng)絡(luò)中分層組合單獨的表示,以便聯(lián)合建模媒體間和媒體內(nèi)的信息以生成共享表示.然而,現(xiàn)有的基于深度神經(jīng)網(wǎng)絡(luò)的跨媒體檢索模型通常只專注于保留耦合的跨媒體樣本(例如圖像和文本)的成對相似性,卻忽略了一種媒體的一個樣本,可能存在多個相同媒體的語義不同的樣本,因此無法保留跨媒體語義結(jié)構(gòu).
近年來,相關(guān)研究轉(zhuǎn)而向?qū)箤W(xué)習(xí)[31]進行探索.雖然它在圖像生成[32]中應(yīng)用較廣,但研究者也將其用作正則化器[33].一些研究將其思想應(yīng)用于跨媒體檢索,并取得了顯著的效果[22-26].例如,Wang 等人[24]提出一種基于對抗跨媒體檢索(adversarial cross-modal retrieval,ACMR)方法來解決跨媒體語義結(jié)構(gòu)難保留的問題.該方法使用特征投影器,通過聯(lián)合執(zhí)行標簽預(yù)測并保留數(shù)據(jù)中的底層跨媒體語義結(jié)構(gòu),為公共子空間中不同媒體的樣本生成媒體不變表示.ACMR 的目的是混淆充當(dāng)對手的媒體分類器,媒體分類器試圖根據(jù)它們的媒體來區(qū)分樣本,并以這種方式引導(dǎo)特征投影器的學(xué)習(xí).通過這個過程的收斂,即當(dāng)媒體分類器失敗時,表示子空間對于跨媒體檢索是最優(yōu)的.Zhen 等人[25]提出一種深度監(jiān)督跨媒體檢索(deep supervised cross-modal retrieval,DSCMR)方法,旨在找到一個共同的表示空間,以便在其中直接比較來自不同媒體的樣本.該方法將標簽空間和公共表示空間中的判別損失最小化,以監(jiān)督模型學(xué)習(xí)判別特征.同時最小化媒體不變性損失,并使用權(quán)重共享策略來消除公共表示空間中多媒體數(shù)據(jù)的跨媒體差異,以學(xué)習(xí)媒體不變特征.劉翀等人[26]提出一種基于對抗學(xué)習(xí)和語義相似度的社交網(wǎng)絡(luò)跨媒體搜索方法(semantic similarity based adversarial cross media retrieval,SSACR),SSACR 使用語義分布及相似度作為特征映射網(wǎng)訓(xùn)練依據(jù),使得相同語義下的不同媒體數(shù)據(jù)在該空間距離小、不同語義下的相同媒體數(shù)據(jù)距離大,最終在同一空間內(nèi)使用相似度來排序并得到搜索結(jié)果.然而,文獻[24-26]聚焦于建模媒體內(nèi)數(shù)據(jù)語義損失和媒體間數(shù)據(jù)在映射后的語義損失,卻忽略了媒體間數(shù)據(jù)在映射前后的語義一致性和語義內(nèi)的媒體判別性,使得跨媒體檢索效果存在局限性.
多媒體數(shù)據(jù)種類繁多,為了不失通用性,本文聚焦于文本、圖像2 種媒體的跨媒體檢索.給定一系列語義相關(guān)的圖像-文本對m={m1,m2,…,m|m|},其中mi=(vi,ti)表示m中的第i個圖像-文本對,表示維度為dvis的圖像特征向量,表示維度為dtex的文本特征向量.每個圖像-文本對都對應(yīng)著一個語義類別向量li=(y1,y2,…,yC)∈RC,用來表示圖像-文本對的語義分布,也可以表示類別標簽分布.其中C表示語義類別總數(shù),假設(shè)li屬于第j個語義類別,則記yj=1,否則記yj=0 .記m中所有的圖像、文本、語義類別所對應(yīng)的特征矩陣為V=(v1,v2,…,vN)∈T=(t1,t2,…,tN)∈L=(l1,l2,…,lN)∈RC×N.
我們的目標是利用一種媒體的數(shù)據(jù)(如圖像vi或文本ti)檢索另一種媒體的數(shù)據(jù)(如文本ti或圖像vi).為了比較不同媒體數(shù)據(jù)之間的語義相似性,我們設(shè)計2 個特征映射網(wǎng)絡(luò)——基礎(chǔ)映射網(wǎng)絡(luò)和精煉映射網(wǎng)絡(luò).基礎(chǔ)映射網(wǎng)絡(luò)將圖像特征和文本特征映射到統(tǒng)一的隱語義空間S中以進行語義相似性的對比.圖像特征V映射到隱語義空間S后的特征記為SV=fV(V;θV),文本特征T映射到隱語義空間S后的特征記為ST=fT(T;θT) .其中fV(V;θV)和fT(T;θT)分別表示圖像和文本的映射函數(shù).為了近一步提高特征映射質(zhì)量,我們用精煉映射網(wǎng)絡(luò)對基礎(chǔ)映射網(wǎng)絡(luò)的輸出特征進行映射.圖像特征SV映射后的特征記為文本特征ST映射后的特征記為其中表示圖像特征和文本特征的映射函數(shù).
本文提出一種面向科技資訊的基于語義對抗和媒體對抗的跨媒體檢索方法(SMCR).SMCR 的框架如圖1 所示.本文的目的是利用對抗學(xué)習(xí)的思想不斷在語義與媒體間進行對抗,學(xué)習(xí)到一個公共子空間,使不同媒體的數(shù)據(jù)在該子空間中可以直接相互比較.
Fig.1 The overall framework of SMCR圖1 SMCR 的整體框架
本文采用特征映射網(wǎng)絡(luò)是為了將不同媒體的特征映射到統(tǒng)一的隱語義空間以便進行語義相似性的比較.同時,特征映射網(wǎng)絡(luò)也扮演著GAN[27]中“生成器”的角色,目的是為了迷惑媒體判別網(wǎng)絡(luò)(將在3.2節(jié)介紹).為了使映射后的特征表示充分考慮2 類媒體數(shù)據(jù)的語義相似性和媒體相似性,本文設(shè)計的特征映射網(wǎng)絡(luò)由3 部分組成:媒體內(nèi)的標簽預(yù)測、媒體間的語義保留、語義內(nèi)的媒體約束.媒體內(nèi)的標簽預(yù)測使得映射在隱語義空間S中的特征依然能夠以原始的語義標簽為真值進行語義分類;媒體間的語義保留使得語義相同媒體不同的數(shù)據(jù)在映射前后都能保留語義相似性;語義內(nèi)的媒體約束使得映射后的數(shù)據(jù)更加逼近原本語義.
3.1.1 標簽預(yù)測
為了保證映射到隱語義空間S中的特征依然能夠保留原始語義,以原始的語義標簽為真值進行語義分類.在每個特征映射網(wǎng)絡(luò)的最后加入一個保持線性激活的softmax 層.將圖像-文本對mi=(vi,ti)作為樣本進行訓(xùn)練,并輸出每個數(shù)據(jù)對應(yīng)語義類別的概率分布.采用在文獻[24]中介紹的損失函數(shù)來計算媒體內(nèi)的判別損失:
其中Limd表示對所有圖像-文本對進行語義類別分類的交叉熵損失,θimd表示分類器的參數(shù),li是每個樣本mi的真值,是樣本中每個數(shù)據(jù)(圖像或文本)所得到的概率分布.
3.1.2 語義保留
語義保留模塊致力于保證語義相同、媒體不同的數(shù)據(jù)在映射前后都能保留語義相似性,即媒體不同、語義相同的數(shù)據(jù)距離較近,媒體不同、語義不同的數(shù)據(jù)距離較遠.在映射到隱語義空間S之前,每個樣本mi中的圖像數(shù)據(jù)與文本數(shù)據(jù)的語義分布分別為lvis和ltex,那么2 個不同媒體數(shù)據(jù)間的語義一致性損失用l2范數(shù)表示為
在映射到隱語義空間S之后,每個樣本mi中的圖像數(shù)據(jù)特征SV與文本數(shù)據(jù)的特征ST之間的語義一致性損失同樣用l2范數(shù)表示為
因此,整體的媒體間一致性損失可以建模為l2(lvis,ltex) 和l2(SV,ST)兩者的結(jié)合:
其中Limi表示媒體間同時考慮映射前與映射后的語義一致性損失.
3.1.3 媒體約束
除了便于度量不同媒體數(shù)據(jù)間的語義相似性之外,特征映射網(wǎng)絡(luò)的另一個作用是生成映射后的特征來欺騙媒體判別網(wǎng)絡(luò),讓它無法區(qū)分出數(shù)據(jù)的原始媒體.因此,引入語義內(nèi)的媒體約束模塊.為了能夠更加逼真地映射出難以區(qū)分媒體的特征,在基礎(chǔ)的特征映射網(wǎng)絡(luò)P1之外,構(gòu)造另一個相同結(jié)構(gòu)的特征映射網(wǎng)絡(luò)P2,稱為精煉網(wǎng)絡(luò).精煉網(wǎng)絡(luò)P2的輸入是P1的輸出結(jié)果SV或ST.P2的輸出是或其中分別表示SV和ST經(jīng)過特征映射網(wǎng)絡(luò)P2映射后的特征,分別表示SV和ST這2 種特征的映射函數(shù).
對每一個圖像-文本對mi而言,目標是讓精煉網(wǎng)絡(luò)P2映射出的特征距離基礎(chǔ)網(wǎng)絡(luò)P1映射的特征(SV或ST)較遠,距離相同語義的特征(ST或SV)較近.受到文獻[34-36]啟發(fā),語義內(nèi)的媒體判別損失采用如下約束損失進行計算:
其中Lcon,V表示圖像媒體數(shù)據(jù)的約束損失,Lcon,T表示文本媒體數(shù)據(jù)的約束損失.
因此,整體語義內(nèi)的媒體判別損失可以建模為圖像媒體數(shù)據(jù)的約束損失與文本媒體數(shù)據(jù)的約束損失的結(jié)合:
3.1.4 特征映射網(wǎng)絡(luò)損失
整個特征映射網(wǎng)絡(luò)的映射性損失由媒體內(nèi)的判別損失Limd、媒體間的一致性損失Limi、語義內(nèi)的判別損失Lcom共同組成,記為Lemb:
其中 α 和 β 為可調(diào)節(jié)參數(shù),用以控制Limi和Lcon這2 類損失在整個特征映射網(wǎng)絡(luò)損失中的參與度.
媒體判別網(wǎng)絡(luò)扮演著GAN[27]中“判別器”的角色,用來判斷映射到隱語義空間后的數(shù)據(jù)的原始媒體.令經(jīng)過圖像映射函數(shù)的數(shù)據(jù)標簽為0,經(jīng)過文本映射函數(shù)的數(shù)據(jù)標簽為1.本文使用一個參數(shù)為 θdis的3 層全連接網(wǎng)絡(luò)作為判別網(wǎng)絡(luò),充當(dāng)特征映射網(wǎng)絡(luò)的對手.其目標是最小化媒體分類損失,也稱為對抗性損失Ladv,定義為
其中Ladv表示媒體判別網(wǎng)絡(luò)中每個樣本mi的交叉熵損失,D(·;θdis)表示樣本中每個數(shù)據(jù)(圖像或文本)所得到的媒體概率分布.
對抗學(xué)習(xí)的目的旨在通過同時最小化式(8)的映射性損失和式(9)的對抗性損失,來學(xué)習(xí)得到最優(yōu)的特征表示網(wǎng)絡(luò)參數(shù),定義如下所示:
具體的對抗學(xué)習(xí)訓(xùn)練過程如算法1 所示.
算法1.SMCR 的對抗訓(xùn)練過程.
輸入:圖像特征矩陣V=(v1,v2,…,vN),文本特征矩陣T=(t1,t2,…,tN),真值語義標簽矩陣L=(l1,l2,…,lN),迭代次數(shù)k,學(xué)習(xí)率 μ,每個批次的數(shù)據(jù)量m,損失參數(shù) λ;
本文分別闡述對實驗部分至關(guān)重要的研究問題、數(shù)據(jù)集、對比算法、評價指標等4 個方面.
本文通過3 個研究問題來引導(dǎo)實驗的設(shè)置.
研究問題1.面向科技資訊的基于語義對抗和媒體對抗的跨媒體檢索方法SMCR 的表現(xiàn)能否優(yōu)于前沿的跨媒體檢索算法.
研究問題2.SMCR 方法的主要組成部分對于跨媒體檢索是否存在貢獻.
研究問題3.SMCR 方法是否對參數(shù)敏感.
為了回答上述3 個研究問題,使用爬取自科技資訊網(wǎng)站SciTechDaily[37]的數(shù)據(jù)集進行實驗.數(shù)據(jù)集包括5 217 個圖像-文本對,將其中的4 173 對數(shù)據(jù)作為訓(xùn)練集,1 044 對數(shù)據(jù)作為測試集.為了驗證本文模型的通用性,同時使用Wikipedia[38]數(shù)據(jù)集進行實驗.Wikipedia 數(shù)據(jù)集包括2 866 個圖像-文本對,將其中的2 292 對數(shù)據(jù)作為訓(xùn)練集,574 對數(shù)據(jù)作為測試集.這2 個數(shù)據(jù)集的詳細信息如表1 所示.
Table 1 Attributes of Two Datasets Used for the Experiments表1 實驗使用的2 個數(shù)據(jù)集的屬性
本文將SMCR 與相關(guān)的基準算法和前沿算法進行比較,對比算法如下.
1)典型關(guān)聯(lián)分析(canonical correlation analysis,CCA).該模型[12]為不同的媒體類型的數(shù)據(jù)學(xué)習(xí)一個公共子空間,使2 組異構(gòu)數(shù)據(jù)之間的關(guān)聯(lián)最大化.
2)基于耦合特征選擇和子空間學(xué)習(xí)的聯(lián)合學(xué)習(xí)(joint feature selection and subspace learning,JFSSL).該模型[13]學(xué)習(xí)投影矩陣將多媒體數(shù)據(jù)映射到一個公共子空間,并同時從不同的特征空間中選擇相關(guān)的和有區(qū)別的特征.
3)跨媒體多重深度網(wǎng)絡(luò)(cross-media multiple deep network,CMDN).該模型[18]通過分層學(xué)習(xí)來利用復(fù)雜的跨媒體相關(guān)性.在第1 階段,聯(lián)合對媒體內(nèi)和媒體信息進行建模;在第2 階段,分層組合媒體間表示和媒體內(nèi)表示來進一步學(xué)習(xí)豐富的跨媒體相關(guān)性.
4)基于對抗的跨媒體檢索(adversarial crossmodal retrieval,ACMR).該模型[24]基于對抗性學(xué)習(xí)尋求有效的公共子空間.對特征投影器施加3 重約束,以最小化來自具有相同語義標簽、不同媒體的所有樣本表示之間的差距,同時最大化語義不同的圖像和文本之間的距離.
5)深度監(jiān)督跨媒體檢索(deep supervised crossmodal retrieval,DSCMR).該模型[25]同樣基于對抗性學(xué)習(xí)的思想,將標簽空間和公共表示空間中的判別損失最小化,同時最小化媒體不變性損失,并使用權(quán)重共享策略來消除公共表示空間中多媒體數(shù)據(jù)的跨媒體差異.
6)基于對抗學(xué)習(xí)和語義相似度的社交網(wǎng)絡(luò)跨媒體搜索(SSACR).該模型[26]同樣基于對抗性學(xué)習(xí)的思想,將映射到同一語義空間的不同媒體數(shù)據(jù)的特征向量進行了相似度計算,并與原本的語義特征向量之間的相似度進行比較,以消除同一語義下不同媒體數(shù)據(jù)的差異.
本文采用跨媒體檢索[39-40]中經(jīng)典的評價指標——平均精度均值(mean average precision,mAP),在文本檢索圖像txt2img 和圖像檢索文本img2txt 這2 個任務(wù)上,分別對SMCR 和所有對比算法進行評價.計算mAP,首先需計算R個檢索出的文檔的平均精度其中T是檢索出的文檔中的相關(guān)文檔數(shù)量,P(r) 表示前r個檢索出的文檔的精度,如果第r個檢索出的文檔是相關(guān)的,則 δ(r)=1,否則δ(r)=0.然后通過對查詢集中所有查詢的AP值進行平均來計算mAP.mAP值越大,說明跨媒體檢索結(jié)果越精準.
本節(jié)對所有實驗結(jié)果進行分析,來回答4.1 節(jié)提出的研究問題.
為了回答研究問題1,將SMCR 和6 個前沿算法分別在SciTechDaily,Wikipedia 這2 個數(shù)據(jù)集上進行對比.對比算法為:1)基于統(tǒng)計關(guān)聯(lián)分析的方法CCA[12],JFSSL[13];2)基于深度學(xué)習(xí)的方法CMDN[18],ACMR[24],DSCMR[25],SSACR[26].
表2 展示了本文在文本檢索圖像txt2img 和圖像檢索文本img2txt 這2 個任務(wù)上,對前5 個、前25 個、前50 個的檢索結(jié)果計算mAP值(mAP@5,mAP@25,mAP@50)和2 個檢索任務(wù)的mAP均值的結(jié)果.
Table 2 Comparison of Cross-Media Retrieval Performance on SciTechDaily and Wikipedia Datasets表2 在SciTechDaily 和Wikipedia 數(shù)據(jù)集上的跨媒體檢索性能比較
從表2 中,我們有以下發(fā)現(xiàn):
1)SMCR 的表現(xiàn)優(yōu)于所有前沿算法,包括基于統(tǒng)計關(guān)聯(lián)分析的方法和基于深度學(xué)習(xí)的方法.其中SMCR 方法在前5 個、前25 個、前50 個的檢索結(jié)果上的mAP均值在2 個數(shù)據(jù)集上均優(yōu)于目前最前沿的SSACR 算法.這表明,雖然SSACR 同樣建模了媒體內(nèi)語義損失和媒體間語義損失,SMCR 引入語義內(nèi)的媒體約束模塊,通過更加逼真地映射出難以區(qū)分媒體的特征表示,有助于進一步提升跨媒體檢索性能.
2)SMCR 和JFSSL,CMDN,ACMR,DSCMR,SSACR等同時建模媒體內(nèi)相似性和媒體間相似性的模型,效果優(yōu)于基于圖像-文本對建模媒體間相似性的CCA,表明同時考慮媒體內(nèi)相似性和媒體間相似性能夠提高跨媒體檢索精度.
3)SMCR 和ACMR,DSCMR,SSACR 的跨媒體檢索性能優(yōu)于在多任務(wù)學(xué)習(xí)框架中同樣建模了媒體間不變性和媒體內(nèi)判別性的CMDN,表明對抗學(xué)習(xí)有助于進一步提升媒體間不變性和媒體內(nèi)判別性的建模.
4)SMCR 通過分別建模相同語義、不同媒體數(shù)據(jù)在映射前和映射后的語義相似性,表現(xiàn)優(yōu)于僅建模相同語義、不同媒體間數(shù)據(jù)在映射后的語義相似性的ACMR 和DSCMR.這表示建模不同媒體的數(shù)據(jù)在映射前后的語義不變性有助于提高跨媒體檢索精度.
5)SMCR 和所有前沿算法在SciTechDaily,Wikipedia 這2 個數(shù)據(jù)集上的表現(xiàn)一致,表明SMCR 算法不僅局限于跨媒體科技資訊的檢索,而且在通用的跨媒體檢索任務(wù)中同樣具備良好效果.
為了回答研究問題2,我們將SMCR 與去掉媒體間語義損失Limi的SMCR、去掉語義內(nèi)媒體損失Lcon的SMCR 在SciTechDaily 和Wikipedia 這2 個數(shù)據(jù)集上進行對比.由于采用標簽分類建模的媒體內(nèi)語義損失Limd并非本文創(chuàng)新,因此不對去掉Limd的SMCR進行對比,結(jié)果如表3、表4 所示.從表3、表4 中有2點發(fā)現(xiàn):
Table 3 Performance of SMCR and Its Variants in SciTechDaily Dataset表3 SMCR 與其變種在SciTechDaily 數(shù)據(jù)集上的表現(xiàn)
Table 4 Performance of SMCR and Its Variants in Wikipedia Dataset表4 SMCR 與其變體在Wikipedia 數(shù)據(jù)集上的表現(xiàn)
1)去掉媒體間語義損失Limi的SMCR 和去掉語義內(nèi)媒體損失Lcon的SMCR,相比SMCR,跨媒體檢索mAP值均有所下降.這表明在特征映射網(wǎng)絡(luò)中同時優(yōu)化媒體間語義損失Limi和語義內(nèi)媒體損失Lcon相比單獨優(yōu)化其中一個更有助于提升跨媒體檢索表現(xiàn).
2)SMCR 與其變體在SciTechDaily,Wikipedia 這2 個數(shù)據(jù)集上的跨媒體檢索表現(xiàn)一致,再次表明SMCR 方法并不局限于跨媒體科技資訊檢索,而在通用的跨媒體檢索任務(wù)上同樣有效.
本節(jié)回答研究問題3.式(8)中的特征映射網(wǎng)絡(luò)的映射性損失Lemb有 α 和 β這2 個參數(shù),分別控制媒體間語義損失Limi和語義內(nèi)媒體損失Lcon在整體映射性損失Lemb中的參與度.本節(jié)在Wikipedia 數(shù)據(jù)集上改變α 和 β 的取值,以測試SMCR 算法的參數(shù)敏感性.將α和 β分別取值0.1,1,10,100,特別而言,當(dāng)α=0時SMCR 退化為去掉媒體間語義損失Limi的SMCR;當(dāng)β=0時 SMCR 退化為去掉語義內(nèi)媒體損失Lcon的SMCR.因此 α 和 β 的取值不為0.固定一個參數(shù)(如 α)的前提下,改變另一個參數(shù)(如 β)進行實驗,并采用mAP@50分別評估文本檢索圖像效果、圖像檢索文本效果、平均檢索效果,結(jié)果如圖2 所示.
Fig.2 Retrieval performance with α and β in Wikipedia dataset圖2 Wikepedia 數(shù)據(jù)集上在 α 和 β下的檢索效果
從圖2中可見,當(dāng) α取值為0.1,1,10 和 β取值為0.1,1,10,100 時,SMCR 表現(xiàn)較好.這表明SMCR 對參數(shù)不敏感,即泛化能力較好.特別地,在文本檢索圖像任務(wù)上,當(dāng) α=0.1 且 β=0.1時,SMCR 表現(xiàn)最優(yōu);在圖像檢索文本任務(wù)上,當(dāng) α=1且 β=-1時,SMCR取得最優(yōu)檢索效果;在平均檢索效果上,當(dāng) α=-1且β=-1時,SMCR 表現(xiàn)最好.
本文提出一種面向科技資訊的基于語義對抗和媒體對抗的跨媒體檢索方法(SMCR),能夠同時學(xué)習(xí)跨媒體檢索中的媒體內(nèi)判別性、媒體間一致性、語義內(nèi)判別性表示.SMCR 基于對抗學(xué)習(xí)方法,在極小化極大化游戲中涉及2 個過程:生成具有媒體內(nèi)判別性、媒體間一致性、語義間判別性表示的特征映射網(wǎng)絡(luò)和試圖辨別給定數(shù)據(jù)原始媒體的媒體判別網(wǎng)絡(luò).本文引入媒體間一致性損失,以確保映射前后的媒體間數(shù)據(jù)保留語義一致性;此外,引入語義內(nèi)媒體判別性損失,以確保映射后的數(shù)據(jù)在語義上接近自身,媒體上遠離自身來增強特征映射網(wǎng)絡(luò)混淆媒體判別網(wǎng)絡(luò)的能力.在2 個跨媒體數(shù)據(jù)集上進行的綜合實驗結(jié)果證明了SMCR 方法的有效性,且在跨媒體檢索上的表現(xiàn)優(yōu)于最前沿的方法.
作者貢獻聲明:李昂負責(zé)論文初稿撰寫及修改、實驗設(shè)計驗證與核實;杜軍平負責(zé)論文審閱與修訂、研究課題監(jiān)管與指導(dǎo);寇菲菲負責(zé)指導(dǎo)實驗方法設(shè)計;薛哲負責(zé)指導(dǎo)論文選題;徐欣和許明英負責(zé)實際調(diào)查研究;姜陽負責(zé)數(shù)據(jù)分析與管理.