金 濤,金 冉,侯騰達,袁 杰,2,顧驍哲
1.浙江萬里學院大數(shù)據(jù)與軟件工程學院,浙江 寧波 315100
2.江蘇電力信息技術(shù)有限公司,南京 210003
隨著互聯(lián)網(wǎng)的不斷發(fā)展以及大數(shù)據(jù)時代的到來,單模態(tài)檢索的局限性在如今大數(shù)據(jù)時代逐漸明顯,為了滿足人們對于信息檢索更加高效全面的需求,多模態(tài)學習已經(jīng)逐漸受到了廣大學者的關(guān)注。生活中各種模態(tài)的數(shù)據(jù)在身邊被記錄下來,如文本數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)以及嗅覺數(shù)據(jù)等等。當各個模態(tài)的數(shù)據(jù)整合在一起時,多模態(tài)學習的研究也愈發(fā)重要。通過人工智能的學習來解決多模態(tài)問題,可以更好地度量不同模態(tài)間的相似性。
Shi等人[1]對多模態(tài)檢索的相關(guān)技術(shù)進行分類總結(jié),并制定了基準,為該領(lǐng)域發(fā)展奠定了良好基礎(chǔ)。本文主要介紹多模態(tài)檢索下以圖像-文本檢索為主的檢索方法,同時總結(jié)并簡述了一些其他模態(tài)間檢索的方法。根據(jù)文獻梳理將圖文檢索的方法技術(shù)歸納為如圖1 所示。為便于多模態(tài)檢索領(lǐng)域初學者能夠了解到此領(lǐng)域最新研究進展,本文研究多模態(tài)檢索領(lǐng)域由始以來發(fā)展的基本路線和近期研究現(xiàn)狀,主要貢獻如下:
(1)分析多模態(tài)檢索主流方法的最新進展,總結(jié)現(xiàn)階段多模態(tài)檢索存在的挑戰(zhàn)。
(2)與其他研究綜述不同,本文探索了“細粒度+多模態(tài)”的檢索方法并對除了圖文檢索外其他模態(tài)間檢索方法進行了闡述。
(3)將一些代表性的方法進行測試比較,通過多模態(tài)數(shù)據(jù)集測試得出結(jié)果,分析方法之間準確性、效率、特點等方面的差異。最后對多模態(tài)檢索的未來研究進行了展望。
源于不同的模態(tài)數(shù)據(jù)間無法進行直接的比較,多模態(tài)檢索的主要目的就是得到不同模態(tài)數(shù)據(jù)的相似性,而通過實值表示學習方法能使不同模態(tài)的數(shù)據(jù)具有統(tǒng)一的表示從而進行相似性對比[2]。本文主要將實值表示學習方法分為三類:全局特征學習方法、細粒度特征學習方法和混合特征學習方法。如表1所示,分別介紹近年來實值表示學習方法的熱點模型。
全局特征學習方法通過提取全局特征向量,映射到同一個子空間,通過余弦距離等方式來度量相似性,不同類別的相似度要低于相同類別的相似度,該方法在多模態(tài)檢索中減少了語義鴻溝,提高了檢索的準確度。
在經(jīng)典的基于傳統(tǒng)統(tǒng)計的分析中,Hardoon 等人[3]提出了典型相關(guān)分析(canonical correlation analysis,CCA)算法,CCA 算法作為最流行的子空間學習方法,其模型結(jié)構(gòu)簡單并能有效的解決線性關(guān)系問題。其主要思想為假設(shè)X=[x1,x2,…,xn],Y=[y1,y2,…,yn] 為兩種不同模態(tài)特征矩陣,ωx、ωy是兩投影向量,將特征矩陣轉(zhuǎn)化為線性組合K和G:
構(gòu)建集合內(nèi)協(xié)方差矩陣ΣXX、ΣYY和集合間協(xié)方差矩陣ΣXY:
通過計算K和G兩線性組合之間的相關(guān)系數(shù)ρ,體現(xiàn)兩者間的相關(guān)性:
構(gòu)建拉格朗日方程L,以為約束條件,找到最佳投影向量ωx、ωy,最大化線性組合K和G之間的相關(guān)性:
設(shè)λ和θ為系數(shù)變量,找到其特征值最大的特征向量:
該算法目標是通過學習兩個線性映射,得到了不同模態(tài)之間最大化的特征相似性。但CCA算法僅能解決線性關(guān)系的問題,不能解決非線性關(guān)系的實際應(yīng)用。
為了能夠解決CCA算法非線性問題的缺陷,Zhang等人[4]提出了一種將核函數(shù)引入CCA 的無監(jiān)督學習框架——核典型相關(guān)分析(kernel canonical correlation analysis,KCCA)。該方法通過非線性映射到公共子空間,將視覺和文本進行連接,為了有效地解決圖像檢索和自動標記的問題,利用用戶提供關(guān)鍵字來傳達信息[5]。KCCA在一定程度上彌補了CCA算法的不足,但KCCA方法是非參數(shù)的,因此它的可伸縮性不高。并且KCCA和CCA只適用于成對數(shù)據(jù)。
為了改進了CCA和KCCA只適用成對數(shù)據(jù)的問題。Rasiwasia等人[6]在原有的CCA算法上進行了新的擴展,提出了聚類相關(guān)性分析(cluster canonical correlation analysis,Cluster-CCA),該方法并非是類均值對應(yīng)關(guān)系,而是通過兩個集合中給定類中所有數(shù)據(jù)點之間的一一對應(yīng)。Cluster-CCA 能夠?qū)W習判別性的低維表示,最大化兩個集合之間的相關(guān)性,同時在學習空間上隔離不同的類。由于它在計算協(xié)方差的時候?qū)?shù)據(jù)的數(shù)量呈平方的關(guān)系增長,所以在大型數(shù)據(jù)集的使用上計算量非常大。因此該方法并不適用于大型數(shù)據(jù)集上的使用。
隨著需求的不斷增加,僅僅只是單視圖或者雙視圖已經(jīng)無法滿足多模態(tài)檢索的需求,Gong等人[7]在原有的基礎(chǔ)上提出了三視圖CCA(3view canonical correlation analysis,3view-CCA)用于捕獲高層次語義。經(jīng)典的雙視圖CCA只考慮圖像與相應(yīng)文本特征向量之間的直接相關(guān)性。然而,通過考慮與前兩個相關(guān)的第三個視圖-圖像的底層語義,可以獲得顯著的改進。
Ranjan 等人[8]在CCA 的基礎(chǔ)上提出了多標簽典型關(guān)聯(lián)分析(multi-label canonical correlation analysis,ML-CCA),該方法通過多標簽信息學習處理高級語義信息來學習共享子空間,與傳統(tǒng)CCA 不同的是它不依賴于不同模式之間的顯式配對。大多數(shù)現(xiàn)有的方法都將不同模式的數(shù)據(jù)投影到一個可以直接比較的公共空間中。
但是,由于忽略了特征和語義信息的保存,所以無法獲得預期的滿意結(jié)果。因此,Shu 等人[9]對ML-CCA做出了進一步改進,提出了(scalable multi-label canonical correlation analysis,SML-CCA),不僅能夠像ML-CCA一樣同時學習兩種模態(tài)數(shù)據(jù)的共同語義空間,而且很好地解決了ML-CCA只關(guān)注語義相關(guān)性,忽略特征相關(guān)性的問題。在上述方法中,經(jīng)過研究者對方法的改進一定程度上彌補了CCA 的缺點,證明了語義信息對提高多模態(tài)檢索精準度的有效性。
為了研究多模態(tài)重構(gòu),通過多模態(tài)重構(gòu)和單模態(tài)重構(gòu)兩組模型,F(xiàn)eng等人[10]提出了一種涉及對應(yīng)自編碼器(correspondence autoencoder,Corr-AE)的多模態(tài)檢索新模型。將表示學習和相關(guān)學習兩段式方法融合到一個過程中。受到深度網(wǎng)絡(luò)學習的啟發(fā),一些人就希望能將深度神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)CCA 相結(jié)合,Andrew 等人[11]提出了深度典型相關(guān)分析(deep canonical correlation analysis,DCCA),這是一種學習兩個數(shù)據(jù)視圖的組合非線性變換的方法,使得得到的表示高度線性相關(guān)。兩個變換的參數(shù)被共同學習,使總相關(guān)性最大化(正則化)。它可以被視為典型相關(guān)分析(CCA)的非線性擴展。但是DCCA仍然存在計算效率不高,內(nèi)存占用過大等問題。
傳統(tǒng)的特征提取技術(shù)限制了圖像識別的性能。由于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的發(fā)展,視覺識別任務(wù)取得了重大進展。為了提升多模態(tài)檢索的效率,Wei 等人[12]提出了一種深度語義匹配方法(deep semantic matching,Deep-SM)來解決帶有一個或多個標簽注釋的樣本的多模態(tài)檢索問題。通過實驗與典型相關(guān)分析(CCA)相比較,證明了CNN 視覺特征在多模態(tài)檢索中的優(yōu)越性。
現(xiàn)有的基于深度神經(jīng)網(wǎng)絡(luò)的方法往往面臨多模態(tài)訓練數(shù)據(jù)不足的挑戰(zhàn),這限制了訓練的有效性,容易導致過擬合。遷移學習通常用于緩解訓練數(shù)據(jù)不足的問題。因此,Huang等人[13]提出了模態(tài)-對抗混合傳輸網(wǎng)絡(luò)(modal-adversarial hybrid transfer network,MHTN),這是一個從單模態(tài)源域到多模態(tài)目標域的混合轉(zhuǎn)移過程。與現(xiàn)有的單模態(tài)遷移方法不同,這種混合遷移結(jié)構(gòu)可以將源域的大規(guī)模單模態(tài)數(shù)據(jù)集的知識聯(lián)合遷移到目標域的所有模態(tài)中,提取模態(tài)無關(guān)的補充信息,緩解多模態(tài)訓練數(shù)據(jù)不足的問題。如圖2所示,展示了模態(tài)對抗性語義學習子網(wǎng)絡(luò)的結(jié)構(gòu),其中以圖像、文本和音頻為例。
圖2 模態(tài)對抗性語義學習子網(wǎng)絡(luò)的結(jié)構(gòu)Fig.2 Structure of modal adversarial semantic learning subnetwork
為了能完全保留數(shù)據(jù)中潛在的多模態(tài)語義結(jié)構(gòu)。Wang 等人[14]提出了對抗式跨模態(tài)檢索方法(adversarial cross-modal retrieval,ACMR),該模型在對抗機制下執(zhí)行語義學習。進一步對特征提取施加三重約束,以最大限度地縮小來自具有相同語義標簽的不同模態(tài)的所有項目的表示之間的差距,同時最大限度地擴大不同語義的圖像和文本之間的距離。同樣都是利用對抗學習,Peng 等人[15]提出了跨模態(tài)生成對抗網(wǎng)絡(luò)(cross-modal generative adversarial network,CM-GAN),對不同模態(tài)的數(shù)據(jù)進行聯(lián)合分布建模。模態(tài)間和模態(tài)內(nèi)的相關(guān)性可以在生成模型和判別模型中同時探索。兩者相互競爭以促進模態(tài)間相關(guān)學習。
識別圖像物體的大類比較容易,但若是需要判別更精細的物體則需要利用細粒度特征學習方法,細粒度特征學習方法目的是對屬于同一基礎(chǔ)類別的圖像進行更加細致的子類劃分。由于類別之間具有細微的類間差異以及較大的類內(nèi)差異,所以需要捕獲特定區(qū)域的細微差異進行分類。
Peng 等人[16]提出了一種基于分層網(wǎng)絡(luò)的多粒度融合的多模態(tài)學習方法。該網(wǎng)絡(luò)可以利用和整合粗粒度實例和細粒度補丁,使模態(tài)間關(guān)聯(lián)更加精確。通過優(yōu)化網(wǎng)絡(luò)引入了對抗學習,Cheng 等人[17]提出了一種用于多模態(tài)檢索的深度注意細粒度相似性網(wǎng)絡(luò)(deep attentional fine-grained similarity network,DAFSN)。DAFSN模型由兩個子網(wǎng)組成,用于對齊表示學習的注意細粒度相似性網(wǎng)絡(luò)和模態(tài)判別網(wǎng)絡(luò)。為了證明利用子空間學習方法來解決草圖和照片之間的域間隙的可行性。Xu等人[18]介紹并比較了一系列先進的多模態(tài)子空間學習方法,并在兩個最近發(fā)布的細粒度SBⅠR 數(shù)據(jù)集上對它們進行了基準測試。
盡管基于深度學習的視覺文本處理系統(tǒng)不斷發(fā)展,但精確的多模態(tài)匹配仍然是一項具有挑戰(zhàn)性的任務(wù)。Messina 等人[19]通過基于詞-區(qū)域?qū)R的圖像-句子匹配來解決模態(tài)間檢索的任務(wù)。提出了一種新的方法,稱為Transformer 編碼器推理和對齊網(wǎng)絡(luò)(Transformer encoder reasoning and alignment network,TERAN)。TERAN 強制在圖像和句子的底層組件(即圖像區(qū)域和單詞)之間進行細粒度匹配,以保持兩種模式的信息豐富性。
關(guān)于多模態(tài)檢索任務(wù)中的多尺度稀缺性和目標冗余,Yuan等人[20]提出了一種新的非對稱多模態(tài)特征匹配網(wǎng)絡(luò)(asymmetric multimodal feature matching network,AMFMN)。該模型可適應(yīng)多尺度特征輸入,支持多源檢索方法,并能動態(tài)過濾冗余特征。為了提高細粒度圖像到文本多模態(tài)檢索任務(wù)的訓練,Wang等人[21]研究了生成文本-圖像對的開放研究問題,并通過揭示StyleGAN2模型的隱藏語義信息,提出了一種新的配對數(shù)據(jù)增強框架。
為了保持多模態(tài)對齊中獲得的多模態(tài)注意力之間的一致性。Zeng 等人[22]通過同時探索具有一致性約束的概念和句法多模態(tài)對齊來用于圖像-文本匹配的概念和句法多模態(tài)對齊。引入概念級多模態(tài)對齊來探索細粒度對應(yīng)關(guān)系。隨后,Sheng 等人[23]提出了一個弱監(jiān)督對齊模型。該模型利用注意機制并且側(cè)重于視覺和文本片段的細粒度多模態(tài)對齊和檢索。
如何充分挖掘和利用圖像與句子之間的粗粒度關(guān)系或區(qū)域與單詞之間的細粒度關(guān)系仍然是問題。Li 等人[24]提出了一種新的多尺度細粒度對齊網(wǎng)絡(luò)(multiscale fine-grained alignments network,MFA),它可以有效地探索多尺度的視覺文本對應(yīng)關(guān)系,以促進模態(tài)間差異的彌合。通過增強細粒度對象在不同模式下的信息交互,開發(fā)了一種通道混合方法,并對不同模式下的深度激活通道進行了處理。Shen 等人[25]提出了一種簡單而有效的方法來實現(xiàn)多模態(tài)的從屬類別之間的靈活檢索。該方法采用了一種新穎的細粒度多模態(tài)中心損失,可以進一步提高多模態(tài)的類內(nèi)可分性和類間緊密性。
考慮到細粒度語義相關(guān)學習提供互補提示的模態(tài)間關(guān)系,Peng等人[26]提出了一種關(guān)系聚合交叉圖(relationaggregated cross-graph,RACG)模型,通過聚合模內(nèi)和模態(tài)間關(guān)系來明確學習細粒度語義對應(yīng)關(guān)系,可以很好地用于指導特征對應(yīng)學習過程。細粒度對象檢索旨在學習判別表示,以檢索視覺上相似的對象。Wang 等人[27]開發(fā)了細粒度檢索提示調(diào)整(fine-grained retrieval prompt tuning,F(xiàn)RPT),從樣本提示和特征自適應(yīng)的角度引導凍結(jié)的預訓練模型執(zhí)行細粒度檢索任務(wù)。
大多數(shù)現(xiàn)有的方法側(cè)重于學習全局或局部對應(yīng)關(guān)系,而不能探索細粒度的多級對齊?;旌咸卣鲗W習方法在圖像-文本匹配在視覺和語言之間的橋梁中起著至關(guān)重要的作用,利用圖像和句子之間的全局對齊或區(qū)域和單詞之間的局部對齊來實現(xiàn)多級對齊。
近年來,探索圖像區(qū)域與句子詞局部對齊的細粒度匹配方法在通過聚合成對區(qū)域-單詞相似性推斷圖像-文本對應(yīng)關(guān)系方面取得了進展。然而,局部對齊很難實現(xiàn),因為一些重要的圖像區(qū)域可能被不準確地檢測到甚至丟失。同時,一些具有高級語義的單詞不能嚴格對應(yīng)于單個圖像區(qū)域。為了解決這些問題,Xu 等人[28]提出了一種新穎的混合匹配方法,稱為具有語義一致性的跨模態(tài)注意力(cross-modal attention with semantic consistency,CASC),用于圖像-文本匹配。擬議的CASC是一個聯(lián)合框架,用于執(zhí)行跨模態(tài)注意以進行局部對齊和多標簽預測以實現(xiàn)全局語義一致性。
在之前的工作中,只是簡單地利用預訓練網(wǎng)絡(luò)提取圖像和文本特征并直接投射到一個共同的子空間中,或者在此基礎(chǔ)上改變各種損失函數(shù),或者利用注意力機制直接匹配圖像區(qū)域和文本短語。這與圖像和文本的語義不匹配。因此,Li等人[29]提出了一種基于全局表示和局部表示的跨媒體檢索方法。構(gòu)建了一個多媒體的兩級網(wǎng)絡(luò),以探索圖像和文本之間更好的語義匹配,其中包含處理全局和局部特征的子網(wǎng)。在此基礎(chǔ)上,Li 等人[30]又提出了基于全局相似度和局部相似度的模型(global similarity and local similarity,GSLS)。對于全局圖像特征,引入自關(guān)注網(wǎng)絡(luò)來獲得全局圖像的宏觀表示。對于全局文本特征,使用字符級卷積神經(jīng)網(wǎng)絡(luò)(character-level convolutional neural network,Char-CNN)來獲得整個句子的宏觀表示。對于局部圖像特征,使用Faster R-CNN 獲得圖像的候選區(qū)域,并將其發(fā)送給卷積神經(jīng)網(wǎng)絡(luò)提取特征。隨后,Zhang 等人[31]提出了一個統(tǒng)一的上下文感知注意力網(wǎng)絡(luò)(context-aware attention network,CAAN),它通過聚合全局上下文有選擇地關(guān)注關(guān)鍵的局部片段(區(qū)域和單詞)。
現(xiàn)有的多模態(tài)檢索方法只考慮全局或局部語義嵌入,缺乏對象之間的細粒度依賴關(guān)系。同時,人們往往忽略了模態(tài)之間的相互轉(zhuǎn)換也有利于模態(tài)的嵌入。Zhu等人[32]提出了一種名為BiKA(bidirectional knowledgeassisted embedding and attention-based generation)的方法。該模型采用雙向圖卷積神經(jīng)網(wǎng)絡(luò)建立對象間的依賴關(guān)系。此外,它采用了雙向的基于注意的生成網(wǎng)絡(luò)來實現(xiàn)模態(tài)之間的相互轉(zhuǎn)換。其中,利用知識圖譜進行局部匹配,約束模態(tài)的局部表達;利用生成網(wǎng)絡(luò)進行相互轉(zhuǎn)換,約束模態(tài)的全局表達。
多模態(tài)檢索不僅要考慮圖像區(qū)域與文本詞之間的低級語義對應(yīng)關(guān)系,還要考慮不同模態(tài)內(nèi)關(guān)系之間的更高語義相關(guān)性。因此,Zeng等人提出[33]了一個具有對象級、對象關(guān)系級和更高層次學習子網(wǎng)絡(luò)的多層圖卷積網(wǎng)絡(luò)。通過局部和全局對齊來學習分層語義對應(yīng)關(guān)系。
基于標量的分數(shù)不足以推斷圖像和文本之間的復雜關(guān)系。Zhang等人[34]提出了一種新的相似性對比膠囊變換(similarity contrastive capsule Transformation,SCCT)網(wǎng)絡(luò)來推斷膠囊聚類的圖像-文本相似性。通過膠囊網(wǎng)絡(luò)對詞區(qū)域分數(shù)向量和短語區(qū)域分數(shù)向量之間的關(guān)系進行編碼,然后用動態(tài)變化的膠囊數(shù)量獲得更準確的預測。隨著近年來研究的深入,Xie 等人[35]提出了一種基于多視角相似性建模(multi-perspective similarity modeling,MPSM)網(wǎng)絡(luò)的多模態(tài)檢索方法。具體來說,知識圖譜迭代傳播(knowledge graph iterative dissemination,KGⅠD)模塊旨在迭代傳播全局語義知識,實現(xiàn)領(lǐng)域信息的集成和相關(guān)節(jié)點的關(guān)聯(lián),從而獲得細粒度的模態(tài)表示。
如何充分利用圖像和句子之間的全局對齊或區(qū)域和單詞之間的局部對齊來推斷更準確地匹配分數(shù)仍然未被探索。Diao 等人[36]提出了一種用于圖像文本匹配的新型相似圖推理和注意力過濾(similarity graph reasoning and attention filtration,SGRAF)網(wǎng)絡(luò)。引入依賴于一個圖卷積神經(jīng)網(wǎng)絡(luò)的相似性圖推理(similarity graph reasoning,SGR)模塊,推斷與局部和全局對齊的關(guān)系感知相似性。相似性注意力過濾(similarity attention filtration,SAF)模塊經(jīng)過進一步開發(fā),通過選擇性地關(guān)注重要和有代表性的對齊,同時拋棄無意義對齊的干擾,有效地整合這些對齊。
實值表示學習方法通過提高圖像文本間的匹配準確度以及減少語義鴻溝來實現(xiàn)檢索準確度的提高,隨著多模態(tài)數(shù)據(jù)在生活中的應(yīng)用,一些敏銳的學者也將多模態(tài)實值學習方法的檢索技術(shù)應(yīng)用到了實際社會生產(chǎn)場景中,Kou 等人[37]針對車聯(lián)網(wǎng)中的模態(tài)數(shù)據(jù),提出了一種基于對象注意和對抗學習(object attention and adversarial learning,OAAL)的通用語義表示方法。隨著社交網(wǎng)絡(luò)的快速發(fā)展,其中存在的語義缺口和稀疏性給多模態(tài)檢索帶來了挑戰(zhàn)。為了減輕語義差距和稀疏性,Shi 等人[38]提出了一種基于互補注意和生成對抗網(wǎng)絡(luò)(complementary attention and generative adversarial networks,CAGS)的搜索方法。細粒度特征學習方法也普遍應(yīng)用于科學歷史研究,因為類別之間具有高度的相似性,而特定類別由于不同的姿態(tài)和尺度而具有高度的不相似性。文化遺產(chǎn)圖像[39]是一種細粒度圖像,因為每個圖像在大多數(shù)情況下具有相同的相似性。使用分類技術(shù)來區(qū)分文化遺產(chǎn)建筑可能會很困難。采用細粒度圖像檢索技術(shù)對數(shù)據(jù)庫中的文物圖像進行檢索,可以解決類別之間高度相似和特定類別之間高度不相似的問題。
多媒體數(shù)據(jù)的數(shù)量呈爆炸式增長,這使得快速高效地檢索多模態(tài)數(shù)據(jù)成為迫切的要求。在眾多檢索方法中,哈希法以其存儲成本低、快速有效的特點被廣泛應(yīng)用于多模態(tài)數(shù)據(jù)檢索中[40]。哈希方法通過將原始特征映射到二進制編碼漢明空間來節(jié)省存儲空間并加快檢索速度。
哈希函數(shù)學習分為兩個階段:(1)降維;(2)量化。降維意味著將信息從原始空間映射到低維空間表示。而量化是指將實際特征的線性或非線性轉(zhuǎn)換為特征空間的二進制分段以獲取哈希碼。本文的哈希方法主要分為:傳統(tǒng)哈希方法和基于深度哈希的方法。如表2所示,對二值表示學習方法進行了總結(jié),匯總了傳統(tǒng)哈希以及深度哈希方法的經(jīng)典模型。
表2 二值表示學習方法總結(jié)Table 2 Summary of binary representation learning methods
傳統(tǒng)哈希方法通過二進制編碼的形式將不同模態(tài)的數(shù)據(jù)映射到同一個漢明空間中。計算查詢項哈希碼與數(shù)據(jù)哈希表關(guān)鍵值之間的漢明距離,并使用漢明距離較小的哈希表作為候選搜索范圍,以提高檢索的成功率。本節(jié)內(nèi)容主要包含多模態(tài)檢索工作中不包含深度學習方法的哈希方法。
在多語言和多模態(tài)信息訪問中的許多應(yīng)用程序中,數(shù)據(jù)庫由具有多視圖的數(shù)據(jù)對象組成,并且需要跨視圖進行相似性搜索。因此,Kumar等人[41]提出了一種跨視圖哈希(cross-view Hashing,CVH),CVH是一種無監(jiān)督方法。通過一種新的松弛方法將其轉(zhuǎn)化為可處理的特征值問題,證明了一般問題的一些特殊情況與局部敏感索引和典型相關(guān)分析等降維技術(shù)有關(guān)。但CVH并未充分考慮模態(tài)之間的聯(lián)系和差異,未能滿足用戶同時接收多種類型數(shù)據(jù)的需求,為了彌補CVH的缺陷,實現(xiàn)大規(guī)模的多模態(tài)檢索。Song等人[42]提出了跨媒體哈希(intermedia Hashing,ⅠMH)模型來探索來自不同數(shù)據(jù)源的多種媒體類型之間的相關(guān)性,并解決可擴展性問題??缑襟w哈希的基本思想與CVH 相似,但卻充分考慮了模態(tài)之間的聯(lián)系和差異,強調(diào)保持最近鄰樣本的模態(tài)間和模態(tài)內(nèi)相似性。但是,該模型是以犧牲時間復雜度為代價保證檢索效果,不適合應(yīng)用于大規(guī)模數(shù)據(jù)集。
由于ⅠMH無法適用于大規(guī)模數(shù)據(jù)集的應(yīng)用,為此,Zhu 等人[43]提出了一種新的哈希方法,稱為線性交叉模態(tài)哈希(linear cross-modal Hashing,LCMH),以解決不使用任何先驗知識的可擴展性問題。該模型采用了可擴展k-means算法計算數(shù)據(jù)點與中心點之間的距離,提升了大規(guī)模數(shù)據(jù)的檢索效率。隨著研究的深入,基于哈希的最近鄰搜索方法在計算機視覺和信息檢索界備受關(guān)注。Ding等人[44]提出了集體矩陣分解哈希(collective matrix factorization Hashing,CMFH)它假設(shè)所有模態(tài)數(shù)據(jù)的哈希碼映射到公共漢明空間時是一致的。該方法不僅支持跨視圖搜索,而且通過合并多視圖信息提高了搜索精度。
現(xiàn)有的大多數(shù)哈希方法通常采用單一模態(tài)或簡單地集成多個模態(tài),而沒有利用不同特征的影響。為了解決多模態(tài)緊湊哈希碼的學習問題,Cheng 等人[45]提出多圖哈希(multi-graph Hashing,MGH),MGH是一種半監(jiān)督方法,該方法可以在多圖學習方案中有效地將多種模態(tài)與優(yōu)化權(quán)重集成在一起。通過這種方式,可以自適應(yīng)地調(diào)節(jié)不同模態(tài)的效果。同為半監(jiān)督學習,Xia 等人[46]提出了判別哈希學習方法(discriminative Hashing learning,DHLing),該方法主要包括兩個模塊,即領(lǐng)域特定優(yōu)化和領(lǐng)域不變內(nèi)存庫。具體來說,第一個組件探索樣本的結(jié)構(gòu)知識,用偽標簽預測未標記的圖像,以實現(xiàn)哈希編碼的一致性;第二種方法嘗試構(gòu)建域不變記憶庫來指導特征生成,實現(xiàn)跨域?qū)R。
在許多重要的應(yīng)用程序中,需要比較來自不同模態(tài)的數(shù)據(jù),這些數(shù)據(jù)之間的相似性可能具有不同的結(jié)構(gòu)和維度。Bronstein 等人[47]提出跨模態(tài)相似敏感哈希(cross-modal similarity-sensitive Hashing,CMSSH),幾乎是近年來第一個有監(jiān)督的多模態(tài)檢索方法。但該方法只考慮了內(nèi)部相似性。同樣都是有監(jiān)督學習方法,現(xiàn)有的大多數(shù)多模態(tài)哈希方法的訓練時間復雜度過高,無法擴展到大規(guī)模數(shù)據(jù)集。Zhang等人[48]提出了語義相關(guān)最大化(semantic correlation maximization,SCM)。該方法根據(jù)標簽信息學習公共空間的表示,使用語義標記向量計算數(shù)據(jù)樣本之間的語義相似度。雖然該方法的訓練復雜度不高,但卻不適用于深度哈希中高維度的特征數(shù)據(jù)集。
為了放松離散約束,現(xiàn)有的方法通常忽略了哈希的固有離散性,這將導致檢索性能的下降。為此,Wang等人[49]提出了語義主題多模態(tài)哈希(Semantic topic multimodal maximization,STMH),STMH 很好地維護了哈希碼的離散性。通過保持哈希碼的離散性,使其更適合哈希學習模式,也獲得了更好的檢索性能。
然而,Lin等人[50]有著了與上述不同的思想,他們提出了語義保留哈希(semantics-preserving Hashing,SePH)用于研究圖像文本檢索的問題。當給定訓練數(shù)據(jù)的語義親和力作為監(jiān)督信息時,SePH 將其轉(zhuǎn)換為一個概率分布,并在漢明空間中進行近似,方法是將待學習哈希碼之間的所有成對漢明距離轉(zhuǎn)換為另一個概率分布Q,并將散度最小化以提升多模態(tài)檢索的性能。
通過對無監(jiān)督學習的深入研究,Liu 等人[51]提出了一種新的無監(jiān)督多模態(tài)檢索方法,稱為自監(jiān)督相關(guān)學習(self-supervised correlation learning,SCL),該方法充分利用大量未標記的數(shù)據(jù)來學習判別性和模態(tài)不變表示,進一步提升了多模態(tài)哈希的檢索效率。通過引入自適應(yīng)方法,Luo 等人[52]提出了一種自適應(yīng)邊緣語義哈希(adaptive marginalized semantic Hashing,AMSH)方法,該方法不僅可以通過自適應(yīng)邊緣增強對潛在表示和哈希碼的區(qū)分,而且可以用于成對和非成對的多模態(tài)哈希。
隨著深度學習算法在計算機視覺領(lǐng)域的重大突破,圖像識別、人臉識別等技術(shù)的準確度不斷上升。深度哈希方法將深度學習與哈希圖像檢索相結(jié)合,同時擁有檢索精度高,速度快的特點。
得益于深度學習,多模態(tài)檢索取得了引人注目的成果。然而,深度多模態(tài)哈希方法要么依賴于標記信息的數(shù)量,要么無法學習不同模態(tài)之間的準確性和相關(guān)性。因此,Li等人[53]提出了無監(jiān)督耦合循環(huán)生成對抗哈希網(wǎng)絡(luò)(unsupervised coupled cycle generative adversarial Hashing,UCH)用于多模態(tài)檢索。該方法通過所提出的耦合循環(huán)網(wǎng)絡(luò),實現(xiàn)公共表示和哈希碼學習相互作用,并在網(wǎng)絡(luò)收斂的同時達到最優(yōu)。
由于多模態(tài)檢索方法依賴于繁瑣的人工標記過程,不僅引入了主觀誤差,而且耗費了大量的時間和人力成本。Duan等人[54]設(shè)計了一個基于Web知識驅(qū)動的多模態(tài)檢索框架,稱為無監(jiān)督和魯棒圖卷積哈希(unsupervised and robust graph convolutional Hashing,URGCH)。針對人工標注過程繁瑣、時間成本大的問題,提出了一種“二次語義自融合”方法,自動構(gòu)建聯(lián)合語義矩陣,用于彌合模態(tài)差距。隨著對無監(jiān)督多模態(tài)哈希的深入研究,Yang 等人[55]提出了一種新的深度語義對齊哈希(deep semantic-alignment Hashing,DSAH)用于無監(jiān)督多模態(tài)檢索,它充分利用了共同發(fā)生的圖像-文本對。隨后,Yu等人[56]設(shè)計了一種深度圖鄰相干保持網(wǎng)絡(luò)(deep graphneighbor coherence preserving network,DGCPN),DGCPN 源于圖模型,并通過整合數(shù)據(jù)及其鄰居之間的信息來探索圖鄰居一致性。
由于傳統(tǒng)多模態(tài)哈希的性能不能滿足現(xiàn)有的需求,Jiang 等人[57]提出了深度跨模態(tài)哈希(deep cross-modal Hashing,DCMH),將哈希碼學習以及特征學習集成到同一框架中。在DCMH 的基礎(chǔ)上,為了提升模態(tài)檢索的效率。Li等人[58]提出了一種自監(jiān)督對抗哈希(selfsupervised adversarial Hashing,SSAH)方法,這是早期以自監(jiān)督方式將對抗學習納入多模態(tài)哈希的嘗試之一。該方法仍然存局限性,忽略了許多多模態(tài)數(shù)據(jù)集在多標簽中包含豐富的語義信息。因此,Zou 等人[59]提出了一種多標簽?zāi)B(tài)增強的基于注意的自監(jiān)督深度跨模態(tài)哈希(multi-label modality enhanced attention-based self-supervised deep cross-modal Hashing,MMACH)框架。該方法設(shè)計了一個多標簽?zāi)B(tài)增強注意模塊,將多模態(tài)數(shù)據(jù)中的重要特征集成到多標簽特征表示中,以提高其完備性。
幾乎所有采用多模態(tài)哈希的現(xiàn)有方法都忽略了異構(gòu)數(shù)據(jù)之間的相對相似性,無法獲得強大的哈希碼,從而導致檢索性能不理想。Deng 等人[60]提出了一種用于多模態(tài)檢索的基于三重的深度哈希(tripletbased deep Hashing,TDH)網(wǎng)絡(luò)。該方法使用三元組標簽,描述了三個實例之間的相對關(guān)系,以便捕獲跨模式實例之間的語義相關(guān)性。從模態(tài)間視圖和模態(tài)內(nèi)視圖建立一個損失函數(shù),以提高哈希碼的鑒別能力。其結(jié)構(gòu)如圖3所示。
圖3 擬議TDH的框架Fig.3 Framework of proposed TDH
為了縮小模態(tài)差距以進一步提高檢索精度。Bai等人[61]提出了一種用于多模態(tài)檢索的圖卷積網(wǎng)絡(luò)哈希(graph convolutional Hashing,GCH)算法,該算法由三個主要部分組成:語義編碼器、兩個特征編碼網(wǎng)絡(luò)和基于圖卷積網(wǎng)絡(luò)的融合模塊。隨著對細粒度的深入研究,Chen 等人[62]提出了一種具有雙過濾機制和基于代理的損失函數(shù)的新型細粒度哈希方法(fine-grained hashing,F(xiàn)ⅠSH)。具體來說,雙過濾機制由空間過濾模塊和特征過濾模塊兩個模塊組成,分別解決了細粒度特征提取和特征細化問題。
二值表示學習方法通過哈希算法使其在大規(guī)模數(shù)據(jù)集上的檢索效率有明顯的優(yōu)勢,隨著多媒體數(shù)據(jù)量的急劇增加,多模態(tài)檢索已成為最普遍但最具挑戰(zhàn)性的問題之一。哈希通過將高維數(shù)據(jù)嵌入到保持漢明空間的低維相似性空間中[63],為大規(guī)模多模態(tài)數(shù)據(jù)搜索提供了一種有前途的解決方案。
隨著YouTube、TikTok 等互聯(lián)網(wǎng)視頻的迅速興起,給視頻內(nèi)容的準確檢索帶來了巨大的挑戰(zhàn)。多模態(tài)視頻-文本檢索能夠理解文字和視頻的內(nèi)容,從而實現(xiàn)視頻與文本之間的匹配。視頻-文本檢索任務(wù)即給定一個文本查詢,根據(jù)對文本的描述程度從數(shù)據(jù)庫中檢索和排序視頻,反之亦然。
為了學習視頻圖和文本圖之間的更好匹配,Jin 等人[64]提出了一種用于視頻-文本檢索任務(wù)的分層多模態(tài)圖一致性學習網(wǎng)絡(luò)(hierarchical cross-modal graph consistency learning network,HCGC),該網(wǎng)絡(luò)考慮了視頻-文本匹配的多級圖一致性。設(shè)計了三種類型的圖一致性:圖間并行一致性、圖間交叉一致性和圖內(nèi)交叉一致性。
Chen 等人[65]提出了一種用于細粒度視頻文本檢索的層次圖推理(hierarchical graph reasoning,HGR)模型,該模型將視頻文本匹配分解為全局到局部級別。它利用細節(jié)語義改進了全局匹配,利用全局事件結(jié)構(gòu)改進了局部匹配。通過克服視頻和文本之間的異構(gòu)差距,F(xiàn)eng等人[66]提出了一種用于視頻文本檢索的具有全局-局部對齊(temporal multi-modal graph transformer with global-local alignment,TMMGT-GLA)的新型時間多模態(tài)圖轉(zhuǎn)換器。
為了將細粒度和交叉粒度的相似性矩陣聚合到實例級相似性,Ma 等人[67]提出一種用于視頻文本檢索的多粒度對比模型X-CLⅠP,模型專注于基本框架和單詞之間的對比度,從而降低不必要的框架和單詞對檢索結(jié)果的影響。隨后,Jin 等人[68]提出了粗細粒度并行注意力機制和特征融合模塊(coarse-fine-grained parallel attention,CFPGA),使用粗-細粒度并行關(guān)注機制來處理多模態(tài)視頻的全局和局部特征,從而增強了同一模態(tài)視頻特征中特征點之間的關(guān)系。將多頭注意機制整合到粗-細粒度并行注意中,增強了模型對特征的接受場,從多個角度處理相同的視頻模態(tài)特征。
多模態(tài)音頻-文本檢索需要學習兩種不同模態(tài)的綜合特征表示,并將它們統(tǒng)一到一個共同的嵌入空間中。旨在以另一種方式從給定查詢的候選池中檢索目標音頻剪輯或標題。
早期的工作只關(guān)注基于標簽的音頻檢索,其中查詢的是單詞而不是句子。以早期的思想為基礎(chǔ),Mei 等人[69]針對基于自由形式語言的音頻文本檢索任務(wù),提出了一種簡單有效的聲學語義嵌入學習模型,并在恒定訓練環(huán)境下研究了基于該模型的度量學習目標的影響。
語言的相似性并不總是意味著聲學上的相似性,對于臨時的、用戶生成的錄音,這些錄音在音頻及其相關(guān)的文本標簽中都是嘈雜的。為了克服這一限制,Elizalde等人[70]提出了一個框架,該框架從共享的詞典聲學空間中學習聯(lián)合嵌入,其中來自任一模態(tài)的向量可以映射在一起并直接比較。通過引入注意力機制,Bai 等人[71]提出了一種端到端的非自回歸語音識別模型,稱為LASO(listen attentively,and spell once)。該模型將編碼的語音特征聚合到與每個令牌對應(yīng)的隱藏表示中。
音頻-文本檢索旨在檢索與音頻模態(tài)到文本模態(tài)的給定實例最匹配的實例,Chao 等人[72]提出了一個新穎的三階段課程互學框架(three-stage curriculum-based mutual learning framework,3CMLF)來提高績效。使用三個構(gòu)建的訓練集在三階段多模態(tài)互學框架下訓練文本和音頻編碼器。3CMLF 適用于大多數(shù)當前的音頻-文本模型,因為它不需要更改模型架構(gòu)。大多數(shù)現(xiàn)有的多模態(tài)音頻-文本檢索方法并未顯式學習音頻特征中的順序表示。Song 等人[73]介紹了一種基于強化學習和特征融合的順序特征增強框架,以增強多模態(tài)特征的順序特征。采用強化學習來探索聽覺和文本特征中的有效順序特征。
生活中不僅只有圖文檢索的應(yīng)用,Paddeu等人[74]討論了基于Web 的自然語言問答系統(tǒng)的基本體系結(jié)構(gòu)。提出了互動式影音文字指南,以方便參觀博物館。專注于制作有聲文字指南,讓殘障人士也能無障礙地體驗展覽。此外,數(shù)據(jù)捕獲、存儲和通信技術(shù)的進步已經(jīng)為消費者和企業(yè)應(yīng)用程序提供了大量的視頻數(shù)據(jù)。與多媒體數(shù)據(jù),特別是視頻進行交互,需要更好的文本形式來描述視頻數(shù)據(jù)。
隨著多模態(tài)數(shù)據(jù)的普及,為了評價多模態(tài)檢索算法的性能,研究人員收集多模態(tài)數(shù)據(jù),建立多模態(tài)數(shù)據(jù)集。如表3 所示常用的數(shù)據(jù)集有Wikipedia[75]、Pascal Sentence[76]、Flickr30K[77]、NUS-WⅠDE[78]和MS-COCO[79]。
表3 多模態(tài)檢索常用數(shù)據(jù)集Table 3 Multimodal retrieval of common datasets
Wikipedia:它由帶有相關(guān)文本和圖像對的文檔語料庫組成。維基百科將每篇文章分為29 個概念,并將這些概念分配到文章的圖像和文本模塊中。研究人員考慮了10 個最常見的概念,因為有些概念很罕見。最終語料庫由2 866篇文獻組成。
Pascal Sentence:該數(shù)據(jù)集是Pascal VOC的一個子集,它包含來自20個類別(每個類別50對)的1 000對圖像和文本描述。每個圖像文本對由一個圖像和5 個相應(yīng)的句子組成。
Flickr-30K:它是Flickr-8K的擴展,包含從不同F(xiàn)lickr組收集的31 783張圖片,與158 915個字幕相關(guān)聯(lián),重點涉及人和動物的事件。每張圖都會與由英語母語人士在Mechanical Turk網(wǎng)站獨立撰寫的句子相關(guān)聯(lián)。
NUS-WⅠDE:這是一個真實世界的網(wǎng)絡(luò)圖像數(shù)據(jù)集,由新加坡國立大學的媒體搜索實驗室組成。它包括:269 648 張圖片和來自Flickr 的相關(guān)標簽,其中有5 018個獨特的標簽;81個概念的Ground-truth。
MS-COCO:Microsoft Common Objects in COntext數(shù)據(jù)集由日常環(huán)境中的日常場景圖片組成。該數(shù)據(jù)集由總共328 000 張圖像和2 500 000 個標記實例組成。為數(shù)據(jù)集選擇的對象來自91個不同的類別。
mAP 值指平均精準度,衡量檢索到的模態(tài)與查詢模態(tài)類別是否一致,常用于評估多模態(tài)檢索算法性能。給出查詢數(shù)據(jù)和n個檢索結(jié)果,其檢索精度可表示為:
其中,i表示檢索文檔中第i個樣本,P(i)表示的是第i個檢索樣本的精度。另外,如果第i個樣本檢索返回的數(shù)據(jù)與其本身相關(guān),則δ(i)=1,反之δ(i)=0,Q代表發(fā)起查詢的數(shù)量,mAP 值越高意味著搜索性能越好,最終mAP值的公式如下:
R@k(Recall@k) 常在MS-COCO 和Flickr-30k等數(shù)據(jù)集中作為實值表示方法的評價指標,表示正確結(jié)果出現(xiàn)在前k個返回樣例占總樣例的比例。RELk代表Top-k結(jié)果中的相關(guān)項數(shù),REL表示給定查詢的相關(guān)項總數(shù)。這個指標回答了Top-k中是否找到了相關(guān)的結(jié)果,其計算公式如下:
本節(jié)選取了部分實值表示學習方法和二值表示學習方法中經(jīng)典的方法模型進行實驗比較。將mAP作為評價指標對方法的進行對比。
如表4所示,將實值表示方法中幾個方法進行對比得出,ACMR、CM-GAN 和OAAL 方法在Pascal Sentence數(shù)據(jù)集上取得的效果遠優(yōu)于傳統(tǒng)CCA方法,而ACMR、CM-GAN 和OAAL 三個方法都引入了對抗學習,體現(xiàn)出了對抗學習在多模態(tài)檢索中的優(yōu)勢。OAAL 方法在幾個方法中取得最優(yōu)效果,證明了其方法將對象注意機制與生成對抗網(wǎng)絡(luò)相結(jié)合的有效性。
表4 Pascal Sentence數(shù)據(jù)集上幾種實值表示方法的mAPTable 4 mAP of several real-valued representations on Pascal Sentence datasets
如表5 所示,在Flickr-30k數(shù)據(jù)集上對幾個實值表示學習方法進行了比較,結(jié)果表明TERAN 模型在文本檢索圖像的任務(wù)中取得更優(yōu)R@k值,證明通過在訓練時執(zhí)行這種細粒度的詞區(qū)域?qū)R,可以在Flickr30K 數(shù)據(jù)集上獲得先進的結(jié)果。MPSM 模型在圖文檢索的表現(xiàn)則更加地全面,表明了傳播語義信息以學習細粒度的模態(tài)內(nèi)相關(guān)性并將其納入多模態(tài)相似性學習可顯著提高匹配性能,并且從多個角度學習相似性有助于多模態(tài)對齊。
表5 Flickr-30k 上實值表示學習方法R@k 值比較Table 5 Real-values on Flickr-30k represent comparison of learning methods R@k values
如表6所示,將二值表示方法中幾個方法進行對比得出,DCMH、DSAH、DGCPN 和TDH 四種深度哈希方法在NUS-WⅠDE 數(shù)據(jù)集中效果遠優(yōu)于傳統(tǒng)CVH 方法,表明了深度哈希方法的優(yōu)勢。TDH方法更是取得最高的mAP,其性能的提高取決于其模態(tài)間視圖和模態(tài)內(nèi)視圖建立了損失函數(shù),以增強哈希碼的判別能力。
表6 NUS-WⅠDE上不同哈希方法的mAPTable 6 mAP of different Hashing methods on NUS-WⅠDE
深度學習和哈希算法的結(jié)合具有優(yōu)異的性能。單純的深度學習技術(shù)可以幫助人們更好地理解多模態(tài)數(shù)據(jù)之間的關(guān)系,如今學者提出了多層網(wǎng)絡(luò)組合形成的復雜模型結(jié)構(gòu),如對抗機制、注意力機制等被運用到模態(tài)檢索中去,從而更好地進行多模態(tài)匹配,雖然在一定程度上提升了模態(tài)檢索的精度,但卻大大犧牲了檢索效率以及需要耗費大量的訓練時間。而哈希算法雖然在檢索效率上有著突出的表現(xiàn),但其卻破壞了原有的數(shù)據(jù)結(jié)構(gòu)使得檢索的準確性受損。希望能在將來通過深度學習和哈希算法的結(jié)合帶來同時兼顧檢索效率與準確性的方法。
隨著大量學者對于多模態(tài)檢索方法的不斷改進,檢索方法的準確度以及效率都不斷提升,但隨著數(shù)據(jù)模態(tài)以及數(shù)量的不斷擴展,人們的需求也不斷增長。未來,仍需不斷改進現(xiàn)有的模型方法,無論是從深度學習方面或是從哈希算法的改進方面,多模態(tài)檢索仍將面臨一系列挑戰(zhàn)和機遇。以下是一些思考與展望:
(1)現(xiàn)有的方法通常是應(yīng)用于文本與圖像兩個模態(tài)之間一對一地檢索,現(xiàn)實生活中有著其他許多模態(tài),音頻和視頻等模態(tài)間同樣存在著非常大的研究價值,希望未來能將模態(tài)檢索的方法擴展到以一種模態(tài)檢索出多種模態(tài),或者以多種模態(tài)來檢索一種模態(tài)以提高多模態(tài)檢索的準確性。
(2)多模態(tài)檢索中實現(xiàn)更細粒度的檢索,如人像類圖片之中,全局信息或許包含了藍天白云等信息,但圖片之中的人物才應(yīng)該是最值得關(guān)注的局部信息,關(guān)注全局語義容易被冗余的信息影響檢索的效率,提取不同模態(tài)片段語義特征以及使其實現(xiàn)不同模態(tài)片段特征的關(guān)聯(lián)是提升跨模態(tài)建模效果的途徑,因此精細化模態(tài)細粒度將是未來提升檢索效率的一個研究方向。
(3)高層語義理解和潛在語義挖掘可以幫助人們更好地理解多模態(tài)數(shù)據(jù)之間的語義關(guān)系,從而更好地進行跨模態(tài)匹配。隨著對信息檢索的要求不斷提高,解決不同模態(tài)間的語義鴻溝仍是重大的挑戰(zhàn),通過提升多模態(tài)檢索的精度來實現(xiàn)對多模態(tài)數(shù)據(jù)間高階語義聯(lián)系將會是未來多模態(tài)檢索的一個重要發(fā)展方向。
(4)增強現(xiàn)實和虛擬現(xiàn)實將會為多模態(tài)檢索帶來新的機遇。例如,使用增強現(xiàn)實技術(shù),可以將文本、圖像和音頻信息轉(zhuǎn)化為現(xiàn)實世界中的虛擬實體,從而更好地展示和理解跨模態(tài)信息。
(5)現(xiàn)有的大多數(shù)社交媒體網(wǎng)站的數(shù)據(jù)集樣本類別數(shù)量已經(jīng)無法滿足多模態(tài)的檢索要求,對新穎多樣的領(lǐng)域數(shù)據(jù)集的需求不斷提升。隨著模型的復雜度上升,對數(shù)據(jù)內(nèi)容的多樣性有著巨大的需求。如NUS-WⅠDE和維基百科對如今而言已經(jīng)不夠新穎了,需要引入更符合檢索需求的多模態(tài)數(shù)據(jù)集。
總之,多模態(tài)檢索是一個不斷發(fā)展和變化的領(lǐng)域,它將會在未來成為人們從多媒體數(shù)據(jù)中獲取信息的重要手段之一。
多模態(tài)檢索是信息檢索領(lǐng)域的一個重要研究方向,其目標是通過結(jié)合不同模態(tài)的數(shù)據(jù),提高檢索系統(tǒng)的效果和性能。該領(lǐng)域的研究涉及多個方面,包括跨語言、跨媒體、跨領(lǐng)域等。近年來,深度學習技術(shù)的發(fā)展為多模態(tài)檢索提供了新的機會和挑戰(zhàn)。在這一領(lǐng)域中,深度學習方法被廣泛應(yīng)用,包括深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。這些方法不僅能夠提高檢索效果,還能夠降低特征提取的復雜度和計算成本。綜上所述,多模態(tài)檢索是一個充滿挑戰(zhàn)和機會的研究領(lǐng)域,其發(fā)展趨勢將會受到深度學習技術(shù)和跨領(lǐng)域合作的影響。