• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多模態(tài)檢索研究綜述

    2024-03-12 08:58:06侯騰達顧驍哲
    計算機工程與應(yīng)用 2024年5期
    關(guān)鍵詞:語義模態(tài)特征

    金 濤,金 冉,侯騰達,袁 杰,2,顧驍哲

    1.浙江萬里學院大數(shù)據(jù)與軟件工程學院,浙江 寧波 315100

    2.江蘇電力信息技術(shù)有限公司,南京 210003

    隨著互聯(lián)網(wǎng)的不斷發(fā)展以及大數(shù)據(jù)時代的到來,單模態(tài)檢索的局限性在如今大數(shù)據(jù)時代逐漸明顯,為了滿足人們對于信息檢索更加高效全面的需求,多模態(tài)學習已經(jīng)逐漸受到了廣大學者的關(guān)注。生活中各種模態(tài)的數(shù)據(jù)在身邊被記錄下來,如文本數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)以及嗅覺數(shù)據(jù)等等。當各個模態(tài)的數(shù)據(jù)整合在一起時,多模態(tài)學習的研究也愈發(fā)重要。通過人工智能的學習來解決多模態(tài)問題,可以更好地度量不同模態(tài)間的相似性。

    Shi等人[1]對多模態(tài)檢索的相關(guān)技術(shù)進行分類總結(jié),并制定了基準,為該領(lǐng)域發(fā)展奠定了良好基礎(chǔ)。本文主要介紹多模態(tài)檢索下以圖像-文本檢索為主的檢索方法,同時總結(jié)并簡述了一些其他模態(tài)間檢索的方法。根據(jù)文獻梳理將圖文檢索的方法技術(shù)歸納為如圖1 所示。為便于多模態(tài)檢索領(lǐng)域初學者能夠了解到此領(lǐng)域最新研究進展,本文研究多模態(tài)檢索領(lǐng)域由始以來發(fā)展的基本路線和近期研究現(xiàn)狀,主要貢獻如下:

    (1)分析多模態(tài)檢索主流方法的最新進展,總結(jié)現(xiàn)階段多模態(tài)檢索存在的挑戰(zhàn)。

    (2)與其他研究綜述不同,本文探索了“細粒度+多模態(tài)”的檢索方法并對除了圖文檢索外其他模態(tài)間檢索方法進行了闡述。

    (3)將一些代表性的方法進行測試比較,通過多模態(tài)數(shù)據(jù)集測試得出結(jié)果,分析方法之間準確性、效率、特點等方面的差異。最后對多模態(tài)檢索的未來研究進行了展望。

    1 實值表示學習方法

    源于不同的模態(tài)數(shù)據(jù)間無法進行直接的比較,多模態(tài)檢索的主要目的就是得到不同模態(tài)數(shù)據(jù)的相似性,而通過實值表示學習方法能使不同模態(tài)的數(shù)據(jù)具有統(tǒng)一的表示從而進行相似性對比[2]。本文主要將實值表示學習方法分為三類:全局特征學習方法、細粒度特征學習方法和混合特征學習方法。如表1所示,分別介紹近年來實值表示學習方法的熱點模型。

    1.1 全局特征學習方法

    全局特征學習方法通過提取全局特征向量,映射到同一個子空間,通過余弦距離等方式來度量相似性,不同類別的相似度要低于相同類別的相似度,該方法在多模態(tài)檢索中減少了語義鴻溝,提高了檢索的準確度。

    在經(jīng)典的基于傳統(tǒng)統(tǒng)計的分析中,Hardoon 等人[3]提出了典型相關(guān)分析(canonical correlation analysis,CCA)算法,CCA 算法作為最流行的子空間學習方法,其模型結(jié)構(gòu)簡單并能有效的解決線性關(guān)系問題。其主要思想為假設(shè)X=[x1,x2,…,xn],Y=[y1,y2,…,yn] 為兩種不同模態(tài)特征矩陣,ωx、ωy是兩投影向量,將特征矩陣轉(zhuǎn)化為線性組合K和G:

    構(gòu)建集合內(nèi)協(xié)方差矩陣ΣXX、ΣYY和集合間協(xié)方差矩陣ΣXY:

    通過計算K和G兩線性組合之間的相關(guān)系數(shù)ρ,體現(xiàn)兩者間的相關(guān)性:

    構(gòu)建拉格朗日方程L,以為約束條件,找到最佳投影向量ωx、ωy,最大化線性組合K和G之間的相關(guān)性:

    設(shè)λ和θ為系數(shù)變量,找到其特征值最大的特征向量:

    該算法目標是通過學習兩個線性映射,得到了不同模態(tài)之間最大化的特征相似性。但CCA算法僅能解決線性關(guān)系的問題,不能解決非線性關(guān)系的實際應(yīng)用。

    為了能夠解決CCA算法非線性問題的缺陷,Zhang等人[4]提出了一種將核函數(shù)引入CCA 的無監(jiān)督學習框架——核典型相關(guān)分析(kernel canonical correlation analysis,KCCA)。該方法通過非線性映射到公共子空間,將視覺和文本進行連接,為了有效地解決圖像檢索和自動標記的問題,利用用戶提供關(guān)鍵字來傳達信息[5]。KCCA在一定程度上彌補了CCA算法的不足,但KCCA方法是非參數(shù)的,因此它的可伸縮性不高。并且KCCA和CCA只適用于成對數(shù)據(jù)。

    為了改進了CCA和KCCA只適用成對數(shù)據(jù)的問題。Rasiwasia等人[6]在原有的CCA算法上進行了新的擴展,提出了聚類相關(guān)性分析(cluster canonical correlation analysis,Cluster-CCA),該方法并非是類均值對應(yīng)關(guān)系,而是通過兩個集合中給定類中所有數(shù)據(jù)點之間的一一對應(yīng)。Cluster-CCA 能夠?qū)W習判別性的低維表示,最大化兩個集合之間的相關(guān)性,同時在學習空間上隔離不同的類。由于它在計算協(xié)方差的時候?qū)?shù)據(jù)的數(shù)量呈平方的關(guān)系增長,所以在大型數(shù)據(jù)集的使用上計算量非常大。因此該方法并不適用于大型數(shù)據(jù)集上的使用。

    隨著需求的不斷增加,僅僅只是單視圖或者雙視圖已經(jīng)無法滿足多模態(tài)檢索的需求,Gong等人[7]在原有的基礎(chǔ)上提出了三視圖CCA(3view canonical correlation analysis,3view-CCA)用于捕獲高層次語義。經(jīng)典的雙視圖CCA只考慮圖像與相應(yīng)文本特征向量之間的直接相關(guān)性。然而,通過考慮與前兩個相關(guān)的第三個視圖-圖像的底層語義,可以獲得顯著的改進。

    Ranjan 等人[8]在CCA 的基礎(chǔ)上提出了多標簽典型關(guān)聯(lián)分析(multi-label canonical correlation analysis,ML-CCA),該方法通過多標簽信息學習處理高級語義信息來學習共享子空間,與傳統(tǒng)CCA 不同的是它不依賴于不同模式之間的顯式配對。大多數(shù)現(xiàn)有的方法都將不同模式的數(shù)據(jù)投影到一個可以直接比較的公共空間中。

    但是,由于忽略了特征和語義信息的保存,所以無法獲得預期的滿意結(jié)果。因此,Shu 等人[9]對ML-CCA做出了進一步改進,提出了(scalable multi-label canonical correlation analysis,SML-CCA),不僅能夠像ML-CCA一樣同時學習兩種模態(tài)數(shù)據(jù)的共同語義空間,而且很好地解決了ML-CCA只關(guān)注語義相關(guān)性,忽略特征相關(guān)性的問題。在上述方法中,經(jīng)過研究者對方法的改進一定程度上彌補了CCA 的缺點,證明了語義信息對提高多模態(tài)檢索精準度的有效性。

    為了研究多模態(tài)重構(gòu),通過多模態(tài)重構(gòu)和單模態(tài)重構(gòu)兩組模型,F(xiàn)eng等人[10]提出了一種涉及對應(yīng)自編碼器(correspondence autoencoder,Corr-AE)的多模態(tài)檢索新模型。將表示學習和相關(guān)學習兩段式方法融合到一個過程中。受到深度網(wǎng)絡(luò)學習的啟發(fā),一些人就希望能將深度神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)CCA 相結(jié)合,Andrew 等人[11]提出了深度典型相關(guān)分析(deep canonical correlation analysis,DCCA),這是一種學習兩個數(shù)據(jù)視圖的組合非線性變換的方法,使得得到的表示高度線性相關(guān)。兩個變換的參數(shù)被共同學習,使總相關(guān)性最大化(正則化)。它可以被視為典型相關(guān)分析(CCA)的非線性擴展。但是DCCA仍然存在計算效率不高,內(nèi)存占用過大等問題。

    傳統(tǒng)的特征提取技術(shù)限制了圖像識別的性能。由于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的發(fā)展,視覺識別任務(wù)取得了重大進展。為了提升多模態(tài)檢索的效率,Wei 等人[12]提出了一種深度語義匹配方法(deep semantic matching,Deep-SM)來解決帶有一個或多個標簽注釋的樣本的多模態(tài)檢索問題。通過實驗與典型相關(guān)分析(CCA)相比較,證明了CNN 視覺特征在多模態(tài)檢索中的優(yōu)越性。

    現(xiàn)有的基于深度神經(jīng)網(wǎng)絡(luò)的方法往往面臨多模態(tài)訓練數(shù)據(jù)不足的挑戰(zhàn),這限制了訓練的有效性,容易導致過擬合。遷移學習通常用于緩解訓練數(shù)據(jù)不足的問題。因此,Huang等人[13]提出了模態(tài)-對抗混合傳輸網(wǎng)絡(luò)(modal-adversarial hybrid transfer network,MHTN),這是一個從單模態(tài)源域到多模態(tài)目標域的混合轉(zhuǎn)移過程。與現(xiàn)有的單模態(tài)遷移方法不同,這種混合遷移結(jié)構(gòu)可以將源域的大規(guī)模單模態(tài)數(shù)據(jù)集的知識聯(lián)合遷移到目標域的所有模態(tài)中,提取模態(tài)無關(guān)的補充信息,緩解多模態(tài)訓練數(shù)據(jù)不足的問題。如圖2所示,展示了模態(tài)對抗性語義學習子網(wǎng)絡(luò)的結(jié)構(gòu),其中以圖像、文本和音頻為例。

    圖2 模態(tài)對抗性語義學習子網(wǎng)絡(luò)的結(jié)構(gòu)Fig.2 Structure of modal adversarial semantic learning subnetwork

    為了能完全保留數(shù)據(jù)中潛在的多模態(tài)語義結(jié)構(gòu)。Wang 等人[14]提出了對抗式跨模態(tài)檢索方法(adversarial cross-modal retrieval,ACMR),該模型在對抗機制下執(zhí)行語義學習。進一步對特征提取施加三重約束,以最大限度地縮小來自具有相同語義標簽的不同模態(tài)的所有項目的表示之間的差距,同時最大限度地擴大不同語義的圖像和文本之間的距離。同樣都是利用對抗學習,Peng 等人[15]提出了跨模態(tài)生成對抗網(wǎng)絡(luò)(cross-modal generative adversarial network,CM-GAN),對不同模態(tài)的數(shù)據(jù)進行聯(lián)合分布建模。模態(tài)間和模態(tài)內(nèi)的相關(guān)性可以在生成模型和判別模型中同時探索。兩者相互競爭以促進模態(tài)間相關(guān)學習。

    1.2 細粒度特征學習方法

    識別圖像物體的大類比較容易,但若是需要判別更精細的物體則需要利用細粒度特征學習方法,細粒度特征學習方法目的是對屬于同一基礎(chǔ)類別的圖像進行更加細致的子類劃分。由于類別之間具有細微的類間差異以及較大的類內(nèi)差異,所以需要捕獲特定區(qū)域的細微差異進行分類。

    Peng 等人[16]提出了一種基于分層網(wǎng)絡(luò)的多粒度融合的多模態(tài)學習方法。該網(wǎng)絡(luò)可以利用和整合粗粒度實例和細粒度補丁,使模態(tài)間關(guān)聯(lián)更加精確。通過優(yōu)化網(wǎng)絡(luò)引入了對抗學習,Cheng 等人[17]提出了一種用于多模態(tài)檢索的深度注意細粒度相似性網(wǎng)絡(luò)(deep attentional fine-grained similarity network,DAFSN)。DAFSN模型由兩個子網(wǎng)組成,用于對齊表示學習的注意細粒度相似性網(wǎng)絡(luò)和模態(tài)判別網(wǎng)絡(luò)。為了證明利用子空間學習方法來解決草圖和照片之間的域間隙的可行性。Xu等人[18]介紹并比較了一系列先進的多模態(tài)子空間學習方法,并在兩個最近發(fā)布的細粒度SBⅠR 數(shù)據(jù)集上對它們進行了基準測試。

    盡管基于深度學習的視覺文本處理系統(tǒng)不斷發(fā)展,但精確的多模態(tài)匹配仍然是一項具有挑戰(zhàn)性的任務(wù)。Messina 等人[19]通過基于詞-區(qū)域?qū)R的圖像-句子匹配來解決模態(tài)間檢索的任務(wù)。提出了一種新的方法,稱為Transformer 編碼器推理和對齊網(wǎng)絡(luò)(Transformer encoder reasoning and alignment network,TERAN)。TERAN 強制在圖像和句子的底層組件(即圖像區(qū)域和單詞)之間進行細粒度匹配,以保持兩種模式的信息豐富性。

    關(guān)于多模態(tài)檢索任務(wù)中的多尺度稀缺性和目標冗余,Yuan等人[20]提出了一種新的非對稱多模態(tài)特征匹配網(wǎng)絡(luò)(asymmetric multimodal feature matching network,AMFMN)。該模型可適應(yīng)多尺度特征輸入,支持多源檢索方法,并能動態(tài)過濾冗余特征。為了提高細粒度圖像到文本多模態(tài)檢索任務(wù)的訓練,Wang等人[21]研究了生成文本-圖像對的開放研究問題,并通過揭示StyleGAN2模型的隱藏語義信息,提出了一種新的配對數(shù)據(jù)增強框架。

    為了保持多模態(tài)對齊中獲得的多模態(tài)注意力之間的一致性。Zeng 等人[22]通過同時探索具有一致性約束的概念和句法多模態(tài)對齊來用于圖像-文本匹配的概念和句法多模態(tài)對齊。引入概念級多模態(tài)對齊來探索細粒度對應(yīng)關(guān)系。隨后,Sheng 等人[23]提出了一個弱監(jiān)督對齊模型。該模型利用注意機制并且側(cè)重于視覺和文本片段的細粒度多模態(tài)對齊和檢索。

    如何充分挖掘和利用圖像與句子之間的粗粒度關(guān)系或區(qū)域與單詞之間的細粒度關(guān)系仍然是問題。Li 等人[24]提出了一種新的多尺度細粒度對齊網(wǎng)絡(luò)(multiscale fine-grained alignments network,MFA),它可以有效地探索多尺度的視覺文本對應(yīng)關(guān)系,以促進模態(tài)間差異的彌合。通過增強細粒度對象在不同模式下的信息交互,開發(fā)了一種通道混合方法,并對不同模式下的深度激活通道進行了處理。Shen 等人[25]提出了一種簡單而有效的方法來實現(xiàn)多模態(tài)的從屬類別之間的靈活檢索。該方法采用了一種新穎的細粒度多模態(tài)中心損失,可以進一步提高多模態(tài)的類內(nèi)可分性和類間緊密性。

    考慮到細粒度語義相關(guān)學習提供互補提示的模態(tài)間關(guān)系,Peng等人[26]提出了一種關(guān)系聚合交叉圖(relationaggregated cross-graph,RACG)模型,通過聚合模內(nèi)和模態(tài)間關(guān)系來明確學習細粒度語義對應(yīng)關(guān)系,可以很好地用于指導特征對應(yīng)學習過程。細粒度對象檢索旨在學習判別表示,以檢索視覺上相似的對象。Wang 等人[27]開發(fā)了細粒度檢索提示調(diào)整(fine-grained retrieval prompt tuning,F(xiàn)RPT),從樣本提示和特征自適應(yīng)的角度引導凍結(jié)的預訓練模型執(zhí)行細粒度檢索任務(wù)。

    1.3 混合特征學習方法

    大多數(shù)現(xiàn)有的方法側(cè)重于學習全局或局部對應(yīng)關(guān)系,而不能探索細粒度的多級對齊?;旌咸卣鲗W習方法在圖像-文本匹配在視覺和語言之間的橋梁中起著至關(guān)重要的作用,利用圖像和句子之間的全局對齊或區(qū)域和單詞之間的局部對齊來實現(xiàn)多級對齊。

    近年來,探索圖像區(qū)域與句子詞局部對齊的細粒度匹配方法在通過聚合成對區(qū)域-單詞相似性推斷圖像-文本對應(yīng)關(guān)系方面取得了進展。然而,局部對齊很難實現(xiàn),因為一些重要的圖像區(qū)域可能被不準確地檢測到甚至丟失。同時,一些具有高級語義的單詞不能嚴格對應(yīng)于單個圖像區(qū)域。為了解決這些問題,Xu 等人[28]提出了一種新穎的混合匹配方法,稱為具有語義一致性的跨模態(tài)注意力(cross-modal attention with semantic consistency,CASC),用于圖像-文本匹配。擬議的CASC是一個聯(lián)合框架,用于執(zhí)行跨模態(tài)注意以進行局部對齊和多標簽預測以實現(xiàn)全局語義一致性。

    在之前的工作中,只是簡單地利用預訓練網(wǎng)絡(luò)提取圖像和文本特征并直接投射到一個共同的子空間中,或者在此基礎(chǔ)上改變各種損失函數(shù),或者利用注意力機制直接匹配圖像區(qū)域和文本短語。這與圖像和文本的語義不匹配。因此,Li等人[29]提出了一種基于全局表示和局部表示的跨媒體檢索方法。構(gòu)建了一個多媒體的兩級網(wǎng)絡(luò),以探索圖像和文本之間更好的語義匹配,其中包含處理全局和局部特征的子網(wǎng)。在此基礎(chǔ)上,Li 等人[30]又提出了基于全局相似度和局部相似度的模型(global similarity and local similarity,GSLS)。對于全局圖像特征,引入自關(guān)注網(wǎng)絡(luò)來獲得全局圖像的宏觀表示。對于全局文本特征,使用字符級卷積神經(jīng)網(wǎng)絡(luò)(character-level convolutional neural network,Char-CNN)來獲得整個句子的宏觀表示。對于局部圖像特征,使用Faster R-CNN 獲得圖像的候選區(qū)域,并將其發(fā)送給卷積神經(jīng)網(wǎng)絡(luò)提取特征。隨后,Zhang 等人[31]提出了一個統(tǒng)一的上下文感知注意力網(wǎng)絡(luò)(context-aware attention network,CAAN),它通過聚合全局上下文有選擇地關(guān)注關(guān)鍵的局部片段(區(qū)域和單詞)。

    現(xiàn)有的多模態(tài)檢索方法只考慮全局或局部語義嵌入,缺乏對象之間的細粒度依賴關(guān)系。同時,人們往往忽略了模態(tài)之間的相互轉(zhuǎn)換也有利于模態(tài)的嵌入。Zhu等人[32]提出了一種名為BiKA(bidirectional knowledgeassisted embedding and attention-based generation)的方法。該模型采用雙向圖卷積神經(jīng)網(wǎng)絡(luò)建立對象間的依賴關(guān)系。此外,它采用了雙向的基于注意的生成網(wǎng)絡(luò)來實現(xiàn)模態(tài)之間的相互轉(zhuǎn)換。其中,利用知識圖譜進行局部匹配,約束模態(tài)的局部表達;利用生成網(wǎng)絡(luò)進行相互轉(zhuǎn)換,約束模態(tài)的全局表達。

    多模態(tài)檢索不僅要考慮圖像區(qū)域與文本詞之間的低級語義對應(yīng)關(guān)系,還要考慮不同模態(tài)內(nèi)關(guān)系之間的更高語義相關(guān)性。因此,Zeng等人提出[33]了一個具有對象級、對象關(guān)系級和更高層次學習子網(wǎng)絡(luò)的多層圖卷積網(wǎng)絡(luò)。通過局部和全局對齊來學習分層語義對應(yīng)關(guān)系。

    基于標量的分數(shù)不足以推斷圖像和文本之間的復雜關(guān)系。Zhang等人[34]提出了一種新的相似性對比膠囊變換(similarity contrastive capsule Transformation,SCCT)網(wǎng)絡(luò)來推斷膠囊聚類的圖像-文本相似性。通過膠囊網(wǎng)絡(luò)對詞區(qū)域分數(shù)向量和短語區(qū)域分數(shù)向量之間的關(guān)系進行編碼,然后用動態(tài)變化的膠囊數(shù)量獲得更準確的預測。隨著近年來研究的深入,Xie 等人[35]提出了一種基于多視角相似性建模(multi-perspective similarity modeling,MPSM)網(wǎng)絡(luò)的多模態(tài)檢索方法。具體來說,知識圖譜迭代傳播(knowledge graph iterative dissemination,KGⅠD)模塊旨在迭代傳播全局語義知識,實現(xiàn)領(lǐng)域信息的集成和相關(guān)節(jié)點的關(guān)聯(lián),從而獲得細粒度的模態(tài)表示。

    如何充分利用圖像和句子之間的全局對齊或區(qū)域和單詞之間的局部對齊來推斷更準確地匹配分數(shù)仍然未被探索。Diao 等人[36]提出了一種用于圖像文本匹配的新型相似圖推理和注意力過濾(similarity graph reasoning and attention filtration,SGRAF)網(wǎng)絡(luò)。引入依賴于一個圖卷積神經(jīng)網(wǎng)絡(luò)的相似性圖推理(similarity graph reasoning,SGR)模塊,推斷與局部和全局對齊的關(guān)系感知相似性。相似性注意力過濾(similarity attention filtration,SAF)模塊經(jīng)過進一步開發(fā),通過選擇性地關(guān)注重要和有代表性的對齊,同時拋棄無意義對齊的干擾,有效地整合這些對齊。

    實值表示學習方法通過提高圖像文本間的匹配準確度以及減少語義鴻溝來實現(xiàn)檢索準確度的提高,隨著多模態(tài)數(shù)據(jù)在生活中的應(yīng)用,一些敏銳的學者也將多模態(tài)實值學習方法的檢索技術(shù)應(yīng)用到了實際社會生產(chǎn)場景中,Kou 等人[37]針對車聯(lián)網(wǎng)中的模態(tài)數(shù)據(jù),提出了一種基于對象注意和對抗學習(object attention and adversarial learning,OAAL)的通用語義表示方法。隨著社交網(wǎng)絡(luò)的快速發(fā)展,其中存在的語義缺口和稀疏性給多模態(tài)檢索帶來了挑戰(zhàn)。為了減輕語義差距和稀疏性,Shi 等人[38]提出了一種基于互補注意和生成對抗網(wǎng)絡(luò)(complementary attention and generative adversarial networks,CAGS)的搜索方法。細粒度特征學習方法也普遍應(yīng)用于科學歷史研究,因為類別之間具有高度的相似性,而特定類別由于不同的姿態(tài)和尺度而具有高度的不相似性。文化遺產(chǎn)圖像[39]是一種細粒度圖像,因為每個圖像在大多數(shù)情況下具有相同的相似性。使用分類技術(shù)來區(qū)分文化遺產(chǎn)建筑可能會很困難。采用細粒度圖像檢索技術(shù)對數(shù)據(jù)庫中的文物圖像進行檢索,可以解決類別之間高度相似和特定類別之間高度不相似的問題。

    2 二值表示學習方法

    多媒體數(shù)據(jù)的數(shù)量呈爆炸式增長,這使得快速高效地檢索多模態(tài)數(shù)據(jù)成為迫切的要求。在眾多檢索方法中,哈希法以其存儲成本低、快速有效的特點被廣泛應(yīng)用于多模態(tài)數(shù)據(jù)檢索中[40]。哈希方法通過將原始特征映射到二進制編碼漢明空間來節(jié)省存儲空間并加快檢索速度。

    哈希函數(shù)學習分為兩個階段:(1)降維;(2)量化。降維意味著將信息從原始空間映射到低維空間表示。而量化是指將實際特征的線性或非線性轉(zhuǎn)換為特征空間的二進制分段以獲取哈希碼。本文的哈希方法主要分為:傳統(tǒng)哈希方法和基于深度哈希的方法。如表2所示,對二值表示學習方法進行了總結(jié),匯總了傳統(tǒng)哈希以及深度哈希方法的經(jīng)典模型。

    表2 二值表示學習方法總結(jié)Table 2 Summary of binary representation learning methods

    2.1 傳統(tǒng)哈希方法

    傳統(tǒng)哈希方法通過二進制編碼的形式將不同模態(tài)的數(shù)據(jù)映射到同一個漢明空間中。計算查詢項哈希碼與數(shù)據(jù)哈希表關(guān)鍵值之間的漢明距離,并使用漢明距離較小的哈希表作為候選搜索范圍,以提高檢索的成功率。本節(jié)內(nèi)容主要包含多模態(tài)檢索工作中不包含深度學習方法的哈希方法。

    在多語言和多模態(tài)信息訪問中的許多應(yīng)用程序中,數(shù)據(jù)庫由具有多視圖的數(shù)據(jù)對象組成,并且需要跨視圖進行相似性搜索。因此,Kumar等人[41]提出了一種跨視圖哈希(cross-view Hashing,CVH),CVH是一種無監(jiān)督方法。通過一種新的松弛方法將其轉(zhuǎn)化為可處理的特征值問題,證明了一般問題的一些特殊情況與局部敏感索引和典型相關(guān)分析等降維技術(shù)有關(guān)。但CVH并未充分考慮模態(tài)之間的聯(lián)系和差異,未能滿足用戶同時接收多種類型數(shù)據(jù)的需求,為了彌補CVH的缺陷,實現(xiàn)大規(guī)模的多模態(tài)檢索。Song等人[42]提出了跨媒體哈希(intermedia Hashing,ⅠMH)模型來探索來自不同數(shù)據(jù)源的多種媒體類型之間的相關(guān)性,并解決可擴展性問題??缑襟w哈希的基本思想與CVH 相似,但卻充分考慮了模態(tài)之間的聯(lián)系和差異,強調(diào)保持最近鄰樣本的模態(tài)間和模態(tài)內(nèi)相似性。但是,該模型是以犧牲時間復雜度為代價保證檢索效果,不適合應(yīng)用于大規(guī)模數(shù)據(jù)集。

    由于ⅠMH無法適用于大規(guī)模數(shù)據(jù)集的應(yīng)用,為此,Zhu 等人[43]提出了一種新的哈希方法,稱為線性交叉模態(tài)哈希(linear cross-modal Hashing,LCMH),以解決不使用任何先驗知識的可擴展性問題。該模型采用了可擴展k-means算法計算數(shù)據(jù)點與中心點之間的距離,提升了大規(guī)模數(shù)據(jù)的檢索效率。隨著研究的深入,基于哈希的最近鄰搜索方法在計算機視覺和信息檢索界備受關(guān)注。Ding等人[44]提出了集體矩陣分解哈希(collective matrix factorization Hashing,CMFH)它假設(shè)所有模態(tài)數(shù)據(jù)的哈希碼映射到公共漢明空間時是一致的。該方法不僅支持跨視圖搜索,而且通過合并多視圖信息提高了搜索精度。

    現(xiàn)有的大多數(shù)哈希方法通常采用單一模態(tài)或簡單地集成多個模態(tài),而沒有利用不同特征的影響。為了解決多模態(tài)緊湊哈希碼的學習問題,Cheng 等人[45]提出多圖哈希(multi-graph Hashing,MGH),MGH是一種半監(jiān)督方法,該方法可以在多圖學習方案中有效地將多種模態(tài)與優(yōu)化權(quán)重集成在一起。通過這種方式,可以自適應(yīng)地調(diào)節(jié)不同模態(tài)的效果。同為半監(jiān)督學習,Xia 等人[46]提出了判別哈希學習方法(discriminative Hashing learning,DHLing),該方法主要包括兩個模塊,即領(lǐng)域特定優(yōu)化和領(lǐng)域不變內(nèi)存庫。具體來說,第一個組件探索樣本的結(jié)構(gòu)知識,用偽標簽預測未標記的圖像,以實現(xiàn)哈希編碼的一致性;第二種方法嘗試構(gòu)建域不變記憶庫來指導特征生成,實現(xiàn)跨域?qū)R。

    在許多重要的應(yīng)用程序中,需要比較來自不同模態(tài)的數(shù)據(jù),這些數(shù)據(jù)之間的相似性可能具有不同的結(jié)構(gòu)和維度。Bronstein 等人[47]提出跨模態(tài)相似敏感哈希(cross-modal similarity-sensitive Hashing,CMSSH),幾乎是近年來第一個有監(jiān)督的多模態(tài)檢索方法。但該方法只考慮了內(nèi)部相似性。同樣都是有監(jiān)督學習方法,現(xiàn)有的大多數(shù)多模態(tài)哈希方法的訓練時間復雜度過高,無法擴展到大規(guī)模數(shù)據(jù)集。Zhang等人[48]提出了語義相關(guān)最大化(semantic correlation maximization,SCM)。該方法根據(jù)標簽信息學習公共空間的表示,使用語義標記向量計算數(shù)據(jù)樣本之間的語義相似度。雖然該方法的訓練復雜度不高,但卻不適用于深度哈希中高維度的特征數(shù)據(jù)集。

    為了放松離散約束,現(xiàn)有的方法通常忽略了哈希的固有離散性,這將導致檢索性能的下降。為此,Wang等人[49]提出了語義主題多模態(tài)哈希(Semantic topic multimodal maximization,STMH),STMH 很好地維護了哈希碼的離散性。通過保持哈希碼的離散性,使其更適合哈希學習模式,也獲得了更好的檢索性能。

    然而,Lin等人[50]有著了與上述不同的思想,他們提出了語義保留哈希(semantics-preserving Hashing,SePH)用于研究圖像文本檢索的問題。當給定訓練數(shù)據(jù)的語義親和力作為監(jiān)督信息時,SePH 將其轉(zhuǎn)換為一個概率分布,并在漢明空間中進行近似,方法是將待學習哈希碼之間的所有成對漢明距離轉(zhuǎn)換為另一個概率分布Q,并將散度最小化以提升多模態(tài)檢索的性能。

    通過對無監(jiān)督學習的深入研究,Liu 等人[51]提出了一種新的無監(jiān)督多模態(tài)檢索方法,稱為自監(jiān)督相關(guān)學習(self-supervised correlation learning,SCL),該方法充分利用大量未標記的數(shù)據(jù)來學習判別性和模態(tài)不變表示,進一步提升了多模態(tài)哈希的檢索效率。通過引入自適應(yīng)方法,Luo 等人[52]提出了一種自適應(yīng)邊緣語義哈希(adaptive marginalized semantic Hashing,AMSH)方法,該方法不僅可以通過自適應(yīng)邊緣增強對潛在表示和哈希碼的區(qū)分,而且可以用于成對和非成對的多模態(tài)哈希。

    2.2 深度哈希方法

    隨著深度學習算法在計算機視覺領(lǐng)域的重大突破,圖像識別、人臉識別等技術(shù)的準確度不斷上升。深度哈希方法將深度學習與哈希圖像檢索相結(jié)合,同時擁有檢索精度高,速度快的特點。

    得益于深度學習,多模態(tài)檢索取得了引人注目的成果。然而,深度多模態(tài)哈希方法要么依賴于標記信息的數(shù)量,要么無法學習不同模態(tài)之間的準確性和相關(guān)性。因此,Li等人[53]提出了無監(jiān)督耦合循環(huán)生成對抗哈希網(wǎng)絡(luò)(unsupervised coupled cycle generative adversarial Hashing,UCH)用于多模態(tài)檢索。該方法通過所提出的耦合循環(huán)網(wǎng)絡(luò),實現(xiàn)公共表示和哈希碼學習相互作用,并在網(wǎng)絡(luò)收斂的同時達到最優(yōu)。

    由于多模態(tài)檢索方法依賴于繁瑣的人工標記過程,不僅引入了主觀誤差,而且耗費了大量的時間和人力成本。Duan等人[54]設(shè)計了一個基于Web知識驅(qū)動的多模態(tài)檢索框架,稱為無監(jiān)督和魯棒圖卷積哈希(unsupervised and robust graph convolutional Hashing,URGCH)。針對人工標注過程繁瑣、時間成本大的問題,提出了一種“二次語義自融合”方法,自動構(gòu)建聯(lián)合語義矩陣,用于彌合模態(tài)差距。隨著對無監(jiān)督多模態(tài)哈希的深入研究,Yang 等人[55]提出了一種新的深度語義對齊哈希(deep semantic-alignment Hashing,DSAH)用于無監(jiān)督多模態(tài)檢索,它充分利用了共同發(fā)生的圖像-文本對。隨后,Yu等人[56]設(shè)計了一種深度圖鄰相干保持網(wǎng)絡(luò)(deep graphneighbor coherence preserving network,DGCPN),DGCPN 源于圖模型,并通過整合數(shù)據(jù)及其鄰居之間的信息來探索圖鄰居一致性。

    由于傳統(tǒng)多模態(tài)哈希的性能不能滿足現(xiàn)有的需求,Jiang 等人[57]提出了深度跨模態(tài)哈希(deep cross-modal Hashing,DCMH),將哈希碼學習以及特征學習集成到同一框架中。在DCMH 的基礎(chǔ)上,為了提升模態(tài)檢索的效率。Li等人[58]提出了一種自監(jiān)督對抗哈希(selfsupervised adversarial Hashing,SSAH)方法,這是早期以自監(jiān)督方式將對抗學習納入多模態(tài)哈希的嘗試之一。該方法仍然存局限性,忽略了許多多模態(tài)數(shù)據(jù)集在多標簽中包含豐富的語義信息。因此,Zou 等人[59]提出了一種多標簽?zāi)B(tài)增強的基于注意的自監(jiān)督深度跨模態(tài)哈希(multi-label modality enhanced attention-based self-supervised deep cross-modal Hashing,MMACH)框架。該方法設(shè)計了一個多標簽?zāi)B(tài)增強注意模塊,將多模態(tài)數(shù)據(jù)中的重要特征集成到多標簽特征表示中,以提高其完備性。

    幾乎所有采用多模態(tài)哈希的現(xiàn)有方法都忽略了異構(gòu)數(shù)據(jù)之間的相對相似性,無法獲得強大的哈希碼,從而導致檢索性能不理想。Deng 等人[60]提出了一種用于多模態(tài)檢索的基于三重的深度哈希(tripletbased deep Hashing,TDH)網(wǎng)絡(luò)。該方法使用三元組標簽,描述了三個實例之間的相對關(guān)系,以便捕獲跨模式實例之間的語義相關(guān)性。從模態(tài)間視圖和模態(tài)內(nèi)視圖建立一個損失函數(shù),以提高哈希碼的鑒別能力。其結(jié)構(gòu)如圖3所示。

    圖3 擬議TDH的框架Fig.3 Framework of proposed TDH

    為了縮小模態(tài)差距以進一步提高檢索精度。Bai等人[61]提出了一種用于多模態(tài)檢索的圖卷積網(wǎng)絡(luò)哈希(graph convolutional Hashing,GCH)算法,該算法由三個主要部分組成:語義編碼器、兩個特征編碼網(wǎng)絡(luò)和基于圖卷積網(wǎng)絡(luò)的融合模塊。隨著對細粒度的深入研究,Chen 等人[62]提出了一種具有雙過濾機制和基于代理的損失函數(shù)的新型細粒度哈希方法(fine-grained hashing,F(xiàn)ⅠSH)。具體來說,雙過濾機制由空間過濾模塊和特征過濾模塊兩個模塊組成,分別解決了細粒度特征提取和特征細化問題。

    二值表示學習方法通過哈希算法使其在大規(guī)模數(shù)據(jù)集上的檢索效率有明顯的優(yōu)勢,隨著多媒體數(shù)據(jù)量的急劇增加,多模態(tài)檢索已成為最普遍但最具挑戰(zhàn)性的問題之一。哈希通過將高維數(shù)據(jù)嵌入到保持漢明空間的低維相似性空間中[63],為大規(guī)模多模態(tài)數(shù)據(jù)搜索提供了一種有前途的解決方案。

    3 圖文檢索以外的多模態(tài)檢索方法

    3.1 視頻-文本檢索

    隨著YouTube、TikTok 等互聯(lián)網(wǎng)視頻的迅速興起,給視頻內(nèi)容的準確檢索帶來了巨大的挑戰(zhàn)。多模態(tài)視頻-文本檢索能夠理解文字和視頻的內(nèi)容,從而實現(xiàn)視頻與文本之間的匹配。視頻-文本檢索任務(wù)即給定一個文本查詢,根據(jù)對文本的描述程度從數(shù)據(jù)庫中檢索和排序視頻,反之亦然。

    為了學習視頻圖和文本圖之間的更好匹配,Jin 等人[64]提出了一種用于視頻-文本檢索任務(wù)的分層多模態(tài)圖一致性學習網(wǎng)絡(luò)(hierarchical cross-modal graph consistency learning network,HCGC),該網(wǎng)絡(luò)考慮了視頻-文本匹配的多級圖一致性。設(shè)計了三種類型的圖一致性:圖間并行一致性、圖間交叉一致性和圖內(nèi)交叉一致性。

    Chen 等人[65]提出了一種用于細粒度視頻文本檢索的層次圖推理(hierarchical graph reasoning,HGR)模型,該模型將視頻文本匹配分解為全局到局部級別。它利用細節(jié)語義改進了全局匹配,利用全局事件結(jié)構(gòu)改進了局部匹配。通過克服視頻和文本之間的異構(gòu)差距,F(xiàn)eng等人[66]提出了一種用于視頻文本檢索的具有全局-局部對齊(temporal multi-modal graph transformer with global-local alignment,TMMGT-GLA)的新型時間多模態(tài)圖轉(zhuǎn)換器。

    為了將細粒度和交叉粒度的相似性矩陣聚合到實例級相似性,Ma 等人[67]提出一種用于視頻文本檢索的多粒度對比模型X-CLⅠP,模型專注于基本框架和單詞之間的對比度,從而降低不必要的框架和單詞對檢索結(jié)果的影響。隨后,Jin 等人[68]提出了粗細粒度并行注意力機制和特征融合模塊(coarse-fine-grained parallel attention,CFPGA),使用粗-細粒度并行關(guān)注機制來處理多模態(tài)視頻的全局和局部特征,從而增強了同一模態(tài)視頻特征中特征點之間的關(guān)系。將多頭注意機制整合到粗-細粒度并行注意中,增強了模型對特征的接受場,從多個角度處理相同的視頻模態(tài)特征。

    3.2 音頻-文本檢索

    多模態(tài)音頻-文本檢索需要學習兩種不同模態(tài)的綜合特征表示,并將它們統(tǒng)一到一個共同的嵌入空間中。旨在以另一種方式從給定查詢的候選池中檢索目標音頻剪輯或標題。

    早期的工作只關(guān)注基于標簽的音頻檢索,其中查詢的是單詞而不是句子。以早期的思想為基礎(chǔ),Mei 等人[69]針對基于自由形式語言的音頻文本檢索任務(wù),提出了一種簡單有效的聲學語義嵌入學習模型,并在恒定訓練環(huán)境下研究了基于該模型的度量學習目標的影響。

    語言的相似性并不總是意味著聲學上的相似性,對于臨時的、用戶生成的錄音,這些錄音在音頻及其相關(guān)的文本標簽中都是嘈雜的。為了克服這一限制,Elizalde等人[70]提出了一個框架,該框架從共享的詞典聲學空間中學習聯(lián)合嵌入,其中來自任一模態(tài)的向量可以映射在一起并直接比較。通過引入注意力機制,Bai 等人[71]提出了一種端到端的非自回歸語音識別模型,稱為LASO(listen attentively,and spell once)。該模型將編碼的語音特征聚合到與每個令牌對應(yīng)的隱藏表示中。

    音頻-文本檢索旨在檢索與音頻模態(tài)到文本模態(tài)的給定實例最匹配的實例,Chao 等人[72]提出了一個新穎的三階段課程互學框架(three-stage curriculum-based mutual learning framework,3CMLF)來提高績效。使用三個構(gòu)建的訓練集在三階段多模態(tài)互學框架下訓練文本和音頻編碼器。3CMLF 適用于大多數(shù)當前的音頻-文本模型,因為它不需要更改模型架構(gòu)。大多數(shù)現(xiàn)有的多模態(tài)音頻-文本檢索方法并未顯式學習音頻特征中的順序表示。Song 等人[73]介紹了一種基于強化學習和特征融合的順序特征增強框架,以增強多模態(tài)特征的順序特征。采用強化學習來探索聽覺和文本特征中的有效順序特征。

    生活中不僅只有圖文檢索的應(yīng)用,Paddeu等人[74]討論了基于Web 的自然語言問答系統(tǒng)的基本體系結(jié)構(gòu)。提出了互動式影音文字指南,以方便參觀博物館。專注于制作有聲文字指南,讓殘障人士也能無障礙地體驗展覽。此外,數(shù)據(jù)捕獲、存儲和通信技術(shù)的進步已經(jīng)為消費者和企業(yè)應(yīng)用程序提供了大量的視頻數(shù)據(jù)。與多媒體數(shù)據(jù),特別是視頻進行交互,需要更好的文本形式來描述視頻數(shù)據(jù)。

    4 多模態(tài)數(shù)據(jù)集

    4.1 常用數(shù)據(jù)集

    隨著多模態(tài)數(shù)據(jù)的普及,為了評價多模態(tài)檢索算法的性能,研究人員收集多模態(tài)數(shù)據(jù),建立多模態(tài)數(shù)據(jù)集。如表3 所示常用的數(shù)據(jù)集有Wikipedia[75]、Pascal Sentence[76]、Flickr30K[77]、NUS-WⅠDE[78]和MS-COCO[79]。

    表3 多模態(tài)檢索常用數(shù)據(jù)集Table 3 Multimodal retrieval of common datasets

    Wikipedia:它由帶有相關(guān)文本和圖像對的文檔語料庫組成。維基百科將每篇文章分為29 個概念,并將這些概念分配到文章的圖像和文本模塊中。研究人員考慮了10 個最常見的概念,因為有些概念很罕見。最終語料庫由2 866篇文獻組成。

    Pascal Sentence:該數(shù)據(jù)集是Pascal VOC的一個子集,它包含來自20個類別(每個類別50對)的1 000對圖像和文本描述。每個圖像文本對由一個圖像和5 個相應(yīng)的句子組成。

    Flickr-30K:它是Flickr-8K的擴展,包含從不同F(xiàn)lickr組收集的31 783張圖片,與158 915個字幕相關(guān)聯(lián),重點涉及人和動物的事件。每張圖都會與由英語母語人士在Mechanical Turk網(wǎng)站獨立撰寫的句子相關(guān)聯(lián)。

    NUS-WⅠDE:這是一個真實世界的網(wǎng)絡(luò)圖像數(shù)據(jù)集,由新加坡國立大學的媒體搜索實驗室組成。它包括:269 648 張圖片和來自Flickr 的相關(guān)標簽,其中有5 018個獨特的標簽;81個概念的Ground-truth。

    MS-COCO:Microsoft Common Objects in COntext數(shù)據(jù)集由日常環(huán)境中的日常場景圖片組成。該數(shù)據(jù)集由總共328 000 張圖像和2 500 000 個標記實例組成。為數(shù)據(jù)集選擇的對象來自91個不同的類別。

    mAP 值指平均精準度,衡量檢索到的模態(tài)與查詢模態(tài)類別是否一致,常用于評估多模態(tài)檢索算法性能。給出查詢數(shù)據(jù)和n個檢索結(jié)果,其檢索精度可表示為:

    其中,i表示檢索文檔中第i個樣本,P(i)表示的是第i個檢索樣本的精度。另外,如果第i個樣本檢索返回的數(shù)據(jù)與其本身相關(guān),則δ(i)=1,反之δ(i)=0,Q代表發(fā)起查詢的數(shù)量,mAP 值越高意味著搜索性能越好,最終mAP值的公式如下:

    R@k(Recall@k) 常在MS-COCO 和Flickr-30k等數(shù)據(jù)集中作為實值表示方法的評價指標,表示正確結(jié)果出現(xiàn)在前k個返回樣例占總樣例的比例。RELk代表Top-k結(jié)果中的相關(guān)項數(shù),REL表示給定查詢的相關(guān)項總數(shù)。這個指標回答了Top-k中是否找到了相關(guān)的結(jié)果,其計算公式如下:

    4.2 實驗結(jié)果對比與分析

    本節(jié)選取了部分實值表示學習方法和二值表示學習方法中經(jīng)典的方法模型進行實驗比較。將mAP作為評價指標對方法的進行對比。

    如表4所示,將實值表示方法中幾個方法進行對比得出,ACMR、CM-GAN 和OAAL 方法在Pascal Sentence數(shù)據(jù)集上取得的效果遠優(yōu)于傳統(tǒng)CCA方法,而ACMR、CM-GAN 和OAAL 三個方法都引入了對抗學習,體現(xiàn)出了對抗學習在多模態(tài)檢索中的優(yōu)勢。OAAL 方法在幾個方法中取得最優(yōu)效果,證明了其方法將對象注意機制與生成對抗網(wǎng)絡(luò)相結(jié)合的有效性。

    表4 Pascal Sentence數(shù)據(jù)集上幾種實值表示方法的mAPTable 4 mAP of several real-valued representations on Pascal Sentence datasets

    如表5 所示,在Flickr-30k數(shù)據(jù)集上對幾個實值表示學習方法進行了比較,結(jié)果表明TERAN 模型在文本檢索圖像的任務(wù)中取得更優(yōu)R@k值,證明通過在訓練時執(zhí)行這種細粒度的詞區(qū)域?qū)R,可以在Flickr30K 數(shù)據(jù)集上獲得先進的結(jié)果。MPSM 模型在圖文檢索的表現(xiàn)則更加地全面,表明了傳播語義信息以學習細粒度的模態(tài)內(nèi)相關(guān)性并將其納入多模態(tài)相似性學習可顯著提高匹配性能,并且從多個角度學習相似性有助于多模態(tài)對齊。

    表5 Flickr-30k 上實值表示學習方法R@k 值比較Table 5 Real-values on Flickr-30k represent comparison of learning methods R@k values

    如表6所示,將二值表示方法中幾個方法進行對比得出,DCMH、DSAH、DGCPN 和TDH 四種深度哈希方法在NUS-WⅠDE 數(shù)據(jù)集中效果遠優(yōu)于傳統(tǒng)CVH 方法,表明了深度哈希方法的優(yōu)勢。TDH方法更是取得最高的mAP,其性能的提高取決于其模態(tài)間視圖和模態(tài)內(nèi)視圖建立了損失函數(shù),以增強哈希碼的判別能力。

    表6 NUS-WⅠDE上不同哈希方法的mAPTable 6 mAP of different Hashing methods on NUS-WⅠDE

    深度學習和哈希算法的結(jié)合具有優(yōu)異的性能。單純的深度學習技術(shù)可以幫助人們更好地理解多模態(tài)數(shù)據(jù)之間的關(guān)系,如今學者提出了多層網(wǎng)絡(luò)組合形成的復雜模型結(jié)構(gòu),如對抗機制、注意力機制等被運用到模態(tài)檢索中去,從而更好地進行多模態(tài)匹配,雖然在一定程度上提升了模態(tài)檢索的精度,但卻大大犧牲了檢索效率以及需要耗費大量的訓練時間。而哈希算法雖然在檢索效率上有著突出的表現(xiàn),但其卻破壞了原有的數(shù)據(jù)結(jié)構(gòu)使得檢索的準確性受損。希望能在將來通過深度學習和哈希算法的結(jié)合帶來同時兼顧檢索效率與準確性的方法。

    5 多模態(tài)檢索未來展望

    隨著大量學者對于多模態(tài)檢索方法的不斷改進,檢索方法的準確度以及效率都不斷提升,但隨著數(shù)據(jù)模態(tài)以及數(shù)量的不斷擴展,人們的需求也不斷增長。未來,仍需不斷改進現(xiàn)有的模型方法,無論是從深度學習方面或是從哈希算法的改進方面,多模態(tài)檢索仍將面臨一系列挑戰(zhàn)和機遇。以下是一些思考與展望:

    (1)現(xiàn)有的方法通常是應(yīng)用于文本與圖像兩個模態(tài)之間一對一地檢索,現(xiàn)實生活中有著其他許多模態(tài),音頻和視頻等模態(tài)間同樣存在著非常大的研究價值,希望未來能將模態(tài)檢索的方法擴展到以一種模態(tài)檢索出多種模態(tài),或者以多種模態(tài)來檢索一種模態(tài)以提高多模態(tài)檢索的準確性。

    (2)多模態(tài)檢索中實現(xiàn)更細粒度的檢索,如人像類圖片之中,全局信息或許包含了藍天白云等信息,但圖片之中的人物才應(yīng)該是最值得關(guān)注的局部信息,關(guān)注全局語義容易被冗余的信息影響檢索的效率,提取不同模態(tài)片段語義特征以及使其實現(xiàn)不同模態(tài)片段特征的關(guān)聯(lián)是提升跨模態(tài)建模效果的途徑,因此精細化模態(tài)細粒度將是未來提升檢索效率的一個研究方向。

    (3)高層語義理解和潛在語義挖掘可以幫助人們更好地理解多模態(tài)數(shù)據(jù)之間的語義關(guān)系,從而更好地進行跨模態(tài)匹配。隨著對信息檢索的要求不斷提高,解決不同模態(tài)間的語義鴻溝仍是重大的挑戰(zhàn),通過提升多模態(tài)檢索的精度來實現(xiàn)對多模態(tài)數(shù)據(jù)間高階語義聯(lián)系將會是未來多模態(tài)檢索的一個重要發(fā)展方向。

    (4)增強現(xiàn)實和虛擬現(xiàn)實將會為多模態(tài)檢索帶來新的機遇。例如,使用增強現(xiàn)實技術(shù),可以將文本、圖像和音頻信息轉(zhuǎn)化為現(xiàn)實世界中的虛擬實體,從而更好地展示和理解跨模態(tài)信息。

    (5)現(xiàn)有的大多數(shù)社交媒體網(wǎng)站的數(shù)據(jù)集樣本類別數(shù)量已經(jīng)無法滿足多模態(tài)的檢索要求,對新穎多樣的領(lǐng)域數(shù)據(jù)集的需求不斷提升。隨著模型的復雜度上升,對數(shù)據(jù)內(nèi)容的多樣性有著巨大的需求。如NUS-WⅠDE和維基百科對如今而言已經(jīng)不夠新穎了,需要引入更符合檢索需求的多模態(tài)數(shù)據(jù)集。

    總之,多模態(tài)檢索是一個不斷發(fā)展和變化的領(lǐng)域,它將會在未來成為人們從多媒體數(shù)據(jù)中獲取信息的重要手段之一。

    6 結(jié)束語

    多模態(tài)檢索是信息檢索領(lǐng)域的一個重要研究方向,其目標是通過結(jié)合不同模態(tài)的數(shù)據(jù),提高檢索系統(tǒng)的效果和性能。該領(lǐng)域的研究涉及多個方面,包括跨語言、跨媒體、跨領(lǐng)域等。近年來,深度學習技術(shù)的發(fā)展為多模態(tài)檢索提供了新的機會和挑戰(zhàn)。在這一領(lǐng)域中,深度學習方法被廣泛應(yīng)用,包括深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。這些方法不僅能夠提高檢索效果,還能夠降低特征提取的復雜度和計算成本。綜上所述,多模態(tài)檢索是一個充滿挑戰(zhàn)和機會的研究領(lǐng)域,其發(fā)展趨勢將會受到深度學習技術(shù)和跨領(lǐng)域合作的影響。

    猜你喜歡
    語義模態(tài)特征
    語言與語義
    如何表達“特征”
    不忠誠的四個特征
    當代陜西(2019年10期)2019-06-03 10:12:04
    抓住特征巧觀察
    “上”與“下”語義的不對稱性及其認知闡釋
    國內(nèi)多模態(tài)教學研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
    認知范疇模糊與語義模糊
    由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
    計算物理(2014年2期)2014-03-11 17:01:39
    線性代數(shù)的應(yīng)用特征
    河南科技(2014年23期)2014-02-27 14:19:15
    97人妻精品一区二区三区麻豆| 天堂影院成人在线观看| 国产午夜精品论理片| 亚洲精品aⅴ在线观看| 搡女人真爽免费视频火全软件| 中国国产av一级| 99久久精品国产国产毛片| 九九爱精品视频在线观看| 一个人看视频在线观看www免费| 国产女主播在线喷水免费视频网站 | 寂寞人妻少妇视频99o| 免费播放大片免费观看视频在线观看 | 在线免费十八禁| 精品久久久久久久久久久久久| 一个人看视频在线观看www免费| 久久久久久九九精品二区国产| 男人舔女人下体高潮全视频| 在线观看美女被高潮喷水网站| 欧美色视频一区免费| 久久久久久久久久久丰满| 九草在线视频观看| 欧美日韩精品成人综合77777| 91久久精品国产一区二区三区| 日本欧美国产在线视频| 秋霞伦理黄片| 汤姆久久久久久久影院中文字幕 | 免费观看人在逋| 一级黄片播放器| 国产精品野战在线观看| ponron亚洲| 97超视频在线观看视频| 国产淫片久久久久久久久| 男女那种视频在线观看| 人体艺术视频欧美日本| 精品午夜福利在线看| 18禁裸乳无遮挡免费网站照片| 晚上一个人看的免费电影| 欧美人与善性xxx| 自拍偷自拍亚洲精品老妇| 91久久精品国产一区二区三区| 一本一本综合久久| 成人综合一区亚洲| 男的添女的下面高潮视频| 久久精品影院6| 一本久久精品| 可以在线观看毛片的网站| 国产熟女欧美一区二区| 亚洲av成人av| 能在线免费观看的黄片| av在线亚洲专区| 日本与韩国留学比较| 我要看日韩黄色一级片| 嘟嘟电影网在线观看| 国产精品99久久久久久久久| 亚洲欧美成人综合另类久久久 | 日本黄色视频三级网站网址| 97超视频在线观看视频| 狂野欧美白嫩少妇大欣赏| 成人午夜精彩视频在线观看| 亚洲精品,欧美精品| 国产精品精品国产色婷婷| 国产美女午夜福利| 内射极品少妇av片p| 国产一区二区三区av在线| 午夜亚洲福利在线播放| 欧美极品一区二区三区四区| 人体艺术视频欧美日本| 有码 亚洲区| 日本欧美国产在线视频| 啦啦啦观看免费观看视频高清| 国产精品久久久久久久电影| 男女边吃奶边做爰视频| 久久精品国产99精品国产亚洲性色| 人人妻人人看人人澡| 国产精品综合久久久久久久免费| 高清av免费在线| 国产精品久久久久久精品电影小说 | 日韩av在线免费看完整版不卡| 国产探花在线观看一区二区| 欧美一区二区精品小视频在线| 在线免费观看的www视频| 美女内射精品一级片tv| 中文字幕久久专区| 亚洲精品乱码久久久久久按摩| 国产成人精品婷婷| 成人性生交大片免费视频hd| 熟妇人妻久久中文字幕3abv| 久久这里只有精品中国| 亚洲欧美日韩高清专用| 亚洲无线观看免费| 久久久成人免费电影| 午夜福利在线观看吧| 国产大屁股一区二区在线视频| 欧美区成人在线视频| 国产精品一区二区三区四区久久| 亚洲精品国产av成人精品| 99热这里只有是精品50| 男人舔奶头视频| 欧美性猛交黑人性爽| 日韩 亚洲 欧美在线| 国产成人午夜福利电影在线观看| 91av网一区二区| 国产精品久久久久久av不卡| 久久久精品大字幕| 汤姆久久久久久久影院中文字幕 | 国产精品日韩av在线免费观看| 亚洲国产精品成人久久小说| 亚洲性久久影院| 国产一区二区在线观看日韩| 狠狠狠狠99中文字幕| 精品久久久久久成人av| 三级经典国产精品| 亚洲内射少妇av| 99热全是精品| 人人妻人人澡人人爽人人夜夜 | 成人特级av手机在线观看| 韩国高清视频一区二区三区| 久久久久国产网址| 欧美精品国产亚洲| 久久精品国产亚洲网站| 伊人久久精品亚洲午夜| 国产欧美另类精品又又久久亚洲欧美| 亚洲人与动物交配视频| 黄色一级大片看看| 爱豆传媒免费全集在线观看| 秋霞在线观看毛片| 三级经典国产精品| 欧美一区二区国产精品久久精品| 精品无人区乱码1区二区| 中文资源天堂在线| 深夜a级毛片| 国产精品久久视频播放| 国产色婷婷99| 日韩中字成人| av女优亚洲男人天堂| 18+在线观看网站| av国产免费在线观看| videossex国产| 成人综合一区亚洲| 少妇被粗大猛烈的视频| 国产淫片久久久久久久久| 亚洲成av人片在线播放无| 亚洲成人中文字幕在线播放| 丰满少妇做爰视频| 色5月婷婷丁香| 亚洲欧美成人综合另类久久久 | 午夜福利在线在线| 男女视频在线观看网站免费| 天堂网av新在线| 2022亚洲国产成人精品| 最后的刺客免费高清国语| 久久精品熟女亚洲av麻豆精品 | 搡女人真爽免费视频火全软件| 一边摸一边抽搐一进一小说| 国产成人a区在线观看| 国内少妇人妻偷人精品xxx网站| 亚洲国产欧美人成| av线在线观看网站| 日产精品乱码卡一卡2卡三| 欧美zozozo另类| 国产乱人偷精品视频| 久久久久久九九精品二区国产| 最近视频中文字幕2019在线8| 干丝袜人妻中文字幕| 国产高清不卡午夜福利| 中国国产av一级| 亚洲精品乱码久久久v下载方式| 国产av码专区亚洲av| 国产亚洲午夜精品一区二区久久 | 午夜精品在线福利| 久久久久久久久久成人| 亚洲av.av天堂| 国产精品一区www在线观看| 国产精品99久久久久久久久| 天堂√8在线中文| 99热6这里只有精品| 熟妇人妻久久中文字幕3abv| 日韩三级伦理在线观看| 中文字幕制服av| 寂寞人妻少妇视频99o| 免费看美女性在线毛片视频| 最近最新中文字幕大全电影3| 精品一区二区三区人妻视频| 精品免费久久久久久久清纯| 国产在视频线在精品| 久久精品人妻少妇| 天天躁日日操中文字幕| 国产精品电影一区二区三区| 午夜a级毛片| 午夜福利视频1000在线观看| 亚洲人成网站在线观看播放| 日日撸夜夜添| 日本黄色片子视频| 国产高潮美女av| 天美传媒精品一区二区| 久久这里有精品视频免费| 看非洲黑人一级黄片| 亚洲欧美日韩高清专用| 久久久久久久久久久免费av| 久久久精品94久久精品| 国产又黄又爽又无遮挡在线| 国产三级在线视频| 午夜福利视频1000在线观看| 一个人看视频在线观看www免费| 国产成人91sexporn| 午夜激情福利司机影院| 一级黄色大片毛片| 国产精品爽爽va在线观看网站| 亚洲av一区综合| 一级黄片播放器| 小说图片视频综合网站| 午夜亚洲福利在线播放| 成人综合一区亚洲| 欧美日韩精品成人综合77777| 亚洲欧美清纯卡通| www.av在线官网国产| 九色成人免费人妻av| 欧美成人精品欧美一级黄| 三级国产精品欧美在线观看| 精品久久久久久久末码| 国产精品不卡视频一区二区| 亚洲一级一片aⅴ在线观看| 日本黄色片子视频| 亚洲激情五月婷婷啪啪| 2021少妇久久久久久久久久久| 久久久欧美国产精品| 菩萨蛮人人尽说江南好唐韦庄 | 亚洲精华国产精华液的使用体验| 成人国产麻豆网| 欧美3d第一页| 久久精品91蜜桃| 国产亚洲午夜精品一区二区久久 | 久久人人爽人人片av| 夫妻性生交免费视频一级片| 日本爱情动作片www.在线观看| 国产亚洲av片在线观看秒播厂 | 亚洲美女视频黄频| 人妻系列 视频| 插逼视频在线观看| 国产免费视频播放在线视频 | 国内精品美女久久久久久| 日韩成人av中文字幕在线观看| 久久精品国产鲁丝片午夜精品| 国产精品综合久久久久久久免费| 97热精品久久久久久| 国产伦理片在线播放av一区| 99在线人妻在线中文字幕| 成人二区视频| 国产三级中文精品| 插阴视频在线观看视频| 久久精品国产亚洲av涩爱| 亚洲18禁久久av| 久久久久久久国产电影| 久久国产乱子免费精品| 韩国高清视频一区二区三区| 亚洲精品自拍成人| 国产真实乱freesex| 九草在线视频观看| 日本免费a在线| av在线老鸭窝| 日日撸夜夜添| 国产久久久一区二区三区| 亚洲精品乱码久久久久久按摩| 毛片一级片免费看久久久久| 久久鲁丝午夜福利片| 男女边吃奶边做爰视频| 国产探花在线观看一区二区| 亚洲自偷自拍三级| 亚洲美女搞黄在线观看| 亚洲精品成人久久久久久| 在线免费观看不下载黄p国产| 亚洲色图av天堂| 乱人视频在线观看| 天堂av国产一区二区熟女人妻| 少妇丰满av| 日韩一区二区三区影片| 欧美精品一区二区大全| 2021少妇久久久久久久久久久| 两性午夜刺激爽爽歪歪视频在线观看| 久久久精品94久久精品| 99热这里只有是精品50| 日韩制服骚丝袜av| 国产乱来视频区| 国产高潮美女av| 亚洲va在线va天堂va国产| 天天一区二区日本电影三级| 亚洲最大成人av| 国产免费又黄又爽又色| 国产精品一区二区三区四区久久| 99久久成人亚洲精品观看| 国产 一区精品| 最近2019中文字幕mv第一页| 欧美一区二区精品小视频在线| 亚洲精品影视一区二区三区av| 免费av观看视频| 亚洲熟妇中文字幕五十中出| 亚洲国产精品国产精品| 亚洲精品成人久久久久久| 免费在线观看成人毛片| 久久精品91蜜桃| 久久6这里有精品| 亚洲无线观看免费| 成人漫画全彩无遮挡| 一级毛片aaaaaa免费看小| 色吧在线观看| 老女人水多毛片| 欧美bdsm另类| 中文字幕免费在线视频6| 国产av在哪里看| 男人和女人高潮做爰伦理| .国产精品久久| 日日干狠狠操夜夜爽| 亚洲人成网站在线观看播放| 久久久久久国产a免费观看| 亚洲国产精品国产精品| 亚洲伊人久久精品综合 | 国产精品一区二区性色av| av国产久精品久网站免费入址| 色5月婷婷丁香| 91久久精品国产一区二区三区| 又黄又爽又刺激的免费视频.| av免费观看日本| 国产乱来视频区| 久久热精品热| 午夜激情福利司机影院| 在线观看av片永久免费下载| 国产精品久久久久久精品电影小说 | 嫩草影院精品99| 一级爰片在线观看| 免费不卡的大黄色大毛片视频在线观看 | 老师上课跳d突然被开到最大视频| 成人三级黄色视频| 99热这里只有是精品在线观看| av在线蜜桃| 禁无遮挡网站| 你懂的网址亚洲精品在线观看 | 麻豆久久精品国产亚洲av| 嫩草影院入口| 国产高清不卡午夜福利| 亚洲国产精品成人综合色| 欧美日韩国产亚洲二区| 免费大片18禁| 不卡视频在线观看欧美| 岛国在线免费视频观看| 网址你懂的国产日韩在线| 岛国在线免费视频观看| 网址你懂的国产日韩在线| 69av精品久久久久久| 国产伦一二天堂av在线观看| 国产高清国产精品国产三级 | 免费观看人在逋| 国产午夜精品论理片| 成人漫画全彩无遮挡| 97超碰精品成人国产| 中文精品一卡2卡3卡4更新| 观看免费一级毛片| 国产私拍福利视频在线观看| 天堂影院成人在线观看| 亚洲av.av天堂| 国产在视频线在精品| 亚洲综合色惰| 国产成人精品一,二区| 日日撸夜夜添| 精品久久久噜噜| 亚洲国产欧美在线一区| 国产伦精品一区二区三区四那| 国产男人的电影天堂91| 国产淫语在线视频| 91久久精品国产一区二区三区| 青春草视频在线免费观看| 长腿黑丝高跟| 精品国内亚洲2022精品成人| 久久人人爽人人爽人人片va| 欧美变态另类bdsm刘玥| 欧美性感艳星| 成人高潮视频无遮挡免费网站| av在线天堂中文字幕| 国产精品.久久久| 久久久久久久久大av| 国产91av在线免费观看| 国产精品久久久久久精品电影| 一级av片app| 少妇人妻一区二区三区视频| 亚洲av不卡在线观看| 国产一区二区在线观看日韩| 久久精品国产鲁丝片午夜精品| 日韩精品有码人妻一区| 国产在视频线在精品| 亚洲一级一片aⅴ在线观看| 国产精品麻豆人妻色哟哟久久 | 九九热线精品视视频播放| 久久久久久久久中文| 欧美一区二区国产精品久久精品| 午夜视频国产福利| 少妇裸体淫交视频免费看高清| 18+在线观看网站| 一级二级三级毛片免费看| 国产成人一区二区在线| 少妇猛男粗大的猛烈进出视频 | 亚洲在线观看片| 亚洲av成人av| 免费一级毛片在线播放高清视频| 97在线视频观看| 中文字幕av在线有码专区| 亚洲av电影在线观看一区二区三区 | 国产真实乱freesex| 国产高潮美女av| 午夜激情欧美在线| 亚洲欧美精品专区久久| 成年av动漫网址| 日日撸夜夜添| 日韩一区二区视频免费看| 亚洲最大成人av| 特级一级黄色大片| 毛片一级片免费看久久久久| 国产极品精品免费视频能看的| 日本一二三区视频观看| 久久久亚洲精品成人影院| 建设人人有责人人尽责人人享有的 | 中国国产av一级| 精品少妇黑人巨大在线播放 | 高清午夜精品一区二区三区| 国产真实乱freesex| 成人毛片a级毛片在线播放| 精品无人区乱码1区二区| 午夜福利在线在线| 一级av片app| 亚洲欧美成人综合另类久久久 | 丰满乱子伦码专区| 天天一区二区日本电影三级| 男女视频在线观看网站免费| 永久网站在线| 国产乱来视频区| 精品久久久久久久久亚洲| 99久久成人亚洲精品观看| 亚洲自偷自拍三级| 亚洲成av人片在线播放无| 国产高清有码在线观看视频| 小说图片视频综合网站| 亚洲成人久久爱视频| 亚洲av中文av极速乱| 成人二区视频| 日日撸夜夜添| 国产在线男女| 欧美激情在线99| 好男人视频免费观看在线| 国产av码专区亚洲av| 成人性生交大片免费视频hd| 日韩欧美精品v在线| 国产久久久一区二区三区| 99热网站在线观看| 欧美潮喷喷水| 搡老妇女老女人老熟妇| 网址你懂的国产日韩在线| 久久国内精品自在自线图片| 91午夜精品亚洲一区二区三区| 2021少妇久久久久久久久久久| h日本视频在线播放| 卡戴珊不雅视频在线播放| 插阴视频在线观看视频| 久久久久免费精品人妻一区二区| 亚洲自偷自拍三级| 日本三级黄在线观看| 亚洲成人中文字幕在线播放| 欧美3d第一页| 国产三级在线视频| 国产麻豆成人av免费视频| 亚洲第一区二区三区不卡| 美女cb高潮喷水在线观看| 97超碰精品成人国产| 噜噜噜噜噜久久久久久91| 精品久久久久久久人妻蜜臀av| 国产成人精品婷婷| 久久久精品大字幕| 国产欧美另类精品又又久久亚洲欧美| 内地一区二区视频在线| 欧美日韩精品成人综合77777| 国产视频内射| 人体艺术视频欧美日本| 欧美xxxx黑人xx丫x性爽| 夫妻性生交免费视频一级片| 男女视频在线观看网站免费| 九草在线视频观看| 一区二区三区四区激情视频| 天天一区二区日本电影三级| 中文字幕熟女人妻在线| 天堂av国产一区二区熟女人妻| 97超视频在线观看视频| 老女人水多毛片| 亚洲精品乱久久久久久| 日本一本二区三区精品| 男女下面进入的视频免费午夜| 久久99热6这里只有精品| 男人舔奶头视频| 1024手机看黄色片| 熟女电影av网| 91精品伊人久久大香线蕉| 色综合色国产| 成人午夜高清在线视频| 天天一区二区日本电影三级| 欧美性猛交╳xxx乱大交人| 成人一区二区视频在线观看| 日韩大片免费观看网站 | 国产高清三级在线| 精品一区二区免费观看| 国产久久久一区二区三区| 亚洲精品日韩av片在线观看| 国产一级毛片在线| 亚洲精品,欧美精品| 国产精品一二三区在线看| 蜜臀久久99精品久久宅男| 日韩 亚洲 欧美在线| 国产乱人视频| 久久精品夜色国产| 2022亚洲国产成人精品| 三级毛片av免费| 神马国产精品三级电影在线观看| 亚洲五月天丁香| 国产成人freesex在线| 综合色丁香网| 亚洲欧美成人精品一区二区| 欧美性猛交╳xxx乱大交人| 看黄色毛片网站| 精品久久国产蜜桃| 午夜视频国产福利| 男女国产视频网站| 久久亚洲国产成人精品v| 国产精品女同一区二区软件| 欧美人与善性xxx| 国产黄色小视频在线观看| 亚洲欧美成人精品一区二区| 99九九线精品视频在线观看视频| 国产精品电影一区二区三区| 亚洲18禁久久av| 国产色婷婷99| 久久久久久久久久黄片| 日韩欧美国产在线观看| 久久久成人免费电影| 乱码一卡2卡4卡精品| 在线免费观看的www视频| 久久精品国产亚洲av天美| 日韩制服骚丝袜av| 中文字幕人妻熟人妻熟丝袜美| 99久久精品热视频| 级片在线观看| 久久久久久伊人网av| 国产一区有黄有色的免费视频 | 一区二区三区高清视频在线| 男人和女人高潮做爰伦理| 久久久久久九九精品二区国产| 老司机影院成人| 两个人的视频大全免费| 久99久视频精品免费| 国产爱豆传媒在线观看| 亚洲人与动物交配视频| 午夜福利在线在线| 麻豆乱淫一区二区| 色噜噜av男人的天堂激情| 免费黄网站久久成人精品| 七月丁香在线播放| 青春草视频在线免费观看| 综合色av麻豆| 精品少妇黑人巨大在线播放 | 午夜免费男女啪啪视频观看| 亚洲最大成人av| 精品少妇黑人巨大在线播放 | 伦精品一区二区三区| 一个人免费在线观看电影| 两性午夜刺激爽爽歪歪视频在线观看| 一级毛片久久久久久久久女| 黄色配什么色好看| 嫩草影院入口| 亚洲中文字幕一区二区三区有码在线看| 成人无遮挡网站| 亚洲av日韩在线播放| 三级毛片av免费| 97人妻精品一区二区三区麻豆| 欧美成人精品欧美一级黄| www.色视频.com| 久久久精品大字幕| 久久久久久大精品| 在线播放无遮挡| 91在线精品国自产拍蜜月| 国产高清不卡午夜福利| 日韩亚洲欧美综合| 国产精品国产三级专区第一集| 欧美丝袜亚洲另类| 哪个播放器可以免费观看大片| 晚上一个人看的免费电影| 国产成人91sexporn| 99热精品在线国产| av在线天堂中文字幕| 欧美+日韩+精品| 性插视频无遮挡在线免费观看| 国产av码专区亚洲av| 国产片特级美女逼逼视频| 久久99精品国语久久久| 精品99又大又爽又粗少妇毛片| 九九久久精品国产亚洲av麻豆| 午夜久久久久精精品| 国产成年人精品一区二区| 亚洲三级黄色毛片| 18禁在线播放成人免费| 一个人看的www免费观看视频| 亚洲综合精品二区| 日韩一本色道免费dvd| 国产精品伦人一区二区| 久久久成人免费电影| 免费人成在线观看视频色| 久久久精品欧美日韩精品| 国产探花极品一区二区| 亚洲高清免费不卡视频| 欧美一区二区精品小视频在线| 青春草国产在线视频| 亚洲怡红院男人天堂|