• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      跨模態(tài)檢索研究文獻(xiàn)綜述

      2021-08-07 07:42:16段友祥孫歧峰
      計(jì)算機(jī)與生活 2021年8期
      關(guān)鍵詞:哈希檢索語義

      陳 寧,段友祥,孫歧峰

      中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 青島 266580

      近年來,隨著互聯(lián)網(wǎng)的蓬勃發(fā)展、智能設(shè)備與社交網(wǎng)絡(luò)的普及,多媒體數(shù)據(jù)在互聯(lián)網(wǎng)上爆炸式地增長(zhǎng)。這些海量的數(shù)據(jù)包括文本、圖像、視頻及音頻等各種模態(tài)形式,同一事物會(huì)有多種不同模態(tài)數(shù)據(jù)的描述。這些數(shù)據(jù)在形式上“異構(gòu)多源”,而在語義上相互關(guān)聯(lián)。

      單模態(tài)檢索[1-2]為信息檢索的傳統(tǒng)方式,要求檢索集與查詢集為相同模態(tài),如文本檢索文本[3]、圖像檢索圖像[4]、視頻檢索視頻[5]等。以圖像檢索為例,單模態(tài)檢索技術(shù)主要包括基于文本關(guān)鍵字檢索、基于圖像底層特征索引以及基于語義建模和匹配等。雖然這些方法對(duì)于單模態(tài)檢索來說能取得較好的檢索結(jié)果,但是獲取到的信息僅僅局限于一種模態(tài)數(shù)據(jù),這種單一模態(tài)信息檢索已不能滿足人們高效、全面、準(zhǔn)確獲得對(duì)象信息的需求。因此如何對(duì)描述同一事物的各種模態(tài)數(shù)據(jù)進(jìn)行高效檢索成為信息檢索領(lǐng)域一個(gè)重要的研究課題。面對(duì)海量、互聯(lián)的多媒體數(shù)據(jù),人們渴望通過其中一種模態(tài)數(shù)據(jù)來檢索相關(guān)聯(lián)的其他不同模態(tài)的補(bǔ)充數(shù)據(jù)。如圖1 所示,左側(cè)通過圖像檢索出相關(guān)文本,右側(cè)通過文本檢索出相關(guān)圖像,描述同一個(gè)事物的文本與圖像屬于不同模態(tài)的數(shù)據(jù),這種不同模態(tài)數(shù)據(jù)之間的互檢索方式稱為跨模態(tài)檢索。

      Fig.1 Schematic diagram of cross-modal retrieval圖1 跨模態(tài)檢索示意圖

      當(dāng)前解決跨模態(tài)檢索問題的一般技術(shù)框架如圖2所示:首先對(duì)不同模態(tài)數(shù)據(jù)的特征進(jìn)行提取;然后對(duì)獲取的特征表示進(jìn)行建模,即建立不同模態(tài)數(shù)據(jù)特征之間的關(guān)聯(lián)關(guān)系表示模型;最后通過表示模型和相關(guān)算法獲得檢索結(jié)果并排序。其中在大多數(shù)建模算法中都會(huì)遇到處于不同特征空間的數(shù)據(jù)之間無法直接進(jìn)行比較的問題,這是多模態(tài)數(shù)據(jù)間所具有的特點(diǎn),即底層特征(如圖像的顏色,文本的關(guān)鍵字、詞,視頻的幀等)異構(gòu),高層語義相關(guān),即語義鴻溝[6]。因此跨模態(tài)檢索研究的難點(diǎn)問題是,如何關(guān)聯(lián)不同模態(tài)的數(shù)據(jù)并度量處于不同特征空間的模態(tài)數(shù)據(jù)之間相似性。

      Fig.2 Cross-modal retrieval framework圖2 跨模態(tài)檢索框架

      進(jìn)而如何深入挖掘模態(tài)間的結(jié)構(gòu)信息以及語義關(guān)聯(lián),建立多模態(tài)數(shù)據(jù)特征關(guān)聯(lián)模型是提升多模態(tài)檢索精度的關(guān)鍵?;趯?duì)多模態(tài)數(shù)據(jù)中豐富信息進(jìn)行分析,研究者采用不同的技術(shù)和方法提出了多種多模態(tài)數(shù)據(jù)特征關(guān)聯(lián)表示模型。由于具有相同語義的不同模態(tài)數(shù)據(jù)之間具有潛在的關(guān)聯(lián)性,使得構(gòu)建公共子空間成為當(dāng)前最主流的特征關(guān)聯(lián)模型。其核心思想是將不同模態(tài)的數(shù)據(jù)特征映射到同一個(gè)公共子空間,從而為不同模態(tài)數(shù)據(jù)生成統(tǒng)一的特征表征形式,進(jìn)而使其可以直接進(jìn)行相似度度量。本文主要以跨模態(tài)檢索的關(guān)鍵技術(shù)——公共子空間建模為主線,對(duì)跨模態(tài)相關(guān)研究進(jìn)行綜述,具體將其歸納總結(jié)為基于傳統(tǒng)統(tǒng)計(jì)分析、基于深度學(xué)習(xí)和基于哈希學(xué)習(xí)三類技術(shù)。

      1 問題定義

      為了清晰起見,以兩種模態(tài)類型X與Y為例,給出跨模態(tài)檢索的定義。訓(xùn)練數(shù)據(jù)定義為D={X,Y},其中,這里n表示訓(xùn)練樣本實(shí)例的數(shù)據(jù)量,xi表示來自X模態(tài)的第i個(gè)樣本實(shí)例的特征向量。同樣地,定義,其中yj表示來自Y模態(tài)的第j個(gè)樣本實(shí)例的特征向量??梢蕴峁┯?xùn)練數(shù)據(jù)的語義標(biāo)簽定義為,其中表示X模態(tài)第i個(gè)實(shí)例的語義標(biāo)簽向量,表示Y模態(tài)第j個(gè)實(shí)例的語義標(biāo)簽向量,用來表示該模態(tài)數(shù)據(jù)樣本所屬的語義類別。若兩個(gè)模態(tài)數(shù)據(jù)xi與yj之間存在語義關(guān)聯(lián),則;否則,。

      由于不同模態(tài)的數(shù)據(jù)的特征向量與xi和yj位于不同的特征表示空間,并且通常具有不同的統(tǒng)計(jì)屬性,它們不能直接進(jìn)行比較。因此跨模態(tài)檢索針對(duì)每種模態(tài)學(xué)習(xí)一個(gè)轉(zhuǎn)換函數(shù):對(duì)于X模態(tài),ui=f(xi;γX)∈Rd;對(duì)于Y模態(tài),vj=f(yj;γY)∈Rd。其中,d為公共子空間的維度,γX與γY為兩個(gè)模態(tài)數(shù)據(jù)的訓(xùn)練參數(shù)。轉(zhuǎn)換函數(shù)將來自不同特征空間的數(shù)據(jù)xi與yj映射成為公共子空間中的特征向量ui與vj。使得來自不同模態(tài)的數(shù)據(jù)可以直接進(jìn)行比較,并且在公共子空間中,相同類別的樣本相似度大于不同類別的樣本的相似度。

      跨模態(tài)檢索的目標(biāo)是計(jì)算跨模態(tài)數(shù)據(jù)的相似性。例如,針對(duì)來自X模態(tài)的數(shù)據(jù)xa,利用上述轉(zhuǎn)換函數(shù)將其映射到公共子空間ua=f(xa;γX)∈Rd,計(jì)算其與公共子空間中所有Y模態(tài)數(shù)據(jù)vj的相似度dj=sim(ua,vj),將相似度進(jìn)行排序,最終得到Y(jié)模態(tài)中與xa相關(guān)聯(lián)的數(shù)據(jù)的檢索結(jié)果。

      2 基于傳統(tǒng)統(tǒng)計(jì)分析的技術(shù)

      傳統(tǒng)統(tǒng)計(jì)分析是常用的公共子空間技術(shù)的基礎(chǔ),其通過優(yōu)化統(tǒng)計(jì)值來學(xué)習(xí)子空間的投影矩陣。主要有三種解決思路,分別是無監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí)。其中無監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)均無標(biāo)簽標(biāo)記,監(jiān)督學(xué)習(xí)與之相反,對(duì)所有訓(xùn)練數(shù)據(jù)進(jìn)行人工標(biāo)注,通過利用數(shù)據(jù)的標(biāo)簽信息來關(guān)聯(lián)數(shù)據(jù)的特征與語義,而半監(jiān)督學(xué)習(xí)中僅有部分訓(xùn)練數(shù)據(jù)有標(biāo)簽標(biāo)記。

      2.1 無監(jiān)督學(xué)習(xí)

      Li 等人提出了最早的傳統(tǒng)統(tǒng)計(jì)分析方法——跨模態(tài)因子分析法(cross-modal factor analysis,CFA)[7],通過最小化不同模態(tài)樣本變量對(duì)之間的距離來學(xué)習(xí)投影子空間,進(jìn)而探索模態(tài)間數(shù)據(jù)背后存在的潛在變量關(guān)系。最具代表性的方法是由Thompson提出的典型相關(guān)分析(canonical correlation analysis,CCA)[8],其通過從原數(shù)據(jù)變量中選取具有代表性的綜合指標(biāo)的相關(guān)關(guān)系反映原數(shù)據(jù)之間的相關(guān)關(guān)系,同時(shí)考慮了變量間與變量?jī)?nèi)特征的關(guān)聯(lián)。不足之處在于CCA的目的是尋找變量之間投影后的綜合指標(biāo)之間的關(guān)系,但是無法通過該關(guān)系還原出原變量,即找不到原變量之間直接映射關(guān)系。此外Rosipal 等人提出偏最小二乘法(partial least squares,PLS)[9],利用潛在變量對(duì)觀測(cè)變量集之間的關(guān)系,通過最大化不同變量集之間的協(xié)方差來創(chuàng)建潛在關(guān)系向量,在子空間的跨模態(tài)檢索問題中,進(jìn)一步加強(qiáng)了不同模態(tài)之間相關(guān)性分析。

      在CCA 的基礎(chǔ)上,Zhang 等人又提出了基于核的典型相關(guān)分析方法(kernel canonical correlation analysis,KCCA)[10],將核函數(shù)引入CCA,擴(kuò)展到可以特征化兩組多維變量的非線性關(guān)系,將原始特征數(shù)據(jù)映射到更高維的核函數(shù)特征空間。KCCA 的優(yōu)化問題與CCA 相同,均希望找到最優(yōu)系數(shù),使得兩組變量的相關(guān)性最大。由于KCCA 復(fù)雜的函數(shù)空間,使用足夠的訓(xùn)練數(shù)據(jù)可以表示更高的相關(guān)性,且可以生成特征以提高分類器性能。但是KCCA 與CCA 均要求數(shù)據(jù)是成對(duì)對(duì)應(yīng)的,當(dāng)模式中的多個(gè)點(diǎn)簇對(duì)應(yīng)于另一個(gè)點(diǎn)簇時(shí),或者當(dāng)成對(duì)模式被類標(biāo)簽補(bǔ)充時(shí),KCCA與CCA 都不能直接使用。KCCA 方法雖然解決了數(shù)據(jù)的非線性問題,但是由于核函數(shù)選取的不可知性,使得訓(xùn)練開銷增大且模型更為復(fù)雜,因此Andrew 提出深度典型相關(guān)分析(deep canonical correlation analysis,DCCA)[11]。神經(jīng)網(wǎng)絡(luò)在解決非線性問題時(shí),是通過嵌入每個(gè)層次的非線性函數(shù)來解決的。DCCA 采用深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)分別求出兩個(gè)視圖經(jīng)過線性化的向量,并求出兩個(gè)投影向量的最大相關(guān)性,最后獲得新的投影向量,將其加入模型算法中進(jìn)行學(xué)習(xí)。

      2.2 監(jiān)督學(xué)習(xí)

      顯然上述方法并未涉及高層語義的分析建模,語義特征的缺失使其無法達(dá)到令人滿意的結(jié)果。因此許多學(xué)者提出基于監(jiān)督算法的統(tǒng)計(jì)分析技術(shù),利用不同模態(tài)數(shù)據(jù)的高層語義關(guān)系進(jìn)一步關(guān)聯(lián)底層的異構(gòu)特征。

      Jia 等人通過基于馬爾科夫隨機(jī)場(chǎng)的主題模型[12]對(duì)模態(tài)間的高層語義關(guān)系進(jìn)行建模?;贑CA 方法,Rasiwasia 等人研究了文本和圖像聯(lián)合建模的問題,提出三種子空間學(xué)習(xí)模型[13],通過邏輯回歸增加了語義層的判斷。之后又提出了聚類相關(guān)性分析(cluster canonical correlation analysis,Cluster-CCA)[14],與CCA、KCCA 不同的是,其沒有要求數(shù)據(jù)的標(biāo)準(zhǔn)成對(duì)關(guān)系,在Cluster-CCA 中,每個(gè)集合都被劃分成多個(gè)簇或者類,其中的類標(biāo)簽定義了集合之間的對(duì)應(yīng)關(guān)系。Cluster-CCA 能夠在特征空間上學(xué)習(xí)最大化兩個(gè)集合之間相關(guān)性的判別低維表示,同時(shí)在學(xué)習(xí)空間上分離不同的類。此外還提出了核擴(kuò)展,核聚類典型相關(guān)分析(kernel cluster canonical correlation analysis,Cluster-KCCA)[14],擴(kuò)展了Cluster-CCA 到高維空間的非線性投影來觀察兩個(gè)集合間的關(guān)系。Cluster-CCA改進(jìn)了CCA 只能適用于所有數(shù)據(jù)必須成對(duì)對(duì)應(yīng)的數(shù)據(jù)集的問題,即拓寬了應(yīng)用范圍。但是當(dāng)應(yīng)用于大規(guī)模數(shù)據(jù)集時(shí),計(jì)算協(xié)方差的復(fù)雜度隨著數(shù)據(jù)數(shù)量變化呈平方的關(guān)系增長(zhǎng)。

      此外,Ranjan等人基于CCA提出了多標(biāo)簽典型關(guān)聯(lián)分析(multi-label canonical correlation analysis,ml-CCA)[15],用于學(xué)習(xí)共享子空間,以多標(biāo)簽注釋的形式表示高層語義信息。對(duì)于多標(biāo)簽數(shù)據(jù)集,不同模態(tài)間存在自然的多對(duì)多對(duì)應(yīng)關(guān)系,即來自一種模態(tài)的每個(gè)數(shù)據(jù)點(diǎn)與來自另一個(gè)模態(tài)的若干個(gè)其他數(shù)據(jù)點(diǎn)相關(guān)。與CCA 不同,ml-CCA 不依賴于模態(tài)之間數(shù)據(jù)的顯示配對(duì),而是使用多標(biāo)簽信息來建立模態(tài)間對(duì)應(yīng)關(guān)系,產(chǎn)生了一個(gè)更適合跨模態(tài)檢索任務(wù)的判別子空間。同時(shí)提出Fast ml-CCA[15],它是一個(gè)高效率版本ml-CCA,能夠處理大規(guī)模數(shù)據(jù)集,且在學(xué)習(xí)子空間的同時(shí)能夠有效地融合多標(biāo)簽信息。Gong等人還提出了三視角CCA(3view canonical correlation analysis,3view-CCA)[16],結(jié)合第三視角捕捉高層次語義,考慮文本與圖像兩種模態(tài)的同時(shí),將高層語義視為一種模態(tài),最大化三種模態(tài)兩兩間的相關(guān)性,證明了語義特征的加入使得檢索準(zhǔn)確率得到了極大的提高。模態(tài)數(shù)據(jù)點(diǎn)之間的對(duì)應(yīng)關(guān)系如圖3 所示,圓圈和方塊表示兩種模態(tài)的數(shù)據(jù)點(diǎn),“+”“-”“*”表示類標(biāo)簽。在cluster-CCA 中,一種模態(tài)中的每個(gè)點(diǎn)與另一個(gè)模態(tài)中的所有相同的類點(diǎn)配對(duì)。在3view-CCA 中,第一個(gè)模態(tài)中的每個(gè)樣本與來自第二模態(tài)的具有相同類標(biāo)簽的單個(gè)樣本配對(duì)。在ml-CCA 中,一組樣本可與第二組中的多個(gè)樣本配對(duì)。

      Fig.3 Correspondence of modal data points圖3 模態(tài)數(shù)據(jù)點(diǎn)對(duì)應(yīng)關(guān)系

      2.3 半監(jiān)督學(xué)習(xí)

      基于未標(biāo)記數(shù)據(jù)易于收集和不同模態(tài)之間的相關(guān)性的特性,Zhang等人提出了廣義半監(jiān)督結(jié)構(gòu)子空間學(xué)習(xí)方法(generalized semi-supervised structured subspace learning,GSS-SL)[17],將標(biāo)簽圖約束、標(biāo)簽鏈損失函數(shù)和正則化集成到聯(lián)合最小化公式中,以學(xué)習(xí)有區(qū)別的公共子空間。

      雖然現(xiàn)有的傳統(tǒng)統(tǒng)計(jì)分析的技術(shù)比較容易實(shí)現(xiàn),但是存在共同的缺點(diǎn):欠缺對(duì)模態(tài)內(nèi)數(shù)據(jù)局部結(jié)構(gòu)和模態(tài)間數(shù)據(jù)結(jié)構(gòu)匹配的考慮。實(shí)際上,與具有鄰域關(guān)系的樣本相對(duì)應(yīng)的另一模態(tài)的樣本數(shù)據(jù)也具有鄰域關(guān)系。并且大多數(shù)統(tǒng)計(jì)分析方法學(xué)習(xí)到的都是非線性映射,因此在模態(tài)間高級(jí)語義建模方面無法取得有效的結(jié)果。同樣,統(tǒng)計(jì)分析方法在處理大規(guī)模以及高維多模態(tài)數(shù)據(jù)的計(jì)算復(fù)雜度上也表現(xiàn)得不盡人意。

      3 基于深度學(xué)習(xí)的技術(shù)

      近年來,深度學(xué)習(xí)在單模態(tài)領(lǐng)域取得突破性進(jìn)展,如自然語言處理領(lǐng)域、圖像領(lǐng)域和語音識(shí)別領(lǐng)域,神經(jīng)網(wǎng)絡(luò)強(qiáng)大的抽象能力在不同的多媒體應(yīng)用中展現(xiàn)出無窮的潛力,如對(duì)象識(shí)別[18]與文本生成[19],為其在跨模態(tài)檢索的研究上奠定了理論基礎(chǔ)和技術(shù)實(shí)踐。

      3.1 玻爾茲曼機(jī)

      Ngiam 等人首次采用深度學(xué)習(xí)的方法處理多模態(tài)任務(wù),提出將受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)應(yīng)用于公共子空間的學(xué)習(xí)[20],通過輸入連續(xù)的音頻和視頻幀訓(xùn)練模型,來學(xué)習(xí)音頻與視頻的統(tǒng)一表示。此項(xiàng)工作展示了深度學(xué)習(xí)如何應(yīng)用于發(fā)現(xiàn)多模態(tài)特征的挑戰(zhàn)性任務(wù),但是模型采用的是手工設(shè)計(jì)特定于任務(wù)的特征,既困難又耗時(shí)?;谥暗墓ぷ鱗20],考慮到探索關(guān)聯(lián)數(shù)據(jù)的側(cè)重點(diǎn)在于語義關(guān)聯(lián),Srivastava 等人提出基于深度玻爾茲曼機(jī)的多模態(tài)學(xué)習(xí)(deep Boltzmann machine,DBM)[21],將DBM 結(jié)構(gòu)擴(kuò)充到多模態(tài)領(lǐng)域,通過多模態(tài)DBM,學(xué)習(xí)聯(lián)合概率分布。該方法對(duì)模態(tài)內(nèi)數(shù)據(jù)的底層特征分別進(jìn)行學(xué)習(xí),利用不同模態(tài)之間的高層語義關(guān)系建立模態(tài)之間的關(guān)聯(lián)。DBM 學(xué)習(xí)多模態(tài)表示的最大優(yōu)點(diǎn)之一就是其生成特性,即它允許數(shù)據(jù)有丟失。即使整個(gè)模態(tài)丟失,模型也可以通過對(duì)它們的條件分布進(jìn)行采樣并填充來提取這種表示,進(jìn)而很好地工作,因此該模型可以有效地利用大量未標(biāo)記的數(shù)據(jù)。然而,由于RBM 的原因,仍舊沒有解決耗時(shí)嚴(yán)重的問題,在當(dāng)時(shí)計(jì)算能力不高的情況下,也嚴(yán)重限制了其實(shí)際的應(yīng)用。并且使用傳統(tǒng)手工特征技術(shù),使得性能仍遠(yuǎn)遠(yuǎn)不能令人滿意。

      3.2 自編碼器

      為研究圖像與文本之間的交叉檢索,F(xiàn)eng等人提出了基于對(duì)應(yīng)式自編碼器模型(correspondence autoencoder,Corr-AE)[22]的方法,并提出了新的優(yōu)化目標(biāo)。通過使每種模態(tài)的表示學(xué)習(xí)誤差和模態(tài)間的隱藏表示的相關(guān)學(xué)習(xí)誤差的線性組合最小化,對(duì)模型進(jìn)行訓(xùn)練。最小化相關(guān)學(xué)習(xí)誤差迫使模型只學(xué)習(xí)不同模態(tài)隱藏的公共信息,最小化表示學(xué)習(xí)誤差使得隱藏表示足以重構(gòu)每種模態(tài)的輸入。此模型將單模態(tài)的表示學(xué)習(xí)和多模態(tài)的相關(guān)性學(xué)習(xí)結(jié)合到一個(gè)過程中,從而將自編碼代價(jià)和相關(guān)代價(jià)結(jié)合起來?;诖隧?xiàng)工作,Zhang 等人提出獨(dú)立組件多模態(tài)自動(dòng)編碼器(independent component multimodal autoencoder,ICMAE)[23]的深度體系結(jié)構(gòu),使用兩個(gè)自編碼器不斷學(xué)習(xí)跨視覺和文本的共享高級(jí)表示,從而進(jìn)行屬性的自動(dòng)發(fā)現(xiàn)。雖然自編碼器的加入使得模型泛化能力得到加強(qiáng),然而針對(duì)異常識(shí)別場(chǎng)景,得到的重構(gòu)輸出可能也會(huì)變成異常數(shù)據(jù)。

      而現(xiàn)有的大多數(shù)跨模態(tài)檢索方法,在整個(gè)訓(xùn)練過程中要使用到包含所有模態(tài)的數(shù)據(jù),不同模態(tài)轉(zhuǎn)換的最佳參數(shù)之間彼此依賴,并且當(dāng)處理來自新模態(tài)的樣本數(shù)據(jù)的時(shí)候,整個(gè)模型需要重新進(jìn)行訓(xùn)練。因此,Hu 等人提出了可擴(kuò)展的深度多模態(tài)學(xué)習(xí)方法(scalable deep multimodal learning,SDML)[24],設(shè)計(jì)預(yù)先定義一個(gè)公共子空間,使得類間差異最大、類內(nèi)差異最小。針對(duì)每一種模態(tài)數(shù)據(jù)設(shè)計(jì)一個(gè)深度監(jiān)督自編碼器(deep supervised autoencoder,DSAE)將多模態(tài)數(shù)據(jù)轉(zhuǎn)換到預(yù)定義的公共子空間,實(shí)現(xiàn)跨模態(tài)學(xué)習(xí)。與大多數(shù)現(xiàn)有方法不同的是,SDML 可以獨(dú)立、并行地訓(xùn)練不同的特定模態(tài)的網(wǎng)絡(luò),可以有效地處理來自新模態(tài)的樣本,只需要訓(xùn)練針對(duì)該模態(tài)的新網(wǎng)絡(luò)即可。因此其是可以擴(kuò)展模態(tài)數(shù)量的,是最先提出可以將不定數(shù)量的模態(tài)數(shù)據(jù)獨(dú)立投影到預(yù)定義子空間中的方法之一,亦是提出將跨模態(tài)檢索問題擴(kuò)展到多個(gè)模態(tài)數(shù)量的實(shí)踐之一,值得人們關(guān)注,這也是大多數(shù)現(xiàn)有方法所忽略的問題,亦是未來的挑戰(zhàn)。

      3.3 卷積神經(jīng)網(wǎng)絡(luò)

      為了學(xué)習(xí)到更加具有判別性的表示,諸多學(xué)者提出了基于深度監(jiān)督學(xué)習(xí)的跨模態(tài)檢索方法。為加強(qiáng)對(duì)圖像與文本之間的高級(jí)語義相關(guān)性表示的探索,Wang 等人提出了一種正則化的深度神經(jīng)網(wǎng)絡(luò)(regularized deep neural network,RE-DNN)[25],用于跨模態(tài)的語義映射。RE-DNN 通過結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)(處理圖像)和語言神經(jīng)網(wǎng)絡(luò)(處理文本),將圖像和文本數(shù)據(jù)映射到公共語義子空間,得到一個(gè)同時(shí)捕獲模態(tài)內(nèi)和模態(tài)間關(guān)系的聯(lián)合模型,從而進(jìn)行模態(tài)間數(shù)據(jù)的相似度度量。

      也有一些想法將DNN 與CCA 相結(jié)合作為DCCA[11],其有很明顯的缺點(diǎn):對(duì)內(nèi)存的過度占用,計(jì)算速度過慢以及過擬合現(xiàn)象的發(fā)生。因此使用DCCA 框架時(shí),特征的高維性使得其在內(nèi)存和復(fù)雜性方面提出了巨大的挑戰(zhàn)。Yan 等人提出了一種基于DCCA 的端到端學(xué)習(xí)方法(end-to-end learning scheme based on deep canonical correlation analysis)[26]來對(duì)文本和圖像進(jìn)行檢索,通過GPU 實(shí)現(xiàn)來解決這些問題,并提出處理過擬合的方法,以此來應(yīng)對(duì)DCCA 框架的缺點(diǎn)。之前的工作[20-21]為不同模態(tài)數(shù)據(jù)創(chuàng)建一個(gè)具有共享層的網(wǎng)絡(luò),而DCCA 與之不同的是,其使用兩個(gè)獨(dú)立的子網(wǎng)絡(luò),并且通過控制代碼層的相關(guān)約束性來最大化模態(tài)數(shù)據(jù)之間總體的相關(guān)性。

      為解決帶有一個(gè)或多個(gè)標(biāo)簽的圖像文本跨模態(tài)檢索問題,Wei等人提出了深度語義匹配(deep semantic matching,Deep-SM)[27]的方法,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)視覺特征的強(qiáng)大表示能力,完成文本和圖像兩種模態(tài)之間的檢索,并驗(yàn)證了使用CNN 視覺特征表示的圖像進(jìn)行跨模態(tài)檢索相比于其他方法更容易獲得更好的結(jié)果。然而對(duì)于文本數(shù)據(jù)只是使用一個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)來提取文本的語義特征,未來可以探索更合適的神經(jīng)網(wǎng)絡(luò),以建立文本數(shù)據(jù)的底層特征和高級(jí)語義之間的關(guān)系。與此同時(shí),為了從差異很大的模態(tài)數(shù)據(jù)之間學(xué)習(xí)到共享關(guān)聯(lián)表示,Castrejon 等人提出了正則化跨模態(tài)卷積神經(jīng)網(wǎng)絡(luò)(regularized convolutional neural network,RE-CNN)[28]的方法,在給出僅使用場(chǎng)景標(biāo)簽注釋的數(shù)據(jù)集前提下,從弱對(duì)齊數(shù)據(jù)中學(xué)習(xí)到具有強(qiáng)對(duì)齊的跨模態(tài)表示。

      而為致力于圖像與文本句子之間的檢索,Zhang等人提出一種跨模態(tài)關(guān)系引導(dǎo)網(wǎng)絡(luò)(cross-modal relation guided network,CRGN)[29],其將圖像與文本嵌入到一個(gè)潛在的特征空間中。該模型使用門控循環(huán)單元(gated recurrent unit,GRU)提取文本特征,使用殘差網(wǎng)絡(luò)(residual network,ResNet)提取圖像特征,并提出一種有效的多任務(wù)損失兩階段訓(xùn)練策略,用于優(yōu)化網(wǎng)絡(luò)。該方法雖然取得了很好的檢索結(jié)果,但是仍具有很大的發(fā)展空間,為適應(yīng)大規(guī)模的跨模態(tài)檢索任務(wù),可以將其與哈希網(wǎng)絡(luò)相結(jié)合。

      綜上可知,CNN 可以保留領(lǐng)域的聯(lián)系和空間的局部特點(diǎn),且對(duì)于局部操作有很強(qiáng)的抽象表征能力??梢岳脠D像的二維結(jié)構(gòu)和相鄰像素之間的高度相關(guān)性,且引入池化操作在一定程度上保證了圖像的平移不變性,使得模型不受位置變化的影響。池化操作同樣使得網(wǎng)絡(luò)擁有更大的感受野,使得網(wǎng)絡(luò)在更深層學(xué)習(xí)到更加抽象的特征表示。因此,CNN特別適合于圖像模態(tài)特征及語義的提取。尤其是近些年代表圖像領(lǐng)域最高水平的ImageNet 視覺識(shí)別競(jìng)賽(ImageNet Large Scale Visual Recognition Challenge,ILSVRC)[30]所涌現(xiàn)出來網(wǎng)絡(luò)模型,如AlexNet[31]、VGG[32]、GoogLeNet[33]、ResNet[34]、DenseNet[35]、SeNet[36]等在圖像特征提取、圖像分類方面表現(xiàn)出絕佳性能的CNN網(wǎng)絡(luò)模型,其判別能力甚至超過了人的水平,并且Wei 等人[27]也證明使用CNN 視覺特征相比于傳統(tǒng)視覺特征(SIFT(scale-invariant feature transform)、BoVW(bag of visual words)以及LLC(locality-constrained linear coding)等)能給模型帶來更加良好的效果。這對(duì)跨模態(tài)檢索領(lǐng)域帶來了巨大的推動(dòng)力,大部分前人的工作也是基于這些網(wǎng)絡(luò)模型所展開的。關(guān)于不同CNN 模型在實(shí)際應(yīng)用中的重要指標(biāo)的全面分析,讀者可參考文獻(xiàn)[37],此些模型的特征抽象以及表示能力均獲得了卓越的成果。

      3.4 循環(huán)神經(jīng)網(wǎng)絡(luò)

      當(dāng)前用于跨模態(tài)檢索的算法通常提取全局特征,用于拉近相匹配的模態(tài)數(shù)據(jù)。在研究圖像文本匹配時(shí),考慮到全局特征包含較多的冗余信息,即關(guān)注圖像中的顯著區(qū)域、句子中的顯著單詞以及區(qū)域和單詞之間的交互作用,過濾掉不相關(guān)的信息。Huang 等人提出一種基于選擇性的多模態(tài)長(zhǎng)短期記憶網(wǎng)絡(luò)(selective multimodal long short-term memory network,sm-LSTM)[38]的動(dòng)態(tài)模型,在每一個(gè)時(shí)間步上,利用基于上下文的注意力機(jī)制來選擇不同模態(tài)數(shù)據(jù)之間描述相同語義的部分,從而進(jìn)行計(jì)算得到局部相似性。最后,將經(jīng)過多個(gè)時(shí)間步測(cè)量所得的局部相似性聚合為全局相似性。其使用的LSTM 模型以及提到的一種多模態(tài)的基于上下文的注意力機(jī)制,會(huì)對(duì)人們后續(xù)的工作帶來極大的啟發(fā)。然而使用全連接的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)帶來了不小的計(jì)算負(fù)擔(dān),增加了模型的運(yùn)算復(fù)雜度,這方面表現(xiàn)得不如CNN 建模。

      同樣地,基于上述思想,Wang 等人提出跨模態(tài)自適應(yīng)消息傳遞方法(cross-modal adaptive message passing,CAMP)[39],其由跨模態(tài)消息聚合模塊和跨模態(tài)門控融合模塊組成,使用自適應(yīng)門控方案正確處理負(fù)對(duì)和無關(guān)信息。此外,代替?zhèn)鹘y(tǒng)的聯(lián)合嵌入方法,基于融合后的特征來推斷匹配分?jǐn)?shù),并且提出負(fù)二進(jìn)制交叉熵?fù)p失進(jìn)行訓(xùn)練。其很好地關(guān)注到模態(tài)數(shù)據(jù)間的重要信息并為跨模態(tài)匹配找到細(xì)粒度的線索,然而這種基于注意力的方法忽略了一個(gè)文本單詞或者圖像區(qū)域在不同的上下文中可能含有不同的語義的問題。同時(shí)考慮模態(tài)內(nèi)和模態(tài)間上下文語境,并在適應(yīng)各種上下文的情況下執(zhí)行檢索是更加有效的。針對(duì)上述工作[29-30]所存在的問題,Zhang等人提出上下文感知注意網(wǎng)絡(luò)(context-aware attention network,CANN)[40],同時(shí)利用全局模態(tài)間和模態(tài)內(nèi)相關(guān)關(guān)系來發(fā)現(xiàn)潛在的語義關(guān)系,從全局的角度基于給定的上下文來自適應(yīng)地選擇信息片段,包括單模態(tài)內(nèi)的語義相關(guān)性以及模態(tài)間的可能的對(duì)齊方式,并使用基于語義的注意力捕獲模態(tài)相關(guān)性、更細(xì)粒度的語義以及豐富的上下文信息,使得模型性能表現(xiàn)得更加優(yōu)異。

      RNN 是處理具有時(shí)序關(guān)系的數(shù)據(jù)相關(guān)任務(wù)最成功的多層神經(jīng)網(wǎng)絡(luò)模型,樣本出現(xiàn)的時(shí)間順序?qū)τ谧匀徽Z言處理來說非常重要,針對(duì)其他網(wǎng)絡(luò)無法對(duì)時(shí)間序列上的變化進(jìn)行建模的問題,RNN 給予了很好的解決。很多現(xiàn)有模型對(duì)文本模態(tài)僅使用全連接層提取特征,忽略了文本的上下文信息以及豐富的語義信息,因此在跨模態(tài)檢索中處理時(shí)間序列的文本、音頻等模態(tài)的建模問題時(shí),考慮使用RNN 進(jìn)行特征提取表征,將會(huì)是一個(gè)很好的選擇。

      3.5 生成對(duì)抗網(wǎng)絡(luò)

      Goodfellow 等人提出的生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[41]為跨模態(tài)檢索的研究提供了很大的啟發(fā)。Gu等人第一次提出同時(shí)利用GAN和強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)實(shí)現(xiàn)跨模態(tài)檢索[42]。將生成過程引入到傳統(tǒng)的跨模態(tài)特征嵌入中,解決了傳統(tǒng)跨模態(tài)檢索方法在高層語義層面匹配良好,但在圖片細(xì)節(jié)和句子單詞層面缺乏良好匹配的問題,不僅可以學(xué)習(xí)到多模態(tài)數(shù)據(jù)的高層抽象表示,還能學(xué)習(xí)到模態(tài)數(shù)據(jù)的底層表示。但是其所生成圖像的質(zhì)量有待提高,且并未考慮如何共同提取和利用特定于模態(tài)以及模態(tài)之間共享的特征,即多模態(tài)數(shù)據(jù)之間的互補(bǔ)性與相關(guān)性的問題。

      GAN 網(wǎng)絡(luò)已顯示出通過對(duì)抗學(xué)習(xí)來對(duì)數(shù)據(jù)分布進(jìn)行建模的強(qiáng)大能力,使得跨模態(tài)檢索有了很大的進(jìn)展空間,針對(duì)其中有效地聯(lián)合提取和利用互補(bǔ)性與相關(guān)性特征的問題,Wu 等人提出一種基于GAN 網(wǎng)絡(luò)的方法MS2GAN(modality-specific and shared generative adversarial network)[43],其由兩個(gè)學(xué)習(xí)特定于模態(tài)特征的子網(wǎng)和一個(gè)學(xué)習(xí)共享特征的公共子網(wǎng)組成,并使用生成模型預(yù)測(cè)產(chǎn)生的語義標(biāo)簽對(duì)相似性進(jìn)行建模,判別模型用于對(duì)模態(tài)的特征進(jìn)行分類,使得檢索精度得到了極大的提升。然而該模型運(yùn)算復(fù)雜度較高,且僅在公共數(shù)據(jù)集上進(jìn)行測(cè)試,未來可以嘗試與哈希方法結(jié)合以提高檢索效率,并使用實(shí)際數(shù)據(jù)測(cè)試模型以提高模型穩(wěn)健性,使得進(jìn)一步應(yīng)對(duì)實(shí)際應(yīng)用。

      GAN 網(wǎng)絡(luò)模型充分體現(xiàn)了多層網(wǎng)絡(luò)架構(gòu)的強(qiáng)大性,并且最關(guān)鍵的是引入了無監(jiān)督學(xué)習(xí)方式,使得模型的訓(xùn)練學(xué)習(xí)不再依賴大量的標(biāo)記數(shù)據(jù)。針對(duì)無監(jiān)督、半監(jiān)督等場(chǎng)景,讀者可以考慮利用GAN 進(jìn)行模型訓(xùn)練。

      深度學(xué)習(xí)具有豐富的表示能力和強(qiáng)大的計(jì)算能力,能更好地適用于大規(guī)模訓(xùn)練樣本。但現(xiàn)有的基于深度學(xué)習(xí)的跨模態(tài)檢索技術(shù)仍然有待完善,其主要挑戰(zhàn)來自于不同模態(tài)數(shù)據(jù)特征的互異性,需要將不同模態(tài)的特征信息融合到一起,從而得到關(guān)于數(shù)據(jù)更好的理解以及應(yīng)用。然而由于每種模態(tài)數(shù)據(jù)之間的表達(dá)方式、理解方式差異很大,現(xiàn)有的深度學(xué)習(xí)模型在抽取特征之后,再將其投影到一個(gè)公共的空間中,不同模態(tài)之間特征的相互融合以及相互對(duì)照仍然需要繼續(xù)進(jìn)一步地優(yōu)化,不同模態(tài)內(nèi)部數(shù)據(jù)的局部結(jié)構(gòu)和模態(tài)間語義類結(jié)構(gòu)關(guān)聯(lián)缺乏關(guān)注和深入研究。因此跨模態(tài)檢索在深度學(xué)習(xí)上的應(yīng)用需要在特征融合、泛化能力、噪音對(duì)抗、語義特征缺失等方面繼續(xù)進(jìn)行長(zhǎng)久的探索。

      4 基于哈希學(xué)習(xí)的技術(shù)

      傳統(tǒng)統(tǒng)計(jì)分析技術(shù)與深度學(xué)習(xí)技術(shù)均基于提取到的特征值直接進(jìn)行建模,從而實(shí)現(xiàn)跨模態(tài)檢索,這對(duì)于大規(guī)模數(shù)據(jù)集非常耗時(shí),并且需要大量的存儲(chǔ)空間。哈希學(xué)習(xí)由于存儲(chǔ)需求低且檢索速度快,應(yīng)對(duì)大規(guī)模數(shù)據(jù)具有很好的效果。該方法將原始特征空間中的數(shù)據(jù)點(diǎn)映射成公共漢明空間中的二進(jìn)制編碼,通過計(jì)算待查詢數(shù)據(jù)的哈希編碼和原始數(shù)據(jù)哈希編碼之間的漢明距離進(jìn)行相似度排序,從而得到檢索結(jié)果,使得檢索效率得到了極大的提高。并且以二進(jìn)制編碼代替原始數(shù)據(jù)存儲(chǔ),使得檢索任務(wù)對(duì)存儲(chǔ)量的需求極大地降低。

      哈希學(xué)習(xí)的最初提出是為了加速檢索過程,并廣泛使用于各種檢索任務(wù)中,但是它們大多數(shù)只涉及一種模態(tài)數(shù)據(jù)[44]。Zhang 等人提出了具有多個(gè)信息源的復(fù)合哈希(composite Hashing with multiple information sources,CHMIS)[45],將哈希學(xué)習(xí)技術(shù)引入多模態(tài)檢索,其設(shè)計(jì)的哈希碼盡可能保留了原空間中的近鄰相似性,這也就是所謂的保留相似性,如圖4 所示。具體來說,所有數(shù)據(jù)點(diǎn)都使用緊湊的二進(jìn)制串編碼,在原空間中相似的兩個(gè)點(diǎn)被映射到哈??臻g中時(shí)也應(yīng)該具有相似性。同樣在后續(xù)工作中,保留相似性是解決基于哈希方法的跨模態(tài)檢索問題的關(guān)鍵原則[46]。

      Fig.4 Keep similarity圖4 保留相似性

      4.1 基于手工特征的哈希學(xué)習(xí)

      許多監(jiān)督的多模態(tài)哈希方法(supervised multimodal Hashing,SMH)被提出,這些方法利用語義標(biāo)簽提高檢索精度,然而大多數(shù)訓(xùn)練時(shí)間復(fù)雜度太高,無法擴(kuò)展到大規(guī)模數(shù)據(jù)集。因此,Zhang等人提出了新的語義相關(guān)最大化方法(semantic correlation maximization,SCM)[47],將語義信息無縫地集成到大規(guī)模數(shù)據(jù)建模的哈希學(xué)習(xí)過程中,避免了顯式地計(jì)算成對(duì)相似矩陣,利用所有監(jiān)督信息進(jìn)行線性時(shí)間復(fù)雜度的訓(xùn)練。提出了一種逐位學(xué)習(xí)哈希函數(shù)的順序?qū)W習(xí)方法,每一位的散列函數(shù)的解都有一個(gè)閉式解,在SCM學(xué)習(xí)過程中,不需要任何超參數(shù)和停止條件,使得SCM 在精度和可擴(kuò)展性方面都明顯優(yōu)于SMH 方法。

      為了研究跨視圖相似性搜索在多模態(tài)數(shù)據(jù)環(huán)境中學(xué)習(xí)哈希函數(shù)的問題,Ding等人提出了集體矩陣分解哈希(collective matrix factorization Hashing,CMFH)[48]方法,首次使用集體矩陣分解技術(shù)來學(xué)習(xí)交叉視圖散列函數(shù),其不僅支持跨視圖檢索,而且通過合并多個(gè)視圖信息源提高了搜索精度。為了研究圖像文本檢索問題,Lin 等人提出了語義保持哈希(semanticspreserving Hashing,SePH)[49]方法,將數(shù)據(jù)的語義相似性作為監(jiān)督信息。SePH 將待學(xué)習(xí)散列碼之間所有的成對(duì)漢明距離轉(zhuǎn)換為另一個(gè)概率分布,并通過最小化Kulback-Leibler 散度在漢明空間中學(xué)習(xí)的散列碼來近似它。利用具有采樣策略的核邏輯回歸,學(xué)習(xí)從視圖特征到散列碼的非線性投影。

      此外,當(dāng)前跨模態(tài)哈希方法通常學(xué)習(xí)統(tǒng)一的或等長(zhǎng)的哈希碼來表示多模態(tài)的數(shù)據(jù),使得不同模態(tài)的數(shù)據(jù)具有直觀的可比性。然而,由于來自不同模態(tài)的數(shù)據(jù)可能不具有一對(duì)一的對(duì)應(yīng)關(guān)系,這種統(tǒng)一的或等長(zhǎng)的哈希表示會(huì)犧牲它們表示的可擴(kuò)展性。Liu等人打破了相等散列長(zhǎng)度表示的限制,提出了使用不等長(zhǎng)的不同散列編碼異構(gòu)數(shù)據(jù),并提出了一個(gè)通用靈活且高效的矩陣因子分解哈希(matrix tri-factorization Hashing,MTFH)[50]框架,其可以無縫地工作在各種檢索任務(wù)中,包括成對(duì)或不成對(duì)的多模態(tài)數(shù)據(jù),以及等長(zhǎng)或者變長(zhǎng)的哈希編碼環(huán)境。MTFH 是首次提出嘗試學(xué)習(xí)不同長(zhǎng)度的散列碼用于異構(gòu)數(shù)據(jù)比較的方法,并且所學(xué)的特定模態(tài)的散列碼對(duì)于跨模態(tài)檢索來說在語義上更有意義,是一個(gè)高效的無松弛的離散優(yōu)化算法,可以很好地減少哈希碼學(xué)習(xí)過程中的量化誤差。通過這個(gè)有效的實(shí)驗(yàn),后續(xù)工作可以側(cè)重于利用每個(gè)模態(tài)的最佳散列長(zhǎng)度來執(zhí)行跨模態(tài)檢索任務(wù),以及對(duì)小樣本數(shù)據(jù)集的適應(yīng)性和對(duì)更多模態(tài)的擴(kuò)展。

      為了綜合利用不同模態(tài)之間的內(nèi)在相關(guān)性,并同時(shí)充分利用監(jiān)督信息進(jìn)行高效的跨模態(tài)檢索,Meng等人提出了一種新穎的跨模態(tài)哈希方法(asymmetric supervised consistent and specific Hashing,ASCSH)[51],并且提出了一種有效的多模態(tài)映射學(xué)習(xí)策略,將不同模態(tài)的映射矩陣分解為一致部分和特定于模態(tài)的部分。同時(shí)為了充分挖掘監(jiān)督信息,構(gòu)造了一種新穎的離散不對(duì)稱學(xué)習(xí)結(jié)構(gòu),以聯(lián)合利用成對(duì)相似性和語義標(biāo)簽。該模型給人們帶來啟發(fā):聯(lián)合探索一致和特定于模態(tài)的信息,有利于發(fā)現(xiàn)模態(tài)數(shù)據(jù)間的共享內(nèi)在語義;引入非對(duì)稱編碼結(jié)構(gòu),有助于提高哈希碼的區(qū)分能力,進(jìn)而降低計(jì)算成本。該方法值得人們思考,其不僅可以產(chǎn)生優(yōu)越的性能,而且在計(jì)算效率和檢索性能之間也獲得了良好的平衡,是應(yīng)對(duì)目前部分跨模態(tài)檢索相關(guān)方法的運(yùn)算復(fù)雜度較高問題的方法之一。

      早期還有很多類似于上述方法的工作,這些方法大多專注于模態(tài)間語義關(guān)系的發(fā)掘,而這些語義關(guān)系往往是通過某些淺層的結(jié)構(gòu)提取出的基于手工制作的特性,而這些特性可能與哈希編碼學(xué)習(xí)過程不兼容。這就使得特征提取與哈希碼學(xué)習(xí)過程的分離,從而降低了緊湊哈希碼的有效性。

      4.2 基于深度學(xué)習(xí)的哈希學(xué)習(xí)

      與上述傳統(tǒng)的淺層結(jié)構(gòu)提取手工特征相比,深度學(xué)習(xí)技術(shù)所提取的特征更加具有區(qū)分性和有效性。因此近些年來,大量的研究深度學(xué)習(xí)結(jié)合哈希學(xué)習(xí)(簡(jiǎn)稱深度哈希)的工作陸續(xù)展開。

      由于大多數(shù)跨模態(tài)哈希(cross-modal Hashing,CMH)方法基于手工制作的特性,導(dǎo)致其無法實(shí)現(xiàn)令人滿意的性能。Jiang等人提出一種新的CMH方法——深度跨模態(tài)哈希(deep cross-modal Hashing,DCMH)[52],實(shí)現(xiàn)圖像文本兩種模態(tài)數(shù)據(jù)的互檢索。DCMH 是集成特征學(xué)習(xí)與哈希學(xué)習(xí)的端到端框架,從端開始執(zhí)行特征學(xué)習(xí),一端提取圖像特征,一端提取文本特征。自DCMH 首次提出將哈希與深度學(xué)習(xí)結(jié)合并證明了其可行性以來,諸多基于深度哈希的跨模態(tài)研究工作陸續(xù)展開。在DCMH 的基礎(chǔ)上,Zhen 等人提出深度監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval,DSCMR)[53]方法,其目的是保持不同語義類別樣本之間的區(qū)分度,同時(shí)消除跨模態(tài)差異。最小化樣本在標(biāo)簽空間和公共表示空間中的判別損失,用以監(jiān)督模型學(xué)習(xí)判別特征。同時(shí)最小化模態(tài)不變性損失,并使用權(quán)重共享策略來學(xué)習(xí)公共表示空間中的模態(tài)變量特征。這樣的學(xué)習(xí)策略,使得成對(duì)標(biāo)簽信息和分類信息都被盡可能充分地利用,確保了所學(xué)習(xí)的表示在語義結(jié)構(gòu)上是有區(qū)別的,彌合了不同模態(tài)之間的異構(gòu)差距。

      基于深度學(xué)習(xí)方法的成功,跨模態(tài)檢索在近些年取得了顯著的進(jìn)展,但是仍然存在一個(gè)關(guān)鍵的瓶頸,即如何彌補(bǔ)不同模態(tài)之間的差異以進(jìn)一步提高檢索的準(zhǔn)確性。因此,Li 等人提出了一種自監(jiān)督的對(duì)抗式哈希方法(self-supervised adversarial Hashing,SSAH)[54],利用兩個(gè)對(duì)抗網(wǎng)絡(luò)來學(xué)習(xí)不同模態(tài)的高維特征及其對(duì)應(yīng)哈希碼,以最大化語義相關(guān)性和模態(tài)之間的特征分布的一致性。并且利用自監(jiān)督語義網(wǎng)絡(luò)以多標(biāo)簽標(biāo)注的形式發(fā)現(xiàn)高級(jí)語義信息,將自監(jiān)督語義學(xué)習(xí)與對(duì)抗學(xué)習(xí)相結(jié)合,能盡可能保證語義相關(guān)性和跨模態(tài)表示一致性。這些信息指導(dǎo)著特征學(xué)習(xí)的過程,并且在公共語義空間和漢明空間中也保持著模態(tài)之間的關(guān)系。

      為加強(qiáng)對(duì)語義標(biāo)簽信息的利用,Lin 等人提出一種新的深度跨模態(tài)哈希方法——語義深度跨模態(tài)哈希(semantic deep cross-modal Hashing,SDCH)[55],生成更加具有區(qū)分性的哈希碼。利用語義標(biāo)簽改進(jìn)特征學(xué)習(xí)部分,可以保留學(xué)習(xí)到的特征的語義信息,并保持跨模態(tài)數(shù)據(jù)的不變性。此外,采用模態(tài)間成對(duì)損失、交叉熵?fù)p失和量化損失來保證所有相似實(shí)例對(duì)的排序相關(guān)性高于不同實(shí)例對(duì)的排序相關(guān)性。語義標(biāo)簽的加入使得可以利用其來為相互關(guān)聯(lián)的跨模態(tài)數(shù)據(jù)學(xué)習(xí)更一致的哈希碼,這能顯著地減輕模態(tài)差距并提高檢索性能。然而現(xiàn)實(shí)中的數(shù)據(jù)往往并不完全具有相關(guān)語義標(biāo)簽,無監(jiān)督領(lǐng)域缺乏足夠的探索,且由于DNN 的加入使得可以產(chǎn)生更多的語義相關(guān)特征和哈希碼,并且能進(jìn)一步提高檢索性能,Su 等人提出了一種面向大規(guī)模的深度無監(jiān)督聯(lián)合語義重構(gòu)哈希(deep joint-semantics reconstructing Hashing,DJSRH)[56]方法,其首次提出構(gòu)造一種新穎的聯(lián)合語義親和矩陣,以學(xué)習(xí)保留原始數(shù)據(jù)鄰域結(jié)構(gòu)的哈希碼,用于挖掘輸入實(shí)例之間潛在的內(nèi)在語義關(guān)系。通過提出的重構(gòu)框架學(xué)習(xí)二進(jìn)制碼以最大限度地重構(gòu)聯(lián)合語義結(jié)構(gòu),一方面對(duì)原始相似度范圍進(jìn)行線性變換以調(diào)整更好的量化區(qū)域,使重構(gòu)更加靈活;另一方面,重構(gòu)了特定的相似度值,使得DJSRH 比前人[57]所使用的拉普拉斯約束更適合端到端的分批訓(xùn)練。

      由于大多數(shù)現(xiàn)有的跨模態(tài)哈希方法在探索模態(tài)數(shù)據(jù)間的語義一致性方面有所欠缺,進(jìn)而導(dǎo)致性能不理想,Xie等人提出了一種新穎的深度哈希方法CPAH(multi-task consistency-preserving adversarial Hashing)[58],其將多模態(tài)語義一致性學(xué)習(xí)和哈希學(xué)習(xí)無縫地結(jié)合在一個(gè)端到端的框架中。并且提出了一致性細(xì)化模塊和多任務(wù)對(duì)抗性學(xué)習(xí)模塊,分別用于分離模態(tài)表示與保留語義一致性信息,充分挖掘不同模態(tài)間的語義一致性和相關(guān)性,進(jìn)而實(shí)現(xiàn)高效率的檢索。

      現(xiàn)有方法將哈希學(xué)習(xí)用于跨模態(tài)檢索,使其具有存儲(chǔ)需求小和檢索速度快的優(yōu)勢(shì)。卻存在一些問題,如將模態(tài)數(shù)據(jù)實(shí)值特征進(jìn)行二值化轉(zhuǎn)化過程中將原有數(shù)據(jù)的結(jié)構(gòu)破壞,不可避免有精度損失,并且大部分沒有考慮到模態(tài)內(nèi)數(shù)據(jù)結(jié)構(gòu)和模態(tài)間結(jié)構(gòu)的匹配關(guān)聯(lián),對(duì)哈希進(jìn)行優(yōu)化計(jì)算比較復(fù)雜等。

      5 驗(yàn)證與對(duì)比分析

      在對(duì)相關(guān)研究總結(jié)綜述的基礎(chǔ)上,為了進(jìn)一步加深對(duì)相關(guān)研究的認(rèn)識(shí)和理解,評(píng)估與分析不同跨模態(tài)檢索技術(shù)方法的特點(diǎn),本文在傳統(tǒng)統(tǒng)計(jì)分析、深度學(xué)習(xí)、哈希學(xué)習(xí)三大類技術(shù)中選取具有代表性的方法,在同一個(gè)數(shù)據(jù)集上進(jìn)行跨模態(tài)檢索實(shí)驗(yàn),并根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行分析和比較。

      5.1 數(shù)據(jù)集準(zhǔn)備

      跨模態(tài)常用數(shù)據(jù)集有Wikipedia[13]數(shù)據(jù)集、Flickr8K數(shù)據(jù)集、Flickr30K[59]數(shù)據(jù)集、NUS-WIDE[60]數(shù)據(jù)集、XMedia[61]數(shù)據(jù)集、MIR Flickr[62]數(shù)據(jù)集、MSCOCO[63]數(shù)據(jù)集等。

      為了統(tǒng)一,按照文獻(xiàn)[64]選取NUS-WIDE 數(shù)據(jù)集中10 個(gè)最常見類別的圖像進(jìn)行實(shí)驗(yàn),并且每一個(gè)圖像以及相應(yīng)的標(biāo)簽被視為具有唯一類別標(biāo)簽的圖像文本對(duì)。最終有71 602 個(gè)圖像文本對(duì),其中訓(xùn)練集由42 941 對(duì)圖像文本對(duì)組成,驗(yàn)證集由5 000 對(duì)圖像文本對(duì)組成,測(cè)試集由23 661 對(duì)圖像文本對(duì)組成。

      為了控制其他因素干擾,對(duì)圖像使用相同的CNN特征,這些CNN 特征是遵循文獻(xiàn)[24]從具有4 096 個(gè)維度的19 層VGG Net[32]中的fc7 層提取出來的。300個(gè)維度的文本特征是通過預(yù)先訓(xùn)練好的Doc2Vec 模型[65]中提取出來的,對(duì)NUS-WIDE 數(shù)據(jù)集預(yù)處理結(jié)果如表1 所示。

      Table 1 Preprocessing results for NUS-WIDE data set表1 對(duì)數(shù)據(jù)集NUS-WIDE 預(yù)處理結(jié)果

      5.2 實(shí)驗(yàn)過程

      基于傳統(tǒng)統(tǒng)計(jì)分析的跨模態(tài)檢索技術(shù)選取了GSS-SL[17]方法,基于深度學(xué)習(xí)的跨模態(tài)技術(shù)選取了SDML[24]方法,基于哈希學(xué)習(xí)的跨模態(tài)技術(shù)選取了MTFH[50]方法。

      三種檢索方法分別在經(jīng)過預(yù)處理之后的統(tǒng)一數(shù)據(jù)集NUS-WIDE上進(jìn)行跨模態(tài)檢索任務(wù)實(shí)驗(yàn),即通過一種模態(tài)去查詢另一種模態(tài),這里通過文本檢索圖像(文本→圖像)和通過圖像檢索文本(圖像→文本)。

      采用平均精度均值(mean average precision,mAP)作為評(píng)估指標(biāo)對(duì)性能進(jìn)行評(píng)估。其中MTFH 方法,選取在核邏輯回歸中更優(yōu)的k-means 方案[50],哈希長(zhǎng)度依次調(diào)整16 bit、32 bit、64 bit、128 bit,記錄其mAP結(jié)果。

      5.3 實(shí)驗(yàn)結(jié)果

      表2 列出了三種方法在NUS-WIDE 數(shù)據(jù)集上實(shí)驗(yàn)的mAP 結(jié)果。

      從表2 中可以看出:SDML 方法性能最優(yōu),其次是MTFH 方法,最差的是GSS-SL 方法。且MTFH 方法性能并不是隨著哈希碼長(zhǎng)度增加而持續(xù)提升,長(zhǎng)度最適合的哈希碼才能使其達(dá)到最高精度。

      Table 2 mAP score comparison表2 mAP 分值比較

      5.4 對(duì)比分析

      從方法的理論基礎(chǔ)和實(shí)驗(yàn)結(jié)果可以得出如下結(jié)論:基于傳統(tǒng)統(tǒng)計(jì)分析的技術(shù)作為跨模態(tài)公共子空間建模方法的基本范例,這些方法對(duì)于訓(xùn)練來說是相對(duì)有效的,并且易于實(shí)施,但是由于其并沒有考慮單一模態(tài)數(shù)據(jù)的局部結(jié)構(gòu)與模態(tài)間的數(shù)據(jù)結(jié)構(gòu)的匹配情況,且僅僅通過線性投影很難完全對(duì)真實(shí)世界中多模態(tài)數(shù)據(jù)的復(fù)雜相關(guān)性進(jìn)行建模,導(dǎo)致在模態(tài)間高級(jí)語義建模方面無法取得有效的結(jié)果。其次其不僅針對(duì)如今大規(guī)模以及高維的數(shù)據(jù)來說訓(xùn)練時(shí)間較復(fù)雜,模型的運(yùn)算復(fù)雜度較高以及檢索效率較低,而且模型的易擴(kuò)展性較差,大多模型僅限制兩種媒體類型作為輸入,擴(kuò)展多模態(tài)檢索需更加復(fù)雜的工作設(shè)計(jì),因此與其他兩類技術(shù)方法相比處于劣勢(shì)。

      基于深度學(xué)習(xí)的跨模態(tài)檢索技術(shù),具有更好的適應(yīng)大數(shù)據(jù)樣本的能力、超強(qiáng)計(jì)算能力和深度學(xué)習(xí)模型對(duì)特征的豐富表示能力等特點(diǎn)。深度學(xué)習(xí)的發(fā)展,很好地解決了傳統(tǒng)統(tǒng)計(jì)分析方法難以提取數(shù)據(jù)之間非線性關(guān)系的難題,這對(duì)于跨模態(tài)檢索領(lǐng)域來說是一個(gè)質(zhì)的飛躍,因此其相比于傳統(tǒng)統(tǒng)計(jì)分析方法能更好地提取多模態(tài)數(shù)據(jù)間語義信息,進(jìn)而使得跨模態(tài)檢索的性能得到了進(jìn)一步的提高。然而大多數(shù)現(xiàn)有方法,存在同樣的問題:模型過于復(fù)雜,大規(guī)模數(shù)據(jù)訓(xùn)練耗時(shí)較長(zhǎng),且運(yùn)算復(fù)雜度過高;僅追求檢索精度,而忽略了檢索性能,使得模型雖然獲得卓越的檢索精度,然而具有巨大的檢索延遲和效率低下的問題,難以在現(xiàn)實(shí)中應(yīng)用;大多數(shù)方法仍然僅針對(duì)兩種模態(tài)的檢索問題,模型可擴(kuò)展性依然較差,盡管有針對(duì)五種模態(tài)的工作[28],但仍是未來研究的重要挑戰(zhàn)。

      基于哈希學(xué)習(xí)技術(shù)的加入,很好地解決了前人大多數(shù)工作存在的實(shí)際檢索時(shí)效率低下的問題,對(duì)于跨模態(tài)檢索的實(shí)際應(yīng)用起到了巨大的推動(dòng)作用。其使用短的二進(jìn)制哈希碼,使得檢索效率得到了極大的提高,且其還具有低存儲(chǔ)的特性,降低了對(duì)存儲(chǔ)的要求,使得檢索在現(xiàn)實(shí)世界中大規(guī)模數(shù)據(jù)集上受益頗多,成為應(yīng)對(duì)跨模態(tài)檢索模型復(fù)雜度較高的主流解決手段。然而在將實(shí)值特征數(shù)據(jù)轉(zhuǎn)化為二值哈希碼的過程中,不得不將原有數(shù)據(jù)結(jié)構(gòu)破壞,這就不可避免地造成了精度的損失。因此,其對(duì)多模態(tài)數(shù)據(jù)語義的提取以及對(duì)處理復(fù)雜交叉模態(tài)數(shù)據(jù)相關(guān)性的特征抽象能力沒有深度學(xué)習(xí)表現(xiàn)得那樣卓越。

      因此,同時(shí)結(jié)合深度學(xué)習(xí)算法在表征學(xué)習(xí)中表現(xiàn)出來的良好性能以及哈希方法所表現(xiàn)出的高效率低存儲(chǔ)的特性,有助于減少不同模態(tài)形式數(shù)據(jù)之間的異構(gòu)性差距和語義差距,同時(shí)降低算法運(yùn)算復(fù)雜度。適當(dāng)結(jié)合深度學(xué)習(xí)算法與哈希學(xué)習(xí)(簡(jiǎn)稱深度哈希)來為跨模態(tài)檢索建模不同類型的數(shù)據(jù)是未來的趨勢(shì),不僅可以獲得卓越的檢索精度,在計(jì)算效率和檢索性能之間也可獲得良好的平衡。自2017 年,DCMH 方法首次提出將兩者結(jié)合并證明了其可行性以來,已經(jīng)有諸多學(xué)者進(jìn)行實(shí)踐,例如DSCMR[53]、SSAH[54]、SHCH[55]、DJSRH[56]、CPAH[58]等,使用集成的方式將高級(jí)特征學(xué)習(xí)與哈希學(xué)習(xí)結(jié)合起來,由此可以通過誤差反向傳播利用哈希碼來優(yōu)化特征表示[50],這將是未來研究的重點(diǎn)所在。除了少數(shù)方法[48],值得注意的是大多數(shù)已有的基于哈希技術(shù)的跨模態(tài)檢索方法在可擴(kuò)展性方面依然沒有太多涉及,這將是未來將其應(yīng)用于現(xiàn)實(shí)所面臨的重要挑戰(zhàn)。

      6 展望

      盡管跨模態(tài)檢索領(lǐng)域已經(jīng)取得了一些有前景的成果,但在最先進(jìn)的方法和用戶期望之間仍存在差距,這表明人們?nèi)匀恍枰谠搯栴}上持續(xù)探索。當(dāng)前大部分現(xiàn)有工作,存在以下共同問題,這也是未來研究的重要挑戰(zhàn)。

      (1)模型的可擴(kuò)展性

      模型大多從頭開始訓(xùn)練,且大多現(xiàn)有工作仍限制于只有兩種媒體類型作為輸入,模型可擴(kuò)展性較差,共同學(xué)習(xí)兩個(gè)以上的媒體類型的公共子空間可以用來提高跨模態(tài)檢索問題的靈活性,亦是未來研究的重要挑戰(zhàn)。

      (2)應(yīng)對(duì)現(xiàn)實(shí)數(shù)據(jù)集的跨模態(tài)檢索

      像Facebook、YouTube、微博、微信等社交網(wǎng)絡(luò)產(chǎn)生了大量的由人們所創(chuàng)建的多模態(tài)內(nèi)容,然而這些數(shù)據(jù)大多是松散的,并且標(biāo)簽是有限的且含有噪聲的,而大規(guī)模的多模態(tài)數(shù)據(jù)是很難進(jìn)行標(biāo)記的?,F(xiàn)有大多數(shù)方法僅針對(duì)理想大規(guī)模樣本以及含有語義標(biāo)簽的數(shù)據(jù)集設(shè)計(jì),而對(duì)于現(xiàn)實(shí)中小樣本、零樣本、噪聲樣本場(chǎng)景以及弱監(jiān)督、半監(jiān)督、無監(jiān)督方法較少涉及,因此在此情況下如何利用有限的且有噪聲干擾的數(shù)據(jù)來學(xué)習(xí)多模態(tài)數(shù)據(jù)之間的語義相關(guān)性,是未來亟待解決的問題。

      (3)大規(guī)模的具有多樣性或噪聲的數(shù)據(jù)集

      近些年越來越復(fù)雜的算法模型涌現(xiàn),然而缺乏進(jìn)一步用于訓(xùn)練、測(cè)試以及評(píng)估模型的良好數(shù)據(jù)集。當(dāng)前跨模態(tài)檢索所共用的數(shù)據(jù)集,存在規(guī)模太小、類別合理性以及大多僅包含文本及圖像兩種模態(tài)缺乏多樣性等問題,這些問題的存在使得多數(shù)數(shù)據(jù)集限制了模型評(píng)估的客觀性。例如,Wikipedia[13]數(shù)據(jù)集太小,且僅僅包含兩種模態(tài)數(shù)據(jù)類型。因此,包含多種模態(tài)樣本以及含有噪聲的大規(guī)模真實(shí)數(shù)據(jù)集,將是解決以上兩個(gè)問題的關(guān)鍵,也將對(duì)未來的研究工作帶來極大的幫助。近些年也出現(xiàn)了一些比較好的數(shù)據(jù)集,例如XMedia[61]數(shù)據(jù)集,其是第一個(gè)包含五種模態(tài)類型(圖像、文本、視頻、音頻和3D 模型)、200 多個(gè)類別、10 萬多個(gè)實(shí)例的數(shù)據(jù)集,這將有助于人們專注于算法設(shè)計(jì),而不是耗時(shí)地比較模型與結(jié)果,極大促進(jìn)跨模態(tài)檢索的發(fā)展。

      (4)檢索效率的追求

      大多數(shù)現(xiàn)有模型僅追求檢索精度,卻忽略了檢索效率,導(dǎo)致了訓(xùn)練之后的模型具有巨大的檢索延遲和效率低下的問題,使得無法在現(xiàn)實(shí)中應(yīng)用。因此如何在保證檢索精度的同時(shí)提高檢索效率,是亟待解決亦必須解決的問題,是后續(xù)工作的重中之重,其中哈希方法的廣泛應(yīng)用為此問題的解決帶來了巨大的推動(dòng)力,近些年的文獻(xiàn)也偏向于與哈希方法結(jié)合完成檢索,進(jìn)而降低運(yùn)算的復(fù)雜度。

      (5)語義鴻溝

      如前面所說,深度哈希是將跨模態(tài)檢索應(yīng)用于現(xiàn)實(shí)所面臨的重要挑戰(zhàn),然而盡管現(xiàn)有方法與很多方法相比表現(xiàn)出出色的性能,但仍然受到計(jì)算復(fù)雜性以及對(duì)模型最佳參數(shù)查找的窮舉搜索的限制,并且不能很好地彌合哈希碼的漢明距離與特征度量距離之間的語義差距。因此,結(jié)合深度學(xué)習(xí)與哈希學(xué)習(xí)來解決跨模態(tài)檢索問題方面的研究很值得關(guān)注和期待,也是后續(xù)研究的重點(diǎn)。例如,使用CNN 建模圖像模態(tài),使用RNN 建模文本模態(tài)。需注意的是Self-Attention 機(jī)制[66]被廣泛關(guān)注,其由于可以無視詞之間的距離直接計(jì)算依賴關(guān)系,且能夠解決RNN 出現(xiàn)的不能并行的問題,近些年被廣泛用來配合RNN 與CNN 使用,甚至該機(jī)制可以代替RNN 并能取得更加優(yōu)越的效果,已被成功應(yīng)用于各種自然語言處理(natural language processing,NLP)以及計(jì)算機(jī)視覺(computational vision,CV)任務(wù)[67-69]。以及近些年被廣泛關(guān)注的Transformer模型[66],旨在全部利用Attention方式替換RNN 的循環(huán)機(jī)制,進(jìn)而能并行優(yōu)化計(jì)算并實(shí)現(xiàn)提速,從而其在NLP 以及CV 任務(wù)上表現(xiàn)出卓越的性能,這使得在跨模態(tài)檢索問題上具有很高的應(yīng)用價(jià)值,也已經(jīng)有學(xué)者對(duì)其進(jìn)行了研究應(yīng)用[70-71]。

      (6)細(xì)粒度的語義關(guān)聯(lián)以及豐富的上下文信息

      跨模態(tài)檢索的主要挑戰(zhàn)仍是不同模態(tài)數(shù)據(jù)之間的“語義鴻溝”,大多數(shù)已有模型通常將不同模態(tài)數(shù)據(jù)映射到公共子空間,在其中比較不同模態(tài)數(shù)據(jù)。然而,由于不同的圖像區(qū)域往往對(duì)應(yīng)于不同的文本片段,直接映射到公共子空間顯得太粗糙,考慮的粒度更精細(xì)可以更準(zhǔn)確地對(duì)多模態(tài)語義進(jìn)行關(guān)聯(lián)建模。而且,模態(tài)之間的語義相關(guān)性往往與上下文信息有關(guān),現(xiàn)有許多方法忽略了含有豐富語義關(guān)系的上下文,只考慮語義類別標(biāo)簽等作為訓(xùn)練信息,降低了檢索的性能。因此,如何獲取不同模態(tài)數(shù)據(jù)片段并找到其語義關(guān)聯(lián)關(guān)系進(jìn)而進(jìn)行細(xì)粒度建模,以及更加關(guān)注含有豐富語義的上下文信息是未來需要解決的問題,這將對(duì)模型的精度提高帶來助力。

      7 結(jié)束語

      本文深入分析了跨模態(tài)檢索問題,針對(duì)公共子空間建模關(guān)鍵技術(shù)進(jìn)行了研究,將其總結(jié)歸納為基于傳統(tǒng)統(tǒng)計(jì)分析、基于深度學(xué)習(xí)和基于哈希學(xué)習(xí)三類技術(shù);對(duì)三類技術(shù)相關(guān)研究的發(fā)展脈絡(luò)、研究現(xiàn)狀和進(jìn)展進(jìn)行了綜述,從理論和實(shí)驗(yàn)兩個(gè)角度進(jìn)行了對(duì)比分析;對(duì)目前研究的各種不同方法的特點(diǎn)和不足進(jìn)行了總結(jié),并對(duì)未來研究重點(diǎn)進(jìn)行了充分展望,為后續(xù)研究奠定了扎實(shí)基礎(chǔ)。

      猜你喜歡
      哈希檢索語義
      語言與語義
      2019年第4-6期便捷檢索目錄
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
      基于維度分解的哈希多維快速流分類算法
      認(rèn)知范疇模糊與語義模糊
      基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
      一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)
      語義分析與漢俄副名組合
      山西省| 巴彦淖尔市| 鄯善县| 广州市| 伊吾县| 玉田县| 隆安县| 大同县| 牡丹江市| 荥阳市| 鄢陵县| 克拉玛依市| 金乡县| 乌兰县| 郁南县| 息烽县| 东丰县| 岳西县| 明溪县| 铅山县| 故城县| 新民市| 双辽市| 洛隆县| 衡山县| 星子县| 梅河口市| 忻州市| 仪陇县| 如皋市| 农安县| 琼海市| 平原县| 浮山县| 康乐县| 信宜市| 彰化市| 平和县| 澄迈县| 金门县| 白水县|