• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度學習跨模態(tài)圖文檢索研究綜述

    2022-03-13 09:18:38郭瑩瑩范九倫劉繼明
    計算機與生活 2022年3期
    關鍵詞:圖文檢索語義

    劉 穎,郭瑩瑩,房 杰,2,3,范九倫,3,郝 羽,3,劉繼明

    1.西安郵電大學 圖像與信息處理研究所,西安710121

    2.陜西省無線通信與信息處理技術國際合作研究中心,西安710121

    3.西安郵電大學 電子信息現(xiàn)場勘驗應用技術公安部重點實驗室,西安710121

    4.西安郵電大學 通信與信息工程學院,西安710121

    多模態(tài)學習(multi-modal learning)旨在處理與理解來自感官情態(tài)的多源信息。近年來,得益于深度學習的快速發(fā)展,多模態(tài)學習逐漸成為熱點課題。

    1976 年,文獻[1]提出視覺對言語感知的影響,后被用于視聽語音識別(audio visual speech recognition,AVSR)技術并成為多模態(tài)概念的雛形。自此,多模態(tài)信息處理經(jīng)過了漫長的發(fā)展。2010 年,以融合方法和融合水平為線索,文獻[2]對已有多模態(tài)融合研究方法進行了分類。2015 年,文獻[3]提出多模態(tài)隱條件隨機場(multi-modal hidden conditional random field,M-HCRF),用以提升多模態(tài)數(shù)據(jù)分類效果。文獻[4]提出基于正交正則化約束的深度多模態(tài)哈希(deep multi-modal Hashing with orthogonal regularization,DMHOR)方法,用以減少多模態(tài)表示的信息冗余。2019 年,文獻[5]將多模態(tài)學習主要研究方向分為多模態(tài)表示、多模態(tài)翻譯、多模態(tài)對齊、多模態(tài)融合和多模態(tài)協(xié)同感知等。

    目前多模態(tài)學習已被成功應用于人臉識別、人體姿態(tài)估計、多模態(tài)檢索、跨模態(tài)檢索、語義場景理解和情感識別等方面,成為一個潛力巨大且充滿活力的跨學科、跨領域研究熱點。

    跨模態(tài)學習是多模態(tài)學習的分支,其充分利用了多模態(tài)學習中模態(tài)間表示、翻譯和對齊等策略。跨模態(tài)學習與多模態(tài)融合的相似之處在于,二者的數(shù)據(jù)都來自所有模態(tài),但不同之處在于,前者的數(shù)據(jù)只在某一模態(tài)可用,而后者的數(shù)據(jù)則用于所有模態(tài)。

    跨模態(tài)檢索(cross-modal retrieval)是跨模態(tài)學習的重要應用之一,又稱為跨媒體檢索,其特點是訓練過程中所有模態(tài)的數(shù)據(jù)都存在,但在測試過程中只有一種模態(tài)可用??缒B(tài)檢索旨在實現(xiàn)兩個不同模態(tài)之間的信息交互,其根本目的在于挖掘不同模態(tài)樣本之間的關系,即通過一種模態(tài)樣本來檢索具有近似語義的另一種模態(tài)樣本。近年來,跨模態(tài)檢索逐漸成為國內外學術界研究的前沿和熱點,是信息檢索領域未來發(fā)展的重要方向??缒B(tài)圖文檢索是跨模態(tài)檢索的重要研究方向,定義如下:

    對于跨模態(tài)圖文檢索,關鍵字到圖像的檢索因為其本質是查詢關鍵字與圖像的標注注釋之間的匹配,因此被稱為偽“跨模態(tài)”問題。跨模態(tài)圖文檢索以視覺數(shù)據(jù)和自然語言描述為基礎,更關注圖像和文本兩種模態(tài)的交互,其目的是在不借助任何輔助信息的情況下,通過文本(圖像)查詢來檢索圖像(文本)。多模態(tài)檢索、跨模態(tài)檢索和跨模態(tài)圖文檢索關系如圖1 所示。

    圖1 多模態(tài)、跨模態(tài)檢索和跨模態(tài)圖文檢索關系圖Fig.1 Relationship among multi-modal retrieval,crossmodal retrieval and image-text cross-modal retrieval

    跨模態(tài)圖文檢索分為以圖搜文和以文搜圖兩種形式,文獻[9]提出圖像和文本間的語義關系可以定義為三個維度下的八種類別,包含不相關關系、互補關系、相互依賴關系、錨定關系、插圖關系、對比關系、插圖不良關系和錨定不良關系。針對圖像和文本之間復雜的語義交互作用,傳統(tǒng)的跨模態(tài)檢索主要采用統(tǒng)計分析方法,如典型相關性分析方法(canonical correlation analysis,CCA)和跨模態(tài)因子分析方法(cross-modal factor analysis,CFA),其對實際應用場景中不同模態(tài)數(shù)據(jù)的復雜相關性難以建模。文獻[12]研究了多媒體信息中文本和圖像的聯(lián)合建模問題,用典型相關分析來學習兩個模態(tài)間的相關性,然而其學習到的都是線性映射,無法有效建立不同模態(tài)數(shù)據(jù)的高階相關性。近年來,深度學習(deep learning)的興起為跨模態(tài)圖文檢索提供了新選擇,并逐漸成為該領域的熱點和主流。一方面,相比于傳統(tǒng)方法,深度網(wǎng)絡因其高度非線性結構,更適合對模態(tài)內特征和模態(tài)間語義關系進行挖掘;另一方面,鑒于小批量訓練策略的優(yōu)勢,深度網(wǎng)絡能夠支持對海量數(shù)據(jù)的處理?;谏疃葘W習的跨模態(tài)圖文檢索研究因其良好的性能而倍受關注。

    當前跨模態(tài)圖文檢索相關技術已被成功應用于網(wǎng)絡輿情事件預警、多媒體事件檢測、醫(yī)學數(shù)據(jù)分類等領域。

    此外,近年來,國內外已有不少跨模態(tài)檢索相關文獻及綜述對該主題研究狀況進行了呈現(xiàn)。

    2014 年,文獻[15]將跨模態(tài)建模策略分為直接建模和間接建模,前者指通過建立共享層來直接度量不同模態(tài)數(shù)據(jù)間的相關性,后者指通過構建公共表示空間來建立不同場景不同模態(tài)間的語義關聯(lián)。類似地,2015 年,文獻[16]將多模態(tài)數(shù)據(jù)間建立關聯(lián)的策略分為基于共享層與基于公共表示空間的兩種關聯(lián)方法,該文獻對跨模態(tài)深度學習模型的設計進行了深入分析。2016 年,文獻[17]將已有的跨模態(tài)檢索方法歸納為實值表示學習和二進制表示學習兩大類,并總結了各自的核心思想。2018 年,文獻[18]針對模態(tài)間內容相似性度量的技術難點,將跨模態(tài)檢索分為公共空間學習方法和跨模態(tài)相似性度量方法,并對不同跨模態(tài)檢索技術進行總結。2018 年,文獻[7]將跨模態(tài)檢索方法分為基于子空間的方法、基于深度學習的方法、基于哈希變換的方法和基于主題模型的方法,指出當前跨模態(tài)檢索面臨的主要問題是缺乏對模態(tài)內局部數(shù)據(jù)結構和模態(tài)間語義結構關聯(lián)的研究。同年,文獻[19]從信息抽取與表示、跨模態(tài)系統(tǒng)建模兩個維度評述了基于表示學習的跨模態(tài)檢索模型,并總結了特征抽取方面的研究成果。2018 年,文獻[20]探索了聯(lián)合圖正則化的跨模態(tài)檢索方法。2019 年,文獻[21]簡要介紹了近年來跨模態(tài)特征檢索及優(yōu)化的研究進展,并對跨模態(tài)數(shù)據(jù)聯(lián)合分析方法及跨模態(tài)特征檢索面臨的問題與挑戰(zhàn)進行了概述。文獻[20-21]對跨模態(tài)檢索方法的具體分支進行了梳理,為相關領域的探索提供了新思路。

    以上文獻從不同角度對跨模態(tài)檢索進行了梳理與描述,本文更聚焦于針對圖像-文本的跨模態(tài)檢索。當前,該領域相關成果歸納如下:2017 年,文獻[22]將跨模態(tài)圖文檢索的研究內容分為多模態(tài)數(shù)據(jù)特征表示和模態(tài)間關聯(lián)機制兩方面。2019 年,文獻[23]根據(jù)構建模態(tài)間關聯(lián)方式的區(qū)別,將跨模態(tài)圖文檢索分為基于典型關聯(lián)分析、基于深度學習和基于深度哈希的方法,并就各種跨模態(tài)關聯(lián)方式的缺陷探索了具體的解決思路。2021 年,文獻[24]重點對跨模態(tài)圖文檢索的各種研究工作進行了對比評述,并從文獻計量的角度分析了該領域文獻的發(fā)表情況,同時也對跨模態(tài)檢索領域的實際應用做了簡要介紹,然而,基于深度學習的方法只是其框架中的分支之一,并未詳盡介紹其發(fā)展狀況。同文獻[24]相比,本文除涵蓋了實值表示和二進制表示的方法外,更進一步以多模態(tài)學習為背景,以深度學習技術為支撐,對基于深度學習的跨模態(tài)圖文檢索現(xiàn)有的研究成果進行了總結。相比于已有綜述,本文主要有以下突破:(1)聚焦于近年來最新基于深度學習的跨模態(tài)檢索研究,彌補了現(xiàn)有文獻的不足;(2)著重分析公安、傳媒及醫(yī)學三大領域對跨模態(tài)圖文檢索的具體應用。

    1 跨模態(tài)圖文檢索相關工作介紹

    本章主要對跨模態(tài)圖文檢索不同算法中涉及到的幾個重要概念和常用網(wǎng)絡結構進行介紹。

    1.1 相關概念

    現(xiàn)有跨模態(tài)圖文檢索不同算法過程中涉及到幾個重要概念,現(xiàn)對這些概念進行介紹。

    (1)跨模態(tài)重構

    在給定跨模態(tài)數(shù)據(jù)的情況下聯(lián)結輸入特征表示,然后相互重構各模態(tài)數(shù)據(jù)且保留重構信息,最后比較重構信息與原始信息相似性的過程。

    (2)細粒度數(shù)據(jù)

    指信息非常詳細具體的數(shù)據(jù)。數(shù)據(jù)粒度指數(shù)據(jù)的詳細程度,粒度越小,數(shù)據(jù)的信息越具體,越容易在機器學習中把握數(shù)據(jù)的規(guī)律與本質。

    (3)無監(jiān)督學習

    指事先沒有任何訓練數(shù)據(jù)樣本而需要直接對數(shù)據(jù)建模的學習方法。無監(jiān)督學習僅使用共現(xiàn)信息來學習跨模態(tài)數(shù)據(jù)的公共表示。共現(xiàn)信息指在多模態(tài)文檔中所共存的不同形式的數(shù)據(jù)具有相同的語義。

    (4)監(jiān)督學習

    指通過有標記的訓練數(shù)據(jù)來推斷或建立一個最優(yōu)模型的學習方法。監(jiān)督學習利用標簽信息來學習公共表示,強制不同類別樣本的學習表示距離盡可能遠,而相同類別樣本的學習表示盡可能接近。

    (5)端到端學習(end-to-end learning)

    也稱端到端訓練,指在學習過程中縮減人工預處理和后續(xù)處理,使模型從原始輸入直接到最終輸出。其訓練數(shù)據(jù)為“輸入-輸出”對的形式,無需提供其他額外信息。端到端學習為模型提供了更多根據(jù)數(shù)據(jù)自動調節(jié)的空間,增加了模型的整體契合度。

    1.2 相關網(wǎng)絡結構

    跨模態(tài)圖文檢索在深度學習領域主要涉及七種網(wǎng)絡結構,現(xiàn)對這七種網(wǎng)絡結構做如下介紹。

    深度自編碼器模型(deep autoencoder,DAE)由一個編碼器和一個生成重構的解碼器組成。深度自編碼器可以產(chǎn)生對輸入進行刻畫的編碼,其通常用于跨模態(tài)重構,從而發(fā)現(xiàn)跨模態(tài)相關性。

    深度信念網(wǎng)絡(deep belief nets,DBN)由Hinton在2006 年提出,該網(wǎng)絡既可以被視為自編碼器進行非監(jiān)督學習,也可以被視為分類器進行監(jiān)督學習。

    受限玻爾茲曼機模型(restricted Boltzmann machine,RBM)可用于跨模態(tài)重建。2012 年,Srivastava等人提了一種由多種模態(tài)輸入組成的深度玻爾茲曼機,該模型可實現(xiàn)模態(tài)融合與統(tǒng)一表示,也可應用于分類識別和信息檢索任務。

    注意力機制模型最早提出于視覺圖像領域中,2015 年DeepMind 團隊將其引入到循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)模型進行圖像分類,取得了良好的效果。目前大多數(shù)注意力模型在跨模態(tài)圖文檢索中用于對模態(tài)局部特征的表示,以及對不同模態(tài)片段的對齊,有助于挖掘模態(tài)間細粒度的對應關系,并在一定程度上能夠彌補模態(tài)數(shù)據(jù)缺失的問題。

    生成對抗網(wǎng)絡(generative adversarial networks,GAN)能夠通過兩個模塊的互相博弈得到良好的輸出。在跨模態(tài)圖文檢索任務中,生成對抗網(wǎng)絡一般通過圖片和文本相互對抗,使數(shù)據(jù)間的潛在關系及語義結構被更好地保留,同時生成過程可以學習強大的跨模態(tài)特征表示,從而增強跨模態(tài)語義一致性。

    卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)廣泛應用于跨模態(tài)圖文檢索中,是深度學習的代表算法之一。經(jīng)典的卷積神經(jīng)網(wǎng)絡模型有AlexNet、GoogLeNet、VGGNet、ResNet以 及DenseNet等,常用框架有Caffe、Torch及Tensorflow等。其優(yōu)點在于對高維數(shù)據(jù)的處理能力強、特征分類效果良好,具有強大的特征表示能力;缺點是依賴于大規(guī)模標記樣本和復雜的調參過程??缒B(tài)圖文檢索中常用的卷積神經(jīng)網(wǎng)絡模型有ResNet、AlexNet等。

    長短期記憶網(wǎng)絡(long short-term memory,LSTM)可以有效地將短時記憶與長時記憶相結合,借此聯(lián)合學習數(shù)據(jù)的上下文信息。在跨模態(tài)圖文檢索任務中,需首先確定從單元狀態(tài)中被遺忘的信息,進而確定能夠被存放到單元狀態(tài)中的信息,最后通過tanh 的單元狀態(tài)乘以輸出門,用于確定輸出的部分。

    此外,雙向遞歸神經(jīng)網(wǎng)絡(bidirectional recurrent neural network,BRNN)、基于字嵌入(矢量)的卷積神經(jīng)網(wǎng)絡(word embedding (vector)based convolutional neural network,WCNN)、循環(huán)神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡(recursive neural network,RNN)、區(qū)域卷積神經(jīng)網(wǎng)絡(region convolutional neural network,RCNN)等也被廣泛應用于跨模態(tài)圖文檢索的特征提取任務中。

    2 跨模態(tài)圖文檢索算法研究現(xiàn)狀

    對基于深度學習的跨模態(tài)圖文檢索,為確保檢索準確度,需解決的主要問題是模態(tài)間底層數(shù)據(jù)特征異構而導致的語義鴻溝;除此之外,出于對快速檢索的需求,跨模態(tài)圖文檢索效率的提升也是當前的研究熱點。因此,基于跨模態(tài)圖文檢索的準確度和效率,目前流行的算法可以被分為兩類:實值表示學習和二進制表示學習。實值表示學習方法通常具備高準確率,且更關注圖像和文本間的語義匹配問題,旨在學習一個實值公共表示空間,在該空間中不同模態(tài)的數(shù)據(jù)其通用表示是實值的。二進制表示學習也稱為跨模態(tài)哈希,通常用于加速跨模態(tài)檢索,其將不同模態(tài)的數(shù)據(jù)映射到一個共同的漢明空間,但此類方法的二值化過程通常會導致檢索精度的降低。本章主要圍繞深度學習技術介紹近幾年跨模態(tài)圖文檢索領域的相關工作,其研究現(xiàn)狀分類如圖2所示。

    圖2 基于深度學習的跨模態(tài)圖文檢索的研究現(xiàn)狀分類圖示Fig.2 Research status of image-text cross-modal retrieval based on deep learning

    2.1 實值表示學習方法

    實值表示學習方法通??梢杂行Ы档蛨D像與文本間的語義鴻溝,進而確保檢索準確性,其旨在為不同形式的數(shù)據(jù)學習稠密特征表示。目前流行的基于深度學習的實值表示跨模態(tài)圖文檢索方法可分為兩類:基于特征表示的方法和基于圖文匹配的方法。前一類方法聚焦于對不同模態(tài)間特征進行建模,以良好的特征提取來有效解決不同模態(tài)數(shù)據(jù)特征的異構問題,從而保障檢索準確度;后一類方法則關注圖像和文本模態(tài)間的語義對應關系,旨在通過減小語義鴻溝以提高圖文匹配的準確性,從而提高檢索的準確度。

    特征提取是影響跨模態(tài)圖文檢索準確度的重要因素,多模態(tài)信息的引入使得對不同模態(tài)數(shù)據(jù)進行建模成為解決跨模態(tài)圖文檢索異構鴻溝問題的關鍵,基于特征表示的方法將基于深度學習的單模態(tài)特征提取算法應用在跨模態(tài)圖文檢索中,以便對不同模態(tài)間特征進行建模。

    在基于特征表示的方法中,一些研究者建立了基于最大似然準則的學習框架,通過反向傳播和隨機梯度下降來優(yōu)化網(wǎng)絡參數(shù)。針對模態(tài)特定的特征,文獻[8]提出了模態(tài)針對型深層結構模型(modalityspecific deep structure,MSDS)。該模型使用CNN 和WCNN 分別提取圖像和文本表示,通過使用標準反向傳播技術來更新CNN 與WCNN 的參數(shù)。WCNN可以處理不同長度的序列并獲取具有相同維度的結果特征向量,能夠有效提取文本特征。實驗表明,大規(guī)模數(shù)據(jù)集時模態(tài)特定特征學習能夠更好地提取輸入模態(tài)表示,且WCNN的文本特征提取能力優(yōu)于深度CNN。更進一步,在文獻[8]基礎上,文獻[46]提出了基于深度雙向表示學習模型(deep and bidirectional representation learning model,DBRLM)的方法,利用文本描述中的序列和結構信息對特征進行增強,利用雙向結構探索匹配與不匹配圖像文本對的關系,增加了匹配對的相似性。實驗對比發(fā)現(xiàn),雙向表示模型比只考慮單向模態(tài)不匹配對的情況有更好的效果,且該方法在匹配數(shù)據(jù)中能夠學習豐富的鑒別信息。

    針對單標簽或多標簽樣本跨模態(tài)圖文檢索問題,為了更好地彌合圖像和相應語義概念間的差距,文獻[47]使用了深度卷積激活特征描述子(deep convolutional activation feature,DeCAF),將CNN 實現(xiàn)產(chǎn)生的1 000維度預測得分作為ImageNet的輸入視覺特征。實驗表明,DeCAF 可以使學習到的視覺特征具有足夠的表征能力,特征提取效果良好。由于預訓練的CNN 模型可以被直接遷移以提取圖像視覺特征,針對同一問題,文獻[48]對預訓練的CNN 模型進行微調,提出了深度語義匹配方法(deep semantic matching,deep-SM),對不同的目標數(shù)據(jù)集采用不同的損失函數(shù),使用微調的CNN 和訓練的全連接神經(jīng)網(wǎng)絡將圖像和文本投影到高抽象級別的同構語義空間中。實驗表明,微調的方法可以提高其對目標數(shù)據(jù)集的適應性,有效降低圖像與相應語義之間的鴻溝。文獻[49]利用同一思路,通過微調深度CNN 模型對圖像生成視覺嵌入,有效避免了部分語義信息的丟失。

    基于特征表示的方法一般通過兩種方式來獲取更好的跨模態(tài)輸入特征:第一種針對不同應用場景,采用特殊的網(wǎng)絡結構或提取特定的特征來獲得圖像文本表示;第二種方法則對經(jīng)典的CNN 模型進行微調改進。該類方法尤其對大規(guī)模、多標簽數(shù)據(jù)集有良好的適應性,可以為未來跨模態(tài)檢索提供更有效的設計思路。然而,目前研究者在該類方法中更傾向于對視覺特征的探索,文本數(shù)據(jù)在跨模態(tài)語義特征提取過程中并沒有得到很好的研究。因此,探索更合適的神經(jīng)網(wǎng)絡以建立文本數(shù)據(jù)由低級特征到高級語義之間的映射是該類方法所面臨的挑戰(zhàn)。

    基于特征表示的方法面向跨模態(tài)原始數(shù)據(jù),其關注點在于獲得更好的輸入特征,通過模態(tài)特征學習減小模態(tài)異構問題;相比于基于特征表示的方法,基于圖文匹配的方法更關注于不同模態(tài)間的結構關聯(lián),此類方法通過研究圖像和文本模態(tài)間的語義對應關系來增強模態(tài)間特征表示的一致性。

    目前主流的基于圖文匹配的方法按照模態(tài)間語義結構關聯(lián)的不同可分為三類:圖像-文本對齊的方法、跨模態(tài)重構的方法和圖文聯(lián)合嵌入的方法。

    (1)圖像-文本對齊的方法

    圖像-文本對齊的方法一般通過學習同一實例不同模態(tài)特征之間的關系來推斷句子片段與圖像區(qū)域之間的潛在對齊,進而實現(xiàn)圖文匹配。

    為了對圖像內容及其在自然語言領域的表示同時進行推理,文獻[50]提出了多模態(tài)雙向遞歸神經(jīng)網(wǎng)絡結構,其核心觀點是將句子視為豐富的標簽空間,使連續(xù)的單詞片段對應于圖像中某個特定但未知的位置。該模型能夠實現(xiàn)對小區(qū)域或相對罕見對象的視覺語義對應關系的解釋,在圖像-句子排序實驗中有良好的性能表現(xiàn)。進一步,通過結合圖像表示和自然語言處理的研究進展,為了回答關于圖像的自然語言問題,文獻[51]將問題意圖推理、視覺場景理解與單詞序列預測任務結合起來,提出了Neural-Image-QA 模型,其中問題與視覺表征一起被輸入LSTM 進行聯(lián)合訓練,其語言輸出取決于視覺和自然語言輸入,通過單詞和像素的端到端訓練,獲取了良好的匹配結果。實驗表明該方法在“單字”變體情況下能實現(xiàn)最佳性能。

    由于圖像-文本對齊的方法更關注局部精細的信息,也常用于細粒度的跨模態(tài)圖文檢索任務。文獻[52]針對服裝領域提出了FashionBERT 模型,相比于感興趣區(qū)域(region of interest,RoI)模型,時尚文本傾向于描述更精細的信息。因此,F(xiàn)ashionBERT 模型由BERT(bidirectional encoder representations from transformers)模型引申得到。BERT 是一種雙向注意力語言模型,作為Transformer在自然語言處理任務的變體之一,其主要作用是對單模態(tài)文本數(shù)據(jù)進行編碼。FashionBERT 在提取圖像表示時將每個圖像分割成相同像素的補丁,作為BERT 模型的序列輸入,在匹配時將文本標記和圖像補丁序列進行連接。實驗表明該方法可以在一定程度上掩蓋圖像中不相關的信息,減小了檢測到無用和重復區(qū)域的可能性。

    此外,由于注意力機制模型在圖像-文本對齊方法中的良好表現(xiàn),文獻[55]提出了堆疊交叉注意力模型(stacked cross attention network,SCAN)。該模型對圖像RoI 和文本標記執(zhí)行跨模態(tài)匹配,利用注意力機制將每個片段與來自另一模態(tài)的所有片段對齊,以區(qū)分單詞及圖像區(qū)域的被關注度,有助于捕捉視覺和語言間的細粒度相互作用,增強匹配能力。該方法可以靈活地發(fā)現(xiàn)細粒度對應關系,在多個基準數(shù)據(jù)集上都獲得了最佳性能。

    然而,基于注意力機制的方法大多忽略了全局上下文中出現(xiàn)的多種語義情況?;诖耍墨I[56]提出了語境感知注意力網(wǎng)絡(context-aware attention network,CAAN),根據(jù)全局上下文有選擇地關注信息量最大的局部片段,綜合了模態(tài)間和模態(tài)內注意過程,同時執(zhí)行圖像輔助的文本注意和文本輔助的視覺注意,很好地聚合了上下文信息,捕捉了潛在的模態(tài)內相關性,實驗表明自適應檢索過程中考慮特定上下文能夠幫助模型獲得更好的檢索結果。類似地,針對語義模型的復雜性,文獻[57]提出了基于循環(huán)注意記憶的迭代匹配(iterative matching with recurrent attention memory,IMRAM)方法,該方法通過迭代匹配方案逐步更新跨模態(tài)注意力核心,挖掘圖文間細粒度的對應關系。如圖3 所示,該模型首先通過跨模態(tài)注意單元估計V 和T 兩組特征點之間的相似度;然后通過記憶提取單元細化注意力結果,深化潛在對應關系,以便為下一次比對提供更多信息。在個匹配步驟之后,該方法通過對匹配分數(shù)求和得出圖文之間的相似度。實驗表明=3 比=2 有更好的表現(xiàn),證明了迭代匹配方案有效地提高了檢索性能。

    圖3 IMRAM 模型框架Fig.3 Framework of IMRAM model

    可以看出,圖像-文本對齊的方法更加關注圖像和文本的局部區(qū)域片段信息。此類方法的優(yōu)勢在于,通過注意力機制等方式,能夠獲得更好的細粒度語義區(qū)分能力,有效解決多語義、圖像問答、圖像描述和細粒度交互等問題,進而提高了圖文匹配的準確度,具有良好的檢索性能。然而,此類方法由于更多聚焦于局部信息,對數(shù)據(jù)集的規(guī)模和質量以及模型的精細度會有更高的要求,且大多并不適用于全局信息的匹配。如何在保證局部片段信息良好對齊的前提下實現(xiàn)圖文整體的準確匹配仍是目前需要研究的方向。

    (2)跨模態(tài)重構的方法

    與圖像-文本對齊的方法關注局部信息的方式不同,跨模態(tài)重構的方法更關注全局信息,此類方法通常利用一種模態(tài)信息來重構對應模態(tài),同時保留重建信息,能夠增強跨模態(tài)特征一致性及語義區(qū)分能力。

    由于跨模態(tài)相關性是高度非線性的,而RBM 很難直接對這種相關性進行學習?;诖耍紤]在每個模態(tài)的預訓練層上訓練RBM 的方法,文獻[58]提出不同模態(tài)數(shù)據(jù)共享權重的雙模深度自編碼器模型,在僅給定視頻數(shù)據(jù)的情況下進行跨模態(tài)重建,從而發(fā)現(xiàn)跨模態(tài)的相關性。在此研究基礎上,文獻[59]提出了一種圖像字幕生成的方法,引入了結構-內容神經(jīng)語言(structure-content neural language model,SCNLM)模型,SC-NLM 通過編碼器學習圖像句子聯(lián)合嵌入,并根據(jù)編碼器產(chǎn)生的分布式表示,將句子的結構與內容分離,再通過解碼器生成新的字幕。該模型有效地統(tǒng)一了聯(lián)合圖像-文本嵌入模型和多模態(tài)神經(jīng)語言模型,實現(xiàn)了對圖像和字幕的排序及新字幕的生成。

    此外,由于源集和目標集實例在不可擴展跨模態(tài)檢索任務中通常被假定共享相同范圍的類,當二者實例具有不相交的類時,難以取得理想的檢索結果。針對此問題,文獻[60]提出了模態(tài)對抗語義學習網(wǎng)絡(modal-adversarial semantic learning network,MASLN),其中,跨模態(tài)重構子網(wǎng)絡通過條件自編碼器相互重建各模態(tài)數(shù)據(jù),實現(xiàn)從源集到目標集的知識轉移,使跨模態(tài)分布差異最小化;模態(tài)對抗語義學習子網(wǎng)絡通過對抗性學習機制產(chǎn)生語義表征,使學習到的公共表示對語義有區(qū)別而對模態(tài)無區(qū)別。實驗表明,該方法在可擴展和不可擴展的檢索任務中結果都優(yōu)于其他方法,有效縮小了不同模態(tài)之間的異質性差距。該網(wǎng)絡流程圖如圖4 所示。

    圖4 MASLN 模型框架Fig.4 Framework of MASLN model

    為了克服對嵌入空間的需求,文獻[61]提出了循環(huán)一致圖文檢索網(wǎng)絡(cycle-consistent text and image retrieval network,CyTIR-Net),將圖文檢索問題表述為文本和視覺轉換的問題。該方法利用文本項和視覺特征的相互翻譯建立重構約束,如圖5 所示,txt2img和img2txt模型分別實現(xiàn)了圖像和文本域之間的前向和后向轉換,確保重構的文本或圖像與原始文本或圖像向量相似,并包含足夠的重構信息。實驗表明該方法對中小型數(shù)據(jù)集表現(xiàn)更好,良好地展示了循環(huán)一致性約束的正則化能力和網(wǎng)絡的泛化能力,以及增強模型在跨模態(tài)檢索中的場景辨別能力。

    圖5 CyTIR-Net網(wǎng)絡架構Fig.5 Network architecture of CyTIR-Net

    跨模態(tài)重構的方法利用深度自編碼器等方式,有效縮小了模態(tài)間的異構性差異,增強了語義辨別能力。此類方法對數(shù)據(jù)集的訓練及其規(guī)模要求并不高,注釋成本低,更適用于中小型數(shù)據(jù)集,具有可擴展性,多用于圖像字幕生成等任務。然而,此類方法在模型訓練過程中容易忽略細節(jié)信息,對目標數(shù)據(jù)集成對相關性的表現(xiàn)度不足。因此,如何在縮小模態(tài)間統(tǒng)計差距的前提下,共同學習局部文本與圖像信息的對齊,并據(jù)此來動態(tài)地調節(jié)模態(tài)間的生成過程,是目前此類方法所面臨的挑戰(zhàn)。

    (3)圖文聯(lián)合嵌入的方法

    相比于圖像-文本對齊的方法和跨模態(tài)重構的方法,圖文聯(lián)合嵌入的方法一般結合了全局和局部信息作為語義特征的嵌入,因此能夠學習到更好的特征判別性。此類方法一般通過圖像和文本模態(tài)數(shù)據(jù)的聯(lián)合訓練及語義特征的嵌入來學習圖像文本的相關性,進而實現(xiàn)圖文匹配。

    針對模態(tài)特征的不一致性導致的跨模態(tài)遷移困難的問題,文獻[62]使用弱對齊的數(shù)據(jù)來學習具有強對齊的跨模態(tài)表示,在共享層使用多層感知器將文本信息映射到與視覺模態(tài)相同維度的表示空間中。該模型同時用到了微調和統(tǒng)計正則化的方法,可以在訓練數(shù)據(jù)沒有明確對齊的情況下跨模態(tài)檢測相同的概念,具有良好的檢索性能。為了尋找公共表示空間來直接比較不同模態(tài)的樣本,文獻[63]提出了深度監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval,DSCMR)方法,通過最小化樣本在標簽空間和公共表示空間中的判別損失來監(jiān)督模型學習判別特征,以保持不同類別語義樣本間的區(qū)分度,并使用權重共享策略來消除多媒體數(shù)據(jù)在公共表示空間中的跨模態(tài)差異。相比以往的方法,DSCMR 的學習策略可充分利用成對標簽信息和分類信息,有效學習了異構數(shù)據(jù)的公共表示。

    值得注意的是,盡管以上方法已考慮到不同模態(tài)到公共空間的特征映射,但這種映射函數(shù)僅關注于學習模態(tài)內或模態(tài)間的區(qū)分特征,而未能在跨模態(tài)學習方法中充分利用語義信息。

    為此,文獻[14]提出了基于正則化跨模態(tài)語義映射的深度神經(jīng)網(wǎng)絡(regularized deep neural network,RE-DNN),通過施加模態(tài)內正則化,進而獲得一個聯(lián)合模型來捕捉不同輸入之間的高度非線性關系。該模型在語義層同時捕獲模態(tài)內和模態(tài)間的關系,且所學習的深層架構能夠通過停用部分網(wǎng)絡來解決模態(tài)缺失問題,具有良好處理不成對數(shù)據(jù)的能力。該算法僅需要很少的模型訓練先驗知識,且對大規(guī)模數(shù)據(jù)集可擴展。進一步,為了減小低級視覺特征和高級用戶概念之間的“認知鴻溝”,文獻[49]提出了多感官融合網(wǎng)絡(multi-sensory fusion network,MSFN)聯(lián)合模型,將同維CNN 視覺嵌入和LSTM 描述嵌入看作人類的兩種感官,從人類感知角度將視覺和描述性感官相結合。在測試集中的所有圖像和文本映射到公共語義空間后,跨模態(tài)檢索被轉化為用傳統(tǒng)相似性度量評估的同構檢索問題,該方法通過最小化類別損失函數(shù)挖掘了跨模態(tài)豐富的語義相關性。

    此外,圖文聯(lián)合嵌入方法通常會學習內嵌式嵌入函數(shù)(injective embedding functions),對于具有歧義的實例,內嵌函數(shù)尋找單個點會嚴重限制其在現(xiàn)實世界中的應用。對此,文獻[64]引入了多義實例嵌入網(wǎng)絡(polysemous instance embedding networks,PIE Nets),如圖6所示,通過結合輸入的全局和局部信息來提取每個實例的個嵌入,同時使用局部Transformer模塊關注輸入實例的不同部分,獲得局部引導特征表示,并利用殘差學習將局部和全局表示結合起來,進而提升特征的判別性。針對內嵌函數(shù)學習某一模態(tài)只能表示對應模態(tài)的部分信息,進而導致被忽略信息在映射點丟失的問題,文獻[64]還提出了多義視覺語義嵌入方法(polysemous visual-semantic embedding,PVSE),在多實例學習框架中對圖像和文本PIE 網(wǎng)絡進行聯(lián)合優(yōu)化,且該方法通過最大平均差異(maximum mean discrepancy,MMD)來最小化兩個嵌入分布之間的差異。實驗表明了殘差學習和多實例學習對于實例語義模糊數(shù)據(jù)檢索的重要性。

    圖6 多義視覺語義嵌入體系結構Fig.6 Architecture of polysemous visual-semantic embedding

    同樣為解決多義實例問題,文獻[65]提出了生成式跨模態(tài)學習網(wǎng)絡(generative cross-modal feature learning,GXN),將基礎表示和抽象表示相結合。除了全局語義層的跨模態(tài)特征嵌入外,GXN 還引入了圖像到文本和文本到圖像兩種生成模型的局部跨模態(tài)特征嵌入,通過生成過程來學習全局抽象特征及局部基礎特征。該方法能夠有效處理多義實例問題,并能夠檢索具有局部相似性的圖像或具有詞級相似性的句子。另一方面,通過引入GAN 網(wǎng)絡的對抗思想,文獻[66]提出了對抗式跨模態(tài)檢索方法(adversarial cross-modal retrieval,ACMR),該模型在對抗機制下執(zhí)行語義學習,其中,特征投影器從公共子空間中的不同模態(tài)生成模態(tài)不變表示,模態(tài)分類器根據(jù)生成的表示來區(qū)分不同的模態(tài),并以這種方式引導特征投影器的學習。通過對特征投影器施加三元組約束,將具有相同語義標簽的跨模態(tài)表示差異最小化,同時最大化具有不同語義的圖像文本之間的距離。該方法在跨模態(tài)數(shù)據(jù)被投影到公共子空間中時,數(shù)據(jù)的潛在語義結構被更好地保留。

    圖文聯(lián)合嵌入的方法更關注對高級語義信息的探索。此類方法一般利用生成對抗等思想,通過最小化判別損失函數(shù)和模態(tài)不變性損失等方式挖掘豐富的語義相關性,能夠很大程度上消除跨模態(tài)異構差異,減小“語義鴻溝”及“認知鴻溝”,有效解決多義實例、模態(tài)缺失等問題,并能良好地捕獲成對信息相關性,提高圖文匹配的準確度和可擴展性,具有很好的檢索性能。

    2.2 二進制表示學習方法

    實值表示學習方法具有良好的語義區(qū)分能力,能夠很大程度上減小“語義鴻溝”及“認知鴻溝”,因此其檢索準確性一般很好,但對于一些對檢索效率要求高的任務場景,實值表示學習并不適用。相比于實值表示學習方法,二進制表示學習方法在檢索效率上具有優(yōu)勢,其在保證準確率波動幅度可控的前提下,可顯著提升檢索速度。

    二進制表示學習方法將跨模態(tài)數(shù)據(jù)投影到一個公共漢明空間,目的在于給相似的跨模態(tài)內容賦予相似的哈希碼。

    近十年來,基于二進制表示學習的方法不斷取得突破性進展與成果。2009 年,深度哈希算法由Hinton研究組提出。2014 年,文獻[68]提出了卷積神經(jīng)網(wǎng)絡哈希(convolutional neural network Hashing,CNNH)模型,使基于CNN 的深度哈希算法開始受到關注。2015 年,文獻[69]提出二進制哈希碼的深度學習(deep learning of binary Hash codes,DLBHC)方法,利用深度CNN 的增量學習特性,以點的方式進行編碼和圖像表示,同時學習特定圖像表征和類似哈希的函數(shù),實現(xiàn)了快速圖像檢索并使其適用于大規(guī)模數(shù)據(jù)集。此外,為了進一步探索多標簽關聯(lián)圖像的復雜多級語義結構,文獻[70]提出深度語義哈希排序(deep semantic ranking Hashing,DSRH)方法,利用深度CNN 與列表排序監(jiān)督哈希,共同學習特征表示和從它們到哈希碼的映射,避免了傳統(tǒng)方法特征語義表示能力不足的限制。

    基于二進制表示學習方法由于二進制哈希碼較短,有利于在現(xiàn)實世界中對大規(guī)模數(shù)據(jù)的處理,因而被廣泛應用于跨模態(tài)圖文檢索任務中。

    為確保哈希碼和不同信息源所設計哈希函數(shù)的一致性,文獻[71]提出了多源信息復合哈希算法(composite Hashing with multiple information sources,CHMIS),通過調整權重的信息集成方法(CHMIS with adjusted weights,CHMIS-AW)調整每個單獨源的權重,將來自不同源的信息集成到二進制哈希碼中,進而最大化編碼性能,保留了訓練示例之間的語義相似性。

    在基于深度哈希的跨模態(tài)圖文檢索算法中,一些研究者使用了端到端的方法。針對不同模態(tài)的異構性,文獻[72]提出了深度視覺語義哈希(deep visual semantic Hashing,DVSH)模型,該模型是首個跨模態(tài)哈希的端到端學習方法,設計了學習圖文聯(lián)合嵌入的視覺語義融合網(wǎng)絡,以橋接不同模態(tài)及兩個模態(tài)特定的哈希網(wǎng)絡,其生成的緊湊哈希碼能夠捕捉視覺數(shù)據(jù)和自然語言之間的內在對應關系,進而獲取判別性特征,且該模型有效克服了傳統(tǒng)融合網(wǎng)絡對雙峰對象聯(lián)合嵌入的需求,更適用于高精度的應用程序。針對跨模態(tài)哈希(cross-modal Hashing,CMH)手工制作特性與哈希碼學習不能良好兼容的問題,文獻[73]介紹了跨模態(tài)深度哈希算法(deep crossmodal Hashing,DCMH),將特征學習和哈希碼學習集成到同一端到端學習框架,通過同時對不同類型樣本對施加約束使相似樣本間相互靠近,從而保證模態(tài)間的對齊,且DCMH 直接學習離散的哈希碼,避免了檢索準確性的降低,提高了檢索性能。

    為了彌補模態(tài)差異以進一步提高檢索準確度,文獻[74]提出了自我監(jiān)督的對抗式哈希方法(selfsupervised adversarial Hashing,SSAH),將對抗式學習以自監(jiān)督方式結合到跨模態(tài)哈希中,由自監(jiān)督語義生成網(wǎng)絡(LabNet)和圖像文本對抗網(wǎng)絡(ImgNet和TexNet)組成。其中,自監(jiān)督語義生成網(wǎng)絡用來監(jiān)督兩個模態(tài)的語義空間以及對抗性學習。兩個對抗網(wǎng)絡用來共同學習不同模態(tài)的高維特征及其對應的哈希碼。實驗表明,SSAH 比DCMH 減少了90%的訓練時間,且SSAH 學習了更充分的監(jiān)督信息,可以捕獲不同模態(tài)間更精確的相關性。

    針對跨模態(tài)哈希在有限數(shù)量標記樣本上容易過擬合以及高維輸入轉換成二進制代碼導致的信息丟失問題,文獻[75]提出了循環(huán)一致的深層生成哈希算法(cycle-consistent deep generative Hashing,CYC-DGH),通過循環(huán)一致的對抗學習在沒有成對對應的情況下學習耦合的生成哈希函數(shù)。該算法通過深度生成模型從哈希碼中重新生成輸入,使學習到的哈希碼最大限度地關聯(lián)每個輸入-輸出對應關系,且哈希嵌入過程中的信息損失被最小化,有效壓縮了輸入數(shù)據(jù),同時能夠最大限度地保留自身信息及不同模態(tài)樣本間的關系,對減小哈希函數(shù)間的模態(tài)差異有良好表現(xiàn)。

    二進制表示學習方法更側重解決模態(tài)特征異構引起的模態(tài)差異問題,運用端到端、生成對抗等思想,致力于最大化特征分布的一致性。此類方法還有效解決了過擬合等問題。然而由于此類方法在二值化過程中會導致信息的丟失以及原有結構被破壞,考慮模態(tài)內數(shù)據(jù)結構和模態(tài)間結構匹配的關聯(lián),優(yōu)化計算等是目前需要研究的方向。

    2.3 小結

    本節(jié)主要介紹了現(xiàn)有基于深度學習的跨模態(tài)圖文檢索算法。針對檢索的準確度與檢索效率,分別從實值表示學習和二進制表示學習兩個方法出發(fā),對不同跨模態(tài)圖文檢索方法的研究現(xiàn)狀進行了分類總結。表1、表2、表3 從類別、代表性方法、特點和適用場景四方面對一些具有重要作用的跨模態(tài)檢索算法進行了對比分析。

    表1 基于特征表示的代表性方法總結Table 1 Summary of representative methods based on feature representation

    表2 基于圖文匹配的代表性方法總結Table 2 Summary of representative methods based on image-text matching

    表3 二進制表示學習代表性方法總結Table 3 Summary of representative methods of binary representation learning

    3 常用數(shù)據(jù)集及評價指標

    3.1 常用數(shù)據(jù)集

    對于圖像和文本等單模態(tài)或跨模態(tài)的信息處理一般都需要數(shù)據(jù)集來進行評估。高質量的數(shù)據(jù)集可以使神經(jīng)網(wǎng)絡充分學習各種潛在知識,同時避免神經(jīng)網(wǎng)絡的過擬合等問題。目前跨模態(tài)圖文檢索中常用的數(shù)據(jù)集有以下幾種。

    (1)NUS-WIDE

    NUS-WIDE 是由新加坡國立大學多媒體檢索實驗室創(chuàng)建的網(wǎng)絡圖像數(shù)據(jù)集,其圖像主要來源于Flickr 網(wǎng)站。該數(shù)據(jù)集包括了269 648 幅圖像,平均每幅圖像帶有2~5 個標簽語句,其中獨立標簽共有5 018 個。該數(shù)據(jù)集只局限于圖像和文本兩種模態(tài),常用于跨模態(tài)哈希中?;谶@個數(shù)據(jù)集,可以探索有關于網(wǎng)絡圖像注釋和檢索的研究問題。

    (2)MSCOCO

    COCO 數(shù)據(jù)集是微軟團隊發(fā)布的一個可以用于識別、分割和圖像語意描述等任務的數(shù)據(jù)集。該數(shù)據(jù)集以場景理解為目標,其圖像內容主要從復雜的日常場景中截取而來。該數(shù)據(jù)集是一個大規(guī)?;诰渥拥膱D像描述數(shù)據(jù)集,包含了123 287 幅圖像,且每幅圖像至少包含5 句對應的語句描述。數(shù)據(jù)集中的圖像來自91 個不同類別,包含了328 000 種影像和2 500 000 個標簽。雖然COCO 數(shù)據(jù)集比ImageNet 類別少,但是各類別包含的圖像多,有利于獲得更多不同類別中的特定場景。

    (3)Flickr30k

    Flickr 數(shù)據(jù)集由雅虎發(fā)布,由1 億幅圖像和70 萬個視頻的統(tǒng)一資源定位器(uniform resource locator,URL)以及與之相關的元數(shù)據(jù)(標題、描述、標簽)組成,其焦點是人或動物執(zhí)行的一些動作。數(shù)據(jù)集中的圖像由6個不同的Flickr組手動收集,由美國選定工作人員使用多種形式的標題進行注釋。其中Flickr30k數(shù)據(jù)集采集于Flickr 網(wǎng)站,包含31 783 張日常場景、活動和事件的圖像,圖像與158 915 個標題相關聯(lián),每一張都用5 個句子注釋。該數(shù)據(jù)集常用于圖像-句子檢索中。

    (4)Wikipedia

    Wikipedia 數(shù)據(jù)集采集于維基百科,是跨模態(tài)檢索研究使用最多的數(shù)據(jù)集,由帶有相關圖像文本對的文檔語料庫組成。該數(shù)據(jù)集是根據(jù)維基百科的特色文章設計的,由維基共享資源的一個或多個圖像補充,包含2 866 個圖像/文本數(shù)據(jù)對,共10 個不同的語義類。該數(shù)據(jù)集所囊括的樣本和語義類別相對較少且模態(tài)類型相對有限,且也只包含圖像和文本兩種模態(tài)。

    (5)IAPRTC-12

    IAPRTC-12 最初由Grubinger 等人發(fā)布,也稱為Image CLEF 2006,是為CLEF(cross-language evaluation forum)跨語言圖像檢索任務創(chuàng)建的,其目的在于評估基于視覺和文本檢索技術的效率。該數(shù)據(jù)集共有19 627 幅圖像,其描述由多種語言(主要是英語和德語)組成,每個圖像與1~5 個描述相關聯(lián),其中每個描述均指圖像的不同方面。該數(shù)據(jù)集詞匯量為4 424。值得注意的是,該數(shù)據(jù)集中的文本都是語法性的,幾乎沒有噪音。句子中的語言組織良好,其內容與相應的意象密切相關。

    對于以上常用數(shù)據(jù)集,主要參數(shù)如表4 所示,且各數(shù)據(jù)集的圖像文本對示例圖如圖7 所示。

    圖7 不同數(shù)據(jù)集圖像文本對示例圖Fig.7 Sample graph of image-text pairs in different datasets

    表4 常用數(shù)據(jù)集介紹Table 4 Introduction of common datasets

    3.2 性能評價指標

    目前跨模態(tài)圖文檢索常用的性能評價指標有召回率、精確率、準確率和平均精度等。

    (1)召回率(,)

    召回率是指檢索系統(tǒng)返回的查詢樣本相關文檔與數(shù)據(jù)集所有匹配文檔之比。召回率的計算公式為:

    其中,表示檢索返回的與查詢樣本匹配的文檔數(shù)量,表示數(shù)據(jù)集中沒有返回的與查詢樣本匹配的文檔數(shù)量。

    對于圖文檢索,常用的一個評價標準是@,即為@。@計算在前個檢索的句子中找到至少一個正確結果的測試圖像或測試句子的百分比。對于圖像檢索,計算前個檢索的圖像的百分比,即測量在前個結果中檢索到正確項目的查詢的比例。其中,“@1”“@5”“@10”,分別表示前1、5、10 個結果的召回率。

    (2)精確率(,)

    精確率是指檢索系統(tǒng)中被正確檢索的樣本數(shù)與被檢索到樣本總數(shù)之比。精確率的計算公式為:

    其中,表示被檢索樣本中與查詢樣本不匹配的數(shù)量。

    一般而言,召回率和精確率互相矛盾,需要在不同的場合根據(jù)實驗對于精確率和召回率的要求進行判斷。精確率和召回率很少作為單獨評價指標去使用,可以繪制-曲線來幫助分析。

    (3)準確率(,)

    準確率指檢索系統(tǒng)中被分類正確的樣本數(shù)占樣本總數(shù)的比率。準確率的計算公式為:

    其中,表示檢索返回的與查詢樣本匹配的文檔數(shù)量;表示檢索后未能返回的與查詢樣本匹配的文檔數(shù)量;表示總樣本數(shù)。

    (4)綜合評價(-score,)

    綜合評價指標-score(又稱為-measure)是和加權調和平均,其計算公式為:

    其中,用于調整權重,當=1 時兩者權重相同,簡稱為1-score。在檢索過程中,若更重要則減小,反之若更重要則增大。

    由于和指標會相互矛盾,而綜合評價指標-score 既能夠參考與,又比的計算更加準確,因此作為評價指標更為常用。

    (5)平均精度(mean average precision,MAP)

    MAP 是目前跨模態(tài)圖文檢索任務中最流行的性能評價指標,在給定一個查詢和top-檢索到數(shù)據(jù)的情況下,平均精度定義為:

    其中,表示檢索文檔中第個樣本,()表示的是第個檢索樣本的精度。另外,如果第個樣本檢索返回的數(shù)據(jù)與其本身相關,則()=1,否則()=0。

    MAP 可以解決、和-measure 的單點值局限性,用于衡量算法的檢索能力,能夠反映全局性能。

    3.3 不同算法對比

    本節(jié)對不同算法在不同數(shù)據(jù)集中的表現(xiàn)進行了全面比較,其主要性能評價指標為@和MAP。對于跨模態(tài)圖文檢索,F(xiàn)lickr30k 數(shù)據(jù)集常用性能評價指標為@,其一般用于評估實值表示學習方法。Wikipedia 和NUS-WIDE 數(shù)據(jù)集通常用MAP 來評估算法性能,它們對于實值表示學習和二進制表示學習方法的性能評估都適用。MSCOCO 數(shù)據(jù)集通常既可用@來評估算法性能,也可用MAP 來進行評估,且對于實值表示和二進制表示學習方法也都適用。IAPRTC-12 數(shù)據(jù)集通常用MAP 來評估二進制表示學習方法的性能,用top@來評估實值表示學習方法的性能。top@計算公式為:

    其中,表示測試集中圖像文本對的數(shù)量,1()是指示函數(shù),r是第對圖像(文本)的排名位置。設置為{1,2,10,20,100,200,1 000}。

    對于實值表示學習方法,本文選擇了CyTIR-Net、IMRAM、BRNN 等算法,其中基于特征表示的算法有deep-SM、DeCAF、MSDS 和DBRLM,基于圖像-文本對齊的算法有IMRAM、BRNN、CAAN 和SCAN,基于跨模態(tài)重構的方法有CyTIR-Net 和MASLN,基于圖文聯(lián)合嵌入的方法有ACMR、MSFN+TextNet、GXN、PVSE 和DSCMR;基于二進制表示學習的方法有DVSH、CYC-DGH、SSAH 和DCMH 等。

    以下數(shù)據(jù)均為各經(jīng)典算法相關文獻中所報導的結果,對比結果如表5~表12 所示,對于最好的結果本節(jié)進行加粗以示強調,“—”表示結果未被提供。

    表5 對于Flickr30k 現(xiàn)有不同算法R@K 比較Table 5 R@K comparison of different existing algorithms for Flickr30k

    表6 對于MSCOCO 現(xiàn)有不同算法R@K 比較(1 000 幅測試圖像)Table 6 R@K comparison of different existing algorithms for MSCOCO(1000 test images)

    由表5~表7 可以看出,算法IMRAM 在跨模態(tài)圖文檢索中取得了更好的@值,該算法實驗環(huán)境為Pytorch v1.0,在Flickr30k 數(shù)據(jù)集上分別將29 000、1 000、1 000 幅圖像用于訓練、驗證和測試模型,在MSCOCO 數(shù)據(jù)集上也分別將1 000 幅圖像用于驗證和測試,其在小規(guī)模數(shù)據(jù)集(Flickr30k)上和大規(guī)模數(shù)據(jù)集(MSCOCO)上都有較好的表現(xiàn),證明了該算法的魯棒性,同時也得出對細粒度對應關系進行探索的必要性。此外,CAAN 算法在Flickr30k 數(shù)據(jù)集分別將29 000、1 000、1 000 幅圖像用于訓練、驗證和測試模型,該算法在前15 個epochs 的學習率為0.000 2,后15 個epochs的學習率降至0.000 02。PVSE 算法在MSCOCO 數(shù)據(jù)集上將113 287 幅圖像用于訓練模型,并在完整的5 000 幅測試圖像上進行測試,且以平均值超過5 倍以上來進行1 000 幅圖像的測試,該算法初始學習率為0.036 6,并在損失停滯時減少一半,用批量大小為128 的樣本進行50 個epochs 的訓練。CAAN 算法和PVSE 算法分別在小規(guī)模數(shù)據(jù)集(Flickr30k)和大規(guī)模數(shù)據(jù)集(MSCOCO)上也取得了更好的@值,表明了注意力機制在跨模態(tài)圖文檢索中的優(yōu)勢。且這幾種方法都強調局部特征和全局特征的結合,以提升特征的判別性。對于該領域的后續(xù)發(fā)展具有借鑒意義。

    表7 對于MSCOCO 現(xiàn)有不同算法R@K 比較(5 000 幅測試圖像)Table 7 R@K comparison of different existing algorithms for MSCOCO(5000 test images)

    由表8 可以看出,ACMR 在數(shù)據(jù)集MSCOCO 上取得了更好的MAP 值,ACMR 算法分別將66 226 和16 557 個圖像文本對用于模型訓練和測試,用到的圖像特征提取網(wǎng)絡為4 096 維的VGGNet,文本特征提取網(wǎng)絡為3 000 維的BoW(bag-of-words),批量大小為64。該算法利用GAN 的對抗思想,使數(shù)據(jù)的潛在跨模態(tài)語義結構被更好地保留。結果顯示實值表示學習的方法在大規(guī)模數(shù)據(jù)集(MSCOCO)上MAP 值一般優(yōu)于二進制表示學習的方法。其中,CYC-DGH算法在MSCOCO 上取得結果優(yōu)于其他二進制表示學習方法,該算法初始學習率為0.000 2,在前100 個epochs 中保持不變,在后100 個epochs 中線性衰減到0,且以dropout 率為0.5 的卷積退出ReLU 層。CYC-DGH 同樣使用GAN 網(wǎng)絡的思想,在有效壓縮輸入數(shù)據(jù)的同時,最大限度地保留其自身信息以及來自不同模態(tài)的樣本之間的關系。因此可以得出,GAN 的思想對于提升跨模態(tài)圖文檢索性能很有幫助,為相關工作提供了值得借鑒的研究思路。

    表8 對于MSCOCO 現(xiàn)有不同算法MAP 比較Table 8 MAP comparison of different existing algorithms for MSCOCO

    由表9 和表10 可以看出,CYC-DGH 和deep-SM分別在數(shù)據(jù)集Wikipedia 和NUS-WIDE 上取得了最佳MAP 值,CYC-DGH 從Wikipedia 數(shù)據(jù)集中隨機選擇75%的文檔作為數(shù)據(jù)庫,其余為查詢樣本,且批量大小為1。deep-SM 算法實驗環(huán)境為開源Caffe CNN庫,分別將114 114 和76 303 個圖像文本對用于訓練和測試,其dropout 率為0.5,動量參數(shù)為0.9,且對不同模態(tài)采取不同學習率,在CNN 中分別將卷積層、前兩個完全連接層和最后一個完全連接層的學習率設置為0.001、0.002 和0.010,通過設置不同層的不同學習率來控制參數(shù)更新速率;在TextNet 中每層的初始學習率為0.010,然后根據(jù)交叉熵損失動態(tài)變化。deep-SM 算法對預處理的CNN 模型進行微調以提取CNN視覺特征,一定程度上提升了跨模態(tài)檢索性能。同時,在Wikipedia 數(shù)據(jù)集上,MASLN 算法結果優(yōu)于其他實值表示學習方法,該算法學習率為0.000 1,批量大小為128,其將跨模態(tài)重構和模態(tài)對抗性語義網(wǎng)絡進行了聯(lián)合訓練,對于小規(guī)模數(shù)據(jù)集上跨模態(tài)檢索性能的提升有很大幫助。

    表9 對于Wikipedia 現(xiàn)有不同算法MAP 比較Table 9 MAP comparison of different existing algorithms for Wikipedia

    表10 對于NUS-WIDE 現(xiàn)有不同算法MAP 比較Table 10 MAP comparison of different existing algorithms for NUS-WIDE

    表11 和表12 對不同算法在IAPRTC-12 數(shù)據(jù)集上的表現(xiàn)進行了比較??梢钥闯觯M制表示學習方法中,CYC-DGH 取得了更好的結果;實值表示學習方法中,MSDS 取得了更好的結果。MSDS 模型實驗環(huán)境為Caffe,其分別將17 627 和2 000 個圖像文本對用于訓練和測試,且在WCNN、CNN 和DNN 的學習率分別為0.010、0.001 和0.001。MSDS 在潛在空間中使用標準反向傳播技術來更新兩個卷積網(wǎng)絡的參數(shù),易應用于大數(shù)據(jù)集。

    表11 對于IAPRTC-12 現(xiàn)有不同算法MAP 比較Table 11 MAP comparison of different existing algorithms for IAPRTC-12

    表12 對于IAPRTC-12 現(xiàn)有不同算法top@k 比較Table 12 top@k comparison of different existing algorithms for IAPRTC-12

    綜上,通過對不同算法對比,可以得出,對于跨模態(tài)圖文檢索性能的提升,以下方法值得進一步探索研究:

    (1)基于細粒度的圖像-文本對齊的方法有助于探索模態(tài)間精細的潛在語義關系,可以更加靈活地應用于語義更復雜的跨模態(tài)圖文檢索場景,能夠從語義的多樣性出發(fā),提高檢索性能。

    (2)不論是實值表示學習方法還是二進制表示學習方法,生成對抗網(wǎng)絡的博弈思想都可用于保留模態(tài)間語義關系等信息,該網(wǎng)絡結構能夠有效提升跨模態(tài)檢索的全局性能。

    (3)對預處理的CNN 模型進行微調可以提高其對目標數(shù)據(jù)集的適應性,是避免從頭開始訓練CNN模型的有效策略,且該策略也通過反向傳播來調整網(wǎng)絡。因此是一種對于提升跨模態(tài)圖文檢索性能簡單且有效的方法。

    (4)注意力機制模型可以捕捉圖像和文本中最具判別性的特征,有效區(qū)分單詞及圖像區(qū)域的被關注度,能有效解決信息過載問題,提高算法效率及準確性。對于需要關注模態(tài)局部特征的跨模態(tài)檢索任務有很大助益。

    4 應用

    目前,跨模態(tài)圖文檢索技術在公安、傳媒及醫(yī)學領域等都有著廣泛的應用。其中在公安領域主要應用于輿情分析以及對網(wǎng)絡輿論欺詐事件的預測和處理,現(xiàn)有的輿情檢測系統(tǒng)通常利用互聯(lián)網(wǎng)來實現(xiàn)輿情的收集、追蹤、監(jiān)控和預警;在傳媒領域主要應用于多媒體事件檢測和意見挖掘,以及網(wǎng)絡推薦系統(tǒng)等;在醫(yī)學領域可應用于醫(yī)學存儲數(shù)據(jù)的查詢。

    4.1 公安領域的應用

    跨模態(tài)圖文檢索在公安領域主要用于網(wǎng)絡輿情分析和網(wǎng)絡輿論欺詐。

    網(wǎng)絡輿情具有自由性、交互性、多元性、偏差性和突發(fā)性的特點,其分析流程如圖8 所示,事件發(fā)生后,首先要進行突發(fā)事件的監(jiān)測,然后對熱點話題進行識別跟蹤,對識別結果進行語義分析以進一步判斷其情感傾向,最后對不同的情感傾向做出相應預警,同時也可通過信息索引數(shù)據(jù)庫對已有熱點事件進一步呈現(xiàn),實現(xiàn)信息收集,并使其監(jiān)控相關敏感信息,以提高事件監(jiān)測效率。

    圖8 輿情分析一般流程圖Fig.8 General flow chart of public opinion analysis

    其中,熱點話題識別包括主題跟蹤、主題發(fā)現(xiàn)、相關發(fā)現(xiàn)等內容,要求對不同領域的相關圖像與文本信息實現(xiàn)良好的信息提取,增強語義辨別能力;語義分析需要滿足情感互補性和情感一致性,可分別采用圖文融合和注意模型、模態(tài)貢獻計算等方法,要求所提取的特征要克服語義模型的復雜性,挖掘豐富的語義相關性;對于事件預警,可通過事件分類模塊來區(qū)分不同事件的等級。通過高效整合來自不同媒介的輿情,運用跨模態(tài)圖文檢索相關技術,可有效實現(xiàn)對突發(fā)事件的監(jiān)測及預警,幫助公安機關有效杜絕涉警網(wǎng)絡輿情發(fā)酵為群體性事件。

    對于突發(fā)事件的監(jiān)測,現(xiàn)有工作對相關問題研究較少,為了在實時的社交網(wǎng)絡數(shù)據(jù)流中對突發(fā)事件進行監(jiān)測和深度挖掘,文獻[82]構建了國民安全突發(fā)事件檢測系統(tǒng),通過多模態(tài)圖融合和話題恢復算法對突發(fā)事件進行檢測,并利用國民安全突發(fā)事件分類模塊過濾得到相關突發(fā)事件。

    此外,對于網(wǎng)絡輿情分析,現(xiàn)有的研究工作更多關注熱點話題識別、語義分析和情感傾向分析三方面。針對輿情事件話題識別及語義分析,文獻[83]提出基于文本的情感顯著性特征提取方法和基于圖文融合的跨模態(tài)輿情回歸分析方法,將情感信息融入特征提取得到有利于文本情感分析的顯著特征,并進行圖文融合以解決模態(tài)間情感互斥問題。為了通過輿情語義分析進一步實現(xiàn)情感分析預測,文獻[84]提出了深度多模態(tài)注意融合(deep multi-modal attention fusion,DMAF)模型,利用視覺和語義間的區(qū)別性特征和內在相關性,用視覺注意機制自動聚焦情感區(qū)域,語義注意機制突出情感相關詞,分別捕捉最具辨別力的文本詞和視覺區(qū)域,然后由基于中間融合的多模態(tài)注意模型聯(lián)合情感分類,最后采用后期融合方案將三種注意力模型結合起來進行情感預測。該模型可以捕獲互補和非冗余信息,能夠有效處理模態(tài)數(shù)據(jù)不完整問題。

    跨模態(tài)圖文檢索在公安領域還應用于網(wǎng)絡輿論欺詐的預測與處理,現(xiàn)階段隨著互聯(lián)網(wǎng)發(fā)展,圖像式“網(wǎng)絡謠言”被頻繁地用在網(wǎng)絡輿論欺詐中。在圖像偵查中可以實時記錄、分析、存儲、再現(xiàn)證據(jù),通過圖像智能檢索平臺自動解決對圖像的檢索,從而獲取所需畫面,減少工作量,并以此作為電子數(shù)據(jù)證據(jù)或偵查的輔助手段。針對網(wǎng)絡輿論欺詐問題,文獻[86]研究了圖文特征聯(lián)合的證據(jù)圖像檢索技術,其工作原理如圖9 所示,通過聯(lián)合視覺和文本特征,在媒體上檢索與網(wǎng)絡輿論欺詐所用場景內容相似的圖像,將此作為物證來實現(xiàn)對圖像式網(wǎng)絡輿論欺詐的反制。

    圖9 圖文特征聯(lián)合的證據(jù)圖像檢索系統(tǒng)工作原理圖Fig.9 Schematic diagram of evidence image retrieval system based on combination of image and text features

    目前,受已有的理論知識和技術手段的限制,復雜輿情傾向的判斷和輿情自動監(jiān)測等方面仍存在不少問題。同時,對于跨模態(tài)圖文檢索技術,由于文字語義的多義性及視覺數(shù)據(jù)存在的“認知鴻溝”,需要進一步研究并將其應用于該領域中來改善現(xiàn)狀。

    4.2 傳媒領域的應用

    跨模態(tài)圖文檢索技術在傳媒領域主要應用于多媒體事件檢測(multimedia event detection,MED)、意見挖掘以及網(wǎng)絡推薦系統(tǒng)等。此外,文獻[59],文獻[87]和文獻[88]利用跨模態(tài)特征表示及跨模態(tài)重構的方法實現(xiàn)了圖像或視頻的字幕生成。

    多媒體事件檢測一般需要從視頻檔案中找到特定事件的視頻,并給出示例視頻及事件描述,與之相關聯(lián)的多媒體分類任務需要挖掘示例視頻以學習最具區(qū)別性的特征,通過多個互補特征的組合獲得最佳性能。對此,如圖10 所示,文獻[89]介紹了雙融合的多模態(tài)方案,在對多模態(tài)特征提取后,通過早期融合和晚期融合的結合來實現(xiàn)不同特征的結合。

    圖10 多媒體事件檢測系統(tǒng)示意圖Fig.10 Schematic diagram of multimedia event detection system

    對于不同用戶的意見挖掘,社交媒體一般通過將不同模態(tài)的數(shù)據(jù)進行特征融合來完成情感分析,以進一步判斷不同事件的情感極性。不同于以往簡單的將不同模態(tài)數(shù)據(jù)相結合的方法,用于意見挖掘的情感分析聚焦于對特征融合方式的探索,現(xiàn)有方法通過結合圖像內容、用戶信息及媒體信息來實現(xiàn)良好的語義融合。

    為了判斷情感極性,文獻[90]主要研究了圖文聯(lián)合的情感預測問題,將兩個單獨的CNN 架構用于學習文本和視覺特征,并將其組合作為另一個多頭CNN架構的輸入,應用于文本和圖像間的內部關系,最后在兩個類別(正或負)標簽上產(chǎn)生分布。該方法在多媒體情感分析中取得了良好的效果。進一步結合用戶數(shù)據(jù),文獻[91]提出了多特征融合的微博圖文情感分析方法,構造了基于參數(shù)遷移和微調圖像的情感分類模型,并為文本和圖像情感分類模型設計特征層和決策層融合的方法。該方法結合了內容特征和用戶特征,有效增強了模型捕捉情感語義的能力。受媒體中圖文數(shù)據(jù)間存在強烈語義關聯(lián)的啟發(fā),文獻[92]提出了端到端的深度融合卷積神經(jīng)網(wǎng)絡,從訓練實例中聯(lián)合學習文本和視覺情感表示,將兩種模態(tài)信息融合在匯聚層中,以預測情感極性。

    此外,對于意見挖掘,除考慮其情感極性外,還應通過對媒體數(shù)據(jù)的分析發(fā)現(xiàn)準確的話題熱點。對于該任務,文獻[93]基于社交網(wǎng)絡媒體數(shù)據(jù)提出了多模態(tài)融合的話題發(fā)現(xiàn)算法,通過在文本和圖像上分別發(fā)掘潛在主題模型,構建文本圖和視覺圖,并對兩個圖進行語義融合得到多模態(tài)圖,最后在多模態(tài)圖上通過聚類和回歸得到最終話題發(fā)現(xiàn)結果。

    個性化網(wǎng)絡推薦系統(tǒng)一般需要結合圖像與相關語義屬性學習圖像語義特征表達,以提高產(chǎn)品推薦度,該任務通常需要預測不同社交媒體間的聯(lián)系。為了應對社交媒體數(shù)據(jù)的多樣性和異構性等特點,文獻[94]設計了一個關系生成深度信念網(wǎng)絡模型(relational generative deep belief nets,RGDBN),將非參數(shù)貝葉斯模型印度自助餐過程(Indian buffet process,IBP)集成到修改后的深度信念網(wǎng)絡,學習能嵌入媒體內容和媒體關系的潛在特征。IBP 的核心思想是一個數(shù)據(jù)點可以擁有多個隱性特征,且這些特征概率和不為1。該模型能夠分析異構和同構數(shù)據(jù)間的聯(lián)系并進行跨模態(tài)檢索,可以通過社交媒體應用到用戶推薦中。

    可以看出,跨模態(tài)圖文檢索技術的發(fā)展對于當前社交媒體中事件檢測、意見挖掘和個性化推薦等任務有很大助益。但實際應用中,一些復雜的情感分析需要處理更高層次的抽象概念,要求對主體性、概念和線索有更進一步的理解,對于這類問題,還需對跨模態(tài)數(shù)據(jù)構建更深層次的精細關聯(lián)。

    4.3 醫(yī)學領域的應用

    跨模態(tài)圖文檢索技術在醫(yī)學領域主要用于醫(yī)學存儲數(shù)據(jù)的查詢。

    現(xiàn)有醫(yī)院信息系統(tǒng)主要面向特定類型的醫(yī)療數(shù)據(jù),醫(yī)學數(shù)據(jù)種類多、數(shù)據(jù)間語義關系明確的特點使得其成為了特殊的跨模態(tài)數(shù)據(jù)。文獻[95]提出跨模態(tài)生物醫(yī)學圖像多標簽分類算法,通過融合圖像內容和說明文本,運用遷移學習技術,有效地識別了復合醫(yī)學圖像中的信息,進而提高了圖像檢索性能。作為現(xiàn)有醫(yī)學圖像數(shù)據(jù)處理的典型技術,醫(yī)學影像存檔與通信系統(tǒng)(picture archiving and communication systems,PACS)可以對醫(yī)學圖像數(shù)據(jù)進行獲取、存儲、檢索和展示,該系統(tǒng)在查詢時,通過輸入關鍵字在關系數(shù)據(jù)庫中對相關字段進行查詢,找出了文件系統(tǒng)中對應的醫(yī)學影像。此外,多模態(tài)索引圖模型將不同數(shù)據(jù)間的語義關系傳導至數(shù)據(jù)索引之間,進而計算出了不同模態(tài)間的相關性并對不同模態(tài)信息進行了融合。該檢索算法流程圖如圖11 所示。

    圖11 基于模態(tài)網(wǎng)絡模型的醫(yī)學數(shù)據(jù)檢索技術流程圖Fig.11 Flow chart of medical data retrieval based on modal network model

    目前,由于醫(yī)療數(shù)據(jù)的敏感性,與其他應用領域相比,醫(yī)學領域對于跨模態(tài)圖文檢索技術的應用主要還是采用已標注的數(shù)據(jù)來優(yōu)化模型,導致其在真實場景下的泛化能力受限。如何結合更多數(shù)據(jù)來源,如病歷資料等來尋找更適合的深度學習方法有效地處理復雜的醫(yī)療數(shù)據(jù)是當前面臨的一個挑戰(zhàn)。

    5 難點及未來研究趨勢展望

    盡管目前跨模態(tài)圖文檢索技術已經(jīng)取得了長足發(fā)展,但其在模態(tài)特征表示、復雜語義處理、不同模態(tài)特征對齊以及數(shù)據(jù)集的構建等方面仍面臨嚴峻的挑戰(zhàn),這些問題的解決也將成為未來的研究趨勢,可概括如下:

    (1)更精細的模態(tài)數(shù)據(jù)特征表示。模態(tài)特征表示是決定跨模態(tài)圖文檢索準確度的重要因素,不同的應用場景對于單模態(tài)全局或局部特征的選取要求以及特征提取方法各不相同。隨著數(shù)據(jù)復雜度和用戶需求的不斷升級,對跨模態(tài)圖文檢索任務模態(tài)特征精細度會有更高的要求。

    (2)不同模態(tài)特征之間的細粒度對齊。由于圖像和文本之間存在異質性差異,導致從視覺數(shù)據(jù)中提取的信息與給定條件下用戶對相同數(shù)據(jù)的解釋之間會缺乏一致性。針對這一不足,利用注意力模型等,通過捕捉圖像和文本間細粒度的對應關系以更好地表達模態(tài)特性是圖文檢索領域未來研究的一個熱點。

    (3)上下文相關信息的開發(fā)。跨模態(tài)關聯(lián)往往與上下文信息有關?,F(xiàn)有方法大多只將共存關系和語義類別標簽作為訓練信息,而事實上,跨模態(tài)數(shù)據(jù)通常包含了鏈接關系等重要的上下文信息。上下文信息的準確度是有效進行跨模態(tài)檢索的重要保障,因此在復雜的實際應用中,需要開發(fā)上下文信息以更好地表達模態(tài)間的共性,并就此開展進一步的研究,以提高跨模態(tài)檢索性能。

    (4)簡化參數(shù)形式和提高跨模態(tài)檢索效率??缒B(tài)圖文檢索的模型參數(shù)個數(shù)往往非常多,以至于在很大程度上限制了其應用場景,這也是目前研究者面臨的主要挑戰(zhàn)。到目前為止,雖然諸如跨模態(tài)哈希等技術已被用于提高跨模態(tài)檢索效率,但跨模態(tài)檢索速度的提升仍有待發(fā)展。

    (5)優(yōu)化目標函數(shù)求解算法。目前跨模態(tài)深度學習的訓練算法仍不能避免鞍點所導致的尋優(yōu)過程失敗問題。因此,盡快提出非凸優(yōu)化問題的優(yōu)化求解算法也是跨模態(tài)檢索領域需要解決的問題。

    (6)數(shù)據(jù)集的擴展和標注。對于跨模態(tài)信息處理,高質量數(shù)據(jù)集可以有效避免過擬合等問題??缒B(tài)信息處理的數(shù)據(jù)集非常難以構建,盡管Flickr 和MSCOCO 等數(shù)據(jù)集的圖像數(shù)據(jù)量以及每幅圖像的文本描述都很豐富,但是實際中的物體類別仍遠超其所囊括的圖像種類。因此,擴充數(shù)據(jù)集類別,對數(shù)據(jù)集進行更加充分的標注,能夠從另一方面促進跨模態(tài)圖文檢索技術的發(fā)展和升級。

    猜你喜歡
    圖文檢索語義
    畫與理
    語言與語義
    2019年第4-6期便捷檢索目錄
    “上”與“下”語義的不對稱性及其認知闡釋
    專利檢索中“語義”的表現(xiàn)
    專利代理(2016年1期)2016-05-17 06:14:36
    認知范疇模糊與語義模糊
    圖文配
    海外英語(2013年9期)2013-12-11 09:03:36
    圖文配
    海外英語(2013年10期)2013-12-10 03:46:22
    語義分析與漢俄副名組合
    外語學刊(2011年1期)2011-01-22 03:38:33
    國際標準檢索
    听说在线观看完整版免费高清| 国产午夜精品久久久久久一区二区三区 | 国产精品久久电影中文字幕| 一区二区三区四区激情视频 | 一进一出抽搐动态| 日本a在线网址| 少妇丰满av| 全区人妻精品视频| 国产伦在线观看视频一区| 亚洲男人的天堂狠狠| 在线观看午夜福利视频| 国产欧美日韩精品亚洲av| 国产爱豆传媒在线观看| 日韩一区二区视频免费看| 欧美中文日本在线观看视频| 91久久精品国产一区二区成人| avwww免费| 人妻夜夜爽99麻豆av| av.在线天堂| 国产精品乱码一区二三区的特点| av黄色大香蕉| 国产综合懂色| 亚洲精品456在线播放app | 成人一区二区视频在线观看| 午夜福利成人在线免费观看| 18禁黄网站禁片午夜丰满| 久久九九热精品免费| 国产成人福利小说| 人人妻,人人澡人人爽秒播| 国产精品一区二区三区四区免费观看 | 久久欧美精品欧美久久欧美| 欧美高清成人免费视频www| 国产69精品久久久久777片| 免费搜索国产男女视频| 国产私拍福利视频在线观看| 日韩欧美 国产精品| 免费看光身美女| 老师上课跳d突然被开到最大视频| 99精品久久久久人妻精品| 中文字幕熟女人妻在线| 欧美bdsm另类| 国内精品美女久久久久久| 麻豆一二三区av精品| 最新在线观看一区二区三区| 亚洲av熟女| 一进一出好大好爽视频| 麻豆久久精品国产亚洲av| 成人精品一区二区免费| 亚洲欧美精品综合久久99| 桃红色精品国产亚洲av| 色综合站精品国产| 日韩中字成人| 精品一区二区三区人妻视频| 国产精品不卡视频一区二区| 成人亚洲精品av一区二区| 亚洲最大成人手机在线| 色播亚洲综合网| 噜噜噜噜噜久久久久久91| 亚洲18禁久久av| 国产午夜精品久久久久久一区二区三区 | 热99在线观看视频| 在线观看av片永久免费下载| 欧美绝顶高潮抽搐喷水| 成人美女网站在线观看视频| 91麻豆av在线| 日本撒尿小便嘘嘘汇集6| 真人一进一出gif抽搐免费| 一区二区三区四区激情视频 | 久久草成人影院| 可以在线观看的亚洲视频| 欧美成人一区二区免费高清观看| 狠狠狠狠99中文字幕| 亚洲熟妇中文字幕五十中出| 久久精品久久久久久噜噜老黄 | 欧美日韩瑟瑟在线播放| av在线老鸭窝| 高清在线国产一区| 又黄又爽又刺激的免费视频.| 一本一本综合久久| 琪琪午夜伦伦电影理论片6080| 91麻豆精品激情在线观看国产| 18禁黄网站禁片免费观看直播| 亚洲av.av天堂| 村上凉子中文字幕在线| 免费观看在线日韩| 久久精品国产亚洲av涩爱 | av天堂在线播放| 小说图片视频综合网站| 亚洲国产日韩欧美精品在线观看| 亚洲男人的天堂狠狠| 国产成人av教育| 国产成人影院久久av| 听说在线观看完整版免费高清| 91麻豆精品激情在线观看国产| 91午夜精品亚洲一区二区三区 | 琪琪午夜伦伦电影理论片6080| 男人舔女人下体高潮全视频| 成人国产一区最新在线观看| 白带黄色成豆腐渣| 黄色欧美视频在线观看| 成人亚洲精品av一区二区| 简卡轻食公司| 很黄的视频免费| 亚洲精品久久国产高清桃花| 国产精品女同一区二区软件 | 精品午夜福利视频在线观看一区| 桃红色精品国产亚洲av| 亚洲五月天丁香| 男女之事视频高清在线观看| 国产精品爽爽va在线观看网站| 丰满乱子伦码专区| 精品一区二区免费观看| 18禁黄网站禁片免费观看直播| 99国产极品粉嫩在线观看| 国产精品综合久久久久久久免费| 国产熟女欧美一区二区| 成年版毛片免费区| 欧美激情久久久久久爽电影| 两性午夜刺激爽爽歪歪视频在线观看| 国产精品亚洲美女久久久| 人妻丰满熟妇av一区二区三区| 小蜜桃在线观看免费完整版高清| 国产v大片淫在线免费观看| 成人鲁丝片一二三区免费| 两人在一起打扑克的视频| 亚洲avbb在线观看| 尤物成人国产欧美一区二区三区| 亚洲av电影不卡..在线观看| 久久精品国产亚洲网站| 国产精品嫩草影院av在线观看 | 丝袜美腿在线中文| 中文字幕熟女人妻在线| 国产精品一区二区三区四区久久| 亚洲精品成人久久久久久| 精品人妻偷拍中文字幕| 欧美三级亚洲精品| 免费看光身美女| 小蜜桃在线观看免费完整版高清| 成人欧美大片| 真实男女啪啪啪动态图| 直男gayav资源| 老司机福利观看| 老司机午夜福利在线观看视频| 免费在线观看成人毛片| 亚洲男人的天堂狠狠| 亚洲成av人片在线播放无| av天堂中文字幕网| 欧美绝顶高潮抽搐喷水| 99热6这里只有精品| 国产人妻一区二区三区在| 毛片女人毛片| 亚洲人成网站在线播| 人妻久久中文字幕网| 一级av片app| 性欧美人与动物交配| 欧美色欧美亚洲另类二区| 美女 人体艺术 gogo| 精品欧美国产一区二区三| 亚洲精品久久国产高清桃花| 毛片一级片免费看久久久久 | 国产欧美日韩一区二区精品| 久久久国产成人免费| 亚洲va在线va天堂va国产| 美女 人体艺术 gogo| 99精品久久久久人妻精品| 国产麻豆成人av免费视频| 国产精品久久久久久久久免| 国产精品一区www在线观看 | 成人永久免费在线观看视频| 两性午夜刺激爽爽歪歪视频在线观看| 看免费成人av毛片| h日本视频在线播放| 久久香蕉精品热| 欧美三级亚洲精品| 国产爱豆传媒在线观看| 国产三级中文精品| 97人妻精品一区二区三区麻豆| 精品国产三级普通话版| 男女做爰动态图高潮gif福利片| 高清日韩中文字幕在线| 国产黄a三级三级三级人| 国产精品三级大全| 最近视频中文字幕2019在线8| 免费观看人在逋| 日本a在线网址| 欧美xxxx黑人xx丫x性爽| 熟女人妻精品中文字幕| 麻豆av噜噜一区二区三区| 国产v大片淫在线免费观看| 亚洲av成人精品一区久久| 午夜精品一区二区三区免费看| 国产综合懂色| 99久久精品一区二区三区| 人妻制服诱惑在线中文字幕| 精品一区二区三区人妻视频| 国产高潮美女av| 1000部很黄的大片| 亚洲人成网站在线播放欧美日韩| 精品一区二区三区视频在线观看免费| 嫩草影视91久久| 婷婷六月久久综合丁香| 国产精品人妻久久久影院| 国产精品免费一区二区三区在线| 精品乱码久久久久久99久播| 亚洲av成人av| 久久久久久大精品| 俄罗斯特黄特色一大片| 亚洲欧美日韩卡通动漫| 人妻少妇偷人精品九色| 国产精品伦人一区二区| 99热这里只有是精品50| 国产亚洲精品av在线| 亚洲色图av天堂| 免费观看在线日韩| 日日啪夜夜撸| 亚洲自拍偷在线| 高清日韩中文字幕在线| 国内毛片毛片毛片毛片毛片| 久久久色成人| 韩国av在线不卡| 老司机福利观看| 天堂影院成人在线观看| 久久久久久久亚洲中文字幕| 日日夜夜操网爽| 色5月婷婷丁香| 网址你懂的国产日韩在线| 亚洲国产高清在线一区二区三| 国产男靠女视频免费网站| 男女做爰动态图高潮gif福利片| 亚洲国产欧美人成| 少妇裸体淫交视频免费看高清| 免费观看的影片在线观看| 免费看日本二区| 天堂网av新在线| 国产精品乱码一区二三区的特点| 亚洲专区中文字幕在线| 久久人人精品亚洲av| 少妇人妻一区二区三区视频| 国产精品一区二区三区四区久久| 丝袜美腿在线中文| 男人的好看免费观看在线视频| 免费观看的影片在线观看| 亚洲人与动物交配视频| 免费看日本二区| 日韩大尺度精品在线看网址| 中国美白少妇内射xxxbb| 亚洲经典国产精华液单| av中文乱码字幕在线| 亚洲精品成人久久久久久| 亚洲自偷自拍三级| 一区二区三区四区激情视频 | 亚洲男人的天堂狠狠| 真实男女啪啪啪动态图| 赤兔流量卡办理| 日韩精品中文字幕看吧| 精品久久久久久久久亚洲 | 精品日产1卡2卡| 国产精品一区二区免费欧美| 91狼人影院| 亚洲经典国产精华液单| 欧美日韩黄片免| 国产女主播在线喷水免费视频网站 | 国产高清视频在线播放一区| 人人妻,人人澡人人爽秒播| 午夜福利欧美成人| 国产精品一区二区三区四区久久| a级毛片免费高清观看在线播放| 99久久九九国产精品国产免费| 不卡一级毛片| 色在线成人网| 久久精品综合一区二区三区| 日本一二三区视频观看| 成人亚洲精品av一区二区| 波多野结衣巨乳人妻| 九九在线视频观看精品| 18禁黄网站禁片免费观看直播| 免费av毛片视频| 久久久久久久精品吃奶| 在线免费观看不下载黄p国产 | 一区二区三区高清视频在线| 美女免费视频网站| 亚洲熟妇熟女久久| 日韩av在线大香蕉| 99精品久久久久人妻精品| 欧美另类亚洲清纯唯美| 亚洲精华国产精华液的使用体验 | 国模一区二区三区四区视频| 一级av片app| 联通29元200g的流量卡| 国产亚洲精品综合一区在线观看| 欧美三级亚洲精品| 搡女人真爽免费视频火全软件 | 日韩国内少妇激情av| av在线蜜桃| 精品国产三级普通话版| 成人特级av手机在线观看| 久久午夜福利片| 99热这里只有是精品在线观看| 国产av一区在线观看免费| 中文资源天堂在线| 动漫黄色视频在线观看| www日本黄色视频网| 18禁在线播放成人免费| 性欧美人与动物交配| 欧美激情久久久久久爽电影| 欧美日韩精品成人综合77777| 淫秽高清视频在线观看| 成年人黄色毛片网站| 蜜桃久久精品国产亚洲av| 国产亚洲精品av在线| 久久久久久九九精品二区国产| 99久久精品热视频| 国产高清有码在线观看视频| 日本撒尿小便嘘嘘汇集6| 免费av观看视频| 1000部很黄的大片| 丰满人妻一区二区三区视频av| 性插视频无遮挡在线免费观看| 极品教师在线视频| 色综合色国产| 99国产极品粉嫩在线观看| 哪里可以看免费的av片| 欧美在线一区亚洲| 亚洲人成伊人成综合网2020| 国产在线精品亚洲第一网站| 99久久九九国产精品国产免费| 免费看a级黄色片| 有码 亚洲区| 日本欧美国产在线视频| 精品久久久久久成人av| 欧美日韩国产亚洲二区| 99国产极品粉嫩在线观看| 亚洲av日韩精品久久久久久密| 午夜激情福利司机影院| 麻豆一二三区av精品| 日韩中文字幕欧美一区二区| 婷婷六月久久综合丁香| 欧美成人a在线观看| 蜜桃久久精品国产亚洲av| 少妇高潮的动态图| 国产一区二区三区av在线 | 亚洲精品456在线播放app | 亚洲精品粉嫩美女一区| 18禁裸乳无遮挡免费网站照片| 免费黄网站久久成人精品| 欧美人与善性xxx| 神马国产精品三级电影在线观看| 美女黄网站色视频| 国产精品久久视频播放| 成人亚洲精品av一区二区| 亚洲无线观看免费| 中文字幕av成人在线电影| 亚洲18禁久久av| 欧美成人一区二区免费高清观看| 中出人妻视频一区二区| 韩国av一区二区三区四区| 成人毛片a级毛片在线播放| 色吧在线观看| 少妇猛男粗大的猛烈进出视频 | 男插女下体视频免费在线播放| 成人亚洲精品av一区二区| 伦精品一区二区三区| 久久欧美精品欧美久久欧美| 少妇的逼好多水| 国内精品宾馆在线| 在线播放国产精品三级| 国产精品国产高清国产av| av中文乱码字幕在线| 成人特级av手机在线观看| 99精品久久久久人妻精品| 国产成人a区在线观看| 变态另类成人亚洲欧美熟女| 久久精品夜夜夜夜夜久久蜜豆| a在线观看视频网站| 亚洲久久久久久中文字幕| 在线观看66精品国产| 97超视频在线观看视频| 1024手机看黄色片| 99精品在免费线老司机午夜| 91久久精品电影网| 日韩大尺度精品在线看网址| 亚洲国产高清在线一区二区三| 99热只有精品国产| 一边摸一边抽搐一进一小说| 国产av一区在线观看免费| 麻豆成人av在线观看| 亚洲综合色惰| 久久久国产成人免费| 天堂av国产一区二区熟女人妻| 日本五十路高清| 日韩强制内射视频| 欧美丝袜亚洲另类 | avwww免费| 欧美在线一区亚洲| 欧美国产日韩亚洲一区| 在线a可以看的网站| 久久久久久久久大av| 亚洲黑人精品在线| 国产又黄又爽又无遮挡在线| 国产亚洲精品久久久久久毛片| 亚洲一级一片aⅴ在线观看| 乱系列少妇在线播放| 99久久精品一区二区三区| 又粗又爽又猛毛片免费看| 日本免费a在线| 日韩欧美在线二视频| 久久精品91蜜桃| 深爱激情五月婷婷| 欧美另类亚洲清纯唯美| 国产熟女欧美一区二区| 十八禁网站免费在线| 99精品久久久久人妻精品| a级一级毛片免费在线观看| 此物有八面人人有两片| 欧美性猛交╳xxx乱大交人| 韩国av在线不卡| 欧美+日韩+精品| 少妇被粗大猛烈的视频| 日韩av在线大香蕉| 高清在线国产一区| 成人特级黄色片久久久久久久| 亚洲精品色激情综合| 简卡轻食公司| 韩国av一区二区三区四区| 18禁黄网站禁片免费观看直播| 国产精品嫩草影院av在线观看 | 一个人看视频在线观看www免费| 最好的美女福利视频网| 丰满乱子伦码专区| 又爽又黄无遮挡网站| h日本视频在线播放| 欧美黑人欧美精品刺激| 久久99热6这里只有精品| 亚洲av五月六月丁香网| 波多野结衣高清作品| 97超级碰碰碰精品色视频在线观看| 亚洲最大成人中文| 波多野结衣高清作品| 亚洲成a人片在线一区二区| 国产高清不卡午夜福利| 国产成人福利小说| 女的被弄到高潮叫床怎么办 | 国产黄色小视频在线观看| 亚洲第一电影网av| 午夜免费成人在线视频| 毛片女人毛片| 中文资源天堂在线| 国产主播在线观看一区二区| 男人的好看免费观看在线视频| 中文字幕久久专区| 999久久久精品免费观看国产| 色哟哟·www| 女人被狂操c到高潮| 老熟妇乱子伦视频在线观看| 色哟哟·www| 色av中文字幕| 日本黄色视频三级网站网址| 一区二区三区四区激情视频 | 天美传媒精品一区二区| 午夜日韩欧美国产| 国产av不卡久久| 午夜精品一区二区三区免费看| 99热只有精品国产| 国产av一区在线观看免费| 精品国产三级普通话版| 久久精品国产亚洲网站| 亚洲成人免费电影在线观看| 日韩欧美免费精品| 日本一本二区三区精品| 日本与韩国留学比较| 性色avwww在线观看| 91狼人影院| 国产亚洲91精品色在线| 午夜福利成人在线免费观看| 亚洲av中文av极速乱 | 麻豆一二三区av精品| www.色视频.com| 夜夜夜夜夜久久久久| 亚洲中文字幕日韩| 男女之事视频高清在线观看| 99精品在免费线老司机午夜| 日韩中字成人| bbb黄色大片| 国产免费一级a男人的天堂| av视频在线观看入口| 18+在线观看网站| 丰满人妻一区二区三区视频av| 成年免费大片在线观看| 亚洲中文字幕日韩| 日本免费a在线| 欧美潮喷喷水| 国产成年人精品一区二区| 久久久国产成人精品二区| 999久久久精品免费观看国产| 一级毛片久久久久久久久女| 最近最新中文字幕大全电影3| av中文乱码字幕在线| 亚洲精品久久国产高清桃花| 国产亚洲精品综合一区在线观看| 99久久精品热视频| 热99re8久久精品国产| 国产精品1区2区在线观看.| a级毛片a级免费在线| 久久精品国产亚洲av天美| 男女啪啪激烈高潮av片| 亚洲精品影视一区二区三区av| 真人做人爱边吃奶动态| 黄色女人牲交| 亚洲人成伊人成综合网2020| 国产一级毛片七仙女欲春2| 亚洲国产精品成人综合色| 久久久久久久久中文| av天堂在线播放| a在线观看视频网站| 又黄又爽又免费观看的视频| 综合色av麻豆| 天堂网av新在线| 一进一出好大好爽视频| 亚洲av电影不卡..在线观看| 波多野结衣高清无吗| 午夜福利视频1000在线观看| h日本视频在线播放| 国内毛片毛片毛片毛片毛片| 99热精品在线国产| 久久久久久久久大av| 日本在线视频免费播放| www日本黄色视频网| 夜夜夜夜夜久久久久| 国产高潮美女av| 18禁裸乳无遮挡免费网站照片| 亚洲国产精品合色在线| av在线天堂中文字幕| 啦啦啦韩国在线观看视频| 日韩欧美三级三区| 日韩欧美在线二视频| 精品久久久久久,| 可以在线观看的亚洲视频| 成人特级黄色片久久久久久久| 男女之事视频高清在线观看| 美女被艹到高潮喷水动态| 他把我摸到了高潮在线观看| 成人鲁丝片一二三区免费| 成人av一区二区三区在线看| 国产精品久久视频播放| 欧美绝顶高潮抽搐喷水| 99九九线精品视频在线观看视频| 联通29元200g的流量卡| 免费电影在线观看免费观看| 国产av一区在线观看免费| 一a级毛片在线观看| 久久精品国产99精品国产亚洲性色| 日韩欧美国产一区二区入口| 亚洲国产色片| 不卡一级毛片| 久久午夜亚洲精品久久| 免费观看在线日韩| 一本久久中文字幕| 国产黄片美女视频| 久久6这里有精品| 国产精品99久久久久久久久| 我要看日韩黄色一级片| 国产欧美日韩精品一区二区| 国产一区二区在线av高清观看| 午夜精品一区二区三区免费看| 色吧在线观看| 尤物成人国产欧美一区二区三区| 草草在线视频免费看| 免费黄网站久久成人精品| 少妇丰满av| 精品99又大又爽又粗少妇毛片 | 一个人观看的视频www高清免费观看| 伊人久久精品亚洲午夜| 俄罗斯特黄特色一大片| 国产午夜精品论理片| а√天堂www在线а√下载| 免费无遮挡裸体视频| 夜夜爽天天搞| 国产精品国产高清国产av| 一个人免费在线观看电影| 国产亚洲精品av在线| 嫩草影院精品99| 亚洲成av人片在线播放无| 综合色av麻豆| 小蜜桃在线观看免费完整版高清| 床上黄色一级片| 国内精品久久久久精免费| 国产精品免费一区二区三区在线| 黄色丝袜av网址大全| 久久久久久久久大av| 精品久久久久久久久久久久久| 精品一区二区免费观看| 又爽又黄a免费视频| 久久这里只有精品中国| 老司机福利观看| 午夜福利欧美成人| 精品日产1卡2卡| 黄片wwwwww| 色尼玛亚洲综合影院| 香蕉av资源在线| 观看免费一级毛片| 亚洲国产欧洲综合997久久,| 亚洲三级黄色毛片| 国产精品一区二区三区四区久久| 国产成人a区在线观看| 哪里可以看免费的av片| av专区在线播放| 九色成人免费人妻av| 亚洲av中文字字幕乱码综合| 色综合站精品国产| 中文字幕高清在线视频| 国产精品爽爽va在线观看网站| 亚洲精华国产精华液的使用体验 | 国产在视频线在精品| 国产精品免费一区二区三区在线| 日本一本二区三区精品|