宮大漢,陳輝,陳仕江,包勇軍,丁貴廣
(1.清華大學(xué) 軟件學(xué)院,北京 100084;2.清華大學(xué) 北京信息科學(xué)與技術(shù)國家研究中心,北京 100084;3.清華大學(xué) 自動化系,北京 100084;4.涿溪腦與智能研究所,浙江 杭州 311121;5.京東集團(tuán),北京 100176)
隨著社交媒體的空前發(fā)展,互聯(lián)網(wǎng)上積累了大量的用戶數(shù)據(jù),比如圖像、文本、語音等。利用這些跨模態(tài)數(shù)據(jù)挖掘用戶需求,提升產(chǎn)品服務(wù),成為了工業(yè)界的迫切需求之一??缒B(tài)圖像文本檢索是實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)挖掘的關(guān)鍵技術(shù)之一。它旨在探索圖像和文本之間的對應(yīng)關(guān)系,實(shí)現(xiàn)圖像和文本的跨模態(tài)信息理解,以及文本檢索圖像或圖像檢索文本的智能服務(wù)。圖像和文本的跨模態(tài)檢索在實(shí)際社交媒體領(lǐng)域有廣泛的技術(shù)應(yīng)用價(jià)值,比如在人機(jī)交互、商業(yè)化廣告文案推薦以及內(nèi)容推薦等領(lǐng)域,因此吸引了眾多研究人員的注意力。
在實(shí)際場景中,跨模態(tài)圖像文本檢索面臨兩大挑戰(zhàn):1)不同模態(tài)數(shù)據(jù)的異質(zhì)性阻礙了模型學(xué)習(xí)到優(yōu)異的跨模態(tài)表示;2)視覺和語言之間關(guān)聯(lián)豐富而復(fù)雜,準(zhǔn)確挖掘兩者的對應(yīng)關(guān)系十分困難。為了解決以上挑戰(zhàn),前人工作提出了特征嵌入表示技術(shù)來聯(lián)合學(xué)習(xí)圖像和文本的特征。Wang等[1]使用雙視圖網(wǎng)絡(luò)分別將圖像和文本映射到共享嵌入空間中,然后采用一個(gè)保結(jié)構(gòu)的雙向目標(biāo)函數(shù)來優(yōu)化網(wǎng)絡(luò)。Faghri 等[2]提出使用難負(fù)例來增強(qiáng)嵌入空間的學(xué)習(xí),實(shí)現(xiàn)了性能的顯著性提升。然而特征嵌入表示方法將圖像和文本信息映射到統(tǒng)一的向量空間中,忽視了圖像和文本信息的復(fù)雜性,以及兩者之間信息關(guān)聯(lián)的多樣性和復(fù)雜性。近年來,研究人員提出了許多方法來挖掘圖像和文本之間的細(xì)粒度的跨模態(tài)關(guān)聯(lián)信息。Karpathy 等[3]將圖像中的每個(gè)區(qū)域與文本中的每個(gè)單詞對齊,提出了一種基于片段的匹配方法。Nam 等[4]使用注意力機(jī)制[5]和記憶機(jī)制來動態(tài)探索圖像和文本之間的微妙交互。Lee 等[6]提出了一種堆疊交叉注意力模型,稱為SCAN,取得了先進(jìn)的圖像文本檢索性能。
SCAN 的成功很好地展示了細(xì)粒度跨模態(tài)關(guān)聯(lián)關(guān)系挖掘的優(yōu)勢。然而,這種方式依靠注意力來實(shí)現(xiàn)片段(即區(qū)域和單詞)之間的匹配,只關(guān)注兩者的一階關(guān)系,并不能反映兩種不同匹配方式之間的一致性。具體來說,SCAN 分別用注意力構(gòu)建了區(qū)域?單詞和單詞?區(qū)域的兩種對齊方式,其中區(qū)域?單詞是計(jì)算所有單詞跟給定區(qū)域的相似性得分,并經(jīng)過規(guī)范化操作得到相似性分布,同樣地,單詞?區(qū)域是計(jì)算所有區(qū)域跟給定單詞的規(guī)范化后的相似性得分。由于規(guī)范化操作,單詞和區(qū)域的相似性度量在兩種對齊方式中會得到不一樣的得分,使得出現(xiàn)不同的情況。比如在圖1中,在區(qū)域?單詞匹配方式中,和區(qū)域r2最相關(guān)的詞是dress,而和beautiful 的相關(guān)性較弱,而在單詞?區(qū)域匹配方式中,區(qū)域r2卻是和beautiful 最相關(guān)的區(qū)域。這種矛盾說明了兩種方式不一致的問題。
圖1 對齊不一致問題Fig.1 Inconsistent alignment problem
本文旨在充分挖掘不同對齊方式的一致性信息,來增強(qiáng)跨模態(tài)圖像和文本的匹配準(zhǔn)確性。本文提出了一種一致性協(xié)議匹配的方法(matching with agreement,MAG),如圖2 所示,在使用注意力機(jī)制得到對齊上下文特征后,構(gòu)建了區(qū)域?單詞關(guān)聯(lián)信息表示和單詞?區(qū)域關(guān)聯(lián)信息表示,并在此基礎(chǔ)上,提出關(guān)聯(lián)信息一致性協(xié)議的匹配策略,提升圖像和文本的跨模態(tài)檢索性能。
圖2 一致性協(xié)議匹配Fig.2 Matching with agreement
所提出的一致性協(xié)議匹配(MAG)方法包含4 個(gè)層,即表示層、對齊層、協(xié)議層和匹配層。其中,在表示層,本文使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)分別提取了圖像區(qū)域和單詞的特征;在對齊層,使用注意力機(jī)制得到區(qū)域?單詞對齊和單詞?區(qū)域?qū)R;接著在協(xié)議層中,兩種不同的對齊可以通過融合注意力機(jī)制里的上下文特征得到關(guān)聯(lián)信息表示,并采用競爭性投票的方案得到對齊一致性得分;最后在匹配層通過聚合不同的匹配線索,獲得圖像文本對之間的相似性。
本文在兩個(gè)大型的跨模態(tài)圖像文本檢索的基準(zhǔn)數(shù)據(jù)集(Flickr30K 和MS COCO)上進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,相比于一系列先進(jìn)的跨模態(tài)圖像文本檢索基線模型,本文提出的一致性協(xié)議匹配方法在兩個(gè)數(shù)據(jù)集上都具有顯著的性能優(yōu)勢,進(jìn)一步的模型分析和實(shí)例分析很好地驗(yàn)證了所提出方法的有效性和優(yōu)越性。
跨模態(tài)圖像文本檢索的相關(guān)工作通常使用深度神經(jīng)網(wǎng)絡(luò)來避免使用手工制作的特征。它們可以大致分為兩類:基于嵌入的方法和基于細(xì)粒度對齊的方法。
基于嵌入的方法通常學(xué)習(xí)一個(gè)共享的嵌入空間,并通過計(jì)算嵌入空間中圖像和文本特征之間的距離來估計(jì)圖像和文本之間的相似性。Frome等[7]嘗試通過CNN[8]和Skip-Gram 模型[9]來學(xué)習(xí)跨模態(tài)表示。類似地,Kiros 等[10]采用 CNN 來提取視覺特征,并采用門循環(huán)單元 (gated recurrent unit,GRU)[11]來提取文本特征。Faghri 等[2]提出了一種難負(fù)例挖掘的三元組損失函數(shù),取得了顯著的性能提升,并成為跨模態(tài)圖像文本檢索領(lǐng)域廣泛使用的目標(biāo)函數(shù)。
基于細(xì)粒度對齊的方法旨在探索圖像和文本之間潛在的細(xì)粒度對應(yīng)關(guān)系。Karpathy 等[3]將圖像和文本的片段對齊到公共空間中,并通過聚合局部對齊來計(jì)算圖像和文本的全局相似度。Niu 等[12]提出了一種分層模型,其中圖像和文本通過分層策略實(shí)現(xiàn)實(shí)例到特征的全局和局部聯(lián)合映射。Lee 等[6]提出了一個(gè)堆疊交叉注意力模型,旨在發(fā)現(xiàn)圖像區(qū)域和文本詞之間的完整潛在對齊,并在多個(gè)基準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)先進(jìn)的性能。
本節(jié)討論所提出的一致性協(xié)議匹配方法,如圖3 所示。
圖3 一致性協(xié)議匹配方法框架Fig.3 Framework of the proposed MAG method
在表示層,本文的目標(biāo)是在潛在共享特征空間中對圖像和文本的信息進(jìn)行特征表達(dá),以估計(jì)它們之間的相似性。給定一個(gè)包含N個(gè)圖像文本對的數(shù)據(jù)集,其中,I代表圖像,S代表文本。本文使用兩個(gè)不同的編碼器分別提取圖像的視覺信息和文本的文本信息。
具體來說,給定圖像I,本文使用一個(gè)預(yù)訓(xùn)練的對象檢測模型Faster R-CNN[13]來充當(dāng)圖像編碼器。Faster R-CNN 會推斷出圖像中的顯著性對象信息,并以包圍框的方式定位到對象的區(qū)域,記為ri,并將經(jīng)過區(qū)域池化操作得到對象的特征記為fi。接著,本文使用一個(gè)線性變換層將區(qū)域特征映射到一個(gè)d隱層特征空間中:
式中:vi是區(qū)域ri在隱層特征空間中的特征表示;Wv和bv是線性變換的可學(xué)習(xí)參數(shù)。為了方便描述,假定圖像I,F(xiàn)aster R-CNN 檢測到m個(gè)對象區(qū)域,則最終可以得到m個(gè)特征來表示圖像I,本文用V={vi|i=1,2,···,m;vi∈Rd} 來表示圖像特征。
給定有n個(gè)詞的文本S={w1,w2,···,wn},本文使用一個(gè)雙向門控循環(huán)單元(bidirectional GRU,Bi-GRU)充當(dāng)文本編碼器。首先,本文首先將每個(gè)離散的單詞wj使用獨(dú)熱碼進(jìn)行表示,接著使用一個(gè)可學(xué)習(xí)的嵌入矩陣將獨(dú)熱碼轉(zhuǎn)化為一個(gè)詞向量ej。然后使用一個(gè)Bi-GRU 分別從左到右(前向)和從右到左(后向)兩個(gè)方向?qū)υ~向量進(jìn)行處理:
對齊層旨在探索視覺信息和文本信息之間的細(xì)粒度關(guān)聯(lián)關(guān)系。和前人工作[14]一樣,我們采用雙向注意力機(jī)制將圖像中的區(qū)域和文本中的單詞巧妙地對齊。具體來說,給定圖像特征V和文本特征T,首先計(jì)算圖像中每個(gè)區(qū)域特征vi和每個(gè)單詞特征tj之間的相關(guān)性:具體來說,給定圖像特征V和文本特征T,首先計(jì)算圖像中每個(gè)區(qū)域特征vi和每個(gè)單詞特征tj之間的相關(guān)性:
這里,本文用余弦距離來度量兩個(gè)向量間的相似性,向量上標(biāo)表示向量轉(zhuǎn)置。A∈Rm×n為相似性矩陣。本文使用注意力機(jī)制計(jì)算每個(gè)區(qū)域的文本上下文特征和每個(gè)單詞的圖像上下文特征。對于區(qū)域ri,在相似性矩陣A中的第i行表示該區(qū)域和文本S的每個(gè)單詞的相似性,為此,對應(yīng)的文本上下文特征可以對文本特征T和相似性Ai進(jìn)行加權(quán)和得到:
同理,可以為每個(gè)單詞計(jì)算它對應(yīng)的圖像上下文特征:
和Chen 等[14]工作一樣,給定一個(gè)圖像文本對(I,S),可以通過聚合每個(gè)區(qū)域特征和其對應(yīng)的文本上下文特征的相似性以及聚合每個(gè)文本特征和其對應(yīng)的圖像上下文特征的相似性得到圖像和文本的相似性:
從式(4)和式(6)可以看出,對齊層利用相似性矩陣A的不同維度來計(jì)算注意力權(quán)重,使得同一個(gè)區(qū)域和單詞計(jì)算得到的區(qū)域-單詞對齊和單詞-區(qū)域?qū)R可能被賦予不同的重要性,導(dǎo)致對齊不一致(如圖1 所示)。本文旨在利用這種不一致的特點(diǎn)來強(qiáng)化對圖像和文本的相似性的建模。為此,本文提出了一種基于協(xié)議的匹配策略,以利用這種對齊不一致的特點(diǎn)。本文首先將對齊層的對齊操作進(jìn)行特征實(shí)例化,并使用競爭性投票的策略將不同對齊在特征空間中進(jìn)行一致性度量,度量結(jié)果作為協(xié)議層的輸出,表征圖像和文本之間的一致性分?jǐn)?shù)。
具體來說,首先定義對齊操作的特征表示為每個(gè)區(qū)域或者單詞和其對應(yīng)上下文特征的加和:
式中:xi表示區(qū)域?單詞對齊的特征表示;yj表示單詞?區(qū)域?qū)R的特征表示。遍歷i和j,可以得到一組區(qū)域?單詞對齊特征實(shí)例X={xi|i=1,2,···,m,xi∈Rd}和單詞?區(qū)域?qū)R特征Y={yj|j=1,2,···,n,yj∈Rd} 。
其次,使用余弦距離來衡量兩種對齊特征的相似性:
式中:Zij衡量以區(qū)域ri為核心的區(qū)域?單詞對齊特征和以單詞wj為核心的單詞?區(qū)域?qū)R特征之間的相似性。如果區(qū)域ri和單詞wj在對方的對齊方式中同等重要,即對齊一致,那么Zij會很大,反之,則是對齊不一致的問題,則Zij會較小。因此,Zi j刻畫了兩種對齊方式是否一致,我們稱式(10)為協(xié)議操作。
為了鼓勵一致性的局部對齊(即區(qū)域?單詞對齊和單詞?區(qū)域?qū)R)能夠在后續(xù)計(jì)算圖像和文本的相似性過程中被賦予更高的重要性,本文對Zij的每一行和每一列分別選取最大值,得到兩種協(xié)議得分:
按行取最值可以讓每個(gè)單詞?區(qū)域?qū)R互相競爭,勝者跟區(qū)域?單詞對齊最一致。同理,按列取最值可以競爭出跟單詞?區(qū)域?qū)R最一致的區(qū)域-單詞對齊。
最后,本文將所有的協(xié)議得分進(jìn)行平均,得到圖像和文本的協(xié)議分?jǐn)?shù):
對比對齊分?jǐn)?shù)(見式(8)),協(xié)議分?jǐn)?shù)Fagr(I,S)可以看成區(qū)域和單詞的二階對齊分?jǐn)?shù),因此作為對齊分?jǐn)?shù)的補(bǔ)充,可以更好地衡量圖像和文本之間的相似性。
匹配層的目的是累積所有匹配線索以估計(jì)圖像和文本之間的相似性。本文將對齊層的對齊分?jǐn)?shù)和協(xié)議層的協(xié)議分?jǐn)?shù)結(jié)合起來計(jì)算給定圖像-文本對 (I,S) 的相似度:
訓(xùn)練時(shí),本文采用Faghri 等[2]提出的基于難負(fù)例的三元組排序損失函數(shù)來訓(xùn)練模型:
式中:(I,S) 表示一對正例樣本;I′和S′分別是文本S和圖像I的負(fù)例樣本;[x]+=max(0,x);Δ 表示排序間隔,即希望查詢樣本和正例樣本之間的相似性比查詢樣本和最難負(fù)例樣本之間的相似性大一個(gè) Δ。
此外,考慮到在協(xié)議層中本文希望能夠挖掘更多的一致性對齊來增強(qiáng)對圖像和文本相似性的度量,為此本文采用Chen 等[14]的方法引入語義一致性損失函數(shù):
在訓(xùn)練過程中,從數(shù)據(jù)集中采樣一批次圖像文本對進(jìn)行訓(xùn)練,即 {(Ik,Sk)}Nb~D,最終的損失函數(shù)是排序損失和一致性損失的加權(quán)和:
式中 λaln是一個(gè)可調(diào)節(jié)平衡超參數(shù)。
1) 數(shù)據(jù)集。本文采用了兩個(gè)跨模態(tài)圖像文本標(biāo)準(zhǔn)基線數(shù)據(jù)集來驗(yàn)證所提出的一致性協(xié)議匹配方法。①Flickr30K[15]。這個(gè)數(shù)據(jù)集由31000 張圖片組成,每張圖片都至少標(biāo)注了5 個(gè)英文文本。本文采用29000 張圖片作為訓(xùn)練集,1000 張圖片作為驗(yàn)證集,剩下的1000 張圖片作為測試集,這也是標(biāo)準(zhǔn)的數(shù)據(jù)劃分。②MSCOCO[16]。COCO數(shù)據(jù)集大概有123000 張圖片,每張圖片標(biāo)注了至少5 個(gè)英文句子。和前人工作[1]一樣,本文將123 287張圖片劃分為113 287、5 000 和5000,分別構(gòu)成了訓(xùn)練集、驗(yàn)證集和測試集。為了能夠公平地評價(jià)模型的結(jié)果以及跟別人的工作進(jìn)行對比,本文同時(shí)展示在5000 張測試圖片上的整體性能(用MS COCO(5K)表示)以及5 次實(shí)驗(yàn)(每次1000 張圖片(用MS COCO(1K)表示)的平均值。
2) 評價(jià)指標(biāo)。本文進(jìn)行了圖像檢索文本和文本檢索圖像兩類不同的檢索任務(wù),采用前K召回率(R@K)來評測兩種跨模態(tài)檢索性能,并且和前人的工作進(jìn)行對比。具體來說,本文展示R@1、R@5 和R@10 的結(jié)果,并且,跟Chen 等[14]的工作一樣,本文將所有的指標(biāo)加起來來綜合評價(jià)模型的性能,該指標(biāo)用R@sum 表示。
3) 實(shí)現(xiàn)細(xì)節(jié)。本文使用Pytorch1.0[17]來實(shí)現(xiàn)所提出的方法。在構(gòu)建模型時(shí),本文將圖像區(qū)域特征的維度設(shè)置為1024。Bi-GRU 的隱藏向量的維度也是1024,使得圖像區(qū)域特征和單詞特征的維度一致。訓(xùn)練過程中,三元組損失函數(shù)中的排序間隔設(shè)置為0.2,即式(14) 中的 Δ 默認(rèn)為0.2,式(4)中的溫度因子 λ 默認(rèn)設(shè)置為9。在更新網(wǎng)絡(luò)參數(shù)時(shí),本文采用Adam[18]優(yōu)化器來優(yōu)化,并且每批次數(shù)據(jù)容量為128 張圖像文本對。
為了驗(yàn)證所提出的一致性協(xié)議匹配方法的先進(jìn)性,本文引入了目前相關(guān)的先進(jìn)的跨模態(tài)圖像文本檢索方法,并在Flickr30K 和MS COCO 兩個(gè)數(shù)據(jù)集上都進(jìn)行了模型對比。本文對比的基線模型有DVSA[3]、VSE++[2]、DPC[19]、SCO[20]、SCAN[6]、PFAN[21]、PVSE[22]和SC[14]。其中,SCAN、PFAN、PVSE 和SC 跟本文一樣,都是致力于挖掘圖像和文本之間的細(xì)粒度跨模態(tài)關(guān)聯(lián)來提升跨模態(tài)檢索性能。表1、2、3 分別給出了本文的方法和基線模型在Flickr30K 和MS COCO 上的對比結(jié)果,其中,表格中第1 列中帶*標(biāo)記的方法表示該結(jié)果是采用模型集成的結(jié)果,“—”表示該結(jié)果未在原始論文中給出。
表1 Flickr30K 上對比結(jié)果Table 1 Comparison with state-of-the-art methods on Flickr30K
表2 MS COCO(1K)上對比結(jié)果Table 2 Comparison with state-of-the-art methods on MS COCO(1K)
表3 MS COCO(5K)上對比結(jié)果Table 3 Comparison with state-of-the-art methods on MS COCO(5K)
從表1、2、3 中可以看到,本文提出的一致性協(xié)議匹配方法在兩個(gè)數(shù)據(jù)集上都取得了比基線模型更優(yōu)異的跨模態(tài)圖像文本檢索性能。具體來說,1)在Flickr30K 上,本文的MAG*取得了比最好的基線模型SC*更好的性能,特別是在圖像檢索文本任務(wù)的R@1 上提高了4.7%,在文本檢索圖像的R@1 上取得了0.3%的性能提升,整體上提升了8.7%(R@sum);2)在MS COCO(1K)中,本文的MAG*獲得了更先進(jìn)的性能,與 SC* 相比,本文的MAG*在圖像檢索文本任務(wù)的R@1 上可以獲得76.1%的召回率,提高了2.3%,在文本檢索圖像任務(wù)的R@1 上,MAG*取得了60.6%的性能,提升了0.7%;3)在MS COCO(5K)中,本文的MAG*在大多數(shù)評價(jià)指標(biāo)上也獲得了優(yōu)于最佳基線SCAN*的卓越性能。相比于SCAN*,MAG*在圖像檢索文本任務(wù)上最多可以獲得3.7%(R@1)的性能提升,整體提升3%。這些結(jié)果證明了所提出的一致性匹配方法的有效性。
本節(jié)對所提出的一致性協(xié)議匹配方法中的重要因素進(jìn)行分析。首先分析匹配層中語義一致性損失的作用。語義一致性損失可以驅(qū)動兩個(gè)獨(dú)立注意力模塊的對齊保持一致,有助于后續(xù)基于協(xié)議的匹配過程。因此,本文通過調(diào)節(jié)式(16)中的λaln超參數(shù)來觀察模型性能的變化,結(jié)果展示在表4 中。從表4 可以看出,當(dāng)沒有對模型施加語義一致性約束時(shí)(λaln=0),模型的性能較低,當(dāng)λaln>0,模型都有一定的性能的提升,當(dāng) λaln=1 時(shí),模型取得了最好的性能。
表4 語義一致性損失函數(shù)的影響Table 4 Effect of the semantic consistency objective
本文接著對圖像和文本的相似性度量進(jìn)行分析。為了觀察所提出的協(xié)議層的影響,本文通過逐步擦除Fagr(I,S) 的組成來分析各個(gè)項(xiàng)對模型的影響。分析結(jié)果見表5,第1 行是本文提出的MAG 的默認(rèn)使用方式,即Faln+Fagr,第2 行是去掉了Fagr中的右邊一項(xiàng),只保留那一項(xiàng)(見式(12)),第3 行是去掉了Fagr中的左邊一項(xiàng),只保留那一項(xiàng),最后一行是把Fagr全部去掉得到的模型,即去掉整個(gè)協(xié)議層。可以看出,跟去掉協(xié)議層的模型(最后一行) 相比,不管是僅保留、僅保留還是兩者都保留,只要有協(xié)議層存在,模型都能取得顯著的性能提升,特別是,都保留的話,模型取得了最好的性能。這些結(jié)果顯示了所提出的一致性協(xié)議匹配的有效性。
表5 協(xié)議層的影響Table 5 Effect of the agreement layer
本文對模型進(jìn)行進(jìn)一步的實(shí)例分析。在圖4中,本文展示了兩個(gè)實(shí)例,在每個(gè)可視化示例中,分別在左側(cè)和右側(cè)的圖像展示了給定文本中的兩個(gè)單詞(分別用藍(lán)色和綠色標(biāo)記)及其在圖像區(qū)域上的注意力結(jié)果,這種注意力結(jié)果可以被看作是單詞-區(qū)域?qū)R。對于中間的圖像,本文展示了一個(gè)顯著性區(qū)域跟文本中單詞的注意力結(jié)果,這可以看作是區(qū)域-單詞對齊。這里用紅色的雙
圖4 一致性協(xié)議匹配實(shí)例分析Fig.4 Examples of the proposed MAG method
向箭頭表示兩種對齊之間的一致性得分。
可以看到,在兩個(gè)單詞-區(qū)域?qū)R(左和右)中,對應(yīng)的詞都與紅色框中的區(qū)域高度相關(guān)。而在區(qū)域-單詞對齊(中間)中,左側(cè)的單詞與區(qū)域的相關(guān)性更高,導(dǎo)致左側(cè)的對齊一致性得分高于右側(cè)。例如,在圖4(a)中,左邊和右邊的圖像中的注意力結(jié)果表明“Baseball”和“incoming”都與紅框中的區(qū)域有很強(qiáng)的相關(guān)性。然而,中間的圖像顯示紅色區(qū)域與單詞“Baseball”的相關(guān)性高于單詞“incoming”,使得左側(cè)單詞-區(qū)域?qū)R和中間區(qū)域-單詞對齊之間的一致性得分更高。未來,本文將繼續(xù)在跨模態(tài)行人再識別[23-24],跨模態(tài)哈希檢索[25]等其他跨模態(tài)任務(wù)挖掘這種關(guān)聯(lián)一致性問題,并將本文的方法進(jìn)行應(yīng)用擴(kuò)展,促進(jìn)跨模態(tài)學(xué)習(xí)的發(fā)展。
本文針對跨模態(tài)圖像文本任務(wù)提出了一種一致性協(xié)議匹配方法。與之前的工作一樣,首先使用注意力機(jī)制充分探索了圖像中區(qū)域和文本中單詞之間的單詞-區(qū)域和區(qū)域-單詞的對齊方式,接著提出跨模態(tài)協(xié)議來估計(jì)對齊的一致性。本文將協(xié)議的推導(dǎo)過程實(shí)例化為模型的協(xié)議層,并采用了一種新穎的競爭性投票方案,為細(xì)粒度跨模態(tài)關(guān)聯(lián)關(guān)系提供強(qiáng)有力的協(xié)議準(zhǔn)則,促進(jìn)模型對圖像文本之間的相似性的準(zhǔn)確建模。本文在兩個(gè)基準(zhǔn)數(shù)據(jù)集(Flickr30K 和MS COCO)上進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法取得了先進(jìn)的跨模態(tài)圖像文本檢索性能,很好地驗(yàn)證了方法的有效性。