張知奇 袁鑫攀 曾志高
摘? 要:大多數(shù)現(xiàn)有的跨模態(tài)檢索方法僅使用每個(gè)模態(tài)內(nèi)的模態(tài)內(nèi)關(guān)系或圖像區(qū)域和文本詞之間的模態(tài)間關(guān)系。文章中提出了一種基于自然語(yǔ)言的句法依存關(guān)系的視覺(jué)語(yǔ)言模型,稱(chēng)為Dep-ViLT。通過(guò)句法依存分析,構(gòu)建句法依存樹(shù),利用單向的句法依存關(guān)系增強(qiáng)核心語(yǔ)義的特征表達(dá),促進(jìn)語(yǔ)言模態(tài)與視覺(jué)模態(tài)的特征交互。實(shí)驗(yàn)表明,Dep-ViLT對(duì)比現(xiàn)有的SOTA模型召回率(R@K)平均提升了1.7%,最高提升2.2%。最重要的是,Dep-ViLT在具有復(fù)雜語(yǔ)法結(jié)構(gòu)的長(zhǎng)難句中依然表現(xiàn)良好。
關(guān)鍵詞:句法依存;跨模態(tài)檢索;圖卷積;Transformer
中圖分類(lèi)號(hào):TP391.3? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)10-0074-06
Abstract: Most of the existing cross-modal retrieval methods only use the intra-modal relationship within each mode or the inter-modal relationship between image regions and text words. This paper proposes a visual language model based on the syntactic dependency relationship of natural language, called Dep-ViLT. Through syntactic dependency analysis, the syntactic dependency tree is constructed, and the one- directional syntactic dependency relationship is used to enhance the feature expression of core semantics and promote the feature interaction between language mode and visual mode. The experiment shows that the recall rate (R@K)of Dep-ViLT compared with the existing SOTA model has an average increase of 1.7%, with a maximum increase of 2.2%. Most importantly, the Dep-ViLT still performs well in long and difficult sentences with complex grammatical structures.
Keywords: syntactic dependency; cross-modal retrieval; figure convolution; Transformer
0? 引? 言
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)呈現(xiàn)出爆發(fā)式增長(zhǎng),這些數(shù)據(jù)通常以多模態(tài)形式呈現(xiàn),包括但不限于圖片以及對(duì)應(yīng)的文本描述,因此跨模態(tài)檢索(例如,使用圖像查詢來(lái)搜索相關(guān)文本,反之亦然)已成為一個(gè)突出的研究主題。
提升跨模態(tài)圖文檢索準(zhǔn)確度的關(guān)鍵是特征表示,為了解決不同模態(tài)信息的異構(gòu)鴻溝問(wèn)題,首先想到的就是對(duì)不同模特的數(shù)據(jù)進(jìn)行單獨(dú)的特征提取。在基于特征表示的方法中,針對(duì)單模態(tài)特征,Peng[1]等人提出了模態(tài)針對(duì)型深層結(jié)構(gòu)模型(Modality-Specific Deep Structure, MSDS)。該模型通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取圖像區(qū)域特征,通過(guò)WCNN提取文本表征。WCNN可以處理任意大小的文本序列并獲取具有相同維度的結(jié)果特征向量[2]。隨后,基于模態(tài)針對(duì)型深層結(jié)構(gòu)模型,HE等人[3]提出了深度雙向表示學(xué)習(xí)模型(Deep and Bidirectional Representation Learning Model, DBRLM)的方法,利用圖像的圖題中的結(jié)構(gòu)信息和位置信息進(jìn)行數(shù)據(jù)增強(qiáng),利用不對(duì)稱(chēng)結(jié)構(gòu)學(xué)習(xí)模態(tài)間的關(guān)系,拓展了雙向網(wǎng)絡(luò)模型的研究思路。
針對(duì)單標(biāo)簽或多標(biāo)簽問(wèn)題,為了更好地彌合視覺(jué)語(yǔ)義和文本語(yǔ)義間的差距,Qi等人[4]使用了深度卷積激活特征描述子(Deep Convolutional Activation Feature, DeCAF),將卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的預(yù)測(cè)作為ImageNet的輸入視覺(jué)特征。實(shí)驗(yàn)表明,深度卷積激活特征描述子可以使ImageNet再次學(xué)習(xí)卷積神經(jīng)中提取的圖像特征,精煉圖像特征,并且效果優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)。由于CNN預(yù)訓(xùn)練模型具有良好可遷移性質(zhì),針對(duì)同一問(wèn)題,Song等人[5]采取微調(diào)CNN預(yù)訓(xùn)練模型方案,提出了深度語(yǔ)義匹配方法(Deep Semantic Matching, deep-SM),對(duì)不同模態(tài)的數(shù)據(jù)采取不同的損失函數(shù),使用微調(diào)的CNN和重新訓(xùn)練的FN將圖像和文本投影到同一緯度的向量特征空間中,如圖1所示。實(shí)驗(yàn)表明,微調(diào)的方法可以提高模型對(duì)目標(biāo)數(shù)據(jù)集的適應(yīng)性,有效降低訓(xùn)練難度,拉近多模態(tài)數(shù)據(jù)的語(yǔ)義異構(gòu)距離。
綜上所述,目前的基于單模態(tài)特征表示的方法有兩種方式來(lái)更好地提取多模態(tài)輸入特征:
1)針對(duì)不同模態(tài),采用針對(duì)性的方法提取單模態(tài)特征來(lái)增強(qiáng)圖像和文本的表征能力。該方法對(duì)大規(guī)模的特定數(shù)據(jù)集具有良好的特征學(xué)習(xí)能力。
2)微調(diào)或者改進(jìn)CNN模型。在大規(guī)模的多標(biāo)簽數(shù)據(jù)集上,該方法具有良好的適應(yīng)性和遷移性。
但是,目前研究者在基于單模態(tài)特征表示的方法中更傾向于對(duì)視覺(jué)特征的表征方法的改良,文本數(shù)據(jù)在跨模態(tài)語(yǔ)義特征提取過(guò)程中并沒(méi)有得到很好的研究[6]。
針對(duì)文本數(shù)據(jù)在跨模態(tài)語(yǔ)義特征提取問(wèn)題,我們將目光鎖定在詞嵌入方法的選取上。因?yàn)獒槍?duì)視覺(jué)模態(tài),ViLT已經(jīng)采取了最簡(jiǎn)單的處理方式,將視覺(jué)模態(tài)的大部分計(jì)算量轉(zhuǎn)移到了模態(tài)交互層。所以說(shuō)能否正確理解文本語(yǔ)義將直接決定ViLT的模態(tài)交互效果。在融合語(yǔ)義理解的能力上,句法依存關(guān)系具有天然的優(yōu)勢(shì)。本文以ViLT模型為基礎(chǔ),在文本嵌入中引入句法依存樹(shù),利用句法依存樹(shù)對(duì)文本重新建模,并進(jìn)行依存分析,通過(guò)斯坦福NLP工具抽取文本的句法依存三元組,以詞為節(jié)點(diǎn),依存弧為邊,構(gòu)建句法依存圖,并將句法依存圖輸入到GCN中得到句法依存關(guān)系的表征。句法依存圖如圖2所示。句法依存關(guān)系將句子表示為有向樹(shù),在相關(guān)單詞之間具有修飾依存弧,一個(gè)依存弧單向連接兩個(gè)詞,分別是核心詞(head)和依存詞(dependent)并標(biāo)注詞性,弧邊標(biāo)注依存關(guān)系的類(lèi)型。從圖2中可以看出,“man”是“sits”的名詞主語(yǔ),屬于動(dòng)作的施加者?!癰aby”是“holds”的直接賓語(yǔ),而且“sits”和“holds”這兩個(gè)動(dòng)作之間是依賴(lài)關(guān)系,因此“baby”屬于主語(yǔ)“man”的動(dòng)作“sitsholds”的直接承受對(duì)象。這兩個(gè)依存方向共同構(gòu)成了一個(gè)有效的證據(jù),即“mansitsholdsbaby”。我們將文本嵌入的注意力從雙向的上下文語(yǔ)義轉(zhuǎn)換到單向的句法依存方向上。再?gòu)牧硪环矫婵梢钥闯觥皊hirt”是“man”的復(fù)合名詞,它們之間的關(guān)系是關(guān)聯(lián)修飾,句法依存樹(shù)能直接將核心詞“man”鏈接到“shirt”,表示“shirt”和“man”這兩個(gè)詞是強(qiáng)相關(guān)的,理應(yīng)給予更多的注意力。因此引入句法信息可以有效幫助模型提高檢索性能和增強(qiáng)語(yǔ)義中心可解釋性。
綜上所述,本文的貢獻(xiàn)如下:
針對(duì)詞嵌入無(wú)法明確主語(yǔ)動(dòng)作行為的對(duì)象導(dǎo)致的歧義問(wèn)題,提出基于句法依存分析和圖卷積的ViLT模型。通過(guò)句法分析得到依存關(guān)系三元組,其中單向的依存弧代表依存方向。該模型能夠充分學(xué)習(xí)句子中的復(fù)雜語(yǔ)義依賴(lài)關(guān)系和單詞粒度的詞性標(biāo)注。
將Dep-ViLT(Dependency-Vision and Language Transformer)在MSCOCO和Filck30K這兩大數(shù)據(jù)集中進(jìn)行大量對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明句法依存信息對(duì)模型的訓(xùn)練和預(yù)測(cè)有著至關(guān)重要的指導(dǎo)作用。
1? Dep-ViLT
如圖3所示,Dep-ViLT主要由三部分組成:
1)針對(duì)輸入的文本模態(tài)使用BERT將單詞裝換成詞向量。針對(duì)輸入的圖像使用簡(jiǎn)單的線性切割將圖片分割成N個(gè)圖像塊。并標(biāo)注位置信息。
2)根據(jù)文本構(gòu)建它的句法依存樹(shù),標(biāo)記每個(gè)單詞的詞性,并將其輸入至圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)中,得到句法依存特征。
3)輸入到Transformers模態(tài)交互層進(jìn)行交互計(jì)算,得到全連接層的概率分布。
1.1? Word Embedding and Image Preprocessing
假設(shè)輸入的文本為 ,通過(guò)詞嵌入矩陣 和位置嵌入矩陣? 嵌入到 。其中L表示文本長(zhǎng)度,H表示隱藏層深度,V表示單個(gè)詞向量的維度。
假設(shè)輸入的圖像為? 被分割并展平為圖像塊 ,其中C表示圖像通道數(shù),H和W表示圖像的長(zhǎng)和寬,(P,P)表示圖像塊分辨率,N=HW/P2。接著將? 線性投影到? 并加上位置嵌入矩陣? 得到 。
1.2? 句法依存分析
句法是句子中詞與詞之間相互依賴(lài)的關(guān)系和關(guān)系類(lèi)型的合集,包括但不限于主謂賓,定狀補(bǔ)等句法關(guān)系,將所有詞與詞之間的依存關(guān)系抽取出來(lái),以句子中的中心詞為根節(jié)點(diǎn),其余詞語(yǔ)為子節(jié)點(diǎn),依賴(lài)關(guān)系為邊,構(gòu)建句法依存樹(shù)。句法依存樹(shù)可以清晰地表達(dá)出句子中詞與詞之間的邏輯關(guān)系,不管在物理上距離多遠(yuǎn),只要存在相互修飾關(guān)系,則在樹(shù)中的距離會(huì)很相近[7]。為了分析抽取句子中的依存關(guān)系,本文利用工具得到文本的依存樹(shù)表示。傳統(tǒng)的機(jī)器學(xué)習(xí)算法通常將句法依存關(guān)系轉(zhuǎn)化成向量,與文本的語(yǔ)義向量合并后,用于機(jī)器學(xué)習(xí)的輸入,這樣的學(xué)習(xí)方并沒(méi)有與語(yǔ)義向量進(jìn)行有效融合[7],所以本文通過(guò)工具得到句法依存信息,再將依存信息重構(gòu)成句法依存圖表示,用于圖卷積神經(jīng)網(wǎng)絡(luò)中。具體步驟如下。
1.2.1? 基于依存語(yǔ)法拆分句子
本章所討論的句法依存樹(shù)使用斯坦福公開(kāi)的句法分析工具Stanford Core NLP(斯坦福句法分析器)產(chǎn)生。該工具是一個(gè)基于jvm的注釋管道框架,它提供了從標(biāo)記化到共同引用解析的大部分公共核心自然語(yǔ)言處理的步驟。例如:“A man in a white t-shirt sits holds a newborn baby with a small hat on”。通過(guò)斯坦福句法分析器可以快速地對(duì)句子進(jìn)行依存句法分析,其分析結(jié)果如表1所示。
其中,分詞方法會(huì)將中文句子進(jìn)行分詞操作,并且返回一個(gè)分詞后的列表。詞性分析方法則會(huì)將分詞后的詞表進(jìn)行詞性標(biāo)注。
1.2.2? 構(gòu)建句法依存圖
第一步獲得有效的句子依存結(jié)構(gòu)關(guān)系后,句子通過(guò)Dependency Parser 方法生成句子依存三元組,獲得如表1中最后一行所示的依存關(guān)系元組。Dependency parse方法返回一個(gè)依存關(guān)系三元組的列表,列表中每一項(xiàng)的格式如下:(依存關(guān)系,關(guān)系出發(fā)索引,關(guān)系結(jié)束索引)其中,Root代表依存樹(shù)的根節(jié)點(diǎn),根節(jié)點(diǎn)的出發(fā)索引為0,結(jié)束索引為9。該索引代表了分詞列表中以9為起始點(diǎn)的該索引所代表的詞。如在表1中,索引為9所代表的詞為“sits”。根據(jù)依存關(guān)系元組即可構(gòu)建出如圖4的句法依存圖。
1.2.3? GCN解析
本文引入GCN對(duì)句法依存圖展開(kāi)分析。利用G={V,E}表示基于依存句法樹(shù)構(gòu)建的句法依存圖,V表示一個(gè)句子中的所有節(jié)點(diǎn),即詞的集合;E表示邊的集合,即所有依存關(guān)系的集合?;谝来婢浞?shù)中的依存關(guān)系,在句子中,如果某一個(gè)詞是某條依存關(guān)系的依存詞,則在關(guān)聯(lián)矩陣中元素賦值為1。若句子中的某個(gè)詞是某條依存關(guān)系的被依存詞,則賦值為-1;若不存在依存關(guān)系,則賦值為0。這樣即得到一個(gè)稀疏的關(guān)聯(lián)矩陣A。之后基于關(guān)聯(lián)矩陣A表示的圖G,利用GCN對(duì)圖中節(jié)點(diǎn)si進(jìn)行卷積,得到特征DEPi,具體如式(3)所示:
其中,ReLU表示激活函數(shù);A表示聯(lián)矩陣; 表示A的度矩;;Wc表示GCN的權(quán)重矩陣。
1.3? Transformers Encoder
2? 實(shí)驗(yàn)結(jié)果與分析
2.1? 數(shù)據(jù)集和評(píng)估方法
本文在兩個(gè)廣泛使用的數(shù)據(jù)集上對(duì)Dep-ViLT進(jìn)行多模態(tài)檢索任務(wù)評(píng)估,數(shù)據(jù)集的樣本如圖5所示(圖中示例來(lái)自Filckr30K,其ImageId為69551477),數(shù)據(jù)集統(tǒng)計(jì)如表2所示(文本長(zhǎng)度是來(lái)自bert-base-uncased標(biāo)記的長(zhǎng)度)。
1)MSCOCO是一個(gè)由123 287個(gè)圖像組成的大型圖像文本數(shù)據(jù)集,其中每個(gè)圖像都用5句自然語(yǔ)言進(jìn)行描述。我們采用MSCOCO的標(biāo)注將數(shù)據(jù)集分割:5 000張圖像用于測(cè)試,5 000張圖像用于驗(yàn)證,其余113 287張圖像用于訓(xùn)練。
2)Flickr30K總共包含31 000張圖片和158 915個(gè)自然語(yǔ)言描述。每個(gè)圖像通常用5句自然語(yǔ)言進(jìn)行描述。在分割之后,我們使用1 000張圖像進(jìn)行測(cè)試,另外1 000張用于驗(yàn)證,其余用于訓(xùn)練。
本文采用在跨模態(tài)檢索中廣泛使用的查詢問(wèn)題評(píng)價(jià)指標(biāo)R@k(k=1,5,10)用于性能評(píng)估,表示前k個(gè)檢索結(jié)果中相關(guān)結(jié)果數(shù)與所有相關(guān)結(jié)果數(shù)的比率,衡量的是檢索系統(tǒng)的查全率。計(jì)算方式如式(8):
對(duì)于單一查詢,在系統(tǒng)中搜索k個(gè)最近的結(jié)果,若返回的k個(gè)結(jié)果中至少存在一個(gè)相符的搜索結(jié)果,則該次查詢的score記為1,否則記為0。
2.2? 實(shí)驗(yàn)設(shè)置
對(duì)于所有的實(shí)驗(yàn),我們使用AdamW優(yōu)化器,在前5個(gè)epoch中將初始學(xué)習(xí)率設(shè)置為5×10-5,然后在其余的epochs中使學(xué)習(xí)率線性衰減。
為了方便探究句法依存樹(shù)是如何影響文本的特征提取過(guò)程的,我們將語(yǔ)言模態(tài)輸入分為三種類(lèi)型:原始文本、句法依存樹(shù)、經(jīng)過(guò)詞性標(biāo)注后的句法依存樹(shù)。作為Dep-ViLT的語(yǔ)言模態(tài)的輸入,上述三種類(lèi)型可以自由排列組合,并在Transformers中進(jìn)行交互。我們對(duì)原始文本的嵌入部分采用基于BERT-base的模型作為文本編碼器,該模型總共包含12個(gè)Transformer層,其中含有768個(gè)隱藏單元和12個(gè)heads。此外,為了提高計(jì)算效率,Dep-ViLT使用ViT-B/16作為圖像編碼器,輸入圖像分辨率為384×384。
2.3? 對(duì)比實(shí)驗(yàn)
本文分別選取以下5種模型與Dep-ViLT進(jìn)行實(shí)驗(yàn)比較,它們分別是SCAN、CAAN、MMCA、SGRAF、COTS。其中COTS是現(xiàn)在的跨模態(tài)領(lǐng)域中的SOTA方法。
2.3.1? SCAN
SCAN[8](Stacked Cross Attention for Image-Text Matching)提出了深度視覺(jué)語(yǔ)義對(duì)齊的堆疊交叉注意力機(jī)制,捕捉視覺(jué)和語(yǔ)言之間的更深層次的語(yǔ)義聯(lián)系,推斷圖像-文本相似性。并使圖像-文本匹配更易于解釋。
2.3.2? CAAN
CAAN[9](Context-Aware Attention Network for Image-Text Retrieval)提出了一個(gè)統(tǒng)一的上下文感知注意力網(wǎng)絡(luò),基于給定的上下文從全局的角度自適應(yīng)地選擇信息片段,其中包括單一模態(tài)中的上下文語(yǔ)義以及圖像語(yǔ)義實(shí)體區(qū)域和文本單詞之間的對(duì)齊關(guān)系。
2.3.3? MMCA
MMCA[10](Multi-Modality Cross Attention Network for Image and Sentence Matching)通過(guò)在統(tǒng)一的深度網(wǎng)絡(luò)模型中聯(lián)合圖像區(qū)域和單詞的模態(tài)內(nèi)關(guān)系和模態(tài)間關(guān)系,提出了一種新的用于圖像和文本匹配的多模態(tài)交叉注意網(wǎng)絡(luò)。
2.3.4? SGRAF
SGRAF[11](Similarity Reasoning and Filtration for Image-Text Matching)在MMCA的基礎(chǔ)上提出了相似度圖推理(SGR)模塊來(lái)通過(guò)圖推理推斷圖像文本的相似度,該模塊可以識(shí)別更復(fù)雜的匹配模式,并通過(guò)捕獲局部和全局對(duì)齊之間的關(guān)系來(lái)實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè)。為了在相似性聚合中減少非關(guān)鍵詞的干擾,提出了一個(gè)有效的相似性注意過(guò)濾(SAF)模塊來(lái)抑制不相關(guān)的交互,以進(jìn)一步提高匹配精度。
2.3.5? COTS
Lu[12]等人提出了一種新的雙流VLP模型(Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval, COTS)。為了提高雙流模型的性能,同時(shí)保持其高效率,除了實(shí)例級(jí)對(duì)齊之外,COTS還利用了兩個(gè)額外的跨模式學(xué)習(xí)目標(biāo):一是用于令牌級(jí)交互的掩蔽視覺(jué)語(yǔ)言建模(MVLM)學(xué)習(xí)目標(biāo)。二是用于任務(wù)級(jí)交互(Task-Levelinteraction, KL)對(duì)齊學(xué)習(xí)目標(biāo)。為了減輕大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)中噪聲所帶來(lái)的負(fù)面影響,Lu提出了一種自適應(yīng)動(dòng)量濾波器(AMF)模塊。AMF在實(shí)例級(jí)對(duì)齊中充分利用動(dòng)量機(jī)制,并在預(yù)訓(xùn)練期間自適應(yīng)地過(guò)濾有噪聲的圖像文本對(duì)。值得一提的是,目前COTS在所有的雙流模型中表現(xiàn)出了最高的性能,并且與最新的單流模型相比,模型性能相當(dāng),但是推理速度快10 800倍。
我們?cè)趦蓚€(gè)廣泛使用的圖像文本數(shù)據(jù)集Flickr30K和MSCOCO上比較了我們的Dep-ViLT和最先進(jìn)的方法,結(jié)果如表3所示(I2TRetrieval為圖像檢索文本;T2IRetrieval為文本檢索圖像;#為本文提出的方法;Dep-ViLT-Base為只有句法依存樹(shù)。Dep-ViLT-P(Partofspeech):包含句法依存樹(shù)和詞性標(biāo)注;Dep-ViLT-O(Originaltext):包含句法依存樹(shù)和原始文本;Dep-ViLT-OP(OriginaltextandPartofspeech):包含句法依存樹(shù)和原始文本,并開(kāi)啟詞性標(biāo)注)。
表3是各類(lèi)算法在Flickr30K和MSCOCO數(shù)據(jù)集下的R@K指標(biāo)的實(shí)驗(yàn)結(jié)果,整體來(lái)說(shuō),在R@K指標(biāo)上本文所提的Dep-ViLT算法都優(yōu)于其他對(duì)比方法。
Dep-ViLT在R@1、R@5和R@10的檢索查全率指標(biāo)上大大優(yōu)于SCAN、CAAN、MMCA、SGRAF這四種單流模型。具體而言,與最新的單流模型SGRAF相比,我們的Dep-ViLT-Base在均使用MSCOCO數(shù)據(jù)集的情況下在I2TRetrieval任務(wù)中取得了R@1指標(biāo)的5.41%(63.21% VS 57.8%)的領(lǐng)先,在T2IRetrieval任務(wù)中,R@1和R@10均有5%(46.83% VS 41.9%,86.96% VS 81.3%)的提升幅度。此外,當(dāng)Dep-ViLT同時(shí)引入句法依存樹(shù)和原始文本并為句法依存樹(shù)開(kāi)啟詞性標(biāo)注時(shí),我們的Dep-ViLT進(jìn)一步提升了性能。
Dep-ViLT與雙流模型的對(duì)比同樣也是可圈可點(diǎn)。在于最近的SOTA模型COTS的對(duì)比中,可以看到在I2TRetrieval任務(wù)下,兩者的R@K性能表現(xiàn)不相上下,F(xiàn)lickr30K數(shù)據(jù)集中的R@5和MSCOCO數(shù)據(jù)集中的R@1和R@10對(duì)比COTS均有小幅度的優(yōu)勢(shì)。但是在T2IRetrieval任務(wù)下,我們的Dep-ViLT-OP明顯優(yōu)于COTS,MSCOCO數(shù)據(jù)集中的R@10指標(biāo)領(lǐng)先了2.25%(88.35% vs 86.1%)。在實(shí)驗(yàn)環(huán)境相同的情況下,考慮到雙流模型比單流模型的參數(shù)量要多得多,在I2TRetrieval任務(wù)中單流模型Dep-ViLT與雙流模型COTS性能相同,但是模型大小更輕量。在T2IRetrieval任務(wù)中更是取得了R@K指標(biāo)上的優(yōu)勢(shì)。另外,因?yàn)镃OTS模型在模態(tài)交互之前提取的模態(tài)特征,說(shuō)明我們所提的Dep-ViLT模型針對(duì)句子依存關(guān)系的圖卷積的依賴(lài)關(guān)系提取是具有可行性的。
3? 結(jié)? 論
在本文中,我們研究了如何提高跨模態(tài)檢索的性能。具體而言,我們通過(guò)在圖像文本檢索中利用文本的句法依存關(guān)系和詞性標(biāo)注,提出了一種新的基于ViLT的文本句法依存關(guān)系(Dependencies)指導(dǎo)的視覺(jué)語(yǔ)言模型,稱(chēng)為Dep-ViLT。也就是說(shuō),我們通過(guò)分析文本的句法依存關(guān)系構(gòu)建句法依存圖,通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)提取句法依存方向。在句法依存關(guān)系中,單向的依存方向能夠促進(jìn)語(yǔ)言模態(tài)和視覺(jué)模態(tài)間的交互。大量實(shí)驗(yàn)驗(yàn)證了我們的Dep-ViLT在圖像文本檢索中的有效性和高效性。它還證明了詞性對(duì)句法依存關(guān)系的表征提取及其依存關(guān)系與原始文本語(yǔ)義對(duì)齊有至關(guān)重要的作用。
未來(lái)的研究工作可以從以下4個(gè)方面去考慮:
1)模型提取句法依存圖特征采用的是圖卷積神經(jīng)網(wǎng)絡(luò),可以考慮更換成其他更優(yōu)越的模型架構(gòu),可能獲得更好的效果。
2)模型將句法依存關(guān)系分析重組成句法依存圖,可以考慮將句法依存關(guān)系表示成其他數(shù)據(jù)結(jié)構(gòu),可能利于模型進(jìn)行依存分析。
3)除了圖像和已經(jīng)標(biāo)注好的描述文本,可以考慮是否存在其他的隱性信息。
4)本文是針對(duì)英文的圖像描述文本開(kāi)展句法依存關(guān)系分析工作,而且中文的句法與英文的句法存在千絲萬(wàn)縷的聯(lián)系,因此,可以考慮對(duì)中文的圖像描述文本展開(kāi)同樣的工作,以提高中文領(lǐng)域的跨模特檢索性能。
參考文獻(xiàn):
[1] PENG Y X,QI J W,YUAN Y X. Modality-Specific Cross-Modal Similarity Measurement With Recurrent Attention Network [J].IEEE Transactions on Image Processing,2018,27(11):5585-5599.
[2] KIM Y. Convolutional Neural Networks for Sentence Classification [J/OL].arXiv:1408.5882 [cs.CL].(2014-08-25).https://arxiv.org/abs/1408.5882v2.
[3] HE Y,XIANG S,KANG C,et al. Cross-Modal Retrieval via Deep and Bidirectional Representation Learning [J].IEEE Transactions on Multimedia,2016,18(7):1363-1377.
[4] QI J W,HUANG X,PENG Y X. Cross-media Similarity Metric Learning with Unified Deep Networks [J/OL].arXiv:1704.04333 [cs.MM].(2017-04-14).https://arxiv.org/abs/1704.04333.
[5] SONG Y,SOLEYMANI M. Cross-Modal Retrieval with Implicit Concept Association [J/OL].arXiv:1804.04318 [cs.CV].(2018-04-12).https://arxiv.org/abs/1804.04318.
[6] 劉穎,郭瑩瑩,房杰,等.深度學(xué)習(xí)跨模態(tài)圖文檢索研究綜述 [J].計(jì)算機(jī)科學(xué)與探索,2022,16(3):489-511.
[7] 張翠,周茂杰,楊志清.融合句法依存樹(shù)注意力的關(guān)系抽取研究 [J].廣東通信技術(shù),2020,40(10):43-47+71.
[8] LEE K,CHEN X,HUA G,et al. Stacked Cross Attention for Image-Text Matching [J/OL].arXiv:1803.08024 [cs.CV].(2018-07-23).https://arxiv.org/abs/1803.08024.
[9] ZHANG Q,LEI Z,ZHANG Z,et al. Context-Aware Attention Network for Image-Text Retrieval [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:3533-3542.
[10] WEI X,ZHANG T,LI Y,et al. Multi-Modality Cross Attention Network for Image and Sentence Matching [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:10938-10947.
[11] DIAO H,ZHANG Y,MA L,et al. Similarity Reasoning and Filtration for Image-Text Matching [J].Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(2):1218-1226.
[12] LU H Y,F(xiàn)EI N Y,HUO Y Q,et al. COTS:Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:15671-15680.
作者簡(jiǎn)介:張知奇(1996—),男,土家族,湖南常德人,碩士研究生在讀,研究方向:深度學(xué)習(xí)下的圖文相似性獨(dú)立和跨模態(tài)檢索;通訊作者:袁鑫攀(1982—),男,漢族,湖南株洲人,副教授,博士,研究方向:信息檢索、自然語(yǔ)言處理、局部敏感哈希;曾志高(1973—),男,漢族,湖南株洲人,教授,博士,研究方向:機(jī)器學(xué)習(xí)、智能信息處理。