楊 迪,吳春明
(西南大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 400700)
隨著移動(dòng)設(shè)備智能化,社交軟件的普及,人們可以更加便捷地生成各種不同模態(tài)的多媒體數(shù)據(jù)(圖像、文本、視頻、音頻等)。面對(duì)這些海量數(shù)據(jù),人們的檢索需求從傳統(tǒng)的單模態(tài)檢索轉(zhuǎn)變?yōu)榭缒B(tài)檢索??缒B(tài)檢索是指給定一種模態(tài)的查詢樣本,得到與查詢樣本語(yǔ)義相似的其他模態(tài)的樣本[1],如文本/視頻檢索圖像,圖像/視頻檢索文本,該技術(shù)的關(guān)鍵在于如何有效提取不同模態(tài)數(shù)據(jù)的特征,并將這些特征以適宜的方法進(jìn)行相似性度量。以圖文檢索為例,圖像由像素構(gòu)成,文本由單詞序列組成,它們之間的相似度不能直接比較,這種底層特征異構(gòu)所帶來(lái)的“語(yǔ)義鴻溝”是跨模態(tài)檢索首先要解決的重要問(wèn)題。
傳統(tǒng)的跨模態(tài)檢索主要采用典型相關(guān)性分析(Canonical Correlation Analysis,CCA)方法,如Yan等人[2]利用該方法來(lái)尋找圖像和句子的最大相關(guān)性。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,跨模態(tài)檢索普遍解決方案變?yōu)閺牟煌B(tài)提取特征,再將這些特征映射到深度空間中,在該空間進(jìn)行距離計(jì)算,經(jīng)過(guò)學(xué)習(xí)之后,該空間鼓勵(lì)相似樣本對(duì)互相靠近,不相似樣本對(duì)互相遠(yuǎn)離。Wang等人[3]利用CNN和WCNN分別提取圖像和文本特征,證明這種基于深度神經(jīng)網(wǎng)絡(luò)提取的特征能有效提高檢索精度。Dong等人[4]提出圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN),利用樣本的鄰接關(guān)系重構(gòu)樣本表示并基于局部圖重構(gòu)節(jié)點(diǎn)特征,從而獲取隱藏的高級(jí)語(yǔ)義信息,但節(jié)點(diǎn)更新較為復(fù)雜,計(jì)算代價(jià)巨大。Peng等人[5]提出了一種跨模態(tài)生成對(duì)抗網(wǎng)絡(luò)(Cross-Modal Generative Adversarial Networks,CM-GAN),利用生成模型和判別模型互相博弈來(lái)生成更具細(xì)粒度的多模態(tài)特征表示。Bahdanau[6]首次將注意力機(jī)制應(yīng)用到機(jī)器翻譯領(lǐng)域,該機(jī)制能聚焦重要部分而忽略不重要部分的特性,使得其在計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域取得了一系列成績(jī),學(xué)者們也開(kāi)始將注意力機(jī)制應(yīng)用到跨模態(tài)檢索領(lǐng)域。Nam等人[7]提出雙重注意力網(wǎng)絡(luò)(Dual Attention Networks,DANs),利用視覺(jué)和文本注意力機(jī)制來(lái)捕獲圖像區(qū)域和單詞之間的相互關(guān)系;Lee等人[8]提出堆疊交叉注意力方法來(lái)捕捉圖像區(qū)域和單詞的潛在對(duì)齊;Li等人[9]提出DMASA方法,利用多種自注意力機(jī)制從不同角度提取圖像文本細(xì)粒度特征。
上述工作都在一定程度上提升了檢索效果,但也存在兩個(gè)主要問(wèn)題:一是僅考慮了局部特征或者全局特征的一種,導(dǎo)致特征關(guān)鍵語(yǔ)義不夠全面,信息表征不夠完善;二是忽略了模態(tài)間有效交互,由于不同模態(tài)所含信息量不等,這會(huì)導(dǎo)致特征語(yǔ)義表達(dá)不夠充分。針對(duì)這些問(wèn)題,該文提出了一種融合注意力機(jī)制的圖文檢索算法。首先,利用ViT和Bert模型得到包含上下文信息的圖像和文本特征;其次,利用注意力機(jī)制融合不同模態(tài)信息即用文本信息來(lái)表示圖像,用圖像信息表示文本;再次,將注意力機(jī)制引進(jìn)到特征提取過(guò)程,利用融合不同模態(tài)信息的特征向量來(lái)獲得新的全局特征表示和局部特征表示;最后,融合新的全局特征向量、局部特征向量和原始特征向量來(lái)表征數(shù)據(jù)。由于該方法更好地融合了全局和局部特征,因而取得了更好的檢索精度,通過(guò)在Wikipedia數(shù)據(jù)集上與6種經(jīng)典方法的對(duì)比實(shí)驗(yàn),證明了該方法的有效性。
整個(gè)模型結(jié)構(gòu)如圖1所示,包含圖像編碼模塊、文本編碼模塊、交互模塊3個(gè)部分。其中,圖像編碼模塊負(fù)責(zé)圖像特征提取,首先將圖像分成塊并加入位置信息編碼,通過(guò)輸入ViT模型得到全局特征和局部特征,作為圖像的基礎(chǔ)特征表示;文本編碼模塊負(fù)責(zé)文本特征提取,首先將文本數(shù)據(jù)通過(guò)詞嵌入方式轉(zhuǎn)為詞向量,輸入Bert模型得到文本的全局表示和單體表示,作為文本的基礎(chǔ)特征表示;交互模塊又分為模態(tài)內(nèi)注意模塊和模態(tài)間注意模塊,為了挖掘語(yǔ)義相似不同模態(tài)數(shù)據(jù)間的內(nèi)在聯(lián)系,該文利用兩個(gè)模塊分別獲取圖像和文本新的局部特征和新的全局特征。最后,將這些特征與基礎(chǔ)特征拼接,作為圖像和文本的最終特征表示。
圖1 模型結(jié)構(gòu)
Transformer模型的自注意力機(jī)制能對(duì)長(zhǎng)距離依賴問(wèn)題建模,能充分利用上下文信息從而獲得有效的全局信息,因此,文中圖像特征提取過(guò)程使用基于Transformer編碼器的ViT模型。ViT[10]是Google團(tuán)隊(duì)提出的基于Transformer的一種圖像分類模型,該模型將二維的圖像數(shù)據(jù)轉(zhuǎn)換成一維塊序列使得Transformer能處理圖像。具體來(lái)說(shuō),將輸入圖像的像素調(diào)整為224×224,把圖像分割成大小為16×16、數(shù)量為196的patch塊,加入位置信息編碼并將其按順序展平轉(zhuǎn)化為向量,輸入預(yù)訓(xùn)練好的ViT模型,得到輸入圖像的特征表示V={vcls,v1,…,vi,…,vn},其中vcls表示圖像的整體信息,n為圖像塊的數(shù)量,vi為第i個(gè)圖像塊的特征向量。特征提取整體過(guò)程如圖2所示。
在圖文檢索中,文本通常以句子或長(zhǎng)段落形式存在,而B(niǎo)ert模型的雙向編碼結(jié)構(gòu)使得其在提取長(zhǎng)文本數(shù)據(jù)特征方面有著突出優(yōu)勢(shì)。Bert[11]模型也是基于Transformer的自然語(yǔ)言處理模型,該模型使用Transformer Encoder 作為特征提取器,具有強(qiáng)大的語(yǔ)義信息提取能力。因此,該文利用Bert模型進(jìn)行文本特征的提取。如圖3所示,首先,將文本數(shù)據(jù)通過(guò)word2vec模型轉(zhuǎn)化為詞向量,然后,輸入到預(yù)訓(xùn)練好的Bert模型得到文本特征表示T={tcls,t1,…,tj,…,tl},其中,tcls為文本的全局表示,l為文本長(zhǎng)度,tj為第j個(gè)詞的特征向量。
圖2 圖像特征提取
圖3 文本特征提取
注意力機(jī)制能選擇性地關(guān)注重要信息,能為其賦予更高的權(quán)重,因而能有效提取關(guān)鍵特征。在圖像和文本編碼模塊,利用注意力機(jī)制對(duì)圖像和文本的基礎(chǔ)特征進(jìn)行了提取,但這種注意計(jì)算僅局限在同一模態(tài)內(nèi),即圖像塊到圖像塊的注意和單詞到單詞的注意,然而語(yǔ)義相似的圖像和文本數(shù)據(jù)所包含的信息量不等,不同模態(tài)所關(guān)注的內(nèi)容也不盡相同,因此在進(jìn)行注意計(jì)算的時(shí)候應(yīng)充分考慮不同模態(tài)間的相互影響,即圖像塊到單詞的注意和單詞到圖像塊的注意。因此,為了融合不同模態(tài)的特征并挖掘不同模態(tài)的內(nèi)在聯(lián)系,在本模塊中,結(jié)合注意力機(jī)制分別設(shè)計(jì)了模態(tài)內(nèi)注意模塊和模態(tài)間注意模塊,用來(lái)尋找新的局部特征映射和全局特征映射。
圖像數(shù)據(jù)相比于文本數(shù)據(jù)具有更多的細(xì)節(jié)信息,文本數(shù)據(jù)比圖像數(shù)據(jù)有更多的語(yǔ)義描述,為了凸顯它們的內(nèi)在關(guān)系,該文用文本信息來(lái)表征圖像,用圖像信息來(lái)表征文本。首先計(jì)算每個(gè)圖像塊和每個(gè)單詞的相似性:
(1)
每個(gè)圖像塊的文本表示為:
(2)
同理,每個(gè)單詞的圖像表示為:
(3)
其中,exp是以自然數(shù)e為底的指數(shù)函數(shù)。在Transformer中,通過(guò)點(diǎn)乘的方式來(lái)計(jì)算兩個(gè)向量的相似性,而這里的圖像和單詞相似性矩陣乘與該方式本質(zhì)上一致。
1.3.1 模態(tài)內(nèi)注意模塊
(4)
(5)
(6)
(7)
以相同的方法計(jì)算融合圖像信息的文本局部特征向量Tp。
1.3.2 模態(tài)間注意模塊
(8)
βj的計(jì)算過(guò)程與公式(6)(7)相同。同理可以得到融合圖像信息的文本全局特征向量Tw。
最后,融合新的局部特征向量Vp、Tp,新的全局特征向量Vw、Tw及基礎(chǔ)全局特征向量vcls、tcls作為圖像文本的最終特征表示VF、TF,分別見(jiàn)公式(9)和(10),其中[;]表示向量的拼接。
VF=Ffusion[Vp;Vw;vcls]
(9)
TF=Ffusion[Tp;Tw;tcls]
(10)
為了保證共享空間中語(yǔ)義相似的圖像-文本對(duì)距離足夠近,不相似圖像-文本對(duì)的距離足夠遠(yuǎn),該文采用三元組排序損失函數(shù)[12]。對(duì)于圖像數(shù)據(jù)集,構(gòu)建三元組{VF,TF+,TF-},其中(VF,TF+)表示錨點(diǎn)VF的正樣本對(duì),(VF,TF-)表示負(fù)樣本對(duì),即與圖像樣本語(yǔ)義不相似的文本對(duì),以相同的方式構(gòu)建文本三元組{TF,VF+,VF-}。通過(guò)最小化相似樣本對(duì)之間的距離,同時(shí)最大化不相似樣本對(duì)的距離,保證圖像文本模態(tài)的一致性。由于跨模態(tài)檢索任務(wù)是雙向檢索,因此損失函數(shù)定義為:
L=[S(VF,TF-)-S(VF,TF+)+λ]++
S(TF,VF-)-S(VF,TF+)+λ]+
(11)
其中,λ是一個(gè)常量,用來(lái)保證相似樣本對(duì)得分比不相似樣本對(duì)得分大于一個(gè)固定值,[x]+≡max(0,x)。S函數(shù)表示圖像文本對(duì)的相似性得分,以S(VF,TF-)為例,具體的計(jì)算公式為:
(12)
算法流程如表1所示。
表1 跨模態(tài)檢索算法
Wikipedia[13]是跨模態(tài)檢索研究普遍使用的數(shù)據(jù)集,來(lái)源于維基百科中的代表文章,并基于對(duì)應(yīng)文章補(bǔ)充相關(guān)圖像,整個(gè)數(shù)據(jù)集共有2 866個(gè)圖像文本對(duì),這些文本以短段落(至少70個(gè)字)描述圖像,包含10個(gè)語(yǔ)義類。
該文采用跨模態(tài)檢索研究中通常采用的精確率-召回率(Precision-recall)曲線和平均精度均值mAP(Mean Average Precision)作為評(píng)價(jià)指標(biāo)。
PR曲線橫坐標(biāo)為召回率,縱坐標(biāo)為精確率,縱坐標(biāo)值越大表示該方法性能越好。精確率P、召回率R計(jì)算公式如下:
(13)
(14)
其中,a表示檢索返回中的正樣本數(shù)量,b表示檢索返回中的負(fù)樣本數(shù)量,c表示數(shù)據(jù)集中沒(méi)有返回的正樣本數(shù)量。
mAP是AP的平均值,該指標(biāo)綜合考慮了排序信息和精確率[14]。取值越接近1代表方法性能越好。給出查詢數(shù)據(jù)和n個(gè)檢索結(jié)果,AP計(jì)算公式如下:
(15)
其中,R是測(cè)試集中的正樣本數(shù)量,P(i)表示前i個(gè)檢索結(jié)果的精確率,若檢索結(jié)果為正樣本,則δ(i)=1,否則為0。Q代表查詢次數(shù),最終mAP值公式為:
(16)
基于驗(yàn)證文中算法有效性的目的,選取了KCCA[15]、DCCA[16]、SCM[17]、ACMR[18]、DSCMR[19]、DMTL[20]共6種方法進(jìn)行對(duì)比實(shí)驗(yàn)。其中,KCCA利用核函數(shù)改變特征維度再進(jìn)行關(guān)聯(lián)分析,解決了CCA不能處理非線性關(guān)系的不足;DCCA將深度神經(jīng)網(wǎng)絡(luò)與CCA相結(jié)合,從兩個(gè)視圖學(xué)習(xí)非線性投影,比KCCA模型更為簡(jiǎn)潔;SCM是在CCA基礎(chǔ)上將無(wú)監(jiān)督相關(guān)和有監(jiān)督語(yǔ)義結(jié)合的匹配算法;ACMR將對(duì)抗機(jī)制引入到語(yǔ)義融合層面,豐富了特征空間內(nèi)容,并利用三元組約束保證語(yǔ)義相同的不同模態(tài)表示差異最小;DSCMR充分利用標(biāo)簽信息有效學(xué)習(xí)了不同模態(tài)公共表示,并通過(guò)最小化標(biāo)簽空間和公共表示空間的判別損失,以監(jiān)督模型學(xué)習(xí)判別特征;DMTL由兩個(gè)多模態(tài)特定的神經(jīng)網(wǎng)絡(luò)和一個(gè)聯(lián)合學(xué)習(xí)模塊組成,是一種遷移已標(biāo)記類別的知識(shí),以提高在未標(biāo)記的新類別上檢索性能的學(xué)習(xí)方法。
實(shí)驗(yàn)結(jié)果如表2所示。
由表2可知,文中方法的平均mAP達(dá)到了0.699,不管是圖像模態(tài)檢索文本還是文本模態(tài)檢索圖像,均高于其他方法。對(duì)比DMTL方法,文中方法圖像檢索文本的mAP值從0.633提高到0.687,文本檢索圖像的mAP值從0.652提高到0.711,平均mAP值從0.642提高到0.699。整體來(lái)看,基于深層結(jié)構(gòu)方法在檢索效果上大于淺層結(jié)構(gòu)方法,這得益于深度學(xué)習(xí)強(qiáng)大的特征學(xué)習(xí)能力,可以有效捕捉樣本間非線性關(guān)系,從而獲取更能代表數(shù)據(jù)的關(guān)鍵特征?,F(xiàn)用的跨模態(tài)檢索方法大多將不同模態(tài)的數(shù)據(jù)映射到公共空間,這些方法只是簡(jiǎn)單將圖像文本全局特征或局部特征對(duì)齊,而文中方法利用注意力機(jī)制充分挖掘同一模態(tài)內(nèi)細(xì)粒度局部信息和不同模態(tài)間交互全局信息,全面考慮兩種信息從而提高了模型的檢索準(zhǔn)確率。
表2 跨模態(tài)檢索方法mAP(Wikipedia數(shù)據(jù)集)
為了進(jìn)一步驗(yàn)證文中方法的有效性,在數(shù)據(jù)集上繪制所有對(duì)比方法的PR曲線,如圖4所示。
圖4 圖像檢索文本PR曲線
由圖4可知,文中方法明顯優(yōu)于其他對(duì)比方法,當(dāng)召回率值為0.4時(shí),僅DMTL方法的精確率與文中方法基本持平,當(dāng)召回率為其他值時(shí),文中方法的精確率均高于其他方法。
為了更加直觀地表現(xiàn)在交互模塊中圖像對(duì)文本和文本對(duì)圖像的注意,該文進(jìn)行了注意力可視化分析,結(jié)果如圖5所示。
圖5 注意力可視化
由圖5可知,圖像對(duì)文本的注意力主要集中在單詞“football”“World”“Cup”和“FIFA”上,即圖中文字描述劃線部分。文本對(duì)圖像的注意力權(quán)重主要集中在球員、球迷和場(chǎng)地等部分,即圖中標(biāo)注區(qū)域。
考慮到特征提取器及注意力機(jī)制對(duì)整個(gè)檢索模型性能的影響,該文通過(guò)改變特征提取器類型和是否添加注意力機(jī)制等方式進(jìn)行了一系列對(duì)照實(shí)驗(yàn)。為公平起見(jiàn),對(duì)于圖像特征提取器為CNN類的實(shí)驗(yàn),該文均采用預(yù)訓(xùn)練好的VGG16的最后一個(gè)池化層作為圖像特征向量。
實(shí)驗(yàn)結(jié)果如表3所示,由方法二四六和方法一三五對(duì)比得知,添加了注意力機(jī)制的方法在檢索效果上顯著優(yōu)于沒(méi)有添加注意力機(jī)制的方法。這是因?yàn)槿诤献⒁饬Φ姆椒苓x擇性地關(guān)注不同模態(tài)數(shù)據(jù)間的重要信息部分,進(jìn)而提取到更完善的語(yǔ)義特征。通過(guò)方法一和三、二和四比較得知,圖像特征提取器為ViT模型類的方法與為CNN類的方法效果存在差異,但差距并不明顯。通過(guò)方法六和四、五和三對(duì)比得知,文本特征提取器為Bert類模型的方法比為L(zhǎng)STM類方法的效果更好,一是因?yàn)锽ert模型是雙向編碼模型,能同時(shí)考慮上下文信息,具有更強(qiáng)大的語(yǔ)義提取能力,二是因?yàn)閃ikipedia數(shù)據(jù)集中多以長(zhǎng)文本為主,在處理長(zhǎng)距離依賴問(wèn)題上,Bert模型有著更為優(yōu)秀的表現(xiàn)。
表3 對(duì)照實(shí)驗(yàn)mAP結(jié)果對(duì)比(Wikipedia數(shù)據(jù)集)
針對(duì)圖文檢索研究,該文提出了一種融合注意力機(jī)制的跨模態(tài)檢索算法。為了綜合考慮全局特征和局部特征對(duì)檢索效果的影響,基于注意力機(jī)制提取語(yǔ)義表達(dá)更充分的全局特征和局部特征,并將這些特征有機(jī)融合,使得模態(tài)數(shù)據(jù)特征信息表達(dá)更完善;同時(shí),為了挖掘語(yǔ)義相似但模態(tài)不同的數(shù)據(jù)內(nèi)在關(guān)系,通過(guò)注意力機(jī)制融合不同模態(tài)信息,從而提取更好的特征表示。實(shí)驗(yàn)證明,提出的算法優(yōu)于目前已知方法,未來(lái)將針對(duì)文本描述為中文的圖文檢索做進(jìn)一步研究。