翟一琛, 顧佼佼, 宗富強(qiáng), 姜文志
(海軍航空大學(xué)岸防兵學(xué)院, 山東 煙臺 264001)
交互式電子手冊(interactive electronic technical manual,IETM)是一種實(shí)現(xiàn)裝備技術(shù)資料信息化的技術(shù)手段,是裝備信息保障領(lǐng)域的關(guān)鍵技術(shù)之一,其克服了傳統(tǒng)紙質(zhì)技術(shù)手冊不便攜帶、查詢困難等弊端,在艦船、航空等領(lǐng)域均應(yīng)用廣泛,提升了裝備保障的工作效率[1]。
目前,隨著裝備信息化、智能化的發(fā)展,裝備維修保障信息日益龐雜、數(shù)據(jù)逐漸呈現(xiàn)出多模態(tài)的特點(diǎn)?,F(xiàn)有IETM的檢索功能多采用傳統(tǒng)的關(guān)鍵字索引等方式,無法高效地檢索龐大的圖像、文本等多模態(tài)數(shù)據(jù),且數(shù)據(jù)錄入過程需要遵循嚴(yán)格的規(guī)范與步驟,使用存在一定的局限性??缒B(tài)檢索是實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)間相互檢索的技術(shù)。圖像和文本兩種模態(tài)的數(shù)據(jù)經(jīng)常同時出現(xiàn),其本身蘊(yùn)含的信息又能夠相互補(bǔ)充。通過在維修保障領(lǐng)域應(yīng)用跨模態(tài)檢索技術(shù),實(shí)現(xiàn)圖像、文本之間的相互檢索,可以提高檢索數(shù)據(jù)的效率,進(jìn)而提升IETM系統(tǒng)智能化水平。
跨模態(tài)檢索研究的目的在于挖掘不同模態(tài)樣本之間的關(guān)系,通過一種模態(tài)樣本來檢索具有相似語義的另一種模態(tài)樣本[2]。與傳統(tǒng)的單一模態(tài)檢索相比,其難點(diǎn)主要在于圖像與文本的表示形式不同,兩者分布在不同的語義空間,無法直接通過傳統(tǒng)的余弦距離等方式直接度量二者的相似度[3-4]。目前基于深度學(xué)習(xí)的跨模態(tài)檢索主要有跨模態(tài)相似性度量、公共特征空間學(xué)習(xí)等方法。基于公共特征空間學(xué)習(xí)的方法可以離線獲得文本和圖像表示,是目前跨模態(tài)檢索的主流研究和應(yīng)用方向,其主要思想是通過可解釋的距離函數(shù)約束圖文關(guān)系,優(yōu)化不同模態(tài)數(shù)據(jù)之間的分布關(guān)系,將不同模態(tài)數(shù)據(jù)映射到同一公共空間內(nèi),再進(jìn)行相似性度量,這類方法的缺點(diǎn)是特征融合不夠充分[5-7]。
Bahdanau等[8]在2015年首次提出注意力機(jī)制,并將其應(yīng)用于機(jī)器翻譯領(lǐng)域,注意力機(jī)制可以聚焦重要信息,并同時具備不同特征空間以及全局范圍內(nèi)的特征聚合能力,將其應(yīng)用于跨模態(tài)檢索領(lǐng)域,可以有效緩解模態(tài)間交互不充分的問題。文獻(xiàn)[9]中使用的草圖數(shù)據(jù)集與本文自建數(shù)據(jù)集圖像相似,圖像內(nèi)容均以大量線條為主,通過加入通道注意力機(jī)制[10]關(guān)注圖像的關(guān)鍵信息,實(shí)現(xiàn)了對模型效果的大幅提升。文獻(xiàn)[11]使用目標(biāo)檢測模型快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region convolutional neural network, Faster-RCNN)[12]先對圖像進(jìn)行目標(biāo)檢測,再對檢測到的目標(biāo)分別進(jìn)行特征提取而得到細(xì)粒度特征,之后通過堆疊交叉注意力實(shí)現(xiàn)了良好的檢索性能。文獻(xiàn)[13]證明了同時使用注意力機(jī)制進(jìn)行模態(tài)間語義對齊和模態(tài)內(nèi)語義關(guān)聯(lián)的有效性。文獻(xiàn)[14]提出在跨模態(tài)檢索中單獨(dú)的目標(biāo)檢測模型可能不是必要的,使用ViT (vision transformer)[15]模型進(jìn)行圖像特征抽取后直接構(gòu)造邊界框損失的方法可以達(dá)到最先進(jìn)的跨模態(tài)檢索性能。
本文自建數(shù)據(jù)集來自于航空行業(yè)IETM相關(guān)技術(shù)手冊,圖像數(shù)據(jù)多為飛機(jī)及相關(guān)維修設(shè)備原理圖、曲線圖等黑白圖像。這些圖像通過大量線條組合而成,與通用數(shù)據(jù)相比,具有較強(qiáng)的抽象性,部分實(shí)例之間十分相似,僅抽取粗粒度信息往往難以對其進(jìn)行區(qū)分。針對此問題,本文改進(jìn)提出一種融合注意力機(jī)制的細(xì)粒度跨模態(tài)檢索算法,通過在特征提取與模態(tài)交互階段引入注意力機(jī)制,實(shí)現(xiàn)對圖文細(xì)粒度特征的提取和特征間的細(xì)粒度對齊。在Pascal Sentence數(shù)據(jù)集[16]及自建航空行業(yè)IETM相關(guān)技術(shù)手冊數(shù)據(jù)集上進(jìn)行跨模態(tài)檢索實(shí)驗(yàn),并對結(jié)果進(jìn)行可視化展示,驗(yàn)證所提算法的有效性。
本文采用深度監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval, DSCMR)[17]為基礎(chǔ)模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先,圖像和文本分別通過Image卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和Text CNN得到圖文特征表示;然后,經(jīng)過全連接層進(jìn)行特征抽象,并在最后一層共享權(quán)值將圖文特征映射到同一公共表示空間;最后,再連接一個線性分類器,預(yù)測每個樣本的類別并構(gòu)造標(biāo)簽損失。此外,模型使用了公共空間的辨別損失,分別約束圖像和文本、圖像和圖像、文本和文本之間的相似性。
圖1 DSCMR網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 DSCMR network’s structure
本文在直接使用DSCMR模型用于自建數(shù)據(jù)集圖文跨模態(tài)檢索時,平均精度均值(mean average precision, mAP)達(dá)到了0.745。針對數(shù)據(jù)集特點(diǎn),可以進(jìn)行改進(jìn)的方向主要有兩點(diǎn):① 改進(jìn)特征提取模塊以提取圖文細(xì)粒度特征;② 在特征交互階段融合注意力機(jī)制進(jìn)行圖文間的細(xì)粒度對齊。
本文自建數(shù)據(jù)集內(nèi)的圖像數(shù)據(jù)樣式較多,包含大量的曲線圖、零件原理圖,難以合適地標(biāo)注有意義的目標(biāo),無法使用Faster-RCNN目標(biāo)檢測的方案進(jìn)行局部特征的提取。因此,本文使用基于注意力機(jī)制的圖像編碼器ViT進(jìn)行特征提取。首先將圖像進(jìn)行分塊,通過圖像編碼器輸出每個圖像塊的特征表示作為圖像的局部特征;文本編碼模塊使用基于注意力機(jī)制的Transformer編碼器[18],得到文本的局部特征表示。在特征交互模塊,提出模態(tài)內(nèi)注意力機(jī)制和整體-局部模態(tài)間注意力機(jī)制融合圖像特征和文本特征。模型整體結(jié)構(gòu)如圖2所示。
圖2 模型結(jié)構(gòu)Fig.2 Model’s structure
本文采用ViT模型提取圖像特征。首先將輸入圖像I的尺寸調(diào)整為224×224像素大小,并將其分割為圖像塊{p1,p2,…,pN},N為切分圖像塊個數(shù),然后按順序展平轉(zhuǎn)化為特征向量輸入到預(yù)訓(xùn)練的ViT模型中,最終得到圖像的特征表示V=[vcls,v1,…,vi,vN]。其中,vcls表示圖像的整體信息,vi表示第i塊圖像塊pi的信息。本文選取圖像塊大小為16×16像素,得到的圖像塊特征向量數(shù)N為196。
在圖文跨模態(tài)檢索模型中,注意力機(jī)制用于關(guān)注并聚合圖像或文本中的關(guān)鍵信息。本文分別設(shè)計(jì)了模態(tài)間全局-局部注意力機(jī)制模塊和模態(tài)內(nèi)注意力機(jī)制模塊進(jìn)行圖文特征對齊。
2.3.1 模態(tài)間全局-局部注意力機(jī)制模塊
模態(tài)間注意力機(jī)制的目的是生成一個融合另一模態(tài)局部特征的全局特征表示,對于圖像特征V=[vcls,v1,…,vN]和文本特征U=[up,u1,…,uT],其全局特征表示的計(jì)算過程如下:
(1)
(2)
(3)
s(ui,vcls)=tanh(Wvvcls)⊙tanh(Wv,uui)
(4)
(5)
式中:Wv,Wv,u均為前饋神經(jīng)網(wǎng)絡(luò)參數(shù);⊙表示元素對應(yīng)位置相乘;P矩陣的作用在于將文本特征的加權(quán)向量映射到圖像特征向量維度。
(6)
(7)
式中:⊕表示向量拼接操作。
2.3.2 模態(tài)內(nèi)注意力機(jī)制模塊
在特征提取模塊,本文使用了基于注意力機(jī)制的ViT模型和Transformer編碼器提取圖文的全局特征和局部特征,在編碼器內(nèi)部進(jìn)行了大量的對圖像塊之間與單詞之間的注意力計(jì)算。此時,模態(tài)內(nèi)區(qū)域到區(qū)域和單詞到單詞注意力的計(jì)算并未考慮另一模態(tài)的影響。但在不同的情景下,即使同一模態(tài)內(nèi)關(guān)注的內(nèi)容也應(yīng)當(dāng)不同,所以模態(tài)內(nèi)注意力的計(jì)算也應(yīng)該考慮到另一模態(tài)的內(nèi)容。故在特征交互階段,本文考慮另一模態(tài)信息的影響,再次對模態(tài)內(nèi)注意力進(jìn)行計(jì)算。具體做法為:取出當(dāng)前模態(tài)內(nèi)對另一模態(tài)影響力最大的局部特征,將該局部特征與當(dāng)前模態(tài)剩余的所有局部特征進(jìn)行注意力計(jì)算,得到基于影響力最大特征的模態(tài)內(nèi)局部特征加權(quán)向量。
由模態(tài)間注意力權(quán)重αcls,αp可得最大影響力局部特征Vi,Uj,其中i=argmaxαcls,j=argmaxαp。
(8)
(9)
s(·)的計(jì)算過程同公式(4),再將輸出向量與原向量進(jìn)行拼接,得到圖像和文本的局部特征向量輸出:
(10)
(11)
(12)
(13)
本文采用了文獻(xiàn)[16]的損失函數(shù),共分為3部分。首先,為了保持樣本對于不同類別的辨別力,將輸出向量進(jìn)行線性層映射到類別空間,并與類別向量Y進(jìn)行F范數(shù)度量,類別分辨損失定義如下:
(14)
接著,對于同屬于一個類別的圖像,文本構(gòu)造似然函數(shù)。
(15)
(16)
最后,為了緩解模態(tài)間差異,使用F范數(shù)約束圖文表示間的距離:
(17)
組合公式,得到最終的聯(lián)合損失函數(shù)表示:
J=J1+λJ2+ηJ3
(18)
式中:λ、η為超參數(shù)。
自建數(shù)據(jù)集源自航空行業(yè)IETM相關(guān)技術(shù)手冊PDF文檔,由于部分圖冊不包含具體的圖像描述且各文檔格式不統(tǒng)一,對于無描述文本的圖像采用其所在手冊名、標(biāo)題名和圖像自身的圖名進(jìn)行拼接并作為圖像描述。通過使用PDF文檔自動化抽取技術(shù)以及正則匹配、人工補(bǔ)全和修正等方式,共獲取3 112幅相關(guān)數(shù)據(jù)的圖像樣本和相關(guān)描述,并根據(jù)所在手冊不同將其分為維修、檢測、零件、飛行等10類。圖3所示為數(shù)據(jù)集樣例,從左到右依次為類別標(biāo)簽、圖像和文本描述。近似按照6∶2∶2的比例劃分?jǐn)?shù)據(jù)集,得到1 912對樣本作為訓(xùn)練集,600對樣本作為驗(yàn)證集、600對樣本作為測試集。
圖3 自建數(shù)據(jù)集部分類別圖像及對應(yīng)文本示例Fig.3 Some category images and corresponding text examples of the self-built dataset
Pascal Sentence數(shù)據(jù)集源自Pascal VOC[20]數(shù)據(jù)集,包含1 000對圖文數(shù)據(jù),每張圖片對應(yīng)人工標(biāo)注的5段文本描述,數(shù)據(jù)集共分為20個類別,800對樣本作為訓(xùn)練集,100對樣本作為驗(yàn)證集,100對樣本作為測試集。
針對自建數(shù)據(jù)集學(xué)習(xí)樣本少的問題,對文本樣本進(jìn)行數(shù)據(jù)增強(qiáng)處理,以減少過擬合現(xiàn)象的發(fā)生。
通過在文本嵌入層添加擾動構(gòu)造對抗樣本,提高模型的泛化能力。使用Goodfellow提出的快速梯度算法[21],其公式為
(19)
式中:y為標(biāo)簽;θ為模型參數(shù);radv為對輸入x的線性擾動。
模型使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為1e-4,輸入圖像大小統(tǒng)一縮放為256×256分辨率。采取余弦相似度并使用mAP和查準(zhǔn)率-查全率(precision-recall, PR)曲線作為特征表示評價(jià)指標(biāo)。
mAP指標(biāo)綜合考慮了排名信息和精度,被廣泛應(yīng)用在跨模態(tài)檢索研究中[22]。PR曲線以召回率(Recall)和精確率(Precision)為橫縱坐標(biāo)繪制,反映了不同召回率下精確率的變化。
為驗(yàn)證本文方法的有效性,本文選取了DCCA[23]、ACMR[24]、MAN[25]、SDML[26]等跨模態(tài)檢索模型作為基準(zhǔn)模型進(jìn)行對比,所選對比方法均使用ResNet50[27]提取的4 096維圖像特征和訓(xùn)練文本CNN分類模型得到的256維文本特征,部分方法額外采取了與本文特征提取網(wǎng)絡(luò)相同的預(yù)訓(xùn)練ViT模型和Transformer編碼器,作為特征提取器進(jìn)行對比。由表1實(shí)驗(yàn)數(shù)據(jù)可知,本文提出的方法在Pascal Sentence數(shù)據(jù)集中相較于最好的基準(zhǔn)方法DSCMR,以圖檢文的mAP從0.936提升到了0.963,以文檢圖的mAP從0.928提升到了0.964,mAP的平均值從0.932提升到了0.964。由表2實(shí)驗(yàn)數(shù)據(jù)可知,在自建數(shù)據(jù)集中相較最好的基準(zhǔn)方法SDML,以圖檢文的mAP從0.848提高到了0.961,以文檢圖的mAP從0.871提升到了0.958,mAP的平均值從0.860提升到了0.959。在這兩個數(shù)據(jù)集上,本文方法的mAP均最高,證明了所提方法的有效性。表1和表2中,*表示使用ViT、Transformer編碼器作為特征編碼模塊。
表1 跨模態(tài)檢索方法mAP(Pascal Sentence數(shù)據(jù)集)
表2 跨模態(tài)檢索方法mAP(自建數(shù)據(jù)集)
兩個數(shù)據(jù)集指標(biāo)提升的差異性主要體現(xiàn)在圖像內(nèi)容的不同以及文本長度上的差異。Pascal Sentence數(shù)據(jù)集中多為日常生活背景下的彩色圖像,將5條文本描述進(jìn)行拼接后,文本長度相較本文自建數(shù)據(jù)集文本也更長,所以直接采用在通用數(shù)據(jù)集上預(yù)訓(xùn)練的ViT模型及適合較長文本序列建模的Transformer編碼器就會獲得較大提升。
為進(jìn)一步驗(yàn)證本文方法的有效性,在自建數(shù)據(jù)集上繪制精準(zhǔn)率召回率(precision recall, PR)曲線如圖4和圖5所示,特征提取器分別為ViT和Transformer。由圖4、圖5可以直觀看出,在圖檢文和文檢圖任務(wù)中,本文方法都優(yōu)于文中選取的所有基準(zhǔn)方法。
圖4 圖檢文PR曲線Fig.4 PR curve of image retrieval text
圖5 文檢圖PR曲線Fig.5 PR curve of text retrieval image
設(shè)計(jì)消融實(shí)驗(yàn),在自建數(shù)據(jù)集上驗(yàn)證各模塊對模型性能的影響,實(shí)驗(yàn)結(jié)果如表3所示,mAP指標(biāo)及損失變化如圖6和圖7所示。方法1為基準(zhǔn)模型DSCMR,均采用CNN模型對圖文進(jìn)行特征提取。之后分別增加文本對抗增強(qiáng)、改變特征提取模型,增加模態(tài)間注意力及模態(tài)內(nèi)注意力,驗(yàn)證所提方法對檢索性能的影響??梢钥闯?方法2在增加文本對抗增強(qiáng)后,有助于模型性能的提升。方法3和方法4顯示,由于自建數(shù)據(jù)集的大部分文本屬于短文本,在不進(jìn)行后續(xù)特征交互的情況下,使用基于注意力機(jī)制的Transformer編碼器比使用文本CNN模型的效果要差。將方法4與方法2、方法5與方法3作對比可以看出,圖像特征抽取模塊使用預(yù)訓(xùn)練的ViT模型較預(yù)訓(xùn)練的CNN模型ResNet50大幅提升了模型檢索準(zhǔn)確率。方法6和方法7顯示,抽取細(xì)粒度特征及在之后的圖文交互階段引入模態(tài)間注意力和模態(tài)內(nèi)注意力,模型檢索準(zhǔn)確率都會取得顯著提升。
表3 消融實(shí)驗(yàn)mAP結(jié)果對比(自建數(shù)據(jù)集)
圖6 不同方法的mAP曲線Fig.6 mAP curve of different methods
圖7 驗(yàn)證數(shù)據(jù)集損失變化Fig.7 Loss change of verification data set
式(18)中包含λ、η兩個超參數(shù),本文在自建數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),采取固定一個參數(shù)、調(diào)節(jié)另一個參數(shù)的方法選擇合適的超參數(shù)。實(shí)驗(yàn)結(jié)果如圖8所示。由圖8可以看出,當(dāng)λ=1e-3,η=1e-1時,mAP達(dá)到了最大值。
圖8 不同參數(shù)值對mAP的影響Fig.8 Influence of different parameter values on mAP
另外,本文對特征提取模塊中隱空間圖文特征的映射維度進(jìn)行實(shí)驗(yàn),分別設(shè)置維度為128維、256維和512維進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。可以看出,當(dāng)映射特征維度取256維時,模型性能最佳。
表4 不同映射特征維度的mAP結(jié)果
對模型交互階段的圖文注意力權(quán)重進(jìn)行可視化分析。圖9展示了自建數(shù)據(jù)集圖解零件類手冊中兩例圖文對的注意力可視化結(jié)果。從圖9(a)可以看出,文本對圖像注意力分別在圖像的兩個主體(即飛機(jī)發(fā)動機(jī)細(xì)節(jié)和發(fā)動機(jī)整體)剖視面圖上,圖像對文本的注意力權(quán)重主要分布在“發(fā)動機(jī)”“剖視面”詞語上,二者與圖中注意力關(guān)注的區(qū)域都有很強(qiáng)的相關(guān)性。同時,由于文本數(shù)據(jù)在處理過程中可能會出現(xiàn)一定的傾向性,對于出現(xiàn)次數(shù)較少的詞語或未登錄詞語,使用字符代號“UNK”替代。這類結(jié)果的可視化分析如圖9(b)所示,文本對圖像注意力多關(guān)注在圖像空白區(qū)域,而圖像對文本的注意力權(quán)重則主要分布在“UNK”上。這表明模型注意力并不一定關(guān)注在人們通常認(rèn)為的圖像或文本的關(guān)鍵信息部分。對于有大范圍空白的圖像,其注意力可能會關(guān)注在模型認(rèn)為區(qū)分度較強(qiáng)的空白區(qū)域和文本中的“UNK”符號上。以上兩種情況均表明圖文之間建立了一定的聯(lián)系。
圖9 注意力可視化分析Fig.9 Visual analysis of attention
針對現(xiàn)有IETM檢索功能模態(tài)單一的問題,本文以航空行業(yè)IETM中的10類圖文數(shù)據(jù)為研究對象,改進(jìn)提出一種融合注意力機(jī)制的細(xì)粒度跨模態(tài)檢索算法。構(gòu)建飛機(jī)技術(shù)手冊跨模態(tài)檢索數(shù)據(jù)集,并根據(jù)數(shù)據(jù)集特點(diǎn),對DSCMR跨模態(tài)檢索模型進(jìn)行改進(jìn),使用基于注意力機(jī)制的特征提取模塊抽取圖文細(xì)粒度特征,在圖文交互模塊引入模態(tài)間整體-局部注意力機(jī)制和模態(tài)內(nèi)注意力機(jī)制進(jìn)行圖文細(xì)粒度對齊。同時,針對數(shù)據(jù)量少的情況,使用文本對抗訓(xùn)練,提升模型泛化能力。所提算法在一個公開數(shù)據(jù)集和自建數(shù)據(jù)集上進(jìn)行了驗(yàn)證,mAP值較所選的最好基準(zhǔn)算法分別提升了0.032和0.099。最后,在自建數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)和參數(shù)實(shí)驗(yàn),并進(jìn)行注意力可視化分析,進(jìn)一步驗(yàn)證了所提算法的有效性。