吳海鵬,錢(qián)育蓉,3,冷洪勇
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆維吾爾自治區(qū)信號(hào)檢測(cè)與處理重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊830046;3.新疆大學(xué)軟件學(xué)院,新疆 烏魯木齊 830046)
關(guān)系抽取是知識(shí)圖譜構(gòu)建的基本任務(wù),也是自然語(yǔ)言處理(NLP)的重要任務(wù)之一,旨在從給定句子中抽取出實(shí)體間的關(guān)系。傳統(tǒng)的關(guān)系抽取方法主要是純文本的單模態(tài)方法,只利用文本信息進(jìn)行關(guān)系抽取。傳統(tǒng)關(guān)系抽取方法通常從一段文本中提取出指定的關(guān)系三元組,具體表現(xiàn)形式為
近些年,社交網(wǎng)絡(luò)發(fā)展迅速,單模態(tài)的關(guān)系抽取方法已經(jīng)無(wú)法滿足海量多模態(tài)數(shù)據(jù)抽取的需求,因此多模態(tài)關(guān)系抽取技術(shù)應(yīng)運(yùn)而生。多模態(tài)關(guān)系抽取任務(wù)的輸入為一個(gè)多模態(tài)實(shí)例L,它包含一個(gè)文本T和一個(gè)與文本關(guān)聯(lián)的圖像I。文本T由一個(gè)單詞序列組成,即T={w1,w2,…,wi,…,wn},其中,wi表示第i個(gè)單詞。在文本T中,有2個(gè)被標(biāo)記的實(shí)體E1和E2,任務(wù)的目標(biāo)是利用文本T以及圖像I的信息預(yù)測(cè)實(shí)體E1和E2之間的關(guān)系類型r。
現(xiàn)有的多模態(tài)關(guān)系抽取方法利用圖像數(shù)據(jù)作為文本數(shù)據(jù)的補(bǔ)充,以輔助模型進(jìn)行關(guān)系抽取,但實(shí)際上圖像中往往存在與文本無(wú)關(guān)的冗余信息,而在現(xiàn)有方法下這些冗余信息最終會(huì)影響關(guān)系抽取的結(jié)果。
為了解決這一問(wèn)題,本文提出一種基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型。與僅計(jì)算圖像到文本的單向注意力的現(xiàn)有模型不同,該模型利用雙向注意力機(jī)制計(jì)算圖像到文本與文本到圖像2個(gè)方向上的注意力分布。這樣圖像中與文本更相關(guān)的物體將被賦予較高的權(quán)重,而與文本無(wú)關(guān)的冗余信息被賦予較低的權(quán)重。通過(guò)該模型可以在多模態(tài)關(guān)系抽取中削弱冗余信息的影響,從而提高抽取結(jié)果的準(zhǔn)確性,并且在公開(kāi)的用于神經(jīng)關(guān)系提取的多模式數(shù)據(jù)集(MNRE)[1]上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
關(guān)系抽取作為知識(shí)圖譜構(gòu)建的關(guān)鍵環(huán)節(jié)[2],長(zhǎng)期以來(lái)都是學(xué)者們關(guān)注和研究的重要領(lǐng)域。早期的關(guān)系抽取方法主要是基于統(tǒng)計(jì)學(xué)[3],近年來(lái)隨著神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的興起,大量基于深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的方法開(kāi)始出現(xiàn)。
基于神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法起初多數(shù)依賴于外部NLP工具[4],容易受到NLP工具帶來(lái)的錯(cuò)誤影響,學(xué)者們對(duì)此進(jìn)行了大量研究。WANG等[5]提出一個(gè)基于多級(jí)注意力卷積神經(jīng)網(wǎng)絡(luò)的抽取模型,該模型在不使用NLP工具的前提下依然取得了較好的效果。ZHANG等[6]提出一種基于長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)的關(guān)系抽取模型,該模型可以有效地從文本中挑選相關(guān)內(nèi)容而摒棄無(wú)關(guān)內(nèi)容,從而提升了抽取效果。ZENG等[7]利用多示例學(xué)習(xí)有效地解決了抽取過(guò)程中的噪聲問(wèn)題。WEI等[8]提出一個(gè)重疊式的指針網(wǎng)絡(luò)較好地解決了關(guān)系抽取中存在的實(shí)體重疊問(wèn)題。SOARES等[9]通過(guò)在來(lái)自Transformer的雙向編碼器表示(BERT)預(yù)訓(xùn)練過(guò)程中額外添加匹配空白(MTB)任務(wù),有效地提升了關(guān)系抽取性能。
雖然以上方法在面向純文本的關(guān)系抽取任務(wù)上都取得了良好的效果,但面對(duì)多模態(tài)數(shù)據(jù)時(shí)卻往往因?yàn)槲谋局行畔⑷笔Ф憩F(xiàn)不佳。
已有抽取方法主要是針對(duì)純文本信息進(jìn)行抽取,一般只利用了文本的單模態(tài)信息,隨著社交平臺(tái)的盛行,面對(duì)大量的多模態(tài)信息,面向純文本的單模態(tài)抽取方法已經(jīng)無(wú)法滿足社交媒體等多模態(tài)場(chǎng)景下的關(guān)系抽取需求[10-12],并且多模態(tài)關(guān)系抽取數(shù)據(jù)集也極為缺乏。為此,ZHENG等[1]提出MNRE數(shù)據(jù)集以解決多模態(tài)關(guān)系抽取數(shù)據(jù)集匱乏的問(wèn)題,之后ZHENG等[10]又提出高效圖對(duì)齊的多模式關(guān)系抽取(MEGA)模型。該模型將圖像信息視為對(duì)文本信息的補(bǔ)充,利用視覺(jué)信息輔助模型進(jìn)行關(guān)系抽取并利用注意力機(jī)制對(duì)齊語(yǔ)義,在獲得對(duì)齊后的文本表示后再進(jìn)行關(guān)系抽取。
MEGA在多模態(tài)數(shù)據(jù)集上的抽取效果明顯優(yōu)于傳統(tǒng)單模態(tài)抽取模型,然而存在信息冗余問(wèn)題,圖像中與文本語(yǔ)義無(wú)關(guān)的物體也被學(xué)習(xí)到對(duì)齊后的文本表示中,對(duì)抽取結(jié)果造成干擾。為解決這一問(wèn)題,本文利用雙向注意力機(jī)制緩解無(wú)關(guān)信息對(duì)抽取結(jié)果的干擾,進(jìn)一步提升了關(guān)系抽取效果。
雙向注意力機(jī)制由SEO等[13]提出,之后被廣泛應(yīng)用于機(jī)器閱讀理解領(lǐng)域。傳統(tǒng)的注意力機(jī)制只通過(guò)查詢項(xiàng)(query)到鍵(key)進(jìn)行單向查詢,從而得出匯總值(value)所需的權(quán)重,建模的是查詢項(xiàng)到鍵之間的單向關(guān)系,而雙向注意力機(jī)制通過(guò)計(jì)算雙向查詢建模了查詢項(xiàng)與鍵之間的雙向關(guān)系。在很多場(chǎng)景下,查詢項(xiàng)與鍵往往是2種平行的數(shù)據(jù),如多模態(tài)場(chǎng)景中平行的圖像和文本、平行的語(yǔ)音和文本等,在這樣的情況下,另一個(gè)方向上的查詢,即鍵到查詢項(xiàng)的查詢也具有實(shí)際含義。近年來(lái),學(xué)者們開(kāi)始探索將雙向注意力機(jī)制應(yīng)用于相關(guān)領(lǐng)域。LI等[14]將雙向注意力機(jī)制應(yīng)用于神經(jīng)網(wǎng)絡(luò)強(qiáng)制對(duì)齊,實(shí)驗(yàn)結(jié)果表明雙向注意力機(jī)制應(yīng)用在2種平行的數(shù)據(jù)上能夠提升任務(wù)效果。黃宏展等[15]將雙向注意力機(jī)制引入多模態(tài)情感分析任務(wù),實(shí)驗(yàn)結(jié)果證明了雙向注意力機(jī)制在多模態(tài)場(chǎng)景下可以更充分地利用2種模態(tài)間的交互信息。
根據(jù)以上研究,本文提出基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型,將雙向注意力機(jī)制應(yīng)用于多模態(tài)關(guān)系抽取任務(wù),以緩解無(wú)關(guān)信息對(duì)抽取結(jié)果的干擾,使模型能更準(zhǔn)確地抽取關(guān)系。
基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型由特征表示層、多模態(tài)特征對(duì)齊層、多模態(tài)特征融合層和輸出層4個(gè)部分組成,如圖1所示(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML版)。特征表示層分為語(yǔ)義特征表示層和結(jié)構(gòu)特征表示層,通過(guò)BERT模型和依存句法樹(shù)分別提取文本的語(yǔ)義特征表示和文本的結(jié)構(gòu)特征表示,并利用一個(gè)以Faster R-CNN為骨干網(wǎng)絡(luò)的場(chǎng)景圖生成模型同時(shí)提取圖像的語(yǔ)義特征與結(jié)構(gòu)特征。多模態(tài)特征對(duì)齊層分為語(yǔ)義特征對(duì)齊層與結(jié)構(gòu)特征對(duì)齊層,分別進(jìn)行結(jié)構(gòu)特征的對(duì)齊與語(yǔ)義特征的對(duì)齊。多模態(tài)特征融合層將結(jié)構(gòu)特征與語(yǔ)義特征整合成對(duì)齊后的視覺(jué)特征,再將文本中實(shí)體的語(yǔ)義表示與對(duì)齊后的視覺(jué)表示連接起來(lái)形成文本與圖像的融合特征。輸出層對(duì)融合特征計(jì)算所有關(guān)系分類的概率分?jǐn)?shù)并輸出預(yù)測(cè)關(guān)系。
圖1 基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型結(jié)構(gòu)Fig.1 Structure of multimodal relation extraction model based on bidirectional attention mechanism
2.1.1 語(yǔ)義特征表示層
MNRE數(shù)據(jù)集中每條數(shù)據(jù)都包含了一段文本描述和一張與其對(duì)應(yīng)的圖片。對(duì)數(shù)據(jù)中的文本信息,采用BERT模型作為編碼器提取特征,具體步驟如下:
1)將文本信息轉(zhuǎn)換為一個(gè)token序列s1,在序列頭部增加“[CLS]”標(biāo)記,在序列尾部增加“[SEP]”標(biāo)記。
3)通過(guò)對(duì)數(shù)據(jù)集的觀察以及對(duì)實(shí)驗(yàn)效果的權(quán)衡取n=128作為token序列的最大長(zhǎng)度,用“[PAD]”標(biāo)記將小于最大長(zhǎng)度n的輸入序列填充到最大長(zhǎng)度n。
4)通過(guò)設(shè)置segment序列區(qū)分序列中的有效部分與填充部分,segment序列可以表示為s2=(1,1,…,1,…,0,0),數(shù)字“1”表示有效部分,數(shù)字“0”表示填充部分。
5)通過(guò)詞嵌入與字符嵌入相結(jié)合來(lái)表示輸入文本中的詞,以充分獲取文本特征。
(1)
為了獲取視覺(jué)信息,采用對(duì)象級(jí)視覺(jué)特征(OLVF)作為圖像信息表示[16],OLVF是一種自下而上的圖像信息表示方式,通過(guò)提取視覺(jué)對(duì)象表示獲取輸入圖像的語(yǔ)義特征。為了提取圖片中的視覺(jué)對(duì)象,利用以Faster R-CNN為骨干網(wǎng)絡(luò)的場(chǎng)景圖生成模型,將圖像輸入場(chǎng)景圖生成模型獲取輸入圖像的場(chǎng)景圖。在場(chǎng)景圖中包含多個(gè)節(jié)點(diǎn)以及與節(jié)點(diǎn)相關(guān)的邊,節(jié)點(diǎn)包含視覺(jué)對(duì)象的特征,而邊則表示不同視覺(jué)對(duì)象之間的視覺(jué)關(guān)系。
輸入圖像被表示為所提取的場(chǎng)景圖中的一組區(qū)域視覺(jué)特征,其中每個(gè)區(qū)域視覺(jué)特征代表圖像中的一個(gè)視覺(jué)對(duì)象,并以一個(gè)維度為dy的向量yi來(lái)表示。為檢測(cè)到的視覺(jué)對(duì)象設(shè)置一個(gè)置信度閾值,若大于該閾值則將其視為視覺(jué)對(duì)象,該閾值的具體取值由深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到。為盡量減少圖像中無(wú)關(guān)對(duì)象對(duì)抽取結(jié)果的干擾,取置信度較大的前m個(gè)視覺(jué)對(duì)象作為圖像的視覺(jué)特征,通過(guò)對(duì)實(shí)驗(yàn)效果的觀察,在實(shí)驗(yàn)中取m=10能取得較好的效果。最后,輸入圖像被轉(zhuǎn)換為矩陣Y,若圖像中檢測(cè)到的視覺(jué)對(duì)象數(shù)量少于m,則通過(guò)零填充將矩陣Y擴(kuò)充到最大尺寸m,如式(2)所示:
Y= [y1,y2,…,ym]m×dy
(2)
2.1.2 結(jié)構(gòu)特征表示層
在以往的工作中,句子的結(jié)構(gòu)(如依存句法樹(shù))能為關(guān)系抽取提供重要信息[17],因此利用依存句法樹(shù)和場(chǎng)景圖生成模型分別為輸入文本和圖像生成2個(gè)單向圖,以提供協(xié)助多模態(tài)關(guān)系抽取的結(jié)構(gòu)特征信息。
依存句法樹(shù)是一種表示詞與詞之間關(guān)系的結(jié)構(gòu),依存句法樹(shù)能夠?yàn)殛P(guān)系抽取提供重要信息,句子中2個(gè)詞之間對(duì)應(yīng)的依賴可以被表示為如式(3)所示的依存關(guān)系三元組:
Rdependency=(wg,rtype,wd)
(3)
其中:wg是支配詞;wd是從屬詞;rtype表示從屬詞對(duì)支配詞的修飾關(guān)系。使用ELMo模型[18]作為句法樹(shù)提取工具,獲取輸入文本的依存句法樹(shù)及對(duì)應(yīng)的依存關(guān)系三元組。生成的依存樹(shù)的圖表示記作G1,如式(4)所示:
G1=(V1,E1)
(4)
其中:V1是圖中點(diǎn)的集合,代表句子中的支配詞和從屬詞;E1是圖中邊的集合,代表2個(gè)詞之間的依賴關(guān)系。
通過(guò)場(chǎng)景圖生成模型獲取輸入圖像中的m個(gè)視覺(jué)對(duì)象以及視覺(jué)對(duì)象間的視覺(jué)關(guān)系,由于視覺(jué)對(duì)象間的關(guān)系都是單向的,因此類似于依賴樹(shù),在圖像中的每個(gè)視覺(jué)對(duì)象也會(huì)被它的關(guān)聯(lián)對(duì)象所指向,最后獲得輸入圖像的圖表示G2。G2由圖像中檢測(cè)到的視覺(jué)對(duì)象及視覺(jué)對(duì)象間的關(guān)系組成,如式(5)所示:
G2=(V2,E2)
(5)
其中:V2是圖中點(diǎn)的集合,代表圖像中檢測(cè)到的視覺(jué)對(duì)象;E2是圖中邊的集合,代表視覺(jué)對(duì)象間的視覺(jué)關(guān)系。
通過(guò)生成圖G1和G2得到輸入文本和圖片的結(jié)構(gòu)特征信息。
為了充分利用文本與圖像間的交互信息,從語(yǔ)義和結(jié)構(gòu)2個(gè)方面對(duì)齊多模態(tài)特征,利用雙向注意力機(jī)制對(duì)齊語(yǔ)義特征,并利用節(jié)點(diǎn)間的相似性對(duì)圖G1和G2進(jìn)行結(jié)構(gòu)對(duì)齊。
2.2.1 語(yǔ)義對(duì)齊
現(xiàn)有的多模態(tài)關(guān)系抽取模型主要依賴注意力機(jī)制,實(shí)現(xiàn)圖像到文本方向的單向?qū)R,以獲取對(duì)齊后的文本語(yǔ)義表示。然而,實(shí)際上圖像中往往存在與文本無(wú)關(guān)的冗余信息。例如,在圖1中,輸入圖像中檢測(cè)到的視覺(jué)對(duì)象“cup”顯然與對(duì)應(yīng)文本無(wú)關(guān),但在單向?qū)R過(guò)程中,對(duì)象“cup”的信息也會(huì)被學(xué)習(xí)到對(duì)齊后的文本表示中,從而影響關(guān)系抽取的準(zhǔn)確性。
為解決這一問(wèn)題,本文提出一種基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型,通過(guò)同時(shí)建立圖像到文本方向和文本到圖像方向的雙向?qū)R,通過(guò)賦予圖像中冗余信息較低的權(quán)重來(lái)降低其對(duì)文本語(yǔ)義表示的影響。這種雙向注意力機(jī)制有助于獲取包含雙向語(yǔ)義信息的文本語(yǔ)義表示,從而提高了關(guān)系抽取的準(zhǔn)確性。
雙向注意力機(jī)制的輸入由query、key、value組成,其中,query為輸入圖像的語(yǔ)義表示,key和value為輸入文本的語(yǔ)義表示。為方便計(jì)算,將query、key和value的特征維度均設(shè)置為da,雙向注意力機(jī)制計(jì)算過(guò)程如圖2所示。
圖2 雙向注意力機(jī)制計(jì)算過(guò)程Fig.2 Calculation process of bidirectional attention mechanism
在圖2中,K1和V1為query矩陣Q∈m×da,K2為key矩陣K∈n×da,V2為value矩陣V∈n×da,m為圖像中檢測(cè)到的視覺(jué)對(duì)象的最大數(shù)量,n為文本最大長(zhǎng)度。
首先,計(jì)算匹配矩陣A∈n×m,Ai,j表示輸入文本中第i個(gè)字與輸入圖像中第j個(gè)視覺(jué)對(duì)象間的相似性,匹配矩陣計(jì)算公式如式(6)所示:
A=Q×KT
(6)
通過(guò)匹配矩陣A計(jì)算圖像到文本方向與文本到圖像方向2個(gè)方向的注意力權(quán)重。圖像到文本方向的注意力權(quán)重W12的計(jì)算如式(7)所示:
W12=Softmax(A)
(7)
文本到圖像方向的注意力權(quán)重W21的計(jì)算如式(8)所示:
W21=Softmax(AT)
(8)
然后,計(jì)算得到圖像到文本方向上對(duì)齊后的文本語(yǔ)義表示O1和文本到圖像方向上對(duì)齊后的圖像語(yǔ)義表示O2,如式(9)所示:
(9)
其中:O1∈n×da;O2∈m×da。
最后,通過(guò)式(10)計(jì)算得到對(duì)齊后的語(yǔ)義權(quán)重β。
(10)
其中:da為文本語(yǔ)義表示O1與圖像語(yǔ)義表示O2的特征維度。
相較于現(xiàn)有的單向?qū)R機(jī)制,所提出的雙向?qū)R機(jī)制能夠增強(qiáng)文本語(yǔ)義表示的準(zhǔn)確性,從而提升模型的性能。
2.2.2 圖結(jié)構(gòu)對(duì)齊
利用節(jié)點(diǎn)信息來(lái)提取用于結(jié)構(gòu)對(duì)齊的多模態(tài)圖表示的結(jié)構(gòu)相似性。從2個(gè)圖集合G1(V1,E1)與G2(V2,E2)中提取節(jié)點(diǎn)集合V1與V2,通過(guò)計(jì)算2個(gè)圖集合間的節(jié)點(diǎn)相似性以獲取2個(gè)圖的結(jié)構(gòu)相似性。具體計(jì)算步驟如下:
1)令集合U為節(jié)點(diǎn)集合V1、V2的并集,如式(11)所示:
U=V1∪V2
(11)
2)為提取節(jié)點(diǎn)間的結(jié)構(gòu)相似性,對(duì)集合U中的每個(gè)節(jié)點(diǎn)u,計(jì)算其k跳鄰居的出度和入度,如式(12)、式(13)所示:
(12)
(13)
其中:k∈[1,K],K是圖直徑;δ∈(0,1]是折扣因子。
3)通過(guò)式(14)計(jì)算集合U中節(jié)點(diǎn)m∈V1和節(jié)點(diǎn)n∈V2之間的相似性:
(14)
4)計(jì)算2個(gè)圖之間的節(jié)點(diǎn)相似度,如式(15)所示,在計(jì)算完成后得到包含了結(jié)構(gòu)相似性特征的矩陣α。
α=(αi,j)V1×V2
(15)
其中:αi,j表示文本中第i個(gè)詞與圖片中第j個(gè)視覺(jué)對(duì)象間的結(jié)構(gòu)相似性。
采用圖結(jié)構(gòu)對(duì)齊方法來(lái)捕捉文本與圖像之間的結(jié)構(gòu)相似性。通過(guò)計(jì)算2個(gè)圖集合間的節(jié)點(diǎn)相似性,能夠獲取2個(gè)圖的結(jié)構(gòu)相似性。這種方法有助于模型更好地捕捉多模態(tài)數(shù)據(jù)中的關(guān)系信息。
為充分利用對(duì)齊的語(yǔ)義信息β與結(jié)構(gòu)信息α,首先,利用式(16)整合對(duì)齊信息,以獲取對(duì)齊后的視覺(jué)特征Y*。
Y*=(αT+β)V=αTV+YS
(16)
其中:V是視覺(jué)特征表示,通過(guò)整合語(yǔ)義對(duì)齊信息與結(jié)構(gòu)對(duì)齊信息,由文本引導(dǎo)的視覺(jué)特征最終表示為矩陣Y*∈m×da;YS代表經(jīng)過(guò)語(yǔ)義對(duì)齊處理后得到的視覺(jué)特征。
然后,將視覺(jué)對(duì)象特征整合為向量表示,作為多模態(tài)信息融合的視覺(jué)信息表示,如式(17)所示:
(17)
(18)
(19)
在多模態(tài)特征融合層中,通過(guò)整合對(duì)齊的語(yǔ)義信息與結(jié)構(gòu)信息,得到了對(duì)齊后的視覺(jué)特征表示。將視覺(jué)對(duì)象特征整合為向量表示,并與文本中的實(shí)體表示拼接,以獲取最終的多模態(tài)特征表示。這種融合方法有效地將視覺(jué)信息和文本信息相結(jié)合,有助于捕捉多模態(tài)數(shù)據(jù)中的關(guān)聯(lián)信息,進(jìn)而提高關(guān)系抽取的準(zhǔn)確性和模型性能。
如式(20)所示,輸出層使用一個(gè)多層感知機(jī)(MLP)作為分類器來(lái)預(yù)測(cè)關(guān)系類別,并輸出各個(gè)關(guān)系對(duì)應(yīng)的分類概率。
poutput=Softmax(MLP(z))
(20)
其中:poutput∈nr表示nr個(gè)預(yù)定義關(guān)系的分類概率。
實(shí)驗(yàn)通過(guò)BERT模型初始化文本語(yǔ)義表示,特征維度dx為768,該取值是基于BERT預(yù)訓(xùn)練模型的標(biāo)準(zhǔn)設(shè)置,已被證明在各種自然語(yǔ)言處理任務(wù)中能夠有效地學(xué)習(xí)文本特征。在場(chǎng)景圖中提取的視覺(jué)對(duì)象的特征維度dy為4 096,該取值是基于Faster R-CNN模型的設(shè)置,已被證明在各種視覺(jué)任務(wù)中能夠有效地檢測(cè)和提取目標(biāo)對(duì)象的特征。語(yǔ)義對(duì)齊維度da為1 536,該維度是對(duì)文本和視覺(jué)特征進(jìn)行整合的需要,使得多模態(tài)特征能夠在相同的語(yǔ)義空間中進(jìn)行對(duì)齊和融合。通過(guò)對(duì)數(shù)據(jù)集的觀察和實(shí)驗(yàn)效果的權(quán)衡,將token序列的最大長(zhǎng)度n設(shè)置為128,經(jīng)實(shí)驗(yàn)驗(yàn)證,將場(chǎng)景圖視覺(jué)對(duì)象最大數(shù)量m設(shè)置為10能夠取得較好的效果。模型采用AdamW優(yōu)化器訓(xùn)練目標(biāo)函數(shù),經(jīng)實(shí)驗(yàn)驗(yàn)證,將初始學(xué)習(xí)率設(shè)置為0.000 02和批量大小設(shè)置為10能夠在訓(xùn)練速度和模型性能之間達(dá)到較好的平衡。本文模型在NVIDIA RTX 3060顯卡上進(jìn)行訓(xùn)練。
目前,關(guān)于多模態(tài)關(guān)系抽取任務(wù)的相關(guān)研究較少,完全公開(kāi)的數(shù)據(jù)集僅有MNRE數(shù)據(jù)集,本文所有實(shí)驗(yàn)均在MNRE數(shù)據(jù)集上進(jìn)行。MNRE數(shù)據(jù)集原始數(shù)據(jù)來(lái)源于多模態(tài)命名實(shí)體識(shí)別數(shù)據(jù)集Twitter15[19]與Twitter17[20],以及一些從推特上爬取的數(shù)據(jù)。ZHENG等[1]通過(guò)人工標(biāo)記實(shí)體對(duì)間的關(guān)系并濾除原始數(shù)據(jù)中的部分錯(cuò)誤樣本,構(gòu)建了MNRE數(shù)據(jù)集。MNRE數(shù)據(jù)集包括音樂(lè)、運(yùn)動(dòng)、社會(huì)事件等主題,包含15 848個(gè)樣本、9 201張圖片與23種預(yù)定義的關(guān)系。
關(guān)系抽取工作的最終效果評(píng)價(jià)體系是在自動(dòng)內(nèi)容抽取(ACE)會(huì)議上提出的,以精確率(P)、召回率(R)及F1值(F1)為衡量指標(biāo),其計(jì)算公式如下:
(21)
(22)
(23)
其中:NTP表示被正確預(yù)測(cè)為關(guān)系r的樣本數(shù);NFP表示被錯(cuò)誤預(yù)測(cè)為關(guān)系r的樣本數(shù);NFN表示被錯(cuò)誤預(yù)測(cè)為其他關(guān)系的樣本數(shù)。
為驗(yàn)證所提模型的有效性,與一些經(jīng)典的單模態(tài)關(guān)系抽取模型和主流多模態(tài)關(guān)系抽取模型進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比模型介紹如下:
1)分段卷積神經(jīng)網(wǎng)絡(luò)(PCNN)模型[7]:是一種遠(yuǎn)程監(jiān)督關(guān)系抽取模型,利用外部知識(shí)圖自動(dòng)標(biāo)記包含相同實(shí)體的句子,利用文本信息進(jìn)行關(guān)系抽取。
2)MTB模型[9]:是一種基于BERT的預(yù)訓(xùn)練關(guān)系抽取模型,利用文本信息進(jìn)行關(guān)系抽取。
3)統(tǒng)一多模態(tài)Transformer(UMT)模型[21]:將Transformer應(yīng)用于多模態(tài)場(chǎng)景,利用圖文信息進(jìn)行關(guān)系抽取。
4)統(tǒng)一多模態(tài)圖融合(UMGF)模型[22]:利用圖文信息進(jìn)行關(guān)系抽取。
5)自適應(yīng)共同注意力的預(yù)訓(xùn)練關(guān)系抽取模型(AdapCoAtt-BERT)[23]:設(shè)計(jì)多模態(tài)場(chǎng)景下的共同注意力網(wǎng)絡(luò),利用圖文信息進(jìn)行關(guān)系抽取。
6)視覺(jué)預(yù)訓(xùn)練關(guān)系抽取模型(VisualBERT)[24]:是基于BERT預(yù)訓(xùn)練的多模態(tài)模型,利用圖文信息進(jìn)行關(guān)系抽取。
7)視覺(jué)-語(yǔ)言預(yù)訓(xùn)練關(guān)系抽取模型(ViLBERT)[25]:擴(kuò)展了BERT以聯(lián)合表示圖像和文本,利用圖文信息進(jìn)行關(guān)系抽取。
8)基于高效圖對(duì)齊的多模態(tài)關(guān)系抽取(MEGA)模型[1]:利用圖文信息進(jìn)行關(guān)系抽取。
將所提模型與8個(gè)基準(zhǔn)模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示,其中最優(yōu)指標(biāo)值用加粗字體標(biāo)示。
表1 在MNRE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 1 Experimental results on the MNRE dataset %
由表1的實(shí)驗(yàn)結(jié)果可以看出,多模態(tài)關(guān)系抽取模型一般優(yōu)于單模態(tài)模型,這是因?yàn)槎嗄B(tài)模型可以利用圖像信息作為文本信息的補(bǔ)充,得到更豐富的語(yǔ)義信息再進(jìn)行關(guān)系抽取。通過(guò)表1中標(biāo)注的最優(yōu)指標(biāo)值可以得知:所提模型較單模態(tài)關(guān)系抽取模型MTB的F1值提升了6.36個(gè)百分點(diǎn);所提模型較表現(xiàn)最好的多模態(tài)關(guān)系抽取模型MEGA的F1值提升了0.91個(gè)百分點(diǎn),這一提升歸功于所提模型采用雙向注意力機(jī)制來(lái)對(duì)齊多模態(tài)語(yǔ)義特征,使得模型能夠更有效地捕捉文本和圖像之間的相互依賴關(guān)系,從而提高關(guān)系抽取的準(zhǔn)確性;所提模型相較于其他多模態(tài)關(guān)系抽取模型,在捕捉圖像和文本間關(guān)聯(lián)信息方面更加準(zhǔn)確和高效。
為了進(jìn)一步驗(yàn)證雙向注意力機(jī)制的有效性,在MNRE數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),其中,-Biatt表示將所提模型中的雙向注意力機(jī)制替換為普通的單向注意力機(jī)制,-Att表示不使用注意力機(jī)制對(duì)齊圖像文本特征,只將圖像特征與文本特征直接相連作為語(yǔ)義特征。消融實(shí)驗(yàn)結(jié)果如表2所示,在將雙向注意力機(jī)制替換為單向注意力機(jī)制后模型表現(xiàn)明顯下降,在去掉注意力機(jī)制之后,模型表現(xiàn)進(jìn)一步下降,從而驗(yàn)證了雙向注意力機(jī)制能夠有效地捕捉圖像和文本間的關(guān)聯(lián)信息。
表2 消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiment %
本文提出基于雙向注意力機(jī)制的多模態(tài)關(guān)系抽取模型,將雙向注意力機(jī)制應(yīng)用于多模態(tài)關(guān)系抽取任務(wù),利用雙向注意力機(jī)制降低了圖像中冗余信息對(duì)關(guān)系抽取的影響,進(jìn)一步提升了關(guān)系抽取效果。實(shí)驗(yàn)結(jié)果表明,與一些經(jīng)典的單模態(tài)關(guān)系抽取模型和主流多模態(tài)關(guān)系抽取模型相比,所提模型在精確率、召回率、F1值3項(xiàng)指標(biāo)上均表現(xiàn)出明顯的優(yōu)勢(shì),驗(yàn)證了所提模型的有效性。在未來(lái)的工作中,將考慮把一些傳統(tǒng)關(guān)系抽取模型引入多模態(tài)關(guān)系抽取任務(wù)以更充分地挖掘多模態(tài)語(yǔ)義信息,以不斷提升多模態(tài)關(guān)系抽取的性能,為相關(guān)領(lǐng)域的研究和應(yīng)用提供有力支持。