• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多模態(tài)命名實體識別方法研究進展

    2024-03-09 02:52:00王海榮荊博祥
    鄭州大學學報(工學版) 2024年2期
    關鍵詞:實體語義模態(tài)

    王海榮, 徐 璽, 王 彤, 荊博祥

    (1.北方民族大學 計算科學與工程學院,寧夏 銀川 750021;2.北方民族大學 圖像圖形智能處理國家民委重點實驗室,寧夏 銀川 750021)

    命名實體識別任務是從數(shù)據(jù)中識別出專有名詞,最早在信息理解會議[1]上被提出。隨后形成了基于規(guī)則[2]和詞典[3]的方法、機器學習的方法、深度學習的方法等3類命名實體識別方法。基于規(guī)則和詞典的方法通過字符匹配進行信息抽取,適用于數(shù)據(jù)更新較少的領域,但規(guī)則和詞典制定成本較高。基于機器學習的方法將命名實體識別任務視為分類問題,并提出了如HMM-based[4]、CRF-based[5]的模型,該方法減少了人工成本,但選取特征的質量決定了算法的性能?;谏疃葘W習的方法具有自動挖掘高質量上下文特征的能力,研究者相繼提出了CNN-based[6]、BiLSTM-based[7]、Transformer-based[8-10]、GNN-based[11-13]等模型,但要求文本有充足的上下文特征,因此在長文本數(shù)據(jù)集中的性能表現(xiàn)更好,在短文本數(shù)據(jù)集中性能表現(xiàn)不佳。

    傳統(tǒng)的文本語義增強主要依賴字符特征[14]、詞匯信息[15]、知識圖譜[16-17]、檢索[18]、標簽信息[19]等外部文本數(shù)據(jù),也結合了多任務學習來增強命名實體識別的能力。王蓬輝等[20]采用基于生成對抗的數(shù)據(jù)增強算法來解決標注數(shù)據(jù)不足的問題。余傳明等[21]提出了實體和事件聯(lián)合抽取模型,從而在2個任務中均取得了更好的效果。武國亮等[22]提出將命名實體識別任務的輸出反饋到輸入端,來解決多任務聯(lián)合學習產(chǎn)生的損失不平衡問題。但隨著社交媒體平臺的廣泛應用,以文本、圖像為主要媒介的多模態(tài)數(shù)據(jù)快速增長,為了從這些多模態(tài)數(shù)據(jù)中挖掘語義,進而增強文本特征,人們提出了多模態(tài)命名實體識別(multimodal named entity recognition,MNER)方法。MNER研究難點是如何融合多模態(tài)特征中有益信息,并過濾有害信息。早期研究[23-25]關注使用視覺特征增強靜態(tài)詞表示的方法,取得了一些研究成果。范濤等[26]將MNER遷移到了地方志領域的實體識別研究。近年來,隨著預訓練語言模型的發(fā)展,MNER方法的研究重點逐步轉向采用Transforme融合特征,取得了新的研究成果?,F(xiàn)有的MNER方法可分為4類,如表1所示。

    表1 多模態(tài)命名實體識別方法分類表

    2018年,Moon等[27]首次在BiLSTM-CRF模型中融入了視覺特征,提出了多模態(tài)實體識別方法,提出MA[27]模型。VAM[28]、CWI[29]等模型也被提出。這些模型均使用注意力機制為文本表示和視覺特征分配權重,拼接得到多模態(tài)特征,再通過BiLSTM+CRF網(wǎng)絡挖掘上下文特征并解碼,將此類模型歸納為前融合模型。前融合模型中使用Glove表示單詞,導致圖像特征與文本特征間的語義存在巨大鴻溝。針對該問題,一些學者提出ACN[29]、GAN[30]、DCN[35]等模型,先使用BiLSTM挖掘文本中上下文特征以增強單詞的實體語義,然后采用注意力機制作為多模態(tài)融合層,得到多模態(tài)特征,將此類模型歸納為后融合模型。

    為了進一步縮小文本與圖像特征的語義差距,2020年,基于Transformer的MNER方法首次被Yu等[33]提出,其中Chen等[36]使用BERT表示文本,并驗證了提升單詞語義的重要性,之后UMGF[31]、MAF[32]、ITJ[37]、HSN[38]等模型相繼被提出,這些模型堆疊多個Transformer,對各模態(tài)特征進行編碼、對齊或融合處理,得到多模態(tài)特征后,均只后接1個命名實體識別任務,本文將此類模型歸納為Transfor-mer單任務模型。為了解決多模態(tài)特征與目標語義間的偏差問題,一是在文本表示和多模態(tài)表示上構建聯(lián)合實體識別任務,以解決視覺偏差的問題,如Yu等[33]的邊界檢測任務,Wang等[34]和Liu等[39]的文本視圖命名實體識別任務。二是通過輔助任務聯(lián)合訓練多模態(tài)表示,增強特征的通用性。如李曉騰等[40]提出通過對比融合、實體聚類、邊界檢測等任務輔助學習多模態(tài)特征,Chen等[41]結合關系抽取任務訓練多模態(tài)特征,本文將此類模型歸納為Transformer多任務模型。上面所提的4類模型尚沒有關注單視覺特征中圖像語義丟棄的問題。

    此外,Sui等[42]構建文本和語音數(shù)據(jù)集并提出M3T模型,進一步驗證多模態(tài)特征能幫助識別命名實體。Liu等[43]提出使用合成的聲學特征而不是真實的人類語音,并采用多頭注意力機制融合文本和語音2種模態(tài)的特征,穩(wěn)定地提高了中文命名實體識別的性能。馮皓楠等[44]提出了一種圖文注意力融合的主題標簽推薦的方法,并表明相比單模態(tài)輸入,多模態(tài)方法具有更顯著的優(yōu)勢。鄭建興等[45]提出了基于評論文本情感注意力的推薦方法,使用注意力機制聚合用戶特征和項目特征信息,以得到聯(lián)合嵌入,進而提升了模型的有效性。

    1 MNER方法框架

    根據(jù)MNER各方法的特點,將MNER方法的框架劃分為模態(tài)輸入表示、上下文編碼層、多模態(tài)融合層、標簽解碼和多任務融合層。多模態(tài)命名實體識別的基本框架如圖1所示。

    圖1 多模態(tài)命名實體識別的基本框架

    模態(tài)輸入表示是將各模態(tài)數(shù)據(jù)表示為特征向量。上下文編碼器旨在挖掘特征的上下文依賴關系,主要采用BiLSTM模型。多模態(tài)融合層旨在融合多模態(tài)特征,主要采用Attention、Co-Attention、Transformer、Transformer with Cross-Attention模型。多模態(tài)融合層和上下文編碼器呈現(xiàn)3種結構,前融合模型將圖像信息傳遞給每個單詞,再挖掘單詞間的上下文特征;后融合模型則相反;多模態(tài)表示使用Transformer作為聯(lián)合編碼模型,融合多模態(tài)特征。標簽解碼層將多模態(tài)表示作為輸入特征來預測標簽。此外,當MNER方法結合了如對抗學習、邊界檢測、關系抽取等輔助任務共同訓練,將之歸納為多任務融合層。綜上,可劃分為4種模型結構:前融合模型、后融合模型、Transformer單任務模型及Transformer多任務模型。

    1.1 模態(tài)輸入表示

    文本模態(tài)輸入表示主要采用字符嵌入、詞嵌入、混合嵌入表示文本特征。字符嵌入Xc通過CNN或RNN模型進行表示,緩解out-of-vocabulary的問題;詞嵌入模型包括CBOW[46]、Word2Vec[47]、Glove[48]、FastText[49]、ELMo[50]、BERT等。對于輸入的句子S,靜態(tài)詞向量可表示為

    Xs=Glove(S)。

    (1)

    動態(tài)詞向量可表示為

    Xb=BERT(S)。

    (2)

    混合嵌入[51]可表示為X=[Xs;Xc]。

    對于輸入的圖像特征I,視覺模態(tài)輸入表示采用預訓練數(shù)據(jù)模型進行特征表示,區(qū)域視覺特征使用ResNet[52]模型提取,可表示為

    Vr=ResNet(I),Vr∈Rn×d。

    (3)

    式中:d為特征維度;n為特征的數(shù)量。

    (4)

    利用Mask RCNN[53]提取對象級視覺標簽,可表示為

    Vl=MaskRCNN(I)。

    (5)

    圖像標題使用圖像字幕[54](image captioning,IC)提取,可表示為

    Vcap=IC(I)。

    (6)

    1.2 上下文編碼層和多模態(tài)融合層

    雙向長短時記憶網(wǎng)絡(bi-directional long-short term memory,BiLSTM)作為上下文編碼器時,能提取單詞上下文特征。自注意力機制能增強關鍵特征的權重。self-Attention(SA)、Multi Head self-Attention(MHSA),Cross-Attention(CA)、計算原理表示如下:

    (7)

    MHSA()=W′[SA0(),SA1(),…,SAm-1()];

    (8)

    (9)

    式中:Q、K、V為輸入特征的投影向量;d為Q的特征維度;m為多頭注意力的頭數(shù);W′代表投影矩陣;Q1代表文本模態(tài)的輸入特征的投影向量;K2、V2代表視覺模態(tài)的輸入特征的投影向量。此外,multi head cross-attention(MHCA)是將MHSA()中的SA()替換為CA()。

    Transformer能獲取到長距離依賴關系,由多個編碼器堆疊形成,每個編碼器由多頭自注意力機制、前饋層及規(guī)范化層組成。

    Transformer作為多模態(tài)融合層時,其多模態(tài)特征融合技術主要為以下3種構建方式:①將文本表示和視覺表示投影到同一離散空間進行對齊;②使用視覺語言模型對文本和圖像進行聯(lián)合表示;③將視覺特征轉化為自然語言描述,使用語言模型統(tǒng)一表示。

    1.3 標簽解碼和多任務融合層

    通常使用條件隨機場(conditional random field, CRF)作為標簽解碼層,對多模態(tài)表示進行解碼。設X={x0,x1,…,xn}為CRF的輸入特征,y={y0,y1,…,yn},解碼表示如下:

    (10)

    使用最大似然函數(shù)作為損失函數(shù),計算如下:

    (11)

    yo為預測輸出序列得分最高的序列,計算如下:

    yo=argmaxyp(y|X),

    (12)

    多任務融合層中利用任務間的信息共享來訓練模型參數(shù),以全局最優(yōu)的多模態(tài)特征或預測結果提升實體識別性能,增強模型的可用性,包括命名實體識別主任務和實現(xiàn)標簽融合或優(yōu)化多模態(tài)表征的輔助任務。

    2 基于BiLSTM的MNER方法

    基于BiLSTM的MNER方法以BiLSTM和CRF作為基礎模塊,并引入多模態(tài)融合層,實現(xiàn)文本和圖像特征融合,以解決上下文特征匱乏的問題。根據(jù)多模態(tài)融合方法劃分為前融合模型和后融合模型,并對各方法進行實驗驗證及對比分析。

    2.1 前融合模型

    前融合模型首先對各模態(tài)表示進行拼接或加權拼接,接著使用BiLSTM挖掘上下文特征,最后將融合表示輸入CRF中預測標簽。前融合模型框架如圖2所示。

    圖2 前融合模型

    Moon等[27]的多模態(tài)融合層是先拼接單詞表示、字符表示及區(qū)域視覺特征,將其映射到統(tǒng)一特征空間X=σ([Xs;Xc;Xv]),Xv=Vr,σ為投影函數(shù),使用注意力機制計算X中各模態(tài)權重[as;ac;av],得到融合表示M,以as為例,模態(tài)權重計算如下:

    (13)

    M=asXs+acXc+avXv。

    (14)

    Lu等[28]使用視覺注意力模型從圖像中提取與文本最相關的圖像特征,計算得到視覺上下文特征v,將v與詞表示、字符表示拼接,得到融合表示M=[vs;Xs;Xc],計算如下:

    A=softmax(W1([Xs;Xc]⊕Xv));

    (15)

    (16)

    式中:W1為權值矩陣;⊕為向量的求和函數(shù);A為視覺全局注意力權重。

    Asgari-Chenaghlu等[55]分別挖掘出字符特征、單詞特征和圖像特征的上下文特征并拼接這些上下文特征作為多模態(tài)融合表示。

    經(jīng)分析發(fā)現(xiàn)上述模型存在以下限制:單詞表示的實體語義微弱。當單詞的拼寫錯誤,只能通過隨機初始化進行表示,文本的實體語義被降低。此外,實現(xiàn)處于不同特征空間的圖文特征對齊是很困難的。

    2.2 后融合模型

    后融合模型利用BiLSTM挖掘上下文特征,增強單詞表示的實體語義,使用多模態(tài)注意力融合圖文特征,再使用CRF模型解碼??蚣苋鐖D3所示。

    圖3 后融合模型

    Zhang等[29]提出了共注意力網(wǎng)絡(CoAttention),對于輸入的圖文特征,先計算基于文本上下文的文本特征ht=BiLSTM([Xs;Xc]),再分別通過共注意力機制計算基于文本注意力的視覺特征Hcv和基于視覺注意力的文本特征Hct,通過門控機制gate(·)=softmax(ReLU(·))得到多模態(tài)表示M,計算如下:

    [Hcv,Hct]=CoAttention(Xv,ht);

    (17)

    M=ht+Hct·gate(Hcv⊕Hct)。

    (18)

    但共注意力網(wǎng)絡忽略了細粒度視覺對象和文本實體之間的關系,可能導致不同類型實體的錯誤預測。為此,Zheng等[30]利用對抗學習優(yōu)化投影函數(shù)將圖文特征映射為一個共享的表示,然后采用雙線性注意力計算每個單詞和對象標簽的細粒度語義關系,以及共同表示G,通過門控機制生成融合表示M,計算如下:

    (19)

    G=Xv·AT;

    (20)

    M=σ([G;ht])°G+ht。

    (21)

    式中:σ()為投影函數(shù);one為向量;P為注意力得分的池化參數(shù)矩陣;W2、W3為參數(shù)矩陣;°為哈達瑪積。

    Wu等[35]使用視覺標簽表示圖像語義,引入密集的共注意力機制建立單詞和對象之間的關系,實現(xiàn)細粒度語義交互,得到多模態(tài)表示M。計算如下:

    htsa=SA(ht,ht,ht);

    (22)

    hv=SA(Xv,Xv,Xv);

    (23)

    M=ht+CA(htsa,hv,hv)。

    (24)

    式中:Xv、ht代表視覺特征、文本特征;SA()和CA()分別代表自注意力機制和跨模態(tài)注意力機制。

    2.3 方法分析

    在Twitter 2015和Twitter 2017數(shù)據(jù)集上進行實驗,使用評估指標[56]如召回率R和F1值對MNER方法的有效性進行對比分析。本文選擇Lu等[28]、Zhang等[29]和Chen等[36]提出的基線模型,前融合模型選取MA和VAM模型,后融合模型選取增加字符表示的ACN模型,以及在ACN模型上融合其他方法的模型,即使用視覺區(qū)域特征的ACN_BCR和使用視覺對象標簽的ACN_BCL模型,融入對抗學習[30]但分別使用區(qū)域特征、視覺對象特征、視覺對象標簽的ACN_GAN_BCR、ACN_GAN_BCL、ACN_GAN_BCO等模型。實驗結果如表2所示,表中PER、LOC、ORG、MISC分別代表數(shù)據(jù)集中的人名、地名、組織名和雜項等4類實體。

    表2 基于BiLSTM的MNER方法對比分析

    相比使用Glove的文本表示,使用BERT使文本表示具有更完備的實體語義表示,因為BERT具備語言模型的背景知識。如在表2中VAM_GCR[28]、ACN_GCR[29]與ACN_BCR、VAM_BCR的實驗對比中,后兩者明顯取得顯著的優(yōu)勢。在Twitter-2017數(shù)據(jù)集中,VAM_BCR方法較VAM_GCR[28]方法R、F1值分別高出6.48百分點、4.32百分點,ACN_BCR的5項指標均高于ACN_GCR[29]方法。

    將字符表示和單詞表示進行拼接,通過補全單詞表示中缺失的語義,以增強單詞表示,進而得到更加準確的預測標簽。ACN_BCR與ACN_BR[36]相比,在Twitter-2015數(shù)據(jù)集中R和F1值分別高出0.22百分點和0.47百分點,結果表明,使用文本模態(tài)內多特征協(xié)同表達,可以解決現(xiàn)有的文本表征模型存在語義缺失的問題。

    由前融合模型MA、VAM與后融合模型ACN_BCR的對比中可以發(fā)現(xiàn),在2個數(shù)據(jù)集中,ACN_BCR的12個指標均高于MA方法,10個指標均高于VAM方法。這表明使用BiLSTM融合單詞表示和字符表示,使得文本表示具有更高的實體語義,能得到更好的多模態(tài)表示。

    使用對抗學習實現(xiàn)2個表征空間的統(tǒng)一是有效的。對比ACN_GAN方法和ACN方法,11個最先進的性能指標出現(xiàn)在ACN_GAN方法,2個數(shù)據(jù)集中最高的F1值分別為ACN_GAN_BCO和ACN_GAN_BCR方法。這是因為對抗學習能使得文本表示和區(qū)域視覺特征的語義分布相似,從而更準確地融合,得到更高質量的多模態(tài)表示。

    3 基于Transformer的MNER方法

    基于Transformer的MNER方法使用Transfor-mer模型和CRF作為基礎模塊,并使用BERT編碼文本以縮小圖文特征實體語義之間的差距。為解決視覺偏差的問題,利用多任務協(xié)同學習引導圖像和文本特征深度融合,本文根據(jù)任務結構,劃分為Transformer單任務模型和Transformer多任務模型,并對經(jīng)典方法進行實驗驗證和方法分析。

    3.1 Transformer單任務模型

    Transformer單任務模型使用BERT進一步縮小文本與圖像特征的語義差距,其處理流程是獲得各模態(tài)的輸入表示后采用多模態(tài)融合技術重新編碼所有的模態(tài)輸入表示,以獲得多模態(tài)表示,最后通過CRF模型得到最終標簽,具體框架如圖4所示。Transformer單任務模型的核心是多模態(tài)融合技術,本小節(jié)將介紹所涉及的3種多模態(tài)融合技術路線。

    圖4 Transformer單任務模型

    (1)圖文聯(lián)合編碼。如Asgari-chenaghlu等[55]調用Transformer聯(lián)合編碼文本S和圖像分類標簽Vl,將輸出特征的文本部分作為多模態(tài)表示M,可表示為

    [M,V′]=BERT([S;Vl])。

    (25)

    (2)感知表示融合技術。如Zhang等[31]將文本單詞特征Xb=BERT(S)和視覺對象Vr視作節(jié)點,分別使用模態(tài)內邊連接模態(tài)內特征,使用模態(tài)間邊連接模態(tài)間特征,構成無向圖G。然后堆疊n個基于圖的跨模態(tài)注意力模型對G進行編碼,以實現(xiàn)特征融合,得到多模態(tài)表示M。

    G=Graph(Xb,Vr);

    (26)

    [M,V″]=cross-attention(Xb,Vr)。

    (27)

    式中:Graph()為將單詞特征和視覺對象構建為無向圖的函數(shù);cross-attention()為跨模態(tài)注意力機制,分別輸出多模態(tài)表示M和多模態(tài)視覺表示V″。

    鐘維幸等[37]使用ALBERT分別對文本S和圖像描述L進行編碼,再使用由3個自注意力模型、4個跨模態(tài)注意力模型組成的多模態(tài)融合模塊來計算多模態(tài)表示M。

    (3)多模態(tài)語義對齊技術。如Xu等[32]通過跨模態(tài)注意力模型先將文本特征和視覺對象對齊,得到匹配表示,再使用多模態(tài)注意力模型融合文本特征和視覺對象得到多模態(tài)表示。Liu等[57]構建了多層次的對齊來捕獲文本和圖像之間由粗粒度到細粒度的交互,并通過計算文本和圖像的相關性在不同語義層次上執(zhí)行跨模態(tài)交互來增強文本表示,最終得到多模態(tài)表示。

    3.2 Transformer多任務模型

    在單任務MNER模型的基礎上,擴展了文本模態(tài)任務或其他輔助任務,以解決視覺偏差問題。Transformer多任務模型的核心是多模態(tài)融合技術和多任務融合模塊,框架如圖5所示。

    圖5 Transformer多任務模型

    多模態(tài)融合技術通常使用Transformer融合模態(tài)輸入表示,得到多模態(tài)表示M。包含以下融合技術路線。

    (1)感知表示融合技術。Yu等[33]提出由Transformer模型對文本進行處理,多頭跨模態(tài)注意力機制(multi-head cross-modal attention,MHCA)融合圖文特征,得到多模態(tài)表示M,計算如下:

    M=MHCA(Transformer(BERT(S)),Vr)。

    (28)

    式中:S為輸入文本;Vr為區(qū)域視覺特征。

    Liu等[39]提出由2個Transformer模型分別對文本和視覺進行處理,然后使用多頭跨模態(tài)注意力模型融合計算多模態(tài)表示M,計算如下:

    M=MHCA(Transformer(BERT(S)),

    Transformer(Vr))。

    (29)

    Zhang等[58]基于BERT文本token和SwinT視覺token構造了多模態(tài)圖,使用對比學習實現(xiàn)文本節(jié)點和視覺節(jié)點之間的全局對齊和局部對齊,之后堆疊n個跨模態(tài)注意力模型進行特征融合,得到多模態(tài)表示。

    (2)圖文聯(lián)合編碼。如Wang等[34]提出將圖像描述Vcap、視覺對象Vl和文本S進行拼接,使用BERT進行編碼得到多模態(tài)文本表示M,計算如下:

    [M,Vlcap]=BERT([S;Vl;Vcap])。

    (30)

    (31)

    式中:i=1,2,…,12為Transformer編碼層編號;Ti為第i層的編碼輸出,T1為輸入的文本編碼。Transformer編碼層的自注意力機制(self-Attention,SA)計算原理表示為

    (32)

    式中:Qi、Ki、Vi均為Ti的投影向量。

    多任務融合層通過聯(lián)合優(yōu)化模型參數(shù),進而提升實體識別性能,主要包含多模態(tài)命名實體識別主任務結合文本模態(tài)任務或輔助任務的結構。多模態(tài)命名實體識別主任務是基于多模態(tài)表示的命名實體識別任務。文本模態(tài)任務是基于文本模態(tài)的解碼任務,如Yu等[33]利用基于文本的實體跨度檢測輔助預測;Wang等[34]對齊多模態(tài)視圖和文本視圖的輸出分布預測;Liu等[39]通過不確定性判斷使用文本候選標簽或者多模態(tài)候選標簽。

    輔助任務能解決多模態(tài)表示過度融合視覺特征導致的偏差問題。如李曉騰等[40]所使用的對比學習、實體聚類輔助任務、邊界檢測任務;Chen等[41]的關系抽取任務能優(yōu)化多模態(tài)表示;Zhang等[58]的多重對比學習任務能學習文本和圖像表示的全局和局部一致性,從而過濾了語義不匹配或不相關的圖文特征;Xu等[59]提出數(shù)據(jù)鑒別器任務,將數(shù)據(jù)分給文本模態(tài)命名實體識別任務或多模態(tài)命名實體識別任務,獲得最優(yōu)的預測序列;Zhang等[60]提出的硬樣本挖掘策略,能優(yōu)化文本和視覺特征對齊,緩減視覺對象的數(shù)量和類型所造成的偏差;Wang等[61]提出的聚合命名實體分類任務和命名實體分割任務聚合視覺特征中的實體語義。

    3.3 方法分析

    在Twitter-2015和Twitter-2017 2個多模態(tài)數(shù)據(jù)集上進行了實驗,這2個數(shù)據(jù)集分別由Lu等[28]和Zhang等[29]提出,將每個數(shù)據(jù)集分割為訓練數(shù)據(jù)集(Train)、驗證數(shù)據(jù)集(Dev)、測試數(shù)據(jù)集(Test),分別統(tǒng)計數(shù)據(jù)集中的人名(PER)、地名(LOC)、組織名(ORG)、雜項(MISC)等4類實體的數(shù)量,統(tǒng)計數(shù)據(jù)如表3所示。

    表3 2個Twitter的多模態(tài)數(shù)據(jù)集的統(tǒng)計數(shù)量

    通過評價指標R和F1值對基于Transformer的MNER模型的有效性進行對比分析。選取Transformer單任務模型中MSB[55]、UMGF[31]和MAF[32]模型,Transformer多任務模型中UMT[33、ITA[34]和HvpNET[41]模型進行復現(xiàn)。在實驗復現(xiàn)過程中,為了在同樣的實驗環(huán)境中運行,HvpNET批次大小降低為8,性能有所下降。具體實驗結果如表4所示。

    表4 基于Transformer的MNER方法對比分析

    如表2和表4所示,在2個數(shù)據(jù)集中基于Transformer的方法整體優(yōu)于基于BiLSTM的方法。這是因為Transformer的MNER方法使用BERT改進了文本表示,和Transformer融合模塊具有同步挖掘上下文信息和融合多模態(tài)特征的能力,而基于BiLSTM的MNER方法是分階段實現(xiàn)這2個功能的。如在Twitter-2015數(shù)據(jù)集中,基于BiLSTM方法的F1值最高值要低于基于Transformer方法的最低值,在Twitter-2017數(shù)據(jù)集中,相較VAM[28]、ACN[29]及ACN[36],基于Transformer方法的性能更好。

    對ACN[36]進行改進,即通過融合字符表示或增加對抗學習任務,進一步補全文本語義以優(yōu)化多模態(tài)表征后,ACN-GAN方法和MSB方法的性能相近。這表明使用BERT來表示文本語義仍然有缺失,而通過輔助任務可以促進多模態(tài)特征間的語義聚合,從而獲得更好的多模態(tài)特征。

    Transformer多任務模型通過任務間的共享學習和損失均衡,有效增強多模態(tài)表示通用性,同時也避免了多模態(tài)表示陷入局部最優(yōu)值。由表4可以看出,在2個數(shù)據(jù)集上,Transformer多任務模型的各項指標均高于單任務模型,驗證了多任務協(xié)同模型在多模態(tài)命名實體識別領域的優(yōu)勢。

    視覺模態(tài)多特征協(xié)同對MNER具有重要作用。HvpNET協(xié)同使用層次視覺特征和對象級視覺特征作為文本的前綴特征,而UMT、UMGF、MAF僅使用區(qū)域視覺特征。在表4中可以發(fā)現(xiàn),HvpNET方法的整體指標顯著高于這3個方法。此外,使用視覺對象標簽和圖像標題的ITA方法,相比僅使用視覺對象標簽的MSB方法,在2個數(shù)據(jù)集上的F1值分別高出2.13百分點、0.16百分點。這是因為2種視覺特征協(xié)同表示可以得到更全面的視覺語義。

    進一步可以發(fā)現(xiàn),相較于對象級視覺特征,使用自然語言對圖像進行描述,圖文語義能夠更充分融合,如表4中,MSB的模型參數(shù)遠小于UMT,卻獲得更好的性能。

    3.4 模型的復雜度分析

    模型參數(shù)量、單輪訓練時間及單輪驗證時間是衡量模型可用性的重要指標,對各模型進行統(tǒng)計,如表5所示。可以發(fā)現(xiàn)基于Transformer的MNER模型的參數(shù)量高于基于BiLSTM的MNER模型,綜合F1值來看,模型參數(shù)量不是決定模型F1值的核心因素。Transformer多任務模型的訓練時間與單任務模型的訓練時間相當,但Transformer多任務模型的性能有較大提升。

    表5 不同模型的參數(shù)量、訓練時間和驗證時間對比

    4 結束語

    本文先對MNER任務的定義、難點及方法進行了簡要介紹,然后總結了MNER方法框架,分別介紹框架中各部分的常用技術及其優(yōu)缺點。接著對近年來MNER的方法進行梳理和分類,將其總結為2類方法和4種模型結構。為了評估基于BiLSTM的MNER方法,將其總結為前融合模型和后融合模型結構,在Twitter-2015、Twitter-2017數(shù)據(jù)集對2種模型結構中7種方法進行實驗,分析如下:前融合模型是最早的MNER模型結構,該類模型在命名實體識別模型中添加視覺模態(tài),并以簡單、直接的方式實現(xiàn)多模態(tài)融合,其性能優(yōu)于命名實體識別模型。后融合模型是前融合模型的改進,它初步解決了文本語義和圖像語義不匹配的問題。筆者在后融合模型ACN的基礎上進行拓展,解決現(xiàn)有文本表示方法中存在語義缺失問題,使用多特征協(xié)同表達,補全文本語義,性能進一步提升。

    為了評估Transformer的MNER方法,將其總結為Transformer單任務模型、Transformer多任務模型,在Twitter-2015、Twitter-2017數(shù)據(jù)集對Transformer單任務模型、Transformer多任務模型中6種典型方法進行實驗,分析如下:單任務模型使用BERT作為文本表示,利用Transformer實現(xiàn)多模態(tài)特征的深度融合,但存在視覺偏差問題,為此,通過利用文本表示或優(yōu)化多模態(tài)表示的方法,將單任務模型擴展為多任務模型,其中包含2種多任務結構,即聯(lián)合命名實體識別任務解決視覺偏差問題或聚合輔助任務增強多模態(tài)表示的通用性。

    5 展望

    本文對4類模型進行分析后,從以下3個方面指出了MNER未來的發(fā)展方向。

    (1)多特征協(xié)同表達的重要性。模態(tài)內多特征協(xié)同表達能解決特征語義的問題,從而獲得更加準確和全面的模態(tài)信息描述。

    (2)多模態(tài)表征空間統(tǒng)一的重要性。當多模態(tài)特征空間統(tǒng)一,能解決融合特征時實體語義不匹配的問題。其中可以采用調用Transformer層對多模態(tài)表示重新編碼,實現(xiàn)表征空間的統(tǒng)一和使用輔助任務優(yōu)化特征投影,在投影空間中實現(xiàn)語義對齊。

    (3)多任務學習的重要性。多任務模型與命名實體識別任務的結合是必要的,具體可以嘗試以下幾種研究思路:第一,使用多任務優(yōu)化模態(tài)特征以利于編碼、融合或對齊;第二,通過多任務協(xié)同學習通用的多模態(tài)表征,進而提升MNER性能;第三,結合遷移學習解決中文數(shù)據(jù)標注困難的問題,將多模態(tài)命名實體模型引入中文文本命名實體識別研究。

    猜你喜歡
    實體語義模態(tài)
    語言與語義
    前海自貿(mào)區(qū):金融服務實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    哲學評論(2017年1期)2017-07-31 18:04:00
    兩會進行時:緊扣實體經(jīng)濟“釘釘子”
    振興實體經(jīng)濟地方如何“釘釘子”
    “上”與“下”語義的不對稱性及其認知闡釋
    國內多模態(tài)教學研究回顧與展望
    基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
    認知范疇模糊與語義模糊
    由單個模態(tài)構造對稱簡支梁的抗彎剛度
    計算物理(2014年2期)2014-03-11 17:01:39
    宜春市| 华坪县| 明水县| 安仁县| 华坪县| 普宁市| 马龙县| 平远县| 浦江县| 青州市| 大庆市| 枣庄市| 尼玛县| 城步| 华蓥市| 丹江口市| 特克斯县| 崇阳县| 武山县| 荃湾区| 黎川县| 天台县| 资溪县| 邹城市| 廊坊市| 渝北区| 兰考县| 道真| 普兰店市| 曲水县| 分宜县| 阜康市| 南安市| 泸定县| 石家庄市| 射洪县| 洛浦县| 芦山县| 大石桥市| 洞头县| 西昌市|