韓曉凱,岳 頎,褚 晶,史偉亮,韓 展
(西安郵電大學(xué)自動(dòng)化學(xué)院,陜西西安710121)
命名實(shí)體識(shí)別(named entity recognition, NER)是自然語(yǔ)言處理(natural language processing,NLP)中的一項(xiàng)基本任務(wù),其結(jié)果會(huì)影響其他后續(xù)的NLP任務(wù).NER的目的是從文本中提取具有特定含義的詞語(yǔ),包括人名、地名、機(jī)構(gòu)名以及專有名詞.相比于英文實(shí)體識(shí)別,中文實(shí)體識(shí)別需要先對(duì)中文語(yǔ)句進(jìn)行分詞處理,且分詞結(jié)果的好壞對(duì)模型的識(shí)別效果有很大影響,因此中文實(shí)體識(shí)別的難度更大.以句子“西安櫻花廣場(chǎng)”為例,若將“櫻花廣場(chǎng)”分詞為“櫻花”和“廣場(chǎng)”,那么實(shí)體“櫻花廣場(chǎng)”會(huì)被錯(cuò)誤的識(shí)別為“櫻花”和“廣場(chǎng)”兩個(gè)實(shí)體.為了解決該問(wèn)題,Zhang等[1]提出了可以同時(shí)考慮字和詞的點(diǎn)陣結(jié)構(gòu),并將這種結(jié)構(gòu)使用在點(diǎn)陣長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型上.如圖1(a) 所示.該結(jié)構(gòu)通過(guò)將句子與詞典進(jìn)行匹配,從而獲得句子中包含的所有詞語(yǔ),并對(duì)句子中的每個(gè)字以及匹配到的詞語(yǔ)進(jìn)行特征提取,之后模型會(huì)通過(guò)上下文信息判斷“櫻花廣場(chǎng)”是一個(gè)實(shí)體還是兩個(gè)實(shí)體,避免因分詞錯(cuò)誤造成的識(shí)別錯(cuò)誤.Li等[2]對(duì)點(diǎn)陣結(jié)構(gòu)進(jìn)行修改,結(jié)合Transformer-XL[3],提出 FLAT(flat-lattice-Transformer).FLAT中使用的點(diǎn)陣為扁平式點(diǎn)陣,如圖1(b) 所示.這種點(diǎn)陣將從詞典中匹配到的詞語(yǔ)放置在輸入語(yǔ)句的末尾,并通過(guò)位置編碼確定這些詞在原始語(yǔ)句中的位置.然而,該方法不僅增加了序列長(zhǎng)度,還增加了低相關(guān)性的上下文信息,導(dǎo)致Transformer[4]出現(xiàn)注意力分散的現(xiàn)象.
Zhao等[5]認(rèn)為,注意力模型關(guān)注所有上下文信息會(huì)導(dǎo)致注意力不集中,因此提出了稀疏注意力機(jī)制,使注意力模型只關(guān)注最相關(guān)的信息,并在NLP任務(wù)上進(jìn)行實(shí)驗(yàn),證明了該方法的有效性.
圖1 點(diǎn)陣結(jié)構(gòu)與扁平式點(diǎn)陣Fig.1Lattice structure and flat lattice
由于點(diǎn)陣模型引入的信息量比基于字或詞的實(shí)體識(shí)別模型引入的信息量更多,低相關(guān)性以及噪聲對(duì)注意力機(jī)制的干擾更為明顯,受Dai等[3]啟發(fā),本研究提出了一種新的NER模型——注意力增強(qiáng)的點(diǎn)陣Transformer(attention-enhanced lattice Transformer,AELT).AELT對(duì)注意力矩陣進(jìn)行顯式稀疏處理,通過(guò)注意力分?jǐn)?shù)對(duì)信息進(jìn)行評(píng)價(jià),只保留有價(jià)值的信息,這樣可以提升高相關(guān)性信息參與編碼時(shí)的占比,使得注意力更加集中,且減少了低相關(guān)性信息和噪聲對(duì)模型造成的干擾.這種機(jī)制稱為Top-k機(jī)制,可通過(guò)調(diào)整參數(shù)k的大小來(lái)控制注意力機(jī)制的注意范圍.由于輸入序列的長(zhǎng)度是不同的,固定的參數(shù)k難以使模型達(dá)到最好的識(shí)別效果.因此本研究還對(duì)參數(shù)k的選擇進(jìn)行了優(yōu)化,使其能夠跟隨輸入序列的長(zhǎng)度進(jìn)行動(dòng)態(tài)調(diào)整.除此之外,本研究還為AELT并行添加了一個(gè)專門用于分析句子語(yǔ)義信息的Transformer,使其能夠更多地關(guān)注句子本身的信息.為了驗(yàn)證所提出方法的有效性,在主流的中文NER數(shù)據(jù)集上對(duì)比AELT、 FLAT、Lattice-LSTM等模型的識(shí)別性能.總的來(lái)說(shuō),本研究的主要工作內(nèi)容包括:
1) 為基于點(diǎn)陣的Transformer設(shè)計(jì)了Top-k機(jī)制,對(duì)點(diǎn)陣引入的信息進(jìn)行篩選過(guò)濾,將低相關(guān)性信息進(jìn)行屏蔽,讓有價(jià)值的信息參與AELT的學(xué)習(xí)過(guò)程.
2) 為AELT并行添加了用于獨(dú)立分析句子語(yǔ)義信息的Transformer,使其能夠更多地關(guān)注句子本身,并與點(diǎn)陣Transformer聯(lián)合完成NER任務(wù).
3) 將AELT在Weibo、Resume、Ontonotes和MSRA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試,并與FLAT等主流方法進(jìn)行對(duì)比.
隨著深度學(xué)習(xí)的發(fā)展,人們開始嘗試使用深度學(xué)習(xí)模型來(lái)解決NER問(wèn)題.Hammerton[6]使用LSTM完成了NER任務(wù),使得LSTM成為最早用來(lái)解決NER問(wèn)題的深度學(xué)習(xí)模型之一.Collobert等[7]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和多層神經(jīng)網(wǎng)絡(luò)的NLP領(lǐng)域通用模型,其可在大量未標(biāo)記的訓(xùn)練數(shù)據(jù)上學(xué)習(xí)內(nèi)部表示.Huang等[8]使用雙向LSTM(Bi-directional LSTM,BiLSTM)解決LSTM只能單向提取特征的問(wèn)題,并將其與條件隨機(jī)場(chǎng)(conditional random field,CRF)結(jié)合,在NER任務(wù)中得到了不錯(cuò)的表現(xiàn).為了使模型能充分利用GPU并行計(jì)算的能力,Vaswani等[4]提出了基于自注意力機(jī)制的Transformer模型,并在機(jī)器翻譯任務(wù)中驗(yàn)證了該方法的有效性,該模型能夠同時(shí)考慮全文語(yǔ)義信息對(duì)字或詞進(jìn)行語(yǔ)義編碼,實(shí)質(zhì)上是一種能夠優(yōu)化語(yǔ)義編碼的模型,因此該模型成為了包括NER在內(nèi)的NLP領(lǐng)域通用模型.Dai等[3]認(rèn)為Transformer對(duì)長(zhǎng)程依賴的建模能力不足,并對(duì)其進(jìn)行了改進(jìn),提出了Transformer-XL模型,改進(jìn)后的模型對(duì)長(zhǎng)程依賴的建模能力提高了80%,為解決NER問(wèn)題提供了新思路.
不同于英文NER,中文NER沒有明確的詞邊界信息,這使得詞語(yǔ)邊界的識(shí)別在中文NER中尤為重要.相較于基于字的中文NER方法,基于詞語(yǔ)方法能夠更好地識(shí)別實(shí)體邊界,但該方法首先需要進(jìn)行分詞處理,因此分詞質(zhì)量的好壞對(duì)模型的識(shí)別效果有決定性的影響.Liu等[9]分別對(duì)基于字和基于詞的方法進(jìn)行了討論,認(rèn)為在經(jīng)驗(yàn)上基于字的方法是一個(gè)更好的選擇.但該方法會(huì)損失許多詞語(yǔ)信息.為了更好地利用這些詞信息,Zhang等[1]提出了一種點(diǎn)陣結(jié)構(gòu)的LSTM,命名為L(zhǎng)attice LSTM.該模型可以同時(shí)考慮字信息和詞信息,且不存在分詞錯(cuò)誤的現(xiàn)象.Gui等[10]提出了重思考機(jī)制,并將其應(yīng)用在LR-CNN(lexicon rethinking CNN)上,通過(guò)結(jié)合輸入語(yǔ)句中的二元詞和三元詞來(lái)重新對(duì)字符進(jìn)行編碼,使其能夠包含多元詞語(yǔ)中的語(yǔ)義信息.Zhu等[11]結(jié)合包含局部注意力機(jī)制的CNN和包含全局注意力的門控循環(huán)單元來(lái)捕獲相鄰字符以及上下文信息,提出卷積注意力網(wǎng)絡(luò)(convolutional attention network,CAN)模型.Gui等[12]提出一種基于詞典的圖神經(jīng)網(wǎng)絡(luò)(lexicon-based graph neural network,LGN),使用圖神經(jīng)網(wǎng)絡(luò)將詞典匹配到的潛在詞語(yǔ)信息,并引入到模型中完成NER任務(wù).Xue等[13]通過(guò)位置關(guān)系來(lái)增強(qiáng)自注意力,并引入多孔機(jī)制來(lái)增強(qiáng)局部建模,提出結(jié)合點(diǎn)陣結(jié)構(gòu)與Transformer的多孔點(diǎn)陣Transformer(porous lattice transformer encoder,PLTE)方法.Li等[2]也對(duì)點(diǎn)陣進(jìn)行了改進(jìn),提出FLAT模型,該模型結(jié)合Transformer-XL,將點(diǎn)陣轉(zhuǎn)換為一種扁平狀的結(jié)構(gòu),并使用位置信息來(lái)模擬點(diǎn)陣的原始結(jié)構(gòu),F(xiàn)LAT能夠在考慮詞語(yǔ)語(yǔ)義信息的同時(shí)增強(qiáng)對(duì)上下文信息的建模.
點(diǎn)陣Transformer能夠利用句子中包含的詞語(yǔ)信息作為輔助信息來(lái)完成實(shí)體識(shí)別任務(wù),但需要處理的信息量也因此大幅增長(zhǎng).實(shí)際上模型在對(duì)形符(Token)進(jìn)行編碼時(shí)并非所有信息都值得考慮.大量的信息反而會(huì)分散模型的注意力,使有效信息所占權(quán)重降低,導(dǎo)致最終編碼包含噪聲,影響模型性能.而且詞語(yǔ)等信息作為一種輔助信息輔助模型完成識(shí)別任務(wù)時(shí),模型應(yīng)該更多關(guān)注句子本身的語(yǔ)義,有助于對(duì)實(shí)體邊界的判別.為此,本研究提出了一種名為AELT的新模型.模型的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示,其主要包含3大模塊:點(diǎn)陣輸入模塊、AELT編碼模塊以及CRF解碼模塊.其中AELT編碼模塊有兩個(gè)獨(dú)立的Transformer模塊,分別用來(lái)完成點(diǎn)陣語(yǔ)義信息的編碼和句子語(yǔ)義信息的編碼.
圖2 AELT結(jié)構(gòu)Fig.2AELT structure
點(diǎn)陣輸入模塊與FLAT中的Flat-Lattice層相同,該層用來(lái)對(duì)輸入語(yǔ)句完成點(diǎn)陣的組建并轉(zhuǎn)換為字詞嵌入.點(diǎn)陣的結(jié)構(gòu)信息用位置編碼來(lái)表示.Top-kTransformer編碼器的輸入為點(diǎn)陣的字詞向量以及相對(duì)位置編碼.字Transformer的輸入通過(guò)去除點(diǎn)陣序列中的詞語(yǔ)部分來(lái)獲得.因此點(diǎn)陣輸入層的處理流程如圖3所示.以句子“西安櫻花廣場(chǎng)”為例,句子中的字與詞典進(jìn)行匹配后得到潛在詞語(yǔ)“西安”、“櫻花”、“廣場(chǎng)”、“櫻花廣場(chǎng)”,將這些詞語(yǔ)拼接至句子末尾,構(gòu)成點(diǎn)陣序列L={l1,l2,…,ln}.之后,使用以下兩種方式分別對(duì)得到Top-kTransformer和字Transformer編碼模塊的輸入數(shù)據(jù).
(1)
(2)
(3)
(4)
(5)
(6)
(7)
圖3 點(diǎn)陣輸入層Fig.3Lattice input layer
圖4 AELT編碼器結(jié)構(gòu)Fig.4AELT encoder construction
模型在對(duì)實(shí)體邊界進(jìn)行判別的過(guò)程中,詞語(yǔ)信息是有效的,但同時(shí)句子本身的語(yǔ)義信息也起到了非常重要的作用.雖然包含詞語(yǔ)信息的Top-kTransformer編碼器具備提取句子語(yǔ)義信息的能力,但由于引入的大量詞語(yǔ)分散了對(duì)句子的關(guān)注程度,導(dǎo)致模型對(duì)句子語(yǔ)義信息的提取能力減弱.因此,本研究為模型添加了單獨(dú)對(duì)句子進(jìn)行語(yǔ)義特征提取的字Transformer來(lái)彌補(bǔ)這一缺陷.
具體地,AELT編碼器包含有兩個(gè)子編碼器,分別為字Transformer編碼器(圖4(a))和Top-kTransformer編碼器(圖4(b)),用于分別完成對(duì)句子語(yǔ)義信息的編碼和對(duì)點(diǎn)陣語(yǔ)義信息的編碼.字Transformer編碼器采用了與Vaswani等[8]提出的Transformer編碼器相同的結(jié)構(gòu),同時(shí)也是Top-kTransformer編碼器的基礎(chǔ)結(jié)構(gòu),因此下文先對(duì)字Transformer編碼器進(jìn)行介紹,之后詳細(xì)介紹Top-kTransformer編碼器.
2.2.1 字Transformer編碼器
詞語(yǔ)等信息只能輔助模型完成NER任務(wù),模型在利用這些信息的同時(shí),句子本身的語(yǔ)義更應(yīng)該值得關(guān)注.例如句子“西安櫻花廣場(chǎng)”中“櫻花廣場(chǎng)”應(yīng)該被識(shí)別為一個(gè)實(shí)體還是應(yīng)該被識(shí)別為“櫻花”和“廣場(chǎng)”兩個(gè)實(shí)體,需要對(duì)整個(gè)句子的語(yǔ)義進(jìn)行分析才能更好地判斷.因此,本研究在AELT中并行添加了一個(gè)專用于分析句子語(yǔ)義信息的獨(dú)立字Transformer編碼器.其結(jié)構(gòu)由自注意力機(jī)制層和前饋神經(jīng)網(wǎng)絡(luò)層組成,計(jì)算式如式(8)~(11)所示,每一層之后跟隨一層殘差連接和歸一化處理層(為避免累贅,下文計(jì)算式中未體現(xiàn)).
(8)
(9)
AC=softmax(Sij)VC,
(10)
(11)
2.2.2 Top-kTransformer編碼器
Top-kTransformer編碼器與FLAT編碼器類似,區(qū)別在于Transformer中注意力機(jī)制的執(zhí)行.圖5展示了二者的主要不同.本研究認(rèn)為在對(duì)形符進(jìn)行編碼時(shí),并非所有信息都對(duì)編碼有價(jià)值.因此引入了Top-k的稀疏機(jī)制,該機(jī)制會(huì)對(duì)注意力分?jǐn)?shù)矩陣進(jìn)行稀疏處理,對(duì)編碼貢獻(xiàn)較高的信息將被保留,低相關(guān)性的信息則不予考慮.這種方法能有效保留重要信息,并消除噪聲帶來(lái)的不利影響,使得模型注意力能更加集中在有價(jià)值的信息上.Top-kTransformer編碼器先通過(guò)式(12)~(13)計(jì)算出點(diǎn)陣注意力分?jǐn)?shù)矩陣SL:
(12)
(13)
圖5 FLAT編碼器與Top-k Transformer編碼器的主要區(qū)別Fig.5 The main differences between FLAT encoder and Top-k Transformer encoder
(14)
AL=softmax(S*)VL,
(15)
(16)
圖6 Top-k機(jī)制算法Fig.6Top-k mechanism algorithm
對(duì)Top-k機(jī)制通俗的解釋為,點(diǎn)陣注意力矩陣的第i行中包含第i個(gè)形符與該句子中其他所有形符的相似度分?jǐn)?shù),通過(guò)閾值ti篩選后,保留與第i個(gè)形符相關(guān)性最高的前k個(gè)形符,使這k個(gè)形符參與第i個(gè)形符的編碼,由于相關(guān)性較低的其他形符未參與第i個(gè)形符的編碼,因此第i個(gè)形符的編碼受到的干擾更小,更專注于表達(dá)它原本的語(yǔ)義信息.通過(guò)該機(jī)制,高相關(guān)性的信息會(huì)被保留,相關(guān)性低的信息、噪聲等將被剔除.使模型的注意力能夠集中在最有價(jià)值的要素上.
Top-k機(jī)制中參數(shù)k的大小能夠控制模型的注意范圍.k越大,編碼時(shí)參考的信息越多,抗干擾能力就會(huì)越差,k越小,包含的語(yǔ)義信息會(huì)越少,因此參數(shù)k的選擇會(huì)直接影響模型的性能.由于輸入語(yǔ)句的長(zhǎng)度不同以及匹配的詞語(yǔ)數(shù)量也不同,使用固定的參數(shù)k很難達(dá)到理想的過(guò)濾效果,因此本研究使用一種計(jì)算簡(jiǎn)單的動(dòng)態(tài)方法,使k能夠根據(jù)序列的長(zhǎng)度做出相應(yīng)的調(diào)整,如式(17):
(17)
其中,N是超參數(shù),nL表示點(diǎn)陣序列L的長(zhǎng)度.
對(duì)于Top-kTransformer和字Transformer的輸出結(jié)果,本研究針對(duì)不同大小的數(shù)據(jù)集使用了不同的特征融合方式,對(duì)于Weibo這類小型數(shù)據(jù)集,將兩個(gè)子編碼器的輸出結(jié)果相加后得到AELT編碼器的輸出結(jié)果,如式(18)所示.對(duì)于Resume、Ontonotes以及MSRA這類中大型數(shù)據(jù)集使用拼接的方式融合兩個(gè)子編碼器的輸出結(jié)果,如式(19)所示.
X=XC+XL,
(18)
X=XC⊕XL.
(19)
在注意力增強(qiáng)Transformer編碼器中完成對(duì)特征的提取和編碼后,使用CRF解碼器進(jìn)行解碼,輸出標(biāo)注序列.CRF可以考慮標(biāo)簽之間的依賴關(guān)系,參考句子的整體信息,以在序列標(biāo)記任務(wù)中獲得更好的結(jié)果,因此該方法也是大多數(shù)NER模型所采用的解碼方法.如式(20)~(21)所示,對(duì)于序列X={x1,x2,…,xm},對(duì)應(yīng)的序列標(biāo)簽為Y={y1,y2,…,ym},則y的概率為P*.
P*(y|x)=
(20)
(21)
其中:tk(yi-1,yi,x,i)為轉(zhuǎn)移特征函數(shù),sl(yi,x,i)為狀態(tài)特征函數(shù),兩者取值均為1或0;λk和ul是相對(duì)應(yīng)的權(quán)重系數(shù),是可學(xué)習(xí)的參數(shù).
本研究共開展了如下3種實(shí)驗(yàn).實(shí)驗(yàn)一:在Weibo[14-15]、Resume[1]、 Ontonotes[16]以及MSRA[17]數(shù)據(jù)集上對(duì)AELT進(jìn)行了評(píng)估實(shí)驗(yàn),使用F1、準(zhǔn)確率(P)、和召回率(R)作為評(píng)估標(biāo)準(zhǔn),并與主流的中文實(shí)體識(shí)別模型進(jìn)行性能對(duì)比.實(shí)驗(yàn)二:還對(duì)AELT編碼器中兩個(gè)子編碼器輸出特征的融合方式進(jìn)行了實(shí)驗(yàn).實(shí)驗(yàn)三:對(duì)模型進(jìn)行了消融實(shí)驗(yàn),用來(lái)驗(yàn)證模型結(jié)構(gòu)的有效性.
在實(shí)驗(yàn)中,采用與Lattice LSTM[1]實(shí)驗(yàn)中相同的詞典、預(yù)訓(xùn)練字嵌入、二元語(yǔ)法嵌入以及詞語(yǔ)嵌入,實(shí)驗(yàn)代碼在FLAT[2]代碼的基礎(chǔ)上進(jìn)行修改,并在Colab云計(jì)算平臺(tái)上選用Tesla P100計(jì)算卡進(jìn)行性能評(píng)估實(shí)驗(yàn).
超參數(shù)方面,對(duì)于不同的數(shù)據(jù)集,模型超參數(shù)的設(shè)置也不同,在各數(shù)據(jù)集上超參數(shù)的設(shè)置如表1所示.
AELT在Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示.以F1分?jǐn)?shù)為衡量標(biāo)準(zhǔn),在N=3時(shí)AELT在Weibo數(shù)據(jù)集上取得了最好效果,F(xiàn)1分?jǐn)?shù)為61.89%,精確率P為62.86%,召回率R為61.03%.相較于FLAT,AELT的F1分?jǐn)?shù)提升1.57個(gè)百分點(diǎn),提升效果顯著.LR-CNN在精確率上依舊具有優(yōu)勢(shì),但其F1分?jǐn)?shù)較AELT低5.35個(gè)百分占點(diǎn),差距明顯.
表1 超參數(shù)設(shè)置
表2 AELT在Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
AELT在Resume數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示.AELT在中型數(shù)據(jù)集上的表現(xiàn)也有較大提升,同樣以F1分?jǐn)?shù)為標(biāo)準(zhǔn),在N=1.3時(shí)識(shí)別效果最佳,F(xiàn)1分?jǐn)?shù)為95.93%,相較于FLAT,其F1分?jǐn)?shù)提升0.48個(gè)百分點(diǎn).AELT的P為95.80%,R為96.06%,二者非常接近,這說(shuō)明AELT模型在查準(zhǔn)和查全兩個(gè)方面上的性能比較均衡.
為了驗(yàn)證AELT在大型數(shù)據(jù)集上的表現(xiàn),在Ontonotes數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表4.在N=4.5時(shí)模型性能達(dá)到最佳,F(xiàn)1分?jǐn)?shù)為76.91%,相比FLAT提升0.46個(gè)百分點(diǎn),P為76.49%,R為77.32%,模型性能提升明顯.而在N=2時(shí)AELT的P和R最為接近,相差0.15個(gè)百分點(diǎn),此時(shí)模型的性能最為穩(wěn)定,F(xiàn)1分?jǐn)?shù)也較FLAT高0.38個(gè)百分點(diǎn),說(shuō)明Top-k機(jī)制對(duì)無(wú)關(guān)信息的過(guò)濾是有效的.
表3 AELT在Resume數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
表4 AELT在Ontonotes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
MSRA:除了Ontonotes外,常用的大型中文實(shí)體識(shí)別數(shù)據(jù)集還有MSRA,AELT在該數(shù)據(jù)集上也有不錯(cuò)的表現(xiàn),實(shí)驗(yàn)結(jié)果見表5,在N=5時(shí)模型F1分?jǐn)?shù)為94.60%,識(shí)別效果達(dá)到最佳,相比FLAT提升了0.48個(gè)百分點(diǎn).
表5 AELT在MSRA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
為了研究對(duì)兩個(gè)子編碼器的輸出結(jié)果使用不同融合方法后對(duì)AELT模型性能的影響,在小型數(shù)據(jù)集Weibo和大型數(shù)據(jù)集Ontonotes上進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示.在Weibo 數(shù)據(jù)集上,AELT對(duì)兩個(gè)子編碼器的輸出結(jié)果使用相加的處理方式能取得更好的效果,而在Ontonotes數(shù)據(jù)集上,使用拼接的方式處理兩個(gè)子編碼器的輸出則能取得更好的識(shí)別效果.其原因可能是,使用Weibo這類小型數(shù)據(jù)集訓(xùn)練參數(shù)較多的AELT模型,會(huì)導(dǎo)致模型參數(shù)欠擬合,相比拼接的處理方式,相加的處理方式能夠減少模型的訓(xùn)練參數(shù),使AELT能在小型數(shù)據(jù)集上更好地完成識(shí)別任務(wù).
為了驗(yàn)證模型各結(jié)構(gòu)的有效性,在Ontonotes數(shù)據(jù)集上對(duì)模型進(jìn)行了消融實(shí)驗(yàn)研究,超參數(shù)N設(shè)置為4.5時(shí).通過(guò)對(duì)AELT結(jié)構(gòu)進(jìn)行拆解,使其逐步還原為FLAT,以此來(lái)研究模型各部分對(duì)實(shí)體識(shí)別性能的影響.實(shí)驗(yàn)結(jié)果如表7所示.AELT在Ontonotes數(shù)據(jù)集上得到的F1分?jǐn)?shù)為76.91%,P為76.49%,R為77.32%.首先拆除掉AELT的字Transformer編碼器模塊:AELT的F1分?jǐn)?shù)為76.62%,下降0.29個(gè)百分點(diǎn);P為76.16%,下降0.33個(gè)百分點(diǎn);R為77.08%,下降0.24個(gè)百分點(diǎn).再將Top-kTransformer模塊中的Top-k模塊去除,此時(shí)模型還原為FLAT:F1分?jǐn)?shù)進(jìn)一步下降0.19個(gè)百分點(diǎn),P反而上升0.09個(gè)百分點(diǎn),R進(jìn)一步下降0.47個(gè)百分點(diǎn).實(shí)驗(yàn)證明,AELT上的兩處改進(jìn)都為模型的性能帶來(lái)了提升.
表6 AELT使用不同編碼融合方式后的實(shí)驗(yàn)結(jié)果
表7 AELT消融實(shí)驗(yàn)結(jié)果
本文中提出了一種名為注意力增強(qiáng)點(diǎn)陣Transformer的新模型,用于完成中文NER任務(wù).它可以整合詞典信息,利用字級(jí)和詞語(yǔ)級(jí)信息,并通過(guò)Top-k機(jī)制控制注意力的集中程度,從而解決上下文中不相關(guān)信息引起的注意力分散問(wèn)題,同時(shí)模型還配備了單獨(dú)處理句子語(yǔ)義信息的Transformer模塊,在利用詞語(yǔ)信息的同時(shí),綜合考慮句子的整體語(yǔ)義信息,使模型更好地對(duì)實(shí)體邊界進(jìn)行判斷.在主流的4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)證明,本文模型性能更好.在今后的工作中,希望能夠優(yōu)化k參數(shù)的設(shè)置,使其能夠自動(dòng)匹配最優(yōu)參數(shù),在抗干擾性能不受影響的同時(shí),最大限度利用有效信息,同時(shí)減少調(diào)整模型超參數(shù)所需要的資源.
廈門大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年6期