段建勇,朱奕霏,王 昊,何 麗,李 欣
(1.北方工業(yè)大學(xué) 信息學(xué)院,北京 100144;2.CNONIX 國(guó)家標(biāo)準(zhǔn)應(yīng)用與推廣實(shí)驗(yàn)室,北京 100144)
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是從一段復(fù)雜文本中找到特定文本跨度并為其分配所屬類型的任務(wù)。該任務(wù)在信息抽?。↖nformation Extraction,IE)領(lǐng)域中是一項(xiàng)重要的基礎(chǔ)研究,給許多其他任務(wù)提供信息支撐,例如實(shí)體鏈接[1]、機(jī)器翻譯[2]和問(wèn)題回答[3]。命名實(shí)體識(shí)別任務(wù)是深度語(yǔ)言理解的第一階段[4],在近十年的發(fā)展過(guò)程中涌現(xiàn)出許多行之有效的方法,并且隨著計(jì)算機(jī)硬件性能的提高,LSTM[5]、BERT[6]等深度學(xué)習(xí)模型的提出使得該任務(wù)在整體上取得了較大進(jìn)展,但許多命名實(shí)體存在多層嵌套的現(xiàn)象卻較少得到關(guān)注。
嵌套命名實(shí)體識(shí)別作為命名實(shí)體識(shí)別任務(wù)的主要組成部分,是問(wèn)答系統(tǒng)、知識(shí)圖譜、人工智能等科學(xué)研究中最為基礎(chǔ)、核心的技術(shù)之一,并且相關(guān)識(shí)別方法成果在實(shí)際生活中也具有廣泛的應(yīng)用。中文的復(fù)雜性使得在文本內(nèi)往往存在較多的嵌套命名實(shí)體。深度學(xué)習(xí)在命名實(shí)體識(shí)別領(lǐng)域的廣泛應(yīng)用有效克服了淺層序列模型面臨的特征稀疏等問(wèn)題,但由于序列標(biāo)注模型只能識(shí)別扁平結(jié)構(gòu)的命名實(shí)體,因此深度學(xué)習(xí)下的序列模型仍無(wú)法有效識(shí)別嵌套命名實(shí)體。
在中文語(yǔ)言環(huán)境下嵌套命名實(shí)體的詞匯邊界十分模糊[7]。由于嵌套命名實(shí)體識(shí)別的關(guān)鍵是通過(guò)明確實(shí)體邊界來(lái)判斷實(shí)體之間的嵌套關(guān)系,因此如何在正確識(shí)別出實(shí)體類別的同時(shí)確定實(shí)體邊界成為該項(xiàng)工作需要解決的首要問(wèn)題。本文針對(duì)嵌套命名實(shí)體識(shí)別模型在中文數(shù)據(jù)集上位置信息逐層衰減的問(wèn)題,建立基于位置嵌入和多級(jí)預(yù)測(cè)的中文嵌套命名實(shí)體識(shí)別模型。在編碼層,使用添加了嵌套實(shí)體準(zhǔn)確位置的嵌入層的Transformers 模型提高輸入序列的特征表示能力,構(gòu)建與嵌套層級(jí)相關(guān)的相互獨(dú)立的隱藏狀態(tài)輸出,排除最優(yōu)路徑對(duì)預(yù)測(cè)多級(jí)嵌套實(shí)體的影響,并且在維護(hù)原始文本信息的同時(shí)為條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)提供了包含次優(yōu)路徑的隱藏狀態(tài)矩陣。在解碼層,使用排除最優(yōu)路徑影響的次優(yōu)路徑多級(jí)CRF 聯(lián)合邊界預(yù)測(cè)單元(Boundary Prediction Unit,BPU),實(shí)現(xiàn)中文實(shí)體邊界的準(zhǔn)確預(yù)測(cè)以及中文嵌套實(shí)體的識(shí)別,相對(duì)于單一的多級(jí)CRF 識(shí)別嵌套實(shí)體,添加了BPU 的解碼層更加適用于中文嵌套實(shí)體的識(shí)別。
近年來(lái),學(xué)者們對(duì)嵌套命名實(shí)體進(jìn)行了研究并提出了一些可行方法。WANG 等[8]提出一種基于超圖的方法來(lái)考慮所有可能的跨度。SOHRAB 等[9]提出一個(gè)神經(jīng)窮舉模型,該模型列舉和分類所有可能的跨度,并設(shè)置一個(gè)閾值來(lái)丟棄過(guò)長(zhǎng)的實(shí)體跨度,如果閾值設(shè)置得很低,則運(yùn)行時(shí)間會(huì)相對(duì)減少,但較長(zhǎng)的跨度就會(huì)被遺漏。SHEN 等[10]利用圖像識(shí)別與嵌套命名實(shí)體任務(wù)的相似性,提出一種窮舉分類的兩階段識(shí)別模型。然而,上述方法在實(shí)現(xiàn)高性能的同時(shí)會(huì)增加數(shù)據(jù)的復(fù)雜性。連藝謀等[11]提出強(qiáng)化實(shí)體分類模型,利用卷積神經(jīng)網(wǎng)絡(luò)提取鄰接詞特征,通過(guò)多頭注意力獲取實(shí)體邊界。SHIBUYA 等[12]提出使用多級(jí)CRF 尋找次優(yōu)解的方式,由外到內(nèi)分層輸出實(shí)體,識(shí)別嵌套實(shí)體。WANG 等[13]改進(jìn)了這種分層輸出,排除了最優(yōu)解對(duì)輸出結(jié)果的影響,由內(nèi)到外分層輸出嵌套實(shí)體。上述研究在英文數(shù)據(jù)集上也取得了較好的結(jié)果。
中文嵌套命名實(shí)體識(shí)別的難點(diǎn)在于中文語(yǔ)言結(jié)構(gòu)特點(diǎn)本身缺乏邊界,要獲得準(zhǔn)確的分詞結(jié)果十分困難。早期的中文命名實(shí)體識(shí)別使用的是一種基于人工制定規(guī)則的系統(tǒng),例如LaSIE-II[14]、NetOwl[15]、FACILE[16]和SAR[17]都是基于規(guī)則的模型。隨著隱馬爾可夫模型(HMM)[18]、決策樹(shù)[19]、最大熵模型[20]、支持向量機(jī)(SVM)[21]和條件隨機(jī)場(chǎng)(CRF)[22]等越來(lái)越多的機(jī)器學(xué)習(xí)方法在NER 領(lǐng)域的應(yīng)用,一些融合了上述方法的深度神經(jīng)網(wǎng)絡(luò)模型使中文命名實(shí)體識(shí)別效果得到顯著提升。ZHANG 等[23]提出一種LSTM 模型的變種模型(Lattice-LSTM),將所有的字符向量與通過(guò)詞典匹配到的詞匯向量作為輸入。崔麗平等[24]提出一種融合詞典信息的有向圖神經(jīng)網(wǎng)絡(luò)模型(L-CGNN),通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取豐富的字特征,并且構(gòu)造句子的有向圖,以生成鄰接矩陣來(lái)融合字詞信息。WU 等[25]利用漢字的結(jié)構(gòu)信息,提出一種基于多元數(shù)據(jù)嵌入的Cross-Transformer 模型。
許多研究都在中文命名實(shí)體任務(wù)的基礎(chǔ)上發(fā)現(xiàn)了嵌套命名實(shí)體問(wèn)題。SUI 等[26]為了融合語(yǔ)音和文字信息,在構(gòu)建文字?jǐn)?shù)據(jù)集時(shí)發(fā)現(xiàn)了大量嵌套實(shí)體。廖濤等[27]提出一種基于交互式特征融合的嵌套命名實(shí)體識(shí)別模型,通過(guò)構(gòu)建不同特征之間的通信橋梁來(lái)捕獲多特征之間的依賴關(guān)系,但是該模型忽略了實(shí)體本身的位置信息。LI 等[28]提出FLAT 中文命名實(shí)體識(shí)別模型,使用的數(shù)據(jù)集為嵌套結(jié)構(gòu),但是模型本身并未對(duì)嵌套實(shí)體進(jìn)行優(yōu)化。為了豐富中文嵌套命名實(shí)體識(shí)別領(lǐng)域的研究,筆者查閱了大量相關(guān)文獻(xiàn),結(jié)合中文嵌套命名實(shí)體與序列模型和機(jī)器學(xué)習(xí)方法的特點(diǎn),提出一種基于位置嵌入和多級(jí)邊界預(yù)測(cè)的改進(jìn)模型。
使用改進(jìn)的Transformer 模型的數(shù)據(jù)編碼層來(lái)融合中文文本中存在長(zhǎng)距離依賴的上下文信息。在嵌入層,將文本中的嵌套實(shí)體抽離出來(lái)拼接到文本尾部,形成新的含有融合嵌套實(shí)體信息的序列輸入,再通過(guò)多頭自注意力層以及全連接層進(jìn)行編碼。根據(jù)嵌套層級(jí)的數(shù)目生成多個(gè)隱藏狀態(tài),每個(gè)CRF 層獨(dú)立計(jì)算發(fā)射分?jǐn)?shù),最后經(jīng)過(guò)BPU 計(jì)算嵌套實(shí)體的邊界偏移量得到最終結(jié)果,如圖1 所示。
圖1 模型總體結(jié)構(gòu)Fig.1 Overall structure of the proposed model
2.1.1 嵌套詞匯相對(duì)位置標(biāo)記
為了獲取融合中文嵌套實(shí)體信息的序列標(biāo)注信息,將文本中的嵌套實(shí)體的首尾信息作為獨(dú)立元素提取出來(lái),用符號(hào)e表示,E={e1,e2,…,en}表示嵌套實(shí)體首尾信息的集合。
記錄嵌套實(shí)體開(kāi)始和結(jié)束的兩個(gè)標(biāo)記來(lái)表示嵌套實(shí)體在中文文本中的絕對(duì)位置信息,如式(1)所示:
其中:ei,begin、ei,end表示嵌套實(shí)體ei的開(kāi)始和結(jié)束字符在輸入文本中的絕對(duì)位置。
在嵌套實(shí)體中含有多個(gè)字符,開(kāi)始位置和結(jié)束位置在序列中不一致,但是對(duì)于單個(gè)字符,開(kāi)始和結(jié)束的位置在序列中一致。在標(biāo)記后,嵌套實(shí)體之間存在交叉關(guān)系、包含關(guān)系、互斥關(guān)系3 種,這些關(guān)系可以由嵌套實(shí)體的開(kāi)始和結(jié)束位置來(lái)確定。為了更好地表示這種關(guān)系,將嵌套實(shí)體的絕對(duì)位置分別嵌入文本字符序列的尾部,如式(2)、式(3)所示:
其中:Sbegin、Send表示融合了嵌套實(shí)體開(kāi)始和結(jié)束位置信息的文本序列;c表示原始文本序列中字符的絕對(duì)位置,開(kāi)始和結(jié)束的絕對(duì)位置相等。
2.1.2 嵌套詞匯融合嵌入
為了使模型更具魯棒性,不直接將這3 種關(guān)系作為參數(shù)融入序列,而是采用FLAT 模型的思想重新構(gòu)建一個(gè)特殊向量矩陣來(lái)建模嵌套實(shí)體之間的相互關(guān)系。這個(gè)矩陣是通過(guò)對(duì)嵌套實(shí)體開(kāi)始和結(jié)束位置與文本字符之間的信息差異來(lái)進(jìn)行統(tǒng)一計(jì)算。這種表示首先能夠體現(xiàn)出嵌套實(shí)體之間的相互關(guān)系,其次可以明確嵌套實(shí)體在本文中的位置關(guān)系,以及嵌套實(shí)體與無(wú)意義字符之間的距離關(guān)系。使用這種向量矩陣表示獲得了更多的嵌套實(shí)體與原始文本之間的融合信息,增強(qiáng)了嵌套實(shí)體與原始文本之間的關(guān)系,如式(4)所示:
多頭自注意力層在每個(gè)時(shí)間步內(nèi)只能輸出一個(gè)隱藏狀態(tài),在進(jìn)行嵌套實(shí)體識(shí)別任務(wù)時(shí),預(yù)測(cè)當(dāng)前層級(jí)嵌套實(shí)體的標(biāo)簽序列時(shí)需要使用上一層級(jí)嵌套實(shí)體預(yù)測(cè)的發(fā)射分?jǐn)?shù)矩陣。因此,當(dāng)前層級(jí)的標(biāo)簽序列預(yù)測(cè)會(huì)偏向上一層的最優(yōu)路徑,從而影響多級(jí)嵌套實(shí)體的識(shí)別準(zhǔn)確率。
為了消除最優(yōu)路徑的影響,重新設(shè)計(jì)了模型的多頭自注意力層的結(jié)構(gòu)。按照嵌套層數(shù),在多頭自注意力層設(shè)置與嵌套層數(shù)量一致的嵌套層級(jí)權(quán)重矩陣,用符號(hào)w表 示,W={w1,w2,???,wl}表示嵌 套層級(jí)權(quán)重矩陣的集合,其中l(wèi)表示嵌套層數(shù)。使多頭自注意力矩陣分別與嵌套層級(jí)權(quán)重矩陣相乘,從而生成多個(gè)隱藏狀態(tài)塊,配合解碼階段多級(jí)輸出時(shí)的發(fā)射矩陣計(jì)算,如式(5)所示:
其中:hi表示隱藏狀態(tài)塊;Z表示多頭自注意力矩陣。
使用Ht={h1,h2,???,hl}表示隱藏狀態(tài)塊集合。隱藏狀態(tài)塊的個(gè)數(shù)與嵌套層級(jí)一致,這就使得每個(gè)層級(jí)的標(biāo)簽序列預(yù)測(cè)都有對(duì)應(yīng)層級(jí)的發(fā)射分?jǐn)?shù)矩陣,同時(shí)也保證了每個(gè)層級(jí)使用的原始文本信息的一致性,增強(qiáng)了模型的可靠性。
解碼層使用經(jīng)過(guò)特殊設(shè)計(jì)的CRF 與BPU 聯(lián)合模型來(lái)處理得到的嵌套實(shí)體向量,具體結(jié)構(gòu)如圖2所示。
2.3.1 多級(jí)CRF 層
使用多層次序列標(biāo)注的方式來(lái)實(shí)現(xiàn)對(duì)嵌套命名實(shí)體的識(shí)別,次優(yōu)路徑多級(jí)CRF 是一種排除最優(yōu)路徑對(duì)多級(jí)別嵌套實(shí)體識(shí)別產(chǎn)生影響的優(yōu)化的多級(jí)CRF 模型,對(duì)于不同級(jí)別的嵌套實(shí)體使用與當(dāng)前級(jí)別關(guān)聯(lián)度最高的發(fā)射函數(shù),并且計(jì)算完成后將其從可選發(fā)射函數(shù)候選矩陣中剔除,這樣就可以使每一級(jí)的嵌套實(shí)體序列都使用獨(dú)立于最優(yōu)路徑之外的發(fā)射函數(shù),使其可以更加準(zhǔn)確地預(yù)測(cè)嵌套實(shí)體類別。使用編碼層輸出構(gòu)建CRF 層的轉(zhuǎn)移矩陣,如式(6)所示:
其中:Ai,j表示標(biāo)簽集合中標(biāo)簽yi到y(tǒng)j的概率轉(zhuǎn)移矩陣;n為標(biāo)簽數(shù)量;y0、yn為文本輸入的開(kāi)始與結(jié)束標(biāo)志。
對(duì)于不同級(jí)別的CRF 函數(shù),在每個(gè)時(shí)間步長(zhǎng)內(nèi)都會(huì)維護(hù)一個(gè)與級(jí)別相關(guān)的塊集,從塊集中選擇與當(dāng)前級(jí)別標(biāo)簽序列關(guān)聯(lián)度最高的塊集矩陣來(lái)計(jì)算最終的發(fā)射得分,從而獲得最符合當(dāng)前級(jí)別標(biāo)簽序列的標(biāo)簽分類輸出結(jié)果,如式(7)所示:
對(duì)于已經(jīng)選擇的塊集,需要將其從Htl中刪除[如式(8)所示]來(lái)排除該塊集對(duì)每個(gè)時(shí)間步驟的影響,從而排除最佳路徑對(duì)全局結(jié)果的影響,直到將所有級(jí)別的嵌套實(shí)體標(biāo)簽識(shí)別完畢。
對(duì)于所維護(hù)的塊集而言,每次都會(huì)排除當(dāng)前級(jí)別的一個(gè)最相似塊,而不是按照順序排除,這種方式避免了隱藏狀態(tài)塊只學(xué)習(xí)特定層級(jí)的信息,加強(qiáng)了多級(jí)嵌套實(shí)體信息之間的聯(lián)系。
2.3.2 BPU
多級(jí)CRF 層在輸出最優(yōu)路徑標(biāo)簽序列時(shí),會(huì)將最符合當(dāng)前發(fā)射分?jǐn)?shù)的類別標(biāo)簽作為最終輸出,但是嵌套實(shí)體的邊界信息還是不夠準(zhǔn)確。為此,在CRF 層添加了一個(gè)邊界預(yù)測(cè)單元來(lái)進(jìn)一步明確嵌套實(shí)體的邊界。對(duì)多級(jí)CRF 層預(yù)測(cè)出的實(shí)體,采集其在訓(xùn)練模型多頭自注意力層隱藏狀態(tài)序列時(shí)間步內(nèi)的左右字符信息矩陣進(jìn)行進(jìn)一步訓(xùn)練,從而確定最終的嵌套實(shí)體輸出。
首先定位CRF 層預(yù)測(cè)的實(shí)體的開(kāi)始和結(jié)束邊界;然后從隱藏狀態(tài)字符輸出矩陣{o1,o2,…,on}中提取出該實(shí)體字符信息以及外部邊界字符信息,構(gòu)建融合跨度表示,其中n為文本長(zhǎng)度;最后計(jì)算邊界偏移量,如式(9)、式(10)所示:
其中:oi,bpu、ok表示嵌套實(shí)體的BPU 邊界融合輸出矩陣和隱藏狀態(tài)字符輸出矩陣;bbegin、eend分別表示實(shí)體開(kāi) 始、結(jié)束字 符序號(hào);Wbpu、W1、W2為可學(xué) 習(xí)矩陣;b1、b2為可學(xué)習(xí)參數(shù);ti表示邊界偏移量。
對(duì)整體實(shí)體進(jìn)行學(xué)習(xí)后,再對(duì)左右邊界按照不同的方式進(jìn)行計(jì)算得到最新的實(shí)體邊界偏移表示,如式(11)、式(12)所示:
2.3.3 聯(lián)合損失函數(shù)優(yōu)化
多級(jí)CRF 層輸出嵌套實(shí)體的準(zhǔn)確類別和大致邊界,BPU 通過(guò)聯(lián)合多級(jí)CRF 層輸出結(jié)果以及隱藏狀態(tài)序列進(jìn)行精確邊界預(yù)測(cè)。最終通過(guò)聯(lián)合多級(jí)CRF 層以及BPU 的損失函數(shù),訓(xùn)練出適合當(dāng)前級(jí)別的邊界預(yù)測(cè)模型。
對(duì)于多級(jí)CRF 層,對(duì)每層分別計(jì)算預(yù)測(cè)標(biāo)簽在當(dāng)前級(jí)別的條件概率,如式(13)~式(15)所示:
其中:p(yl|Hl)表示第l級(jí)輸出在Hl隱藏塊集合的條件下預(yù)測(cè)標(biāo)簽序列yl的條件概率;Z(Hl)為第l級(jí)輸出的所有標(biāo)簽序列結(jié)果的和;Lcrf為多級(jí)CRF 層的損失函數(shù)。
對(duì)于BPU,使用平滑損失函數(shù)來(lái)優(yōu)化模型,如式(16)所示:
最終設(shè)置權(quán)重并聯(lián)合兩個(gè)損失函數(shù),如式(17)所示:
其中:λ表示調(diào)優(yōu)參數(shù),為多級(jí)CRF 層和BPU 的聯(lián)合損失權(quán)重。
為了能夠較好地驗(yàn)證所提模型的有效性,從醫(yī)學(xué)與日常這兩個(gè)領(lǐng)域選取合適的中文嵌套命名實(shí)體數(shù)據(jù)集。醫(yī)學(xué)作為出現(xiàn)較多嵌套命名實(shí)體并且包含許多特有名詞的專業(yè)領(lǐng)域,能夠驗(yàn)證模型的準(zhǔn)確度與精度;日常語(yǔ)料中的嵌套實(shí)體更為隨機(jī)并且也缺乏既定的邏輯性,同時(shí)還包含較多的噪聲,這種類型的數(shù)據(jù)可以驗(yàn)證模型的健壯性以及泛化性。
選用專業(yè)醫(yī)療領(lǐng)域數(shù)據(jù)集(CMQNN)以及大型中文日常領(lǐng)域數(shù)據(jù)集(CNERTA)。在CMQNN 中包含55 000 條數(shù)據(jù),訓(xùn)練集包含43 896 條數(shù)據(jù),嵌套實(shí)體比例為47.60%,驗(yàn)證集包含5 583 條數(shù)據(jù),嵌套實(shí)體比例為43.74%,測(cè)試集包含5 521 條數(shù)據(jù),嵌套實(shí)體比例為46.28%,包含身體部位(body)、標(biāo)準(zhǔn)疾?。↖CD_10)、常見(jiàn)疾?。╠isease)、醫(yī)學(xué)科室(department)、常見(jiàn)藥物(drug)5種實(shí)體類型。CNERTA 包含42 987條數(shù)據(jù),訓(xùn)練集包含34 102 條數(shù)據(jù),嵌套實(shí)體比例為31.25%,驗(yàn)證集包含4 440 條數(shù)據(jù),嵌套實(shí)體比例為29.50%,測(cè)試集包含4 445 條數(shù)據(jù),嵌套實(shí)體比例為38.25%,主要包含的實(shí)體類型為地點(diǎn)(LOC)、人名(PER)和組織(ORG)。
所提模型是一種基于融合了實(shí)體位置信息的多級(jí)邊界回歸的嵌套命名實(shí)體識(shí)別模型。為了驗(yàn)證所提模型的有效性,基線模型選取了一些在嵌套命名實(shí)體識(shí)別中常用的具有類似結(jié)構(gòu)的序列模型作為基線模型,具體為:1)Layered-BiLSTM+CRF 模型[29],基于LSTM 模型進(jìn)行文本信息編碼,通過(guò)動(dòng)態(tài)堆疊平面NER 層來(lái)識(shí)別嵌套實(shí)體,也是基礎(chǔ)的基于序列標(biāo)注方法的嵌套命名實(shí)體模型;2)Flat-Lattice Transformer+CRF 模型[28],面向中文命名實(shí)體識(shí)別的基于Transformer 結(jié)構(gòu)的序列標(biāo)注模型,可以有效增強(qiáng)對(duì)命名實(shí)體詞匯信息的學(xué)習(xí)能力,并且在中文數(shù)據(jù)集上達(dá)到了較好的性能;3)BERT+FLAIR 模型[12],基于BERT 預(yù)訓(xùn)練模型編碼,并使用次優(yōu)路徑思想進(jìn)行嵌套命名實(shí)體識(shí)別。
所提模型在Windows 和Linux 系統(tǒng)平臺(tái)上均可運(yùn)行,所有實(shí)驗(yàn)均使用Python 3.8.8 環(huán)境,模型使用PyTorch 1.8.1 深度學(xué)習(xí)框架構(gòu)建,使用GTX2060 顯卡,顯存大小為6 GB。
模型內(nèi)部的可學(xué)習(xí)參數(shù)使用隨機(jī)梯度下降(SGD)算法進(jìn)行優(yōu)化。在實(shí)驗(yàn)中的超參數(shù)設(shè)置如表1 所示。對(duì)于數(shù)據(jù)集嵌套層數(shù)l,在CMQNN 和CNERTA 數(shù)據(jù)集上均設(shè)置為6。采用準(zhǔn)確率、召回率、F1 值3 個(gè)指標(biāo)作為模型性能的評(píng)價(jià)標(biāo)準(zhǔn)。
表1 實(shí)驗(yàn)超參數(shù)設(shè)置Table 1 Experiment hyperparameter setting
3.4.1 模型訓(xùn)練結(jié)果
4 種中文嵌套命名實(shí)體識(shí)別模型對(duì)比結(jié)果如表2 所示。由表2 可以看出,所提模型性能與常用的中文嵌套命名實(shí)體識(shí)別模型相比在CMQNN 與CNERTA 兩個(gè)數(shù)據(jù)集上均有所提升,其中在CMQNN 數(shù)據(jù)集上準(zhǔn)確率、召回率和F1 值相比于基線模型中的最高值分別提升0.34、1.06 和0.80 個(gè)百分點(diǎn),在CNERTA 數(shù)據(jù)集上準(zhǔn)確率、召回率和F1 值相比于基線模型中的最高值分別提升11.90、0.78 和6.23 個(gè)百分點(diǎn)。
表2 中文嵌套命名實(shí)體識(shí)別模型對(duì)比結(jié)果Table 2 Comparison results of nested Chinese named entity recognition models %
實(shí)驗(yàn)結(jié)果表明,所提模型在專業(yè)醫(yī)療領(lǐng)域和日常領(lǐng)域這兩種不同類型的數(shù)據(jù)集上均獲得了優(yōu)于常用的中文嵌套命名實(shí)體識(shí)別模型的識(shí)別效果,也證明了所提模型在識(shí)別中文嵌套命名實(shí)體方面具有較好的泛化性能和實(shí)用效果。通過(guò)實(shí)驗(yàn)還可以看出:使用Transformer 編碼器的模型在識(shí)別具有嵌套結(jié)構(gòu)的中文數(shù)據(jù)集時(shí)效果要優(yōu)于使用LSTM 編碼器的模型,主要原因?yàn)門(mén)ransformer 編碼器特有的位置編碼對(duì)嵌套實(shí)體有更優(yōu)的適配性,可以深入挖掘?qū)嶓w內(nèi)部的信息,這也證明了使用位置嵌入編碼模型可以更好地識(shí)別嵌套實(shí)體;與僅使用多級(jí)CRF 的Layered-BiLSTM+CRF 模型相比,所提模型在CMQNN 與CNERTA 兩個(gè)數(shù) 據(jù)集上,F(xiàn)1 值分別提高了2.43 和10.82 個(gè)百分點(diǎn),說(shuō)明使用改進(jìn)的Transformer 模型以及CRF+BPU 聯(lián)合模型能更加充分地學(xué)習(xí)到中文嵌套實(shí)體的潛在信息,而且對(duì)于專業(yè)詞匯和日常用語(yǔ)領(lǐng)域均有所提升,也證明了所提模型對(duì)于中文語(yǔ)言模式具有更佳的適配性。
3.4.2 消融實(shí)驗(yàn)結(jié)果
為了進(jìn)一步驗(yàn)證所提模型的重要參數(shù)設(shè)置以及各組件的有效性,設(shè)計(jì)消融實(shí)驗(yàn)來(lái)驗(yàn)證不同l、位置嵌入以及BPU 對(duì)模型性能的影響。
消融實(shí)驗(yàn)結(jié)果如表3 所示,由表3 可以看出:
表3 不同嵌套深度模型中組件有效性結(jié)果對(duì)比Table 3 Comparison of component validity results of the models with different nested depths %
1)所提模型(with embedding)為單獨(dú)使用了位置嵌入,通過(guò)調(diào)整l發(fā)現(xiàn)不管對(duì)于具有較深嵌套實(shí)體層數(shù)的CMQNN 數(shù)據(jù)集還是具有較淺嵌套實(shí)體層數(shù)的CNERTA 數(shù)據(jù)集,當(dāng)l=6 時(shí)均可獲得最好的識(shí)別效果。對(duì)于CMQNN 數(shù)據(jù)集,當(dāng)l=4 時(shí)效果最差,主要原因?yàn)镃MQNN 數(shù)據(jù)集中包含較多的初級(jí)醫(yī)療名詞,當(dāng)l=2 時(shí)模型忽略了較深嵌套實(shí)體反而更加專注于淺層嵌套實(shí)體的識(shí)別,也就是說(shuō)更加類似于非嵌套實(shí)體識(shí)別模型。
2)所提模型(with BPU)在單獨(dú)使用了BPU 后具有一定的性能提升,說(shuō)明對(duì)于中文而言,字詞之間的邊界模糊問(wèn)題得到了一定的改善,但并沒(méi)有完全解決模型在多級(jí)信息傳遞時(shí)對(duì)中文字詞間關(guān)系關(guān)注度不夠的問(wèn)題。
3)所提模型(Full)通過(guò)使用位置嵌入和BPU 有效提升了模型本身挖掘中文字詞間關(guān)系的能力,使得BPU 可以進(jìn)一步提高每一層模型識(shí)別結(jié)果的準(zhǔn)確性。
消融實(shí)驗(yàn)的結(jié)果進(jìn)一步驗(yàn)證了所提模型使用的位置嵌入和BPU 模塊的有效性,它們能有效提升所提模型的中文嵌套命名實(shí)體識(shí)別能力。
本文建立一種基于位置嵌入和多級(jí)結(jié)果邊界預(yù)測(cè)的嵌套命名實(shí)體識(shí)別模型,通過(guò)位置嵌入方式提高模型對(duì)于中文字詞間關(guān)系的關(guān)注力,增強(qiáng)模型識(shí)別嵌套實(shí)體多級(jí)信息的能力,并且對(duì)于模型識(shí)別的最終結(jié)果進(jìn)行進(jìn)一步調(diào)整,使得中文字詞邊界更加清晰。使用兩種數(shù)據(jù)內(nèi)容和形式完全不同的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),在實(shí)體密集且相關(guān)性強(qiáng)的專業(yè)醫(yī)療領(lǐng)域和實(shí)體分散且相關(guān)性弱的日常領(lǐng)域中都具有較好的實(shí)驗(yàn)效果,驗(yàn)證了所提模型的健壯性和泛化性。后續(xù)將嘗試引入知識(shí)圖譜或者使用外部詞典的方式,增強(qiáng)模型對(duì)于日常領(lǐng)域?qū)嶓w的識(shí)別能力,同時(shí)深入研究中文詞匯的邊界關(guān)系,提高中文詞匯的識(shí)別準(zhǔn)確率。