金彥亮, 謝晉飛, 吳迪嘉
(上海大學(xué)通信與信息工程學(xué)院, 上海 200444)
命名實(shí)體識別(named entity recognition, NER)是自然語言處理中的底層關(guān)鍵技術(shù), 其主要目的是在非結(jié)構(gòu)化文本中提取出具有特定含義的實(shí)體, 并將其分類為預(yù)定義的類型, 如人名、地名和組織名等. 有效地識別出有意義的實(shí)體對于自然語言的語義理解起著至關(guān)重要的作用, 并有利于進(jìn)行關(guān)系提取、事件抽取和問答系統(tǒng)等后續(xù)任務(wù). 近年來, 非嵌套命名實(shí)體識別的研究取得了較大的進(jìn)展, 但是非嵌套命名實(shí)體識別未考慮文本中命名實(shí)體嵌入其他實(shí)體中的情況. 如圖1 所示, 句子“[[上海市][金山區(qū)]新華書店]”是2 層嵌套命名實(shí)體, 其中地名(location, LOC)被嵌入到組織機(jī)構(gòu)名(organization, ORG)中. 這種復(fù)雜的中文文本給命名實(shí)體識別任務(wù)帶來技術(shù)上的挑戰(zhàn).
圖1 嵌套命名實(shí)體示例Fig.1 Example of nested named entities
對于中文命名實(shí)體識別任務(wù), 現(xiàn)有的標(biāo)準(zhǔn)方法是將該任務(wù)看作一個序列標(biāo)注問題,并利用雙向長短時(shí)記憶網(wǎng)絡(luò)(bidirectional long short-term memory, BiLSTM)和條件隨機(jī)場(conditional random field, CRF)來捕獲上下文字符的信息, 最終通過對字符分配標(biāo)記來完成命名實(shí)體識別. 序列化標(biāo)注的方法可分為基于詞模型和基于字符模型的方法. 前者存在2 個問題: ①單詞邊界模糊導(dǎo)致分詞準(zhǔn)確度具有不確定性; ②單詞數(shù)量龐大容易出現(xiàn)未登錄詞(out of vocabulary, OOV). 而基于字符模型的方法對嵌套命名實(shí)體進(jìn)行識別可以有效避免上述問題, 但是該方法只利用了字符的信息, 不能捕捉潛在的詞級別信息. 因此, 如何合理地在字符模型方法的基礎(chǔ)上引入潛在的詞匯信息對于提高嵌套命名實(shí)體識別的準(zhǔn)確率有著重要的意義.
為提高中文嵌套命名實(shí)體識別的性能, 本工作提出了一種層級神經(jīng)網(wǎng)絡(luò)模型. 該模型在BiLSTM 模型的基礎(chǔ)上引入了基于位置感知的自注意力機(jī)制, 可以有效識別當(dāng)前層級實(shí)體的邊界信息, 克服傳統(tǒng)的基于字符模型的缺點(diǎn). 首先, 在輸入層中由詞長度特征得到的Softword 將被作為字符向量特征的補(bǔ)充. Softword 的引入可以使字符序列模型利用潛在的詞序列信息, 在輸入層同時(shí)獲取字符信息和詞匯信息. 其次, 得到高維度特征后, 將輸入層特征表示送入BiLSTM 模型以進(jìn)行特征提取并生成有效的上下文信息表示. 然后, Highway 神經(jīng)網(wǎng)絡(luò)被用來獲取句子中感興趣的字符表示. 最后, 模型使用位置感知自注意力在多個不同子空間捕獲相鄰字符信息, 輸出識別結(jié)果. 實(shí)驗(yàn)結(jié)果表明, 本模型相比于幾種基線模型在實(shí)體識別中取得了較好的性能.
現(xiàn)有的嵌套命名實(shí)體識別方法可以分為3 類: 基于規(guī)則和字典的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法. 早期的命名實(shí)體識別系統(tǒng)主要基于規(guī)則和字典, 其缺點(diǎn)是規(guī)則的靈活性差、可擴(kuò)展性差和OOV 單詞查找能力不足. 隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)的出現(xiàn), 命名實(shí)體識別任務(wù)被抽象為序列標(biāo)記問題. 傳統(tǒng)的序列標(biāo)記方法大多采用層次模型, 將嵌套命名實(shí)體識別任務(wù)轉(zhuǎn)換成多個層次的序列標(biāo)注問題. 周俊生等[1]利用層疊條件隨機(jī)場模型來識別中文機(jī)構(gòu)命名實(shí)體, 該方法在低層條件隨機(jī)場進(jìn)行人名和地名實(shí)體識別, 并將結(jié)果傳遞到高層條件隨機(jī)場,以識別復(fù)雜的嵌套組織機(jī)構(gòu)名; Fu 等[2]采用雙層條件隨機(jī)場模型進(jìn)行嵌套命名實(shí)體識別, 低層模型識別基本實(shí)體, 高層模型在已經(jīng)識別的基本實(shí)體上引入實(shí)體語素特征以識別出嵌套的命名實(shí)體; 尹迪等[3]提出了一種聯(lián)合學(xué)習(xí)模型, 將中文嵌套命名實(shí)體識別看作是一種聯(lián)合切分和標(biāo)注的任務(wù), 該模型能夠處理分詞和嵌套命名實(shí)體識別任務(wù); Xing 等[4]構(gòu)建層次條件隨機(jī)場模型來完成中文微博命名實(shí)體識別任務(wù), 在低層條件隨機(jī)場設(shè)置滑動窗口來提取文本的實(shí)體特征, 高層條件隨機(jī)場基于低層的特征進(jìn)行實(shí)體識別; 李雁群等[5]采用由內(nèi)而外的層次模型方法,利用外部數(shù)據(jù)語料和多個條件隨機(jī)場模型來識別由內(nèi)到外不同嵌套層次的實(shí)體. 但是, 以上模型都嚴(yán)重依賴于特征工程和外部資源. 近年來, 深度學(xué)習(xí)提供了一種解決自然語言處理問題的新方法; Katiyar 等[6]提出了一種循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建方法, 該方法使用從循環(huán)神經(jīng)網(wǎng)絡(luò)提取的特征來學(xué)習(xí)嵌套實(shí)體的超圖表示, 在嵌套實(shí)體抽取任務(wù)中有著優(yōu)秀的表現(xiàn), 基于圖結(jié)構(gòu)的方法在很大程度上具有很高的復(fù)雜性; Ju 等[7]利用動態(tài)堆疊的LSTM-CRF 模型從內(nèi)到外提取實(shí)體, 這種層次化結(jié)構(gòu)在生物醫(yī)學(xué)嵌套命名實(shí)體識別中有較好的效果; 顧溢[8]設(shè)計(jì)了多層的基于位置信息和主題信息優(yōu)化的BiLSTM-CRF 模型結(jié)構(gòu), 低層網(wǎng)絡(luò)在優(yōu)先側(cè)重召回率的情況下進(jìn)行粗粒度命名實(shí)體的識別, 然后將低層網(wǎng)絡(luò)輸出送給高層網(wǎng)絡(luò)進(jìn)行細(xì)粒度命名實(shí)體識別, 該方法在新聞嵌套命名實(shí)體識別中取得了不錯的效果.
上述方法研究表明, 通過構(gòu)建多層命名實(shí)體識別模型來層次化識別嵌套命名實(shí)體, 可以獲得不錯的效果. 但是, 這些方法無法有效捕獲嵌套實(shí)體之間的邊界信息, 這將限制嵌套實(shí)體識別的性能. 為了解決上述問題, 本工作提出了一種層疊深度神經(jīng)網(wǎng)絡(luò)模型, 該模型在不利用外部資源情況下可以有效識別嵌套實(shí)體相應(yīng)層級的邊界信息, 實(shí)現(xiàn)端到端的特征提取.
與大多數(shù)命名實(shí)體識別方法一樣, 本工作也將實(shí)體識別任務(wù)轉(zhuǎn)化為序列標(biāo)注問題. 本模型架構(gòu)如圖2 所示. 整體結(jié)構(gòu)分為5 層: 第1 層為字粒度嵌入層, 獲得字粒度的特征向量表示;第2 層為基于Highway-BiLSTM 的編碼層, 經(jīng)過Highway-BiLSTM 編碼器得到上下文的序列表示; 第3 層為基于位置感知的注意力信息交換層, 通過注意力網(wǎng)絡(luò)來捕獲每層實(shí)體類型邊界信息; 第4 層為Gate 過濾層, 利用Gate 過濾機(jī)制對相應(yīng)的文本特征表示進(jìn)行嵌套識別; 第5 層為CRF 解碼層, 基于單詞標(biāo)簽之間的制約關(guān)系, 從內(nèi)到外分別給出每層的最優(yōu)標(biāo)注序列.
圖2 本模型的總體框架Fig.2 Overall framework of the proposed model
大多數(shù)研究表明, 將分詞信息作為基于字符NER 模型的softword 可以有效提高實(shí)體識別性能[9-10]. 在本模型中, 分割的標(biāo)簽向量被用來連接字向量以增強(qiáng)輸入編碼的表示能力. 分詞信息由BIOES 標(biāo)記策略表示,其中B 表示為實(shí)體的開始部分, I 表示為實(shí)體的中間部分, E 表示為實(shí)體的結(jié)尾, S 表示為單個實(shí)體的標(biāo)記, O 表示為非實(shí)體的部分. 在字粒度表示層上, 中文句子被編碼為X={x1,x2,··· ,xn}, 其中xi表示為輸入句子X中的第i個字符, 則每個字符的輸入表示都以xci的形式嵌入到分布空間中:
式中:ec和es分別為預(yù)訓(xùn)練的字向量表和分詞標(biāo)簽向量表;⊕表示連接操作符; seg(xi)表示由分詞器得到的詞向量.
Hochreiter 等[11]提出了用LSTM 來解決傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)的梯度消失和梯度爆炸問題,該方法利用自適應(yīng)門控機(jī)制和存儲單元來更好地建模句子長距離依賴關(guān)系. 對于給定句子X={x1,x2,··· ,xn}, 每個時(shí)刻t中各個單元的隱藏狀態(tài)ht計(jì)算如下:
式中:σ為邏輯回歸中的sigmoid 函數(shù);it、ft、ot、ut、ct分別為輸入門、遺忘門、輸出門、時(shí)刻記憶單元狀態(tài)候選值和狀態(tài)值;W、U為LSTM 單元輸出的權(quán)值矩陣;b為偏置向量;⊙為元素級乘法計(jì)算.
因隱藏狀態(tài)流是單向傳遞的, LSTM 僅保留單向序列的信息. 為了利用雙向序列信息, 本工作采用雙向LSTM 捕獲句子的上下文特征. 通過構(gòu)造2 個正反方向的隱藏層來捕獲上下文信息, 得到隱藏狀態(tài)輸出ht為
Highway 網(wǎng)絡(luò)允許信息高速穿過深度神經(jīng)網(wǎng)絡(luò)的各個層, 從而有效地減緩了梯度消失問題. 本工作使用Highway 網(wǎng)絡(luò)的自適應(yīng)門控來控制信息流, Highway 網(wǎng)絡(luò)架構(gòu)如圖3 所示. 通過Highway 網(wǎng)絡(luò)層, 模型可以智能地選擇與當(dāng)前字符更相關(guān)的單詞. 其計(jì)算如下:
圖3 Highway 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Architecture of Highway network layer
式中:σ為邏輯回歸中的Sigmoid 函數(shù);f為整流線性單元;W、b分別為對應(yīng)權(quán)值矩陣和偏置向量;⊙表示元素級乘法計(jì)算; tg 表示轉(zhuǎn)換門, 控制有多少信息被轉(zhuǎn)換并傳遞給下一層,而1-tg 稱為進(jìn)位門, 允許輸入直接傳遞到下一層. 因此, Highway 網(wǎng)絡(luò)的輸入h和輸出z需要保持相同形狀.
在字符向量經(jīng)Highway-BiLSTM 編碼后, 自注意力網(wǎng)絡(luò)被用來學(xué)習(xí)句子中任意2 個字符之間的依賴關(guān)系, 以及捕獲句子的內(nèi)部結(jié)構(gòu)信息. 在嵌套命名實(shí)體識別模型中, 各層的注意力網(wǎng)絡(luò)都在相應(yīng)的嵌套級別識別重疊的實(shí)體, 彼此相互獨(dú)立.
在嵌套實(shí)體中, 內(nèi)層嵌套的邊界特征有益于外層嵌套實(shí)體的識別. 因此, 本工作結(jié)合不同層級實(shí)體的位置信息設(shè)計(jì)了跨層的注意力機(jī)制, 用來實(shí)現(xiàn)不同層實(shí)體邊界信息的交換. 位置信息有助于提升注意力機(jī)制的編碼能力, 從而幫助模型更好地評估句子內(nèi)每個字符的相對貢獻(xiàn). 對于輸入句子X={x1,x2,··· ,xn}, 本工作使用共享的可訓(xùn)練嵌入矩陣P來獲得相應(yīng)的位置嵌入表示XPi={pi1,pi2,··· ,pin}. 對于第一層嵌套實(shí)體, 模型使用Highway-BiLSTM 輸出Z= [z1,z2,··· ,zn]來初始化K和V, 并在全局序列特征表示Z上引入額外的位置信息查詢來初始化Q. 后續(xù)嵌套層則將內(nèi)層的上下文注意力表示ck-1作為額外查詢來初始化Q, 其中K和V值與第一層相同. 該注意力的計(jì)算可以表示為
多頭注意力機(jī)制在參數(shù)不共享的前提下,首先通過使用不同的線性投影矩陣將Q、K、V投影h次; 然后,h個投影并行執(zhí)行縮放的點(diǎn)積注意, 得到不同空間的注意力headi, 最終將其合并投影以得到新的特征表示. 多頭注意力可以表示為
考慮到序列中每個位置標(biāo)簽的權(quán)重不一致性和嵌套實(shí)體分層識別帶來的誤差擴(kuò)散, 本模型引入了一種Gate 過濾機(jī)制對序列特征表示進(jìn)行調(diào)整, 將zt和ct加權(quán)得到結(jié)合上下文特征和自身特征的表示. Gate 過濾機(jī)制輸出表示為
式中:σ為邏輯回歸中的sigmoid 函數(shù);Wg、bg分別為對應(yīng)權(quán)值矩陣和偏置向量;⊙為元素級乘法計(jì)算.
最后, 執(zhí)行一個全連接層來計(jì)算概率評分矩陣, 其計(jì)算如下:
式中:Ws、bs分別為全連接層的權(quán)值矩陣和偏置向量.
在NER 序列標(biāo)記任務(wù)中, 相鄰字符的標(biāo)簽之間有很強(qiáng)的依賴性, 如I-LOC(I-location)標(biāo)簽不能出現(xiàn)在B-PER(B-person)標(biāo)簽或S-PER(S-person)標(biāo)簽后面. 因此, 模型不是直接使用全連接層的輸出來做標(biāo)記決策, 而是利用CRF 來共同推斷實(shí)體標(biāo)記序列的輸出. 這里,CRF 可以表達(dá)這種依賴性并有效地向最終的預(yù)測標(biāo)簽序列添加一些約束.
對于給定句子X={x1,x2,··· ,xn}, CRF 層被訓(xùn)練用來預(yù)測最大概率標(biāo)簽序列y={y1,y2,··· ,yn}, 標(biāo)記序列的分?jǐn)?shù)計(jì)算如下:
式中:Oi,yi表示為句子中第i個字符xi的第yi標(biāo)簽的分?jǐn)?shù);T為轉(zhuǎn)移分?jǐn)?shù)矩陣, 表示從標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移得分;y0和yi+1為句子的開始和結(jié)束標(biāo)記, 被添加到可能的標(biāo)記集中. 真實(shí)標(biāo)簽序列y的概率定義為
式中:y為正確的標(biāo)簽序列; ~y為任意標(biāo)簽序列;Yx為輸入的所有可能輸出標(biāo)簽序列的集合. 在解碼階段, 維特比算法被用來預(yù)測獲得最高得分標(biāo)記序列的最佳路徑.
在訓(xùn)練過程中, 本模型使用對數(shù)似然作為結(jié)構(gòu)損失函數(shù). 給定一組訓(xùn)練示例{(xi,yi)}|Ni=1,第n層的損失函數(shù)Ln可以定義為式中:k為嵌套的層數(shù), 目標(biāo)函數(shù)由各層損失函數(shù)加權(quán)平均得到. 最后, 本工作采用Adam 更新規(guī)則的隨機(jī)梯度下降方法來優(yōu)化目標(biāo)函數(shù)[12].
為驗(yàn)證所提模型的有效性, 本工作采用由北京大學(xué)標(biāo)注的1998 年1 月份的《人民日報(bào)》語料進(jìn)行相關(guān)實(shí)驗(yàn)研究. 該語料包含了19 484 個句子, 并提供了2 層嵌套實(shí)體信息. 本工作將80%的語料用作訓(xùn)練集, 10%的語料作為驗(yàn)證集, 10%的語料作為測試集. 該語料的詳細(xì)的統(tǒng)計(jì)信息如表1 所示.
表1 《人民日報(bào)》數(shù)據(jù)集結(jié)構(gòu)Table 1 Structure of information People′s Daily dataset
該語料已經(jīng)標(biāo)注了人名、地名和組織機(jī)構(gòu)名等信息. 本工作采用BIOES 標(biāo)記策略表示命名實(shí)體, 從原始數(shù)據(jù)自動提取已經(jīng)標(biāo)注的嵌套實(shí)體信息, 并去除特殊標(biāo)點(diǎn)字符和數(shù)字日期表示. 該語料中各實(shí)體類型統(tǒng)計(jì)信息如表2 所示.
表2 《人民日報(bào)》數(shù)據(jù)集統(tǒng)計(jì)信息Table 2 Detailed statistics information of People′s Daily dataset
本模型采用Tensorflow 框架, 并用NVIDIA 的1080Ti GPU 進(jìn)行加速訓(xùn)練. 本工作將字符嵌入大小和BiLSTM 的隱藏層大小設(shè)為300 維, 多頭自注意機(jī)制的投影數(shù)h設(shè)為6.Highway 網(wǎng)絡(luò)的門偏置使用-1 矢量初始化. Adam 作為模型優(yōu)化工具, 初始學(xué)習(xí)率設(shè)為0.001,梯度范數(shù)為5. 為避免過度擬合, 使用dropout 技術(shù)來防止過擬合, 其值設(shè)為0.5. 設(shè)定100 個訓(xùn)練階段, 并采用了早期停止策略. 實(shí)驗(yàn)中模型使用的字符嵌入來自Li 等[13], 是由負(fù)采樣Skip-Gram 在3.9 G 的人民日報(bào)語料上進(jìn)行預(yù)訓(xùn)練生成. 實(shí)驗(yàn)中具體的參數(shù)設(shè)置如表3所示.
表3 參數(shù)設(shè)置Table 3 Parameter settings
為了驗(yàn)證本模型的有效性, 將本模型結(jié)果與其他5 個模型結(jié)果進(jìn)行了對比, 其中3 個模型是文獻(xiàn)中提到的方法[1,3,5]. BiLSTM+CRF 將作為基準(zhǔn)模型, Highway-BiLSTM+CRF 模型在基準(zhǔn)模型的基礎(chǔ)上引入了Highway 信息過濾層. 本模型在Highway-BiLSTM+CRF 模型基礎(chǔ)上引入了具有位置感知的多頭注意力機(jī)制. 實(shí)驗(yàn)對比結(jié)果如表4 所示.
表4 《人民日報(bào)》數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 4 Experimental results on People′s Daily dataset
表4 中列出了本模型在1998 年1 月份《人民日報(bào)》語料上的性能. 周俊生等[1]提出了層疊條件隨機(jī)場模型用于識別中文嵌套機(jī)構(gòu)名, 該算法在低層模型中識別較簡單的人名、地名等實(shí)體, 并將低層識別結(jié)果傳遞到高層模型, 為高層復(fù)雜機(jī)構(gòu)名的識別提供決策支持, 獲得了89.07%的F1 分?jǐn)?shù)值; 尹迪等[3]提出了一種聯(lián)合學(xué)習(xí)模型, 將嵌套命名實(shí)體識別看作是一種聯(lián)合切分和標(biāo)注任務(wù), 該模型可以實(shí)現(xiàn)較快的收斂速度, 達(dá)到了80.85%的F1 分?jǐn)?shù)值; 李雁群等[5]在原始語料上采用半自動標(biāo)注方式重新標(biāo)注了多層的嵌套命名實(shí)體, 取得了94.22%的準(zhǔn)確率, 但在召回率上表現(xiàn)不足.
同時(shí), 從表4 可以看出, 本模型僅使用了字符嵌入和softword 詞信息便獲得了90.35%的F1 分?jǐn)?shù)值. 實(shí)驗(yàn)結(jié)果表明, 基準(zhǔn)模型的R分?jǐn)?shù)值和F1 分?jǐn)?shù)值已經(jīng)超越了文獻(xiàn)中模型的結(jié)果. 與基準(zhǔn)模型相比, Highway-BiLSTM+CRF 模型在F1 得分方面有著顯著提高, 取得了90.91%的F1 分?jǐn)?shù)值. 這表明門控網(wǎng)絡(luò)可以執(zhí)行更詳細(xì)的特征提取, 并學(xué)習(xí)更復(fù)雜的依賴關(guān)系. 由表4 可知, 在加入基于位置感知自注意力機(jī)制后, 模型的整體性能得到了提升, 本模型的F1 分?jǐn)?shù)值比文獻(xiàn)[1]模型的結(jié)果(89.07%分?jǐn)?shù)值)提升了2.34%, 并比基準(zhǔn)模型提升了1.06%, 表明本模型具有更強(qiáng)的特征提取能力, 在不需要引入外部詞典信息情況下, 可以有效地應(yīng)用到中文嵌套命名實(shí)體識別任務(wù).
為了驗(yàn)證所提模型的泛化能力, 本工作將模型的任務(wù)層數(shù)k設(shè)置為1, 使本模型變?yōu)榉乔短譔ER 模型, 并與非嵌套命名實(shí)體識別的模型進(jìn)行比較. 本實(shí)驗(yàn)采用2006 年SIGHAN 中文命名實(shí)體識別評測的MSRA 數(shù)據(jù)集[14]. 該數(shù)據(jù)集包含3 種帶標(biāo)記的命名實(shí)體類型: 人名、地名和組織名. MSRA 數(shù)據(jù)集具體統(tǒng)計(jì)信息如表5 所示. 驗(yàn)證集在MSRA 數(shù)據(jù)集中不可用. 因此, 本工作將訓(xùn)練集的10%數(shù)據(jù)作為驗(yàn)證樣本.
表5 MSRA 數(shù)據(jù)集統(tǒng)計(jì)信息Table 5 Detailed statistics information of MSRA dataset
本模型在MSRA 數(shù)據(jù)集上的性能如表6 所示. Zhou 等[15]將中文NER 視為聯(lián)合識別和分類任務(wù), 并利用具有豐富的人工特征的統(tǒng)計(jì)模型實(shí)現(xiàn)了90.28%的F1 分?jǐn)?shù)值; Dong 等[16]提出了結(jié)合漢字偏旁部首特征的LSTM-CRF 來進(jìn)行中文命名實(shí)體識別; Cao 等[17]使用對抗遷移學(xué)習(xí)和自注意力機(jī)制來聯(lián)合訓(xùn)練中文NER 任務(wù)和中文分詞任務(wù), 以獲得更好的性能; Yang 等[18]考慮語義信息和n-gram 特征, 提出了一種基于五筆的CNN-BiRNN-CRF 的中文NER 任務(wù)模型, 并取得了91.67%的F1 分?jǐn)?shù)值; Xu 等[19]研究了不同的字符嵌入在BiGRUCRF 中文命名實(shí)體識別框架上的效果, 得到了91.45%的F1 分?jǐn)?shù)值.
表6 MSRA 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 6 Experimental results on MSRA dataset
從表6 可知, 與現(xiàn)有的非嵌套NER 模型相比, 本模型和Highway-BiLSTM+CRF 模型均取得了較好的F1 分?jǐn)?shù)值, 且本模型F1 分?jǐn)?shù)值超越了表中所有模型的結(jié)果, 達(dá)到了92.74%,較Yang 等[18]的模型提高了1.07%的F1 分?jǐn)?shù)值. 可見, 本模型也可以較好地對非嵌套實(shí)體識別進(jìn)行建模, 模型通用性較好.
本工作針對中文嵌套命名實(shí)體任務(wù)的特點(diǎn), 提出了一個基于分層標(biāo)注的嵌套命名實(shí)體識別模型. 該模型在不使用外部資源的情形下, 能夠通過完全端到端的方式, 利用內(nèi)部實(shí)體信息來學(xué)習(xí)嵌套實(shí)體之間的依賴關(guān)系. 在《人民日報(bào)》語料上的實(shí)驗(yàn)結(jié)果表明: 具有位置感知的自注意力機(jī)制可以有效捕獲文本特征和每層嵌套實(shí)體的邊界信息; 同時(shí)Gate 過濾機(jī)制可對輸入特征進(jìn)行調(diào)整, 使模型能專注于學(xué)習(xí)與實(shí)體相關(guān)的特征, 從而提高了對中文嵌套命名實(shí)體的識別能力. 最終, 本模型F1 分?jǐn)?shù)值為91.41%, 取得了較好的效果. 由于中文語料庫的限制, 故本工作只考慮了2 層嵌套命名實(shí)體的識別, 對于多層嵌套命名實(shí)體識別, 可對本模型進(jìn)行擴(kuò)展.在今后的研究工作中, 本工作將擴(kuò)大實(shí)驗(yàn)的規(guī)模, 進(jìn)一步驗(yàn)證模型的有效性, 并降低模型計(jì)算成本以提高模型的學(xué)習(xí)效率.