余詩(shī)媛,郭淑明,黃瑞陽(yáng),張建朋,胡 楠
(1.鄭州大學(xué) 軟件學(xué)院,河南 鄭州 450001;2.國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
命名實(shí)體識(shí)別(Name Entity Recognition,NER)是信息抽取的標(biāo)準(zhǔn)任務(wù)之一,其主要目的是抽取出自然語(yǔ)言文本中具有特定含義的命名實(shí)體,例如:組織名、地名、人名等。命名實(shí)體識(shí)別往往被視為一個(gè)序列標(biāo)注任務(wù),即對(duì)于指定字符序列,命名實(shí)體識(shí)別模型需要預(yù)測(cè)每個(gè)字符對(duì)應(yīng)的命名實(shí)體標(biāo)簽。嵌套命名實(shí)體是一類特殊形式的命名實(shí)體,其內(nèi)部包含一個(gè)或者多個(gè)命名實(shí)體,最外層的命名實(shí)體稱為外部命名實(shí)體,嵌套在其內(nèi)部的實(shí)體稱為內(nèi)部命名實(shí)體。由于單個(gè)詞條可能擁有兩個(gè)及以上的標(biāo)簽,傳統(tǒng)的命名實(shí)體識(shí)別模型無(wú)法完整地識(shí)別出具有嵌套結(jié)構(gòu)的內(nèi)部命名實(shí)體,從而難以精確捕捉文本中存在的細(xì)粒度語(yǔ)義信息及結(jié)構(gòu)信息。
當(dāng)前,只有少數(shù)研究針對(duì)英文嵌套命名實(shí)體識(shí)別。Ju等人[1]提出Layered-BiLSTM-CRF模型,該模型動(dòng)態(tài)堆疊平面NER層以識(shí)別內(nèi)部命名實(shí)體,并運(yùn)用充分的內(nèi)部命名實(shí)體編碼信息識(shí)別外部命名實(shí)體,最終在ACE 2005、GENIA數(shù)據(jù)集上分別獲得了72.2%、74.7%的F1值。但該方法存在層與層之間的錯(cuò)誤傳播,若無(wú)法識(shí)別外部命名實(shí)體,則無(wú)法檢測(cè)到內(nèi)部命名實(shí)體。Sohrab等人[2]提出了神經(jīng)窮舉模型,其關(guān)鍵思想是列舉所有可能的區(qū)域或跨度作為潛在的實(shí)體提及,并用深層神經(jīng)網(wǎng)絡(luò)對(duì)它們進(jìn)行分類,該方法簡(jiǎn)單有效,但是外部命名實(shí)體信息和內(nèi)部命名實(shí)體信息完全沒(méi)有交互。中文嵌套命名實(shí)體識(shí)別任務(wù)目前缺少被廣泛認(rèn)可的數(shù)據(jù)集,《人民日?qǐng)?bào)》數(shù)據(jù)集雖然含有部分嵌套命名實(shí)體的標(biāo)注信息,但是這些命名實(shí)體信息不完整且存在錯(cuò)標(biāo)漏標(biāo)現(xiàn)象,如“[中共中央/nt 顧問(wèn)/n 委員會(huì)/n]nt”轉(zhuǎn)化為“[中共中央]nt”及“[中共中央顧問(wèn)委員會(huì)]nt”,漏標(biāo)了“[中共]nt”。
結(jié)合自動(dòng)生成及手工標(biāo)注方法,首先,基于《人民日?qǐng)?bào)》數(shù)據(jù)集構(gòu)建了新的中文嵌套命名實(shí)體識(shí)別數(shù)據(jù)集NEPD(Nested Entity of the People’s Daily);其次,提出了一種結(jié)合動(dòng)態(tài)堆疊平面及神經(jīng)窮舉的嵌套命名實(shí)體識(shí)別方法,即根據(jù)實(shí)體長(zhǎng)度分層枚舉所有可能的區(qū)域或組合,使用卷積神經(jīng)網(wǎng)絡(luò)將短組合實(shí)體的詞嵌入與相鄰字符的詞嵌入聚合形成長(zhǎng)組合實(shí)體的詞嵌入;然后,利用BiLSTM預(yù)測(cè)出每一個(gè)組合的標(biāo)簽;最后,在中文嵌套命名實(shí)體識(shí)別數(shù)據(jù)集上對(duì)該方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。
嵌套命名實(shí)體具有結(jié)構(gòu)復(fù)雜多變,嵌套顆粒度與嵌套層數(shù)缺乏規(guī)律性等特點(diǎn),例如,“中共北京市委宣傳部”的外部命名實(shí)體“[[[中共]nt[北京]ns市委]nt宣傳部]nt”包含“[中共]nt”、“[北京]ns”和“[中共北京市委]nt”三個(gè)內(nèi)部命名實(shí)體。
當(dāng)前,嵌套命名實(shí)體識(shí)別研究工作主要基于英文基準(zhǔn)數(shù)據(jù)集(ACE語(yǔ)料[3-4]、GENIA語(yǔ)料[5]、NNE數(shù)據(jù)集[6]、KBP2015語(yǔ)料庫(kù)等)。ACE語(yǔ)料用于自動(dòng)內(nèi)容提取技術(shù)評(píng)估,標(biāo)注了包含7種主要的命名實(shí)體類型:地理命名實(shí)體(GPE)、組織(ORG)、人(PER)、地點(diǎn)(LOC)、車輛(VEH)、設(shè)施(FAC)和武器(WEA);GENIA語(yǔ)料是最早標(biāo)注的生物醫(yī)學(xué)文獻(xiàn)集合,主要有五種命名實(shí)體類型:DNA、RNA、蛋白質(zhì)、細(xì)胞系和細(xì)胞類型;NNE數(shù)據(jù)集標(biāo)注了華爾街日?qǐng)?bào)的細(xì)粒度、嵌套命名實(shí)體,包含114種實(shí)體類型,嵌套深度高達(dá)6層。
針對(duì)英文嵌套命名實(shí)體識(shí)別,文獻(xiàn)[1]充分運(yùn)用內(nèi)部命名實(shí)體編碼信息識(shí)別外部命名實(shí)體,提出了一種動(dòng)態(tài)堆疊平面NER層以識(shí)別嵌套命名實(shí)體的模型,若檢測(cè)到命名實(shí)體,該模型的平面NER層首先獲取LSTM層的上下文表示,其次將該表示作為輸入傳遞到新的平面NER層,最后將上下文表示提供給CRF層進(jìn)行標(biāo)簽預(yù)測(cè),當(dāng)沒(méi)有檢測(cè)到命名實(shí)體時(shí),模型停止堆疊,直至完成命名實(shí)體識(shí)別;文獻(xiàn)[2]提出了神經(jīng)窮舉模型,首先從參數(shù)共享的BiLSTM中獲取區(qū)域表示,將每個(gè)區(qū)域表示輸入到修正線性單元中作為激活函數(shù),并把激活層的輸出傳遞到softmax輸出層,以識(shí)別該區(qū)域是否為特定的命名實(shí)體類型或非命名實(shí)體;文獻(xiàn)[7]提出了一種基于超圖表示的模型,稱為提及超圖(Mention Hypergraph,MH),該模型首先使用節(jié)點(diǎn)和有向超邊共同對(duì)命名實(shí)體及其組合進(jìn)行表示,緊湊地將一個(gè)句子中不同類型且無(wú)限長(zhǎng)度的嵌套命名實(shí)體表示出來(lái),以解決嵌套命名實(shí)體檢測(cè)難的問(wèn)題,在ACE 04和ACE 05數(shù)據(jù)集上的F1值達(dá)到62.8%及62.5%;文獻(xiàn)[8]提出了一種利用邊界預(yù)測(cè)命名實(shí)體分類標(biāo)簽的邊界感知模型。該模型將嵌套命名實(shí)體識(shí)別分為了兩個(gè)任務(wù),首先用序列標(biāo)注模型來(lái)發(fā)現(xiàn)命名實(shí)體的位置;其次,用基于跨度的模型對(duì)序列標(biāo)注發(fā)現(xiàn)的候選命名實(shí)體跨度進(jìn)行實(shí)體類型的分類;最后采用了多任務(wù)損失算法同時(shí)訓(xùn)練兩個(gè)任務(wù),以獲取邊界檢測(cè)模塊和命名實(shí)體分類預(yù)測(cè)模塊的底層依賴關(guān)系;文獻(xiàn)[9]提出了一種基于機(jī)器閱讀理解(Machine Reading Comprehension,MRC)的方法統(tǒng)一解決非嵌套和嵌套命名實(shí)體識(shí)別問(wèn)題,在ACE04和MSRA等8個(gè)中英數(shù)據(jù)集上均取得了顯著的識(shí)別成果。
由于缺乏規(guī)范統(tǒng)一的語(yǔ)料庫(kù),當(dāng)前中文嵌套命名實(shí)體識(shí)別工作缺乏橫向比較的基準(zhǔn)。文獻(xiàn)[10]引入實(shí)體語(yǔ)素概念,基于機(jī)器學(xué)習(xí)方法構(gòu)建漢語(yǔ)命名實(shí)體的雙層模型,很大程度上解決了嵌套命名實(shí)體邊界識(shí)別錯(cuò)誤問(wèn)題;文獻(xiàn)[11]提出并設(shè)計(jì)了一種聯(lián)合模型對(duì)嵌套命名實(shí)體進(jìn)行識(shí)別,可聯(lián)合處理分詞問(wèn)題、命名實(shí)體的邊界確定問(wèn)題、類別確定問(wèn)題。
《人民日?qǐng)?bào)》語(yǔ)料庫(kù)是對(duì)一九九八年一月至六月出版的人民日?qǐng)?bào)純文本語(yǔ)料進(jìn)行分詞和詞性標(biāo)注后制作而成,該文分析了語(yǔ)料庫(kù)中嵌套命名實(shí)體統(tǒng)計(jì)分布規(guī)律,該語(yǔ)料中共106 430個(gè)名詞,主要包含人名實(shí)體、地名實(shí)體以及組織機(jī)構(gòu)名實(shí)體;其中,嵌套命名實(shí)體總數(shù)為7 993,占所有命名實(shí)體總數(shù)的18.5%。
為了減少標(biāo)注工作復(fù)雜度,該文自動(dòng)抽取語(yǔ)料中已經(jīng)標(biāo)注的部分嵌套命名實(shí)體,然后人工標(biāo)注漏標(biāo)的命名實(shí)體,并修訂標(biāo)注錯(cuò)誤的命名實(shí)體,保證原始數(shù)據(jù)的清潔與專業(yè)性,主要步驟如下:
(1)自動(dòng)抽?。簭摹度嗣袢?qǐng)?bào)》語(yǔ)料庫(kù)中抽取出命名實(shí)體,保留原有的命名實(shí)體標(biāo)注,例如:“[中共/j 上海/ns 市委/n]nt”提取后變成“[中共[上海]ns市委]nt”;
(2)人工調(diào)整:基于自動(dòng)抽取的結(jié)果,人工增添未標(biāo)注命名實(shí)體,并對(duì)部分錯(cuò)誤標(biāo)注命名實(shí)體進(jìn)行調(diào)整,例如:“[中共[上海]ns市委]nt”經(jīng)人工調(diào)整后為“[[中共]nt[上海]ns市委]nt”;
(3)一致性驗(yàn)證:使用一致性分?jǐn)?shù)衡量標(biāo)注的一致性,一致性分?jǐn)?shù)通過(guò)標(biāo)注一致的標(biāo)簽除以標(biāo)簽總數(shù)得到;
(4)人工驗(yàn)證:人工對(duì)標(biāo)注數(shù)據(jù)復(fù)查,核查數(shù)據(jù)一致性與準(zhǔn)確性。
表1、表2分別列出了修訂后的《人民日?qǐng)?bào)》嵌套命名實(shí)體數(shù)據(jù)集的層次結(jié)構(gòu)統(tǒng)計(jì)及實(shí)體比例分布情況,表中括號(hào)內(nèi)為原數(shù)據(jù)集的實(shí)體比例分布。由表1、表2可知,調(diào)整后的數(shù)據(jù)集包含19 980個(gè)人名實(shí)體、23 937個(gè)地名實(shí)體、12 445個(gè)組織機(jī)構(gòu)名實(shí)體;其中,嵌套命名實(shí)體總數(shù)為11 757,占所有命名實(shí)體總數(shù)的20.9%,最深層次達(dá)到四層,如:“[[[[長(zhǎng)沙市]ns 公安局]nt交警支隊(duì)]nt 黨委]nt”。由于人名中含嵌套命名實(shí)體的數(shù)量非常少,可以忽略不計(jì),所以含有嵌套結(jié)構(gòu)的命名實(shí)體主要存在于地名、機(jī)構(gòu)名之中,結(jié)構(gòu)多為地名+地名+其他+后綴詞、組織名+組織名+其他+后綴詞,如:“[[中國(guó)]ns駐[南非]ns大使館]nt”、“[[中共]nt中央]nt 統(tǒng)戰(zhàn)部]nt”。
表1 嵌套命名實(shí)體層次結(jié)構(gòu)統(tǒng)計(jì)
表2 嵌套命名實(shí)體比例分布情況
針對(duì)現(xiàn)有的嵌套命名實(shí)體識(shí)別方法忽略嵌套實(shí)體內(nèi)部信息關(guān)聯(lián)關(guān)系而導(dǎo)致準(zhǔn)確性下降的問(wèn)題,提出了分層區(qū)域窮舉模型(Layered Regional Exhaustive Model,LREM),分層區(qū)域窮舉模型利用神經(jīng)網(wǎng)絡(luò)詳盡地列舉了句子中所有的區(qū)域或組合。該模型建立在多層內(nèi)部編碼層以及解碼層之上,編碼層由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)構(gòu)成,解碼層由雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short Term Memory Network,BiLSTM)構(gòu)成,本節(jié)將詳細(xì)描述LREM的體系結(jié)構(gòu),如圖1所示。
圖1 LREM的體系結(jié)構(gòu)
給定輸入的句子序列X={x1,x2,…,xn},其中xi為第i個(gè)字符,n為句子序列中的字符數(shù)。該文參考文獻(xiàn)[12]中的方法,使用Word2Vec[13]在自動(dòng)分詞的Chinese Giga-Word數(shù)據(jù)集上對(duì)詞嵌入進(jìn)行預(yù)訓(xùn)練,并使用預(yù)訓(xùn)練后的詞嵌入初始化輸入句子序列的詞嵌入W={w1,w2,…,wn},其中wi為第i個(gè)字符的詞嵌入。
分層區(qū)域窮舉模型的編碼層由n層內(nèi)部編碼層構(gòu)成,每一層內(nèi)部編碼層由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,用于構(gòu)建固定長(zhǎng)度的區(qū)域表示,即第L層編碼層用于構(gòu)建字符長(zhǎng)度為L(zhǎng)的組合實(shí)體的區(qū)域表示,1≤L≤n。首先,利用卷積神經(jīng)網(wǎng)絡(luò)聚合兩個(gè)相鄰的區(qū)域表示及詞嵌入,將聚合得到的區(qū)域表示傳遞給相應(yīng)長(zhǎng)度的解碼層;同時(shí),將聚合得到的區(qū)域表示與鄰接詞嵌入拼接得到新的嵌入序列,將該序列傳遞至更高編碼層。通過(guò)卷積神經(jīng)網(wǎng)絡(luò),分層區(qū)域窮舉模型可以遍歷文本中所有的組合實(shí)體,獲取低層編碼層的詞嵌入信息融入高層編碼層,使鄰接編碼層之間實(shí)現(xiàn)信息交換。
設(shè)Hi,i+l為以i為起點(diǎn)且長(zhǎng)度為l的組合實(shí)體的區(qū)域表示,則其計(jì)算如公式(1)所示。
Hi,i+l=conv1(Hi,i+l-1,wi+l)
(1)
傳統(tǒng)的層疊模型[14-16]在嵌套命名實(shí)體識(shí)別過(guò)程中容易產(chǎn)生層迷失問(wèn)題,即模型在錯(cuò)誤的嵌套層輸出嵌套命名實(shí)體,例如:從第一層識(shí)別出嵌套命名實(shí)體“[[中共]nt中央]nt[臺(tái)灣]ns工作辦公室]nt”。雖然命名實(shí)體邊界與類別均正確,但這會(huì)導(dǎo)致模型趨向于不預(yù)測(cè)內(nèi)部的嵌套命名實(shí)體,從而影響召回率。分層區(qū)域窮舉模型通過(guò)使用多層解碼層,使長(zhǎng)度為L(zhǎng)的命名實(shí)體僅在第L層預(yù)測(cè)來(lái)防止層迷失現(xiàn)象以及層與層之間的錯(cuò)誤傳播現(xiàn)象產(chǎn)生。將經(jīng)過(guò)編碼層獲得的詞向量輸入到BiLSTM中進(jìn)行進(jìn)一步處理,得到其預(yù)測(cè)標(biāo)注序列。
遺忘門將細(xì)胞狀態(tài)中的信息選擇性遺忘,其計(jì)算過(guò)程如公式(2)所示。
ft=σ(Wf·[ht-1,xt]+bf)
(2)
其中,ht-1表示t-1時(shí)刻的隱層狀態(tài),xt表示當(dāng)前時(shí)刻t的輸入詞,σ表示sigmod函數(shù)。
記憶門決定將在細(xì)胞狀態(tài)中存儲(chǔ)的新信息范疇,首先使用記憶門的sigmod層決定需要更新的信息,然后利用tanh層創(chuàng)建包含新候選值的向量,最后,將這兩部分聯(lián)合更新細(xì)胞狀態(tài),其計(jì)算過(guò)程如公式(3)、(4)、(5)所示。
it=σ(Wi·[ht-1,xt]+bi)
(3)
(4)
(5)
輸出門將基于細(xì)胞狀態(tài)決定輸出值,首先使用sigmod層確定是否將細(xì)胞狀態(tài)的某個(gè)部分輸出,然后,將細(xì)胞狀態(tài)通過(guò)tanh進(jìn)行處理并將其與sigmod的輸出相乘,從而僅輸出決定輸出的部分,其計(jì)算過(guò)程如公式(6)、(7)所示。
ot=σ(Wo[ht-1,xt]+bo)
(6)
ht=ot·tanh(Ct)
(7)
BiLSTM由前向LSTM與后向LSTM構(gòu)成,能夠更好地學(xué)習(xí)雙向的語(yǔ)義依賴。BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。向前隱含層計(jì)算并保存輸入序列中t時(shí)刻以及之前時(shí)刻的信息,向后隱含層計(jì)算并保存輸入序列中t時(shí)刻以及之后時(shí)刻的信息,最后將每個(gè)時(shí)刻向前隱含層和向后隱含層輸出的結(jié)果向量經(jīng)過(guò)連接、相加或平均值等方式處理得到最終的隱層表示。
圖2 BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)
實(shí)驗(yàn)基于Tensorflow平臺(tái)搭建,實(shí)驗(yàn)硬件環(huán)境配有Intel(R) Xeon(R) CPU E5-2620 v4 @ 2.10GHz的浪潮服務(wù)器,同時(shí)裝載8塊型號(hào)為NVIDIA Corporation GP102的GPU。軟件環(huán)境為Debian 10操作系統(tǒng)、Cuda10.2、Python3.6.5以及Teansorflow Keras 2.2.5版本。
根據(jù)以往命名實(shí)體識(shí)別相關(guān)研究[17]以及參數(shù)調(diào)優(yōu)過(guò)程,具體的參數(shù)值如下:詞向量維度大小設(shè)置為50;卷積核尺寸為2;Dropout設(shè)置為0.5,學(xué)習(xí)率采用warmup與余弦退火策略動(dòng)態(tài)調(diào)整,采用隨機(jī)下降梯度(SGD)進(jìn)行模型參數(shù)優(yōu)化,設(shè)置初始學(xué)習(xí)率為5e-4。
4.3.1 嵌套命名實(shí)體識(shí)別效果
該文采用準(zhǔn)確率(Precision)、召回率(Recall)、F1值(F1-Measure)三項(xiàng)基本測(cè)評(píng)指標(biāo)來(lái)評(píng)估嵌套命名實(shí)體識(shí)別的效果。將修訂后的《人民日?qǐng)?bào)》數(shù)據(jù)集的70%作為訓(xùn)練集,30%作為測(cè)試集,對(duì)嵌套命名實(shí)體的識(shí)別結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果顯示:LREM模型對(duì)嵌套組織機(jī)構(gòu)名的識(shí)別召回率比較低,導(dǎo)致整體組織機(jī)構(gòu)名F值下降,而對(duì)地名的識(shí)別效果在準(zhǔn)確率和召回率均保持穩(wěn)定的效果,最后地名、組織機(jī)構(gòu)名的F值分別是89.05%、77.82%,LREM模型在沒(méi)有外部知識(shí)資源的情況下,全部嵌套命名實(shí)體識(shí)別的F1值達(dá)到87.19%。
表3 嵌套命名實(shí)體識(shí)別結(jié)果
4.3.2 層數(shù)分析
表4顯示了不同層數(shù)L對(duì)不同長(zhǎng)度命名實(shí)體識(shí)別結(jié)果的影響。由統(tǒng)計(jì)結(jié)果可知,2-3字符長(zhǎng)度的命名實(shí)體數(shù)量占全部命名實(shí)體的79.91%,這些命名實(shí)體的識(shí)別結(jié)果對(duì)整體命名實(shí)體識(shí)別的效果有較大的影響。隨著L的增長(zhǎng),模型識(shí)別效果逐漸增強(qiáng),當(dāng)L大于5時(shí),出現(xiàn)過(guò)擬合現(xiàn)象,導(dǎo)致模型識(shí)別效果有所下降,但總體上依然優(yōu)于普通命名實(shí)體識(shí)別效果。
表4 不同層數(shù)對(duì)不同長(zhǎng)度命名實(shí)體的識(shí)別結(jié)果 %
表5顯示了在不同層數(shù)L下的推理速率。實(shí)驗(yàn)結(jié)果顯示:推理速率隨層數(shù)的增加而下降。這是因?yàn)長(zhǎng)REM模型的時(shí)間復(fù)雜度為O(mn),其中m為字符數(shù)量,n為層數(shù)。當(dāng)需要識(shí)別出長(zhǎng)字符的命名實(shí)體時(shí),意味著需要進(jìn)行更多層次的堆疊,這需要更多的計(jì)算成本。
表5 不同層數(shù)L的推理速率對(duì)比
4.3.3 消融實(shí)驗(yàn)
為了證明利用短組合實(shí)體構(gòu)建長(zhǎng)組合實(shí)體表示方法的有效性,該文設(shè)置了消融實(shí)驗(yàn),結(jié)果如表6所示。實(shí)驗(yàn)證明,利用低層編碼層的詞嵌入信息,使鄰接編碼層之間實(shí)現(xiàn)信息交換的有交互卷積方法優(yōu)于直接將鄰接字符卷積的無(wú)交互卷積方法。
表6 消融實(shí)驗(yàn)結(jié)果
4.3.4 非嵌套命名實(shí)體識(shí)別效果
為了對(duì)文中模型做出更客觀的評(píng)價(jià),在通用的《人民日?qǐng)?bào)》數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集不包括嵌套命名實(shí)體,采用LSTM-CRF、BiLSTM、BiLSTM+CRF和LREM模型進(jìn)行性能分析,實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 非嵌套命名實(shí)體識(shí)別結(jié)果
實(shí)驗(yàn)結(jié)果顯示:BiLSTM+CRF識(shí)別結(jié)果的F1值比LSTM-CRF高出3.09%,這是因?yàn)锽iLSTM能夠利用雙向結(jié)構(gòu)獲取上下文的語(yǔ)義信息,所以BiLSTM+CRF優(yōu)于LSTM-CRF的識(shí)別效果;通過(guò)比較BiLSTM與BiLSTM-CRF的實(shí)驗(yàn)結(jié)果,增加CRF模塊后,F(xiàn)1值提高了5.04%,這歸因于CRF能夠充分考慮標(biāo)簽間的聯(lián)系,避免不準(zhǔn)確標(biāo)簽的出現(xiàn),例如:預(yù)測(cè)的標(biāo)簽序列為“B-Organization I-Person”,由于LREM模型考慮的是片段標(biāo)簽,無(wú)需考慮標(biāo)簽間的聯(lián)系,所以無(wú)需增加CRF模塊進(jìn)行實(shí)驗(yàn)比較;與以上方法相比,該文提出的分層區(qū)域窮舉模型的非嵌套命名實(shí)體識(shí)別也取得較好的效果,準(zhǔn)確率、F值分別比BiLSTM-CRF提升了2.28%、1.18%。
基于《人民日?qǐng)?bào)》數(shù)據(jù)集構(gòu)建了新的嵌套命名實(shí)體數(shù)據(jù)集,提出了一種分層區(qū)域窮舉模型,該模型利用多層內(nèi)部解碼層遍歷文本中所有長(zhǎng)度的組合實(shí)體,結(jié)合短組合實(shí)體的詞嵌入信息構(gòu)建長(zhǎng)組合實(shí)體的區(qū)域表示,實(shí)現(xiàn)了鄰接編碼層的交互;使用多層解碼層分別預(yù)測(cè)長(zhǎng)度為L(zhǎng)的命名實(shí)體防止層迷失現(xiàn)象發(fā)生。最后,利用分層區(qū)域窮舉模型在嵌套命名實(shí)體識(shí)別數(shù)據(jù)集上進(jìn)行識(shí)別。實(shí)驗(yàn)表明,該模型能夠從所有可能的區(qū)域中識(shí)別出嵌套命名實(shí)體,且對(duì)于非嵌套命名實(shí)體識(shí)別也取得了較好的效果。
對(duì)于未來(lái)的工作有兩方面考慮:(1)考慮使用字詞融合信息來(lái)提高嵌套命名實(shí)體識(shí)別性能;(2)考慮嵌套命名實(shí)體與關(guān)系聯(lián)合抽取,利用嵌套命名實(shí)體中存在的額外信息作為輔助特征以增強(qiáng)關(guān)系抽取的效果。