謝斌紅 張露露 趙紅燕
(太原科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 太原 030024)
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名和專有名詞等,它是自然語言處理中一項(xiàng)基本且具有挑戰(zhàn)性的任務(wù),也是信息提取和機(jī)器翻譯等許多高級(jí)任務(wù)的基礎(chǔ)和關(guān)鍵組件。
命名實(shí)體識(shí)別的研究方法經(jīng)歷了基于規(guī)則的方法、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三個(gè)階段,其中深度學(xué)習(xí)方法可以自動(dòng)學(xué)習(xí)深層的特征,實(shí)現(xiàn)從非結(jié)構(gòu)化的輸入文本到實(shí)體識(shí)別結(jié)果的映射,與傳統(tǒng)的基于規(guī)則和機(jī)器學(xué)習(xí)的方法相比,不需要建立不同領(lǐng)域的知識(shí)庫和大量的特征,為解決命名實(shí)體識(shí)別問題提供了一種新的途徑,引起了研究人員的廣泛關(guān)注,并先后提出了多種形式的基于字符或詞語嵌入的深度神經(jīng)網(wǎng)絡(luò)模型。下面分別從模型的輸入分布式表示、上下文編碼器結(jié)構(gòu)和標(biāo)簽解碼結(jié)構(gòu)進(jìn)行具體闡述。
1)輸入的分布式表示
實(shí)體識(shí)別的成功在很大程度上依賴于它的輸入表示,分布式表示可以自動(dòng)從文本中學(xué)習(xí)和捕捉文本的句法和語義特征,在NER任務(wù)中目前有3種常見的分布式表示:詞語級(jí)、字符級(jí)和混合表示。
(1)詞語級(jí)別的表示是將句子中的每個(gè)詞語分布式表示作為神經(jīng)網(wǎng)絡(luò)的輸入。第一個(gè)詞級(jí)神經(jīng)網(wǎng)絡(luò)模型是由Collobert 等[1]2008 年提出的,之后Huang 等[2]提出了一個(gè)基于詞語級(jí)別的LSTM-CRF模型,有效提高了實(shí)體識(shí)別的性能?;谠~語表示進(jìn)行中文NER 任務(wù)時(shí),通常會(huì)借助外部工具進(jìn)行分詞,而分詞錯(cuò)誤的傳播將會(huì)影響后續(xù)實(shí)體識(shí)別任務(wù)的性能,而且分詞之后,嵌入層的參數(shù)會(huì)顯著增加,還將引入數(shù)據(jù)稀疏和過度擬合問題,此外,由于中文詞匯量巨大,基于詞語表示還會(huì)帶來OOV(Out-of-vocabulary)問題。
(2)字符級(jí)別的表示是以單個(gè)字為粒度做分布式表示。該表示方法可以解決OOV 問題。Yang等[3]提出在神經(jīng)網(wǎng)絡(luò)卷積層設(shè)置一個(gè)固定大小窗口來提取字符級(jí)別的特征。Lample 等[4]采用了BiLSTM模型來抽取字符級(jí)分布式表示。
(3)混合分布式表示是將詞語、字符等多種特征進(jìn)行融合作為神經(jīng)網(wǎng)絡(luò)的輸入?;谠~匯增強(qiáng)的中文NER 有兩種方式,其一設(shè)計(jì)一個(gè)動(dòng)態(tài)框架,能夠兼容詞匯輸入。作為融入詞匯信息進(jìn)行中文NER 的開篇之作,Zhang[5]等提出一種Lattice LSTM模型,通過詞典匹配句子,將潛在詞級(jí)信息集成到基于字符的LSTM-CRF 模型,有效提升了NER 性能。其二是基于詞匯信息構(gòu)建自適應(yīng)Embed?ding。Peng 等[6]提出了一種在Embedding 層利用詞匯的方法,對(duì)每個(gè)字符依次獲取BMES 對(duì)應(yīng)所有詞匯集合,然后再進(jìn)行編碼表示。除了字詞特征的融合,一些研究人員還納入了一些其他信息。Dong等[7]引入漢字偏旁作為額外的特征。還有其他混合型方法用到了情感、語義[8]等特征。雖然引入外部知識(shí)可以提高實(shí)體識(shí)別的性能,但是會(huì)損害基于端到端的深度學(xué)習(xí)NER模型的通用性。
2)上下文編碼器結(jié)構(gòu)
循環(huán)神經(jīng)網(wǎng)絡(luò)RNN 及其變體GRU 和LSTM 由于其較強(qiáng)的序列建模能力在NER 任務(wù)上取得了顯著效果。Huang 等[2]于2015 年首次引入了BiLSTM來解決序列標(biāo)記問題。目前該模型在NER 任務(wù)中得到了廣泛應(yīng)用,之后一系列研究[7,9~11]都以BiL?STM 作為實(shí)體識(shí)別任務(wù)編碼序列上下文信息的體系結(jié)構(gòu)。
也有一些研究人員采用卷積神經(jīng)網(wǎng)絡(luò)CNN 作為實(shí)體識(shí)別的主干網(wǎng)絡(luò)。Strubell[12]和Gui[13]提出用CNN 來編碼單詞;研究表明[9,14]CNN是提取字符信息的有效方法;Wu 等[15]利用卷積層生成由多個(gè)全局隱藏節(jié)點(diǎn)表示的全局特征,然后將局部特征和全局特征結(jié)合起來識(shí)別中文命名實(shí)體。
Zheng等[16]認(rèn)為重要的單詞可能出現(xiàn)在句子中的任何位置,因此其提出將BiLSTM 和CNN 結(jié)合作為實(shí)體識(shí)別的特征提取器。使用BiLSTM捕獲長距離依賴關(guān)系并獲得輸入序列的整體表示,然后利用CNN學(xué)習(xí)高級(jí)表示,最后輸入分類器進(jìn)行實(shí)體的識(shí)別。Li 等[17]使用CNN 網(wǎng)絡(luò)訓(xùn)練出具有語義信息的特征向量,然后構(gòu)建進(jìn)行實(shí)體識(shí)別的BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型。
3)標(biāo)簽解碼結(jié)構(gòu)
標(biāo)簽解碼是命名實(shí)體識(shí)別模型的最后一個(gè)環(huán)節(jié)。目前主要有多層感知機(jī)結(jié)合softmax 和條件隨機(jī)場等方法。其中,多層感知機(jī)結(jié)合softmax 將問題建模為一個(gè)多分類問題,每一個(gè)標(biāo)簽獨(dú)立預(yù)測,沒有考慮相鄰標(biāo)簽之間聯(lián)系;而條件隨機(jī)場采用動(dòng)態(tài)規(guī)劃思想的維特比算法(Viterbi)進(jìn)行解碼,對(duì)實(shí)體標(biāo)簽進(jìn)行預(yù)測,該方法考慮相鄰標(biāo)簽之間的關(guān)系,是當(dāng)前最常用的解碼方法。
通過上述分析,本文提出基于字符級(jí)表示的中文NER 模型。采用BERT 預(yù)訓(xùn)練語言模型根據(jù)上下文動(dòng)態(tài)生成字符的嵌入表示,用于解決中文中存在的多義詞問題以及緩解實(shí)體識(shí)別對(duì)模型結(jié)構(gòu)的依賴,為模型提供更好的輸入表示。
編碼器方面,由于BiLSTM 網(wǎng)絡(luò)良好的序列建模能力,已成為命名實(shí)體識(shí)別的主流網(wǎng)絡(luò),但因其特征提取時(shí)需要跨越輸入文本長度順序進(jìn)行計(jì)算,不能充分利用GPU 的并行性,限制了網(wǎng)絡(luò)的計(jì)算效率。而且隨著序列增長,長序列建模能力減弱。針對(duì)該問題,本文提出一種DeepCAN 網(wǎng)絡(luò),通過將卷積網(wǎng)絡(luò)和多頭注意力機(jī)制結(jié)合作為特征提取器。首先利用多個(gè)卷積核在整個(gè)文本序列上并行計(jì)算并有效捕捉實(shí)體的局部連續(xù)特征,同時(shí)利用深層CNN 網(wǎng)絡(luò)堆疊,進(jìn)一步增大感受野,提取句子的全局上下文高層語義特征。此外,為了解決句子中同一實(shí)體可能被模型預(yù)測不同標(biāo)簽出現(xiàn)上下文不一致問題,還引入了多頭注意力機(jī)制提取句子全局上下文特征,解決長距離依賴問題。
解碼器方面,本文選擇目前主流的CRF進(jìn)行解碼,獲得實(shí)體的標(biāo)簽預(yù)測。
在本節(jié)中,將詳細(xì)闡述基于BERT 模型和注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型。模型主要分為BERT層、DeepCAN 層和CRF 層。其中DeepCAN 層由N個(gè)相同的卷積注意力模塊(Convolutional Attention Block,CAB)疊加而成。每個(gè)CAB 包括3 層CNN 疊加組成的非線性子層和一個(gè)注意力子層。模型的整體結(jié)構(gòu)如圖1所示。
圖1 BERT-DeepCAN-CRF模型結(jié)構(gòu)圖
詞向量是基于深度學(xué)習(xí)的自然語言處理的重要組成部分,它可以將離散、不連續(xù)的自然語言映射到低維、稠密的向量空間,使神經(jīng)網(wǎng)絡(luò)能夠更好地理解語義,從而提升對(duì)自然語言的理解能力。
本文使用BERT 預(yù)訓(xùn)練中文詞向量模型表征詞的多義性,生成詞的嵌入表示,使提取到的語義信息更加豐富,獲得高質(zhì)量的詞向量,更有利于下游實(shí)體識(shí)別任務(wù)的進(jìn)行。
另外,為了減少未登錄詞的數(shù)量,避免分詞結(jié)果對(duì)實(shí)體識(shí)別的影響,本文采用基于字符級(jí)的嵌入表示方法。給定一個(gè)輸入句子X={x1,x2,x3,…,xm},其中m為句子最大字?jǐn)?shù),將其輸入BERT 預(yù)訓(xùn)練好的中文語言模型,得到一個(gè)A?Rm*d作為實(shí)體識(shí)別模型的輸入,其中d為每個(gè)字的特征維數(shù)。
命名實(shí)體識(shí)別需要兼顧局部特征和全局特征對(duì)實(shí)體進(jìn)行標(biāo)簽預(yù)測。DeepCAN 層旨在通過疊加多層CAB 模塊構(gòu)建強(qiáng)特征器對(duì)輸入字符序列進(jìn)行編碼。其中,CAB 中的卷積網(wǎng)絡(luò)可以兼顧詞義、詞序和上下文關(guān)系對(duì)局部連續(xù)特征進(jìn)行提取,為實(shí)體識(shí)別提供有利的局部特征信息。自注意力機(jī)制可以學(xué)習(xí)句子中任意兩個(gè)字符之間的關(guān)系,從句子層級(jí)進(jìn)行特征的提取,同時(shí)使用多頭注意力從句子不同層面進(jìn)行信息挖掘,提取更加豐富的特征。DeepCAN 網(wǎng)絡(luò)不受限于序列長度,可最大限度地利用GPU資源并行運(yùn)算以節(jié)省大量時(shí)間和成本。
2.2.1 卷積注意力模塊CAB
卷積注意力模塊CAB 由3 層CNN 疊加組成的非線性子層、多頭注意力子層,殘差連接和層歸一化構(gòu)成。下面對(duì)其內(nèi)部結(jié)構(gòu)詳細(xì)闡述。
1)卷積層
卷積神經(jīng)網(wǎng)絡(luò)是一種可并行、可訓(xùn)練、推理速度快且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)。CAB 模塊通過卷積操作實(shí)現(xiàn)對(duì)輸入字符嵌入的特征學(xué)習(xí)和表示。首先將經(jīng)過BERT 預(yù)訓(xùn)練語言模型獲得的文本矩陣A作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,為了處理句子邊緣信息,同時(shí)為了避免隨著網(wǎng)絡(luò)深度增加特征圖大小的急劇減小,選用SAME 進(jìn)行padding 操作,保證輸出與輸入同等大小。
本次將卷積核高度h設(shè)置為3,寬度d為詞向量的維度,同時(shí)為了使獲得的特征多元化,使用了200 個(gè)卷積核進(jìn)行特征信息的提取,每個(gè)句子的滑動(dòng)窗口為{x1:h,x2:h+1,…,xm-h+1:m},對(duì)文本矩陣的每個(gè)窗口xv:v+h-1進(jìn)行卷積操作,計(jì)算如式(1)所示:
ci為卷積后的運(yùn)算結(jié)果,Wh∈Rh*d為卷積核的權(quán)重,bh∈R為卷積核的偏置,v代表卷積核滑動(dòng)窗口的參數(shù),?為卷積計(jì)算,f(x)為激活函數(shù),本文采用可以更好學(xué)習(xí)和優(yōu)化的relu 函數(shù)作為激活函數(shù)。最后得到輸出結(jié)果sub-Layer(x)=[c1,c2,…cm-h+1],如圖2 所示。多層卷積將局部特征進(jìn)行組合從而獲得更為抽象的高層表示,因此本次研究使用3 層卷積網(wǎng)絡(luò)疊加合并全局上下文來表征長文本。
圖2 卷積操作示意圖
2)多頭注意力層
在中文實(shí)體識(shí)別中有時(shí)候鄰近上下文信息與實(shí)體關(guān)系比較弱,根據(jù)局部特征對(duì)實(shí)體進(jìn)行標(biāo)簽預(yù)測會(huì)出現(xiàn)同一實(shí)體標(biāo)簽上下文標(biāo)注不一致情況,因此模型需要提取更多長距離的上下文信息,整合句子的全局特征才能更準(zhǔn)確地對(duì)實(shí)體進(jìn)行標(biāo)注。自注意力機(jī)制可以顯式地學(xué)習(xí)句子中任意兩個(gè)字符間的依賴關(guān)系,有效解決遠(yuǎn)距離依賴特征間的距離問題。因此,在模型中采用了Vaswani 等提出的多頭注意力機(jī)制,將CNN 網(wǎng)絡(luò)提取到的特征作為輸入,并使用單獨(dú)的歸一化參數(shù)在同一輸入上多次應(yīng)用自注意機(jī)制,并將結(jié)果結(jié)合,從而使模型可以學(xué)習(xí)到不同表示子空間的相關(guān)信息。
多頭注意力機(jī)制的結(jié)構(gòu)如圖3 所示,圖的中心是縮放點(diǎn)積注意力,它是點(diǎn)積注意力的變體,與使用單層前饋神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的標(biāo)準(zhǔn)加法注意力機(jī)制相比,點(diǎn)積注意力利用矩陣產(chǎn)生,可以更快計(jì)算同一句子中任意兩個(gè)字符之間的相關(guān)程度。為了使訓(xùn)練過程中具有更穩(wěn)定的梯度,利用維度d起到調(diào)節(jié)作用??s放點(diǎn)積注意力的計(jì)算如式(2)所示:
圖3 多頭注意力示意圖
最后將4 次縮放點(diǎn)積注意力的結(jié)果進(jìn)行拼接,再進(jìn)行一次線性變換得到輸入文本中更豐富的句法和語義信息,使模型聚焦于對(duì)實(shí)體識(shí)別任務(wù)更為關(guān)鍵的信息。計(jì)算如式(4)所示:
2.2.2 深度結(jié)構(gòu)
本文將3 層CNN 網(wǎng)絡(luò)和多頭注意力層結(jié)合構(gòu)建了一種卷積注意力模塊CAB,通過堆疊多層實(shí)現(xiàn)深度結(jié)構(gòu),進(jìn)而構(gòu)建更強(qiáng)的特征學(xué)習(xí)器。由于多層迭代結(jié)構(gòu)會(huì)帶來梯度消失或爆炸問題,因此,通過引入殘差連接緩解梯度不穩(wěn)定帶來的網(wǎng)絡(luò)退化問題。隨著深度網(wǎng)絡(luò)的多層運(yùn)算之后,樣本特征分布松散,這樣會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度緩慢甚至難以學(xué)習(xí),因此在殘差網(wǎng)絡(luò)之后使用了歸一化處理,使網(wǎng)絡(luò)快速收斂,模型訓(xùn)更加容易和穩(wěn)定。
DeepCAN 層網(wǎng)絡(luò)的輸出結(jié)果是語句中每個(gè)字對(duì)應(yīng)各實(shí)體類別的分?jǐn)?shù),雖然可以選擇分?jǐn)?shù)最高的類別作為實(shí)體預(yù)測結(jié)果,但是該結(jié)果并沒有考慮實(shí)體標(biāo)簽之間的依賴關(guān)系,而CRF可以加入一些約束條件去考慮實(shí)體標(biāo)簽之間的上下文關(guān)系,來保證最終預(yù)測結(jié)果是最優(yōu)的。這些約束可以在訓(xùn)練數(shù)據(jù)時(shí)被CRF 層自動(dòng)學(xué)習(xí)得到,因此本文選擇CRF 來建模標(biāo)簽序列。
對(duì)于給定輸入句子X={x1,x2,x3…xm},其對(duì)應(yīng)的標(biāo)簽序列y={y1,y2,y3…ym},標(biāo)簽序列的分?jǐn)?shù)計(jì)算如式(5)所示:
其中Oi,yi表示句子中第i字符xi是標(biāo)簽yi的分?jǐn)?shù)。T是一個(gè)過渡分?jǐn)?shù)矩陣,它表示兩個(gè)連續(xù)標(biāo)簽的轉(zhuǎn)換分?jǐn)?shù)。
所有標(biāo)簽序列y的概率計(jì)算如式(6),其中y?表示任意標(biāo)簽序列,Yx是輸入X的所有可能輸出標(biāo)簽序列的集合。
對(duì)于給定集合{xi,yi},最大似然函數(shù)計(jì)算如式(7)所示:
在解碼中,使用Viterbi算法來預(yù)測獲得最高得分的標(biāo)記序列,將其作為最終的實(shí)體識(shí)別結(jié)果序列,計(jì)算如式(8)所示:
本次實(shí)驗(yàn)所選取的數(shù)據(jù)集為SIGHAN2006[19]的實(shí)體識(shí)別數(shù)據(jù)集,包含了人名、地名和機(jī)構(gòu)名三類實(shí)體。該數(shù)據(jù)集包括訓(xùn)練集,驗(yàn)證集,測試集。數(shù)據(jù)集規(guī)模如表1所示。
表1 數(shù)據(jù)集規(guī)模表(句子)
本次實(shí)驗(yàn)環(huán)境為Windows 操作系統(tǒng),Tensor?flow 版本為1.14.0,python 版本為3.7。實(shí)驗(yàn)參數(shù)設(shè)置如表2所示。
表2 模型參數(shù)設(shè)置
在這一小節(jié)中,主要對(duì)本次研究所做實(shí)驗(yàn)結(jié)果進(jìn)行分析。
3.3.1 驗(yàn)證模型的有效性。
為了驗(yàn)證本次所提模型的有效性,論文進(jìn)行了以下對(duì)比實(shí)驗(yàn):1)為了驗(yàn)證模型深度對(duì)實(shí)體識(shí)別效果的影響,選擇了模型深度為6 層、8 層和10 層分別進(jìn)行實(shí)驗(yàn);2)在最佳模型深度基礎(chǔ)上,使用BERT和Word2vec 兩種生成詞嵌入方法進(jìn)行實(shí)體識(shí)別;3)將論文提出的DeepCAN+CRF模型和主流的BiL?STM+CRF模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。
表3 對(duì)比實(shí)驗(yàn)結(jié)果
根據(jù)表3分析可以獲得:
1)實(shí)驗(yàn)1、2、3 結(jié)果表明,使用BERT 預(yù)訓(xùn)練模型獲得詞嵌入表示時(shí),模型在深度為8時(shí)F1值最高達(dá)到93.37%,隨后是深度為10 時(shí)F1 值為91.94%,深度為6 時(shí),F(xiàn)1 值最低為91.58%。表明適當(dāng)增加網(wǎng)絡(luò)深度有利于實(shí)體識(shí)別性能的提升,但隨著模型加深會(huì)引起網(wǎng)絡(luò)退化,學(xué)習(xí)能力下降問題。
2)實(shí)驗(yàn)2、4 表明,在模型相同情況下,使用BERT預(yù)訓(xùn)練語言模型生成詞嵌入的方法進(jìn)行實(shí)體識(shí)別的F1 值為93.37%,比使用Word2vec 獲得詞向量的方法進(jìn)行實(shí)體識(shí)別的F1 值89.80%提高了3.57%。表明BERT 預(yù)訓(xùn)練語言模型獲得嵌入有助于提升模型性能。
3)通過實(shí)驗(yàn)4、5 相比,在輸入同時(shí)使用Word2vec 做詞嵌入表示時(shí),DeepCAN+CRF 模型的F1 值比BiLSTM+CRF 模型的F1 值高0.67%。表明DeepCAN 既可以使模型學(xué)到局部連續(xù)特征又可以捕捉長距離文本關(guān)系,學(xué)習(xí)能力更強(qiáng)
3.3.2 模型訓(xùn)練過程
圖5 展示了DeepCAN+CRF 模型使用不同詞嵌入方式和在不同深度下隨著訓(xùn)練輪數(shù)F1 值的變化。其中BERT+DeepCAN+CRF 模型在深度為6 時(shí)訓(xùn)練30 個(gè)epoch 時(shí)F1 值達(dá)到最大為91.58%,深度為8 時(shí)在訓(xùn)練34 個(gè)epoch 時(shí)F1 值達(dá)到最大值為93.37%,深度為10 時(shí)在訓(xùn)練31 個(gè)epoch 時(shí)F1 值達(dá)到最大值為91.94%。利用Word2vec 做詞嵌入時(shí),模型深度為8 時(shí)DeepCAN+CRF 在訓(xùn)練25 個(gè)epoch時(shí)F1值取得最大為89.80%。
圖4 不同模型訓(xùn)練過程
3.3.3 不同模型訓(xùn)練時(shí)間對(duì)比
為了驗(yàn)證本文特征提取器的并行能力,對(duì)模型訓(xùn)練所需時(shí)間進(jìn)行了比較,結(jié)果如圖5所示。
圖5 訓(xùn)練時(shí)間對(duì)比圖
根據(jù)圖5 可知,使用BERT 預(yù)訓(xùn)練語言模型訓(xùn)練深度為6 層的DeepCAN+CRF 模型45 個(gè)epoch 所需時(shí)間為398min,深度為8 層時(shí)所需時(shí)間為400min,深度為10 層時(shí)所需時(shí)間為401min;使用Word2vec獲得詞嵌入表示時(shí),BiLSTM+CRF 模型訓(xùn)練45 個(gè)epoch 所需時(shí)間為81min,深度為8 層的DeepCAN+CRF 模型訓(xùn)練45 個(gè)epoch 所需時(shí)間為52min。
由此可以看出CNN 模型相比于BiLSTM 模型具有良好的并行計(jì)算能力,訓(xùn)練速度更快;同時(shí)由于BERT 模型參數(shù)量大,導(dǎo)致使用BERT 模型比Word2Vec所需訓(xùn)練時(shí)間大幅度增加。
為了驗(yàn)證所提出BERT+DeepCAN+CRF 的性能,與現(xiàn)存的下列方法方法進(jìn)行了比較。
1)Luo and Yang[20]首先訓(xùn)練一個(gè)分詞模型,然后將分詞作為額外的特征進(jìn)行實(shí)體標(biāo)記,在SIGHAN2006數(shù)據(jù)集上達(dá)到了89.21%的F1值;
2)Cao and Chen[21]提出了基于自注意力機(jī)制的命名實(shí)體識(shí)別對(duì)抗性遷移學(xué)習(xí)網(wǎng)絡(luò),將實(shí)體識(shí)別與分詞兩個(gè)任務(wù)同時(shí)進(jìn)行訓(xùn)練,將詞語級(jí)特征引入實(shí)體識(shí)別任務(wù)。在SIGHAN2006 數(shù)據(jù)集上達(dá)到了90.64%的F1值。
3)Yin et al[22]提出一種融合字詞的BiLSTM 模型,分別用BiLSTM-CRF訓(xùn)練基于字和詞的實(shí)體識(shí)別模型,最后將兩個(gè)模型進(jìn)行融合,在SIGHAN 2006數(shù)據(jù)集上達(dá)到90.45%的F1值。
對(duì)比結(jié)果如表4 所示,根據(jù)表4 給出的實(shí)驗(yàn)結(jié)果可以觀察到,本文提出的方法沒有引入額外的特征,將F1 值從90.64%提高到93.37%,驗(yàn)證了模型的有效性,尤其是BERT 預(yù)訓(xùn)練語言模型的引入,對(duì)性能的提升有重要的作用,在未來研究中整合或微調(diào)預(yù)先訓(xùn)練的語言模型嵌入將成為神經(jīng)網(wǎng)絡(luò)的新范式。
表4 與現(xiàn)有方法對(duì)比結(jié)果
本文提出了一種基于BERT 模型和深度卷積注意力網(wǎng)絡(luò)進(jìn)行中文命名實(shí)體識(shí)別的方法。實(shí)驗(yàn)表明該方法比現(xiàn)存方法可以實(shí)現(xiàn)更好的結(jié)果,主要原因有以下點(diǎn):1)BERT 預(yù)訓(xùn)練語言模型比主流的Word2vec 方法具有更好的學(xué)習(xí)能力,可以提取高層的抽象信息,提高了模型表征詞語的能力;2)深度卷積注意力網(wǎng)絡(luò)DeepCAN 可以提取豐富的長序列文本特征,而且其有良好的并行計(jì)算能力,兼顧時(shí)間和精確度,表現(xiàn)出更好的性能。