貴向泉,郭 亮,李 立
(蘭州理工大學 計算機與通信學院,甘肅 蘭州 730050)
命名實體識別是自然語言處理(Natural Language Processing,NLP)中的熱點研究方向之一,它的實質就是從一段自然語言中找出相關的實體,并標注出實體的位置及其類型。在有色冶金產(chǎn)業(yè)的相關文本中存在許多有色冶金行業(yè)內部的專有名詞,如公司名稱、產(chǎn)品名稱和產(chǎn)業(yè)信息等。在對這些文本進行分析時,這些行業(yè)內部的命名實體就會成為重要的信息來源,它們也是構建有色冶金產(chǎn)業(yè)企業(yè)畫像和建立產(chǎn)業(yè)知識圖譜的重要依據(jù)。有色冶金是中國工業(yè)生產(chǎn)中的重要支柱產(chǎn)業(yè),但是截至目前,很少有研究人員和學者針對有色冶金領域命名實體識別進行研究,也沒有相關數(shù)據(jù)集支持。
為了推進有色冶金產(chǎn)業(yè)的發(fā)展,更好地分析企業(yè)和有色冶金產(chǎn)業(yè)的運行情況,該文首先針對建立產(chǎn)業(yè)企業(yè)畫像和產(chǎn)業(yè)知識圖譜的命名實體需求,構建了有色冶金領域命名實體識別數(shù)據(jù)集,然后結合機器閱讀理解框架(Machine Reading Comprehension,MRC)[1]和知識增強的語義表示模型(Enhanced Representation Through Knowledge Integration,ERNIE)[2]對命名實體識別的流程進行了改進。最終建立了MEAB (MRC-ERNIE-Attention-BiLSTM)命名實體識別模型結構,并在構建的有色冶金領域命名實體識別數(shù)據(jù)集和公共數(shù)據(jù)集上進行了命名實體識別的實驗。實驗證明,該模型可以更好地為后續(xù)構建有色冶金產(chǎn)業(yè)企業(yè)畫像和產(chǎn)業(yè)知識圖譜提供實體。
命名實體識別的發(fā)展按時間主要分為三個階段,分別為基于詞典和規(guī)則的方法,基于機器學習的方法和基于深度學習的方法。
基于詞典和規(guī)則的方法是指利用專家判斷的方式手工制定出命名實體識別的規(guī)則和模板,并利用這些規(guī)則將需要識別的命名實體進行匹配和識別。雖然基于詞典和規(guī)則的方法對特定范圍內的命名實體的識別效果比較好,但是其中使用的規(guī)則也具有泛化程度低的特點。特別對大規(guī)模語料進行命名實體識別時,基于詞典和規(guī)則方法的效率相比其他方法要低很多。
隨著大規(guī)模語料的出現(xiàn),基于機器學習方法的命名實體識別得到了廣泛應用,也可以進一步將其分為有監(jiān)督機器學習和無監(jiān)督機器學習兩類。在無監(jiān)督的機器學習中主要使用聚類的方法進行命名實體識別[3],例如Xu等人[4]提出了一種共享最近鄰的聚類方法,并將其應用在生物醫(yī)學名稱的識別和提取中。在有監(jiān)督的機器學習中,命名實體識別則被看作是一種序列標注的問題[5],例如Yu等人[6]提出了一種基于級聯(lián)馬爾可夫模型的中文命名體識別方法,通過雙重的模型識別來提高識別精度。雖然基于機器學習的方法避免了繁瑣的人工工作,但是復雜的特征工程是不可避免的。
基于深度學習的方法解決了機器學習中需要復雜特征工程的問題,同時基于深度學習的命名實體識別采用了端到端的訓練方式,可以構建更為復雜的網(wǎng)絡。例如Kong等人[7]建立了多級卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)并結合了注意力機制來捕獲短期和長期的上下文信息,提高了中文臨床醫(yī)學命名實體識別的準確率。毛存禮等人[8]提出了一種基于深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)架構的有色金屬領域實體識別方法,該方法可以有效獲取有色金屬領域實體中字符間的緊密結合特征。同時,循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)和圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Network,GCN)也是進行命名實體識別的主流方法。Liu等人[9]提出了一種詞字符的長短時神經(jīng)網(wǎng)絡(Long Short-Term Memory,LSTM)模型,他們將詞信息添加到詞的開始或結束字符中,在獲得詞邊界信息的同時減輕分詞錯誤帶來的影響。Tang等人[10]使用交叉GCN塊同時處理兩個方向的詞字符,并在其中引入了全局注意力機制改進了長距離的依賴捕獲。近年來,基于編碼器-解釋器模型(Transformer)[11]被大量應用于命名實體識別當中,其中最具代表性的就是基于編碼器-解碼器的雙向編碼表示法(Bidirectional Encoder Representations From Transformers,BERT)[12]模型。Usman等人[13]使用ALBERT(Lite BERT)[14]模型在大規(guī)模生物醫(yī)學語料上訓練,更好地學習了上下文相關的表示,提高了訓練的效率。
雖然進行命名實體識別的方法有很多,并且國內外學者都對其做了大量的研究,但是這些方法都不適用于有色冶金領域命名實體識別的研究,原因有以下幾點。
(1)由于研究領域的獨特性,已有的研究很少涉及到有色冶金產(chǎn)業(yè),也沒有相關數(shù)據(jù)集對其支持。
(2)在有色冶金領域命名實體當中存在很多嵌套的命名實體,進一步增加了實體識別的難度。
(3)已有的命名實體識別模型無法充分提取有色冶金領域文本中的語義特征和信息。
(4)已有的命名實體識別模型無法充分利用有色冶金領域文本當中標簽的先驗知識,影響了命名實體識別的準確率。
為了解決上述問題,該文構建了有色冶金領域命名實體識別數(shù)據(jù)集,并提出了MEAB命名實體識別模型。首先,在該模型中引入了MRC框架,將傳統(tǒng)命名實體識別模型中的序列標注與問答任務相結合,提高模型對普通實體和嵌套命名實體的識別準確率;然后,在該模型中使用ERNIE預訓練模型將序列標注后的標注數(shù)據(jù)集和引入自然語言問題的問答數(shù)據(jù)集轉化為詞向量,使模型能夠充分提取出文本當中的語義特征和信息;接著,引入注意力機制作為模型的信息融合層,將通過ERNIE處理的兩類文本特征向量進行融合,使模型能夠充分利用標簽當中的先驗知識,并通過BiLSTM模型進一步提取語義特征和信息;最后,通過多層嵌套實體識別器輸出在嵌套命名實體中的所有實體。相比其他模型該模型可以更好地提取和利用文本當中的特征和先驗知識,提高了對嵌套命名實體的識別準確率,并能輸出嵌套命名實體當中的所有實體。
針對有色冶金產(chǎn)業(yè)的特點,經(jīng)研究發(fā)現(xiàn)其主要的數(shù)據(jù)來源以新聞報道、企業(yè)年報、專利信息和期刊論文為主。對于新聞報道數(shù)據(jù),該文采用了網(wǎng)絡爬蟲技術從今日頭條等新聞媒體平臺進行了收集,但是新聞報道數(shù)據(jù)整體的文本結構比較松散,所以在收集時需要對文本進行去噪處理。對于企業(yè)年報數(shù)據(jù)和專利信息,因為這類數(shù)據(jù)整體的文本結構比較緊密,所以直接使用即可。對于期刊論文類的數(shù)據(jù),鑒于其摘要已經(jīng)對論文整體進行了總結,所以直接選用摘要作為數(shù)據(jù)集。最終收集到了20 000多條有色冶金領域的文本,總共有300多萬字。
針對構建產(chǎn)業(yè)企業(yè)畫像和產(chǎn)業(yè)知識圖譜的命名實體需求,定義的產(chǎn)業(yè)實體類別一共有六種:人名,企業(yè)名稱,組織名稱,產(chǎn)品名稱,項目名稱,技術名稱。各個實體類別的標注符號以及實例如表1所示。
表1 實體標注符號及其實例
由于有色冶金領域命名實體識別研究的獨特性和復雜性,在構建的有色冶金領域數(shù)據(jù)集中存在大量的嵌套命名實體,大大增加了實體識別的難度。例如在某新聞報道中出現(xiàn)的命名實體“金川集團鎳鈷資源產(chǎn)品開發(fā)創(chuàng)新聯(lián)合體”中就包含了多層實體,其最外層的為ORG實體:“金川集團鎳鈷資源產(chǎn)品開發(fā)創(chuàng)新聯(lián)合體”,其內部也包含COM實體:“金川集團”,PRO實體:“鎳”“鈷”,ORG實體:“開發(fā)創(chuàng)新聯(lián)合體”。同時在PRO類別的實體中,很多實體都包含了大小寫字母和特殊的字符,如 “Ni999(0#鎳)”,其內部就包含了字母、數(shù)字和特殊字符,在其中也存在另一種PRO實體:“鎳”。
傳統(tǒng)的命名實體識別方法只能準確識別非嵌套的命名實體,對于嵌套的命名實體識別準確率不高,并且無法完全提取出這些嵌套命名實體中的內部實體,由此可能會導致沒有獲取到足夠的實體去構建有色冶金產(chǎn)業(yè)的企業(yè)畫像和產(chǎn)業(yè)知識圖譜。因此,該文設計了多層嵌套實體識別器來滿足識別多層嵌套實體的需求。
在進行命名實體識別時,首先需要對文本當中的每個實體進行標注。為了提高實體標注的效率,該文使用了Label Studio軟件工具對有色冶金領域數(shù)據(jù)集進行實體標注。在標注方法的選擇上,采用了BIO序列標注方法對有色冶金領域數(shù)據(jù)集進行標注。
為了將MRC框架引入有色冶金領域命名實體識別任務當中,還需要將數(shù)據(jù)集轉換為問答數(shù)據(jù)集。若給定的文本為X={x1,x2,…,xn},其中xi為文本當中的每一個字符,n為給定文本長度,而對于在文本當中的每一個命名實體就可以表示為Xstart,end={Xstart,…,Xend}。在構建問答數(shù)據(jù)集時,需要為每一個實體標簽分配一個自然語言形式的問題qy=q1,q2,…,qm,其中m是問題qy的長度。則每一個在文本當中的實體就可以表示成三元組(qy,Xstart,end,X),這也是每一個實體在問答數(shù)據(jù)集當中的表現(xiàn)形式。
基于此,對于每一個實體它的自然語言形式的問題就非常重要,因為問題中會包含著當前實體標簽的先驗知識,這對最終模型的效果有顯著影響。經(jīng)過分析和比較,最終選擇以引導說明的方式構建實體的自然語言形式的問題,每種實體及其對應的自然語言問題如表2所示。
表2 實體類型及其對應的自然語言問題
MRC任務就是先讓計算機識別給定文本當中的語義信息,然后對應的給一個問題,讓計算機根據(jù)識別到的語義信息去回答問題,且問題的答案必須是能夠在給定文本當中找到的一段話或者是幾個詞。MRC任務可以分為四個子任務,即填空型閱讀理解任務、選擇型閱讀理解任務、片段抽取型閱讀理解任務以及自由回答型閱讀理解任務,隨著NLP技術的不斷進步,四種MRC任務都有著快速的發(fā)展[15]。在命名實體識別任務中借助MRC框架,可以更加快速有效地識別出嵌套的命名實體,同時,在一定程度上也可以提高非嵌套命名實體的識別準確率[16]。
隨著深度學習的不斷發(fā)展,BERT等自然語言預處理模型可以很好地捕捉原始文本當中的語義模式,并可以根據(jù)不同的NLP任務進行微調。但是現(xiàn)有的預訓練模型很少有結合到知識圖譜,而知識圖譜可以提供豐富的結構化知識,并可以更好地進行語義的理解,因為知識圖譜當中有很多富含信息的實體和外部知識可以增強文本的語義特征。而ERNIE就是利用知識圖譜和大規(guī)模中文語料訓練得到的語言表征模型,它可以充分利用語法、語義還有知識的優(yōu)勢。相關實驗表明,ERNIE相比BERT等預訓練模型在實體識別、問答系統(tǒng)、語言推理和文本分類當中可以達到較好的效果[2]。
ERNIE和BERT都是基于Transformer中Encoder層的大規(guī)模預訓練語言模型。相比于BERT,ERNIE改進了BERT在MLM(Masked LM)預訓練任務中的掩蓋策略,提出了一種多階段的掩蓋策略代替了在BERT中知識的直接嵌入,將短語和知識實體集成到了文本的語言特征當中,ERNIE的多階段掩蓋策略如圖1所示。
圖1 ERNIE的多階段掩蓋策略
首先第一個階段是基礎掩蓋,中文的基本語言單元是漢字,在進行訓練時隨機掩蓋15%的基本語言單元,其他的基本語言單元作為輸入來預測被掩蓋的基本語言單元,但是由于這種方式只是在基本語義單元的掩蓋策略上訓練的,所以模型很難提取到文本的深層語義特征。第二個階段是短語掩蓋,在進行訓練時隨機掩蓋文本中的幾個短語,這其中包括短語里面的所有基本語言單元,然后對被掩蓋的基本語言單元進行預測。第三個階段是實體掩蓋,在進行訓練時對所有命名實體進行掩蓋和預測。經(jīng)過這三個階段,ERNIE可以學習到文本中知識的依賴以及更長的語義依賴來讓模型更具泛化性。
單純的在命名實體識別任務中使用MRC模塊,雖然會比傳統(tǒng)的命名實體識別方法有一定的提升,但是將MRC模塊簡單地加入命名實體識別模型,即將問答數(shù)據(jù)集作為模型單一的輸入之后,模型并沒有充分利用到標簽的知識信息。為了讓模型充分抽取到原始文本的特征,并讓模型能夠利用標簽所包含的先驗知識,該文將模型的輸入分為兩部分,一部分是BIO標注之后的標注數(shù)據(jù)集,另一部分是將實體轉換為三元組(qy,Xstart,end,X)的問答數(shù)據(jù)集。將兩部分同時輸入進ERNIE預訓練模型,進而可以得到兩種具有不同語言特征的詞向量,再將兩種詞向量進行信息融合,就可以讓模型同時學習到原始文本的信息和標簽本身所具有的先驗知識。
該文在信息融合時采用了一種語義指導的Attention機制,其過程如下:
(1)在進行語義融合前準備兩種具有不同語言特征且共享權重的詞向量hx和hy,其中hx∈Rn×d,hy∈R|c|×m×d,n為一條標注數(shù)據(jù)集的長度,|c|和m分別表示一條問答數(shù)據(jù)集中實體類別的數(shù)量和長度。
(1)
(2)
(3)
(4)
最后,對每一條標注數(shù)據(jù)集和問答數(shù)據(jù)集都進行上述流程,就可以得到經(jīng)過信息融合之后的詞向量表示。
RNN是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡,相比于一般的神經(jīng)網(wǎng)絡來說能夠很好地處理序列變化的數(shù)據(jù)。但是普通的RNN會存在梯度消失和梯度爆炸的問題,LSTM針對以上問題對RNN進行了改進,它可以在學習過程中對有價值的信息進行記憶,放棄冗余的記憶,所以相比于普通的RNN,LSTM在更長的序列中有更好的表現(xiàn)。但是在識別文本的語義特征時,單一的LSTM模型無法提取從后向前的語義信息,而BiLSTM則是由向前的LSTM與向后的LSTM組合而成,所以BiLSTM可以更好地捕獲文本的雙向語義。
LSTM的結構如圖2所示。在圖2中,向量ct-1經(jīng)過LSTM模型然后以ct作為輸出,在整個向量的傳輸過程中只是經(jīng)過了簡單的線性操作,這樣可以實現(xiàn)長期的記憶保留。對于信息的更新和輸出,LSTM則是通過遺忘門、輸入門和輸出門實現(xiàn)。
圖2 LSTM模型結構
LSTM的計算公式如下所示:
ft=σ(Wf·[ht-1,xt]+bf)
(5)
it=σ(Wi·[ht-1,xt]+bi)
(6)
(7)
(8)
ot=σ(Wo·[ht-1,xt]+bo)
(9)
ht=ot·tanh(ct)
(10)
MRC框架抽取答案的方法是識別答案的開始位置和結束位置,即設置兩個預測器,兩個預測器分別預測答案的開始位置和結束位置,但是這方法只能得到一個答案,無法處理句子中有多層實體的問題。
為了讓模型識別出嵌套命名實體當中的多層實體,該文在MRC抽取方法的基礎上進行了改進,其過程如下:
(1)先讓兩個預測器預測嵌套實體的位置,得到預測之后實體的起始位置Ostart和結束位置Oend。
(2)為了保證實體為最外層的實體,將原來實體的位置范圍進行一定程度的擴大,得到新的起始位置Nstart和結束位置Nend。
Nstart=dstart·Ostart
(11)
Nend=dend·Oend
(12)
(4)通過公式(13)預測每一對開始位置和結束位置匹配的概率Pi。
(13)
針對研究領域的獨特性和現(xiàn)有方法在命名實體識別任務中的不足,該文構建了MEAB模型進行有色冶金領域文本命名實體的識別,模型的結構如圖3所示。該模型主要有文本輸入層、特征轉換層、信息融合層、特征提取層和定位輸出層五大模塊。在文本輸入層中,標注數(shù)據(jù)集和問答數(shù)據(jù)集會被輸入進ERNIE預訓練模型中,在特征轉換層ERNIE預訓練模型會將兩種數(shù)據(jù)集轉換為詞向量,在信息融合層會將這兩種詞向量進行融合,使融合的詞向量同時具有原始文本的語義信息和標簽本身所具有的先驗知識,并提交給特征提取層。在特征提取層會從前后兩個方向對長距離的文本特征和潛在語義信息進行充分提取,最后在定位輸出層輸出嵌套命名實體當中的所有實體。
圖3 MEAB模型結構
在選取評價指標時,該文選取了精確率(P)、召回率(R)和F1值來評價模型的命名實體識別的效果,評價指標的計算公式如下:
(14)
(15)
(16)
實驗基于Tensorflow1.12.0搭建了模型,為了驗證模型識別有色冶金領域命名實體的性能,對構建的有色冶金領域文本數(shù)據(jù)集進行了實驗。同時為了證明該模型在命名實體識別任務中的泛化性,還選取了MSRA公共數(shù)據(jù)集進行了實驗。MSRA數(shù)據(jù)集是微軟亞洲研究院提供的命名實體識別數(shù)據(jù)集,在數(shù)據(jù)集中包含了人名、地名和組織機構名三種實體類型。在實驗過程中,兩種數(shù)據(jù)集均按照3∶1∶1劃分為訓練集、驗證集和測試集,在每種數(shù)據(jù)集的基礎上又將該數(shù)據(jù)集分為標注數(shù)據(jù)集和問答數(shù)據(jù)集兩種輸入類型,兩種數(shù)據(jù)集的相關數(shù)據(jù)統(tǒng)計如表3所示。
表3 數(shù)據(jù)集數(shù)據(jù)統(tǒng)計
為了驗證構建的MEAB模型在命名實體識別任務當中的效果,并證明MEAB模型中所采用的各個模塊對命名實體的識別是有提升的,選取了如下基線模型進行對比。
(1)BERT:該模型僅使用BERT進行命名實體的識別,輸入數(shù)據(jù)為標注數(shù)據(jù)集。
(2)ERNIE:該模型僅使用ERNIE進行命名實體的識別,輸入數(shù)據(jù)為標注數(shù)據(jù)集。
(3)BiLSTM-CRF:該模型是NLP命名實體識別任務當中的經(jīng)典模型,輸入數(shù)據(jù)為標注數(shù)據(jù)集。
(4)ERNIE-CRF:該模型利用ERNIE先將標注數(shù)據(jù)集進行編碼,再通過CRF進行解碼輸出。
(5)ERNIE-BiLSTM-CRF[17]:該模型利用ERNIE先將標注數(shù)據(jù)集進行編碼,再通過BiLSTM模型進行特征提取,最后通過CRF進行解碼輸出。
(6)MRC-BERT[18]:該模型在BERT的基礎上加入了MRC框架,輸入數(shù)據(jù)為問答數(shù)據(jù)集。
(7) MRC-ERNIE:該模型在ERNIE的基礎上加入了MRC框架,輸入數(shù)據(jù)為問答數(shù)據(jù)集。
(8)MRC-ERNIE-BiLST:該模型在MRC-ERNIE的基礎上加入了BiLSTM模型進行特征提取,輸入數(shù)據(jù)為問答數(shù)據(jù)集。
(9)MRC-ERNIE-BiLSTM-C:該模型在MRC-ERNIE-BiLSTM基礎上加入了MEAB模型中的多層嵌套實體識別器,以驗證該識別器的效果。但是相比MEAB模型,該模型沒有信息融合層,即該模型的輸入數(shù)據(jù)也僅為問答數(shù)據(jù)集。
該文構建的MEAB模型以及基線模型在有色冶金領域文本數(shù)據(jù)集中的實驗結果如表4所示。實驗結果可以表明,相比其他基線模型,構建的MEAB模型在有色冶金領域命名實體識別任務當中效果最優(yōu),它的精確率、召回率和F1值分別達到了78.77%、79.76%和79.26%。
表4 有色冶金領域數(shù)據(jù)集實驗結果 %
在實驗結果中,ERNIE相比BERT在精確率、召回率和F1值上分別高了4.35、5.25和4.80百分點,且在加入了MRC框架之后,MRC-ERNIE 仍比MRC-BERT分別高了3.87、4.73和3.30百分點,可以證明ERNIE相比BERT在有色冶金領域命名實體識別任務當中更占優(yōu)勢。
在MRC-ERNIE和ERNIE、MRC-BERT和BERT的比較中可以發(fā)現(xiàn),在有色冶金領域命名實體識別任務當中加入MRC框架之后表現(xiàn)更優(yōu),在精確率、召回率和F1值上分別比原生的ERNIE和BERT高出了8.02、7.78、6.75和8.50、8.30、8.40百分點。
相比MRC-ERNIE,MRC-ERNIE-BiLSTM在精確率、召回率和F1值上分別高了1.85、1.11和2.48百分點,可以證明引入BiLSTM模型作為特征提取層可以更好地提取到文本當中的語義特征。
為了進一步驗證該文構建的MEAB模型在有色冶金領域嵌套命名實體識別上是有效的,選取了數(shù)據(jù)集中嵌套命名實體占比最高的PRO類實體進行實驗,實驗結果如表5所示。加入了定位輸出層之后,在PRO類型實體中MRC-ERNIE-BiLSTM-C相比MRC-ERNIE-BiLSTM在精確率、召回率和F1值上分別高了7.83、7.69和7.76百分點??梢宰C明提出的多層嵌套實體識別器在有色冶金領域的嵌套命名實體識別任務當中是有效的。
表5 有色冶金領域數(shù)據(jù)集中PRO類型實體實驗結果 %
構建的MEAB模型在MRC-ERNIE-BiLSTM-C的基礎上加入了信息融合層之后,相比MRC-ERNIE-BiLSTM-C在PRO類型實體的識別上分別高了1.71、0.75和1.24百分點,可以證明該文引入的信息融合策略在有色冶金領域的嵌套命名實體識別中是有效的。在有色冶金領域文本數(shù)據(jù)集中全類別實驗的相似實驗結果,也可以證明多層嵌套實體識別器和信息融合策略是有效的。
分析實驗結果可以發(fā)現(xiàn),由于有色冶金領域數(shù)據(jù)集的實體類別較多且個別類別的實體較為復雜,導致BiLSTM-CRF這種經(jīng)典的命名實體識別模型性能較差,而且BiLSTM-CRF只能有效識別非嵌套的命名實體,無法識別多層嵌套的命名實體。對于只是簡單使用了BERT、ERNIE預訓練模型的方法,雖然比BiLSTM-CRF模型在性能上有一定的提升,但是這種提升只是在文本語義信息的提取方面,對于多層嵌套的命名實體的識別效率提升不大。該文提出的MEAB模型在ERNIE和BiLSTM充分提取文本語義信息的基礎上,引入了MRC框架和基于Attention的信息融合機制,加強了模型對嵌套命名實體識別的整體性能,同時針對數(shù)據(jù)集中多層嵌套實體的特點,設計了一種多層嵌套實體識別器,對多層嵌套實體進行比較并提取。因此,該文提出的MEAB模型在識別有色冶金命名實體時具有更好的性能,優(yōu)于其他基線模型。
構建的MEAB模型以及基線模型在MSRA數(shù)據(jù)集中的實驗結果如表6所示。實驗結果可以表明,相比其他基線模型,構建的MEAB模型在MSRA數(shù)據(jù)集中的命名實體識別效果最優(yōu),它的精確率、召回率和F1值分別達到了97.70%、97.90%和97.80%。可以證明,提出的MEAB模型在命名實體識別任務當中具有一定的泛化性。
表6 MSRA數(shù)據(jù)集實驗結果 %
該文選擇參數(shù)量和浮點運算次數(shù)(FLOPs)來評價MEAB模型的計算復雜度,并與經(jīng)典模型進行對比。如表7所示,由于構建的MEAB模型使用了ERNIE預訓練模型和BiLSTM模型,所以在參數(shù)量方面比BERT稍大,同時在模型的浮點運算次數(shù)上MEAB模型也比BERT稍大。綜合兩種模型在有色冶金領域文本數(shù)據(jù)集上的實驗結果,可以說明MEAB模型可以在沒有顯著增加計算復雜度的情況下,能夠大幅提高對有色冶金領域命名實體的識別精度。
表7 計算復雜度對比
有色冶金領域命名實體識別是構建有色冶金產(chǎn)業(yè)企業(yè)畫像和建立產(chǎn)業(yè)知識圖譜的重要信息來源和依據(jù)。鑒于當前有色冶金領域命名實體數(shù)據(jù)集缺失的問題,首先,構建了有色冶金產(chǎn)業(yè)領域命名實體識別的數(shù)據(jù)集,并在此基礎上構建了標注數(shù)據(jù)集和問答數(shù)據(jù)集。然后,在MRC框架、ERNIE預訓練模型和BiLSTM模型的基礎上,引入了信息融合策略和多層嵌套實體識別器,構建了MEAB命名實體識別模型。相比已有的命名實體識別模型,該模型可以充分提取出文本原有的語義特征,并更好地利用標簽當中的先驗知識,提高了對命名實體包括嵌套命名實體的識別準確率。在構建的有色冶金領域命名實體識別數(shù)據(jù)集上的實驗表明,MEAB模型可以有效識別數(shù)據(jù)集中的嵌套命名實體和非嵌套命名實體,精確率、召回率和F1值分別達到了78.77%、79.76%和79.26%。在后續(xù)的研究中,可以進一步完善并擴大有色冶金領域的語料庫,并在有色冶金領域命名實體識別的基礎上構建有色冶金產(chǎn)業(yè)的企業(yè)畫像,建立產(chǎn)業(yè)的知識圖譜。