韓玉民,郝曉燕
基于子詞嵌入和相對注意力的材料實體識別
韓玉民,郝曉燕*
(太原理工大學 信息與計算機學院,太原 030600)(*通信作者電子郵箱haoxiaoyan@tyut.edu.cn)
準確識別命名實體有助于構(gòu)建專業(yè)知識圖譜、問答系統(tǒng)等?;谏疃葘W習的命名實體識別(NER)技術(shù)已廣泛應用于多種專業(yè)領(lǐng)域,然而面向材料領(lǐng)域的NER研究相對較少。針對材料領(lǐng)域NER中可用于監(jiān)督學習的數(shù)據(jù)集規(guī)模小、實體詞復雜度高等問題,使用大規(guī)模非結(jié)構(gòu)化的材料領(lǐng)域文獻數(shù)據(jù)來訓練基于一元語言模型(ULM)的子詞嵌入分詞模型,并充分利用單詞結(jié)構(gòu)蘊含的信息來增強模型魯棒性;提出以BiLSTM-CRF模型(雙向長短時記憶網(wǎng)絡與條件隨機場結(jié)合的模型)為基礎(chǔ)并結(jié)合能夠感知方向和距離的相對多頭注意力機制(RMHA)的實體識別模型,以提高對關(guān)鍵詞的敏感程度。得到的BiLSTM-RMHA-CRF模型結(jié)合ULM子詞嵌入方法,相比BiLSTM-CNNs-CRF和SciBERT等模型,在固體氧化物燃料電池(SOFC)NER數(shù)據(jù)集上的宏平均F1值(Macro F1值)提高了2~4個百分點,在SOFC細粒度實體識別數(shù)據(jù)集上的Macro F1值提高了3~8個百分點。實驗結(jié)果表明,基于子詞嵌入和相對注意力的識別模型能夠有效提高材料領(lǐng)域?qū)嶓w的識別準確率。
命名實體識別;子詞嵌入;相對注意力;深度學習;材料領(lǐng)域
命名實體識別(Named Entity Recognition, NER)的目標是在非結(jié)構(gòu)化的文本中按照預先定義的類別信息,提取并分類出具有特定意義的命名實體信息,如人名、機構(gòu)、地點等。NER技術(shù)可以用于如知識圖譜構(gòu)建、問答系統(tǒng)、機器翻譯等自然語言處理(Natural Language Processing , NLP)任務。專業(yè)領(lǐng)域的NER對于機器閱讀理解專業(yè)領(lǐng)域文獻和構(gòu)建專業(yè)知識圖譜具有重要作用,精準地進行專業(yè)領(lǐng)域的命名實體識別有助于減少科研工作量,提高查閱效率,并能夠輔助提高專業(yè)領(lǐng)域機器翻譯、自動問答等上游NLP系統(tǒng)的水平。
近幾年對于命名實體識別的研究大多基于深度學習,目前適用于命名實體識別的常用深度學習模型與方法有條件隨機場(Conditional Random Field, CRF)[1]、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)[2]、長短期記憶(Long-Short Term Memory, LSTM)神經(jīng)網(wǎng)絡[3]、門控循環(huán)單元(Gate Recurrent Unit, GRU)[4]以及自注意力機制[5]等。Ma等[6]結(jié)合雙向長短期記憶(Bi-directional Long-Short Term Memory, BiLSTM)神經(jīng)網(wǎng)絡、CNN與CRF提出了端到端的序列標注模型BiLSTM-CNNs-CRF,在CoNLL-2003數(shù)據(jù)集上取得了91.21%的F1值;Chiu等[7]提出使用BiLSTM和CNN編碼層進行命名實體識別,在CoNLL-2003和OntoNotes數(shù)據(jù)集上的F1值分別達到了91.62%和86.28%;Liu等[8]提出使用LM-LSTM-CRF(Language Model+LSTM+CRF)模型將CoNLL-2003數(shù)據(jù)集的F1值提高到了91.71%;Dhrisya等[9]使用雙向GRU結(jié)合自注意力機制在OntoNotes細粒度實體識別任務上也取得了較好的結(jié)果。
通用領(lǐng)域命名實體識別的準確率已達到較高水準,目前命名實體識別方向的研究大多基于專業(yè)領(lǐng)域。楊維等[10]提出基于CRF的命名實體識別算法,在電力服務數(shù)據(jù)集上具有較高準確率;李博等[11]采用Transformer-CRF、張華麗等[12]采用BiLSTM-CRF模型對中文電子病歷進行實體識別,能夠準確識別癥狀、治療等五類實體;張心怡等[13]提出了聯(lián)合深度注意力網(wǎng)絡,在煤礦領(lǐng)域命名實體識別精準度和識別效率都有較大的提升;許力等[14]結(jié)合CNN、BiLSTM、圖卷積神經(jīng)網(wǎng)絡(Graph Convolution Neural Network, GCNN),并融合詞向量和依存句法分析特征進行生物醫(yī)學實體識別,在多個數(shù)據(jù)集上表現(xiàn)出色。
材料領(lǐng)域的自然語言處理研究相對貧乏,其中與本文研究相關(guān)的有:Mysore等[15-16]提出了自動提取材料科學文獻結(jié)構(gòu)化信息的系統(tǒng),并且發(fā)布了大規(guī)模材料領(lǐng)域語料庫; Mrdjenovich等[17]構(gòu)建了材料科學領(lǐng)域的知識圖譜propnet;Friedrich等[18]發(fā)布了固體氧化物燃料電池(Solid Oxide Fuel Cell, SOFC)命名實體識別數(shù)據(jù)集,并使用SciBERT(Scientific BERT)模型取得了81.5%的Macro F1值(宏平均F1值)。
識別未登錄詞(Out-Of-Vocabulary, OOV)是命名實體識別任務的關(guān)鍵,字符嵌入一般用于解決傳統(tǒng)詞嵌入,如word2vec,存在的OOV問題,同時還能反映出單詞字符序列蘊含的形態(tài)學信息。Gajendran等[19]將詞表示和字符表示作為輸入,使用三重BiLSTM-DRNN模型進行命名實體識別。Cho等[20]同時使用BiLSTM和CNN對單詞字符進行編碼,得到字符嵌入并與詞嵌入向量結(jié)合作為模型輸入,在生物醫(yī)學命名實體識別中達到了較高水平。字符嵌入能夠有效提高命名實體識別模型的識別準度,但缺點也較為明顯:1)需要額外的字符級編碼層;2)使用CNN作為編碼層時對相鄰字符的感受野相對固定,而使用BiLSTM編碼層又不能充分挖掘單詞詞綴之間的關(guān)聯(lián)信息。因此,本文考慮采用子詞嵌入代替字符嵌入,同時使用大規(guī)模材料領(lǐng)域數(shù)據(jù),對子詞劃分模型進行預訓練,將得到的子詞分詞結(jié)果再進行詞向量訓練,同word2vec結(jié)合作為命名實體識別模型的輸入。
自注意力機制常用于多種NLP任務,命名實體識別中加入自注意力機制能夠提高模型的特征提取能力和上下文信息的關(guān)注程度;但Transformer結(jié)構(gòu)由于在注意力計算時使用了歸一化處理,且其位置編碼不具備方向性,在命名實體識別任務上的表現(xiàn)不佳[21]。本文采用相對多頭注意力機制代替?zhèn)鹘y(tǒng)的自注意力機制,作為命名實體識別模型的編碼層。
本文的主要工作包括:
1)使用大量非結(jié)構(gòu)化材料領(lǐng)域文獻數(shù)據(jù),訓練基于一元語言模型(Unigram Language Model, ULM)的分詞模型,并進一步訓練出適用于材料領(lǐng)域數(shù)據(jù)的子詞嵌入用于材料領(lǐng)域命名實體識別任務。
2)在BiLSTM-CRF模型的基礎(chǔ)上,使用能夠感知單詞方向和距離的相對多頭注意力機制(Relative Multi-Head Attention, RMHA),以增強模型對關(guān)鍵詞的感知能力。
3)在SOFC數(shù)據(jù)集的命名實體識別和細粒度實體識別任務中,使用常用模型與BiLSTM-RMHA-CRF模型進行多組對比實驗,驗證ULM子詞嵌入和基于RMHA的深度學習模型有助于提高材料領(lǐng)域命名實體識別的精準度。
使用BiLSTM-CRF模型結(jié)合RMHA對材料領(lǐng)域數(shù)據(jù)進行命名實體識別,同時使用預訓練詞嵌入和子詞嵌入提高模型對于未登錄詞問題的辨識能力,完整模型結(jié)構(gòu)見圖1。
圖1 BiLSTM-RMHA-CRF模型結(jié)構(gòu)
BiLSTM后接CRF解碼層是序列標注任務的常用模型:BiLSTM通過整合前向和后向傳遞的信息,保證每個隱層都接收到來自其他隱層的信息;CRF解碼層可以通過狀態(tài)轉(zhuǎn)移矩陣來實現(xiàn)相鄰標簽的約束。本文使用BiLSTM-CRF模型為基本實驗模型,在其基礎(chǔ)上加入ULM子詞嵌入作為輸入,并進一步使用基于相對位置編碼的相對多頭注意力機制作為材料領(lǐng)域命名實體識別模型的編碼層,以提高模型對于關(guān)鍵詞和相關(guān)實體的關(guān)注程度。
1.2.1 字符嵌入和子詞嵌入
材料領(lǐng)域數(shù)據(jù)集中存在大量單頻詞和低頻詞,傳統(tǒng)的詞向量表示方法,如word2vec[22],無法很好地處理專業(yè)名詞、化學式等未知或者罕見詞匯,導致其命名實體識別難度較高。目前常用CNN編碼層獲得單詞的字符級表示后,將其與預訓練好的詞嵌入進行組合參與訓練。
子詞嵌入把單詞劃分為長度不一的字符串后對其進行向量表示,相較于字符表示蘊含了更加豐富的形態(tài)信息,并可以使用大規(guī)模數(shù)據(jù)集進行預訓練詞向量。BPEmb[23]利用字節(jié)對編碼(Byte Pair Encoding, BPE)數(shù)據(jù)壓縮算法構(gòu)建子詞詞表,使分詞粒度在單詞和字符之間,從而更高效率地解決未登錄問題。BPEmb劃分的子詞只能是單一結(jié)果,而且對于子詞序列的劃分結(jié)果沒有量化的評判標準[24]。
1.2.2 ULM子詞嵌入
相比BPEmb只能生成固定的子詞序列,ULM可以依據(jù)概率生成多種不同的分詞結(jié)果,同時還提出使用不同的分詞結(jié)果作為噪聲輸入,有利于提高模型魯棒性,ULM子詞嵌入詞表建立流程見圖2。
圖2 ULM子詞嵌入詞表建立流程
Fig. 2 Word list construction flow of ULM subword embedding
本文從網(wǎng)絡收集大量材料領(lǐng)域文獻數(shù)據(jù)用于ULM子詞分詞模型訓練及詞向量訓練。首先使用ULM模型分詞方法建立詞表,并對所有數(shù)據(jù)進行分詞處理,使用概率最大的分詞結(jié)果訓練詞向量。在后續(xù)命名實體識別的訓練中,使用ULM子詞嵌入對訓練數(shù)據(jù),取前3個分詞結(jié)果對輸入數(shù)據(jù)進行向量表示,而對測試數(shù)據(jù)仍取概率最大的分詞結(jié)果。數(shù)據(jù)處理流程見圖3。
圖3 數(shù)據(jù)處理流程
1.3.1 自注意力
自注意力機制能夠有效提高模型對于關(guān)鍵詞的識別能力,基于多頭自注意力機制的Transformer編碼器已廣泛應用于多種NLP任務,其多頭注意力計算見式(5)~(7)。
1.3.2 相對多頭注意力
相對多頭注意力在多頭自注意力機制基礎(chǔ)上做出改進,使其能夠感知方向和距離特征,其注意力與相對位置編碼計算見式(10)~(13)。
同時多頭自注意力中的歸一化參數(shù)會導致模型注意力分布過于平滑,不利于命名實體識別任務,因此相對多頭注意力還取消了歸一化因子,使注意力分布更加尖銳,更具區(qū)分度。
ULM子詞嵌入概率分詞模型和預訓練子詞向量使用網(wǎng)絡采集的14萬條原始材料領(lǐng)域文獻數(shù)據(jù);命名實體識別實驗采用SOFC命名實體識別數(shù)據(jù)集(以下簡記為SOFC)和SOFC細粒度實體識別數(shù)據(jù)集(以下簡記為SOFC Fine-grained),示例見圖4[18]。
SOFC包含MATERIAL、VALUE、DEVICE和EXPERIMENT四種類型的實體標簽,采用BIO標注方式。其中MATERIAL類除了材料名外還包括諸如“La0.75Sr0.25Cr0.5Mn0.5O3”的化學式;VALUE類包括實驗參數(shù)的數(shù)值和范圍符號,另外還包含描述程度的副詞,如“above 750℃”,進一步提高了識別命名實體的復雜度;EXPERIMENT類為標志實驗行為的動詞,數(shù)據(jù)集標簽分布及標簽樣例見表1。SOFC細粒度實體識別數(shù)據(jù)集將四類實體進一步細分為19個子類別。具體實體類別見表2。
圖4 SOFC命名實體識別數(shù)據(jù)集樣例
該數(shù)據(jù)集相較于通用領(lǐng)域數(shù)據(jù)集,未登錄詞、單頻詞和低頻詞較多,實體形態(tài)復雜多樣;且不同于通用領(lǐng)域命名實體識別數(shù)據(jù)集中人名、地名、組織名等本身蘊含的形態(tài)學信息較少,實體詞之間的關(guān)系模糊,材料領(lǐng)域數(shù)據(jù)集中的實體間存在較大的形態(tài)學關(guān)聯(lián)性,如化學式之間的關(guān)聯(lián)信息。
表1 SOFC命名實體識別數(shù)據(jù)集標簽分布
表2 SOFC細粒度實體識別標簽類別
本文使用基于正則模板的數(shù)據(jù)增強[25],將大量正則模板應用于模型訓練,旨在讓模型學習到更多上下文信息和模糊實體對于特定上下文的依賴關(guān)系,達到提高識別未登錄詞和低頻詞的精準度的目的。本文涉及的所有實驗均采用正則模板的數(shù)據(jù)增強方法對訓練集數(shù)據(jù)進行預處理后作為輸入。正則模板數(shù)據(jù)增強見圖5。
實驗均采用300維word2vec預訓練詞向量作為基本輸入。字符嵌入對字符向量隨機初始化后,使用CNN模型進行特征編碼得到300維詞向量,并參與命名實體識別訓練;BPEmb子詞嵌入和ULM子詞嵌入均使用非結(jié)構(gòu)的大規(guī)模材料領(lǐng)域數(shù)據(jù)進行分詞模型的訓練,并進一步得到300維預訓練詞向量作為模型輸入。
圖5 基于正則模板的數(shù)據(jù)增強
BiLSTM-RMHA-CRF命名實體識別模型使用Adam優(yōu)化算法對模型進行參數(shù)調(diào)整,最大迭代次數(shù)為1 440,實驗結(jié)果選取其中最優(yōu)結(jié)果。本文實驗均于PyTorch-1.6.0及GPU環(huán)境下完成,詳細模型參數(shù)設置見表3。
表3 模型參數(shù)設置
采用F1值作為模型性能的評價指標,計算平均F1值時采用基于樣本分類加權(quán)的微平均F1值(Micro F1值)和宏平均F1值(Macro F1),其中Macro F1對于不均衡樣本的評估更加敏感,具體計算過程見式(15)~(19):
實驗使用加入ULM子詞嵌入的BiLSTM-RMHA-CRF模型與現(xiàn)有模型在SOFC與SOFC Fine-grained上進行對比,對比模型包括BiLSTM-CNNs-CRF模型[6]、LM-LSTM-CRF模型[8]、BiGRU-SelfAttn模型[9]、SciBERT模型[18]、Char-Level CNN-LSTM模型[20],實驗結(jié)果見表4。由表4可以看出,相較于其他模型,基于相對多頭注意力機制和ULM子詞嵌入的模型能夠提高對命名實體的辨別能力。
表4 SOFC命名實體識別數(shù)據(jù)集上不同模型的實驗結(jié)果 單位: %
BiLSTM-CNNs-CRF模型使用字符級CNN對輸入進行編碼,得到字符嵌入,再將其輸入BiLSTM-CRF模型進行序列標注,其卷積操作在一定程度上相當于能夠提取固定寬度的子詞信息。LM-LSTM-CRF模型使用字符級LSTM作為字符嵌入模型,將字符序列編碼為詞向量用于命名實體識別訓練。Char-Level CNN-LSTM模型結(jié)合了上述兩個模型的字符嵌入方法?;谧址度氲脑~嵌入算法在SOFC與SOFC Fine-grained表現(xiàn)尚佳,但由于字符嵌入詞表規(guī)模過小且蘊含信息有限,無法進行預訓練,對于不同的單詞輸入,即使擁有相同的子詞特征也不能保證得到相近的向量表示;而預訓練子詞嵌入可以確保具有相同子詞特征的單詞,其詞嵌入獲得的信息量相同。BiGRU-SelfAttn模型使用了結(jié)構(gòu)更加簡單的GRU作為特征編碼層,并結(jié)合自注意力機制作為命名實體識別模型,并直接將單詞作為輸入進行訓練,其效果相對于其他模型表現(xiàn)有限。SciBERT模型使用了大規(guī)??茖W領(lǐng)域文獻預訓練的BERT模型作為編碼層,并結(jié)合BPEmb子詞嵌入作為輸入,但使用預訓練模型進行微調(diào),并不能充分利用子詞嵌入提供的輔助信息。模型對比實驗結(jié)果表明,基于ULM預訓練子詞嵌入和相對多頭注意力的命名實體識別模型相較于其他模型,在材料領(lǐng)域命名實體識別任務中表現(xiàn)更加出色。
本文針對BiLSTM-RMHA-CRF模型中的RMHA特征編碼層以及ULM詞嵌入特征進行消融實驗,以度量ULM詞嵌入方法以及相對多頭注意力機制對于材料領(lǐng)域命名實體識別準度的提升作用,實驗結(jié)果見表5??梢钥闯鯞iLSTM-RMHA-CRF模型中,相對多頭注意力機制和ULM子詞嵌入對材料領(lǐng)域命名實體識別都有不同程度的提升作用。
表5 消融實驗結(jié)果 單位: %
在僅使用BiLSTM-CRF模型時,由于其模型特征編碼性能有限,且從詞嵌入獲取到的信息較少,而材料領(lǐng)域文獻中的未登錄詞較多,導致模型的識別性能不佳;加入相對多頭注意力機制后,提高了模型對于關(guān)鍵詞的關(guān)注度,命名實體識別性能有一定程度的提升;加入ULM子詞嵌入,使模型能夠獲取到單詞的形態(tài)學信息,并能夠辨別單詞之間的關(guān)聯(lián)作用,其性能有較大提升,表明基于概率模型的子詞嵌入確實能夠有效解決未登錄詞問題,并能提高模型對于材料領(lǐng)域詞匯間關(guān)聯(lián)關(guān)系的辨識性能。
為驗證使用大規(guī)模材料數(shù)據(jù)預訓練子詞嵌入對于模型的提升效用,以BiLSTM-RMHA-CRF模型為基本模型,分別使用CNN字符嵌入、BPEmb子詞嵌入和ULM子詞嵌入結(jié)合word2vec作為輸入,實驗結(jié)果見表6??梢钥闯?,使用預訓練詞向量的BPEmb和ULM子詞嵌入相對于字符嵌入,對于命名實體識別的提升較大,表明預訓練詞向量能夠充分利用非結(jié)構(gòu)化的文獻數(shù)據(jù),使模型能夠解析其蘊涵的詞綴信息;使用概率模型的ULM子詞嵌入相較于BPEmb有所提升,表明基于概率模型的分詞方式和噪聲輸入確實有助于提高模型的魯棒性。
表6 詞嵌入實驗結(jié)果 單位: %
統(tǒng)一使用ULM詞嵌入作為輸入,在BiLSTM-CRF模型基礎(chǔ)上加入命名實體識別常用的卷積神經(jīng)網(wǎng)絡、自注意力機制(Self-Attention, SA)、多頭注意力機制(Multi-Head Attention, MHA)和相對多頭注意力機制(RMHA),用以驗證相對多頭注意力機制對于模型的提升效用,實驗結(jié)果見表7。可以看出,相對于其他特征編碼模型,相對多頭注意力機制能更有效地提升模型對于實體與實體、實體與上下文關(guān)系的辨別能力,提高注意力的銳化程度,從而提高模型的識別水平。
表7 特征編碼器實驗結(jié)果 單位: %
本文針對材料領(lǐng)域命名實體識別數(shù)據(jù)規(guī)模小、識別難度高等問題,提出了BiLSTM-RMHA-CRF模型方法,同時使用基于概率模型的ULM子詞嵌入作為模型輸入,以提高模型對于材料領(lǐng)域命名實體的辨別能力。通過在多種適用于命名實體識別的模型上進行對比實驗,證明該方法可以有效提高模型的普適性和魯棒性,在Micro F1、Macro F1兩種評價指標上都有較大的提高。通過特征編碼層對照和詞嵌入對照實驗,驗證了相對多頭注意力機制和預訓練ULM子詞嵌入對于命名實體識別模型的提高效用,表明相對多頭注意力機制和ULM子詞嵌入對于材料領(lǐng)域命名實體識別確有較大的提升作用。但本文算法并沒有解決樣本分布不均帶來的模型偏側(cè)性問題,不同類別的實體,其識別準度差異較大,檢測能力也有待提升,可以將其作為進一步的研究方向。
[1] LAFFERTY J D, McCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2001: 282-289.
[2] KIM Y. Convolutional neural networks for sentence classification[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1746 - 1751.
[3] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.
[4] CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. (2014-12-11)[2021-02-13]. https://arxiv.org/pdf/1412.3555.pdf.
[5] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[6] MA X Z, HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2016: 1064-1074.
[7] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 357-370.
[8] LIU L Y, SHANG J B, Ren x, et al. Empower sequence labeling with task-aware neural language model[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 5253-5260.
[9] DHRISYA K, REMYA G, MOHAN A. Fine-grained entity type classification using GRU with self-attention[J]. International Journal of Information Technology, 2020, 12(3): 869-878.
[10] 楊維,孫德艷,張曉慧,等. 面向電力智能問答系統(tǒng)的命名實體識別算法[J]. 計算機工程與設計, 2019, 40(12): 3625-3630.(YANG W, SUN D Y, ZHANG X H, et al. Named entity recognition for intelligent answer system in power service[J]. Computer Engineering and Design, 2019, 40(12): 3625-3630.)
[11] 李博,康曉東,張華麗,等. 采用Transformer-CRF的中文電子病歷命名實體識別[J]. 計算機工程與應用, 2020, 56(5):153-159.(LI B, KANG X D, ZHANG H L, et al. Named entity recognition in Chinese electronic medical records using Transformer-CRF[J]. Computer Engineering and Applications, 2020, 56(5):153-159.)
[12] 張華麗,康曉東,李博,等. 結(jié)合注意力機制的Bi-LSTM-CRF中文電子病歷命名實體識別[J]. 計算機應用, 2020, 40(S1):98-102.(ZHANG H L, KANG X D, LI B, et al. Medical name entity recognition based on Bi-LSTM-CRF and attention mechanism[J]. Journal of Computer Applications, 2020, 40(S1):98-102.)
[13] 張心怡,馮仕民,丁恩杰. 面向煤礦的實體識別與關(guān)系抽取模型[J]. 計算機應用, 2020, 40(8):2182-2188.(ZHANG X Y, FENG S M, DING E J. Entity recognition and relation extraction model for coal mine[J]. Journal of Computer Applications, 2020, 40(8):2182-2188.)
[14] 許力,李建華. 基于句法依存分析的圖網(wǎng)絡生物醫(yī)學命名實體識別[J]. 計算機應用, 2021, 41(2):357-362.(XU L, LI J H. Biomedical named entity recognition with graph network based on syntactic dependency parsing[J]. Journal of Computer Applications, 2021, 41(2):357-362.)
[15] MYSORE S, KIM E, STRUBELL E, et al. Automatically extracting action graphs from materials science synthesis procedures[EB/OL]. (2017-11-28)[2021-02-13].https://arxiv.org/pdf/1711.06872.pdf.
[16] MYSORE S, JENSEN Z, KIM E, et al. The materials science procedural text corpus: annotating materials synthesis procedures with shallow semantic structures[C]// Proceedings of the 13th Linguistic Annotation Workshop. Stroudsburg, PA: Association for Computational Linguistics, 2019: 56-64.
[17] MRDJENOVICH D, HORTON M K, MONTOYA J H, et al. propnet: a knowledge graph for materials science[J]. Matter, 2020, 2(2): 464-480.
[18] FRIEDRICH A, ADEL H, TOMAZIC F, et al. The SOFC-Exp corpus and neural approaches to information extraction in the materials science domain[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 1255-1268.
[19] GAJENDRAN S, MANJULA D, SUGUMARAN V. Character level and word level embedding with bidirectional LSTM - dynamic recurrent neural network for biomedical named entity recognition from literature[J]. Journal of Biomedical Informatics, 2020, 112: No.103609.
[20] CHO M, HA J, PARK C, et al. Combinatorial feature embedding based on CNN and LSTM for biomedical named entity recognition[J]. Journal of Biomedical Informatics, 2020, 103: No.103381.
[21] YAN H, DENG B C, LI X N, et al. TENER: adapting transformer encoder for named entity recognition[EB/OL]. (2019-12-10)[2021-02-13].https://arxiv.org/pdf/1911.04474.pdf.
[22] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07)[2021-02-13].https://arxiv.org/pdf/1301.3781.pdf.
[23] HEINZERLING B, STRUBE M. BPEmb: tokenization-free pre-trained subword embeddings in 275 languages[C]// Proceedings of the 11th International Conference on Language Resources and Evaluation . Stroudsburg, PA: Association for Computational Linguistics, 2018: 2989-2993.
[24] KUDO T. Subword regularization: improving neural network translation models with multiple subword candidates[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 66-75.
[25] LIU Z H, WINATA G I, XU P, et al. Coach: a coarse-to-fine approach for cross-domain slot filling[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 19-25.)
Material entity recognition based on subword embedding and relative attention
HAN Yumin, HAO Xiaoyan*
(,,030600,)
Accurately identifying named entities is helpful to construct professional knowledge graphs and question answering systems. Named Entity Recognition (NER) technology based on deep learning has been widely used in a variety of professional fields. However, there are relatively few researches on NER in the field of materials. Concerning the problem of small scale of datasets and high complexity of entity words for supervised learning in NER of materials field, the large-scale unstructured materials field literature data were used to train the subword embedding word segmentation model based on Unigram Language Model (ULM), and the information contained in the word structure was fully utilized to enhance the robustness of the model. At the same time, the entity recognition model with BiLSTM-CRF (Bi-directional Long-Short Term Memory-Conditional Random Field) model as the basis and combined with the Relative Multi-Head Attention(RMHA)capable of perceiving direction and distance of words was proposed to improve the sensitivity of the model to keywords. Compared with BiLSTM-CNNs-CRF, SciBERT (Scientific BERT) and other models, the obtained BiLSTM-RMHA-CRF model combining with the ULM subword embedding method increased the value of Macro F1 by 2-4 percentage points on Solid Oxide Fuel Cell (SOFC) NER dataset, and 3-8 percentage points on SOFC fine-grained entity recognition dataset. Experimental results show that the recognition model based on subword embedding and relative attention can effectively improve the recognition accuracy of entities in the materials field.
named entity recognition; subword embedding; relative attention; deep learning; material field
This work is partially supported by Soft Science Research Program of Shanxi Province (2019041055-1), Scientific Research and Technology Project of Peking University (203290929-J).
HAN Yumin, born in 1995, M. S. His research interests include natural language processing.
HAO Xiaoyan,born in 1970, Ph. D., associate professor. Her research interests include natural language processing, computer linguistics, artificial intelligence.
TP391
A
1001-9081(2022)06-1862-07
10.11772/j.issn.1001-9081.2021040582
2021?04?15;
2021?07?09;
2021?07?15。
山西省軟科學研究計劃項目(2019041055-1);京大學科研技術(shù)項目(203290929-J)。
韓玉民(1995—),男,山西臨汾人,碩士,主要研究方向:自然語言處理;郝曉燕(1970—),女,山西太原人,副教授,博士,主要研究方向:自然語言處理、計算機語言學、人工智能。