王衛(wèi)紅,呂紅燕,曹玉輝,霍 崢
(河北經(jīng)貿(mào)大學(xué) 信息技術(shù)學(xué)院,河北 石家莊 050061)
隨著社會(huì)信息化進(jìn)程的飛速發(fā)展,信息呈爆炸式增長(zhǎng),各類數(shù)據(jù)海量存在,其中文本數(shù)據(jù)也不例外。而文本數(shù)據(jù)中常常包含了大量有價(jià)值的信息,尤其是文本中的實(shí)體是句子的主體,包含了豐富的語(yǔ)義信息,因此命名實(shí)體識(shí)別任務(wù)在文本數(shù)據(jù)的理解與處理過程中具有非常重要的意義。除此之外,命名實(shí)體識(shí)別是信息抽取中的基礎(chǔ)任務(wù),而信息抽取是知識(shí)圖譜構(gòu)建中的重要步驟。近幾年來(lái),知識(shí)圖譜的發(fā)展使得命名實(shí)體識(shí)別工作更為重要[1]。
命名實(shí)體識(shí)別[2]旨在識(shí)別出文本中的專有名詞并將其劃分到相應(yīng)的實(shí)體類型中。其中常見的命名實(shí)體包括人名、地名、機(jī)構(gòu)名等。命名實(shí)體技術(shù)從開始發(fā)展至今,可以將其分為三大階段,基于詞典和規(guī)則的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法、現(xiàn)在熱門的注意力機(jī)制和圖神經(jīng)網(wǎng)絡(luò)等方法應(yīng)用于命名實(shí)體識(shí)別中。命名實(shí)體識(shí)別技術(shù)發(fā)展得越來(lái)越成熟。早期的基于規(guī)則的命名實(shí)體識(shí)別方法主要是通過人工來(lái)構(gòu)建規(guī)則庫(kù),再?gòu)奈谋局袑ふ移ヅ溥@些規(guī)則的字符串從而識(shí)別出文本中的命名實(shí)體。這種方法在特定的語(yǔ)料上可以獲得較高的識(shí)別效果,但是不具有通用性,遷移能力較差,而且規(guī)則庫(kù)的構(gòu)建需要大量的人力,耗費(fèi)時(shí)間長(zhǎng)。
隨著機(jī)器學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的興起,命名實(shí)體識(shí)別的研究逐漸轉(zhuǎn)向基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,主要分為兩種思路,一種是先識(shí)別出命名實(shí)體的邊界,然后將命名實(shí)體進(jìn)行分類,另一種是序列化標(biāo)注方法[3-4]。序列化標(biāo)注方法是目前最為有效,也是最為普遍的一種命名實(shí)體識(shí)別方法。近年來(lái),基于神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)技術(shù)不斷發(fā)展,成為機(jī)器學(xué)習(xí)領(lǐng)域新的熱潮。各類神經(jīng)網(wǎng)絡(luò)模型被用到命名實(shí)體識(shí)別的研究中。
文中提出的基于BERT模型的混合神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法結(jié)合預(yù)訓(xùn)練語(yǔ)言模型的同時(shí)充分利用各類神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),來(lái)獲取句子、實(shí)體中更加豐富的語(yǔ)義信息,以提高命名實(shí)體識(shí)別的有效性和通用性。
命名實(shí)體識(shí)別任務(wù)在1991年第一次被提出,之后在很多會(huì)議中將其作為評(píng)測(cè)任務(wù),例如MUC-6、MUC-7、CoNLL-2002、CoNLLC-2003等會(huì)議。許多學(xué)者對(duì)命名實(shí)體識(shí)別任務(wù)進(jìn)行研究。
近些年來(lái),命名實(shí)體識(shí)別常常被看作是序列標(biāo)注問題,在標(biāo)注語(yǔ)料上進(jìn)行監(jiān)督學(xué)習(xí)。早期,經(jīng)典機(jī)器學(xué)習(xí)分類模型被成功地用來(lái)進(jìn)行命名實(shí)體的序列化標(biāo)注,而且獲得了較好的效果,如條件隨機(jī)場(chǎng)CRF[5]、最大熵ME[6]和最大熵馬爾可夫模型MEMM[7]等。Collobert等學(xué)者[8]在2011年首次將神經(jīng)網(wǎng)絡(luò)應(yīng)用于命名實(shí)體識(shí)別任務(wù)中,提出了基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法。此后,隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,越來(lái)越多的學(xué)者將神經(jīng)網(wǎng)絡(luò)模型運(yùn)用到命名實(shí)體識(shí)別任務(wù)中。GUL Khan Safi Qamas等[9]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)、結(jié)合長(zhǎng)短時(shí)記憶和注意力機(jī)制的命名實(shí)體識(shí)別方法,提高了命名實(shí)體識(shí)別的準(zhǔn)確率。N. B?lücü等[10]將雙向LSTM-CNN模型進(jìn)行了擴(kuò)展,添加了句法和詞級(jí)特征,并通過實(shí)驗(yàn)證明了在不進(jìn)行特征工程的情況下,改進(jìn)后的模型優(yōu)于基線模型。Peng N等[11]提出將LSTM與CRF相結(jié)合應(yīng)用于命名實(shí)體識(shí)別任務(wù)中,并通過實(shí)驗(yàn)證明了該方法的有效性。X. Yang等[12]利用BiLSTM結(jié)合CRF來(lái)獲取單詞表示,將其用于生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別,并通過實(shí)驗(yàn)證明了該方法在生物醫(yī)學(xué)領(lǐng)域的有效性。BiLSTM-CRF模型在很多領(lǐng)域的命名實(shí)體識(shí)別任務(wù)中都取得了不錯(cuò)的效果,因此,許多學(xué)者在該模型的基礎(chǔ)上進(jìn)行改進(jìn)。例如,Q. Zhong等[13]在該模型的基礎(chǔ)上加入了注意力機(jī)制,提高了命名實(shí)體識(shí)別任務(wù)的準(zhǔn)確率。謝騰等[14]利用BERT模型生成基于上下文的詞向量作為BiLSTM-CRF的輸入進(jìn)行中文實(shí)體識(shí)別并取得了較好的效果。趙平等[15]將BERT+BiLSTM+CRF(簡(jiǎn)稱BBC)深度學(xué)習(xí)實(shí)體識(shí)別模型應(yīng)用于旅游領(lǐng)域的文本,提高了旅游領(lǐng)域中實(shí)體識(shí)別的準(zhǔn)確率。劉宇鵬等[16]針對(duì)中文命名實(shí)體識(shí)別提出了一種基于BiLSTM-CNN-CRF的方法,真正意義上的端到端的結(jié)構(gòu),自動(dòng)獲取基于字符級(jí)別和詞語(yǔ)級(jí)別的表示,并在人民日?qǐng)?bào)和醫(yī)療文本數(shù)據(jù)上進(jìn)行了驗(yàn)證。此外,還有一些學(xué)者在神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上引入部首嵌入[17]、順序遺忘編碼[18]或者是筆畫ELMo和多任務(wù)學(xué)習(xí)[19]等,實(shí)體識(shí)別效果均略有提升。
隨著預(yù)訓(xùn)練語(yǔ)言模型的發(fā)展,越來(lái)越多的研究者將其用于命名實(shí)體識(shí)別的工作中,目前BERT模型[20]在各類自然語(yǔ)言處理任務(wù)中相較與其他預(yù)訓(xùn)練語(yǔ)言模型效果相對(duì)較好,而且應(yīng)用較為廣泛。M. Zhang等[21]在BiLSTM-CRF模型中加入了BERT模型用于中文臨床文本中,取得了良好的效果。Fábio Akhtyamova L[22]將BERT應(yīng)用到西班牙生物醫(yī)學(xué)領(lǐng)域中的命名實(shí)體識(shí)別任務(wù),并且取得了不錯(cuò)的效果。王子牛等[23]針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)中文實(shí)體識(shí)別準(zhǔn)確率低等問題,提出了將BERT模型和神經(jīng)網(wǎng)絡(luò)方法結(jié)合進(jìn)行命名實(shí)體識(shí)別,并通過實(shí)驗(yàn)證明了該方法提升了實(shí)體識(shí)別的準(zhǔn)確率、召回率和F1值。李妮等[24]利用BERT模型獲取句子中豐富的句法和語(yǔ)法信息,并針對(duì)其訓(xùn)練參數(shù)過多,訓(xùn)練時(shí)間過長(zhǎng)的問題,提出了一種基于BERT-IDCNN-DRF的中文命名實(shí)體識(shí)別的方法,并在MSRA語(yǔ)料上證明了該方法優(yōu)于Lattice-LSTM模型,且訓(xùn)練時(shí)間大幅度縮短。
綜上所述,命名實(shí)體識(shí)別的現(xiàn)有研究中缺乏充分利用各類神經(jīng)網(wǎng)絡(luò)及預(yù)訓(xùn)練語(yǔ)言模型的優(yōu)勢(shì)來(lái)進(jìn)行實(shí)體識(shí)別任務(wù)。
文中的組織結(jié)構(gòu):第2節(jié)介紹了基于BERT模型的混合神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法的模型架構(gòu)并對(duì)各層原理或者結(jié)構(gòu)進(jìn)行說(shuō)明解釋;第3節(jié)在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),比較不同方法的準(zhǔn)確率、召回率和F1值,證明文中方法在命名實(shí)體識(shí)別任務(wù)中的有效性和通用性;第4節(jié)對(duì)全文進(jìn)行總結(jié)并提出下一步工作方向。
文中提出了基于BERT模型的混合神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法,其模型架構(gòu)為BERT+CNN+BiLSTM+Attention+CRF,如圖1所示。
圖1 模型架構(gòu)
首先是輸入層,由BERT模型和CNN神經(jīng)網(wǎng)絡(luò)模型構(gòu)成,BERT模型訓(xùn)練基于字級(jí)別的字向量表示,CNN神經(jīng)網(wǎng)絡(luò)模型提取文本語(yǔ)義特征,將兩者結(jié)合作為下一層的輸入向量。然后是由帶有注意力機(jī)制的BiLSTM模型組成的中間層。最后是輸出層,使用的是CRF模型來(lái)解碼序列標(biāo)簽,從而得到全局最優(yōu)標(biāo)注序列。
基于BERT模型的向量表示能夠表達(dá)句子豐富的句法和語(yǔ)法信息,在自然語(yǔ)言處理領(lǐng)域中有著十分廣泛的應(yīng)用。BERT模型是近幾年來(lái)剛剛被提出與應(yīng)用的,是預(yù)訓(xùn)練語(yǔ)言模型中表現(xiàn)較為突出的一個(gè)。BERT模型是綜合GPT和ELOM兩個(gè)模型各自的優(yōu)勢(shì)構(gòu)造出來(lái)的,采用了雙向Transformer進(jìn)行編碼,充分利用字兩側(cè)的文本信息,能夠動(dòng)態(tài)生成字級(jí)別和詞級(jí)別的語(yǔ)義向量,具有很強(qiáng)的語(yǔ)義表征優(yōu)勢(shì)。BERT模型的本質(zhì)是通過在海量的語(yǔ)料基礎(chǔ)上運(yùn)行自監(jiān)督學(xué)習(xí)方法為單詞學(xué)習(xí)一個(gè)好的特征表示,可以根據(jù)任務(wù)微調(diào)或者固定之后作為特征提取器。此外,BERT的源碼和模型已經(jīng)開源。BERT模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。由已有研究可知,BERT模型在命名實(shí)體識(shí)別任務(wù)中具有良好的表現(xiàn)。文中方法利用BERT預(yù)訓(xùn)練語(yǔ)言模型將文本訓(xùn)練為句子向量作為輸入層的一部分。
圖2 BERT模型的網(wǎng)絡(luò)結(jié)構(gòu)
CNN網(wǎng)絡(luò)的主要特點(diǎn)是它強(qiáng)大的卷積層能夠獲取足夠豐富的特征。經(jīng)典的CNN最開始主要應(yīng)用于圖像分類中,并且在圖像分類領(lǐng)域取得了較好的成果。如今,經(jīng)過學(xué)者們的不斷研究與探索,慢慢地將CNN應(yīng)用于自然語(yǔ)言處理中,例如命名實(shí)體識(shí)別、文本分類和自動(dòng)摘要等工作。CNN網(wǎng)絡(luò)中的卷積層和池化層具有強(qiáng)大的特征提取和選擇能力,能夠防止過擬合,對(duì)特征進(jìn)行降維。文中在卷積層中通過不同數(shù)量的過濾器和不同大小的卷積窗口進(jìn)行卷積運(yùn)算。池化層使用的是Max Pooling操作抽取出卷積層中最具有明顯特征表征,從而得到基于CNN網(wǎng)絡(luò)的文本特征向量,同樣作為輸入層的一部分。
隨著自然語(yǔ)言處理領(lǐng)域的不斷進(jìn)步和發(fā)展,LSTM神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于自然語(yǔ)言處理領(lǐng)域有較好的表現(xiàn)。與傳統(tǒng)的RNN網(wǎng)絡(luò)結(jié)構(gòu)相比,LSTM增加了輸入門、遺忘門和輸出門三個(gè)門結(jié)構(gòu),能夠更好地提取有用的信息。LSTM單元結(jié)構(gòu)如圖3所示。
圖3 LSTM單元結(jié)構(gòu)
單向的LSTM只能獲取一個(gè)方向的信息,但是在自然語(yǔ)言處理中充分利用上下文信息十分重要,雙向LSTM網(wǎng)絡(luò),即BiLSTM應(yīng)運(yùn)而生。在命名實(shí)體識(shí)別任務(wù)中文本的上下文信息同樣重要,因此,文中提出的基于BERT的混合神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法中使用的便是BiLSTM網(wǎng)絡(luò)模型結(jié)構(gòu)。
注意力機(jī)制最開始被提出是應(yīng)用于機(jī)器翻譯問題中的,現(xiàn)在已經(jīng)成為神經(jīng)網(wǎng)絡(luò)研究中的一個(gè)十分重要的研究領(lǐng)域。在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中引入注意力機(jī)制能夠自動(dòng)學(xué)習(xí)權(quán)重用來(lái)捕捉編碼器隱藏狀態(tài)和解碼器隱藏狀態(tài)的相關(guān)性,從而提高神經(jīng)網(wǎng)絡(luò)模型的效果。注意力機(jī)制被廣泛應(yīng)用于各種不同類型的深度學(xué)習(xí)任務(wù)中,如自然語(yǔ)言處理、圖像識(shí)別以及語(yǔ)音識(shí)別等任務(wù)。當(dāng)然,在自然語(yǔ)言處理的子任務(wù)命名實(shí)體識(shí)別中,注意力機(jī)制的引入也同樣會(huì)起到一定的效果。
文中實(shí)體識(shí)別方法的中間層使用的就是基于注意力機(jī)制的BiLSTM網(wǎng)絡(luò),將上述基于BERT模型的字符級(jí)向量和基于CNN網(wǎng)絡(luò)提取的特征連接作為基于注意力機(jī)制的BiLSTM網(wǎng)絡(luò)的輸入向量。
基于CRF的輸出層可以在最終的預(yù)測(cè)標(biāo)簽中添加一些約束,彌補(bǔ)BiLSTM無(wú)法處理相鄰標(biāo)簽之間依賴關(guān)系的缺點(diǎn),以確保最終的預(yù)測(cè)標(biāo)簽是有效的。這些約束可以由輸出層的CRF在訓(xùn)練過程中從訓(xùn)練數(shù)據(jù)集自動(dòng)學(xué)習(xí)。給定觀察序列X時(shí),某個(gè)特定標(biāo)記序列Y的概率可定義為:
其中,tj(yi+1,yi,X,i)是定義在觀測(cè)序列的兩個(gè)相鄰標(biāo)記位置上的轉(zhuǎn)移特征函數(shù),刻畫相鄰標(biāo)記變量之間的相關(guān)關(guān)系以及觀測(cè)序列對(duì)它們的影響;Sk(yi,X,i)是定義在觀測(cè)序列的標(biāo)記位置i上的狀態(tài)特征函數(shù),刻畫觀測(cè)序列對(duì)標(biāo)記變量的影響,λj和μk為參數(shù),Z為規(guī)范化因子。
文中實(shí)驗(yàn)數(shù)據(jù)使用的是1998年《人民日?qǐng)?bào)》語(yǔ)料數(shù)據(jù)集和MSRA語(yǔ)料數(shù)據(jù)集兩個(gè)公開數(shù)據(jù)集,《人民日?qǐng)?bào)》語(yǔ)料數(shù)據(jù)集中共有19 484個(gè)句子、52 735個(gè)實(shí)體。MSRA語(yǔ)料數(shù)據(jù)集中共有28 100個(gè)句子、80 884個(gè)實(shí)體。對(duì)兩個(gè)數(shù)據(jù)集中的人名(PER)、地名(LOC)和機(jī)構(gòu)名(ORG)實(shí)體進(jìn)行識(shí)別,其中訓(xùn)練集與測(cè)試集之比為8∶2。兩個(gè)數(shù)據(jù)集信息如表1所示。
表1 數(shù)據(jù)集信息
常見的序列標(biāo)注方法有很多種,例如Markup標(biāo)注法、BIO標(biāo)注法和BIEO標(biāo)注法等。文中使用的標(biāo)注方法是BIEO標(biāo)注法,其標(biāo)注字母代表含義如表2所示。
表2 BIEO標(biāo)注法含義
文中使用的BERT預(yù)訓(xùn)練語(yǔ)言模型采用的是BERT-Base,相關(guān)參數(shù)設(shè)置如表3所示。
表3 相關(guān)參數(shù)設(shè)置
采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1值(F1-score)三個(gè)指標(biāo)來(lái)衡量實(shí)體識(shí)別模型的效果。三個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:
其中,RER表示正確識(shí)別出的實(shí)體數(shù),AER表示實(shí)際識(shí)別出的實(shí)體數(shù),AE表示實(shí)際實(shí)體總數(shù)。
為了驗(yàn)證文中提出的基于BERT模型的混合神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法的有效性,將該方法與BiLSTM-CRF、LSTM-CNNs和CNN-BiLSTM-CRF三種命名實(shí)體識(shí)別的方法在《人民日?qǐng)?bào)》和MSRA兩個(gè)數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),比較四種命名實(shí)體識(shí)別方法的準(zhǔn)確率、召回率和F1值。
首先為了確定合適的迭代次數(shù),采用四種方法分別在兩個(gè)數(shù)據(jù)集上進(jìn)行了50次迭代,四種方法的F1值與迭代次數(shù)的關(guān)系如圖4和圖5所示。四種方法在兩個(gè)數(shù)據(jù)集上均在20次迭代前后出現(xiàn)最高的F1值。此外,可以看出文中提出的基于BERT模型的混合神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法在這兩個(gè)數(shù)據(jù)集上的F1值均高于其他三種方法,具有良好的表現(xiàn)。
圖4 《人民日?qǐng)?bào)》語(yǔ)料數(shù)據(jù)集上F1與迭代次數(shù)關(guān)系
圖5 MSRA語(yǔ)料數(shù)據(jù)集上F1與迭代次數(shù)關(guān)系
通過上述實(shí)驗(yàn)對(duì)比,將迭代次數(shù)設(shè)為23次,將四種方法在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比其準(zhǔn)確率、召回率和F1值,實(shí)驗(yàn)結(jié)果如表4和表5所示。
表4 《人民日?qǐng)?bào)》語(yǔ)料數(shù)據(jù)集
表5 MSRA語(yǔ)料數(shù)據(jù)集
從表4和表5可以看出,文中提出的基于BERT模型的混合神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法在準(zhǔn)確率、召回率和F1值上均優(yōu)于其他三種方法。在《人民日?qǐng)?bào)》語(yǔ)料數(shù)據(jù)集上,文中方法的F1值比BiLSTM-CRF方法高出大約5.5%,比LSTM-CNNs方法高出大約4.6%,比CNN-BiLSTM-CRF高出大約3.7%。在MSRA語(yǔ)料數(shù)據(jù)集上,文中方法的F1值比BiLSTM-CRF方法高出大約5.4%,比LSTM-CNNs方法高出大約4%,比CNN-BiLSTM-CRF高出大約3.2%。由此可見,文中提出的基于BERT模型的混合神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法具有一定的有效性和通用性。
為了更好地解決命名實(shí)體識(shí)別方法中語(yǔ)義分析不足及準(zhǔn)確率較低的問題,結(jié)合預(yù)訓(xùn)練語(yǔ)言模型和各類神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)及特點(diǎn),提出一種基于BERT模型的混合神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法。充分運(yùn)用了BERT模型、CNN網(wǎng)絡(luò)、注意力機(jī)制以及BiLSTM-CRF模型的優(yōu)勢(shì),更加充分地提取文本的語(yǔ)義信息,豐富其文本特征,進(jìn)行命名實(shí)體識(shí)別任務(wù)。最后分別在兩個(gè)數(shù)據(jù)集上證明了提出方法的有效性和通用性。后續(xù)將進(jìn)一步針對(duì)如何獲取更多文本特征方面進(jìn)行研究。