何玉潔,杜 方,史英杰,宋麗娟
1.寧夏大學(xué) 信息工程學(xué)院,銀川750000 2.北京服裝學(xué)院 信息工程學(xué)院,北京100029
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理的一項(xiàng)基本任務(wù)[1]。主要是將非結(jié)構(gòu)化文本中的人名、地名、機(jī)構(gòu)名和具有特定意義的實(shí)體抽取出來(lái)并加以歸類,進(jìn)而組織成半結(jié)構(gòu)化或結(jié)構(gòu)化的信息,再利用其他技術(shù)對(duì)文本實(shí)現(xiàn)分析和理解目的。這對(duì)于文本的結(jié)構(gòu)化起著至關(guān)重要的作用。命名實(shí)體識(shí)別技術(shù)在信息抽取、信息檢索、問(wèn)答系統(tǒng)等多種自然語(yǔ)言處理技術(shù)領(lǐng)域有著廣泛的應(yīng)用。命名實(shí)體識(shí)別研究歷史最早可以追溯到1991年,Rau[2]在第七屆IEEE人工智能應(yīng)用會(huì)議上發(fā)表了“抽取和識(shí)別公司名稱”的有關(guān)研究文章,陸續(xù)出現(xiàn)一些有關(guān)名詞識(shí)別的研究。1996年,“命名實(shí)體(Named Entity,NE)”一詞首次用于第六屆信息理解會(huì)議(MUC-6)[3],會(huì)議將命名實(shí)體評(píng)測(cè)作為信息抽取的一個(gè)子任務(wù)。隨后出現(xiàn)了一系列信息抽取的國(guó)際評(píng)測(cè)會(huì)議,諸如CONLL、IEER-99、ACE等,這些評(píng)測(cè)會(huì)議對(duì)命名實(shí)體識(shí)別的發(fā)展有極大的推動(dòng)作用。
命名實(shí)體識(shí)別的主要技術(shù)主要有三類:基于規(guī)則和字典的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法。(1)基于規(guī)則和字典的方法是命名實(shí)體識(shí)別中最早使用的方法?;谝?guī)則的方法要構(gòu)造大量的規(guī)則集,規(guī)則集的構(gòu)建大多采用語(yǔ)言學(xué)專家手工構(gòu)造的規(guī)則模板?;谠~典的方法需要建立命名實(shí)體詞典,命名實(shí)體識(shí)別的過(guò)程就是在字典或?qū)I(yè)領(lǐng)域知識(shí)庫(kù)中查找的過(guò)程。早期的命名實(shí)體識(shí)別任務(wù)大多采用基于規(guī)則和詞典的方法實(shí)現(xiàn)。Grishma等人[4]利用一些專門(mén)的名稱字典,包括所有國(guó)家的名稱、主要城市的名稱和公司名稱等開(kāi)發(fā)了一種基于規(guī)則的命名實(shí)體識(shí)別系統(tǒng)。由謝菲爾德大學(xué)自然語(yǔ)言處理研究小組開(kāi)發(fā)的GATE項(xiàng)目中的ANNIE[5]系統(tǒng)就是基于規(guī)則方法的英文信息抽取系統(tǒng)。Collins等人[6]提出的DL-CoTrain(DL代表決策列表,術(shù)語(yǔ)Co-train取自于Blum和Mitchell[7])方法,先將決策列表設(shè)置成種子規(guī)則集,再對(duì)該集合進(jìn)行無(wú)監(jiān)督的訓(xùn)練迭代得到更多的規(guī)則,最終將規(guī)則集用于命名實(shí)體的分類?;谑止ひ?guī)則的方法雖然在小數(shù)據(jù)集上可達(dá)到較高的準(zhǔn)確率,但面對(duì)大量的數(shù)據(jù)集以及全新領(lǐng)域,這種方式變得不再可取,舊的規(guī)則不適用于新命名實(shí)體識(shí)別詞匯,新的規(guī)則庫(kù)和詞典的建立需要花費(fèi)大量的時(shí)間及人力,并且這些規(guī)則往往依賴于具體語(yǔ)言。如應(yīng)用于英語(yǔ)的規(guī)則難以應(yīng)用于阿拉伯語(yǔ),難以涵蓋所有的語(yǔ)言,規(guī)則之間常有沖突,有較大的局限性。因此這種方法逐漸被后來(lái)的基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法所替代。(2)基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法是利用人工標(biāo)注的語(yǔ)料進(jìn)行有監(jiān)督訓(xùn)練,然后利用訓(xùn)練好的機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)預(yù)測(cè)?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的模型有隱馬爾可夫模型(Hidden Markov Models,HMM)、最大熵模型(Maximum Entropy Models,MEM)、決策樹(shù)(Decision Trees)、支持向量機(jī)(Support Vector Machines,SVM)和條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)等。Bikel[8]在1999年提出了基于隱馬爾可夫模型的IdentiFinderTM系統(tǒng),識(shí)別和分類名稱、日期、時(shí)間和數(shù)值等實(shí)體,在英語(yǔ)和西班牙語(yǔ)等多語(yǔ)言上都獲得了較好的成績(jī)。Isozaki[9]將SVM應(yīng)用在命名實(shí)體識(shí)別問(wèn)題上,在CRL數(shù)據(jù)(該數(shù)據(jù)集基于Mainichi Newspape1994年的CD-ROMs[10])上F值(F值是統(tǒng)計(jì)學(xué)中用來(lái)衡量模型精確度的一種指標(biāo)?,F(xiàn)被廣泛應(yīng)用在自然語(yǔ)言處理領(lǐng)域,比如命名實(shí)體識(shí)別、分類等,用來(lái)衡量算法的性能)達(dá)到了90.3%。Yamada等人[11]針對(duì)日文提出了第一個(gè)基于SVM的命名實(shí)體識(shí)別系統(tǒng),他的系統(tǒng)是Kudo的分塊系統(tǒng)(Kudo and Matsumoto,2001)[12]的擴(kuò)展,該分塊系統(tǒng)在CONLL-2000任務(wù)中取得了最好的結(jié)果。Lin和Tsai等人[13]將最大熵方法與基于詞典匹配和規(guī)則相結(jié)合,用來(lái)識(shí)別文本中的生物實(shí)體。先手動(dòng)制定規(guī)則,再將制定好的規(guī)則輸入到最大熵模型框架中,提高了系統(tǒng)的準(zhǔn)確率與召回率?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法與之前的方法相比,效果上有了明顯的提高,但是也需要具有專業(yè)領(lǐng)域知識(shí)的人進(jìn)行大量人工標(biāo)注,人工和時(shí)間的成本很高。(3)隨著深度學(xué)習(xí)的興起,使用深度學(xué)習(xí)方法解決命名實(shí)體識(shí)別問(wèn)題成為了研究熱點(diǎn)。該類方法的優(yōu)勢(shì)在于神經(jīng)網(wǎng)絡(luò)模型可以自動(dòng)學(xué)習(xí)句子特征,無(wú)需復(fù)雜的特征工程。本文著重在第2章介紹基于深度學(xué)習(xí)的命名實(shí)體識(shí)別研究進(jìn)展。
深度學(xué)習(xí)是深層神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)稱[14]。近些年來(lái),深度學(xué)習(xí)不僅在計(jì)算機(jī)視覺(jué)、圖像處理等方面取得了巨大的成功,而且在自然語(yǔ)言處理領(lǐng)域也取得了很大的進(jìn)展?;谏疃葘W(xué)習(xí)的NER模型已經(jīng)成為主流。深度學(xué)習(xí)模型對(duì)外部輸入數(shù)據(jù)進(jìn)行逐層特征提取,通過(guò)非線性激活函數(shù)從數(shù)據(jù)中學(xué)習(xí)復(fù)雜的特征,完成多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測(cè)任務(wù)。目前,在命名實(shí)體識(shí)別領(lǐng)域中最流行的深度學(xué)習(xí)模型是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種深度前饋神經(jīng)網(wǎng)絡(luò)。Collobert等人[15]提出了基于窗口的(window approach)和基于句子的(sentence approach)兩種方法來(lái)進(jìn)行NER,這兩種結(jié)構(gòu)的主要區(qū)別在于window approach僅使用當(dāng)前預(yù)測(cè)詞的上下文窗口進(jìn)行輸入,然后使用傳統(tǒng)的NN結(jié)構(gòu);而sentence approach是以整個(gè)句子作為當(dāng)前預(yù)測(cè)詞的輸入,加入了句子中相對(duì)位置特征來(lái)區(qū)分句子中的每個(gè)詞,然后使用了一層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用卷積獲取上下文并將提取的局部特征向量來(lái)構(gòu)造全局特征向量,該方法雖然可從大量未標(biāo)記數(shù)據(jù)中進(jìn)行特征學(xué)習(xí),但其無(wú)法解決遠(yuǎn)程依賴的問(wèn)題。Santos等人[16]通過(guò)整合字符級(jí)CNN來(lái)擴(kuò)展了這個(gè)模型,實(shí)驗(yàn)結(jié)果證明,對(duì)于葡萄牙語(yǔ)和西班牙語(yǔ)NER都有明顯效果。Yao等人[17]提出一種基于CNN的生物醫(yī)學(xué)命名實(shí)體識(shí)別模型,使用skip-gram神經(jīng)網(wǎng)絡(luò)模型,該模型雖然不是最快的,但更適合于像醫(yī)學(xué)文獻(xiàn)中稀有詞的訓(xùn)練。Strubell等人[18]提出了迭代卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated Convolutional Neural Network,ID-CNN),IDCNN擴(kuò)張的卷積、有效輸入寬度可以隨深度呈指數(shù)增長(zhǎng),比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)具有更好的上下文和結(jié)構(gòu)化預(yù)測(cè)能力。Wu等人[19]構(gòu)建了一種針對(duì)中文電子病歷命名體識(shí)別的深度神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果表明其模型優(yōu)于其他CRF模型。Gui等人[20]提出目標(biāo)保持對(duì)抗神經(jīng)網(wǎng)絡(luò)(Target Preserved Adversarial Neural Network,TPANN),使用大量其他領(lǐng)域注釋數(shù)據(jù)、領(lǐng)域內(nèi)未標(biāo)記數(shù)據(jù)和少量標(biāo)記領(lǐng)域內(nèi)數(shù)據(jù)解決社交媒體領(lǐng)域缺乏大規(guī)模標(biāo)記數(shù)據(jù)集問(wèn)題。Yang等人[21]采用與文獻(xiàn)[22]相同的結(jié)構(gòu),使用具有最大池的一層CNN來(lái)捕獲字符級(jí)表示,獲取每個(gè)詞的上下文表示后,在最后的預(yù)測(cè)層使用基于Softmax和CRF的結(jié)構(gòu)。以上命名實(shí)體方法都是在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)從而達(dá)到不同效果,其識(shí)別方法的基本原理和核心公式見(jiàn)表1。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一類以序列數(shù)據(jù)為輸入,所有節(jié)點(diǎn)(循環(huán)單元)按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)。RNN的變體長(zhǎng)短期記憶模型(Long Short-Term Memory,LSTM)和門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU)都在數(shù)據(jù)建模方面取得了顯著的成就。Huang等人[23]首次將雙向LSTM-CRF(簡(jiǎn)稱BILSTM-CRF)模型應(yīng)用于自然語(yǔ)言處理(Natural Language Processing,NLP)基準(zhǔn)序列標(biāo)記數(shù)據(jù)集,如圖1所示。由于采用了雙向LSTM組件,該模型可以捕捉到當(dāng)前時(shí)刻t的過(guò)去和未來(lái)的特征,但該方法需要大量的特征工程。實(shí)驗(yàn)結(jié)果表明BILSTM-CRF是穩(wěn)健的,且對(duì)于詞嵌入的依賴較少,即它不需要依靠嵌入詞就可以產(chǎn)生精確的標(biāo)注性能。
表1 基于卷積神經(jīng)網(wǎng)絡(luò)命名實(shí)體識(shí)別方法原理及公式
圖1 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別模型圖
Chiu等人[24]受到Collobert等人[15]的工作啟發(fā)提出了一種新穎的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該架構(gòu)使用混合雙向LSTM和CNN架構(gòu)自動(dòng)檢測(cè)字和字符級(jí)特征,從而消除了對(duì)大多數(shù)特征工程的需求。該模型在CONLL2003數(shù)據(jù)集上獲得了90.91%的F值。Yang等人[25]提出一種用于序列標(biāo)記的深層次遞歸神經(jīng)網(wǎng)絡(luò),在字符和單詞級(jí)別上使用GRU來(lái)編碼形態(tài)和上下文信息,并應(yīng)用CRF字段層來(lái)預(yù)測(cè)標(biāo)簽。該模型在CONLL2003英語(yǔ)NER取得91.20%的F值。Ma等人[22]通過(guò)使用雙向LSTM、CNN和CRF的組合,使模型能夠從詞和字符級(jí)表示中學(xué)習(xí),實(shí)現(xiàn)真正意義上的端到端,無(wú)需特征工程或數(shù)據(jù)預(yù)處理,可適用于各種序列標(biāo)記任務(wù)。Zhang等人[26]提出了一種用于中文NER的網(wǎng)格LSTM模型,該模型能夠?qū)卧~本身的含義加入基于詞向量的模型中,以此避免了中文分詞錯(cuò)誤所帶來(lái)的影響,在MSRA語(yǔ)料上達(dá)到了93.18%的F值,但對(duì)于中文漢字的多義性,該方法還有一定的局限性。Rei[27]提出了一種神經(jīng)序列標(biāo)記體系結(jié)構(gòu),使用海量無(wú)標(biāo)注語(yǔ)料庫(kù)訓(xùn)練了一個(gè)雙向LSTM語(yǔ)言模型,每個(gè)LSTM將來(lái)自前一時(shí)間的隱藏狀態(tài)與來(lái)自當(dāng)前步驟的單詞嵌入一起作為輸入,并輸出新的隱藏狀態(tài)。實(shí)驗(yàn)結(jié)果表明,在少量標(biāo)注數(shù)據(jù)上,該語(yǔ)言模型能夠大幅提高NER的效果。Cui等人[28]提出了一個(gè)hierarchically-refined representation的模型,該模型的第二層LSTM輸入包含兩方面的信息,一個(gè)是上一層的輸出,另外一個(gè)來(lái)自于label信息,這樣除了文本特征外,上層網(wǎng)絡(luò)還可以學(xué)到label之間的關(guān)系?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以保存前后時(shí)刻的狀態(tài)信息,因此該網(wǎng)絡(luò)衍生出了多種不同的命名實(shí)體識(shí)別方法,其方法原理和公式見(jiàn)表2。
表2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)命名實(shí)體識(shí)別方法原理及公式
2017年,Transformer模型的提出成為近幾年NLP領(lǐng)域最有影響力的工作。Transformer模型由Vaswani等人[29]提出,其模型架構(gòu)和大多數(shù)神經(jīng)網(wǎng)絡(luò)序列模型架構(gòu)一樣采用了encode-decode結(jié)構(gòu)。Transformer模型摒棄了遞歸和卷積操作,完全依賴于注意力(attention)機(jī)制,通過(guò)多頭自注意力(Multi-headed self-attention)機(jī)制來(lái)構(gòu)建編碼層和解碼層。其編碼器(encoder)由6個(gè)編碼塊(block)組成,每個(gè)塊由自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)組成,解碼器(decoder)由6個(gè)解碼塊組成,每個(gè)塊由自注意力機(jī)制,encoder-decoder attention以及前饋神經(jīng)網(wǎng)絡(luò)組成。與已有的模型相比,RNN通過(guò)逐步遞歸獲得全局特征,CNN只能獲取局部特征,通過(guò)堆疊多層卷積來(lái)增大感受野,而Transformer模型通過(guò)參數(shù)矩陣映射,進(jìn)行Attention操作,并將該過(guò)程重復(fù)多次,最后將結(jié)果拼接起來(lái),就能一步到位獲取全局特征。其模型結(jié)構(gòu)圖如圖2所示[29]。
圖2 Transformer模型圖
Yan等人[30]針對(duì)Transformer無(wú)法捕獲方向信息及相對(duì)位置等問(wèn)題對(duì)模型做出改進(jìn),提出了TENER(Transformer Encoder for NER)模型,設(shè)計(jì)了帶有方向與相對(duì)位置信息的atteniton機(jī)制。該模型在MSRA中文語(yǔ)料上F值達(dá)到92.74%,在英文數(shù)據(jù)集OntoNotes5.0上F值達(dá)到88.43%。Google在2018年提出了采用雙向Transformer網(wǎng)絡(luò)結(jié)構(gòu)來(lái)進(jìn)行預(yù)訓(xùn)練的語(yǔ)言模型BERT[31](Bidirectional Encoder Representations from Transformers),成功地在當(dāng)年11項(xiàng)NLP任務(wù)中取得了令人矚目的成績(jī),成為目前最好的突破性技術(shù)之一。因此越來(lái)越多的研究者也開(kāi)始將BERT引入命名實(shí)體識(shí)別任務(wù)。
楊飄等人[32]在中文命名實(shí)體識(shí)別任務(wù)上引入BERT預(yù)訓(xùn)練模型,提出了BERT-BIGRU-CRF網(wǎng)絡(luò)結(jié)構(gòu),該模型在MSRA中文語(yǔ)料上可以獲得較好的效果,并且超過(guò)了Zhang等人[26]提出的網(wǎng)格LSTM,F(xiàn)值達(dá)到95.43%,比網(wǎng)格LSTM高出2.25%。但該方法的參數(shù)量更大,所需的訓(xùn)練時(shí)間也更長(zhǎng)。Souza等人[33]結(jié)合BERT的遷移能力和CRF的結(jié)構(gòu)化預(yù)測(cè),將BERT-CRF架構(gòu)用于葡萄牙語(yǔ)的NER任務(wù),采用基于微調(diào)的遷移學(xué)習(xí)方法,將所有權(quán)值在訓(xùn)練過(guò)程中聯(lián)合更新,通過(guò)使交叉熵?fù)p失最小化來(lái)對(duì)模型進(jìn)行優(yōu)化。該模型的效果比之前最先進(jìn)的(BiLSTM-CRF+FlairBBP)[34]模型表現(xiàn)更好。實(shí)驗(yàn)在只包含人、組織、位置、值和日期五類實(shí)體的情況下,F(xiàn)值提高了1%,在包含十類實(shí)體(位置、人員、組織、值、日期、標(biāo)題、事物、事件、抽象和其他)的情況下F值提高了4%。Symeonidou等人[35]提出基于Transformer的BioBERT(Biomedical Named Entity Recognition BERT)模型,并利用遷移學(xué)習(xí)方法幫助完成生物醫(yī)學(xué)信息提取任務(wù)。BioBERT模型善于捕捉上下文信息,有助于模型性能的提高。Khan等人[36]提出了一種多任務(wù)Transformer模型對(duì)生物醫(yī)學(xué)進(jìn)行命名實(shí)體識(shí)別。將使用包含不同槽類型的多個(gè)數(shù)據(jù)集訓(xùn)練一個(gè)槽標(biāo)記器視為一個(gè)多任務(wù)學(xué)習(xí)問(wèn)題,通過(guò)Transformer模型的編碼器捕獲輸入表示的上下文信息,并生成共享的上下文嵌入向量。最后,對(duì)于每個(gè)任務(wù)/數(shù)據(jù)集生成一個(gè)特定的任務(wù)表示。該方法在時(shí)間和內(nèi)存方面的效率和效果都有提升。Yu等人[37]將視覺(jué)信息融入到NER中,提出了一個(gè)基于Transformer的多模態(tài)架構(gòu),將標(biāo)準(zhǔn)Transformer層與跨通道注意機(jī)制結(jié)合起來(lái),分別為每個(gè)輸入單詞生成圖像感知的單詞表示和單詞感知的視覺(jué)表示。檢測(cè)命名實(shí)體并識(shí)別給定的<句子,圖像>對(duì)的命名實(shí)體類型。以上方法的原理及公式見(jiàn)表3。
近年來(lái)在基于深度學(xué)習(xí)的命名實(shí)體識(shí)別研究上,除了基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的方法外,還涌現(xiàn)了一些新的方法。Zhou等人[38]針對(duì)表示差異和資源不平衡問(wèn)題提出了雙對(duì)抗遷移網(wǎng)絡(luò)(Dual Adversarial Transfer Network,DATNET),主要面向資源匱乏的NER,大量的實(shí)驗(yàn)證明了DATNET相對(duì)于其他模型的優(yōu)越性,并在CONLL NER數(shù)據(jù)集上實(shí)現(xiàn)了最新的性能。Lee等人[39]通過(guò)將訓(xùn)練過(guò)的人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANNs)參數(shù)轉(zhuǎn)移到另一個(gè)有限人工標(biāo)記的數(shù)據(jù)集,改善了在兩個(gè)不同數(shù)據(jù)集上實(shí)體識(shí)別的最新結(jié)果。證明了遷移學(xué)習(xí)對(duì)于少量標(biāo)簽的目標(biāo)數(shù)據(jù)集的有效性。Rei等人[40]在BILSTM-CRF模型結(jié)構(gòu)基礎(chǔ)上,重點(diǎn)改進(jìn)了詞向量與字符向量的拼接。使用attention機(jī)制將原始的字符向量和詞向量拼接改進(jìn)為權(quán)重求和,使用兩層傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隱層來(lái)學(xué)習(xí)attention的權(quán)值,這樣就使得模型可以動(dòng)態(tài)地利用詞向量和字符向量信息。實(shí)驗(yàn)結(jié)果表明比原始的拼接方法效果更好。Yang等人[41]提出了一種基于深層次遞歸神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)方法,該方法在源任務(wù)和目標(biāo)任務(wù)之間共享隱藏的特征表示和部分模型參數(shù)。實(shí)驗(yàn)結(jié)果表明,當(dāng)目標(biāo)任務(wù)標(biāo)簽較少且與源任務(wù)更相關(guān)時(shí),該方法可以顯著提高目標(biāo)任務(wù)的性能。Yoon等人[42]提出一個(gè)新型的NER模型CollaboNet,由多個(gè)BILSTM-CRF模型組成,將每個(gè)BILSTM-CRF模型作為一個(gè)單任務(wù)模型。每個(gè)單任務(wù)模型都在特定的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并且每個(gè)單任務(wù)模型都只識(shí)別特定的實(shí)體類型,這些單個(gè)單任務(wù)模型互相發(fā)送信息,將自身所學(xué)到的知識(shí)轉(zhuǎn)移到其他單任務(wù)模型上,從而獲得更準(zhǔn)確的預(yù)測(cè)。Akbik等人[43]動(dòng)態(tài)地構(gòu)建了上下文embedding的“內(nèi)存”,存儲(chǔ)每個(gè)詞生成的word embedding,并應(yīng)用一個(gè)池操作來(lái)提取每個(gè)單詞的全局表示。這樣使得詞的embedding不僅與當(dāng)前的句子有關(guān),還有文檔中的前文有關(guān)。該方法可以有效解決在未指定的上下文中嵌入罕見(jiàn)字符的問(wèn)題。在CONLL2003英語(yǔ)數(shù)據(jù)集上達(dá)到了最高F值93.18%,德語(yǔ)達(dá)到88.27%。Ju等人[44]為解決文本內(nèi)部嵌套實(shí)體識(shí)別問(wèn)題,提出一種新的神經(jīng)網(wǎng)絡(luò)模型來(lái)識(shí)別嵌套實(shí)體,通過(guò)動(dòng)態(tài)疊加平面NER層來(lái)識(shí)別嵌套實(shí)體。模型將當(dāng)前平面NER層中的LSTM層輸出合并起來(lái),并隨后將它們提供給下一個(gè)平面NER層,這就允許模型以由內(nèi)到外的方式,通過(guò)充分利用在相應(yīng)的內(nèi)部實(shí)體中的編碼信息來(lái)提取外部實(shí)體。該動(dòng)態(tài)模型在嵌套NER上的性能優(yōu)于之前的基于特征系統(tǒng)。其方法、原理及公式見(jiàn)表4。
表3 基于Transformer命名實(shí)體識(shí)別方法原理及公式
本節(jié)對(duì)基于深度學(xué)習(xí)的三大主流方法:基于卷積神經(jīng)網(wǎng)絡(luò)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)和基于Transformer模型進(jìn)行了對(duì)比??偟膩?lái)說(shuō),三種方法的主要差別在于:(1)卷積神經(jīng)網(wǎng)絡(luò)和Transformer模型可以并行運(yùn)行,訓(xùn)練時(shí)間相對(duì)于循環(huán)神經(jīng)網(wǎng)絡(luò)要短;(2)卷積神經(jīng)網(wǎng)絡(luò)主要注重局部特征,而循環(huán)神經(jīng)網(wǎng)絡(luò)更注重全局特征;(3)卷積神經(jīng)網(wǎng)絡(luò)輸入元素之間相互獨(dú)立,難以考慮上下文信息,循環(huán)神經(jīng)網(wǎng)絡(luò)能夠預(yù)測(cè)長(zhǎng)距離特征,善于發(fā)現(xiàn)和利用數(shù)據(jù)中的長(zhǎng)期依賴性,可有效利用過(guò)去特征和未來(lái)特征,Transformer模型通過(guò)attention機(jī)制可更好地捕獲長(zhǎng)距離依賴關(guān)系。表5從方法特點(diǎn)、優(yōu)點(diǎn)、缺點(diǎn)這幾個(gè)方面對(duì)相關(guān)方法進(jìn)行了歸納總結(jié)。
表4 其他命名實(shí)體識(shí)別方法原理及公式
表5 基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法對(duì)比
隨著NER技術(shù)的不斷成熟,目前基于深度學(xué)習(xí)的命名實(shí)體識(shí)別已逐漸應(yīng)用到多個(gè)應(yīng)用領(lǐng)域并取得了不錯(cuò)的效果。命名實(shí)體識(shí)別主要應(yīng)用于生物醫(yī)學(xué)領(lǐng)域[17,42,45-59]、社交媒體[20,60-75]、地理實(shí)體識(shí)別[76-79]、軍事領(lǐng)域[80-84]、商品名稱實(shí)體識(shí)別[85-87]、化學(xué)實(shí)體識(shí)別[88-90]等。表6總結(jié)了一些應(yīng)用領(lǐng)域的代表方法及其貢獻(xiàn)。
生物醫(yī)學(xué)領(lǐng)域?yàn)槟壳暗难芯繜狳c(diǎn),生物醫(yī)學(xué)文本的快速增長(zhǎng)使得信息提取成為生物醫(yī)學(xué)研究的重要基礎(chǔ)。大量的生物醫(yī)學(xué)知識(shí)主要以非結(jié)構(gòu)化的形式存在于各種形式的文本中,將命名實(shí)體識(shí)別應(yīng)用于生物醫(yī)學(xué)領(lǐng)域?qū)ι镝t(yī)學(xué)研究具有重要的應(yīng)用價(jià)值。由于生物醫(yī)學(xué)數(shù)據(jù)的龐大以及其存在的詞表外問(wèn)題,傳統(tǒng)的方法不能達(dá)到高效的識(shí)別性能,因此,專家們開(kāi)始將基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法應(yīng)用到生物醫(yī)學(xué)領(lǐng)域?;谏疃葘W(xué)習(xí)的方法可以減少特征工程的依賴[45,47]。Gridach等人[45]第一個(gè)使用深度神經(jīng)網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)提取生物醫(yī)學(xué)文本中基因、蛋白質(zhì)等生物醫(yī)學(xué)命名實(shí)體。通過(guò)使用LSTM和CRF的組合,消除了大多數(shù)特征工程任務(wù)的需要,超越了以前傳統(tǒng)方法,同時(shí)減少了詞表外問(wèn)題,這對(duì)復(fù)雜的醫(yī)學(xué)文本來(lái)說(shuō)是至關(guān)重要的。
基于深度學(xué)習(xí)的方法往往需要高質(zhì)量的標(biāo)記數(shù)據(jù),這對(duì)醫(yī)學(xué)NER來(lái)說(shuō)是一個(gè)難題,為了解決該問(wèn)題,學(xué)者們研究了如何使用未標(biāo)記的文本數(shù)據(jù)來(lái)提高NER模型的性能[17,51,53,56]。Yao等人[17]基于未標(biāo)記的生物醫(yī)學(xué)文本數(shù)據(jù),利用CNN對(duì)文本信息中所含的蛋白質(zhì)、基因、疾病和病毒等4類名稱進(jìn)行了實(shí)體識(shí)別,并在生物醫(yī)學(xué)文本中用特定標(biāo)簽標(biāo)記。該方法在GENIA數(shù)據(jù)集上F值達(dá)到71%。Fries等人[51]建立了SWELLSHARK生物醫(yī)學(xué)命名實(shí)體識(shí)別(NER)系統(tǒng)的框架,不需要手工標(biāo)記數(shù)據(jù)。該方法將像詞典這樣的生物醫(yī)學(xué)資源通過(guò)一個(gè)生成模型自動(dòng)生成大規(guī)模的標(biāo)記數(shù)據(jù)集。該架構(gòu)可以在更短的時(shí)間內(nèi)自動(dòng)構(gòu)建大規(guī)模的訓(xùn)練集。Sachan等人[56]在未標(biāo)記的數(shù)據(jù)上訓(xùn)練了一個(gè)雙向語(yǔ)言模型(Bidirectional Language Model,BiLM),并將其權(quán)重轉(zhuǎn)移到與BiLM架構(gòu)相同的NER模型的“預(yù)訓(xùn)練”中,通過(guò)語(yǔ)言模型的權(quán)重來(lái)初始化NER模型,使NER模型具有更好的初始化參數(shù),然后用Adam優(yōu)化器來(lái)微調(diào)預(yù)訓(xùn)練模型。實(shí)驗(yàn)表明,NER模型權(quán)重的這種預(yù)處理對(duì)于優(yōu)化器來(lái)說(shuō)是一種很好的初始化方法,與隨機(jī)初始化的模型相比,預(yù)訓(xùn)練的模型需要更少的訓(xùn)練數(shù)據(jù)。在模型微調(diào)期間,預(yù)處理模型也收斂得更快。為解決數(shù)據(jù)缺乏和實(shí)體類型錯(cuò)誤分類的問(wèn)題,Yoon等人[42]提出了利用多個(gè)NER模型的組合的CollaboNet。在CollaboNet中,在不同數(shù)據(jù)集上訓(xùn)練的模型相互連接,這樣目標(biāo)模型就可以從其他合作者模型中獲得信息,以減少誤報(bào)。
近年來(lái),基于深度學(xué)習(xí)的方法被廣泛應(yīng)用到生物醫(yī)學(xué)命名實(shí)體識(shí)別中,并取得了不錯(cuò)的結(jié)果。但深度學(xué)習(xí)方法往往需要大量的訓(xùn)練數(shù)據(jù),數(shù)據(jù)的缺乏會(huì)影響性能。生物醫(yī)學(xué)命名實(shí)體識(shí)別數(shù)據(jù)集是稀缺資源,每個(gè)數(shù)據(jù)集只覆蓋實(shí)體類型的一小部分。此外,許多生物實(shí)體具有多義性,這也是生物醫(yī)學(xué)命名實(shí)體識(shí)別的主要障礙之一。
表6 各應(yīng)用領(lǐng)域的代表方法及其貢獻(xiàn)
產(chǎn)生大量數(shù)據(jù)信息的社交媒體也是命名實(shí)體識(shí)別的一個(gè)重要應(yīng)用領(lǐng)域。隨著新媒體的發(fā)展,來(lái)自網(wǎng)絡(luò)新聞傳播的信息要遠(yuǎn)多于傳統(tǒng)新聞媒體,因此,在社交媒體上進(jìn)行命名實(shí)體識(shí)別任務(wù)可挖掘更有價(jià)值的信息,可在此基礎(chǔ)上實(shí)現(xiàn)對(duì)社交平臺(tái)上不同的數(shù)據(jù)流進(jìn)行分析,如檢測(cè)事件、熱點(diǎn)話題等。但由于其多樣性,社交媒體數(shù)據(jù)往往含有不恰當(dāng)?shù)恼Z(yǔ)法結(jié)構(gòu)和大量非正式縮略語(yǔ)。這也促使研究者們提出了多個(gè)有效的識(shí)別方法。
Twitter作為互聯(lián)網(wǎng)上訪問(wèn)量最大的十個(gè)網(wǎng)站之一,其產(chǎn)生的大量數(shù)據(jù)信息成為NER領(lǐng)域的研究熱點(diǎn)[60-62,66,68,73-74]。Li等人[62]提出了一個(gè)無(wú)監(jiān)督NER系統(tǒng),稱為T(mén)wiNER。利用從維基百科和網(wǎng)絡(luò)語(yǔ)料庫(kù)中獲得的全局上下文,使用動(dòng)態(tài)編程算法將推文劃分為有效的片段(短語(yǔ))。每個(gè)這樣的推文片段都是一個(gè)候選命名實(shí)體。然后通過(guò)一個(gè)隨機(jī)游走模型(Random Walk Model)計(jì)算每個(gè)片段成為命名實(shí)體的概率。實(shí)驗(yàn)結(jié)果表明在目標(biāo)數(shù)據(jù)集上,其效果優(yōu)于LBJ-NER[91]模型。Tran等人[74,92]針對(duì)Twitter數(shù)據(jù)多樣性問(wèn)題,利用主動(dòng)學(xué)習(xí)和機(jī)器學(xué)習(xí)結(jié)合的方法,降低了標(biāo)注數(shù)據(jù)成本,擴(kuò)大訓(xùn)練數(shù)據(jù)的覆蓋領(lǐng)域,提高了識(shí)別效果。Aguilar等人[93]提出一個(gè)多任務(wù)神經(jīng)網(wǎng)絡(luò),采用了通用的命名實(shí)體分割的次要任務(wù)和細(xì)粒度命名實(shí)體分類的主要任務(wù),從單詞和字符序列中學(xué)習(xí)特征表示。方法對(duì)社交媒體中的公司、創(chuàng)意、團(tuán)隊(duì)、位置、人名、產(chǎn)品等信息進(jìn)行了識(shí)別,實(shí)驗(yàn)結(jié)果反映出最難識(shí)別的是創(chuàng)意這類實(shí)體,識(shí)別準(zhǔn)確率最高的是人名。
隨著NER在英文社交媒體上取得了不錯(cuò)成果,很多學(xué)者對(duì)中文社交媒體也展開(kāi)了研究[63-64,69-71]。Peng等人[64]提出了一種允許聯(lián)合訓(xùn)練學(xué)習(xí)表示的集成模型,在中文社交媒體新浪微博文本中識(shí)別人名、組織和位置等實(shí)體。He等人[70]提出了一個(gè)統(tǒng)一的模型,可以從域外語(yǔ)料庫(kù)和域內(nèi)未標(biāo)注文本中學(xué)習(xí)。統(tǒng)一模型包含兩個(gè)主要功能,一個(gè)用于跨領(lǐng)域?qū)W習(xí),另一個(gè)用于半監(jiān)督學(xué)習(xí)??珙I(lǐng)域?qū)W習(xí)功能可以基于領(lǐng)域相似性學(xué)習(xí)領(lǐng)域外的信息,半監(jiān)督學(xué)習(xí)功能可以通過(guò)自我訓(xùn)練來(lái)學(xué)習(xí)領(lǐng)域內(nèi)未標(biāo)注的信息。在中國(guó)社交媒體上,這兩種學(xué)習(xí)功能都優(yōu)于NER的現(xiàn)有方法。目前,由于社交媒體往往是更新速度最快,新詞匯出現(xiàn)最多的領(lǐng)域,且其中含有很多不完整文本信息以及用戶生成的大量噪聲文本,使得該領(lǐng)域命名實(shí)體識(shí)別任務(wù)變得更加困難和富有挑戰(zhàn)性。
化學(xué)物質(zhì)對(duì)各個(gè)生命系統(tǒng)的影響使其成為生物醫(yī)學(xué)和臨床醫(yī)學(xué)應(yīng)用中一類重要實(shí)體,因此化學(xué)實(shí)體的識(shí)別對(duì)生物醫(yī)學(xué)、化工產(chǎn)業(yè)等領(lǐng)域都有重要的意義。在文獻(xiàn)中,化學(xué)品的命名方式多種多樣,有縮略語(yǔ)、新化學(xué)品命名名稱、化學(xué)符號(hào)、化學(xué)元素、化學(xué)公式等,這樣復(fù)雜的數(shù)據(jù)集給化學(xué)實(shí)體識(shí)別帶來(lái)了挑戰(zhàn)。Tchoua等人[94]針對(duì)這些問(wèn)題,使用主動(dòng)學(xué)習(xí)來(lái)有效地從專家那里獲取更多的專業(yè)標(biāo)記的訓(xùn)練數(shù)據(jù),從而提高模型性能。Luo等人[90]利用Attention+BILSTM+CRF方法對(duì)文檔中所包含的化學(xué)實(shí)體進(jìn)行識(shí)別。為進(jìn)一步挖掘化學(xué)與疾病之間相互作用信息打下了基礎(chǔ)。通過(guò)引入文檔級(jí)注意機(jī)制,使模型能夠關(guān)注同一標(biāo)記在文檔中多個(gè)實(shí)例之間的標(biāo)記一致性。Leaman等人[88]開(kāi)發(fā)了一個(gè)tmChem系統(tǒng),主要用于識(shí)別出生物醫(yī)學(xué)或者化學(xué)文獻(xiàn)中所包含的化學(xué)實(shí)體。通過(guò)使用模型組合的方法,將不同標(biāo)記、特征集、參數(shù)的CRF模型進(jìn)行組合來(lái)提高識(shí)別效果?;瘜W(xué)命名實(shí)體識(shí)別的相關(guān)工作較少,但其對(duì)挖掘生物醫(yī)學(xué)文本有著基礎(chǔ)性的作用,例如生物治療、藥物與藥物之間的相互作用研究等。
命名實(shí)體識(shí)別技術(shù)在其他應(yīng)用領(lǐng)域也都取得了不錯(cuò)的結(jié)果。陳鈺楓等人[95]基于漢英雙語(yǔ)命名實(shí)體的識(shí)別與對(duì)齊特性,提出了一種雙語(yǔ)命名實(shí)體交互式對(duì)齊模型。通過(guò)雙語(yǔ)實(shí)體的對(duì)齊信息使兩種語(yǔ)言特性互補(bǔ)、對(duì)實(shí)體識(shí)別結(jié)果進(jìn)行修正,為實(shí)體識(shí)別提供邊界和類別的判斷信息,從而提供識(shí)別的準(zhǔn)確率。馮鸞鸞等人[80]在BILSTM+CRF的基礎(chǔ)上采用深度學(xué)習(xí)與傳統(tǒng)語(yǔ)言學(xué)特征相結(jié)合的方法對(duì)國(guó)防科技領(lǐng)域軍事文本中的技術(shù)和術(shù)語(yǔ)進(jìn)行了識(shí)別。為構(gòu)建國(guó)防科技領(lǐng)域知識(shí)圖譜打下了基礎(chǔ)。李玉森等人[76]將命名實(shí)體識(shí)別的相關(guān)技術(shù)應(yīng)用于基于文本的地理空間知識(shí)挖掘技術(shù),不僅能夠豐富地理信息系統(tǒng)(Geographic Information System,GIS)的信息來(lái)源,而且能夠提升GIS的表達(dá)能力和可理解性。Gaio等人[77]提出一種基于知識(shí)的方法對(duì)文本地理信息中的空間實(shí)體進(jìn)行標(biāo)注,從而更好地分析空間信息、消除地方歧義。對(duì)于網(wǎng)絡(luò)情報(bào)分析工作來(lái)說(shuō),命名實(shí)體識(shí)別是構(gòu)建網(wǎng)絡(luò)安全圖譜的基礎(chǔ),由于網(wǎng)絡(luò)安全領(lǐng)域標(biāo)簽數(shù)據(jù)稀缺,Li[96]等人在BILSTM基礎(chǔ)上提出對(duì)抗主動(dòng)學(xué)習(xí)框架來(lái)有效地選擇信息樣本進(jìn)行進(jìn)一步的標(biāo)注,對(duì)模型進(jìn)行再訓(xùn)練,從文本網(wǎng)絡(luò)威脅情報(bào)中識(shí)別關(guān)鍵威脅相關(guān)要素。NER在各領(lǐng)域得到了大量的應(yīng)用,對(duì)多個(gè)領(lǐng)域都有著積極的作用。圖3為命名實(shí)體識(shí)別應(yīng)用領(lǐng)域比例圖。
圖3 命名實(shí)體識(shí)別應(yīng)用領(lǐng)域比例圖
命名實(shí)體識(shí)別評(píng)測(cè)基本指標(biāo)有三項(xiàng),分別為正確率(Precision)、召回率(Recall)和F值(F-score)。
準(zhǔn)確率反映了NER系統(tǒng)識(shí)別正確實(shí)體的能力,其計(jì)算公式為:
召回率反映了NER系統(tǒng)識(shí)別語(yǔ)料庫(kù)中所有實(shí)體的能力,其計(jì)算公式為:
F值是一個(gè)綜合評(píng)價(jià)指標(biāo),是準(zhǔn)確率和召回率的平均值,其公式為:
F值是綜合準(zhǔn)確率和召回率指標(biāo)的評(píng)估指標(biāo),用于綜合反映整體的指標(biāo),是目前使用最為廣泛的評(píng)測(cè)標(biāo)準(zhǔn)。
CONLL2003是經(jīng)典的命名實(shí)體識(shí)別任務(wù)數(shù)據(jù)集之一。主要提供了兩種歐洲語(yǔ)言:英語(yǔ)和德語(yǔ),共有1 393篇英語(yǔ)新聞文章和909篇德語(yǔ)新聞文章。所有的英語(yǔ)語(yǔ)料都來(lái)自于路透社語(yǔ)料庫(kù)(Result corpus),該語(yǔ)料庫(kù)由路透社的新聞報(bào)道組成。德語(yǔ)數(shù)據(jù)的文本信息都來(lái)自于ECI多語(yǔ)言文本語(yǔ)料庫(kù)(ECI Multilingual Text Corpus),這個(gè)語(yǔ)料庫(kù)由多種語(yǔ)言的文本組成,CONLL2003中所含的德語(yǔ)數(shù)據(jù)是從德國(guó)報(bào)紙F(tuán)rankfurter Rundshau上提取的。CONLL2003中,實(shí)體被標(biāo)注為四種類型地名(Location,LOC)、組織機(jī)構(gòu)名(Organisation,ORG)、人名(Person,PER)、其他(Miscellaneous,MISC)。
MSRA-NER[97]數(shù)據(jù)集由微軟研究院發(fā)布,其目標(biāo)是命名實(shí)體識(shí)別,是指識(shí)別文本中具有特定意義的實(shí)體,共有五萬(wàn)多條中文命名實(shí)體識(shí)別標(biāo)注數(shù)據(jù),主要包括人名、地名、機(jī)構(gòu)名等。MUC-6[3]數(shù)據(jù)庫(kù)語(yǔ)料主要取自于新聞?wù)Z料,包含318條帶注釋的《華爾街日?qǐng)?bào)》文章。MUC-7語(yǔ)料庫(kù)的數(shù)據(jù)主要有紐約時(shí)報(bào)新聞服務(wù)社提供,約158 000篇文章。
CoNLL2002西班牙語(yǔ)NER共享任務(wù)數(shù)據(jù)集,包含273 000的訓(xùn)練數(shù)據(jù)集和53 000的測(cè)試數(shù)據(jù)集。OntoNotes 5.0[98]由1 745 000英語(yǔ)、900 000中文和300 000阿拉伯語(yǔ)文本數(shù)據(jù)組成,OntoNotes 5.0[99]的數(shù)據(jù)來(lái)源也多種多樣,有電話對(duì)話、新聞通訊社、廣播新聞、廣播對(duì)話和博客。實(shí)體被標(biāo)注為地名(Location,LOC)、組織機(jī)構(gòu)名(Organisation,ORG)、人名(Person,PER)等18個(gè)類別。不同方法在數(shù)據(jù)集上的評(píng)測(cè)效果見(jiàn)表7。
表7 不同方法在數(shù)據(jù)集上的評(píng)測(cè)效果
表7中,主要總結(jié)了不同方法在CONLL2003、MSRA、OntoNotes 5.0等三個(gè)數(shù)據(jù)集上不同的評(píng)測(cè)效果。圖4為基于卷積神經(jīng)網(wǎng)絡(luò)和基于循環(huán)神經(jīng)網(wǎng)絡(luò)在三個(gè)數(shù)據(jù)集上的評(píng)測(cè)效果展示。從圖5(a)和(b)可看出Akbik等人[100]所提出的Character-level LM-BILSTM-CRF模型在CONLL2003(German)和OntoNotes 5.0數(shù)據(jù)集上都取得了最先進(jìn)的F值。該模型將句子作為字符序列輸入到預(yù)先訓(xùn)練好的雙向字符語(yǔ)言模型中,利用從語(yǔ)言模型中選擇隱藏狀態(tài)生成在下游序列標(biāo)記任務(wù)有效的word-level embeddings,word-level embeddings由前向LSTM中該詞最后一個(gè)字母的隱藏狀態(tài)和反向LSTM中該詞第一個(gè)字母的隱藏狀態(tài)拼接組成,以此來(lái)兼顧上下文信息,達(dá)到更好的效果。雖然基于RNN的模型在NER任務(wù)上已成為主流,但從圖5(a)可以看出只用ID-CNN在CONLL-2003(ENGLISH)數(shù)據(jù)集上也取得了不錯(cuò)的效果,Strubell等人[18]通過(guò)擴(kuò)張卷積彌補(bǔ)了CNN表示受網(wǎng)絡(luò)有效輸入寬度限制的不足。而且從圖5(b)也可以看出,RNN與CNN結(jié)合的BILSTM-CNN、BRNN-CNN、CNN-LSTM模型在OntoNotes 5.0數(shù)據(jù)集上也都取得較好的結(jié)果。在中文命名實(shí)體識(shí)別上,圖5(c)中楊飄等人[32]的BERT-BIGRU-CRF網(wǎng)絡(luò)結(jié)構(gòu)在MSRA中文語(yǔ)料上F值達(dá)到了最先進(jìn)的效果。該模型主要加入了BERT預(yù)訓(xùn)練語(yǔ)言模型,BERT采用雙向Transformer作為編碼器,而且還提出了“Masked”語(yǔ)言模型和“下一個(gè)句子預(yù)測(cè)”兩個(gè)任務(wù),分別捕捉詞級(jí)別和句子級(jí)別的表示,并進(jìn)行聯(lián)合訓(xùn)練,從而提升了識(shí)別效果。圖5(d)為三種方法在CONLL2003和OntoNotes 5.0數(shù)據(jù)集上的效果對(duì)比圖,從圖5(d)看出相同的方法在CONLL2003數(shù)據(jù)集上的效果要好于在OntoNotes 5.0數(shù)據(jù)集上。ID-CNN模型雖然在OntoNotes 5.0數(shù)據(jù)集效果要好于BILSTM-CNN模型,但在CONLL2003數(shù)據(jù)集上卻相反,因此對(duì)于不同的數(shù)據(jù)集應(yīng)選用合適的方法才能取得更好的效果。通過(guò)對(duì)以上方法的比較發(fā)現(xiàn)CNN與RNN的結(jié)合以及對(duì)于輸入表示方法的改進(jìn)會(huì)改善命名實(shí)體識(shí)別的效果,所以未來(lái)研究可以考慮將RNN與CNN結(jié)合或改進(jìn)輸入表示的方法從而提高命名實(shí)體識(shí)別的效果。
圖4 評(píng)測(cè)效果圖
圖5 數(shù)據(jù)分析效果圖
基于深度學(xué)習(xí)的命名實(shí)體識(shí)別目前已經(jīng)取得了較大的成功,已成為自然語(yǔ)言處理領(lǐng)域中一項(xiàng)重要的基礎(chǔ)性技術(shù),在很多公開(kāi)數(shù)據(jù)集上都達(dá)到了很好的性能。但仍存在以下一些問(wèn)題:
(1)邊界詞的識(shí)別問(wèn)題
詞語(yǔ)邊界的識(shí)別錯(cuò)誤是影響識(shí)別效果的主要因素之一,正確的識(shí)別實(shí)體邊界可以進(jìn)一步提高實(shí)體的識(shí)別效果。
(2)專業(yè)領(lǐng)域詞匯的識(shí)別問(wèn)題
專業(yè)領(lǐng)域命名實(shí)體的產(chǎn)生往往以該領(lǐng)域知識(shí)為依據(jù),兼顧其語(yǔ)言規(guī)律特性,有些領(lǐng)域的實(shí)體不僅存在詞表外問(wèn)題,而且有些實(shí)體是一詞多義,這使得識(shí)別難度大大增加,導(dǎo)致在許多專業(yè)領(lǐng)域無(wú)法實(shí)現(xiàn)較高的識(shí)別性能?;谠搯?wèn)題,雖然很多研究人員發(fā)現(xiàn)字符級(jí)輸入表示的模型識(shí)別效果要好于詞表示,但還是會(huì)有一些罕見(jiàn)詞匯無(wú)法識(shí)別。
(3)針對(duì)訓(xùn)練(標(biāo)注)數(shù)據(jù)缺乏的深入設(shè)計(jì)
采用深度學(xué)習(xí)方法進(jìn)行命名實(shí)體識(shí)別時(shí),一般需要大規(guī)模的標(biāo)注數(shù)據(jù)。雖然基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)在多個(gè)NER任務(wù)上都取得了不錯(cuò)的結(jié)果,但因?yàn)樵谀P陀?xùn)練中,可用于模型訓(xùn)練的數(shù)據(jù)往往是有限的,有一些標(biāo)準(zhǔn)數(shù)據(jù)集只包括一種或兩種類型標(biāo)注,不包括其他類型,還有一種情況是在有限的訓(xùn)練數(shù)據(jù)中每種類型實(shí)體的數(shù)據(jù)只占標(biāo)注數(shù)據(jù)總量的一小部分。這就造成訓(xùn)練數(shù)據(jù)的缺乏從而影響模型的學(xué)習(xí)效果。針對(duì)這些問(wèn)題,逐漸涌現(xiàn)出了一些新的方法,如聯(lián)合訓(xùn)練模型、遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)等,這些方法雖然解決了標(biāo)注數(shù)據(jù)缺乏的問(wèn)題,但往往都需要大量的內(nèi)存和時(shí)間。因此如何在減少數(shù)據(jù)注釋工作的同時(shí)減低成本、提高模型性能還值得學(xué)者們繼續(xù)研究和探索。
(4)性能的進(jìn)一步提升
隨著模型的改進(jìn),命名實(shí)體識(shí)別方法的性能得到了提升,在公開(kāi)數(shù)據(jù)集上的F值已由80%左右提升至90%以上,并且有極個(gè)別的方法突破了95%。雖然不同的數(shù)據(jù)集對(duì)于方法存在一定影響,但總體來(lái)講,命名實(shí)體識(shí)別方法的性能仍有較大的提升空間,特別是在特定的應(yīng)用領(lǐng)域。例如在生物醫(yī)學(xué)領(lǐng)域,已有方法的F值大都低于90%;文獻(xiàn)[100,105,108]等方法在德文上的表現(xiàn)均遠(yuǎn)低于其在英文上的表現(xiàn)。多模型的結(jié)合、針對(duì)數(shù)據(jù)的設(shè)計(jì)以及專業(yè)知識(shí)的嵌入對(duì)方法的性能提高將起到積極的作用。
就現(xiàn)階段的命名實(shí)體識(shí)別研究工作取得的成績(jī)和存在的問(wèn)題來(lái)說(shuō),未來(lái)還可以通過(guò)以下幾個(gè)方面對(duì)NER展開(kāi)研究:
(1)左邊界詞的檢測(cè)。左邊界詞的識(shí)別很大程度上影響整個(gè)實(shí)體的識(shí)別,其中可能包括多個(gè)詞,因此,一旦第一個(gè)單詞被錯(cuò)誤地標(biāo)記,隨后的單詞標(biāo)記正確率也將受到很大影響。尤其是對(duì)于中文實(shí)體的識(shí)別任務(wù),詞語(yǔ)之間沒(méi)有間隔符,會(huì)因?yàn)榉衷~或詞匯列表外單詞的影響,難以識(shí)別實(shí)體邊界,導(dǎo)致實(shí)體識(shí)別錯(cuò)誤。目前,主流的中文命名實(shí)體識(shí)別模型大多都是采用序列標(biāo)注的方法,將實(shí)體邊界與實(shí)體類別在同一模型中一起標(biāo)注,而忽略了邊界詞識(shí)別的重要性,有研究表明,實(shí)體邊界識(shí)別錯(cuò)誤是影響識(shí)別效果的主要因素之一[113],邊界詞的識(shí)別可顯著地提高實(shí)體識(shí)別效果。因此,接下來(lái)可以在加強(qiáng)實(shí)體邊界檢測(cè)方向上進(jìn)行研究,提高實(shí)體識(shí)別的準(zhǔn)確率,如可使用B-I-E的標(biāo)記方案來(lái)加強(qiáng)邊界詞的檢測(cè)。
(2)專業(yè)知識(shí)的深度結(jié)合。結(jié)合特定專業(yè)知識(shí)來(lái)提高NER性能,在生物醫(yī)學(xué)、化學(xué)、社交媒體等領(lǐng)域,因?yàn)槠鋽?shù)據(jù)的復(fù)雜性及不規(guī)范性,在進(jìn)行命名實(shí)體識(shí)別任務(wù)時(shí)經(jīng)常會(huì)遇到難以準(zhǔn)確識(shí)別詞匯列表外單詞的問(wèn)題。對(duì)于一些在詞匯列表外的單詞和低頻詞需要結(jié)合專業(yè)領(lǐng)域的知識(shí)來(lái)進(jìn)行數(shù)據(jù)標(biāo)記,可通過(guò)領(lǐng)域?qū)<医槿?、人機(jī)協(xié)同等方式進(jìn)一步強(qiáng)化專業(yè)詞匯和規(guī)則,使命名實(shí)體識(shí)別應(yīng)用到更多的場(chǎng)景中。
(3)主動(dòng)學(xué)習(xí)?;谏疃葘W(xué)習(xí)的命名實(shí)體識(shí)別在訓(xùn)練過(guò)程中往往都需要大量的注釋數(shù)據(jù),但注釋數(shù)據(jù)量大耗時(shí),而且還需要專業(yè)領(lǐng)域的專家進(jìn)行注釋。因此數(shù)據(jù)標(biāo)注問(wèn)題在NER模型訓(xùn)練中成為了一個(gè)難題。主動(dòng)學(xué)習(xí)可以通過(guò)一定的算法查詢最有用的未標(biāo)記數(shù)據(jù),并交由專家進(jìn)行標(biāo)記,然后用查詢到的數(shù)據(jù)訓(xùn)練模型從而提高模型的精確度。在文獻(xiàn)[74,92,94,96]等研究中都解決了一些特殊領(lǐng)域因?qū)I(yè)標(biāo)記數(shù)據(jù)缺失而導(dǎo)致模型性能較差的問(wèn)題,證實(shí)了將主動(dòng)學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合的有效性。因此,在深度學(xué)習(xí)的基礎(chǔ)上引入主動(dòng)學(xué)習(xí),未來(lái)可作為解決數(shù)據(jù)標(biāo)注問(wèn)題的一種解決方案。
(4)多任務(wù)學(xué)習(xí)。多任務(wù)學(xué)習(xí)涉及多個(gè)相關(guān)的任務(wù)同時(shí)并行學(xué)習(xí),梯度同時(shí)反向傳播,多個(gè)任務(wù)通過(guò)底層的共享表示來(lái)互相幫助學(xué)習(xí),提升主任務(wù)泛化效果。多任務(wù)學(xué)習(xí)的一個(gè)基本前提是,不同的數(shù)據(jù)集要有語(yǔ)義和語(yǔ)法上的相似性,這些相似性可以幫助訓(xùn)練一個(gè)更優(yōu)化的模型。相比單一數(shù)據(jù)集訓(xùn)練,它有助于減少模型過(guò)擬合,還可以解決訓(xùn)練數(shù)據(jù)缺乏問(wèn)題。因此NER的深度多任務(wù)學(xué)習(xí)也是未來(lái)的一個(gè)發(fā)展方向,通過(guò)考慮不同任務(wù)之間的關(guān)系,多任務(wù)學(xué)習(xí)算法有望比單獨(dú)學(xué)習(xí)每任務(wù)的算法取得更好的結(jié)果,Ruder等人[112]已經(jīng)在實(shí)驗(yàn)中得到了證實(shí)。
(5)多模態(tài)網(wǎng)絡(luò)融合。通過(guò)多模態(tài)NER網(wǎng)絡(luò)融合文本信息和視覺(jué)信息,利用關(guān)聯(lián)圖像更好地識(shí)別文本中包含的命名實(shí)體。在某些領(lǐng)域中往往存在很多多義詞,這時(shí)候就需要依賴于其語(yǔ)境和實(shí)體關(guān)聯(lián)圖像。額外的視覺(jué)語(yǔ)境可能會(huì)引導(dǎo)每個(gè)單詞學(xué)習(xí)更好的單詞表征。另一方面,由于每個(gè)視覺(jué)塊通常與幾個(gè)輸入詞密切相關(guān),結(jié)合視覺(jué)塊表示可以潛在地使其相關(guān)詞的預(yù)測(cè)更加準(zhǔn)確。
(6)應(yīng)用領(lǐng)域的擴(kuò)展與深入研究。目前的方法雖然取得了一定的成績(jī),但在具體應(yīng)用領(lǐng)域的性能表現(xiàn)還有待于進(jìn)一步提升。借鑒強(qiáng)化學(xué)習(xí)的思路,將專業(yè)知識(shí)和規(guī)則引入獎(jiǎng)勵(lì)機(jī)制、采用人機(jī)協(xié)同的方法以及將多種網(wǎng)絡(luò)進(jìn)行有機(jī)結(jié)合等思路有可能取得新的突破。同時(shí)將NER應(yīng)用在更多的學(xué)科領(lǐng)域,為多領(lǐng)域的研究提供幫助,使命名實(shí)體識(shí)別更有價(jià)值,這也是研究NER的目的和意義所在。