左亞堯,陳皓宇,陳致然,洪嘉偉,陳坤
融合多語(yǔ)義特征的命名實(shí)體識(shí)別方法
左亞堯*,陳皓宇,陳致然,洪嘉偉,陳坤
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006)( ? 通信作者電子郵箱yyzuo@gdut.edu.cn)
針對(duì)語(yǔ)言普遍存在的字符間非線性關(guān)系,為捕獲更豐富的語(yǔ)義特征,提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)和自注意力機(jī)制的命名實(shí)體識(shí)別(NER)方法。首先,借助深度學(xué)習(xí)方法有效提取字符特征的能力,采用GCN學(xué)習(xí)字符間的全局語(yǔ)義特征,并且采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)提取字符的上下文依賴(lài)特征;其次,融合以上特征并引入自注意力機(jī)制計(jì)算其內(nèi)部重要度;最后,使用條件隨機(jī)場(chǎng)(CRF)從融合特征中解碼出最優(yōu)的編碼序列,并以此作為實(shí)體識(shí)別的結(jié)果。實(shí)驗(yàn)結(jié)果表明,與單一采用BiLSTM和CRF的方法相比,所提方法在微軟亞洲研究院(MSRA)數(shù)據(jù)集和BioNLP/NLPBA 2004數(shù)據(jù)集上的精確率分別至少提高了2.39%和15.2%??梢?jiàn)該方法在中文和英文數(shù)據(jù)集上都具備良好的序列標(biāo)注能力,且泛化能力較強(qiáng)。
命名實(shí)體識(shí)別;序列標(biāo)注;自注意力機(jī)制;圖卷積網(wǎng)絡(luò);雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)
命名實(shí)體識(shí)別(Named Entity Recognition, NER)是自然語(yǔ)言處理領(lǐng)域的重要研究方向之一,其目的是識(shí)別文本數(shù)據(jù)中的具有特定意義的實(shí)體,如人名、地名、機(jī)構(gòu)名、組織名等,在關(guān)系抽取、信息檢索、機(jī)器翻譯等任務(wù)中有著重要作用。因其基石性地位,國(guó)內(nèi)外學(xué)者圍繞命名實(shí)體識(shí)別的性能、普適性和面向語(yǔ)系等不同方面做了較多研究,并利用監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí)等不同手段,衍生出一批從特征工程到深度學(xué)習(xí)的方法。
作為序列標(biāo)注的子任務(wù),命名實(shí)體識(shí)別一般可以抽象為三層結(jié)構(gòu):特征表示層、特征編碼層和標(biāo)簽解碼層。其中編碼層可采用隨機(jī)初始化字符編碼或預(yù)訓(xùn)練編碼;特征編碼層可采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)學(xué)習(xí)上下文編碼信息;標(biāo)簽解碼層可采用條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)解碼出實(shí)體識(shí)別結(jié)果的序列。
近年來(lái),Huang等[1]所構(gòu)建的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory network, BiLSTM)-CRF模型取得突破性成果,其F1在CoNLL2003數(shù)據(jù)集上達(dá)90.10%,成為實(shí)現(xiàn)命名實(shí)體識(shí)別任務(wù)的代表方法。該方法證明了BiLSTM在學(xué)習(xí)字符上下文信息方面的優(yōu)越性,并且CRF充分考慮全局特征后在解碼時(shí)具有一定優(yōu)勢(shì),后續(xù)有許多方法都在此基礎(chǔ)上進(jìn)行改進(jìn)。
為了提高識(shí)別效果,學(xué)者們著手研究如何輸入更豐富的特征。Song等[2]通過(guò)對(duì)比多種詞嵌入方法,最后選擇以Word2Vec為詞嵌入;Luo等[3]針對(duì)BiLSTM連續(xù)性和單一輸入的特點(diǎn),提出了分層語(yǔ)義表示增強(qiáng)模型,通過(guò)融合句子級(jí)信息和文檔級(jí)信息,使模型能夠充分利用全局信息;Gajendran等[4]考慮了字符級(jí)和單詞級(jí)的特征,提出雙向命名實(shí)體識(shí)別(Bidirectional Named Entity Recognition, BNER)神經(jīng)網(wǎng)絡(luò),在沒(méi)有大量標(biāo)注數(shù)據(jù)的情況下取得了較好的效果。
相對(duì)于英文語(yǔ)系,中文命名實(shí)體識(shí)別通常采用字符作為觀測(cè)序列。其原因在于,中文的詞邊界不明顯,前序工作所產(chǎn)生的分詞誤差將給后續(xù)實(shí)體識(shí)別任務(wù)帶來(lái)噪聲。故在通用領(lǐng)域數(shù)據(jù)集中,相比基于詞匯的方法,基于字符的命名實(shí)體識(shí)別通常有較好的表現(xiàn)。文獻(xiàn)[5]基于中文的字符級(jí)表示構(gòu)建BiLSTM-CRF神經(jīng)網(wǎng)絡(luò),在微軟亞洲研究院(MicroSoft Research Asia, MSRA)數(shù)據(jù)集上取得F1值90.95%的性能結(jié)果。
基于字符的方法雖然沒(méi)有引入噪聲,但同樣丟失了詞匯信息等特征,而詞匯邊界對(duì)實(shí)體切分有著重要作用。因此,學(xué)者開(kāi)始研究詞匯增強(qiáng)的方法。例如,文獻(xiàn)[6]在字符特征的基礎(chǔ)上引入詞性特征,而文獻(xiàn)[7]從漢字的特點(diǎn)出發(fā),將字形特征以五筆編碼的形式用于信息增強(qiáng)。這些方法通過(guò)在原有字符的基礎(chǔ)上改進(jìn)模型,使其可以接收詞匯信息的輸入,從而提高識(shí)別精度。Lattice LSTM[8]是最先提出的詞匯增強(qiáng)命名實(shí)體識(shí)別方法,其通過(guò)詞典匹配句子獲取詞匯節(jié)點(diǎn),再將詞匯節(jié)點(diǎn)加入原有BiLSTM,形成一個(gè)有向無(wú)環(huán)圖,以此融合詞匯信息。但該方法由于增加了個(gè)數(shù)不定的詞匯節(jié)點(diǎn),無(wú)法并行化處理,計(jì)算性能相對(duì)較低。同時(shí)因?yàn)锽iLSTM本身特點(diǎn),模型只能獲取到以當(dāng)前字符為結(jié)尾的線性詞匯信息,且前向和后向不能共享,故容易產(chǎn)生詞匯信息沖突。
對(duì)于引入的詞匯信息等外部特征,為避免RNN類(lèi)算法在順序計(jì)算過(guò)程中造成信息丟失,使模型根據(jù)信息重要程度分配不同權(quán)重,從而更關(guān)注實(shí)體相關(guān)的字符,學(xué)者采用注意力機(jī)制選擇輸入的特征。在中文問(wèn)答任務(wù)[9]、多粒度實(shí)體識(shí)別[10]中以及信息安全領(lǐng)域?qū)嶓w識(shí)別[11]的實(shí)驗(yàn)表明,注意力的引入可以幫助快速提取數(shù)據(jù)的重要特征。由于這些方法需要依賴(lài)外部信息,故模型容易出現(xiàn)泛化能力不強(qiáng)的情況。
作為注意力機(jī)制的一種變體,自注意力機(jī)制更擅長(zhǎng)捕捉特征的內(nèi)部相關(guān)性,減少模型對(duì)外部特征的依賴(lài)。在許多領(lǐng)域任務(wù)都取得較好效果的Transformer[12],正是利用自注意力(Self-Attention)機(jī)制學(xué)習(xí)文本表示中的關(guān)聯(lián)信息。文獻(xiàn)[13]中同樣利用Self-Attention關(guān)注學(xué)習(xí)到的詞向量,得到句子的內(nèi)部表示,進(jìn)而實(shí)現(xiàn)法律文書(shū)中的實(shí)體識(shí)別。在文本應(yīng)用中,通過(guò)Self-Attention計(jì)算字符間的相互影響,可以彌補(bǔ)BiLSTM在遠(yuǎn)距離依賴(lài)捕獲上的不足。
綜上所述,采用字作為輸入BiLSTM-CRF模型是當(dāng)前的主流方法,為捕獲更豐富的語(yǔ)義特征,Lattice LSTM將詞典匹配的詞匯與字節(jié)點(diǎn)首尾相連,實(shí)驗(yàn)表明實(shí)體識(shí)別效果有所提升;但該方法只能看到前序信息,無(wú)法捕捉遠(yuǎn)距離的依賴(lài)關(guān)系,導(dǎo)致模型過(guò)于重視局部特征,且運(yùn)行效率低下。圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)則是以圖網(wǎng)絡(luò)的方法聚合的局部信息,但需要復(fù)雜的模型結(jié)構(gòu),且相應(yīng)的詞典并非時(shí)??傻?。針對(duì)上述問(wèn)題,提出一種融合多語(yǔ)義特征的命名實(shí)體識(shí)別模型(Self-Attention-BiLSTM-GCN-CRF, BGCN),采用隨機(jī)初始化向量作為字符嵌入,BiLSTM作為編碼層,學(xué)習(xí)字符之間的上下文信息;通過(guò)GCN學(xué)習(xí)字符的全局語(yǔ)義信息,即遠(yuǎn)距離依賴(lài)關(guān)系,并將其與上下文信息一起經(jīng)過(guò)自注意力融合。在兩個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,精度優(yōu)于現(xiàn)有的BiLSTM-CRF模型。
在命名實(shí)體識(shí)別研究中,深度學(xué)習(xí)已被證實(shí)是自動(dòng)學(xué)習(xí)和提取深度特征的有效工具。對(duì)于特征表示,學(xué)者們大多選用符號(hào)、詞性、詞邊界、上下文和語(yǔ)義等,設(shè)計(jì)相應(yīng)的組合特征。
對(duì)于特征編碼,為了能分別捕獲過(guò)去和將來(lái)的信息,學(xué)者改進(jìn)長(zhǎng)短時(shí)記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò),提出了BiLSTM,該模型將每個(gè)序列向前和向后呈現(xiàn)為兩個(gè)單獨(dú)的隱藏狀態(tài),再將兩個(gè)隱藏狀態(tài)連接起來(lái)形成最終輸出。
對(duì)于特征解碼,CRF是用于解決序列標(biāo)注問(wèn)題的主流判別式模型。為了適應(yīng)各自領(lǐng)域,學(xué)者就原有CRF進(jìn)行相關(guān)改進(jìn),如Chen等[14]提出級(jí)聯(lián)CRF;Sun等[15]利用CRF完成多視圖序列標(biāo)注。因?yàn)榭紤]了上下文標(biāo)簽的關(guān)系,借助特征表示層提取的特征,CRF可較好地完成序列標(biāo)注任務(wù)。
基于BiLSTM-CRF這一主流模型,各行業(yè)領(lǐng)域產(chǎn)生了許多應(yīng)用,包括自動(dòng)提取客戶(hù)咨詢(xún)問(wèn)題序列中的實(shí)體特征[16]、微博評(píng)論[17]、生物信息領(lǐng)域[18]和社會(huì)突發(fā)事件[19]的實(shí)體識(shí)別,以及惡意軟件名稱(chēng)[20]。縱觀序列標(biāo)注的相關(guān)研究可以發(fā)現(xiàn),以BiLSTM-CRF模型為核心的端到端模型在序列標(biāo)注任務(wù)上可以取得不錯(cuò)的效果,該模型可以有效完成實(shí)體識(shí)別任務(wù)。該組合模型的結(jié)構(gòu)如圖1所示。
圖1 BiLSTM-CRF模型
近幾年,圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)的成功推動(dòng)了自然語(yǔ)言處理領(lǐng)域相關(guān)研究的發(fā)展。許多深度學(xué)習(xí)任務(wù),如語(yǔ)義分隔、文本分類(lèi)和動(dòng)作識(shí)別,由以往使用歐氏數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和RNN方法轉(zhuǎn)變?yōu)槭褂梅菤W氏數(shù)據(jù)的GNN[21]方法。模型利用循環(huán)神經(jīng)結(jié)構(gòu)傳播周?chē)?jié)點(diǎn)的信息,經(jīng)過(guò)迭代到達(dá)一個(gè)穩(wěn)定的不動(dòng)點(diǎn),從而得到目標(biāo)節(jié)點(diǎn)的向量表示。在GNN的推動(dòng)下,通過(guò)借鑒CNN、RNN等神經(jīng)網(wǎng)絡(luò)的思想,相關(guān)學(xué)者定義和設(shè)計(jì)了用于處理圖結(jié)構(gòu)數(shù)據(jù)的GCN,并將之應(yīng)用于分類(lèi)任務(wù)[22]。
現(xiàn)有實(shí)驗(yàn)證明GCN具有強(qiáng)大的特征提取能力,能提取圖結(jié)構(gòu)的數(shù)據(jù)特征并應(yīng)用在關(guān)系分類(lèi)、標(biāo)簽分類(lèi)等領(lǐng)域上。本文利用現(xiàn)有GCN對(duì)圖結(jié)構(gòu)數(shù)據(jù)的處理能力來(lái)提取遠(yuǎn)距離的字符間的特征。
本文結(jié)合自注意力機(jī)制、GCN模型、BiLSTM模型和CRF模型特點(diǎn),采用GCN模型提取字符之間全局語(yǔ)義特征,并融合BiLSTM模型學(xué)習(xí)的字符序列間的依賴(lài)關(guān)系特征,再將其輸入到自注意力層中關(guān)注特征的內(nèi)部重要度后輸入CRF模型來(lái)進(jìn)行解碼得到最優(yōu)編碼序列。本文將從模型構(gòu)建、全局語(yǔ)義學(xué)習(xí)、上下文語(yǔ)義學(xué)習(xí)、語(yǔ)義融合、CRF解碼和算法描述等方面來(lái)介紹模型。
該模型首先利用滑動(dòng)窗口構(gòu)建共現(xiàn)矩陣的方法來(lái)處理語(yǔ)料獲得候選詞語(yǔ),根據(jù)點(diǎn)互信息(Pointwise Mutual Information, PMI)計(jì)算字符之間的關(guān)聯(lián)度,進(jìn)而構(gòu)成字符鄰接矩陣;之后,將語(yǔ)料數(shù)據(jù)編碼為字符向量輸入到BiLSTM模型學(xué)習(xí)得到上下文特征向量,并將字符鄰接矩陣及特征矩陣輸入GCN得到全局語(yǔ)義特征向量,最后融合兩者并經(jīng)過(guò)多頭自注意力關(guān)注后輸入到CRF中進(jìn)行序列標(biāo)注。其整體流程如圖2所示。
圖2 BGCN模型流程
其中,每層GCN能夠?qū)W習(xí)到一階距離的節(jié)點(diǎn)信息,通過(guò)疊加多層GCN可使圖中每個(gè)節(jié)點(diǎn)都可以學(xué)習(xí)到全局范圍的特征信息,其傳播過(guò)程如式(6)所示:
LSTM是一種特殊的RNN,能夠?qū)W習(xí)長(zhǎng)距離依賴(lài)的關(guān)系,一定程度上可緩解RNN中梯度消失的問(wèn)題。LSTM單元由輸入門(mén)、更新門(mén)、遺忘門(mén)和記憶單元4部分組成,其中記憶單元的作用是對(duì)信息進(jìn)行管理和保存,而三個(gè)門(mén)的作用是控制記憶單元中信息的更新變化。BiLSTM由前向LSTM與后向LSTM組成,可以更好地捕捉雙向的語(yǔ)義依賴(lài)信息,故本文采用BiLSTM捕獲字符的上下文語(yǔ)義依賴(lài)特征。LSTM模型的單元結(jié)構(gòu)如圖3所示。
圖3 LSTM單元結(jié)構(gòu)
LSTM單元在時(shí)刻的傳播公式如式(8)~(13)所示:
其中:、、是在訓(xùn)練中學(xué)習(xí)得到的權(quán)重矩陣。
CRF是一種概率無(wú)向圖模型,其原理是計(jì)算給定序列中的最優(yōu)聯(lián)合概率分布,從而優(yōu)化整個(gè)序列,而不是單獨(dú)求出每個(gè)時(shí)刻的最優(yōu)解后,再進(jìn)行拼接。本文使用CRF模型約束注意力層提取的特征向量,進(jìn)而解碼得到最優(yōu)標(biāo)注序列。
在訓(xùn)練過(guò)程中采用最大似然估計(jì)方法對(duì)CRF模型進(jìn)行參數(shù)優(yōu)化,其對(duì)數(shù)似然函數(shù)如式(21)所示:
基于上述各模塊,本文提出融合多特征的命名實(shí)體識(shí)別算法,整體由3個(gè)部分組成,分別為全局語(yǔ)義特征的學(xué)習(xí)模塊、上下文特征的學(xué)習(xí)模塊和序列解碼模塊。其中,句子融合語(yǔ)義通過(guò)GCN和BiLSTM捕獲并融合,CRF所生成的標(biāo)注采用最大似然方法進(jìn)行更新。
算法1 融合多特征的命名實(shí)體識(shí)別算法。
2) 重復(fù)以下操作,直到完成訓(xùn)練輪數(shù):
③根據(jù)式(13)計(jì)算得到上下文特征向量;
④融合全局語(yǔ)義特征向量和上下文特征向量, 并根據(jù)式(14)計(jì)算融合特征向量的內(nèi)部重要度;
3) 根據(jù)學(xué)到的模型,預(yù)測(cè)測(cè)試集中的句子對(duì)應(yīng)的標(biāo)注序列。
算法1描述了融合多特征的命名實(shí)體識(shí)別算法。整個(gè)算法分為三個(gè)部分:全局語(yǔ)義特征的學(xué)習(xí)和上下文特征的學(xué)習(xí),以及利用最大似然估計(jì)對(duì)CRF所生成的標(biāo)注進(jìn)行更新。
將BGCN模型在各數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與其他方法比較;分析不同參數(shù)配置對(duì)模型性能的影響,以及去除注意力層后的模型效果。
1) MSRA:微軟亞洲研究院2006年SIGHAN命名實(shí)體識(shí)別語(yǔ)料庫(kù),由50 729條中文命名實(shí)體識(shí)別標(biāo)注數(shù)據(jù)組成,包括地點(diǎn)、機(jī)構(gòu)和人物。SIGHAN(Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics)是國(guó)際計(jì)算語(yǔ)言學(xué)會(huì)(ACL)中文語(yǔ)言處理小組的簡(jiǎn)稱(chēng)。
2) BioNLP/NLPBA(Biomedical Natural Language Processing/Natural Language Processing in Biomedical Applications) 2004數(shù)據(jù)集:來(lái)自GENIA版本3.02語(yǔ)料的2000MEDLINE摘要,該摘要由生物醫(yī)學(xué)術(shù)語(yǔ){human, transcription factor, blood cell}組成。經(jīng)處理后僅使用蛋白質(zhì)(protein)、DNA、RNA、細(xì)胞系(cell line)和細(xì)胞類(lèi)型(cell type)等命名實(shí)體。
MSRA和BioNLP/NLPBA 2004是公開(kāi)數(shù)據(jù)集,并且已經(jīng)給出詞性標(biāo)注,但需將其詞性標(biāo)注轉(zhuǎn)換為BIO(Begin Inside Other)系統(tǒng),其中B表示命名實(shí)體的首字符,I表示除命名實(shí)體首字符外的其他實(shí)體字符,O表示非命名實(shí)體字符。其中,MSRA數(shù)據(jù)集有3個(gè)實(shí)體類(lèi)別,如表1所示;BioNLP/NLPBA 2004數(shù)據(jù)集有5個(gè)實(shí)體類(lèi)別,如表2所示。
表1MSRA實(shí)體標(biāo)簽
Tab.1 MSRA entity labels
表2BioNLP/NLPBA 2004實(shí)體標(biāo)簽
Tab.2 BioNLP/NLPBA 2004 entity labels
將帶有實(shí)體標(biāo)簽的數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集與測(cè)試集,數(shù)據(jù)集的劃分情況如表3所示。
表3數(shù)據(jù)集劃分情況
Tab.3 Dataset division condition
表4模型參數(shù)設(shè)置
Tab.4 Model parameter setting
本文的實(shí)驗(yàn)環(huán)境及配置如表5所示。
表5軟硬件環(huán)境
Tab.5 Software and hardware environments
本文使用3個(gè)指標(biāo)作為評(píng)價(jià)標(biāo)準(zhǔn):實(shí)體標(biāo)簽精確率(Precision,)、實(shí)體標(biāo)簽的召回率(Recall,)和綜合評(píng)價(jià)指標(biāo)F1值(1)。計(jì)算公式如式(23)~(25)所示:
為了驗(yàn)證模型參數(shù)設(shè)置的有效性,在MSRA數(shù)據(jù)集上對(duì)不同滑動(dòng)窗口的模型,以及不同初始向量維度的模型分別進(jìn)行實(shí)驗(yàn),如圖5、圖6所示。結(jié)果表明,當(dāng)滑動(dòng)窗口大小取5,初始化向量維度為100時(shí),模型的F1值達(dá)到最大值93.76%。
圖5 不同大小滑動(dòng)窗口的效果對(duì)比
圖6 不同嵌入向量維度的效果對(duì)比
實(shí)驗(yàn)使用Pytorch深度學(xué)習(xí)框架,在MSRA和BioNLP/NLPBA 2004數(shù)據(jù)集進(jìn)行訓(xùn)練,并利用測(cè)試集進(jìn)行測(cè)試。BGCN模型與其他模型的對(duì)比結(jié)果如表6、7所示。
表6MSRA數(shù)據(jù)集上的對(duì)比結(jié)果 單位:%
Tab.6 Comparison results on MSRA dataset unit:%
表7BioNLP/NLPBA 2004數(shù)據(jù)集上的對(duì)比結(jié)果 單位:%
Tab.7 Comparison results on BioNLP/NLPBA dataset unit:%
在中文數(shù)據(jù)集MSRA上,BGCN模型的F1值較文獻(xiàn) [23]、文獻(xiàn)[24]、文獻(xiàn)[25]、文獻(xiàn)[5]和文獻(xiàn)[6]的最優(yōu)值提高了2.83%,召回率較之最優(yōu)值提高了2.79%,精確率較之最優(yōu)值提高了2.39%。通過(guò)相關(guān)對(duì)比可以發(fā)現(xiàn),BGCN模型在中文命名實(shí)體識(shí)別任務(wù)上也領(lǐng)先于文中提及的其他模型。
在英文數(shù)據(jù)集BioNLP/NLPBA 2004上,BGCN模型F1值比文獻(xiàn)[26]、文獻(xiàn)[2]和文獻(xiàn)[27]等的最優(yōu)值提高了8.49%,精確率比其提高了15.20%,召回率比其提高了13.27%。實(shí)驗(yàn)結(jié)果表明,BGCN模型能夠?qū)W習(xí)到更有用的語(yǔ)義特征,在英文命名實(shí)體識(shí)別任務(wù)表現(xiàn)上比現(xiàn)有模型優(yōu)越。
從圖7和圖8中可以看出,BGCN模型在MSRA數(shù)據(jù)集上只需要8輪即可達(dá)到收斂,在BioNLP/NLPBA 2004數(shù)據(jù)集上則需要25輪達(dá)到收斂,這從側(cè)面反映了BGCN模型時(shí)間性能的優(yōu)越性。相對(duì)于中文數(shù)據(jù)集,模型在英文數(shù)據(jù)集上難收斂的原因是英文數(shù)據(jù)集需抽取的實(shí)體類(lèi)型有5類(lèi)而中文數(shù)據(jù)集只有3類(lèi)。這反映了實(shí)體類(lèi)型的增加會(huì)使得抽取任務(wù)難度倍增,也體現(xiàn)了BGCN模型在處理復(fù)雜的實(shí)體抽取問(wèn)題上,具有較優(yōu)的泛化能力。
為了驗(yàn)證BGCN組合模型的有效性,將模型的自注意力層去除,并在BioNLP/NLPBA 2004數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),訓(xùn)練過(guò)程如圖9。實(shí)驗(yàn)表明,去除自注意力層的模型(BiLSTM-GCN-CRF)雖然能較快收斂,但其對(duì)文本深層特征的學(xué)習(xí)不夠充分,在測(cè)試集上F1值為76.80%;而帶有自注意力層的BGCN模型,由于需要學(xué)習(xí)的參數(shù)較多,雖然前期分?jǐn)?shù)增長(zhǎng)較慢,但在第15輪后分?jǐn)?shù)迅速爬升,收斂后F1值為79.00%,較前者提升了2.2個(gè)百分點(diǎn)。
圖7 MSRA驗(yàn)證集訓(xùn)練效果
圖8 BioNLP/NLPBA 2004 驗(yàn)證集訓(xùn)練效果
圖9 BGCN去除自注意力層前后效果對(duì)比
本文針對(duì)不同語(yǔ)系下黏著程度和語(yǔ)序不一的特點(diǎn),提出一種新穎的命名實(shí)體識(shí)別模型BGCN。實(shí)驗(yàn)結(jié)果表明,模型對(duì)不同語(yǔ)言習(xí)慣的中文和英文語(yǔ)料均能捕獲豐富的語(yǔ)義特征,精確率比傳統(tǒng)序列模型和圖模型有明顯的提升。同時(shí),在實(shí)體類(lèi)別數(shù)量不同的語(yǔ)料上,雖在時(shí)間性能稍有不足,但能取得較優(yōu)的精度,表現(xiàn)出較好的泛化能力。下一步將考慮在其他語(yǔ)言的語(yǔ)料上進(jìn)行測(cè)試,改進(jìn)實(shí)體分類(lèi)方法,以降低時(shí)間消耗,進(jìn)一步提高模型泛化能力。
[1] HUANG Z H, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. (2015-08-09) [2020-05-01].https://arxiv.org/pdf/1508.01991.pdf.
[2] SONG H J, JO B C, PARK C Y, et al. Comparison of named entity recognition methodologies in biomedical documents[J]. Biomedical Engineering Online, 2018, 17: No.158.
[3] LUO Y, XIAO F S, ZHAO H. Hierarchical contextualized representation for named entity recognition[C]// Proceedings of the 2020 AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 8441-8448.
[4] GAJENDRAN S, MANJULA D, SUGUMARAN V. Character level and word level embedding with bidirectional LSTM-Dynamic recurrent neural network for biomedical named entity recognition from literature[J]. Journal of Biomedical Informatics, 2020, 112(1): No.103609.
[5] DONG C H, ZHANG J J, ZONG C Q, et al. Character-based LSTM-CRF with radical-level features for Chinese named entity recognition[C]// Proceedings of the 2016 International Conference on Computer Processing of Oriental Languages/2016 National CCF Conference on Natural Language Processing and Chinese Computing, LNCS 10102. Cham: Springer, 2016: 239-250.
[6] 張海楠,伍大勇,劉悅,等. 基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào), 2017, 31(4):28-35.(ZHANG H N, WU D Y, LIU Y, et al. Chinese named entity recognition based on deep neural network[J]. Journal of Chinese Information Processing, 2017, 31(4):28-35.)
[7] 劉宇瀚,劉常健,徐睿峰,等. 結(jié)合字形特征與迭代學(xué)習(xí)的金融領(lǐng)域命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào), 2020, 34(11): 74-83.(LIU Y H, LIU C J, XU R F, et al. Utilizing glyph feature and iterative learning for named entity recognition in finance text[J]. Journal of Chinese Information Processing, 2020, 34(11): 74-83.)
[8] ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2018: 1554-1564.
[9] YU X M, FENG W Z, WANG H, et al. An attention mechanism and multi-granularity-based Bi-LSTM model for Chinese Q&A system[J]. Soft Computing, 2020, 24(8):5831-5845.
[10] DAI J H, FENG C, BAI X F, et al. AERNs: attention-based entity region networks for multi-grained named entity recognition[C]// Proceedings of the IEEE 31st International Conference on Tools with Artificial Intelligence. Piscataway: IEEE, 2019: 408-415.
[11] 張晗,郭淵博,李濤. 結(jié)合GAN與BiLSTM-Attention-CRF的領(lǐng)域命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)研究與發(fā)展, 2019, 56(9):1851-1858.(ZHANG H, GUO Y B, LI T. Domain named entity recognition combining GAN and BiLSTM-Attention-CRF[J]. Journal of Computer Research and Development, 2019, 56(9):1851-1858.)
[12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[13] 王得賢,王素格,裴文生,等. 基于JCWA-DLSTM的法律文書(shū)命名實(shí)體識(shí)別方法[J]. 中文信息學(xué)報(bào), 2020, 34(10): 51-58.(WANG D X, WANG S G, PEI W S, et al. Named entity recognition based on JCWA-DLSTM for legal instruments[J]. Journal of Chinese Information Processing, 2020, 34(10): 51-58.)
[14] CHEN X Y, SHI S H, ZHAN S Y, et al. Named entity recognition of Chinese electronic medical records based on cascaded conditional random field[C]// Proceedings of the IEEE 4th International Conference on Big Data Analytics. Piscataway: IEEE, 2019: 364-368.
[15] SUN X L, SUN S L, YIN M Z, et al. Hybrid neural conditional random fields for multi-view sequence labeling[J]. Knowledge-Based Systems, 2020, 189: No.105151.
[16] LIU J M, SUN C, YUAN Y. The BERT-BiLSTM-CRF question event information extraction method[C]// Proceedings of the IEEE 3rd International Conference on Electronic Information and Communication Technology. Piscataway: IEEE, 2020: 729-733.
[17] HU J M, ZHENG X. Opinion extraction of government microblog comments via BiLSTM-CRF model [C]// Proceedings of the 2020 ACM/IEEE Joint Conference on Digital Libraries. New York: ACM, 2020: 473-475.
[18] YANG X M, GAO Z H, LI Y M, et al. Bidirectional LSTM-CRF for biomedical named entity recognition[C]// Proceedings of the 14th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery. Piscataway: IEEE, 2018: 239-242.
[19] 胡慧君,王聰,代建華,等.基于BiLSTM-CRF 的社會(huì)突發(fā)事件研判方法[J]. 中文信息學(xué)報(bào), 2022, 36(3):154-161. (HU H J, WANG C, DAI J H,et al. Social emergency event judgement based on BiLSTM-CRF[J]. Journal of Chinese Information Processing, 2022, 36(3):154-161.)
[20] 古雪梅,劉嘉勇,程芃森,等. 基于增強(qiáng) BiLSTM-CRF 模型的推文惡意軟件名稱(chēng)識(shí)別[J]. 計(jì)算機(jī)科學(xué), 2020, 47(2): 245-250.(GU X M, LIU J Y, CHENG P S, et al. Malware name recognition in tweets based on enhanced BiLSTM-CRF model[J]. Computer Science, 2020, 47(2): 245-250.)
[21] WU Z H, PAN S R, CHEN F W, et al. A comprehensive survey on graph neural networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(1): 4-24.
[22] YAO L, MAO C S, LUO Y. Graph convolutional networks for text classification[C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 7370-7377.
[23] ZHOU J S, HE L, DAI X Y, et al. Chinese named entity recognition with a multi-phase model[C]// Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2006: 213-216.
[24] CHEN A T, PENG F C, SHAN R, et al. Chinese named entity recognition with conditional probabilistic models[C]// Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2006: 173-176.
[25] ZHOU J H, QU W G, ZHANG F. Chinese named entity recognition via joint identification and categorization[J]. Chinese Journal of Electronics, 2013, 22(2):225-230.
[26] YIMAM S M, BIEMANN C, MAJNARIC L, et al. An adaptive annotation approach for biomedical entity and relation recognition[J]. Brain Informatics, 2016, 3:157-168.
[27] SONG Y, KIM E, LEE G G, et al. POSBIOTM-NER in the shared task of BioNLP/NLPBA2004[C]// Proceedings of the 2004 International Joint Workshop on Natural Language Processing in Biomedicine and its Applications. [S.l.]: COLING, 2004:103-106.
ZUO Yayao, born in 1974, Ph. D., associate professor. His research interests include temporal information processing, data mining, natural language processing.
CHEN Haoyu, born in 1995, M.S. candidate. His research interests include natural language processing, deep learning.
CHEN Zhiran, born in 1996, M. S. candidate. His research interests include natural language processing, machine learning.
HONG Jiawei, born in 1999. His research interests include natural language processing, image recognition.
CHEN Kun, born in 2001. Her research interests include data mining, natural language processing.
Named entity recognition method combining multiple semantic features
ZUO Yayao*, CHEN Haoyu, CHEN Zhiran, HONG Jiawei, CHEN Kun
(,,510006,)
Aiming at the common non-linear relationship between characters in languages, in order to capture richer semantic features, a Named Entity Recognition (NER) method based on Graph Convolutional Network (GCN) and self-attention mechanism was proposed. Firstly, with the help of the effective extraction ability of character features of deep learning methods, the GCN was used to learn the global semantic features between characters, and the Bidirectional Long Short-Term Memory network (BiLSTM) was used to extract the context-dependent features of the characters. Secondly, the above features were fused and their internal importance was calculated by introducing a self-attention mechanism. Finally, the Conditional Random Field (CRF) was used to decode the optimal coding sequence from the fused features, which was used as the result of entity recognition. Experimental results show that compared with the method that only uses BiLSTM or CRF, the proposed method has the recognition precision increased by 2.39% and 15.2% respectively on MicroSoft Research Asia (MSRA) dataset and Biomedical Natural Language Processing/Natural Language Processing in Biomedical Applications (BioNLP/NLPBA) 2004 dataset, indicating that this method has good sequence labeling capability on both Chinese and English datasets, and has strong generalization capability.
Named Entity Recognition (NER); sequence labeling; self-attention mechanism; Graph Convolution Network (GCN); Bidirectional Long Short-Term Memory network (BiLSTM)
This work is partially supported by Natural Science Foundation of Guangdong Province (501190013).
TP391.1 文
A
1001-9081(2022)07-2001-08
10.11772/j.issn.1001-9081.2021050861
2021?05?25;
2021?09?09;
2021?10?12。
廣東省自然科學(xué)基金資助項(xiàng)目(501190013)。
左亞堯(1974—),男,湖北荊州人,副教授,博士,主要研究方向:時(shí)態(tài)信息處理、數(shù)據(jù)挖掘、自然語(yǔ)言處理; 陳皓宇(1995—),男,廣東廣州人,碩士研究生,主要研究方向:自然語(yǔ)言處理、深度學(xué)習(xí); 陳致然(1996—),男,廣東汕尾人,碩士研究生,主要研究方向:自然語(yǔ)言處理、機(jī)器學(xué)習(xí); 洪嘉偉(1999—),男,廣東普寧人,主要研究方向:自然語(yǔ)言處理、圖像識(shí)別; 陳坤(2001—),女,廣東梅州人,主要研究方向:數(shù)據(jù)挖掘、自然語(yǔ)言處理。