葛志輝, 洪龍翔, 李陶深, 葉進
(廣西大學 計算機與電子信息學院, 廣西 南寧 530004)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,各行業(yè)、各領域都產(chǎn)生了海量的數(shù)據(jù)資源,文本數(shù)據(jù)作為一種數(shù)據(jù)形式,包含了許多重要的信息;但是文本信息大量存在于非結(jié)構(gòu)化及半結(jié)構(gòu)化的文本中,無法直接在統(tǒng)計分析工具上使用,而僅通過人工篩選需要耗費大量精力與時間,因此,如何從海量非結(jié)構(gòu)化及半結(jié)構(gòu)化文本中進行有效的信息抽取尤為關鍵。信息提取和自然語言處理的許多領域都需要一定的預處理工具來分析文本的詞匯、句法和語義結(jié)構(gòu)等信息。命名實體識別是文本預處理工具之一,在自動文本摘要、機器翻譯、信息檢索、問答等自然語言應用中發(fā)揮著重要作用。
命名實體是從元素集合中識別具有相似屬性的元素的詞語形式,根據(jù)所在領域的不同而有所區(qū)別。例如:在一般領域中,人、地點、組織、日期、時間等是重要的實體;在生物醫(yī)學領域,感興趣的實體是基因和基因產(chǎn)品;在司法領域,兇器等也可能被視為實體?,F(xiàn)有的研究大多圍繞英文的實體識別(named entity recognition, NER)來進行,而與之相比,中文的NER研究面臨著諸多挑戰(zhàn):①漢語缺乏明確的詞匯邊界和固有的定冠詞,專有詞沒有拼寫變化等提示信息;②有監(jiān)督的中文訓練數(shù)據(jù)有限;③領域文本沒有統(tǒng)一的語言格式,實體存在組合、縮寫等問題。
當前,隨著NER研究的深入,現(xiàn)有的NER技術(shù)已經(jīng)比較成熟,在諸多NER任務中取得了不錯的識別準確率。隨著深度學習及神經(jīng)網(wǎng)絡的提出與發(fā)展,人們開始寄希望于通過深度學習在NER任務特別是中文NER中獲得更好的識別效果。卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network, RNN)是2種廣泛應用于實體識別的經(jīng)典神經(jīng)網(wǎng)絡模型;但CNN缺乏捕獲上下文特征的能力,而RNN由于其網(wǎng)絡結(jié)構(gòu)特點存在著運行速率低,因此缺乏并行能力的問題,更重要的是在訓練過程中會產(chǎn)生梯度消失和梯度爆炸問題。CNN和RNN的這些缺點直接導致實體識別準確率下降。使用長短期記憶神經(jīng)網(wǎng)絡(long short-term memory, LSTM)模型解決RNN梯度消失或爆炸的問題近年來被提出。雙向LSTM(bi-directional long short-term memory, Bi-LSTM)模型已廣泛應用于中文NER任務中,在克服RNN問題的基礎上能更有效地對時序數(shù)據(jù)(如文本數(shù)據(jù))進行建模,但是LSTM的網(wǎng)絡結(jié)構(gòu)復雜,參數(shù)量龐大,訓練速度較慢,且不具有CNN模型能并行加速的特性。膨脹卷積(dilated convolution, DC)作為一種被廣泛應用于計算機視覺領域的方法,也可應用于自然語言處理(natural language process, NLP)領域中。通過膨脹卷積,能使CNN在無需引入額外的參數(shù)的同時捕獲到更多的上下文特征,也保留了CNN的運算速度及可并行性。
同時,中文NER任務常常碰到“一詞多義”問題,雙向編碼表示的Transformer(bidirectional encoder representation from transformer, BERT)模型能較好解決此問題,但是BERT靜態(tài)掩碼的方式使得訓練得到的語言表征較為單一。RoBERTa(robust optimized BERT pretraining approach)是在BERT基礎上改進的一種預訓練方式,動態(tài)掩碼的訓練策略能在不同的輸入過程中更好地獲得文本中的語言表征。在預訓練過程中,僅依靠字向量進行表示沒能考慮到字詞之間的共同特征。有的研究通過字詞融合的方式作為輸入,但是僅僅通過結(jié)合單詞的特征與構(gòu)成該單詞的字符的特征也不能較好地解決因單詞邊界劃分的錯誤問題,而通過字向量與該字所在文本中能形成的詞向量進行融合更能有效地提高字向量的表示能力。
基于上述問題,本文中將實體識別任務轉(zhuǎn)化為序列標注任務,提出一種融合動態(tài)掩碼與膨脹卷積神經(jīng)網(wǎng)絡相結(jié)合的模型(dynamic-masking-IDCNN-CRF, DMIC)。首先在詞向量訓練階段引入基于動態(tài)掩碼的預訓練模型進行預訓練獲得字向量,同時與該字在上下文環(huán)境中所產(chǎn)生詞的詞向量拼接生成融合向量,然后將融合向量輸入多層膨脹卷積神經(jīng)網(wǎng)絡,使用GPU進行加速訓練,最后通過條件隨機場(conditional random field, CRF)進行標簽預測。
近年來,NER常被作為序列標注問題進行研究,國內(nèi)外主要研究方法有基于詞典和規(guī)則的方法、基于統(tǒng)計機器學習的方法和基于深度學習的方法?;谠~典和規(guī)則的方法需要專業(yè)語言學家手工編寫規(guī)則,需要大量時間,在不同領域的可移植性較差。在NER任務中,常用的基于統(tǒng)計機器學習的NER主要采用條件隨機場[1]和隱馬爾可夫模型(hidden Markov model, HMM)[2]。與基于規(guī)則和字典的方法相比,雖然準確率有所提高,但基于統(tǒng)計的方法對語料庫的依賴比較大,而可以用來建設和評估命名實體識別系統(tǒng)的大規(guī)模通用語料庫又比較少。當前,多種特征提取的方法被提出并取得了不錯效果。如陳可嘉等[3]提出了一種基于詞頻和情景語義的產(chǎn)品特征提取方法。而為了更好地構(gòu)建命名實體識別系統(tǒng),提升實體識別效率,現(xiàn)有研究通常在NER任務中使用深度學習的方法進行特征提取。
CNN和RNN是目前在NER領域中使用較為廣泛的深度學習模型。Kong等[4]提出了一種完全基于卷積神經(jīng)網(wǎng)絡的新型高效模型,該模型可以充分利用GPU的并行性來提高模型效率,但是基于CNN的網(wǎng)絡明顯存在著上下文信息捕獲能力不足的問題。單向LSTM作為RNN的一種變體,也被提出用來解決NER問題。馮艷紅等[5]提出一種基于LSTM網(wǎng)絡的方法用于實體識別任務中,獲得了不錯的效果。張應成等[6]首先將BiLSTM-CRF模型應用于CoNLL數(shù)據(jù)集,得到了最優(yōu)的F1值。在單向LSTM的基礎上,后續(xù)的研究更多通過雙向LSTM來捕獲歷史和未來信息。從他們的實驗結(jié)果可以看出,雙向LSTM的識別效果要好于LSTM。而LSTM的網(wǎng)絡結(jié)構(gòu)復雜性極大地影響模型訓練速度,故近年來有些研究考慮用CNN的變體替代LSTM網(wǎng)絡用于提升訓練速度和并行性,但是,為了在性能和速度之間做出權(quán)衡,傳統(tǒng)的CNN依靠池函數(shù)減少特征映射,以提高執(zhí)行時間,這將導致信息丟失。為了解決這個問題,Lei等[7]將DC融合到CNN中,通過相鄰詞擴大接受域,捕捉到更多有用的信息。之后,越來越多的依賴不同膨脹因子的膨脹卷積神經(jīng)網(wǎng)絡被提出,用于獲得更好的模型性能。例如,張浩等[8]提出一種基于膨脹卷積的快速圖像背景更換方法,并聯(lián)組合多組膨脹卷積,使其擁有足夠大且細的感受野。鄒斌等[9]通過不同膨脹率的膨脹卷積獲取多尺度的目標信息并進行融合,豐富了模型的語義。近年來的研究證實了膨脹卷積在多種任務中能克服LSTM網(wǎng)絡復雜性帶來的運行速度慢等問題,且在特征提取中獲得較為豐富的信息。
現(xiàn)有的NER任務可分為詞級、字符級和字詞混合級的NER。Collobert等[10]最早提出了詞級NER模型,在CoNLL 2003數(shù)據(jù)集上獲得了接近90%的F1值。王洪亮等[11]提出一種融合全局上下文信息的詞向量方法用于特征選擇,通過主題模型和詞向量聚類2種方法獲取深層語義信息,在中文微博的命名實體識別任務中取到了不錯的效果。詞級NER會受中文分詞錯誤影響,故當前中文任務中多采用字符級方法進行研究?;谧址壍姆椒ㄔ谥T多實驗上證明優(yōu)于詞級NER方法;但該方法會忽略單詞信息,因此,一些研究[12-13]嘗試將詞匯信息與字符信息相融合,使用字詞混合的NER方法解決問題。張海楠等[14]通過深度學習的方法,將字符特征與詞特征相結(jié)合,實驗證明了加入的詞性信息相較字符NER性能有一定程度的提升。殷章志等[15]提出了一種融合字詞LSTM模型的NER方法,通過字符級NER模型與詞級NER模型融合提升NER的實驗性能。
最近,預訓練模型(如Word2Vec和BERT)在幾個自然語言處理任務中取得了最先進結(jié)果(SOTA)的成績。預處理模型通過預處理任務從大規(guī)模的無標記語料中獲取先驗語義知識,并通過將這些知識傳遞給下游任務,提高下游任務的性能。楊飄等[16]構(gòu)建了BERT和BiGRU相結(jié)合的模型用于表征語句特征。通過嵌入BERT 預訓練模型,增強字的語義表示,根據(jù)其上下文動態(tài)生成語義向量。武惠等[17]通過詞向量和BiLSTM-CRF的結(jié)合,解決了對人工特征和專家知識的依賴。陳劍等[18]在司法文書識別領域使用BERT表征預訓練模型,提出的模型實體提取準確度達到89%以上,顯著優(yōu)于傳統(tǒng)的RNN和CNN模型。王子牛等[19]結(jié)合BERT和BiLSTM-CRF模型對中文實體進行識別,以無需添加任何特征的方式,在1998上半年《人民日報》數(shù)據(jù)集上取得了94.86%的F1值,然而,預訓練模型的能力尚未得到充分開發(fā),以往的研究大多集中在Word2Vec和BERT[20],但其他在BERT上改進的預訓練模型如ALBERT、RoBERTa等,也值得關注。
本文設計的DMIC模型在預訓練階段,通過引入動態(tài)掩碼解決傳統(tǒng)模型Word2vec缺乏上下文相關性信息以及BERT模型詞義缺失的問題。新的預訓練模型可以學習不同的語言表征,字詞向量融合方式的改變,能有效利用分詞信息的同時也能減少分詞錯誤帶來的影響;特征提取階段,使用膨脹卷積獲得多尺度上下文信息,借鑒混合膨脹卷積(hybird dilated convolution, HDC)的思想設計膨脹卷積塊以避免網(wǎng)格效應對特征提取過程的影響,在提升訓練速度的同時仍可以獲取更大范圍的上下文特征信息。DMIC網(wǎng)絡模型架構(gòu)如圖1所示,具體由以下3部分組成:
圖1 DMIC網(wǎng)絡模型架構(gòu)
① 字詞向量融合嵌入層。為了提取豐富的語法及語義特征,引入基于動態(tài)掩碼的RoBERTa預訓練模型得到字向量的表示,同時與字可能形成的詞向量相結(jié)合作為輸入。
② 序列建模層。膨脹卷積能克服傳統(tǒng)LSTM模型參數(shù)量過大、訓練速度缺失的的問題,同時也能獲取比傳統(tǒng)CNN模型更多尺度的上下文信息,故在該層采用多層膨脹卷積網(wǎng)絡進行特征提取,獲得對應的特征向量。
③ 標簽解碼層。CRF對上一層的輸出進行解碼,通過動態(tài)規(guī)劃算法得到最優(yōu)預測結(jié)果,從而完成實體識別的任務。訓練的過程使用GPU進行加速。
DMIC網(wǎng)絡模型的輸入向量包括字符向量和字符所對應的詞向量。通過動態(tài)掩碼策略進行訓練得到的字符向量可以在提取字符級別特征的同時融入上下文信息、包含詞義信息,字符向量對應的詞向量則對字符進行有效的語義增強,將二者進行拼接得到的向量作為字符的最終表示向量,然后將其輸入序列建模層中。圖2為DMIC網(wǎng)絡模型輸入向量的組成,最終的輸出向量為字向量c和詞向量w結(jié)合得到的向量f。本文通過3個步驟實現(xiàn)融合動態(tài)掩碼的多重嵌入:①字符向量訓練;②字符相關詞向量生成;③字詞向量融合。
圖2 DMIC網(wǎng)絡模型輸入向量的組成
Step1:字符向量訓練。為了使生成的語義更適用于中文NER任務,引入了RoBERTa預訓練模型用于字符嵌入,使其能在預訓練中更好地獲取詞的信息。RoBERTa訓練中使用動態(tài)掩碼策略學習不同的語言表征,在大量數(shù)據(jù)不斷輸入的過程中,每次向模型輸入一個序列時都會生成新的掩碼模式,在此過程中,模型會逐漸適應不同的掩碼策略。
對于給定輸入句子s或者給定字符序列ch={ch1,ch2,…,chn},通過RoBERTa層進行字符向量訓練過程如圖3所示。
圖3 字符向量的訓練
其中,字符chi對應的字符表示為字符、段和位置嵌入的融合,即Ei=Eci+Esi+EPi,其中,Eci、Esi和EPi分別為對字符chi3種嵌入,Ei為融合后的嵌入表示,經(jīng)過RoBERTa模型后,最終得到字符訓練后的向量ci。
Step2:字相關詞向量生成。字符嵌入后單個漢字能表達的語義與詞匯所含有的語義還具有較大的差距。現(xiàn)有的研究嘗試了融入詞匯信息,但是沒有充分考慮字詞間的共同特征。而簡單的字詞融合,如將單詞特征與單詞所包含的字信息進行融合則可能因為分詞錯誤而導致錯誤傳播。為了利用分詞的結(jié)果且減少分詞錯誤的影響,同時豐富字向量的語義,本文將字向量和該字所在的詞的詞向量進行融合,通過訓練得到的詞向量對字向量進行語義增強。
(1)
(2)
(3)
為了克服傳統(tǒng)LSTM網(wǎng)絡結(jié)構(gòu)復雜及運行速度慢、缺乏并行性等不足,本文在序列建模層使用堆疊的膨脹卷積進行特征提取。不同膨脹率的膨脹卷積神經(jīng)網(wǎng)絡感受野對比如圖4所示,從圖中可以發(fā)現(xiàn),當膨脹率為4時,感受野已經(jīng)擴展到15×15,可以獲取到比普通卷積更多尺度的信息。
(a)膨脹率為1
雖然具有膨脹卷積的神經(jīng)網(wǎng)絡在各種深度學習任務中都取得了成功,但普通膨脹導致的“網(wǎng)格效應”將影響特征提取的效率。為了解決解決網(wǎng)格效應對特征提取帶來的影響,本文將HDC的設計思想引入NLP任務中,在設計膨脹卷積時遵循HDC的設計準則。本文設計的膨脹卷積滿足以下特性:①不同的膨脹卷積層之間的膨脹率數(shù)值選定為鋸齒狀;②堆疊的卷積層膨脹率之間不能存在除了1之外的公約數(shù),如(2,4,6)的設計不符合HDC的設計思想;③膨脹率需要根據(jù)公式(4)進行選擇:
Mi=max[Mi+1-2ri,Mi+1-2(Mi+1-ri),ri],
(4)
式中:ri是第i層的膨脹率;Mi是第i層最大的膨脹率。
綜上條件,本文選取的每個膨脹卷積塊的膨脹率分別為1、2和5,如圖5所示,卷積核數(shù)目設置為3。由圖可見,當膨脹率為1時,相當于對每個輸入向量進行普通卷積提取特征,δ=1時,黑色圓圈代表提取后的特征,每個特征包含3個輸入的向量的信息;δ=5時,由上至下,一個圓圈就可得到19個輸入向量的特征。本文設計的膨脹卷積模型可以通過膨脹率的增加迅速擴展卷積核的感知視野,獲取多尺度信息,提高模型的性能。
如圖5所示,設嵌入層產(chǎn)生的融合向量fi作為Dilated CNN的輸入,用D(n)表示第n個膨脹卷積層,則fi經(jīng)過第一層膨脹卷積的輸出表示oi(1),第n層(n> 1)膨脹卷積的輸出表示oi(n)分別如公式(5)、(6)所示:
圖5 每個膨脹卷積塊的結(jié)構(gòu)
oi(1)=D(1)fi,
(5)
oi(n)=Relu[D(n-1)oi(n-1)],
(6)
式中Relu為激活函數(shù)用于將膨脹卷積的輸出層用作下一層的輸入。
迭代的膨脹卷積神經(jīng)網(wǎng)絡(ID-CNNs)通過堆疊膨脹卷積塊獲取更多的上下文信息。在膨脹卷積神經(jīng)網(wǎng)絡中,感受野隨著網(wǎng)絡堆疊層數(shù)的增加而呈指數(shù)增加,可用于捕獲全局信息。為了防止出現(xiàn)過擬合的現(xiàn)象,本文的DMIC網(wǎng)絡模型使用了4次迭代膨脹卷積塊進行堆疊,可以覆蓋大部分序列的整個長度,更好地結(jié)合上下文信息。
考慮到連續(xù)標簽之間的依賴性,使用CRF層進行順序標記。CRF可以通過學習到的約束條件保證標簽預測結(jié)果的有效性。將特征向量o={o1,o2,…,on}作為CRF層的輸入,對于給定標簽序列Y={y1,y2,…,yn},帶輸入o的標簽序列Y的條件概率可以表示為
(7)
式中:Y(s)是所有可能的句子s對應的標簽序列的集合;φ(oi,yi,yi-1)是得分函數(shù),計算式為
φ(oi,yi,yi-1)=exp(yiTWoi+yi-1TTyi),
(8)
式中W和T表示CRF層中的參數(shù)。在訓練模型時,使用log_likelihood函數(shù)作為目標函數(shù)。給定訓練樣本(Xi,Yi),目標函數(shù)L表示為
(9)
實驗數(shù)據(jù)集分別來自于MSRA數(shù)據(jù)集和人民日報數(shù)據(jù)集,是多個經(jīng)典NER任務中常用的語料,以BIO格式標注了人名、地名、組織機構(gòu)名3類實體。MSRA數(shù)據(jù)集分為訓練集和測試集。訓練集和測試集的樣例數(shù)據(jù)見表1?!度嗣袢請蟆窋?shù)據(jù)集(pd2014)分為語料源和語料標記2個文件見表2。實驗中根據(jù)實際需求劃分成訓練集、數(shù)據(jù)集和測試集,并轉(zhuǎn)換為可讀取的格式。
表1 MSRA數(shù)據(jù)集訓練集和測試集的樣例數(shù)據(jù)
表2 《人民日報》2014數(shù)據(jù)集樣例數(shù)據(jù)
命名實體識別任務模型的評價指標一般使用準確率(precision)P、召回率(recall)R和F1值。準確率代表著正確識別的實體在標注樣本實體中的比例;召回率表示正確分類的實體在所有識別的實體中的比例;F1值為準確率和召回率的一個調(diào)和平均值,是一個綜合指標。各指標具體計算方法為
(10)
(11)
(12)
式中:TP表示正確實體標注正確;FP表示正確實體標注錯誤;TN表示非實體標注正確。
實驗環(huán)境選取操作系統(tǒng)為Ubuntu 18.04.4 LTS的服務器作為實驗平臺,其中CUDA版本為11.0,CPU為Intel(R)Xeon(R)Gold 6126 CPU 48核,GPU為GeForceRTX 2080Ti。采用的編程語言為Python,采用Tensorflow作為主要框架實現(xiàn)了的LSTM、IDCNN等模型,采用Pytorch實現(xiàn)了ERNIE模型。在PyCharm Profession上進行開發(fā)和調(diào)試,使用NVIDIA GPU加速訓練過程。命名實體識別的標注模式有BIO、BIOE和BIOES等。本實驗使用BIO標注模式,待預測的標簽一共有7種,分別為“O”“B-PER”“I-PER”“B-ORG”“I-ORG”“B-LOC”和“I-LOC”。
模型的部分超參數(shù)主要源于現(xiàn)有的相關研究中的經(jīng)驗,如學習率、dropout比例等;一些參數(shù)是根據(jù)數(shù)據(jù)集的特性而設置;還有一些參數(shù)是根據(jù)模型訓練和實驗硬件條件配置的,如每批次數(shù)據(jù)量的大小,LSTM隱藏層單元數(shù);膨脹卷積塊堆疊層數(shù)根據(jù)對比實驗獲得。實驗采用Adam優(yōu)化算法對模型參數(shù)進行優(yōu)化和調(diào)參。模型超參數(shù)設置見表3。
表3 模型超參數(shù)設置
為了進行比較,本文在使用的數(shù)據(jù)集上,分別選取了5種具有代表性的模型作為基線進行對比,包括CNN-CRF模型、BiLSTM-CRF模型、IDCNN-CRF模型、BERT-BiLSTM-CRF模型、BERT-IDCNN-CRF模型以及ERNIE模型。其中,CNN-CRF模型、BiLSTM-CRF模型和IDCNN-CRF模型都是通過Word2Vec預訓練,BERT-BiLSTM-CRF模型和BERT-IDCNN-CRF模型則是通過BERT進行預訓練所得,ERNIE模型是近年由百度開發(fā)出的預訓練模型,在多個NLP任務上效果突出。
不同膨脹卷積塊堆疊層數(shù)實驗結(jié)果如圖6所示。從圖可知,DMIC模型在卷積膨脹卷積塊為4層堆疊時能夠取得最佳F1值,最佳F1值為94.85%。后文的對比實驗中使用的DMIC模型采用的是4層堆疊的模型。
圖6 不同膨脹卷積塊堆疊層數(shù)實驗結(jié)果
與基線模型實驗效果對比。本文提出的模型DMIC和5種基線模型在數(shù)據(jù)集上的實現(xiàn)效果見表4。
表4 不同模型在MSRA數(shù)據(jù)集上的實驗性能
① 膨脹卷積實驗效果。普通CNN(CNN-CRF模型)與膨脹卷積(IDCNN-CRF模型)的識別效果對比見表5,對比普通CNN,膨脹卷積的方式有助于大幅度提高實體識別準確率。BiLSTM模型與IDCNN模型每個epoch的訓練速度對比見表6。由表4—6可知,與在序列建模層使用LSTM的模型(BiLSTM-CRF和BERT-BiLSTM-CRF)相比,使用膨脹卷積(IDCNN-CRF和BERT-IDCNN-CRF)能在識別效率接近的情況下有著較短的運行時間,說明膨脹卷積能克服傳統(tǒng)LSTM模型參數(shù)量大訓練時間長的問題,同時保證了實體識別的準確率。
表5 簡單CNN模型(CNN-CRF)和膨脹卷積模型(IDCNN-CRF)識別效果對比
② 融入動態(tài)掩碼預訓練及字詞向量融合表示效果。觀察表4可知,與使用Word2Vec預訓練的模型BiLSTM-CRF和IDCNN-CRF相比,引入BERT或RoBERTa進行預訓練的BERT-BiLSTM-CRF、BERT-IDCNN-CRF和DMIC模型可以獲得更高的P、R和F1值,說明相比靜態(tài)詞向量輸入,動態(tài)地調(diào)整詞向量可以提高多義詞識別的準確性。預訓練階段使用靜態(tài)掩碼(BERT)與動態(tài)掩碼(RoBERTa)的模型在實體識別精確率上的對比見表7。由表可知,與使用靜態(tài)掩碼預訓練的模型BERT-IDCNN-CRF相比,融入了基于動態(tài)掩碼預訓練的模型DMIC在3種實體的識別精確率上產(chǎn)生進一步的改進。動態(tài)掩碼的訓練方式使模型對于不同的輸入逐漸適應不同的掩碼策略,學習到更多的言語表征。不同模型在pd2014數(shù)據(jù)集上的識別效果對比見表8,由表可知,相比ERNIE模型,DMIC模型在pd2014數(shù)據(jù)集上LOC、PER和ORG這3個指標上均得到進一步的提升,這是因為改進的RoBERTa模型通過不同分詞器的加權(quán)平均使得由分詞器分詞錯誤造成的誤差減小,從而提升了實體識別效率。
表8 不同模型在pd2014數(shù)據(jù)集上的識別效果對比
評價結(jié)果表明,所提出的混合模型優(yōu)于現(xiàn)有的常用于實體識別的模型。模型將基于動態(tài)掩碼策略的RoBERTa作為一個模塊引入,解決BERT詞法結(jié)構(gòu)、語法結(jié)構(gòu)缺失的問題,同時字詞向量的增強使模型具有豐富的詞義表示。膨脹卷積的引入一方面能捕獲到比簡單CNN更多的上下文及結(jié)構(gòu)信息,提高模型對長序列句子的識別能力,另一方面也克服了BiLSTM因參數(shù)量過大而運行速度較慢的問題。使用了CRF層而避免使用softmax計算標記結(jié)果,使用標記之間的依賴關系可以提高識別率。
③ 實體識別效果。表9為3段測試樣例示例文本,識別結(jié)果見表10??梢钥闯?在對Sentence1的識別中,前3種方式都沒能識別出“滴滴”這個ORG實體,而在帶有BERT預訓練模型和DMIC模型中均能識別出這個實體。在對Sentence2的識別中,前3種方式都未能抽取出里面的ORG實體,IDCNN-CRF模型出現(xiàn)了將“中國網(wǎng)”識別成LOC實體的錯誤,而BERT-IDCNN-CRF模型則錯誤地從“中國網(wǎng)”提取出了“中國”作為ORG實體,BERT-BiLSTM-CRF模型和DMIC模型均正確地提取出句子中所有類型實體。Sentence3中,“俄羅斯衛(wèi)星網(wǎng)”在其他模型中均被錯誤拆分識別為“俄羅斯”的地名實體,在DMIC模型中被正確識別為一個組織機構(gòu)實體。此外進行了大量文本測試,DMIC模型均獲得了不錯的實體識別效果,可以比較精確地提取出文本中的人名地名和組織機構(gòu)名。
表9 不同的文本測試樣例
表10 不同模型識別效果
本文中揭示了傳統(tǒng)靜態(tài)語言預訓練模型面對單詞多義情況容易出錯的問題,提出現(xiàn)在流行的BERT預訓練模型存在不能獲得詞級別語義表示的不足,為此提出了一種融合動態(tài)掩碼預訓練模型和膨脹卷積神經(jīng)網(wǎng)絡的實體識別模型,通過模型使用的動態(tài)掩碼策略解決預訓練過程中缺失語義信息,改變簡單字詞向量融合方式使字詞向量更有效融合以表達詞義信息。引入膨脹卷積解決傳統(tǒng)用于解決NER問題的LSTM模型訓練時間較長、CNN模型缺乏捕獲上下文特征的能力的問題。實驗結(jié)果表明,該模型相較現(xiàn)有的BiLSTM-CRF等模型在中文實體識別任務上具有較好的效果。在未來,如何更好地處理機構(gòu)名中地名嵌套、縮略詞和歧義等干擾信息是今后需要進一步研究的方向。