姚元杰 龔毅光 劉 佳 陳嫚麗
(南京信息工程大學(xué)自動(dòng)化學(xué)院 南京 210044)
命名實(shí)體識別(Named Entity Recognition,NER)任務(wù)是信息抽取領(lǐng)域內(nèi)的一個(gè)子任務(wù),其任務(wù)目標(biāo)是給定一段非結(jié)構(gòu)文本后,從句子中尋找、識別和分類相關(guān)實(shí)體,例如人名、地名和機(jī)構(gòu)名稱[1]。NER 任務(wù)是信息提取、問答系統(tǒng)、知識圖譜等應(yīng)用領(lǐng)域的重要基礎(chǔ)工具,識別任務(wù)通常面向特定的行業(yè)和領(lǐng)域。
與英語相比,漢語具有詞匯邊界模糊、實(shí)體結(jié)構(gòu)復(fù)雜、表現(xiàn)形式多樣、缺乏明確的詞邊界等特點(diǎn),使得漢語命名實(shí)體識別更加困難[2]。
1991 年Rau[3]首次提出NER 任務(wù),拉開了NER任務(wù)在自然語言處理中應(yīng)用的序幕。起初,命名實(shí)體識別大多是基于規(guī)則、統(tǒng)計(jì)或是兩者結(jié)合的混合方法。SHEFFIELD 大學(xué)提出的一種基于規(guī)則的命名題識別系統(tǒng)[4],此方法魯棒性不高。Bikel 等[5]在1999 年提了基于統(tǒng)計(jì)法-隱馬爾可夫方法,該方法及其變種后來被廣泛應(yīng)用。Adwait[6]提出用最大熵求解文本分類的問題。
近年來,由于深度學(xué)習(xí)能夠從自由文本等非結(jié)構(gòu)化數(shù)據(jù)中提取相關(guān)特征,且相關(guān)模型取得不錯(cuò)的效果,因此采用深度學(xué)習(xí)來識別命名實(shí)體的方法已然成為一種趨勢。Yoshua Bengio 等將DNN 模型[7]應(yīng)用在命名實(shí)體識別和詞性標(biāo)注中,取得了較好的效果。也有人將傳統(tǒng)機(jī)器學(xué)習(xí)方法與深度學(xué)習(xí)結(jié)合,取得了不錯(cuò)的效果。于紅等[8]采用LSTM-CRF模型的方法來識別漁業(yè)領(lǐng)域命名實(shí)體,其識別結(jié)果的準(zhǔn)確率P、召回率R 以及F1 值比采用單一LSTM或CRF 模型的識別結(jié)果提高了3%左右。顏柏楊等[9]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Net?works,CNN)結(jié)合和BiLSTM-CRF 的模型來從醫(yī)療文本中識別醫(yī)療相關(guān)特征實(shí)體,取得了較高的識別率。Huang C等[10]在BiLSTM-CRF模型中添加注意力機(jī)制,在識別疾病相關(guān)名稱時(shí),一致率高達(dá)0.87。在和預(yù)訓(xùn)練模型結(jié)合方面,陳彥妤等[11]則采用預(yù)訓(xùn)練的字向量作為BiLSTM-CRF模型的輸入,在保險(xiǎn)行業(yè)相關(guān)的數(shù)據(jù)集上得到了較好的準(zhǔn)確率和召回率。張芳叢等[12]提出將RoBERTa-WWM 預(yù)訓(xùn)練模型結(jié)合BiLSTM-CRF,其在電子病歷中的命名實(shí)體識別中取得較好的結(jié)果。除此之外,將記憶網(wǎng)絡(luò)應(yīng)用于NER 任務(wù),已被證明具有較好的效果。Yuyang 等[13]采用門控制將記憶網(wǎng)絡(luò)用于NER任務(wù),在多個(gè)數(shù)據(jù)集中取得較好成績。李天寧等[14]將記憶網(wǎng)絡(luò)和RoBERTa 預(yù)訓(xùn)練模型結(jié)合,并融入到BiLSTM 網(wǎng)絡(luò)中,在中文細(xì)粒度命名實(shí)體識別任務(wù)上,取得較好效果。
經(jīng)典的BiLSTM-CRF 模型并不能提取詞級別的語義信息,在中文命名實(shí)體識別任務(wù)中存在很大缺陷。特別是在特定領(lǐng)域中,由于領(lǐng)域的特殊性,往往存在大量未登錄的專業(yè)性詞匯。比如“厄爾尼諾”、“暴風(fēng)雪”等。若模型不能準(zhǔn)確識別“厄爾尼諾”或者將“暴風(fēng)雪”僅僅識別成“風(fēng)雪”,便會產(chǎn)生歧義,對后續(xù)工作造成很大影響。Zhang 等[15]提出了一種基于Lattice-LSTM 網(wǎng)絡(luò),其通過匹配詞典中的詞語來增強(qiáng)語義信息的提取,但Lattice結(jié)構(gòu)復(fù)雜且一個(gè)字符往往對應(yīng)多個(gè)詞匯,模型容易丟失低頻率的長詞詞匯信息,從而造成語義偏差問題。
氣象與人們的生活息息相關(guān),掌握氣象知識對我們的生活有著重要的意義。目前,在氣象科普這一領(lǐng)域,隨著數(shù)字化與互聯(lián)網(wǎng)的深入,已經(jīng)有大量氣象知識數(shù)據(jù)的積累,但針對氣象科普知識暫時(shí)無法獲得已經(jīng)做好標(biāo)注和完成分詞的語料,同時(shí)也無特定針對氣象科普知識的命名實(shí)體識別模型。研究基于氣象科普知識的命名實(shí)體識別,有助于組織和挖掘氣象科普知識的相關(guān)實(shí)體信息。
基于上述問題,本文構(gòu)建了氣象科普知識數(shù)據(jù)集并提出了基于多粒度信息融合的氣象科普知識命名實(shí)體識別模型的MGTNER 算法。模型利用BERT 預(yù)訓(xùn)練模型[16]來增強(qiáng)文本的特征表示能力,利用相對簡單高效的SoftLexicon 結(jié)構(gòu)[17]進(jìn)行字、詞信息的融合,該結(jié)構(gòu)利用詞集可以結(jié)合訓(xùn)練好的詞典有效針對含有專業(yè)詞匯的特定領(lǐng)域,也可以避免一些情況下,短詞頻率高于重要長詞頻率并導(dǎo)致詞邊界識別錯(cuò)誤,信息提取出現(xiàn)偏差的情況。對于經(jīng)典的BiLSTM網(wǎng)絡(luò)很難捕捉句子級別和整個(gè)數(shù)據(jù)源中語義特征信息的問題,本文利用鍵值記憶網(wǎng)絡(luò)來提取數(shù)據(jù)源級別的特征信息。最后,使用條件隨機(jī)場(Conditional Random Field,CRF)來捕獲相鄰標(biāo)簽之間的依賴關(guān)系。
本實(shí)驗(yàn)數(shù)據(jù)集來源于氣象類相關(guān)網(wǎng)頁,其中最主要的來源為中國氣象科普網(wǎng)。該網(wǎng)站的內(nèi)容包含了災(zāi)害防御、二十四節(jié)氣、人工影響天氣、氣候與氣候變化以及氣象術(shù)語等。
圖1 顯示了以中國氣象科普網(wǎng)為數(shù)據(jù)來源的數(shù)據(jù)集構(gòu)建流程。首先初始化URL 序列,獲得中國氣象科普網(wǎng)頁,通過遍歷網(wǎng)頁后臺數(shù)據(jù)和解析爬取到的網(wǎng)頁,以此確定網(wǎng)頁數(shù)目。通過XPath 定位網(wǎng)頁中災(zāi)害以及災(zāi)害防御的內(nèi)容并進(jìn)行文本爬取,進(jìn)而獲得氣象災(zāi)害以及防御措施的相關(guān)數(shù)據(jù)。數(shù)據(jù)爬取完成后,將數(shù)據(jù)以CVS 格式存儲起來,接著對數(shù)據(jù)進(jìn)行清洗,剔除無效數(shù)據(jù),篩選出所需要的數(shù)據(jù)。整理數(shù)據(jù)后,采用人工定義領(lǐng)域內(nèi)詞典進(jìn)行實(shí)體匹配和人工修正的方法進(jìn)行BIO 標(biāo)注。最后將數(shù)據(jù)按照8∶1∶1 的比例隨機(jī)切割成訓(xùn)練集、測試集以及驗(yàn)證集,并進(jìn)行人工修正。最終獲得我們所需的氣象科普知識數(shù)據(jù)集。
圖1 本文數(shù)據(jù)集構(gòu)建流程圖
本文在對數(shù)據(jù)集進(jìn)行標(biāo)注時(shí)將氣象科普實(shí)體分為時(shí)間類、地點(diǎn)類、災(zāi)害類、措施類、天氣類和術(shù)語類六個(gè)類型,將實(shí)體分類后,本文采用目前流行的BIO 標(biāo)注法對預(yù)處理后的文本語料進(jìn)行標(biāo)注,B表示一個(gè)實(shí)體的開始字符,I表示實(shí)體的內(nèi)部字符,O 表示不是相關(guān)實(shí)體。三個(gè)數(shù)據(jù)集的數(shù)據(jù)分布如表1。
表1 實(shí)體類別數(shù)量分布
MGTNER 模 型 通 過BERT 預(yù) 訓(xùn) 練 模 型、Softi?con-BiLSTM 網(wǎng)絡(luò)、鍵值記憶網(wǎng)絡(luò)和CRF 實(shí)現(xiàn)字詞和數(shù)據(jù)集級別的語義特征信息的融合,其總體框架如圖2。
圖2 本文模型總體框架
模型總體分為三個(gè)部分:1)輸入表示層,輸入序列首先被映射為向量,結(jié)合詞典提取詞級別的特征信息并存儲在詞集中,接著將該字符匹配到的加權(quán)后詞集KJZM 信息和BERT 得到的字符向量拼接,作為BiLSTM網(wǎng)絡(luò)的輸入。2)信息融合層,將含字詞信息的BiLSTM網(wǎng)絡(luò)輸出的隱藏狀態(tài)和事先保存在記憶網(wǎng)絡(luò)的特征信息結(jié)合,以此實(shí)現(xiàn)三種粒度信息的融合。3)輸出層,最終通過CRF進(jìn)行標(biāo)簽解碼。
預(yù)訓(xùn)練語言模型的核心思想是在大規(guī)模無監(jiān)督語料庫上預(yù)訓(xùn)練一個(gè)語言模型,并在下游目標(biāo)任務(wù)中利用該模型的編碼嵌入表示進(jìn)行訓(xùn)練。這類工作是預(yù)訓(xùn)練詞嵌入工作的延續(xù),主要解決了傳統(tǒng)詞嵌入模型無法通過結(jié)合上下文,處理一詞多義的問題。
本文選擇BERT 語言模型對句子中的字符進(jìn)行編碼,將輸入的句子表示為字向量、句向量、位置向量三者之和。BERT采用生成式的掩碼語言模型(Masked Language Model,MLM),掩 碼 比 率 為15%。在句子的起始位置加入[CLS]標(biāo)簽,用[SEP]標(biāo)簽來分割兩個(gè)句子。
BERT 模型是一種雙向Transformer 結(jié)構(gòu),定義輸入句子為S={c1,c2,c3,…,cn},其中xi表示句中第i個(gè)字,經(jīng)過預(yù)訓(xùn)練模型BERT 處理后得到輸人句子S的初始向量表示為{x1,x2,…,xn}。
圖3 BERT預(yù)訓(xùn)練語言模型
在長序列訓(xùn)練過程中,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recur?rent Neural Network,RNN)存在梯度消失和爆炸的問題。為此,長短期記憶網(wǎng)絡(luò)引入記憶單元去記錄狀態(tài)信息并通過輸入門、遺忘門和輸出門進(jìn)行控制。SoftLexicon 結(jié)構(gòu)的BiLSTM 網(wǎng)絡(luò)是在基于字的LSTM模型的基礎(chǔ)上,加入潛在的詞語信息。
3.2.1 SoftLexicon結(jié)構(gòu)
模型利用詞典,將每個(gè)字所匹配到的字詞分為四類“K”、“J”、“M”、“Z”。K 表示匹配到由這個(gè)字為開始的詞集,J為匹配到由這個(gè)字為結(jié)尾的詞集,M 表示匹配到這個(gè)字在中間的詞集,Z 表示匹配到整個(gè)字。對于輸入序列S={c1,c2,…,cn},四個(gè)詞集由式(1)構(gòu)成:
其中,L 為事先構(gòu)建的詞典;w 為匹配到的詞;j、k 為匹配到詞的下標(biāo)。若該字無匹配到的詞,則添加特殊的詞“None”。例如,對于輸入句子“臺風(fēng)與強(qiáng)熱帶風(fēng)暴相比?!敝?,對于c4“強(qiáng)”來說,匹配到詞w4,8“強(qiáng)熱帶風(fēng)暴”,放在詞集K 中。對于c7“風(fēng)”,匹配到詞w7,8“風(fēng)暴”,放在詞集K 中,匹配到詞w4,8放在詞集M 中。得到詞集“KJMZ”后,需將該漢字匹配到的詞集壓縮成一個(gè)固定維度的向量。為保持計(jì)算效率,網(wǎng)絡(luò)采用單詞的靜態(tài)頻率去計(jì)算相關(guān)權(quán)重,計(jì)算公式如式(2)和式(3)。
其中,K 為詞集,c(w)表示詞w 在數(shù)據(jù)中出現(xiàn)的頻率,ew(w)為對應(yīng)詞的詞嵌入表示。在計(jì)算頻率時(shí),若詞w 被另一個(gè)匹配到詞典的詞覆蓋則較短詞w的頻率不會增加,這樣就避免了一些情況下,短詞概率總比長詞概率大的問題。
圖4 SoftLexicon方法
單個(gè)詞集壓縮成固定向量后,再將該字對應(yīng)的四個(gè)詞集KJMZ 合成一個(gè)固定向量并將它們和預(yù)訓(xùn)練得到字向量拼接,這樣極大程度上保留了所匹配到詞的信息,最終形成字詞向量的結(jié)合表示。公式如式(4)、式(5),其中υs是經(jīng)過權(quán)重計(jì)算過后的詞集的向量。
3.2.2 BiLSTM結(jié)構(gòu)
融合字詞向量后,融合后的字符表示傳入采用雙向長短期記憶網(wǎng)絡(luò)的上下文編碼層,即使用前向和后向LSTM 對輸入序列進(jìn)行正向特征提取和反向特征提取。LSTM 是RNN 的一個(gè)變種,主要為了解決傳統(tǒng)RNN 在訓(xùn)練長序列過程中存在梯度消失和爆炸的問題,為此LSTM 引入記憶單元并通過輸入門、遺忘門和輸出門的結(jié)構(gòu)來更新隱藏狀態(tài)和記憶單元。
LSTM模型計(jì)算公式包括式(6)~式(11):
圖5 BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)
在許多NLP任務(wù)中,使用鍵值記憶網(wǎng)絡(luò)[18]及其變體來利用額外的特征增強(qiáng)模型已獲得較好的效果[19~20]。在BiLSTM 網(wǎng)絡(luò)中,輸入來源于當(dāng)前的單詞嵌入和過去的狀態(tài),很難捕捉句子級別和在整個(gè)數(shù)據(jù)源中的特征信息。為此,本文采用鍵值記憶網(wǎng)絡(luò)來提取更大范圍的特征,將記憶網(wǎng)絡(luò)和上文提到的BERT-SoftLexicon-BiLSTM 網(wǎng)絡(luò)結(jié)合,不僅能提取字詞粒度的語義信息,也能對數(shù)據(jù)源中上下文的語義特征進(jìn)行融合,上下文的語義特征包括POS標(biāo)簽和字詞之間的依賴關(guān)系,如圖6。
圖6 語義特征信息示例
用鍵值記憶網(wǎng)絡(luò)對輸入序列xi的上下字詞相對應(yīng)的不同類型的語義特征信息進(jìn)行編碼并將其映射在記憶網(wǎng)絡(luò)模塊的鍵{ki1,ki2,…,kin}和值{vi1,vi2,…,vin}上。模型在對輸入序列進(jìn)行編碼時(shí)會從記憶網(wǎng)絡(luò)模塊中提取出對應(yīng)的特征值并和BiLSTM網(wǎng)絡(luò)輸出的隱藏狀態(tài)融合,以此來實(shí)現(xiàn)增強(qiáng)輸入文本的表示,進(jìn)而提高模型性能,如圖7。
圖7 鍵值記憶網(wǎng)絡(luò)流程示例
公式如式(13)~式(16):
其中,wi,j為經(jīng)過softmax 后的值v 的權(quán)重,ri是加權(quán)過后的特征信息,si為不同特征向量聚合后的結(jié)果,n 為對于輸入xi特征信息的個(gè)數(shù),hi為BiLSTM 網(wǎng)絡(luò)輸出的隱藏狀態(tài)。oi為CRF 標(biāo)簽解碼層的輸入,λ為模型參數(shù),其值在0和1之間。
在命名實(shí)體識別中,有些標(biāo)簽需要遵守一定的邏輯關(guān)系,但簡單的歸一化函數(shù)并不能結(jié)合局部標(biāo)簽和上下文信息。為此,本文采用命名實(shí)體識別任務(wù)中常用的CRF作為標(biāo)簽解碼層,CRF能夠利用標(biāo)簽間的關(guān)系,從而得到最佳的標(biāo)簽序列。
對于給定輸入序列x={x1,x2,…,xn},句子標(biāo)簽序列y={y1,y2,…,yn}。對于語句的標(biāo)簽序列得分如式(17):
Ayi,yi+1為標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的分?jǐn)?shù),Pi,yi為該字符被預(yù)測為第yi個(gè)標(biāo)簽的分?jǐn)?shù)。定義標(biāo)簽序列Y的概率為式(18):
其中,y′表示真實(shí)的標(biāo)簽序列,YX為可能標(biāo)簽的集合。最后,利用維特比算法輸出得分最高的標(biāo)簽序列out*,計(jì)算公式如式(19)。
本文的氣象科普知識來源于百度文庫資料和氣象科普網(wǎng)站,通過python 獲取數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗之后,將實(shí)體類別分為天氣類、災(zāi)害類、術(shù)語類、應(yīng)對措施類、時(shí)間類和地點(diǎn)6 類。本實(shí)驗(yàn)中采用BIO 標(biāo)注模式,對于氣象科普知識語料,本文采用jieba 分詞工具,再利用word2vec 模型訓(xùn)練詞向量。實(shí)體類別示例如表2。
表2 實(shí)體類別示例
為了評估模型對氣象科普知識數(shù)據(jù)集中實(shí)體識別的效果,本文采用命名實(shí)體識別任務(wù)中常見的召回率(recall)、精確率(precision)和F1 score 作為評估指標(biāo)。
F1值表示答案之間的重合度,公式如式(20)。
其中,Pre為Precision精確率,公式如式(21),Rec為Recall召回率,公式如式(22)。
其中,TP為被模型預(yù)測為正類的正樣本;FP為被模型預(yù)測為正類的負(fù)樣本;FN 為被模型預(yù)測為負(fù)類的正樣本。
本實(shí)驗(yàn)使用RTX 2080ti的GPU進(jìn)行加速,軟件版本為python3.7,pytorch1.4.0。超參數(shù)設(shè)置為:字詞向量維度都是50,LSTM 隱藏單元為300,dropout為0.5,epoch 為50,使用Adam 來優(yōu)化參數(shù),學(xué)習(xí)率為0.015,衰減率為0.05。
4.4.1 氣象科普知識數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析
本文模型MGTNER 在氣象科普知識數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表3。在所有六大實(shí)體類別中,時(shí)間和地點(diǎn)類實(shí)體的實(shí)驗(yàn)結(jié)果最好,F(xiàn)1 值分別達(dá)到了92.59%和92.70%。其次是術(shù)語類、災(zāi)害類和天氣類,F(xiàn)1 值為90.23%、90.66%和89.21%,雖然這三類包含了大量的專業(yè)詞匯,但因?yàn)閷?shí)體數(shù)量較多并且模型結(jié)合領(lǐng)域詞典,所以具有較高的識別準(zhǔn)確率。實(shí)體識別效果最差的是措施類,因?yàn)樵擃悓?shí)體數(shù)量較少,模型還不能充分挖掘這類實(shí)體的特征信息。圖8是本文模型的三個(gè)指標(biāo)精確率、召回率和F1值隨迭代次數(shù)變化的測試,可以看出模型在前十次迭代中收斂較快,之后模型性能提升逐漸放緩,在大約20 次迭代后,指標(biāo)在一個(gè)小范圍內(nèi)變化,在接近50次迭代時(shí),模型性能處于穩(wěn)定。
表3 不同實(shí)體類別的識別結(jié)果
圖8 本文模型的測試表現(xiàn)
4.4.2 消融實(shí)驗(yàn)與結(jié)果分析
基于上文的氣象科普知識數(shù)據(jù)集和實(shí)驗(yàn)參數(shù)設(shè)置,為了驗(yàn)證MGTNER 模型對實(shí)驗(yàn)結(jié)果的影響,本文利用消融實(shí)驗(yàn)來驗(yàn)證模型的優(yōu)越性。
本文采用字符級別的BiLSTM-CRF 模型和Lattice-LSTM 模型作為本次實(shí)驗(yàn)的基線模型,實(shí)驗(yàn)結(jié)果如表4。從實(shí)驗(yàn)結(jié)果來看,字符級別的BiL?STM-CRF 網(wǎng)絡(luò)效果較差,三相指標(biāo)僅在80%左右,因?yàn)樽址墑e的BiLSTM-CRF 模型并不能結(jié)合領(lǐng)域詞典,而氣象科普知識數(shù)據(jù)集存在不少領(lǐng)域內(nèi)詞匯,如“強(qiáng)熱帶風(fēng)暴”等。Lattice-LSTM 和SoftLexi?con-BiLSTM 網(wǎng)絡(luò)三項(xiàng)指標(biāo)相近,SoftLexicon-BiL?STM 網(wǎng)絡(luò)實(shí)體識別效果略微高一點(diǎn),Lattice-LSTM網(wǎng)絡(luò)雖然也解決了中文詞級別信息的融入,但其模型相比LSTM 需要額外建模,訓(xùn)練和推理效率相對較低。為了驗(yàn)證BERT 的有效性,設(shè)置了BERTSoftLexicon-BiLSTM 模 型 與SoftLexicon-BiLSTM 相比,三項(xiàng)指標(biāo)有了一定的提升。最后,為了驗(yàn)證記憶網(wǎng)絡(luò)的對模型性能提升的有效性,本文將BERT-SoftLexicon-BiLSTM并結(jié)合記憶網(wǎng)絡(luò)的模型與BERT-SoftLexicon-BiLSTM 模型進(jìn)行對比,在精確率、召回率和F1 三項(xiàng)指標(biāo)上分別提升了1.07%、0.84%和0.95%,可以看出,通過融合記憶網(wǎng)絡(luò)對模型識別效果有一定的提升。從實(shí)驗(yàn)結(jié)果可以得出,本文模型MGTNER 在氣象科普知識數(shù)據(jù)集上,相比于對比模型,有更好的實(shí)體識別效果。
表4 氣象科普知識領(lǐng)域各模型對比結(jié)果
4.4.3 Resume數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果與分析
由于氣象科普知識數(shù)據(jù)集沒有公開標(biāo)注好的數(shù)據(jù)集,本文采用公開數(shù)據(jù)集Resume 進(jìn)一步驗(yàn)證本文模型的性能。由于數(shù)據(jù)集不是特定領(lǐng)域,本實(shí)驗(yàn)采取Lattice-LSTM 的詞典,由704400 個(gè)字詞組成,包含了5700 個(gè)漢字、291500 個(gè)雙字詞、278100個(gè)三字詞和129100個(gè)其他詞匯。
為了探究在Resume數(shù)據(jù)集上,LSTM 隱藏層狀態(tài)的維度對模型效果的影響。實(shí)驗(yàn)在本文模型上選取不同維度的LSTM 隱藏層狀態(tài)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)如圖9。從實(shí)驗(yàn)結(jié)果來看,模型在LSTM 網(wǎng)絡(luò)隱藏層維度為300時(shí),F(xiàn)1得到最優(yōu)結(jié)果95.94%。
圖9 LSTM的隱藏層狀態(tài)的維度
在Resume 數(shù)據(jù)集的實(shí)驗(yàn)對比中,采用以下五種模型,除了上文提到的Lattice-LSTM 模型、SoftLexcion-BiLSTM 模型和本文模型外,LR-CNN模型[21]是在CNN 網(wǎng)絡(luò)的基礎(chǔ)上加入反饋機(jī)制來合并詞匯信息,TENER 模型[22]則是針對NER 任務(wù)對Transformer 網(wǎng)絡(luò)進(jìn)行改進(jìn)。表5 為各模型在中文Resume 數(shù)據(jù)集上的表現(xiàn),根據(jù)實(shí)驗(yàn)結(jié)果,本文模型MGTNER相較于其他幾種模型取得了最好的結(jié)果,其準(zhǔn)確率、召回率、F1 值分別為95.62%、96.26%、95.94%。可以得出在Resume 數(shù)據(jù)集上,本文基于多粒度的命名實(shí)體識別模型,相比于列表的幾種模型具有一定的優(yōu)勢。
表5 在Resume數(shù)據(jù)集上各模型對比實(shí)驗(yàn)結(jié)果
本文針對氣象科普知識領(lǐng)域存在大量領(lǐng)域內(nèi)專業(yè)詞匯,構(gòu)建了氣象科普知識數(shù)據(jù)集并且提出了一種基于多粒度信息融合的氣象科普知識命名實(shí)體識別模型MGTNER。該模型在氣象科普知識數(shù)據(jù)集中,相比于幾種基線模型BiLSTM-CRF、Lat?tice-CRF等具有一定的優(yōu)勢。為進(jìn)一步驗(yàn)證模型,本文在Resume 數(shù)據(jù)集中進(jìn)行幾種模型的對比,結(jié)果表明本文模型取得更好的實(shí)體識別效果。在未來的研究中,我們將繼續(xù)探索氣象科普知識的命名實(shí)體識別在其他下游任務(wù)中的應(yīng)用。