詹 飛,朱艷輝,梁文桐,冀相冰
(1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412007;2.湖南工業(yè)大學(xué) 智能信息感知及處理技術(shù)湖南省重點(diǎn)實(shí)驗(yàn)室,湖南 株洲 412007)
近年來,大規(guī)模中文通用知識(shí)圖譜的發(fā)展給國內(nèi)人工智能領(lǐng)域的發(fā)展帶來了新的機(jī)遇。實(shí)體鏈接作為命名實(shí)體識(shí)別任務(wù)的后續(xù)任務(wù),是知識(shí)圖譜構(gòu)建和補(bǔ)全過程中的關(guān)鍵一環(huán)。實(shí)體鏈接任務(wù)的目標(biāo)是將文本中識(shí)別的實(shí)體指稱和該實(shí)體指稱在給定知識(shí)庫中對(duì)應(yīng)的實(shí)體相關(guān)聯(lián),通??梢詫?shí)體鏈接分解為兩個(gè)串行的子任務(wù):候選實(shí)體生成和候選實(shí)體排序。候選實(shí)體生成階段為當(dāng)前實(shí)體指稱過濾掉知識(shí)庫中的大部分不相關(guān)實(shí)體,得到候選實(shí)體集。候選實(shí)體集中通常包含多于一個(gè)候選實(shí)體,在候選實(shí)體排序階段對(duì)候選實(shí)體集中的實(shí)體和當(dāng)前實(shí)體指稱進(jìn)行相似度打分并排序,得分最高的實(shí)體即為當(dāng)前實(shí)體指稱的目標(biāo)鏈接實(shí)體。實(shí)體鏈接任務(wù)的關(guān)鍵挑戰(zhàn)即為如何有效利用實(shí)體指稱和候選實(shí)體的相關(guān)信息來對(duì)二者進(jìn)行相似度打分。
現(xiàn)有實(shí)體鏈接工作的重點(diǎn)集中在候選實(shí)體排序階段。隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)技術(shù)被廣泛地應(yīng)用到自然語言處理領(lǐng)域的多項(xiàng)任務(wù)中,并取得了很好的效果。針對(duì)實(shí)體鏈接任務(wù),He Z.Y.等[1]提出一種基于深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)的方法來進(jìn)行實(shí)體鏈接,通過深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)實(shí)體和上下文的特征表示,端到端地進(jìn)行實(shí)體鏈接,避免了人工設(shè)計(jì)特征,當(dāng)時(shí)在兩個(gè)公開實(shí)體鏈接數(shù)據(jù)集上取得了最先進(jìn)的性能。M.Francis-Landau 等[2]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)來捕獲實(shí)體指稱上下文和目標(biāo)實(shí)體上下文的語義信息,并利用多個(gè)粒度的卷積來比較兩者之間的語義相似度。T.H.Nguyen 等[3]提出結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合模型來同時(shí)獲取實(shí)體指稱上下文局部特征和全局主題特征,用卷積神經(jīng)網(wǎng)絡(luò)獲取局部相似性,用循環(huán)神經(jīng)網(wǎng)絡(luò)獲取全局一致性,該模型在多個(gè)數(shù)據(jù)集上被證明是有效的。Liu C.等[4]提出一種新型的注意力機(jī)制來獲取給定實(shí)體指稱周圍重要的文本,并且結(jié)合一種前向-后向算法獲取文本主題信息來提高實(shí)體鏈接的準(zhǔn)確率。Hu S.Z.等[5]提出具有雙重注意力機(jī)制的對(duì)稱Bi-LSTM(bidirectional long short-term memory)模型,該模型能有效利用結(jié)構(gòu)信息和注意力機(jī)制更全面地提取實(shí)體特征,并結(jié)合上下文特征和結(jié)構(gòu)特征作為實(shí)體的特征表示。
預(yù)訓(xùn)練語言模型出現(xiàn)之前,使用深度學(xué)習(xí)方法解決自然語言處理問題的研究思路,大多是針對(duì)特定的目標(biāo)任務(wù)來設(shè)計(jì)對(duì)應(yīng)的模型。BERT(bidirectional encoder representations from transformers)出現(xiàn)之前,已經(jīng)有了一些專家學(xué)者對(duì)預(yù)訓(xùn)練語言模型進(jìn)行了相關(guān)研究工作,如ULMFiT(universal language model fine-tuning)[6]和OpenAI GPT[7]模型,但由于單向語言模型的限制,它們不能對(duì)上下文語義信息進(jìn)行充分利用。J.Devlin 等[8]對(duì)現(xiàn)有預(yù)訓(xùn)練語言模型[7]進(jìn)行改進(jìn),提出新的預(yù)訓(xùn)練語言模型BERT,目前,該模型在許多下游任務(wù)上取得了較優(yōu)效果。本研究將BERT 引入實(shí)體鏈接任務(wù)中,將預(yù)訓(xùn)練的BERT 語言模型作為實(shí)體鏈接模型的一部分。
關(guān)鍵詞能夠反映出文本主題信息,強(qiáng)化文本相似度比較的效果。將關(guān)鍵詞提取技術(shù)加入到實(shí)體鏈接過程中,輔助進(jìn)行實(shí)體指稱和候選實(shí)體相關(guān)信息的相似度比較,能夠增強(qiáng)文本相似度度量的準(zhǔn)確性,從而優(yōu)化模型效果。TextRank關(guān)鍵詞提取算法將關(guān)鍵詞提取問題轉(zhuǎn)化到圖模型中進(jìn)行處理,能夠考慮到相鄰詞的語義關(guān)系,提取出的關(guān)鍵詞能夠更好地反映文本的主題信息。因此,本文將TextRank關(guān)鍵詞提取算法融合到實(shí)體鏈接過程中。
基于BERT模型的實(shí)體鏈接方法在NLP(natural language processing)任務(wù)上的優(yōu)秀表現(xiàn)和關(guān)鍵詞提取對(duì)文本相似度比較的強(qiáng)化效果,本文提出一種基于BERT和TextRank關(guān)鍵詞提取的實(shí)體鏈接模型。該模型的特點(diǎn)是將BERT預(yù)訓(xùn)練語言模型引入實(shí)體鏈接任務(wù),通過BERT 來獲取句子的向量表示,從而進(jìn)行實(shí)體指稱和候選實(shí)體相關(guān)信息的關(guān)聯(lián)度分析。同時(shí),使用TextRank關(guān)鍵詞提取技術(shù)來獲得目標(biāo)實(shí)體描述文本的關(guān)鍵詞,作為目標(biāo)實(shí)體綜合描述的一部分,輸入到BERT中,這能夠增強(qiáng)目標(biāo)實(shí)體綜合描述的主題信息,從而優(yōu)化模型的效果。
本研究提出基于BERT和TextRank關(guān)鍵詞提取的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實(shí)體鏈接,模型整體結(jié)構(gòu)如圖1所示,主要包括TextRank關(guān)鍵詞提取部分、BERT層和輸出層。
圖1 基于BERT和TextRank關(guān)鍵詞提取的實(shí)體鏈接網(wǎng)絡(luò)模型Fig.1 Entity linking model based on BERT and TextRank keyword extraction
將實(shí)體指稱上下文和候選目標(biāo)實(shí)體的綜合描述用[SEP]分隔符隔開作為BERT的輸入,實(shí)體指稱上下文為當(dāng)前實(shí)體指稱所在的句子,候選目標(biāo)實(shí)體的綜合描述由關(guān)鍵詞、實(shí)體類型和實(shí)體描述信息組成。關(guān)鍵詞由實(shí)體描述信息通過TextRank關(guān)鍵詞提取得到,實(shí)體類型和實(shí)體描述信息從目標(biāo)知識(shí)庫中獲取。然后取BERT輸出中CLS位置對(duì)應(yīng)的向量作為下一個(gè)全連接層的輸入,使用sigmoid函數(shù)進(jìn)行激活,把文本語義相似性問題抽象為二分類問題。
BERT模型結(jié)構(gòu)如圖2所示。
圖2 BERT模型結(jié)構(gòu)圖Fig.2 BERT model structure illustration
圖2所示模型借鑒了A.Vaswani 等[9]提出的“多層雙向Transformer 編碼器”思想,以雙向Transformer的Encoder 作為模型的基本組成單元。
BERT模型雖然和之前的預(yù)訓(xùn)練語言模型OpenAI GPT 一樣都使用了Transformer,但不同的是OpenAI GPT模型使用的是單向的注意力機(jī)制,BERT模型則針對(duì)這一不足進(jìn)行了改進(jìn),使用雙向Transformer的Encoder 作為基本組成單元,BERT的這種結(jié)構(gòu)能夠聯(lián)合所有層中的左右兩個(gè)方向的上下文信息進(jìn)行訓(xùn)練。
BERT模型使用的Transformer 基于多頭注意力機(jī)制(multi-head attention)。多頭注意力機(jī)制的結(jié)構(gòu)如圖3所示。
由圖3的結(jié)構(gòu)形式可知,多頭注意力機(jī)制可以幫助模型捕獲更多層面的語義特征,將各個(gè)注意力頭單獨(dú)進(jìn)行計(jì)算,然后將其結(jié)果進(jìn)行拼接,得到最終結(jié)果。
式(1)~(2)中:Q,K,V為輸入量;
W為變換參數(shù)。
對(duì)多頭注意力的輸入量Q,K,V分別進(jìn)行線性變換,每次線性變換的參數(shù)W取值不同,分別為WiQ,WiK和WiV,線性變換得到的結(jié)果輸入Scaled Dot-Product Attention中得到headi,重復(fù)做h次;然后將h次Scaled Dot-Product Attention 得到的結(jié)果head1,head2,…,headh進(jìn)行拼接,并對(duì)拼接的結(jié)果進(jìn)行線性變換,得到多頭注意力的最終結(jié)果,線性變換的參數(shù)為WO。
受Y.Bengio 等[10]研究結(jié)論的啟發(fā),BERT的訓(xùn)練方式不同于之前的預(yù)訓(xùn)練語言模型,而是通過大量未標(biāo)注的百科文本語料進(jìn)行訓(xùn)練,得到預(yù)訓(xùn)練語言模型,然后根據(jù)具體需要,針對(duì)特定目標(biāo)任務(wù)對(duì)BERT模型進(jìn)行微調(diào)。新的預(yù)訓(xùn)練方法也是BERT表現(xiàn)優(yōu)于之前的預(yù)訓(xùn)練語言模型的重要因素,它不再采用傳統(tǒng)的單向語言模型來進(jìn)行預(yù)訓(xùn)練,而是提出兩個(gè)新任務(wù)來進(jìn)行預(yù)訓(xùn)練,即通過MLM(masked language model)和“下一句預(yù)測(cè)”(next sentence prediction)兩個(gè)新的任務(wù)分別捕捉詞語和句子級(jí)別的特征。
MLM 用來克服之前的預(yù)訓(xùn)練語言模型的單向性所具有的局限,對(duì)于輸入序列中15%的數(shù)據(jù),隨機(jī)地將這些輸入序列中的一部分單詞用[mask]標(biāo)記進(jìn)行遮蓋,然后以預(yù)測(cè)這些被遮蓋的單詞為目標(biāo)來對(duì)模型進(jìn)行訓(xùn)練,這樣能夠同時(shí)在左右兩個(gè)方向上融合上下文信息。通過MLM 任務(wù)的訓(xùn)練,模型能夠同時(shí)對(duì)左右兩側(cè)的語義特征進(jìn)行提取,通過聯(lián)合所有層中的左右兩個(gè)方向的上下文信息進(jìn)行訓(xùn)練,得到深度雙向Transformer 轉(zhuǎn)換。但是用于遮蔽單詞的特殊標(biāo)記[mask]在實(shí)際的NLP 任務(wù)中并不存在,用從語料中隨機(jī)獲取的詞和預(yù)測(cè)位置的原詞按照一定比例對(duì)需要[mask]遮蔽的詞進(jìn)行替換,從而可以保證訓(xùn)練過程和實(shí)際任務(wù)保持一致。用特殊標(biāo)記“[mask]”來替換80%的目標(biāo)單詞,用從語料中隨機(jī)獲取的一個(gè)詞來替換10%的目標(biāo)單詞,剩余10%的目標(biāo)單詞不進(jìn)行任何操作。
對(duì)于“下一句預(yù)測(cè)”任務(wù)捕捉詞語和句子級(jí)別的特征,是為了讓模型能夠更好地捕捉句子級(jí)別的語義特征。每條訓(xùn)練數(shù)據(jù)為連續(xù)的兩個(gè)句子M和N,概率為50%的句子N是原文中的正確句子,概率為50%的句子N會(huì)被替換為語料中的一條隨機(jī)語句來作為負(fù)樣本進(jìn)行訓(xùn)練,然后再做二分類來判斷輸入的句子N是正確的還是隨機(jī)產(chǎn)生的。
使用TextRank 算法進(jìn)行關(guān)鍵詞提取的思路是將關(guān)鍵詞提取問題轉(zhuǎn)化到圖模型中進(jìn)行處理,這樣能夠考慮到相鄰詞的語義關(guān)系。使用TextRank 算法提取得到的關(guān)鍵詞能夠增強(qiáng)句子的主題信息,從而優(yōu)化文本相似度度量的效果。
TextRank 算法是以PageRank 算法為藍(lán)本,針對(duì)自然語言處理的特點(diǎn)進(jìn)行修改而形成的。使用TextRank 算法進(jìn)行關(guān)鍵詞提取的思路是將關(guān)鍵詞提取問題轉(zhuǎn)化到圖模型中進(jìn)行處理,這樣能夠考慮到相鄰詞語的語義關(guān)系。并根據(jù)各個(gè)詞之間的相互聯(lián)系判斷其對(duì)于文本整體重要性的高低,得到各個(gè)詞的重要性得分,然后根據(jù)其得分從高到低進(jìn)行排序,設(shè)定閾值H,重要性得分較高的H個(gè)詞即可視為提取出來的文本關(guān)鍵詞。將文本看成是句子集合T={S1,S2,…,Sn},其中的每個(gè)句子Si∈T,又可以看作詞的集合Si={N1,N2,…,Nm},構(gòu)建圖模型G=(V,E),其中V=S1∪S2∪…∪Sn,當(dāng)兩個(gè)詞共同出現(xiàn)在一個(gè)句子中時(shí),對(duì)應(yīng)的節(jié)點(diǎn)有邊,否則無邊。詞的重要性得分計(jì)算方法如下:
式中:In(Ni)是指向節(jié)點(diǎn)i的節(jié)點(diǎn)集合;
Out(Nj)是節(jié)點(diǎn)j指向的節(jié)點(diǎn)組成的集合;
d為阻尼系數(shù);根據(jù)實(shí)際情況對(duì)阻尼系數(shù)進(jìn)行賦值,通常取0.85。
在使用TextRank 進(jìn)行關(guān)鍵詞提取時(shí),以詞為節(jié)點(diǎn),以共現(xiàn)關(guān)系建立節(jié)點(diǎn)之間的鏈接來進(jìn)行圖模型的構(gòu)建。這里的圖模型與PageRank模型不同的是,PageRank 構(gòu)建的是有向圖,而TextRank 構(gòu)建的圖是無向圖。首先對(duì)圖中的每個(gè)節(jié)點(diǎn)指定任意初始值,然后進(jìn)行迭代訓(xùn)練直至收斂,這樣就能夠計(jì)算出各節(jié)點(diǎn)的最終權(quán)重。
本研究采用CCKS2019(2019 全國知識(shí)圖譜與語義計(jì)算大會(huì))任務(wù)二提供的訓(xùn)練語料和知識(shí)庫[11-12]。訓(xùn)練語料中每條數(shù)據(jù)包含一條文本和該文本中包含的實(shí)體指稱,以及各個(gè)實(shí)體指稱在給定知識(shí)庫中對(duì)應(yīng)的目標(biāo)實(shí)體。知識(shí)庫中包含每個(gè)實(shí)體的別名、實(shí)體類別和實(shí)體描述信息。本研究僅評(píng)價(jià)數(shù)據(jù)集中的非“NIL”型實(shí)體指稱,即在目標(biāo)知識(shí)庫中存在鏈接實(shí)體的實(shí)體指稱。
訓(xùn)練語料由訓(xùn)練集和驗(yàn)證集組成,其中訓(xùn)練集包括9萬條短文本標(biāo)注數(shù)據(jù),驗(yàn)證集包括1萬條短文本標(biāo)注數(shù)據(jù),數(shù)據(jù)通過百度眾包標(biāo)注生成。標(biāo)注數(shù)據(jù)集主要來自于真實(shí)的互聯(lián)網(wǎng)網(wǎng)頁標(biāo)題數(shù)據(jù),這些標(biāo)題數(shù)據(jù)來源于用戶檢索Query 對(duì)應(yīng)的有展現(xiàn)及點(diǎn)擊的網(wǎng)頁,短文本平均長度為21.73個(gè)中文字符,覆蓋了不同領(lǐng)域的實(shí)體,如人物、電影、電視、小說、軟件、組織機(jī)構(gòu)、事件等。
實(shí)體鏈接評(píng)價(jià)指標(biāo)選用精確率P、召回率R、F值(F-score),具體說明如下:
給定輸入文本集Q,對(duì)于Q中每條輸入文本q,此輸入q中有N個(gè)實(shí)體指稱即,Mq={m1,m2,m3,…},每個(gè)實(shí)體指稱鏈接到知識(shí)庫的實(shí)體編號(hào)為Eq={e1,e2,e3,…},實(shí)體鏈接系統(tǒng)輸出的鏈接結(jié)果為Eq′={e1′,e2′,e3′,…},則實(shí)體鏈接的準(zhǔn)確率P,召回率R和F值定義如下:
本研究中的軟硬件實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)為Ubuntu16.04,GPU 顯 卡為NVIDIA RTX 2080Ti(11 GB),python版本為3.6,tensorflow版本為1.12.0,內(nèi)存為16 GB,硬盤容量為1 TB。
本研究所使用的BERT為包含12層的Transformer的BERTBASE,學(xué)習(xí)率為1e-5,最大序列長度為512,訓(xùn)練batch_size為4。
為了驗(yàn)證本研究中所提出的基于BERT和TextRank關(guān)鍵詞提取的實(shí)體鏈接方法的有效性,本研究復(fù)現(xiàn)了經(jīng)典的句子語義建模方法,如TextRNN和TextRNN 方法,用TextRNN[13]和TextRCNN[14]進(jìn)行實(shí)體鏈接,與本文中的BERT-TextRank模型類似,在這兩個(gè)模型中都將實(shí)體鏈接中的文本語義相似性問題抽象為二分類問題進(jìn)行處理。分別將TextRNN和TextRCNN模型與TextRank關(guān)鍵詞提取算法相結(jié)合,然后進(jìn)行對(duì)比實(shí)驗(yàn)。
3.5.1 關(guān)鍵詞個(gè)數(shù)K的取值實(shí)驗(yàn)
分 別 使 用TextRNN-TextRank、TextRCNNTextRank和BERT-TextRank 3 組模型進(jìn)行實(shí)體鏈接實(shí)驗(yàn),TextRNN-TextRank表示將TextRNN模型和TextRank關(guān)鍵詞提取算法進(jìn)行結(jié)合,其他兩個(gè)模型名稱含義與其類似。K值表示TextRank 算法提取的關(guān)鍵詞個(gè)數(shù),以步長為1,在區(qū)間[0,6]內(nèi)對(duì)參數(shù)K做取值實(shí)驗(yàn),K值為0時(shí)表示不進(jìn)行關(guān)鍵詞提取。隨著K值的取值變化,上述3個(gè)模型的實(shí)體鏈接效果如表1所示。
各模型的TextRank關(guān)鍵詞個(gè)數(shù)K調(diào)節(jié)實(shí)驗(yàn)結(jié)果如圖4所示。
分析對(duì)比圖4a、b、c的實(shí)驗(yàn)結(jié)果表明,結(jié)合TextRank關(guān)鍵詞提取算法后,3個(gè)模型的實(shí)體鏈接效果都有所提高,且本文提出的BERT-TextRank 方法的實(shí)驗(yàn)效果優(yōu)于其他兩個(gè)模型實(shí)驗(yàn)結(jié)果。TextRNNTextRank和BERT-TextRank模型在關(guān)鍵詞個(gè)數(shù)K=3時(shí)F值達(dá)到最大,而TextRCNN-TextRank模型在關(guān)鍵詞個(gè)數(shù)K=5時(shí)F值達(dá)到最大值。
圖4 關(guān)鍵詞個(gè)數(shù)K 取值實(shí)驗(yàn)結(jié)果Fig.4 Experimental results corresponding with values of keyword K
當(dāng)在F值達(dá)到峰值后繼續(xù)增加關(guān)鍵詞個(gè)數(shù)會(huì)導(dǎo)致主題信息比較分散,從而導(dǎo)致F值有所降低。這說明利用TextRank模型提取關(guān)鍵詞,從而增強(qiáng)知識(shí)庫中實(shí)體描述文本的主題信息,對(duì)于實(shí)體鏈接是有效的,但是不同模型對(duì)于關(guān)鍵詞個(gè)數(shù)的敏感性不同,模型F值取得峰值時(shí)對(duì)應(yīng)關(guān)鍵詞個(gè)數(shù)K也并不完全相同。因此,接下來關(guān)鍵詞個(gè)數(shù)K分別選取各個(gè)模型的最佳值進(jìn)行對(duì)比實(shí)驗(yàn),即K值分別選取3,5,3。
3.5.2 相似度閾值Y取值實(shí)驗(yàn)
分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),存在一部分實(shí)體指稱在目標(biāo)知識(shí)庫中對(duì)應(yīng)的候選實(shí)體集合不為空,但是候選實(shí)體集合中不存在正確的目標(biāo)實(shí)體,即知識(shí)庫中沒有該實(shí)體指稱對(duì)應(yīng)的實(shí)體,導(dǎo)致錯(cuò)誤鏈接。
模型的輸出層為全連接層,使用sigmoid函數(shù)進(jìn)行激活,把文本語義相似性問題抽象為二分類問題進(jìn)行處理。將模型輸出值記為y,y即為實(shí)體指稱鏈接到當(dāng)前目標(biāo)實(shí)體的概率,也是實(shí)體指稱上下文和當(dāng)前目標(biāo)實(shí)體綜合描述信息的相似度得分。設(shè)定相似度閾值Y,對(duì)其定義如下:
當(dāng)候選實(shí)體上下文與目標(biāo)實(shí)體特征描述的相似度得分y大于閾值Y時(shí),將實(shí)體指稱鏈接到當(dāng)前實(shí)體;當(dāng)y小于閾值Y時(shí),即認(rèn)為知識(shí)庫中不存在此實(shí)體指稱的目標(biāo)鏈接實(shí)體,將其鏈接目標(biāo)標(biāo)記為“NIL”。
由上述實(shí)驗(yàn)確定TextRNN-TextRank模型的參數(shù)K=3,TextRCNN-TextRank模型的參數(shù)K=5,BERTTextRank模型的參數(shù)K=3后,對(duì)閾值Y進(jìn)行取值實(shí)驗(yàn),實(shí)驗(yàn)區(qū)間設(shè)置為[0,0.5],以步長為0.1 進(jìn)行Y取值實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如表2所示。
表2 閾值Y 取值實(shí)驗(yàn)結(jié)果Table2 Threshold Y experiments results
各模型的閾值Y調(diào)節(jié)實(shí)驗(yàn)結(jié)果如圖5所示。
分析對(duì)比圖5a、b、c的實(shí)驗(yàn)結(jié)果表明,3 組模型中的P值均隨著Y值的增大呈上升的變化趨勢(shì),而R值均隨著Y值的增大呈下降的變化趨勢(shì),但是TextRNN-TextRank模型和TextRCNN-TextRank模型的P值增加幅度不夠大,導(dǎo)致其F值呈單調(diào)下降趨勢(shì),BERT-TextRank模型的F值隨著閾值Y的增大先呈現(xiàn)出上升的變化趨勢(shì),在Y取0.2時(shí)其F值達(dá)到最大值,然后呈下降趨勢(shì)。證明隨著閾值Y的增大,正確鏈接應(yīng)為“NIL”的實(shí)體指稱被更多的識(shí)別出來,實(shí)體鏈接準(zhǔn)確率提高。但是一部分正確鏈接為非“NIL”的實(shí)體指稱因?yàn)橄嗨贫鹊梅窒鄬?duì)較低,在閾值Y增大的過程中被鏈接為“NIL”,從而導(dǎo)致實(shí)體鏈接召回率逐漸降低。在TextRNN-TextRank模型和TextRCNN-TextRank模型中,P值增大幅度相對(duì)較小,而其R值也逐漸減小,從而導(dǎo)致其F值呈單調(diào)下降的變化趨勢(shì)。因此TextRNN-TextRank模型和TextRCNN-TextRank模型的閾值Y應(yīng)選擇0,即不設(shè)定閾值,但是對(duì)于本研究提出的BERT-TextRank方法,根據(jù)實(shí)驗(yàn)結(jié)果選定閾值Y為0.2,能夠提升模型的實(shí)體鏈接效果。
圖5 閾值Y 取值實(shí)驗(yàn)結(jié)果Fig.5 Experimental results of threshold Y
3.5.3 不同模型對(duì)比實(shí)驗(yàn)
TextRNN、TextRCNN和BERT 三種模型結(jié)合關(guān)鍵詞提取方法和設(shè)定相似度閾值前后對(duì)比實(shí)驗(yàn)如表3所示。
表3 3個(gè)模型結(jié)合關(guān)鍵詞提取和閾值控制前后的實(shí)驗(yàn)結(jié)果Table3 Experimental results before and after keyword extraction with three models under threshold control
對(duì)比分析表3的實(shí)驗(yàn)數(shù)據(jù)表明,3種模型結(jié)合TextRank關(guān)鍵詞提取算法和選定相似度閾值Y后的F值均比結(jié)合之前有所提升,BERT-TextRank模型相比TextRNN-TextRank模型和TextRCNN-TextRank模型的P、R、F值也有較大提升,有效證明了本研究構(gòu)建的基于BERT預(yù)訓(xùn)練語言表征模型和TextRank關(guān)鍵詞提取的實(shí)體鏈接模型相比較于其他模型的有效性。
本研究提出了一種基于BERT和TextRank關(guān)鍵詞提取的實(shí)體鏈接方法。該方法可以分為TextRank關(guān)鍵詞提取和BERT 句子相似度比較兩部分。TextRank關(guān)鍵詞提取部分用來提取知識(shí)庫中實(shí)體描述文本的關(guān)鍵詞來增強(qiáng)文本主題信息,強(qiáng)化文本相似度比較的效果。BERT 句子相似度比較部分將實(shí)體指稱的上下文和候選實(shí)體的特征描述進(jìn)行相似度比較,候選實(shí)體的特征描述由關(guān)鍵詞、實(shí)體類型和實(shí)體描述文本組成,關(guān)鍵詞即為TextRank 提取得到的結(jié)果。實(shí)驗(yàn)結(jié)果證明了本文所提方法的有效性,說明加入主題信息對(duì)于文本相似性的度量是有效果的。未來計(jì)劃借鑒Liu Y.等[15]提出的結(jié)合詞嵌入和主題模型的思想,結(jié)合主題模型和BERT模型,將文本主題信息融合到句子向量表示中來進(jìn)行文本相似性度量和實(shí)體鏈接。
湖南工業(yè)大學(xué)學(xué)報(bào)2020年4期