蔣勝臣 王紅斌 余正濤 線(xiàn)巖團(tuán) 王紅濤
實(shí)體鏈接是指將文本中存在歧義的實(shí)體正確鏈接到知識(shí)庫(kù)中無(wú)歧義的候選實(shí)體的過(guò)程[1?2],實(shí)體鏈接的相關(guān)研究有助于知識(shí)庫(kù)的自動(dòng)填充[3],也有助于信息檢索的研究[4],同時(shí)實(shí)體鏈接與跨文本指代消解、詞義消岐,實(shí)體消岐等諸多自然語(yǔ)言研究領(lǐng)域有著緊密聯(lián)系.目前關(guān)于實(shí)體鏈接的研究方法,主要思想是通過(guò)計(jì)算實(shí)體指稱(chēng)項(xiàng)與其候選實(shí)體的多種特征相似度,選擇知識(shí)庫(kù)中無(wú)歧義實(shí)體進(jìn)行鏈接.早期研究以單實(shí)體為對(duì)象,Bunescu[5]和 Ganea等[6]使用詞袋模型計(jì)算指稱(chēng)項(xiàng)與候選實(shí)體的相似度,選取相似度最高的候選實(shí)體作為目標(biāo)實(shí)體;Cucerzan[7]和Nguyen 等[8]通過(guò)維基百科頁(yè)面錨文本、重定向頁(yè)面等信息計(jì)算指稱(chēng)項(xiàng)與候選實(shí)體的相似度;Zeng[9]利用第三方知識(shí)庫(kù)對(duì)候選實(shí)體特征進(jìn)行擴(kuò)充使得實(shí)體鏈接準(zhǔn)確率提高.以單實(shí)體為對(duì)象的實(shí)體鏈接方法忽略了文本中共現(xiàn)實(shí)體間的語(yǔ)義關(guān)系,并且計(jì)算效率不高.針對(duì)以上問(wèn)題,研究者們結(jié)合已有知識(shí)庫(kù)中存在的信息,提出以集成實(shí)體作為對(duì)象進(jìn)行實(shí)體鏈接的集成實(shí)體鏈接方法.Han 等[10]通過(guò)構(gòu)建候選實(shí)體語(yǔ)義相關(guān)圖進(jìn)行集成實(shí)體鏈接;Liu 等[11]提出基于圖的集成實(shí)體鏈接方法,以實(shí)體指稱(chēng)項(xiàng)和候選實(shí)體作為頂點(diǎn)構(gòu)建有向圖,通過(guò)計(jì)算出入度和語(yǔ)義相似度進(jìn)行集成實(shí)體鏈接;Ferragina 等[12]引入了概率化鏈接的思想,提出了一個(gè)面向短文本的集成實(shí)體鏈接算法.這些研究在一定程度彌補(bǔ)了單實(shí)體鏈接忽視共現(xiàn)實(shí)體間語(yǔ)義相關(guān)性的不足,但是卻在一定程度上忽略了指稱(chēng)項(xiàng)本身具有的文本特征,對(duì)文本信息利用率不高.
近些年隨著深度學(xué)習(xí)在自然語(yǔ)言中的應(yīng)用,利用表示學(xué)習(xí)計(jì)算語(yǔ)義相似度成為一種新的思路[13?14].隨著B(niǎo)engio 等[15]提出表示學(xué)習(xí)模型,通過(guò)表示學(xué)習(xí)表征實(shí)體深層語(yǔ)義信息計(jì)算相似度成為實(shí)體鏈接任務(wù)的新趨勢(shì)[16?17].Mikolov 等[18]和Goldberg[19]對(duì)向量空間中詞表示的有效嵌入進(jìn)行了評(píng)估;Kar 等[20]將表示學(xué)習(xí)用于特定任務(wù)領(lǐng)域的實(shí)體消歧;Moreno等[21]等通過(guò)擴(kuò)充錨文本對(duì)文本中的單詞和知識(shí)庫(kù)中的實(shí)體進(jìn)行聯(lián)合學(xué)習(xí)得到相應(yīng)的向量表示形式,從而進(jìn)行實(shí)體鏈接.
以上研究都是在通用領(lǐng)域,其有豐富的通用語(yǔ)料和消歧特征[22];而對(duì)于特定領(lǐng)域,往往存在語(yǔ)料不足,另外流行度等消歧特征不明顯的問(wèn)題,針對(duì)這些問(wèn)題,本文提出了一種新的基于關(guān)系指數(shù)和表示學(xué)習(xí)的領(lǐng)域集成實(shí)體鏈接方法.首先,構(gòu)建特定領(lǐng)域知識(shí)庫(kù),以作為實(shí)體鏈接的基礎(chǔ);其次,通過(guò)LDA主題模型、word2vec 模型和TransE 模型訓(xùn)練本文收集到的背景語(yǔ)料和特定領(lǐng)域知識(shí)庫(kù)中的三元組,得到蘊(yùn)含知識(shí)和主題信息的實(shí)體指稱(chēng)項(xiàng)和候選實(shí)體的向量表示;再利用得到的向量表示和LDA 主題模型抽取實(shí)體指稱(chēng)項(xiàng)所在主題的領(lǐng)域關(guān)鍵詞;然后,結(jié)合詞擴(kuò)展,得到實(shí)體指稱(chēng)項(xiàng)的擴(kuò)展詞;再利用得到的特征,計(jì)算指稱(chēng)項(xiàng)與候選實(shí)體的上下文、領(lǐng)域關(guān)鍵字、擴(kuò)展詞三種特征相似度;同時(shí)利用知識(shí)庫(kù)中豐富的關(guān)系信息,得到候選實(shí)體的關(guān)系指數(shù);最后,將三種特征相似度和關(guān)系指數(shù)相融合,得到最后的相似度.本文的主要貢獻(xiàn)主要有:1)利用表示學(xué)習(xí),同時(shí)將文本詞向量表示和知識(shí)庫(kù)的知識(shí)表示嵌入到同一個(gè)語(yǔ)義空間,融合了文本信息和知識(shí)庫(kù)信息;2)收集了語(yǔ)料,獲取了特定領(lǐng)域相關(guān)知識(shí),構(gòu)建了特定領(lǐng)域知識(shí)庫(kù);3)將關(guān)系屬性融入到實(shí)體鏈接 中,實(shí)現(xiàn)了實(shí)體的語(yǔ)義屬性和關(guān)系屬性的融合.
本文提出的方法具體步驟是:首先,構(gòu)建特定領(lǐng)域知識(shí)庫(kù),以作為實(shí)體鏈接的基礎(chǔ);其次,通過(guò)LDA 主題模型、word2vec 模型和TransE 模型訓(xùn)練本文收集到的背景語(yǔ)料和特定領(lǐng)域知識(shí)庫(kù)中的三元組,得到蘊(yùn)含知識(shí)信息和主題信息的實(shí)體指稱(chēng)項(xiàng)和候選實(shí)體的向量表示;再利用得到的向量表示和LDA 主題模型抽取實(shí)體指稱(chēng)項(xiàng)所在主題的領(lǐng)域關(guān)鍵詞;其次,結(jié)合詞擴(kuò)展,得到實(shí)體指稱(chēng)項(xiàng)的擴(kuò)展詞;然后,利用得到的特征,計(jì)算指稱(chēng)項(xiàng)與候選實(shí)體的上下文、領(lǐng)域關(guān)鍵字、擴(kuò)展詞三種特征相似度;同時(shí)利用知識(shí)庫(kù)中豐富的關(guān)系信息,得到候選實(shí)體的關(guān)系指數(shù);最后,將三種特征相似度和關(guān)系指數(shù)相融合,得到最終相似度.將相似度最高的候選實(shí)體作為最終鏈接對(duì)象.
本文方法包括5 部分:特定領(lǐng)域知識(shí)庫(kù)構(gòu)建、融合知識(shí)和主題信息的詞向量訓(xùn)練、候選實(shí)體的生成、多特征生成、實(shí)體鏈接.如圖1 所示.
圖1 模型框架圖Fig.1 Frame diagram of the model
本文針對(duì)特定領(lǐng)域,在分析領(lǐng)域?qū)傩缘幕A(chǔ)上,通過(guò)人工定義知識(shí)體系,從百度百科等網(wǎng)站上收集了相關(guān)語(yǔ)料,包括旅游景點(diǎn)語(yǔ)料、野生菌語(yǔ)料、茶葉語(yǔ)料、中國(guó)少數(shù)民族語(yǔ)料,小吃語(yǔ)料和藥材語(yǔ)料,交通方式和住宿信息語(yǔ)料共計(jì)96 674 個(gè)詞條,構(gòu)建了具有一定規(guī)模的特定領(lǐng)域知識(shí)庫(kù).然后將識(shí)別好的領(lǐng)域?qū)嶓w和實(shí)體間關(guān)系采用批量導(dǎo)入的方式導(dǎo)入到圖數(shù)據(jù)庫(kù)Neo4j 進(jìn)行管理.本文使用自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)作為實(shí)體鏈接任務(wù)的支撐,并結(jié)合百度百科作為第三方知識(shí)庫(kù)對(duì)自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中的實(shí)體屬性進(jìn)行有效補(bǔ)充.具體方法是針對(duì)知識(shí)庫(kù)中的每個(gè)實(shí)體,通過(guò)它在百度百科相應(yīng)的概念頁(yè)面,抓取頁(yè)面中Infobox 的半結(jié)構(gòu)化三元組數(shù)據(jù).然后利用Neo4j 圖數(shù)據(jù)庫(kù)進(jìn)行管理.對(duì)本地知識(shí)庫(kù)中同名實(shí)體采用加后綴標(biāo)簽的方式進(jìn)行區(qū)分,且后綴標(biāo)簽用小括號(hào)與實(shí)體隔離.例如:實(shí)體“香格里拉”.在本地知識(shí)庫(kù)中有三個(gè)相應(yīng)實(shí)體,分別加上后綴標(biāo)簽“地名”、“酒店”、“電影”,并用小括號(hào)進(jìn)行隔離.如:香格里拉(酒店)、香格里拉(地名)、香格里拉(電影).
1.2.1 主題關(guān)鍵詞特征提取
特定領(lǐng)域的實(shí)體鏈接可以利用領(lǐng)域特征進(jìn)行實(shí)體鏈接[23?24],領(lǐng)域關(guān)鍵詞表征了領(lǐng)域的主要語(yǔ)義信息和領(lǐng)域特征,但是基于領(lǐng)域關(guān)鍵詞的相似度計(jì)算主要是從全局上下文信息出發(fā),并沒(méi)有考慮到文本局部的上下文信息,針對(duì)這個(gè)問(wèn)題,本文提出利用LDA主題模型對(duì)訓(xùn)練語(yǔ)料上下文進(jìn)行主題分類(lèi),通過(guò)在不同主題下對(duì)多義詞與主題詞結(jié)合進(jìn)行語(yǔ)義擴(kuò)充,計(jì)算詞與詞之間的余弦相似度進(jìn)行K-Means 聚類(lèi),選 擇離聚類(lèi)中心最近的m個(gè)詞作為主題關(guān)鍵詞.
1.2.2 融合主題信息的詞向量模型訓(xùn)練
Mikolov 等[18]提出Word2vec,通過(guò)神經(jīng)網(wǎng)絡(luò)將詞表示在一個(gè)低維稠密的向量空間中,利用距離和角度反映出詞語(yǔ)之間的語(yǔ)義信息;本文選擇Google的開(kāi)源工具包word2vec,采用Skip-gram 模型作為詞向量訓(xùn)練的基本模型,其主要思想為根據(jù)中心詞最大概率得到出其上下文:
其中,wk是中心詞,wk+j表示中心詞的上下文,N是訓(xùn)練時(shí)窗口的大小,在本文中沒(méi)有對(duì)窗口設(shè)置對(duì)比實(shí)驗(yàn),按照實(shí)驗(yàn)經(jīng)驗(yàn),設(shè)窗口大小為5.p(wk+j|wk)表示在中心詞wk的條件下,wk+j生成的概率,利用softmax 函數(shù)求得:
其中,d(wk,wj)表示詞wk和wj向量表示的歐幾里得距離,m表示詞wk的主題詞個(gè)數(shù).將主題信息融入詞向量表示中:
其中,α為權(quán)重值,我們的目標(biāo)是最小化Jg,通過(guò)將主題關(guān)鍵詞的距離融入詞向量表達(dá)中,使得同主題詞之間的向量表示更接近.對(duì)沒(méi)有同主題關(guān)鍵詞的詞語(yǔ),直接按照Skip-gram 模型訓(xùn)練出其向量表示形式.通過(guò)對(duì)訓(xùn)練出的詞向量與同主題詞計(jì)算相似度并參考Xu 等[25]的實(shí)驗(yàn)參數(shù),設(shè)置α=0.8;m=6.
1.2.3 TransE 模型的聯(lián)合學(xué)習(xí)
Bordes 等在Mikolov 的word2vec 詞表示學(xué)習(xí)模型的基礎(chǔ)上提出了TransE 模型[26],將知識(shí)庫(kù)中的關(guān)系看作實(shí)體間的某種平移向量.通過(guò)TransE模型對(duì)構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中的三元組進(jìn)行訓(xùn)練,得到知識(shí)庫(kù)中實(shí)體和關(guān)系的向量表示.針對(duì)現(xiàn)有的實(shí)體鏈接方法,無(wú)法將知識(shí)庫(kù)信息和文本信息更好的融合,造成在實(shí)體鏈接中無(wú)法利用更多的文本信息和知識(shí)庫(kù)信息,在本文中,為了將知識(shí)庫(kù)信息與文本信息融合,以達(dá)到更佳的實(shí)體鏈接效果,我們將第2.2.2 節(jié)中融合主題信息的詞向量表示與知識(shí)表示模型TransE 聯(lián)合學(xué)習(xí).首先利用收集到的三元組語(yǔ)料預(yù)訓(xùn)練TransE 模型,得到實(shí)體與關(guān)系的向量表示,再將第2.2.2 節(jié)得到的融合主題信息的詞向量表示形式,替換原有的實(shí)體向量表示,計(jì)算兩者的尾實(shí)體的距離:
其中,wk,r表示TransE 模型得到的原實(shí)體wk和關(guān)系r的向量之和,wk?,r表示wk在融合主題信息的詞向量模型中的向量表示和關(guān)系r的向量之和,n表示實(shí)體個(gè)數(shù).通過(guò)最小化Dz,使得詞向量表示和知識(shí)表示相互約束訓(xùn)練模型,最終得到融合結(jié)構(gòu)知識(shí)的詞向量表示.對(duì)于在自構(gòu)建的本地知識(shí)庫(kù)中沒(méi)有實(shí)體相對(duì)應(yīng)的詞語(yǔ),將它們輸入到訓(xùn)練好的模型中得到新的向量.我們稱(chēng)之為融合偽知識(shí)的詞向量表示,這樣做是將文本中的詞與自構(gòu)建本地領(lǐng)域知識(shí)庫(kù)中實(shí)體向量表示嵌入到同一個(gè)語(yǔ)義空間中,達(dá)到融合文本信息和知識(shí)庫(kù)信息的目的,也為后面的相似度計(jì)算提供方便.本文沒(méi)有對(duì)TransE 模型的參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響做特定實(shí)驗(yàn),向量維數(shù)設(shè)為200,邊緣超參數(shù)設(shè)為1,學(xué)習(xí)速率設(shè)為0.0001,選用L2 作為距離計(jì)算公式.在整個(gè)融合知識(shí)和主題信息的詞向量表示過(guò)程中,向量維度統(tǒng)一設(shè)為200,整 體模型框架圖如圖2 所示.
圖2 融合知識(shí)和主題信息的詞向量表示模型Fig.2 Word vector representation model that fuses knowledge and subject information
1.3.1 候選實(shí)體的選取
對(duì)于候選實(shí)體的生成,首先要識(shí)別出文本中所有的實(shí)體指稱(chēng)項(xiàng),將實(shí)體指稱(chēng)項(xiàng)組成集合M={m1,m2,···,mn},其中n表示文本中實(shí)體指稱(chēng)項(xiàng)的個(gè)數(shù).然后針對(duì)每個(gè)實(shí)體指稱(chēng)項(xiàng)mi,在自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中尋找與之同名實(shí)體(不包括括號(hào)內(nèi)的實(shí)體后綴標(biāo)簽)并組合成集合,作為它的候選實(shí)體集合Ni={ni1,ni2,···}.如果知識(shí)庫(kù)中沒(méi)有同名實(shí)體,則把相應(yīng)的實(shí)體指稱(chēng)項(xiàng)歸為空實(shí)體;當(dāng)候選實(shí)體個(gè)數(shù)小于等于4 時(shí),選取指稱(chēng)項(xiàng)所有的候選實(shí)體作為它最終的候選實(shí)體;當(dāng)候選實(shí)體個(gè)數(shù)大于4 時(shí),計(jì)算指稱(chēng)項(xiàng)與候選實(shí)體的上下文相似度,選取相似度最大的4 個(gè)候選實(shí)體作為最終的候選實(shí)體.上下文相似度計(jì)算公式為:
其中,E(Gi) 和分別表示實(shí)體指稱(chēng)項(xiàng)的上下文詞和其候選實(shí)體直接三元組尾實(shí)體的向量表示;d和u分別表示實(shí)體指稱(chēng)項(xiàng)的上下文詞的個(gè)數(shù)和其候選 實(shí)體直接三元組尾實(shí)體的個(gè)數(shù).
1.3.2 候選實(shí)體關(guān)系屬性的計(jì)算
針對(duì)集成實(shí)體鏈接,關(guān)系屬性是候選實(shí)體的重要屬性之一,基于實(shí)體指稱(chēng)項(xiàng)語(yǔ)義相近,則它們?cè)谥R(shí)庫(kù)中的無(wú)歧義實(shí)體也應(yīng)該具有關(guān)系的思想.例如:實(shí)體指稱(chēng)項(xiàng)“香格里拉”和“麗江”,它們語(yǔ)義相近,則它們?cè)谥R(shí)庫(kù)中的無(wú)歧義實(shí)體“香格里拉(旅游勝地)”和“麗江(旅游勝地)”也具有相應(yīng)的關(guān)系.本文將候選實(shí)體的關(guān)系屬性分為直接關(guān)系屬性和間接關(guān)系屬性.1)直接關(guān)系屬性計(jì)算自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中含有豐富的關(guān)系屬性,根據(jù)第2.3.1 生成文本中實(shí)體指稱(chēng)項(xiàng)的候選實(shí)體集合H={N1,N2,···,Nn},其N(xiāo)i表示第i個(gè)實(shí)體指稱(chēng)項(xiàng)的候選實(shí)體集合,n為背景文檔中實(shí)體指稱(chēng)項(xiàng)個(gè)數(shù).結(jié)合自構(gòu)建的領(lǐng)域知識(shí)庫(kù),得到候選實(shí)體的直接關(guān)系屬性,具體方法為:對(duì)候選實(shí)體集合Ni中的每個(gè)元素分別與其他n? 1 個(gè)候選實(shí)體集合中的每個(gè)元素進(jìn)行關(guān)系查找,如果兩者之間存在直接三元組,則兩個(gè)元素之間的關(guān)系指數(shù)為1,不存在則關(guān)系指數(shù)為0.對(duì)于第i個(gè)實(shí)體指稱(chēng)項(xiàng)的第j個(gè)候選實(shí)體nij的直接關(guān)系指數(shù),計(jì)算公式為:
其中,n為候選實(shí)體集合個(gè)數(shù),Nj為第j個(gè)候選實(shí)體集合.
2)間接關(guān)系屬性計(jì)算候選實(shí)體以三元組的形式存儲(chǔ)在自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中,通過(guò)實(shí)體、關(guān)系相連接成網(wǎng)路狀,這種存儲(chǔ)形式?jīng)Q定了候選實(shí)體間的間接關(guān)系同時(shí)存在垂直間接關(guān)系和水平間接關(guān)系.例如在自構(gòu)建的本地知識(shí)庫(kù)中存在三元組:(云南,地級(jí)市,玉溪),(玉溪,景點(diǎn),撫仙湖),通過(guò)一條關(guān)系路徑,將兩個(gè)三元組連接在一起,則“撫仙湖“和”云南“存在間接關(guān)系,我們稱(chēng)之為垂直間接關(guān)系;同樣的,例如本地知識(shí)庫(kù)中也存在三元組:(云南,地級(jí)市,玉溪),(云南,地級(jí)市,曲靖),如果只考慮關(guān)系路徑相連接的情況,則“玉溪”和“曲靖”之間并不存在關(guān)系,這樣卻與事實(shí)不符.兩者之間對(duì)應(yīng)同一個(gè)頭實(shí)體,也存在間接關(guān)系,我們將這種間接關(guān)系稱(chēng)為水平間接關(guān)系;同時(shí)也可以同時(shí)存在兩種間接關(guān)系,例如(中國(guó),省份,云南),(中國(guó),省份,江蘇),(云南,地級(jí)市,麗江),(麗江,景點(diǎn),玉龍雪山),“玉龍雪山”和“云南”存在垂直間接關(guān)系,“云南”和“江蘇”之間存在水平間接關(guān)系,則“玉龍雪山”和“江蘇”之間同時(shí)存在垂直和水平間接關(guān)系.間接關(guān)系指數(shù)的計(jì)算公式為:
其中,n為候選實(shí)體集合個(gè)數(shù),Nj為第j 候選實(shí)體集合,k為路徑長(zhǎng)度,p為水平間接次數(shù),例如“玉龍雪山”和“江蘇”存在一次水平間接次數(shù),當(dāng)兩者之 間存在多條路徑時(shí),取最短路徑.
1.4.1 上下文特征生成
實(shí)體指稱(chēng)項(xiàng)的上下文特征可以代表指稱(chēng)項(xiàng)的文本環(huán)境,對(duì)指稱(chēng)項(xiàng)的語(yǔ)義表達(dá)具有重要作用.通過(guò)實(shí)體指稱(chēng)項(xiàng)的背景文本,經(jīng)過(guò)文本預(yù)處理(分詞、去停用詞),利用第2.2 節(jié)訓(xùn)練好的融合知識(shí)和主題信息的詞向量模型得到指稱(chēng)項(xiàng)的上下文向量表示.具體方法為:選擇實(shí)體指稱(chēng)項(xiàng)所在句子經(jīng)過(guò)分詞、去停用詞后的詞作為實(shí)體指稱(chēng)項(xiàng)的上下文,利用訓(xùn)練好的詞表示模型得到它們的向量表示形式.利用式(6)計(jì)算上下文特征相似度.
1.4.2 主題關(guān)鍵詞特征生成
特定領(lǐng)域的局部特征對(duì)實(shí)體消歧具有重要作用,例如:在旅游領(lǐng)域的背景文本中,實(shí)體指稱(chēng)項(xiàng)“金花”的上下文信息主題圍繞“花卉名”來(lái)進(jìn)行介紹,而在文檔局部上下文中主要圍繞“茶品”的金花來(lái)介紹,可以看出局部特征對(duì)消歧有重要意義.為了利用局部特征進(jìn)行實(shí)體鏈接,本文提出通過(guò)LDA 主題模型對(duì)旅游領(lǐng)域背景文本的上下文進(jìn)行主題分類(lèi),利用第2.2 節(jié)得到的融合知識(shí)和主題信息的詞向量表示,計(jì)算相同主題下的詞與詞之間的余弦相似度,然后進(jìn)行K-means 聚類(lèi),選擇離聚類(lèi)中心最近的w個(gè)詞作為主題關(guān)鍵詞,w的取值在實(shí)驗(yàn)部分具體說(shuō)明.主題特征表示為:
其中,E(wi) 和分別表示實(shí)體指稱(chēng)項(xiàng)主題關(guān)鍵詞wi其對(duì)應(yīng)候選實(shí)體在自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中的類(lèi)別標(biāo)簽的向量表示;w為實(shí)體指稱(chēng)項(xiàng)主題關(guān)鍵詞的個(gè)數(shù);z表示對(duì)應(yīng)候選實(shí)體在知識(shí)庫(kù)中的 類(lèi)別標(biāo)簽個(gè)數(shù).
1.4.3 擴(kuò)展詞特征生成
集成實(shí)體鏈接相比于單實(shí)體鏈接充分考慮了實(shí)體之間的共現(xiàn)關(guān)系,同時(shí)提高了計(jì)算效率.利用詞擴(kuò)展的方法,同時(shí)考慮v個(gè)實(shí)體,充分發(fā)揮集成實(shí)體鏈接的優(yōu)勢(shì),具體方法為:對(duì)于第i個(gè)指稱(chēng)項(xiàng)mi,分別計(jì)算其他n?1個(gè)指稱(chēng)項(xiàng)與第i個(gè)指稱(chēng)項(xiàng)的上下文特征和主題關(guān)鍵詞特征的余弦相似度,將相似度最大的v個(gè)實(shí)體指稱(chēng)項(xiàng)選擇作為第i個(gè)實(shí)體指稱(chēng)項(xiàng)的擴(kuò)展詞,依次迭代n次,得到背景文本中每個(gè)實(shí)體指稱(chēng)項(xiàng)的擴(kuò)展詞.實(shí)體指稱(chēng)項(xiàng)擴(kuò)展詞的計(jì)算公式為:
其中,Sw和Sg分別表示實(shí)體指稱(chēng)項(xiàng)的上下文相似度和主題關(guān)鍵詞相似度;選取Qk最大的v個(gè)實(shí)體指稱(chēng)項(xiàng)作為本實(shí)體指稱(chēng)項(xiàng)的擴(kuò)展詞.v的取值在實(shí)驗(yàn)部分詳細(xì)說(shuō)明.擴(kuò)展詞特征表示為:
其中,E(zk) 和分別表示實(shí)體指稱(chēng)項(xiàng)擴(kuò)展詞和其候選實(shí)體直接三元組尾實(shí)體的向量表示;v和u分別表示擴(kuò)展詞和其候選實(shí)體直接三元組尾實(shí)體的 個(gè)數(shù).
1.5.1 關(guān)系指數(shù)計(jì)算
對(duì)于第i個(gè)實(shí)體指稱(chēng)項(xiàng)mi和它的v個(gè)擴(kuò)展詞,同時(shí)鏈接到本地特定領(lǐng)域知識(shí)庫(kù)中的每個(gè)候選實(shí)體,根據(jù)第2.3.2 節(jié)的方法,得到實(shí)體指稱(chēng)項(xiàng)候選實(shí)體與其擴(kuò)展詞候選實(shí)體之間的關(guān)系指數(shù),具體方法為:對(duì)于候選實(shí)體nij,分別對(duì)它與mi的v個(gè)擴(kuò)展詞的每個(gè)候選實(shí)體進(jìn)行關(guān)系查找,得到它與v個(gè)擴(kuò)展詞候選實(shí)體的關(guān)系指數(shù)之和,最終通過(guò)歸一化得到mi的每個(gè)候選實(shí)體的關(guān)系指數(shù).計(jì)算公式表示為:
依次計(jì)算出實(shí)體指稱(chēng)項(xiàng)mi所有候選實(shí)體的關(guān)系指數(shù)ri1,ri1,···,riL,其中L為實(shí)體指稱(chēng)項(xiàng)mi的候選實(shí)體個(gè)數(shù).通過(guò)歸一化,得到最終的關(guān)系指數(shù):
1.5.2 相似度計(jì)算
相似度計(jì)算是指利用實(shí)體指稱(chēng)項(xiàng)的文本特征與知識(shí)庫(kù)中候選實(shí)體的相應(yīng)特征,通過(guò)計(jì)算兩者之間的余弦相似度,以此表征實(shí)體指稱(chēng)項(xiàng)與候選實(shí)體在文本信息方面的相似度.在本文中,充分利用上下文相似度、主題關(guān)鍵詞相似度和擴(kuò)展詞相似度,最后得到特定領(lǐng)域?qū)嶓w指稱(chēng)項(xiàng)的相似度:
其中,Rij,Sij分別表示實(shí)體指稱(chēng)項(xiàng)mi與其候選實(shí)體nij的關(guān)系指數(shù)和特征相似度;1/2 表示兩者的權(quán)重值.在文本中我們采用對(duì)等加權(quán),也可以考慮不對(duì)等加權(quán)的情況,但通過(guò)初步實(shí)驗(yàn)結(jié)果并參考文獻(xiàn)[11]表明,少量的權(quán)值修正對(duì)實(shí)體鏈接結(jié)果的影響不大,因 此本文采用1/2 作為兩者的權(quán)重值.
本文選擇Google 的開(kāi)源工具包word2vec,采用Skip-gram 模型作為詞向量訓(xùn)練的基本模型,通過(guò)提取維基百科旅游、文化分類(lèi)下的文本信息,并結(jié)合從旅游網(wǎng)站和百度百科、民族文化網(wǎng)站、中國(guó)中藥雜志、中國(guó)中藥材網(wǎng)爬取旅游信息文本136 749 篇,中國(guó)少數(shù)民族信息文本95 483 篇,藥材信息文本114 673 篇作為詞表示模型的訓(xùn)練語(yǔ)料.TransE 模型的預(yù)訓(xùn)練使用本地特定領(lǐng)域知識(shí)庫(kù)中的163 759 組三元組為語(yǔ)料.實(shí)驗(yàn)所用的測(cè)試集是本文從爬取的旅游、少數(shù)民族文化、中藥材三種領(lǐng)域中隨機(jī)分別選取861 篇作為測(cè)試文本,然后分別從三種領(lǐng)域的測(cè)試文本中人工選取含有實(shí)體歧義的文本300 篇構(gòu)建成旅游領(lǐng)域測(cè)試集、少數(shù)民族文化測(cè)試集和中藥材測(cè)試集,并且在每一篇文本中人工標(biāo)記出領(lǐng)域?qū)嶓w指稱(chēng)和其在自構(gòu)建的領(lǐng)域知識(shí)庫(kù)中的對(duì)應(yīng)實(shí)體,在三個(gè)領(lǐng)域測(cè)試集中分別標(biāo)注實(shí)體指稱(chēng)1 135 個(gè)、947 個(gè)和1 092 個(gè),其中旅游領(lǐng)域測(cè)試集、少數(shù)民族文化測(cè)和中藥材測(cè)試集在自構(gòu)建的領(lǐng)域知識(shí)庫(kù)中存在對(duì)應(yīng)實(shí)體對(duì)象的分別有967 個(gè)、703 個(gè)、939 個(gè)實(shí)體指稱(chēng).
實(shí)驗(yàn)的過(guò)程包括融合知識(shí)和主題信息的詞向量模型訓(xùn)練、候選實(shí)體的生成、擴(kuò)展詞的生成、關(guān)系指數(shù)計(jì)算、相似度計(jì)算、實(shí)體鏈接等過(guò)程.使用jieba分詞工具實(shí)現(xiàn)語(yǔ)料預(yù)處理;針對(duì)融合知識(shí)和主題信息的詞向量模型訓(xùn)練,采用Skip-gram 模型作為詞向量訓(xùn)練的基本模型,窗口大小設(shè)置為5,設(shè)置主題詞距離權(quán)重α=0.8,主題詞m=6,對(duì)于TransE模型的預(yù)訓(xùn)練,邊緣超參數(shù)設(shè)為1,學(xué)習(xí)速率設(shè)為0.0001,選用L2 作為距離計(jì)算公式,向量維數(shù)統(tǒng)一設(shè)為200;本文采用準(zhǔn)確率P(%)、召回率R(%)和F1 值來(lái)評(píng)估本文提出的方法,其中文本中的實(shí)體指稱(chēng)項(xiàng)在本地知識(shí)庫(kù)中存在對(duì)應(yīng)實(shí)體的集合為A;算法輸出的鏈接到本地知識(shí)庫(kù)中實(shí)體對(duì)象上的實(shí)體指稱(chēng)項(xiàng)集合為B.則準(zhǔn)確率P(%)、召回率R(%) 和F1 值的計(jì)算公式如下所示:
2.3.1 實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證本文提出方法的可行性,本文設(shè)置以下6 組實(shí)驗(yàn):實(shí)驗(yàn)1:不同相似度特征組合的實(shí)驗(yàn)對(duì)比.實(shí)驗(yàn)2:驗(yàn)證擴(kuò)展詞的數(shù)量v對(duì)實(shí)體鏈接結(jié)果的影響.實(shí)驗(yàn)3:驗(yàn)證主題關(guān)鍵詞個(gè)數(shù)w對(duì)于實(shí)體鏈接準(zhǔn)確率的影響.實(shí)驗(yàn)4:驗(yàn)證不同關(guān)系屬性對(duì)實(shí)體鏈接結(jié)果的影響.實(shí)驗(yàn)5:本文提出的方法與目前主流的實(shí)體鏈接方法進(jìn)行對(duì)比.實(shí)驗(yàn)6:驗(yàn)證本文提出的 方法在不同領(lǐng)域中的普適性.
2.3.2 實(shí)驗(yàn)結(jié)果與分析
1)實(shí)驗(yàn)1:為了驗(yàn)證不同特征對(duì)實(shí)體鏈接結(jié)果的影響,本實(shí)驗(yàn)使用旅游領(lǐng)域測(cè)試集,通過(guò)選取不同的特征組合進(jìn)行對(duì)比實(shí)驗(yàn),表1 所示為不同特征組合對(duì)實(shí)驗(yàn)結(jié)果的影響.
表1 不同特征組合實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 1 Statistics of experimental results of different feature combinations
在進(jìn)行特征組合對(duì)比實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測(cè)試集,主題關(guān)鍵詞個(gè)數(shù)w=4,擴(kuò)展詞個(gè)數(shù)v=3.根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),只利用上下文相似度特征和主題關(guān)鍵詞相似度特征,其準(zhǔn)確率明顯低于結(jié)合擴(kuò)展詞相似度特征和關(guān)系指數(shù),F1 值相較于只利用上下文特征和主題特征也有明顯提升,能夠達(dá)到91.5.分析原因主要是上下文相似度特征和主題關(guān)鍵詞特征僅僅是基于一個(gè)實(shí)體指稱(chēng)項(xiàng)信息出發(fā),沒(méi)有考慮一篇文章中實(shí)體指稱(chēng)項(xiàng)之間的共現(xiàn)信息,并且忽略了候選實(shí)體之間的關(guān)系屬性.結(jié)合擴(kuò)展詞相似度特征和關(guān)系指數(shù),在考慮單個(gè)實(shí)體指稱(chēng)項(xiàng)的同時(shí)也充分考慮了實(shí)體指稱(chēng)項(xiàng)的共現(xiàn)信息和候選實(shí)體之間的關(guān)系屬性,因此準(zhǔn)確率有了很大的提高.
2)實(shí)驗(yàn)2:本實(shí)驗(yàn)在旅游領(lǐng)域測(cè)試集上,分別測(cè)試擴(kuò)展詞個(gè)數(shù)v在取1,2,3,4 時(shí)對(duì)實(shí)體鏈接準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如表2 所示.
表2 不同v 值實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 2 Statistical results of different v values
在進(jìn)行擴(kuò)展詞個(gè)數(shù)實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測(cè)試集,同時(shí)考慮上下文特征、主題關(guān)鍵詞特征、擴(kuò)展詞特征、關(guān)系指數(shù),主題關(guān)鍵詞個(gè)數(shù)w=4.根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),擴(kuò)展詞的個(gè)數(shù)對(duì)實(shí)體鏈接結(jié)果有較大影響,F1 值可以從最低的83.1 提升到91.5,并且相比于只利用上下文特征和主題關(guān)鍵詞特征的F1 值,有了較大提升,說(shuō)明加入擴(kuò)展詞特征可以對(duì)實(shí)體鏈接有較大幫助.從實(shí)驗(yàn)結(jié)果表明,當(dāng)擴(kuò)展詞個(gè)數(shù)v=3時(shí),F1 值達(dá)到最大值91.5.當(dāng)個(gè)數(shù)大于3 時(shí)準(zhǔn)確率和F1 值都有所降低.分析原因主要是因?yàn)楫?dāng)擴(kuò)展詞個(gè)數(shù)太小時(shí),不僅沒(méi)有充分利用實(shí)體指稱(chēng)項(xiàng)之間的共現(xiàn)信息,并且會(huì)影響候選實(shí)體的關(guān)系指數(shù),所以準(zhǔn)確率會(huì)降低,當(dāng)擴(kuò)展詞個(gè)數(shù)太大,會(huì)出現(xiàn)冗余信息,對(duì)實(shí)體指稱(chēng)項(xiàng)的信息表達(dá)和候選實(shí)體關(guān)系指數(shù)計(jì)算都會(huì)產(chǎn)生不好的影響.所以本文擴(kuò)展詞個(gè)數(shù)取v=3.
3)實(shí)驗(yàn)3:本實(shí)驗(yàn)在旅游領(lǐng)域測(cè)試集上,分別測(cè)試主題關(guān)鍵詞個(gè)數(shù)w在取1,2,3,4,5 時(shí)對(duì)實(shí)體鏈接準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如表3 所示.
表3 不同w 值實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 3 Statistical results of different w values
在進(jìn)行主題關(guān)鍵詞個(gè)數(shù)實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測(cè)試集,同時(shí)考慮上下文特征、主題關(guān)鍵詞特征、擴(kuò)展詞特征、關(guān)系指數(shù),擴(kuò)展詞個(gè)數(shù)v=3.通過(guò)對(duì)比不同主題詞個(gè)數(shù)w和不同擴(kuò)展詞個(gè)數(shù)v的對(duì)比實(shí)驗(yàn)表明,擴(kuò)展詞特征與主題詞特征的作用基本相當(dāng),最小F1 指分別為83.1 和84.9,但是主題詞不同個(gè)數(shù)之間F1 值的差距沒(méi)有不同擴(kuò)展詞個(gè)數(shù)之間明顯.根據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)主題關(guān)鍵詞個(gè)數(shù)w=4 時(shí),F1值達(dá)到最大值91.5,當(dāng)個(gè)數(shù)大于4 時(shí)準(zhǔn)確率降低.分析原因在于提取主題關(guān)鍵詞時(shí)采用聚類(lèi)的方法,當(dāng)主題關(guān)鍵詞個(gè)數(shù)太小時(shí),無(wú)法代表領(lǐng)域特定信息,當(dāng)個(gè)數(shù)大于4 時(shí),又造成信息冗余,將多余信息引入到相似度計(jì)算中,從而導(dǎo)致實(shí)體鏈接的F1 值下降.所以本文主題關(guān)鍵詞個(gè)數(shù)取w=4.
4)實(shí)驗(yàn)4:為了驗(yàn)證關(guān)系屬性中每個(gè)子屬性的效果對(duì)實(shí)體鏈接結(jié)果的影響,本實(shí)驗(yàn)使用旅游領(lǐng)域測(cè)試集,通過(guò)依次增加關(guān)系屬性中各個(gè)子屬性來(lái)設(shè)置對(duì)比實(shí)驗(yàn),觀察實(shí)驗(yàn)結(jié)果如表4 所示.
表4 各個(gè)關(guān)系子屬性的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 4 Statistical results of experimental results for each relationship sub-attribute
在進(jìn)行各關(guān)系子屬性的實(shí)驗(yàn)時(shí),使用旅游領(lǐng)域測(cè)試集,同時(shí)考慮上下文特征、主題關(guān)鍵詞特征、擴(kuò)展詞特征,擴(kuò)展詞個(gè)數(shù)v=3,主題詞個(gè)數(shù)w=4.實(shí)驗(yàn)結(jié)果表明,利用候選實(shí)體之間的直接關(guān)系使得實(shí)體鏈接的F1 值有了較小提升,分析原因是自構(gòu)建的特定領(lǐng)域知識(shí)庫(kù)中并不完整,只利用直接關(guān)系信息對(duì)實(shí)驗(yàn)結(jié)果幫助有限,同時(shí)通過(guò)水平間接關(guān)系和垂直間接關(guān)系的實(shí)驗(yàn)結(jié)果對(duì)比,垂直間接關(guān)系對(duì)實(shí)體鏈接結(jié)果影響更大,說(shuō)明通過(guò)關(guān)系路徑相連的候選實(shí)體之間的關(guān)系信息對(duì)實(shí)體鏈接更有幫助,但是通過(guò)最終的實(shí)驗(yàn)結(jié)果表明,將兩種間接關(guān)系同時(shí)考慮,更能增加候選實(shí)體的關(guān)系信息,對(duì)實(shí)體鏈接幫助更大.
5) 實(shí)驗(yàn)5:為了驗(yàn)證本文提出方法的可行性,在旅游領(lǐng)域測(cè)試集上,將本文的方法與其他幾種實(shí)體鏈接方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表5 所示.
表5 本文方法與其他方法的比較Table 5 Comparison of methods in this paper with other methods
在旅游領(lǐng)域測(cè)試集中將以上基線(xiàn)方法復(fù)現(xiàn),其中參數(shù)設(shè)置與其論文中相同.根據(jù)實(shí)驗(yàn)結(jié)果表明,本文提出的方法與傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法相比較F1 值有明顯的提升,并且不需要標(biāo)注語(yǔ)料,更簡(jiǎn)潔高效;與EAT[21]方法相比較,Moreno 等[21]通過(guò)擴(kuò)充知識(shí)庫(kù)中實(shí)體的錨文本對(duì)文本中的單詞和知識(shí)庫(kù)中的實(shí)體在同一個(gè)向量空間中學(xué)習(xí)指稱(chēng)項(xiàng)與候選實(shí)體的向量表示,并通過(guò)訓(xùn)練分類(lèi)器進(jìn)行實(shí)體鏈接,兩種方法都是基于詞嵌入,本文的方法準(zhǔn)確率有較大提升,我們分析原因在于我們的語(yǔ)料主要是針對(duì)特定領(lǐng)域,語(yǔ)料數(shù)據(jù)集規(guī)模相較于公共數(shù)據(jù)集偏小,所以詞嵌入效果沒(méi)有達(dá)到最佳,但是我們的方法在詞嵌入的基礎(chǔ)上,將知識(shí)和主題信息融入詞向量表示中,將文本信息和知識(shí)庫(kù)信息融合,同時(shí)綜合考慮了上下文特征、主題特征、詞擴(kuò)展特征、關(guān)系指數(shù)特征,所以比EAT[21]方法在F1 值上有了較大的提高,也驗(yàn)證了本文的方法更適應(yīng)于語(yǔ)料偏少的特定領(lǐng)域;與Zero-shot[29]相比較,前者利用的是最新的神經(jīng)網(wǎng)絡(luò)模型,與它相比較F1 值有較小提高,證明了本方法達(dá)到了較高水平,也證明了本方法在對(duì)特定領(lǐng)域?qū)嶓w鏈接任務(wù)的可行性.
6)實(shí)驗(yàn)6:為了驗(yàn)證本文提出的方法在不同領(lǐng)域中的普適性,將本文的方法在旅游領(lǐng)域測(cè)試集、少數(shù)民族文化測(cè)試集和中藥材測(cè)試集中進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表6 所示.
表6 不同領(lǐng)域的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 6 Statistics of experimental results in different fields
由實(shí)驗(yàn)結(jié)果表明,在不同的領(lǐng)域語(yǔ)料中的F1值變化不大,其中在旅游領(lǐng)域中的F1 值最大,在少數(shù)民族和藥材領(lǐng)域F1 值基本一致,分析原因:在旅游領(lǐng)域中,由于其關(guān)系類(lèi)別少、實(shí)體個(gè)數(shù)多的特點(diǎn),其擴(kuò)展詞可以很好地表征其語(yǔ)義信息,利用擴(kuò)展與實(shí)體指稱(chēng)項(xiàng)的候選實(shí)體之間的關(guān)系信息也比較明顯.但是在少數(shù)民族和藥材領(lǐng)域,關(guān)系種類(lèi)更加復(fù)雜,實(shí)體與實(shí)體之間的關(guān)系信息也不明顯,所以在這兩種領(lǐng)域中,擴(kuò)展詞特征和關(guān)系指數(shù)不如在領(lǐng)域領(lǐng)域中明顯,造成了F1 值略有下降.但是從不同領(lǐng)域的對(duì)比實(shí)驗(yàn)中表明,本文方法針對(duì)標(biāo)注語(yǔ)料少,流行度等消歧特征不明顯的問(wèn)題,在不同特定領(lǐng)域中的效果基本穩(wěn)定并且有較好的F1 值.
本文針對(duì)現(xiàn)有的實(shí)體鏈接方法無(wú)法將文本信息和本地知識(shí)庫(kù)信息充分相結(jié)合,提出了一種簡(jiǎn)單高效的基于關(guān)系指數(shù)和表示學(xué)習(xí)的特定領(lǐng)域集成實(shí)體鏈接方法.利用表示學(xué)習(xí)將文本信息和知識(shí)庫(kù)信息相融合,簡(jiǎn)單高效且適應(yīng)于特定領(lǐng)域語(yǔ)料偏少的特點(diǎn).實(shí)驗(yàn)結(jié)果表明,該方法與現(xiàn)有的實(shí)體鏈接方法相比,不需要標(biāo)注語(yǔ)料,其實(shí)體鏈接準(zhǔn)確率和F1 值比較理想,同時(shí)更適應(yīng)于語(yǔ)料偏少的特定領(lǐng)域.下一步的工作是對(duì)已經(jīng)構(gòu)建的小規(guī)模特定領(lǐng)域知識(shí)庫(kù)進(jìn)行擴(kuò)充和完善,同時(shí)不斷挖掘領(lǐng)域文本中特有的屬性特征,改進(jìn)實(shí)驗(yàn)效果.