焦守龍,段友祥,孫歧峰,莊子浩,孫琛皓
(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東青島 266555)
隨著大數(shù)據(jù)和人工智能的發(fā)展,知識(shí)圖譜作為一種可以將知識(shí)結(jié)構(gòu)化的重要技術(shù)而受到廣泛關(guān)注。在知識(shí)圖譜中,大眾所熟知的現(xiàn)實(shí)世界中的知識(shí)通常被表示為多個(gè)三元組(頭實(shí)體、關(guān)系、尾實(shí)體)組成的多關(guān)系網(wǎng)絡(luò)形式。知識(shí)圖譜集合了人類世界的廣泛知識(shí),在知識(shí)問(wèn)答、信息抽取、智能搜索等人工智能領(lǐng)域擁有廣闊的應(yīng)用空間,但知識(shí)圖譜使用符號(hào)化的表示方式,大規(guī)模知識(shí)圖譜存在計(jì)算效率低下和數(shù)據(jù)稀疏的問(wèn)題,而且隨著深度學(xué)習(xí)的發(fā)展和應(yīng)用,人們希望知識(shí)圖譜有更簡(jiǎn)單高效的表示形式。因此許多研究者提出了基于深度學(xué)習(xí)的知識(shí)表示學(xué)習(xí)方法,目標(biāo)是將三元組從高維獨(dú)熱向量空間映射到一個(gè)連續(xù)的低維稠密實(shí)值向量空間中,以解決知識(shí)庫(kù)中數(shù)據(jù)稀疏問(wèn)題,實(shí)現(xiàn)高效計(jì)算,對(duì)知識(shí)圖譜的推理、補(bǔ)全、應(yīng)用等都具有重要意義。
在現(xiàn)有的表示學(xué)習(xí)研究中,翻譯模型是最具代表性的經(jīng)典方法,它因訓(xùn)練時(shí)只需要較少的參數(shù)并取得了較好的知識(shí)表達(dá)效果而受到大量研究者的重點(diǎn)關(guān)注和應(yīng)用,但這類方法普遍獨(dú)立學(xué)習(xí)每個(gè)三元組的結(jié)構(gòu)特征,沒(méi)有應(yīng)用知識(shí)圖譜中存在的語(yǔ)義信息和知識(shí)圖譜外的描述信息,后來(lái)隨著研究的深入,知識(shí)表示學(xué)習(xí)模型不斷改進(jìn),許多方法開始在學(xué)習(xí)三元組結(jié)構(gòu)特征的基礎(chǔ)上融入多源信息來(lái)提高模型的表達(dá)能力。其中KBGAT 模型將圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)應(yīng)用到知識(shí)表示學(xué)習(xí)中,進(jìn)一步解決了大多數(shù)模型中獨(dú)立處理每一個(gè)三元組,無(wú)法表達(dá)三元組之間特征信息的問(wèn)題,KBGAT 不僅考慮到相鄰實(shí)體之間的向量表示,還考慮了兩個(gè)實(shí)體間的關(guān)系向量,從而豐富了實(shí)體的語(yǔ)義信息。但是該模型還存在缺陷:第一,知識(shí)圖譜中的實(shí)體擁有豐富的實(shí)體描述信息,在此模型中沒(méi)有被利用;第二,對(duì)每個(gè)三元組中關(guān)系和實(shí)體向量進(jìn)行拼接后使用GAT 的方法對(duì)三元組中實(shí)體和關(guān)系的特征獲取不夠充分;第三,分步訓(xùn)練編碼器解碼器的方法容易產(chǎn)生錯(cuò)誤傳播。
因此,為了融合更多的三元組語(yǔ)義信息,提高知識(shí)表示的準(zhǔn)確性,本文提出了一個(gè)基于BERT(Bidirectional Encoder Representations from Transformers)和GAT 的知識(shí)表示學(xué)習(xí)(knowledge representation learning based on BERT And GAT,BAGAT)模型。該模型既考慮了三元組外的實(shí)體描述文本信息,又充分利用了知識(shí)圖譜三元組中隱藏的復(fù)雜實(shí)體關(guān)系特征向量對(duì)目標(biāo)實(shí)體的表示。具體來(lái)說(shuō),首先對(duì)三元組中每個(gè)實(shí)體關(guān)系通過(guò)GAT 計(jì)算基于知識(shí)圖譜內(nèi)部實(shí)體鄰居節(jié)點(diǎn)信息的向量表示,然后使用BERT 詞向量模型實(shí)現(xiàn)對(duì)實(shí)體描述信息的向量表示,最后將兩者在相同向量空間中進(jìn)行聯(lián)合知識(shí)表示學(xué)習(xí)。
知識(shí)表示學(xué)習(xí)通過(guò)將實(shí)體和關(guān)系向量化來(lái)實(shí)現(xiàn)對(duì)實(shí)體和關(guān)系的語(yǔ)義信息準(zhǔn)確描述。近年來(lái),有多種不同類型知識(shí)表示學(xué)習(xí)模型提出,首先是Bordes 等提出的翻譯模型TransE(Translating Embeddings),它將三元組中頭實(shí)體通過(guò)關(guān)系聯(lián)系尾實(shí)體的過(guò)程當(dāng)作翻譯過(guò)程,然后用得分函數(shù)衡量每個(gè)三元組的合理性,最后通過(guò)不斷優(yōu)化損失函數(shù)獲得最準(zhǔn)確的向量表示結(jié)果。盡管TransE 簡(jiǎn)單高效,但處理復(fù)雜關(guān)系時(shí)容易出現(xiàn)不同實(shí)體間的語(yǔ)義沖突,為克服這種缺陷,Wang等提出通過(guò)將關(guān)系建模超平面并將頭實(shí)體和尾實(shí)體投影到特定關(guān)系超平面的方法 TransH(Translating on Hyperplanes)來(lái)解決三元組的復(fù)雜關(guān)系問(wèn)題。此外Lin 等提出TransR(Translation in the corresponding Relation space),即將實(shí)體和關(guān)系分別映射到不同的空間,然后將實(shí)體向量表示從實(shí)體空間投影到關(guān)系空間實(shí)現(xiàn)翻譯過(guò)程。Ji 等提出TransD(Translating embedding via Dynamic mapping matrix),即分別設(shè)置頭實(shí)體和尾實(shí)體的投影矩陣,然后將實(shí)體從實(shí)體空間投影到關(guān)系空間中,并使用向量操作取代矩陣操作來(lái)提高模型的計(jì)算效率。這些方法盡管取得了不錯(cuò)的效果,但都是對(duì)三元組結(jié)構(gòu)特征的表示,對(duì)三元組的語(yǔ)義信息應(yīng)用不足。此后Xie 等提出了融入多源信息的知識(shí)表示學(xué)習(xí)模型(Representation Learning of Knowledge graphs with entity Descriptions,DKRL),它將實(shí)體分為基于結(jié)構(gòu)的表示和基于描述的表示兩部分進(jìn)行聯(lián)合訓(xùn)練,使用連續(xù)詞袋(Continuous Bag Of Words,CBOW)模型和卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,CNN)模型兩種不同方法訓(xùn)練得到實(shí)體描述信息向量,然后將該向量與基于結(jié)構(gòu)的表示向量放在相同的連續(xù)向量空間中學(xué)習(xí),實(shí)驗(yàn)結(jié)果表明該模型對(duì)不同實(shí)體有更好的區(qū)分能力。
除了上述模型外,神經(jīng)網(wǎng)絡(luò)也被應(yīng)用到研究知識(shí)表示學(xué)習(xí)。比如,Dettmers 等提出基于CNN的知識(shí)表示模型ConvE(Convolutional Embedding),它使用頭實(shí)體和關(guān)系組成輸入矩陣,然后送到卷積層提取特征,將特征矩陣通過(guò)線性變換向量化后通過(guò)和尾實(shí)體向量?jī)?nèi)積得到表示三元組合理性的得分。Nguyen 等在ConvE 的基礎(chǔ)上提出更注重三元組整體特征的基于CNN 的知識(shí)庫(kù)嵌入模型(embedding model for Knowledge Base completion based on Convolutional neural network,ConvKB),它將每個(gè)三元組都表示為3 個(gè)特征向量組成的矩陣形式,然后將該矩陣使用多個(gè)卷積核經(jīng)過(guò)卷積操作生成不同的特征圖,將這些特征拼接成代表輸入三元組的特征向量,最后通過(guò)特征向量與權(quán)重向量相乘返回一個(gè)得分,該分?jǐn)?shù)便是預(yù)測(cè)此三元組是否有效的標(biāo)準(zhǔn)。此外,Schlichtkrull 等提出了首個(gè)使用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)建模知識(shí)圖譜實(shí)體關(guān)系網(wǎng)絡(luò)的模型R-GCN(modeling Relational data with GCN),它在使用圖卷積網(wǎng)絡(luò)的基礎(chǔ)上考慮了三元組中關(guān)系的方向,并根據(jù)不同的關(guān)系學(xué)習(xí)到不同的特征信息,通過(guò)對(duì)實(shí)體的鄰域特征和自身特征進(jìn)行加權(quán)求和得到新的實(shí)體特征,此模型雖然使用圖卷積網(wǎng)絡(luò)建模復(fù)雜實(shí)體關(guān)系網(wǎng)絡(luò),但在知識(shí)表示學(xué)習(xí)中表現(xiàn)不夠優(yōu)秀。Nathani 等提出了KBGAT 模型,該模型第一個(gè)實(shí)現(xiàn)了將GAT 應(yīng)用到知識(shí)圖譜表示學(xué)習(xí)中,它使用了GAT和ConvKB 組合的分步編碼、解碼器結(jié)構(gòu),在編碼器階段,首先將三元組的實(shí)體、關(guān)系通過(guò)向量拼接后執(zhí)行線性變換作為該三元組向量表示,通過(guò)將不同的權(quán)重分配給目標(biāo)節(jié)點(diǎn)構(gòu)成的三元組向量表示來(lái)得到對(duì)目標(biāo)節(jié)點(diǎn)的向量表示,在此之上進(jìn)一步挖掘N
跳鄰居的特征信息來(lái)增加目標(biāo)節(jié)點(diǎn)的語(yǔ)義豐富性,最后將向量表示送入到ConvKB 解碼后執(zhí)行鏈接預(yù)測(cè)任務(wù),該模型在實(shí)驗(yàn)中取得了更好的效果。N
階鄰居節(jié)點(diǎn)對(duì)目標(biāo)節(jié)點(diǎn)的加權(quán)表示,使用BERT 預(yù)訓(xùn)練模型獲取實(shí)體的描述信息向量表示。KBGAT 模型已經(jīng)證明了使用GAT 建模實(shí)體關(guān)系網(wǎng)絡(luò)在知識(shí)表示學(xué)習(xí)中的作用,以圖1 為例,當(dāng)要推理的目標(biāo)節(jié)點(diǎn)U.S.A 中融合了像(Google,Belong_to)、(New York,Located_in)等鄰居節(jié)點(diǎn)的語(yǔ)義信息時(shí),節(jié)點(diǎn)U.S.A 的向量表示會(huì)更加豐富,在進(jìn)行三元組推理時(shí)結(jié)果也會(huì)更準(zhǔn)確。圖1 知識(shí)圖譜網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Knowledge graph network structure
傳統(tǒng)的GAT 通過(guò)學(xué)習(xí)鄰居節(jié)點(diǎn)的權(quán)重,從而實(shí)現(xiàn)對(duì)鄰居特征的加權(quán)求和,為了在知識(shí)圖譜的三元組中將關(guān)系作為一部分重要信息加入訓(xùn)練同時(shí)結(jié)合三元組的結(jié)構(gòu)特征,在使用GAT 對(duì)節(jié)點(diǎn)進(jìn)行表示時(shí),除了將實(shí)體作為初始輸入向量外,也將關(guān)系作為重要信息添加到圖注意力模型中。具體來(lái)說(shuō),為了將注意力機(jī)制應(yīng)用在目標(biāo)節(jié)點(diǎn)與鄰居節(jié)點(diǎn)上,首先將鄰域內(nèi)實(shí)體與關(guān)系進(jìn)行加權(quán)求和,對(duì)目標(biāo)節(jié)點(diǎn)和鄰居節(jié)點(diǎn)的構(gòu)建方法如式(1)、(2):
h
、t
分別代表頭實(shí)體、尾實(shí)體的初始向量表示;r
代表關(guān)系的初始向量表示;權(quán)重參數(shù)ρ
∈(0,1)用于調(diào)整關(guān)系向量與實(shí)體向量構(gòu)成鄰居節(jié)點(diǎn)時(shí)所占的比重,從而將每個(gè)三元組的實(shí)體和關(guān)系都參與到圖注意力模型的計(jì)算中。為了計(jì)算h
對(duì)目標(biāo)節(jié)點(diǎn)h
的影響權(quán)重,定義兩者的注意力值v
如式(3):W
代表投影矩陣;注意力機(jī)制a
是單層前饋神經(jīng)網(wǎng)絡(luò)。將式(3)展開得到具體計(jì)算公式(4)。z
做一次線性變換,再使用LeakyReLU 函數(shù)做非線性激活,最后使用Softmax 函數(shù)對(duì)每個(gè)節(jié)點(diǎn)與所有鄰居節(jié)點(diǎn)的注意力值做歸一化處理。歸一化后的注意力權(quán)重即為最后的注意力系數(shù),如式(5):N
表示目標(biāo)節(jié)點(diǎn)h
的鄰居節(jié)點(diǎn),即由式(2)中與目標(biāo)節(jié)點(diǎn)t
相鄰的h
和兩者之間的關(guān)系r
構(gòu)成。注意力機(jī)制簡(jiǎn)要圖示如圖2 所示。將計(jì)算的注意力系數(shù)進(jìn)行加權(quán)求和,如式(6):
h
′是基于GAT 輸出的對(duì)于每個(gè)節(jié)點(diǎn)i
的新特征向量,新的向量表示融合了知識(shí)圖譜中實(shí)體的鄰域信息;σ
是激活函數(shù),目標(biāo)節(jié)點(diǎn)的輸出與所有鄰居節(jié)點(diǎn)的特征向量都相關(guān)。為使模型更穩(wěn)定地學(xué)習(xí)鄰居節(jié)點(diǎn)的特征,將采用多頭注意力機(jī)制獲得不同特征進(jìn)行集成;為防止過(guò)擬合現(xiàn)象,將K
個(gè)獨(dú)立的注意力機(jī)制得到的向量表示拼接。具體表示如式(7):||
表示拼接。在圖注意力模型的最后一層,將對(duì)得到的向量表示進(jìn)行K
平均計(jì)算而不再拼接,如式(8):為了獲得與實(shí)體向量變換后同樣的關(guān)系向量表示,將使兩者共享輸出維度,在完成一次圖注意力的計(jì)算后對(duì)關(guān)系向量做線性變換,如式(9):
R
代表輸入關(guān)系向量集合;W
∈R代表線性變換矩陣,T
代表轉(zhuǎn)換前向量維度,T′
代表轉(zhuǎn)換后的維度。此外,在獲得新的實(shí)體向量表示過(guò)程中可能會(huì)造成原來(lái)結(jié)構(gòu)特征信息的損失,所以在最后得到的實(shí)體表示中添加經(jīng)過(guò)線性變換的初始實(shí)體向量來(lái)解決,如式(10):圖3 圖注意力層網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Graph attention layer network structure
除了結(jié)合一階鄰居節(jié)點(diǎn)外,進(jìn)一步挖掘N
階鄰居節(jié)點(diǎn)對(duì)目標(biāo)節(jié)點(diǎn)的向量表示,將此類節(jié)點(diǎn)看作組合的三元組,表示為(頭實(shí)體,多個(gè)關(guān)系組成的關(guān)系路徑,尾實(shí)體)的形式,例如在圖1 中,對(duì)Jill Biden 與U.S.A 建立(Jill Biden,Wife_of/President_of,U.S.A)的組合三元組形式,對(duì)高階鄰居中的多個(gè)關(guān)系進(jìn)行加和后取平均值作為最終關(guān)系向量表示,如式(11):R
代表N
階實(shí)體間的關(guān)系表示集合;r
代表它們的向量表示。使用基于實(shí)體描述信息的向量表示可以捕捉更準(zhǔn)確的文本信息特征,對(duì)各類實(shí)體有更好的區(qū)分效果,DKRL 中將描述信息分別作了連續(xù)詞袋編碼和卷積神經(jīng)網(wǎng)絡(luò)編碼,改變了翻譯模型中僅考慮實(shí)體間結(jié)構(gòu)特征而忽略其他信息的方式,在知識(shí)表示學(xué)習(xí)中取得了更好的效果,但連續(xù)詞袋編碼沒(méi)有脫離Word2vec(Word to Vector)詞向量所帶來(lái)的問(wèn)題,它產(chǎn)生的向量表示是靜態(tài)的,并且對(duì)上下文語(yǔ)義的考慮不夠充分,卷積神經(jīng)網(wǎng)絡(luò)雖然考慮了詞序信息,但輸入只用了部分短語(yǔ),對(duì)實(shí)體描述信息語(yǔ)義表示不足。本文采用BERT 模型對(duì)實(shí)體的描述信息進(jìn)行向量表示,它使用雙向Transformer 作為算法主要框架,核心是注意力機(jī)制,經(jīng)過(guò)編碼器可以學(xué)習(xí)到每個(gè)詞左右兩側(cè)的信息,因此可以獲得更準(zhǔn)確的詞向量表示。使用BERT 模型得到的詞向量是由三種嵌入特征求和而成,具體方式如圖4 所示。
圖4 BERT的輸入表示Fig.4 Input representation of BERT
它分為三部分:詞向量編碼(Token Embeddings)、對(duì)句子進(jìn)行切分(Segment Embedding)、學(xué)習(xí)出來(lái)的位置向量(Position Embedding)。在詞向量編碼任務(wù)中,本文使用BERT 預(yù)訓(xùn)練模型完成,這樣就不需要再用大量的語(yǔ)料進(jìn)行訓(xùn)練。此次任務(wù)不改變預(yù)訓(xùn)練模型的參數(shù),只把句子作為輸入放入預(yù)訓(xùn)練模型,以標(biāo)識(shí)符[CLS]代表句子開始,得到的輸出向量作為特征向量輸入到下一個(gè)任務(wù)中。由于任務(wù)只需要編碼實(shí)體描述的句向量,所以在選擇保留原始單詞順序下,對(duì)部分長(zhǎng)度超過(guò)510 詞的句子,只取前510 個(gè)詞作為輸入,然后得到輸出句向量,最后通過(guò)式(12)的線性變換來(lái)獲得與圖注意力模型向量同樣維度的實(shí)體向量表示。
為了將三元組的結(jié)構(gòu)特征信息、三元組實(shí)體關(guān)系語(yǔ)義信息和實(shí)體描述信息結(jié)合起來(lái),本文將兩種嵌入向量放在相同的連續(xù)向量空間中進(jìn)行聯(lián)合知識(shí)表示學(xué)習(xí),其中包括通過(guò)GAT 訓(xùn)練得到的向量表示和通過(guò)BERT 模型得到的向量表示,為了將兩種向量表示融合,根據(jù)DKRL 的訓(xùn)練方法,定義能量函數(shù)如式(13):
圖5 BAGAT模型結(jié)構(gòu)Fig.5 BAGAT model structure
在模型訓(xùn)練中,與翻譯模型的訓(xùn)練目標(biāo)相同,采用基于邊際的得分函數(shù)作為訓(xùn)練目標(biāo),定義如式(15):
γ
為最大間隔參數(shù);S
為正例三元組的集合;S′
代表頭實(shí)體或尾實(shí)體被隨機(jī)替換后生成的負(fù)例三元組的集合,S′
的定義為。ε
代表實(shí)體的嵌入表示,隨機(jī)構(gòu)建的負(fù)例三元組可能本身就作為正確的三元組存在數(shù)據(jù)集中,因此剔除這些已存在于數(shù)據(jù)集中的正確三元組。FB15K-237數(shù)據(jù)集是Freebase的子集,它相對(duì)于FB15K 數(shù)據(jù)集刪除了多余的關(guān)系,其中每個(gè)實(shí)體的實(shí)體描述信息使用DKRL 模型中的實(shí)驗(yàn)數(shù)據(jù)。WN18RR 數(shù)據(jù)集是WordNet的子集,它相較于WN18 數(shù)據(jù)集消除了反向關(guān)系,很大程度增加了推理的難度,將WordNet 中對(duì)實(shí)體的定義作為實(shí)體的描述信息數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)集的具體信息如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息Tab 1 Experimental dataset statistics
N
階鄰居節(jié)點(diǎn)對(duì)目標(biāo)節(jié)點(diǎn)的表示時(shí),因節(jié)點(diǎn)間距離越遠(yuǎn)在訓(xùn)練中所占權(quán)重越小,所以本文選取2 階鄰居節(jié)點(diǎn),模型最后輸出實(shí)體和關(guān)系向量維度設(shè)為200,LeakyReLU 的alpha 參數(shù)設(shè)置為0.2。為防止模型的過(guò)擬合,采用L2 正則化。在FB15K-237 數(shù)據(jù)集上,Drop_out 設(shè)置為0.3,ρ
值選擇為0.6,訓(xùn)練迭代3 000次,訓(xùn)練批次大小為20 000,基礎(chǔ)學(xué)習(xí)率為0.001,邊界值γ
為1.5。在WN18RR 數(shù)據(jù)集上,Drop_out 設(shè)置為0.3,ρ
值選擇為0.5,訓(xùn)練迭代3 600 次,訓(xùn)練批次大小為10 000,基礎(chǔ)學(xué)習(xí)率為0.001,邊界值γ
為1.0。訓(xùn)練中采用Adam 優(yōu)化算法。h
,r
,t
)是否符合客觀事實(shí),即是否成立,可以視為二分類問(wèn)題,實(shí)驗(yàn)使用3.1節(jié)中實(shí)驗(yàn)數(shù)據(jù)集中的FB15K-237 和WN18RR。錯(cuò)誤三元組的構(gòu)建采用與上文訓(xùn)練時(shí)構(gòu)建負(fù)例三元組同樣的方式,為保證測(cè)試數(shù)據(jù)的合理性,本文選取同樣數(shù)量的正確與錯(cuò)誤三元組進(jìn)行測(cè)試。分類規(guī)則是對(duì)于一個(gè)給定的三元組,通過(guò)比較其得分函數(shù)和給定閾值δ
的大小確定分類效果,若得分比閾值低,則判定為正確三元組,反之為錯(cuò)誤三元組。每種關(guān)系的閾值由驗(yàn)證集中關(guān)于特定關(guān)系的最大化分類準(zhǔn)確率決定。三元組分類結(jié)果如表2 所示。相較于DKRL,本文模型在數(shù)據(jù)集FB15K-237 和WN18RR 上分別提高了5.8 和1.5 個(gè)百分點(diǎn),與KBGAT 相比分別提高了3.7 和1.1 個(gè)百分點(diǎn),本文模型分類準(zhǔn)確度更優(yōu)于其他基準(zhǔn)模型。這說(shuō)明使用GAT和實(shí)體描述信息所得到的聯(lián)合向量表示能夠更好地區(qū)別語(yǔ)義相近的不同實(shí)體,更有效地表示復(fù)雜的實(shí)體關(guān)系特征,在對(duì)三元組的分類中使正確三元組得分更低、錯(cuò)誤三元組得分更高,說(shuō)明了本模型有較優(yōu)的分類性能。
表2 三元組分類準(zhǔn)確率 單位:%Tab 2 Accuracy of triple classification unit:%
h
,r
,t
),在缺失頭實(shí)體h
或尾實(shí)體t
后,在原實(shí)體集中隨機(jī)選擇頭尾實(shí)體補(bǔ)全,對(duì)于缺失位置,通過(guò)模型計(jì)算出重組的三元組的得分后升序排序,最終正確三元組的排名會(huì)被記錄下來(lái)。在隨機(jī)替換頭尾實(shí)體時(shí),可能會(huì)出現(xiàn)替換后三元組本身就是知識(shí)圖譜中的正確三元組的問(wèn)題,那么這種三元組可能會(huì)排在目標(biāo)三元組的前面,所以為了最終實(shí)驗(yàn)的準(zhǔn)確性,實(shí)驗(yàn)時(shí)采用“Filter”方式將存在的干擾三元組過(guò)濾掉后排序。
為了對(duì)比分析,實(shí)驗(yàn)采用以下評(píng)價(jià)指標(biāo):1)MeanRank(MR),正確實(shí)體得分排名平均值,該指標(biāo)值越小說(shuō)明預(yù)測(cè)結(jié)果越好;2)Hits@n
,正確實(shí)體排名在前n
名的比例,該值越大說(shuō)明預(yù)測(cè)模型越準(zhǔn)確,在測(cè)試中n
值分別取1、3、10。模型在FB15K-237 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表3 所示:BAGAT 在四項(xiàng)指標(biāo)上的表現(xiàn)都超過(guò)了其他對(duì)比模型,尤其是在Hits@1 和Hits@10 的表現(xiàn):與TransE 相比,BAGAT 分別提升了25.9 和22.0 個(gè)百分點(diǎn);與KBGAT 相比,BAGAT 分別提高了1.8 和3.5 個(gè)百分點(diǎn)。
表3 FB15K-237數(shù)據(jù)集上的鏈接預(yù)測(cè)結(jié)果Tab 3 Link prediction results on FB15K-237 dataset
在WN18RR 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4 所示,BAGAT 在Hits@3、Hits@10 兩項(xiàng)指標(biāo)上超過(guò)了其他對(duì)比模型,而在MR和Hits@1 上沒(méi)有達(dá)到最好表現(xiàn),最主要原因是數(shù)據(jù)集中訓(xùn)練數(shù)據(jù)比較稀疏,實(shí)體描述信息不足,這導(dǎo)致模型不能學(xué)習(xí)到很好的三元組特征。但每個(gè)實(shí)驗(yàn)結(jié)果都要優(yōu)于KBGAT 模型,其中在Hits@10 指標(biāo)上提高了1.2 個(gè)百分點(diǎn)。
表4 WN18RR數(shù)據(jù)集上的鏈接預(yù)測(cè)結(jié)果Tab 4 Link prediction results on WN18RR dataset
綜合實(shí)驗(yàn)結(jié)果可以看出,本文模型使用BERT 編碼實(shí)體的描述信息使每個(gè)實(shí)體有了更豐富的語(yǔ)義信息,其次就是通過(guò)應(yīng)用GAT 將實(shí)體和關(guān)系聯(lián)合構(gòu)造鄰居節(jié)點(diǎn)的方法使目標(biāo)節(jié)點(diǎn)結(jié)合了更多鄰域內(nèi)實(shí)體和關(guān)系的信息,使模型的推理能力得到了提高,驗(yàn)證了對(duì)于KBGAT 模型的改進(jìn)是有效的。另外,實(shí)驗(yàn)結(jié)果還表明,模型在使用聯(lián)合訓(xùn)練方法而去掉KBGAT 模型中使用ConvKB 作為解碼器的訓(xùn)練步驟后仍然具有高效的鏈接預(yù)測(cè)性能。
本文在KBGAT 模型基礎(chǔ)上進(jìn)一步考慮了基于實(shí)體描述的向量表示模型,同時(shí)將GAT 應(yīng)用到三元組中使其更適應(yīng)于知識(shí)圖譜的知識(shí)表示學(xué)習(xí)任務(wù);此外本文使用了多源信息聯(lián)合訓(xùn)練方法,取代了分別訓(xùn)練編碼器與解碼器的步驟。實(shí)驗(yàn)結(jié)果顯示使用GAT 和BERT 模型聯(lián)合編碼數(shù)據(jù)的方法在兩個(gè)數(shù)據(jù)集上分類性能均有不同程度的提高。本文模型重點(diǎn)使用了實(shí)體的描述信息和三元組內(nèi)部的實(shí)體關(guān)系特征信息,但對(duì)于知識(shí)圖譜中的諸如類別信息,其他知識(shí)庫(kù)信息、圖像信息等還沒(méi)有利用,所以多源的聯(lián)合知識(shí)表示學(xué)習(xí)方法仍然是未來(lái)研究和改進(jìn)的方向。