梁新雨,司冠南+,李建辛,田鵬新,安兆亮,周風(fēng)余
1.山東交通學(xué)院 信息科學(xué)與電氣工程學(xué)院,濟(jì)南 250357
2.山東大學(xué) 控制科學(xué)與工程學(xué)院,濟(jì)南 250000
谷歌自2012 年首次引入知識(shí)圖譜(knowledge graph,KG)概念以來(lái),在人工智能領(lǐng)域以極快的速度飛速發(fā)展。隨著KG 深入的研究和應(yīng)用,KG 被廣泛用于各種與人工智能相關(guān)的任務(wù),如智能問(wèn)答[1]、推薦系統(tǒng)[2]和網(wǎng)絡(luò)安全系統(tǒng)[3]等領(lǐng)域。雖然KG 被廣泛使用,但是隨著現(xiàn)實(shí)世界數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng),現(xiàn)有的KG知識(shí)大多是有噪聲和不完整的。例如,在開(kāi)放知識(shí)圖譜Freebase 中,約有71%的人缺少出生地信息,99%的沒(méi)有民族信息[4]。
為了解決KG不完整的問(wèn)題和提高KG在下游應(yīng)用中的效用,有必要進(jìn)行知識(shí)圖譜補(bǔ)全(knowledge graph completion,KGC)。傳統(tǒng)KGC 方法假設(shè)測(cè)試時(shí)所有的實(shí)體和關(guān)系都出現(xiàn)在訓(xùn)練過(guò)程中,由于現(xiàn)實(shí)世界KG的演變性質(zhì),一旦出現(xiàn)不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系需要從頭開(kāi)始重新訓(xùn)練KG。比如DBPedia從2015 年底至2016 年初,平均每天新增200 個(gè)實(shí)體[5],但是頻繁添加實(shí)體可能會(huì)導(dǎo)致開(kāi)銷大幅增加。為了解決這一問(wèn)題,一些學(xué)者旨在補(bǔ)全包含不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系的三元組,而無(wú)需從頭訓(xùn)練KG。
然而不同的作者在概念上使用不同的名稱來(lái)描述相同的任務(wù),因此存在術(shù)語(yǔ)鴻溝。比如一些學(xué)者使用文本描述或圖像等額外信息嵌入新實(shí)體稱為開(kāi)放世界(或零樣本)KGC[5-7];一些學(xué)者關(guān)注KG的長(zhǎng)尾關(guān)系,預(yù)測(cè)可見(jiàn)實(shí)體間的不可見(jiàn)關(guān)系稱為少樣本KGC[8-10];一些學(xué)者通過(guò)聚合原始KG中現(xiàn)有鄰居信息嵌入的新實(shí)體或新關(guān)系稱為OOKG(out-of-knowledgegraph)實(shí)體或OOKG 關(guān)系[11-13];現(xiàn)有的研究更多地將新實(shí)體或新關(guān)系稱為不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系,將該任務(wù)稱為面向KGC的歸納學(xué)習(xí)[14-16]。
從歸納式知識(shí)圖譜補(bǔ)全的理論角度出發(fā),Ali 等人[15]將歸納式KGC 分為半歸納和全歸納的KGC,半歸納式KGC不可見(jiàn)實(shí)體必須鏈接到原始KG,全歸納式KGC 預(yù)測(cè)新興KG 的不可見(jiàn)實(shí)體。Sack 等人[16]在Ali等人[15]基礎(chǔ)上考慮全歸納式不可見(jiàn)關(guān)系問(wèn)題。但是上述都忽略了半歸納式不可見(jiàn)關(guān)系問(wèn)題。本文提出一個(gè)統(tǒng)一的框架,將開(kāi)放世界、零樣本和少樣本KGC統(tǒng)稱為面向KGC的歸納學(xué)習(xí),將新實(shí)體、OOKG實(shí)體統(tǒng)稱為不可見(jiàn)實(shí)體,關(guān)系同理。本文正式描述歸納設(shè)置,如圖1 所示,(a)圖為半歸納式KGC 解決原始KG 的不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系問(wèn)題,(b)圖為全歸納式解決新興KG 的不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系問(wèn)題,第1章預(yù)備知識(shí)給出了詳細(xì)的定義并從該角度分類了全部的模型。
圖1 歸納式知識(shí)圖譜補(bǔ)全Fig.1 Inductive knowledge graph completion
從歸納式知識(shí)圖譜補(bǔ)全的技術(shù)角度出發(fā),本文對(duì)歸納式知識(shí)圖譜補(bǔ)全的各類方法進(jìn)行歸納總結(jié)。如圖2所示,首先根據(jù)有無(wú)使用額外信息(文本、時(shí)序等)將歸納式知識(shí)圖譜補(bǔ)全方法分為基于結(jié)構(gòu)信息的歸納式KGC 和基于額外信息的歸納式KGC。根據(jù)匯總分類目前研究將基于結(jié)構(gòu)信息的歸納KGC分為三類:基于歸納嵌入、基于邏輯規(guī)則和基于元學(xué)習(xí)的方法。它們主要區(qū)別在于如何處理不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系。其中基于歸納嵌入的方法旨在通過(guò)聚合鄰居節(jié)點(diǎn)特征嵌入不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系;基于邏輯規(guī)則的方法通過(guò)顯式和隱式地挖掘邏輯規(guī)則,因?yàn)檫壿嬕?guī)則獨(dú)立于實(shí)體,因此對(duì)新興KG 的不可見(jiàn)實(shí)體有內(nèi)在的歸納性并可以推廣到不可見(jiàn)關(guān)系,并且為模型如何以人類可理解的方式推斷未知事實(shí)提供解釋;元學(xué)習(xí)又稱學(xué)會(huì)學(xué)習(xí),基本思想是利用以前學(xué)習(xí)的知識(shí)和經(jīng)驗(yàn),只需利用少量的訓(xùn)練樣本就快速適應(yīng)具有不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系的新任務(wù),并且可以提高不同KG 之間的泛化性和可遷移性。此外,根據(jù)匯總分類目前研究將基于額外信息的歸納KGC 分為兩類:廣泛研究的基于文本信息的方法、少量基于其他信息的方法。基于文本信息的方法借助文本描述或者實(shí)體描述等文本信息嵌入或預(yù)測(cè)不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系;基于其他信息的方法根據(jù)處理多模態(tài)信息或者時(shí)序嵌入或預(yù)測(cè)不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系。
圖2 歸納式知識(shí)圖譜補(bǔ)全方法Fig.2 Inductive knowledge graph completion methods
本文深入研究了面向知識(shí)圖譜補(bǔ)全的歸納學(xué)習(xí)的最新進(jìn)展。具體來(lái)說(shuō),本文的貢獻(xiàn)在于:
(1)從歸納式知識(shí)圖譜補(bǔ)全的理論角度出發(fā),以原始KG 和新興KG 的知識(shí)圖譜補(bǔ)全任務(wù)為分類依據(jù),分為半歸納式和全歸納式,并從該角度總結(jié)歸納了本文的模型。
(2)從歸納式知識(shí)圖譜補(bǔ)全的技術(shù)角度出發(fā),以有無(wú)使用額外信息為分類依據(jù),分為基于結(jié)構(gòu)信息和額外信息,對(duì)現(xiàn)有各類面向知識(shí)圖譜補(bǔ)全的歸納學(xué)習(xí)方法進(jìn)行歸納總結(jié)。
(3)展望面向知識(shí)圖譜補(bǔ)全的歸納學(xué)習(xí)的未來(lái)發(fā)展方向和前景。
定義1(知識(shí)圖譜和新興知識(shí)圖譜)
定義知識(shí)圖譜:
其中,E 表示實(shí)體集合,R 表示關(guān)系集合,E ×R×E表示事實(shí)三元組集合,事實(shí)三元組用(h,r,t)表示,其中h表示頭實(shí)體,t表示尾實(shí)體,r表示頭實(shí)體和尾實(shí)體之間的關(guān)系。
定義新興知識(shí)圖譜:
其中,E′ ? E=?,E′ 表示不可見(jiàn)實(shí)體集。新興KG G′(E′,R) 包含不可見(jiàn)實(shí)體集E′和與原始KG G(E,R)共享的可見(jiàn)關(guān)系集R。
事實(shí)三元組如(中國(guó),首都,北京),其中“中國(guó)”“首都”“北京”分別是頭實(shí)體、關(guān)系、尾實(shí)體,表示中國(guó)首都是北京這個(gè)事實(shí)。
如圖1 所示,在原始KG 執(zhí)行半歸納式KGC,在新興KG執(zhí)行全歸納式KGC。新興KG的三元組(不可見(jiàn)頭實(shí)體Diana,可見(jiàn)關(guān)系children is,不可見(jiàn)尾實(shí)體Liam)與原始KG 三元組(可見(jiàn)頭實(shí)體Lucy,可見(jiàn)關(guān)系children is,可見(jiàn)尾實(shí)體Ella)共享可見(jiàn)的關(guān)系children is,但是原始KG 的三元組都是可見(jiàn)的,新興KG的實(shí)體都是不可見(jiàn)的。
定義2(鏈接預(yù)測(cè)和三元組分類)
知識(shí)圖譜補(bǔ)全有兩大任務(wù),三元組分類(triplet classification,TC)和鏈接預(yù)測(cè)(link prediction,LP),其中鏈接預(yù)測(cè)又分為實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè)。
知識(shí)圖譜實(shí)體預(yù)測(cè)為給定一個(gè)三元組(?,r,t)或者(h,r,?),目標(biāo)是訓(xùn)練模型來(lái)預(yù)測(cè)缺失的頭實(shí)體或者尾實(shí)體。知識(shí)圖譜關(guān)系預(yù)測(cè)為給定一個(gè)三元組(h,?,t),目標(biāo)是訓(xùn)練模型來(lái)預(yù)測(cè)缺失的關(guān)系。
知識(shí)圖譜三元組分類為給定一個(gè)三元組(h,r,t),目標(biāo)是訓(xùn)練模型來(lái)分類三元組是真還是假。
定義3(直推式鏈接預(yù)測(cè)和歸納式鏈接預(yù)測(cè))
定義直推式鏈接預(yù)測(cè)為預(yù)測(cè)缺失的三元組:
定義歸納式鏈接預(yù)測(cè)為預(yù)測(cè)缺失的三元組:
其中,E″表示不可見(jiàn)實(shí)體集,R″為不可見(jiàn)關(guān)系集。
定義4(半歸納式鏈接預(yù)測(cè)和全歸納式鏈接預(yù)測(cè))
定義半歸納式(semi-inductive,SI)鏈接預(yù)測(cè)為預(yù)測(cè)原始KG缺失的三元組(存在可見(jiàn)實(shí)體):
其中,α、β、γ分別為:
其中,α、β、γ分別如圖1中的①、②、③,分別預(yù)測(cè)(可見(jiàn)頭實(shí)體Frank,可見(jiàn)關(guān)系children is,不可見(jiàn)尾實(shí)體Mimi)、(可見(jiàn)頭實(shí)體Frank,不可見(jiàn)關(guān)系wife is,可見(jiàn)尾實(shí)體Lucy)和(可見(jiàn)頭實(shí)體Frank,不可見(jiàn)關(guān)系works in,不可見(jiàn)尾實(shí)體Bank)。
定義全歸納式(fully-inductive,F(xiàn)I)鏈接預(yù)測(cè)為預(yù)測(cè)新興KG缺失的三元組(不存在可見(jiàn)實(shí)體):
其中,λ、μ分別如圖1 中的④和⑤,分別預(yù)測(cè)(不可見(jiàn)頭實(shí)體Diana,可見(jiàn)關(guān)系children is,不可見(jiàn)尾實(shí)體Liam)和(不可見(jiàn)頭實(shí)體James,不可見(jiàn)關(guān)系wife is,不可見(jiàn)尾實(shí)體Diana)。
定義3將鏈接預(yù)測(cè)任務(wù)細(xì)分為直推式和歸納式,定義4進(jìn)一步將歸納式細(xì)分為半歸納和全歸納,其三元組分類任務(wù)為分類預(yù)測(cè)的三元組是真是假,這里不詳細(xì)闡述。
表1對(duì)圖1的5種場(chǎng)景歸納式鏈接預(yù)測(cè)模型進(jìn)行分類,下面具體闡述上述模型適用的歸納場(chǎng)景。
表1 歸納式知識(shí)圖譜補(bǔ)全場(chǎng)景分類Table 1 Scene classification of inductive knowledge graph completion
如上所述,基于結(jié)構(gòu)信息的歸納式KGC 主要有嵌入表示、邏輯規(guī)則、元學(xué)習(xí)。表2 對(duì)基于結(jié)構(gòu)信息的歸納式KGC 的典型模型進(jìn)行了對(duì)比,后續(xù)章節(jié)將對(duì)這些模型進(jìn)行詳細(xì)的闡述。
表2 基于結(jié)構(gòu)信息的歸納式知識(shí)圖譜補(bǔ)全對(duì)比Table 2 Comparison of inductive knowledge graph completion based on structural information
2.1.1 基于圖神經(jīng)網(wǎng)絡(luò)的模型
一些圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN),如GraphSAGE(graph sample and aggregate)[121]、Graph-SAINT(graph sampling based inductive learning method)[122]等顯示了在圖中的歸納表示學(xué)習(xí)的能力。GraphSAGE如圖3 所示,首先對(duì)鄰居采樣,其次聚合鄰居節(jié)點(diǎn)信息,最后預(yù)測(cè)圖上下文和標(biāo)簽。此外,GraphSAINT基于子圖采樣(而非GraphSAGE 基于鄰域采樣),克服了鄰居節(jié)點(diǎn)數(shù)量爆炸式增長(zhǎng)的問(wèn)題,能夠在大規(guī)模圖上實(shí)現(xiàn)歸納學(xué)習(xí)。KG 是一種基于圖的數(shù)據(jù)結(jié)構(gòu),它將實(shí)體抽象為頂點(diǎn),將實(shí)體之間的關(guān)系抽象為邊,通過(guò)結(jié)構(gòu)化的形式對(duì)知識(shí)進(jìn)行建模和描述,并將知識(shí)可視化。很多學(xué)者受此啟發(fā)[121-122],通過(guò)GNN 對(duì)KG 中鄰居節(jié)點(diǎn)特征進(jìn)行聚合嵌入不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系。
圖3 GraphSAGE模型結(jié)構(gòu)Fig.3 Model structure of GraphSAGE
Hamaguchi 等人提出了MEAN[11],其使用GNN嵌入不可見(jiàn)實(shí)體,GNN 的傳播模型將信息從實(shí)體傳播到其鄰域,而輸出模型使用基于嵌入的KGC 模型。然而,它通過(guò)簡(jiǎn)單的池化函數(shù)聚合鄰居,忽略了鄰居之間的差異,并且僅對(duì)包含少量關(guān)系的數(shù)據(jù)集有效。ConvLayer[12]同時(shí)受益于GNN 和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),使用卷積層作為GNN 中的過(guò)渡函數(shù),以更少的參數(shù)學(xué)習(xí)表達(dá)性更強(qiáng)的嵌入。為了充分利用隱藏在三元組中的關(guān)系語(yǔ)義,CFAG[14]利用粗粒度聚合器(coarse-grained aggregator,CG-AGG)和細(xì)粒度生成對(duì)抗網(wǎng)絡(luò)(finegrained generative adversarial network,F(xiàn)G-GAN)中的兩個(gè)粒度級(jí)別關(guān)系語(yǔ)義來(lái)生成不可見(jiàn)實(shí)體的表示。首先,CG-AGG 通過(guò)基于超圖神經(jīng)網(wǎng)絡(luò)(hyper-graph neural network,HGNN)的全局聚合器和基于GNN的局部聚合器生成具有多種語(yǔ)義的實(shí)體表示;其次,F(xiàn)G-GAN 進(jìn)一步通過(guò)條件生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial network,CGNN)增強(qiáng)具有特定語(yǔ)義的實(shí)體表示。
上述模型可以處理半歸納式的不可見(jiàn)實(shí)體嵌入問(wèn)題,很少有學(xué)者利用GNN 在半歸納式中學(xué)習(xí)嵌入不可見(jiàn)關(guān)系。目前已知Geng 等人提出DOZSL(disentangled ontology embedding for zero-shot learning)[39]學(xué)習(xí)解糾纏的本體嵌入,該模型基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)的生成模型和基于圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)的傳播模型集成解糾纏的嵌入,在不同方面捕捉和利用更細(xì)粒度的關(guān)系。
上述模型主要是通過(guò)聚合原始KG 中鄰域信息來(lái)生成不可見(jiàn)實(shí)體的嵌入,不能同時(shí)對(duì)不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系進(jìn)行嵌入。Zhao 等人提出FCLEntity-Att[13],使用卷積過(guò)渡和基于注意力的GNN 結(jié)構(gòu)對(duì)不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系進(jìn)行嵌入。Wang 等人提出SAGNN(structured attention graph neural network)[56],通過(guò)從入、出、共現(xiàn)頻率等結(jié)構(gòu)信息中挖掘潛在的關(guān)聯(lián)特征,在輸入節(jié)點(diǎn)缺乏嵌入表示的情況下為鄰域內(nèi)的不同節(jié)點(diǎn)指定不同的權(quán)重,最終對(duì)不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系生成具有高級(jí)語(yǔ)義特征的嵌入。
2.1.2 基于其他的模型
一些模型在基于GNN的模型嵌入不可見(jiàn)實(shí)體上進(jìn)行改進(jìn),LAN(logic attention network)[17]基于邏輯規(guī)則和神經(jīng)網(wǎng)絡(luò)的注意機(jī)制來(lái)聚合鄰居,以排列不變的方式為實(shí)體的鄰居賦予不同的權(quán)重,同時(shí)考慮鄰居的冗余性和查詢關(guān)系。SLAN(similarity-aware aggregation network)[18]考慮挖掘可見(jiàn)實(shí)體與不可見(jiàn)實(shí)體之間的相似性,首先使用基于實(shí)體的鄰居上下文和邊緣上下文度量實(shí)體之間的相似性,然后設(shè)計(jì)特定于查詢的注意權(quán)重來(lái)聚合相似度和鄰域信息。CatE(concept aware knowledge transfer for inductive knowledge graph embedding)[19]基于本體論概念來(lái)解決不可見(jiàn)實(shí)體鄰居稀疏性問(wèn)題,首先采用Transformer 編碼器對(duì)本體概念的復(fù)雜上下文結(jié)構(gòu)進(jìn)行建模,其次提出模板細(xì)化策略的歸納實(shí)體嵌入生成器,通過(guò)集成不可見(jiàn)實(shí)體的鄰居和相應(yīng)的概念來(lái)嵌入不可見(jiàn)實(shí)體。ARP(attention-based relation prediction)[20]關(guān)注實(shí)體和關(guān)系的多種類型的關(guān)聯(lián)信息,通過(guò)結(jié)合一階子圖和一跳實(shí)體上下文特征增強(qiáng)不可見(jiàn)實(shí)體的嵌入,并設(shè)計(jì)聯(lián)合損失函數(shù)保證同時(shí)包含子圖和上下文特征的統(tǒng)一嵌入。
不同于以上基于GNN 的模型嵌入不可見(jiàn)實(shí)體,杜治娟等人提出TransNS[21],選取相關(guān)的鄰居作為實(shí)體的屬性來(lái)推斷不可見(jiàn)實(shí)體,并利用實(shí)體之間的語(yǔ)義親和力選擇負(fù)例三元組來(lái)增強(qiáng)語(yǔ)義交互能力。Albooyeh等人提出oDisMult[22],引入簡(jiǎn)單高效的訓(xùn)練算法來(lái)優(yōu)化精心設(shè)計(jì)的聚合函數(shù)嵌入不可見(jiàn)實(shí)體。Dai等人提出InvTransE[23],利用TransE假設(shè)來(lái)預(yù)訓(xùn)練鄰接實(shí)體的表示,再對(duì)這些表示直接計(jì)算,就能快速歸納得到不可見(jiàn)實(shí)體的表示。
上述模型可以處理半歸納式的不可見(jiàn)實(shí)體嵌入問(wèn)題,特別的,面對(duì)如圖4 不斷增長(zhǎng)的KG,同時(shí)處理半歸納式的不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系問(wèn)題。Cui等人提出LKGE(lifelong knowledge graph embedding)[57],考慮終身KG 嵌入和遷移而不必從頭學(xué)習(xí)嵌入。該模型采用掩碼KG 自編碼器作為嵌入學(xué)習(xí)和更新的基礎(chǔ),并采用嵌入轉(zhuǎn)移策略將學(xué)習(xí)到的知識(shí)注入到不可見(jiàn)實(shí)體和關(guān)系中,最后應(yīng)用嵌入正則化方法防止知識(shí)更新中的災(zāi)難性遺忘。
圖4 LKGE模型結(jié)構(gòu)Fig.4 Model structure of LKGE
基于歸納嵌入的方法可擴(kuò)展性強(qiáng),適用大型數(shù)據(jù)集,但是缺乏基于邏輯規(guī)則的可解釋性和準(zhǔn)確性,并且屬于半歸納式,只能直接對(duì)與原始KG有關(guān)聯(lián)的不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系進(jìn)行嵌入。下面將具體闡述聯(lián)合嵌入和邏輯規(guī)則、聯(lián)合嵌入和元學(xué)習(xí),彌補(bǔ)以上缺點(diǎn)。
基于邏輯規(guī)則的方法主要有三種:基于規(guī)則的學(xué)習(xí)主要是明確挖掘邏輯規(guī)則;基于局部子圖結(jié)構(gòu)隱式學(xué)習(xí)KG中的邏輯規(guī)則;聯(lián)合嵌入和邏輯規(guī)則。
2.2.1 基于規(guī)則的模型
(1)挖掘邏輯規(guī)則
傳統(tǒng)的歸納關(guān)系預(yù)測(cè)方法主要是尋找KG 中的好的規(guī)則來(lái)預(yù)測(cè)目標(biāo)三元組的存在。Galarraga等人提出知識(shí)圖譜關(guān)聯(lián)規(guī)則挖掘算法(association rule mining under incomplete evidence,AMIE)[58],從不完備的KG上挖掘霍恩規(guī)則(Horn rules)。具體來(lái)說(shuō),該算法通過(guò)3個(gè)挖掘算子(懸掛原子、實(shí)例化原子、閉合原子)迭代擴(kuò)展規(guī)則來(lái)探索搜索空間,并融入對(duì)應(yīng)的剪枝策略來(lái)縮小搜索空間。在此基礎(chǔ)上,Galarraga等人將AMIE擴(kuò)展為AMIE+[59],通過(guò)增加一系列修剪和查詢重寫技術(shù)來(lái)挖掘更大的KG,并利用實(shí)體類型信息和聯(lián)合推理提高預(yù)測(cè)精度。但是以上模型的規(guī)則學(xué)習(xí)基于全局的KG進(jìn)行搜索,成本高,效率低,預(yù)測(cè)效果差。與AMIE[58]基于整個(gè)KG計(jì)算置信度不同的是,RuleN[60]基于選擇隨機(jī)樣本計(jì)算一個(gè)近似值,能夠挖掘更長(zhǎng)的路徑規(guī)則。與AMIE、AMIE+自頂向下方法必須學(xué)習(xí)某一類型的所有規(guī)則相反,AnyBURL[61]從大型KG中自底向上學(xué)習(xí)邏輯規(guī)則,利用強(qiáng)化學(xué)習(xí)對(duì)兩個(gè)實(shí)體間的關(guān)系進(jìn)行采樣,將采樣路徑推廣為霍恩規(guī)則,運(yùn)行速度快,需要更少的計(jì)算資源。
以上規(guī)則挖掘方法從KG 中挖掘出高置信度規(guī)則,然而好規(guī)則的數(shù)量可能是KG 大小的指數(shù)級(jí),挖掘的規(guī)則覆蓋率低,計(jì)算復(fù)雜度高、搜索成本較大、效率低會(huì)耗費(fèi)大量的時(shí)間資源。
(2)邏輯規(guī)則和神經(jīng)網(wǎng)絡(luò)
基于邏輯規(guī)則的模型具有高準(zhǔn)確率和強(qiáng)可解釋性的優(yōu)點(diǎn),但該方法局限于噪聲敏感和擴(kuò)展性差,而神經(jīng)網(wǎng)絡(luò)的強(qiáng)魯棒性和高效率可以緩解這一問(wèn)題。
Yang等人受TensorLog和神經(jīng)網(wǎng)絡(luò)的啟發(fā),提出第一個(gè)端到端的可微模型NeuralLP[62],學(xué)習(xí)可變規(guī)則長(zhǎng)度。該模型結(jié)合一階規(guī)則推理和稀疏矩陣乘法,并引入具有注意機(jī)制和記憶的神經(jīng)控制器系統(tǒng),可以同時(shí)學(xué)習(xí)一階邏輯規(guī)則的參數(shù)和結(jié)構(gòu)。但是該模型對(duì)最大長(zhǎng)度的規(guī)則有限制,不可避免地挖掘出高置信度的不正確規(guī)則,同時(shí)可微模型基于TensorLog框架,用矩陣表示三元組,矩陣維數(shù)為實(shí)體數(shù),空間復(fù)雜度較高。Sadeghian 等人改進(jìn)了NeuralLP 提出Drum[63],將每個(gè)規(guī)則的學(xué)習(xí)置信度分?jǐn)?shù)與低秩張量近似之間建立聯(lián)系,使用BiRNN 在不同關(guān)系的學(xué)習(xí)規(guī)則任務(wù)之間共享有用的信息。但是該模型僅使用正樣本進(jìn)行訓(xùn)練,未使用負(fù)采樣提高模型的性能。以上模型同時(shí)學(xué)習(xí)邏輯規(guī)則及其權(quán)重優(yōu)化是復(fù)雜的,Qu 等人提出RNNLogic[64],為迭代優(yōu)化引入規(guī)則生成器和推理預(yù)測(cè)器并提出EM算法:首先更新推理預(yù)測(cè)器探索一些邏輯規(guī)則;其次在E步中利用規(guī)則生成器和推理預(yù)測(cè)器進(jìn)行后驗(yàn)推理,篩選出高質(zhì)量的規(guī)則;最后在M步中,選擇E步中高質(zhì)量規(guī)則的監(jiān)督下更新規(guī)則生成器。然而上述模型不能解決KG 中缺失邊問(wèn)題,在處理不合理的規(guī)則候選時(shí)存在不足。Zhang等人提出RuleNet[65],利用關(guān)系參數(shù)的語(yǔ)義信息解決可微規(guī)則學(xué)習(xí)中的缺失邊問(wèn)題。具體而言,首先依賴查詢的對(duì)偶圖構(gòu)造可以利用關(guān)系參數(shù)的信息,有效地學(xué)習(xí)關(guān)系之間的聯(lián)系,其次進(jìn)行缺失邊感知的可微規(guī)則學(xué)習(xí),遍歷所有可能的規(guī)則路徑。
(3)邏輯規(guī)則和圖神經(jīng)網(wǎng)絡(luò)
最近GNN 在深度學(xué)習(xí)得到了廣泛的應(yīng)用,基于GNN的框架來(lái)捕獲邏輯規(guī)則,可解釋性強(qiáng),模型容量大,可擴(kuò)展性強(qiáng),并建模KG 中關(guān)系之間更復(fù)雜的語(yǔ)義相關(guān)性。
Zhu 等人提出基于路徑表示學(xué)習(xí)的GNN 框架NBFNet[66],所提出的路徑公式概括了幾種傳統(tǒng)的方法并可以通過(guò)廣義Bellman-Ford 算法進(jìn)行有效求解。具體而言,廣義Bellman-Ford算法參數(shù)化為三個(gè)神經(jīng)函數(shù):INDICATOR、MESSAGE 和AGGREGATE函數(shù)。分別學(xué)習(xí)廣義Bellman-Ford算法的邊界條件、乘法運(yùn)算符和求和運(yùn)算符。Liu等人提出INDIGO[67],采用成對(duì)編碼的GNN,進(jìn)一步利用了KG的結(jié)構(gòu)特征捕獲邏輯規(guī)則,其使用KG 中的三元組與GNN 處理的KG 中節(jié)點(diǎn)特征向量的元素之間的一對(duì)一對(duì)應(yīng)關(guān)系來(lái)編碼KG,并且預(yù)測(cè)的三元組可以直接從GNN的最后一層讀出,而不需要額外的組件或評(píng)分函數(shù)。為了避免規(guī)則在指數(shù)大小空間中搜索,循環(huán)基圖神經(jīng)網(wǎng)絡(luò)(cycle basis graph neural network,CBGNN)[68]首次將邏輯規(guī)則學(xué)習(xí)視為循環(huán)學(xué)習(xí)。該模型首先利用循環(huán)空間的線性結(jié)構(gòu)并計(jì)算合適的循環(huán)基更好地表達(dá)規(guī)則,提高規(guī)則的搜索效率;其次搜索整個(gè)循環(huán)空間,通過(guò)GNN 的消息傳遞在循環(huán)空間中進(jìn)行隱式代數(shù)運(yùn)算,學(xué)習(xí)良好規(guī)則的表示。Zhang 等人提出RED-GNN(relational digraphs graph neural network)[69],由重疊的關(guān)系路徑組成的關(guān)系有向圖來(lái)捕獲KG 的局部證據(jù)。該模型利用動(dòng)態(tài)規(guī)劃遞歸編碼多個(gè)具有共享邊的關(guān)系有向圖,并通過(guò)依賴查詢的注意權(quán)重選擇強(qiáng)相關(guān)邊。
基于規(guī)則的模型能顯式地挖掘邏輯規(guī)則,可解釋性和準(zhǔn)確性強(qiáng),有內(nèi)在的歸納性,可以對(duì)新興KG的不可見(jiàn)實(shí)體進(jìn)行鏈接預(yù)測(cè)。但是存在以下問(wèn)題:模型大小指數(shù)型增長(zhǎng)會(huì)導(dǎo)致模型參數(shù)可伸縮性問(wèn)題;很難擴(kuò)展到大型數(shù)據(jù)集;很難與KG 的其他特征相結(jié)合,從而完成準(zhǔn)確的補(bǔ)全。
2.2.2 基于子圖的模型
子圖可以被解釋為兩個(gè)目標(biāo)實(shí)體之間有效路徑的組合,它比單個(gè)規(guī)則更全面、信息更豐富。為了充分利用目標(biāo)實(shí)體之間的拓?fù)湫畔⒑虶NN 的表達(dá)能力,最近基于子圖的模型被廣泛提出,該方法僅從結(jié)構(gòu)(即子圖結(jié)構(gòu)和結(jié)構(gòu)節(jié)點(diǎn)特征)中學(xué)習(xí)和泛化,通過(guò)局部子圖結(jié)構(gòu)隱式學(xué)習(xí)KG中的邏輯規(guī)則,具有內(nèi)在的歸納性。
最早Teru 等人提出GraIL[70],該框架對(duì)局部子圖結(jié)構(gòu)進(jìn)行推理,以實(shí)體獨(dú)立的方式預(yù)測(cè)目標(biāo)節(jié)點(diǎn)之間的關(guān)系。如圖5所示,該模型首先提取兩個(gè)目標(biāo)節(jié)點(diǎn)周圍的封閉子圖,然后標(biāo)記所提取子圖中的節(jié)點(diǎn),包含圖的相關(guān)結(jié)構(gòu)信息,最后利用GNN 進(jìn)行消息傳遞,對(duì)標(biāo)記的子圖進(jìn)行評(píng)分,可以在訓(xùn)練后推廣到不可見(jiàn)實(shí)體的KG。
在此之后許多學(xué)者從不同方面對(duì)GraIL進(jìn)行改進(jìn),Chen等人提出TACT(topology-aware correlations)[71],對(duì)關(guān)系之間的語(yǔ)義關(guān)聯(lián)進(jìn)行建模,創(chuàng)新性地將所有關(guān)系對(duì)劃分為7種拓?fù)淠J?,可以有效地以?shí)體無(wú)關(guān)的方式利用關(guān)系之間的拓?fù)涓兄嚓P(guān)性進(jìn)行歸納鏈接預(yù)測(cè)。CoMPILE(communicative message passing neural network)[72]擴(kuò)展GraIL 的思想,引入新的節(jié)點(diǎn)-邊緣通信消息傳遞機(jī)制來(lái)建模有向子圖,符合KG的方向性,可以自然地處理不對(duì)稱和反對(duì)稱關(guān)系。RPCIR(relational path contrast for inductive reasoning)[73]關(guān)注單個(gè)子圖中規(guī)則監(jiān)督不足的問(wèn)題,創(chuàng)新性地引入對(duì)比學(xué)習(xí)構(gòu)建正、負(fù)關(guān)系路徑獲得自監(jiān)督信息,其次利用GCN獲得正、負(fù)關(guān)系路徑的表示,最后結(jié)合對(duì)比信息和監(jiān)督信息聯(lián)合訓(xùn)練。Mai 等人關(guān)注造成基于子圖方法的弱解釋性的原因——存在噪聲節(jié)點(diǎn)和邊,提出GraphDrop[74],動(dòng)態(tài)地修剪不相關(guān)的節(jié)點(diǎn)和邊以生成最小充分子圖,提出硬dropout和軟dropout兩種方法來(lái)過(guò)濾節(jié)點(diǎn)和邊緣,并引入拓?fù)鋼p失來(lái)保留修剪后的子圖中的邏輯規(guī)則和拓?fù)浣Y(jié)構(gòu)。SGI(subgraph infomax)[75]使目標(biāo)關(guān)系與其封閉子圖之間的交互信息最大化,并提出預(yù)先訓(xùn)練的SGI相互信息估計(jì)量來(lái)選擇困難負(fù)樣本的新采樣方法。Zheng 等人提出基于子圖的元學(xué)習(xí)器Meta-iKG[76],該模型利用局部子圖傳遞子圖特定的信息,通過(guò)元梯度更快地學(xué)習(xí)可遷移的模式以快速適應(yīng)小樣本關(guān)系,還引入大樣本關(guān)系更新過(guò)程使模型在大樣本關(guān)系上也能很好地泛化。
由于僅利用子圖會(huì)丟失大量的相鄰關(guān)系信息,Wang 等人提出關(guān)系消息傳遞方法PathCon[77],考慮KG 中的兩類子圖結(jié)構(gòu)即實(shí)體對(duì)的關(guān)系上下文和關(guān)系路徑,在邊緣之間迭代傳遞關(guān)系消息以聚合鄰域信息以進(jìn)行關(guān)系預(yù)測(cè)。Xu 等人提出SNRI(subgraph neighboring relations infomax)[78],從相鄰關(guān)系特征和相鄰關(guān)系路徑兩方面有效地將完整的相鄰關(guān)系集成到封閉子圖中,然后通過(guò)交互信息最大化以全局方式建模鄰接關(guān)系。Chen等人提出基于相鄰關(guān)系拓?fù)鋱D(neighboring relations topology graph,NRTG)的實(shí)體表示方法[79],其中節(jié)點(diǎn)表示關(guān)系,邊表示關(guān)系之間的拓?fù)淠J?。具體來(lái)說(shuō),首先將關(guān)系之間的連接結(jié)構(gòu)劃分為六種拓?fù)淠J?,關(guān)系拓?fù)淠K通過(guò)提取頭部和尾部實(shí)體的局部子圖的所有三元組分別構(gòu)建其相鄰關(guān)系拓?fù)鋱D;然后聚合相鄰關(guān)系和NRTG中關(guān)系之間的拓?fù)淠J阶鳛閷?shí)體表示。ConGLR(context graph with logical reasoning)[80]在子圖的基礎(chǔ)上引入上下文圖聯(lián)合計(jì)算歸納得分,采用兩個(gè)部分信息交互的GCN分別處理子圖和上下文圖,并為子圖GCN引入邊感知和關(guān)系感知注意機(jī)制,為實(shí)體和關(guān)系的表示帶來(lái)了豐富的KG結(jié)構(gòu)語(yǔ)義。
雖然上述方法可以處理新興KG 中的不可見(jiàn)實(shí)體,但它們不能同時(shí)考慮不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系,一些學(xué)者對(duì)此問(wèn)題進(jìn)行了探索。Geng 等人提出RMPI(relational message passing network for fully inductive KGC)[109],首先提取一個(gè)封閉子圖將實(shí)體視圖子圖轉(zhuǎn)換為關(guān)系視圖子圖,其次利用目標(biāo)關(guān)系引導(dǎo)的圖修剪策略、目標(biāo)關(guān)系感知鄰域注意、處理空子圖、KG本體模式的關(guān)系語(yǔ)義注入等新技術(shù)充分進(jìn)行關(guān)系消息傳遞對(duì)同時(shí)不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系進(jìn)行歸納預(yù)測(cè)。Wu 等人提出ReCoLe(relation-dependent contrastive learning)[110],首先采用基于聚類算法的抽樣方法,其次提取不同目標(biāo)三元組的有向包圍子圖并輸入到相應(yīng)的基于GNN 的編碼器中,最后基于GNN的編碼器通過(guò)對(duì)比學(xué)習(xí)進(jìn)行優(yōu)化,提高對(duì)不可見(jiàn)關(guān)系的泛化能力。與Meta-iKG[76]不同,Huang等人提出使用自我監(jiān)督預(yù)訓(xùn)練的連接子圖推理器(connection subgraph reasoner,CSR)[111],首先使用假設(shè)建議模塊以連接子圖的形式找到共享假設(shè),然后使用證據(jù)建議模塊測(cè)試是否有足夠接近假設(shè)的證據(jù)來(lái)預(yù)測(cè)查詢的三元組,進(jìn)一步考慮不可見(jiàn)關(guān)系并且不需要在人工策劃的訓(xùn)練任務(wù)集上進(jìn)行預(yù)訓(xùn)練。
基于子圖的模型在處理新興KG 的不可見(jiàn)實(shí)體任務(wù)顯示出很強(qiáng)的歸納學(xué)習(xí)能力,并可以擴(kuò)展到新興KG 的不可見(jiàn)關(guān)系。但仍存在一些缺點(diǎn)。具體而言:(1)外圍子圖的大小可能非常大,包含干擾模型學(xué)習(xí)的噪聲信息;(2)由于子圖結(jié)構(gòu)的復(fù)雜性,很難推斷出歸納預(yù)測(cè)的結(jié)果是從子圖的哪些部分得出結(jié)果的,可解釋性差。
2.2.3 聯(lián)合嵌入和邏輯規(guī)則的模型
受基于嵌入和邏輯規(guī)則的各自優(yōu)勢(shì),一些學(xué)者提出混合模型。與僅對(duì)不可見(jiàn)實(shí)體嵌入不同,Bhowmik等人提出不可見(jiàn)實(shí)體表示學(xué)習(xí)和推理的聯(lián)合框架(explainable link prediction for emerging entities,ELPE)[24],不僅通過(guò)Graph Transformer編碼器的變體聚合鄰域信息對(duì)不可見(jiàn)的實(shí)體進(jìn)行表示,而且通過(guò)強(qiáng)化學(xué)習(xí)找到源實(shí)體和目標(biāo)實(shí)體之間的推理路徑對(duì)不可見(jiàn)實(shí)體的鏈接預(yù)測(cè)具有可解釋性。He等人提出VN network(virtual neighbor network)[25],同時(shí)關(guān)注鄰居稀疏問(wèn)題和有意義的復(fù)雜模式。具體而言:首先提出基于規(guī)則的虛擬鄰居預(yù)測(cè)減少鄰居稀疏性,識(shí)別邏輯和對(duì)稱路徑規(guī)則來(lái)捕獲復(fù)雜的模式并在軟標(biāo)簽和KG嵌入上建立迭代優(yōu)化方案,豐富不可見(jiàn)實(shí)體的鄰域;其次將帶有虛擬鄰居的KG輸入到基于GNN的編碼器中;最后基于嵌入式的解碼器為不可見(jiàn)實(shí)體嵌入的三元組分配分?jǐn)?shù)。
與LKGE[57]考慮終身學(xué)習(xí)類似,Cui 等人提出不可見(jiàn)實(shí)體出現(xiàn)在多個(gè)批次中的場(chǎng)景。該模型[26]由四個(gè)模塊組成:基于行走的智能體、自適應(yīng)關(guān)系聚合的圖卷積網(wǎng)絡(luò)(adaptive relation aggregation GCN,ARGCN)、反饋?zhàn)⒁夂玩溄釉鰪?qiáng)。具體而言:ARGCN利用實(shí)體的相鄰關(guān)系對(duì)實(shí)體進(jìn)行編碼和更新;使用查詢感知的反饋?zhàn)⒁鈾C(jī)制捕獲實(shí)體的不同鄰居重要性,鏈接增強(qiáng)策略緩解不可見(jiàn)實(shí)體的稀疏鏈接問(wèn)題;從推理軌跡中提取基于行走的規(guī)則,以支持反饋?zhàn)⒁夂玩溄釉鰪?qiáng)。
聯(lián)合嵌入和邏輯規(guī)則提高了基于嵌入的方法的可解釋性,但是基于嵌入和邏輯規(guī)則的方法很少對(duì)不可見(jiàn)關(guān)系進(jìn)行研究,基于元學(xué)習(xí)的方法彌補(bǔ)了這個(gè)缺點(diǎn)。
根據(jù)目前研究,基于元學(xué)習(xí)的方法主要有三種:第一,基于度量的模型,基于實(shí)體對(duì)的表示來(lái)度量?jī)蓚€(gè)可見(jiàn)實(shí)體之間的相似性,識(shí)別不可見(jiàn)關(guān)系;第二,基于優(yōu)化的模型,大多數(shù)基于模型不可知性元學(xué)習(xí)(model-agnostic meta-learning,MAML)算法預(yù)測(cè)兩個(gè)可見(jiàn)實(shí)體間的不可見(jiàn)關(guān)系;第三,聯(lián)合歸納嵌入和元學(xué)習(xí)解決只能直接對(duì)與原始KG 有關(guān)聯(lián)的不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系進(jìn)行嵌入的缺點(diǎn)。
2.3.1 基于度量的模型
一些學(xué)者關(guān)注預(yù)測(cè)可見(jiàn)實(shí)體間存在不可見(jiàn)關(guān)系的三元組,首先基于實(shí)體編碼器對(duì)實(shí)體對(duì)編碼,在支持三元組中學(xué)習(xí)到含有相同可見(jiàn)關(guān)系的實(shí)體對(duì)間的相似性,最后進(jìn)行查詢?nèi)M與支持三元組的相似性匹配來(lái)識(shí)別不可見(jiàn)關(guān)系。
Xiong等人提出匹配網(wǎng)絡(luò)GMatching[40],如圖6所示,鄰居編碼器利用KG實(shí)體的局部圖結(jié)構(gòu)更好地表示實(shí)體,然后從鄰居編碼器中獲取支持三元組中任意兩個(gè)實(shí)體對(duì)的向量表示,最后匹配處理器進(jìn)行查詢?nèi)M與支持三元組的相似性匹配。一些學(xué)者在此基礎(chǔ)上進(jìn)行改進(jìn),F(xiàn)SRL(few-shot relation learning)[8]使用關(guān)系感知異構(gòu)鄰居編碼器捕獲不同的關(guān)系類型和鄰居對(duì)實(shí)體嵌入的影響和循環(huán)自編碼器聚合網(wǎng)絡(luò)模擬少樣本實(shí)體對(duì)的相互作用。FAAN(adaptive attentional network for few-shot KGC)[9]進(jìn)一步學(xué)習(xí)鄰居的動(dòng)態(tài)表示,首先自適應(yīng)鄰居編碼器學(xué)習(xí)自適應(yīng)實(shí)體表示使實(shí)體表示適應(yīng)不同的任務(wù),其次使用Transformer編碼器對(duì)實(shí)體對(duì)進(jìn)行編碼,最后適應(yīng)匹配處理器匹配支持和查詢?nèi)M。此外,REFORM(error-aware few-shot graph completion)[10]關(guān)注元訓(xùn)練時(shí)的錯(cuò)誤檢測(cè),該模型由鄰居編碼器、交叉關(guān)系聚合和錯(cuò)誤緩解三個(gè)模塊組成,分別減少錯(cuò)誤鄰居的影響、捕獲關(guān)系之間的相關(guān)性和預(yù)測(cè)階段減輕錯(cuò)誤三元組的影響。元模式學(xué)習(xí)框架(meta pattern learning framework,MetaP)[41]解決KG依賴和負(fù)樣本問(wèn)題,首先基于卷積濾波器的模式學(xué)習(xí)器來(lái)直接提取三元組的模式減少KG依賴問(wèn)題,其次基于有效性平衡機(jī)制的模式匹配器同時(shí)考慮了三元組之間的模式相似性和正負(fù)樣本。P-INT(path-based interaction model)[42]利用從頭部到尾部實(shí)體的路徑來(lái)表示一個(gè)實(shí)體對(duì),將基于表示的相似度度量轉(zhuǎn)換為基于頭尾實(shí)體連接路徑的交互度量。FSDR(few-shot discriminative representation learning model)[43]創(chuàng)造性引入實(shí)例圖神經(jīng)網(wǎng)絡(luò)整合負(fù)支持實(shí)例和建模支持實(shí)例之間的交互,充分捕獲支持集中的可用信息。
圖6 GMatching模型結(jié)構(gòu)Fig.6 Model structure of GMatching
2.3.2 基于優(yōu)化的模型
基于優(yōu)化的模型大多數(shù)基于MAML 算法,其基本思想是訓(xùn)練得到模型的初始參數(shù),使模型測(cè)試時(shí)僅通過(guò)少量樣本的一次或幾次梯度更新就能預(yù)測(cè)兩個(gè)可見(jiàn)實(shí)體間的不可見(jiàn)關(guān)系且達(dá)到很好的性能。
Chen等人最早提出元關(guān)系學(xué)習(xí)框架MetaR[44],其中關(guān)系元和梯度元共享支持集和查詢集之間的元信息,試圖在任務(wù)之間提取共享元信息并其觀察到的三元組快速轉(zhuǎn)移到不可見(jiàn)關(guān)系的三元組。如圖7 所示,首先關(guān)系元學(xué)習(xí)器從支持集中提取關(guān)系元,并學(xué)習(xí)從支持集中的頭尾實(shí)體到關(guān)系元的映射,其次嵌入學(xué)習(xí)器通過(guò)實(shí)體嵌入和關(guān)系元評(píng)估特定關(guān)系下實(shí)體對(duì)的真值和損失函數(shù),計(jì)算梯度元并實(shí)現(xiàn)關(guān)系元的快速更新。為了處理一對(duì)多、多對(duì)一甚至多對(duì)多的復(fù)雜關(guān)系,Niu等人提出的GANA(gated and attentive neighbor aggregator)[45]采用全局-局部?jī)呻A段的框架進(jìn)行關(guān)系學(xué)習(xí)。具體而言,全局階段利用門控和注意力鄰居聚合器自動(dòng)捕獲最重要的鄰域信息并過(guò)濾鄰域噪聲信息,并引入雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bidirectional long short-term memory,Bi-LSTM)編碼器學(xué)習(xí)關(guān)系的表示;局部階段設(shè)計(jì)MTransH,利用MAML學(xué)習(xí)關(guān)系特定的超平面參數(shù)對(duì)復(fù)雜關(guān)系進(jìn)行建模。Wu等人提出HiRe(hierarchical relational learning method)[46],進(jìn)一步聯(lián)合捕獲三個(gè)層次的關(guān)系信息(實(shí)體級(jí)、三元組級(jí)和上下文級(jí)),通過(guò)對(duì)目標(biāo)三元組與其真/假上下文之間的對(duì)比相關(guān)性建模,并基于Transformer 編碼器的元關(guān)系學(xué)習(xí)器捕獲成對(duì)的三元組級(jí)關(guān)系信息,所學(xué)習(xí)的實(shí)體/關(guān)系嵌入通過(guò)實(shí)體級(jí)的MTransD進(jìn)一步細(xì)化,最后基于MAML 的訓(xùn)練策略優(yōu)化整個(gè)學(xué)習(xí)框架。
圖7 MetaR模型結(jié)構(gòu)Fig.7 Model structure of MetaR
此外,Lv 等人提出Meta-KGR(meta-based multihop reasoning method)[47],采用強(qiáng)化學(xué)習(xí)框架并使用MAML 從高頻關(guān)系中學(xué)習(xí)有效的元參數(shù),可以快速適應(yīng)不可見(jiàn)關(guān)系。FIRE(few-shot multi-hop relation learning model)[48]通過(guò)異構(gòu)結(jié)構(gòu)編碼和知識(shí)感知搜索空間剪枝擴(kuò)展了Meta-KGR。
2.3.3 聯(lián)合歸納嵌入和元學(xué)習(xí)的模型
基于歸納嵌入的方法通過(guò)聚集不可見(jiàn)實(shí)體的鄰居來(lái)嵌入的不可見(jiàn)實(shí)體,雖然一定程度上解決了不可見(jiàn)實(shí)體問(wèn)題,但仍然面臨三個(gè)挑戰(zhàn):(1)不能直接對(duì)與原始KG 無(wú)關(guān)聯(lián)的不可見(jiàn)實(shí)體進(jìn)行聚合;(2)不能對(duì)新興KG 上的不可見(jiàn)實(shí)體進(jìn)行嵌入;(3)不能同時(shí)對(duì)新興KG 上的不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系嵌入。一些學(xué)者受基于度量的模型的啟發(fā),在原始KG上采樣一組任務(wù),使用支持集作為GNN 的輸入并進(jìn)行元訓(xùn)練,然后將學(xué)習(xí)到的任務(wù)傳遞給查詢集。
針對(duì)第一個(gè)挑戰(zhàn),Baek等人關(guān)注KG中的長(zhǎng)尾關(guān)系,提出GEN(graph extrapolation networks)[27]對(duì)兩個(gè)GNN 進(jìn)行元訓(xùn)練,對(duì)可見(jiàn)到不可見(jiàn)以及不可見(jiàn)到不可見(jiàn)實(shí)體進(jìn)行鏈接預(yù)測(cè)。具體而言,首先歸納式推理可見(jiàn)到不可見(jiàn)實(shí)體之間的節(jié)點(diǎn)嵌入,然后對(duì)整個(gè)KG進(jìn)一步進(jìn)行直推式推理,對(duì)不可見(jiàn)實(shí)體本身進(jìn)行鏈接預(yù)測(cè)并建模不確定性。Zhang 等人提出兩階段模型HRFN(hyper-relation feature learning network)[28],在第一階段從原始KG 中元學(xué)習(xí)超關(guān)聯(lián)特征并使用基于GNN 的兩層網(wǎng)絡(luò)預(yù)表示不可見(jiàn)實(shí)體,獲得其粗粒度表示;在第二階段中基于上述不可見(jiàn)實(shí)體的粗粒度預(yù)表示,采用基于GNN 直推式學(xué)習(xí)網(wǎng)絡(luò)對(duì)不可見(jiàn)實(shí)體的嵌入進(jìn)行微調(diào)。針對(duì)第二個(gè)挑戰(zhàn),Chen 等人提出MorsE(meta-knowledge transfer)[81],通過(guò)建模和學(xué)習(xí)與實(shí)體無(wú)關(guān)的元知識(shí)對(duì)新興KG 中不可見(jiàn)實(shí)體進(jìn)行嵌入。具體而言:首先在原始KG上采樣一組任務(wù)模擬此歸納式任務(wù);其次通過(guò)實(shí)體初始化器和GNN 調(diào)制兩個(gè)模塊對(duì)元知識(shí)建模,分別初始化每個(gè)實(shí)體嵌入和通過(guò)實(shí)體多跳鄰域的結(jié)構(gòu)捕獲實(shí)體的實(shí)例級(jí)信息;最后元訓(xùn)練后可以在新興KG中對(duì)不可見(jiàn)實(shí)體生成高質(zhì)量的嵌入。針對(duì)第三個(gè)挑戰(zhàn),MaKEr(meta-learning based knowledge extrapolation)[112]進(jìn)一步關(guān)注新興KG 的不可見(jiàn)實(shí)體和關(guān)系,首先在現(xiàn)有KG上采樣一組任務(wù)模擬此歸納式任務(wù),其次基于采樣任務(wù)元訓(xùn)練GNN 框架,可以為不可見(jiàn)實(shí)體和關(guān)系的構(gòu)造特征并輸出嵌入。
聯(lián)合嵌入和元學(xué)習(xí)的模型對(duì)GNN 進(jìn)行元訓(xùn)練,彌補(bǔ)基于歸納嵌入的模型只能在半歸納式中嵌入不可見(jiàn)實(shí)體或不可見(jiàn)關(guān)系的缺陷,提高了模型性能。
盡管基于結(jié)構(gòu)信息的歸納式KGC具有顯著的優(yōu)勢(shì),但是僅從KG本身學(xué)習(xí)知識(shí),忽略了KG之外與實(shí)體和關(guān)系相關(guān)的額外信息。表3 對(duì)基于額外信息的歸納式KGC 的模型進(jìn)行了對(duì)比,后續(xù)章節(jié)將對(duì)這些模型進(jìn)行詳細(xì)的闡述。
表3 基于額外信息的歸納式知識(shí)圖譜補(bǔ)全對(duì)比Table 3 Comparison of inductive knowledge graph completion based on extra information
早期的自然語(yǔ)言處理領(lǐng)域使用word2vec[123]和Glove[124]等靜態(tài)預(yù)訓(xùn)練技術(shù)對(duì)文本進(jìn)行編碼,但是無(wú)法解決一詞多義等問(wèn)題。對(duì)此BERT(bidirectional encoder representations from transformers)[125]和RoBERTa(robustly optimized BERT pretraining approach)[126]等動(dòng)態(tài)預(yù)訓(xùn)練模型相繼提出,將預(yù)訓(xùn)練技術(shù)推向了研究高潮。
因此,根據(jù)預(yù)訓(xùn)練語(yǔ)言模型(pretrained language models,PLMs)的不同將基于文本信息的方法分為三類,基于靜態(tài)、動(dòng)態(tài)和混合預(yù)訓(xùn)練的模型。
3.1.1 基于靜態(tài)預(yù)訓(xùn)練的模型
根據(jù)Markowitz 等人[93]的研究,使用文本描述可以對(duì)不可見(jiàn)實(shí)體到不可見(jiàn)實(shí)體的三元組進(jìn)行鏈接預(yù)測(cè)。早期Xie等人提出第一個(gè)用實(shí)體描述信息構(gòu)建不可見(jiàn)實(shí)體表示的工作(description-embodied knowledge representation learning,DKRL)[5](如圖8 所示),將基于圖的嵌入(TransE)和基于描述的嵌入(CBOW(continuous bag of words)和CNN 編碼器)聯(lián)合訓(xùn)練。ConMask(content masking model)[6]進(jìn)一步使用關(guān)系依賴的內(nèi)容掩蔽、全卷積神經(jīng)網(wǎng)絡(luò)和語(yǔ)義平均從KG 中的實(shí)體和關(guān)系的文本特征中提取不可見(jiàn)實(shí)體的關(guān)系依賴嵌入。但該模型沒(méi)有充分利用文本描述中豐富的特征信息,而且所提出的基于依賴關(guān)系的內(nèi)容屏蔽方法容易丟失目標(biāo)詞,內(nèi)容屏蔽窗口的大小也很難確定。MIA(multiple interaction attention)[7]改進(jìn)了ConMask,提出建模頭部實(shí)體描述、頭部實(shí)體名稱、關(guān)系名稱和候選尾部實(shí)體描述之間的交互,對(duì)不可見(jiàn)實(shí)體形成豐富的表示,然而MIA 在很大程度上依賴于實(shí)體描述的豐富性。為了充分利用潛在的語(yǔ)義依賴信息,DKGC-JSTD(dynamic KGC with jointly structural and textual dependency)[82]首先利用新穎的特征提取模型、關(guān)系語(yǔ)義選擇和語(yǔ)義平均從實(shí)體描述中提取關(guān)聯(lián)嵌入,然后利用具有多類型單元和鄰居層的深度雙向GRU建立內(nèi)部拓?fù)浣Y(jié)構(gòu)與外部文本信息之間更深層次的語(yǔ)義依賴關(guān)系。此外,SDT[83]將實(shí)體的結(jié)構(gòu)信息、實(shí)體描述(CBOW 和CNN編碼器)和分層類型信息(遞歸和加權(quán)層次編碼器)合并到一個(gè)統(tǒng)一框架中以嵌入不可見(jiàn)實(shí)體。
圖8 DKRL模型結(jié)構(gòu)Fig.8 Model structure of DKRL
與上述方法聯(lián)合訓(xùn)練KG 和文本向量不同[5-7],Shah 等人提出OWE(open-world extension)[84],擴(kuò)展基于嵌入式的KGC 模型預(yù)測(cè)不可見(jiàn)的實(shí)體。如圖9所示,首先使用實(shí)體的名稱和描述來(lái)構(gòu)建基于文本的表示,獨(dú)立地訓(xùn)練KG 和文本嵌入,然后將基于文本的嵌入映射到基于圖嵌入空間,學(xué)習(xí)到的映射可以應(yīng)用KGC模型預(yù)測(cè)不可見(jiàn)實(shí)體。許多學(xué)者改進(jìn)了OWE[84]模型,WOWE(weighted aggregator for OWE)[85]使用加權(quán)聚合器,采用注意力網(wǎng)絡(luò)的方法獲取實(shí)體描述中單詞的權(quán)重。OWE-RST(relation specific transformations for OWE)[86]學(xué)習(xí)從基于文本的嵌入空間到基于圖的嵌入空間的特定關(guān)系的轉(zhuǎn)換函數(shù)。OWE-MRC(machine reading comprehension for OWE)[87]使用機(jī)器閱讀理解從長(zhǎng)描述中提取出有意義的短描述。針對(duì)三元組的結(jié)構(gòu)嵌入和描述嵌入不能很好地融合的問(wèn)題,Caps-OWKG(capsule network for openworld KGC)[88]利用膠囊網(wǎng)絡(luò)對(duì)融合嵌入后的三元組進(jìn)行處理,得到最終的三元組概率得分。EmReCo(embeddings based on relation-specific constraints)[89]重視關(guān)系的影響,使用感知關(guān)系的注意力聚合器獲得實(shí)體在特定關(guān)系下的文本嵌入,并在實(shí)體嵌入中設(shè)計(jì)特定于關(guān)系的門過(guò)濾機(jī)制來(lái)保持特定于關(guān)系的特征。
圖9 OWE模型結(jié)構(gòu)Fig.9 Model structure of OWE
此外,一些模型使用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)利用文本描述從可見(jiàn)實(shí)體對(duì)中嵌入不可見(jiàn)關(guān)系。Qin等人提出ZSGAN(GAN for zero-shot knowledge graph relational learning)[49],通過(guò)生成器和判別器之間的對(duì)抗性訓(xùn)練,利用生成器僅從文本描述生成不可見(jiàn)關(guān)系的嵌入。OntoZSL(ontologyenhanced zero-shot learning)[50]進(jìn)一步從描述KG關(guān)系之間更豐富關(guān)聯(lián)的本體論模式幫助生成器生成不可見(jiàn)的關(guān)系。然而簡(jiǎn)單GAN結(jié)構(gòu)不能充分地從文本描述中提取特征,隨機(jī)和雙對(duì)抗GAN的框架(stochastic and dual adversarial GAN,SDA)[51]引入隨機(jī)生成器和附加分類器來(lái)提高逼近能力和優(yōu)化過(guò)程,更好地挖掘語(yǔ)義信息和提取特征之間的關(guān)聯(lián)。結(jié)構(gòu)增強(qiáng)生成對(duì)抗網(wǎng)絡(luò)(structure-enhanced GAN,SEGAN)[52]采用結(jié)構(gòu)編碼器將KG 結(jié)構(gòu)信息引入生成器以緩解文本描述與KG嵌入之間的差異,并設(shè)計(jì)特征編碼器來(lái)解耦實(shí)體并提供更深層次的實(shí)體交互以提高實(shí)體表示的準(zhǔn)確性。
盡管生成對(duì)抗方法的性能有所提高,但存在模型崩潰和訓(xùn)練穩(wěn)定性問(wèn)題。受原型網(wǎng)絡(luò)的啟發(fā),HAPZSL(hybrid attention prototype network for zeroshot knowledge graph relational learning)[53]通過(guò)描述編碼器和混合注意機(jī)制獲得關(guān)系原型和實(shí)體對(duì)表示,然后將它們輸入到一個(gè)潛在空間,迫使實(shí)體對(duì)更接近它們的關(guān)系原型。但是使用關(guān)系的文本描述的方法缺乏健壯性,因?yàn)樗鼈冎荒苤С謥?lái)自固定詞匯表的標(biāo)記,無(wú)法對(duì)詞匯表外單詞建模,可以使用本體來(lái)學(xué)習(xí)不可見(jiàn)關(guān)系的語(yǔ)義表示。Song等人提出本體引導(dǎo)和文本增強(qiáng)的表示[54],首先本體圖建立不可見(jiàn)關(guān)系與本體其他相關(guān)元素之間的聯(lián)系,文本描述豐富不可見(jiàn)關(guān)系的語(yǔ)義表示,其次使用文本關(guān)系圖卷積網(wǎng)絡(luò)(text-relation graph convolution network,TR-GCN)基于本體結(jié)構(gòu)及其文本描述獲得關(guān)系的元表示。Song等人也提出解耦混合圖專家算法(decoupling mixtureof-graph experts,DMoG)[55],通過(guò)融合本體圖和文本圖來(lái)表示事實(shí)圖中的不可見(jiàn)關(guān)系,并對(duì)融合空間和推理空間進(jìn)行解耦以緩解可見(jiàn)關(guān)系的過(guò)擬合。
為了使用文本描述同時(shí)對(duì)新興KG 的不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系進(jìn)行鏈接預(yù)測(cè)。Wang等人提出元學(xué)習(xí)框架[113],首先描述編碼器從具有多個(gè)關(guān)系的實(shí)體描述中提取特定于關(guān)系的信息,其次通過(guò)生成模型TCVAE(triplet conditional variational auto-encoder)生成額外的三元組來(lái)緩解少樣本學(xué)習(xí)的數(shù)據(jù)稀疏性,最后使用元學(xué)習(xí)器提高處理不可見(jiàn)關(guān)系和不可見(jiàn)實(shí)體的泛化能力。與上述方法不同的是,IKGE(inductive KG embedding)[114]保留了全局結(jié)構(gòu)信息,通過(guò)注意力特征聚合同時(shí)對(duì)不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系進(jìn)行鏈接預(yù)測(cè),IKGE 從根本上學(xué)習(xí)嵌入生成器函數(shù),從實(shí)體描述中歸納生成事實(shí)嵌入,將事實(shí)推廣不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系。
基于靜態(tài)預(yù)訓(xùn)練的技術(shù)處理文本信息可以對(duì)不可見(jiàn)實(shí)體到不可見(jiàn)實(shí)體的三元組進(jìn)行鏈接預(yù)測(cè),并擴(kuò)展到不可見(jiàn)關(guān)系。表4 對(duì)所有的基于靜態(tài)預(yù)訓(xùn)練的模型進(jìn)行了分類總結(jié)。此外,使用文本信息還可以從可見(jiàn)實(shí)體對(duì)中嵌入不可見(jiàn)關(guān)系。除了靜態(tài)預(yù)訓(xùn)練,動(dòng)態(tài)預(yù)訓(xùn)練技術(shù)興起將文本信息推向了研究高潮,下面將詳細(xì)闡述。
表4 基于靜態(tài)預(yù)訓(xùn)練的模型分類匯總Table 4 Model classification summary based on static pretraining
3.1.2 基于動(dòng)態(tài)預(yù)訓(xùn)練的模型
早期Yao 等人以三元組的實(shí)體描述和關(guān)系描述為輸入,利用KG-BERT(knowledge graph bidirectional encoder representations from transformer)[115]計(jì)算三元組的評(píng)分函數(shù)。如圖10 所示,首先輸入序列的第一個(gè)標(biāo)記是特殊的分類標(biāo)記[CLS],其次建立頭實(shí)體、關(guān)系和尾實(shí)體的句子標(biāo)記,實(shí)體和關(guān)系的句子由特殊的標(biāo)記[SEP]分開(kāi),然后將標(biāo)記序列輸入到BERT進(jìn)行微調(diào),實(shí)驗(yàn)證明[118]可以很容易推廣到不可見(jiàn)實(shí)體和關(guān)系。但是有幾個(gè)主要的缺點(diǎn)限制了性能,很多學(xué)者提出一些模型對(duì)KG-BERT[115]進(jìn)行改進(jìn)。多任務(wù)學(xué)習(xí)方法(multi-task learning for knowledge graph completion,MTL-KGC)[116]通過(guò)將關(guān)系預(yù)測(cè)和相關(guān)性排名任務(wù)與目標(biāo)鏈接預(yù)測(cè)結(jié)合起來(lái),可以從KG中學(xué)習(xí)更多的關(guān)系屬性,并且可以從詞匯相似的候選詞中選出正確答案。MLMLM(mean likelihood masked language model)[90]從屏蔽語(yǔ)言模型中采樣不同長(zhǎng)度的不同文本的似然,以易處理的方式對(duì)不可見(jiàn)實(shí)體進(jìn)行鏈接預(yù)測(cè),改進(jìn)了KG-BERT[115]的數(shù)百萬(wàn)個(gè)推理步驟用于單個(gè)三元組評(píng)分的缺陷。KEPLER(knowledge embedding and pre-trained language representation)[91]統(tǒng)一知識(shí)嵌入和PLMs表示,并對(duì)知識(shí)嵌入和屏蔽語(yǔ)言建模目標(biāo)聯(lián)合優(yōu)化,從實(shí)體的描述中為不可見(jiàn)實(shí)體生成嵌入。BLP(BERT for link prediction)[92]使用PLMs通過(guò)LP來(lái)學(xué)習(xí)不可見(jiàn)實(shí)體的表示,并研究了它與四種不同關(guān)系模型的結(jié)合性能,學(xué)習(xí)到的實(shí)體表示有很強(qiáng)的泛化特性,可以很好地轉(zhuǎn)移到其他任務(wù)(如實(shí)體分類和信息檢索)。單純的結(jié)構(gòu)目標(biāo)在捕捉圖結(jié)構(gòu)方面存在一定的局限性[90-92],StATIK(structure and text for inductive knowledge completion)[93]的結(jié)構(gòu)信息通過(guò)消息傳遞神經(jīng)網(wǎng)絡(luò)(message passing graph neural network,MPNN)每個(gè)實(shí)體周圍的鄰域信息,文本信息通過(guò)PLMs整合,提高模型的可伸縮性并能在大型KG中不可見(jiàn)實(shí)體的歸納式中獲得更好的泛化。
圖10 KG-BERT模型結(jié)構(gòu)Fig.10 Model structure of KG-BERT
KG-BERT[115]隱式地在模型參數(shù)中進(jìn)行推理,受記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)最新進(jìn)展的啟發(fā),KNN-KGE(Knearest neighbor knowledge graph embedding)[94]使用PLMs構(gòu)建實(shí)體知識(shí)庫(kù)來(lái)顯式記憶不可見(jiàn)實(shí)體,通過(guò)K近鄰對(duì)實(shí)體分布進(jìn)行線性插值,根據(jù)實(shí)體嵌入空間中到知識(shí)庫(kù)的距離來(lái)計(jì)算最近的鄰居,從而通過(guò)記憶進(jìn)行推理。受對(duì)比學(xué)習(xí)領(lǐng)域的最新進(jìn)展的啟發(fā),SimKGC(simple contrastive KGC)[95]創(chuàng)造性引入三種類型的負(fù)采樣(批次內(nèi)負(fù)采樣、預(yù)批次負(fù)采樣、自批次內(nèi)負(fù)采樣)將負(fù)樣本量可以增加到數(shù)千的規(guī)模。大多數(shù)基于PLMs的KGC模型只是簡(jiǎn)單地拼接實(shí)體和關(guān)系的標(biāo)簽作為輸入,導(dǎo)致不連貫的句子,不能充分利用PLMs中的隱性知識(shí),PKGC(PLM-based KGC)[96]將每個(gè)三元組及其支持信息轉(zhuǎn)換為自然的提示句,并進(jìn)一步輸入PLMs進(jìn)行預(yù)測(cè)。此外,線性化三元組會(huì)影響關(guān)系模式的學(xué)習(xí),Bi-Link(bridging inductive link)[97]首先使用基于概率規(guī)則的提示生成自然關(guān)系表達(dá)式;并設(shè)計(jì)對(duì)稱鏈接預(yù)測(cè)模型,在正向和反向預(yù)測(cè)之間建立雙向鏈接適應(yīng)測(cè)試時(shí)靈活的自集成策略。為了能在語(yǔ)義層面上學(xué)習(xí)三元組的關(guān)聯(lián)信息,LP-Bert[98]在預(yù)訓(xùn)練階段通過(guò)上下文學(xué)習(xí)的掩碼語(yǔ)言模型(mask language model,MLM)、實(shí)體語(yǔ)義學(xué)習(xí)的掩碼實(shí)體模型(mask entity model,MEM)和關(guān)系語(yǔ)義學(xué)習(xí)的掩碼關(guān)系模型(mask relation model,MRM),來(lái)學(xué)習(xí)結(jié)構(gòu)化KG的關(guān)系信息和非結(jié)構(gòu)化語(yǔ)義知識(shí);微調(diào)階段受對(duì)比學(xué)習(xí)的啟發(fā)分批設(shè)計(jì)了三種形式的負(fù)抽樣提高了負(fù)抽樣的比例,并利用三元組逆關(guān)系的增強(qiáng)數(shù)據(jù),提高模型的性能和魯棒性。此外,一些學(xué)者研究特殊領(lǐng)域KG,Nadkarni 等人提出KG-PubMedBERT[99],對(duì)應(yīng)用于生物醫(yī)學(xué)KGC 的LMs 進(jìn)行研究并展示了基于LMs的模型在應(yīng)用于訓(xùn)練期間未見(jiàn)的實(shí)體時(shí)的優(yōu)勢(shì)。Ali等人針對(duì)超關(guān)系圖的歸納式KGC提出QBLP(qualifier BERT for link prediction)[15],是一種利用限定符中的語(yǔ)義對(duì)BLP 進(jìn)行擴(kuò)展的模型,證明超關(guān)系事實(shí)在不可見(jiàn)實(shí)體的半歸納和全歸納式中可以大大提高KGC性能。
針對(duì)邏輯規(guī)則難以融合的問(wèn)題,一些學(xué)者嘗試從PLMs融合邏輯規(guī)則。Wu等人利用關(guān)系的文本信息和基于子圖的性質(zhì)提出可解釋三元膠囊網(wǎng)絡(luò)(interpretable triplet capsule network,ITCN)[100]。具體而言:首先提取目標(biāo)三元組周圍的有向封閉子圖;其次利用PLMs來(lái)學(xué)習(xí)關(guān)系語(yǔ)義中攜帶的先驗(yàn)知識(shí),并產(chǎn)生上下文關(guān)系嵌入來(lái)初始化子圖中的節(jié)點(diǎn)和邊;然后使用GCN 將子圖中的每個(gè)三元組構(gòu)造為膠囊;最后使用排序多層路由機(jī)制對(duì)膠囊進(jìn)行評(píng)分和解釋。Lin 等人提出在PLMs 中融合KG 的拓?fù)渖舷挛暮瓦壿嬕?guī)則的模型(fuse topology contexts and logical rules in language models,F(xiàn)TL-LM)[101]。具體而言:首先提出基于路徑的拓?fù)渖舷挛膶W(xué)習(xí)方法,用異構(gòu)隨機(jī)游走生成拓?fù)渎窂剑M(jìn)一步構(gòu)造推理路徑及正負(fù)樣本,通過(guò)掩碼語(yǔ)言建模和對(duì)比路徑學(xué)習(xí)策略對(duì)這些拓?fù)渖舷挛倪M(jìn)行語(yǔ)義建模;其次提出變分EM算法分別對(duì)三元組模型和規(guī)則模型進(jìn)行交替優(yōu)化,將KG的邏輯規(guī)則納入到LM。
以上模型可以對(duì)不可見(jiàn)到不可見(jiàn)實(shí)體的三元組進(jìn)行鏈接預(yù)測(cè),為了進(jìn)一步擴(kuò)展不可見(jiàn)關(guān)系,StAR(structure-augmented text representation)[117]聯(lián)合文本編碼和KG 嵌入來(lái)學(xué)習(xí)情境化和結(jié)構(gòu)化知識(shí),首先Siamese-style 的文本編碼器編碼用于兩個(gè)上下文表示的三元組,并提出兩種并行的評(píng)分策略(確定性表示學(xué)習(xí)、空間結(jié)構(gòu)學(xué)習(xí))來(lái)學(xué)習(xí)上下文化和結(jié)構(gòu)化的知識(shí),最后基于圖嵌入的自適應(yīng)集成方案進(jìn)一步提高性能,但StAR[117]未學(xué)習(xí)不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系的表示。RAILD(relation aware inductive link prediction)[16]進(jìn)一步通過(guò)微調(diào)PLMs 來(lái)編碼實(shí)體和關(guān)系的文本描述學(xué)習(xí)未知實(shí)體和未知關(guān)系的表示,提出有向加權(quán)關(guān)系網(wǎng)絡(luò)生成算法(weighted and directed network of relations,WeiDNeR),僅從圖結(jié)構(gòu)中的上下文信息對(duì)關(guān)系進(jìn)行編碼來(lái)嵌入不可見(jiàn)關(guān)系。此外,BERTRL(BERT-based relational learning)[118]首先將目標(biāo)關(guān)系中實(shí)體周圍的局部子圖線性化為路徑,其次將路徑輸入到BERT中進(jìn)行微調(diào),通過(guò)連接兩個(gè)實(shí)體的路徑顯式地進(jìn)行推理,能實(shí)現(xiàn)高解釋性和高準(zhǔn)確性。
基于動(dòng)態(tài)預(yù)訓(xùn)練的模型同樣可以對(duì)不可見(jiàn)實(shí)體到不可見(jiàn)實(shí)體的三元組進(jìn)行鏈接預(yù)測(cè),并擴(kuò)展到不可見(jiàn)關(guān)系。表5 對(duì)所有的基于動(dòng)態(tài)預(yù)訓(xùn)練的模型進(jìn)行了分類總結(jié)。此外,還有一些學(xué)者聯(lián)合靜態(tài)和動(dòng)態(tài)預(yù)訓(xùn)練進(jìn)行混合預(yù)訓(xùn)練,下面將詳細(xì)闡述。
3.1.3 基于混合預(yù)訓(xùn)練的模型
目前已知基于混合預(yù)訓(xùn)練的模型使用文本描述可以對(duì)不可見(jiàn)實(shí)體到不可見(jiàn)實(shí)體的三元組進(jìn)行鏈接預(yù)測(cè)很少。Tripathi等人提出了FOlK[102],第一個(gè)聯(lián)合的、模塊化的、高效的、序列大小感知的框架生成不可見(jiàn)實(shí)體嵌入。具體來(lái)說(shuō),可視化嵌入實(shí)驗(yàn)解釋了聯(lián)合訓(xùn)練對(duì)不可見(jiàn)實(shí)體嵌入性能的顯著改善,并可以執(zhí)行實(shí)體分類等下游任務(wù);模塊化使FOlK可以容納多種結(jié)構(gòu)能量函數(shù);使用簡(jiǎn)單的嵌入能量函數(shù)來(lái)評(píng)分可以提高測(cè)試中完成過(guò)濾排名所需的時(shí)間;對(duì)短描述和長(zhǎng)描述分別使用word2vec嵌入和RoBERTa模型進(jìn)行編碼,無(wú)論描述長(zhǎng)度如何都具有競(jìng)爭(zhēng)力。Wang等人提出第一個(gè)致力于常識(shí)KG(commonsense knowledge graph)補(bǔ)全的歸納學(xué)習(xí)模型InductivE[103]。首先CKG 的實(shí)體屬性由自由形式文本組成,因此自由文本編碼器使用PLMs 和單詞嵌入來(lái)嵌入文本屬性,直接從原始實(shí)體屬性計(jì)算實(shí)體嵌入來(lái)保證歸納學(xué)習(xí)能力;其次提出致密化過(guò)程的GNN,利用相鄰結(jié)構(gòu)信息進(jìn)一步增強(qiáng)不可見(jiàn)實(shí)體的表示。未來(lái)進(jìn)一步使用混合預(yù)訓(xùn)練擴(kuò)展到不可見(jiàn)關(guān)系。表6 對(duì)所有的基于混合預(yù)訓(xùn)練的模型進(jìn)行了分類總結(jié)。
表6 基于混合預(yù)訓(xùn)練的模型分類匯總Table 6 Model classification summary based on hybrid pretraining
雖然基于文本信息的歸納式KGC方法得到了廣泛的研究,但是需要額外的文本知識(shí),并非每個(gè)實(shí)體在現(xiàn)實(shí)中都有相應(yīng)的文本知識(shí),在實(shí)際中實(shí)現(xiàn)起來(lái)比較困難。
除了上面廣泛研究的基于文本信息的方法,少數(shù)學(xué)者提出基于其他信息的方法,比如多模態(tài)信息、時(shí)序信息、節(jié)點(diǎn)屬性和實(shí)體類型信息等。
(1)多模態(tài)信息
現(xiàn)實(shí)世界存在多模態(tài)的知識(shí),如圖11 所示,威廉·莎士比亞和《羅密歐與朱麗葉》存在圖像特征和文本描述。Xie等人提出IKRL(image-embodied knowledge representation learning)[29],第一個(gè)考慮實(shí)體圖像信息學(xué)習(xí)知識(shí)表示,通過(guò)構(gòu)造每個(gè)圖像的特征表示并通過(guò)注意機(jī)制將其集成到基于圖像的聚合表示中,最后與TransE 共同學(xué)習(xí)知識(shí)表示。MKBE(multimodal knowledge base embeddings)[30]把多模態(tài)信息當(dāng)作額外的三元組,首先組合編碼組件聯(lián)合學(xué)習(xí)實(shí)體和多模態(tài)嵌入,其次對(duì)抗性訓(xùn)練的解碼組件使用實(shí)體嵌入來(lái)計(jì)算缺失的多模態(tài)屬性。知識(shí)圖譜很難捕捉圖像中的隱性知識(shí),比如蝴蝶和花同時(shí)出現(xiàn),說(shuō)明實(shí)體“蝴蝶”和“花”高度相關(guān),Wang 等人將多模態(tài)自編碼器與TransE 模型相結(jié)合提出TransAE[31],同時(shí)學(xué)習(xí)多模態(tài)知識(shí)和結(jié)構(gòu)知識(shí)。然而,傳統(tǒng)的簡(jiǎn)單拼接或注意方法無(wú)法捕獲實(shí)體的模態(tài)內(nèi)動(dòng)態(tài)和模態(tài)間動(dòng)態(tài),Liang 等人提出HRGAT(hyper-node relational graph attention network)[32],捕獲多模態(tài)信息和圖結(jié)構(gòu)信息,首先使用低秩多模態(tài)融合對(duì)模態(tài)內(nèi)動(dòng)態(tài)和模態(tài)間動(dòng)態(tài)進(jìn)行建模,將原始KG 轉(zhuǎn)化為超節(jié)點(diǎn)圖,其次采用RGAT(relational graph attention)獲取圖結(jié)構(gòu)信息,最后多模態(tài)信息和圖結(jié)構(gòu)信息聚合生成最終嵌入。此外,Zheng 等人提出MMKGR(multi-hop multi-modal knowledge graph reasoning)[33],首先統(tǒng)一的門-注意網(wǎng)絡(luò)通過(guò)充分的注意交互和降噪生成多模態(tài)互補(bǔ)特征,這些特征被輸入到互補(bǔ)的特征感知強(qiáng)化學(xué)習(xí)框架中,緩解稀疏獎(jiǎng)勵(lì)問(wèn)題。
圖11 多模態(tài)知識(shí)圖譜Fig.11 Multi-modal knowledge graph
目前對(duì)多模態(tài)信息的研究還處于早期階段,TransAE[31]實(shí)驗(yàn)證明可以對(duì)不可見(jiàn)實(shí)體進(jìn)行鏈接預(yù)測(cè),但還沒(méi)有實(shí)驗(yàn)證明對(duì)不可見(jiàn)實(shí)體和不可見(jiàn)實(shí)體的三元組進(jìn)行鏈接預(yù)測(cè),因此將其分類到半歸納式中。
(2)時(shí)序信息
現(xiàn)實(shí)世界知識(shí)是不斷變化的,許多事實(shí)存在時(shí)間有效性,一些學(xué)者將時(shí)序信息引入KG中對(duì)不可見(jiàn)實(shí)體進(jìn)行LP。
早期Sun 等人提出基于時(shí)間路徑的強(qiáng)化學(xué)習(xí)模型TITer(time traveler)[104],利用智能體的相對(duì)時(shí)間編碼函數(shù)和時(shí)間獎(jiǎng)勵(lì)建模時(shí)間信息,并使用歸納均值(inductive mean,IM)機(jī)制來(lái)更新測(cè)試過(guò)程中不可見(jiàn)實(shí)體的表示。TLogic(temporal logical rules)[105]基于通過(guò)時(shí)間隨機(jī)游走提取的時(shí)間邏輯規(guī)則,首先學(xué)習(xí)時(shí)間規(guī)則路徑,然后應(yīng)用規(guī)則來(lái)生成答案,并根據(jù)規(guī)則的置信度和時(shí)間差對(duì)候選答案進(jìn)行評(píng)分。Mei等人進(jìn)一步提出自適應(yīng)規(guī)則嵌入歸納推理模型(adaptive logical rule embedding model for inductive reasoning,ALRE-IR)[106],基于歷史關(guān)系路徑自主提取和評(píng)估規(guī)則,并提出增強(qiáng)匹配損失優(yōu)化方法,從粗粒度四重和細(xì)粒度規(guī)則視角訓(xùn)練模型。為了解決少樣本的歸納LP,F(xiàn)ITCARL(few-shot inductive learning on TKG using confidence-augmented reinforcement learning)[107]使 用時(shí)間感知的Transformer 學(xué)習(xí)不可見(jiàn)實(shí)體的表示;結(jié)合強(qiáng)化學(xué)習(xí)指導(dǎo)搜索過(guò)程,并設(shè)計(jì)置信度增強(qiáng)的策略網(wǎng)絡(luò)緩解少樣本設(shè)置的負(fù)面影響;提出無(wú)參數(shù)概念正則化器更好地利用時(shí)序知識(shí)圖譜(temporal knowledge graph,TKG)的概念信息。受GraIL[70]的啟發(fā),xERTE(explainable reasoning for TKG)[108]基于時(shí)間關(guān)系注意機(jī)制和反向表示更新方案提取依賴于查詢的子圖,并通過(guò)時(shí)間鄰居的迭代采樣、注意傳播和子圖修剪進(jìn)行推理。以上模型挖掘時(shí)間邏輯規(guī)則,具有內(nèi)在的歸納性,可以解決新興KG的不可見(jiàn)實(shí)體問(wèn)題。
此外,Ding 等人提出元學(xué)習(xí)框架FILT(few-shot inductive learning on TKG)[37],從TKG 挖掘可見(jiàn)實(shí)體概念感知信息,將其轉(zhuǎn)移到不可見(jiàn)的實(shí)體中,并使用基于時(shí)間差的圖形編碼器學(xué)習(xí)不可見(jiàn)實(shí)體的上下文化表示。為了最大限度地減少與人類學(xué)習(xí)少樣本的差 距,MetaTKGR(meta temporal knowledge graph reasoning)[38]的時(shí)間編碼器通過(guò)采樣和聚集TKG 鄰居信息,學(xué)習(xí)不可見(jiàn)實(shí)體的時(shí)間感知表示;元時(shí)間推理采用雙層優(yōu)化(內(nèi)部?jī)?yōu)化和外部?jī)?yōu)化)學(xué)習(xí)最優(yōu)采樣和聚合參數(shù),所學(xué)習(xí)的參數(shù)可以很容易地適應(yīng)不可見(jiàn)實(shí)體并保持時(shí)間魯棒性。MTKGE(meta-learning based temporal knowledge graph extrapolation)[119]進(jìn)一步設(shè)計(jì)兩個(gè)GNN 捕獲與實(shí)體無(wú)關(guān)的關(guān)系特征:相對(duì)位置模式圖(relative position pattern graph,RPPG)和時(shí)間序列模式圖(temporal sequence pattern graph,TSPG),將學(xué)習(xí)到的元知識(shí)轉(zhuǎn)移到新興KG不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系中并生成嵌入。
(3)節(jié)點(diǎn)屬性信息
如圖12所示,展示了僅有屬性信息的對(duì)不可見(jiàn)節(jié)點(diǎn)進(jìn)行鏈接預(yù)測(cè)。DEAL(dual-encoder graph embedding with alignment)[34]通過(guò)節(jié)點(diǎn)屬性信息對(duì)不可見(jiàn)節(jié)點(diǎn)進(jìn)行鏈接預(yù)測(cè),該模型由三部分組成:兩個(gè)節(jié)點(diǎn)嵌入編碼器和一個(gè)對(duì)齊機(jī)制。其中,兩種編碼器分別輸出面向?qū)傩院兔嫦蚪Y(jié)構(gòu)的節(jié)點(diǎn)嵌入,對(duì)齊機(jī)制對(duì)兩種類型的嵌入進(jìn)行對(duì)齊,學(xué)習(xí)不可見(jiàn)節(jié)點(diǎn)的嵌入。由于對(duì)訓(xùn)練網(wǎng)絡(luò)的過(guò)度擬合DEAL[34]失去部分泛化能力,Li等人引入對(duì)抗性訓(xùn)練和隨機(jī)噪聲正則化[35]。具體來(lái)說(shuō),首先,兩個(gè)多層感知器也分別作為編碼器來(lái)學(xué)習(xí)屬性嵌入和結(jié)構(gòu)嵌入并引入隨機(jī)初始化線性層來(lái)提高模型的魯棒性,兩種嵌入通過(guò)對(duì)抗性訓(xùn)練相互作用。Zhang等人針對(duì)鏈路稀疏性、節(jié)點(diǎn)屬性噪聲和動(dòng)態(tài)變化提出上下文化自監(jiān)督學(xué)習(xí)(contextualized self-supervised learning,CSSL)[36],從隨機(jī)行走中收集的上下文節(jié)點(diǎn)和上下文子圖,通過(guò)鏈路預(yù)測(cè)和自監(jiān)督學(xué)習(xí)任務(wù)監(jiān)督模型參數(shù)的學(xué)習(xí)。
圖12 帶有屬性信息的歸納鏈接預(yù)測(cè)Fig.12 Inductive link prediction with attribute information
目前根據(jù)節(jié)點(diǎn)屬性信息對(duì)不可見(jiàn)節(jié)點(diǎn)進(jìn)行鏈接預(yù)測(cè)研究較少,以上模型屬于在半歸納式中不可見(jiàn)實(shí)體的問(wèn)題。
(4)實(shí)體類型信息
Hu 等人提出類型感知消息傳遞模型(typeaware message passing,TEMP)[120],該模型由兩個(gè)子模型組成:(1)類型感知實(shí)體表示(type-aware entity representations,TER),聚合實(shí)體的類型信息來(lái)豐富其向量表示;(2)類型感知關(guān)系表示(type-aware relation representations,TRR),構(gòu)建全局類型圖然后聚合關(guān)系類型,通過(guò)實(shí)體和關(guān)系的雙向集成機(jī)制獲得感知關(guān)系的實(shí)體表示和感知實(shí)體的關(guān)系表示。因?yàn)椴豢梢?jiàn)實(shí)體或不可見(jiàn)關(guān)系的出現(xiàn)不會(huì)影響基于類型的實(shí)體和關(guān)系表示,所以模型具有固有的歸納性。這是目前已知唯一利用實(shí)體類型信息進(jìn)行歸納KGC,并且適用于全歸納設(shè)置。
雖然基于附加信息的方法可以預(yù)測(cè)不可見(jiàn)實(shí)體或關(guān)系,但是基于附加信息的模型既需要高成本也需要高質(zhì)量的數(shù)據(jù)資源,而這些信息在現(xiàn)實(shí)場(chǎng)景中總是不可用的,這些方法會(huì)受到限制。
雖然目前面向知識(shí)圖譜補(bǔ)全的歸納學(xué)習(xí)方法取得了一定進(jìn)展,但該領(lǐng)域仍處于發(fā)展時(shí)期,仍然存在尚未解決的問(wèn)題和挑戰(zhàn),本文將從以下幾個(gè)方面展望未來(lái)研究方向。
(1)特殊知識(shí)圖譜
現(xiàn)有模型的數(shù)據(jù)集大多數(shù)從DBpedia[127]、Freebase[128]等KG 構(gòu)建,很少有研究對(duì)特殊KG 進(jìn)行研究。常識(shí)KG[103]由于動(dòng)態(tài)和高度稀疏的性質(zhì)成為歸納KGC 的自然基準(zhǔn);Ali 等人[15]證明了超關(guān)系KG 的事實(shí)可以提高歸納KGC 的性能;Nadkarni 等人[99]對(duì)生物醫(yī)學(xué)KGC 的LMs 進(jìn)行研究,并應(yīng)用于訓(xùn)練時(shí)不可見(jiàn)實(shí)體;在多模態(tài)KG 也可嵌入不可見(jiàn)實(shí)體[31];時(shí)序知識(shí)圖譜也可以為新興KG 的不可見(jiàn)實(shí)體和關(guān)系生成嵌入[119]。目前已有的研究還處于淺層,未來(lái)進(jìn)一步研究以上特殊KG是一個(gè)重要的方向。
(2)引入額外信息
盡管基于結(jié)構(gòu)信息的歸納KGC 具有顯著的優(yōu)勢(shì),但是僅從KG學(xué)習(xí)知識(shí),忽略了KG之外與實(shí)體和關(guān)系相關(guān)的額外信息。但是當(dāng)前的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集缺乏充分的額外信息,未來(lái)要收集多模態(tài)信息和時(shí)間信息等來(lái)豐富基準(zhǔn)數(shù)據(jù)集,并在基于結(jié)構(gòu)信息的歸納KGC中引入更多的額外信息,提高模型的性能。
(3)不可見(jiàn)實(shí)體和不可見(jiàn)關(guān)系
目前研究主要是對(duì)單獨(dú)不可見(jiàn)實(shí)體和關(guān)系進(jìn)行歸納KGC,但是現(xiàn)實(shí)世界可能同時(shí)出現(xiàn)不可見(jiàn)實(shí)體和關(guān)系。典型的基于動(dòng)態(tài)預(yù)訓(xùn)練的模型由于其獨(dú)特優(yōu)勢(shì)可以很容易推廣到不可見(jiàn)實(shí)體和關(guān)系[118],基于子圖的模型通過(guò)注入KG的本體論模式[109]、聚類采樣和關(guān)系依賴對(duì)比學(xué)習(xí)[110]等技術(shù)進(jìn)一步預(yù)測(cè)不可見(jiàn)關(guān)系,在KG上采樣一組不可見(jiàn)實(shí)體和關(guān)系的訓(xùn)練任務(wù)[112]進(jìn)行元訓(xùn)練也可以推廣到不可見(jiàn)實(shí)體和關(guān)系,未來(lái)將繼續(xù)深入研究。
(4)混合模型
在基于結(jié)構(gòu)信息的歸納KGC 中,基于歸納嵌入的方法具有高伸縮性,但是可解釋性差并且只能對(duì)原始KG 有關(guān)聯(lián)的不可見(jiàn)實(shí)體或關(guān)系進(jìn)行嵌入。一些學(xué)者提出混合模型,聯(lián)合嵌入和邏輯規(guī)則提高模型可解釋性[24-26],聯(lián)合嵌入和元學(xué)習(xí)嵌入與原始KG無(wú)關(guān)聯(lián)的不可見(jiàn)實(shí)體[27-28]、嵌入新興KG 的不可見(jiàn)實(shí)體或關(guān)系[80,112]。此外,最新的研究開(kāi)辟了PLMs 與邏輯推理相結(jié)合的新方向[100-101]。目前還處于初級(jí)階段,值得進(jìn)一步探索。
(5)歸納設(shè)置研究
目前研究集中在半歸納和全歸納設(shè)置,未來(lái)將研究其他的歸納方法。全歸納比半歸納具有更強(qiáng)的歸納能力,基于歸納嵌入和基于元學(xué)習(xí)主要集中在半歸納設(shè)置,聯(lián)合元學(xué)習(xí)和歸納嵌入的模型擴(kuò)展到了全歸納設(shè)置,未來(lái)將繼續(xù)深入研究。此外,繼續(xù)研究基于多模態(tài)信息、節(jié)點(diǎn)屬性的模型將其全歸納設(shè)置。在全歸納設(shè)置中,基于子圖和動(dòng)態(tài)預(yù)訓(xùn)練的模型由于其獨(dú)特優(yōu)勢(shì)引起了廣泛研究,未來(lái)將繼續(xù)深入研究。