摘 要:為了解決支持樣本有限條件下零次知識圖譜鏈接預(yù)測模型性能下降的問題,提出了一種單樣本條件下鄰域選擇聚合零次知識圖譜鏈接預(yù)測方法(NSALP)。該方法主要由特征提取器、生成器、判別器三個(gè)模塊實(shí)現(xiàn)。借鑒圖同構(gòu)網(wǎng)絡(luò)的思想對特征提取器模塊進(jìn)行改進(jìn),在聚合頭尾鄰域時(shí)為每個(gè)鄰域節(jié)點(diǎn)分配一個(gè)可學(xué)習(xí)的參數(shù),進(jìn)而過濾無關(guān)特征,凸顯有效特征;以頭節(jié)點(diǎn)嵌入與關(guān)系文本描述的組合作為生成器學(xué)習(xí)過程的引導(dǎo),使生成器生成的新組合特征更加接近真實(shí)的知識三元組結(jié)構(gòu)特征。在NELL-ZS和Wiki-ZS兩個(gè)零次知識圖譜數(shù)據(jù)集上,所提模型的性能對比基線模型分別提升了2.5和0.7百分點(diǎn)。在NELL-ZS進(jìn)行的消融實(shí)驗(yàn)中,所提extractor+和generator+模塊的性能表現(xiàn)均優(yōu)于未做改進(jìn)的模型,佐證了改進(jìn)方法的有效性。
關(guān)鍵詞:知識圖譜;鏈接預(yù)測;零樣本
中圖分類號:TP391.1"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號:1001-3695(2025)01-009-0065-06
doi: 10.19734/j.issn.1001-3695.2024.06.0198
Neighborhood selective aggregation zero-shot knowledge graph link prediction method with single sample support
Abstract: In order to solve the problem of performance degradation of zero-shot knowledge graph link prediction model under the condition of limited support samples, this paper proposed a neighborhood selective aggregation zero-shot knowledge graph link prediction method with single sample support (NSALP). The method contained three modules, such as feature extractor, generator and discriminator. It improved the feature extractor module by referring to the idea of graph isomorphic network, and assigned a learnable parameter to each neighborhood node when aggregating head and tail neighborhoods, so as to filter irrelevant features and highlight effective features. The combination of head node embedding and relation text description was used as the guide of the learning process of the generator, so that the new combination features generated by the generator were clo-ser to the real knowledge triple structure features. On NELL-ZS and Wiki-ZS zero-shot knowledge graph datasets, the perfor-mance of the proposed model is improved by 2.5 and 0.7 percentage points respectively compared with the baseline model. In the ablation experiments conducted on NELL-ZS, the performance of the proposed extractor+and generator+modules is better than that of the model without improvement, which proves the effectiveness of the proposed improved method.
Key words:knowledge graph; link prediction; zero-shot
0 引言
隨著信息技術(shù)的迅速發(fā)展,知識圖譜[1]的規(guī)模也變得越來越龐大。從問答系統(tǒng)、搜索引擎到大規(guī)模的推薦系統(tǒng),這些應(yīng)用背后都顯現(xiàn)出復(fù)雜知識圖譜的重要影響。盡管如今的大規(guī)模知識圖譜[2]非常復(fù)雜,但它們?nèi)匀淮嬖诟叨鹊牟煌暾裕?]。這種不完整性主要體現(xiàn)在信息的缺失和新知識的更新兩個(gè)方面。在信息的缺失方面,大規(guī)模知識圖譜通常由機(jī)器基于特定的語言模型自動(dòng)提取文本中的關(guān)鍵詞或關(guān)鍵短語,再通過一定的方法組合為三元組,即生成一條知識[4]。由于模型的準(zhǔn)確率限制,所生成的三元組可能存在錯(cuò)誤或?qū)嶓w缺失,例如缺失頭實(shí)體或尾實(shí)體。在新知識的更新方面,每時(shí)每刻都有新的知識三元組需要加入到已存在的知識圖譜中。機(jī)械式地逐條添加顯然是低效的方法,因此如何從舊實(shí)體中啟發(fā)性地挖掘出新的知識組合也成為一個(gè)難題。知識圖譜鏈接預(yù)測方法[5]可以有效地解決知識圖譜高度不完整的問題,其包含多個(gè)子任務(wù),如可見尾實(shí)體預(yù)測、可見關(guān)系預(yù)測和未知關(guān)系預(yù)測。可見性預(yù)測可以用于在已存在的知識中挖掘新的知識組合,或預(yù)測缺失的實(shí)體,即給定頭實(shí)體和關(guān)系,預(yù)測尾實(shí)體,或者給定頭尾實(shí)體,預(yù)測它們的關(guān)系,可見性預(yù)測能夠解決信息缺失問題[6]。而未知關(guān)系預(yù)測則是針對知識圖譜中新出現(xiàn)的實(shí)體,基于一定的方法將其與舊的實(shí)體組合,生成一條新的知識,并將其加入到圖譜中。這既解決了新知識更新的問題,又能夠?qū)崿F(xiàn)知識圖譜擴(kuò)充的目標(biāo)。
早期的知識圖譜鏈接預(yù)測工作集中在靜態(tài)知識圖譜領(lǐng)域,其研究對象是已見的關(guān)系和實(shí)體,通過已知的實(shí)體關(guān)系對來學(xué)習(xí)實(shí)體的嵌入表示,進(jìn)而挖掘更多的實(shí)體組合,發(fā)現(xiàn)更多的知識。例如TransE[7]、DistMult[8]、RESCAL[9]、ComplEx[10]等,這些都是基于嵌入表示學(xué)習(xí)的研究方法,通過構(gòu)造評分函數(shù),學(xué)習(xí)實(shí)體在連續(xù)向量空間的嵌入表示,使同一知識組合中的實(shí)體在向量空間中的嵌入表示接近,不同知識組合的實(shí)體嵌入表示距離較遠(yuǎn)。雖然這些模型在處理復(fù)雜動(dòng)態(tài)知識圖譜的能力已經(jīng)捉襟見肘,但仍有很多動(dòng)態(tài)知識圖譜鏈接預(yù)測使用這些模型學(xué)習(xí)到的嵌入作為預(yù)訓(xùn)練階段的嵌入,如DistMult嵌入被廣泛使用到下面所提到的少樣本知識圖譜鏈接預(yù)測方法中,本文模型使用的預(yù)訓(xùn)練嵌入也是由DistMult預(yù)訓(xùn)練得到的。
知識圖譜存在長尾效應(yīng),當(dāng)一條知識的可參考對象較少時(shí)(少于5個(gè)或更少),知識圖譜鏈接預(yù)測的準(zhǔn)確率往往較低。如何提高這種情況下知識圖譜鏈接預(yù)測的準(zhǔn)確率成為一個(gè)難題,而由此引發(fā)的研究分支被稱為少樣本知識圖譜鏈接預(yù)測問題。然而,機(jī)遇往往伴隨著風(fēng)險(xiǎn),關(guān)系的訓(xùn)練三元組越少,知識圖譜鏈接預(yù)測方法的研究價(jià)值就越大?,F(xiàn)有研究通常假設(shè)所有關(guān)系都有足夠的訓(xùn)練三元組,這限制了它們在受長尾效應(yīng)影響的知識圖譜上的適用性[11]。如果一個(gè)模型只需少量的支持樣本就能夠預(yù)測新的三元組,那么可以認(rèn)為該模型具備少樣本表示學(xué)習(xí)的能力,即能夠挖掘樣本間更深層次的聯(lián)系?,F(xiàn)實(shí)世界的知識圖譜通常是動(dòng)態(tài)的,每當(dāng)獲得新知識時(shí),就需要向圖譜中添加新的關(guān)系。為了預(yù)測新關(guān)系與舊實(shí)體的組合,以前方法通常依賴于這些關(guān)系的良好表示學(xué)習(xí)。然而,在訓(xùn)練實(shí)例有限的動(dòng)態(tài)場景中,新關(guān)系的隱含表示不能得到充分的學(xué)習(xí),因此模型適應(yīng)新關(guān)系的能力也受到限制。如果一條新的關(guān)系或者實(shí)體要加入到圖譜中,對于新的實(shí)體,沒有可以參考的知識對象,對其進(jìn)行知識鏈接預(yù)測將會非常困難,此即零次知識圖譜鏈接預(yù)測問題。
在少樣本知識圖譜的研究領(lǐng)域,目前主流的研究有one-shot、few-shot知識圖譜鏈接預(yù)測兩個(gè)方面。Xiong等人[12]最早提出從少樣本支持角度研究知識圖譜鏈接預(yù)測問題,以使模型能夠擺脫知識圖譜長尾效應(yīng)的影響,開拓性地提出了一個(gè)少樣本知識圖譜鏈接預(yù)測研究的基線模型,并開源了兩個(gè)用于少樣本知識圖譜鏈接預(yù)測問題研究的數(shù)據(jù)集。文獻(xiàn)[12]極大地促進(jìn)了少樣本知識圖譜鏈接預(yù)測領(lǐng)域的研究發(fā)展,后期很多少樣本知識圖譜鏈接預(yù)測研究多基于此基線模型開展。Zhang等人[13]提出了使用關(guān)系感知注意力編碼器來編碼異構(gòu)鄰節(jié)點(diǎn)嵌入,能夠有效地獲取異構(gòu)鄰居信息。Chen等人[14]提出了一個(gè)元關(guān)系學(xué)習(xí)框架,通過傳遞特定于關(guān)系的關(guān)系元和梯度元來解決少樣本鏈接預(yù)測問題。Yao等人[15]提出用數(shù)據(jù)增強(qiáng)技術(shù)來解決少樣本知識圖譜鏈接預(yù)測問題。Wu等人[16]提出了一種分層關(guān)系表示學(xué)習(xí)方法來解決少樣本知識圖譜鏈接預(yù)測問題。Niu等人[17]提出一種新的門控注意力鄰居聚合器來聚合鄰居的精確嵌入。雖然上述方法已經(jīng)將研究集中于少樣本角度,但都沒有將研究擴(kuò)展到零次知識圖譜鏈接預(yù)測問題,即不能用來處理零次問題。
當(dāng)實(shí)體或關(guān)系未曾在訓(xùn)練集中出現(xiàn)過,無法通過索引得到其嵌入表示,此時(shí)的知識圖譜鏈接預(yù)測也被稱為零次知識圖譜鏈接預(yù)測問題,傳統(tǒng)的嵌入方法已經(jīng)無法適用于零次預(yù)測,因?yàn)閷τ谛碌年P(guān)系與知識,其嵌入是未知項(xiàng)。隨著自然語言處理領(lǐng)域研究的迅速發(fā)展,模型可以從關(guān)系的文本描述中提取出豐富的語義特征[18]。在這種條件下,零次知識圖譜鏈接預(yù)測的過程可以描述為,利用新關(guān)系的屬性信息(如文本描述)和舊實(shí)體的嵌入表示來學(xué)習(xí)新關(guān)系到新知識三元組的映射,從而根據(jù)新關(guān)系的屬性來為其預(yù)測實(shí)體對。Qin等人[19]最早將零次學(xué)習(xí)擴(kuò)展到知識圖譜鏈接預(yù)測研究中,其開創(chuàng)性地提出使用生成對抗框架來解決零次問題,并且為零次知識圖譜鏈接預(yù)測問題研究提供了一個(gè)基線模型和兩個(gè)公開數(shù)據(jù)集。Geng等人[20]首次將本體知識的概念引用到零次知識圖譜鏈接預(yù)測任務(wù)中。雖然上述工作已經(jīng)將研究重點(diǎn)轉(zhuǎn)移到了零次知識圖譜鏈接預(yù)測上,但都假設(shè)在模型的特征提取器預(yù)訓(xùn)練過程中具有足夠的訓(xùn)練樣例,這種假設(shè)在訓(xùn)練樣例不足的情況下會限制生成對抗模型的適用性,并且直接使用關(guān)系文本描述嵌入向由三元組組成的知識嵌入映射也不具備足夠的可解釋性,因?yàn)檫@樣未能考慮兩者之間的異構(gòu)性。因此本文提出了一種結(jié)構(gòu)感知的零次知識圖譜鏈接預(yù)測方法,在訓(xùn)練樣例不足的假設(shè)前提下,對上述工作進(jìn)行改進(jìn)。
本文基于一個(gè)生成對抗框架(ZSGAN)[19],該框架假設(shè)在預(yù)訓(xùn)練階段,有足夠的訓(xùn)練實(shí)例來訓(xùn)練特征提取器,以提取出良好的知識嵌入。但本文研究條件更加嚴(yán)苛,假設(shè)在預(yù)訓(xùn)練階段,針對每個(gè)關(guān)系,特征提取器只有一個(gè)可供參考的訓(xùn)練實(shí)例,即一個(gè)關(guān)系只有一個(gè)支持的樣本,在此條件下,原框架模型的性能明顯下降,因?yàn)閆SGAN存在兩個(gè)主要問題:特征提取器在聚合頭尾節(jié)點(diǎn)鄰域特征時(shí)適用于平均聚合的方法,平均聚合的優(yōu)點(diǎn)在于計(jì)算速度快,缺點(diǎn)則是會引入過多的無關(guān)特征,本文只希望聚合同該條知識相關(guān)的特征;生成器在根據(jù)關(guān)系描述嵌入生成知識特征時(shí)未考慮知識特征的結(jié)構(gòu)特性,強(qiáng)行地映射在直覺上不可解釋。
所以,出于嚴(yán)謹(jǐn)?shù)目紤],本文主要包含針對生成對抗框架[19]的兩項(xiàng)改進(jìn):a)對于平均聚合問題,在預(yù)訓(xùn)練的特征提取器部分,受圖同構(gòu)網(wǎng)絡(luò)[21]方法的啟發(fā),在聚合頭尾實(shí)體的一階鄰域信息時(shí),為每個(gè)鄰節(jié)點(diǎn)分配了一個(gè)可學(xué)習(xí)的權(quán)重,以捕獲不同鄰節(jié)點(diǎn)對實(shí)體的不同程度影響,以凸顯有效鄰域特征,過濾無關(guān)鄰域特征;b)對于生成器的強(qiáng)行映射問題,本文將新關(guān)系文本嵌入和頭實(shí)體嵌入串接,同時(shí)再串接一個(gè)可學(xué)習(xí)的向量。嵌入組合在結(jié)構(gòu)上與知識三元組相同,從一種組合嵌入映射到目標(biāo)組合嵌入,模型在直覺上具備可解釋性。所提模型在兩個(gè)基準(zhǔn)數(shù)據(jù)集上對比原模型取得了更好的性能表現(xiàn)。
1 相關(guān)定義與問題描述
1.1 知識圖譜的定義
知識圖譜G表示為三元組集合{(h,r,t)}E×R×E,其中Ε、R為實(shí)體集、關(guān)系集。知識圖譜鏈接預(yù)測的任務(wù)是預(yù)測兩個(gè)現(xiàn)有實(shí)體之間不可見的關(guān)系,或者在給定頭部實(shí)體和查詢關(guān)系的情況下預(yù)測尾部實(shí)體。目標(biāo)是使真正的尾部實(shí)體排名高于其他候選實(shí)體t∈Ch,r(候選集)。本文效仿文獻(xiàn)[22]使用實(shí)體類型約束構(gòu)建候選集。在預(yù)測的過程中,本文只考慮一個(gè)封閉的實(shí)體集,即在測試期間沒有未出現(xiàn)過的實(shí)體。
1.2 少樣本知識圖譜鏈接預(yù)測任務(wù)
在對三元組中的某一元進(jìn)行預(yù)測時(shí),如果僅依賴一個(gè)或者少量的訓(xùn)練樣例,此時(shí)的預(yù)測過程即是one-shot或few-shot知識圖譜鏈接預(yù)測任務(wù)。因?yàn)楸疚牡奶卣魈崛∑黝A(yù)訓(xùn)練過程遵循的是one-shot原則,所以此處有必要對one-shot知識圖譜鏈接預(yù)測任務(wù)進(jìn)行詳細(xì)闡述[23]。one-shot知識圖譜鏈接預(yù)測的目標(biāo)是學(xué)習(xí)一個(gè)僅依賴單支持樣例來預(yù)測缺失實(shí)體的度量模型。假設(shè)擁有一組訓(xùn)練任務(wù),每個(gè)訓(xùn)練任務(wù)和知識圖譜中的一種關(guān)系r∈R相關(guān)聯(lián),每個(gè)訓(xùn)練任務(wù)有其獨(dú)立的訓(xùn)練和測試三元組集{Dtrain,r,Dtest,r}。為了模擬評估時(shí)的單次預(yù)測,在每個(gè)關(guān)系訓(xùn)練集Dtrain中僅有一個(gè)三元組(h0,r,t0)。對于每個(gè)查詢query(hi,r),關(guān)于r的測試集Dtest,r={(hi,r,ti,Chi,r)}包含r的測試三元組、尾實(shí)體真值ti和由知識圖譜G中實(shí)體組成的尾實(shí)體候選集Chi,r={tij}。度量模型在這個(gè)集合上進(jìn)行測試,給定query(hi,r)和Dtrain,r中的標(biāo)記三元組,根據(jù)度量模型的輸出對候選集Chi,r進(jìn)行排序。設(shè)置好損失函數(shù),經(jīng)過訓(xùn)練,給定新關(guān)系r′∈R′,即可以使用訓(xùn)練好的度量模型對三元組中的缺失項(xiàng)進(jìn)行預(yù)測。被用來測試的關(guān)系r′不同于訓(xùn)練過程中的r,即R′∩R=。與訓(xùn)練過程中的架構(gòu)相同,每個(gè)測試關(guān)系r′也擁有自己的單支持訓(xùn)練數(shù)據(jù)Dtrain,r′和測試數(shù)據(jù)Dtest,r′。
1.3 零次知識圖譜鏈接預(yù)測任務(wù)
在對三元組中的某一元進(jìn)行預(yù)測時(shí),如果沒有可依賴的訓(xùn)練樣例,此時(shí)的預(yù)測過程即是zero-shot知識圖譜鏈接預(yù)測任務(wù)。對于每個(gè)query(hi,r),有一個(gè)真尾實(shí)體ti和一個(gè)候選集Chi,r,zero-shot模型計(jì)算ti的排名。根據(jù)zero-shot設(shè)置,有兩個(gè)不同的關(guān)系集,即可見關(guān)系集R、不可見關(guān)系集R′,R′∩R=。根據(jù)圖G,本文可以為每個(gè)已知的關(guān)系r構(gòu)建一個(gè)訓(xùn)練集Dtrain,r。在測試階段,模型的目標(biāo)是為新關(guān)系(未知或未見的)r′預(yù)測實(shí)體,或稱為補(bǔ)全實(shí)體,候選的實(shí)體來自于圖G,是已知的。為了集中研究的視角,本文并不涉及未知實(shí)體,僅測試階段的關(guān)系是未知的。針對所有的關(guān)系,本文擁有其文本描述,包括未知的新關(guān)系,因?yàn)槿绻麑τ谖粗男玛P(guān)系,本文不掌握任何信息,模型將無法學(xué)習(xí)。zero-shot的測試階段基本和one-shot相同,也是根據(jù)模型的輸出,對候選集Chi,r進(jìn)行排序,取排名最高的候選實(shí)體作為預(yù)測的尾實(shí)體。
1.4 生成對抗框架
本文同樣基于一個(gè)生成對抗框架[24],由于生成對抗框架的具體實(shí)現(xiàn)才是學(xué)者們研究的重點(diǎn),故本節(jié)將對生成對抗框架進(jìn)行簡要的介紹,模型的具體實(shí)現(xiàn)將放在下一章進(jìn)行詳細(xì)的講解。生成對抗網(wǎng)絡(luò)通常由生成器、判別器和復(fù)雜的損失函數(shù)[25]三部分組成。生成器的實(shí)現(xiàn)有很多種方法,但其目標(biāo)都是將輸入嵌入向量轉(zhuǎn)換成合理的偽嵌入向量,通過標(biāo)準(zhǔn)化和多次訓(xùn)練,使偽嵌入向量的數(shù)據(jù)分布與真實(shí)嵌入向量的數(shù)據(jù)分布接近。鑒別器通常是一個(gè)分類器,其目標(biāo)是將生成的嵌入向量和其真值區(qū)分開。經(jīng)過生成器和判別器的不斷博弈,最終的理想狀態(tài)是判別器無法將生成器生成的偽嵌入向量和其真值區(qū)分開。如何訓(xùn)練生成對抗網(wǎng)絡(luò),避免不穩(wěn)定的訓(xùn)練行為和模式崩潰,是生成對抗框架研究的困難點(diǎn)。這一困難點(diǎn)可以通過設(shè)計(jì)復(fù)雜的損失函數(shù)來克服,不過這并不是本文的研究重點(diǎn)。在損失函數(shù)的設(shè)計(jì)部分,本文延續(xù)了文獻(xiàn)[19]中的設(shè)定,使用Wasserstein距離[26]作為評分函數(shù),加入梯度懲罰策略[27]來進(jìn)一步優(yōu)化模型的訓(xùn)練過程。
2 改進(jìn)方法
本文提出了一種結(jié)構(gòu)感知的零次知識圖譜鏈接預(yù)測方法,模型的具體實(shí)現(xiàn)包括預(yù)訓(xùn)練特征提取器、結(jié)構(gòu)感知的生成器和簡單判別器三個(gè)部分,模型框架如圖1所示。假設(shè)模型各個(gè)組成部分都是經(jīng)過訓(xùn)練的,給定一個(gè)測試樣例(h,r,t),其中t有多個(gè)候選實(shí)體,ti∈Ch,r。每一個(gè)候選實(shí)體ti都可以和(h,r)組成三元組(h,r,ti),將(h,r)輸入到生成器中得到相似樣本表示xfake,將(h,r,ti)輸入到預(yù)訓(xùn)練特征提取器中得到候選表示xi,計(jì)算xfake、xi的余弦相似度作為(h,r,t)與(h,r,ti)接近程度的評分,對評分進(jìn)行排名,取排名最靠前的xi對應(yīng)的ti作為(h,r,t)的預(yù)測尾實(shí)體。下面將具體介紹如何計(jì)算相似表示xfake、候選表示xi。
2.1 預(yù)訓(xùn)練特征提取器
通常情況下,一個(gè)知識圖譜中的實(shí)體數(shù)量遠(yuǎn)多于關(guān)系數(shù)量。例如,在數(shù)據(jù)集NELL-ZS中,包含65 567個(gè)實(shí)體,共有188 392個(gè)三元組用來表示知識,但只有181種關(guān)系,實(shí)體數(shù)是關(guān)系數(shù)的362倍。因此知識圖譜中的關(guān)系與實(shí)體之間存在著一對多的映射關(guān)系。為了捕獲三元組中關(guān)系和頭尾實(shí)體的特征,本文需要計(jì)算關(guān)系基于結(jié)構(gòu)的表示[28],即使用聚合頭尾實(shí)體一階鄰域后的結(jié)果作為關(guān)系的特征表示,具體可分為三個(gè)步驟:首先是聚合頭鄰域和尾鄰域特征,然后聚合頭實(shí)體和尾實(shí)體特征,最后將聚合后的特征進(jìn)行拼接作為關(guān)系的特征表示。
以聚合頭鄰域特征為例,文獻(xiàn)[12]使用鄰域節(jié)點(diǎn)嵌入的均值來表示鄰域特征,即平均聚合策略。平均聚合的優(yōu)點(diǎn)是計(jì)算結(jié)構(gòu)簡單,所訓(xùn)練的模型具有較好的魯棒性。缺點(diǎn)是受噪聲影響較大,鄰域中的噪聲節(jié)點(diǎn)和有效節(jié)點(diǎn)享有一樣的聚合權(quán)重,導(dǎo)致有效特征被湮沒。受圖同構(gòu)神經(jīng)網(wǎng)絡(luò)(GIN)[21]的啟發(fā),本文在聚合頭實(shí)體的一階鄰域信息時(shí),為每個(gè)鄰節(jié)點(diǎn)分配了一個(gè)可學(xué)習(xí)的權(quán)重,以捕獲不同鄰節(jié)點(diǎn)對實(shí)體的不同程度影響,即
ueh=σ(parameter(ue1,ue2,…,uen))(1)
其中:parameter表示一組可學(xué)習(xí)的參數(shù),維度為[50,1];σ表示激活函數(shù)(下文相同)。
通過對關(guān)系的頭尾實(shí)體進(jìn)行鄰域聚合,可以得到聚合后的頭鄰域特征ueh、尾鄰域特征uet。
下一步是聚合頭尾實(shí)體的特征uep,使用全連接網(wǎng)絡(luò)將原來實(shí)體特征ve的維度縮短為原來的一半,以進(jìn)行下一步的特征拼接操作:
最后,三元組(h,r,t)中的關(guān)系r可用ueh、uet、uep的串接來表示:
預(yù)訓(xùn)練特征提取器的訓(xùn)練是一個(gè)自監(jiān)督學(xué)習(xí)過程,具體策略如下:
針對某一關(guān)系r,在其支持集中隨機(jī)抽取一個(gè)樣本三元組(hsupport,r,tsupport),在訓(xùn)練集中抽取正樣本(h+,r,t+),污染尾實(shí)體后得到負(fù)樣本(h+,r,t-),將三個(gè)樣本輸入預(yù)訓(xùn)練特征提取器得到xsupport、x+、x-,計(jì)算xsupport與x+的余弦相似度得到score+,計(jì)算xsupport與x-的余弦相似度得到score-,尋找最優(yōu)的參數(shù)組合ω={parameter,W1,b1}使計(jì)算得到的score+最大,同時(shí)score-最小,損失函數(shù)如下:
Lω=γ-score+ω+score-ω(5)
其中:ω是要學(xué)習(xí)的參數(shù)集;γ是邊界超參數(shù),設(shè)置為10。
2.2 結(jié)構(gòu)感知的生成器和判別器
在新關(guān)系生成器部分,原模型是純粹地從文本嵌入生成新知識的相似嵌入,但這種方法在直覺上不具備可解釋性,模型也很難訓(xùn)練。由此本文提出一個(gè)新方法,即將新關(guān)系文本嵌入和頭實(shí)體嵌入串接,同時(shí)再串接一個(gè)可學(xué)習(xí)的向量。對于一個(gè)尾實(shí)體鏈接預(yù)測任務(wù)(h,r,?),頭實(shí)體嵌入veh和關(guān)于關(guān)系r的描述Tr是已知項(xiàng),仿照預(yù)訓(xùn)練特征提取器的結(jié)構(gòu)樣式,關(guān)系r的特征表示設(shè)為
尾實(shí)體是需要預(yù)測的實(shí)體項(xiàng),此時(shí)vet是未知的,所以此處通過為頭實(shí)體訓(xùn)練一個(gè)新的嵌入來作為尾實(shí)體嵌入的近似:
vet=embedding(eh)(7)
將關(guān)系r的假設(shè)嵌入表示輸入到生成器中,生成器包含兩個(gè)全連接層,經(jīng)過層歸一化操作,生成關(guān)系r的近似特征表示:
xfake=Gθ(ur)(8)
同時(shí)將關(guān)系r對應(yīng)的真實(shí)三元組(h,r,t)輸入到預(yù)訓(xùn)練特征提取器中得到x+。將xfake、x+輸入判別器,經(jīng)過全連接層、層歸一化處理,最后經(jīng)過線性分類器得出分類結(jié)果,同時(shí)輸出分類的評分。
生成器和判別器的訓(xùn)練同樣是自監(jiān)督學(xué)習(xí)過程,具體策略如下:
針對某一關(guān)系r,在訓(xùn)練集中隨機(jī)抽取一個(gè)樣本三元組(hsupport,r,tsupport),在訓(xùn)練集中抽取正樣本(h+,r,t+),污染尾實(shí)體后得到負(fù)樣本(h+,r,t-),將三個(gè)樣本輸入預(yù)訓(xùn)練特征提取器得到xsupport、x+、x-,將(h+,r)輸入到生成器中得到xfake,將(xsupport,x+)、(xfake,xsupport)、(x-,xsupport)分別輸入到判別器中,判別器由一個(gè)分類層和一個(gè)相似性評分層組成,分類層得到相對應(yīng)的分類結(jié)果,相似性評分層得到分類評分,訓(xùn)練的總目標(biāo)是最大化類間損失(對錯(cuò))同時(shí)最小化類內(nèi)評分損失,生成器的損失函數(shù)如下:
LGθ=-E(D(xfake,xsupport))+
Lc(D(xfake,x-,xsupport))+LP(9)
其中:θ表示生成器的學(xué)習(xí)參數(shù)集;E表示類間損失項(xiàng);Lc表示類內(nèi)損失項(xiàng);LP是懲罰項(xiàng)。
判別器的損失函數(shù)如下:
其中:表示判別器器的學(xué)習(xí)參數(shù)集;LGP是梯度懲罰項(xiàng)。
經(jīng)過復(fù)雜的訓(xùn)練過程,如果判別器輸出xfake、x+屬同一類別,即表明xfake可近似x+,生成器具備由關(guān)系r的假設(shè)結(jié)構(gòu)特征向真實(shí)結(jié)構(gòu)特征映射的能力。因?yàn)檎鎸?shí)結(jié)構(gòu)特征在本質(zhì)上是三個(gè)嵌入的組合,那么改進(jìn)生成器模型的工作即是從一種組合嵌入映射到目標(biāo)組合嵌入,模型在直覺上具備足夠的可解釋性。
2.3 預(yù)測
假設(shè)模型各個(gè)組成部分都是經(jīng)過訓(xùn)練的,給定一個(gè)測試樣例(h,r,t),其中t有多個(gè)候選實(shí)體,ti∈Ch,r。每一個(gè)候選實(shí)體ti都可以和(h,r)組成三元組(h,r,ti),將(h,r)輸入到生成器中得到xfake,將(h,r,ti)輸入到預(yù)訓(xùn)練特征提取器中得到xi,計(jì)算xfake、xi的相似度作為(h,r,t)與(h,r,ti)接近程度的評分,對評分進(jìn)行排名,取排名最靠前的xi對應(yīng)的ti作為(h,r,t)的預(yù)測尾實(shí)體。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集與評價(jià)指標(biāo)
使用文獻(xiàn)[19]中提出的公開數(shù)據(jù)集驗(yàn)證所提方法的有效性,在模型的預(yù)訓(xùn)練階段,可參考的支持樣本數(shù)量均設(shè)置為1,以模擬支持樣本有限場景;在測試階段,生成器和特征提取器均沒有支持樣本做參考,以模擬零樣本預(yù)測。NELL-ZS選自NELL[29],其包含65 567個(gè)實(shí)體,有188 392個(gè)三元組,共有181種關(guān)系,是一個(gè)小規(guī)模數(shù)據(jù)集。Wiki-ZS選自Wikidata,其包含605 812個(gè)實(shí)體,有724 967個(gè)三元組,共有537種關(guān)系,是一個(gè)中等規(guī)模數(shù)據(jù)集,訓(xùn)練集、驗(yàn)證集、測試集的劃分如表1所示。對于知識圖譜鏈接預(yù)測實(shí)驗(yàn)的評估,一般使用平均倒數(shù)排名(mean reciprocal rank,MRR)和前N名正確結(jié)果百分比hits@N)兩個(gè)指標(biāo)。較高的MRR或較高的hits@N表示被評估的方法具有較好的性能。
3.2 對比方法
本文研究所選取的對比方法分別是TransE、DistMult、ComplEx、ZSGAN[19]、OntoZSL[20]。前面三個(gè)都是基于嵌入表示學(xué)習(xí)的研究方法,通過構(gòu)造評分函數(shù),學(xué)習(xí)實(shí)體在連續(xù)向量空間的嵌入表示,使同一知識組合中的實(shí)體在向量空間中的嵌入表示接近,不同知識組合的實(shí)體嵌入表示距離較遠(yuǎn)。其中,TransE將關(guān)系建模為實(shí)體低階嵌入的平移變換,DistMult是基于雙線性模型學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)嵌入,ComplEx使用復(fù)數(shù)嵌入來解決鏈接預(yù)測問題,負(fù)數(shù)嵌入可以有效地模擬對稱關(guān)系和反對稱關(guān)系。從理論上思考,三種嵌入方法不適用于處理零樣本鏈接預(yù)測任務(wù),因?yàn)榱銟颖绢A(yù)測任務(wù)中的關(guān)系從未在訓(xùn)練集中出現(xiàn),直接使用TransE、DistMult、ComplEx方法進(jìn)行零樣本鏈接預(yù)測的性能表現(xiàn)一定非常不理想。但為了將本文所提出的模型和傳統(tǒng)的方法進(jìn)行對比,在實(shí)驗(yàn)過程中,三種方法不考慮關(guān)系的作用,直接選擇評分高的候選實(shí)體作為預(yù)測實(shí)體,對比實(shí)驗(yàn)結(jié)果也佐證了本文的判斷。ZSGAN首次提出知識圖譜零樣本鏈接預(yù)測問題,并提出了一個(gè)與模型無關(guān)的生成對抗框架來解決零樣本預(yù)測問題,其性能表現(xiàn)遠(yuǎn)超過傳統(tǒng)方法,該方法是本文的主要對比基線。OntoZSL首次將本體知識的概念引用到零次知識圖譜鏈接預(yù)測任務(wù)中,但由于代碼原因,本文未能在Wiki-ZS數(shù)據(jù)集上成功復(fù)現(xiàn),所以本節(jié)僅在NELL-ZS的實(shí)驗(yàn)中加入了對比。在對比實(shí)驗(yàn)過程中,將ZSGAN、OntoZSL訓(xùn)練時(shí)支持樣本數(shù)限制為1,以模擬支持樣本有限的條件。
3.3 參數(shù)設(shè)置與實(shí)驗(yàn)環(huán)境
本文所使用的生成對抗框架的大部分參數(shù)與ZSGAN相同,詳細(xì)可參考ZSGAN。細(xì)節(jié)方面,對于NELL-ZS,本文將嵌入大小設(shè)置為100。對于Wiki-ZS,嵌入大小設(shè)置為50。TransE[7]、DistMult[8]、ComplEx[10]是基于開源知識嵌入工具包OpenKE7[30]實(shí)現(xiàn)的。模型基于PyTorch深度學(xué)習(xí)框架,使用Adam算法進(jìn)行參數(shù)更新,操作系統(tǒng)為Windows 10,CPU為Intel i5-12400F,GPU為NVIDIA 3090Ti。
3.4 效果分析
表2 給出了本文方法與對比基線在兩個(gè)零樣本學(xué)習(xí)的知識圖譜數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,可以看出,本文方法在兩個(gè)數(shù)據(jù)集上的表現(xiàn)均達(dá)到了最優(yōu)。從模型的角度分析,TransE、DistMult、ComplEx并不適用于零樣本鏈接預(yù)測問題,因?yàn)樾玛P(guān)系是未知項(xiàng),其嵌入尚不存在,此時(shí)零次鏈接預(yù)測的本質(zhì)是根據(jù)頭尾實(shí)體的相似度預(yù)測尾實(shí)體,其結(jié)果指標(biāo)表現(xiàn)一定很不理想。在單樣本支持的條件下,模型可參考的支持樣本數(shù)較少,ZSGAN的零次預(yù)測能力出現(xiàn)了較大的下降,原因在于ZSGAN的特征提取器在聚合頭尾節(jié)點(diǎn)鄰域特征時(shí)引入過多的無關(guān)特征;生成器在根據(jù)關(guān)系描述嵌入生成知識特征時(shí)未考慮知識特征的結(jié)構(gòu)特性,強(qiáng)行地映射在直覺上不可解釋。OntoZSL的主體結(jié)構(gòu)與ZSGAN相同,從理論上可以推測,在單樣本支持的條件下,OntoZSL的性能一定也會下降,但由于其引入了本體論的知識,性能表現(xiàn)要比ZSGAN優(yōu)秀,實(shí)驗(yàn)結(jié)果也正符合本文判斷。那么可以推測將本文方法加入到OntoZSL當(dāng)中,一定也能提高在單樣本條件下OntoZSL的性能,這也是接下來的研究方向之一。NSALP在支持樣本有限的條件下,其性能超出了以上所有方法,MRR相較于基線ZSGAN分別提升2.5和0.7百分點(diǎn)。究其原因在于改進(jìn)后的特征提取器能夠有效地提取實(shí)體鄰域特征以生成更合理的結(jié)構(gòu)嵌入,同時(shí)改進(jìn)的生成器能夠生成更加真實(shí)的結(jié)構(gòu)嵌入,在兩個(gè)模塊的共同作用下,改進(jìn)后的模型才有了良好的性能表現(xiàn)。
表3選舉了測試集中預(yù)測結(jié)果有明顯提升的關(guān)系(這里僅選取了提升較大的,不代表其他關(guān)系沒有提升),預(yù)測指標(biāo)均為hits@1,因?yàn)檫@個(gè)指標(biāo)表示首位命中的比例,更加能夠反映模型預(yù)測正確與否的能力。從表3可以了解到,部分關(guān)系的指標(biāo)出現(xiàn)了翻倍的提升,如airportincity、airportincity、ceoof、producedby等。更難能可貴的是,部分關(guān)系的預(yù)測結(jié)果實(shí)現(xiàn)了從0到1的質(zhì)變,如crimeorchargeofperson、crimeorchargeofperson等,這表明了本文NSALP有效地聚合了鄰域特征,避免了特征湮沒,從而才能預(yù)測對的結(jié)果。
消融實(shí)驗(yàn)為了驗(yàn)證本文在特征提取器和生成器兩個(gè)模塊所做改進(jìn)的有效性,本文還進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表4所示,其中without any表示未改進(jìn)的方法,with generator+表示僅使用了改進(jìn)的生成器,相較于基線提升1.5百分點(diǎn),僅使用改進(jìn)后的生成器,模型的預(yù)測能力有所提高,這能夠佐證改進(jìn)后的生成器模塊確實(shí)能夠根據(jù)輸入的結(jié)構(gòu)特征生成更加接近真實(shí)結(jié)構(gòu)嵌入的結(jié)果,表明生成帶結(jié)構(gòu)的知識嵌入對預(yù)測結(jié)果至關(guān)重要。with extractor+表示僅使用了類圖同構(gòu)網(wǎng)絡(luò)的提取器,相較于基線提升0.1百分點(diǎn),如果只改進(jìn)特征提取器,模型的預(yù)測性能很難提高。但是當(dāng)兩個(gè)模塊共同發(fā)生作用,卻實(shí)現(xiàn)了1+1gt;2的效果,整體提升達(dá)到了2.5百分點(diǎn)。NSALP的整體性能表現(xiàn)最優(yōu)則能夠證明,改進(jìn)的特征提取器對模型整體的性能也是有很大貢獻(xiàn)的,改進(jìn)后的特征提取器能夠有效地提取實(shí)體鄰域特征以生成更合理的結(jié)構(gòu)嵌入。
4 結(jié)束語
本文提出了一個(gè)單樣本條件下鄰域選擇聚合零次知識圖譜鏈接預(yù)測方法,以解決當(dāng)支持樣本有限時(shí),零次知識圖譜鏈預(yù)測模型性能差的問題。方法主要由特征提取器、生成器、判別器三個(gè)模塊實(shí)現(xiàn)。通過對特征提取器模塊鄰域聚合方式的改進(jìn)使其能夠?yàn)橹R三元組的未知關(guān)系生成更加合理的結(jié)構(gòu)特征,使用頭實(shí)體特征對生成器的學(xué)習(xí)過程進(jìn)行引導(dǎo),使生成器生成的新關(guān)系特征更加接近真實(shí)的知識三元組結(jié)構(gòu)特征。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也表明了所提模型的有效性,在NELL進(jìn)行的消融實(shí)驗(yàn)中,所提extractor+和generator+模塊性能表現(xiàn)均優(yōu)于未做改進(jìn)的模型,佐證了所提方法的有效性。但僅僅依賴關(guān)系文本描述來生成結(jié)構(gòu)嵌入的方法所依賴的信息源稍顯單一,同時(shí)本文所依賴的主要學(xué)習(xí)框架——生成對抗網(wǎng)絡(luò),其訓(xùn)練過程十分之復(fù)雜,后續(xù)的研究將繼續(xù)圍繞零次知識圖譜鏈接預(yù)測問題開展,對如何將更多的信息源(如路徑推理、圖像、本體論)納入嵌入生成的過程進(jìn)行研究,并思考提出一個(gè)能夠進(jìn)行端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型。
參考文獻(xiàn):
[1]陳燁, 周剛, 盧記倉. 多模態(tài)知識圖譜構(gòu)建與應(yīng)用研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2021, 38(12): 3535-3543. (Chen Ye, Zhou Gang, Lu Jicang. Survey on construction and application research for multi-modal knowledge graphs[J]. Application Research of Computers, 2021, 38(12): 3535-3543.)
[2]王傳慶, 李陽陽, 費(fèi)超群, 等. 知識圖譜平臺綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(11): 3201-3210. (Wang Chuanqing, Li Yang-yang, Fei Chaoqun, et al. Survey of knowledge graph platform[J]. Application Research of Computers, 2022, 39(11): 3201-3210.)
[3]Bonan M, Ralph G, Li W, et al. Distant supervision for relation extraction with an incomplete knowledge base[C]// Proc of North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2013: 777-782.
[4]劉嶠, 李楊, 段宏, 等. 知識圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600. (Liu Qiao, Li Yang, Duan Hong, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600.)
[5]王碩, 杜志娟, 孟小峰. 大規(guī)模知識圖譜補(bǔ)全技術(shù)的研究進(jìn)展[J]. 中國科學(xué): 信息科學(xué), 2020, 50(4): 551-575. (Wang Shuo, Du Zhijuan, Meng Xiaofeng. Research progress of large-scale knowledge graph completion technology[J]. Science China Information Sciences, 2020, 50(4): 551-575.)
[6]韓路, 尹子都, 王鈺杰, 等. 基于貝葉斯網(wǎng)的知識圖譜鏈接預(yù)測[J]. 計(jì)算機(jī)科學(xué)與探索, 2017, 11(5): 742-751. (Han Lu, Yin Zidu, Wang Yujie, et al. Link prediction of knowledge graph based on Bayesian network[J]. Journal of Frontiers of Computer Science and Technology, 2017, 11(5): 742-751.)
[7]Bordes A, Usunier N, García-Durán A, et al. Translating embeddings for modeling multi-relational data[C]// Proc of the 27th Annual Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2013: 2787-2795.
[8]Yang Bishan, Yih W T, He Xiaodong, et al. Embedding entities and relations for learning and inference in knowledge bases [EB/OL]. (2015-08-29). https://arxiv.org/abs/1412.6575.
[9]Nickel M, Tresp V, Kriegel H. A three-way model for collective learning on multi-relational data[C]// Proc of the 28th International Conference on Machine Learning. Madison: Omnipress, 2011: 809-816.
[10]Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction[C]// Proc of the 33nd International Conference on Machine Learning. [S.l.]: JMLR. org, 2016: 2071-2080.
[11]張寧豫, 謝辛, 陳想, 等. 基于知識協(xié)同微調(diào)的低資源知識圖譜補(bǔ)全方法[J]. 軟件學(xué)報(bào), 2022, 33(10): 3531-3545. (Zhang Ningyu, Xie Xin, Chen Xiang, et al. Knowledge collaborative fine-tuning for low-resource knowledge graph completion[J]. Journal of Software, 2022, 33(10): 3531-3545.)
[12]Xiong Wenhan, Yu Mo, Chang Shiyu, et al. One-shot relational learning for knowledge graphs[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1980-1990.
[13]Zhang Chuxu, Yao Huaxiu, Huang Chao, et al. Few-shot knowledge graph completion[C]// Proc of the 32nd Innovative Applications of Artificial Intelligence Conference. Palo Alto: AAAI Press, 2020: 3041-3048.
[14]Chen Mingyang, Zhang Wen, Zhang Wei, et al. Meta relational learning for few-shot link prediction in knowledge graphs[C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4217-4226.
[15]Yao Yuanzhou, Zhang Zhao, Xu Yongjun, et al. Data augmentation for few-shot knowledge graph completion from hierarchical perspective[C]// Proc of the 29th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2022: 2494-2503.
[16]Wu Han, Yin Jie, Rajaratnam B, et al. Hierarchical relational lear-ning for few-shot knowledge graph completion [EB/OL]. (2022-09-16). https://arxiv.org/abs/2209.01205.
[17]Niu Guanglin, Li Yang, Tang Chengguang, et al. Relational learning with gated and attentive neighbor aggregator for few-shot knowledge graph completion[C]// Proc of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2021: 213-222.
[18]Shi Baoxu, Weninger T. Open-world knowledge graph completion[C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2018: 1957-1964.
[19]Qin Pengda, Wang Xin, Chen Wenhu, et al. Generative adversarial zero-shot relational learning for knowledge graphs[C]// Proc of the 34th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2020: 8673-8680.
[20]Geng Yuxia, Chen Jiaoyan, Chen Zhuo, et al. OntoZSL: ontology-enhanced zero-shot learning[C]// Proc of Web Conference. New York: ACM Press, 2021: 3325-3336.
[21]Xu K, Hu Weihua, Leskovec J, et al. How powerful are graph neural networks?[EB/OL] (2018-10-01). https://arxiv.org/abs/1810.00826.
[22]Toutanova K, Chen D, Pantel P, et al. Representing text for joint embedding of text and knowledge bases[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1499-1509.
[23]Ravi S, Larochelle H. Optimization as a model for few-shot learning[C]// Proc of International Conference on Learning Representations. 2016.
[24]王坤峰, 茍超, 段艷杰, 等. 生成式對抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J]. 自動(dòng)化學(xué)報(bào), 2017, 43(3): 321-332. (Wang Kunfeng, Gou Chao, Duan Yanjie, et al. Generative adversarial networks: the state of the art and beyond[J]. Acta Automatica Sinica, 2017, 43(3): 321-332.)
[25]林懿倫, 戴星原, 李力, 等. 人工智能研究的新前線: 生成式對抗網(wǎng)絡(luò)[J]. 自動(dòng)化學(xué)報(bào), 2018, 44(5): 775-792. (Lin Yilun, Dai Xingyuan, Li Li, et al. The new frontier of AI research: generative adversarial networks[J]. Acta Automatica Sinica, 2018, 44(5): 775-792.)
[26]Arjovsky M, Soumith C, Bottou L. Wasserstein generative adversarial networks[C]// Proc of the 34th International Conference on Machine Learning. [S.l.]: JMLR. org, 2017, 70: 214-223.
[27]Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of Wasserstein GANs[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5769-5779.
[28]Schlichtkrull M, Kipf T N, Bloem P, et al. Modeling relational data with graph convolutional networks[C]// Proc of the 15th Internatio-nal Conference on Semantic Web. Berlin: Springer-Verlag, 2018: 593-607.
[29]Carlson A, Betteridge J, Kisiel B, et al. Toward an architecture for never-ending language learning[C]// Proc of the 24th AAAI Confe-rence on Artificial Intelligence. Palo Alto: AAAI Press,2010:1306-1313.
[30]Han Xu, Cao Shulin, Lyu Xin, et al. OpenKE: an open toolkit for knowledge embedding[C]// Proc of Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 2018: 139-144.