中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A DOI:10.19907/j.0490-6756.240325
Cross-modal contrastive learning for hyper-relational knowledge graph completion with pre-trained language models
XIAO Ying-Jie,HEPei-Heng,DUANLei,YE Zheng-Mao,,HECheng-Xin,WANGXin-Ye(College of Computer Science,Sichuan University,Chengdu 6lOo65,China)
Abstract: Hyper-relational knowledge graphs (HKGs),as an extension of traditional knowledge graphs,offer a more comprehensive representation of real-world knowledge. Due to their inherent incompleteness, HKG completion has emerged as a significant research focus.Existing HKG completion methods often focus on internal structural learning without fully considering multi-role interactions within facts orsemantic interactions outside the graph. To address this,we propose CoLor, a cros-fact-text-modality contrastive learning method.CoLor uses role-aware structural modeling and introduces real-world context through pre-trained language models,with triple cross-modal contrastive supervision to jointly learn fact representation.Experiments on three real-world datasets show CoLor outperforms baselines by up to 4. 2% and 7.5% on MRR and H@1 metrics,respectively. Ablation study and case study further demonstrate the efectiveness of CoLor.
Keywords: Hyper-relational knowledge graph;Pre-trained language models;Contrastive learning
1引言
知識圖譜(KnowledgeGraphs,KGs)廣泛應(yīng)用于語義搜索、推薦系統(tǒng)及欺詐檢測等領(lǐng)域[1-3],但現(xiàn)實世界知識常涉及多個實體[4-6],難以僅用單個二元關(guān)系或簡單拆分為多個二元關(guān)系來完整描述.超關(guān)系知識圖譜(Hyper-relationalKnowledgeGraphs,HKGs)擴(kuò)展了傳統(tǒng)知識圖譜的表達(dá)形式,以包含多個實體和關(guān)系的超關(guān)系事實為基本單位,增強了對復(fù)雜關(guān)系的準(zhǔn)確表達(dá)能力.
超關(guān)系事實由一個描述事實核心結(jié)構(gòu)的主三元組(頭實體、關(guān)系、尾實體)以及若干限定符對(屬性關(guān)系:輔助實體)組成,如圖1中的事實A描述了瑪麗居里與他人共獲諾貝爾獎這一真實世界知識,涉及5個實體與3種關(guān)系.相較于基于簡單二元關(guān)系的事實三元組(MarieCurie、Receiveaward、NobelPrizeinPhysics),事實A能更準(zhǔn)確地反映真實世界知識,因為瑪麗居里曾因不同貢獻(xiàn)與不同合作者兩次獲得諾貝爾獎(https://en.wikipedia.org/wiki/Marie_Curie).
由于真實世界知識的快速增長與不斷迭代,現(xiàn)有超關(guān)系知識圖譜不可避免地面臨顯著的不完整性問題[7.8],如Freebase中 71% 的“人物”缺少“出生地”信息.因此,對超關(guān)系知識圖譜進(jìn)行高質(zhì)量補全已成為該領(lǐng)域的研究熱點[2.5.9],旨在自動學(xué)習(xí)和推理超關(guān)系知識圖譜,以支持基于超關(guān)系知識圖譜的多種下游應(yīng)用.
現(xiàn)有工作常通過學(xué)習(xí)超關(guān)系知識圖譜的結(jié)構(gòu)表征,并評估測試超關(guān)系事實的事實合理性來完成補全任務(wù).然而,這些方法往往僅強調(diào)實體與關(guān)系在當(dāng)前事實內(nèi)作為固定角色的顯式交互,從而忽略了相同實體與關(guān)系作為其他角色在當(dāng)前事實外部發(fā)生的隱式交互.例如,Wang等[5提出的GRAN方法允許事實內(nèi)實體通過主三元組關(guān)系顯式交互,但難以建模超出當(dāng)前事實的隱式交互,以圖1中事實A、B、C為例,事實B和事實C顯然可以直觀地聯(lián)合幫助待補全事實A中缺失的輔助實體,即Pierre Curie.
通過該示例可以觀察到,相同的實體和關(guān)系之間能夠在當(dāng)前事實內(nèi)部或外部以不同的角色進(jìn)行交互,而捕獲這些顯式或隱式的交互則能夠增益超關(guān)系事實的補全效果.因此,區(qū)分并深化實體與關(guān)系的角色信息至關(guān)重要.
除結(jié)構(gòu)信息外,超關(guān)系知識圖譜的外部語義信息對補全任務(wù)也很重要,因為非結(jié)構(gòu)化文本是構(gòu)建知識庫的關(guān)鍵資源[10].然而,文本化數(shù)據(jù)中包含的上下文語義信息在從非結(jié)構(gòu)化文本到結(jié)構(gòu)化事實的轉(zhuǎn)換過程中不可避免地面臨信息損失.現(xiàn)有研究表明,合理利用豐富的外部語義信息能夠在一定程度上促進(jìn)知識圖譜的補全[1.11.12].但對于結(jié)構(gòu)更加復(fù)雜的超關(guān)系知識圖譜,收集和有效利用這些語義補充信息仍面臨諸多挑戰(zhàn),如外部文本數(shù)據(jù)不完整、模態(tài)信息不平衡等.
為應(yīng)對上述挑戰(zhàn),本文提出了一種面向超關(guān)系知識圖譜補全的跨模態(tài)對比學(xué)習(xí)方法CoLor(Cross-modalcontrastiveLearningfor hyper-relationalknowledgegraphcompletion),其同時利用超關(guān)系知識圖譜的內(nèi)部結(jié)構(gòu)信息和外部語義信息進(jìn)行補全.方法上,通過構(gòu)建異構(gòu)完全圖(Het-erogeneousCompleteGraph,HCG)推廣自注意力機制[13],強調(diào)事實內(nèi)外的角色差異所帶來的當(dāng)前事實外的隱式潛在交互,從而避免局限于事實內(nèi)的固定角色;通過預(yù)訓(xùn)練語言模型(Pre-trainedLanguageModels,PLMs)引人了外部真實世界的非結(jié)構(gòu)化文本知識作為超關(guān)系知識圖譜的語義補充.在大量非結(jié)構(gòu)文本上訓(xùn)練的預(yù)訓(xùn)練語言模型,如BERT[14]、RoBERTa[15]、Llama-2[16]等,集成了大量的真實世界知識,一定程度上可以緩解補全方法在單一來源訓(xùn)練數(shù)據(jù)上學(xué)習(xí)并推理的限制.進(jìn)一步地,設(shè)計了3種用于對齊跨模態(tài)表征的對比監(jiān)督,充分挖掘了真實世界知識表示的潛力.本文的主要貢獻(xiàn)體現(xiàn)在以下3個方面:
(1)提出了CoLor方法用于補全超關(guān)系知識圖譜.通過對超關(guān)系事實內(nèi)部的顯式交互和外部的隱式交互進(jìn)行建模,有效從超關(guān)系知識圖譜的結(jié)構(gòu)信息中學(xué)習(xí)事實表征.
(2)收集不同超關(guān)系知識圖譜數(shù)據(jù)集對應(yīng)的外部文本數(shù)據(jù),并將其合理融合至超關(guān)系知識圖譜中,實驗驗證了引入外部語義信息的有效性.
(3)在3個公開超關(guān)系圖譜數(shù)據(jù)集上與先進(jìn)基線對比,實驗結(jié)果表明了CoLor的優(yōu)越性,并通過案例分析進(jìn)一步驗證了其有效性.
2 相關(guān)工作
2.1 知識圖譜補全
知識圖譜補全大體分為基于結(jié)構(gòu)和基于文本的兩類方法.基于結(jié)構(gòu)的方法認(rèn)為事實的建立是頭實體在某映射空間經(jīng)過關(guān)系變換得到尾實體的過程,代表性方法如TransE[17]和RotatE[18],分別將關(guān)系視為頭尾實體在目標(biāo)空間中的平移、旋轉(zhuǎn),并由此評估事實的合理性.基于文本的方法如KG-BERT采用BERT替換原始實體表示為相應(yīng)的文本描述,計算修改后的三元組合理性得分并評估;SimKGC同樣采用類似的模式,并設(shè)計了一個簡單有效的對比學(xué)習(xí)框架用于知識圖譜補全.然而,對于結(jié)構(gòu)更為復(fù)雜的超關(guān)系知識圖譜,目前尚無確切證據(jù)充分表明外部語義信息能夠幫助其進(jìn)行補全.
2.2超關(guān)系知識圖譜補全
現(xiàn)有工作多將超關(guān)系事實結(jié)構(gòu)表示為一個主三元組及對其修飾的若干限定符對9.為了對不同限定符對中的實體對整個事實的貢獻(xiàn)程度進(jìn)行編碼,Rosso等[9]首次采用卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNNs)將每個每個限定詞對迭代地卷積到主三元組中,自然地提升了超關(guān)系事實的區(qū)分度.Galkin等4和Di等[19]分別在圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks,GCNs)上使用了消息傳遞機制[20來聚合超關(guān)系知識圖譜內(nèi)的實體和關(guān)系的表征.Shomer等21基于StarE方法4提出了一個利用多個聚合器來學(xué)習(xí)超關(guān)系事實表示的框架,然而與StarE方法同樣存在受到全局圖卷積過程中引人多跳鄰居噪聲信息的限制.隨著Transformer[13]在自然語言處理等領(lǐng)域的快速興起,基于Transformer的方法在超關(guān)系知識圖譜補全領(lǐng)域中也取得了良好效果.Wang等5將超關(guān)系事實表示為一個無向異構(gòu)圖(HeterogeneousGraph),超關(guān)系事實中的所有實體通過主三元組中的關(guān)系進(jìn)行交互.Luo等2在其基礎(chǔ)上進(jìn)一步引入了全局和局部分層注意力來進(jìn)行建模.此外,還有部分方法采用傳統(tǒng)機器學(xué)習(xí)或幾何方法來建模超關(guān)系事實,如收縮嵌人[22]等.
現(xiàn)有方法常受限于單一來源的訓(xùn)練數(shù)據(jù),導(dǎo)致模型蘊含知識局限于當(dāng)前數(shù)據(jù)集.為減輕這一限制,CoLor整合了外部真實世界語義知識,用于超關(guān)系知識圖譜補全,表現(xiàn)良好.
3 預(yù)備知識
3.1超關(guān)系知識圖譜
給定一個有限的實體集 ε 、關(guān)系集 R 以及一個由 條超關(guān)系事實所構(gòu)成的真實事實集 F ,一個超關(guān)系知識圖譜表示為 H=(E,R,F(xiàn)) .超關(guān)系事實 f∈F 表示為一個主三元組(subject,relation,object)及對其修飾的 m 個限定符對(attribute:value)的組合,記為 f={(s,r,o)
vi)}i=1m} ,其中 m?0 .主三元組中的頭尾實體
和限定符對中的實體 {vi}i=1m 都來自實體集 ε 記為 s,o,v1,…,vm∈E ;關(guān)系 r 和限定符對中的關(guān)系{ai}i=1m 都來自關(guān)系集 R ,記為 r,a1,…,am∈R 當(dāng)事實集中所有事實都滿足 m=0 時,超關(guān)系知識圖譜退化為知識圖譜.
3.2超關(guān)系知識圖譜補全
給定一個存在若干實體或關(guān)系缺失的不完整超關(guān)系事實的超關(guān)系知識圖譜 H ,對所有不完整超關(guān)系事實中缺失的部分進(jìn)行補全或預(yù)測.例如,補全一個缺失主三元組中尾實體的不完整超關(guān)系事實
4 CoLor方法
CoLor整體框架如圖2所示,由角色感知的結(jié)構(gòu)建模(4.1節(jié))上下文感知的語義建模(4.2節(jié))以及基于三重對比監(jiān)督的跨模態(tài)對齊(4.3節(jié))組成.CoLor首先分別由角色感知的事實編碼器和上下文感知的語義編碼器分別學(xué)習(xí)超關(guān)系事實的結(jié)構(gòu)和語義表征后,再通過跨模態(tài)對齊模塊和表征并優(yōu)化模型參數(shù).
4.1角色感知的結(jié)構(gòu)建模
相同實體和關(guān)系在不同事實中角色各異,因此區(qū)分其在具體事實內(nèi)外的角色至關(guān)重要.為此,本文設(shè)計了角色感知的結(jié)構(gòu)建模編碼器處理這一挑戰(zhàn).如圖2所示,該編碼器將超關(guān)系事實建模為異構(gòu)完全圖,即由多種類型節(jié)點和邊組成的完全圖.其中,事實中的實體和關(guān)系對應(yīng)圖中的節(jié)點,邊的屬性表示節(jié)點間的異構(gòu)性,此模型不僅融合了實體與關(guān)系的不同角色信息,還支持靈活表示它們之間的顯性和隱性互動,超越單一事實角色的限制.
記 2 和 L 分別為異構(gòu)完全圖的節(jié)點集與邊集,則每條事實 都等效于一個異構(gòu)完全圖 G=(ν,L) ,其中, u= {c,s,r,o,a1,…,am,v1,…,vm} c 為句首標(biāo)識符[CLS],代表了當(dāng)前超關(guān)系事實的全局信息融合.受Wang等[5]和Luo等[2]工作的啟發(fā),本文從異構(gòu)圖中的節(jié)點和邊,到超關(guān)系事實中的實體、關(guān)系和它們之間的交互,建立兩個映射關(guān)系,即 ?
和 ψ:L{c-s,c-r,c-o,c-a,c- v,s-r,s-o,s-a,s-v,r-o,r-a,r-v,o- (204號 a,o-v,ai-aj,ai-vi,ai-vj,vi-vj}, 其中i和 j 為等效異構(gòu)完全圖中同種類型的不同節(jié)點序號:這種超關(guān)系事實結(jié)構(gòu)建模方式考慮了實體與關(guān)系之間可能在當(dāng)前事實之外發(fā)生的隱式交互,因為它允許實體與關(guān)系建立隱式的全連接關(guān)系,而非某一固定的交互模式.同時,引入結(jié)構(gòu)信息全局標(biāo)識符[CLS]也能聚合當(dāng)前事實內(nèi)部的全局信息,與事實所對應(yīng)的真實語義信息結(jié)構(gòu)對齊.此外,本文還為實體和關(guān)系另設(shè)計了角色嵌入層(RoleEmbeddingLayer以進(jìn)一步增強當(dāng)前事實內(nèi)部的實體和關(guān)系所持有的角色信息,即 c,s,r,o,a 和 v 這6種角色信息.
異構(gòu)完全圖中,節(jié)點對應(yīng)的異構(gòu)性表現(xiàn)為Transformer中全連接自注意力機制前向傳遞過程中的邊偏置(Edge-biases).邊偏置全連接注意力(Edge-biasedFully-connectedAttention)在自注意力(Self-attention)機制[13基礎(chǔ)上添加了邊偏置來區(qū)分節(jié)點的異構(gòu)信息,此外與自注意力機制類似.本文采用多頭注意力(Multi-headAttention)來學(xué)習(xí)超關(guān)系事實的結(jié)構(gòu)信息,對于單頭而言,節(jié)點的初始表征 xi∈Rd 首先與其對應(yīng)的角色嵌入ri∈Rd 聚合,然后使用3個頭間共享(Head-shared)的矩陣 WhQ WhK , 對其進(jìn)行投影并在注意力計算過程中添加邊偏置發(fā),如式(1)和(2)所示.
其中, ηij 為節(jié)點 j 對節(jié)點 i 的邊偏置權(quán)重系數(shù);zih∈Rd′ 為節(jié)點 i 在第 h 頭中更新后的結(jié)構(gòu)表征;dz=d′=d/H ,其中 H 是多頭注意力計算中參與的頭數(shù).在上述計算過程中,節(jié)點的角色真值共6種,分別對應(yīng)于不同的角色信息,即 rc 對應(yīng)[CLS],rs 對應(yīng)頭實體, rr 對應(yīng)主關(guān)系, ro 對應(yīng)尾實體, ra 對應(yīng)屬性關(guān)系,以及 rv 對應(yīng)輔助實體;邊偏置eijQ,eijK,eijV 分別被添加至傳統(tǒng)自注意力機制并進(jìn)行計算.通過上述計算可獲得每一頭中節(jié)點(204號 {zist}i=1|ν|∈Rd 的結(jié)構(gòu)表征.
在經(jīng)過編碼器中一層的單頭計算后,將每一頭得到的結(jié)構(gòu)表征順序拼接以得到多頭結(jié)構(gòu)信息.與Transformer原始結(jié)構(gòu)一致,編碼器由 L 層相同結(jié)構(gòu)堆疊,每一層都帶有層歸一化(LayerNormalization)機制[23]和殘差連接(ResidualCon-nection)機制[24].重復(fù)上述計算步驟 L 次后,得到所有 121 個節(jié)點 {zist}i=1|ν| 的全部結(jié)構(gòu)表征.
4.2上下文感知的語義建模
使用預(yù)訓(xùn)練語言模型的知識圖譜補全方法主要受平移模型影響,使用兩個孿生預(yù)訓(xùn)練語言模型編碼器(Siamese-stylePLMEncoders)來分別學(xué)習(xí)(subject,relation)和(object)的語義表征[1.12],并度量二者的匹配程度.這種方法割裂事實為兩部分,忽視了事實整體性,尤其在處理復(fù)雜超關(guān)系事實時效果不佳,且增加計算開銷.鑒于超關(guān)系事實需整體考慮,分解會損害其完整性,為此,本文收集并整理了超關(guān)系知識圖譜基準(zhǔn)數(shù)據(jù)集的相關(guān)文本信息,利用上下文語義輔助超關(guān)系圖譜補全.
4.2.1數(shù)據(jù)收集本文使用的超關(guān)系知識圖譜數(shù)據(jù)集包括基于Wikidata的WikiPeople[25和WD50K[4],以及基于Freebase的JF17K[26].實體和關(guān)系使用MID號作為標(biāo)識.對于WikiPeople和WD50K,通過查詢維基數(shù)據(jù)(https://www.wikidata.org/wiki/Special:EntityData)獲取英文文本描述;對于JF17K,關(guān)系使用其規(guī)范化后的單詞表示作為其文本描述,實體則通過Freebase(https://developers.google.com/freebase)提供的數(shù)據(jù)獲得文本描述.
4.2.2語義建模在收集并整理不同超關(guān)系知識圖譜數(shù)據(jù)集中實體和關(guān)系所對應(yīng)的文本描述后,如圖2b中所示,本文為每一個超關(guān)系事實都構(gòu)建對應(yīng)的文本序列.以一個訓(xùn)練批次中的第 b 個樣本為例,其對應(yīng)的文本序列構(gòu)建形式為:
其中, t[CLS] 是文本序列的首位標(biāo)識符; t[SEP] 是相鄰實體和關(guān)系間的分割標(biāo)識符; t(s) 是主三元組中頭實體的文本描述,為其實體名稱與實體描述的順序拼接,形如{MarieCurie:PolishphysicistandchemistnationalizedFrench},依此類推.隨后,將該序列輸人預(yù)訓(xùn)練語言模型中:
式(4)中, zise 表示異構(gòu)圖中節(jié)點 i 的節(jié)點級語義表征; PLM(?) 為預(yù)訓(xùn)練語言模型中的前向傳播過程; Poolglobal(?) 為單詞表征的平均池化; MLP(?) 為將預(yù)訓(xùn)練語言模型輸出表征的維度映射到 d 的多層感知機(Multi-layerPerceptron,MLP),其同樣可以被視為對于預(yù)訓(xùn)練嵌入的一個簡單微調(diào)(Fine-tuning).平均池化在句子嵌入中較其他池化類型通常具有更優(yōu)的性能[2],因此在式(5)中,對異構(gòu)完全圖使用全局圖級平均池化 Poolglobal(?) ,并通過使用激活函數(shù)tanh進(jìn)行非線性激活,由此獲得圖級全局語義表征 業(yè)
通常認(rèn)為預(yù)訓(xùn)練語言模型在龐大的真實語料庫中已經(jīng)學(xué)到了自然語言的有效表征[14-16].因此,本文簡單使用資源消耗較少、訓(xùn)練速度較快的微調(diào)任務(wù)來代替針對超關(guān)系事實文本描述的全量預(yù)訓(xùn)練任務(wù).具體而言,CoLor僅保留多層感知機中的梯度反向傳播(圖2b中標(biāo)注“TrainableMod-ule”),并停止傳播預(yù)訓(xùn)練語言模型中的梯度(圖2b中標(biāo)注\"FrozenModule\"),這也一定程度上緩解了微調(diào)任務(wù)中的\"崩潰解\"(Collapsing Solution)問題[28].
4.3結(jié)合三重對比監(jiān)督的跨模態(tài)對齊
本文使用余弦相似度來衡量結(jié)構(gòu)化的事實模態(tài)和非結(jié)構(gòu)化的文本模態(tài)之間的表征距離,如式(6)所示.
隨后,使用對比學(xué)習(xí)(ContrastiveLearning)方式來最大化正樣本(PositiveSamples)與負(fù)樣本(NegativeSamples)之間的距離,進(jìn)而得到更優(yōu)的超關(guān)系事實表示.如圖2b所示,CoLor設(shè)計了用于跨模態(tài)對齊的三重對比監(jiān)督,其同時包含了無監(jiān)督信號和有監(jiān)督信號,本文以大小為 B 的訓(xùn)練批次中的第 b 條樣本進(jìn)行說明.為了簡化符號表示,本文后續(xù)使用Z來等價表示{}1 =
4.3.1頂點級結(jié)構(gòu)感知的對比監(jiān)督根據(jù)監(jiān)督信號類型,CoLor設(shè)計了兩種頂點級結(jié)構(gòu)感知(Vertex-levelStructural-aware,VST)的對比監(jiān)督形式.
(1)無監(jiān)督VST.兩次獨立的dropout-masks已被證明能有效形成正例訓(xùn)練對,增強模型的穩(wěn)健性[27].CoLor將此拓展到超關(guān)系事實上,為等效異構(gòu)完全圖中所有頂點的結(jié)構(gòu)嵌入生成正例樣本,如圖2b中的 Zbst 和 所示區(qū)分.
(2)有監(jiān)督VST.對于一個含有 ?m 個限定符對超關(guān)系事實,CoLor生成 (2m+3) 個僅在補全位置上不同的訓(xùn)練樣本,無需復(fù)雜負(fù)采樣.在同一批次中,來自同一事實的樣本互為正例,其余為負(fù)例.對單個訓(xùn)練樣本而言,除其結(jié)構(gòu)嵌入和語義嵌入形成正樣本對外,即圖2b中帶陰影的矩陣上對角線方格 (Zbst,Zbse) ,同一批次中還有其他源自相同事實的樣本與其形成多正例對.
4.3.2頂點級語義感知的對比監(jiān)督考慮到結(jié)構(gòu)表征和語義表征是同一超關(guān)系事實的不同特征空間嵌人,因此,頂點級語義感知(Vertex-levelSemantic-aware,VSE)的對比監(jiān)督通過匹配的結(jié)構(gòu)-語義表征對進(jìn)行對齊,不匹配的則分離.該監(jiān)督機制關(guān)注異構(gòu)完全圖中的獨立頂點.在同一訓(xùn)練批次中,來自同一超關(guān)系事實的所有頂點的結(jié)構(gòu)嵌入與匹配的語義嵌入形成正樣本對,其余為負(fù)樣本對.
4.3.3圖級語義感知的對比監(jiān)督圖級語義感知(Graph-levelSemantic-aware,GSE)的對比監(jiān)督聚焦于等效超關(guān)系事實的全局層面,通過對比融合結(jié)構(gòu)嵌入 zcst 與對應(yīng)融合語義嵌入 實現(xiàn).因融合嵌入包含所有頂點信息,故GSE監(jiān)督也被所有頂點共享.
4.4模型訓(xùn)練與推理
4.4.1結(jié)構(gòu)表征訓(xùn)練與推理本文通過多分類任務(wù)實施并評估超關(guān)系知識圖譜補全.對于異構(gòu)完全圖中的頂點 i ,其等效對應(yīng)的實體候選可能性分布 ? 可通過兩層線性神經(jīng)網(wǎng)絡(luò)獲得,如式(7)所示.
其中, W1∈Rd×d b1∈Rd 及 b2∈R|ε| 為可學(xué)習(xí)的參數(shù); W2∈R|ε|×d 是與初始嵌人層共享的權(quán)重矩陣,多分類任務(wù)的訓(xùn)練目標(biāo)是最小化交叉熵?fù)p失(Cross-Entropy Loss) :
其中, yi 和 ?Pt 分別為頂點 i 的真實標(biāo)簽和第 t 個候選預(yù)測標(biāo)簽的可能性.最后,CoLor使用 zist 在測試集上進(jìn)行推理以衡量模型的性能.
4.4.2跨模態(tài)對比訓(xùn)練在訓(xùn)練過程中,CoLor首先將跨模態(tài)嵌人送人兩個共享參數(shù)的多層感知機來將它們投影到計算對比損失的空間.以對節(jié)點 i 的頂點級語義感知對比監(jiān)督的投影為例,如式
σ(?) 為Leaky-ReLU非線性激活函數(shù).其中,CoLor優(yōu)化作為訓(xùn)練目標(biāo)的 InfoNCE[28] 損失,如式(10)所示.
其中,超參數(shù) τ 用于調(diào)整正負(fù)樣本的區(qū)分度.對于單個訓(xùn)練樣本而言,總體訓(xùn)練目標(biāo) T 為式(11)所示.
其中, α,β,γ 是用于平衡對比損失的超參數(shù);λ是對模型參數(shù)集的 L2 正則化系數(shù).
5實驗
本文進(jìn)行了以下實驗:(1)與現(xiàn)有先進(jìn)超關(guān)系知識圖譜補全方法對比,驗證CoLor有效性;(2)觀察不同基座預(yù)訓(xùn)練模型對CoLor性能的影響;(3)通過消融實驗驗證各組件有效性;(4)測試不同超參數(shù)組合,檢查CoLor的參數(shù)敏感性;(5)案例分析說明利用外部語義信息的合理性.
5.1 實驗準(zhǔn)備
5.1.1數(shù)據(jù)集本文在JF17K、WikiPeople和WD50K等3個常用超關(guān)系知識圖譜基準(zhǔn)數(shù)據(jù)集上全面測試了CoLor的性能.JF17K由Wen等2自Freebase[6數(shù)據(jù)庫收集得到,其實體表示為MID標(biāo)識號,例如01027r;關(guān)系為結(jié)構(gòu)化文本,如award.ranking.WikiPeople由Guan等25]自Wikidata數(shù)據(jù)庫收集得到,專注于人物相關(guān)超關(guān)系事實,并由Rosso等9]過濾去除無關(guān)文字.WD50K由Galkin等4自Wikidata收集得到,覆蓋更多超關(guān)系事實,被視為一個高質(zhì)量基準(zhǔn).表1展示了數(shù)據(jù)集相關(guān)的統(tǒng)計數(shù)據(jù).表1中“元數(shù)”表示超關(guān)系事實所涉及的實體數(shù)量.
5.1.2基線方法本文將CoLor與多種最先進(jìn)的超關(guān)系知識圖譜補全基線方法進(jìn)行了比較(見表3).需注意以下兩點:(1)部分基線方法只針對補全主三元組中的頭尾實體,或針對補全所有實體而設(shè)計,因此并未在原始論文中報告其在所有情況下的實驗結(jié)果;(2)為公平比較,排除了基于文本的二元知識圖譜補全方法,例如KG-BERT[11]和SimKGC[1]:因為CoLor僅在訓(xùn)練階段使用靜態(tài)文本嵌入,推理時依賴結(jié)構(gòu)表征,且基于文本的知識圖譜方法難以直接拓展到超關(guān)系知識圖譜(詳見第4.2節(jié)).
5.1.3評價指標(biāo)如第4.4節(jié)所述,對測試集所有實體和關(guān)系,按候選答案概率降序排列,根據(jù)真實標(biāo)簽確定正確答案位次.評價指標(biāo)為知識圖譜領(lǐng)域通用的平均倒數(shù)排名(MeanReciprocalRank,MRR)和k位擊中率(Hits@k,即在top k ( k=1 ,10)命中答案的概率,簡寫為 .該兩種指標(biāo)值越高代表模型的性能越好.
5.1.4 超參數(shù) 本文使用網(wǎng)格搜索(Grid Search)來為CoLor選擇較優(yōu)超參數(shù),以實體補全上的Hits@1指標(biāo)為參考.最優(yōu)組合由對不同超參數(shù)的循環(huán)遍歷得到.參考Galkin等[4]、Wang等[5]、Luo等2的原文設(shè)置,在確定最優(yōu)配置后,結(jié)合訓(xùn)練集和驗證集進(jìn)行訓(xùn)練,并報告測試集上的評估結(jié)果.相關(guān)超參數(shù)設(shè)置如表2所示.
5.1.5運行環(huán)境與時間CoLor使用單張顯存為24G的RTX3090顯卡訓(xùn)練,以 AdamW[29] 優(yōu)化器來優(yōu)化訓(xùn)練目標(biāo) T. 通過凍結(jié)預(yù)訓(xùn)練語言模型的權(quán)重,CoLor僅保留用于其投影的多層感知機的權(quán)重,極大程度地減少了計算消耗.本文在CoLor的訓(xùn)練過程中同樣采用了卸載[30(offload)技術(shù),即通過預(yù)訓(xùn)練語言模型得到的語義表征只在需要檢索時才會加載到GPU顯存中,這樣也顯著降低了傳統(tǒng)預(yù)訓(xùn)練模型對于GPU顯存占用的依賴.與最具代表性的基于Transformer的方法之一STARE[4]相比,CoLor花費更少的訓(xùn)練時間并取得了更佳的性能表現(xiàn):對于WikiPeople數(shù)據(jù)集上的主三元組實體補全,CoLor將Hits @1 指標(biāo)提升 14.8% ,且訓(xùn)練速度較STARE快 25%
5.1.6CoLor變體本文為CoLor設(shè)計了4個變體:CoLor-(僅由角色感知的結(jié)構(gòu)建模編碼器訓(xùn)練,不涉及上下文感知的語義建模編碼器及跨模態(tài)表征對齊)、 CoLorBERT (BERT-base[14]作為基座預(yù)訓(xùn)練語言模型)、CoLorRoBERTa(RoBERTa-base[15]作為基座預(yù)訓(xùn)練語言模型)以及CoLorLlama-2(Llama-2-7B1作為基座預(yù)訓(xùn)練語言模型).
5.2 有效性評估
5.2.1補全對比實驗結(jié)果表3展示了不同方法在3個超關(guān)系知識圖譜基準(zhǔn)數(shù)據(jù)集上的實體補全對比結(jié)果,CoLor及其變體在不同數(shù)據(jù)集的絕大多數(shù)指標(biāo)上都取得了不同程度的領(lǐng)先.表3中,最優(yōu)結(jié)果加粗顯示,次優(yōu)結(jié)果加下劃線顯示.結(jié)果主要來自各方法對應(yīng)原始論文.“N/A\"表示對應(yīng)結(jié)果未在相關(guān)原始論文中報告或?qū)?yīng)基線方法不支持該種補全.在WikiPeople數(shù)據(jù)集上,對于所有實體補全,CoLor及其變種在MRR/H@1/H@10指標(biāo)上分別至多提高了 2.1(4.2%)/3.2(7.5%)/ 1.2(1.9%) .在WD50K數(shù)據(jù)集上,對于頭/尾實體補全,CoLor及其變體在MRR/ H@1/H@10 指標(biāo)上分別至多提高 1.3(3.7%)/1.6(5.8%)/ 0.8(1.6% .由于這兩個數(shù)據(jù)集的文本描述相對完整,CoLor及其變體能夠有效整合預(yù)訓(xùn)練語言模型中保留的通用知識,從而顯著提高了補全質(zhì)量.在JF17K數(shù)據(jù)集中,結(jié)合預(yù)訓(xùn)練語言模型的相關(guān)CoLor變體相對表現(xiàn)次優(yōu).JF17K數(shù)據(jù)集為原生超圖結(jié)構(gòu)而非超關(guān)系事實結(jié)構(gòu),其事實中的屬性關(guān)系被構(gòu)建為主關(guān)系的簡單備份[4.9]而并非含有真實屬性關(guān)系語義.由此,JF17K數(shù)據(jù)集所含的語義信息較原生超關(guān)系數(shù)據(jù)集相對更少,結(jié)合預(yù)訓(xùn)練語言模型的CoLor變體可能會因此受到干擾進(jìn)而表現(xiàn)出其補全性能低于CoLor-.
5.2.2基座預(yù)訓(xùn)練語言模型對比如表3所示,在相同超關(guān)系圖譜基準(zhǔn)數(shù)據(jù)集上,不同基座預(yù)訓(xùn)練模型的CoLor及變體表現(xiàn)各異.基于自編碼器的掩碼語言模型(MaskedLanguage Model,MLM如BERT和RoBERTa,表現(xiàn)優(yōu)于生成式模型Llama-2.盡管RoBERTa改進(jìn)了BERT的訓(xùn)練策略,BERT在超關(guān)系圖譜上仍表現(xiàn)出更佳的文本表征.Llama-2因其自回歸(Autoregressive)訓(xùn)練方式,更擅長生成連續(xù)文本而非精準(zhǔn)預(yù)測具體實體或關(guān)系,其補全性能低于BERT類模型,符合預(yù)期.
5.3 進(jìn)一步分析
5.3.1消融實驗本文使用文本描述信息保存較為完整的數(shù)據(jù)集,即WikiPeople上實體補全表現(xiàn)較好的 CoLorBERT 進(jìn)行對應(yīng)的消融實驗以全面評估CoLor的關(guān)鍵構(gòu)成部分.消融實驗結(jié)果如表4所示.表中,“HCG”表示邊偏置所對應(yīng)構(gòu)建的異構(gòu)完全圖;“RE\"表示角色嵌入;“VST”、“VSE\"和“GSE”分別表示3種跨模態(tài)對比監(jiān)督(見第4.3節(jié)).所有組件均在不同層面上提升了補全性能,表明融合外部語義信息于超關(guān)系圖譜建模中有價值.總體上,5個關(guān)鍵組件均正向促進(jìn)了CoLor的補全性能.5.3.2參數(shù)敏感性分析本文在WikiPeople上對CoLOrBERT調(diào)整跨模態(tài)對比學(xué)習(xí)的損失參數(shù) α 、β,γ 以及批量大小并觀察模型性能變化.實驗固定了除研究變量外的其他超參數(shù)為最優(yōu)值.實驗結(jié)果如圖3a和3b所示,表明隨著對比樣本數(shù)量的增加,CoLor的實體補全性能也隨之提升.此外,三重對比監(jiān)督均能有效地促進(jìn)超關(guān)系知識圖譜的補全任務(wù).然而,當(dāng)跨模態(tài)對比損失系數(shù) α,β 和y增大時,性能指標(biāo)出現(xiàn)了輕微的下降趨勢.這可能是因為結(jié)構(gòu)化事實模態(tài)與非結(jié)構(gòu)化文本模態(tài)間存在的噪聲導(dǎo)致了這種現(xiàn)象,因此跨模態(tài)對比損失的權(quán)重需要進(jìn)行適當(dāng)?shù)钠胶猓?/p>
5.3.3案例分析本文在WikiPeople數(shù)據(jù)集上隨機選取測試集中的“困難\"案例(Hardcases)進(jìn)行分析.“困難”案例指存在相似候選者的場景,選擇此類案例以展示方法在高混淆風(fēng)險下的魯棒性.
表5給出了3個“困難\"案例, ET ”和 EA ”分別表示支持候選與真實實體/關(guān)系的文本證據(jù).表5中待補全真實實體/關(guān)系加粗表示.表5列出前三候選實體/關(guān)系及其對應(yīng)概率,CoLor分別在不同候選位置上完成正確預(yù)測.盡管候選者寓意相似,CoLor仍能縮小候選范圍而有效補全(甚至可以用正確的上下文意義替換給定的答案).此外,還進(jìn)行了可視化實驗.圖4a為WikiPeople實體嵌入對應(yīng)t-SNE二維投影;圖4b顯示了案例②在結(jié)構(gòu)編碼器最后一層中不同實體與關(guān)系間的可視化注意力權(quán)重.CoLor將實體表征在投影空間中劃分為多個明顯且分離的簇,顯示了其有效性.
6結(jié)論
本文所提出的CoLor方法針對超關(guān)系知識圖譜補全,首先通過構(gòu)建等價于每個超關(guān)系事實的異構(gòu)完全圖以及實體和關(guān)系對應(yīng)的角色嵌入,充分挖掘了超關(guān)系知識圖譜的內(nèi)部結(jié)構(gòu)信息;同時,通過收集實體與關(guān)系對應(yīng)的外部文本描述,并結(jié)合預(yù)訓(xùn)練語言模型引入圖譜的外部語義信息;最后,利用豐富的對比監(jiān)督信號來對齊跨模態(tài)表征,從而有效學(xué)習(xí)了超關(guān)系知識圖譜的跨模態(tài)表示,進(jìn)一步優(yōu)化了對超關(guān)系知識圖譜的補全性能.
盡管CoLor表現(xiàn)出良好的性能,其仍然存在部分限制,如引入其他模態(tài)所帶來相對較高的計算消耗,以及當(dāng)數(shù)據(jù)集語義信息質(zhì)量較低時難以充分利用預(yù)訓(xùn)練語言模型.未來計劃持續(xù)挖掘更高質(zhì)量的結(jié)構(gòu)-語義樣本對并引入多卡并行計算以提升跨模態(tài)對比學(xué)習(xí)質(zhì)量和提高模型訓(xùn)練效率.
參考文獻(xiàn):
[1] WangL,Zhao W,WeiZ,et al.SimKGC:Simple contrastive knowledge graph completion with pretrained language models [C]//Proceedings of the 60th Annual Meeting of the Association for Computa tional Linguistics.Dublin:ACL,2022:4281.
[2] Luo H,EH,YangY,et al.HAHE:Hierarchical attention for hyper-relational knowledge graphsin global and local level[C]//Proceedings of the 6lst Annual MeetingoftheAssociation forComputational Linguistics. Toronto:ACL,2023:8095.
[3] LiZ,Huang C,ZengY,et al.Link completion and keynode identification of fraudulent network based on knowledge graph embedding[J]. Journal of SichuanUniversity(Natural ScienceEdition),2O24,61: 030004.[李澤卿,黃誠,曾雨潼,等.基于知識圖譜 嵌入的涉詐網(wǎng)絡(luò)鏈接補全和關(guān)鍵節(jié)點識別[J].四川 大學(xué)學(xué)報(自然科學(xué)版),2024,61:030004.]
[4] GalkinM,TrivediP,MaheshwariG,etal.Mes sage passingforhyper-relationalknowledge graphs[C]//Proceedings of the 2O2O Conference on Empirical Methods in Natural Language Processing, EMNLP202O,Online:ACL,2020:7346.
[5] WangQ,WangH,LyuY,et al.Link prediction on n-aryrelational facts:A graph-based approach[C]// Findings of the Association for Computational Linguistics.[S.1.]:ACL,2021:396.
[6] BollackerKD,EvansC,ParitoshPK,etal.Freebase:A collaboratively created graph database for structuring human knowledge [C]//Proceedings of the ACM SIGMOD International Conference on Management of Data.Vancouver:ACM,2008: 1247.
[7] WangC,Wang X,LiZ,et al.HyConvE:A novel embedding model for knowledge hypergraph link prediction with convolutional neural networks[C]//Proceedings of the ACM Web Conference 2023.Austin, TX:ACM, 2023:188.
[8] Guo Z,Zuo J,Duan L,et al.A generative adver sarial negative sampling method for knowledge hypergraph link prediction[J]. Journal of Computer Research and Development,2022,59:1742.[郭正山, 左劫,段磊,等.面向知識超圖鏈接預(yù)測的生成對 抗負(fù)采樣方法[J].計算機研究與發(fā)展,2022,59: 1742.]
[9] Rosso P,Yang D,Cudre-Mauroux P. Beyond triplets:Hyper-relational knowledge graph embedding for link prediction[C]//Proceedings of The Web Conference 2020.Taipei:ACM,2020:1885.
[10]Dong X,Gabrilovich E,Heitz G,et al. Knowledge vault:A web-scale approach to probabilistic knowledge fusion[C]//Proceedings of the 2Oth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM, 2014: 601.
[11]Yao L,Mao C,Luo Y.KG-BERT:BERT for knowledge graph completion [EB/OL]. [2024-09- 11].https://arxiv.org/abs/1909.03193.
[12]Wang B, Shen T,Long G,et al. Structureaugmented text representation learning for efficient knowledge graph completion [C]//Proceedings of The Web Conference 2O21.Ljubljana:ACM,2021: 1737.
[13]VaswaniA,ShazeerN,Parmar N,et al.Attention is all you need[C]//Proceedings of the Annual Conference on Neural Information Processing Systems. Long Beach:MIT Press,2017:5998.
[14]Devlin J,Chang M W,Lee K,et al. BERT:Pretraining of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the AsSociation for Computational Linguistics. Minneapolis:ACL,2019: 4171.
[15]Liu Y,Ott M,Goyal N,et al. RoBERTa:A robustly optimized BERT pretraining approach[EB/ OL].[2019-07-26]. htps://arxiv.org/abs/1907. 11692.
[16]Touvron H,Martin L,Stone K,et al. Llama 2: Open foundation and fine-tuned chat models[EB/ OL].[2024-07-19]. https://arxiv. org/abs/2307. 09288.
[17]Antoine B,Nicolas U,Alberto G,et al. Translating embeddings for modeling multi-relational data[C]// Proceedings of the 27th Annual Conference on Neural Information Processing Systems.Lake Tahoe, Nevada: MIT Press, 2013: 2787.
[18]Sun Z,Deng Z,Nie J,et al. RotatE: Knowledge graph embedding by relational rotation in complex space[C]//Proceedings of the 7th International Conference on Learning Representations.New Orleans: ICLR,2019:1.
[19]Di S,Chen L.Message function search for knowledge graph embedding [C]//Proceedings of the ACMWebConference2023.Austin:ACM,2023: 2633.
[20]Kipf T N,Welling M. Semi-supervised classification with graph convolutional networks[C]//Proceedings of 5th International Conference on Learning Representations. Toulon: ICLR,2017:1.
[21]Shomer H, Jin W,Li J,et al. Learning representations for hyper-relational knowledge graphs[C]// Proceedings of the International Conference on Advances in Social Networks Analysis and Mining. Kusadasi: ASONAM, 2023:253.
[22]Xiong B,NayyeriM,Pan S,et al.Shrinking embeddings for hyper-relational knowledge graphs [C]// Proceedings of the 6lst Annual Meetingof the Association for Computational Linguistics. Toronto: ACL,2023:13306.
[23]Ba JL,Kiros JR,Hinton G. Layer normalization[EB/OL].[2024-07-21].htps://arxiv.org/ abs/1607.06450.
[24]He K, Zhang X,Ren S,et al. Deep residual learning forimage recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas: IEEE, 2016: 770.
[25]Guan S, Jin X,Wang Y,et al. Link prediction on Naryrelational data[C]//Proceedings of the World Wide Web Conference.San Francisco: ACM, 2019:583.
[26]Wen J,Li J,Mao Y,et al.On the representation and embedding of knowledge bases beyond binary relations[C]//Proceedingsof the 25th International Joint Conference on Artificial Intelligence.New York:Morgan Kaufmann,2016:1300.
[27]Gao T,Yao X,Chen D. SimCSE:Simple contrastive learning of sentence embeddings[C]//Proceedings of the 2O21 Conference on Empirical Methods in Natural Language Processing. Punta Cana: ACL, 2021:6894.
[28]Chen T,Kornblith S,Norouzi M,et al.A simple framework for contrastive learning of visual representations[C]//Proceedings of the 37th International Conference on Machine Learning.Virtual Event: ACM,2020:1597.
[29]Loshchilov I,Hutter F.Decoupled weight decay regularization[C]//Proceedings of the 7th International Conference on Learning Representations.New Orleans:ICLR,2019:1.
[30]Ren J,Rajbhandari S,Aminabadi RY,et al. Zerooffload:Democratizing billion-scale model training[C]//Proceedings of the 2021 USENIX Annual Technical Conference.[S.1.]:USENIX Association,2021:551.
[31]Zhang R,Li J,Mei J,et al. Scalable instance reconstruction in knowledge bases via relatedness affiliated embedding[C]//Proceedings of the 2018 World WideWeb Conference.Lyon:ACM,2018:1185.
[32]Guan S,Jin X,Guo J, et al. NeuInfer: Knowledge inference on N-ary facts[C]//Proceedings of the 58th Annual Meeting of the Association for ComputationalLinguistics.[S.1.]:ACL,2O2O:6141.
[33]Lu Y, Yang D,Wang P,et al. Schema-aware hyperrelational knowledge graph embeddings for link prediction[J]. IEEE Transactions on Knowledge and Data Engineering,2024,36:2614.
(責(zé)任編輯:伍少梅)