關(guān)鍵詞:語言模型;Transformer;聚合局部鄰居三元組;特征增強(qiáng)注意力
0 引言(Introduction)
近年來,盡管人工智能在諸多任務(wù)上取得了顯著進(jìn)展,但仍面臨無法真正獲取和理解文本語義信息的問題,其核心問題在于機(jī)器缺乏足夠的先驗(yàn)知識,理解事物的能力還遠(yuǎn)達(dá)不到人類的平均水平,這限制了其聯(lián)想和推理能力的發(fā)展。知識圖譜表示學(xué)習(xí)旨在將實(shí)體和關(guān)系映射到一個連續(xù)的低維向量空間中,隱式地進(jìn)行推理,并應(yīng)用于下游任務(wù)[1]。然而,傳統(tǒng)知識表示方法存在復(fù)雜性高、泛化能力較差、遠(yuǎn)距離依賴表現(xiàn)不佳等問題。隨著Transformer架構(gòu)語言模型的發(fā)展,研究人員開始使用Transformer處理圖譜相關(guān)研究,知識表示技術(shù)[2]應(yīng)運(yùn)而生。Transformer憑借著強(qiáng)大的關(guān)系建模能力、出色的泛化能力及高度的擴(kuò)展性,在知識表示方面展現(xiàn)出了巨大的應(yīng)用潛力。然而,Transformer主要被設(shè)計用于處理較為集中的序列數(shù)據(jù),因此在進(jìn)行圖譜知識表示時,存在語義、結(jié)構(gòu)關(guān)聯(lián)信息缺失的問題[3]。為解決上述問題,本文設(shè)計了基于Transformer框架的知識表示方法CNAR。該方法充分融合了三元組的上下文和結(jié)構(gòu)信息,有效地解決了信息不完整的問題。實(shí)驗(yàn)結(jié)果表明,與基線方法相比,本文提出的方法在多個數(shù)據(jù)集上均取得了效果提升,充分驗(yàn)證了其有效性。
1 相關(guān)工作(Related work)
為了全面了解現(xiàn)有知識表示學(xué)習(xí)方法的發(fā)展?fàn)顩r,本研究的調(diào)研工作將圍繞以下兩個核心維度展開:①知識圖譜表示學(xué)習(xí);②圖結(jié)構(gòu)利用Transformer架構(gòu)進(jìn)行信息的挖掘。
1.1 知識圖譜表示學(xué)習(xí)
當(dāng)前,知識表示學(xué)習(xí)方法主要分為4類:翻譯距離模型、語義匹配模型、神經(jīng)網(wǎng)絡(luò)模型及預(yù)訓(xùn)練語言模型。經(jīng)典的transX系列(transE[4]、transH[5]、transR[6]、transD[7])翻譯距離模型是基礎(chǔ)模型的開創(chuàng)者,其中transE模型是對一個事實(shí)三元組(h,r,t)利用頭實(shí)體向量和關(guān)系向量的和,預(yù)測尾實(shí)體的向量滿足等式h+r=t。其中:h、r、t 分別代表頭實(shí)體、關(guān)系、尾實(shí)體的嵌入。transE擅長處理一對一類型的關(guān)系,而在處理一對多或多對一等關(guān)系時存在一定問題。為解決transE的問題,transH和transR模型被引入超平面,它們?yōu)椴煌年P(guān)系建立多元的表示,讓每個實(shí)體單獨(dú)學(xué)習(xí)關(guān)系的向量表示,但是這兩個模型的轉(zhuǎn)換方式變成了空間矩陣投影,導(dǎo)致計算的復(fù)雜度提高。后續(xù)的transD、tranSparse[8]等模型的性能雖然得到了一定程度的提高,但是當(dāng)前的翻譯距離表示方法僅考慮了三元組的結(jié)構(gòu)信息,導(dǎo)致?lián)p失了實(shí)體和關(guān)系的語義信息。DistMult[9]、ComplEx[10]、simplE[11]是幾種具有代表性的語義匹配模型。其中,simplE模型獨(dú)立學(xué)習(xí)每個實(shí)體的兩個嵌入,但其計算復(fù)雜度會隨著嵌入維度的提升而不斷增長。DistMult使用雙線性公式學(xué)習(xí)實(shí)體和關(guān)系的向量表示。Complex模型的設(shè)計優(yōu)化了DistMult,使其通用化程度提升,能夠很好地處理二元關(guān)系。除了使用評分函數(shù)的知識表示方法,圖結(jié)構(gòu)在神經(jīng)網(wǎng)絡(luò)中的應(yīng)用,特別是針對知識圖譜嵌入(KGE)問題,日益受到關(guān)注。R-GCN[12]采用參數(shù)共享和稀疏約束的方式將圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于關(guān)系圖的建模,雖然能夠?qū)χR圖譜進(jìn)行有效表示,但是模型的參數(shù)量會隨著關(guān)系數(shù)量上升而激增,并且容易出現(xiàn)過擬合現(xiàn)象。ConvE[13]將卷積神經(jīng)網(wǎng)絡(luò)用于KGE,它將實(shí)體和關(guān)系的一維嵌入向量連接并重塑為二維,再利用卷積核提取實(shí)體和關(guān)系特征,通過自學(xué)習(xí)捕捉復(fù)雜的實(shí)體關(guān)系,盡管在捕捉知識圖譜中的遠(yuǎn)距離依賴性表現(xiàn)不佳,但與R-GCN多關(guān)系圖神經(jīng)網(wǎng)絡(luò)相比,它在減少模型參數(shù)量的同時提升了性能。ConvKB[14]在ConvE的基礎(chǔ)上,將三元組表示為三列嵌入向量,并通過多個卷積核提取不同的特征。隨著語言模型的發(fā)展,Transformer架構(gòu)因其卓越的數(shù)據(jù)處理能力和泛化性能逐漸成為主流。這一架構(gòu)吸引了許多科研人員將更多的創(chuàng)新性應(yīng)用融入其中,以進(jìn)一步推動知識圖譜嵌入技術(shù)的進(jìn)步。
1.2 圖結(jié)構(gòu)用于Transformer
Transformer作為序列數(shù)據(jù)建模中的佼佼者,其強(qiáng)大的性能促使很多研究人員嘗試將其應(yīng)用到圖領(lǐng)域。這一探索歷程經(jīng)歷了從基本的圖結(jié)構(gòu)適配到高級圖結(jié)構(gòu)注意力機(jī)制等多個階段。在早期的探索中,研究人員通過引入節(jié)點(diǎn)級別的注意力機(jī)制,允許每個節(jié)點(diǎn)根據(jù)其鄰居特征調(diào)整自己的表示。隨著研究的深入,中期方法繼承了圖結(jié)構(gòu)信息,通過改進(jìn)注意力機(jī)制,更好地適應(yīng)圖的拓?fù)浣Y(jié)構(gòu),如Graph-Bert[15] 和GraphTransformer Network[16]都是保留圖的結(jié)構(gòu)信息,并且也將其應(yīng)用于異構(gòu)圖的研究。當(dāng)前,最新的方法是結(jié)合全局和局部的注意力機(jī)制,實(shí)現(xiàn)對圖中長程依賴和復(fù)雜拓?fù)浣Y(jié)構(gòu)關(guān)系的有效處理,如Graph learning with Low-Rank representation[17]使解決KGE問題的過程更加高效和靈活。為了利用知識圖譜的語義信息,KG-Bert[18]將語言模型Bert應(yīng)用于KGE,依靠雙向轉(zhuǎn)換器結(jié)構(gòu)學(xué)習(xí)知識圖譜上下文信息的語義特征,挖掘?qū)嶓w和關(guān)系的潛在語義關(guān)聯(lián)。MTL-KGC[19]多任務(wù)知識圖譜補(bǔ)全模型在KG-Bert的基礎(chǔ)上添加了關(guān)系預(yù)測任務(wù),并采用相關(guān)性排序拉開正負(fù)樣本的評分差距,提升了模型區(qū)分正負(fù)樣本的能力。Pretrain-KGE[20]通過引入描述知識圖譜實(shí)體和關(guān)系的外部語義信息,并對語言模型進(jìn)行微調(diào),進(jìn)而學(xué)習(xí)到更豐富的語義特征,從而提高了KGC模型的性能。
上述對知識圖譜表示方法的研究顯示,雖然預(yù)訓(xùn)練模型能解決很多問題,但是仍存在以下問題。
(1)結(jié)構(gòu)信息稀疏性。Transformer擅長處理密集的序列數(shù)據(jù),但在稀疏圖數(shù)據(jù)中可能會丟失局部信息。知識圖譜將圖數(shù)據(jù)結(jié)構(gòu)信息如何與Transformer模型的注意力機(jī)制結(jié)合進(jìn)行表示學(xué)習(xí),這一過程對Graph Transformer的發(fā)展尤為關(guān)鍵,而如ConTextGraph[21]、GraphBert[22]等圖神經(jīng)網(wǎng)絡(luò)盡管引入了結(jié)構(gòu)增強(qiáng)注意力機(jī)制,但是大多都為節(jié)點(diǎn)級別,無法捕捉到長程依賴和全局上下文語境,并且沒有充分表示實(shí)體結(jié)構(gòu)之間的復(fù)雜交互信息。
(2)拓?fù)湫畔⒄侠斫獾牟煌暾浴VR圖譜作為圖結(jié)構(gòu)知識庫,具有獨(dú)特的拓?fù)浣Y(jié)構(gòu)和文本特征。許多圖模型主要聚焦于直連的局部鄰居信息,難以整合整個圖的全局拓?fù)湫畔?。還有很多方法通過多跳路徑捕捉全局的依賴關(guān)系而忽略了局部細(xì)節(jié)。
(3)語義信息多樣化的歧義性。對于具有豐富語義信息的知識圖譜,實(shí)體所在的位置不同,其所代表的含義也會不同,多個邊也會具有不同的關(guān)系信息,導(dǎo)致異構(gòu)表示。因此,如何結(jié)合上下文關(guān)聯(lián)信息進(jìn)行信息的嵌入是需要認(rèn)真考慮和解決的問題。
本研究提出了CNAR圖譜嵌入Transformer框架。首先通過設(shè)計聚合局部鄰居三元組,解決上下文關(guān)聯(lián)信息不足的問題。它將聚集的上下文關(guān)聯(lián)三元組集合作為模型的輸入序列。具體來說,是將互相帶有關(guān)聯(lián)信息的三元組組成集合,生成具有上下文關(guān)聯(lián)信息的子圖序列,并將其饋送進(jìn)入Transformer作為輸入,包含三元組之間上下文信息和局部實(shí)體關(guān)系的交互信息,可以在緩解圖結(jié)構(gòu)信息的稀疏性和語義信息的歧義性的同時,保留更多的結(jié)構(gòu)信息。其次引入了一種方法,即微調(diào)語言模型以特征注意力的方式關(guān)聯(lián)三元組和鄰近三元組的特征向量,目的是減少鄰接三元組關(guān)聯(lián)信息的損失,同時根據(jù)不同的重要程度進(jìn)行正確推斷,更好地服務(wù)下游任務(wù)(知識補(bǔ)全任務(wù):鏈路預(yù)測),為知識圖譜表示問題設(shè)計出一個新的解決方法,并通過實(shí)驗(yàn)評估CNAR框架的表現(xiàn)。具體來說,本研究使用FB15K-237、WN18RR、UMLS和自己創(chuàng)建的機(jī)器人數(shù)據(jù)集ROBOT對CNAR 框架的性能進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明,CNAR框架具有較好的圖譜表示效果。此外,使用自己創(chuàng)建的數(shù)據(jù)集進(jìn)行測試也是為未來的優(yōu)化工作做好準(zhǔn)備。
CNAR是基于Transformer架構(gòu)的知識圖譜表示方法,旨在通過聚合局部鄰居三元組和特征增強(qiáng)注意力,有效解決上下文語義信息和結(jié)構(gòu)信息缺失的問題。在3個公用數(shù)據(jù)集和1個專門構(gòu)建的領(lǐng)域內(nèi)數(shù)據(jù)集上進(jìn)行測試。實(shí)驗(yàn)結(jié)果顯示,對比8個基準(zhǔn)模型,CNAR展現(xiàn)出優(yōu)越的性能,表現(xiàn)穩(wěn)居前列。
2 方法(Approach)
2.1 模型架構(gòu)
CNAR通過將知識圖譜中的三元組信息上下文化和結(jié)構(gòu)化融入Bert模型,利用特征注意力微調(diào)語言模型,不僅繼承了Transformer強(qiáng)大的特征抽取能力,還提高了語言模型對實(shí)體、關(guān)系和屬性之間語義信息的理解能力與關(guān)聯(lián)程度。改進(jìn)知識圖譜表示技術(shù)的目的是提升圖譜嵌入的語義結(jié)構(gòu)信息的準(zhǔn)確性,為后續(xù)下游任務(wù),如知識補(bǔ)全鏈路預(yù)測,提供更加準(zhǔn)確和豐富的語義支持,從而顯著提升這些任務(wù)的推理能力和效果。CNAR整體框架圖如圖1所示。
本研究采用知識賦能語言模型增強(qiáng)語言模型的表示能力。在backbone上選擇Bert,并調(diào)整使其適用于知識庫三元組的形式。對于模型訓(xùn)練,分別構(gòu)建正樣本和負(fù)樣本,正樣本三元組頭尾實(shí)體的輸入,可以是實(shí)體描述或?qū)嶓w名本身;三元組給定負(fù)樣本一個三元組,隨機(jī)替換實(shí)體或關(guān)系,并且確保生成的新三元組在KG知識圖譜中不存在。在此基礎(chǔ)上對Bert進(jìn)行改進(jìn),在數(shù)據(jù)輸入的部分通過聚合局部鄰居三元組技術(shù)修改Bert輸入,以提取到更多的三元組結(jié)構(gòu)和語義關(guān)聯(lián)信息。在輸出部分采用特征增強(qiáng)注意力的目的是,在數(shù)據(jù)轉(zhuǎn)化為向量的過程中保留更多的原始信息,減少信息的損失。知識圖譜包含大量的實(shí)體關(guān)系事實(shí)結(jié)構(gòu)信息,然而其龐大的規(guī)模與復(fù)雜性使得直接將整個KG輸入Transformer模型中變得不切實(shí)際,因此本研究設(shè)計將聚合的局部三元組信息作為輸入序列輸入BERT中,通過這種方式可以得到“實(shí)體-關(guān)系”“實(shí)體-實(shí)體”“關(guān)系-關(guān)系”對的交互。這種方式既保留了結(jié)構(gòu)信息,也提高了對語義信息的保留程度。進(jìn)一步地,本研究利用Transformer架構(gòu)的強(qiáng)大特征學(xué)習(xí)能力,從輸入的三元組序列中提取出高質(zhì)量的特征向量。針對BERT這類僅包含編碼器(encoder-only)的結(jié)構(gòu),為了減少在特征信息轉(zhuǎn)化過程中的信息損失,本研究特別添加了特征增強(qiáng)注意力機(jī)制,該機(jī)制增加三元組之間的權(quán)重,以此提高模型提取圖譜信息的準(zhǔn)確性,同時有助于可信度的提升。
接下來,本文詳細(xì)介紹圖譜用于知識表示的技術(shù)細(xì)節(jié),重點(diǎn)討論知識圖譜表示、聚合局部鄰居三元組技術(shù)和特征增強(qiáng)注意力。
2.2 數(shù)據(jù)處理
本研究使用4種數(shù)據(jù)集,分別是WN18RR[23]、FB15K-237[23]、UMLS[24]和ROBOT自制數(shù)據(jù)集,對CNAR框架進(jìn)行性能驗(yàn)證。構(gòu)建ROBOT數(shù)據(jù)集的目的是驗(yàn)證圖譜表示學(xué)習(xí)方法的有效性,并為未來對大語言模型的合理性及其控制機(jī)器人服務(wù)人類的安全性進(jìn)行驗(yàn)證做好準(zhǔn)備工作。下面詳細(xì)介紹數(shù)據(jù)集的處理步驟。
本研究采用了數(shù)據(jù)規(guī)模龐大且內(nèi)容多樣的機(jī)器人操作行為數(shù)據(jù)集———BridgeDataV2,該數(shù)據(jù)集涵蓋了機(jī)器人在多種環(huán)境下操作各種任務(wù)的數(shù)據(jù),研究人員以其中提供的文本類半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)作為原始數(shù)據(jù),對收集到的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗(去除重復(fù)值、處理缺失值、糾正錯誤及標(biāo)準(zhǔn)化數(shù)據(jù)格式)。隨后,研究人員進(jìn)行了知識抽取。首先,抽取所需要的實(shí)體關(guān)系和屬性信息,通過命名實(shí)體識別技術(shù)、依存句法分析和屬性抽取等方法進(jìn)行知識表示;其次結(jié)合服務(wù)機(jī)器人的行為準(zhǔn)則,對數(shù)據(jù)進(jìn)行篩選和補(bǔ)充,在此基礎(chǔ)上,按照“實(shí)體-關(guān)系-實(shí)體”和“實(shí)體-屬性-屬性值”的結(jié)構(gòu),對數(shù)據(jù)進(jìn)行重新建模與整合,重新構(gòu)建了一個新的數(shù)據(jù)集。機(jī)器人圖譜構(gòu)建框圖如圖2所示。
2.3 聚合局部鄰居三元組技術(shù)
根據(jù)前文描述,由于KG包含大量的實(shí)體關(guān)系結(jié)構(gòu)信息,因此整個實(shí)體關(guān)系圖譜不能直接饋送進(jìn)Transformer中。為了減輕全圖輸入Transformer的局限性,減少信息壓縮的損失。受到“Inductive Representation learning on LG[25]”的啟發(fā),即它通過采樣與聚合鄰居節(jié)點(diǎn)的信息產(chǎn)生目標(biāo)頂點(diǎn)的embedding向量,允許從不同的鄰居子圖中學(xué)習(xí)節(jié)點(diǎn)表示。據(jù)此,本研究提出將聚合鄰居三元組作為輸入序列對局部三元組結(jié)構(gòu)和語義信息進(jìn)行編碼。
聚合鄰居三元組Sg 被定義為包含圖譜中實(shí)體和關(guān)系的三元組列表。每個中心三元組Se 分別獲取頭尾實(shí)體的鄰居節(jié)點(diǎn)的三元組列表Scontexth 和Scontextt,整個處理步驟如公式(1)至公式(3)所示:
其中:t 代表目標(biāo)實(shí)體,M 表示從圖中獲取鄰居節(jié)點(diǎn)三元組數(shù)量的最大值。
通過提取圖譜的實(shí)體和關(guān)系信息并存儲正反向關(guān)系圖,提出了NNT(Neighbor Node Triplet)方法,利用其獲取指定節(jié)點(diǎn)在圖中一階鄰居節(jié)點(diǎn)的三元組。通過NNT可以獲取給定實(shí)體作為頭尾實(shí)體的鄰居三元組信息,通過獲取頭尾實(shí)體的鄰居三元組集合構(gòu)建子圖,可以更全面地得到目標(biāo)實(shí)體在圖中的相關(guān)鄰居信息,并達(dá)到聚合鄰居三元組的目的。
經(jīng)過上述處理,可以得到目標(biāo)實(shí)體聚合的子圖,同時保留了聚合的子圖局部信息。按照上述方法遍歷圖中的節(jié)點(diǎn),并去除重復(fù)的三元組信息,就得到了全局的語義結(jié)構(gòu)信息。由此注意到“實(shí)體-關(guān)系”對信息對于KGs來說是很重要的信號。因此,將“實(shí)體-關(guān)系”對表示為純文本,并將關(guān)系視為聚合鄰居三元組中的特殊節(jié)點(diǎn)。通過這種方式可以獲得節(jié)點(diǎn)對信息,包括“實(shí)體-關(guān)系”“實(shí)體-實(shí)體”“關(guān)系-關(guān)系”對之間信息的交互。
通過上述方法,我們獲得了最終的輸入序列,它包含全局語義,其結(jié)構(gòu)信息是能被Transformer處理的序列。這樣的處理方式有效緩解了直接饋送整個圖譜到Transformer的局限性,同時極大地降低了原始圖譜語義信息在轉(zhuǎn)換過程中的損失,從而確保了信息的完整性和準(zhǔn)確性。
2.4 特征增強(qiáng)注意力
采用聚合局部鄰居三元組采樣技術(shù)處理原始圖譜數(shù)據(jù),不僅解決了直接將整個圖譜饋送到Transformer的難題,還能保持全局的語義信息。隨后,將處理后的具有鄰居三元組信息的子圖作為序列通過修改模型的輸入方式送進(jìn)Bert。選取Bert作為baseline,是因?yàn)樗哂袕?qiáng)大的語言理解能力和泛化能力,并且對于理解復(fù)雜的實(shí)體關(guān)系屬性尤為擅長,可以捕捉更加細(xì)粒度的語義關(guān)系信息。相較于以往的處理知識圖譜嵌入方法,雖然它們能學(xué)到獨(dú)特的實(shí)體關(guān)系表示,但是忽略了上下文,并且句法和語義信息在大規(guī)模文本數(shù)據(jù)中沒有得到很好的利用;而通過Bert的處理,設(shè)計了特征增強(qiáng)注意力,對語言模型Bertencoder生成的向量進(jìn)行三元組特征增強(qiáng),對每個三元組的特征向量和其鄰域三元組特征向量設(shè)計權(quán)重,進(jìn)行注意力關(guān)聯(lián),目的是在減少鄰接三元組關(guān)聯(lián)信息損失的同時,還能根據(jù)重要程度的不同,提高下游任務(wù)預(yù)測正確的能力。
下面著重講述特征增強(qiáng)注意力:獲取encoder后的一系列三元組特征,其中N 為三元組的個數(shù),F(xiàn) 為每個三元組。
為了獲得更多三元組之間的關(guān)聯(lián)信息,將輸入特征轉(zhuǎn)換為更加多樣的特征表示,至少是需要一個可以學(xué)習(xí)的線性轉(zhuǎn)換,其由權(quán)重矩陣W 完成。想要減少鄰接三元組的關(guān)聯(lián)信息的損失,就需要了解中心三元組與每個鄰接三元組之間的關(guān)聯(lián)程度,因此需要學(xué)習(xí)三元組相對于鄰近三元組的重要性。Z1、Z2分別表示中心三元組和鄰近三元組特征高階轉(zhuǎn)換,ekf 注意力系數(shù)即上述所提到的“三元組相對于鄰近三元組的重要性”。利用一維卷積層提取高級特征表示,學(xué)習(xí)序列數(shù)據(jù)之間的狀態(tài)關(guān)系。為了使系數(shù)在不同的三元組之間能更好地進(jìn)行比較,使用softmax函數(shù)進(jìn)行規(guī)范化,其過程如公式(5)至公式(8)所示:
在實(shí)驗(yàn)中,將卷積層權(quán)重向量參數(shù)化,考慮導(dǎo)正負(fù)樣本的多樣性,本研究利用公式(9)計算注意力系數(shù)。
標(biāo)準(zhǔn)化的注意力系數(shù)被用來計算與之對應(yīng)的特征的線性組合,作為每個三元組的最終輸出特征,如公式(10)所示:
通過此方法可以在保證原有語義信息準(zhǔn)確度的同時,減少鄰接三元組關(guān)聯(lián)信息的損失,進(jìn)而增強(qiáng)全圖的關(guān)聯(lián)性。
3 實(shí)驗(yàn)(Experiment)
為了解決以下問題,設(shè)計了CNAR知識表示框架并進(jìn)行大量實(shí)驗(yàn)和評估其性能。
Q1:設(shè)計優(yōu)化圖譜嵌入技術(shù)的目的是什么? 設(shè)計的CNAR模型的泛化能力如何?
Q2:CNAR與KG表示的基線進(jìn)行鏈路預(yù)測對比時表現(xiàn)如何?
Q3:CNAR中不同的關(guān)鍵模塊其整體性能有什么貢獻(xiàn)?
3.1 實(shí)驗(yàn)設(shè)置
使用單個Nvidia 3080Ti GPU,利用pytorch框架進(jìn)行試驗(yàn)。首先使用Bert-base-uncased作為baseline對三元組子圖進(jìn)行編碼,使用設(shè)計的特征注意力機(jī)制和聚合三元組技術(shù)對Transformer進(jìn)行微調(diào),使模型學(xué)習(xí)到完整的數(shù)據(jù)語義和結(jié)構(gòu)信息。通過對輸入訓(xùn)練的三元組集合的數(shù)量進(jìn)行調(diào)優(yōu),選擇合適的上下文子圖大小進(jìn)行驗(yàn)證。
3.1.1 數(shù)據(jù)集
為了全面評估本文設(shè)計的CNAR框架,在8個廣受認(rèn)可的基準(zhǔn)模型上進(jìn)行了對比實(shí)驗(yàn)。針對知識圖譜表示方法的下游鏈路預(yù)測任務(wù),在4個數(shù)據(jù)集中進(jìn)行評估,其中包括3個公開數(shù)據(jù)集WN18RR、FB15K-237和UMLS,以及一個本研究專門構(gòu)建的機(jī)器人數(shù)據(jù)集。WN18RR是WordNet的數(shù)據(jù)子集,它是對WordNet[26]關(guān)系進(jìn)行反轉(zhuǎn)和隨機(jī)采樣得到的英文知識圖。FB15K-237是Freebase[27]的子集,包括電影、書記、音樂等多個領(lǐng)域的信息。UMLS是生物醫(yī)學(xué)領(lǐng)域的專用小型數(shù)據(jù)集。本研究構(gòu)建的機(jī)器人數(shù)據(jù)集,包括機(jī)器人的各種操作行為。表1列出了各數(shù)據(jù)的分布,包括訓(xùn)練集、測試集和驗(yàn)證集。
3.1.2 評價指標(biāo)
對于知識圖譜表示學(xué)習(xí)的下游任務(wù)鏈路預(yù)測,使用MRR(Mean Reciprocal Rank)和Hits@10(命中率值)作為主要的評估指標(biāo),對KG表示模型的性能進(jìn)行評估。如公式(11)所示,MRR 是指目標(biāo)實(shí)體預(yù)測實(shí)際排名倒數(shù)的平均值,該項(xiàng)指標(biāo)值越大,表述模型的性能越好;如公式(12)所示,Hits@K 是指目標(biāo)實(shí)體預(yù)測排名小于K 的占比,該指標(biāo)的值越大,表述模型的性能越好。
其中:|T|表示三元組的個數(shù);ranki 表示第i 個目標(biāo)實(shí)體對于預(yù)測三元組的實(shí)際排名;Π 為條件函數(shù),當(dāng)滿足括號內(nèi)條件時,值為1,不滿足時,值為0;K 的取值可以是1、3、10,本文只取10作為主要評價指標(biāo)。
3.1.3 訓(xùn)練參數(shù)設(shè)置
針對本文設(shè)計的CNAR框架,將實(shí)驗(yàn)分為預(yù)訓(xùn)練和訓(xùn)練兩個部分,通過反復(fù)實(shí)驗(yàn)得到預(yù)訓(xùn)練最優(yōu)的參數(shù)調(diào)整如下:設(shè)置batch_size 即每次迭代時輸入網(wǎng)絡(luò)的樣本數(shù)量為128;設(shè)置max_seq_length 即輸入模型最大序列長度為64;設(shè)置損失函數(shù)為二元交叉熵?fù)p失即BCE=0,設(shè)置這個公式的目的是最小化實(shí)際標(biāo)簽和預(yù)測概率之間的差異,如公式(13)所示。當(dāng)模型預(yù)測正確時,損失較小;當(dāng)預(yù)測錯誤時,尤其是當(dāng)模型對實(shí)際發(fā)生的類別非常不確定時,損失會很大。
在優(yōu)化過程中,將學(xué)習(xí)率設(shè)置為2e-5,能夠在避免過擬合的同時,學(xué)習(xí)大量細(xì)微有效的數(shù)據(jù)特征。對于訓(xùn)練階段,學(xué)習(xí)率調(diào)整為1e-5,設(shè)置最大的子圖為6個三元組的集合,能保證在不影響輸入的前提下,最大化地擴(kuò)充關(guān)聯(lián)語義和結(jié)構(gòu)信息。應(yīng)用L2正則化的目的是防止訓(xùn)練過擬合,提高模型的魯棒性。λ 是正則化參數(shù),用于控制正則化的強(qiáng)度,將其值設(shè)為0.03。正則化損失函數(shù)表示如公式(14)所示:
其中:Ldata 是模型的數(shù)據(jù)損失,通常指模型的預(yù)測值與真實(shí)標(biāo)簽之間的誤差?!瑆‖22是權(quán)重向量w 的L2范數(shù)的平方,表示權(quán)重向量中各個參數(shù)的平方和。使用L2正則化的損失函數(shù)時,算法在優(yōu)化過程中會同時考慮數(shù)據(jù)損失和正則化項(xiàng),從而在確保模型對訓(xùn)練數(shù)據(jù)的擬合能力的同時,最大限度地減少模型參數(shù),降低模型的復(fù)雜度。
此外,研究人員還復(fù)現(xiàn)了知識表示的基準(zhǔn)模型,根據(jù)模型的超參數(shù)進(jìn)行實(shí)驗(yàn),并將新構(gòu)建的數(shù)據(jù)集加入基準(zhǔn)模型的實(shí)驗(yàn)測試中。
3.2 對比試驗(yàn)
將CNAR框架與8個基準(zhǔn)模型進(jìn)行比較,旨在驗(yàn)證本文提出的CNAR框架的有效性。對比實(shí)驗(yàn)結(jié)果如表2所示,其中最優(yōu)性能用標(biāo)粗顯示,次優(yōu)性能用用下劃線顯示;對比曲線圖如圖3和圖4所示。
從表2中的數(shù)據(jù)可以看出,在WN18RR、FB15K-237和自制數(shù)據(jù)集ROBOT中,CNAR模型在MRR 和Hits@10兩個關(guān)鍵指標(biāo)上顯示出最好和次好的性能。在WN18RR數(shù)據(jù)集中,雖然在Hits@K 系列沒有達(dá)到SOTA,但與RotatE和StaR只是單個指標(biāo)達(dá)到最高的結(jié)果相比,CNAR模型在兩個指標(biāo)上都取得了不錯的結(jié)果,具體來說,CNAR模型在MRR 上表現(xiàn)最佳,比平均水平提升了10.9百分點(diǎn),在Hits@10上也達(dá)到了次優(yōu)水平,比平均水平提高了13.1百分點(diǎn)。在FB15K-237數(shù)據(jù)集上,與KG-Bert相比,CNAR模型在MRR 上提高了8.9百分點(diǎn),Hits@K 系列則達(dá)到均衡的程度。在UMLS數(shù)據(jù)集上,CNAR模型雖然未達(dá)到SOTA,但是達(dá)到MRR =0.868、Hits@10=0.978的平均水平。在ROBOT數(shù)據(jù)集上,相比于各方面性能最好的RotatE,CNAR模型的MRR 和Hits@10分別提高了0.5%、4.5%。這表明聚合局部三元組技術(shù)和特征增強(qiáng)注意力對模型的改進(jìn)是有效的,有效地提升了模型在實(shí)體關(guān)系語義和結(jié)構(gòu)關(guān)聯(lián)信息學(xué)習(xí)方面的能力,進(jìn)而保證了模型在下游任務(wù)中取得了顯著的性能提升。
3.3 消融實(shí)驗(yàn)
為了解決上文提到的“CNAR中不同的關(guān)鍵模塊對整體性能有什么貢獻(xiàn)”的問題,本研究進(jìn)行了一項(xiàng)消融實(shí)驗(yàn),進(jìn)一步驗(yàn)證CNAR中聚合局部三元組、特征注意力對模型性能提升的重要性。實(shí)驗(yàn)分別在保持預(yù)訓(xùn)練和訓(xùn)練的不同參數(shù)設(shè)置下,分別構(gòu)建利用基本Transformer模型進(jìn)行編碼的CNAR-n,在基礎(chǔ)Transformer框架上僅使用特征注意力機(jī)制的CNAR-o,在基礎(chǔ)Transformer模型上僅使用聚合局部三元組技術(shù)進(jìn)行編碼的CNAR-t,與具有兩個關(guān)鍵模塊的完整CNAR知識表示方法進(jìn)行消融實(shí)驗(yàn)。與對比試驗(yàn)一致,分別在3個公開數(shù)據(jù)集WN18RR、FB15K-237、UMLS和1個自制的機(jī)器人ROBOT數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如表3、圖5和圖6所示。根據(jù)圖表中的數(shù)據(jù)可以看出,特征注意力機(jī)制和聚合局部三元組技術(shù)在4個數(shù)據(jù)集上均展現(xiàn)出了模型性能的提升,也驗(yàn)證了增加結(jié)構(gòu)和上下文語義信息能夠增強(qiáng)知識表示的性能和下游任務(wù)鏈路預(yù)測的能力。
4 結(jié)論(Conclusion)
本研究為了解決圖結(jié)構(gòu)信息稀疏性、拓?fù)湫畔⒄侠斫獾牟煌暾约罢Z義信息多樣化的歧義性,設(shè)計了結(jié)合聚合局部鄰居三元組和特征增強(qiáng)注意力的知識表示模型,旨在增強(qiáng)知識圖譜結(jié)合上下文語義的能力和提升結(jié)構(gòu)關(guān)聯(lián)信息提取的準(zhǔn)確性。實(shí)驗(yàn)通過預(yù)訓(xùn)練和訓(xùn)練兩個步驟分別微調(diào)Transformer模型,通過對比試驗(yàn)和消融實(shí)驗(yàn)驗(yàn)證了本研究方法的可靠性,提升了模型的表示、推理能力。本文構(gòu)建的機(jī)器人圖譜數(shù)據(jù)集,旨在為未來的研究奠定堅(jiān)實(shí)基礎(chǔ)。未來,我們需要用到機(jī)器人知識圖譜表示學(xué)習(xí),進(jìn)而對大語言模型(LLAMA和ChatGLM 等)進(jìn)行合理性驗(yàn)證,為大模型控制機(jī)器人服務(wù)人類提供堅(jiān)實(shí)的安全保障。同時,利用圖譜表示的向量信息,通過適配器(adapter)進(jìn)行微調(diào),以進(jìn)一步提升模型在特定任務(wù)上的性能。本文的方法也有一定的局限性,例如實(shí)驗(yàn)的復(fù)雜度較高且消耗相當(dāng)?shù)挠嬎阗Y源,這也是未來需要解決的問題。