宋浩楠,趙 剛,王興芬
北京信息科技大學(xué) 信息管理學(xué)院,北京 100192
隨著知識圖譜相關(guān)技術(shù)的快速發(fā)展,各種大規(guī)模的知識圖譜被構(gòu)建出來并廣泛服務(wù)于各個領(lǐng)域。例如Freebase[1]、DBpedia[2]、NELL[3]等知識圖譜都為研究和應(yīng)用提供了巨大數(shù)據(jù)支撐。但是,無論是自動化構(gòu)建或人工構(gòu)建的通用知識圖譜,還是自動化構(gòu)建或人工構(gòu)建的領(lǐng)域知識圖譜,絕大多數(shù)都存在一定程度的不完備問題[4],知識圖譜中存在大量的實體和關(guān)系缺失。知識圖譜補全技術(shù)便是為了應(yīng)對實體和關(guān)系缺失而出現(xiàn),該技術(shù)的最主要方法就是知識推理[5]。
近年來,基于知識表示學(xué)習(xí)推理和基于關(guān)系路徑推理等研究方法,已成為知識推理研究的熱點。知識表示學(xué)習(xí)方法(TransE[6]、TransH[7]等)因其具有較好的效率和性能,所以被廣泛應(yīng)用于知識推理相關(guān)任務(wù)中,該類模型將知識圖譜中的實體和關(guān)系映射到低維向量空間,并在此空間中進行計算完成推理;關(guān)系路徑推理方法作為一種適用于大規(guī)模知識圖譜的推理方法引起關(guān)注和研究,其主要思想是:在知識圖譜中充分挖掘和利用實體間多步關(guān)系,組成路徑信息從而完成知識推理。而知識表示學(xué)習(xí)和關(guān)系路徑相融合的方法因其同時具備以上兩種優(yōu)勢,因此得到廣泛的研究和利用。
盡管如此,現(xiàn)階段知識圖譜補全研究中仍存在可解釋性差、大規(guī)模知識推理效率和準(zhǔn)確率較低的問題,特別是推理的可解釋性[8]逐漸受到領(lǐng)域研究者的關(guān)注。針對這類問題,本文提出了一種將知識表示和深度強化學(xué)習(xí)(Reinforcement Learning,RL)相結(jié)合的方法RLPTransE。將知識圖譜中的所有的三元組信息通過知識表示方法映射成低維向量空間中的稠密向量,充分保留其語義信息,同時引入強化學(xué)習(xí)方法,將知識圖譜中知識推理問題轉(zhuǎn)化為馬爾可夫序列決策問題,通過知識表示和強化學(xué)習(xí)相融合的方法充分挖掘知識圖譜中的有效推理規(guī)則,并且對智能體選擇的路徑質(zhì)量進行了控制,從而高效完成大規(guī)模知識圖譜的補全任務(wù),該融合方法也為知識推理的混合推理研究提供了新的思路。
與其他方法相比,本文方法在大規(guī)模數(shù)據(jù)集上的表現(xiàn)均優(yōu)于知識表示學(xué)習(xí)推理和關(guān)系路徑推理等方法。
本文的主要貢獻:
(1)提出了一種融合知識表示和深度強化學(xué)習(xí)的知識推理方法RLPTransE,將知識推理問題轉(zhuǎn)化為序列決策問題,增強了推理的可解釋性。
(2)提出了一種單步擇優(yōu)策略網(wǎng)絡(luò)和多步推理策略網(wǎng)絡(luò)的雙網(wǎng)絡(luò)結(jié)構(gòu)。其目的是準(zhǔn)確并高效地挖掘高質(zhì)量推理規(guī)則。
(3)該融合推理方法充分發(fā)揮了兩者的優(yōu)勢,在公開標(biāo)準(zhǔn)數(shù)據(jù)集上的對比實驗結(jié)果顯示,本方法取得了較好的性能,為知識推理的混合推理研究提供了新的思路。
知識圖譜的中知識缺失問題普遍存在,而知識推理是解決知識圖譜補全任務(wù)的重要方法。大規(guī)模知識圖譜中知識推理方法大致分為三類:基于知識表示學(xué)習(xí)的方法、基于關(guān)系路徑的方法和基于知識表示學(xué)習(xí)和關(guān)系路徑融合的方法。本章將按照此類別對國內(nèi)外知識推理方法研究進行介紹。
自詞嵌入表示模型提出后,許多自然語言任務(wù)都證明了其重要作用。受此啟發(fā),對知識三元組的表示學(xué)習(xí)也取得了許多突破性成果。Border等人[6]提出了TransE,將知識庫中實體之間的關(guān)系當(dāng)作實體間的某種平移,實現(xiàn)了對多元關(guān)系數(shù)據(jù)高效建模的知識補全,但該模型在處理一對多等復(fù)雜關(guān)系表示問題存在不足。針對這個問題,后續(xù)研究提出了許多衍生版本。Wang等人[7]提出TransH,引入超平面法向量,實現(xiàn)了不同實體在不同關(guān)系下?lián)碛胁煌谋硎荆M知識仍處于相同的語義空間,限制了自身的表達能力;Lin等人[9]提出了TransR,為每一種關(guān)系定義單獨的語義空間,并使用不相同的映射矩陣實現(xiàn)從實體空間到不同關(guān)系空間的映射;Ji 等人[10]提出TransD,不僅考慮關(guān)系的多樣性,而且考慮實體的多樣性,提出了不同實體具有不同的映射矩陣,減少模型參數(shù)的同時使模型更加靈活。Ebisu等人[11]提出TorusE,將TransE的思想應(yīng)用在李群(Lie group)理論的環(huán)面空間中。Sun 等人[12]提出RotatE,實現(xiàn)知識表示學(xué)習(xí)從實數(shù)空間到復(fù)數(shù)空間的擴展。將關(guān)系看作是從頭實體到尾實體的旋轉(zhuǎn)。Zhang 等人[13]引入超復(fù)數(shù)的概念,提出了QuatE,與RotatE類似,該模型將關(guān)系看作超復(fù)數(shù)平面內(nèi)頭實體到尾實體的旋轉(zhuǎn)。相比于其他先進方法,上述方法存在以下問題:(1)將知識推理轉(zhuǎn)化為單一的向量計算,帶來了可解釋性差的問題;(2)未能充分利用關(guān)系路徑等重要信息,推理能力受限,推理準(zhǔn)確率尚有較大提升空間。
該類方法主要是基于知識庫中圖的結(jié)構(gòu)特性進行研究推理[14]。Lao 等人[15]提出了路徑排序算法(Path Ranking Algorithm,PRA),將知識庫中連接實體的不同的關(guān)系路徑作為特征,通過在知識庫中統(tǒng)計路徑來構(gòu)建分類的特征向量,建立針對關(guān)系的分類器來預(yù)測兩個實體之間的關(guān)系。Lao等人[16]基于PRA算法,通過調(diào)整和組合圖中不同隨機游走相關(guān)權(quán)重來學(xué)習(xí)推斷關(guān)系,提升路徑推理質(zhì)量的同時使其更適用于大規(guī)模知識圖譜推理。Gardner 等人[17]提出的子圖特征提取模型,將圖中的節(jié)點對生成特征矩陣,通過修改PRA 路徑搜索的過程,提取路徑之外更豐富的特征,提高推理的效率。Gardner 等人[18]通過結(jié)合文本內(nèi)容對PRA 算法進行修改,引入了向量空間相似性,緩解了PRA中的特征稀疏性問題。Das等人[19]使用RNN模型,通過遞歸方式組合知識圖譜中多跳路徑的分布式語義從而構(gòu)成關(guān)系路徑,并且在推理過程中引入了注意力機制。Chen 等人[20]設(shè)計了概率圖模型下的推理問題,在知識推理中引入變分推理框架,將路徑搜索和路徑推理緊密結(jié)合從而進行聯(lián)合推理,大幅提升了推理效果。相比于其他先進方法,上述方法存在如下問題:(1)由于存在數(shù)據(jù)稀疏問題,知識圖譜中的信息未被充分利用;(2)未考慮路徑的可靠性[5]計算問題,難以適用于大規(guī)模知識圖譜。
上面的兩類模型僅考慮了圖譜中實體間的直接關(guān)系或者只考慮了實體間簡單的路徑關(guān)系,但事實上,知識圖譜中實體之間的關(guān)系路徑隱含著豐富的語義信息,研究知識表示和關(guān)系路徑的融合方法具有重要意義。Lin等人[21]設(shè)計了PTransE,使用語義連接算法表示路徑關(guān)系,同時引入路徑約束資源分配算法來衡量關(guān)系路徑的可靠性,將實體和關(guān)系映射到低維空間中表示計算,從而顯著提高推理能力。陳海旭等人[22]提出了PSTransE,該模型對PTransE進行了改進,用關(guān)系和路徑的向量相似度來表示路徑推理關(guān)系的概率,通過互補方法計算推理概率,在綜合考慮相關(guān)路徑信息的同時,更注重關(guān)鍵路徑對推理所起的決定性作用。文獻[23-24]都是在PTransE的基礎(chǔ)上的改進模型,它們的基本結(jié)構(gòu)一致,僅在知識的表示方式上存在不同。
近年來,機器學(xué)習(xí)的可解釋性越來越得到大家的關(guān)注,強化學(xué)習(xí)在可解釋性和性能等方面的優(yōu)勢,使得強化學(xué)習(xí)應(yīng)用于知識推理領(lǐng)域成為研究熱點。Xiong 等人[25]設(shè)計了DeepPath,將知識庫中知識推理過程轉(zhuǎn)化為馬爾可夫序列決策過程(Marcov Decision Process,MDP),以實體集合為狀態(tài)空間,關(guān)系集合為動作空間,智能體通過選擇最優(yōu)動作以拓展其路徑來實現(xiàn)知識庫中的推理。但由于DeepPath模型簡單,并且需要提供大量已知路徑進行預(yù)訓(xùn)練,訓(xùn)練過程復(fù)雜,因此其推理性能存在很大提升空間。Das等人[26]提出了MINERVA,將起始實體到目的實體之間的路徑選擇問題轉(zhuǎn)化為序列決策問題,通過建模以查詢問題為條件引導(dǎo)模型在知識庫中找出預(yù)測路徑,解決了在已知一個實體和關(guān)系情況下的問答問題。Lin等人[27]提出了Multi-Hop,針對路徑擇優(yōu)和路徑多樣性探索的問題分別提出了軟獎勵機制和隨機Action-Drop方法。Li等人[28]提出了DIVINE,一種基于生成式對抗模仿學(xué)習(xí)的框架,并通過模仿從知識庫中自動采樣來自適應(yīng)地學(xué)習(xí)推理策略和獎勵函數(shù)。Wang等人[29]提出了AttnPath,將LSTM和圖注意力機制作為記憶組件,并提出一種新的避免智能體停滯不前的強化學(xué)習(xí)機制來提高推理成功率。相比于其他先進方法,上述方法側(cè)重于提高推理準(zhǔn)確率,但由于引入許多新技術(shù),模型的復(fù)雜度更高,推理效率較低。
上述推理方法,各有其優(yōu)點和不足。因此本文考慮結(jié)合這兩類方法的優(yōu)勢來提高模型推理的可解釋性、準(zhǔn)確性和推理效率,于是本文提出了一種融合知識表示和深度強化學(xué)習(xí)的推理方法RLPTransE。如圖1 所示,使用知識表示學(xué)習(xí)方法,將知識圖譜映射到含有三元組語義信息的向量空間中,然后在該空間中建立深度強化學(xué)習(xí)的環(huán)境。通過基于有監(jiān)督的單步擇優(yōu)策略網(wǎng)絡(luò)的訓(xùn)練,降低RL智能體單步錯誤動作的選擇率,再通過基于獎勵函數(shù)的多步推理策略網(wǎng)絡(luò)的訓(xùn)練,提升RL 智能體搜索正確路徑的成功率。最終,實現(xiàn)RL 智能體在與知識圖譜環(huán)境交互過程中,成功挖掘推理規(guī)則進而完成推理任務(wù)。
圖1 融合知識表示和深度強化學(xué)習(xí)的知識推理模型框架圖Fig.1 Overall framework of integrating knowledge representation and deep reinforcement learning model for knowledge reasoning
為了解決大規(guī)模知識推理面臨的復(fù)雜數(shù)據(jù)高效利用的問題,在詞嵌入表示模型的啟發(fā)下,研究人員基于分布式思想提出知識表示學(xué)習(xí)(Knowledge Representation Learning,KRL)的方法[6],將實體和關(guān)系的語義信息映射到低維向量空間,使得語義相近對象的向量表示距離也相近。
在TransE模型中,知識庫中的關(guān)系當(dāng)作實體間的某種平移。對于知識庫中三元組,用lh、lr和lt依次表示頭向量、關(guān)系向量和尾向量。該模型的核心思想如公式所示:
使用基于邊界的方法,定義了如下優(yōu)化目標(biāo)函數(shù):
其中,S是正樣本三元組集合;S′是負樣本三元組集合,該集合是通過隨機替換正樣本三元組的頭實體或者尾實體得到;[x]+表示max(0,x);γ表示一個邊界參數(shù),是一個需要設(shè)置為大于零的超參。
當(dāng)前知識表示學(xué)習(xí)模型多樣。本文選用了TransE模型,因其參數(shù)數(shù)量較少,在大規(guī)模稀疏數(shù)據(jù)集上效果明顯,在與深度強化學(xué)習(xí)融合過程中,解決了知識稀疏性問題,提高了模型整體效果,實驗結(jié)果證明該模型對本文方法具有支撐作用。
本文將知識圖譜中推理問題轉(zhuǎn)化為馬爾可夫序列決策問題,RL 智能體的動作選擇和狀態(tài)轉(zhuǎn)移都是在該框架中進行的,故本部分將介紹對知識圖譜的強化學(xué)習(xí)建模過程。
該過程主要由四部分組成,下面將其進行詳細介紹。
(1)狀態(tài)空間S
本模型的狀態(tài)空間S是由知識圖譜中的有效實體集合E組成的。針對本文的雙策略網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計了兩種狀態(tài)。在單步擇優(yōu)策略網(wǎng)絡(luò)中,將每個實體作為RL智能體的具體狀態(tài)s;在多步推理策略網(wǎng)絡(luò)中,將當(dāng)前實體和目標(biāo)實體作為RL 智能體的具體狀態(tài)s,其中狀態(tài)s∈S。狀態(tài)的兩種表示如下:
其中,ec表示知識圖譜中的當(dāng)前實體,et表示知識圖譜中的目的實體,s1t、s2t是當(dāng)前實體在狀態(tài)空間中的向量化表示。為了規(guī)范化表達,如無特殊說明,本文狀態(tài)均用s表示。
(2)動作空間A
RL智能體在當(dāng)前狀態(tài)下,經(jīng)過動作選擇后,基于環(huán)境的交互反饋實現(xiàn)狀態(tài)轉(zhuǎn)移。本模型的動作空間A是由智能體可能選擇的動作集合As組成的,它是由狀態(tài)s的當(dāng)前位置實體在知識圖譜G 中所有可能的輸出邊組成的,動作集合表示如下:
其中,ec、en分別表示當(dāng)前位置實體和下一個可能的位置實體,a表示采取的動作,S表示狀態(tài)空間,R表示關(guān)系集合,E表示實體集合。
特別地,關(guān)系集合R由知識圖譜中已存在的關(guān)系r和新添加關(guān)系r-1兩部分組成,r-1是關(guān)系r的逆關(guān)系。大量實驗研究表明,將r-1關(guān)系添加到動作空間中,不僅可以使智能體自動撤銷錯誤的決策,而且還可能發(fā)現(xiàn)一些隱含的推理信息。
(3)狀態(tài)轉(zhuǎn)移P
RL智能體通過選擇當(dāng)前狀態(tài)下的最優(yōu)動作實現(xiàn)狀態(tài)轉(zhuǎn)移,具體而言,智能體以知識圖譜中的某個實體為當(dāng)前位置,選擇一個與當(dāng)前實體相連的某個具體關(guān)系作為下一步執(zhí)行的動作,然后執(zhí)行該動作,實現(xiàn)智能體狀態(tài)轉(zhuǎn)移。狀態(tài)轉(zhuǎn)移P表示如下:
(4)獎勵函數(shù)γ
RL 智能體完成一次完整的任務(wù)過程后,環(huán)境都會給予智能體一定的獎勵,包括正向獎勵和負向獎勵,智能體根據(jù)這些反饋的獎勵值來更新自己的策略,以實現(xiàn)最大化的獎勵。本文采取了多樣化的獎勵方式,下面將對獎勵函數(shù)進行詳細介紹。
全局獎勵在同環(huán)境交互過程中,智能體會有大量的可選動作,這就意味著智能體很有可能選擇錯誤的動作,從而導(dǎo)致無法到達目標(biāo)狀態(tài)。為了解決該問題,強化學(xué)習(xí)方法添加了一個全局獎勵函數(shù)。若智能體在與環(huán)境的交互過程中,從起始狀態(tài)ecur成功達到目標(biāo)狀態(tài)etar,則給予智能體一個正向獎勵,否則無獎勵。其定義如下:
單步負向獎勵 在同環(huán)境交互過程中,智能體可能選擇大量錯誤動作,為了降低智能體的錯誤動作選擇率,定義了單步負向獎勵函數(shù),當(dāng)智能體選擇的動作不能推理出目標(biāo)實體時,給予負向獎勵。
路徑長度獎勵對于知識圖譜中的推理任務(wù),大量的研究表明:短關(guān)系路徑p比長關(guān)系路徑p更能提供有價值的推理關(guān)系。為了限制推理路徑的長度,提高推理效率。本文定義了如下的路徑長度獎勵函數(shù):
路徑多樣性獎勵為了使智能體推理出不同的關(guān)系路徑,本文定義了如下的路徑多樣性獎勵函數(shù):
其中 |F|表示已發(fā)現(xiàn)的路徑的數(shù)量,p和pi表示關(guān)系路徑組成的表示向量。
單步擇優(yōu)策略網(wǎng)絡(luò)僅使用全局獎勵進行訓(xùn)練,多步推理策略網(wǎng)絡(luò)則綜合使用4種獎勵函數(shù)進行訓(xùn)練,訓(xùn)練過程中保證正向獎勵總和大于負向獎勵總和。
(5)策略神經(jīng)網(wǎng)絡(luò)
由于大規(guī)模知識圖譜的關(guān)系數(shù)量眾多,建模出來的強化學(xué)習(xí)方法的動作空間規(guī)模龐大,因此本文直接選擇基于策略梯度的深度強化學(xué)習(xí)來完成該任務(wù)。本文使用三層全連接神經(jīng)網(wǎng)絡(luò)設(shè)計策略函數(shù),其中在每個隱藏層之后添加非線性層(ReLU),并使用softmax函數(shù)對輸出層進行歸一化處理。該策略網(wǎng)絡(luò)實現(xiàn)了將狀態(tài)向量s映射到所有選擇動作的概率分布中,本方法采用REINFORCE[30]策略進行參數(shù)優(yōu)化,如下面公式所示:
其中θ是策略網(wǎng)絡(luò)的參數(shù),π(a=rt|st;θ)是基于狀態(tài)st時策略網(wǎng)絡(luò)輸出動作為rt的概率,γ是選擇該動作獲得的獎勵值。
本文方法中單步擇優(yōu)策略網(wǎng)絡(luò)和多步推理策略網(wǎng)絡(luò)使用了相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
訓(xùn)練過程由單步擇優(yōu)策略網(wǎng)絡(luò)訓(xùn)練和多步推理策略網(wǎng)絡(luò)訓(xùn)練兩部分組成。如圖1所示,首先使用有監(jiān)督策略學(xué)習(xí)方法對單步擇優(yōu)策略網(wǎng)絡(luò)進行訓(xùn)練,提高RL智能體在推理過程中單步擇優(yōu)能力。將訓(xùn)練后的參數(shù)作為多步推理策略網(wǎng)絡(luò)的初始化參數(shù),基于獎勵函數(shù)對多步推理策略網(wǎng)絡(luò)進行再訓(xùn)練,提高智能體在推理任務(wù)中的多步路徑擇優(yōu)能力。
2.3.1 基于有監(jiān)督的單步擇優(yōu)策略網(wǎng)絡(luò)訓(xùn)練
本文首先對RL智能體進行有監(jiān)督策略學(xué)習(xí)的單步擇優(yōu)策略網(wǎng)絡(luò)訓(xùn)練任務(wù),目的是讓智能體盡可能地在第一步就選擇正確動作。單步擇優(yōu)策略網(wǎng)絡(luò)在知識圖譜推理任務(wù)中只需訓(xùn)練一次,極大提高了推理效率。
(1)訓(xùn)練集
知識圖譜中的三元組集合F={eh,r,et} 是RL 智能體知識推理的環(huán)境。首先,為三元組集合F中元素添加一個反向關(guān)系,生成一個新的三元組集合F′={(eh,r,et),(et,r′,eh)}。取出F′中三元組的前兩部分并將相同部分合并組成二元組訓(xùn)練集合Dtrain={(eh,r),(et,r′)}。
(2)訓(xùn)練流程及算法
RL 智能體依次將訓(xùn)練集合Dtrain中的實體作為的起始狀態(tài)ecur,并輸入到深度強化學(xué)習(xí)的策略網(wǎng)絡(luò)中,根據(jù)策略網(wǎng)絡(luò)的輸出結(jié)果,選擇一個關(guān)系r作為下一步的執(zhí)行動作,此時判斷起始狀態(tài)ecur和單步動作選擇的關(guān)系r組成的新二元組是否屬于Dtrain,若是,給予+1獎勵并更新策略網(wǎng)絡(luò)。預(yù)訓(xùn)練算法如算法1所示。
算法1單步擇優(yōu)策略網(wǎng)絡(luò)訓(xùn)練算法
輸入:Dtrain
輸出:強化學(xué)習(xí)智能體的策略網(wǎng)絡(luò)參數(shù)
2.3.2 基于獎勵函數(shù)的多步推理策略網(wǎng)絡(luò)訓(xùn)練
經(jīng)過單步擇優(yōu)策略網(wǎng)絡(luò)訓(xùn)練后,RL 智能體對單步動作選擇具有很高的成功率,但它在知識圖譜環(huán)境交互過程中多步動作選擇的成功率卻很低。而對于知識推理任務(wù)而言,實現(xiàn)多步推理才是任務(wù)目標(biāo)。本部分的主要目的是通過基于獎勵函數(shù)的再訓(xùn)練,提高智能體在推理任務(wù)中的多步路徑選擇能力。
(1)訓(xùn)練集
為了提高本模型的整體性能,對于知識圖譜中的三元組集合F={eh,r,et},將r作為推理任務(wù)。針對特定的推理任務(wù)r′(r′∈r),將三元組集合F中含有關(guān)系r′的三元組分離出來,組成推理任務(wù)三元組集合T={eh,r′,et},按照比例7∶3分為訓(xùn)練集Trainset和測試集Testset。
(2)訓(xùn)練流程及算法
與單步擇優(yōu)策略網(wǎng)絡(luò)訓(xùn)練任務(wù)不同,多步推理策略網(wǎng)絡(luò)訓(xùn)練的目的是使RL智能體高效的完成多步關(guān)系路徑推理任務(wù)。對于推理任務(wù)三元組集合T={eh,r′,et} 中的三元組(eh,r′,et),RL智能體從起始狀態(tài)eh出發(fā),通過與知識圖譜環(huán)境不斷地交互中發(fā)現(xiàn)有效路徑,尋找除了關(guān)系r′外到達目的狀態(tài)et的路徑。在與知識圖譜環(huán)境不斷地交互過程中,使用多種獎勵函數(shù)對深度強化學(xué)習(xí)進行多步推理策略網(wǎng)絡(luò)訓(xùn)練。訓(xùn)練的算法2如下所示。
算法2多步推理策略網(wǎng)絡(luò)訓(xùn)練算法
輸入:訓(xùn)練集Trainset
輸出:強化學(xué)習(xí)智能體的策略網(wǎng)絡(luò)參數(shù)
通過公開數(shù)據(jù)驗證方法有效性,并通過對比和消融實驗來進一步分析說明。代碼使用Python 編寫,基于TensorFlow框架實現(xiàn)。運行環(huán)境為Ubuntu 18.04.5操作系統(tǒng),Intel?Xeon Silver4210 2.20 GHz CPU和NVIDIA Tesla V100S GPU。
本文實驗中,采用知識推理領(lǐng)域通用的兩個基準(zhǔn)數(shù)據(jù)集FB15K-237[31]和NELL-995[25]作為對比實驗的實驗數(shù)據(jù)集,兩者都是較大數(shù)據(jù)集的子集,其中FB15K-237中的三元組是從FB15K中去除了冗余關(guān)系后得到的數(shù)據(jù)集。NELL-995 是基于NELL 系統(tǒng)的第995 次迭代產(chǎn)生的數(shù)據(jù)集整理后的數(shù)據(jù)集。數(shù)據(jù)的統(tǒng)計信息如表1所示。
表1 數(shù)據(jù)集統(tǒng)計信息Table 1 Statistics of the datasets
本文方法知識表示模型TransE用Fast-TransX(https://github.com/thunlp/Fast-TransX)中的方法訓(xùn)練,嵌入維度設(shè)置為100維;策略網(wǎng)絡(luò)的隱藏層是由兩個全連接網(wǎng)絡(luò)和ReLU激活函數(shù)構(gòu)成,神經(jīng)元分別設(shè)置為512和1 024,輸出層節(jié)點數(shù)等于RL環(huán)境中所有關(guān)系數(shù)量:FB15K-237是474,NELL-995是400。單步擇優(yōu)策略網(wǎng)絡(luò)訓(xùn)練任務(wù)上batchsize設(shè)置為1 000,訓(xùn)練1 000個epochs。
對于知識推理任務(wù)的評價方式,通常是鏈接預(yù)測(Link Precdiction,LP)和事實預(yù)測(Fact Precdiction,F(xiàn)P)。鏈接預(yù)測是預(yù)測三元組中缺失的部分。事實預(yù)測是在判斷三元組的正確與否。數(shù)據(jù)集按7∶3的比例分為訓(xùn)練集和初始測試集,而測試集是由初始測試集和其生成的負樣本組合而成,正負樣本比例約為1∶10,其中負樣本是由正樣本被替換尾實體生成。此次實驗使用平均精度均值(Mean Average Precision,MAP),定義如下:
為了驗證RLPTransE 方法的有效性,將本文方法RLPTransE與基于知識表示學(xué)習(xí)算法(TransE[6]、TransH[7]、TransR[9]、TransD[10)]、基于關(guān)系路徑算法(PRA[16]、DIVA[20)]和基于融合算法(DeepPath[25]、AttnPath[29]等)在兩個公開數(shù)據(jù)集上進行對比實驗,實驗結(jié)果如表2和表3所示。
表2 鏈接預(yù)測結(jié)果Table 2 Link prediction results
表3 事實預(yù)測結(jié)果Table 3 Fact prediction results
3.3.1 鏈接預(yù)測
鏈接預(yù)測是指三元組在給定頭實體和關(guān)系二元組(eh,r)條件下預(yù)測三元組的尾實體et。本文采用DeepPath中測試方法,通過對候選尾實體打分來進行排名。實驗結(jié)果由表2所示。
由表2所示的實驗結(jié)果可知,本文方法在FB15K-237數(shù)據(jù)集上取得了最優(yōu)的鏈接預(yù)測結(jié)果,性能比AttnPath高出0.031,而在NELL-995數(shù)據(jù)集上取得了優(yōu)于知識表示學(xué)習(xí)方法、關(guān)系路徑方法中PRA和融合方法中Deep-Path 的性能,但略遜色于MINERVA 等其他模型的性能。本文方法在規(guī)模較大的FB15K-237 數(shù)據(jù)集上性能提升更明顯,主要原因是:相比于關(guān)系稀疏的NELL-995數(shù)據(jù)集,F(xiàn)B15K-237數(shù)據(jù)集中實體之間平均路徑長度較長,動作選擇的錯誤率更高,導(dǎo)致大量正確路徑難以被挖掘,模型性能降低。而本文的優(yōu)勢在于降低錯誤動作的選擇率,提高正確路徑的挖掘成功率,因此在FB15K-237數(shù)據(jù)集上效果提升更明顯。
3.3.2 事實預(yù)測
事實預(yù)測旨在判斷未知事實是否為真,對于給定的三元組(eh,r,et),模型通過判斷符合路徑的個數(shù)作為分?jǐn)?shù),從而判斷其正確與否。本文延用DeepPath中的評價方法,對測試集所有輸出采取全排名方式計算結(jié)果,由于PRA 未提供所有三元組全排名結(jié)果,因此這里不考慮PRA作為基線。表3顯示了所有方法的結(jié)果。
如表3所示,本文方法同樣在FB15K-237數(shù)據(jù)集上的事實預(yù)測結(jié)果達到了最優(yōu)性能,性能比AttnPath高出0.032,而在NELL-995 上取得優(yōu)于其他模型,但略遜色于AttnPath的結(jié)果。對于FB15K-237數(shù)據(jù)集,本文方法比知識表示學(xué)習(xí)方法中性能最好的TransH 高出0.038。對于NELL-995 數(shù)據(jù)集,本文方法比知識表示學(xué)習(xí)方法中性能最好的TransD高出0.176。相比于融合模型中的DeepPath及其衍生模型,本文方法性能均有較大提升。
為了進一步分析單步擇優(yōu)策略網(wǎng)絡(luò)訓(xùn)練對本文模型推理效果的影響,本節(jié)對RLPTransE做了消融實驗分析。將RL智能體直接從多步推理策略網(wǎng)絡(luò)開始推理任務(wù),即在原方法的基礎(chǔ)上去掉單步擇優(yōu)策略網(wǎng)絡(luò)訓(xùn)練任務(wù),得到模型RLPTransE-part,使用和RLPTransE相同的訓(xùn)練集和測試集對該模型進行訓(xùn)練和測試。消融實驗的結(jié)果如表4所示。兩個模型的測試次數(shù)統(tǒng)一設(shè)為1。
表4 預(yù)訓(xùn)練消融實驗結(jié)果Table 4 Pre-training ablation experimental results
如表4 所示,RLPTransE-part 模型在鏈接預(yù)測和事實預(yù)測的實驗結(jié)果都不及RLPTransE模型,主要原因是缺乏單步擇優(yōu)策略網(wǎng)絡(luò)訓(xùn)練的方法,單步選擇有效路徑能力不足,路徑的搜索能力弱,直接影響多步推理效果。因此,實驗結(jié)果表明,引入單步擇優(yōu)策略網(wǎng)絡(luò)對推理任務(wù)的完成具有明顯的提升效果。
為了進一步分析單步擇優(yōu)策略網(wǎng)絡(luò)在本方法中的重要性。本文對該網(wǎng)絡(luò)的單步擇優(yōu)能力作了對比實驗,使用不同訓(xùn)練集對單步擇優(yōu)策略網(wǎng)絡(luò)進行訓(xùn)練,然后對網(wǎng)絡(luò)的單步選擇成功率進行統(tǒng)計。定義如下三種模型:All-train,使用Dtrain的樣本集合{(eh,r),(et,r′)} 訓(xùn)練;Postrain,使用Dtrain中正向樣本集合{(eh,r)} 訓(xùn)練;No-train,不使用樣本集合訓(xùn)練,即使用初始化參數(shù)。不同epoch次數(shù)下的實驗結(jié)果如表5所示。
表5 對比實驗結(jié)果Table 5 Comparative experimental results
如表5所示,使用Dtrain訓(xùn)練的All-train在單步選擇成功率上的均值達到了94.07%,Pos-train 結(jié)果達到了78.65%,而No-train 的選擇成功率幾乎為0。該實驗充分驗證單步擇優(yōu)策略網(wǎng)絡(luò)對本方法具有重要支撐作用。
為了分析本文方法對知識推理可解釋性的增強作用,從RL 智能體在NELL-995 數(shù)據(jù)集上挖掘出的推理規(guī)則中選擇部分任務(wù)結(jié)果,如表6所示。
表6 RL智能體發(fā)現(xiàn)的推理規(guī)則Table 6 Inference formulas found by RL Agent
如表6 所示,對于任務(wù)關(guān)系“athleteplaysinleague”,對應(yīng)的推理規(guī)則為“playsforteam->teamplaysinleague”和“athletehomestadium->leaguestadiums_inv”,即運動員效力的球隊所屬的聯(lián)賽就是運動員效力的聯(lián)賽和運動員主場所注冊的聯(lián)賽就是運動員效力的聯(lián)賽。其他任務(wù)的說明類似,不再逐一展開分析。因此,分析結(jié)果表明,本文方法對于增強知識推理的可解釋性具有重要支撐。
本文提出了一種融合知識表示和深度強化學(xué)習(xí)方法RLPTransE。該模型通過知識表示方法,將知識圖譜映射到含有三元組語義信息的向量空間中,然后在該空間建立強化學(xué)習(xí)環(huán)境,將知識推理成功轉(zhuǎn)化為馬爾可夫序列決策過程?;谟斜O(jiān)督的單步擇優(yōu)策略網(wǎng)絡(luò)的訓(xùn)練和基于獎勵函數(shù)的多步推理策略網(wǎng)絡(luò)的訓(xùn)練,使得RL 智能體在推理過程中挖掘出高質(zhì)量推理規(guī)則,從而完成大規(guī)模知識圖譜推理任務(wù)。在公開數(shù)據(jù)集上的對比實驗表明,本文方法提升了推理性能,特別是大規(guī)模知識圖譜推理任務(wù)。本文還通過消融實驗對單步擇優(yōu)策略網(wǎng)絡(luò)對本文方法的影響做了進一步分析。通過對挖掘出來的推理規(guī)則分析,驗證了本文方法對知識推理可解釋性具有增強作用。