楊瑞達 林 欣 楊 燕* 賀 樑 竇 亮
1(華東師范大學計算機科學與軟件工程學院 上海 200062)2(國家新聞出版署出版融合發(fā)展(華東師大社)重點實驗室 上海 200062)
近幾年,知識圖譜被廣泛應用在各個領域,例如,問答系統(tǒng)[1]、推薦系統(tǒng)[2-3]和精準醫(yī)療系統(tǒng)[4]等。知識圖譜本身的準確性和知識覆蓋率將會對上層的應用造成很大的影響并可能成為制約應用表現(xiàn)的瓶頸。而單純通過人工構建高準確度的知識圖譜的方式已經(jīng)無法滿足海量規(guī)模知識圖譜的需求。因此,許多人使用知識圖譜推理來補充缺失的知識,旨在通過自動化的方式來提升知識圖譜的覆蓋度。
目前,對于知識圖譜推理的方法大體上可以分為兩種類型,即基于知識圖譜嵌入的方法與基于隨機游走模型的方法。前者的代表有TransE[5],它將知識圖譜中的實體和關系嵌入成為某個空間中的向量,再通過向量之間的運算來表示實體與關系之間的聯(lián)系。此類方法在公開數(shù)據(jù)上有較好的表現(xiàn),但當知識圖譜中出現(xiàn)“一對多(某個實體通過某個關系鏈接到多個相關實體,例如‘美國,總統(tǒng)’將對應到‘特朗普’、‘奧巴馬’等多個實體)”等復雜聯(lián)系時存在較大的局限。另外,基于知識圖譜嵌入的方法在可解釋性上有所欠缺。路徑排序算法PRA(Path Ranking Algorithm)作為隨機游走模型的代表,將兩個實體之間存在的路徑作為特征,再利用該特征判斷兩個實體之間是否存在某個關系。這種方法具有更好的可解釋性,但它作用在離散的特征空間中,導致難以評估實體和關系之間的相似性。
針對上述問題,本文提出一種基于混合增強智能的知識圖譜推理方法,利用強化學習模型進行知識圖譜推理,并高效地加入了人的判斷信息來獲得更加準確的知識圖譜推理結(jié)果。首先,本文以TransE訓練獲得的知識圖譜嵌入向量為基礎,搭建強化學習模型。然后,訓練強化學習智能體(agent),使其在一對實體之間尋找可用作推理的有效路徑(path)。本文不僅在強化學習的回報函數(shù)設計時考慮到了“路徑是否可達”,“路徑長度”等因素,還將人的知識信息加入到回報函數(shù)中。最后,為了評估混合增強學習方法的表現(xiàn),本文在公開數(shù)據(jù)集NELL(Never End Language Learning)上進行了對比實驗。實驗結(jié)果表明,本文提出的方法有利于提高知識圖譜推理的精度。
本文的主要貢獻如下:1) 本文將強化學習模型應用于知識圖譜推理領域,相比于現(xiàn)有的模型框架,設計了更加有效、合理的回報函數(shù);2) 本文將人的知識信息準確高效地加入到模型中。在強化學習模型訓練的過程中,同時考慮“重要性”和“不確定性”兩個因素,將部分機器決策結(jié)果拋出給人進行判斷。3) 本文在公開數(shù)據(jù)集NELL上進行了實驗。與多種類型的算法進行了對比,證明了本文的框架的有效性。
目前,對于知識圖譜的關系推理問題,一類方法是采用將知識圖譜嵌入到向量空間中來進行計算的方法[5-10]。最早的基于平移的知識圖譜嵌入方法是文獻[5]提出的TransE方法,該方法將知識圖譜中的實體和關系均嵌入到同一個向量空間中,并且通過訓練使得它們之間存在如下關系:頭實體向量加關系向量約等于尾實體向量。該方法在數(shù)據(jù)集上有較好表現(xiàn),但無法準確處理“一對多”的情況。在此基礎上,文獻[6]提出了TransD的方法,將實體和關系分別投影到了不同的空間,并且由實體和關系共同來確定投影矩陣,由此更好地解決了“一對多”的問題。在知識圖譜嵌入的基礎上,有些研究的方法加入了其他信息的考慮[11-13]。其中,文獻[11]提出利用知識圖譜中路徑的信息結(jié)合知識圖譜嵌入來進行知識圖譜預測。在嵌入兩個實體之間關系的基礎上,將實體之間的路徑嵌入為向量。
除此之外,另一類方法是基于發(fā)現(xiàn)路徑來進行知識圖譜的預測。文獻[14]率先提出了這類方法,通過隨機游走的方法來發(fā)現(xiàn)路徑從而進行關系推理。此后,文獻[15]提出了基于遞歸隨機游走的方法,同時利用了知識圖譜信息和文本信息來進行知識圖譜的推理。但此類使用隨機游走的方法會尋找到過量的推理路徑而對推理結(jié)果造成影響。文獻[16]將強化學習框架運用到了知識圖譜推理當中,并且結(jié)合了知識圖譜嵌入的信息,獲得了更好的推理表現(xiàn)。
本文采用了強化學習為基礎進行推理路徑的尋找,與上述研究有所區(qū)別的是,本文重新設計了強化學習的回報函數(shù)。此外,本文提出將人的知識信息融入模型的訓練,以此提高知識圖譜推理的效果。
本文采用文獻[16]的底層框架,即馬爾科夫決策過程來作為強化學習的基礎模型。〈S,A,P,R〉可以用來表示馬爾科夫決策過程的四個要素。其中S表示當前模型Agent所處的狀態(tài)(State);A表示模型進行的行為(action)的選擇;P表示從當前狀態(tài)到下一個狀態(tài)的概率矩陣;R表示當前狀態(tài)下,進行某一個或某一系列行為選擇的回報函數(shù)。此外,本文使用一個策略網(wǎng)絡πθ(st,a)=p(a|s;θ)來表示強化學習的Agent。具體介紹如下:
狀態(tài)(state):強化學習的重要組成部分,它表征了當前Agent所處的環(huán)境,并影響到行為的選擇。在狀態(tài)向量的設定中考慮到了知識圖譜中隱藏的語義信息,使用TransE模型將知識圖譜中的實體嵌入到連續(xù)的向量空間中。在強化學習模型中,狀態(tài)表征了當前模型在知識圖譜中的實體位置。當選擇一個行為之后,模型通過關系移動到了下一個實體位置上。給定一個當前位置n的實體en與一個目標實體etarget,狀態(tài)的定義如下:
sn=(en,etarget)
式中:en表示當前實體嵌入的向量,etarget表示目標實體嵌入的向量。當表示起始實體esource所處的狀態(tài)時,en=esource。
行動(action):在確定的某一關系下,對于給定的一對實體對(ei,ej),本文通過模型去尋找用于知識圖譜的推理的有效路徑。對于一個實體e,本文將強化學習的行為定義為選擇一個“關系”,使當前的實體鏈接到下一個實體。以此類推,多個行為選擇的關系即能構成某一條從頭實體esource到達尾實體etarget的路徑。
回報函數(shù)(Reward):回報函數(shù)是對于模型采取一系列行為的反饋值。本文在回報函數(shù)設計時,考慮到了可達性、路徑長度、路徑區(qū)分度等因素。具體的定義如下:
1) 可達性:在一個復雜的知識圖譜中,每一個實體通過多個關系與其他實體相連。因此,從起始實體開始,可選擇的路徑數(shù)量隨著路徑長度的增長而指數(shù)增加。在眾多的路徑中選擇出可用于推理的有效路徑是強化學習模型的任務。本文首先將可達性這一因素考慮到回報函數(shù)中,即從頭實體esource出發(fā)通過該條路徑能夠達到目標實體etarget??蛇_性的具體定義如下:
(1)
若當前的路徑能夠到達目標實體,給該條路徑的回報是1,否則為-1。
2) 路徑長度:一個關系能夠表示一對實體之間的信息聯(lián)系。隨著路徑長度的增加,即路徑包含的關系數(shù)量的增加,信息的聯(lián)系也在逐漸減弱。在訓練模型尋找有效路徑的過程中,本文更傾向?qū)ふ议L度更短的路徑來進行推理。因此,在回報函數(shù)中加入了考量路徑長度的項,具體定義如下:
(2)
式中:lpath表示當前路徑的長度,即其中包含的關系的數(shù)量。
3) 路徑區(qū)分度:對于某一個關系而言,由于樣本中頭尾實體的表達均為固定向量,模型在學習過程中,將會傾向于尋找語義相似的路徑。以上情況可能導致尋找得到的路徑存在著一定程度的信息冗余。因此,在回報函數(shù)中加入“路徑獨立性”的考慮,訓練模型尋找更多數(shù)量且彼此不同的路徑。具體定義如下:
(3)
式中:cos(p,pi)表示兩條路徑之間的余弦距離。路徑向量p=r1+r2+…表示組成該路徑的關系向量之和。P表示已發(fā)現(xiàn)的所有推理路徑的集合。
強化學習模型訓練過程中,回報函數(shù)引導了每一次模型進行行為選擇。因此,回報函數(shù)的設定對于強化學習模型的最終表現(xiàn)有非常重要的影響。在2.1節(jié)的基礎模型中,回報函數(shù)的設計考慮到了知識圖譜結(jié)構上的特征,但沒有融入常識信息和語義信息特征。而常識信息和語義信息通常難以準確獲取并加入到回報函數(shù)中。為改善這一問題,本文提出了混合增強智能的推理模型,即利用人的知識信息來優(yōu)化模型。
考慮到人工的資源稀缺并且價格高昂,將人的知識信息融入強化學習的模型中需要保證信息利用的高效性。具體來說,混合智能模型需要考慮兩個關鍵問題:1) 如何將最需要進行人工判斷的信息返回給人;2) 人工的判斷結(jié)果如何返回給機器進行處理。在本文的應用場景下,由于模型進行行為選擇的次數(shù)多,并且人工難以直觀判斷每一步行為選擇是否合理,本文將以路徑為粒度,將需要判斷的路徑拋出給人工進行處理。
1) 不確定性:文獻[17]在判斷兩個實體之間是否存在某一個關系時,給出屬于[0,1]的概率值,并且認為當概率值更接近兩端時(0或1),給出的結(jié)論更加準確。在本文的問題場景下,當強化學習中的模型面對行為的選擇時,給出的是選擇各個行為的概率分布,最終擴展成為選擇路徑的概率分布。受到文獻[17]的啟發(fā),本文認為模型在進行路徑選擇時,其概率分布應當更加有差異性,即機器對選擇或不選擇某一路徑更加具有把握。反之,對于各個路徑的概率分布趨于平均的情況,可以認為機器難以區(qū)分其中哪一條路徑為更佳選擇。本文通過計算熵的方式來評估路徑選擇的概率分布情況。在路徑的概率分布越平均時,熵的值越大,反之則越小。本文中熵的計算公式定義如下:
(4)
式中:p(ti)表示選擇路徑ti的概率。
2) 重要性:除了不確定性之外,本文將“重要性”也作為“是否將路徑拋出給人判斷”的衡量維度。對于某一個關系而言,在模型的學習過程中,某一條路徑可能會被選中多次,從而在關系預測時它將提供更大的推理權重。如果該條路徑能夠提供的推理信息量并不能和上述權重相匹配,則可能對最終的推理結(jié)果造成影響,而且這種影響將會比小權重的路徑發(fā)生匹配錯誤的后果更加嚴重。因此,本文將此類重要路徑拋出,交給人工判斷,以保證它們能夠提供更加準確的推理信息量。具體來說,給定一個關系r,通過模型獲得多個推理路徑ti∈T,重要性的評估方式為計算其中累積概率的最大值:
tselected=max(∑p(ti))
(5)
最后,綜合不確定性和重要性兩個維度的考慮,本文選擇拋出給人工判斷的路徑的規(guī)則為:對于每一個關系,若H(T)>c,則選擇該關系推理路徑中的tselected提供給人進行判斷,其中c為常數(shù)。
上文中提到,在人工進行判斷時,人更容易理解路徑和關系之間的推理關系并且給出判斷。因此,本文設計了用于路徑展示和推理評分的人機交互的界面。例如,當推理的目標關系為“運動員的主場”時,給出路徑(“運動員在某隊服役”,“隊伍的主場” )供人工判斷以下推理是否成立:“運動員在某隊服役”(A,B)∧“隊伍的主場”(B,C)?“運動員的主場”(A,C)。具體的判斷過程為,人對于當前的推理是否合理來給出1到5的評分。為保證人工判斷的準確性,某一組待判斷的推理路徑可能分配給1~3個人進行判斷,最終取其平均分并將結(jié)果反饋給機器模型。
在獲得人工判斷的評分結(jié)果后,本文將其加入到該路徑的回報函數(shù)中,并重新訓練模型的參數(shù)。具體來說,對于人工判斷完成的路徑,本文在2.1節(jié)基礎的回報函數(shù)上加入人工反饋項Rhuman。人工反饋項的定義如下:
Rhuman=(score-3)3
(6)
式中:score表示人對于該條推理路徑的評分。對于人工判斷完成的路徑,其回報函數(shù)的定義如下:
RsumH=Rsum+λ4Rhuman
(7)
式中:Rsum=λ1Rreachability+λ2Rlength+λ3Rdiversity表示除人工反饋以外的回報函數(shù)。若該條路徑被模型重復選中,則不再拋出給人工進行判斷,而直接使用前一次的人工判斷結(jié)果。最后,本文計算該條路徑綜合的回報函數(shù),并將其用于更新模型的參數(shù)。
在實際訓練過程中,強化學習的模型面臨選擇的路徑數(shù)量是巨大的,從而導致訓練難以進行。這是由于常用的知識圖譜結(jié)構復雜,每個實體都與多個實體相連。在模型進行路徑尋找時,路徑的選擇空間會隨著路徑長度的增加而呈指數(shù)型增長,而其中能夠用作關系推理的路徑數(shù)量只占極小的一部分。進而導致模型在訓練過程中,只接收到大量的負反饋,使得訓練難以繼續(xù)。
受文獻[16]和文獻[18]的啟發(fā),本文采用預訓練方法來解決這一問題。具體來說,對于每一個關系,在知識圖譜中獲取到存在該關系的實體對集合。對于每一對實體對(ei,ej),搜索獲取x跳(即包含x個關系)內(nèi)的所有路徑T(ei,ej)。然后,獲取各個實體對之間的共有路徑。最后,使用這些路徑來對強化學習模型進行預訓練,來初步更新模型中的參數(shù)。
之后,本文對混合強化學習模型進行訓練。訓練過程使用蒙特卡洛策略梯度來更新參數(shù)。目標函數(shù)為模型累積行為選擇獲得的回報函數(shù)最大化,具體定義如下:
(8)
式中:R根據(jù)發(fā)現(xiàn)的路徑所屬的不同情況發(fā)生而變化。給定某一個關系與實體對(esource,etarget),從頭實體esource開始,通過強化學習模型來尋找能夠到達etarget的路徑。由于模型在行為選擇時可能選擇到與當前實體無連接的“關系”,這種情況下使用回報函數(shù)給予懲罰。此外,本文還設置了最大路徑閾值lmax,即模型在搜索路徑時,若路徑長度達到閾值則停止搜索。除上述情況外,更新策略如下:
1) 對于路徑長度達到閾值而未到達etarget的路徑,本文通過Rreachability來對該路徑進行懲罰;
2) 對于在長度閾值內(nèi)到達etarget的路徑,本文進行是否拋出給人的判斷。若不必拋出給人工進行判斷,則直接通過回報函數(shù)Rsum來更新模型參數(shù)。若需要拋出給人工判斷,待人工判斷結(jié)果返回后,對于該條路徑通過回報函數(shù)RsumH進行二次更新參數(shù)。
為了驗證混合增強智能方法的有效性,本文選擇知識圖譜推理中常用的兩大任務進行評估,即鏈接預測和事實預測。鏈接預測任務為給定一組頭實體與關系來預測尾實體。事實預測任務為判斷“三元組事實”的正誤。本文采用NELL的子數(shù)據(jù)集來進行實驗評估。該數(shù)據(jù)集的基本信息如表1所示。
表1 數(shù)據(jù)集基本信息
NELL數(shù)據(jù)集是從無結(jié)構的網(wǎng)頁中抽取到有效信息并構成結(jié)構化的全科知識圖譜。NELL的機器模型經(jīng)歷了數(shù)年時間的持續(xù)迭代,到如今已經(jīng)積累了2 810 379個高可信度的三元組信息。在迭代的過程中,NELL模型還采用了人工對于三元組的可信程度的評分信息,用于提高模型的表現(xiàn)和結(jié)構化知識的質(zhì)量。
本文選擇了常用的NELL-995數(shù)據(jù)集進行實驗,即從NELL模型的第995次迭代結(jié)果中獲取數(shù)據(jù)。在知識圖譜關系的選擇上,本文選擇了Top 200的關系作為實驗的候選關系。此外,本文在兩個任務上橫向?qū)Ρ攘爽F(xiàn)有的數(shù)個方法。這些方法是知識圖譜嵌入類方法(TransE,TransR[10])與強化學習類方法(DeepPath[16])。本文方法簡稱為HAI (Hybrid-Augmented Intelligence)。
混合增強智能模型的相關參數(shù)設置為:H(T)的閾值常數(shù)為c=0.07;知識圖譜的嵌入維度為100維,狀態(tài)的維度為200維;最大路徑閾值lmax=20;λ1、λ2、λ3、λ4四個參數(shù)分別為0.05、0.45、0.1、0.4。
本文采用平均精度均值MAP(Mean Average Precision)來作為知識圖譜推理的評價指標。在實際計算時,機器模型將輸出排序的結(jié)果,再根據(jù)公式來評估MAP值。具體計算公式如下:
(9)
式中:Ωu為實際正確的結(jié)果集合。pui表示某結(jié)果所處的排序中的位置。h(puj 本文在鏈接預測和事實預測兩個任務下進行了對比實驗。表2展示了在鏈接預測任務中幾種方法對于不同關系的預測結(jié)果。從實驗結(jié)果來看,基于強化學習的方法整體上能夠優(yōu)于基于知識圖譜嵌入的方法。這是由于基于強化學習的方法在模型搭建時利用到了知識圖譜嵌入的向量,其中蘊含了隱藏的語義信息。在此基礎上通過強化學習的訓練,能夠更加精準地尋找路徑從而提升推理的效果。 表2 鏈接預測任務結(jié)果對比 對于部分關系的預測結(jié)果,混合增強智能模型與強化學習模型方法的實驗結(jié)果相差較小。這是由于在返回結(jié)果供人工進行判斷時,人工的評分接近中性(3分),因此未對模型的訓練過程造成較大的影響。對于個別關系,基于混合增強智能模型的結(jié)果相較于DeepPath方法的MAP值更低,可能造成的原因是:人工評分路徑的數(shù)量有限,在降低某一個路徑的權重后,另一個低質(zhì)量路徑的權重占比相對提升,從而導致對推理結(jié)果造成影響。在單一關系下,混合增強智能模型相對強化學習模型最高提升約8%。這是由于混合增強智能模型在強化學習模型的基礎上額外融入了人的知識信息,使得模型更好地尋找推理路徑。具體分析發(fā)現(xiàn),在該關系下,人工評分對于某一高權重的低質(zhì)量路徑進行了降權,從而優(yōu)化了推理結(jié)果。 此外,本文還在事實預測任務中進行了實驗,結(jié)果如表3所示。事實預測任務直接評估某一個關系下,正三元組樣本到負樣本的降分排序?;旌显鰪娭悄芊椒ㄔ谌谌肴说闹R信息后,相比于其他方法表現(xiàn)出更高的精度。 表3 事實預測任務結(jié)果對比 表4展示了人工對于部分推理路徑的評分。例如,“A實體和組織B實體合作”無法直接推理出“A實體屬于組織實體B”,因此給以2分的評分。“A實體服役于隊伍實體B 且 隊伍實體B的主場是地點實體C”可以推理出“A實體的主場是地點實體C”,因此給以高分反饋。 表4 人工對于部分推理路徑的評分 本文提出了一種基于混合增強智能的知識圖譜推理方法,該方法在強化學習的基礎模型上加入了混合智能模型,并利用了知識圖譜嵌入信息。其特色在于:一方面將人的知識信息高效地融入到機器模型的訓練中,其中包含了機器難以獲取的豐富常識信息,這些信息能夠幫助機器更加準確地尋找推理的路徑。另一方面,強化學習模型的搭建利用到了知識圖譜嵌入的知識,在一定程度上能夠挖掘知識圖譜上的語義信息。實驗結(jié)果表明本文提出的基于混合增強智能的知識圖譜推理方法在公開數(shù)據(jù)集上的效果,與現(xiàn)有的知識圖譜嵌入方法、強化學習方法相比有一定程度的提升。 在接下來的工作中,將考慮在強化學習中設置更加全面的回報函數(shù)。同時,在考慮 “何時拋出需要人工判斷的路徑”的問題時,設計更加準確的模型來執(zhí)行判斷。3.3 實驗結(jié)果
4 結(jié) 語