許智宏,張?zhí)鞚?rùn),王利琴,董永峰
1.河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401
2.河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室,天津 300401
3.河北省數(shù)據(jù)驅(qū)動(dòng)工業(yè)智能工程研究中心,天津 300401
隨著大數(shù)據(jù)時(shí)代的到來(lái)、智能設(shè)備的廣泛普及以及5G 的迅速發(fā)展,社會(huì)進(jìn)入了一個(gè)信息爆炸式增長(zhǎng)的階段,大數(shù)據(jù)中存在著巨大的價(jià)值與潛力,這吸引了許多研究人員對(duì)其進(jìn)行深入挖掘和分析[1],知識(shí)圖譜應(yīng)運(yùn)而生。然而,知識(shí)圖譜構(gòu)建面臨的突出問(wèn)題之一是知識(shí)圖譜的不完整性,即知識(shí)圖譜中存在缺失的知識(shí)。知識(shí)圖譜的不完整性極大阻礙了知識(shí)圖譜在人工智能、大數(shù)據(jù)分析和挖掘、信息推薦和人機(jī)交互等領(lǐng)域的應(yīng)用性能。因此,如何基于現(xiàn)有知識(shí)圖譜挖掘新知識(shí),推理知識(shí)圖譜中缺失的實(shí)體或關(guān)系,已經(jīng)成為智能信息處理、文本挖掘和信息抽取領(lǐng)域的重要且緊迫的研究問(wèn)題[2-3]。
目前,大部分研究工作集中于靜態(tài)知識(shí)圖譜推理,靜態(tài)知識(shí)圖譜通過(guò)三元組表示,每個(gè)三元組反映一個(gè)事實(shí),但是,現(xiàn)實(shí)世界中的事實(shí)不是靜止不變的,往往表現(xiàn)出復(fù)雜的時(shí)間動(dòng)態(tài)性,例如,(美國(guó),總統(tǒng),特朗普)這一事實(shí),在經(jīng)過(guò)2020年美國(guó)總統(tǒng)選舉后失效。由此,引入時(shí)序知識(shí)圖譜,此類知識(shí)圖譜不僅包含了事件之間的共指、因果和時(shí)序等關(guān)系,還描述了事件之間的規(guī)律和演化模式,其基本單元是在三元組的基礎(chǔ)上加入時(shí)間信息后組成的四元組[4]。
本文任務(wù)是對(duì)時(shí)序知識(shí)圖譜進(jìn)行推理,即根據(jù)過(guò)去發(fā)生的事件推斷未來(lái)將要發(fā)生的事件。事件的發(fā)生被表示為以過(guò)去事件為條件的概率分布?,F(xiàn)有大部分時(shí)序知識(shí)圖譜推理模型將時(shí)序知識(shí)圖譜建模為靜態(tài)知識(shí)圖譜快照序列,在每個(gè)快照上仍采用靜態(tài)推理方法[5],這種做法忽略了對(duì)知識(shí)圖譜局部時(shí)序特征的提取,無(wú)法細(xì)粒度地捕獲實(shí)體時(shí)序特征。同時(shí),基于知識(shí)圖譜快照的推理模型在單個(gè)快照中獨(dú)立地處理事件,無(wú)法捕獲不同時(shí)間實(shí)體鄰域結(jié)構(gòu)之間的交互。因此,基于靜態(tài)知識(shí)圖譜快照的方法不能有效挖掘?qū)嶓w鄰域潛在的時(shí)間信息。
針對(duì)以上問(wèn)題,提出了基于圖譜重構(gòu)的時(shí)序知識(shí)圖譜推理模型(graph reconstruction for temporal knowledge reasoning,GRTKR)。為了捕獲不同時(shí)間鄰域結(jié)構(gòu)關(guān)系之間的交互,GRTKR 使用時(shí)間感知鄰域采樣器有側(cè)重地采樣實(shí)體鄰域節(jié)點(diǎn)。同時(shí),為了克服基于知識(shí)圖譜快照的推理模型難以細(xì)粒度提取時(shí)序特征的缺點(diǎn),GRTKR使用時(shí)序編碼器將四元組中的時(shí)間與實(shí)體一并映射為嵌入向量,鄰域特征聚合器對(duì)局部鄰居特征進(jìn)行時(shí)間感知聚合。通過(guò)這樣的方式可以學(xué)習(xí)到更精確的時(shí)序特征,提升時(shí)序知識(shí)圖譜推理的性能。
靜態(tài)知識(shí)圖譜推理是知識(shí)圖譜領(lǐng)域中的重要任務(wù),其研究重點(diǎn)在于確定實(shí)體與關(guān)系之間的相關(guān)性。
翻譯模型將關(guān)系向量作為頭實(shí)體到尾實(shí)體的翻譯,早期Bordes 等人[6]根據(jù)三元組中頭尾實(shí)體表示向量的距離來(lái)估計(jì)三元組的真實(shí)性,提出了第一個(gè)基于翻譯的模型TransE,具有訓(xùn)練速度快、易于實(shí)現(xiàn)等優(yōu)點(diǎn),但是不能解決多對(duì)一和一對(duì)多關(guān)系的問(wèn)題。針對(duì)TransE的局限性,此后陸續(xù)涌現(xiàn)了一批Trans系列模型。其中TransH[7]不再嚴(yán)格要求三元組滿足三角閉包關(guān)系,只需滿足頭尾實(shí)體在關(guān)系平面上的投影在一條直線上即可,提高了推理的準(zhǔn)確率?;诜g思想的模型由于運(yùn)算操作簡(jiǎn)單,參數(shù)量適中,學(xué)習(xí)效率高等優(yōu)勢(shì),成為了圖嵌入領(lǐng)域非?;钴S的研究方向之一[8]。然而由于該類方法僅使實(shí)體和關(guān)系嵌入滿足當(dāng)前三元組的約束,難以捕獲知識(shí)圖譜深層次的語(yǔ)義信息和多跳實(shí)體間結(jié)構(gòu)特征,對(duì)于結(jié)構(gòu)復(fù)雜的知識(shí)圖譜,推理準(zhǔn)確率會(huì)受到影響。使得后續(xù)研究需要從表示空間、運(yùn)算類型等方面對(duì)該類模型進(jìn)行改進(jìn)。
張量分解模型將知識(shí)圖譜表示為一個(gè)高維張量,通過(guò)張量分解為更小的矩陣從而完成知識(shí)推理任務(wù)。Yang 等人[9]就借鑒張量分解理論提出DistMult 方法,將實(shí)體映射為低維向量后,再計(jì)算與每種關(guān)系的相似性。ComplEx[10]則通過(guò)復(fù)值嵌入擴(kuò)展DistMult,有效地對(duì)非對(duì)稱關(guān)系進(jìn)行建模。此后,研究人員又提出了SimplE[11],其利用關(guān)系的逆在三元組得分函數(shù)中加上了一個(gè)對(duì)稱項(xiàng),為每個(gè)實(shí)體和關(guān)系分配兩個(gè)向量分別進(jìn)行學(xué)習(xí),在實(shí)驗(yàn)中展現(xiàn)了良好的性能。相比基于翻譯模型,基于張量分解模型的思路是從建模整張圖譜的表示張量的角度來(lái)考慮,所以該類型的許多算法擁有充分表達(dá)知識(shí)圖譜的能力,然而這類模型的設(shè)計(jì)往往需要較高的數(shù)學(xué)基礎(chǔ),因此相關(guān)研究工作少于基于翻譯模型的研究[8]。
神經(jīng)網(wǎng)絡(luò)推理模型作為一種重要的機(jī)器學(xué)習(xí)算法,神經(jīng)網(wǎng)絡(luò)基本上模仿人腦進(jìn)行感知和認(rèn)知,通過(guò)非線性變換將數(shù)據(jù)的特征分布從初始空間映射到另一個(gè)特征空間中[12]。原始圖神經(jīng)網(wǎng)絡(luò)模型只針對(duì)無(wú)向無(wú)權(quán)圖,為了將其應(yīng)用于知識(shí)圖譜,Schlichtkrull等人[13]提出R-GCN模型,為關(guān)系賦予不同的權(quán)重,通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)局部鄰域信息聚合,采用DistMult作為解碼器進(jìn)行相似性評(píng)估,由此,取得了比GCN更好的靜態(tài)知識(shí)圖譜推理效果?;谏窠?jīng)網(wǎng)絡(luò)的推理模型相較于其他推理模型復(fù)雜度更高,但是,具備更強(qiáng)的推理能力和泛化能力,對(duì)知識(shí)圖譜中實(shí)體及關(guān)系信息利用率更高,往往可以達(dá)到更好的推理效果。
基于嵌入的時(shí)序知識(shí)推理方法,在現(xiàn)有基于嵌入的靜態(tài)知識(shí)圖譜推理基礎(chǔ)上,引入時(shí)間信息的嵌入表示來(lái)實(shí)現(xiàn)時(shí)序知識(shí)圖譜推理,特點(diǎn)是將實(shí)體、關(guān)系及時(shí)間戳投影到向量空間得到對(duì)應(yīng)的嵌入表示。Dasgupta等人[14]提出的HyTE 模型將知識(shí)圖譜按時(shí)間劃分為不同的超平面,將實(shí)體和關(guān)系映射到超平面上,再利用翻譯模型思想進(jìn)行推理,既整合了時(shí)間維度信息,又通過(guò)超平面解決了實(shí)體間多關(guān)系難以推理的問(wèn)題。Goel 等人[15]提出DE系列模型在靜態(tài)推理方法的基礎(chǔ)上將實(shí)體嵌入融入時(shí)間信息,利用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)關(guān)系的時(shí)間感知表示,并使用DistMult 評(píng)分函數(shù)進(jìn)行相似性評(píng)估,通過(guò)實(shí)驗(yàn)證明了DE-TransE、DE-DistMult 和De-SimplE 等模型相比于靜態(tài)方法能夠充分挖掘潛在的時(shí)序特征,對(duì)于后續(xù)時(shí)序知識(shí)圖譜推理方法具有較重要的參考意義。TA-DistMult[16]將時(shí)間和關(guān)系合并成一個(gè)維度,合并后的文本序列通過(guò)LSTM計(jì)算得到含時(shí)間特征的關(guān)系,由此將四元組轉(zhuǎn)化為帶有時(shí)間特征的三元組,結(jié)合三元組評(píng)估函數(shù)進(jìn)行推理。CyGNet[17]將復(fù)制機(jī)制首次應(yīng)用在時(shí)序知識(shí)圖譜推理中,通過(guò)研究時(shí)間步中實(shí)體重復(fù)出現(xiàn)的潛在現(xiàn)象,結(jié)合復(fù)制和生成兩種推理模式,在學(xué)習(xí)推理未來(lái)事件時(shí)參考?xì)v史中已知的事實(shí),并通過(guò)實(shí)驗(yàn)驗(yàn)證了該推理方法的有效性?;谇度氲臅r(shí)序知識(shí)圖譜推理模型通過(guò)擴(kuò)展現(xiàn)有基于嵌入的靜態(tài)知識(shí)圖譜推理模型,利用時(shí)間嵌入表示來(lái)解決時(shí)序知識(shí)圖譜推理問(wèn)題,然而,這些方法難以利用最近時(shí)間戳中的多跳結(jié)構(gòu)信息和時(shí)間事實(shí)來(lái)增強(qiáng)預(yù)測(cè)性能,并且存在實(shí)體分布的時(shí)間稀疏性和可變性問(wèn)題。
時(shí)序知識(shí)圖譜也能夠以圖結(jié)構(gòu)形式進(jìn)行建模,因此較多研究工作采用基于圖卷積神經(jīng)網(wǎng)絡(luò)的時(shí)序知識(shí)圖譜推理框架。為了有效學(xué)習(xí)事件的時(shí)間信息以及圖譜中潛在的關(guān)系特征,Jin等人[18]在基于神經(jīng)網(wǎng)絡(luò)的知識(shí)推理模型R-GCN 的基礎(chǔ)上提出了循環(huán)事件網(wǎng)絡(luò)RE-NET模型,一種用于對(duì)多關(guān)系知識(shí)圖譜的時(shí)間序列進(jìn)行建模的自回歸體系結(jié)構(gòu),可以根據(jù)知識(shí)圖譜歷史的時(shí)間序列和全局的結(jié)構(gòu)信息預(yù)測(cè)新發(fā)生的事件,進(jìn)一步提高了時(shí)序知識(shí)圖譜推理的精度。DySAT[19]方法同時(shí)關(guān)注圖結(jié)構(gòu)和時(shí)間演進(jìn)過(guò)程。按時(shí)間劃分的事件通過(guò)自注意力學(xué)習(xí)鄰域信息,再通過(guò)聯(lián)合注意力學(xué)習(xí)時(shí)間推演下的三元組相似性。EvolveGCN[20]通過(guò)GCN 得到知識(shí)圖譜的結(jié)構(gòu)特征,通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)捕獲知識(shí)圖譜的演化信息。此外,針對(duì)現(xiàn)有時(shí)序知識(shí)圖譜推理結(jié)果缺乏可靠性的問(wèn)題,Han等人[21]提出了一種對(duì)未來(lái)事件進(jìn)行鏈路預(yù)測(cè)的模型xERTE,該模型能夠?qū)r(shí)序知識(shí)圖譜的相關(guān)子圖進(jìn)行查詢,并對(duì)圖結(jié)構(gòu)和時(shí)間上下文信息進(jìn)行聯(lián)合建模,同時(shí),該模型基于一種新的時(shí)間關(guān)聯(lián)注意機(jī)制,保留了時(shí)間多關(guān)系數(shù)據(jù)的因果性。圖卷積神經(jīng)網(wǎng)絡(luò)作為一種有效的結(jié)構(gòu)特征學(xué)習(xí)方法,通過(guò)消息傳遞框架捕獲相同時(shí)間戳下實(shí)體之間的結(jié)構(gòu)依賴性,并通過(guò)圖神經(jīng)網(wǎng)絡(luò)的堆疊捕獲序列信息。但是,對(duì)實(shí)體在時(shí)序知識(shí)圖譜中的時(shí)序信息捕獲不夠全面。
時(shí)序知識(shí)圖譜可以看作四元組(s,r,o,t)的集合G,定義時(shí)序知識(shí)圖譜中實(shí)體集合E以及一組關(guān)系集合R,其中s∈E表示頭實(shí)體,o∈E表示尾實(shí)體,r∈R表示關(guān)系,t表示時(shí)間。
使用靜態(tài)知識(shí)圖譜快照方式進(jìn)行推理,模型只對(duì)相同時(shí)間戳下靜態(tài)知識(shí)圖譜快照進(jìn)行學(xué)習(xí)并捕獲結(jié)構(gòu)特征,再通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)捕獲時(shí)序信息,這樣無(wú)法充分利用時(shí)間上下文信息,難以捕獲隱含在實(shí)體間的時(shí)間與結(jié)構(gòu)特征。因此,GRTKR在每次推理過(guò)程中,將靜態(tài)知識(shí)圖譜快照序列通過(guò)鄰域采樣器重構(gòu)成推理圖,從而將結(jié)構(gòu)和時(shí)間信息都集中到推理圖中,后續(xù)通過(guò)圖神經(jīng)網(wǎng)絡(luò)的消息傳遞框架同時(shí)捕獲時(shí)序與結(jié)構(gòu)特征。
圖譜重構(gòu)的關(guān)鍵在于對(duì)待推理實(shí)體的時(shí)間鄰域進(jìn)行采樣,以此來(lái)形成推理圖Ginf,其中,節(jié)點(diǎn)由四元組中“頭實(shí)體-時(shí)間戳”構(gòu)成,即v=(s,t),節(jié)點(diǎn)間的鏈接方向從具有較早時(shí)間戳的節(jié)點(diǎn)指向具有較晚時(shí)間戳的節(jié)點(diǎn),這使得GRTKR能夠沿著整個(gè)時(shí)間軸搜索待推理實(shí)體的時(shí)間鄰域,以此利用整個(gè)時(shí)間上下文信息。
GRTKR模型分為四個(gè)部分:鄰域采樣器、時(shí)間編碼器、鄰域特征聚合器和多層感知機(jī)解碼器,模型架構(gòu)圖如圖1所示。對(duì)于給出的查詢q=(sq,rq,?,tq),GRTKR首先根據(jù)其時(shí)間鄰域構(gòu)建一個(gè)推理圖Ginf,然后使用時(shí)間編碼器學(xué)習(xí)實(shí)體的時(shí)間感知表示,再通過(guò)鄰域特征聚合器捕獲實(shí)體鄰域內(nèi)的時(shí)序特征與結(jié)構(gòu)特征,最后使用多層感知機(jī)解碼器來(lái)計(jì)算每個(gè)候選實(shí)體成為預(yù)測(cè)答案的概率。本文只針對(duì)尾實(shí)體推理,由于為每個(gè)四元組都添加反關(guān)系,即添加(o,r-1,s,t)表示(s,r,o,t),這樣就算只預(yù)測(cè)尾實(shí)體,也不會(huì)失去通用性。
圖1 GRTKR架構(gòu)圖Fig.1 GRTKR overall architecture illustration
不同時(shí)間范圍的信息表明了不同的關(guān)系趨勢(shì),局部時(shí)間依賴表示短期的關(guān)系趨勢(shì),而全局時(shí)間依賴表示長(zhǎng)期的關(guān)系趨勢(shì)。不同范圍的時(shí)間信息發(fā)揮著不同的作用,不應(yīng)一視同仁。例如,當(dāng)事件(美國(guó),拒絕經(jīng)濟(jì)合作,中國(guó),2018-07-07)發(fā)生時(shí),“美國(guó)”和“中國(guó)”在不久的將來(lái)關(guān)系不太可能是積極的,“拒絕經(jīng)濟(jì)合作”關(guān)系對(duì)于預(yù)測(cè)2018 年7 月后美國(guó)和中國(guó)之間的關(guān)系更為重要。所以歷史上事件發(fā)生時(shí)間越接近,它們之間的關(guān)系就越重要。
為了篩選歷史事件中對(duì)于查詢更重要的事件,增加時(shí)序特征對(duì)模型精度的影響,同時(shí)降低后續(xù)聚合操作的復(fù)雜性,受Han 等人[21]提出推理圖的啟發(fā),引入鄰域采樣器,對(duì)(sq,tq)的時(shí)間鄰域進(jìn)行采樣。
定義推理圖中節(jié)點(diǎn)v=(s,t) 的時(shí)間鄰域?yàn)镹v={(s′,t′)|t′<t},v的鄰居定義為u∈Nv,如果u被采樣到,則將u添加到Ginf中。采樣可以是均勻的或者非均勻的,但由于事件的強(qiáng)時(shí)效性,在接近當(dāng)前時(shí)間點(diǎn)采樣更多的邊更符合事實(shí)。故使用加權(quán)采樣策略,具體如公式(1)所示:
其中,t′與t′均小于t,同時(shí)為了防止采樣過(guò)多不太相關(guān)的鄰居,參考Han 等人[21]對(duì)鄰域采樣數(shù)的設(shè)置,鄰域采樣器通過(guò)超參數(shù)來(lái)限制采樣的最大數(shù)量,在3.4 節(jié)對(duì)該參數(shù)的靈敏度進(jìn)行實(shí)驗(yàn)分析。
在時(shí)序知識(shí)圖譜中,圖的結(jié)構(gòu)不再是靜止不變的,實(shí)體之間的關(guān)系會(huì)隨著時(shí)間的推移而變化,因此,實(shí)體特征會(huì)隨之發(fā)生變化。時(shí)間編碼器借鑒Goel等人提出的歷時(shí)實(shí)體嵌入(diachronic entity embedding)方法,即學(xué)習(xí)每個(gè)實(shí)體的時(shí)間感知嵌入表示,實(shí)體si∈E在時(shí)間t的嵌入表示由靜態(tài)低維向量和時(shí)序低維向量組成[15]。通過(guò)這種方式,能夠區(qū)分推理圖中來(lái)自相同實(shí)體s但時(shí)間不同的兩個(gè)節(jié)點(diǎn)(s,t1)與(s,t2)。時(shí)間感知實(shí)體嵌入表示如公式(2)所示:
與現(xiàn)有大多數(shù)方法只對(duì)圖中實(shí)體進(jìn)行嵌入表示不同,GRTKR也對(duì)關(guān)系進(jìn)行嵌入表示。對(duì)于推理圖中,節(jié)點(diǎn)之間關(guān)系r∈R,本文沿用Goel 等人[15]的假設(shè),即關(guān)系表示具有時(shí)間不變性,關(guān)系嵌入表示如公式(3)所示:
其中,W0為關(guān)系嵌入矩陣,r表示關(guān)系的獨(dú)熱向量。
鄰域特征聚合器受GraphSAGE[22]的啟發(fā),通過(guò)對(duì)鄰域內(nèi)信息進(jìn)行聚合,從而得到實(shí)體的局部時(shí)序特征。鄰域特征聚合器的輸入是經(jīng)過(guò)時(shí)序編碼器后的實(shí)體與關(guān)系的嵌入表示向量,然后,將關(guān)系特征融合到實(shí)體特征中,最后,通過(guò)GRU(gate recurrent unit)捕獲實(shí)體間隱含的時(shí)序特征。
2.3.1 特征融合
為了將關(guān)系加入到鄰域特征表示學(xué)習(xí)中,GRTKR將關(guān)系和節(jié)點(diǎn)嵌入向量組合起來(lái)進(jìn)行聯(lián)合學(xué)習(xí)。同時(shí),加入反向關(guān)系類型和自循環(huán)關(guān)系類型,這樣可以處理具有高度多關(guān)系數(shù)據(jù)特征的時(shí)序知識(shí)圖譜,并且不會(huì)引入過(guò)多參數(shù)。實(shí)體關(guān)系融合如公式(4)、(5)所示:
2.3.2 節(jié)點(diǎn)特征更新
為了捕獲隱式時(shí)序特征,GRTKR 將推理圖中鄰居節(jié)點(diǎn)按時(shí)間先后排序得到的特征序列作為GRU 的輸入,由此得到實(shí)體的隱式時(shí)序特征,隨后更新實(shí)體嵌入向量如公式(6)所示:
其中,W為可學(xué)習(xí)權(quán)重矩陣,hu,t表示推理圖中節(jié)點(diǎn)v的鄰域節(jié)點(diǎn)u在t時(shí)刻下的特征融合表示,σ采用ReLU作為激活函數(shù)。
為了對(duì)查詢(sq,rq,?,tq)進(jìn)行推理預(yù)測(cè),多層感知器(multilayer perceptron,MLP)解碼器將來(lái)自鄰域特征聚合器輸出的特征向量作為輸入,并通過(guò)softmax 函數(shù)做歸一化處理得到所有候選實(shí)體的概率,如公式(7)、(8)所示:
其中,Wm為可訓(xùn)練權(quán)重參數(shù),hv為經(jīng)過(guò)聚合后的實(shí)體嵌入表示向量,er為關(guān)系嵌入向量,p(o|s,r,t)代表候選實(shí)體的概率,ot代表其中概率最大的實(shí)體,即最終的預(yù)測(cè)結(jié)果。
預(yù)測(cè)實(shí)體o可以視作一次多分類任務(wù),每一類都對(duì)應(yīng)一個(gè)實(shí)體。采用多分類的交叉熵?fù)p失函數(shù),如公式(9)所示:
其中,G為訓(xùn)練集中的事件集合,p(ok|s)為在已知頭實(shí)體、關(guān)系及時(shí)間的條件下實(shí)體ok作為尾實(shí)體的概率值。GRTKR的算法偽代碼如算法1所示。
算法1GRTKR推理偽代碼
輸入:推理圖Ginf,推理圖中的節(jié)點(diǎn)集合V,鄰域集合函數(shù)N(v),實(shí)體靜態(tài)嵌入向量,關(guān)系嵌入向量er。
輸出:時(shí)序知識(shí)圖譜中的四元組缺失的尾實(shí)體。
為了評(píng)估GRTKR模型在時(shí)序知識(shí)圖譜推理任務(wù)中的效果,主要使用了兩種公開的時(shí)序知識(shí)圖譜數(shù)據(jù)集:ICEWS[16]及YAGO11K[23]。ICEWS 是由BBN ACCENT事件編碼器自動(dòng)從新聞文章中提取數(shù)據(jù)并加入時(shí)間信息生成的,ICEWS14 數(shù)據(jù)集包含2014 年1 月至2014 年12月中所有發(fā)生的事件,ICEWS05-15數(shù)據(jù)集包含2005年1月至2015年12月中所有發(fā)生的事件。YAGO是由德國(guó)馬普研究所研制的鏈接數(shù)據(jù)庫(kù),主要集成了Wikipedia、WordNet 和GeoNames 三個(gè)來(lái)源的數(shù)據(jù)。YAGO11K 是截取其中帶有時(shí)間注釋的數(shù)據(jù)形成的數(shù)據(jù)集。以上數(shù)據(jù)集均為時(shí)序知識(shí)圖譜領(lǐng)域常用的公開數(shù)據(jù)集,具體的統(tǒng)計(jì)信息如表1 所示。其中訓(xùn)練集、驗(yàn)證集、測(cè)試集按照8∶1∶1的比例劃分。
表1 數(shù)據(jù)集信息統(tǒng)計(jì)Table 1 Information statistics of datasets
在時(shí)序知識(shí)圖譜推理的過(guò)程中,推理模型會(huì)對(duì)候選實(shí)體評(píng)分并根據(jù)評(píng)分結(jié)果排序,目標(biāo)實(shí)體在候選實(shí)體中的排名越靠前,則模型的推理效果越好。為了評(píng)估所提出模型的推理效果,使用MRR和Hits@1/3/10評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)估。MRR(mean reciprocal rank)表示平均倒數(shù)排名,即對(duì)目標(biāo)實(shí)體在候選實(shí)體中排名的倒數(shù)取平均,該指標(biāo)可以體現(xiàn)模型的全局表現(xiàn),因?yàn)閷?duì)個(gè)別異常數(shù)據(jù)不敏感,所以目前研究工作更多采用MRR 評(píng)價(jià)模型的綜合表現(xiàn)。Hits@k表示推理結(jié)果命中前k的比例,計(jì)算如公式(10)、(11)所示:
式中,Dtest表示測(cè)試集中四元組的集合,T表示時(shí)序知識(shí)圖譜的時(shí)間戳總數(shù),rank函數(shù)用于計(jì)算目標(biāo)實(shí)體在候選實(shí)體中的排名。
為了充分評(píng)估所提出模型的推理準(zhǔn)確率及性能表現(xiàn),將所提出的模型與主流基線模型進(jìn)行對(duì)比分析。對(duì)比模型包括TransE、DistMult、HyTE、TTransE、TA-DistMult、CyGNet、xERTE 以及DE-SimplE,其中TransE、DistMult是靜態(tài)知識(shí)圖譜推理模型,其余均為時(shí)序知識(shí)圖譜推理模型。
表2~表4給出了在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,對(duì)比模型實(shí)驗(yàn)結(jié)果來(lái)源于CyGNet[18]、xERTE[22]及DE-SimplE[16]。
表2 不同方法在ICEWS14數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results of different inference methods on ICEWS14 dataset 單位:%
表3 不同方法在ICEWS05-15數(shù)據(jù)集上結(jié)果對(duì)比Table 3 Comparison of experimental results of different inference methods on ICEWS05-15 dataset單位:%
由表2、表3 可知,GRTKR 在ICEWS 兩個(gè)數(shù)據(jù)集上均優(yōu)于其他基線方法。在ICEWS14 數(shù)據(jù)集上MRR、Hits@1、Hits@3 和Hits@10 指標(biāo)分別優(yōu)于DE-SimplE約4、11、5、2個(gè)百分點(diǎn)。在ICEWS05-15數(shù)據(jù)集上MRR、Hits@1、Hits@3和Hits@10指標(biāo)分別優(yōu)于DE-SimplE約7、15、11、4個(gè)百分點(diǎn)。
由表4 可知,GRTKR 在YAGO 數(shù)據(jù)集上優(yōu)于其他基線方法,MRR、Hits@3 和Hits@10 分別優(yōu)于CyGNet約4、3、3個(gè)百分點(diǎn)。
綜合三個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果可以看出,GRTKR 推理精度提升效果明顯,這是因?yàn)镚RTKR 模型通過(guò)加權(quán)采樣來(lái)完成圖譜重構(gòu),同時(shí),對(duì)實(shí)體進(jìn)行顯式與隱式雙重時(shí)序特征提取,可以更細(xì)粒度地捕獲特征,從多個(gè)角度獲取實(shí)體的時(shí)序特征,使得提取到的時(shí)序特征更加豐富。DE-SimplE在三元組推理模型的基礎(chǔ)上,僅僅增加了一個(gè)歷時(shí)的實(shí)體嵌入函數(shù)對(duì)時(shí)間維度進(jìn)行建模,該函數(shù)提供實(shí)體在任何時(shí)間點(diǎn)的特征,但其忽略了實(shí)體的局部結(jié)構(gòu)中隱含的時(shí)序特征。而xERTE通過(guò)在實(shí)體鄰域內(nèi)的迭代采樣和注意力機(jī)制來(lái)完成推理,這雖然可以捕獲鄰域內(nèi)隱含的時(shí)序特征,但缺少對(duì)時(shí)間的顯式建模,導(dǎo)致捕獲的時(shí)序特征不夠豐富。通過(guò)觀察實(shí)驗(yàn)結(jié)果,可以看出GRTKR 在ICEWS 的兩個(gè)數(shù)據(jù)集上的提升高于YAGO11K。這是因?yàn)閅AGO11K 數(shù)據(jù)集的時(shí)間粒度是年,數(shù)據(jù)集中的關(guān)系大多是長(zhǎng)期存在且穩(wěn)定的,時(shí)序特性不強(qiáng),而ICEWS數(shù)據(jù)集中的事實(shí)元組時(shí)間粒度為天,數(shù)據(jù)集中的關(guān)系大多是重復(fù)發(fā)生的、不穩(wěn)定的、短期存在的。GRTKR 可以在時(shí)序特性更強(qiáng)的ICEWS 數(shù)據(jù)集捕獲更多的時(shí)序特征,以此來(lái)提高推理性能。
為評(píng)估鄰域采樣器最大采樣數(shù)量對(duì)模型推理準(zhǔn)確率的影響,本文在數(shù)據(jù)集ICEWS14 上將鄰域采樣器采樣數(shù)分別設(shè)置為{5,10,15,20,25}。觀察該參數(shù)對(duì)模型推理準(zhǔn)確率的影響。實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 MRR與運(yùn)行時(shí)間隨采樣數(shù)量的變化曲線Fig.2 Curves of MRR and Runtime over number of samples
由圖2 可知,當(dāng)最大采樣數(shù)取值為15 時(shí),MRR 為56.8%,并且隨著鄰域采樣數(shù)量的增加推理的準(zhǔn)確率在不斷提升。但是,采樣數(shù)量設(shè)置為20 相較于15 沒(méi)有明顯的提升,運(yùn)行時(shí)間反而增加了近34%。綜合以上分析,在實(shí)驗(yàn)中設(shè)置采樣數(shù)量為15。
為了評(píng)估GRTKR 各個(gè)組成部分對(duì)性能的影響,將進(jìn)行消融實(shí)驗(yàn),具體地,首先去除時(shí)間編碼器,直接使用實(shí)體的靜態(tài)嵌入向量作為鄰域特征聚合器的輸入。接下來(lái),去除鄰域特征聚合器,直接將時(shí)間編碼器生成的嵌入向量輸入到解碼器,結(jié)果如表5所示。
表5 在ICEWS14、ICEWS05-15和YAGO11K數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 5 Ablation results on ICEWS14,ICEWS05-15 and YAGO11K datasets 單位:%
由表5 中數(shù)據(jù)可以看出,在去除時(shí)間編碼器后,ICEWS14、ICEWS05-15 和YAGO11K 數(shù)據(jù)集上的各項(xiàng)評(píng)價(jià)指標(biāo)中均有所下降,這可以說(shuō)明在鄰域特征聚合器之前增加時(shí)間編碼器能夠?qū)ν评韴D中實(shí)體相同但時(shí)間不同的兩個(gè)節(jié)點(diǎn)加以區(qū)分,同時(shí)豐富節(jié)點(diǎn)特征,使后續(xù)鄰域特征聚合器能夠有效提取節(jié)點(diǎn)之間隱含的時(shí)序特征,有助于提升時(shí)序知識(shí)推理任務(wù)的準(zhǔn)確率。接下來(lái),在去除鄰域特征聚合器后,在三個(gè)數(shù)據(jù)集中的各項(xiàng)評(píng)價(jià)指標(biāo)同樣有所下降,說(shuō)明對(duì)鄰域內(nèi)信息進(jìn)行聚合,從而捕獲實(shí)體局部時(shí)序特征,在時(shí)序知識(shí)圖譜推理任務(wù)中十分重要。
消融實(shí)驗(yàn)結(jié)果表明,GRTKR 的各個(gè)組成部分都對(duì)整體模型的性能起到了積極作用。模型對(duì)實(shí)體在時(shí)序知識(shí)圖譜中的信息進(jìn)行充分挖掘,有效地解決實(shí)體在時(shí)序知識(shí)圖譜中的時(shí)間信息捕獲不夠全面的問(wèn)題。本文提出的對(duì)現(xiàn)有方法的改進(jìn)之處都能有效提升推理模型的性能。
本文提出了一種基于圖譜重構(gòu)的時(shí)序知識(shí)圖譜推理模型,為表示同一實(shí)體在不同時(shí)間下包含不同的信息引入了基于歷時(shí)實(shí)體嵌入的時(shí)間編碼器,同時(shí),觀察到在不同時(shí)間的每個(gè)事件也存在著不同強(qiáng)度的因果聯(lián)系,本文進(jìn)一步設(shè)計(jì)了鄰域特征聚合器來(lái)學(xué)習(xí)的局部結(jié)構(gòu)與時(shí)序信息,深度挖掘了實(shí)體在時(shí)序知識(shí)圖譜上的時(shí)序特征。實(shí)驗(yàn)結(jié)果表明,本文方法提高了時(shí)序知識(shí)圖譜推理的性能。下一步的工作將致力于修剪GRTKR 模型,使其能夠在大規(guī)模時(shí)序知識(shí)圖譜中推理,除此之外,嘗試引入注意力機(jī)制,提高模型的可解釋性。