張子辰,岳 昆,祁志衛(wèi),段 亮
云南大學(xué) 信息學(xué)院,昆明650500
近年來(lái),知識(shí)圖譜(knowledge graph,KG)作為結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用符號(hào)形式化的方式描述物理世界中的概念及其相互關(guān)系,成為了學(xué)界和業(yè)界的研究熱點(diǎn)。KG 構(gòu)建是知識(shí)圖譜研究的關(guān)鍵,目前主要的構(gòu)建方法先抽取非結(jié)構(gòu)化數(shù)據(jù)中的實(shí)體和關(guān)系,然后以結(jié)構(gòu)化的方式存儲(chǔ)和表示實(shí)體與實(shí)體間的相互關(guān)系。然而,隨著時(shí)間的推移,領(lǐng)域KG 的構(gòu)建需要實(shí)時(shí)反映新的知識(shí),例如,新知識(shí)可能來(lái)源于各種社交媒體中快速產(chǎn)生且不斷演化的數(shù)據(jù),需要將其不斷添加到KG 中,進(jìn)而反映隨時(shí)間推移知識(shí)庫(kù)的演化發(fā)展。因此,如何高效地將數(shù)據(jù)中蘊(yùn)含的新知識(shí)添加到當(dāng)前KG 中,完成時(shí)序KG 的增量構(gòu)建,具有重要意義。上述開(kāi)放世界背景下數(shù)據(jù)驅(qū)動(dòng)的時(shí)序KG 增量構(gòu)建,可以豐富現(xiàn)有KG 并實(shí)時(shí)地反映知識(shí)的演化更新,仍存在如下挑戰(zhàn):
(1)由于數(shù)據(jù)中蘊(yùn)含的新知識(shí)需要不斷更新到當(dāng)前KG 中,而KG 作為一種高維、復(fù)雜的圖結(jié)構(gòu),需要一種能夠高效描述時(shí)序KG 并支持其增量構(gòu)建的模型。
(2)添加合適的新知識(shí),是完成時(shí)序KG 增量構(gòu)建的關(guān)鍵,需要一種能夠度量新知識(shí)與當(dāng)前KG 吻合程度的方法,作為評(píng)判能否添加的依據(jù)。
針對(duì)挑戰(zhàn)(1),現(xiàn)有的圖嵌入法大多通過(guò)TransE、TransH和TransD等基于知識(shí)表示的翻譯模型,將高維、復(fù)雜、異構(gòu)的KG 嵌入到低維、統(tǒng)一、稠密的向量空間中,進(jìn)而完成對(duì)現(xiàn)有KG 的構(gòu)建和知識(shí)表示。另外,基于翻譯模型還衍生出許多其他表示學(xué)習(xí)模型,如TransH 在TransE 基礎(chǔ)上設(shè)計(jì)出新的翻譯模型TransAH,提高了訓(xùn)練學(xué)習(xí)的效率和知識(shí)表達(dá)能力。文獻(xiàn)[11]提出一種改進(jìn)的知識(shí)表示模型STransH,采用單層神經(jīng)網(wǎng)絡(luò)的非線性操作來(lái)加強(qiáng)實(shí)體和關(guān)系的語(yǔ)義聯(lián)系,獲得了更優(yōu)的效果,可用于大規(guī)模知識(shí)圖譜構(gòu)建和推理等任務(wù)。但是,這些構(gòu)建方法只針對(duì)現(xiàn)有KG 進(jìn)行構(gòu)建,對(duì)隨時(shí)序產(chǎn)生的新知識(shí)如何進(jìn)行增量構(gòu)建,仍有待進(jìn)一步探索。
為了描述KG 中知識(shí)隨時(shí)間變化的相應(yīng)更新,Goel 和Wang 等基于靜態(tài)KG 的嵌入模型對(duì)多關(guān)系事件構(gòu)建時(shí)序KG。由于事件具有時(shí)效性,為了彌補(bǔ)在事件和時(shí)間關(guān)系方面覆蓋范圍和完整性方面的不足,文獻(xiàn)[14]融合了事件的時(shí)間信息,通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)事件的上下文信息進(jìn)行編碼,從而構(gòu)建時(shí)序KG。Gottschalk 等基于時(shí)序KG 的特點(diǎn)構(gòu)建了多語(yǔ)言、以事件為中心的時(shí)序知識(shí)圖譜EventKG。但是,上述構(gòu)建方法主要針對(duì)現(xiàn)有事件的時(shí)序信息來(lái)構(gòu)建KG,而如何將外部數(shù)據(jù)所蘊(yùn)含的新知識(shí)不斷添加到KG 有待進(jìn)一步探索。
對(duì)此,本文提出了一種數(shù)據(jù)驅(qū)動(dòng)的時(shí)序KG 構(gòu)建方法,實(shí)現(xiàn)時(shí)序KG 的增量構(gòu)建。具體而言,給出時(shí)序KG 的定義,并基于TransH 提出了一種時(shí)序KG 建模方法,從而獲得時(shí)序KG 的嵌入向量。為了保證KG 嵌入到低維向量空間的損失最小,利用隨機(jī)梯度下降法(stochastic gradient descent,SGD),從而使增量構(gòu)建的模型損失最小。
針對(duì)挑戰(zhàn)(2),目前大多數(shù)方法通過(guò)對(duì)KG 中實(shí)體間的關(guān)系或三元組中缺失的實(shí)體進(jìn)行補(bǔ)全,即知識(shí)圖譜補(bǔ)全(knowledge graph completion,KGC)。其中,一些封閉世界下的KGC 方法,不考慮新增的實(shí)體關(guān)系,如基于路徑和規(guī)則預(yù)測(cè)實(shí)體間的新關(guān)系和基于元學(xué)習(xí)預(yù)測(cè)實(shí)體關(guān)系,使KG 更加完整。學(xué)者們還考慮到新增的外部知識(shí),即開(kāi)放世界下的KGC,如Socher 等提出了基于張量神經(jīng)網(wǎng)絡(luò)(neural tensor network,NTN)的模型,用以推斷實(shí)體間的關(guān)系,通過(guò)訓(xùn)練KG 中的三元組來(lái)抽取真實(shí)文本中實(shí)體間的關(guān)系,并補(bǔ)充到KG中。Shi等提出了ConMask模型,用于學(xué)習(xí)實(shí)體名稱的嵌入和部分文本描述,進(jìn)而將外部實(shí)體連接到KG 上。上述方法主要針對(duì)三元組中的缺失實(shí)體或關(guān)系進(jìn)行補(bǔ)全,而面對(duì)數(shù)據(jù)中所包含的大量且完整的新知識(shí)(即新三元組集合),仍有待進(jìn)一步探索。
因此,本文的增量構(gòu)建方法將把基于數(shù)據(jù)獲得的新知識(shí)(新三元組)添加到當(dāng)前KG 中,進(jìn)而完成KG 的增量構(gòu)建。例如,一條少數(shù)民族新聞報(bào)道了“卡雀哇”節(jié)日,從中抽取出新的三元組如“(獨(dú)龍族,節(jié)日,卡雀哇)”、“(馬庫(kù)村,緊鄰,中緬邊境線)”和“(卡雀哇,活動(dòng),剽牛祭天)”等??梢钥闯鋈M“(獨(dú)龍族,節(jié)日,卡雀哇)”與獨(dú)龍族相關(guān),可將其增量更新到KG 中,過(guò)程如圖1 所示。
根據(jù)圖1 實(shí)例中新增三元組與當(dāng)前KG 的關(guān)系,考慮以下兩個(gè)問(wèn)題:(1)如何只添加與當(dāng)前KG 有關(guān)的新知識(shí)。如實(shí)體“卡雀哇”與當(dāng)前KG 中的“獨(dú)龍族”存在新的“節(jié)日”關(guān)系,而“馬庫(kù)村”沒(méi)有這一關(guān)系,因此“(馬庫(kù)村,緊鄰,中緬邊境線)”應(yīng)該去除。(2)如何把與當(dāng)前KG 間接關(guān)聯(lián)的三元組添加到KG中。如三元組“(獨(dú)龍族,節(jié)日,卡雀哇)”與當(dāng)前KG相關(guān)聯(lián),而“(卡雀哇,活動(dòng),剽牛祭天)”沒(méi)有這種關(guān)聯(lián)關(guān)系,但這兩個(gè)三元組之間相關(guān),因此“(卡雀哇,活動(dòng),剽牛祭天)”也應(yīng)添加到當(dāng)前KG 中。
圖1 KG 添加新三元組實(shí)例Fig.1 Example of adding new triple to KG
為了直觀度量新三元組與當(dāng)前KG 的吻合程度,本文采用激活函數(shù)將其轉(zhuǎn)化為一個(gè)權(quán)值,用此度量新三元組與當(dāng)前KG 的最終吻合度。然后,為了添加與當(dāng)前KG 具有間接關(guān)聯(lián)的新三元組,本文基于貪心策略提出了最優(yōu)子集的提取算法,將最優(yōu)新三元組集合添加到當(dāng)前KG 中,完成時(shí)序KG 的增量構(gòu)建。
最后,通過(guò)建立在Wikidata、CN-DBpedia 和Freebase 數(shù)據(jù)集上的實(shí)驗(yàn),與現(xiàn)有的KGC 方法進(jìn)行比較,驗(yàn)證了本文方法的高效性和有效性。
時(shí)序KG 是由不同時(shí)刻下KG 組成的序列,把初始時(shí)刻的KG 記為,隨著時(shí)間的推移,增量變化如下:
其中,G(0 ≤≤)表示時(shí)刻的KG。
隨著時(shí)間推移,將數(shù)據(jù)中蘊(yùn)含且符合G的新知識(shí)增量構(gòu)建到G中,得到G,同時(shí)將新的實(shí)體關(guān)系添加到E和R中,進(jìn)而得到E和R。該過(guò)程可表示為:
其中,Δ表示這個(gè)時(shí)段所產(chǎn)生的新知識(shí),即新三元組集合。
其中,P為集合中所有三元組包含實(shí)體的集合,P為集合中所有三元組包含關(guān)系的集合。
圖2 實(shí)體與關(guān)系向量空間Fig.2 Vector space of entity and relation
然后,將向量轉(zhuǎn)化到超平面上(記為d),那么嵌入帶來(lái)的損失表示為:
其中,為三元組集合,即正樣本集合;′是構(gòu)造的負(fù)樣本三元組集合;[·]是一個(gè)正值函數(shù)。
為了使構(gòu)建數(shù)據(jù)集較大時(shí)的損失最小,并提高構(gòu)建效率,利用隨機(jī)梯度下降算法來(lái)獲取最小值。具體而言,每次隨機(jī)抽取出個(gè)正樣本(記為),然后為中每個(gè)三元組構(gòu)造一個(gè)負(fù)樣本,再把這些正樣本和負(fù)樣本合并為一個(gè)集合(記為)。隨著梯度的下降,不斷迭代更新向量位置,從而得到損失最小的G的表示模型。上述思想見(jiàn)算法1。
從G構(gòu)建G
隨機(jī)梯度下降計(jì)算過(guò)程中,每次選取個(gè)正樣本以及構(gòu)造個(gè)負(fù)樣本,則采樣計(jì)算損失需要次。假設(shè)梯度下降迭代步數(shù)為次,即while 循環(huán)執(zhí)行次,因此該算法的時(shí)間復(fù)雜度為(·)。
為了保證時(shí)刻所添加的知識(shí)與G相吻合,本節(jié)提出吻合度計(jì)算模型,用于度量三元組與當(dāng)前KG 的吻合程度。首先,從時(shí)刻所產(chǎn)生的新知識(shí)中抽取出三元組集合Δ,然后將Δ嵌入到G的向量空間中,并且從兩方面來(lái)度量吻合度:(1)模型吻合度,即三元組是否能夠與G的增量構(gòu)建模型相吻合;(2)語(yǔ)義吻合度,即三元組能否與G的語(yǔ)義信息相吻合。
模型吻合度:由于G是通過(guò)時(shí)序KG 增量構(gòu)建模型得到的,基于式(2)計(jì)算出(,,)∈Δ與G的模型吻合度:
其中,表示時(shí)刻,(,,)越接近0,吻合度越高。
語(yǔ)義吻合度:由于G中關(guān)系的數(shù)量遠(yuǎn)遠(yuǎn)小于實(shí)體的數(shù)量,分別計(jì)算每個(gè)實(shí)體∈E與(,,)∈Δ中、的余弦相似度,即度量其與G上節(jié)點(diǎn)的相似度及相似度的最大值,如式(5)所示:
在任意三元組(,,)中,若或與當(dāng)前KG 中某個(gè)實(shí)體相似,則說(shuō)明該實(shí)體與G的語(yǔ)義信息相吻合。具體而言,比較cos和cos,把其中較大值作為該三元組與G的語(yǔ)義吻合度,方法如下:
其中,若或與E中有相同的實(shí)體,則該三元組為目標(biāo)三元組。
為了得到該三元組與G的吻合程度,用激活函數(shù)把兩個(gè)因素構(gòu)造出一個(gè)特征向量,用來(lái)表征每個(gè)三元組的特點(diǎn):
然后利用式(8)的激活函數(shù)將特征向量轉(zhuǎn)化為權(quán)值(,,)∈[0,1],將其作為評(píng)判三元組與當(dāng)前KG 的吻合度的依據(jù)。
其中,是一個(gè)非線性激活函數(shù),和表示在訓(xùn)練時(shí)可以調(diào)節(jié)的參數(shù)矩陣。(,,)越接近1,表明該三元組與G的吻合度越高。
不難發(fā)現(xiàn),(,,)很小的三元組也可能與當(dāng)前KG 中的知識(shí)相關(guān)。例如,待添加的三元組“(獨(dú)龍族,節(jié)日,卡雀哇)”和“(卡雀哇,活動(dòng),剽牛祭天)”,前者權(quán)值較高,但后者較低。若只設(shè)置閾值,后者可能不會(huì)添加到KG 中。因此,不僅要提取權(quán)值較大的三元組,還要找到那些權(quán)值不高但與當(dāng)前KG 間接關(guān)聯(lián)的三元組,進(jìn)而獲取集合Δ的最優(yōu)子集和最大權(quán)值,即最終的目標(biāo)函數(shù)。對(duì)此,本文提出基于貪心策略的提取最優(yōu)子集合算法,使子集用最少的三元組來(lái)表征集合Δ。由于KG 中實(shí)體數(shù)往往大于關(guān)系數(shù),把最優(yōu)子集和Δ中的所有實(shí)體分別記為P和Δ,給出約束條件P≈Δ,使集合表征集合Δ。該問(wèn)題描述如下:
其中,表示最優(yōu)子集的最大權(quán)值。
對(duì)此,先找到集合Δ中權(quán)值大于閾值的三元組,將其添加到集合中,并更新集合P、權(quán)值,再?gòu)?span id="j5i0abt0b" class="emphasis_italic">Δ中去除它。此外,為了找到那些權(quán)值不高但可以添加的三元組,先找到能夠與集合中任一三元組相連接的其他三元組放入一個(gè)候選集合,進(jìn)而從中選擇權(quán)值最大者并添加到中。直至找不到能夠連接的其他三元組(即=?),返回最優(yōu)子集和權(quán)值。具體步驟如算法2 所示。
提取最優(yōu)子集
算法2 中,假設(shè)集合Δ包含個(gè)三元組,那么for 循環(huán)需要執(zhí)行次。若候選集中有N個(gè)元素,則第二個(gè)while 循環(huán)的時(shí)間復(fù)雜度為(·N)。最壞情況下算法的時(shí)間復(fù)雜度為(·N)。
算法2 執(zhí)行到第(1 ≤≤)步時(shí),選擇的個(gè)三元組包含在最優(yōu)解子集中。
令集合Δ為={,,…,s}。當(dāng)=1 時(shí),選擇集合中權(quán)值最大的元素。顯然,它是最優(yōu)解子集中一個(gè)元素。否則,將這個(gè)權(quán)值最大的元素添加到中則會(huì)出現(xiàn)實(shí)體重疊,因此讓其與產(chǎn)生實(shí)體重疊的元素替換,可以得到一個(gè)更好的最優(yōu)解,矛盾。假設(shè)前(1 <≤)步選擇的元素是最優(yōu)解的一部分,則在進(jìn)行第+1 步時(shí),與其相連的元素中權(quán)值最大的元素一定包含在最優(yōu)解中。否則,將該元素放入中會(huì)出現(xiàn)實(shí)體重疊,因此把產(chǎn)生實(shí)體重疊的元素替換為該元素,可以得到一個(gè)更好的最優(yōu)解,矛盾。推廣到前步依然成立,則定理成立。
通過(guò)定理可知,算法2 的輸出為最優(yōu)解,則通過(guò)最優(yōu)子集合就能增量構(gòu)建得到G,進(jìn)而隨著時(shí)間推移,不斷提取最優(yōu)三元組集合,從而實(shí)現(xiàn)時(shí)序KG 的增量構(gòu)建。
為了模擬時(shí)序KG 的增量構(gòu)建過(guò)程,將Wikidata(http://dumps.wikimedia.org/wikidatawiki/entities)、CNDBpedia(http://www.openkg.cn/dataset/cndbpedia)、Freebase(https://developers.google.com/freebase)作為測(cè)試數(shù)據(jù)集,并按照其發(fā)布時(shí)間來(lái)劃分三元組添加的順序。通過(guò)實(shí)驗(yàn)測(cè)試本文提出的時(shí)序KG 增量構(gòu)建方法的效率及有效性,同時(shí)與典型的KGC 方法進(jìn)行實(shí)體預(yù)測(cè)結(jié)果比較。上述數(shù)據(jù)集中所包含的實(shí)體、關(guān)系和三元組個(gè)數(shù)的統(tǒng)計(jì)信息如表1 所示。
表1 數(shù)據(jù)集Table 1 Datasets
與+1 時(shí)刻的數(shù)據(jù)集對(duì)應(yīng)的KG 記為G,前一時(shí)刻的KG 記為G。使用本文方法,將從時(shí)刻到+1 時(shí)刻新增的三元組作為集合增量地構(gòu)建至G中,進(jìn)而得到G。
首先,針對(duì)添加不同數(shù)量集的三元組集合(新知識(shí)),在同一數(shù)據(jù)集下測(cè)試其執(zhí)行時(shí)間,如圖3 所示:(1)增量計(jì)算的時(shí)間,即完成三元組吻合度計(jì)算和得到最優(yōu)子集合的執(zhí)行時(shí)間;(2)構(gòu)建時(shí)間,即算法1 的執(zhí)行時(shí)間??梢钥闯觯诓煌瑪?shù)據(jù)集下,隨著數(shù)量集的增加,執(zhí)行時(shí)間也大幅上升,特別是在Freebase 下的平均增量構(gòu)建時(shí)間約是Wikidata 下的13 倍。另外,對(duì)于不同數(shù)據(jù)集中添加相同數(shù)量的三元組,數(shù)據(jù)集越大,增量構(gòu)建時(shí)間越長(zhǎng),在CN-DBpedia 與Wikidata 中共同添加10個(gè)三元組,前者的執(zhí)行時(shí)間接近后者的兩倍。
圖3 不同數(shù)據(jù)集下的Gi 增量構(gòu)建時(shí)間Fig.3 Execution time of incremental construction of Gi with different datasets
然后,測(cè)試了算法1 不同迭代次數(shù)、不同數(shù)據(jù)集情形下的構(gòu)建時(shí)間,如圖4 所示。可以看出,模型構(gòu)建時(shí)間隨著迭代次數(shù)增加而增加,其中三元組過(guò)億的Freebase 迭代1 000 次的時(shí)間相較于100 次增加了接近1.3 倍。
圖4 不同迭代次數(shù)下Gi+1 的構(gòu)建時(shí)間Fig.4 Execution time of Gi+1 construction under different iteration times
為了驗(yàn)證吻合度度量模型以及增量構(gòu)建算法的有效性,使用準(zhǔn)確率(Precision,)、召回率(Recall,)和1 值來(lái)評(píng)價(jià)提取結(jié)果,三個(gè)指標(biāo)的計(jì)算方法如下:其中,為提取出能夠添加到G中的三元組個(gè)數(shù);為能被檢索到的三元組個(gè)數(shù),即進(jìn)入過(guò)候選集的三元組個(gè)數(shù);為所有需要添加的三元組個(gè)數(shù)。
首先,測(cè)試了算法2 中閾值對(duì)提取結(jié)果的影響,如圖5 所示??梢钥闯觯S著閾值的減小,準(zhǔn)確率、召回率和1 值都有所上升。特別地,在數(shù)據(jù)集CN-DBpedia 中,當(dāng)閾值從0.8 到0.7 時(shí)三個(gè)指標(biāo)的上升幅度最大,都接近0.15。這是因?yàn)镃N-DBpedia 中有一些孤立三元組且權(quán)值小于0.8,導(dǎo)致提取數(shù)量驟增,當(dāng)閾值不超過(guò)0.7 時(shí),結(jié)果較為穩(wěn)定。
圖5 不同閾值下的提取結(jié)果Fig.5 Extraction results under different thresholds
另外,從Freebase 數(shù)據(jù)集中提取一定數(shù)量的三元組,記為FB50K。在該數(shù)據(jù)集下,與一些現(xiàn)有的KGC方法進(jìn)行抽取效果的對(duì)比,測(cè)試了閾值的改變對(duì)提取結(jié)果的影響,如圖6 所示。
圖6 不同方法的提取結(jié)果Fig.6 Extraction results of different methods
可以看出,本文提出的增量構(gòu)建方法的準(zhǔn)確率、召回率和1 值均高于其他KGC 方法,尤其是在閾值為0.7 時(shí),本文方法的準(zhǔn)確率提升了0.06 以上,這是因?yàn)樗惴? 能夠顧及一些權(quán)值較低但與當(dāng)前KG 相符的三元組,而其他KGC 方法無(wú)法提取出這些三元組。同時(shí)隨著閾值的上升,雖然提取到符合的三元組數(shù)量有所下降,但本文方法的三個(gè)指標(biāo)仍然高于其他方法。
接著對(duì)Δ進(jìn)行劃分,其中一部分三元組是與G相關(guān)聯(lián),記作Δ={(,,)|∈E或∈E};另一部分則與G無(wú)關(guān)聯(lián),記作Δ={(,,)|?E且?E},把Δ在Δ的占比記為(0 ≤≤1) 。然后,在不同數(shù)據(jù)集下測(cè)試了占比對(duì)提取結(jié)果的影響,如圖7 所示??梢钥闯?,隨著無(wú)關(guān)三元組的減少,提取效果越來(lái)越好。從占比0.8 到0.5,其準(zhǔn)確率大幅提升了接近0.3。
圖7 不同占比下的提取結(jié)果Fig.7 Extraction results under different proportions
為了得到盡可能好的數(shù)據(jù)提取結(jié)果,將閾值設(shè)為0.7,占比設(shè)為0.5,在同一數(shù)據(jù)集下測(cè)試提取結(jié)果的有效性,如表2 所示。可以看出,隨著新增三元組數(shù)量的增加,增量構(gòu)建結(jié)果的準(zhǔn)確性也有所上升。同時(shí),也統(tǒng)計(jì)了不同數(shù)據(jù)集下G的增量構(gòu)建后三元組、實(shí)體和關(guān)系新增的數(shù)量,如表3 所示??傊?,若當(dāng)前KG 與所添加的新知識(shí)相關(guān)度較高,則提取效果更好,可更好地豐富當(dāng)前KG。
表2 不同數(shù)據(jù)集下的提取結(jié)果Table 2 Extraction results under different datasets
表3 不同數(shù)據(jù)集下的增量構(gòu)建結(jié)果Table 3 Results of incremental construction under different datasets
為了驗(yàn)證本文方法對(duì)于KGC 任務(wù)的有效性,再?gòu)腇reebase 數(shù)據(jù)集中提取一定數(shù)量的三元組,記為FB500K。在FB50K和該數(shù)據(jù)集下,與其他方法進(jìn)行實(shí)體預(yù)測(cè)并對(duì)比預(yù)測(cè)結(jié)果?;赥ransE、TransH和TransD算法,把新知識(shí)直接嵌入到模型中訓(xùn)練,進(jìn)而完成預(yù)測(cè),分別記為TransE(OW)、TransH(OW)和TransD(OW)。
針對(duì)不同數(shù)據(jù)集,用平均排序(mean rank,MR)和HITS@50 來(lái)評(píng)價(jià)預(yù)測(cè)結(jié)果的有效性,MR 值越低,HITS@50 值越高,則說(shuō)明結(jié)果更加準(zhǔn)確,結(jié)果如表4所示??梢钥闯觯疚姆椒ǖ膶?shí)體預(yù)測(cè)結(jié)果較好,因?yàn)槠淠軌蜻^(guò)濾新知識(shí)中的部分無(wú)關(guān)信息(孤立三元組),使實(shí)體總數(shù)目相對(duì)于TransE(OW)較少,進(jìn)而MR和HITS@50值較好。
表4 開(kāi)放世界下實(shí)體預(yù)測(cè)結(jié)果Table 4 Open-world entity prediction results
然后,也在封閉世界下與其他KGC 方法進(jìn)行實(shí)體預(yù)測(cè),結(jié)果如表5 所示??梢钥闯?,時(shí)序KG 增量構(gòu)建方法整體優(yōu)于其他方法。這是因?yàn)樗惴? 不僅能夠把權(quán)值較大的三元組添加進(jìn)去,還能把自身權(quán)值較低,但與權(quán)值較大的三元組有關(guān)聯(lián)的三元組添加進(jìn)去,使補(bǔ)全的結(jié)果較為全面。總體而言,相比開(kāi)放世界和封閉世界下的KGC 方法,本文方法對(duì)于實(shí)體預(yù)測(cè)都具有一定優(yōu)勢(shì),驗(yàn)證了本文方法的有效性。
表5 封閉世界下實(shí)體預(yù)測(cè)結(jié)果Table 5 Closed-world entity prediction results
本文提出了時(shí)序KG 的增量構(gòu)建方法,通過(guò)構(gòu)建吻合度計(jì)算模型和提取最優(yōu)子集算法獲得最優(yōu)三元組集合,并將該集合增量構(gòu)建到KG 中。實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效地提取出較為吻合的三元組并增量構(gòu)建到KG 中,但是在實(shí)體預(yù)測(cè)任務(wù)中存在對(duì)TransH 模型的依賴,導(dǎo)致預(yù)測(cè)結(jié)果不夠理想。因此,未來(lái)工作將考慮實(shí)體關(guān)系間的其他特征,更好地表征當(dāng)前KG,進(jìn)而改善增量構(gòu)建模型,提升新知識(shí)增量構(gòu)建的準(zhǔn)確率。另外,擬將本文方法拓展到真實(shí)場(chǎng)景下,基于數(shù)據(jù)中蘊(yùn)含的新知識(shí)對(duì)領(lǐng)域KG 進(jìn)行增量構(gòu)建。