陳 恒,祁瑞華,朱 毅,楊 晨,郭 旭,王維美
1.大連外國(guó)語(yǔ)大學(xué) 語(yǔ)言智能研究中心,遼寧 大連 116044
2.大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026
通常,大多數(shù)知識(shí)圖譜KG(Knowledge Graph)表示為多關(guān)系圖,它是事實(shí)三元組的集合。知識(shí)圖譜中的節(jié)點(diǎn)代表實(shí)體,邊代表實(shí)體間關(guān)系[1]?,F(xiàn)實(shí)世界大量的知識(shí)可以簡(jiǎn)單地表示為實(shí)體和實(shí)體間的關(guān)系。KG以結(jié)構(gòu)化的方式描述現(xiàn)實(shí)世界中的概念、實(shí)體及其鏈接關(guān)系,在個(gè)性化推薦[2]、智能搜索[3]、智能問(wèn)答[4]和自然語(yǔ)言處理[5]任務(wù)中有非常重要的應(yīng)用價(jià)值。雖然知識(shí)圖譜包含了數(shù)以千萬(wàn)計(jì)的實(shí)體以及數(shù)以億計(jì)的三元組事實(shí),但是KG 中數(shù)據(jù)仍然大量缺失,即缺少許多有效的三元組[6-7]。例如,在大型知識(shí)圖譜Freebase 中,缺少出生日期的人占70%,缺少國(guó)籍信息的人占75%[8]。因此,許多研究工作致力于知識(shí)圖譜補(bǔ)全或鏈接預(yù)測(cè)任務(wù),即判斷一個(gè)缺失三元組是否有效[9-10]。許多嵌入模型學(xué)習(xí)實(shí)體和關(guān)系的矢量或矩陣表示,以獲得較為先進(jìn)的鏈接預(yù)測(cè)結(jié)果。TransE[11]將關(guān)系看作頭實(shí)體到尾實(shí)體的平移,實(shí)體和關(guān)系由k維嵌入向量表示。此外,TransH[12]、TransR[13]等模型分別擴(kuò)展并改進(jìn)TransE。上述模型首先將實(shí)體與關(guān)系映射為低維嵌入,然后通過(guò)打分函數(shù)確定任意一個(gè)三元組真實(shí)存在的概率。這些方法已被證明是可擴(kuò)展和有效的[14-15]。
在這些嵌入模型中,TransE、DistMult[16]和RotatE[15]可以對(duì)知識(shí)圖譜中的關(guān)系模式進(jìn)行建模和推理。受文獻(xiàn)[16]啟發(fā),TransE 將關(guān)系視為從頭部實(shí)體到尾部實(shí)體的轉(zhuǎn)移,可以建模反轉(zhuǎn)關(guān)系和組合關(guān)系。DistMult 和ComplEx[17]能分別推理和建模對(duì)稱關(guān)系和反對(duì)稱關(guān)系。RotatE 將每個(gè)關(guān)系定義為復(fù)矢量空間中頭實(shí)體到尾實(shí)體的旋轉(zhuǎn),可以建模和推理三種關(guān)系模式,即對(duì)稱/反對(duì)稱,反轉(zhuǎn)和組合。上述嵌入模型能建模對(duì)稱、反轉(zhuǎn)和組合等不同的關(guān)系模式,卻無(wú)法對(duì)知識(shí)圖譜中普遍存在的語(yǔ)義分層現(xiàn)象進(jìn)行有效建模。語(yǔ)義分層是知識(shí)圖譜中普遍存在的屬性。例如,在WordNet 中,給定三元組(喬木/柳樹/棕櫚,上位詞,樹),其中“樹”的層次結(jié)構(gòu)要高于“喬木/柳樹/棕櫚”。盡管文獻(xiàn)[18-20]將分層結(jié)構(gòu)引入知識(shí)圖譜,但仍然需要其他數(shù)據(jù)來(lái)獲取實(shí)體或關(guān)系的層次結(jié)構(gòu)信息。因此,如何尋找一種能夠自動(dòng)有效地對(duì)語(yǔ)義層次進(jìn)行建模的方法將變得至關(guān)重要。受文獻(xiàn)[20]啟發(fā),提出一種球坐標(biāo)建模語(yǔ)義分層的知識(shí)圖譜補(bǔ)全方法。為了對(duì)語(yǔ)義層次進(jìn)行建模,將實(shí)體分為兩類:不同語(yǔ)義層級(jí)的實(shí)體和相同語(yǔ)義層級(jí)的實(shí)體。對(duì)于不同語(yǔ)義層級(jí)的實(shí)體,將具有分層屬性的實(shí)體類比于樹,利用節(jié)點(diǎn)深度區(qū)分不同層級(jí)的實(shí)體;對(duì)于相同語(yǔ)義層級(jí)的實(shí)體,利用球坐標(biāo)系的角度來(lái)對(duì)同一語(yǔ)義層級(jí)的實(shí)體進(jìn)行建模表示?;诖怂枷?,使用球坐標(biāo)建模和推理實(shí)體的層次結(jié)構(gòu)信息。由此,模長(zhǎng)部分用于表示不同層級(jí)的實(shí)體,角度部分用于表示同一層級(jí)的實(shí)體。通過(guò)將球坐標(biāo)引入知識(shí)圖譜,可以有效建模知識(shí)圖譜中普遍存在的語(yǔ)義分層現(xiàn)象,從而補(bǔ)全缺失三元組,使得知識(shí)圖譜更加完整。
為評(píng)估本文提出的方法,使用三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集:FB15K-237、WN18RR、YAGO3-10進(jìn)行知識(shí)圖譜補(bǔ)全任務(wù)。在鏈接預(yù)測(cè)實(shí)驗(yàn)中,球坐標(biāo)建模語(yǔ)義分層的知識(shí)圖譜補(bǔ)全方法優(yōu)于大部分嵌入模型,預(yù)測(cè)準(zhǔn)確度更高。
文獻(xiàn)[21-22]總結(jié)分類了許多知識(shí)圖譜補(bǔ)全方法,目前學(xué)習(xí)知識(shí)圖譜嵌入的代表模型有距離模型、雙線性模型和基于神經(jīng)網(wǎng)絡(luò)的模型。其中距離模型將關(guān)系視為頭部實(shí)體到尾部實(shí)體的平移[23],給定三元組(Beijing,cityOf,China),即h+r≈t,如圖1所示。另外,在TransE中,假設(shè)||h+r-t||無(wú)限接近零,即t無(wú)限接近于h+r[24]。基準(zhǔn)模型TransE 將關(guān)系表示為頭實(shí)體和尾實(shí)體之間的雙射函數(shù),只能建模反轉(zhuǎn)關(guān)系和組合關(guān)系。TransH把h和t投影到一個(gè)超平面,關(guān)系視為兩個(gè)投影向量h和t之間的平移。TransR 則認(rèn)為不同的關(guān)系應(yīng)該具有不同的語(yǔ)義空間。因此,TransR 將實(shí)體和關(guān)系投影到不同的向量空間中,然后建模頭部實(shí)體到尾部實(shí)體的翻譯關(guān)系。最近,為更好地建立對(duì)稱和反對(duì)稱關(guān)系模型,RotatE 模型將每個(gè)關(guān)系定義為復(fù)矢量空間中頭實(shí)體到尾實(shí)體的旋轉(zhuǎn)。雙線性模型使用點(diǎn)乘算法匹配向量空間中實(shí)體和關(guān)系的潛在語(yǔ)義。RESCAL[25]使用三階張量對(duì)實(shí)體和關(guān)系進(jìn)行表示學(xué)習(xí)。由于RESCAL 模型參數(shù)較多,容易產(chǎn)生過(guò)擬合風(fēng)險(xiǎn),DisMult模型使用減法運(yùn)算符對(duì)頭實(shí)體、關(guān)系和尾實(shí)體三方交互建模,通過(guò)矩陣乘法來(lái)提取多關(guān)系語(yǔ)義。ComplEx 則通過(guò)引入復(fù)數(shù)嵌入來(lái)擴(kuò)展DistMult,以便更好地建模對(duì)稱和反對(duì)稱模式。近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的模型受到了越來(lái)越多的關(guān)注。ConvE[26]模型將實(shí)體和關(guān)系的嵌入向量重組成矩陣,對(duì)該矩陣進(jìn)行2D卷積操作,將卷積生成的多個(gè)特征圖進(jìn)行連接,最終映射成向量和尾實(shí)體點(diǎn)積,得分用于判定三元組的正確性。盡管ConvE 取得了較好的實(shí)驗(yàn)結(jié)果,但該模型未考慮三元組整體特性,僅將頭實(shí)體嵌入和關(guān)系嵌入作為卷積層輸入,因此,ConvKB[27]模型充分考慮三元組整體特征,將頭實(shí)體嵌入、關(guān)系嵌入和尾實(shí)體嵌入矩陣作為算法輸入,通過(guò)卷積操作和全連接操作判別三元組正確率。以上部分模型的打分函數(shù)如表1所示。
表1 相關(guān)模型打分函數(shù)Table 1 Scoring functions of related models
圖1 實(shí)體和關(guān)系低維向量表示Fig.1 Low-dimensional vector representation of entities and relationships
球坐標(biāo)建模語(yǔ)義分層方法隸屬于距離模型。最初,文獻(xiàn)[28]將實(shí)體和類別聯(lián)合嵌入語(yǔ)義空間并為概念分類和無(wú)數(shù)據(jù)分層的分類任務(wù)設(shè)計(jì)模型。文獻(xiàn)[18]提出一種基于層次類型的知識(shí)圖譜嵌入模型TKRL,將實(shí)體類型信息作為實(shí)體投影矩陣,使用兩種不同類型的編碼對(duì)分層結(jié)構(gòu)建模表示。此外,TKRL通過(guò)實(shí)體其他類型信息來(lái)判定不同類型的實(shí)體應(yīng)具有不同的表示。文獻(xiàn)[19]使用聚類算法對(duì)層次關(guān)系結(jié)構(gòu)進(jìn)行建模。與上述分層方法不同,參考文獻(xiàn)[20],引入球坐標(biāo)建模和推理實(shí)體的層次結(jié)構(gòu)信息,無(wú)需使用聚類算法便可以自動(dòng)學(xué)習(xí)知識(shí)圖譜中的語(yǔ)義層次結(jié)構(gòu)。另外,本文方法利用知識(shí)圖譜中的三元組結(jié)構(gòu)信息表示實(shí)體和關(guān)系,并不需要任何額外的信息。在球坐標(biāo)系中,將知識(shí)圖譜中的不同實(shí)體分為兩類:不同語(yǔ)義層級(jí)的實(shí)體,例如,花與牡丹、樹與柳樹;相同語(yǔ)義層級(jí)的實(shí)體,例如玫瑰與牡丹、楊樹與柳樹。球坐標(biāo)系分為模長(zhǎng)部分和角度部分,分別表示兩種不同類別的實(shí)體。其中,模長(zhǎng)部分用于建模表示不同層級(jí)的實(shí)體,角度部分用于建模表示同一層級(jí)的實(shí)體。本文引入球坐標(biāo)系建模實(shí)體和關(guān)系,可以有效區(qū)分語(yǔ)義層次結(jié)構(gòu)中不同級(jí)別和相同級(jí)別的實(shí)體。以上部分模型的打分函數(shù)如表1所示。
語(yǔ)義分層在知識(shí)圖譜中普遍存在。給定兩個(gè)三元組(四葉草,上位詞,植物)和(濟(jì)南,位于,山東?。闹兄馈爸参铩焙汀吧綎|省”較“四葉草”和“濟(jì)南”更為抽象,所屬類別更高,在語(yǔ)義分層中屬于高層級(jí)的實(shí)體,而“四葉草”和“濟(jì)南”屬于低層級(jí)的實(shí)體。受樹型結(jié)構(gòu)啟發(fā),將知識(shí)圖譜中的所有實(shí)體利用多棵樹表示,其中:(1)處于最高語(yǔ)義層級(jí)的實(shí)體對(duì)應(yīng)樹的根節(jié)點(diǎn);(2)擁有更高語(yǔ)義層級(jí)的實(shí)體更加接近根節(jié)點(diǎn);(3)擁有更低語(yǔ)義層級(jí)的實(shí)體更加接近葉子節(jié)點(diǎn);(4)處于相同語(yǔ)義層級(jí)的實(shí)體到根節(jié)點(diǎn)的距離相同。因此,認(rèn)為樹中節(jié)點(diǎn)的深度對(duì)應(yīng)實(shí)體的語(yǔ)義層級(jí)?;谝陨嫌^察,將知識(shí)圖譜中的不同實(shí)體分為兩類,舉例如圖2所示。
圖2 實(shí)體樹型結(jié)構(gòu)Fig.2 Entity tree structure
(1)層次結(jié)構(gòu)中不同級(jí)別的實(shí)體。例如,“哺乳動(dòng)物”和“狗”,“爬行動(dòng)物”和“蛇”。
(2)層次結(jié)構(gòu)中同一級(jí)別的實(shí)體。例如,“貓”和“狗”,“龜”和“蛇”。
使用球坐標(biāo)系建模上述表示語(yǔ)義層級(jí)的樹型結(jié)構(gòu),算法結(jié)構(gòu)圖如圖3所示。
圖3 算法架構(gòu)Fig.3 Algorithm architecture
球坐標(biāo)系是一個(gè)三維坐標(biāo)系統(tǒng),該坐標(biāo)系統(tǒng)中任意位置可由一個(gè)半徑和兩個(gè)角度來(lái)表示。將不同實(shí)體嵌入向量的同維度特征映射到同一個(gè)球坐標(biāo)系中,包括模長(zhǎng)和角度兩部分。球坐標(biāo)系由模長(zhǎng)和角度兩部分組成,旨在為兩種不同類別的實(shí)體建模。其中:模長(zhǎng)部分用于建模層次結(jié)構(gòu)中不同級(jí)別的實(shí)體。在樹型結(jié)構(gòu)中,節(jié)點(diǎn)的深度意味著實(shí)體的類別,因此可以利用節(jié)點(diǎn)的深度來(lái)對(duì)不同級(jí)別的實(shí)體進(jìn)行建模。具體來(lái)說(shuō),將hm,tm,rm分別表示為h,r,t的K維模長(zhǎng)向量,其中,hm,tm,rm每個(gè)維度分別表示為[hm]i,[tm]i,[rm]i。給定三元組(h,r,t),期望:
此外,期望語(yǔ)義層次結(jié)構(gòu)較高的實(shí)體具有較小的模長(zhǎng),因?yàn)檫@些實(shí)體更加靠近樹的根節(jié)點(diǎn)。然而位于較低語(yǔ)義層級(jí)的實(shí)體更加靠近樹的葉節(jié)點(diǎn),故模長(zhǎng)較大。假若僅僅使用模長(zhǎng)來(lái)表示知識(shí)圖譜中的實(shí)體,則位于同一語(yǔ)義層級(jí)的實(shí)體將具有相同的模長(zhǎng),這便難以推理和建模同一語(yǔ)義層級(jí)的實(shí)體?;谶@個(gè)原因,使用球坐標(biāo)系中的角度來(lái)區(qū)分樹中處于同一深度的不同節(jié)點(diǎn)。即,在語(yǔ)義層級(jí)中,使用角度部分來(lái)區(qū)分位于同一層級(jí)的不同實(shí)體。
在球坐標(biāo)系中,位于同一個(gè)球上的點(diǎn)(模長(zhǎng)相同)可以有不同的夾角。角度不同,實(shí)體相異。角度旨在對(duì)語(yǔ)義層次結(jié)構(gòu)相同的實(shí)體進(jìn)行建模表示。具體而言,將球坐標(biāo)系中兩個(gè)不同的夾角設(shè)為p1和p2,將hp和tp的每個(gè)維度,即[hp]i和[tp]i視為一個(gè)角度值,并將rp的每個(gè)維度(即[rp]i)視為角度之間的轉(zhuǎn)化。角度計(jì)算公式如式(4)所示:
根據(jù)上述定義,對(duì)于每個(gè)三元組(h,r,t),將模型的角度打分函數(shù)分別定義為:
其中,sin(?)是正弦函數(shù),cos(?)是余弦函數(shù),用于計(jì)算模型的輸入元素值。參照文獻(xiàn)[15],使用正弦函數(shù)和余弦函數(shù)來(lái)測(cè)量角度之間的距離。
本文的算法將模長(zhǎng)和角度相結(jié)合,將實(shí)體映射到球坐標(biāo)系中,其中半徑坐標(biāo)和夾角坐標(biāo)分別對(duì)應(yīng)于模長(zhǎng)部分和角度部分。球坐標(biāo)算法將實(shí)體h映射為[hm;hp1;hp2],其中hm和hp分別表示模長(zhǎng)和角度,[?;?;?]表示三個(gè)向量的組合形式。最終,將三元組打分函數(shù)定義如下:
其中,λ1,λ2∈R 是由模型學(xué)習(xí)得到的參數(shù)。另外,圖4中展示了球坐標(biāo)算法偽代碼。在文中,將最小化式(8)所示的目標(biāo)函數(shù)作為模型最終的訓(xùn)練目標(biāo),本文所示的目標(biāo)函數(shù)參考文獻(xiàn)[15]。
圖4 球坐標(biāo)算法Fig.4 Spherical coordinate algorithm
式(9)是負(fù)例三元組的概率分布,其中α是采樣溫度。在實(shí)驗(yàn)中,負(fù)樣本的概率計(jì)算參照文獻(xiàn)[15]。另外,負(fù)例三元組構(gòu)造方法如式(10)所示,即將正確三元組頭實(shí)體和尾實(shí)體分別用數(shù)據(jù)集所有實(shí)體代替。
本文使用Adam[29]最小化如式(8)所示的目標(biāo)函數(shù),使用Sigmoid作為算法激活函數(shù)。
本文使用從WordNet、YAGO3和Freebase抽取的三個(gè)數(shù)據(jù)集:WN18RR[26]、YAGO3-10[30]和FB15K-237[31]執(zhí)行鏈接預(yù)測(cè)實(shí)驗(yàn)。參照文獻(xiàn)[26],數(shù)據(jù)集WN18和FB15k包含一些可逆關(guān)系(比如:_hypernym和_hyponym),由于這類三元組(北京,_hypernym,中國(guó))和(中國(guó),_hyponym,北京)會(huì)顯著提高實(shí)驗(yàn)結(jié)果,為保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性,僅保留每對(duì)反轉(zhuǎn)關(guān)系中的一個(gè)關(guān)系,由此構(gòu)造新數(shù)據(jù)集WN18RR和FB15K-237。
WN18RR 是WN18 的新數(shù)據(jù)集,WN18RR 主要包含兩種關(guān)系類型:(1)對(duì)稱關(guān)系,如_similar_to,該關(guān)系連接的頭實(shí)體和尾實(shí)體屬于同一語(yǔ)義層級(jí);(2)非對(duì)稱關(guān)系,如_hypernym,該關(guān)系連接的頭尾實(shí)體屬于不同語(yǔ)義層級(jí)。
FB15K-237 是FB15k 的新數(shù)據(jù)集,F(xiàn)B15K-237 擁有較為復(fù)雜的關(guān)系類型和較少的實(shí)體,主要的關(guān)系模式是對(duì)稱/反對(duì)稱和組合。
數(shù)據(jù)集YAGO3-10包含37種關(guān)系,123 182個(gè)實(shí)體,1 089 040 個(gè)三元組。數(shù)據(jù)集YAGO3-10 擁有許多高入度關(guān)系,即在同一個(gè)關(guān)系下,一個(gè)頭/尾實(shí)體可能對(duì)應(yīng)著大量的尾/頭實(shí)體。例如,一個(gè)缺失三元組(?,hasGender,male)擁有超過(guò)1 000個(gè)正確的頭實(shí)體,因此建模難度更高。
數(shù)據(jù)集統(tǒng)計(jì)情況如表2所示。
表2 數(shù)據(jù)集統(tǒng)計(jì)Table 2 Data set statistics
使用Adam[29]作為優(yōu)化器,并微調(diào)驗(yàn)證集上的超參數(shù)。本文算法使用PyTorch 實(shí)現(xiàn),并在1 755 MHz 24 GD6 GeForce RTX 2080 Ti GPU 和256 GB 的服務(wù)器上進(jìn)行鏈接預(yù)測(cè)實(shí)驗(yàn)。使用超參數(shù)網(wǎng)格搜索訓(xùn)練模型3 000次,其中:學(xué)習(xí)率為λ∈{0.000 01,0.000 05,0.000 2,0.000 5},嵌入維數(shù)為k∈{125,250,500,1 000},批處理大小為b∈{256,512,1 024},定值邊緣超參數(shù)為γ∈{3,6,9,12,18,24}。最優(yōu)超參數(shù)設(shè)置如下:在FBI5K-237 上,Hit@10 最優(yōu)設(shè)置:k=1 000,b=1 024,γ=9,初始化學(xué)習(xí)率為5e-5;在YAGO3-10 上,Hit@10 最優(yōu)設(shè)置:k=500,b=1 024,γ=24,初始化學(xué)習(xí)率為2e-4;在WN18RR 上,Hit@10最優(yōu)設(shè)置:k=500,b=512,γ=6,初始化學(xué)習(xí)率為5e-5。
3.3.1 實(shí)驗(yàn)設(shè)計(jì)
場(chǎng)效應(yīng)管輸出電路如圖7所示。為使系統(tǒng)更加穩(wěn)定,采用光耦隔離輸出。輸出端子J2的引腳1連接外部電源正極,引腳3連接外部電源負(fù)極。外部負(fù)載接在引腳2和3之間。單片機(jī)的P1.2引腳通過(guò)三極管Q2,控制光耦的引腳3和4接通或斷開。當(dāng)P1.2為高電平時(shí),光耦U1的3,4引腳接通,從而場(chǎng)效應(yīng)管M1導(dǎo)通,給外部負(fù)載上電。P1.3場(chǎng)效應(yīng)管輸出電路與此類似。
鏈接預(yù)測(cè)是指預(yù)測(cè)知識(shí)圖譜丟失的真實(shí)三元組,即正確三元組中丟失的頭實(shí)體或尾實(shí)體。比如三元組(HuangBo,_residence,?),其中,尾實(shí)體空缺。在鏈接預(yù)測(cè)中,參照文獻(xiàn)[11]和文獻(xiàn)[13],對(duì)測(cè)試集中每個(gè)三元組,依次去掉頭實(shí)體、尾實(shí)體,然后使用數(shù)據(jù)集的所有實(shí)體來(lái)替代,最后通過(guò)打分函數(shù)計(jì)算每個(gè)新三元組排名順序。
3.3.2 評(píng)估指標(biāo)
依據(jù)文獻(xiàn)[13],選用MR(Mean Rank)、MRR(Mean Reciprocal Rank)和Hit@10 作為鏈接預(yù)測(cè)實(shí)驗(yàn)的評(píng)估指標(biāo)。MR 表示正確實(shí)體的平均排名,如式(11)所示;MRR 代表正確實(shí)體的倒數(shù)平均排名,如式(12)所示;Hit@10 表示正確實(shí)體進(jìn)入前10 的百分比,如式(13)所示。三個(gè)指標(biāo)中,MR 越低、MRR 越高或者Hit@10 越高,代表模型效果越好。實(shí)驗(yàn)中,測(cè)試集和訓(xùn)練集中可能存在某些錯(cuò)誤的三元組,本文采用文獻(xiàn)[11]的標(biāo)準(zhǔn),把可能錯(cuò)誤的三元組從訓(xùn)練集、驗(yàn)證集、測(cè)試集刪除,最終留下正確三元組。Filter 為刪除錯(cuò)誤三元組后的設(shè)置,最初設(shè)置稱為Raw。實(shí)驗(yàn)中,使用Filter標(biāo)準(zhǔn)。
其中,T表示三元組測(cè)試集;候選實(shí)體集鏈接預(yù)測(cè)可表示為函數(shù)表示實(shí)體t在候選實(shí)體集中的排名。
3.3.3 實(shí)驗(yàn)結(jié)果和分析
采用相同實(shí)驗(yàn)設(shè)置情況下,本文實(shí)驗(yàn)環(huán)境為:Window 7 64 位系統(tǒng),GPU 采用1 755 MHz 24 GD6 GeForce RTX 2080 Ti,物理內(nèi)存為256 GB。在鏈接預(yù)測(cè)實(shí)驗(yàn)中,利用超參數(shù)網(wǎng)格搜索算法訓(xùn)練模型3 000次,以選擇MRR 和Hit@10 最優(yōu)超參數(shù)。在實(shí)驗(yàn)中,MRR和Hit@10 最優(yōu)參數(shù)設(shè)置為:k=500,b=512,γ=6,λ=1e-5。表3展示了數(shù)據(jù)集WN18RR鏈接預(yù)測(cè)結(jié)果。
表3表明:(1)在數(shù)據(jù)集WN18RR上,球坐標(biāo)模型較RotatE 在MRR 上有3.6%的提高,在Hit@10 上有1.9%的提高;球坐標(biāo)模型較ConvKB 在MR 上有4.0%的提高,在Hit@10上有2.3%的提高。(2)此外,ConvKB模型表現(xiàn)能力優(yōu)于ConvE,原因在于ConvKB 充分考慮三元組全局特性,深層次提取實(shí)體和關(guān)系特征。(3)和基于神經(jīng)網(wǎng)絡(luò)模型相比,球坐標(biāo)模型在數(shù)據(jù)集WN18RR 表示能力更優(yōu),也說(shuō)明了球坐標(biāo)用于知識(shí)圖譜補(bǔ)全效果更好。
表3 WN18RR鏈接預(yù)測(cè)結(jié)果比較Table 3 WN18RR link prediction results comparison
在實(shí)驗(yàn)中,MRR 和Hit@10 最優(yōu)參數(shù)設(shè)置為:k=1 000,b=1 024,γ=9,λ=5e-5。表4 展示了數(shù)據(jù)集FBI5K-237鏈接預(yù)測(cè)結(jié)果。
表4 FBI5K-237鏈接預(yù)測(cè)結(jié)果比較Table 4 FBI5K-237 link prediction results comparison
表4 表明:(1)在FB15K-237 上,球坐標(biāo)模型優(yōu)于RotatE 模型,但MR 除外。(2)在數(shù)據(jù)集FB15K-237 上,球坐標(biāo)模型較RotatE 在MRR 上有30%的提高,在Hit@10 上有3.4%的提高;球坐標(biāo)模型較ConvKB 在MRR 上有4.8%的提高,在Hit@10 上有3.5%的提高。(3)和嵌入模型相比,球坐標(biāo)模型在數(shù)據(jù)集FB15K-237表示能力更優(yōu),也說(shuō)明了球坐標(biāo)用于知識(shí)圖譜補(bǔ)全效果更好。
在實(shí)驗(yàn)中,MRR 和Hit@10 最優(yōu)參數(shù)設(shè)置為:k=500,b=1 024,γ=24,λ=2e-4。表5 展示了數(shù)據(jù)集YAGO3-10鏈接預(yù)測(cè)結(jié)果。
表5 表明:(1)在YAGO3-10 上,球坐標(biāo)模型優(yōu)于ConvE模型,但MR除外。(2)在數(shù)據(jù)集YAGO3-10上,球坐標(biāo)模型較RotatE在MRR上有6.1%的提高,在Hit@10上有2.7%的提高;球坐標(biāo)模型較ConvKB 在MRR 上有25.6%的提高,在Hit@10 上有16.5%的提高。(3)ConvE模型在MR上優(yōu)于所有模型,MRR、Hit@10優(yōu)于TransE、ComplEx 等模型,可以看出,ConvE 模型在數(shù)據(jù)集YAGO3-10 上具有很好的表示能力。(4)和其他模型相比,球坐標(biāo)模型在數(shù)據(jù)集YAGO3-10 上具有更好的表示能力,也說(shuō)明球坐標(biāo)可以有效提高三元組預(yù)測(cè)準(zhǔn)確率。
表5 YAGO3-10鏈接預(yù)測(cè)結(jié)果比較Table 5 YAGO3-10 link prediction results comparison
為清晰地展示球坐標(biāo)建模實(shí)體的分層效果,在WN18RR上選取兩個(gè)不同類型的三元組,其映射如圖5所示。在分層實(shí)驗(yàn)中,本文將參數(shù)設(shè)置為:k=1 000,γ=6,λ=5e-5。在實(shí)驗(yàn)中,本文在二維(2D)平面上繪制了從球坐標(biāo)模型獲得的散點(diǎn),并與RotatE模型進(jìn)行了比較。
圖5(a)中的三元組(AI,_hypernym,CS),尾實(shí)體的語(yǔ)義層級(jí)高于頭實(shí)體,圖5(b)中的三元組(ask,_verb_group,inquire),頭尾實(shí)體的語(yǔ)義層級(jí)相同。從圖5可以看出,在頭尾實(shí)體分屬不同語(yǔ)義層級(jí)的場(chǎng)景下(圖5(a)),本文的算法較RotatE 表現(xiàn)出更加明顯的分層效果。此外,在RotatE的散點(diǎn)圖中,頭尾實(shí)體難以依靠半徑進(jìn)行區(qū)分。對(duì)于頭尾實(shí)體分屬相同語(yǔ)義層級(jí)的場(chǎng)景下(圖5(b)),本文算法分層效果依然表現(xiàn)較好,即頭尾實(shí)體具有大致相同的半徑。
圖5 實(shí)體分層可視化Fig.5 Hierarchical visualization of entities
本文針對(duì)知識(shí)圖譜補(bǔ)全提出一種新穎的球坐標(biāo)語(yǔ)義分層方法,該方法將不同實(shí)體嵌入向量的同維度特征映射到同一個(gè)球坐標(biāo)系中,可以有效建模知識(shí)圖譜中普遍存在的語(yǔ)義分層結(jié)構(gòu)。球坐標(biāo)系由模長(zhǎng)和角度兩部分組成,模長(zhǎng)部分用于建模分屬不同語(yǔ)義層級(jí)的實(shí)體,角度部分用于建模屬于相同語(yǔ)義層級(jí)的實(shí)體。在三個(gè)基準(zhǔn)數(shù)據(jù)集上,進(jìn)行了相關(guān)的鏈接預(yù)測(cè)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,和其他基準(zhǔn)模型相比,本文的方法在MR、MRR和Hit@10指標(biāo)上有了顯著提高。這表明球坐標(biāo)語(yǔ)義分層算法可以有效解決知識(shí)圖譜數(shù)據(jù)稀疏問(wèn)題,提高知識(shí)圖譜完備性。
為提高鏈接預(yù)測(cè)準(zhǔn)確率,在今后的研究中,將從兩方面進(jìn)行探索:(1)嘗試將球坐標(biāo)與神經(jīng)網(wǎng)絡(luò)模型結(jié)合以開發(fā)動(dòng)態(tài)知識(shí)圖補(bǔ)全方法。(2)將實(shí)體和關(guān)系的描述文本融入球坐標(biāo)系,作為算法的輸入。