李劍宇,岳 昆
(云南大學(xué) 信息學(xué)院,云南 昆明 650500)
知識(shí)圖譜(Knowledge Graph,KG)中的關(guān)聯(lián)實(shí)體發(fā)現(xiàn)任務(wù),旨在為用戶輸入的查詢實(shí)體推薦最相關(guān)的實(shí)體集合[1].準(zhǔn)確地為用戶輸入的查詢返回關(guān)聯(lián)實(shí)體,不僅能夠加強(qiáng)用戶的查詢體驗(yàn),還能有效地提高用戶的參與度.近年來,隨著KG在搜索引擎[2]、智能問答[3]和個(gè)性化推薦[4]等領(lǐng)域應(yīng)用的日益廣泛,用戶對(duì)關(guān)聯(lián)實(shí)體發(fā)現(xiàn)的需求與日俱增.與此同時(shí),用戶在KG下游應(yīng)用中與實(shí)體的交互也產(chǎn)生了大量的行為數(shù)據(jù)[5],稱為用戶-實(shí)體數(shù)據(jù).值得注意的是,KG中的實(shí)體間的關(guān)聯(lián)往往體現(xiàn)在用戶-實(shí)體數(shù)據(jù)中,并且具有不確定性.例如,在圖1所示的KG中,某一用戶對(duì)電影“終結(jié)者:黑暗命運(yùn)”給出“喜歡”的評(píng)價(jià),則該用戶也有90%的概率會(huì)對(duì)電影“阿凡達(dá)”給出“喜歡”評(píng)價(jià).這種不確定性是對(duì)真實(shí)世界中實(shí)體依賴的定量描述,本文將其作為關(guān)聯(lián)度.針對(duì)KG中給定的實(shí)體,找到與之相關(guān)聯(lián)的實(shí)體集合,是關(guān)聯(lián)實(shí)體發(fā)現(xiàn)的基本任務(wù)[6],通過計(jì)算實(shí)體間的關(guān)聯(lián)度,以更細(xì)的粒度回答關(guān)聯(lián)實(shí)體查詢,能夠得到更加符合KG實(shí)際應(yīng)用的結(jié)果.因此,如何有效地計(jì)算實(shí)體之間的關(guān)聯(lián)度,是關(guān)聯(lián)實(shí)體發(fā)現(xiàn)的關(guān)鍵.
近年來,國內(nèi)外學(xué)者基于KG的結(jié)構(gòu)特征對(duì)關(guān)聯(lián)實(shí)體發(fā)現(xiàn)做了大量研究,主要包括子圖匹配和實(shí)體相似度計(jì)算兩類方法.
基于子圖匹配的方法是將用戶輸入的查詢表示為一個(gè)小型查詢圖,從KG中找出與查詢圖匹配的前k個(gè)子圖[7].例如,Jayaram等[8]提出了基于實(shí)體元組查詢的方法,在KG中查找與給定元組近似的top-k元組集合;Yang等[9]提出STAR模型來提高大規(guī)模KG中查詢關(guān)聯(lián)實(shí)體的效率.然而,這類基于子圖匹配的方法開銷十分昂貴,并且不能描述實(shí)體之間的隱含關(guān)聯(lián).
一些學(xué)者通過實(shí)體間的相似度計(jì)算來發(fā)現(xiàn)關(guān)聯(lián)實(shí)體.例如,Ponza等[10]在KG中創(chuàng)建一個(gè)圍繞兩個(gè)查詢實(shí)體動(dòng)態(tài)增長的加權(quán)子圖,然后使用已知的相關(guān)性度量方法計(jì)算子圖中的邊權(quán)重,從而得到實(shí)體間的關(guān)聯(lián)度;文獻(xiàn)[11]將KG建模為一個(gè)異質(zhì)網(wǎng)絡(luò),基于元路徑捕捉種子實(shí)體之間的潛在共同特征,從而發(fā)現(xiàn)關(guān)聯(lián)實(shí)體;Chen等[12]基于路徑的語義特征來發(fā)現(xiàn)關(guān)聯(lián)實(shí)體,通過處理知識(shí)圖的不完全性,提出概率模型來對(duì)實(shí)體進(jìn)行排序.
上述方法在利用KG結(jié)構(gòu)發(fā)現(xiàn)關(guān)聯(lián)實(shí)體方面取得了很好的效果,但在考慮到用戶行為時(shí),這些方法不足以獲得足夠的實(shí)體間隱含的關(guān)聯(lián)信息,從而難以滿足用戶的查詢需要.例如,在圖1所示的KG中查詢與“終結(jié)者:黑暗命運(yùn)”相關(guān)聯(lián)的實(shí)體,對(duì)于喜歡“詹姆斯·卡梅隆”電影作品的用戶而言,可能有90%的概率在喜歡電影“終結(jié)者:黑暗命運(yùn)”的同時(shí)也喜歡“阿凡達(dá)”,而只有40%的概率同時(shí)喜歡電影“死侍”.然而,KG可能會(huì)優(yōu)先給出“死侍”作為關(guān)聯(lián)實(shí)體反饋給用戶,因?yàn)椤八朗獭焙汀敖K結(jié)者:黑暗命運(yùn)”在KG中具有相同的導(dǎo)演“蒂姆·米勒”.
從KG的應(yīng)用和數(shù)據(jù)分析來看,KG中實(shí)體間的關(guān)聯(lián)信息蘊(yùn)含在用戶-實(shí)體數(shù)據(jù)中.例如,與“泰坦尼克號(hào)”相比,“終結(jié)者:黑暗命運(yùn)”和“阿凡達(dá)”的關(guān)聯(lián)更強(qiáng),因?yàn)橄矚g“終結(jié)者:黑暗命運(yùn)”的用戶有更高的概率也喜歡“阿凡達(dá)”,而不是“泰坦尼克號(hào)”.因此,本文將用戶-實(shí)體數(shù)據(jù)中所蘊(yùn)含的知識(shí)作為對(duì)KG所描述領(lǐng)域知識(shí)的補(bǔ)充,通過計(jì)算用戶-實(shí)體數(shù)據(jù)中實(shí)體之間的關(guān)聯(lián)度,獲得更為準(zhǔn)確、完整的關(guān)聯(lián)實(shí)體集合.具體而言,首先根據(jù)給定的查詢實(shí)體,基于KG的結(jié)構(gòu)描述的領(lǐng)域知識(shí)抽取一部分候選實(shí)體,通過用戶-實(shí)體數(shù)據(jù)蘊(yùn)含的知識(shí)計(jì)算候選實(shí)體與查詢實(shí)體間的關(guān)聯(lián)度,返回與查詢實(shí)體最相關(guān)的一組實(shí)體集合.為此,我們考慮以下兩方面的問題:①如何從KG中抽取候選實(shí)體集?②如何計(jì)算實(shí)體間的關(guān)聯(lián)強(qiáng)度?
為了從KG中獲取候選實(shí)體集,以查詢實(shí)體為“中心”,利用廣度優(yōu)先搜索(Breadth First Search,BFS)抽取KG的子圖.通過觀察實(shí)體在用戶-實(shí)體數(shù)據(jù)中的特點(diǎn)設(shè)計(jì)一種加權(quán)函數(shù)來計(jì)算KG子圖中實(shí)體的權(quán)值,從而獲得權(quán)值最高的一組實(shí)體,將其作為候選實(shí)體集.然而,基于KG領(lǐng)域知識(shí)獲得的候選實(shí)體并不能反映用戶-實(shí)體數(shù)據(jù)中實(shí)體之間真實(shí)的關(guān)聯(lián)關(guān)系,并且無法計(jì)算實(shí)體間的關(guān)聯(lián)度.
以Apriori算法為代表的頻繁模式挖掘,是從數(shù)據(jù)中挖掘頻繁項(xiàng)的經(jīng)典方法[13].通過從用戶-實(shí)體數(shù)據(jù)中挖掘頻繁實(shí)體,能夠生成表示實(shí)體之間依賴關(guān)系的關(guān)聯(lián)規(guī)則,即形如A→B的蘊(yùn)含式;置信度表示數(shù)據(jù)中包含A的事務(wù)也會(huì)包含B的事務(wù)的概率[13].為了描述查詢實(shí)體與候選實(shí)體之間的關(guān)聯(lián)關(guān)系,我們基于關(guān)聯(lián)規(guī)則構(gòu)建實(shí)體關(guān)聯(lián)規(guī)則(Entity Association Rule,EAR).通過EAR的置信度來定量描述實(shí)體之間的依賴關(guān)系,作為查詢實(shí)體與候選實(shí)體之間的關(guān)聯(lián)度.進(jìn)一步,基于分支限界法得到具有最大置信度的EAR集合,從而獲得一組具有最高關(guān)聯(lián)度的關(guān)聯(lián)實(shí)體.在真實(shí)世界數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出方法的有效性.
下面給出KG和用戶-實(shí)體數(shù)據(jù)的定義.
定義1KG是一個(gè)表示為G=(E,R,A)的有向圖,其中E表示KG中實(shí)體對(duì)應(yīng)節(jié)點(diǎn)的集合,R表示實(shí)體關(guān)系對(duì)應(yīng)邊的集合,A(e)是將實(shí)體e與其屬性相關(guān)聯(lián)的函數(shù).
例1針對(duì)圖1所示的KG,實(shí)體“阿凡達(dá)”的屬性為A(阿凡達(dá))={動(dòng)作,科幻}.
圖1 用戶與實(shí)體的交互實(shí)例Fig.1 Example of interaction between users and entities
定義2用戶-實(shí)體數(shù)據(jù)表示為Ω={|u∈U,d∈D}的二元組集合,其中U表示用戶集合,D表示實(shí)體集合,二元組表示用戶u與實(shí)體集d之間產(chǎn)生了交互行為.
給定一個(gè)KG,G=(E,R,A)和查詢實(shí)體eq,首先從G中抽取一部分可能與eq在Ω中關(guān)聯(lián)的候選實(shí)體集Ec.為此,以eq為“中心”,利用BFS算法從G中抽取出子圖Gs.設(shè)計(jì)加權(quán)函數(shù)來計(jì)算Gs中除了eq以外實(shí)體的權(quán)值,以獲得具有最高權(quán)值的實(shí)體并將其加入Ec.直觀地,權(quán)值應(yīng)滿足以下性質(zhì):
(1)KG中任意一個(gè)實(shí)體與eq之間的最短路徑越短,則它與eq越有可能關(guān)聯(lián),因此,權(quán)值與實(shí)體間的最短路徑成反比;
(2)Gs中具有某一屬性的實(shí)體出現(xiàn)的頻率越高,則具有該屬性的實(shí)體與eq越有可能關(guān)聯(lián).例如,若eq類型是“導(dǎo)演”,則它常常與類型為“電影”、“演員”的實(shí)體一同出現(xiàn)在真實(shí)世界的數(shù)據(jù)中.
下面給出滿足以上性質(zhì)(1)和(2)的權(quán)值計(jì)算公式:
其中,?(e)表示e與eq間的最短路徑長度,F(xiàn)(e)表示A(e)在Gs中的頻率,F(xiàn)(Gs)表示Gs中A的數(shù)量.
為了獲取m個(gè)候選實(shí)體,首先從eq出發(fā),基于BFS算法對(duì)G進(jìn)行搜索,遍歷第1層實(shí)體得到子圖Gs.然后,根據(jù)公式(1)計(jì)算Gs中eq以外所有實(shí)體的權(quán)值,并根據(jù)權(quán)值大小依次把實(shí)體添加至候選實(shí)體集合,再繼續(xù)遍歷下一層實(shí)體.重復(fù)上述操作直到獲得m個(gè)候選實(shí)體.上述思想見算法1.
算法1獲取候選實(shí)體集
輸入G=(E,R,A):輸入的KG;eq:查詢實(shí)體;m:獲取的候選實(shí)體數(shù).
變量Gs=(Es,Rs,As):KG子圖;l:廣度優(yōu)先搜索步長.
輸出Ec:候選實(shí)體集合.
步驟1初始化:Ec←?;Gs←?;l←1;i←1;
步驟2以eq為中心,利用BFS得到G第i層子圖Gs;
步驟3若|Es|≥m,執(zhí)行下一步;否則,i++,執(zhí)行步驟2;
步驟4利用式(1)計(jì)算Es中所有實(shí)體的權(quán)值,根據(jù)權(quán)值大小將Es中的實(shí)體加入Ec,直到|Ec|=m;
步驟5輸出Ec.
若BFS抽取Gs的總實(shí)體數(shù)為En,則BFS時(shí)間復(fù)雜度為O(|En|2),將m個(gè)候選實(shí)體加入Ec時(shí)間復(fù)雜度為O(|m|).因此,算法1的時(shí)間復(fù)雜度為O(|En|2+O(|m|)).
例2針對(duì)圖1所示的KG,從查詢實(shí)體“終結(jié)者:黑暗命運(yùn)”來獲取4個(gè)候選實(shí)體.首先基于BFS搜索步長1范圍內(nèi)的實(shí)體,得到子圖中的實(shí)體集合Es={終結(jié)者:黑暗命運(yùn)(科幻),詹姆斯·卡梅隆(導(dǎo)演,制片),蒂姆·米勒(導(dǎo)演)}.由式(1)計(jì)算實(shí)體“詹姆斯·卡梅隆”與“蒂姆·米勒”的權(quán)值分別為0.75與0.5,將其加入候選實(shí)體集Ec.繼續(xù)遍歷下一層的實(shí)體并重復(fù)上述步驟.最終得到候選實(shí)體集為Ec={詹姆斯·卡梅隆,蒂姆·米勒,阿凡達(dá),死侍}.
2.1 關(guān)聯(lián)規(guī)則的生成通過算法1抽取m個(gè)權(quán)值最高的候選實(shí)體,記為Ec={e1,e2,…,em}.為了構(gòu)建表示實(shí)體之間依賴關(guān)系的關(guān)聯(lián)規(guī)則,采用Apriori算法從Ω中挖掘出滿足最小支持度的候選實(shí)體集L,并通過以下公式計(jì)算置信度:
其中,s(eu∪ev) 是D中包含eu和ev的d的數(shù)目,s(eu)是D中包含eu的d的數(shù)目.
使用以下步驟[13]生成關(guān)聯(lián)規(guī)則:
步驟1對(duì)于L中的每個(gè)頻繁項(xiàng)集l,產(chǎn)生所有的非空子集;
步驟2對(duì)于l中的每個(gè)非空子集ls,如果,則輸出規(guī)則“l(fā)s→(l-ls)”,其中,Cmin是最小置信度的閾值.
2.2 關(guān)聯(lián)實(shí)體的獲取為了描述eq與L中實(shí)體的依賴關(guān)系,引入如下關(guān)聯(lián)規(guī)則:
其中,eq和e1∧e2∧···∧e j分別稱為規(guī)則頭和規(guī)則體.
把具有如(3)式的關(guān)聯(lián)規(guī)則稱作EAR,所有EAR的集合記為H.
EAR的置信度描述了eq與候選實(shí)體集之間的關(guān)聯(lián)度.因此,基于置信度選取一部分EAR、以獲取具有最高關(guān)聯(lián)度的前k個(gè)關(guān)聯(lián)實(shí)體.不難發(fā)現(xiàn),規(guī)則體中具有相同候選實(shí)體的不同EAR之間存在沖突.例如,若H中存在eq→e1∧e2和eq→e1∧e3兩個(gè)EAR,其置信度分別為0.7和0.9.已選擇前者時(shí),后者中的實(shí)體可能不會(huì)添加到關(guān)聯(lián)實(shí)體集合中.因此,在各EAR規(guī)則體互不相交的條件下,如何得到具有最高置信度的一組EAR是獲取關(guān)聯(lián)實(shí)體的關(guān)鍵.形式化描述如下:
其中,i表示H中EAR的序號(hào),ci表示Hi的置信度,Bi表示Hi規(guī)則體中的實(shí)體集合,xi表示是否選取第i條EAR.
對(duì)于上述優(yōu)化問題,采用分支限界法來獲得最優(yōu)EAR.形式化描述如下:
(1)解空間樹 解空間樹為子集樹.子集樹中的節(jié)點(diǎn)作為一個(gè)EAR對(duì)象,其屬性如表1所示.
表1 節(jié)點(diǎn)屬性Tab.1 Attributes of the node
(2)限界函數(shù)對(duì)H中所有EAR按照單位實(shí)體的置信度(即ci/|Bi|)排序.假設(shè)遍歷到子集樹的第i層(i=1,2,…,|H|),則此節(jié)點(diǎn)的上界限界函數(shù)為:
(3)最大堆在子集樹的生成過程中,采用最大堆存儲(chǔ)和選擇擴(kuò)展節(jié)點(diǎn),以生成解空間,即用二叉樹構(gòu)造最大堆,節(jié)點(diǎn)按cup排序,根節(jié)點(diǎn)具有最高優(yōu)先級(jí).
上述思想見算法2.
算法2獲取最優(yōu)關(guān)聯(lián)實(shí)體集合
輸入H:所有EAR集合;c:EAR置信度集合;Ec:候選實(shí)體集合.
變量B:EAR規(guī)則體中的實(shí)體集合;cmax:獲得置信度的最大值.
輸出∑:最優(yōu)EAR集合.
步驟1初始化:初始一個(gè)空的最大堆h;初始一個(gè)子集樹;根據(jù)每條EAR的單位實(shí)體置信度對(duì)H排序;∑ ←?;i←1;
步驟2將Hi置為子集樹根節(jié)點(diǎn),根據(jù)式(4)計(jì)算Hi的上界函數(shù)值,并加入h;
步驟3獲取h根節(jié)點(diǎn)X,將X從h中刪除并更新h;X所在子集樹層數(shù)i←X.nl;
步驟4i++;Bi←Hi規(guī)則體中的實(shí)體集合;若Bi∩X.Ssum=?,執(zhí)行下一步;否則,執(zhí)行步驟6;
步 驟5由Hi生成左孩 子Xl:Xl.nc←1;Xl.Ssum←X.Ssum∪Bi;Xl.csum←X.csum+ci;Xl.np←X;cmax←X.csum+ci;將Xl加入h;
步 驟6由Hi生成右 孩子Xr:Xr.nc←0;Xr.Ssum←X.Ssum;Xr.csum←X.csum;Xr.np← X;根據(jù)式(4)計(jì)算Xr上界函數(shù)值,若Xr.cup≥cmax,將Xr加入h;否則,丟棄該節(jié)點(diǎn);
步驟7重復(fù)步驟3~7,直到i> |H|;
步驟8X←子集樹中具有最大csum值的葉子節(jié)點(diǎn);i←|H|;
步驟9若X.nc=1;∑ ←∑ ∪{Hi};X←X.np;
步驟10i--;重復(fù)步驟9直到i=1;
步驟11輸出∑
步驟3~7的時(shí)間復(fù)雜度為O(2|H|).步驟10~11的時(shí)間復(fù)雜度為O(|H|).將節(jié)點(diǎn)插入h的時(shí)間復(fù)雜度為O(log2(|H|)). 因此,算法2的時(shí)間復(fù)雜度為O(log2(|H|)×2|H|+|H|).
通過獲取∑中所有EAR規(guī)則體中的實(shí)體,得到與eq具有最高關(guān)聯(lián)度的關(guān)聯(lián)實(shí)體集合.
3.1 實(shí)驗(yàn)設(shè)置
3.1.1 實(shí)驗(yàn)數(shù)據(jù)實(shí)驗(yàn)在兩個(gè)真實(shí)世界的數(shù)據(jù)集上進(jìn)行:①來自MovieLens[14]的用戶電影評(píng)分?jǐn)?shù)據(jù),評(píng)分以5星為標(biāo)準(zhǔn),以半星為增量(0.5星至5.0星).如果用戶對(duì)電影的評(píng)分大于4.0,則為該用戶與電影創(chuàng)建“喜歡”關(guān)系,此外,每一部電影與其類型之間存在“類型為”的關(guān)系;②來自淘寶名為UserBehavior(https://tianchi.aliyun.com/dataset/dataD etail?dataId=649&userId=1)的用戶行為數(shù)據(jù)集,用戶行為的類型(點(diǎn)擊,購買,購物車,偏好)作為用戶與項(xiàng)目之間的關(guān)系(例如,〈用戶,購買,項(xiàng)目〉).
對(duì)于每個(gè)數(shù)據(jù)集,采用70%作為訓(xùn)練數(shù)據(jù),30%作為測試數(shù)據(jù).在訓(xùn)練數(shù)據(jù)集中,提取一部分?jǐn)?shù)據(jù)來構(gòu)建KG,其余的作為外部數(shù)據(jù)來挖掘?qū)嶓w的關(guān)聯(lián).表2給出上述兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息.
表2 數(shù)據(jù)集統(tǒng)計(jì)信息Tab.2 Statistics of datasets
3.1.2 測試指標(biāo)使用準(zhǔn)確率(P)、召回率(R)、F1分?jǐn)?shù)(F1)來測試EAR推斷的前k個(gè)關(guān)聯(lián)實(shí)體的有效性,定義如下:
其中,TP、FP和FN分別是正確發(fā)現(xiàn)的實(shí)體數(shù)、錯(cuò)誤發(fā)現(xiàn)的實(shí)體數(shù)和未發(fā)現(xiàn)的實(shí)體數(shù).
3.1.3 對(duì)比模型GQBE[8]和TSF[10]作為僅以KG為知識(shí)來源發(fā)現(xiàn)關(guān)聯(lián)實(shí)體的對(duì)比方法.Jaccard相似系數(shù)[15]作為分別以KG(Jaccard-KG)或用戶實(shí)體數(shù)據(jù)(Jaccard-D)為知識(shí)來源發(fā)現(xiàn)關(guān)聯(lián)實(shí)體的對(duì)比方法.
3.1.4 測試平臺(tái)在一臺(tái)2.5 GHz Intel Core i5-10300H CPU和16GB RAM的機(jī)器上用Java實(shí)現(xiàn)本文提出的算法.
3.2 有效性測試為了測試基于本文方法發(fā)現(xiàn)關(guān)聯(lián)實(shí)體的有效性,將前k個(gè)關(guān)聯(lián)實(shí)體發(fā)現(xiàn)的準(zhǔn)確率(P@k)與基于其他模型的計(jì)算結(jié)果進(jìn)行比較,如圖2所示,可得到以下結(jié)論:
圖2 t op-k關(guān)聯(lián)實(shí)體發(fā)現(xiàn)的準(zhǔn)確率對(duì)比Fig.2 Comparison of precision of discovered top-k association entities
(1)EAR在兩個(gè)數(shù)據(jù)集中都取得了最高的準(zhǔn)確率.與準(zhǔn)確率此高的模型相比,EAR在MovieLens數(shù)據(jù)集的top 1、top 5和top 10的關(guān)聯(lián)實(shí)體發(fā)現(xiàn)中,準(zhǔn)確率分別提高了10.7%、9.9%和6%. 在UserBehavior數(shù)據(jù)集的top 1、top 5和top 10的關(guān)聯(lián)實(shí)體發(fā)現(xiàn)中,準(zhǔn)確率分別提高了4.1%、2.2%和1%.
(2)僅依靠KG作為知識(shí)來源的模型(GQBE,TSF和Jaccard-KG)在UserBehavior數(shù)據(jù)上的準(zhǔn)確率比在MovieLens數(shù)據(jù)集上的得分低,這是因?yàn)閁serBehavior數(shù)據(jù)集中用戶與實(shí)體之間的交互具有較強(qiáng)的隨機(jī)性,導(dǎo)致構(gòu)建的KG中的實(shí)體關(guān)聯(lián)相對(duì)較弱.與這些方法不同,EAR通過結(jié)合KG外部的用戶實(shí)體數(shù)據(jù)計(jì)算實(shí)體之間的關(guān)聯(lián)度,從而能在實(shí)體關(guān)聯(lián)較弱的KG中更準(zhǔn)確地得到關(guān)聯(lián)實(shí)體.
為了進(jìn)一步測試基于EAR發(fā)現(xiàn)關(guān)聯(lián)實(shí)體的有效性,將前k個(gè)關(guān)聯(lián)實(shí)體發(fā)現(xiàn)的召回率(R@k)和F1值(F1@k)與其他模型進(jìn)行了比較,結(jié)果如圖3和圖4所示.我們觀察到:
圖3 top-k關(guān)聯(lián)實(shí)體發(fā)現(xiàn)結(jié)果的召回率對(duì)比Fig.3 Comparison of recall of discovered top-k association entities
圖4 top-k關(guān)聯(lián)實(shí)體發(fā)現(xiàn)結(jié)果的F1值對(duì)比Fig.4 Comparison of F1-score of discovered top-k association entities
(1)EAR的召回率隨著k值增大而穩(wěn)定上升,且與其他4種模型在不同k值下的召回率差距不大.
(2)EAR在UserBehavior數(shù)據(jù)集中獲得了最高的F1分?jǐn)?shù).當(dāng)k值大于5時(shí),EAR在MovieLens數(shù)據(jù)集中與其他模型相比能得到最高的F1分?jǐn)?shù).具體而言,相比于F1分?jǐn)?shù)次高的模型,EAR在UserBehavior數(shù)據(jù)集的top 1、top 5和top 10關(guān)聯(lián)實(shí)體發(fā)現(xiàn)中,F(xiàn)1分?jǐn)?shù)分別提高了4.4%、3.4%和1.6%.在MovieLens數(shù)據(jù)集的top 6和top 10關(guān)聯(lián)實(shí)體發(fā)現(xiàn)中,F(xiàn)1值分別提高了5.1%和4.5%.
本文基于關(guān)聯(lián)規(guī)則表示KG查詢實(shí)體和關(guān)聯(lián)實(shí)體間的不確定性依賴關(guān)系.相較于基于KG結(jié)構(gòu)的傳統(tǒng)模型,通過將用戶-實(shí)體數(shù)據(jù)相結(jié)合,關(guān)聯(lián)實(shí)體發(fā)現(xiàn)的準(zhǔn)確率有較大提升.對(duì)于實(shí)體之間關(guān)聯(lián)較弱的KG,EAR能通過結(jié)合數(shù)據(jù)中的知識(shí)對(duì)KG領(lǐng)域知識(shí)進(jìn)行補(bǔ)充,從而更有效地發(fā)現(xiàn)實(shí)體之間的關(guān)聯(lián).
實(shí)驗(yàn)還應(yīng)該考慮以Wikipedia和Freebase為代表的大規(guī)模KG數(shù)據(jù)集,進(jìn)一步測試本文提出方法的普遍性和實(shí)用性.基于本文的方法獲取候選實(shí)體集時(shí),未能充分利用KG實(shí)體之間路徑的語義關(guān)系,如何有效利用KG中的路徑信息發(fā)現(xiàn)候選實(shí)體集,是我們未來要開展的工作.
云南大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年6期