尹 華,肖石冉,陳智全,胡振生,龍泳潮
1.廣東財(cái)經(jīng)大學(xué) 信息學(xué)院,廣州510320
2.廣東省智能商務(wù)工程技術(shù)研究中心,廣州510320
3.中山大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣州510006
知識(shí)圖譜作為一種大規(guī)模語義網(wǎng)絡(luò),是圖書情報(bào)領(lǐng)域的關(guān)鍵前沿技術(shù),已成功運(yùn)用于信息檢索[1]、推薦系統(tǒng)[2]、問答系統(tǒng)[3]等,其構(gòu)建的基礎(chǔ)是實(shí)體(概念)及關(guān)系抽取,即三元組(h,r,t)(頭實(shí)體、關(guān)系、尾實(shí)體)抽取。由于關(guān)系抽取高度依賴于實(shí)體抽取,實(shí)體及關(guān)系抽取的不完備性導(dǎo)致知識(shí)圖譜的關(guān)系缺失問題[4-5]。知識(shí)推理是利用已知的知識(shí)推理出新知識(shí)的過程。通過面向知識(shí)圖譜的知識(shí)推理,即知識(shí)圖譜推理,在已抽取的三元組集合中,推理獲得三元組中的缺失關(guān)系,可以構(gòu)建更為完備的知識(shí)圖譜。
知識(shí)圖譜推理的方法分為基于規(guī)則的[6]、基于分布式表示的[7]、基于神經(jīng)網(wǎng)絡(luò)的[8]、混合模型[9]等?;谝?guī)則的推理可解釋性強(qiáng),但規(guī)則不易獲得,可計(jì)算性較差?;谏窠?jīng)網(wǎng)絡(luò)的推理能力較強(qiáng),但復(fù)雜度高,可解釋性弱?;旌贤评矸椒壳叭狈^深層次的混合模式。而基于分布式表示的推理利用知識(shí)表示模型,得到知識(shí)圖譜的低維向量表示,通過向量操作進(jìn)行推理預(yù)測,計(jì)算方便快捷,此類方法可以簡單便利地應(yīng)用于知識(shí)圖譜推理與補(bǔ)全?;谙蛄康闹R(shí)表示模型按照表示空間的不同分為翻譯模型[7]、旋轉(zhuǎn)模型[10]、雙線性模型[11]、神經(jīng)網(wǎng)絡(luò)模型[12]、雙曲幾何模型[13-14]等。在處理復(fù)雜關(guān)系問題上,大部分模型關(guān)注一對多、多對多的復(fù)雜關(guān)系,但無法覆蓋所有的關(guān)系類型。旋轉(zhuǎn)模型中的RotatE[10]將實(shí)體和關(guān)系映射到復(fù)數(shù)向量空間,可以同時(shí)處理上述關(guān)系。但由于其將一種關(guān)系表示為單一向量,未深入考慮關(guān)系的多語義現(xiàn)象。
關(guān)系多語義[15]是指同一個(gè)關(guān)系在不同的頭尾實(shí)體對下會(huì)表現(xiàn)出不同的含義。例如吉姆·貝魯什(Jim Belushi)既是演員又是音樂家,他同時(shí)獲得了音樂獎(jiǎng)項(xiàng)和影視獎(jiǎng)項(xiàng)提名。對于獲獎(jiǎng)提名關(guān)系,存在兩個(gè)具有相同頭實(shí)體和不同尾實(shí)體的三元組(吉姆·貝魯什,獲獎(jiǎng)提名,最佳男表演獎(jiǎng)),(吉姆·貝魯什,獲獎(jiǎng)提名,最受歡迎男歌手),體現(xiàn)了兩種不同的語義。但是,根據(jù)現(xiàn)有基于知識(shí)表示的知識(shí)圖譜補(bǔ)全算法,通過頭實(shí)體和關(guān)系計(jì)算遞推出尾實(shí)體的向量表示發(fā)現(xiàn),上述兩個(gè)三元組的尾實(shí)體在向量空間中體現(xiàn)為同一向量。顯然,這樣的實(shí)體與關(guān)系表示會(huì)導(dǎo)致預(yù)測錯(cuò)誤。因此,用一個(gè)關(guān)系向量表示一種關(guān)系,在面對復(fù)雜關(guān)系場景下不能處理多語義情況。
為充分挖掘潛在的三元組語義關(guān)系,本文提出了一種新的知識(shí)圖譜關(guān)系補(bǔ)全方法,該方法在基于向量的表示模型基礎(chǔ)上,構(gòu)建細(xì)粒度的關(guān)系語義分量,擴(kuò)充了關(guān)系語義表達(dá),通過語義分量簇實(shí)現(xiàn)多語義關(guān)系嵌入,并自適應(yīng)選擇最貼合實(shí)體對的關(guān)系向量,保證向量計(jì)算的唯一性。同時(shí),在公開數(shù)據(jù)集上通過鏈接預(yù)測和三元組分類任務(wù),驗(yàn)證該方法能處理對稱關(guān)系、逆關(guān)系、組合關(guān)系等復(fù)雜關(guān)系,提升了知識(shí)圖譜關(guān)系補(bǔ)全的效果。
知識(shí)圖譜補(bǔ)全方法可分為知識(shí)表示[16]、路徑查找[17]、強(qiáng)化學(xué)習(xí)[18]、推理規(guī)則[19]、元學(xué)習(xí)[20]等,其中基于知識(shí)表示的補(bǔ)全方法將三元組映射到向量空間中,使知識(shí)圖譜具有可計(jì)算性,是在已知實(shí)體中發(fā)現(xiàn)潛在關(guān)系的一種較為直觀的方法,便于理解與運(yùn)用。根據(jù)采用的知識(shí)表示模型可分為雙線性模型、神經(jīng)網(wǎng)絡(luò)模型、雙曲幾何模型、翻譯模型和旋轉(zhuǎn)模型等,知識(shí)表示模型的表示能力決定了關(guān)系補(bǔ)全的效果。
雙線性模型將實(shí)體定義為向量,關(guān)系定義為矩陣。基于矩陣運(yùn)算使得實(shí)體和關(guān)系能夠進(jìn)行深層次交互,例如RESCAL[11]將關(guān)系表示為滿秩矩陣,但隨著關(guān)系維度的增加,復(fù)雜度會(huì)很高,難以擴(kuò)展至大規(guī)模知識(shí)圖譜。為此DisMult[21]提出放松關(guān)系矩陣的約束,利用對角矩陣替換關(guān)系矩陣,降低了模型過擬合的風(fēng)險(xiǎn),但也使得該模型只能處理知識(shí)庫中的對稱關(guān)系,不能很好處理其他關(guān)系,也不適用于大規(guī)模知識(shí)圖譜。
以ConvE[12]、CapsE[22]為代表的神經(jīng)網(wǎng)絡(luò)模型,利用卷積層和全連接層獲取交互信息,但模型缺乏解釋性。雙曲幾何模型利用雙曲幾何性質(zhì)建模實(shí)體的層次性。例如,以龐加萊圓盤為基礎(chǔ)的Poincare模型[14]可以很好地處理知識(shí)圖譜中實(shí)體的層次性,但由于龐加萊圓盤并不能進(jìn)行復(fù)雜操作,對不同關(guān)系性質(zhì)表示有所欠缺。
翻譯模型中的TransE[7]受word2vec 的啟發(fā),利用空間向量的平移不變性,建立了頭實(shí)體和尾實(shí)體之間的轉(zhuǎn)換關(guān)系用于推理。計(jì)算的簡易性使得TransE可以高效地處理一對一關(guān)系的知識(shí)圖譜補(bǔ)全,但并不能處理好一對多、多對一、多對多等問題。由此,在TransE 的基礎(chǔ)上提出了建立超平面的TransH[23]。TransH、TransE 的實(shí)體和關(guān)系都表示在相同空間中,這種表示方法無法區(qū)分兩個(gè)語義近似的實(shí)體在某些特定方面的不同。為此,TransR[24]提出為每個(gè)關(guān)系構(gòu)造相應(yīng)的向量空間,將實(shí)體和關(guān)系在不同的向量空間中分類表示。實(shí)體的映射關(guān)系僅由關(guān)系決定,但顯然頭尾實(shí)體本身對映射也有影響。隨后,TransD[25]提出映射函數(shù)應(yīng)該與實(shí)體、關(guān)系同時(shí)相關(guān)。上述模型均不能同時(shí)解決對稱關(guān)系、反對稱關(guān)系、互逆關(guān)系、組合關(guān)系等問題。
旋轉(zhuǎn)模型中的RotatE 將三元組實(shí)例視為頭實(shí)體經(jīng)過關(guān)系角度的旋轉(zhuǎn)變?yōu)槲矊?shí)體的過程描述,可以同時(shí)處理對稱關(guān)系、反對稱關(guān)系、互逆關(guān)系、組合關(guān)系等問題。但是,RotatE 將關(guān)系看作一個(gè)特定的向量,并沒有考慮解決關(guān)系的多語義問題。
關(guān)系向量細(xì)分能夠豐富語義表達(dá)。TransR 的變體CTransR 通過計(jì)算偏移量(t-h)對關(guān)系進(jìn)行細(xì)分,利用AP 聚類獲取簇中心,并學(xué)習(xí)一個(gè)關(guān)系轉(zhuǎn)移矩陣Mr來對頭尾實(shí)體進(jìn)行轉(zhuǎn)化,該方法的時(shí)間復(fù)雜度為O(N3×O(TransR)),不適用于大規(guī)模知識(shí)圖譜補(bǔ)全。TransG[26]提出利用貝葉斯非參數(shù)混合模型得到關(guān)系的多個(gè)表示,通過指數(shù)函數(shù)擴(kuò)大主要語義分量的影響,相較于CTransR 模型參數(shù)減少,但模型相對復(fù)雜。由于嵌入表示的差異以及模型復(fù)雜度過高,上述關(guān)系細(xì)分方法均無法解決RotatE的關(guān)系多語義問題。
知識(shí)圖譜補(bǔ)全的核心在于復(fù)雜關(guān)系推理,選擇能夠處理復(fù)雜關(guān)系的知識(shí)表示模型是確保補(bǔ)全效果的基礎(chǔ)?;赗otatE 的關(guān)系補(bǔ)全模型能夠處理復(fù)雜關(guān)系,但存在關(guān)系多語義問題。為解決這一問題,嘗試了以下探索:(1)RotatE 表示模型是否存在關(guān)系多語義現(xiàn)象?(2)如何細(xì)分關(guān)系語義表示?(3)如何確保向量計(jì)算唯一性?(4)擴(kuò)充語義表達(dá)后是否具有處理復(fù)雜關(guān)系的能力?(5)如何驗(yàn)證知識(shí)圖譜補(bǔ)全效果?
RotatE 模型的假設(shè)空間源于Complex 的復(fù)向量空間,受歐拉恒等式eiπ=cosx+i sinx的啟發(fā),將實(shí)體與關(guān)系表示分離。將關(guān)系看作頭實(shí)體h到尾實(shí)體t的旋轉(zhuǎn)過程即t=h°r,關(guān)系向量r表示為r=是頭尾實(shí)體之間的角度值,RotatE將其初始化為正態(tài)分布向量,得分函數(shù)定義為:
RotateE 能夠同時(shí)推斷對稱、反對稱、逆關(guān)系和組合關(guān)系。具體關(guān)系類型定義如下:
則定義關(guān)系r為對稱(反對稱)關(guān)系。
則定義關(guān)系r1為關(guān)系r2的逆關(guān)系。
則關(guān)系r1定義為關(guān)系r2、r3的組合關(guān)系。
盡管RotatE 能處理現(xiàn)有的復(fù)雜關(guān)系,但將一個(gè)關(guān)系看作一個(gè)特定的向量,其語義表達(dá)并不充分,使用RotatE 等旋轉(zhuǎn)模型進(jìn)行知識(shí)表示的過程中易出現(xiàn)部分語義表示的缺失。
在FB15K-237 數(shù)據(jù)集[27]上對RotatE 訓(xùn)練后獲得實(shí)體集E和關(guān)系集R。利用式(2)計(jì)算得到實(shí)體集對應(yīng)的關(guān)系向量,經(jīng)過PCA 降維將特征向量壓縮為二維向量(feature1,feature2),構(gòu)造position、award_winner、nationality、sports_team_roster 四種關(guān)系角度向量可視化圖,如圖1 所示。
圖1 基于RotateE 表示的關(guān)系角度向量可視化圖Fig.1 Relation angle vector visualization based on RotatE representation
假設(shè)RotatE 將關(guān)系看作一個(gè)特定的向量是合理的。那么通過RotatE 訓(xùn)練后所獲得的實(shí)體和關(guān)系向量表示應(yīng)該是唯一的,即頭尾實(shí)體之間的向量r是唯一的。經(jīng)過RotatE 訓(xùn)練后獲得的同一關(guān)系下的實(shí)體對之間的角度應(yīng)當(dāng)相差不大,表現(xiàn)在圖上應(yīng)為一個(gè)簇,其中心即為關(guān)系向量r的值。
分析圖1 中的四種關(guān)系發(fā)現(xiàn),同一關(guān)系呈現(xiàn)出多個(gè)簇的聚集現(xiàn)象,也即同一關(guān)系具有多個(gè)向量表示,與原有假設(shè)向量唯一矛盾。RotatE 中通過式(1)構(gòu)建的向量空間可以看作對多個(gè)聚類簇的平均,但由于語義簇之間的差異較大,導(dǎo)致在關(guān)系預(yù)測中對大部分語義出現(xiàn)誤分類的情況。由此可知,RotatE 將關(guān)系表示為單一向量并不能充分表達(dá)關(guān)系的語義信息。
為了擴(kuò)充原有的關(guān)系語義表達(dá),采用關(guān)系語義分量簇替換關(guān)系向量表達(dá),提出一種多語義關(guān)系嵌入的知識(shí)圖譜補(bǔ)全方法MSRE,通過關(guān)系語義細(xì)分,更多層次、多維度地發(fā)現(xiàn)關(guān)系。
MSRE(multi-semantic relation embedding)方 法分為三個(gè)步驟,如圖2 所示。(1)計(jì)算關(guān)系語義分量。首先將知識(shí)圖譜的三元組表示為實(shí)體和關(guān)系向量,再將該關(guān)系向量轉(zhuǎn)化為關(guān)系角度向量集合。(2)獲取關(guān)系語義分量簇。利用Mean-Shift 聚類算法自動(dòng)獲得關(guān)系角度向量簇。(3)關(guān)系補(bǔ)全。選定其中與實(shí)體對最合適的關(guān)系向量。
圖2 MSRE 方法流程Fig.2 MSRE method
2.2.1 計(jì)算關(guān)系語義分量
RotatE 將關(guān)系向量定義為頭尾實(shí)體之間的旋轉(zhuǎn)角度,與TransE 的嵌入方法有差異,采用CTransR 在TransE 的基礎(chǔ)上,通過r=t-h獲得關(guān)系向量集合的方法并不適用。提出使用經(jīng)過RotatE 訓(xùn)練后的實(shí)體向量,利用輔角差即式(2),得到每一種關(guān)系ri的角度向量集合即,其中ri∈R,c表示角度集合中的分量數(shù)。
式中,tj、hj分別表示同一關(guān)系下ri的第j對頭尾實(shí)體對,a的取值范圍為(-π,π)。
2.2.2 獲取關(guān)系語義分量簇
關(guān)系語義分量簇是指同一關(guān)系下的多種語義分量的集合clusterangleri={sub1,sub2,…,subk},其中k表示語義分量的數(shù)量。由于每一關(guān)系下的關(guān)系語義分量較為離散,數(shù)量眾多,使用聚類算法提取關(guān)系語義分量中的主要語義分量。對比多種聚類方法發(fā)現(xiàn),傳統(tǒng)K-means 算法需要手動(dòng)設(shè)置聚類簇,DBSCAN(density-based spatial clustering of applications with noise)聚類方法對樣本集密度不均勻,聚類間距差相差很大時(shí),聚類質(zhì)量較差[28],基于密度的Mean-Shift[29](均值漂移)聚類算法在高維向量空間中的聚類體現(xiàn)較好的效果,廣泛使用在圖像分割、聚類、文本分類等方面。因此,本文選擇Mean-Shift算法獲得語義分量簇。
為了減少無效特征的影響,本文在Mean-Shift 之前進(jìn)行了PCA(principal component analysis)降維,并對聚類得到的關(guān)系語義簇進(jìn)行平均化。本質(zhì)上平均化的過程可以看作為關(guān)系引入全局信息,幫助模型更好地收斂。
sg表示一個(gè)半徑為g的高維球區(qū)域。
T 表示轉(zhuǎn)置,xi表示為sg(b)中的一個(gè)關(guān)系角度向量,m表示關(guān)系角度向量落在sg(b)區(qū)域中的數(shù)量,Mg(b)表示下一關(guān)系角度向量的位置。經(jīng)過迭代,直到收斂。得到新的關(guān)系語義分量簇,k表示關(guān)系ri中的分量數(shù)。將同一語義簇的語義關(guān)系平均化即:
z表示rij同一簇中的關(guān)系向量數(shù)。dj是關(guān)系語義分量簇中的任意一個(gè)向量中的一個(gè)語義分量。對關(guān)系語義分量簇中的所有類經(jīng)過式(5)計(jì)算后,即=(v1,v2,…,vk),得到關(guān)系向量集合R=
2.2.3 關(guān)系補(bǔ)全
基于表示學(xué)習(xí)的補(bǔ)全模型首先在低維向量空間中對知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行表示,其形式包括向量、矩陣或張量形式。然后在每個(gè)知識(shí)條目上定義一個(gè)基于三元組的打分函數(shù),用之前給定的知識(shí)圖譜表現(xiàn)形式判斷三元組或者事實(shí)成立的可能性,即訓(xùn)練知識(shí)圖譜中的實(shí)體集E,關(guān)系集R與關(guān)系的閾值,以判斷當(dāng)前三元組是否成立。
MSRE 方法中,以知識(shí)圖譜中的實(shí)體向量作為輸入,對每一種關(guān)系都用一個(gè)語義分量簇進(jìn)行表示,即關(guān)系向量集合R,隨機(jī)構(gòu)造不屬于三元組集的負(fù)例進(jìn)行訓(xùn)練。訓(xùn)練后,對于一個(gè)待判斷的實(shí)體對,不同的關(guān)系以及不同關(guān)系的不同語義分量,根據(jù)式(6)獲得不同得分。分?jǐn)?shù)越高表明該實(shí)體對越有可能滿足這一關(guān)系。
其中,k表示聚類后得到的分類數(shù)。
為使引入關(guān)系分量簇的過程不降低模型的準(zhǔn)確性,本文定義關(guān)系的選擇策略為最符合實(shí)體對的關(guān)系向量,即得分函數(shù)最高的關(guān)系分量作為三元組中的關(guān)系分量。
結(jié)合Pytorch 中提供的計(jì)算圖機(jī)制能夠在擴(kuò)大關(guān)系簇分量的基礎(chǔ)上不降低模型的準(zhǔn)確度。負(fù)例三元組的生成策略和損失函數(shù)的定義與原RotatE 模型相一致,得到每個(gè)關(guān)系分量自適應(yīng)的關(guān)系向量表示,采用Adam 優(yōu)化器對模型進(jìn)行訓(xùn)練。并在模型效果相對穩(wěn)定時(shí)設(shè)置學(xué)習(xí)率衰減策略即折半衰減以防止過擬合等問題的發(fā)生。具體算法描述如下:
算法1MSRE 算法
MSRE 算法的時(shí)間復(fù)雜度約為O(our models)=O(N2×O(RotatE)),其中N表示聚類數(shù),相較于CTransR中的O(N3×O(TransR))有較低的時(shí)間復(fù)雜度。
MSRE 方法在擴(kuò)充語義表示的同時(shí),也能保證模型處理復(fù)雜關(guān)系的能力,即不破壞原有的對稱、反對稱、逆、復(fù)雜等關(guān)系。證明如下:
(1)MSRE 能處理對稱關(guān)系、反對稱關(guān)系
Wikipedia上的通用數(shù)據(jù)集FB15K[27]和WordNet[30]的英文字典數(shù)據(jù)集WN18[31]常用于驗(yàn)證知識(shí)補(bǔ)全任務(wù)。由于FB15K 和WN18 中包含大量的逆關(guān)系,導(dǎo)致關(guān)系學(xué)習(xí)不平衡,弱化其他關(guān)系學(xué)習(xí)精度,采用僅保留每對互逆關(guān)系中一個(gè)關(guān)系的FB15K-237 和WN18RR數(shù)據(jù)集,其實(shí)體和關(guān)系分布情況如表1所示。
表1 數(shù)據(jù)集分布情況Table 1 Distribution of datasets
FB15K-237 的數(shù)據(jù)量遠(yuǎn)大于WN18RR,但其實(shí)體數(shù)量大約為WN18RR 的1/3,關(guān)系數(shù)量大約為WN18RR 的21 倍??梢钥闯?,F(xiàn)B15K-237 數(shù)據(jù)集擁有較為復(fù)雜的實(shí)體與關(guān)系,可能存在更多的多語義現(xiàn)象。
3.2.1 實(shí)驗(yàn)方案
本文采用鏈路預(yù)測和三元組分類任務(wù)驗(yàn)證提出的MSRE 算法。鏈路預(yù)測任務(wù)在已知關(guān)系、頭實(shí)體、尾實(shí)體的情況下,根據(jù)已有的實(shí)體按照可能性(得分函數(shù)的大小)進(jìn)行排序。三元組分類任務(wù)可以看作判斷給定的三元組是否是正確的二分類問題,即引入閾值θ,將特定三元組得分與之相比判定是否有效,它被用來評價(jià)事實(shí)三元組的正確性。
在鏈路預(yù)測任務(wù)中設(shè)置兩組實(shí)驗(yàn):k值測試實(shí)驗(yàn)(k-test)和鏈路預(yù)測性能實(shí)驗(yàn)(link-prediction)。在三元組分類任務(wù)中設(shè)置三元組分類預(yù)測性能實(shí)驗(yàn)(triple-classification-prediction),如表2 所示。
表2 實(shí)驗(yàn)策略Table 2 Experiment strategy
MSRE 的主要思想是擴(kuò)充關(guān)系的語義表達(dá),但不同的關(guān)系簇?cái)?shù)量的選擇對模型的準(zhǔn)確率有較大的影響,因此分別設(shè)定不同語義簇分量k值,其中k=1 為RotatE 的基線模型,考慮顯存的限制,以{1,2,5}為間隔對比k∈(2,3,5,10),并加入MSRE 進(jìn)行鏈路預(yù)測任務(wù),以驗(yàn)證語義分量簇的有效性。固定k值后再與TransE、DisMult、ComplEx、RotatE 四種方法對比。
3.2.2 參數(shù)設(shè)置
各模型的參數(shù)設(shè)置如表3 所示,針對本文提出的MSRE 方法,經(jīng)過參數(shù)調(diào)優(yōu)后,在FB15K-237 中設(shè)置batchsize 為256,負(fù)例數(shù)量256,關(guān)系向量維數(shù)設(shè)置為1 000,gamma 設(shè)置為9,學(xué)習(xí)率為0.000 01,max_steps設(shè)置為160 000。在數(shù)據(jù)集WN18RR 中設(shè)置參數(shù)batchsize 為256,負(fù)例數(shù)量為1 024,關(guān)系向量維數(shù)為500,gamma 值為6,學(xué)習(xí)率設(shè)為0.000 05,max_steps設(shè)為160 000。
表3 各模型參數(shù)設(shè)置Table 3 Parameter setting of models
3.2.3 評價(jià)指標(biāo)
鏈路預(yù)測任 務(wù)以MR、MRR、Hit@10、Hit@3、Hit@1 作為評價(jià)模型的指標(biāo),MR 表示平均排序,MRR 表示平均倒數(shù)排名,Hit@10 表示得分函數(shù)排序中前10 個(gè)命中三元組的百分比,Hit@3、Hit@1 分別表示命中前三個(gè)和第一個(gè)的百分比。三元組分類任務(wù)以TP(真陽性)、FP(假陽性)、Precision(準(zhǔn)確率)作為實(shí)驗(yàn)指標(biāo)。
3.3.1 鏈路預(yù)測任務(wù)
鏈路預(yù)測任務(wù)中,k-test 實(shí)驗(yàn)結(jié)果如表4 所示,當(dāng)語義簇分量設(shè)置為1(k=1)時(shí),即為原始的RotatE模型,其Hit@10 值為0.533 0。k取值為2、3、5、10 為MSRE 方法中不使用MS(Mean-Shift)聚類的情況。可以看出,當(dāng)k=3 時(shí),Hit@10 值提升到0.539 0,相較于k=1(RotatE)提升了約0.006,隨著語義分量數(shù)擴(kuò)大,即k>3 后,Hit@10 值開始降低。MSRE 的Hit@10 值最高為0.540 0。根據(jù)表4 繪制Hit@10 結(jié)果圖,如圖3 所示。
表4 k-test實(shí)驗(yàn)結(jié)果Table 4 k-test experimental results
圖3 k-test(k=1,2,3,5,10)對比實(shí)驗(yàn)結(jié)果Fig.3 Experimental results of k-test(k=1,2,3,5,10)
Link-prediction實(shí)驗(yàn)中,在FB15K-237和WN18RR數(shù)據(jù)集上應(yīng)用MSRE 以及其他五種方法進(jìn)行鏈路預(yù)測,實(shí)驗(yàn)結(jié)果如表5 所示。五種基線模型中,RotatE性能較優(yōu)(MR 值為177,Hit@10 值為0.533),而相較于RotatE,本文提出的MSRE 方法在FB15K-237 數(shù)據(jù)集上Hit@10 指標(biāo)提升了0.007,Hit@3 提升了0.006,并且MR 值由177 變?yōu)?60,有一定程度的提升。
表5 Link-prediction 實(shí)驗(yàn)結(jié)果Table 5 Link-prediction experimental results
根據(jù)文獻(xiàn)[7]對于多對一、一對多、多對多關(guān)系的定義,本文對驗(yàn)證集中的關(guān)系分別統(tǒng)計(jì)(h,r)和(r,t)的數(shù)量,并驗(yàn)證三種關(guān)系類型的Hit@10 值,如表6 所示。其中H 表示預(yù)測頭實(shí)體任務(wù),T 表示預(yù)測尾實(shí)體任務(wù),A 表示求兩者的平均值。
表6 FB15K-237 上三種關(guān)系的Hit@10Table 6 Hit@10 for three relationships on FB15K-237
實(shí)驗(yàn)結(jié)果顯示,本文中的方法能夠在多對一、多對多關(guān)系上有不錯(cuò)的性能提升。
3.3.2 三元組分類任務(wù)
由于FB15K-237、WN18RR 中提供的測試集都是正確的,需指定三元組分類任務(wù)中的無效三元組生成策略。為減少對訓(xùn)練過程無意義的負(fù)例三元組出現(xiàn),將負(fù)例三元組定義為存在該關(guān)系的三元組實(shí)體的組合,其定義如下:
其中,θ的值依據(jù)Socher[8]中的方法,在最大化各關(guān)系的準(zhǔn)確率前提下得到。如表7 所示,TP 表示實(shí)際為正例三元組且模型分類為正例的數(shù)量,F(xiàn)P 表示實(shí)際為負(fù)例三元組誤分為正例的數(shù)量,Acc 表示模型分類為正例的三元組中實(shí)際為正例的比例。
表7 三元組分類任務(wù)結(jié)果Table 7 Triple classification task results
通過實(shí)驗(yàn)結(jié)果分析發(fā)現(xiàn),本文方法在FB15K-237數(shù)據(jù)集上精度比RotatE稍有降低,在數(shù)據(jù)集WN18RR上模型精確率有所提高,對比RotatE 提高了1.63 個(gè)百分點(diǎn),但DisMult表現(xiàn)更好。
MSRE 方法通過細(xì)分關(guān)系向量,利用語義分量簇?cái)U(kuò)充原有的關(guān)系表示,以提升知識(shí)補(bǔ)全模型的關(guān)系表示能力。但隨著關(guān)系語義分量的增多,易導(dǎo)致TP和FP 都同樣增加。在FB15K-237 數(shù)據(jù)集中模型效果相對原模型有些許降低,分析原因?yàn)槟P图s束條件過少,需要挖掘各語義關(guān)系之間的約束以提升模型的辯錯(cuò)能力。從WN18RR 數(shù)據(jù)集中可以看出,MSRE方法相較于RotatE 有較大幅度的提升,但相對DisMult 模型效果較差,主要因?yàn)閃N18RR 數(shù)據(jù)集中關(guān)系種類數(shù)較少,在關(guān)系種類數(shù)較少的情況下,DisMult模型中進(jìn)行了關(guān)系向量與實(shí)體向量的矩陣運(yùn)算,能夠?qū)W到關(guān)系和實(shí)體更為復(fù)雜的交互。盡管MSRE 方法利用多語義方法進(jìn)行擴(kuò)充,由于各關(guān)系語義分量之間是通過自適應(yīng)的聚類算法獲得的,語義分量之間相互獨(dú)立,缺乏語義之間的關(guān)聯(lián)關(guān)系,導(dǎo)致辯錯(cuò)能力有所下降。
為驗(yàn)證本文提出的MSRE 方法能夠挖掘關(guān)系的多語義信息,通過對FB15K-237 數(shù)據(jù)集上訓(xùn)練后的實(shí)體和關(guān)系向量進(jìn)行聚類,查看相同向量的不同語義分量是否具有語義相似性,即同一個(gè)關(guān)系向量下的各分量對應(yīng)的三元組表達(dá)的語義是否相一致。如表8 所示,在名人關(guān)系中通過關(guān)系語義細(xì)分,分為兩個(gè)語義分量簇,觀察其中的三元組發(fā)現(xiàn),兩個(gè)語義分量簇體現(xiàn)為歌手間朋友關(guān)系和演員間朋友關(guān)系;運(yùn)輸方式關(guān)系的原有關(guān)系向量表示是單一的,通過關(guān)系語義細(xì)分,分為兩個(gè)語義分量,其中一個(gè)分量描述的是實(shí)體為省會(huì)城市,另一個(gè)分量描述的是實(shí)體為非省會(huì)城市。省會(huì)城市運(yùn)輸工具種類較多,而非省會(huì)城市交通運(yùn)輸設(shè)施相對欠缺,由此挖掘出隱藏的關(guān)系信息。這樣的語義信息在position 關(guān)系中同樣有所體現(xiàn)。通過實(shí)證分析發(fā)現(xiàn),MSRE 方法在關(guān)系語義細(xì)分的有效性。
表8 語義分析Table 8 Semantic analysis
為解決關(guān)系多語義問題,本文從表示結(jié)構(gòu)出發(fā)利用語義分量簇?cái)U(kuò)充原有的關(guān)系表示,修改原有的得分函數(shù)以自適應(yīng)的方式挑選出最恰當(dāng)?shù)恼Z義分量作為當(dāng)前三元組的關(guān)系分量,其中語義分量簇的數(shù)量由模型自適應(yīng)學(xué)習(xí)。本文提出的MSRE 方法在不破壞原有模型解決對稱關(guān)系、反對稱關(guān)系、逆關(guān)系、復(fù)雜關(guān)系的基礎(chǔ)上,保證了向量在幾何表示上一個(gè)關(guān)系對應(yīng)一個(gè)向量的唯一性。鏈接預(yù)測、三元組分類等實(shí)驗(yàn)證明,提出的方法不僅能夠自動(dòng)獲取關(guān)系的多語義簇,為實(shí)體對選擇最合適的關(guān)系語義,且在解決一對多、多對一問題上提出了一個(gè)關(guān)于關(guān)系細(xì)分角度的方法。下一步工作將考慮加入實(shí)體的層次性,豐富實(shí)體表達(dá),并嘗試并入多路徑關(guān)系,增強(qiáng)復(fù)雜關(guān)系表示能力。同時(shí),在鏈路預(yù)測任務(wù)中引入節(jié)點(diǎn)的置信度,用以提高模型的準(zhǔn)確度,從而解決更為復(fù)雜的關(guān)系補(bǔ)全問題,并將其應(yīng)用于大規(guī)模的知識(shí)圖譜中。