徐 遙,何世柱,劉 康, 張 弛, 焦 飛, 趙 軍
(1. 中國科學(xué)院 自動化研究所,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049;3. 國網(wǎng)天津市電力公司電力科學(xué)研究院,天津 300384;4. 中國電力科學(xué)研究院有限公司,北京 100192)
知識圖譜是人工智能領(lǐng)域的重要資源,其以實(shí)體、關(guān)系等符號描述了世界中的豐富知識,這類結(jié)構(gòu)化的知識表示對問答系統(tǒng)、推薦系統(tǒng)等應(yīng)用具有重要價值[1]。近年來,知識圖譜在工業(yè)界和學(xué)術(shù)界均得到了廣泛的研究,但是符號化的知識表示不利于知識推理、知識問答等應(yīng)用。為此,人們提出并研究知識圖譜嵌入(Knowledge Graph Embedding,KGE)技術(shù),它旨在將實(shí)體和關(guān)系映射到低維向量空間的同時保留它們的語義信息,這類數(shù)值化的知識表示方式更便于高效的語義計算[2]。
目前,面向確定性知識圖譜的嵌入技術(shù)研究較多,在知識圖譜補(bǔ)全等任務(wù)中取得了較好效果。但是,現(xiàn)實(shí)世界中大量知識是具有不確定性的,例如,在常識知識圖譜ConceptNet[3]中,事實(shí)“(dog, CapableOf, bark)”(狗能叫)的確定性遠(yuǎn)大于事實(shí)“(dog, UsedFor, guard a house)”(狗可以用來看家)。根據(jù)是否考慮事實(shí)的不確定性,知識圖譜可以分為確定性知識圖譜和非確定性知識圖譜。相比確定性知識圖譜,非確定性知識圖譜中每條事實(shí)都擁有一個置信度,它用來表示該事實(shí)成立的可能性[3]。例如,ConceptNet中事實(shí)“(dog, CapableOf, bark)”和“(dog, UsedFor, guard a house)”的權(quán)重分別為16.0和2.0。
近年來,雖然面向確定性知識圖譜的嵌入模型在各種任務(wù)中取得了長足的進(jìn)展,但是如何設(shè)計和訓(xùn)練面向非確定性知識圖譜的嵌入模型仍然是一個重要挑戰(zhàn)。實(shí)際上面向非確定性知識圖譜的嵌入模型具有重要意義[4],一方面,在知識應(yīng)用方面,不確定性事實(shí)的建模能夠輔助模型辨識不同置信度的知識,進(jìn)而增強(qiáng)知識圖譜驅(qū)動應(yīng)用的效果;另一方面,不確定性是世界知識的常態(tài)現(xiàn)象,使用不確定性的知識訓(xùn)練模型更符合人類的思維模式。具體來說,知識圖譜中知識內(nèi)容(事實(shí))的不確定性主要有以下兩個來源: ①知識圖譜構(gòu)建和自動抽取過程中產(chǎn)生的噪聲; ②知識內(nèi)容本身存在不確定性,尤其是在醫(yī)療、金融等領(lǐng)域,大量知識不是確定性的,其成立與否與具體環(huán)境密切相關(guān)。
雖然TransE[5]、DistMult[6]等模型在確定性知識圖譜上取得了很好的效果,但是它們難以直接應(yīng)用于非確定性知識圖譜,主要原因包括: ①數(shù)據(jù)存在噪聲,由于存在大量低置信度三元組,非確定性知識圖譜中的噪聲含量更多。例如在CN15K中,有7%的三元組置信度小于0.2,這些低置信度三元組很有可能是噪聲。傳統(tǒng)的知識圖譜嵌入模型認(rèn)為所有三元組都是正確的,因此在高噪聲環(huán)境下會學(xué)習(xí)到不準(zhǔn)確的圖譜表示,從而給出錯誤的推理結(jié)果。②置信度難以計算,確定性知識圖譜嵌入模型一般采用Margin Loss[5]作為損失函數(shù),旨在使正負(fù)例得分差異盡可能大,但可能導(dǎo)致不同關(guān)系類型對應(yīng)著的三元組的得分差異較大,而且得分范圍一般不在[0,1]范圍內(nèi),因此確定性知識圖譜嵌入模型無法直接計算三元組的置信度。③開放世界假設(shè)(Open World Assumption,OWA)[7],在該假設(shè)下,不存在于知識圖譜中的事實(shí),也有可能是正確的。非確定性知識圖譜因?yàn)榇嬖诖罅康椭眯哦仁聦?shí)而更加稠密,故負(fù)采樣常常會引入更嚴(yán)重的假負(fù)樣本問題,也就是在訓(xùn)練過程中將知識圖譜缺失的正確事實(shí)錯誤地當(dāng)作置信度為0的負(fù)例。而現(xiàn)有的非確定性知識圖譜嵌入模型UKGE[4]結(jié)構(gòu)較為簡單,只能處理對稱關(guān)系,無法很好地處理假負(fù)樣本問題。
為了解決上述問題,我們首先提出了一個用于訓(xùn)練非確定性知識圖譜嵌入模型的統(tǒng)一框架,該框架通過使用基于多模型的半監(jiān)督學(xué)習(xí)方法可以很好地處理假負(fù)樣本問題。該框架主要包含以下兩個模塊: ①半監(jiān)督樣本置信度估計模塊,該模塊結(jié)合多個訓(xùn)練好的模型的預(yù)測結(jié)果給半監(jiān)督樣本(通過受限負(fù)采樣得到三元組)估計一個合理的置信度,而不是直接視其為錯誤的,從而解決假負(fù)樣本的問題。②置信度計算模塊,該模塊為所有確定性知識圖譜嵌入模型提供了統(tǒng)一的分?jǐn)?shù)映射函數(shù),即對原有分?jǐn)?shù)進(jìn)行統(tǒng)一的線性變化和映射,使原來的得分函數(shù)轉(zhuǎn)化為置信度計算函數(shù),從而將已有的確定性知識圖譜嵌入模型轉(zhuǎn)化為面向非確定性知識圖譜的嵌入模型。同時,為了解決半監(jiān)督學(xué)習(xí)中半監(jiān)督樣本噪聲過高的問題,我們使用蒙特卡洛Dropout(Monte Carlo Dropout)[8]根據(jù)多個模型的多次預(yù)測結(jié)果計算出模型對預(yù)測結(jié)果的不確定度,并根據(jù)該不確定度有效過濾半監(jiān)督樣本中的噪聲數(shù)據(jù)。
此外,為了更好地表示非確定性知識圖譜中實(shí)體和關(guān)系的不確定性以處理更復(fù)雜的關(guān)系,本文還提出了基于Beta分布的非確定知識圖譜嵌入模型UBetaE(Uncertain Knowledge Graph Beta Embedding)來對非確定性知識圖譜進(jìn)行嵌入,即將實(shí)體、關(guān)系均表示為一組相互獨(dú)立的Beta分布,并通過概率分布的相似度來表示非確定性知識圖譜中的不確定性。
我們在公開的ConceptNet數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文所提出的UBetaE模型明顯優(yōu)于UKGE等當(dāng)前最優(yōu)的非確定性知識圖譜嵌入模型。在結(jié)合UBetaE模型和半監(jiān)督學(xué)習(xí)后,不僅能極大緩解傳統(tǒng)方法中存在的假負(fù)樣本的問題,還使得置信度預(yù)測的均方差損失(Mean Sguare Error,MSE)值從8.61下降到7.20(MSE值越小越好,降低了16.4%)。
綜上,本文的主要貢獻(xiàn)包括:
(1) 本文設(shè)計了一個用于訓(xùn)練非確定性知識圖譜嵌入模型的統(tǒng)一框架,該框架能夠方便地將已有的確定性知識圖譜嵌入模型轉(zhuǎn)化為面向非確定性知識圖譜的嵌入模型。
(2) 本文提出了一種基于Beta分布的非確定性知識圖譜嵌入模型UBetaE,它能更好地表示非確定性知識圖譜中實(shí)體和關(guān)系的不確定性以處理更復(fù)雜的關(guān)系。
(3) 本文提出使用半監(jiān)督學(xué)習(xí)方法訓(xùn)練非確定性知識圖譜嵌入模型,通過使用蒙特卡洛Dropout過濾半監(jiān)督樣本中的噪聲數(shù)據(jù),該方法能有效緩解假負(fù)樣本問題。
(4) 我們在公開數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明UBetaE模型和半監(jiān)督學(xué)習(xí)方法都能有效提升非確定性知識圖譜嵌入性能。
近年來,確定性知識圖譜嵌入模型得到了大量研究,它們旨在將實(shí)體和關(guān)系映射到低維向量空間中,并把關(guān)系定義為對實(shí)體的代數(shù)運(yùn)算。KGE模型可以被分為平移距離模型和語義匹配模型[9]。
平移距離模型的主要思想是將關(guān)系的嵌入表示為實(shí)體嵌入的轉(zhuǎn)換或映射,得分函數(shù)計算映射后的頭實(shí)體和尾實(shí)體在向量空間中的距離。這類模型的代表性工作如下: ①TransE[5],其將h,r,t均映射到同一個向量空間,把關(guān)系r看作是從頭實(shí)體到尾實(shí)體的平移。雖然TransE計算復(fù)雜度低,但是它只能處理一對一關(guān)系。②TransH[10]針對TransE在處理復(fù)雜關(guān)系上的不足,提出讓實(shí)體根據(jù)關(guān)系的類別有著不同的表示,即將頭實(shí)體和尾實(shí)體投影到關(guān)系所對應(yīng)的超平面上,再計算頭實(shí)體平移后和尾實(shí)體之間的距離,因此在一定程度上能解決多對多關(guān)系。③TransR[11]為了使不同關(guān)系關(guān)注實(shí)體的不同屬性,同時定義了實(shí)體空間和關(guān)系空間,先將實(shí)體從實(shí)體空間投影到關(guān)系空間中,再計算頭實(shí)體平移后和尾實(shí)體之間的距離。④TransD[12]為了降低TransR的計算復(fù)雜度,使用兩個向量表示實(shí)體和關(guān)系,將TransR中的投影矩陣分解為兩個向量的乘積。
語義匹配模型的主要思想是基于實(shí)體潛在語義的相似度來計算三元組的合理性,這類模型中的代表性工作如下: ①RESCAL[13]利用滿秩矩陣表示關(guān)系,向量表示實(shí)體,并定義得分函數(shù)fr(h,t)=hTWrt,其中矩陣Wr對實(shí)體潛在語義的交互作用進(jìn)行了建模; ②DistMult[6]為了降低RESCAL的計算復(fù)雜度,將矩陣Wr限制為對角矩陣,并定義得分函數(shù)fr(h,t)=hTdiag(r)t。雖然減少了計算量和參數(shù)量,但是因?yàn)閔Tdiag(r)t=tTdiag(r)h恒成立,故該模型只能處理對稱關(guān)系[14],如(A, isFriendOf B)?(B, isFriendOf A)。③ComplEx[15]為了能夠同時處理對稱和非對稱關(guān)系,把DistMult擴(kuò)展到復(fù)數(shù)空間中。以上模型均可通過我們的框架轉(zhuǎn)化為面向非確定性知識圖譜的嵌入模型。
為了解決OWA帶來的假負(fù)樣本問題,UKGE采用手動生成的規(guī)則和概率軟邏輯[16]來估計未見過的三元組的置信度。由于規(guī)則是人工手動生成,數(shù)量很少(每個數(shù)據(jù)集只有一兩條),所以產(chǎn)生的新事實(shí)不僅數(shù)量少而且種類單一,故該方法存在一定的局限性。
針對UKGE只能處理簡單關(guān)系的問題,本文提出了UBetaE用以處理多種復(fù)雜關(guān)系。本文提出的框架將UKGE對DistMult模型得分函數(shù)的處理通用化,可適配各種確定性知識圖譜嵌入模型的得分函數(shù),將原有的得分函數(shù)轉(zhuǎn)化為置信度計算函數(shù)后用于非確定性知識圖譜的嵌入,并使用半監(jiān)督學(xué)習(xí)處理假負(fù)樣本問題,不僅不需要人工制定規(guī)則,而且效果明顯優(yōu)于UKGE。
雖然深度學(xué)習(xí)在很多任務(wù)中取得了最優(yōu)成績,但是它們卻無法表示不確定度,即對于大部分任務(wù),深度學(xué)習(xí)模型只能給出一個特定的結(jié)果,而無法給出對該結(jié)果的置信值(Confidence),而且置信值不等價于模型的置信度。Guo[17]等人的研究也表明,深度學(xué)習(xí)中存在嚴(yán)重的盲目自信(Overconfidence)問題,該問題也被稱為模型的準(zhǔn)確率和置信度不匹配(Miscalibration)。
為了捕獲深度學(xué)習(xí)中的不確定度,研究者們提出了貝葉斯神經(jīng)網(wǎng)絡(luò)(Bayesian Neural Network,BNN),即使用先驗(yàn)概率分布代替模型中的參數(shù)。然而由于模型具有復(fù)雜的非線性結(jié)構(gòu)和高維度參數(shù),貝葉斯推理對于許多模型來說都是難解的。為了能更好地在深度學(xué)習(xí)中使用貝葉斯估計,一般采用蒙特卡洛Dropout方法(Monte Carlo Dropout,MC Dropout)[8],其思想是通過有限次采樣來估計后驗(yàn)概率,為了使網(wǎng)絡(luò)對于同一輸入數(shù)據(jù)的多次運(yùn)算結(jié)果不同,一般選擇在測試階段也開啟Dropout。Gal[8]等人也在理論上證明了具有任意深度和非線性的神經(jīng)網(wǎng)絡(luò),在每個權(quán)重層之前使用Dropout,在數(shù)學(xué)上等價于高斯過程中的貝葉斯近似(Bayesian Approximation)。本文使用蒙特卡洛Dropout計算模型對半監(jiān)督樣本估計的置信度的不確定度。
針對UKGE無法很好地處理假負(fù)樣本的問題,我們提出基于半監(jiān)督學(xué)習(xí)的非確定性知識圖譜嵌入訓(xùn)練框架;針對UKGE無法處理復(fù)雜關(guān)系的問題,我們提出基于Beta分布的UBetaE模型。兩者結(jié)合,即將UBetaE作為框架中的置信度計算模塊,能夠彌補(bǔ)UKGE的所有缺點(diǎn),因此可以達(dá)到目前非確定性知識圖譜嵌入的最優(yōu)性能。
2.1.1 框架整體結(jié)構(gòu)
目前已有KGE框架,例如OpenKE[18],只能用于確定性知識圖譜的嵌入,為了方便對非確定性知識圖譜的研究,本文構(gòu)建了專門用于非確定性知識圖譜嵌入的框架。
本文提出的半監(jiān)督學(xué)習(xí)框架的思想類似于偽標(biāo)簽(Pseudo Label)算法[19],該算法主要包含兩個核心步驟: ①使用訓(xùn)練中的模型預(yù)測未標(biāo)注數(shù)據(jù),得到該數(shù)據(jù)的偽標(biāo)簽(在本框架中偽標(biāo)簽即為估計的置信度); ②把帶有偽標(biāo)簽的數(shù)據(jù)加入訓(xùn)練集一起訓(xùn)練。
該半監(jiān)督學(xué)習(xí)框架的整體結(jié)構(gòu)如圖1所示,主要包含兩個模塊:置信度計算模塊和半監(jiān)督樣本置信度估計模塊。
圖1 半監(jiān)督學(xué)習(xí)框架結(jié)構(gòu)
2.1.2 置信度計算模塊
置信度計算模塊的作用是適配各種確定性知識圖譜的嵌入模型的得分函數(shù),并計算三元組(h,r,t)的置信度。該模塊為距離平移模型和語義匹配模型提供了統(tǒng)一的得分映射函數(shù),可以方便地將任何確定性知識圖譜的嵌入模型轉(zhuǎn)化為非確定性知識圖譜嵌入模型,且不需要做過多修改。
平移距離模型的得分范圍是(-∞,0],而語義匹配模型的得分范圍是(-∞,∞)。雖然這兩類模型的得分范圍相差較大,但是實(shí)驗(yàn)結(jié)果表明只需要對線性變化偏置bias的初值進(jìn)行適當(dāng)調(diào)整,就能使用同樣的線性變化和映射函數(shù),使它們收斂到很好的結(jié)果。
2.1.3 半監(jiān)督樣本置信度估計模塊
半監(jiān)督樣本置信度估計模塊是實(shí)現(xiàn)半監(jiān)督學(xué)習(xí)的關(guān)鍵模塊,該模塊的作用是為半監(jiān)督樣本估計一個合理的置信度ce,這樣不僅可以有效地解決假負(fù)樣本問題,還能作為數(shù)據(jù)增強(qiáng)提高模型的魯棒性。由于隨機(jī)負(fù)采樣得到的負(fù)例大部分都是錯誤的,為了提高半監(jiān)督樣本的質(zhì)量,我們采用受限負(fù)采樣的方法來采樣半監(jiān)督樣本。受限負(fù)采樣類似于域采樣[20],即隨機(jī)采樣的實(shí)體必須在當(dāng)前關(guān)系r的頭或尾實(shí)體域中。
雖然偽標(biāo)簽算法使用半監(jiān)督學(xué)習(xí)取得了較好的成績,但是它仍存在局限性:偽標(biāo)簽中容易存在錯誤標(biāo)簽,尤其是在訓(xùn)練初期,并且這種錯誤會在半監(jiān)督訓(xùn)練過程中累積,該現(xiàn)象稱為確認(rèn)偏差(Confirmation Bias)[21]。產(chǎn)生錯誤偽標(biāo)簽的一個重要原因是,深度學(xué)習(xí)模型只能給出一個特定的結(jié)果,而無法給出對該結(jié)果的信心值。
為了解決上述問題,我們采用基于多模型的蒙特卡洛Dropout[8]方法進(jìn)行貝葉斯推理以及計算不確定性。具體方法如下: 使用多個已經(jīng)訓(xùn)練好的模型在開啟Dropout的情況下對同一半監(jiān)督樣本進(jìn)行多次預(yù)測,取所有預(yù)測值平均值作為最終結(jié)果,取方差作為不確定度,并挑選出不確定度小于閾值μ的半監(jiān)督樣本以及它對應(yīng)的估計置信度作為額外的訓(xùn)練數(shù)據(jù)。
相比偽標(biāo)簽算法,本方法的優(yōu)點(diǎn)如下: ①綜合多個模型的預(yù)測結(jié)果,避免了單一模型引起的確認(rèn)偏差; ②使用不確定度作為篩選標(biāo)準(zhǔn),而不是使用模型的置信度,有效地過濾掉了大概率是噪聲的高不確定度半監(jiān)督樣本。
半監(jiān)督樣本的損失函數(shù)如式(1)所示。
(1)
其中,Dsemi是半監(jiān)督樣本的集合,gr是置信度計算函數(shù)。最終的損失函數(shù)如式(2)所示。其中,Lpos和Lneg分別是正例和負(fù)例的損失。
(2)
Ren等人[22]提出使用Beta分布建模知識圖譜上的一節(jié)謂詞邏輯查詢(First-order Logic Queries,F(xiàn)OL queries)。受到該工作的啟發(fā),我們提出了UBetaE (Uncertain Knowledge Graph Beta Embedding)來表示非確定性知識圖譜中實(shí)體和關(guān)系的不確定性。
2.2.1 實(shí)體和關(guān)系的Beta嵌入
我們將實(shí)體和關(guān)系表示為一組相互獨(dú)立的Beta分布,具體表示如式(3)所示。
h=[(α1,β1),…,(αn,βn)]
(3)
其中,n為超參,(αi,βi)表示實(shí)體或者關(guān)系的第i個Beta分布。在該定義下,h,r,t∈R2n。
(4)
其中,p表示h經(jīng)過r對應(yīng)變化后的Beta嵌入。
使用上述方法建模非確定性知識圖譜的優(yōu)勢如下: ①概率嵌入能夠更自然地表示實(shí)體和關(guān)系的不確定性; ②分布的交操作是閉包的,即兩個Beta分布經(jīng)過交操作之后仍然是Beta分布; ③相比高斯分布,Beta分布的差異性更大,因此更能反映出兩個實(shí)體之間的差異。
2.2.2 得分函數(shù)
給定三元組(h,r,t),我們希望h經(jīng)過r變化后得到的p和t的差別盡可能地小,并使p和其他實(shí)體分布的差異盡可能大。我們將p和t之間的距離定義為每個維度上兩個Beta分布的 KL散度之和,具體如式(5)所示。
(5)
為了提高模型的表達(dá)能力,我們對所有KL散度進(jìn)行加權(quán)求和,再將該結(jié)果經(jīng)過線性變化和映射函數(shù)即可得到該三元組的置信度,最終UBetaE的置信度計算函數(shù)如式(6)所示。
(6)
其中,fr(h,t)為UBetaE 的得分函數(shù),計算如式(7)所示。
(7)
本部分使用的損失函數(shù)和訓(xùn)練方法與2.1 節(jié)一致,此處不再贅述。
3.1.1 數(shù)據(jù)集
為了和UKGE[4]進(jìn)行對比,我們使用了 CN15k 作為數(shù)據(jù)集,CN15k是常識知識圖譜 ConceptNet[3]的子圖,它包含15 000個實(shí)體和 241 158 條帶有置信度的事實(shí),平均候選尾實(shí)體數(shù) (給定頭實(shí)體和關(guān)系后候選尾實(shí)體的平均數(shù)量) 為 3.87,說明 CN15k 中一對多的現(xiàn)象普遍存在。
3.1.2 基線模型
我們選擇 UKGE 中的UKGElogi和UKGEreat作為基線模型(Baseline),它們分別以 sigmoid 函數(shù)和有界整流函數(shù)作為映射函數(shù),同時它們也分別是非確定性知識圖譜中尾實(shí)體預(yù)測任務(wù)和置信度預(yù)測任務(wù)的SOTA。此外,我們還使用上文介紹的框架構(gòu)建了 UTransE、URotatE。將上述模型與UBetaE模型進(jìn)行對比。
3.1.3 實(shí)驗(yàn)設(shè)置
我們將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集,占比分別為85%,7%和8%。此外,為了驗(yàn)證模型區(qū)分正負(fù)例的能力,我們在測試集中加入了等量的負(fù)例,這些負(fù)例由隨機(jī)負(fù)采樣得到。
我們選擇Adam[23]作為默認(rèn)優(yōu)化器,并將β1和β2分別設(shè)置為 0.9 和0.999。對于每種模型,我們根據(jù)其在驗(yàn)證集上的表現(xiàn)選擇最優(yōu)參數(shù),并使用最優(yōu)參數(shù)下模型在測試集的性能作為最終結(jié)果。
對于每個模型,我們使用 grid search 搜索最優(yōu)參數(shù),各參數(shù)選擇范圍如下: 學(xué)習(xí)率lr∈{0.001,0.005,0.01};嵌入維度dim∈{256,512,800};batch大小batchsize∈{512,1024,2048}。所有模型訓(xùn)練 100 個 epoch,并根據(jù)在驗(yàn)證集上的 MSE 值設(shè)置提前終止。
為了提高模型的訓(xùn)練效率,我們的半監(jiān)督學(xué)習(xí)訓(xùn)練方案如下:提前使用多個訓(xùn)練好的模型生成一定數(shù)量的半監(jiān)督樣本,之后新模型在訓(xùn)練過程中直接從這些半監(jiān)督樣本中采樣,避免每次都對半監(jiān)督樣本進(jìn)行置信度估計。
我們采用兩種任務(wù)來評測模型的性能,分別是置信度預(yù)測和尾實(shí)體預(yù)測。并通過進(jìn)一步的實(shí)驗(yàn)來探究半監(jiān)督樣本的篩選閾值以及半監(jiān)督樣本的采樣數(shù)對模型性能的影響。
3.2.1 置信度預(yù)測
置信度預(yù)測任務(wù)的目標(biāo)是預(yù)測未見過事實(shí)的置信度。
評測指標(biāo)該任務(wù)的評測指標(biāo)為均方誤差(MSE),計算如式(8)所示。
(8)
其中,si為預(yù)測置信度,ci為真實(shí)置信度,N為測試樣本數(shù)。
結(jié)果實(shí)驗(yàn)結(jié)果見表1。*表示數(shù)據(jù)來自原論文,withwithout ss 分別表示使用不使用半監(jiān)督學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明: ①我們提出的 UBetaE 模型在不使用半監(jiān)督學(xué)習(xí)的情況下明顯優(yōu)于作為基線模型的 UKGElogi和 UKGErect,并且在所有模型中性能最高。②使用半監(jiān)督學(xué)習(xí)后,所有模型的性能都得到了顯著的提升,平均提升了 7.5%。結(jié)果表明,基于多模型的半監(jiān)督學(xué)習(xí)能夠有效地消除假負(fù)樣本帶來的噪聲,并進(jìn)一步提高對未見過事實(shí)置信度的預(yù)測精度。
表1 置信度預(yù)測的MSE值(×10-2)
3.2.2 尾實(shí)體預(yù)測
尾實(shí)體預(yù)測目標(biāo)是在給定頭實(shí)體和關(guān)系的情況下預(yù)測尾實(shí)體, 即希望正確候選尾實(shí)體的排序在所有實(shí)體中盡可能靠前。
評測指標(biāo)該任務(wù)的評測方法如下:將所有實(shí)體作為候選尾實(shí)體對象與給定的h和r組成候選三元組,對候選三元組根據(jù)得分進(jìn)行排序,并使用歸一化折損累計增益(Normalized Discounted Cumulative Gain, NDCG)評估排序性能。為了更好地測試模型性能,我們排除了來自訓(xùn)練集中的候選尾實(shí)體并在整個測試集上計算nDCG值,因此結(jié)果與 UKGE 原文不同。
結(jié)果實(shí)驗(yàn)結(jié)果如表2所示。①UBetaE 在尾實(shí)體預(yù)測任務(wù)上面明顯優(yōu)于其他模型,這表明 UBetaE 作為概率嵌入模型,能很好地表示實(shí)體和關(guān)系的不確定性,從而能夠處理一對多這種復(fù)雜關(guān)系。②使用半監(jiān)督學(xué)習(xí)之后,所有模型的尾實(shí)體預(yù)測能力都得到了提升,說明半監(jiān)督樣本能夠有效地緩解假負(fù)樣本問題。因?yàn)橐坏┮爰儇?fù)樣本,便會錯誤地把正確候選尾實(shí)體排在靠后位置,從而嚴(yán)重影響模型性能。
表2 尾實(shí)體預(yù)測的nDCG值
3.2.3 半監(jiān)督樣本的采樣數(shù)對性能的影響
為了進(jìn)一步探究半監(jiān)督樣本的采樣數(shù)對性能的影響,我們采用 UBetaE 模型,在其他超參相同的情況下,采取不同的半監(jiān)督樣本采樣數(shù),表3展示了實(shí)驗(yàn)結(jié)果。其中“半監(jiān)督樣本采樣數(shù)”表示每一個正例對應(yīng)的半監(jiān)督樣本采樣數(shù)。圖2使用折線圖更直觀地展示了半監(jiān)督樣本采樣數(shù)對 MSE 的影響。
表3 不同半監(jiān)督樣本采樣數(shù)下的MSE值(×0.01)
圖2 半監(jiān)督樣本采樣數(shù)-MSE
實(shí)驗(yàn)結(jié)果表明,在半監(jiān)督樣本采樣數(shù)較小的時候,增加半監(jiān)督樣本采樣數(shù)可以明顯提高模型的性能,因?yàn)橐肓烁嘤?xùn)練數(shù)據(jù)。但是隨著半監(jiān)督樣本采樣數(shù)進(jìn)一步增大,模型的性能會開始降低,因?yàn)榇罅堪氡O(jiān)督樣本中包含的噪聲影響了模型的訓(xùn)練。
3.2.4 篩選半監(jiān)督樣本的閾值對性能的影響
為了驗(yàn)證我們的 MC Dropout 方法能夠有效地過濾半監(jiān)督樣本中的噪聲,我們使用UBetaE 模型,在其他超參相同的情況下,采用不同的閾值μ,從所有半監(jiān)督樣本中篩選出部分低不確定度的半監(jiān)督樣本,即模型對估計的置信度更加自信的半監(jiān)督樣本。表4展示了實(shí)驗(yàn)結(jié)果,其中“篩選比例”表示篩選后的半監(jiān)督樣本占原半監(jiān)督樣本的比例,圖3使用折線圖更直觀地展示了篩選比例對 MSE 的影響。
表4 不同篩選比例下的MSE值(×0.01)
圖3 篩選比例-MSE
實(shí)驗(yàn)結(jié)果表明: ①在不篩選的情況下 (比例為 100%),模型效果較差, 說明原半監(jiān)督樣本中含有較多噪聲。②在篩選比例為 60% 的情況下,模型的效果最好,說明我們使用的MC Dropout 方法能夠有效地反映出模型的不確定度,并能根據(jù)該不確定度過濾掉噪聲樣本,從而提高模型性能。③隨著篩選比例的降低,模型的性能會先提高后下降,高篩選比例會引入較多的噪聲,低篩選比例則會丟棄部分有價值的樣本,這兩種情況都會導(dǎo)致模型的性能降低。
本文提出了一種基于 Beta 分布的非確定性知識圖譜嵌入模型 UBetaE,它把實(shí)體、關(guān)系表示為相互獨(dú)立的 Beta 分布組合,能更好地描述和計算實(shí)體、關(guān)系和事實(shí)的不確定性。此外,為了更好地處理假負(fù)樣本問題,我們使用基于多模型的半監(jiān)督方法訓(xùn)練非確定性知識圖譜嵌入模型,并使用MC Dropout過濾掉了半監(jiān)督樣本中的噪聲,從而進(jìn)一步提高訓(xùn)練效率和模型性能。在公開數(shù)據(jù)上的大量實(shí)驗(yàn)表明: ①本文提出的UBetaE模型明顯優(yōu)于UKGE等當(dāng)前最優(yōu)的非確定性知識圖譜嵌入模型; ②半監(jiān)督學(xué)習(xí)對于非確定性知識圖譜嵌入模型性能提升較大。在實(shí)驗(yàn)中,我們發(fā)現(xiàn)框架最后的線性層初始化方式對實(shí)驗(yàn)結(jié)果影響較大。在未來的工作中,我們會進(jìn)一步研究線性層初值對模型性能的影響,并使用更直觀的任務(wù)展示使用半監(jiān)督學(xué)習(xí)在解決假負(fù)樣本問題上的優(yōu)越性。