奚超亮,冷泳林
(渤海大學 信息科學與技術(shù)學院,遼寧 錦州 121000)
知識圖譜采用有向圖的方式描述客觀世界概念、實體及其關(guān)系。知識圖譜技術(shù)作為人工智能三大主要技術(shù)之一,在2012年由谷歌公司提出,但其知識的描述和表示方法可以追溯到1960年的語義網(wǎng),經(jīng)過一系列演變,形成今天的知識圖譜。目前,一些有代表性的知識圖譜如Freebase[1]、OpenKN[2]、Wordnet[3]、Probase[4]等從大量數(shù)據(jù)資源中抽取、組織和管理知識,為個性化推薦[5]、智能搜索與回答、內(nèi)容分發(fā)提供強有力的知識支撐,推動人工智能各應用領(lǐng)域的快速發(fā)展。
隨著知識圖譜規(guī)模的不斷擴大,知識圖譜中的不完整數(shù)據(jù)也在增加,導致知識圖譜質(zhì)量不斷下降。知識圖譜的自動補全技術(shù)是提高知識圖譜質(zhì)量的一種有效手段。近年來,知識圖譜利用自然語言的表示學習技術(shù)將實體關(guān)系映射到低維稠密向量空間,實現(xiàn)了知識的表示學習[6],推動了知識圖譜補全及鏈路預測技術(shù)的發(fā)展。其中,以TransE[7]為主的翻譯模型最為普遍,TransE模型通過設(shè)置全局帶參得分函數(shù)來定義實體與關(guān)系之間的嵌入表示,并且基于邊界的訓練目標來懲罰負樣本,最終將知識庫中的實體和關(guān)系映射到低維向量空間。此類知識圖譜嵌入表示模型存在一個共性問題,原因是基于隨機抽取的負采樣方式不能很好地生成高質(zhì)量的負樣本,進而影響了訓練模型的質(zhì)量。Trans_SnS模型[8]提出了基于實體相似性的負采樣方法,但該方法中使用的K-means聚類并不能有效確定聚類中心點的數(shù)量,并且沒有很好地處理稀疏點,將稀疏數(shù)據(jù)劃分到了錯誤的聚類中,導致稀疏數(shù)據(jù)負采樣的質(zhì)量較低。
通過對實體相似性負采樣的進一步研究,該文采用基于密度的聚類算法DBSCAN[9]對相似性負采樣方法進行優(yōu)化,同時對DBSCAN中的eps聚類半徑采取了自適應優(yōu)化,并且結(jié)合SMOTE[10]思想對聚類中的離群樣本點進行過采樣,擬合相似實體點,來提高負樣本的質(zhì)量,最后將上述負采樣方法同TransE模型結(jié)合得到TransE_DNS模型。實驗選取了以下公開數(shù)據(jù)集(WN11,WN18,FB15K,FB13),分別在鏈路預測和三元組分類任務(wù)中對該模型進行評估,實驗效果均獲得了提升。
知識圖譜的嵌入表示方法中以翻譯表示模型最為先進。2013年Bordes等人[11]提出了TransE模型,該模型把三元組關(guān)系看作頭實體到尾實體的一種翻譯操作,即三元組的頭、尾和關(guān)系向量應滿足h+r≈t。TransE模型因其參數(shù)少、時間復雜度低等優(yōu)點實現(xiàn)了在大規(guī)模稀疏知識圖譜上較好的預測,也成為后續(xù)Trans系列模型的基礎(chǔ)。2014年Wang等人[12]提出了TransH模型,通過把實體映射到關(guān)系所在的超平面上,實現(xiàn)了同一實體在不同關(guān)系上的不同向量表示,更好地解決了TransE在一對多,多對一和多對多關(guān)系上的嵌入表示問題。隨后,Lin等人[13]提出的TransR模型認為關(guān)系和實體之間存在差異性,采用不同的向量空間分別映射關(guān)系和實體,然后通過一個投影矩陣完成從關(guān)系空間向?qū)嶓w空間的映射。雖然TransR對復雜關(guān)系建模效果很好,但其復雜度較高,很難應用于大規(guī)模知識圖譜的表示。Ji等人[14]提出的TransD使用兩個向量來表示實體,其中一個向量表示其含義,另一個向量用于構(gòu)造實體到關(guān)系向量空間的映射矩陣,由于其動態(tài)地構(gòu)建投影矩陣,相對于TransR大大減少了參數(shù)量和計算量。Ji等人[15]提出的TranSparse模型主要解決知識圖譜中普遍存在的異構(gòu)性和不平衡性問題。該模型提出了一種自適應稀疏矩陣實現(xiàn)對不同關(guān)系的投影,有效解決了大規(guī)模知識圖譜的嵌入表示問題。Xiao等人[16]提出了TransA模型在TransE模型基礎(chǔ)上更換度量函數(shù),為實體和關(guān)系的每個維度添加權(quán)重來提升模型的表示能力。Hong等人[17]提出了一種結(jié)合實體領(lǐng)域信息的模型CombiNe,該模型通過統(tǒng)計方法TF-IDF,從實體的領(lǐng)域當中抽取重要實體鄰居,通過短接聯(lián)合表示的方式,提高了基于擴展信息的知識表示模型的性能。
以上模型主要是針對損失函數(shù)進行改進,但都忽略了負采樣方式對模型效果的影響,該文主要通過改良負采樣的方式,提高負采樣的質(zhì)量,來提升模型的效果。
Trans系列的翻譯模型在訓練過程中通常采用均勻采樣和伯努利采樣。其中,均勻采樣方法是通過均勻的隨機替換樣本頭尾節(jié)點來生成負樣本。由于數(shù)據(jù)集中的樣本存在一對多和多對一的關(guān)系,導致均勻采樣方法更容易生成假樣本。伯努利采樣針對三元組一對多的關(guān)系,使用更大概率替換頭節(jié)點;反之,以更大概率替換尾節(jié)點。這種方法大大降低了生成假樣本的可能性,彌補了均勻采樣的缺點。以上兩種采樣方式在替換頭尾節(jié)點時都采用隨機替換的方式,優(yōu)勢在于降低了訓練的時間復雜度。但是隨著訓練的進行,生成負樣本質(zhì)量過低,導致得分函數(shù)在此類低質(zhì)量樣本上得分較低,從而導致訓練過程中梯度清零。
為提高負采樣質(zhì)量,近年來出現(xiàn)了以生成對抗網(wǎng)絡(luò)、聚類模型為基礎(chǔ)的負采樣方法[18]。生成對抗網(wǎng)絡(luò)的負采樣方式以KBGAN[19]為首,選擇基于平移距離的KRL模型作為負樣本生成器和基于語義匹配的KRL模型作為對抗訓練的鑒別器,生成器在一個候選負集合上產(chǎn)生一個概率分布,并選擇概率最高的一個輸入鑒別器。該鑒別器使正、負樣本之間的邊際損失最小化,提高了負采樣的質(zhì)量,學習最終的嵌入向量。
由于知識圖譜嵌入中的負采樣屬于離散域的輸出,KBGAN并不能直接使用梯度下降策略,而是采用了強化學習策略進行訓練,使生成器產(chǎn)生離散化負例,這種方式容易使訓練模型不穩(wěn)定。同時生成對抗模型的采樣過程時間復雜度較大,不利于訓練大規(guī)模的知識圖譜。
2018年Wang提出了IGAN[20],將錯誤的正三元組輸入神經(jīng)網(wǎng)絡(luò),添加Softmax計算整個實體集的概率分布,通過鑒別器來得到較高質(zhì)量的負三元組。
聚類采樣Trans_SNS基于實體相似性負采樣方法來提高負樣本的質(zhì)量,該模型使用K-means對實體進行聚類,利用聚類內(nèi)部實體具有高度相似性,生成高質(zhì)量負樣本,進而提高TransE模型的性能,但該模型無法確定聚類中心點的數(shù)量。除此之外,當面對大規(guī)模稀疏知識圖譜時,固定數(shù)量的聚類使一些離群點生成低質(zhì)量的負樣本,從而影響模型的效果。
TransE模型將知識圖譜中的實體與關(guān)系嵌入到同一個向量空間中,其中每個三元組的頭尾實體和關(guān)系之間滿足h+r≈t的約束。如圖1中Stephen Curry和Seth Curry同時屬于NBA里的現(xiàn)役球員,那么在向量空間中,將Stephen Curry和Seth Curry作為頭實體h,尾實體t是NBA,那么它們的向量表示趨近于相等。但由于Stephen Curry和Seth Curry分別代言Nike和Armour,這又讓他們的向量表示存在一定的區(qū)別。當實體間擁有更多相同約束時,它們的向量表示就越相似。如Seth Curry與Durant都是NBA球員,且同時效力Brooklyn俱樂部,因此Seth Curry與Durant這兩個實體的向量表示更相似。反之,實體間約束越少,那么他們在向量空間中的距離越遠,相似性越低。
圖1 知識圖譜局部關(guān)系
此外,當兩個實體間沒有直接約束關(guān)系時,如實體Ohioan 和Washington,他們分別是Seth Curry與Durant兩個球員的出生地,沒有直接聯(lián)系。根據(jù)上文,Seth Curry與Durant擁有較多的相同約束,那么他們相似性較高。同時Ohioan和Washington分別作為兩個球員的出生地,與Brooklyn隊和NBA都具有相同的間接聯(lián)系。PhilKnight出生于Oregon并且PhilKnight作為NIKE的老板,既不在NBA也不在Brooklyn隊。因此,筆者認為相較于Oregon,Washington與Ohioan因具有較多的間接約束在向量空間中具有一定的相似性。
綜上所述,在向量空間中,擁有較多相同約束條件的實體,他們之間的距離一定是較近的。擁有較多相同間接約束條件的實體,存在一些與他們有較多共同約束條件的實體點,而這些實體點相互之間又擁有較多的共同約束。因此,這些實體之間的聯(lián)系也是較為緊密的,反之則較遠。
綜上,在實體向量空間中,相互之間直接距離較近的實體點,他們的語義一定相似;間接聯(lián)系較多的實體點之間存在著隱關(guān)系,同樣也具有較高的相似性。
負例樣本的質(zhì)量影響知識圖譜的嵌入表示,高質(zhì)量的負例樣本應與被替換實體具有較高的相似性。為了得到高質(zhì)量負例樣本,提出了基于密度聚類的負采樣算法(DBSCAN Negative Sample,DNS)。DNS選擇不受聚類中心點數(shù)量限制的DBSCAN算法將知識圖譜中的實體按照緊密程度進行聚類,以此限定負例樣本的選取范圍。DBSCAN通過鄰域半徑eps所給定的區(qū)域來劃分實體聚類:
Neps(x)={y∈X:dist(x,y)≤eps}
(1)
式中,y表示實體點,X表示實體集,dist(x,y)≤eps判斷x,y之間的距離是否小于eps,這里選用歐氏距離來判定。
DBSCAN的聚類數(shù)量由聚類的鄰域半徑eps和聚類內(nèi)最小包含點數(shù)minpts決定。eps越小,聚類精度越高,聚類內(nèi)部產(chǎn)生的負樣本質(zhì)量也越高。但過高的聚類精度也會產(chǎn)生更多的離群點,從而降低聚類中樣本的數(shù)量,引起模型過擬合。因此,DNS算法通過自適應方式尋找合適的eps,并設(shè)置了離群點數(shù)量的閾值不超過總訓練集樣本的四分之一。
同時,面對大型知識圖譜的稀疏性問題,DNS將向量空間中遠離聚類的正樣本,通過過采樣的方式,生成相似度較高的負樣本。并且針對過采樣產(chǎn)生的假負樣本影響模型修正的問題,通過隨機選取部分真實樣本,然后在真實樣本中選擇與假負樣本相似的樣本進行替換,來保證負樣本采樣的質(zhì)量。算法1給出了DNS負采樣方法的算法描述。
算法1:DNS
輸入:訓練集S(h,r,t),聚類最小包含點數(shù)minpts,過采樣樣本數(shù)量overCount,閾值T,訓練次數(shù)epoch
1:初始化:S'←[]
2:if (epoch/T)%2!=1 then
3:eps←0.1//初始化聚類半徑
4:overCount ←0//離群點數(shù)量
5: prev←0//前一次聚類數(shù)量
6:pres←DBSCAN( eps ,minpts)//當前聚類數(shù)量
7:while pres>prev and overCount 8:do prev ← pres 9: classific←DBSCAN(eps,minpts) //DBSCAN聚類 10:pres←get_class_num(classific) //讀取聚類數(shù)量 11:outCount←get_outCount_num(classific) //讀取離群點數(shù)量 12:eps←update(eps,pres)//更新聚類鄰域半徑 13:end 14:for each (h,r,t) inS(h,r,t) 15:if classific[(h,r,t)]!= -1 then//如果樣本在聚類中 16:cluster←Sample(h,r,t)//取出同聚類的樣本點集合 17:neg←Instead(cluster)//替換頭或尾節(jié)點,構(gòu)造負樣本 18:else//如果樣本為離群點 19:overSample ←CircleSmote(overcount,eps) //生成過采樣樣本集合 20:NegativeSample←NearSample(overSample) //選擇與過采樣樣本較相似的真實樣本 21:neg←Instead( NegativeSample)//替換頭或尾節(jié)點,構(gòu)造負樣本 22: end if 23: end for 算法1的第2行根據(jù)閾值T和epoch決定了重新聚類的迭代次數(shù)。第3至13行是尋找樣本參數(shù)eps和生成聚類的過程。算法首先設(shè)定一個較低的eps,然后根據(jù)eps和輸入的參數(shù)minpts進行一次聚類,從而得到當前聚類數(shù)量pres。當pres大于prev時,根據(jù)當前eps和minpts進行聚類,并得到當前聚類數(shù)量pres和離群點數(shù)量outCount。最后,對eps進行更新。初始每次迭代,eps累加0.1,當pres大于3時,累加改為0.03。第16至18行表示當需要負采樣的樣本點的h或t位于向量空間的某個聚類中,則在該聚類中隨機抽取一個實體向量替換成h'或t'。 傳統(tǒng)的以SMOTE為主的過采樣算法,都是基于K近鄰隨機選取若干樣本點,通過少數(shù)類樣本與近鄰樣本點的連線,在線上合成少數(shù)類樣本點。但SMOTE算法是通過遍歷所有樣本點到少數(shù)類樣本點的距離來選定K近鄰,這種做法用在大規(guī)模的知識圖譜上效率過低。DNS改進了過采樣算法來適用于大規(guī)模的知識圖譜,第19至22行給出了離群點采樣方法。對于不在聚類中的離群點,首先人工合成離群點的同類點(△1, △2,…,△n),將離群Outliers視為圓心,將多數(shù)類樣本的領(lǐng)域半徑eps視為Outliers的鄰域半徑構(gòu)造多個圓形區(qū)域,并在每個區(qū)域內(nèi)進行隨機過采樣。之后隨機抽選過采樣樣本點,尋找除離群點外,最接近該過采樣樣本點的真實樣本點(▽1, ▽2,…,▽n)作為負樣本,如圖2所示。 圖2 離群點過采樣 為了避免在尋找真實樣本時遍歷實體集合,算法在每個聚類中隨機抽取兩個真實樣本,生成一個較小的樣本集合。將抽選的過采樣樣本與該集合中的真實樣本進行比較,尋找一個最相似的真實樣本作為負樣本。 該文以知識圖譜嵌入模型TransE為基礎(chǔ),同時結(jié)合DNS負采樣算法,提出了TransE_DNS訓練模型。 在模型中,給定知識圖譜G=(E,R),其中E={e1,e2,…,en}表示知識圖譜中的實體集合,R={r1,r2,…,rm}表示知識圖譜中的關(guān)系集合,n和m分別表示實體與關(guān)系的數(shù)量。設(shè)得分函數(shù)為: fr(h,t)=‖h+r-t‖L1/L2,h,t∈E,r∈R (2) fr(h,t)用來衡量三元組h+r與t之間的距離,可以用L1或L2范數(shù)計算。如果三元組是正確的,則得分函數(shù)中h+r與t得分較低,反之,表示三元組是錯誤的。因此,定義TransE_DNS模型的損失函數(shù)為: fr(h'+r,t'),0) (3) 其中,γ為邊界值表示正負樣本之間的間距,(h,r,t)是知識圖譜中的真實樣本,(h',r,t')是負樣本,h'和t'為替換的頭尾實體。當fr(h,t)+γ-fr(h'+r,t')大于0時,損失函數(shù)L取原值,否則取0,目標是使得最相近的正負例樣本距離最大化。該文利用Adam適應性矩估計最小化損失函數(shù)。 算法2描述了Trans_DNS模型的完整訓練過程。在訓練過程中,DNS負采樣每迭代T次epoch后進行一次聚類。 算法2:Trans_DNS 輸入:訓練集S(h,r,t),實體集E,關(guān)系集R,邊界值γ,嵌入維度K,學習率α,聚類最小包含點數(shù)minpts,過采樣樣本數(shù)量 overCount,閾值T 輸出:實體向量,關(guān)系向量 1:初始化參數(shù): 3:r←r/‖r‖ //r∈R 5:e←e/‖e‖ //e∈E 6:loop 7:Sbatch←sample(S,b) //從S中抽取大小為b的mini-batch 8:Tbatch←? 9: for (h,r,t)∈Sbatchdo 10:if (epoch/T)%2!=1 then 12:end if //從負樣本集合中抽取負樣本 14:Tbatch←Tbatch∪{((h,r,t),(h',r,t'))} 15:end for //更新實體向量與關(guān)系向量 17:end loop 第1至6行使實體集合中的e和關(guān)系集合中的r隨機生成高維的實體和關(guān)系向量。 第7至15行表示從訓練集S中抽取一個大小為b的mini-batch集合,根據(jù)當前的epoch和閾值T來判斷是否通過DNS負采樣生成負采樣集合S'。 第16行表示先將正樣本與生成的負樣本帶入到損失函數(shù)中,使用adam優(yōu)化最小化損失函數(shù),更新實體向量與關(guān)系向量。 使用多個數(shù)據(jù)集,分別進行了鏈路預測和三元組分類的實驗,從不同角度驗證Trans_DNS模型的有效性。 選用知識工程中廣泛使用的兩個數(shù)據(jù)集Freebase和WoreNet。Freebase中包含了非常多的話題和類型知識,對知識圖譜工程的相關(guān)研究具有重要的導向作用,實驗選擇Freebase數(shù)據(jù)集的兩個子集FB15K和FB13,其中FB15K是一個包含大規(guī)模常識性知識的知識圖譜,該圖譜中含有對稱關(guān)系、非對稱關(guān)系和反轉(zhuǎn)關(guān)系。WordNet是一個描述詞匯之間關(guān)聯(lián)特點的數(shù)據(jù)集,選擇了WN11和WN18兩個子集作為實驗數(shù)據(jù)集,其中子集WN18被用于各種知識工程任務(wù)中。數(shù)據(jù)集的詳細信息如表1所示。 表1 實驗中的數(shù)據(jù)集 鏈路預測是一種根據(jù)知識圖譜中的已存在實體去預測缺失事實的任務(wù),它是一種有前途、廣泛研究且旨在完成知識圖譜補全的任務(wù)。對于確認的三元組(h,r,t),其主要目的是預測缺失的h或t。 在這個過程中,除了缺失的h或t,其余實體被視為候補實體。利用候補實體替換三元組中的h或t,生成候補三元組,并計算出其與測試三元組的得分。最后,根據(jù)候補三元組的得分進行升序排列。本組實驗選用了FB15K和WN18作為數(shù)據(jù)集,將MeanRank和Hits@10作為評價指標。MeanRank表示測試集中三元組匹配到正確結(jié)果的平均排序位次,Hits@10表示根據(jù)得分序列,判斷測試三元組的正確答案排在序列前10位次的占比。實際上,不完整的三元組補全后可能與已經(jīng)存在的三元組重復,這會影響三元組的排序值。過濾掉這類三元組的操作稱為Filter,未過濾這類三元組則稱為Raw。經(jīng)過各種模型的測試,Filter的實驗效果通常比Raw更好,能得到更好的MeanRank和Hits@10。 在實驗中,為了得到模型最佳的參數(shù),對參數(shù)的設(shè)置進行了多次嘗試。主要對以下參數(shù)進行設(shè)置和選擇:訓練周期epoch的取值范圍設(shè)在{1 000,1 500,2 000},adam的學習率α在{0.001,0.003,0.005,0.01,0.02}范圍內(nèi),邊界值γ在{1,2,2.5,3,3.5,4,4.5,5}范圍內(nèi),嵌入維度n在{50,100,150,200}范圍內(nèi),批處理β在{1 200,3 000,4 800,10 000}范圍內(nèi),聚類最小包含點數(shù)M在{5,10,20,25,50}范圍內(nèi),過采樣樣本數(shù)量O在{2,3,4,5,6}范圍內(nèi),閾值T在{20,50,100}范圍內(nèi)。三元組得分計算均采用L1范數(shù)進行計算。 經(jīng)過多次實驗,WN18和FB15K兩組數(shù)據(jù)集的參數(shù)設(shè)置如表2所示。 表2 鏈路預測參數(shù)設(shè)置 鏈路預測結(jié)果如表3所示,因設(shè)備環(huán)境與參數(shù)等問題,對照實驗達不到原文獻的模型性能,因此直接采用原文獻的實驗結(jié)果,加粗部分為文中模型與表中模型對比下得到的最優(yōu)解。從表中可以看出,文中模型在WN18數(shù)據(jù)集的MeanRank上得到了最優(yōu)解,Hits@10略低于表中最佳結(jié)果。從FB15K數(shù)據(jù)集的結(jié)果上看,在MeanRank(unif)下得到了最優(yōu)解,在MeanRank(bern)下與最優(yōu)解接近,Hits@10與最佳效果仍有一定差距。實驗結(jié)果表明,文中模型在針對關(guān)系復雜的FB15K數(shù)據(jù)集時,雖然能得到不錯的平均排序得分,但正確實體排在前10的概率并不算高。筆者認為主要是以下兩個原因:其一是因為TransE-DNS在DNS負采樣時,雖然針對離群點,巧妙地通過過采樣的方式構(gòu)造相似實體點,尋找除離群點外,與之接近的真實樣本點。但在這個過程中,因模型效率問題,不能遍歷整個實體空間,只通過在每個聚類中隨機抽選去進行比較。這導致可能會選擇到一個與過采樣樣本點不夠相似的真實樣本點,同樣這個點與離群點的相似度也很低;另一個原因是:龐大的實體向量空間內(nèi)一定具有聚類密度的差異性,目前并不能很好地處理這種差異,所以雖然可以得到較高的MeanRank,但Hits@10的精度不夠高。 表3 鏈路預測實驗結(jié)果 三元組分類用于驗證Trans_DNS模型正確區(qū)分正負例三元組的性能。實驗選擇了WN11、FB13和FB15K三個數(shù)據(jù)集,其中由Socher[21]等提供的WN11和FB13測試集包含了正負例三元組。而FB15K中的測試集只有正例三元組,于是按照FB13負例三元組的生成方式,為FB15 K構(gòu)造了負例三元組。 在三元組分類中,數(shù)據(jù)集中每個關(guān)系r都設(shè)置了閾值θr。對于給定的三元組,如果其得分小于θr,被歸為正例,反之則歸為負例。關(guān)系閾值θr由驗證集獲得最大分類精度時的閾值決定。 三元組分類的參數(shù)如表4所示,其中WN11和FB15K在經(jīng)過多次實驗后,均采用了鏈路預測任務(wù)的參數(shù)。FB13根據(jù)鏈路預測中參數(shù)的選擇范圍進行了多次實驗,并得到了最優(yōu)參數(shù)。 表4 三元組分類任務(wù)參數(shù)設(shè)置 三元組分類實驗結(jié)果如表5所示,從表中可以得到TransE-DNS(bern)在FB13上得到了最優(yōu)解,且在WN11 和FB15K上的性能優(yōu)于大部分文獻中的模型??傮w來看,在三元組分類的實驗中,Trans_DNS得到了不錯的實驗結(jié)果,證明了DNS負采樣優(yōu)化了模型區(qū)分正負三元組的能力。 表5 三元組分類實驗結(jié)果 傳統(tǒng)的知識圖譜嵌入方法為了提升模型的訓練速度,沒有過多的從負采樣的角度出發(fā)去優(yōu)化模型,導致了大量的低質(zhì)量負樣本,對模型的訓練沒有幫助,最終影響了模型的性能。針對這個問題,該文從實體的相似度出發(fā),先采用DBSCAN聚類的方式對大部分在向量空間中聯(lián)系緊密的點進行聚類,再針對離群點采用過采樣的方式生成假樣本,抽選與其接近的真實樣本點,解決了數(shù)據(jù)稀疏所導致的負采樣效果不理想的問題。不足之處在于,沒有處理好實體向量空間的局部密度差異性,這會導致整體的聚類效果變差。 未來將會嘗試把DNS負采樣擴展到其他知識表示模型中。同時,下一步的想法是,如何提取實體與關(guān)系之間更多深層次非線性特征,并采用多模態(tài)的聚類方式,強化實體點分類的精度,進一步提高負采樣的質(zhì)量,提升知識圖譜嵌入模型的性能。2.3 TransE_DNS模型
3 實驗與分析
3.1 數(shù)據(jù)集設(shè)置
3.2 鏈路預測
3.3 三元組分類
4 結(jié)束語