• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    知識圖譜嵌入研究綜述

    2022-05-15 06:34:46徐有為張宏軍廖湘琳張紫萱
    計算機(jī)工程與應(yīng)用 2022年9期
    關(guān)鍵詞:三元組圖譜實(shí)體

    徐有為,張宏軍,程 愷,廖湘琳,張紫萱,李 雷

    陸軍工程大學(xué) 指揮控制工程學(xué)院,南京210007

    知識表示與推理是受人類解決問題的啟發(fā),將知識符號化,為智能系統(tǒng)獲取解決復(fù)雜任務(wù)的能力而進(jìn)行的過程和方法,知識圖譜技術(shù)是知識表示與推理的重要研究內(nèi)容。知識圖譜(knowledge graph,KG)是以圖的形式表現(xiàn)客觀世界中的實(shí)體(概念、人、事物)及其之間關(guān)系的知識庫,通常表示為三元組(h,r,t)的集合,其中h、t表示實(shí)體,r表示實(shí)體之間的關(guān)系,每個三元組(h,r,t)代表一條事實(shí),即“頭實(shí)體”h和“尾實(shí)體”t之間存在有向關(guān)系r。圖1 給出了知識圖譜的一個典型示例。從圖中可以觀測到,頭實(shí)體“The Forbidden City”與尾實(shí)體“Beijing”之間存在關(guān)系“isLocatedin”,代表“紫禁城位于北京”這個事實(shí)成立。知識圖譜采取結(jié)構(gòu)化的事實(shí)表示方式,具有易組織、易管理、易理解等方面的優(yōu)勢,已吸引了大量來自學(xué)業(yè)界和工業(yè)界的關(guān)注性研究。

    圖1 知識圖譜示例Fig.1 Example of knowledge graph

    知識圖譜的研究起源于語義Web。谷歌公司于2012年正式提出知識圖譜的概念,并成功應(yīng)用于搜索引擎,由此推動知識圖譜技術(shù)成為人工智能領(lǐng)域的重要研究內(nèi)容。目前,已經(jīng)涌現(xiàn)出一大批知識圖譜,其中具有代表性的有Freebase[1]、WordNet[2]、YAGO[3-5]、DBpedia[6]、NELL[7-8]、KnowItAll[9]、Probase[10]、CN-Probase、XLore等,這些知識圖譜從大量數(shù)據(jù)資源中抽取、組織和管理知識,希望為用戶提供能夠讀懂用戶需求的智能服務(wù),例如理解搜索的語義,提供更精準(zhǔn)的搜索答案。圖2繪制了自2012 年以來知識圖譜相關(guān)研究論文的檢索數(shù)量,從圖中可以看出,知識圖譜的研究成果數(shù)量正在成指數(shù)方式遞增,知識圖譜的相關(guān)研究正處于飛速發(fā)展的階段(受新冠疫情影響導(dǎo)致大量學(xué)術(shù)會議被擱置,因此2020年的論文數(shù)量沒有納入統(tǒng)計中)。

    圖2 知識圖譜論文檢索新增數(shù)量逐年變化情況Fig.2 Annual changes in number of new papers retrieved on knowledge graph

    在知識圖譜相關(guān)研究中,知識表示是知識應(yīng)用與獲取的基礎(chǔ),是貫穿知識圖譜的構(gòu)建與應(yīng)用全過程的關(guān)鍵[11],也是知識圖譜相關(guān)研究的熱點(diǎn)內(nèi)容。基于知識圖譜的知識表示學(xué)習(xí)(knowledge representation learning,KRL),也稱知識圖譜嵌入(knowledge graph embedding,KGE),是對知識圖譜中的實(shí)體和關(guān)系完成分布式表示的過程,通過將實(shí)體和關(guān)系映射到低維向量空間來間接捕獲它們的語義。相較于傳統(tǒng)one-hot 編碼,知識圖譜嵌入在顯著提升計算效率的同時,能夠緩解數(shù)據(jù)稀疏問題,達(dá)到融合異構(gòu)信息的目的,在知識推理以及整合多源知識方面就顯得尤為重要,為下游智能問答、信息檢索、系統(tǒng)推薦等任務(wù)發(fā)揮了必不可少的樞紐作用。表1總結(jié)了知識圖譜嵌入技術(shù)的典型應(yīng)用案例。

    表1 知識圖譜嵌入典型應(yīng)用總結(jié)Table 1 Summary of typical applications of knowledge graph embedding

    根據(jù)面向的知識圖譜數(shù)量,可將知識圖譜嵌入模型劃分為面向單個知識圖譜的嵌入模型和面向多個知識圖譜的嵌入模型。一方面,由于單個知識圖譜存在不完整性問題,因此面向單個知識圖譜的嵌入模型通常以鏈接預(yù)測(link prediction,LP)作為評測知識圖譜嵌入模型性能優(yōu)劣的關(guān)鍵任務(wù);另一方面,由于不同知識圖譜之間存在異構(gòu)性問題,因此面向多個知識圖譜的嵌入模型通常以實(shí)體對齊(entity alignment,EA)作為評測知識圖譜嵌入模型性能優(yōu)劣的關(guān)鍵任務(wù)。

    社會各界對知識圖譜的廣泛關(guān)注,使得知識圖譜研究取得了很大的進(jìn)展,有不少關(guān)于知識圖譜的綜述性文獻(xiàn)陸續(xù)發(fā)表。譬如,文獻(xiàn)[27-28]對知識圖譜的構(gòu)建技術(shù)進(jìn)行了綜述,文獻(xiàn)[29-30]分別針對知識圖譜數(shù)據(jù)管理和可視化進(jìn)行了綜述;文獻(xiàn)[11,31-38]綜述了知識圖譜嵌入、知識表示學(xué)習(xí)、基于知識圖譜的知識推理等內(nèi)容,為本文知識圖譜嵌入模型的分類提供了很多參考依據(jù),但所述均是針對單知識圖譜的鏈接預(yù)測模型;文獻(xiàn)[39]綜述了知識庫上的實(shí)體對齊技術(shù),但所述均是利用文本相似度進(jìn)行匹配的算法,沒有列舉基于知識圖譜嵌入的實(shí)體對齊方法;文獻(xiàn)[40]重點(diǎn)從知識圖譜構(gòu)建、知識表示學(xué)習(xí)和知識圖譜應(yīng)用三個方面全方位論述了知識圖譜技術(shù)的整體架構(gòu),但是由于所述面相對較寬,導(dǎo)致綜述不夠聚焦,對知識圖譜嵌入這一方面總結(jié)不夠充分。

    當(dāng)下,知識圖譜嵌入領(lǐng)域已經(jīng)累積了大量的研究成果,為了對現(xiàn)有相關(guān)文獻(xiàn)有一個系統(tǒng)、深入地梳理與總結(jié),本文圍繞知識圖譜嵌入模型,主要完成了以下工作:

    (1)提出了以面向的知識圖譜數(shù)量為依據(jù)的分類體系:根據(jù)面向的知識圖譜數(shù)量,將現(xiàn)有知識圖譜嵌入模型劃分成面向單個知識圖譜的鏈接預(yù)測模型和面向多個知識圖譜的實(shí)體對齊模型兩大類,其中面向單個知識圖譜的鏈接預(yù)測模型進(jìn)一步劃分為距離模型、翻譯模型、語義匹配模型、神經(jīng)網(wǎng)絡(luò)模型和幾何模型五類,面向多個知識圖譜的實(shí)體對齊模型進(jìn)一步劃分為基于三元組的模型、基于路徑的模型和基于圖的模型三類。圖3繪制了本文的分類體系,并按照時間軸展示了知識圖譜嵌入模型的發(fā)展變化。

    圖3 知識圖譜嵌入模型分類Fig.3 Schematic diagram of knowledge graph embedding model classification

    (2)梳理了近年來鏈接預(yù)測模型的研究進(jìn)展:面向單個知識圖譜的鏈接預(yù)測模型綜述已經(jīng)不少,本文在整合前人的分類體系基礎(chǔ)之上,補(bǔ)充增加了近幾年的最新研究進(jìn)展,目的是給出一份較為完整詳細(xì)的相關(guān)研究清單,并圍繞最近的研究熱點(diǎn)和研究趨勢,對其中具有代表性的模型進(jìn)行介紹。

    (3)歸納了實(shí)體對齊模型的研究成果:面向多個知識圖譜的實(shí)體對齊研究是一個新興的課題,目前尚沒有文獻(xiàn)綜述這些方法,仍然缺乏對實(shí)體對齊模型系統(tǒng)、深入的總結(jié)工作。為了補(bǔ)充相關(guān)領(lǐng)域的空白,本文歸納分析了26 種實(shí)體對齊模型,并從不同的方面對它們的核心技術(shù)和特征進(jìn)行了對比。

    (4)展望了知識圖譜嵌入模型的未來研究方向:基于歸納梳理結(jié)果,對未來工作的幾個有前途的研究方向進(jìn)行了全面的展望。

    1 問題描述

    知識圖譜采用多關(guān)系有向圖的結(jié)構(gòu)化知識表示形式,實(shí)體和關(guān)系分別被視為多關(guān)系圖的節(jié)點(diǎn)和不同類型的邊。具體來說,一般將知識圖譜表示為G={E,R,T},其中E表示實(shí)體集合,R表示關(guān)系集合,R中的邊連接兩個實(shí)體形成三元組(h,r,t)∈T,代表頭實(shí)體h與尾實(shí)體t之間存在有向關(guān)系r,T?E×R×E表示知識圖譜G中的三元組集合。知識圖譜嵌入、鏈接預(yù)測和實(shí)體對齊的定義如下。

    定義1 知識圖譜嵌入(KGE)也稱知識表示學(xué)習(xí)(KRL),是在編碼模型C(·)的作用下,為知識圖譜中的每個實(shí)體e∈E在低維向量空間中完成語義信息表示的過程,即C(e)=e,其中C(·)表示映射函數(shù),e表示實(shí)體e的嵌入向量,關(guān)系一般被表示為向量空間的運(yùn)算。知識表示學(xué)習(xí)得到的分布式表示可以高效地計算實(shí)體及實(shí)體之間的復(fù)雜語義關(guān)聯(lián)。

    定義2 鏈接預(yù)測(link prediction,LP)也稱知識圖譜補(bǔ)全(knowledge graph completion,KGC),是根據(jù)知識圖譜中已有的知識,生成新知識的過程。即,給定知識圖譜G={E,R,T},鏈接預(yù)測任務(wù)通過任給三元組(h,r,t)中的其中兩元,預(yù)測最有可能的第三元,最終生成不在知識圖譜G中的三元組集合G′={(h,r,t)|h∈E,r∈R,t∈E,(h,r,t)?T}。鏈接預(yù)測根據(jù)任務(wù)的不同,可分為頭實(shí)體預(yù)測、關(guān)系預(yù)測和尾實(shí)體預(yù)測。

    定義3 實(shí)體對齊(entity alignment,EA)是判斷不同知識圖譜中的多個實(shí)體是否指向真實(shí)世界同一對象的過程。不失一般性,考慮兩個KG之間的實(shí)體對齊任務(wù),即G1={E1,R1,T1}和G2={E2,R2,T2},給定一組先驗(yàn)對齊的實(shí)體對A+={(ei,ej)|ei≡ej,ei∈E1,ej∈E2}?E1×E2其中≡表示“對齊”關(guān)系,實(shí)體對齊的任務(wù)是找到新的對齊實(shí)體對集合A′,其中A′滿足A′={(ei,ej)|ei≡ej,ei∈E1,ej∈E2,(ei,ej)?A+}?E1×E2。

    為了統(tǒng)一,本文使用加粗小寫字母x表示向量,用‖x‖p表示向量x的p 范數(shù),加粗的大寫字母X表示矩陣,表示三維張量。接下來將從面向單個知識圖譜的鏈接預(yù)測模型和面向多個知識圖譜的實(shí)體對齊模型兩方面,分析知識圖譜嵌入領(lǐng)域的研究現(xiàn)狀。

    2 面向單個知識圖譜的鏈接預(yù)測模型

    面向單個知識圖譜的鏈接預(yù)測模型的典型學(xué)習(xí)過程包含三個步驟:(1)首先定義知識圖譜G中實(shí)體e∈E和關(guān)系r∈R在連續(xù)向量空間中的表示形式,一般將實(shí)體表示為向量空間的確定點(diǎn),將關(guān)系表示為向量空間中的運(yùn)算,不妨設(shè)h和t分別表示頭實(shí)體h與尾實(shí)體t的嵌入向量,通常由隨機(jī)初始化獲得;(2)其次定義三元組(h,r,t)的評分函數(shù)fr(h,t),并根據(jù)嵌入向量h和t來評估任意一個事實(shí)(h,r,t)成立的可能性,一般得分越高表明事實(shí)成立的可能性越大;(3)最后通過優(yōu)化算法來迭代更新實(shí)體和關(guān)系的表示。在迭代更新過程中,通常會隨機(jī)替換真實(shí)事實(shí)(也稱正樣例)的頭實(shí)體或者尾實(shí)體來產(chǎn)生一系列的無效事實(shí)(也稱負(fù)樣例)。優(yōu)化過程旨在最大限定提升真實(shí)事實(shí)的可能性,同時降低無效事實(shí)的可能性。

    根據(jù)模型假設(shè)和評分函數(shù)的不同,面向單個知識圖譜的鏈接預(yù)測模型可以分為距離模型、語義匹配模型、翻譯模型、神經(jīng)網(wǎng)絡(luò)模型和幾何模型五類。

    2.1 距離模型

    距離模型是最早期的知識圖譜嵌入模型,主要是受詞向量工具word2vec[41]的啟發(fā),將事實(shí)的合理性解釋為兩個實(shí)體之間的距離。

    Bordes等人[42]遵循詞嵌入的研究成果,直接使用頭實(shí)體和尾實(shí)體嵌入向量之間的距離來衡量知識圖譜中事實(shí)(h,r,t)成立的可能性,提出了知識圖譜嵌入的早期模型——UM(unstructured model)模型。UM 模型簡單直觀,但是無法區(qū)分不同的關(guān)系類型,只適用于學(xué)習(xí)僅包含單一關(guān)系類型或僅包含等價關(guān)系類型的知識圖譜嵌入情景。SE(structured embedding)模型[43]通過將每個關(guān)系r∈R建模為兩個映射矩陣,并分別用于投影事實(shí)三元組(h,r,t)中的頭實(shí)體和尾實(shí)體,來改進(jìn)UM 模型。事實(shí)(h,r,t)成立的可能性由投影后的頭、尾實(shí)體嵌入向量之間的距離來衡量。

    但是總體而言距離模型由于假設(shè)過于簡單,導(dǎo)致其鏈接預(yù)測性能較差,已經(jīng)很少被提及。

    2.2 翻譯模型

    翻譯模型本質(zhì)上也屬于距離模型,同樣是利用基于距離的評分函數(shù)來衡量事實(shí)成立的可能性。相較于距離模型,翻譯模型最大不同點(diǎn)是將關(guān)系建模為頭實(shí)體到尾實(shí)體的翻譯向量。

    (1)TransE

    TransE[44]是最具代表性的翻譯模型,它將實(shí)體和關(guān)系表示為同一空間中的向量。如圖4(a)所示。給定一個事實(shí)(h,r,t),TransE 將關(guān)系r解釋為翻譯向量r,以便嵌入實(shí)體向量h和t可以通過r以低誤差連接,即當(dāng)(h,r,t)成立時,h+r≈t。評分函數(shù)定義為h+r與t之間的距離:

    盡管TransE 具有簡單有效的優(yōu)勢,但在處理一對多、多對一、多對多關(guān)系時存在缺陷。以一對多關(guān)系為例,若(h1,r1,t1)和(h1,r1,t2)同時成立,按照TransE 的模型假設(shè),實(shí)體t1和實(shí)體t2對應(yīng)的嵌入向量需要滿足t1≈t2的關(guān)系,這會導(dǎo)致模型對實(shí)體的區(qū)分能力降低。

    (2)TransH

    TransH[45]模型是TransE 模型的擴(kuò)展。為了解決TransE在處理一對多、多對一和多對多關(guān)系類型時存在的缺陷,TransH 采取的改進(jìn)措施是:允許實(shí)體在涉及不同關(guān)系時具有不同的表示形式。具體來說,TransH將每個關(guān)系r建模為一個超平面上的法向量wr和一個位于該超平面的關(guān)系向量r,在為事實(shí)三元組(h,r,t)進(jìn)行打分前,需要首先將頭、尾實(shí)體的嵌入向量投影到關(guān)系r所在的超平面,即:

    基于TransE 的假設(shè),TransH 模型認(rèn)為投影后的實(shí)體h⊥和t⊥可以通過r以低誤差連接,如圖4(b)所示。

    (3)ManifoldE

    ManifoldE[46]模型代表了TransE 模型的另外一種擴(kuò)展方向,同樣為了解決TransE 在處理一對多、多對一和多對多關(guān)系類型時存在的缺陷,ManifoldE 采取的改進(jìn)措施是:放寬h+r≈t的過度約束要求。具體來說,ManifoldE為每個關(guān)系r額外定義了一個超球體的半徑θr。對于每一個事實(shí)三元組(h,r,t),ManifoldE 模型認(rèn)為尾實(shí)體t對應(yīng)的嵌入向量t位于一個以h+r為中心,以θr為半徑的超球面上,而不是位于h+r的精確點(diǎn)上,如圖4(c)所示。

    圖4 翻譯模型示意圖Fig.4 Schematic diagram of translational models

    (4)其他翻譯模型

    除了上述3種翻譯模型以外,KG2E[47]將實(shí)體和關(guān)系表示為從多變量高斯分布中提取的隨機(jī)向量來模擬實(shí)體和關(guān)系中的不確定性;TransR[48]將關(guān)系建模為實(shí)體空間到關(guān)系空間的投影矩陣;TransD[49]在TransR基礎(chǔ)上將投影矩陣進(jìn)一步分解為兩個向量的乘積;TranSparse[50]通過在投影矩陣上實(shí)施稀疏性來簡化TransR;TransM[51]為每個關(guān)系定義權(quán)重且為一對多、多對一、多對多關(guān)系類型分配較低權(quán)重值;TransF[52]僅要求t與h+r、h與t-r處于同一方向;TransA[53]通過為每個關(guān)系r引入對稱的非負(fù)矩陣Mr實(shí)現(xiàn)自適應(yīng)度量;TransG[54]認(rèn)為關(guān)系可以具有多種語義并將其表示為高斯分布的混合體;STransE[55]是SE 和TransE 模型的簡單組合;ITransF[56]借助稀疏注意力機(jī)制獲得了發(fā)現(xiàn)隱藏共享概念的能力;TransAt[57]同時學(xué)習(xí)基于翻譯的嵌入和實(shí)體的關(guān)系相關(guān)類型,并利用實(shí)體屬性的層次結(jié)構(gòu)提出了兩階段判別法的注意力機(jī)制。

    2.3 語義匹配模型

    語義匹配模型利用基于相似性的評分函數(shù),通過匹配實(shí)體的潛在語義和向量空間表示中體現(xiàn)的關(guān)系來衡量事實(shí)的合理性。與上述兩類模型相比,語義匹配模型通常采用乘法算子構(gòu)建實(shí)體和關(guān)系嵌入向量之間的交互關(guān)系,因此有學(xué)者也將距離模型和翻譯模型統(tǒng)稱為加法模型,將語義匹配模型稱為乘法模型。

    (1)RESCAL

    RESCAL[58]模型也稱雙線性模型,是最早的語義匹配模型,其表示學(xué)習(xí)過程一般通過張量分解完成。RESCAL將關(guān)系r建模為矩陣Mr,以捕獲實(shí)體潛在因子之間的成對相互作用。具體來說,關(guān)系矩陣Mr的各個權(quán)重捕捉頭實(shí)體向量h的第i個潛在因子hi和尾實(shí)體向量t的第j個潛在因子tj之間的相互作用量。因此給定一個事實(shí)(h,r,t),該事實(shí)成立的可能性由公式(3)衡量:

    通過評分函數(shù)可以看出:RESCAL 需要捕獲h和t所有分量之間的成對交互作用。

    (2)SimplE

    在RESCAL 模型基礎(chǔ)之上,SimplE[59]將關(guān)系矩陣Mr限制為對角陣,因此關(guān)系矩陣可以簡化用向量r表示。SimplE強(qiáng)調(diào):實(shí)體e在三元組中所扮演的主體角色和客體角色應(yīng)該有所區(qū)分,并為每個實(shí)體e編碼了兩個嵌入向量eh和et,分別對應(yīng)實(shí)體e被用作事實(shí)三元組的頭實(shí)體和尾實(shí)體。同時SimplE 模型還假設(shè):當(dāng)事實(shí)三元組(h,r,t)成立時,其反向事實(shí)三元組(t,r-1,h)也同時成立,其中r-1表示關(guān)系r的逆,因此SimplE 為每個關(guān)系r同樣編碼了兩個向量r和r-1,分別對應(yīng)關(guān)系的正方向和逆方向。為了充分考慮同一實(shí)體兩個向量之間的關(guān)聯(lián),評分函數(shù)定義為正向事實(shí)(h,r,t)及其反向事實(shí)(t,r-1,h)得分的平均值,即:

    已經(jīng)證明SimplE 是完全表達(dá)的,即給定任何有效的知識圖譜,在該模型的假設(shè)下至少存在一種嵌入方案,能夠?qū)⑺姓鎸?shí)事實(shí)三元組與無效事實(shí)三元組分開。換句話說:SimplE模型在理論上有潛力正確學(xué)習(xí)任何有效的知識圖譜,而不受內(nèi)在限制的阻礙。

    (3)TuckER

    TuckER 模型[60]將知識圖譜表示為三階二元張量,并引入了三階張量的TuckER 分解方法,通過輸出核心張量、實(shí)體及關(guān)系的向量來學(xué)習(xí)嵌入,其評分函數(shù)定義為:

    其中,×k表示張量積,k表示張量積的運(yùn)算維度。核心張量可以看做原始關(guān)系矩陣的共享池,隱含了實(shí)體和關(guān)系向量之間的交互程度。TuckER同樣是完全表達(dá)的,并且RESCAL和SimplE均可解釋為TuckER模型的特殊情況。此外,TuckER模型中實(shí)體嵌入和關(guān)系嵌入的維度相互獨(dú)立,可以根據(jù)實(shí)體規(guī)模和關(guān)系規(guī)模分別設(shè)置。

    (4)CrossE

    CrossE[61]模型認(rèn)為實(shí)體和關(guān)系之間的雙向效應(yīng)有助于在鏈接預(yù)測時選擇相關(guān)信息,因此CrossE除了為每個實(shí)體和關(guān)系學(xué)習(xí)通用嵌入以外,還為每個關(guān)系r學(xué)習(xí)附加嵌入cr來模擬實(shí)體和關(guān)系之間的雙向交互。對于給定事實(shí)三元組(h,r,t),CrossE定義頭實(shí)體和關(guān)系的交互嵌入如下:

    其中,⊙表示Hadamard 乘積。受益于交互嵌入的CrossE 更有能力生成可靠的解釋來支持鏈接預(yù)測任務(wù)。需要說明的是,CrossE模型相對通常意義上的語義匹配模型而言具有一定的特殊性,一方面CrossE借鑒了翻譯模型的假設(shè),讓頭實(shí)體的交互嵌入向量和關(guān)系的交互嵌入向量通過翻譯特性的加法算子連接;另一方面,CrossE也具有神經(jīng)網(wǎng)絡(luò)模型的特征,在運(yùn)算中插入了非線性激活函數(shù)。

    (5)其他語義匹配模型

    除了上述4 種語義匹配模型以外,SME[62]提出在語義上匹配實(shí)體關(guān)系對(h,r)和(r,t)的單獨(dú)組合;LFM[63]在RESCAL 模型基礎(chǔ)上將關(guān)系矩陣分解為潛在關(guān)系因子的稀疏表示;TATEC[64]不僅學(xué)習(xí)RESCAL的三向交互,還建模了兩向交互作用;TRESCAL[65]使用關(guān)系領(lǐng)域知識來捕獲潛在有效的事實(shí)三元組,顯著降低了RESCAL的時間復(fù)雜度和空間復(fù)雜度;DistMult[66]將關(guān)系矩陣Mr限制為對角矩陣來簡化RESCAL;HolE[67]引入了嵌入的循環(huán)相關(guān)性來學(xué)習(xí)組合表示;ComplEx[68]通過引入復(fù)數(shù)嵌入擴(kuò)展了DistMult,以便更好地對非對稱關(guān)系建模;ANALOGY[69]通過限制關(guān)系矩陣Mr正交且滿足交換律來擴(kuò)展RESCAL,以進(jìn)一步建模實(shí)體和關(guān)系的類比屬性;HolEx[70]借助插值運(yùn)算,可視為HolE 多個線性擾動副本的連接。

    2.4 神經(jīng)網(wǎng)絡(luò)模型

    神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征捕獲能力,它可以通過非線性變換將輸入數(shù)據(jù)的特征分布從原始空間轉(zhuǎn)換到另一個特征空間,并自動學(xué)習(xí)特征表示。知識圖譜嵌入模型中的神經(jīng)網(wǎng)絡(luò)模型,就是借助神經(jīng)網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力,來完成實(shí)體和關(guān)系的特征表示。

    (1)NTN

    NTN模型[71]認(rèn)為翻譯模型存在參數(shù)不交互的問題,并借鑒了語義匹配模型的張量表示,使用雙線性張量層代替標(biāo)準(zhǔn)線性神經(jīng)網(wǎng)絡(luò)層,構(gòu)建了表達(dá)性神經(jīng)張量網(wǎng)絡(luò),如圖5(a)所示。該雙線性張量層直接關(guān)聯(lián)了跨多個維度的實(shí)體向量,解決了翻譯模型存在的參數(shù)交互問題。其評分函數(shù)定義為:

    (2)ConvE

    ConvE[72]是一種基于CNN 的方法,通過將頭實(shí)體、關(guān)系對(h,r)視為特征圖來建模實(shí)體和關(guān)系之間的相互作用。具體來說,對每個事實(shí)三元組(h,r,t),首先將頭實(shí)體向量h和關(guān)系向量r重塑為2D矩陣Mh和Mr,并將拼接后的矩陣[Mh;Mr]輸入帶濾波器ω的2D 卷積層;其次將卷積層的輸出張量重塑為向量,并輸入?yún)?shù)矩陣為W的全連接層,其中c表示維度為m×n的2D特征圖數(shù)量;最后將全連接層的輸出向量與尾實(shí)體向量t進(jìn)行內(nèi)積運(yùn)算,得到的數(shù)值即為ConvE 模型為事實(shí)三元組(h,r,t)的評分。圖5(b)繪制了ConvE 模型的運(yùn)算過程。ConvE 通過多層非線性特征學(xué)習(xí)來表達(dá)語義信息,由卷積生成的特征映射增加了潛在特征的學(xué)習(xí)能力。ConvE還可以通過1~N評分提升運(yùn)算速度,具有很高的參數(shù)效率,在建模具有高關(guān)聯(lián)度的實(shí)體時特別有效。

    圖5 神經(jīng)網(wǎng)絡(luò)模型示意圖Fig.5 Schematic diagram of neural network models

    (3)CapsE

    CapsE[73]模型假設(shè)不同嵌入向量在相同位置編碼同源信息,并使用膠囊神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)實(shí)體和關(guān)系表示。不同于ConvE在前向運(yùn)算時只關(guān)注(h,r)對,CapsE在輸入層整合事實(shí)三元組(h,r,t)的編碼,通過拼接頭實(shí)體、關(guān)系和尾實(shí)體的向量h、r、t得到矩陣[h;r;t];并且CapsE 沒有重塑操作,矩陣[h;r;t]將直接輸入濾波器大小固定為1×3 的卷積層來獲取特征信息。在膠囊層中,每個膠囊節(jié)點(diǎn)只處理相同位置的特征編碼,故單獨(dú)的膠囊節(jié)點(diǎn)只接收輸入事實(shí)某一個方面的信息。最終產(chǎn)生的向量長度即為事實(shí)三元組(h,r,t)的評分。

    (4)其他神經(jīng)網(wǎng)絡(luò)模型

    除了上述3 種神經(jīng)網(wǎng)絡(luò)模型以外,SLM[71]采用標(biāo)準(zhǔn)單層神經(jīng)網(wǎng)絡(luò)來隱式連接實(shí)體向量;MLP[74]將事實(shí)三元組(h,r,t)在輸入層拼接成一個向量后送入全連接層,最后在線性輸出層得到該三元組的分?jǐn)?shù),SLM 和MLP均可視為NTN的特例;NAM[75]將(h,r)對的隱藏編碼與尾實(shí)體向量t進(jìn)行匹配,提出了關(guān)系調(diào)制神經(jīng)網(wǎng)絡(luò);ProjE[76]區(qū)分輸入信息和候選實(shí)體集,提出使用共享變量神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了較小的參數(shù)空間;與CapsE一致,ConvKB[77]將三元組作為三列的矩陣輸入,并采用一維卷積模擬實(shí)體關(guān)系之間的交互,模型可視為面向事實(shí)(h,r,t)的二分類器;R-GCN[78]針對知識圖譜的高度多關(guān)系數(shù)據(jù)特性,采用關(guān)系圖卷積網(wǎng)絡(luò)來學(xué)習(xí)實(shí)體表示;SACN[79]由編碼器加權(quán)圖卷積網(wǎng)絡(luò)和解碼器Conv-TransE組成,前者獲得圖的結(jié)構(gòu)信息,后者使模型可以完成鏈接預(yù)測任務(wù);ConvR[80]在ConvE 基礎(chǔ)之上提出使用帶特定關(guān)系濾波器的自適應(yīng)卷積;HypER[81]對超圖網(wǎng)絡(luò)進(jìn)行關(guān)系特定的一維卷積濾波,實(shí)現(xiàn)多任務(wù)知識共享。

    2.5 幾何模型

    幾何模型將關(guān)系解釋為語義空間中的幾何變換,將經(jīng)過空間幾何變換后的頭實(shí)體向量與尾實(shí)體向量t之間的距離作為事實(shí)三元組(h,r,t)的得分。嚴(yán)格從定義上來說,距離模型和翻譯模型也屬于幾何模型的范疇,本文為了與距離模型、翻譯模型進(jìn)行區(qū)分,將幾何模型中涉及的幾何變換定義為除了平移變換以外的復(fù)雜變換。

    (1)RotatE

    RotatE[82]把實(shí)體和關(guān)系建模到復(fù)數(shù)空間,并將關(guān)系描述為復(fù)數(shù)域空間的旋轉(zhuǎn)變換,如圖6(a)所示。當(dāng)事實(shí)三元組(h,r,t)成立時,RotatE 模型假定h⊙r=t,其中,并且關(guān)系向量每一維的模長被限制為1,即|ri|=1,其評分函數(shù)定義為:

    已經(jīng)證明,RotatE 可以正確地模擬許多關(guān)系模式,如對稱/反對稱、反轉(zhuǎn)和合成等。此外,RotatE還提出了一種新的自對抗負(fù)采樣策略來高效地訓(xùn)練模型。

    (2)QuatE

    QuatE[83]指出:復(fù)數(shù)域的Hadamard 乘積具有交換律,導(dǎo)致RotatE 在建模合成關(guān)系模式時存在缺陷。不妨假設(shè)存在兩個關(guān)系r1和r2分別表示“isFatherof”和“isSpouseof”,由于RotatE 假定r1⊙r2=r2⊙r1,因此隱含的認(rèn)為“父親的配偶”和“配偶的父親”表示的是同一個關(guān)系,然而這并不符合現(xiàn)實(shí)場景的應(yīng)用需求。因此QuatE 引入了超復(fù)數(shù)表示來建模實(shí)體和關(guān)系。具體來說,QuatE 采用具有三個虛分量的四元數(shù)嵌入,關(guān)系被建模為四元數(shù)空間中的旋轉(zhuǎn),因此頭實(shí)體向量h可以表示為h=ah+bhi+chj+dhk,ah,bh,ch,dh∈?d,h∈Hd,其中Hd表示d維四元數(shù)空間,關(guān)系向量r表示為r=ar+bri+crj+drk,ar,br,cr,dr∈?d,r∈Hd。QuatE定義評分函數(shù)如下:

    其中,?表示Hamilton乘積,用來捕捉實(shí)體和關(guān)系的四維空間中潛在的相互依賴,r?表示關(guān)系r的歸一化結(jié)果,即限制關(guān)系每一維的模長為1。與只有一個旋轉(zhuǎn)平面(即復(fù)數(shù)域平面)的RotatE相比,QuatE有兩個旋轉(zhuǎn)平面,解決了RotatE 在上述合成關(guān)系模式中存在的缺陷,表達(dá)的語義更加豐富。

    (3)MuRP

    MuRP[84]注意到實(shí)體之間關(guān)系的層次性特點(diǎn),提出在雙曲空間中對實(shí)體建模。MuRP 首先將實(shí)體向量定義在半徑為的d維龐加萊球模型中,即h,t∈;接下來使用M?bius矩陣-向量乘法將原始頭實(shí)體向量h轉(zhuǎn)換為關(guān)系適應(yīng)的頭實(shí)體向量,使用M?bius 加法將原始尾實(shí)體向量t轉(zhuǎn)換為關(guān)系適應(yīng)的尾實(shí)體向量t(r)=t⊕cr,其中,R∈?d×d表示歐式空間的對角關(guān)系矩陣,表示雙曲空間的關(guān)系平移向量,表示在兩個空間進(jìn)行轉(zhuǎn)換的映射矩陣,借助龐加萊球模型中的距離度量dB,MuRP 定義評分函數(shù)如下:

    bh和bt表示頭尾實(shí)體的偏置,用于衡量超球面判定邊界的半徑,如圖6(b)所示,距離在的尾實(shí)體均被視為正確的事實(shí);最后MuRP用黎曼方法完成迭代優(yōu)化。由于龐加萊圓盤的性質(zhì)-離中心越遠(yuǎn),單位歐幾里德空間的線段所代表的長度越長-因此能夠建模實(shí)體間的層次性關(guān)系。

    (4)HAKE

    HAKE[85]同樣從研究實(shí)體之間語義層次的角度出發(fā),考慮在極坐標(biāo)系中表示實(shí)體和關(guān)系。結(jié)構(gòu)上HAKE模型由模數(shù)部分和相位部分組成,以頭實(shí)體為例,hm和hp分別表示頭實(shí)體向量h=(hm,hp),hm,hp∈?d的模數(shù)向量和相位向量。模數(shù)部分旨在對層次結(jié)構(gòu)中不同層級的實(shí)體進(jìn)行建模,層級越高的實(shí)體模值越小,關(guān)系rm被建模為不同層級之間的尺度變換;相位部分旨在區(qū)分同一層級的不同實(shí)體,關(guān)系rp被建模為實(shí)體之間的旋轉(zhuǎn)變換,如圖6(c)所示。HAKE取模數(shù)部分分值和相位部分分值的加權(quán)和評估事實(shí)三元組(h,r,t)成立的可能性。相較于RotatE,HAKE 顯示的建模模值大小,借助極坐標(biāo)系中的同心圓來感知層級關(guān)系,能獲取更豐富的語義信息。

    圖6 幾何模型示意圖Fig.6 Schematic diagram of geometric models

    (5)其他幾何模型

    除了上述4種幾何模型以外,Poincare[86]同樣采用龐加萊球完成建模,但是沒有考慮關(guān)系在事實(shí)三元組中的作用,可視為MuRP的簡化版;TorusE[87]將實(shí)體和關(guān)系投影到環(huán)面空間中,并借助李群定義環(huán)面距離完成事實(shí)評分;DihEdral[88]采用二面體群進(jìn)行旋轉(zhuǎn),將多個二面體群組成關(guān)系對角矩陣,能從理論上解決對稱、反對稱、翻轉(zhuǎn)、組合等關(guān)系類型;ATTH[89]提出雙曲注意力機(jī)制,在雙曲空間下同時學(xué)習(xí)知識圖譜的層次性與邏輯關(guān)系。

    2.6 小結(jié)

    鏈接預(yù)測任務(wù)的基準(zhǔn)數(shù)據(jù)集一般通過對現(xiàn)實(shí)世界中的知識圖譜進(jìn)行抽樣獲得,并按照模型需求拆分為訓(xùn)練集Ttrain、驗(yàn)證集Tvalid和測試集Ttest。相關(guān)統(tǒng)計信息由表2給出。

    表2 鏈接預(yù)測數(shù)據(jù)集統(tǒng)計信息Table 2 Statistics of datasets for link prediction task

    (1)FB15k:Freebase 是一個大型跨域知識圖譜,由大約12億個三元組和超過8 000萬個實(shí)體組成。Bordes等人[44]選擇了Freebase 中所有被提及100 次以上的實(shí)體以及所有與這些實(shí)體相關(guān)的事實(shí),構(gòu)建了其子集FB15k。FB15k主要包含了描述電影、演員、獎項、體育和運(yùn)動隊事實(shí)的三元組。

    (2)WN18:Bordes 等人[44]通過過濾掉Wordnet 中被提及較少的實(shí)體和關(guān)系,提取了Wordnet的子集WN18,其中Wordnet是一個描述詞匯關(guān)系的知識圖譜,旨在提供自然語言處理和自動文本分析。

    (3)FB15k-237:Toutanova 和Chen[90]發(fā)現(xiàn)FB15k存在測試泄露問題,即測試集中超過80%的三元組是訓(xùn)練集中包含的三元組的逆序,并在此基礎(chǔ)上通過刪除逆關(guān)系,構(gòu)造了更具挑戰(zhàn)性的FB15k-237數(shù)據(jù)集。FB15k-237本質(zhì)上是FB15k的子集。

    (4)WN18RR:與FB15k-237 類似,Dettmers 等人[72]發(fā)現(xiàn),WN18 存在與FB15k相同的測試泄露問題,并通過同樣的處理方法刪除WN18 中的逆關(guān)系,構(gòu)造了WN18RR數(shù)據(jù)集。WN18RR本質(zhì)上是WN18的子集。

    (5)YAGO3-10:YAGO 是一個大型知識圖譜,包含從維基百科中提取并與Wordnet對齊的事實(shí)。Dettmers等人[72]通過選擇至少有10 種不同關(guān)系的實(shí)體,構(gòu)建了YAGO 的子集YAGO3-10,其中大多數(shù)三元組描述了人物的公民身份、性別和職業(yè)等屬性信息。實(shí)驗(yàn)表明[72],YAGO3-10不存在測試泄露問題。

    針對測試集Ttest的每一個三元組(h,r,t),鏈接預(yù)測模型隱藏頭實(shí)體并計算所有實(shí)體在該頭實(shí)體預(yù)測(?,r,t)中的得分,獲取真實(shí)頭實(shí)體h的排序rankr,t(h);并用類似的過程獲取真實(shí)尾實(shí)體t在該尾實(shí)體預(yù)測(h,r,?)中的排序rankh,r(t)。根據(jù)上述單個排序,鏈接預(yù)測模型的整體性能指標(biāo)通常包括:

    (1)平均排序(mean rank,MR),MR 被定義為測試集上所有三元組排序的算數(shù)平均值,即:

    MR數(shù)值越小,代表模型的鏈接預(yù)測性能越好。

    (2)平均倒數(shù)排序(mean reciprocal rank,MRR),MRR被定義為測試集上所有三元組排序倒數(shù)的算數(shù)平均值,即:

    MRR 具有平滑性,且相較于MR,受異常值的影響更小。MRR 的取值范圍為MRR∈(0,1],數(shù)值越大,代表模型的鏈接預(yù)測性能越好。

    (3)Hits@k,Hits@k表示在測試集中,單個排序位于前k的三元組比率,即:

    Hits@k數(shù)值越大,代表模型的鏈接預(yù)測性能越好。k通常取1,3和10。

    表3總結(jié)了上述五類鏈接預(yù)測模型的優(yōu)缺點(diǎn)。

    表3 鏈接預(yù)測模型優(yōu)缺點(diǎn)總結(jié)Table 3 Summary of advantages and disadvantages of link prediction models

    需要說明的是,受模型結(jié)構(gòu)、模型超參數(shù)(例如嵌入維度和負(fù)樣本數(shù)量)和數(shù)據(jù)集大小影響,即使是相同模型也會表現(xiàn)出較大的性能差異,沒有哪個配置在所有數(shù)據(jù)集上表現(xiàn)最好,也不存在絕對性能優(yōu)異的模型。實(shí)際應(yīng)用中,需要根據(jù)情況在所需內(nèi)存和性能之間做權(quán)衡。

    表4 給出了上述所有面向單個知識圖譜的鏈接預(yù)測模型的實(shí)體表示、關(guān)系表示和評分函數(shù)。

    表4 面向單個知識圖譜的鏈接預(yù)測模型總結(jié)Table 4 Summary of link prediction models oriented to single knowledge graph

    此外,有大量學(xué)者認(rèn)為,單一知識圖譜提供的語義信息不足以支撐高性能的鏈接預(yù)測任務(wù),為了促進(jìn)更有效的知識表示h,t∈?d,包含附加信息的知識圖譜嵌入模型將附加信息(如文本描述等)與知識圖譜本身結(jié)合在一起,通過使用額外的輔助信息來補(bǔ)充實(shí)體語義,加強(qiáng)結(jié)構(gòu)嵌入,從而提升鏈接預(yù)測性能。這些附加信息主要包括:(1)文本描述:DKRL[94]通過組合結(jié)構(gòu)表示和描述表示來生成實(shí)體和關(guān)系的嵌入,其中結(jié)構(gòu)表示由TransE學(xué)習(xí),描述表示由連續(xù)詞袋(CBOW)和深度卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)生成;KG-BERT[95]將知識圖中的三元組視為文本序列,以實(shí)體和關(guān)系描述為輸入,利用BERT進(jìn)行微調(diào)。(2)關(guān)系路徑:PTransE[96]將關(guān)系路徑視為實(shí)體間的轉(zhuǎn)換,使用關(guān)系的組合表示關(guān)系路徑;RSNs[97]使用有偏隨機(jī)游走從訓(xùn)練事實(shí)中學(xué)習(xí)關(guān)系路徑。(3)實(shí)體類型:TKRL[98]將實(shí)體類型建模為投影矩陣,并將父類的投影矩陣表示為其子類矩陣的組合,投影后的實(shí)體通過TransE 學(xué)習(xí)。(4)實(shí)體屬性:KR-EAR[99]將實(shí)體與屬性之間的相關(guān)性建模為分類任務(wù),為屬性三元組定義了單獨(dú)的評分函數(shù);MT-KGNN[100]和KBLRN[101]在共享的嵌入空間,同時學(xué)習(xí)結(jié)構(gòu)表示和屬性編碼,其中屬性編碼通過神經(jīng)網(wǎng)絡(luò)預(yù)測模型實(shí)現(xiàn)。(5)邏輯規(guī)則:UGKE[102]根據(jù)不確定關(guān)系事實(shí)的置信度得分來學(xué)習(xí)嵌入,在嵌入空間中同時保留關(guān)系事實(shí)的結(jié)構(gòu)信息和不確定信息;pLogicNet[103]使用具有一階邏輯的馬爾可夫邏輯網(wǎng)絡(luò)來定義所有可能三元組的聯(lián)合分布,實(shí)現(xiàn)在知識圖譜嵌入中融入領(lǐng)域知識。(6)視覺信息:IKRL[104]使用圖像編碼器為多值圖像關(guān)系的每個實(shí)例生成嵌入;MKBE[105]使用CNN 對圖像三元組的向量進(jìn)行編碼,并采用了DistMult的評分函數(shù)。

    3 面向多個知識圖譜的實(shí)體對齊模型

    面向多個知識圖譜的實(shí)體對齊模型同樣將知識圖譜中的實(shí)體映射到低維向量空間,通過向量空間的幾何結(jié)構(gòu)捕捉實(shí)體的語義相關(guān)性,同時隱含的弱化不同知識圖譜之間的異構(gòu)性問題。實(shí)體對齊模型一般只考慮兩個知識圖譜的任務(wù)場景,圖7描述了實(shí)體對齊模型的典型框架。

    圖7 實(shí)體對齊模型典型框架Fig.7 Typical framework of entity alignment models

    實(shí)體對齊模型需要預(yù)先收集兩個輸入知識圖譜之間的種子實(shí)體對,并與編碼模塊獲得的實(shí)體嵌入一起送入對齊模塊,用于發(fā)現(xiàn)新的實(shí)體對齊結(jié)果。編碼模塊與對齊模塊的交互方式一般有兩種:(1)編碼模塊在兩個獨(dú)立的語義空間中分別編碼兩個知識圖譜,對齊模塊借助種子實(shí)體對學(xué)習(xí)兩個語義空間之間的映射投影;(2)對齊模塊通過約束種子實(shí)體對的向量保持較高相似度,來引導(dǎo)編碼模塊將兩個知識圖譜編碼到同一個語義空間。此外,為了克服種子實(shí)體對不足的問題,有些模型會在學(xué)習(xí)過程中迭代地增加新的對齊實(shí)體,也有模型通過使用額外的輔助信息來補(bǔ)充實(shí)體語義,加強(qiáng)結(jié)構(gòu)嵌入,提升實(shí)體對齊性能。

    按照編碼模塊捕獲語義的層次,面向多個知識圖譜的實(shí)體對齊模型可以分為基于三元組的模型、基于路徑的模型和基于圖的模型三類。

    3.1 基于三元組的模型

    基于三元組的模型只關(guān)注實(shí)體與實(shí)體之間的一跳關(guān)系,從三元組的視角對實(shí)體和實(shí)體之間的關(guān)系進(jìn)行建模,認(rèn)為不同事實(shí)三元組(h,r,t)之間相互獨(dú)立。這種視角與大多數(shù)面向單個知識圖譜的鏈接預(yù)測模型一致,因此可以很自然將鏈接預(yù)測模型作為實(shí)體對齊的編碼模塊,基于三元組的模型通常采用TransE完成編碼。

    (1)MTransE

    MTransE[106]是最早提出用嵌入方法解決實(shí)體對齊任務(wù)的模型。MTransE采用TransE作為編碼模塊,將每個知識圖譜的實(shí)體和關(guān)系分別編碼在相互獨(dú)立的嵌入空間中,并為種子實(shí)體對中實(shí)體的嵌入向量提供轉(zhuǎn)換函數(shù),同時保留了單知識圖譜嵌入的功能。因此,MTransE定義損失函數(shù)為:

    其中,第一項表示編碼模塊損失,第二項LA表示對齊模塊損失,α是超參數(shù),用于衡量兩種損失之間的權(quán)重。針對對齊模塊,MTransE 提供了軸校準(zhǔn)、平移向量和線性轉(zhuǎn)換三種策略,通過實(shí)驗(yàn)得出,相較于軸校準(zhǔn)和平移向量,選取線性轉(zhuǎn)換作為對齊模塊,在實(shí)體對齊任務(wù)上表現(xiàn)最佳。

    (2)BootEA

    BootEA[107]同樣采用TransE作為編碼模塊,在MTransE模型基礎(chǔ)之上,BootEA提供了“參數(shù)交換”策略,通過互相交換已對齊實(shí)體對(e1,e2):e1∈E1,e2∈E2的實(shí)體,擴(kuò)充有效事實(shí)三元組。擴(kuò)充的三元組包括:

    在對齊模塊,BootEA 將實(shí)體對齊任務(wù)描述為一對一分類問題,對齊模塊的損失定義為來自不同知識圖譜實(shí)體分布之間的交叉熵。訓(xùn)練過程中,BootEA 提出了一種實(shí)體對齊自舉方法,迭代地將可能的實(shí)體對齊標(biāo)記為訓(xùn)練數(shù)據(jù)用于學(xué)習(xí)面向?qū)R的知識圖譜嵌入,并采用對齊編輯來減少迭代過程中的誤差累積。

    (3)OTEA

    與上述方法的編碼模塊一樣,OTEA[108]同樣選取TransE實(shí)現(xiàn)實(shí)體嵌入。針對對齊模塊,OTEA認(rèn)為在實(shí)體級別定義的對齊損失只能服務(wù)于已標(biāo)記實(shí)體而不能匹配整個圖像,因此提出從實(shí)體級損失和組級損失兩個維度進(jìn)行雙重優(yōu)化,并定義組級損失函數(shù)為最佳傳輸距離下的差值。此外在實(shí)體級損失方面,OTEA還強(qiáng)調(diào)不同知識圖譜之間的對偶性,因此從兩個方向同時學(xué)習(xí)對齊,實(shí)體級損失定義為:

    M1和M2分別表示兩個方向的轉(zhuǎn)移矩陣。OTEA還對對偶平移矩陣施加正則化以減輕變換過程中噪聲的影響。

    (4)TransEdge

    TransEdge[109]的改進(jìn)主要針對編碼模塊,不同于上述方法以實(shí)體為中心完成嵌入,TransEdge以邊為中心,根據(jù)特定的頭-尾實(shí)體對完成關(guān)系表示,這種關(guān)系的上下文表示稱為邊嵌入,并將邊嵌入解釋為實(shí)體嵌入之間的轉(zhuǎn)換。TransEdge編碼模塊的評分函數(shù)為:

    其中,ψ(hc,tc,r)表示關(guān)系的上下文運(yùn)算,hc和tc表示頭實(shí)體和尾實(shí)體的交互嵌入。在對齊模塊,TransEdge提出了“參數(shù)共享”策略,即強(qiáng)制種子實(shí)體對齊中的一對對齊實(shí)體具有相同嵌入。TransEdge同樣采用自舉方式迭代的訓(xùn)練數(shù)據(jù),但是“參數(shù)共享”策略不對自舉的實(shí)體對施用。

    (5)其他基于三元組的模型

    除了上述4 種基于三元組的模型以外,JAPE[110]將兩個知識圖譜的結(jié)構(gòu)聯(lián)合嵌入到一個統(tǒng)一的向量空間中,并利用KG 中的屬性相關(guān)性進(jìn)一步細(xì)化實(shí)體嵌入;KDCoE[111]在基于翻譯的編碼模塊之上,增加了實(shí)體描述編碼模塊,兩種編碼模塊迭代聯(lián)合訓(xùn)練;NTAM[112]提出了一種非平移方法,利用概率模型為對齊任務(wù)提供更魯棒的解決方案;AttrE[113]將屬性三元組納入知識圖譜嵌入中,使用統(tǒng)一的謂詞命名方案為關(guān)系嵌入提供一致的向量空間,利用傳遞性規(guī)則豐富實(shí)體的屬性數(shù)目,增強(qiáng)屬性嵌入;IMUSE[114]聲稱是一種無監(jiān)督的方法,通過交替執(zhí)行實(shí)體對齊和屬性對齊產(chǎn)生大量的高質(zhì)量對齊實(shí)體對,用于訓(xùn)練關(guān)系嵌入模型,通過二元回歸模型來表示實(shí)體對的最終相似性;SEA[115]和AKE[116]利用對抗式學(xué)習(xí)的思想建模實(shí)體的向量空間,為了獲得映射的自洽性,SEA采用循環(huán)一致性限制、AKE新增正交約束來利用未對齊的實(shí)體;MultiKE[117]從實(shí)體名稱、關(guān)系和屬性三個視角對實(shí)體信息進(jìn)行編碼和高效集成;MMEA[118]采用ComplEx 作為編碼模型改善了實(shí)體對齊性能。

    3.2 基于路徑的模型

    不同于基于三元組的模型只關(guān)注知識圖譜中的單跳信息,基于路徑的模型認(rèn)為單跳信息難以實(shí)現(xiàn)實(shí)體之間的語義傳播,只能獲取實(shí)體片面的局部的語義信息,因此著眼于挖掘?qū)嶓w之間的關(guān)系路徑,并捕獲實(shí)體之間的長關(guān)系依賴,其中關(guān)系路徑是一組首尾相連的關(guān)系三元組。

    (1)IPTransE

    IPTransE[119]最早嘗試從路徑的視角解決實(shí)體對齊任務(wù),與MTransE 模型類似,IPTransE 同樣在相互獨(dú)立的編碼空間分別表示兩個知識圖譜的實(shí)體。不同的是,為了捕獲知識圖譜中的關(guān)系路徑,IPTransE 使用PTransE 而不是TransE 作為編碼模塊,通過推斷直接關(guān)系和多跳路徑之間的等價性來建模關(guān)系路徑。假設(shè)存在事實(shí)三元組(h,r1,e1)和(e1,r2,t),實(shí)體h到實(shí)體t的關(guān)系路徑p被編碼為其組成關(guān)系嵌入的組合,即:

    其中,comb(·)是一個序列合成操作。PTransE可以通過考慮實(shí)體之間的路徑來對間接連接的實(shí)體進(jìn)行建模,這些關(guān)系謂詞形成了實(shí)體之間的轉(zhuǎn)換。針對對齊模塊,IPTransE提出了平移向量、線性轉(zhuǎn)換和“參數(shù)共享”三種策略,“參數(shù)共享”策略在大量實(shí)驗(yàn)中表現(xiàn)出最佳的對齊性能。此外,為了增加對齊實(shí)體對,并減少自舉過程中的錯誤傳播,IPTransE提出包含可靠性分?jǐn)?shù)的軟對齊策略,以添加到目標(biāo)函數(shù)的損失項中完成優(yōu)化。

    (2)RSNs

    RSNs[97]使用循環(huán)跳躍網(wǎng)絡(luò)來有效捕捉實(shí)體的長期關(guān)系依賴,在鏈接預(yù)測和實(shí)體對齊兩個任務(wù)中均表現(xiàn)出了優(yōu)異的性能。具體來說,知識圖譜的關(guān)系路徑通過有偏隨機(jī)抽樣產(chǎn)生,與MTransE只著眼于單個知識圖譜內(nèi)部的關(guān)系路徑不同,RSNs 還考慮了跨知識圖譜的關(guān)系路徑。此外在抽樣過程中,RSNs 為單知識圖譜內(nèi)部路徑抽樣設(shè)置了深度優(yōu)先策略,為跨知識圖譜路徑抽樣設(shè)置了同圖搜索偏好,既避免了在同圖內(nèi)循環(huán)重復(fù),也避免了在種子實(shí)體對之間來回走動。有偏隨機(jī)游走旨在抽樣能夠正確描述圖形的路徑,來確保圖的所有特征都被采樣。

    (3)DAT

    DAT[120]提出使用名稱編碼模塊和結(jié)構(gòu)編碼模塊共同表示實(shí)體信息,并采用RSNs[97]作為結(jié)構(gòu)編碼模塊,采用級聯(lián)冪平均嵌入方法作為名稱編碼模塊;針對對齊模塊,設(shè)計了一個度感知協(xié)同注意網(wǎng)絡(luò),將實(shí)體的度作為有效融合兩種不同信息源的重要指導(dǎo),動態(tài)調(diào)整不同特征的重要性。實(shí)體對的相似度定義為結(jié)構(gòu)相似度和名稱相似度的注意力加權(quán)和:

    其中,atts和attt分別表示結(jié)構(gòu)相似度和名稱相似度的注意力權(quán)值。對于結(jié)構(gòu)信息相對缺乏的長尾實(shí)體,DAT模型一方面通過路徑學(xué)習(xí)獲得了長尾實(shí)體的長關(guān)系結(jié)構(gòu)依賴,另一方面通過名稱編碼補(bǔ)充了實(shí)體的名稱語義,因此在處理長尾實(shí)體方面有較好的性能。

    3.3 基于圖的模型

    基于圖的模型同樣認(rèn)為知識圖譜中的單跳信息只能獲取實(shí)體片面的語義,與基于路徑的模型不同,基于圖的模型采用了一種鄰域發(fā)現(xiàn)的視角,通常使用圖神經(jīng)網(wǎng)絡(luò)作為編碼器來捕獲子圖結(jié)構(gòu)。圖神經(jīng)網(wǎng)絡(luò)本質(zhì)是根據(jù)消息傳遞規(guī)則將來自鄰域的信息聚集到目標(biāo)節(jié)點(diǎn),讓具有相似鄰域的實(shí)體在嵌入空間中彼此靠近,在捕捉圖的全局或局部結(jié)構(gòu)信息方面表現(xiàn)優(yōu)異。

    (1)GCN-Align

    GCN-Align[121]是第一個提出用圖神經(jīng)網(wǎng)絡(luò)完成實(shí)體對齊任務(wù)的模型。該模型使用兩個圖卷積網(wǎng)絡(luò)GCN分別處理兩個待對齊的知識圖譜,兩個GCN 通過共享權(quán)重矩陣將來自不同知識圖譜的實(shí)體嵌入到統(tǒng)一的向量空間中,借助實(shí)體之間的結(jié)構(gòu)來傳播對齊關(guān)系。此外,GCN-Align還組合屬性信息和結(jié)構(gòu)信息來共同學(xué)習(xí)實(shí)體表示,實(shí)體表示更新公式定義為:

    其中,Hs(e1)表示實(shí)體e1的結(jié)構(gòu)嵌入向量,ds和da分別表示結(jié)構(gòu)嵌入維度和屬性嵌入維度,β用于衡量兩種嵌入的重要性。

    (2)NAEA

    NAEA[122]提出在編碼模塊融合知識圖譜的關(guān)系級和鄰域級信息來表示實(shí)體,關(guān)系級和鄰域級信息分別通過TransE和圖注意力網(wǎng)絡(luò)GAT捕獲。給定事實(shí)三元組(h,r,t),其鄰域級表示的評分函數(shù)為:

    其中,Ne(·)和Nr(·)分別表示鄰域級的實(shí)體表示和關(guān)系表示。在對齊模塊,NAEA與BootEA模型類似,同樣將實(shí)體對齊任務(wù)描述為一對一分類問題,使用實(shí)體分布的交叉熵?fù)p失訓(xùn)練優(yōu)化。NAEA 通過不同權(quán)重組合鄰居節(jié)點(diǎn)信息來學(xué)習(xí)鄰域級表示,使實(shí)體不僅能夠捕捉到鄰居對自己的不同影響,而且能夠關(guān)注鄰域具有不同重要性的特征表示。

    (3)RDGCN

    上述兩種基于圖的模型存在著無法捕獲知識圖譜復(fù)雜關(guān)系信息的缺陷。Wu等人[123]提出了關(guān)系感知對偶圖卷積網(wǎng)絡(luò)RDGCN來充分利用關(guān)系信息。具體來說,RDGCN 將兩個待對齊知識圖譜編碼到同一個語義空間,通過對齊關(guān)系將G1、G2合并成原始圖Ge,并構(gòu)造對偶圖Gr如下:對偶圖Gr的節(jié)點(diǎn)定義為Ge的邊,若Ge中的兩個邊共享相同的頭或尾實(shí)體,則在Gr相應(yīng)節(jié)點(diǎn)之間添加邊,Gr中的邊權(quán)重表示共享頭尾實(shí)體的百分比。為了捕捉原始圖和對偶圖之間的交互,RDGCN為每個原始-對偶交互定義了一個原始注意層和一個對偶注意層組成:利用原始圖Ge的節(jié)點(diǎn)特征計算對偶注意層的注意力權(quán)重,利用對偶圖Gr的節(jié)點(diǎn)嵌入計算原始注意層的注意力權(quán)重。此外,為了控制噪聲在各層的累積,保留從交互作用中學(xué)到的有用關(guān)系信息,RDGCN在GCN 各層之間引入門機(jī)制。為了更好地利用不同KGs 中的實(shí)體名,RDGCN 使用預(yù)先訓(xùn)練好的英文單詞向量構(gòu)造原始圖的輸入實(shí)體表示。

    (4)AliNet

    AliNet[124]指出:來自不同知識圖譜的對齊實(shí)體對可能具有非同構(gòu)的鄰域結(jié)構(gòu),這對以捕獲實(shí)體之間鄰域結(jié)構(gòu)為核心的基于圖的模型來說是巨大的挑戰(zhàn)。AliNet引入遠(yuǎn)鄰居來擴(kuò)展對齊實(shí)體對鄰域結(jié)構(gòu)之間的重疊,旨在以端到端的方式緩解鄰域結(jié)構(gòu)的非同構(gòu)問題。AliNet 首先利用GCN 學(xué)習(xí)實(shí)體的一跳表示;針對實(shí)體的遠(yuǎn)鄰居,采用了一種類似圖注意力網(wǎng)絡(luò)GAT 的學(xué)習(xí)方式,以兩跳鄰居為例,其針對遠(yuǎn)鄰居的實(shí)體表示更新公式為:

    (5)其他基于圖的模型

    除了上述4種基于圖的模型以外,GMNN[125]將實(shí)體對齊任務(wù)表述為一個圖匹配問題,并在引入主題實(shí)體圖概念基礎(chǔ)之上,使用GAT 匹配兩個主題實(shí)體圖中的所有實(shí)體,得到圖級別的匹配向量;MuGNN[126]使用AMIE+構(gòu)建更密集的知識圖譜,利用注意力機(jī)制對整個圖形特征建模,從而將種子對齊信息傳播到整個圖形上;AVR-GCN[127]不同于傳統(tǒng)GAT 進(jìn)行鄰居特征融合,而是在卷積過程中引入TransE模型的翻譯特性,將實(shí)體的不同鄰居加入對應(yīng)的關(guān)系向量進(jìn)行合并表示,使關(guān)系更直接地納入模型中,但是通常需要額外提供先驗(yàn)的對齊關(guān)系對;為了擺脫對對齊關(guān)系對的依賴,HGCN[128]使用GCN 學(xué)習(xí)的實(shí)體嵌入來近似關(guān)系表達(dá),并增加門機(jī)制來控制噪聲在結(jié)構(gòu)中的傳播;KECG[129]通過聯(lián)合訓(xùn)練一個基于GAT的交叉圖模型和一個基于TransE的知識嵌入模型來協(xié)調(diào)知識圖譜之間的結(jié)構(gòu)異質(zhì)性問題;HMAN[130]使用GCN和全連接網(wǎng)絡(luò)來分別編碼知識圖譜的結(jié)構(gòu)特征、關(guān)系特征和屬性特征,同時將預(yù)訓(xùn)練模型BERT納入框架,進(jìn)一步提高對齊性能。

    3.4 小結(jié)

    實(shí)體對齊任務(wù)基準(zhǔn)數(shù)據(jù)集的相關(guān)統(tǒng)計信息由表5給出。

    表5 實(shí)體對齊數(shù)據(jù)集統(tǒng)計信息Table 5 Statistics of datasets forentity alignment task

    (1)DBpedia 是一個大規(guī)模的多語言知識圖譜,包含從英文實(shí)體到其他語言實(shí)體的跨語言鏈接(interlanguage links,ILLs)。Sun 等人[110]分別從英文、中文、日文和法文中提取了至少包含4 條關(guān)系三元組的常用實(shí)體,并通過獲取相關(guān)實(shí)體的關(guān)系三元組和屬性三元組,構(gòu)造了DBP15k數(shù)據(jù)集。

    (2)WK31是從DBpedia的Person域中提取的,包含英文、法文、德文的三語知識圖譜,由DBpedia本體的多語言標(biāo)簽和ILLs提供對齊信息。Chen等人[106]通過調(diào)整知識圖譜中包含的實(shí)體數(shù)量,構(gòu)造了WK31-15k和WK31-120k兩個不同大小的數(shù)據(jù)集。

    (3)DWY100k由Sun等人[107]構(gòu)造,包含從DBpedia、Wikidata和YAGO3提取的兩個大規(guī)模數(shù)據(jù)集DBP-WD和DBP-YG。其中DBP-YG具有不平衡的關(guān)系數(shù),給面向多個知識圖譜的實(shí)體對齊模型帶來了更多的挑戰(zhàn)。DBP15k和DWY100k中,屬性三元組占很大比例。

    與鏈接預(yù)測任務(wù)類似,實(shí)體對齊模型的整體性能指標(biāo)包括:(1)MRR,所有正確對齊實(shí)體的平均倒數(shù)排序;(2)Hits@k,排序位于前k的正確對齊實(shí)體的比例,k通常取1、5、10。

    基于三元組的模型依賴豐富的關(guān)系三元組來對齊實(shí)體,模型效率高、直觀,但在缺乏結(jié)構(gòu)信息的長尾實(shí)體上表現(xiàn)較差;基于路徑的模型通過將關(guān)系三元組鏈接到長關(guān)系路徑來擴(kuò)展基于三元組的嵌入,由于路徑數(shù)量遠(yuǎn)遠(yuǎn)超過關(guān)系三元組數(shù)量,導(dǎo)致基于路徑的模型需要較長的訓(xùn)練時間;基于圖的模型可以更充分地利用先驗(yàn)對齊關(guān)系,但不能克服知識圖譜的異構(gòu)性問題,且大多數(shù)基于圖的模型(例如,HGCN、RDGCN)嚴(yán)重依賴實(shí)體名稱來初始化嵌入模塊中的節(jié)點(diǎn)嵌入,在沒有實(shí)體名稱的情況下,會顯著影響實(shí)體對齊的準(zhǔn)確性。

    此外,模型的實(shí)體對齊性能還受種子實(shí)體對大小、是否利用輔助信息以及采用何種自舉策略的影響。AttrE和MultiKE取得了目前公布的最先進(jìn)結(jié)果,即使在種子實(shí)體對較少的情況下,依然能有不俗的表現(xiàn)。這是因?yàn)樗鼈兂浞掷昧巳鐚傩院完P(guān)系謂詞等各種類型的信息。然而使用輔助信息提高實(shí)體對齊性能通常會增加訓(xùn)練時間,需要平衡模型的有效性和效率。表6從編碼模塊、距離度量、附加信息和訓(xùn)練方式等方面給出了上述26種實(shí)體對齊模型的對比。

    表6 面向多個知識圖譜的實(shí)體對齊模型總結(jié)Table 6 Summary of entity alignment models oriented to multiple knowledge graphs

    4 未來研究方向展望

    知識圖譜嵌入模型的大量研究,促進(jìn)了其在下游系統(tǒng)中的成功應(yīng)用。但是現(xiàn)有研究中仍然存在幾個懸而未決的問題和挑戰(zhàn),尚有不少充滿希望的未來研究方向。接下來將主要從三個方面展望知識圖譜嵌入研究:(1)從提升知識圖譜嵌入性能的角度,包括“長尾實(shí)體學(xué)習(xí)”“多模態(tài)知識圖譜研究”和“System I與System II融合研究”;(2)從豐富知識圖譜嵌入內(nèi)容、擴(kuò)充知識圖譜嵌入應(yīng)用的角度,包括“時序知識圖譜研究”和“領(lǐng)域知識圖譜研究”;(3)從知識圖譜嵌入模型評價角度,包括“可擴(kuò)展性研究”。

    (1)長尾實(shí)體學(xué)習(xí)

    如前分析,現(xiàn)有的知識圖嵌入模型往往需要大量高質(zhì)量的樣本進(jìn)行訓(xùn)練和學(xué)習(xí),因此長尾實(shí)體學(xué)習(xí)一直是困擾知識圖譜嵌入模型性能的關(guān)鍵問題之一。由于缺乏結(jié)構(gòu)信息,大多數(shù)僅依賴于結(jié)構(gòu)信息的知識圖譜嵌入方法往往存在對長尾實(shí)體表示能力不足的缺陷。一種典型的思路是通過增加輔助信息,加強(qiáng)語義表示。近年來,one-shot和zero-shot學(xué)習(xí)在計算機(jī)視覺、自然語言處理等領(lǐng)域引起了廣泛關(guān)注。未來可以設(shè)計一種新的知識圖譜嵌入框架,使之更適合于從知識圖譜中推測新的事實(shí),并更有效幫助跨知識圖譜的實(shí)體對齊任務(wù)。

    (2)多模態(tài)知識圖譜研究

    盡管關(guān)系三元組作為知識圖譜的內(nèi)部信息,已經(jīng)被目前的知識圖譜嵌入模型很好地組織起來,然而這些模型在鏈接預(yù)測、實(shí)體對齊等實(shí)際應(yīng)用中的性能還遠(yuǎn)遠(yuǎn)不夠。事實(shí)上,知識圖譜中的實(shí)體和關(guān)系包含著復(fù)雜的特征和豐富的語義信息,尚未得到充分的挖掘。已有的一些模型嘗試結(jié)合實(shí)體類型、關(guān)系路徑、屬性信息或者實(shí)體描述,均取得了比僅僅學(xué)習(xí)三元組完成知識表示更好的性能,這進(jìn)一步驗(yàn)證了多模態(tài)信息之間是互補(bǔ)的猜想,即:盡管模態(tài)異構(gòu),但是語義關(guān)聯(lián)。圍繞多模態(tài)知識圖譜的工作近幾年已在相繼展開。Wang等人[131]通過向文本實(shí)體分發(fā)多樣圖像并設(shè)置視覺語義關(guān)系,構(gòu)建了全面的多模態(tài)知識圖譜Richpedia;Wang 等人[132]研究了包含視覺三元組的場景圖關(guān)系抽取。多模態(tài)知識圖譜也能為下游系統(tǒng)提供更豐富的包括文本、圖像、視頻等內(nèi)容。未來可以進(jìn)一步針對視覺信息,開發(fā)多模態(tài)語義融合來完成知識表示學(xué)習(xí),以提升嵌入性能。

    (3)System I與System II融合研究

    System I 和System II 是認(rèn)知科學(xué)中的雙通道理論,分別代表了神經(jīng)學(xué)派和符號學(xué)派的研究思維?,F(xiàn)有的大多數(shù)以學(xué)習(xí)實(shí)體分布式表示為目的的知識圖嵌入模型均屬于System I的范疇,還有一些研究通過邏輯規(guī)則(例如一階謂詞邏輯、規(guī)則庫等)實(shí)現(xiàn)鏈接預(yù)測和實(shí)體對齊任務(wù),這些方法屬于System II的范疇。Rossi等人[91]在比較現(xiàn)有鏈接預(yù)測模型時發(fā)現(xiàn):基于規(guī)則的AnyBURL模型是一個非常具有競爭力的模型,因?yàn)樗蛔C明優(yōu)于大多數(shù)面向單個知識圖譜的嵌入模型,且計算速度很快。Sun 等人[133]在比較現(xiàn)有實(shí)體對齊模型時也發(fā)現(xiàn)了近乎同樣的結(jié)論:基于規(guī)則的LogMap 模型和PARIS 模型在實(shí)體對齊性能上優(yōu)于幾乎所有面向多個知識圖譜的嵌入模型。這也為知識圖譜嵌入模型提出了非常嚴(yán)峻的考驗(yàn)。一個直覺的研究思路是進(jìn)行System I 與System II 融合研究。Qu 等人[134]率先嘗試了這種研究思路并提出了RNNLogic模型,該模型將邏輯規(guī)則看作一個潛在變量,同時訓(xùn)練規(guī)則生成器和邏輯規(guī)則的推理預(yù)測器,取得了SOTA的效果。未來研究可以進(jìn)一步拓展System I與System II的融合。

    (4)時序知識圖譜研究

    現(xiàn)有的知識圖譜嵌入模型主要集中在靜態(tài)知識圖譜上,即假設(shè)事實(shí)三元組(h,r,t)不隨時間遷移而變化,然而,這種假設(shè)忽視了非常重要的時間信息。一方面,結(jié)構(gòu)化的知識只在特定的時期內(nèi)成立,例如(?,thePresidentOf,USA)的頭實(shí)體并不是一成不變的,每位總統(tǒng)都有其對應(yīng)的任期,不考慮時間信息的知識表示容易導(dǎo)致事實(shí)之間的矛盾。另一方面,事實(shí)的演變遵循時間順序,包含時間信息的知識圖譜嵌入能夠挖掘更多的時間規(guī)律。

    已有一些前期工作嘗試進(jìn)行時序知識圖譜的嵌入模型研究,與以往的靜態(tài)知識圖譜不同,時序知識圖譜嵌入旨在同時學(xué)習(xí)時間嵌入和關(guān)系嵌入。Lacroix 等人[135]在原有三元組基礎(chǔ)上增加時間維度,將知識圖譜描述成四元組的集合,并提出了四階張量分解模型;Goel等人[136]提出了時序嵌入函數(shù),為時序知識圖譜在任何時間點(diǎn)的實(shí)體提供了一個隱藏的表示,該嵌入函數(shù)可以與任何靜態(tài)知識圖譜嵌入模型相結(jié)合。但是現(xiàn)有模型只能學(xué)習(xí)看得見的時間戳,無法推廣到未觀測時間域。未來研究可以著眼于針對時間戳的表示,來實(shí)現(xiàn)面向事實(shí)的時間預(yù)測。

    (5)領(lǐng)域知識圖譜研究

    現(xiàn)有的模型研究都僅僅應(yīng)用于通用知識圖譜上,很少有研究對領(lǐng)域知識圖譜嵌入進(jìn)行分析。一方面由于領(lǐng)域知識圖譜對專業(yè)性與準(zhǔn)確度的要求高,這也要求其必須有嚴(yán)格的本體層模式。另一方面,相對通用知識圖譜而言,領(lǐng)域知識圖譜中關(guān)系三元組數(shù)量較少,通用的知識圖譜嵌入方法不能很好的完成知識表示學(xué)習(xí)。此外,領(lǐng)域知識圖譜與通用知識圖譜的實(shí)體對齊問題尚處于空白。如何針對領(lǐng)域知識圖譜構(gòu)建統(tǒng)一的嵌入空間成為亟待解決的問題。

    (6)可擴(kuò)展性研究

    可擴(kuò)展性在大規(guī)模知識圖中至關(guān)重要,隨著知識圖譜數(shù)據(jù)量日趨增大,模型的可擴(kuò)展性問題顯得愈發(fā)緊迫。由于模型的計算效率和表達(dá)能力之間存在相互制約的關(guān)系,因此為了追求表達(dá)能力,目前僅有有限數(shù)量的研究將模型應(yīng)用于超過100萬個實(shí)體的知識圖譜上,大多數(shù)方法都只能適應(yīng)小規(guī)模知識圖譜嵌入,難以擴(kuò)展到數(shù)百萬個實(shí)體和關(guān)系。所以,為了處理復(fù)雜的深層架構(gòu)和日益增長的知識圖譜,需要將運(yùn)算效率如時間復(fù)雜度和空間復(fù)雜度等納入模型的考量范疇。

    5 總結(jié)

    本文從任務(wù)驅(qū)動的角度,將現(xiàn)有知識圖譜嵌入研究分為面向單個知識圖譜的鏈接預(yù)測研究和面向多個知識圖譜的實(shí)體對齊研究兩大類。進(jìn)一步根據(jù)知識圖譜嵌入模型的內(nèi)在假設(shè)和實(shí)現(xiàn)方法的不同,將面向單個知識圖譜的鏈接預(yù)測模型分為距離模型、翻譯模型、語義匹配模型、神經(jīng)網(wǎng)絡(luò)模型和幾何模型五類;根據(jù)編碼模塊捕獲語義的層次,將面向多個知識圖譜的實(shí)體對齊模型分為基于三元組的模型、基于路徑的模型和基于圖的模型三類。本文在分別列舉分析了各類模型的優(yōu)缺點(diǎn)基礎(chǔ)之上,探討了現(xiàn)有知識圖譜嵌入技術(shù)存在的問題,對知識圖譜嵌入模型的未來研究方向提出了展望。

    猜你喜歡
    三元組圖譜實(shí)體
    基于語義增強(qiáng)雙編碼器的方面情感三元組提取
    軟件工程(2024年12期)2024-12-28 00:00:00
    基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
    繪一張成長圖譜
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    關(guān)于余撓三元組的periodic-模
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    主動對接你思維的知識圖譜
    国产视频内射| 熟女人妻精品中文字幕| 成年人黄色毛片网站| 欧美绝顶高潮抽搐喷水| 欧美日韩中文字幕国产精品一区二区三区| 我要搜黄色片| 好看av亚洲va欧美ⅴa在| 无人区码免费观看不卡| 99久久精品热视频| 18+在线观看网站| 能在线免费观看的黄片| 精品免费久久久久久久清纯| 自拍偷自拍亚洲精品老妇| 亚洲国产精品合色在线| 久久久久久久亚洲中文字幕 | 亚洲avbb在线观看| 久久久久久久精品吃奶| 在线免费观看的www视频| 欧美一区二区精品小视频在线| 国产精品人妻久久久久久| 精品欧美国产一区二区三| 国产黄a三级三级三级人| 亚洲自拍偷在线| 看十八女毛片水多多多| 啦啦啦韩国在线观看视频| 美女 人体艺术 gogo| 天美传媒精品一区二区| av国产免费在线观看| 成人特级黄色片久久久久久久| 欧美最黄视频在线播放免费| 欧美色欧美亚洲另类二区| 亚洲aⅴ乱码一区二区在线播放| 久久人人爽人人爽人人片va | 国产成年人精品一区二区| 日韩人妻高清精品专区| 婷婷亚洲欧美| 免费人成在线观看视频色| 美女高潮的动态| 精品人妻熟女av久视频| 91久久精品国产一区二区成人| 亚洲av成人av| 亚洲成人中文字幕在线播放| 亚洲一区二区三区色噜噜| 日韩欧美在线乱码| av黄色大香蕉| 欧美色欧美亚洲另类二区| 俺也久久电影网| 舔av片在线| 国产91精品成人一区二区三区| 午夜免费成人在线视频| 黄色日韩在线| 亚洲午夜理论影院| 高清在线国产一区| 欧美3d第一页| 亚洲av免费高清在线观看| 69人妻影院| 哪里可以看免费的av片| 午夜a级毛片| 亚洲精品亚洲一区二区| 欧美日韩综合久久久久久 | 51国产日韩欧美| 一区二区三区四区激情视频 | 日韩欧美三级三区| 国产真实伦视频高清在线观看 | 757午夜福利合集在线观看| 日日摸夜夜添夜夜添小说| 亚洲精品乱码久久久v下载方式| 午夜影院日韩av| 午夜福利高清视频| 又黄又爽又免费观看的视频| 免费av观看视频| 久久久精品大字幕| 精品人妻一区二区三区麻豆 | 色5月婷婷丁香| 国内精品一区二区在线观看| 色综合站精品国产| 亚洲av日韩精品久久久久久密| 日韩欧美免费精品| 国产精品久久视频播放| 久久午夜福利片| 精品熟女少妇八av免费久了| 久久精品国产99精品国产亚洲性色| 精品日产1卡2卡| 亚洲av成人精品一区久久| 日韩欧美在线乱码| 一个人看的www免费观看视频| 999久久久精品免费观看国产| 婷婷精品国产亚洲av在线| 国产三级在线视频| 香蕉av资源在线| 国产黄a三级三级三级人| 欧美激情在线99| 成人av在线播放网站| 男人狂女人下面高潮的视频| 国产大屁股一区二区在线视频| 午夜日韩欧美国产| 三级男女做爰猛烈吃奶摸视频| 久久精品人妻少妇| 18禁黄网站禁片免费观看直播| 国产成年人精品一区二区| 搡老妇女老女人老熟妇| 青草久久国产| 国产精品亚洲av一区麻豆| 又黄又爽又刺激的免费视频.| 亚洲午夜理论影院| 亚洲人成网站在线播放欧美日韩| 最新中文字幕久久久久| 天美传媒精品一区二区| 欧美黄色淫秽网站| 久久久久久久久中文| 成人毛片a级毛片在线播放| 在线免费观看的www视频| www.www免费av| 精品日产1卡2卡| 欧美乱色亚洲激情| 身体一侧抽搐| 日韩中字成人| 国产三级黄色录像| 色精品久久人妻99蜜桃| 亚洲成a人片在线一区二区| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 一本综合久久免费| 好男人电影高清在线观看| 亚洲激情在线av| 国产成年人精品一区二区| 中文字幕av成人在线电影| 欧美日韩综合久久久久久 | 免费av不卡在线播放| 一a级毛片在线观看| av视频在线观看入口| 亚洲人成网站在线播| 女同久久另类99精品国产91| www.999成人在线观看| 成人av在线播放网站| 欧美最黄视频在线播放免费| 色在线成人网| 夜夜爽天天搞| 啦啦啦韩国在线观看视频| 此物有八面人人有两片| 毛片一级片免费看久久久久 | 成人欧美大片| 91av网一区二区| 亚洲精品影视一区二区三区av| 十八禁国产超污无遮挡网站| 波多野结衣高清无吗| 亚洲无线在线观看| 男人狂女人下面高潮的视频| 小说图片视频综合网站| 久久久久久大精品| 午夜福利成人在线免费观看| 国产一级毛片七仙女欲春2| 国产精品三级大全| 欧美成人免费av一区二区三区| 精品福利观看| 精品久久国产蜜桃| 国产单亲对白刺激| 国产一级毛片七仙女欲春2| 久久久久久久午夜电影| 国产精品亚洲av一区麻豆| 757午夜福利合集在线观看| 亚洲综合色惰| 亚洲人成伊人成综合网2020| 成人高潮视频无遮挡免费网站| 日韩欧美一区二区三区在线观看| 最近在线观看免费完整版| 成人精品一区二区免费| 婷婷六月久久综合丁香| 三级毛片av免费| 亚洲,欧美,日韩| 国产主播在线观看一区二区| 可以在线观看的亚洲视频| 国产精品久久久久久久电影| 国产一区二区在线av高清观看| 禁无遮挡网站| a级一级毛片免费在线观看| 深夜a级毛片| 久久久久国内视频| 国产午夜精品论理片| 久久这里只有精品中国| 久久久久性生活片| 日韩中文字幕欧美一区二区| 51午夜福利影视在线观看| 一级av片app| 网址你懂的国产日韩在线| 88av欧美| 成熟少妇高潮喷水视频| ponron亚洲| 国产伦人伦偷精品视频| 日韩大尺度精品在线看网址| 美女免费视频网站| 亚洲欧美日韩高清专用| 人妻制服诱惑在线中文字幕| 天堂√8在线中文| 午夜激情福利司机影院| 亚洲专区国产一区二区| 亚洲性夜色夜夜综合| 午夜福利成人在线免费观看| 亚洲 国产 在线| 18禁在线播放成人免费| 99热这里只有是精品50| 五月伊人婷婷丁香| 亚洲av免费高清在线观看| 国产精品不卡视频一区二区 | 乱码一卡2卡4卡精品| 中文字幕av成人在线电影| 国产高清有码在线观看视频| 欧美一级a爱片免费观看看| 亚洲专区中文字幕在线| 亚洲精品久久国产高清桃花| 9191精品国产免费久久| 婷婷六月久久综合丁香| 久久久色成人| 啦啦啦韩国在线观看视频| 日韩免费av在线播放| 亚洲精品色激情综合| 男人舔女人下体高潮全视频| 久久久久久九九精品二区国产| 亚州av有码| 麻豆国产av国片精品| 99精品在免费线老司机午夜| 全区人妻精品视频| 色在线成人网| 听说在线观看完整版免费高清| 亚洲五月天丁香| 国产成人aa在线观看| 最近最新中文字幕大全电影3| 在线观看免费视频日本深夜| 精品午夜福利在线看| 成人av一区二区三区在线看| 久久国产乱子免费精品| 日韩人妻高清精品专区| 十八禁网站免费在线| 禁无遮挡网站| 国产色爽女视频免费观看| 久久香蕉精品热| 99久久精品热视频| 少妇裸体淫交视频免费看高清| 免费观看的影片在线观看| 搡老熟女国产l中国老女人| 久久精品国产清高在天天线| 国产成人欧美在线观看| 日韩免费av在线播放| 欧美成人a在线观看| 99久久精品一区二区三区| av国产免费在线观看| 给我免费播放毛片高清在线观看| 成人国产综合亚洲| 舔av片在线| 国产aⅴ精品一区二区三区波| 波多野结衣高清无吗| 日韩高清综合在线| 在线十欧美十亚洲十日本专区| 精品午夜福利在线看| 人妻久久中文字幕网| 两个人的视频大全免费| 最后的刺客免费高清国语| 91在线观看av| 精品久久久久久久久av| 亚洲男人的天堂狠狠| 国产乱人视频| 中亚洲国语对白在线视频| 国产亚洲精品综合一区在线观看| 国产av不卡久久| 亚洲av不卡在线观看| 两个人的视频大全免费| 十八禁人妻一区二区| 欧美日韩国产亚洲二区| 成人特级av手机在线观看| 桃色一区二区三区在线观看| 黄色配什么色好看| 久久精品人妻少妇| 一边摸一边抽搐一进一小说| 成人性生交大片免费视频hd| 午夜精品一区二区三区免费看| 动漫黄色视频在线观看| 天堂√8在线中文| 在线观看午夜福利视频| 国产一级毛片七仙女欲春2| 丁香欧美五月| 啪啪无遮挡十八禁网站| 国产色爽女视频免费观看| 国产视频一区二区在线看| 高清日韩中文字幕在线| 最近最新免费中文字幕在线| 国产 一区 欧美 日韩| 国产精品综合久久久久久久免费| 综合色av麻豆| 久久草成人影院| 亚洲欧美日韩东京热| 成人国产一区最新在线观看| 久久精品影院6| 亚洲成人久久爱视频| 一级黄色大片毛片| 亚洲av日韩精品久久久久久密| 在线看三级毛片| 精品不卡国产一区二区三区| 国产精品久久久久久人妻精品电影| 亚洲中文日韩欧美视频| 天堂√8在线中文| 亚洲精品乱码久久久v下载方式| 国产男靠女视频免费网站| 精品欧美国产一区二区三| 一个人看的www免费观看视频| 欧美一区二区亚洲| 亚洲中文日韩欧美视频| 麻豆国产97在线/欧美| 国产综合懂色| 精品国产三级普通话版| 91麻豆av在线| 日韩成人在线观看一区二区三区| 日本撒尿小便嘘嘘汇集6| 亚洲第一区二区三区不卡| 日本免费a在线| 偷拍熟女少妇极品色| 中文字幕人妻熟人妻熟丝袜美| 美女大奶头视频| 国产成人av教育| 日韩中文字幕欧美一区二区| 性色avwww在线观看| 国产精品99久久久久久久久| 精品午夜福利在线看| 日本三级黄在线观看| 村上凉子中文字幕在线| 51国产日韩欧美| 999久久久精品免费观看国产| 色精品久久人妻99蜜桃| 国语自产精品视频在线第100页| 观看美女的网站| 亚洲av中文字字幕乱码综合| 长腿黑丝高跟| 夜夜躁狠狠躁天天躁| 91麻豆精品激情在线观看国产| 欧美极品一区二区三区四区| 中文字幕人成人乱码亚洲影| 亚洲欧美精品综合久久99| 国产精品久久久久久亚洲av鲁大| 非洲黑人性xxxx精品又粗又长| 三级国产精品欧美在线观看| 99精品久久久久人妻精品| 国内精品美女久久久久久| 午夜福利视频1000在线观看| 九九在线视频观看精品| www.www免费av| 欧美最新免费一区二区三区 | 日韩亚洲欧美综合| 我的老师免费观看完整版| 国产亚洲精品久久久com| 亚洲专区国产一区二区| 久久久久九九精品影院| 亚洲专区国产一区二区| 俄罗斯特黄特色一大片| 十八禁国产超污无遮挡网站| 久久久久国产精品人妻aⅴ院| 在现免费观看毛片| 级片在线观看| 一进一出抽搐gif免费好疼| a级毛片a级免费在线| 丰满人妻熟妇乱又伦精品不卡| 国产高潮美女av| 亚洲七黄色美女视频| 欧美最黄视频在线播放免费| 午夜a级毛片| 国产中年淑女户外野战色| 国产老妇女一区| 国产精品女同一区二区软件 | 色尼玛亚洲综合影院| av在线蜜桃| 免费看美女性在线毛片视频| 婷婷丁香在线五月| 18禁裸乳无遮挡免费网站照片| 黄色丝袜av网址大全| 日韩人妻高清精品专区| 99久久无色码亚洲精品果冻| 国产精品永久免费网站| 身体一侧抽搐| 日日干狠狠操夜夜爽| 国产伦精品一区二区三区四那| 人人妻人人澡欧美一区二区| 国产黄色小视频在线观看| 欧美最黄视频在线播放免费| 国产欧美日韩一区二区三| 日本撒尿小便嘘嘘汇集6| 亚洲成人免费电影在线观看| 在线观看美女被高潮喷水网站 | 日日摸夜夜添夜夜添av毛片 | 88av欧美| 中文字幕免费在线视频6| 在线观看av片永久免费下载| 欧美成人一区二区免费高清观看| 日日摸夜夜添夜夜添av毛片 | 少妇裸体淫交视频免费看高清| 国产av麻豆久久久久久久| 91麻豆精品激情在线观看国产| 国产精品伦人一区二区| 久久精品91蜜桃| 最近最新免费中文字幕在线| 亚洲国产日韩欧美精品在线观看| 天堂动漫精品| 亚洲av第一区精品v没综合| 毛片女人毛片| 狂野欧美白嫩少妇大欣赏| 欧美日韩瑟瑟在线播放| 日本a在线网址| av在线老鸭窝| 一区福利在线观看| 桃红色精品国产亚洲av| 亚洲av五月六月丁香网| 国产精品,欧美在线| 中出人妻视频一区二区| 日韩人妻高清精品专区| av福利片在线观看| 国内毛片毛片毛片毛片毛片| 欧美3d第一页| 可以在线观看毛片的网站| 他把我摸到了高潮在线观看| 亚洲av成人av| 99久国产av精品| 国产精品1区2区在线观看.| 国产精品女同一区二区软件 | 3wmmmm亚洲av在线观看| 欧美在线一区亚洲| 波多野结衣巨乳人妻| 日韩欧美一区二区三区在线观看| 成熟少妇高潮喷水视频| 在线天堂最新版资源| 在线观看美女被高潮喷水网站 | av黄色大香蕉| 国产精品99久久久久久久久| 亚洲av成人av| 在线免费观看不下载黄p国产 | 亚洲精品乱码久久久v下载方式| 三级男女做爰猛烈吃奶摸视频| 婷婷六月久久综合丁香| 99热6这里只有精品| 人妻夜夜爽99麻豆av| 69人妻影院| 亚洲国产日韩欧美精品在线观看| 精品久久久久久久久av| 乱码一卡2卡4卡精品| 久久国产乱子伦精品免费另类| 给我免费播放毛片高清在线观看| 国产探花极品一区二区| 亚洲,欧美精品.| 国产中年淑女户外野战色| 亚洲中文字幕日韩| 久久久久久大精品| 国产大屁股一区二区在线视频| 午夜福利18| 99精品久久久久人妻精品| 在线观看免费视频日本深夜| 欧美激情久久久久久爽电影| 欧美午夜高清在线| 18禁黄网站禁片午夜丰满| 婷婷亚洲欧美| 露出奶头的视频| 丁香六月欧美| 国产一区二区在线观看日韩| 欧美色视频一区免费| 日日摸夜夜添夜夜添小说| 国产三级中文精品| 桃红色精品国产亚洲av| 丁香六月欧美| 午夜福利高清视频| 亚洲精品久久国产高清桃花| a级一级毛片免费在线观看| 亚洲自偷自拍三级| 亚洲一区高清亚洲精品| 激情在线观看视频在线高清| 美女高潮喷水抽搐中文字幕| 中文字幕精品亚洲无线码一区| 亚洲成人免费电影在线观看| a级毛片免费高清观看在线播放| 国产高清三级在线| 12—13女人毛片做爰片一| 一级毛片久久久久久久久女| 国产伦精品一区二区三区四那| 我的老师免费观看完整版| 亚洲精品影视一区二区三区av| 国产在线男女| 亚洲激情在线av| 一级黄片播放器| 色综合婷婷激情| 高清日韩中文字幕在线| 97超级碰碰碰精品色视频在线观看| 1000部很黄的大片| 欧美zozozo另类| 精品久久久久久久久久久久久| www日本黄色视频网| 女人十人毛片免费观看3o分钟| 国产久久久一区二区三区| 日韩中字成人| 免费观看的影片在线观看| 国产免费男女视频| 国产精品久久久久久精品电影| 免费人成视频x8x8入口观看| 亚洲在线自拍视频| 亚洲精品亚洲一区二区| 亚洲国产精品成人综合色| 91狼人影院| 亚洲综合色惰| 午夜福利成人在线免费观看| 国产精品综合久久久久久久免费| 午夜精品久久久久久毛片777| 又黄又爽又免费观看的视频| 长腿黑丝高跟| 精品久久久久久久久久免费视频| 欧美又色又爽又黄视频| 在线免费观看不下载黄p国产 | 少妇的逼水好多| 色哟哟·www| 色综合欧美亚洲国产小说| 日韩欧美精品v在线| 亚洲成av人片免费观看| 久久香蕉精品热| 日韩av在线大香蕉| 国产精品乱码一区二三区的特点| 床上黄色一级片| 美女被艹到高潮喷水动态| 91麻豆精品激情在线观看国产| 日韩欧美在线二视频| 男人舔奶头视频| 免费在线观看亚洲国产| 成人国产综合亚洲| 成人特级av手机在线观看| 日日夜夜操网爽| 亚洲激情在线av| 久久国产精品人妻蜜桃| 最好的美女福利视频网| 亚洲人成伊人成综合网2020| 亚洲国产高清在线一区二区三| 午夜免费激情av| 国产伦一二天堂av在线观看| 我要搜黄色片| 日韩欧美在线乱码| 欧美性猛交╳xxx乱大交人| 国产成人啪精品午夜网站| 男人舔女人下体高潮全视频| 老鸭窝网址在线观看| 国产精品亚洲一级av第二区| 亚洲最大成人av| 国产精品一区二区免费欧美| 欧美在线黄色| 色av中文字幕| 亚洲av成人不卡在线观看播放网| 国产麻豆成人av免费视频| 亚洲成人免费电影在线观看| 黄片小视频在线播放| 国内精品久久久久精免费| 麻豆久久精品国产亚洲av| 午夜福利视频1000在线观看| 久久久久久久久久成人| 男女之事视频高清在线观看| 真人做人爱边吃奶动态| av在线天堂中文字幕| 久久久久久久亚洲中文字幕 | 国产成人欧美在线观看| 国产爱豆传媒在线观看| 亚洲五月婷婷丁香| 国语自产精品视频在线第100页| 最近最新免费中文字幕在线| 日本一本二区三区精品| av女优亚洲男人天堂| 欧美性猛交黑人性爽| 国产69精品久久久久777片| 小说图片视频综合网站| 美女高潮喷水抽搐中文字幕| a在线观看视频网站| 国产精品人妻久久久久久| 日韩中文字幕欧美一区二区| 性色av乱码一区二区三区2| 午夜久久久久精精品| 嫩草影视91久久| 丝袜美腿在线中文| 在线国产一区二区在线| 国产三级黄色录像| 欧美黄色淫秽网站| 国产aⅴ精品一区二区三区波| 精华霜和精华液先用哪个| 1024手机看黄色片| 亚洲一区二区三区不卡视频| 国产欧美日韩精品亚洲av| 欧美3d第一页| 老熟妇仑乱视频hdxx| 亚洲欧美清纯卡通| 两性午夜刺激爽爽歪歪视频在线观看| 成年女人永久免费观看视频| 怎么达到女性高潮| 国产高清视频在线观看网站| 日韩欧美精品免费久久 | 啦啦啦韩国在线观看视频| 午夜影院日韩av| 国模一区二区三区四区视频| 国产在线精品亚洲第一网站| 动漫黄色视频在线观看| 亚洲av一区综合| 一个人看视频在线观看www免费| 丰满人妻一区二区三区视频av| 亚洲精品456在线播放app | 国产探花在线观看一区二区| 国产亚洲欧美在线一区二区| 小说图片视频综合网站| 欧美色视频一区免费| 老熟妇仑乱视频hdxx| 搡老妇女老女人老熟妇| 看免费av毛片| 午夜a级毛片| 国产美女午夜福利| 动漫黄色视频在线观看| 我要看日韩黄色一级片| 高清在线国产一区| 99视频精品全部免费 在线| 国产成人福利小说| 校园春色视频在线观看| 国产三级在线视频| 一级黄片播放器|