方 陽 趙 翔,2 譚 真 楊世宇 肖衛(wèi)東,2
1(國(guó)防科技大學(xué)信息系統(tǒng)與管理學(xué)院 長(zhǎng)沙 410073)
2(地球空間信息技術(shù)協(xié)同創(chuàng)新中心(武漢大學(xué)) 武漢 430079)
3(新南威爾士大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 澳大利亞悉尼 2052)
(fangyang12@nudt.edu.cn)
知識(shí)圖譜是結(jié)構(gòu)化的語義知識(shí)庫,以符號(hào)形式描述物理世界中的實(shí)體(entities)及其相互關(guān)系(relations),其基本組成單元是“實(shí)體-關(guān)系-實(shí)體”三元組(triplets)以及實(shí)體和相關(guān)屬性的值對(duì);實(shí)體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu).
諸如Freebase[1]和WordNet[2]等大型知識(shí)圖譜在人工智能領(lǐng)域方面呈現(xiàn)出廣泛的應(yīng)用價(jià)值,被用于支撐語義檢索以及自動(dòng)問答等高級(jí)應(yīng)用[3].例如在檢索信息時(shí),用戶的查詢?cè)~是典型的短文本,一個(gè)查詢?cè)~往往僅由幾個(gè)關(guān)鍵詞構(gòu)成.傳統(tǒng)的關(guān)鍵詞匹配檢索技術(shù)不理解查詢?cè)~背后的語義信息,查詢結(jié)果可能會(huì)很差.為此,人們一直在探索比關(guān)鍵詞查詢更高效的信息檢索方式,而構(gòu)建大規(guī)模知識(shí)圖譜使得語義檢索成為可能.語義檢索能夠更好地理解用戶的查詢?cè)~,從紛繁復(fù)雜的信息中有效篩選出那些最合適的答案,進(jìn)而達(dá)到關(guān)鍵詞匹配檢索無法匹敵的效果.又如知識(shí)圖譜可作為自動(dòng)問答系統(tǒng)的知識(shí)庫,通過知識(shí)圖譜中實(shí)體的復(fù)雜關(guān)系推理得到問題的答案.無論是理解用戶查詢意圖,還是自動(dòng)尋求問題答案,都毫無例外地需要進(jìn)行語義理解和知識(shí)推理,而這些智能技術(shù)取得巨大進(jìn)展的背后則是更深、更廣、更新和更加準(zhǔn)確的知識(shí)圖譜的構(gòu)建和運(yùn)用.
知識(shí)圖譜領(lǐng)域的主要研究目標(biāo)是從無(半)結(jié)構(gòu)的互聯(lián)網(wǎng)信息中獲取有結(jié)構(gòu)知識(shí),自動(dòng)融合構(gòu)建知識(shí)庫、服務(wù)知識(shí)推理等相關(guān)應(yīng)用.其中,知識(shí)表示是知識(shí)獲取與應(yīng)用的基礎(chǔ),是貫穿知識(shí)庫構(gòu)建與應(yīng)用全過程的關(guān)鍵問題.表示知識(shí)圖譜最直接的方法是利用圖數(shù)據(jù)庫[4],但是這種表示手段應(yīng)用在大規(guī)模知識(shí)圖譜上存在計(jì)算復(fù)雜度高、推理效率低和數(shù)據(jù)稀疏等問題.換句話說,在這種表示之下,知識(shí)圖譜是符號(hào)化的,并具備有邏輯性,因此數(shù)值化的機(jī)器學(xué)習(xí)方法和技術(shù)均不能應(yīng)用到知識(shí)圖譜上.
近年來,隨著大數(shù)據(jù)研究與應(yīng)用的不斷深入,人工智能中的表示學(xué)習(xí)技術(shù)異軍突起,旨在將研究對(duì)象的語義信息表示為稠密低維實(shí)值向量.面向知識(shí)圖譜的表示學(xué)習(xí)作為一種支持知識(shí)圖譜計(jì)算和推理的新方法,在保留原始圖譜特定屬性的同時(shí),將知識(shí)圖譜映射為連續(xù)的向量空間,使得一大批高效的數(shù)值化計(jì)算和推理方法得以適用.因此,知識(shí)圖譜的低維向量表示的是一種分布式表示(distributed representation),即孤立地看表示向量中的每一維,它表達(dá)了一種沒有明確對(duì)應(yīng)含義的潛在特征(稱作“特征維”);但綜合各維形成一個(gè)向量,則能夠表示對(duì)象的語義信息.
鑒于上述優(yōu)點(diǎn),研究者提出了若干知識(shí)圖譜表示模型,包括基于翻譯(translation-based)的模型、結(jié)構(gòu)嵌入(structured embedding, SE)模型、語義匹配能量(semantic matching energy, SME)模型和潛變量模型(latent factor model, LFM)等.本文主要考慮基于翻譯模型的知識(shí)圖譜表示方法.
具體地,知識(shí)圖譜中的一條知識(shí)通常由三元組(h,r,t)表示,其中h是頭實(shí)體,t是尾實(shí)體,r表示頭實(shí)體和尾實(shí)體之間的關(guān)系.知識(shí)圖譜表示用一個(gè)k維向量h*(或者t*)來代表頭(或者尾)實(shí)體,用一個(gè)轉(zhuǎn)換向量r*來表示頭尾實(shí)體對(duì)之間的關(guān)系*自反,即同一個(gè)實(shí)體和自身的關(guān)系;一對(duì)多,即一個(gè)頭實(shí)體通過同一個(gè)關(guān)系對(duì)應(yīng)多個(gè)尾實(shí)體;多對(duì)一,即多個(gè)頭實(shí)體通過同一個(gè)關(guān)系對(duì)應(yīng)一個(gè)尾實(shí)體;多對(duì)多,即多個(gè)頭實(shí)體通過同一個(gè)關(guān)系對(duì)應(yīng)多個(gè)尾實(shí)體.;同時(shí)通過定義一個(gè)得分函數(shù)fr*(h*,t*)來衡量三元組(h,r,t)在表示空間中成立的可能性.實(shí)體和關(guān)系的表示模型則是通過最小化包含所有實(shí)體和關(guān)系的全局得分函數(shù)實(shí)現(xiàn)的.因此,即使是一個(gè)單一的實(shí)體或關(guān)系的表示都可以捕捉到整個(gè)知識(shí)圖譜的全局信息.
知識(shí)圖譜的提法是在谷歌知識(shí)圖譜(Google knowledge graph)項(xiàng)目中首次披露的.雖然知識(shí)圖譜的概念較新,但它并非一個(gè)全新的領(lǐng)域.早年,Berners-Lee就提出了數(shù)據(jù)鏈接(linked data)的思想,為迎接語義網(wǎng)的到來做好準(zhǔn)備.
目前,知識(shí)圖譜已經(jīng)被應(yīng)用在語義搜索、智能問答等諸多領(lǐng)域,相對(duì)成熟的國(guó)外產(chǎn)品包括谷歌公司使用的Knowledge Vault、蘋果公司使用的Wolfram Alpha智能計(jì)算引擎以及Freebase和YAGO等,針對(duì)中文產(chǎn)品則包括百度“知心”和搜狗“知立方”等.
當(dāng)前,面向知識(shí)圖譜的表示學(xué)習(xí)的研究主要集中在基于翻譯的模型上,代表性工作主要包括TransE[5],TransH[6],TransR[7],CTransR[7],TransD[8]等方法.
相較之前的模型,TransE方法在性能和效果上均取得較好的結(jié)果[9].但是,TransE方法由于模型相對(duì)簡(jiǎn)單,存在無法區(qū)分和處理實(shí)體之間一對(duì)多、多對(duì)一以及多對(duì)多等復(fù)雜關(guān)系的問題.針對(duì)此問題,后續(xù)有TransH,TransR和CTransR等方法提出.在相同真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,這些方法從一定程度上解決了復(fù)雜關(guān)系的表征問題.
在TransE和TransH中,實(shí)體和關(guān)系存在于同一個(gè)空間中.然而,實(shí)體和關(guān)系本質(zhì)上是不同的客觀事物,所以將它們放置于同一個(gè)空間中描述是不恰當(dāng)?shù)?為此,TransR和CTransR希望通過建立一個(gè)映像矩陣Mr*和一個(gè)向量r*來表示每一個(gè)關(guān)系r.具體地,TransR將實(shí)體h*和t*通過矩陣映射到關(guān)系向量r*的層次上,得到Mr*h*+r*=Mr*t*,也即TransR的優(yōu)化目標(biāo).
CTransR是TransR的擴(kuò)展,它將多個(gè)頭尾實(shí)體聚集為一類得到每一類特有的關(guān)系向量.它在取得進(jìn)步的同時(shí),仍有缺點(diǎn):對(duì)于1個(gè)關(guān)系r,所有的實(shí)體共享一個(gè)映射矩陣Mr*.注意到,通過一個(gè)關(guān)系連接的實(shí)體類型和屬性是不同的,映射是實(shí)體與關(guān)系之間的交互過程,所以映射矩陣僅由關(guān)系確定是不合理的.此外,在CTransR的學(xué)習(xí)過程中,矩陣與向量的相乘使計(jì)算量激增,其參數(shù)數(shù)量也比TransE和TransR多.因此,CTransR由于過高的復(fù)雜性而不適用于大規(guī)模知識(shí)圖譜.
新近的研究成果TransD方法為每個(gè)向量和關(guān)系定義了2個(gè)向量:一個(gè)向量用來表示實(shí)體或關(guān)系的含義;另一個(gè)向量表示1個(gè)實(shí)體是如何映射到1個(gè)關(guān)系向量空間,稱為映射向量,用以生成映射矩陣.因此,每一個(gè)實(shí)體關(guān)系對(duì)都會(huì)有一個(gè)唯一的映射矩陣.從而,TransD的優(yōu)化目標(biāo)變成Mr*h*h*+r*=Mr*t*t*;另外,TransD以向量操作取代了之前的矩陣與向量的乘法操作,因而具有較高的計(jì)算效率,可應(yīng)用到大型知識(shí)圖譜上.
除了基于翻譯的模型之外,結(jié)構(gòu)化嵌入模型[10]是較早的知識(shí)表示方法,每個(gè)實(shí)體用d維的向量表示,所有實(shí)體被投影到同一個(gè)d維向量空間中.單層神經(jīng)網(wǎng)絡(luò)模型[11]是對(duì)結(jié)構(gòu)化嵌入模型的進(jìn)一步改進(jìn),采用了單層神經(jīng)網(wǎng)絡(luò)的非線性操作.語義匹配能量模型[12-13]提出了更復(fù)雜的操作,刻畫實(shí)體與關(guān)系的內(nèi)在聯(lián)系.潛變量模型[14-15]提出利用基于關(guān)系的雙線性變換,刻畫實(shí)體和關(guān)系之間的二階聯(lián)系.神經(jīng)張量網(wǎng)絡(luò)(nerual tensor network, NTN)模型[11]用雙線性向量取代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的線性變換層.矩陣分解是得到低維向量表示的重要途徑,基于這種模型的代表方法是RESACL[16-17].關(guān)于這些模型的更加詳盡的細(xì)節(jié)和對(duì)照,請(qǐng)感興趣的讀者參考綜述文獻(xiàn)[9].
關(guān)于知識(shí)圖譜,其自動(dòng)化構(gòu)建也是當(dāng)前的一個(gè)持續(xù)性的研究熱點(diǎn).一般認(rèn)為,知識(shí)圖譜的自動(dòng)化構(gòu)建涉及了信息抽取、知識(shí)融合和知識(shí)加工3個(gè)主要階段,構(gòu)建過程中涉及的關(guān)鍵技術(shù)則包括命名實(shí)體識(shí)別、關(guān)系抽取、實(shí)體鏈接和信息融合等.關(guān)于知識(shí)圖譜自動(dòng)化構(gòu)建技術(shù),感興趣的讀者可以參考綜述文獻(xiàn)[18].
本節(jié)詳細(xì)介紹了所提改進(jìn)的知識(shí)圖譜表示方法TransAH,解釋了其原理與算法.TransAH同屬于基于翻譯模型的方法,它針對(duì)經(jīng)典的知識(shí)表示方法TransE的2個(gè)缺陷,分別采用了自適應(yīng)的度量方法和超平面模型來加以解決,并將2個(gè)想法同時(shí)集成在1個(gè)模型框架下,實(shí)現(xiàn)了快速的求解與計(jì)算.
關(guān)于缺陷1,究其產(chǎn)生的本質(zhì)原因是TransE(以及其他絕大多數(shù)基于翻譯的方法)采用了同一個(gè)樸素的優(yōu)化目標(biāo),即h*+r*=t*;換句話說,TransE等方法在實(shí)體和關(guān)系通過不同的法則進(jìn)行映射后,均采用同樣的得分函數(shù)對(duì)目標(biāo)進(jìn)行優(yōu)化;它們共有的得分函數(shù)如下:
從上式可見,該得分函數(shù)選用了歐氏距離作為表示空間中的差異度量,在空間形態(tài)上表現(xiàn)為一個(gè)球形等勢(shì)面.然而,觀察到在實(shí)際應(yīng)用中,每個(gè)特征維度對(duì)于各種關(guān)系的影響程度是不同的,統(tǒng)一考慮所有特征維度的權(quán)重將直接影響知識(shí)表示的效果.因此,這種距離度量在實(shí)踐應(yīng)用中有失靈活,導(dǎo)致構(gòu)建的模型會(huì)包含“不必要”的錯(cuò)誤,進(jìn)而使得知識(shí)表示的精度下降.
為此,考慮在得分函數(shù)中加入一個(gè)權(quán)重矩陣,將歐氏距離轉(zhuǎn)換為加權(quán)歐氏距離作為表示空間中的差異度量,即,通過權(quán)重矩陣來靈活控制和確定各個(gè)特征維度的重要程度實(shí)現(xiàn)自適應(yīng)的表示空間中的距離度量.
一種設(shè)置方法是使用一般權(quán)重矩陣Wr*[19],其對(duì)應(yīng)的改進(jìn)后的得分函數(shù)為
fr*(h*,t*)=(|h*+r*-t*|)TWr*(|h*+r*-t*|),
其中,
其中,k是特征維的長(zhǎng)度.
然而,注意到一般權(quán)重矩陣Wr*在生成過程中效率十分低下,導(dǎo)致模型訓(xùn)練時(shí)間成本較大(參考3.3節(jié)中的實(shí)驗(yàn)結(jié)果).此外,注意到,現(xiàn)有工作中的TransR和TransD方法,采用轉(zhuǎn)換矩陣將頭實(shí)體和尾實(shí)體映射到關(guān)系空間中,從而可以更好地對(duì)復(fù)雜關(guān)系進(jìn)行區(qū)分,提高知識(shí)表示精度.相較而言,直接使用權(quán)重矩陣Wr*將實(shí)體與關(guān)系同時(shí)映射到關(guān)系空間中,徒增了模型的復(fù)雜度,除此之外,將Wr*每輪進(jìn)行歸一化的方法并不會(huì)提高算的精確度,反而增加了運(yùn)行的時(shí)間開銷.
鑒于此,化繁就簡(jiǎn),提出使用對(duì)角權(quán)重矩陣Dr*,而非一般權(quán)重矩陣Wr*,以實(shí)現(xiàn)自適應(yīng)的距離度量.具體地,定義對(duì)角權(quán)重矩陣Dr*=diag(w1,…,wi,…,wk),其中diag( )表示Dr*是1個(gè)對(duì)角矩陣,第i個(gè)特征維的重要性由參數(shù)wi表示,1≤i≤k.
相比于經(jīng)典的TransE方法,引入對(duì)角權(quán)重矩陣的模型具有至少3個(gè)方面的優(yōu)勢(shì):
1) 對(duì)角權(quán)重矩陣Dr*可實(shí)現(xiàn)將歐氏距離轉(zhuǎn)化為加權(quán)歐氏距離,將球形等勢(shì)面轉(zhuǎn)換為更為靈活的橢圓等勢(shì)面.球形等勢(shì)面中的度量準(zhǔn)則只是將越靠近中心的三元組作為正確三元組,容易包含不必要的錯(cuò)誤.舉例如圖1中,叉表示正確匹配的尾實(shí)體,圓表示錯(cuò)誤匹配的尾實(shí)體.圖1(a)中采用球形等勢(shì)面,出現(xiàn)了7個(gè)錯(cuò)誤;采用橢圓等勢(shì)面后,可以看到圖1(b)中有4個(gè)錯(cuò)誤被避免了.也就是說,通過優(yōu)化對(duì)角矩陣Dr*中的變量,就可以對(duì)固定的球形等勢(shì)面轉(zhuǎn)換為有一定伸縮性的橢圓等勢(shì)面,從而在避開了錯(cuò)誤實(shí)體的同時(shí)包含更多正確實(shí)體,提升了知識(shí)表示的能力.
Fig. 1 The comparison on sphere and elliptical hyperplane圖1 球形與橢圓等勢(shì)面的比較
2) 一個(gè)關(guān)系僅由若干個(gè)特定的潛在特征維度影響,其他維度會(huì)成為干擾.傳統(tǒng)的如TransE等基于翻譯的方法同等對(duì)待各個(gè)特征維度,無法濾除無關(guān)維度的干擾.采用對(duì)角權(quán)重矩陣Dr*則可以為特征維賦予合理的自適應(yīng)的權(quán)重,即w1,w2,…,wn,不同的特征維i由wi來控制其權(quán)重.舉例如圖2所示,實(shí)心圓是正確匹配的結(jié)果,空心是錯(cuò)誤的匹配結(jié)果,箭頭表示type_of關(guān)系.圖2(a)中,由于將某2個(gè)維度同等對(duì)待,導(dǎo)致3個(gè)頭實(shí)體都匹配到了不正確的尾實(shí)體,比如實(shí)體Willow匹配到了實(shí)體Building;圖2(b)中,對(duì)這2個(gè)表示維度賦予權(quán)重,尤其是增加了y軸的權(quán)重,降低了x軸的權(quán)重,知識(shí)表示得以修正和優(yōu)化,比如實(shí)體Willow正確匹配到了實(shí)體Tree.
Fig. 2 The comparison on weighting feature dimensions圖2 特征維度權(quán)重化比較
3) 不選用一般權(quán)重矩陣Wr*來為特征維賦予權(quán)重,主要是因?yàn)樵谥R(shí)表示中比較不同特征維度的意義是微乎其微的,甚至可能帶來負(fù)面的影響.譬如,比較人物實(shí)體的“國(guó)籍”和“性別”是沒有實(shí)際意義.因此,落實(shí)到矩陣Wr*中,其變量wxy當(dāng)x≠y時(shí)是沒有意義的,認(rèn)為僅用對(duì)角矩陣即可完全表達(dá)對(duì)特征維的權(quán)重化.同時(shí),只需保證Dr*中的每一個(gè)變量非負(fù),無需再像使用Wr*時(shí)那樣對(duì)|h*+r*-t*|加上絕對(duì)值來防止負(fù)的得分函數(shù)降低整體得分函數(shù)的值.此外,對(duì)角權(quán)重矩陣Dr*的應(yīng)用相較于Wr*,大幅度降低了模型的復(fù)雜度,因而顯著提升了學(xué)習(xí)計(jì)算效率.
為了獲得最終的表示模型,其中的對(duì)角權(quán)重矩陣Dr*需要通過訓(xùn)練不斷優(yōu)化得到.具體實(shí)現(xiàn)中,為保證Dr*的非負(fù)性,對(duì)其初始值設(shè)置為
綜上,得到基于加權(quán)歐氏距離的自適應(yīng)得分函數(shù):
fr*(h*,t*)=(h*+r*-t*)TDr*(h*+r*-t*).
考慮缺陷2,TransE模型結(jié)合自適應(yīng)度量方法后仍然對(duì)處理復(fù)雜關(guān)系的能力較弱.其主要原因是因?yàn)門ransE將實(shí)體和關(guān)系都表示在同一個(gè)平面中,無法理清實(shí)體和關(guān)系之間的相互影響,進(jìn)而造成無法區(qū)分復(fù)雜關(guān)系的問題.舉例如圖3所示,對(duì)于2個(gè)具有相同關(guān)系的事實(shí)知識(shí)——布什是美國(guó)總統(tǒng)和奧巴馬是美國(guó)總統(tǒng),TransE不能正確區(qū)分布什和奧巴馬這2個(gè)實(shí)體,影響了知識(shí)表示的準(zhǔn)確性.
Fig. 3 The effect of TransE method圖3 TransE方法效果圖
于是,綜合上式,可以得到應(yīng)用超平面模型后的得分函數(shù),即:
Fig. 4 The effect of hyperspace model圖4 超平面模型方法效果圖
在運(yùn)用了超平面模型之后,舉例如圖4所示,奧巴馬和布什這2個(gè)人物實(shí)體通過不同的映射向量投影到“總統(tǒng)”關(guān)系的超平面上,從而得以區(qū)分,保證了知識(shí)表示的準(zhǔn)確性和可推理性.
在2.1節(jié)和2.2節(jié)內(nèi)容的基礎(chǔ)上,將自適應(yīng)度量方法和超平面模型結(jié)合起來,置于一個(gè)統(tǒng)一的模型框架下面,得到了最終得分函數(shù):
由于本方法同屬于基于翻譯的模型,并結(jié)合自適應(yīng)性(adaptive)度量和超平面(hypersphere)的思想,因此取名為TransAH,并將在第3節(jié)的實(shí)驗(yàn)部分與其他當(dāng)前主流模型及方法進(jìn)行橫向評(píng)測(cè).
模型訓(xùn)練中,采用基于差距的排序誤差(margin-based ranking error)函數(shù)作為訓(xùn)練模型的優(yōu)化目標(biāo)函數(shù):
(1)
其中,[·]+=max(0,·),Δ是正確的三元組(正三元組*又稱黃金三元組,即知識(shí)圖譜中已經(jīng)包含的實(shí)體關(guān)系三元組.)的集合,Δ′是錯(cuò)誤的三元組(負(fù)三元組)的集合(通過打亂已有黃金三元組得到),γ是區(qū)分正負(fù)三元組的差距.因此,該優(yōu)化目標(biāo)函數(shù)的主要目的是將不正確的三元組和正確的三元組進(jìn)行最大限度的分離.
同時(shí),在優(yōu)化式(1)時(shí),還需要考慮向量中的3個(gè)約束條件,主要包括:
(2)
(3)
(4)
其中,式(2)為保證實(shí)體向量長(zhǎng)度不大于1,式(3)保證了翻譯向量r*在超平面上,式(4)保證了超平面為單位法向量.同時(shí),還要保證對(duì)角矩陣Dr*滿足:
另外,不直接帶著上述這些約束優(yōu)化式(1)中的損失函數(shù),而是通過軟約束的方法將式(1)轉(zhuǎn)化為不受約束的形式.因此,最終得到優(yōu)化目標(biāo)函數(shù)所示:
其中,目標(biāo)函數(shù)的第2項(xiàng)與第3項(xiàng)是對(duì)約束條件的表示,用于防止過擬合,而λ和η是控制軟約束的參數(shù).
具體模型訓(xùn)練時(shí),采用了經(jīng)典的隨機(jī)梯度下降(stochastic gradient descent)法來優(yōu)化上述目標(biāo)函數(shù).正確的三元組集在訓(xùn)練過程中會(huì)循環(huán)多次,當(dāng)遇到正確三元組時(shí),同時(shí)會(huì)隨機(jī)生成不正確三元組;在一小批次的訓(xùn)練后,梯度以及模型的參數(shù)會(huì)進(jìn)行自動(dòng)更新.
本節(jié)介紹TransAH知識(shí)表示方法的實(shí)驗(yàn)驗(yàn)證,主要在2個(gè)工作上驗(yàn)證和評(píng)估了TransAH方法——鏈路預(yù)測(cè)和三元組分類.這2個(gè)工作從不同的角度評(píng)估了模型預(yù)測(cè)不可見三元組精確度的能力,對(duì)應(yīng)于不同的應(yīng)用場(chǎng)景.首先,介紹了這2項(xiàng)工作的評(píng)價(jià)準(zhǔn)則,實(shí)驗(yàn)實(shí)現(xiàn)的具體配置以及相應(yīng)的實(shí)驗(yàn)結(jié)果;然后,分析了TransAH方法的實(shí)驗(yàn)效果,著重考察了TransAH方法在表征復(fù)雜關(guān)系的能力和訓(xùn)練效率,并與其他知識(shí)表示方法進(jìn)行比較.
1) 抽樣策略.進(jìn)行訓(xùn)練時(shí),需要基于黃金三元組構(gòu)建負(fù)三元組.之前的方法只是通過隨機(jī)打亂黃金三元組來獲得負(fù)的三元組,例如,在TransE中,對(duì)于一個(gè)黃金三元組(h,r,t),那么一個(gè)負(fù)的三元組(h′,r,t′)是由從實(shí)體集E中隨機(jī)抽取一對(duì)實(shí)體(h′,t′).但是這種方法對(duì)于多元關(guān)系,會(huì)存在將原本正確的三元組標(biāo)記為錯(cuò)誤的三元組的情況,因此,改用伯努利抽樣的策略.
在打亂一個(gè)三元組時(shí),根據(jù)關(guān)系的映射關(guān)系為代替頭和尾實(shí)體設(shè)置了不同的概率,比如說一對(duì)一、多對(duì)一和多對(duì)多等.一般傾向于給一對(duì)多的關(guān)系中更高的概率代替頭實(shí)體,在多對(duì)一關(guān)系中更高的概率代替尾實(shí)體.用這種方法,產(chǎn)生錯(cuò)誤負(fù)三元組的概率大大降低了.
具體地,一個(gè)關(guān)系r的所有三元組中,首先可以獲得以下2組數(shù)據(jù):1)每一個(gè)頭實(shí)體對(duì)應(yīng)的尾實(shí)體的平均數(shù)量,記為tph(#tail entities per head entity);2)每一個(gè)尾實(shí)體對(duì)應(yīng)的頭實(shí)體的平均數(shù)量,記為hpt(#head entities per tail entity).然后,用參數(shù)
的伯努利分布來取樣.對(duì)于一個(gè)關(guān)系r給定的黃金三元組(h*,r*,t*),在進(jìn)行打亂時(shí),以概率p代替它的頭實(shí)體,以概率1-p代替它的尾實(shí)體.
同樣,亦可得到區(qū)分出關(guān)系類型的方法.對(duì)于每一個(gè)關(guān)系r,計(jì)算了每一個(gè)頭實(shí)體的尾實(shí)體的平均數(shù)量tphr,每一個(gè)尾實(shí)體的頭實(shí)體的平均數(shù)量hptr.具體地,如果tphr<1.5且hptr<1.5,那么關(guān)系r是一對(duì)一的;如果tphr≥1.5且hptr≥1.5,那么關(guān)系r是多對(duì)多的;如果hptr<1.5且tphr≥1.5,那么關(guān)系r是一對(duì)多的;如果hptr≥1.5且tphr<1.5,那么關(guān)系r是多對(duì)一的.
2) 平均三元組的數(shù)量.平均三元組的數(shù)量ATPE(average triple number per entity)衡量了數(shù)據(jù)多樣性和復(fù)雜性.直觀地看,數(shù)量越多的三元組導(dǎo)致了越復(fù)雜和越稠密的知識(shí)圖譜結(jié)構(gòu).為了表達(dá)更加復(fù)雜的圖譜結(jié)構(gòu),實(shí)體的分配也會(huì)更加多樣化和復(fù)雜化.因此,總體上說,知識(shí)表示效果會(huì)隨著ATPE的增大而逐步退化,畢竟越高的ATPE代表意味著更為多樣和復(fù)雜的實(shí)體關(guān)系情形.
鏈路預(yù)測(cè)的主要任務(wù)是,對(duì)于一個(gè)丟失了頭實(shí)體或尾實(shí)體的三元組(h,r,t),給定(h,r)預(yù)測(cè)t,或者給定(r,t)預(yù)測(cè)h.這項(xiàng)測(cè)試任務(wù)著重于對(duì)知識(shí)圖譜中的候選實(shí)體集進(jìn)行排序,而不是直接獲得一個(gè)最好的答案.
本組實(shí)驗(yàn)選用了TransE使用的2個(gè)數(shù)據(jù)集:WordNet中的子集WN18和Freebase中的一個(gè)相對(duì)稠密的子集FB15K,其中的實(shí)體也都包括在維基數(shù)據(jù)庫中.關(guān)于實(shí)驗(yàn)數(shù)據(jù)集的基本統(tǒng)計(jì)信息,如表1所示:
Table 1 Statistics of Datasets表1 數(shù)據(jù)集統(tǒng)計(jì)信息
1) 評(píng)價(jià)準(zhǔn)則.為了更好地與TransE等知識(shí)表示模型進(jìn)行對(duì)比,采用和TransE相同的評(píng)價(jià)準(zhǔn)則.對(duì)于每一個(gè)測(cè)試三元組(h,r,t),將尾實(shí)體t用每一個(gè)知識(shí)圖譜中的實(shí)體e來代替,同時(shí)用得分函數(shù)fr*(h,e) 計(jì)算損壞的三元組(h,r,e)的相應(yīng)得分.用升序?qū)@些分?jǐn)?shù)排序,得到了正確三元組的排序得分.同樣,也能得到打亂頭實(shí)體h的三元組(h,r,t)的排序得分.
將所有的測(cè)試三元組進(jìn)行綜合,有2個(gè)度量準(zhǔn)則:①黃金三元組的平均排序得分,記為MeanRank;②黃金三元組排序不大于10的比例,記為Hits@10.注意到,如果一個(gè)損壞的三元組在知識(shí)圖譜中存在,即該三元組實(shí)際上是正確的,那么將它排在原始三元組之前也是合理的.為了消除這個(gè)因素的影響,實(shí)驗(yàn)中在得到每一個(gè)測(cè)試三元組的排名得分之前,將上述產(chǎn)生“干擾”的損壞三元組從訓(xùn)練集、驗(yàn)證集和測(cè)試集中去除,從而保證了該損壞的三元組不屬于任何數(shù)據(jù)集.這個(gè)設(shè)置稱為“Filt”設(shè)置,而未經(jīng)上述處理的實(shí)驗(yàn)設(shè)置成為“Raw”設(shè)置.在這2種實(shí)驗(yàn)設(shè)置中,一個(gè)更低的MeanRank和更高的Hits@10意味著更好的實(shí)驗(yàn)效果.
2) 實(shí)驗(yàn)實(shí)現(xiàn).訓(xùn)練TransAH時(shí),在隨機(jī)梯度下降法中使用的學(xué)習(xí)速率α={0.002, 0.005, 0.01},差距γ={0.25,0.5,1,2},表示維度k={50,75,100},權(quán)重η={0.05,0.0625,0.25,1.0},訓(xùn)練批量的大小B={20,75,200,1,200, 4,800}.最優(yōu)參數(shù)由驗(yàn)證集決定.用“unif.”表示傳統(tǒng)的等概率替代頭實(shí)體或者尾實(shí)體的方法,用“bern.”來表示使用伯努利抽樣策略的方法,即用不同的概率分別來代替頭實(shí)體和尾實(shí)體.
在等概率抽樣中,訓(xùn)練TransAH最優(yōu)的參數(shù)配置如下:在WN18數(shù)據(jù)集上,α=0.01,k=50,γ=1.0,η=0.25,B=75;在FB15K數(shù)據(jù)集上,α=0.005,k=50,γ=0.5,η=0.05,B=1200.在伯努利抽樣中,訓(xùn)練TransAH最優(yōu)的參數(shù)配置如下:在WN18數(shù)據(jù)集上,α=0.01,k=50,γ=1.0,η=0.25,B=1200;在FB15K數(shù)據(jù)集上,α=0.005,k=100,γ=0.25,η=1.0,B=4800.對(duì)于每一個(gè)數(shù)據(jù)集,本實(shí)驗(yàn)將所有訓(xùn)練三元組迭代了500次.
3) 實(shí)驗(yàn)結(jié)果.實(shí)驗(yàn)結(jié)果在表2~4中列出,每組實(shí)驗(yàn)的最優(yōu)值進(jìn)行了加粗以突出顯示.
如表2所示,在WN18中,TransE和TransAH等方法甚至是原始的,對(duì)關(guān)系沒有進(jìn)行翻譯操作的TransE方法,在MeanRank這個(gè)度量上,都比其他方法要好.這可能是因?yàn)閃N18中關(guān)系的數(shù)量比較少,所以忽略掉不同類型的關(guān)系也是合理的.但在FB15K中,TransAH方法比所有其他方法表現(xiàn)都要好.FB15K是一個(gè)多樣復(fù)雜的實(shí)體關(guān)系圖譜,它的ATPE值也是這些數(shù)據(jù)集中是最高的.在這個(gè)數(shù)據(jù)集中,TransAH的實(shí)驗(yàn)表現(xiàn)是最好的,說明TransAH方法在多樣復(fù)雜的實(shí)體關(guān)系表示方面更具優(yōu)勢(shì).
Table 2 The Average Results of Link Predicton表2 鏈路預(yù)測(cè)的平均預(yù)測(cè)結(jié)果
Table 3 Hits@10 of Each Type of Relations in FB15K表3 關(guān)于FB15K各類關(guān)系的Hits@10值
Table 4 Hits@10 of Several Relations in TransE and TransAH
與TransE相比,TransAH在WN18上改進(jìn)了31.2%,而在FB15K上進(jìn)步了36.2%.這個(gè)比較進(jìn)一步顯示了TransAH相比TransE在表達(dá)多樣復(fù)雜關(guān)系的場(chǎng)合應(yīng)用中有更大的優(yōu)勢(shì).同時(shí),與TransA比較,TransAH同樣取得了一定的進(jìn)步.這些改進(jìn)主要是由于TransAH采用了相較于經(jīng)典方法更加靈活的度量標(biāo)準(zhǔn),并應(yīng)用了超平面模型,因此能夠更好地表達(dá)自反、一對(duì)多、多對(duì)一和多對(duì)多等復(fù)雜關(guān)系,進(jìn)而更好地支持準(zhǔn)確推理.
為了進(jìn)一步證實(shí)這一觀點(diǎn),深入挖掘分析了不同關(guān)系不同映射類型的相應(yīng)結(jié)果,具體數(shù)值如表3 和表4中所示.在1 345個(gè)關(guān)系中,24%的關(guān)系是一對(duì)一的,23%的關(guān)系是一對(duì)多的,29%的關(guān)系是多對(duì)一的,24%的關(guān)系是多對(duì)多的.表3中,“Predicting Left”和“Predicting Right”分別表示由關(guān)系和尾實(shí)體預(yù)測(cè)頭實(shí)體以及由關(guān)系和頭實(shí)體預(yù)測(cè)尾實(shí)體. 相較于TransE方法,TransAH在一對(duì)多、多對(duì)一、多對(duì)多關(guān)系表達(dá)上有顯著的改善.尤其出乎預(yù)想的是,在一對(duì)一關(guān)系中,TransAH同樣有巨大的進(jìn)步(超過80%).這可能受益于知識(shí)圖譜本身的某些特征,即實(shí)體與關(guān)系相聯(lián)系,某一部分表示的更好使得整體結(jié)果得到較大改進(jìn).表4中,自上而下顯示了在一對(duì)多、多對(duì)一、多對(duì)多和自反等幾個(gè)典型復(fù)雜關(guān)系上的Hits@10值.與TransE方法相比,TransAH在這些關(guān)系中的改善同樣可圈可點(diǎn),尤其是在personsibling_s和personspouse_s關(guān)系上,TransAH在Hits@10上的提升超過56.4%.
三元組分類是確定一個(gè)給定三元組(h,r,t)是否正確,其主要任務(wù)是對(duì)一個(gè)三元組進(jìn)行“正確”和“錯(cuò)誤”的二元分類.
實(shí)驗(yàn)中,首先使用了WordNet的子集WN11和Fresbase中的子集FB13;由于WN11和FB13包含的關(guān)系數(shù)過少,還額外使用了包含更多關(guān)系的FB15K數(shù)據(jù)集.關(guān)于實(shí)驗(yàn)數(shù)據(jù)集的基本統(tǒng)計(jì)信息,詳見表1.
1) 評(píng)價(jià)準(zhǔn)則.本組實(shí)驗(yàn)遵循了NTN模型所采用的評(píng)估準(zhǔn)則.進(jìn)行分類時(shí),需要生成負(fù)的標(biāo)簽,通過將黃金三元組打亂得到負(fù)的三元組,具體方法同樣可參照3.1節(jié)中的抽樣策略.
分類的決定規(guī)則是,對(duì)于一個(gè)三元組(h,r,t),如果其得分函數(shù)比一個(gè)關(guān)于關(guān)系r的給定閾值σr低,那么預(yù)測(cè)為正確,反之為錯(cuò)誤.特定關(guān)系的閾值σr由驗(yàn)證集得到最大分類精度時(shí)的閾值決定.
此外,為了證實(shí)使用對(duì)角權(quán)重矩陣Dr*比使用一般權(quán)重矩陣Wr*在計(jì)算效率方面的提升,將包含權(quán)重矩陣Wr*的方法標(biāo)記為TransAH-W,一并進(jìn)行了實(shí)驗(yàn),以比較實(shí)驗(yàn)的運(yùn)行時(shí)間和實(shí)驗(yàn)結(jié)果.
2) 實(shí)驗(yàn)實(shí)現(xiàn).TransAH設(shè)置的學(xué)習(xí)速率α={0.001,0.005,0.01,0.1},差距γ={1.0,2.0},表示維度k={20,50,100},訓(xùn)練批量的大小B={30,120,480,1920}.
TransAH在伯努利抽樣的實(shí)驗(yàn)中,最優(yōu)的參數(shù)配置為:在WN11中,α=0.01,k=20,γ=2.0,B=120;在FB13中,α=0.001,k=100,γ=2.0,B=30;FB15K中,α=0.005,k=100,γ=2.0,B=480.TransAH在等概率抽樣的實(shí)驗(yàn)中,最優(yōu)的參數(shù)配置為:WN11中,α=0.01,k=100,γ=2.0,η=0.25,B=4 800;FB13中,α=0.001,k=100,γ=0.25,η=0.062 5,B=4 800;FB15K中,α=0.01,k=100,γ=0.25,η=0.0625,B=4 800.循環(huán)次數(shù)限制在500次.
3) 實(shí)驗(yàn)結(jié)果.分類精度結(jié)果如表5所示.在WN11和FB13中,TransAH比其他方法出色;而在FB13中,NTN模型表現(xiàn)同樣出色.但是在更大的數(shù)據(jù)集FB15K中,TransE和TransAH則都比NTN出色.這說明基于翻譯的模型相對(duì)更適用于大規(guī)模的知識(shí)圖譜.注意到FB15K中關(guān)系的數(shù)量(1 345)遠(yuǎn)遠(yuǎn)大于FB13中關(guān)系的數(shù)量(13),而實(shí)體的數(shù)量卻十分接近,說明FB13是一個(gè)密度很大的子數(shù)據(jù)集,實(shí)體間存在很強(qiáng)的聯(lián)系.在這個(gè)數(shù)據(jù)集中,NTN通過張量和非線性轉(zhuǎn)換方法來對(duì)復(fù)雜的聯(lián)系進(jìn)行建模有一定優(yōu)勢(shì).但是,在FB15K這個(gè)稀疏的子圖譜中,采用靈活度量法和應(yīng)用超平面模型十分適用,而NTN卻并不適用.不僅如此,考慮到運(yùn)行時(shí)間,NTN的消耗時(shí)間比TransE和TransAH都要高.另外,在所有3個(gè)數(shù)據(jù)集中,使用伯努利抽樣也有一定的作用.
Table 5 Accuracy and Running Time of Triplet Classification of Different Models
圖5和圖6展示了不同類型關(guān)系的預(yù)測(cè)精度.在不同的數(shù)據(jù)集中,不同關(guān)系有不同的預(yù)測(cè)精度,我們尤其關(guān)注精確度較低的關(guān)系.在WN11數(shù)據(jù)集,similar_to關(guān)系的分類精確度僅75%.直覺上來講,similar_to可以從其他信息中推導(dǎo)出來;然而,通過similar_to相聯(lián)系的實(shí)體對(duì)只有1672個(gè),只占了所有數(shù)據(jù)的1.5%,而預(yù)測(cè)這個(gè)關(guān)系需要與實(shí)體相關(guān)更多信息.因此,預(yù)測(cè)準(zhǔn)確度低的主要原因是信息不充分.在FB13中,cause_of_death和gender這2個(gè)關(guān)系的精確度要比其他關(guān)系低,這主要是因?yàn)楹茈y從其他信息中預(yù)測(cè)它們,尤其是cause_of_death.關(guān)系gender可能從一個(gè)人的姓名中推斷,但是我們學(xué)習(xí)的是每一個(gè)名字的向量,而不是名字中包括的單詞,這導(dǎo)致姓名信息顯得沒有用處.綜上所述,通過知識(shí)圖譜來推導(dǎo)新事實(shí)的能力有一定的局限性,而從純文本中抽取事實(shí)或是一個(gè)互補(bǔ)方法.
Fig. 5 Prediction accuracy of different relations in WN11圖5 WN11中各類關(guān)系的預(yù)測(cè)精度
比較TransAH和TransAH-W的實(shí)驗(yàn)時(shí)間和實(shí)驗(yàn)效果,可見TransAH的模型訓(xùn)練時(shí)間相較TransAH-W大大縮短(從10h縮短到到30 min),但預(yù)測(cè)精度卻反而稍稍占優(yōu)(從89.2%提升到92.0%).這組實(shí)驗(yàn)很好地說明了采用對(duì)角權(quán)重矩陣的有效性和高效性.
為了驗(yàn)證將特征維權(quán)重化后的實(shí)驗(yàn)效果,引入“權(quán)重差異”的概念.由于部分維度的權(quán)重過小,可能存在除法無法計(jì)算的情況,因此采用中位數(shù)來代替相對(duì)較小的權(quán)重.于是,權(quán)重差異為
如圖7和圖8所示,在WN11和FB13這2個(gè)數(shù)據(jù)集中,各個(gè)典型關(guān)系的預(yù)測(cè)精度與權(quán)重差異的變化趨勢(shì)基本是一致的,其中x軸羅列了關(guān)系的名稱,左y軸顯示了關(guān)系的精度(%),右y軸是權(quán)重差異值.權(quán)重差異越大,說明特征維度權(quán)重的表達(dá)越有意義.可以看到,權(quán)重差異依據(jù)關(guān)系不同會(huì)有波動(dòng);比如在FB13上,所選典型關(guān)系的權(quán)重差異多數(shù)達(dá)到了6以上,但也有部分關(guān)系的權(quán)重差異在3~4之間.另外,當(dāng)權(quán)重差異增大時(shí),預(yù)測(cè)精度也相對(duì)越大.這說明特征維度權(quán)重的應(yīng)用確實(shí)對(duì)分類精度的提升起到了促進(jìn)作用,從而亦證明了為特征維賦予權(quán)重的必要性和有效性.
Fig. 7 Accuracy and weight difference of different relations in WN11圖7 WN11中各個(gè)關(guān)系的精度和權(quán)重差異
Fig. 8 Accuracy and weight difference of different relations in FB13圖8 FB13中各個(gè)關(guān)系的精度和權(quán)重差異
本文主要提出了一種面向知識(shí)圖譜的改進(jìn)的知識(shí)表示方法TransAH.經(jīng)典的基于翻譯的知識(shí)表示方法TransE存在距離度量不夠靈活和無法處理復(fù)雜關(guān)系等缺陷,導(dǎo)致知識(shí)表示的性能亟待提高.針對(duì)第1個(gè)缺陷,TransAH采用了一種自適應(yīng)的度量方法,加入了對(duì)角權(quán)重矩陣Dr將得分函數(shù)的度量由歐氏距離轉(zhuǎn)換為加權(quán)歐氏距離,并實(shí)現(xiàn)了為每一個(gè)特征維賦予不同的權(quán)重.針對(duì)第2個(gè)缺陷,TransAH應(yīng)用了面向關(guān)系的超平面投影的思想,將頭尾實(shí)體映射至給定關(guān)系的超平面來加以區(qū)分.為驗(yàn)證方法的有效性,在基于WordNet和Freebase的大規(guī)模真實(shí)數(shù)據(jù)集上對(duì)鏈路預(yù)測(cè)和三元組分類這2項(xiàng)任務(wù)進(jìn)行了綜合評(píng)測(cè).橫向比較實(shí)驗(yàn)結(jié)果表明,TransAH取得最優(yōu)化的性能,可以應(yīng)用到真實(shí)大規(guī)模知識(shí)圖譜的完善和推理應(yīng)用中.
下一步,計(jì)劃對(duì)所提TransAH方法進(jìn)行進(jìn)一步改進(jìn),尋求額外的性能提升.注意到TransD[8]在對(duì)復(fù)雜關(guān)系進(jìn)行表示時(shí)效果稍優(yōu)于TransH,可考慮將其與本文方法相結(jié)合,可能會(huì)產(chǎn)生更好的結(jié)果;但是同時(shí)也要考慮到訓(xùn)練實(shí)驗(yàn)的計(jì)算效率問題,保證面向大規(guī)模知識(shí)圖譜的可擴(kuò)展性.另外,除了鏈路預(yù)測(cè)和三元組分類預(yù)測(cè)等基礎(chǔ)任務(wù),還將致力于考察所提知識(shí)表示方法在文本關(guān)系知識(shí)的抽取、語義實(shí)體解析以及基于鏈路的實(shí)體聚類等方面的任務(wù)和應(yīng)用.
[1] Bollacker K, Evans C, Paritosh P, et al. Freebase: A collaboratively created graph database for structuring human knowledge[C]Proc of KDD 2008. New York: ACM, 2008: 1247-1250
[2] Miller G A. WordNet: A lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41
[3] Wang Haofen. Technology of large scale knowledge graph[J]. Communications of the CCF, 2014, 10(3): 64-68 (in Chinese)
(王昊奮. 大規(guī)模知識(shí)圖譜技術(shù)[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2014, 10(3): 64-68)
[4] Yu Ge, Gu Yu, Bao Yubin, et al. Large scale graph data processing on cloud computing environments[J]. Chinese Journal of Computers, 2011, 34(10): 1753-1767 (in Chinese)
(于戈, 谷峪, 鮑玉斌, 等. 云計(jì)算環(huán)境下的大規(guī)模圖數(shù)據(jù)處理技術(shù)[J]. 計(jì)算機(jī)學(xué)報(bào), 2011, 34(10): 1753-1767)
[5] Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[C]Proc of NIPS 2013. Cambridge, MA: MIT Press, 2013: 2787-2795
[6] Wang Zhen, Zhang Jianwen, Feng Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C]Proc of AAAI 2014. Menlo Park, CA: AAAI, 2014: 1112-1119
[7] Lin Yankai, Liu Zhiyuan, Sun Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C]Proc of AAAI 2015. Menlo Park, CA: AAAI, 2015
[8] Ji Guoliang, He Shizhu, Xu Liheng, et al. Knowledge graph embedding via dynamic mapping matrix[C]Proc of ACL 2015. Stroudsburg PA: ACL, 2015: 687-696
[9] Liu Zhiyuan, Sun Maosong, Lin Yankai, et al. Knowledge representation learning: A review[J]. Journal of Computer Research and Development, 2016, 53(2): 247-261 (in Chinese)
(劉知遠(yuǎn), 孫茂松, 林衍凱, 等. 知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 247-261)
[10] Bordes A, Weston J, Collobert R, et al. Learning structured embeddings of knowledge bases[C]Proc of AAAI 2011. Menlo Park, CA: AAAI, 2011: 301-306
[11] Socher R, Chen D, Manning C D, et al. Reasoning with neural tensor networks for knowledge base completion[C]Proc of NIPS 2013. Cambridge, MA: MIT Press, 2013: 926-934
[12] Bordes A, Glorot X, Weston J, et al. A semantic matching energy function for learning with multi-relational data[J]. Machine Learning, 2014, 94(2): 233-259
[13] Bordes A, Glorot X, Weston J, et al. Joint learning of words and meaning representations for open-text semantic parsing[C]Proc of AISTATS 2012. Cadiz, Spain: JMLR, 2012: 127-135
[14] Sutskever I, Tenenbaum J B, Salakhutdinov R. Modelling relational data using Bayesian clustered tensor factorization[C]Proc of NIPS 2009. Cambridge, MA: MIT Press, 2009: 1821-1828
[15] Jenatton R, Roux N L, Bordes A, et al. A latent factor model for highly multi-relational data[C]Proc of NIPS 2012. Cambridge, MA: MIT Press, 2012: 3167-3175
[16] Nickel M, Tresp V, Kriegel H. A three-way model for collective learning on mutli-relational data[C]Proc of ICML 2011. New York: ACM, 2011: 809-816
[17] Nickel M, Tresp V, Kriegel H. Factorizing YAGO: Scalable machine learning for linked data[C]Proc of WWW 2012. New York: ACM, 2012: 271-280
[18] Liu Qiao, Li Yang, Duan Hong, et al. Knowledge graph construction techniques[J]. Journal of Computer Research and Development, 2016, 53(3): 582-600 (in Chinese)
(劉嶠, 李楊, 段宏, 等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600)
[19] Xiao Han, Huang Minlie, Hao Yu, et al. TransA: An adaptive approach for knowledge graph embedding[JOL]. Computer Science, 2015[2016-09-27]. http:xueshu.baidu.coms?wd=paperuri%3A%288d5d5c7bc0adb8e1cd42ab11 d7e2b31b%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fabs%2F1512.01370&ie=utf-8&sc_us=16885378228616607912