• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種融合主題特征的自適應(yīng)知識表示方法

    2021-01-15 07:17:36陳文杰
    計(jì)算機(jī)工程 2021年1期
    關(guān)鍵詞:三元組度量實(shí)體

    陳文杰

    (中國科學(xué)院成都文獻(xiàn)情報(bào)中心,成都 610041)

    0 概述

    知識圖譜是由三元組構(gòu)成的結(jié)構(gòu)化語義知識庫,其以符號的形式描述現(xiàn)實(shí)世界中實(shí)體和實(shí)體間的連接關(guān)系。知識表示學(xué)習(xí)旨在用低維稠密的向量來表示知識圖譜中的實(shí)體或關(guān)系,向量間距離越近,則向量所表示的實(shí)體和關(guān)系在語義上就越相似。這種基于向量的知識表示形式能夠通過簡單的數(shù)值計(jì)算來識別新的實(shí)體和關(guān)系,從而發(fā)現(xiàn)知識圖譜中的潛在知識和隱性假設(shè),并且可以作為一種先驗(yàn)知識輸入深度神經(jīng)網(wǎng)絡(luò),有效監(jiān)督和約束網(wǎng)絡(luò)的訓(xùn)練過程。

    按照關(guān)系兩端實(shí)體的連接數(shù)量,可以將關(guān)系劃分為1-1、1-N、N-1 和N-N 4 種類型,其中,除1-1 以外的3 種關(guān)系都被稱為復(fù)雜關(guān)系。在現(xiàn)有的表示模型中,TransE 模型最具代表性,但該模型過于簡單,僅在1-1 簡單關(guān)系上效果明顯。針對復(fù)雜關(guān)系,一系列基于TransE 的擴(kuò)展模型先后被研究者提出。然而,此類模型僅通過知識圖譜中的三元組信息進(jìn)行學(xué)習(xí),大量與實(shí)體和關(guān)系相關(guān)的信息未能得到有效利用,如實(shí)體和關(guān)系的描述信息和類別信息等,而這些多源異構(gòu)的信息可以緩解數(shù)據(jù)稀疏問題,提升模型對于復(fù)雜關(guān)系的建模能力[1]。

    為有效利用實(shí)體的描述信息,文獻(xiàn)[2]提出DKLR模型。該模型利用連續(xù)詞袋(Continuous Bag of Words,CBOW)模型和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型將描述文本轉(zhuǎn)換為實(shí)體的表示向量,并將其用于TransE 模型的訓(xùn)練中,有效地增強(qiáng)了實(shí)體的區(qū)分度[2]。目前關(guān)于關(guān)系描述信息處理的研究較少。事實(shí)上,知識圖譜中實(shí)體和實(shí)體之間存在大量的交互信息,例如:社交工具上用戶之間存在著大量的交談、評論、留言和轉(zhuǎn)發(fā)等文本信息;圖書情報(bào)領(lǐng)域中作者間的合作關(guān)系包含論文標(biāo)題、關(guān)鍵詞和摘要等詳細(xì)信息。因此,如何充分利用關(guān)系上豐富的語義信息實(shí)現(xiàn)知識表示學(xué)習(xí),具有廣闊的研究前景。

    本文提出一種融合主題特征的自適應(yīng)知識圖譜表示方法,即TransATopic 模型。利用潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型挖掘關(guān)系以描述文本中隱含的主題信息,基于變分自編碼器(Variational Autoencoder,VAE)構(gòu)建關(guān)系向量。在此基礎(chǔ)上,通過引入對角矩陣將損失函數(shù)的度量由歐式距離改進(jìn)為馬氏距離,從而增強(qiáng)距離度量的靈活性。

    1 相關(guān)工作

    為更好地描述相應(yīng)的算法模型,本文給出相關(guān)的定義和符號表示。給定任意一個三元組(h,r,t),其中,h表示頭實(shí)體,r表示關(guān)系,t表示尾實(shí)體。Vh、Vr和Vt為三元組每個元素對應(yīng)的表示向量,S為知識圖譜中的三元組集,S′為三元組的負(fù)采樣集。若(h,r,t)∈S,則表示(h,r,t)是正三元組;若(h,r,t)∈S′,則表示(h,r,t)為負(fù)三元組。同時,以E表示實(shí)體集,R表示關(guān)系集。

    受詞向量間的平移現(xiàn)象啟發(fā),BORDES 等人提出了TransE 模型[3]。該模型將關(guān)系r對應(yīng)的向量Vr作為頭實(shí)體向量Vh和尾實(shí)體向量Vt間的平移向量。由于Vr也可以視為從Vh到Vt的翻譯,因此TransE 通常被稱為基于翻譯的模型。對于每一個三元組(h,r,t),TransE 的目的是使Vh+Vr≈Vt,因此,定義如下?lián)p失函數(shù):

    該函數(shù)值即表示向量Vh+Vr和Vt之間的L1或L2距離。在實(shí)際的訓(xùn)練過程中,TransE 采用最大間隔法來增強(qiáng)知識表示的區(qū)分能力。

    為解決TransE 模型處理復(fù)雜關(guān)系時的局限性問題,基于翻譯的Trans 系列模型在TransE 的基礎(chǔ)上進(jìn)行了改進(jìn)和補(bǔ)充,其中一類有效的改進(jìn)是令每個實(shí)體在不同的關(guān)系下?lián)碛卸鄠€向量表示。TransH[4]通過引入關(guān)系相關(guān)的超平面Wr將實(shí)體映射到超平面上:

    StransH[5]結(jié)合了SE 模型和TransH 模型,一方面將頭尾實(shí)體映射到關(guān)系對應(yīng)的超平面上,另一方面利用單層神經(jīng)網(wǎng)絡(luò)增強(qiáng)實(shí)體和關(guān)系間的語義關(guān)系。PtransW[6]則利用關(guān)系路徑和關(guān)系類型的語義信息對TransH 進(jìn)行了擴(kuò)展。

    TransR[7]和TransH類似,假設(shè)不同關(guān)系擁有不同的語義空間,定義了映射矩陣Mr,將實(shí)體映射到關(guān)系對應(yīng)的語義空間中:

    TransRD[8]利用非對等轉(zhuǎn)換矩陣分別對頭實(shí)體和尾實(shí)體進(jìn)行映射,并在模型訓(xùn)練中采用AdaDelta算法自適應(yīng)調(diào)整學(xué)習(xí)率。文獻(xiàn)[9]利用卷積神經(jīng)網(wǎng)絡(luò)編碼實(shí)體的描述文本得到實(shí)體的表示,并使用不同的低秩矩陣對實(shí)體進(jìn)行映射。文獻(xiàn)[10]同樣采用卷積神經(jīng)網(wǎng)絡(luò)編碼實(shí)體的描述文本,通過注意力機(jī)制篩選文本中的有效信息,并引入位置信息和門機(jī)制得到最終的表示向量。

    TransR 具有較強(qiáng)的復(fù)雜關(guān)系建模能力,但由于其為每個關(guān)系引入映射矩陣,因此導(dǎo)致參數(shù)過多,大幅增加了模型的復(fù)雜度。為簡化模型,TransD[11]將映射矩陣Mr分解為2 個映射向量的乘積,定義(h,r,t)對應(yīng)的映射向量為Wh、Wr和Wt,得到:

    文獻(xiàn)[12]在TransD 模型的基礎(chǔ)上,聯(lián)合了圖像和文本等多模態(tài)數(shù)據(jù)。TransParse[13]使用稀疏矩陣來代替稠密的映射矩陣Mr,其中稀疏度θr由關(guān)系r連接的實(shí)體數(shù)量決定:

    不同于實(shí)體映射方法,另一類改進(jìn)TransE 的策略是放寬Vh+Vr≈Vt這一約束條件。TransM[14]為每個三元組(h,r,t)賦予一個關(guān)系相關(guān)的權(quán)值θr,定義如下?lián)p失函數(shù):

    當(dāng)r屬于復(fù)雜關(guān)系時該函數(shù)中的權(quán)值較低,使得Vt在空間上離Vh+Vr更遠(yuǎn)。ManifoldM[15]則是令三元組滿足使得Vt靠近以θr為半徑的流形區(qū)域。TransF[16]要求向量Vt與向量Vh+Vr方向相同,同時Vh與Vt-Vr也具有相同的方向,定義如下?lián)p失函數(shù):

    d(h+r,t)=(Vh+Vr)TVt+(Vt-Vr)TVh

    TransA[17]增加了一個非負(fù)的權(quán)重矩陣Wr,其為每一維學(xué)習(xí)不同的權(quán)重,在處理復(fù)雜關(guān)系時更為靈活。TransAH[18]融合了TransA 和TransH 兩個模型,其在各項(xiàng)實(shí)驗(yàn)指標(biāo)上取得了很大進(jìn)步。TransE-SNS[19]基于K-means 算法對實(shí)體進(jìn)行聚類,然后在負(fù)采樣過程中從目標(biāo)實(shí)體所在的簇中隨機(jī)選擇一個實(shí)體來替換目標(biāo)實(shí)體,從而改善了負(fù)三元組集的質(zhì)量。TCSF[20]則在知識表示中融合了關(guān)系的先驗(yàn)概率、三元組距離和實(shí)體與關(guān)系上下文的擬合度等多種特征。

    同一關(guān)系的語義在不同的實(shí)體間可能存在差異,如不同作者間合作的論文通常不同。因此,實(shí)體間的關(guān)系具有動態(tài)性和復(fù)雜性,僅通過單個向量無法準(zhǔn)確地表示關(guān)系。TransG[21]模型假設(shè)一個關(guān)系可能包含多種語義,對每種語義使用一個高斯分布來刻畫,其中某些關(guān)系還可以被更細(xì)致地劃分,如FreeBase 中的“/location/contains”關(guān)系可以用來表示國家包含某城市、國家包含某所大學(xué)或省包含某城市。CTransR[7]通過對頭實(shí)體和尾實(shí)體的差值Vh-Vt進(jìn)行聚類,將關(guān)系細(xì)分為多個子關(guān)系,分別用向量表示每個子關(guān)系。

    2 TransATopic 知識表示方法

    本節(jié)介紹一種基于主題特征的自適應(yīng)知識圖譜表示方法,分別采用基于主題模型和變分自編器的關(guān)系向量構(gòu)建方法與自適應(yīng)度量方法解決復(fù)雜關(guān)系建模問題,并將兩個方法融合在所構(gòu)建的TransATopic模型中,實(shí)現(xiàn)模型的快速訓(xùn)練和計(jì)算。

    2.1 基于主題模型和變分自編器的關(guān)系向量構(gòu)建

    TransE 模型采用一種樸素的優(yōu)化方法,即使Vh+Vr-Vt=0,根據(jù)優(yōu)化規(guī)則可以得到以下結(jié)果:

    1)若(h,ri,t)∈S,i∈{0,1,…,n},可推得

    2)若(hi,r,t)∈S,i∈{0,1,…,m},此時r是1-N 關(guān)系,可推得同理,如果r是N-1 關(guān)系,則存在三元組(h,r,ti)∈S,可推得

    TransE 等基于翻譯的模型往往把關(guān)系看作簡單的實(shí)值向量,忽略了關(guān)系上豐富的文本信息,因而難以處理復(fù)雜關(guān)系。LDA 主題模型是一種非監(jiān)督模型,能夠用來識別大規(guī)模文本集中隱含的主題信息,被廣泛應(yīng)用于文本分類和自動摘要等文本分析任務(wù)中[22]?;诖耍疚目紤]利用LDA 主題模型抽取關(guān)系描述文本中潛在的主題特征,并基于主題特征構(gòu)建關(guān)系向量。LDA 訓(xùn)練后會生成兩個分布,即文本-主題概率分布θ和主題-詞概率分布φ,如表1 和表2所示。表1 反映每個文本在各個主題上的分布概率,表2 則反映每個詞在各個主題中的權(quán)重。如果直接將關(guān)系描述文本d對應(yīng)的主題概率分布θd作為關(guān)系向量,此時θd中主題的個數(shù)必須與表示向量的維數(shù)相同,且θd中每一維的值(主題出現(xiàn)的概率)都為正,勢必影響知識表示的靈活性和可推理性。

    表1 文本-主題概率分布Table 1 Document-topic probability distribution

    表2 主題-詞概率分布Table 2 Topic-word probability distribution

    本文采用變分自編碼器(VAE)[23]建模主題分布特征,以無監(jiān)督的方式構(gòu)造關(guān)系向量,VAE 的結(jié)構(gòu)如圖1 所示。其中,編碼器的輸入為x,輸出為變分分布q(z|x;φ),z是潛在向量,φ是推斷網(wǎng)絡(luò)的參數(shù)。解碼器的輸入為z,輸出為概率分布p(x|z;ω),ω是生成網(wǎng)絡(luò)的參數(shù)。令x=θd,潛在向量z即為構(gòu)造的關(guān)系向量。

    圖1 變分自編碼器示意圖Fig.1 Schematic diagram of VAE

    VAE 假設(shè)q(z|x;φ)服從對角化協(xié)方差的正態(tài)分布,即因此,編碼器由以下兩層神經(jīng)網(wǎng)絡(luò)構(gòu)成:

    其中,W(1)、W(2)、W(3)和b(1)、b(2)、b(3)構(gòu)成推斷網(wǎng)絡(luò)的參數(shù)φ,sigmoid 和softplus 是激活函數(shù)。在解碼器中,VAE 假設(shè)p(x|z;ω)同樣服從對角化協(xié)方差的正態(tài)分布,即由解碼器預(yù)測得到。

    VAE 的誤差包括重構(gòu)誤差和KL-散度誤差,總體目標(biāo)函數(shù)如下:

    maxE[lnp(x|z;ω)-DKL(q(z|x;φ)||p(z;ω))

    其中,先驗(yàn)分布p(z;ω)=N(z|0,I)。VAE 通過“再參數(shù)化”采樣得到潛在向量,令z=μE+σE⊙ε,將從正態(tài)分布采樣轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布N(0,I)采樣,從而保證模型的訓(xùn)練效率。

    傳統(tǒng)基于翻譯的表示模型實(shí)體區(qū)分效果如圖2(a)所示,由于模型沒有對關(guān)系r進(jìn)行主題識別,導(dǎo)致r的所有語義混在一起,因此無法對多個實(shí)體進(jìn)行有效區(qū)分。假設(shè):三元組(h,r,ti)中關(guān)系描述文檔為d1,其中i∈{1,2,3};三元組(h,r,ti)中關(guān)系描述文檔為d2,其中i∈{4,5,6,7}。本文將輸入VAE 中,得到關(guān)系向量根據(jù)不同的描述文本,將同一關(guān)系表示為不同向量,從而有效地區(qū)分出白色實(shí)體和灰色實(shí)體,提高了知識表示的準(zhǔn)確度,如圖2(b)所示。

    圖2 傳統(tǒng)模型與TransATopic 模型的實(shí)體區(qū)分效果Fig.2 Comparison of entity discrimiation effects by traditional model and TransATopic model

    2.2 自適應(yīng)度量方法

    為有效處理復(fù)雜關(guān)系,一系列模型在TransE 的基礎(chǔ)上進(jìn)行了改進(jìn)和補(bǔ)充,如TransH、TransR 和TransD。這類翻譯模型通常根據(jù)不同的規(guī)則對實(shí)體向量進(jìn)行轉(zhuǎn)換,但采用同樣的損失函數(shù):

    d(h+r,t)=(Vh+Vr-Vt)T(Vh+Vr-Vt)

    由上式可知,損失函數(shù)采用歐式距離度量向量間的差異。由于在歐式距離度量中所有特征維度權(quán)重相同,靈活性不夠,導(dǎo)致知識表示能力較差,因此通??紤]引入權(quán)重矩陣將歐式距離替換為自適應(yīng)的馬氏距離,為每一維學(xué)習(xí)不同的權(quán)重[17]。對損失函數(shù)改進(jìn)如下:

    圖3 歐式距離度量與馬氏距離度量效果比較Fig.3 Comparison of distance measurement effects by Euclidean distance and Mahalanobis distance

    2.3 TransATopic 模型架構(gòu)與訓(xùn)練

    將基于主題模型和變分自編器的關(guān)系向量構(gòu)建方法與自適應(yīng)度量方法進(jìn)行融合,用一個統(tǒng)一的模型TransATopic 來表示,如圖4 所示。

    圖4 TransATopic 模型整體架構(gòu)Fig.4 Overall architecture of TransATopic model

    該模型整體的損失函數(shù)如下:

    其中,d是關(guān)系r上的描述文本,Zd是VAE 構(gòu)建的關(guān)系向量。在實(shí)際的模型訓(xùn)練過程中,TransATopic 與TransE 一樣采用最大間隔法來增強(qiáng)知識表示的區(qū)分能力,其目標(biāo)函數(shù)如下:

    其中,[x]+表示正值函數(shù),m表示間隔距離,S'(h,r,t)是三元組(h,r,t)的負(fù)采樣集。通過將h和t替換為實(shí)體集中隨機(jī)選擇的某個實(shí)體,得到:

    該目標(biāo)函數(shù)的主要目的是最大化正三元組與負(fù)三元組間的距離。

    在模型的具體訓(xùn)練過程中,采用隨機(jī)梯度下降法來優(yōu)化目標(biāo)函數(shù),通過計(jì)算梯度實(shí)現(xiàn)向量和參數(shù)的自動更新,如算法1 所示。

    該訓(xùn)練算法將三元組集和關(guān)系的描述文本集作為輸入,首先利用LDA 主題模型生成文本-主題概率分布θ,然后將主題分布特征輸入變分自編碼器中得到編碼矩陣Z,最后進(jìn)行迭代訓(xùn)練:從三元組集S中隨機(jī)選取小批量三元組得到Sbatch,其中每個三元組(h,r,t)從Z中獲取對應(yīng)的關(guān)系向量Vr并生成一個負(fù)采樣集計(jì)算一對正負(fù)三元組的距離L,并計(jì)算梯度更新實(shí)體向量和權(quán)重矩陣(算法第11 行~第13行)。假設(shè)迭代訓(xùn)練了p次,批量的大小為b,每次負(fù)采樣K個三元組,則迭代訓(xùn)練部分的時間復(fù)雜度為O(pbk)。迭代訓(xùn)練中的參數(shù)是表示向量和權(quán)重對角矩陣,假設(shè)向量的長度為n,則參數(shù)復(fù)雜度為O(|S|n)。

    3 實(shí)驗(yàn)驗(yàn)證

    本文采用Arnet-S、Arnet-M、FB13 和FB15K 數(shù)據(jù)集驗(yàn)證TransATopic的有效性。ArnetMiner[24]是一個提供基于社交網(wǎng)絡(luò)的搜索和挖掘服務(wù)的學(xué)術(shù)網(wǎng)站,其中發(fā)布了一個包含1 712 433 名作者、2 092 356 篇論文和4 258 615 種合作關(guān)系的數(shù)據(jù)集。本文將作者作為實(shí)體,合作論文的標(biāo)題和摘要作為關(guān)系的描述文本,從ArnetMiner 中抽取出兩個不同規(guī)模的數(shù)據(jù)集Arnet-S 和Arnet-M[25]。FB13 和FB15K 均是Freebase 的子集,其中,F(xiàn)B13 包含13 種關(guān)系,F(xiàn)B15K 包含1 345 種關(guān)系,本文將維基百科作為語料集抽取出每個關(guān)系對應(yīng)的描述文本[26]。實(shí)驗(yàn)數(shù)據(jù)集的詳細(xì)信息如表3 所示。

    表3 實(shí)驗(yàn)數(shù)據(jù)集描述Table 3 Description of datasets for experiment

    本文基于ArnetMiner 和Freebase 的子數(shù)據(jù)集,針對鏈接預(yù)測和三元組分類任務(wù)進(jìn)行實(shí)驗(yàn),從不同的角度評估模型預(yù)測能力和精確度。由于TransATopic模型的效果受數(shù)據(jù)規(guī)模和參數(shù)設(shè)定等因素影響,因此分別在不同因素設(shè)定下進(jìn)行測試。為分析TransATopic 的實(shí)驗(yàn)效果,選擇以下兩類不同的模型進(jìn)行比較:1)基于TransE 的距離模型,以TransH、TransA 和TransG 為代表;2)基于隨機(jī)游走策略的表示模型,通常用于學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)特征。第1 類模型已在上文相關(guān)工作中詳細(xì)介紹,不再贅述。第2 類模型介紹如下:

    1)DeepWalk 通過隨機(jī)游走構(gòu)造節(jié)點(diǎn)和邊的序列,將序列視為一種特殊的“上下文”,利用skip-gram模型將節(jié)點(diǎn)和邊轉(zhuǎn)換為表示向量。

    2)Node2vec 是DeepWalk 的擴(kuò)展,其通過超參數(shù)控制隨機(jī)游走的廣度和深度,使得節(jié)點(diǎn)和邊的表示既包括局部網(wǎng)絡(luò)結(jié)構(gòu)特征,又包括更深層的全局結(jié)構(gòu)信息。

    3.1 鏈路預(yù)測

    對于一個三元組(h,r,t),鏈路預(yù)測的主要任務(wù)是給定(h,r)預(yù)測t或給定(r,t)預(yù)測h,從而評估模型預(yù)測實(shí)體的能力。本組實(shí)驗(yàn)將Arnet-S 和FB15K 作為數(shù)據(jù)集,采用與TransE 相同的評價指標(biāo),即MeanRank 和HITS@k,以便與TransE 等現(xiàn)有模型進(jìn)行比較。其中,MeanRank 表示測試集中三元組的平均排序得分,HITS@k表示排序不超過k的三元組在測試集中所占的百分比。MeanRank 的值越小或HITS@k的比例越高,表明實(shí)驗(yàn)結(jié)果越好。排序的計(jì)算過程如下:

    1)對于測試集中的一個正確三元組(h,r,t),隨機(jī)丟棄頭實(shí)體h或尾實(shí)體t,得到不完整三元組(r,t)或(h,r)。

    2)從實(shí)體集中隨機(jī)選擇一個實(shí)體,補(bǔ)全不完整三元組,得到錯誤三元組(h',r,t)或(h,r,t')。重復(fù)此過程多次,得到負(fù)采樣集。

    3)利用損失函數(shù)d(h+r,t)計(jì)算正確三元組和負(fù)采樣集中三元組的值,并對結(jié)果進(jìn)行排序。

    需要注意的是,由于不完整三元組補(bǔ)全后可能恰好與知識圖譜中某個正確三元組相同,負(fù)采樣集和訓(xùn)練集、測試集存在交集,這個交集會干擾三元組的排序值,因此,在生成負(fù)采樣集時需要過濾掉該部分的三元組,將此過程稱為Filter,將未經(jīng)Filter 的過程稱為Raw。Filter 后的實(shí)驗(yàn)結(jié)果往往更好,具有更低的MeanRank 和更高的HITS@10 指標(biāo)值。

    在訓(xùn)練TransATopic 模型時,將主題的個數(shù)k設(shè)置為50,表示向量的維數(shù)設(shè)置為20,學(xué)習(xí)率η設(shè)置為0.01,間距m設(shè)置為2。TransATopic 與TransE 等現(xiàn)有模型的實(shí)驗(yàn)對比結(jié)果如表4 和表5 所示,其中,加粗?jǐn)?shù)據(jù)表示MeanRank、HITS@5 和HITS@10 指標(biāo)的最優(yōu)值。

    表4 Arnet-S 實(shí)驗(yàn)對比結(jié)果Table 4 Comparison of experimental results in Arnet-S

    表5 FB15K 實(shí)驗(yàn)對比結(jié)果Table 5 Comparison of experimental results in FB15K

    可以看出,相較于TransA 模型,TransATopic 的MeanRank 指標(biāo)更低,HITS@k指標(biāo)更高,驗(yàn)證了基于主題分布特征的表示方法和自適應(yīng)度量方法融合的有效性,表明TransATopic 在向量表示和鏈路預(yù)測上具有明顯的優(yōu)勢。在FB15K 中邊和節(jié)點(diǎn)的數(shù)量比為39.6,而在Arnet-S 中為8.6,因此,F(xiàn)B15K 中邊的密度更大且關(guān)系更為復(fù)雜。相較于TransE 模型,TransATopic 在Arnet-S 數(shù)據(jù)集上HITS@k平均提升21%,在FB15K 上平均提升39%,這進(jìn)一步說明TransATopic 在處理多語義復(fù)雜關(guān)系上具有更大優(yōu)勢。

    3.2 三元組分類

    三元組分類任務(wù)主要用于驗(yàn)證模型識別正確三元組和錯誤三元組的能力。對于給定的三元組(h,r,t),首先計(jì)算模型損失函數(shù)d(h+r,t)的值,如果大于某個閾值,則將該三元組劃分為正確三元組,反之劃分為錯誤三元組;然后判斷三元組分類結(jié)果的正確性,若正確則生成正標(biāo)簽;否則生成負(fù)標(biāo)簽;最后統(tǒng)計(jì)正負(fù)標(biāo)簽數(shù)量,計(jì)算三元組分類的準(zhǔn)確率。TransATopic 與TransE 等模型在數(shù)據(jù)集Arnet-M 和FB13 上的實(shí)驗(yàn)對比結(jié)果如表6 所示,其中,加粗?jǐn)?shù)據(jù)表示準(zhǔn)確率指標(biāo)的最優(yōu)值。

    表6 三元組分類準(zhǔn)確率對比Table 6 Accuracy comparison of triple classification %

    可以看出,在Arnet-M和FB13數(shù)據(jù)集中,DeepWalk和Node2vec 的準(zhǔn)確率最低,這說明基于翻譯的表示模型更適用于大規(guī)模的數(shù)據(jù)集。相較于TransE 模型,TransATopic在Arnet-M上準(zhǔn)確率平均提升10%,在FB13上平均提升7%。由于Arnet-M 上邊和節(jié)點(diǎn)的數(shù)量遠(yuǎn)大于FB13,說明Arnet-M 是一個規(guī)模更大且關(guān)系更為復(fù)雜的網(wǎng)絡(luò),因此表明TransATopic 在Arnet-M 上能夠更好地提高三元組的分類效果。此外,相較于TransA 模型,TransATopic 在準(zhǔn)確率上同樣取得了一定的進(jìn)步,說明關(guān)系的主題分布特征能夠有效提高知識表示的區(qū)分度。

    4 結(jié)束語

    傳統(tǒng)基于翻譯的知識表示方法在復(fù)雜關(guān)系建模和距離度量上存在不足,影響了知識表示的區(qū)分度。為此,本文提出TransATopic 模型。在復(fù)雜關(guān)系建模過程中,基于主題模型和變分自編碼器建模關(guān)系的主題分布特征,提高關(guān)系向量的區(qū)分度;在距離度量過程中,使用一種自適應(yīng)度量方法,通過引入非負(fù)對角矩陣,將損失函數(shù)的度量由歐式距離轉(zhuǎn)換為馬氏距離,為向量的每一維賦予不同的權(quán)重,從而增強(qiáng)度量的靈活性?,F(xiàn)有的知識表示方法通常粗略地將關(guān)系劃分為1-1、1-N、N-1 和N-N 4 種類型,然而實(shí)體在空間中往往呈現(xiàn)出層次結(jié)構(gòu)。文獻(xiàn)[27]利用雙曲線代替歐幾里得嵌入空間來表示分層數(shù)據(jù),在嵌入圖形時取得了較好的結(jié)果。受此啟發(fā),下一步擬基于雙曲空間改進(jìn)TransATopic 模型,并且將其應(yīng)用于關(guān)系抽取、語義解析和實(shí)體聚類等任務(wù)。

    猜你喜歡
    三元組度量實(shí)體
    基于語義增強(qiáng)雙編碼器的方面情感三元組提取
    軟件工程(2024年12期)2024-12-28 00:00:00
    有趣的度量
    基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
    模糊度量空間的強(qiáng)嵌入
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
    關(guān)于余撓三元組的periodic-模
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    分宜县| 迭部县| 长武县| 清苑县| 汉中市| 沿河| 阳谷县| 彰化县| 梅州市| 万安县| 密云县| 新竹县| 邢台县| 青神县| 苍梧县| 隆子县| 南靖县| 九龙县| 陵水| 建宁县| 临清市| 赫章县| 台湾省| 浮山县| 神农架林区| 喀喇沁旗| 剑阁县| 康保县| 衡东县| 慈溪市| 临清市| 咸阳市| 杂多县| 鸡西市| 泉州市| 新丰县| 博乐市| 凭祥市| 盐边县| 固镇县| 合山市|