• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于實(shí)體時(shí)間敏感度的知識(shí)表示方法

      2020-02-14 05:55:53田滿鑫壽黎但陳珂江大偉陳剛
      軟件工程 2020年1期
      關(guān)鍵詞:知識(shí)圖譜

      田滿鑫 壽黎但 陳珂 江大偉 陳剛

      摘 ?要:在知識(shí)圖譜(Knowledge Graph)中,知識(shí)表示方法旨在通過一種低維稠密的向量表示方法來高效地挖掘不同實(shí)體、關(guān)系之間復(fù)雜語義關(guān)系,在知識(shí)問答、信息檢索等領(lǐng)域有著重要意義。然而,現(xiàn)有的絕大多數(shù)的知識(shí)表示方法忽略了時(shí)間因素,無法表示應(yīng)用中隨時(shí)間變化的動(dòng)態(tài)知識(shí)。針對(duì)該問題,本文提出一種基于實(shí)體時(shí)間敏感度的知識(shí)表示方法。該方法將時(shí)間信息以不同程度融入不同類型的實(shí)體向量表示中,然后進(jìn)行實(shí)體和關(guān)系之間語義挖掘。實(shí)驗(yàn)結(jié)果表明,這種基于實(shí)體時(shí)間敏感度的表示方法能夠明顯提高知識(shí)圖譜的時(shí)態(tài)知識(shí)補(bǔ)全和預(yù)測(cè)任務(wù)性能。

      關(guān)鍵詞:知識(shí)圖譜;表示學(xué)習(xí);時(shí)態(tài)知識(shí);復(fù)雜關(guān)系;知識(shí)補(bǔ)全

      中圖分類號(hào):TP391.1 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      Abstract:Representation learning in knowledge graph aims to explore the complex semantic relationship between entities and their relations with a low-dimensional,dense vectors representation method,which is of great significance in the fields of knowledge question and answer and information retrieval.However,most of the existing knowledge representation methods ignore the time factor and cannot express the dynamic knowledge of the application over time.For this problem,this paper proposes a knowledge representation method based on entity time sensitivity.This method integrates the time information into different types of the entity vector representation with different degrees,and then performs semantic mining between entities and their relationships.Experimental results show that this entity time sensitivity based representation method can obviously improve the temporal knowledge completion and prediction task performance of the knowledge graph.

      Keywords:knowledge graph;representation learning;temporal knowledge;complex relationship;knowledge complement

      1 ? 引言(Introduction)

      自Google提出知識(shí)圖譜概念以來,知識(shí)圖譜憑借其強(qiáng)大的語義處理能力而得到學(xué)術(shù)界和工業(yè)界廣大關(guān)注。它將知識(shí)庫信息以一種三元組(實(shí)體1,關(guān)系,實(shí)體2)的形式進(jìn)行表達(dá),構(gòu)成知識(shí)網(wǎng)絡(luò)。這種高效、簡(jiǎn)潔的知識(shí)組織方法能夠清楚地描述實(shí)體間的關(guān)系、概念和屬性,使得知識(shí)的表現(xiàn)形式更接近人類的思維表達(dá),因而被廣泛應(yīng)用在信息檢索、智能問答等方面。

      傳統(tǒng)的表示方法采用語義符號(hào)進(jìn)行知識(shí)表示,比如萬維網(wǎng)聯(lián)盟采用資源描述框架(Resolution Description Framework,RDF)來表示知識(shí)三元組。這種表示方法雖然簡(jiǎn)潔直白,但由于表示稀疏、計(jì)算效率低下等問題,無法進(jìn)行大規(guī)模的知識(shí)查詢和推理。近年來,隨著深度學(xué)習(xí)在人工智能領(lǐng)域的不斷發(fā)展,分布式的知識(shí)表示方法成為學(xué)術(shù)研究的熱點(diǎn)。這種分布式知識(shí)表示方法將稀疏的符號(hào)知識(shí)轉(zhuǎn)換成稠密的向量表達(dá)形式,能夠存儲(chǔ)更豐富的語義信息和進(jìn)行高效的知識(shí)計(jì)算,具有重要的學(xué)術(shù)價(jià)值和應(yīng)用意義。鑒于這些優(yōu)點(diǎn),研究者們提出多種知識(shí)表示模型,如神經(jīng)網(wǎng)絡(luò)張量模型、線性模型和翻譯模型等。這些方法考慮知識(shí)表示在向量空間上的語義計(jì)算,通過對(duì)知識(shí)圖譜實(shí)體節(jié)點(diǎn)、關(guān)系邊的學(xué)習(xí),使得語義相似的實(shí)體之間距離相近。

      然而,上述表示方法探究的是知識(shí)庫的靜態(tài)知識(shí)表示。這種知識(shí)表示局限于將實(shí)體之間的關(guān)系、屬性看成靜態(tài)聯(lián)系,忽略了時(shí)間對(duì)知識(shí)演變的影響。比如,在新型供電列車儲(chǔ)能系統(tǒng)中,(輸電母線、引發(fā)…故障、車廂子線)這一知識(shí)的有效時(shí)間為2018/12/20 00:00:00,而其他時(shí)間下發(fā)生的車廂供電子線故障并非由輸電母線引起。如果采用傳統(tǒng)的靜態(tài)知識(shí)表示方法進(jìn)行時(shí)態(tài)性知識(shí)查詢或推理,那么相關(guān)結(jié)果準(zhǔn)確度、可信度偏低,無法滿足時(shí)態(tài)知識(shí)的表示需求。

      針對(duì)以上問題,本文提出一種基于實(shí)體時(shí)間敏感度的知識(shí)表示方法ETA-TransE(Entity-Time-Aware TransE)。這種方法不僅考慮了知識(shí)圖譜的時(shí)態(tài)信息和時(shí)間對(duì)知識(shí)表示的影響,還考慮到不同類型實(shí)體對(duì)時(shí)間敏感程度的不一致性,聯(lián)合實(shí)體類型和時(shí)間信息進(jìn)行時(shí)態(tài)領(lǐng)域的知識(shí)表示和推理學(xué)習(xí)。具體地,首先對(duì)知識(shí)庫中帶絕對(duì)時(shí)間信息的知識(shí)三元組(頭實(shí)體,關(guān)系,尾實(shí)體,絕對(duì)時(shí)間)相對(duì)于實(shí)體的起始時(shí)間進(jìn)行相對(duì)時(shí)間計(jì)算,使得處在不同時(shí)間維度的知識(shí)三元組能在相同的時(shí)間平面聚焦;然后,針對(duì)不同類型實(shí)體構(gòu)建不同的時(shí)態(tài)轉(zhuǎn)移矩陣,并通過實(shí)體與時(shí)態(tài)矩陣相乘得到當(dāng)前時(shí)間狀態(tài)下的實(shí)體表示,使得不同類型實(shí)體受同一時(shí)間影響的程度不同;最后,在融合時(shí)間信息情況下進(jìn)行知識(shí)表示學(xué)習(xí),得到實(shí)體、關(guān)系的語義向量。

      本文的主要貢獻(xiàn)如下:

      (1)提出一種基于實(shí)體時(shí)間敏感度的知識(shí)表示模型。該模型聯(lián)合了實(shí)體類型和時(shí)間信息,考慮實(shí)體在不同時(shí)間下表示,解決實(shí)體之間的復(fù)雜關(guān)系。

      (2)提出一種基于相對(duì)時(shí)間粒度的知識(shí)處理方法。該方法主要考慮在歷史、人物事件等應(yīng)用場(chǎng)合下,相對(duì)時(shí)間粒度能夠更好地挖掘不同知識(shí)之間的內(nèi)在聯(lián)系,有效緩解絕對(duì)時(shí)間所帶來的特征稀疏性問題。

      (3)在YAGO和Wikidata帶時(shí)間信息的數(shù)據(jù)集上,與已有的知識(shí)表示方法進(jìn)行了對(duì)比工作,驗(yàn)證了本文所提出的知識(shí)表示模型有效性。

      圖1 基于實(shí)體時(shí)間敏感度的知識(shí)表示方法

      2 ? 相關(guān)工作(Related work)

      2.1 ? 知識(shí)表示學(xué)習(xí)

      近年來,學(xué)術(shù)研究者針對(duì)知識(shí)表示學(xué)習(xí)提出了許多方法和模型,不斷提升知識(shí)表示的語義準(zhǔn)確度和增強(qiáng)知識(shí)補(bǔ)全能力。

      Jason等人最早采用使用分布式向量進(jìn)行知識(shí)表示[1],通過頭實(shí)體、尾實(shí)體在關(guān)系上的投影矩陣來計(jì)算不同實(shí)體的語義相似度。隨后,Rodolphe[2]提出隱變量模型(latent foctor model),基于關(guān)系的雙線性變換來探究實(shí)體和關(guān)系的二階聯(lián)系。這些線性模型簡(jiǎn)單,但由于矩陣投影方法的協(xié)同性較差,無法準(zhǔn)確刻畫不同實(shí)體、關(guān)系之間的語義聯(lián)系。

      針對(duì)線性模型的缺點(diǎn),Bordes等人提出TransE[3]模型,將關(guān)系r看作為頭實(shí)體h和尾實(shí)體t之間的翻譯過程。這種翻譯模型簡(jiǎn)單高效,得到廣泛地應(yīng)用。TransH[4]模型引入關(guān)系超平面進(jìn)行知識(shí)表示,使同一實(shí)體能夠在不同關(guān)系中扮演不同的角色。TransD[5]、TransR[6]、TransM[7]等采用不同維度的語義空間來表示實(shí)體和關(guān)系,使得實(shí)體和關(guān)系支持多元語義關(guān)系表達(dá)。此外,還有一些方法通過加入外部信息[8-10],增強(qiáng)知識(shí)表示的遷移能力。

      然而,以上方法都忽略了知識(shí)庫的時(shí)間因素,沒有考慮知識(shí)的時(shí)效性問題。當(dāng)采用傳統(tǒng)的知識(shí)表示方法進(jìn)行帶時(shí)間戳的知識(shí)圖譜補(bǔ)全、知識(shí)查詢或推理時(shí),由于這些模型對(duì)時(shí)間不敏感,無法有效處理時(shí)間信息,使得預(yù)測(cè)出來的結(jié)果嚴(yán)重偏離實(shí)際情況。

      2.2 ? 引入時(shí)間信息的知識(shí)表示學(xué)習(xí)

      時(shí)間作為一種信息因子,是構(gòu)建包含事件等動(dòng)態(tài)知識(shí)的知識(shí)圖譜必要組成內(nèi)容。目前,已經(jīng)有相關(guān)研究工作針對(duì)帶時(shí)間信息的知識(shí)圖譜進(jìn)行了時(shí)態(tài)性知識(shí)表示學(xué)習(xí)探究。

      Jiang[11]等人在16年首次提出一種基于時(shí)態(tài)信息的知識(shí)圖譜表示方法,采用關(guān)系的時(shí)間相對(duì)性(如出生—死亡)對(duì)實(shí)體表示進(jìn)行約束和學(xué)習(xí)。隨后,Trivedi[12]等人采用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)蘊(yùn)含時(shí)態(tài)的知識(shí)進(jìn)行知識(shí)表示。雖然這些方法考慮了時(shí)間對(duì)知識(shí)表示的影響,但是沒有直接利用時(shí)間信息,只能在模糊的時(shí)間范圍內(nèi)進(jìn)行知識(shí)表示和推理。針對(duì)以上缺陷,Shib[13]提出了HyTE模型,該模型是一種基于時(shí)間維度的知識(shí)表示方法。它構(gòu)建了不同的時(shí)間超平面,然后將三元組的知識(shí)信息投影到時(shí)間平面上,進(jìn)行時(shí)間維度的知識(shí)表示與推理。

      雖然HyTE模型直接使用了時(shí)間信息,對(duì)同一時(shí)間范圍內(nèi)的所有實(shí)體、關(guān)系進(jìn)行了時(shí)間投影和表示學(xué)習(xí),但是沒有考慮到不同類型的實(shí)體受時(shí)間的影響不同。因此,這種知識(shí)表示方法仍然不能準(zhǔn)確地表達(dá)時(shí)態(tài)語義信息。針對(duì)該問題,本文提出的模型算法能夠較好地緩解該問題,有效地提高時(shí)態(tài)知識(shí)表示的性能。

      3 ? 問題定義(Problem definition)

      4 ? 方法介紹(Method introduce)

      4.1 ? 時(shí)態(tài)知識(shí)圖譜

      傳統(tǒng)的知識(shí)圖譜沒有涉及時(shí)間信息,一般對(duì)靜態(tài)的知識(shí)采用(h,r,t)三元組方式進(jìn)行表示。而時(shí)態(tài)性知識(shí)圖譜作為一種動(dòng)態(tài)的知識(shí)圖譜,會(huì)將時(shí)間作為一種獨(dú)立的維度信息加入知識(shí)三元組中,組成(h,r,t,τ)四元組形式來表示知識(shí)庫中的知識(shí),其中τ代表四元組的發(fā)生時(shí)間。這種表示方法能夠較準(zhǔn)確地描述事件等知識(shí)元素,完整地記錄圖譜中人物履歷或歷史事件發(fā)生的過程,體現(xiàn)知識(shí)的時(shí)態(tài)性。

      HyTE模型最早將時(shí)間信息作為單獨(dú)的一個(gè)維度融合到知識(shí)表示方法中,在絕對(duì)時(shí)間平面中對(duì)各知識(shí)進(jìn)行向量投影,建立知識(shí)聯(lián)系??紤]到在絕對(duì)時(shí)間平間中,可能出現(xiàn)知識(shí)三元組較少的情況,導(dǎo)致模型難以挖掘不同空間內(nèi)的知識(shí)共性和語義聯(lián)系,本文提出一種針對(duì)絕對(duì)時(shí)間信息稀疏問題的處理方案。

      其中,和分別代表正確三元組集合和錯(cuò)誤三元組集合,γ是用于區(qū)分正確三元組和錯(cuò)誤三元組的間隔距離。(h', r ,t')代表錯(cuò)誤三元組,是由正確三元組隨機(jī)替換頭實(shí)體或尾實(shí)體,構(gòu)成不符合實(shí)際的三元組而產(chǎn)生。該損失函數(shù)能在最小化正確三元組得分的同時(shí)最大化了錯(cuò)誤三元組的得分,使正確三元組之間語義聯(lián)系更緊密,而盡可能讓錯(cuò)誤三元組中的實(shí)體、關(guān)系存在較大的語義差異。

      TransE模型雖然簡(jiǎn)單,涉及的參數(shù)較少,計(jì)算復(fù)雜度低,但能很好地構(gòu)建實(shí)體和關(guān)系之間的語義聯(lián)系,非常適合用于大規(guī)模知識(shí)圖譜的知識(shí)表示。本文沿用TransE模型的思想,將關(guān)系關(guān)系看作受時(shí)間影響的實(shí)體之間的平移向量,對(duì)加入時(shí)間維度信息的知識(shí)圖譜進(jìn)行翻譯模型的表示學(xué)習(xí)。

      4.3 ? 融合實(shí)體類型的時(shí)態(tài)知識(shí)表示

      TransE模型將實(shí)體和關(guān)系投影到相同維度的低維向量空間,無法解決知識(shí)圖譜中實(shí)體之間的一對(duì)多、多對(duì)一和多對(duì)多等復(fù)雜關(guān)系問題。比如知識(shí)庫存在(奧巴馬,是…總統(tǒng),美國(guó))和(特朗普,是…總統(tǒng),美國(guó))兩個(gè)知識(shí)。如果僅在總統(tǒng)這種關(guān)系下,奧巴馬和特朗普的知識(shí)表示結(jié)果非常相近,但是在其他屬性領(lǐng)域,該兩者具有較大的差異性,TransE模型無法解決該類問題。在時(shí)態(tài)性知識(shí)圖譜中,我們發(fā)現(xiàn)對(duì)時(shí)間信息特征的利用能夠解決實(shí)體之間的復(fù)雜關(guān)系。作用于同一實(shí)體的不同關(guān)系受到同一時(shí)間約束不一致,而存在相同關(guān)系的不同實(shí)體對(duì)也存在時(shí)間差異,比如“出生”發(fā)生的時(shí)間要早于“死亡”和奧巴馬比特朗普更早就職美國(guó)總統(tǒng)。因此,本文所提出的時(shí)態(tài)知識(shí)表示模型能夠較好地區(qū)分不同類型關(guān)系對(duì)不同實(shí)體影響。

      由于不同類型實(shí)體對(duì)時(shí)間的敏感程度不一致,使得同一時(shí)間對(duì)不同類型實(shí)體的信息變化影響不相同,如人物類型實(shí)體存在年輕、年老等狀態(tài),不同狀態(tài)下實(shí)體的活動(dòng)范圍和行動(dòng)能力等不盡相同,而地理類型實(shí)體隨著時(shí)間演變而幾乎不發(fā)生變化。這種實(shí)體類型對(duì)時(shí)間的敏感性特點(diǎn),能夠影響不同實(shí)體的關(guān)系作用域,以及不同關(guān)系的作用范圍。如果將實(shí)體類型考慮到時(shí)態(tài)知識(shí)表示學(xué)習(xí)中,那么模型能提取更準(zhǔn)確的語義特征,以增強(qiáng)時(shí)態(tài)性知識(shí)補(bǔ)全和推理能力。

      其中,和分別代表帶時(shí)間信息的正確三元組集合和錯(cuò)誤三元組集合,γ是正確三元組和錯(cuò)誤三元組之間的間距。在實(shí)驗(yàn)過程中,我們對(duì)上述公式中的向量等元素做了如下限制:

      5 ?實(shí)驗(yàn)結(jié)果及分析(Experimental results and analysis)

      實(shí)驗(yàn)包含了三個(gè)任務(wù),分別為實(shí)體鏈接預(yù)測(cè)、關(guān)系鏈接預(yù)測(cè)和三元組分類預(yù)測(cè)任務(wù)。與以往知識(shí)表示任務(wù)評(píng)測(cè)對(duì)象不同,本文的評(píng)測(cè)對(duì)象為帶有時(shí)間信息的數(shù)據(jù)集。

      5.1 ? 實(shí)驗(yàn)數(shù)據(jù)

      在開源的知識(shí)庫中,Wikidata和YAGO數(shù)據(jù)集都包含涉及時(shí)間的知識(shí)數(shù)據(jù)。本文針對(duì)這兩個(gè)數(shù)據(jù)集提取時(shí)間信息豐富的數(shù)據(jù),得到兩個(gè)子集Wikidata12K和YAGO11K,作為我們的評(píng)測(cè)數(shù)據(jù),并劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分。其中訓(xùn)練集用于模型訓(xùn)練,驗(yàn)證集用于超參數(shù)調(diào)優(yōu),測(cè)試集用于評(píng)價(jià)不同模型的性能。表1展示了數(shù)據(jù)集的相關(guān)屬性:

      對(duì)于YAGO數(shù)據(jù),為了防止出現(xiàn)數(shù)據(jù)分布稀疏問題,我們對(duì)帶時(shí)間信息的數(shù)據(jù)集進(jìn)行了數(shù)據(jù)篩選,按照出現(xiàn)頻率挑選了排名前10的關(guān)系數(shù)據(jù)以及去除只出現(xiàn)一次的實(shí)體數(shù)據(jù),得到Y(jié)AGO11K。

      針對(duì)Wikidata數(shù)據(jù),我們做了類似同樣的操作,按照出現(xiàn)頻率挑選了排名前24名的關(guān)系數(shù)據(jù),以及相關(guān)實(shí)體數(shù)據(jù),組成Wikidata12K數(shù)據(jù)集,使得數(shù)據(jù)規(guī)模為YAGO11K的兩倍。

      5.2 ? 實(shí)驗(yàn)對(duì)比方法

      為了評(píng)估本文所提出來的時(shí)態(tài)知識(shí)表示模型,我們對(duì)比了傳統(tǒng)領(lǐng)域的知識(shí)表示方法TransE、TransH和TransR,以及融合時(shí)間信息的知識(shí)表示方法HyTE。

      5.3 ? 參數(shù)設(shè)置

      模型包含學(xué)習(xí)率λ、向量維度d和最大間隔γ。其中λ∈{0.1,0.01,0.05},d∈{50,80,100},γ∈{1,2,4}。驗(yàn)證集達(dá)到最優(yōu)效果對(duì)應(yīng)的參數(shù)分別為0.01、100、4。訓(xùn)練迭代的次數(shù)為1000。

      5.4 ? 實(shí)驗(yàn)結(jié)果

      5.4.1 ? 實(shí)體鏈接預(yù)測(cè)

      實(shí)體鏈接預(yù)測(cè)任務(wù)旨在預(yù)測(cè)知識(shí)三元組缺失的頭實(shí)體或尾實(shí)體。給定正確三元組(h,r,t,τ),我們依次去除其中的頭實(shí)體和尾實(shí)體,即得到(?,r,t,τ)和(h,r,?,τ)兩種形式;然后依次將知識(shí)庫中的其他實(shí)體填充到對(duì)應(yīng)的缺失位置,計(jì)算新構(gòu)成的三元組得分;最后對(duì)該得分進(jìn)行排序,得到不同三元組的排名。

      本文沿用其他知識(shí)表示論文的評(píng)價(jià)指標(biāo):(1)Mean Rank:正確三元組的實(shí)體得分排名平均值,該指標(biāo)值越小代表模型性能越好;(2)Hits@10:正確三元組實(shí)體排名小于10的占比,該指標(biāo)值越大則模型表示越準(zhǔn)確。除此之外,由于三元組替換頭實(shí)體或尾實(shí)體后,所構(gòu)成的新三元組可能已經(jīng)存在于原知識(shí)庫中,這部分三元組會(huì)干擾當(dāng)前正確三元組的實(shí)體排名,因此采用了“原始”(raw)和“過濾”(Filter)兩種評(píng)估方式。其中,“原始”保留所有三元組再進(jìn)行排名,“過濾”代表排除已經(jīng)存在的三元組再進(jìn)行排名。各模型在數(shù)據(jù)集Wikidata12K和YAGO11K的測(cè)試實(shí)驗(yàn)結(jié)果如表2和表3所示。

      從以上結(jié)果可以看到,本文所提出的ETA-TransE模型雖然在尾實(shí)體的MeanRank指標(biāo)不是最優(yōu),但是在其他指標(biāo)上均有較大程度的提高。在數(shù)據(jù)集中,相對(duì)頭實(shí)體,尾實(shí)體的實(shí)體類型較為豐富,比如頭實(shí)體類型以“人物”類型為主,而尾實(shí)體除了“人物”類型實(shí)體、還包含“地理”“國(guó)家”等類型,并且部分實(shí)體的類型比較少,尾實(shí)體的時(shí)態(tài)轉(zhuǎn)移矩陣較難準(zhǔn)確地捕捉這類實(shí)體語義信息隨時(shí)間變化的變化程度,因此Mean Rank指標(biāo)沒能達(dá)到最優(yōu)。在Hits@10指標(biāo)上,不管是頭實(shí)體鏈接預(yù)測(cè)還是尾實(shí)體鏈接預(yù)測(cè),都達(dá)到目前最優(yōu)的結(jié)果,說明在時(shí)態(tài)知識(shí)表示方面,ETA-TransE模型能夠較好地捕捉不同時(shí)間下實(shí)體與關(guān)系的語義信息。因此,在帶時(shí)間信息的實(shí)體補(bǔ)全或推理任務(wù)中本文所提的模型具有一定的優(yōu)勢(shì)。

      5.4.2 ? 關(guān)系鏈接預(yù)測(cè)

      關(guān)系鏈接預(yù)測(cè)是用于評(píng)估模型的關(guān)系補(bǔ)全能力。給定正確三元組,將關(guān)系依次替換成知識(shí)庫中的其他關(guān)系,得到相應(yīng)的知識(shí)三元組得分;然后對(duì)得分排序,得到關(guān)系排名。類似實(shí)體鏈接任務(wù),該實(shí)驗(yàn)采用的指標(biāo)為Mean Rank和Hits@1,其中Hits@1代表正確三元組關(guān)系排名第一的占比。評(píng)估方式也采用“Raw”和“Filter”兩種形式。

      從上述結(jié)果可以看到,我們提出的模型在兩份數(shù)據(jù)集上的各項(xiàng)指標(biāo)均取得最佳效果。在關(guān)系鏈路預(yù)測(cè)方面,TransH比TransE預(yù)測(cè)效果更好,表明實(shí)體之間復(fù)雜的關(guān)系需要復(fù)雜的模型進(jìn)行不同關(guān)系下的實(shí)體表示學(xué)習(xí);而融入時(shí)間信息的HyTE模型能夠較好地預(yù)測(cè)實(shí)體之間的關(guān)系,說明時(shí)間對(duì)關(guān)系的影響比較大;在保持前者的優(yōu)點(diǎn)情況下,本文提出的ETA-TransE模型在時(shí)態(tài)信息處理方面,擁有更好的關(guān)系預(yù)測(cè)能力。

      5.4.3 ? 三元組分類

      三元組分類旨在判斷給定的知識(shí)三元組是否符合客觀事實(shí),即是否真實(shí)存在。由于YAGO11K和Wikidata12K數(shù)據(jù)集只包含正樣本,本文依照Socher等人提出的方法來構(gòu)造負(fù)樣本。對(duì)于驗(yàn)證集和測(cè)試集的正確三元組,我們隨機(jī)替換其頭實(shí)體或尾實(shí)體。而替換的實(shí)體必須從當(dāng)前三元組關(guān)系對(duì)應(yīng)的頭實(shí)體集合或尾實(shí)體集合中選出,使得產(chǎn)生負(fù)樣本集合不存在明顯不合理的三元組。為了平衡數(shù)據(jù),產(chǎn)生的負(fù)樣本數(shù)量與正樣本數(shù)量相同,即每一條正樣本對(duì)應(yīng)唯一的負(fù)樣本。

      實(shí)驗(yàn)采用準(zhǔn)確率、精確率、召回率和F1值作為帶時(shí)間信息三元組分類的評(píng)估指標(biāo)。對(duì)于每種關(guān)系,我們?cè)O(shè)置不同的閾值δr,使得在驗(yàn)證集上達(dá)到最佳的準(zhǔn)確率。然后針對(duì)測(cè)試集中帶時(shí)間的三元組(h,r,t,τ)計(jì)算距離得分,如果該分?jǐn)?shù)小于δr,則表示為正確三元組,否則為錯(cuò)誤三元組。實(shí)驗(yàn)最終的評(píng)測(cè)標(biāo)準(zhǔn)為所有關(guān)系評(píng)估指標(biāo)的平均值。各模型的三元組分類結(jié)果如表5所示。

      從上述結(jié)果可以看到,本文的ETA-TransE在帶時(shí)間信息的三元組分類任務(wù)上達(dá)到最佳的分類效果。這說明,融合時(shí)間信息的知識(shí)表示能夠較好地辨別推理得到的三元組是否符合客觀事實(shí),使正確三元組之間的聯(lián)系更緊密以及錯(cuò)誤三元組中實(shí)體和關(guān)系的存在較大的語義差異。

      6 ? 結(jié)論(Conclusion)

      傳統(tǒng)的知識(shí)表示方法由于沒有考慮知識(shí)圖譜中的時(shí)間信息,在帶有時(shí)間信息的知識(shí)補(bǔ)全和推理任務(wù)中存在較大的性能缺陷。本文針對(duì)該缺點(diǎn)提出一種基于實(shí)體時(shí)間敏感度的時(shí)態(tài)知識(shí)表示方法。該方法在利用時(shí)間特征進(jìn)行知識(shí)表示的同時(shí),還考慮到不同實(shí)體類型對(duì)時(shí)間敏感程度不同的特點(diǎn),采用時(shí)態(tài)轉(zhuǎn)移矩陣更準(zhǔn)確地捕捉實(shí)體、關(guān)系與時(shí)間的語義聯(lián)系。在含有時(shí)間信息的YAGO11K和Wikidata12K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的ETA-TransE方法能夠顯著提升帶時(shí)間信息的實(shí)體鏈接、關(guān)系鏈接和三元組分類任務(wù),能較好地支持時(shí)態(tài)性的知識(shí)補(bǔ)全任務(wù)和推理等任務(wù)。

      參考文獻(xiàn)(References)

      [1] Bordes A,Weston J,Collobert R,et al.Learning structured embeddings of knowledge bases[C].Twenty-Fifth AAAI Conference on Artificial Intelligence,2011.

      [2] Jenatton R,Roux N L,Bordes A,et al.A latent factor model for highly multi-relational data[C].Advances in Neural Information Processing Systems,2012:3167-3175.

      [3] Bordes A,Usunier N,Garcia-Duran A,et al.Translating embeddings for modeling multi-relational data[C].Advances in neural information processing systems,2013:2787-2795.

      [4] Wang Z,Zhang J,F(xiàn)eng J,et al.Knowledge graph embedding by translating on hyperplanes[C].Twenty-Eighth AAAI conference on artificial intelligence,2014.

      [5] Ji G,He S,Xu L,et al.Knowledge graph embedding via dynamic mapping matrix[C].Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015,1:687-696.

      [6] Lin Y,Liu Z,Sun M,et al.Learning entity and relation embeddings for knowledge graph completion[C].Twenty-ninth AAAI conference on artificial intelligence,2015.

      [7] Fan M,Zhou Q,Chang E,et al.Transition-based knowledge graph embedding with relational mapping properties[C].Proceedings of the 28th Pacific Asia Conference on Language,Information and Computing,2014.

      [8] Xie R,Liu Z,Jia J,et al.Representation learning of knowledge graphs with entity descriptions[C].Thirtieth AAAI Conference on Artificial Intelligence,2016.

      [9] Xie R,Liu Z,Luan H,et al.Image-embodied knowledge representation learning[J].arXiv preprint arXiv:1609.07028,2016.

      [10] Xie R,Liu Z,Sun M.Representation Learning of Knowledge Graphs with Hierarchical Types[C].IJCAI,2016:2965-2971.

      [11] Jiang T,Liu T,Ge T,et al.Encoding temporal information for time-aware link prediction[C].Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing,2016:2350-2354.

      [12] Trivedi R,Dai H,Wang Y,et al.Know-evolve:deep temporal reasoning for dynamic knowledge graphs[C].Proceedings of the 34th International Conference on Machine Learning,2017.

      [13] Dasgupta S S,Ray S N,Talukdar P.HyTE:Hyperplane-based Temporally aware Knowledge Graph Embedding[C].Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018:2001-2011.

      作者簡(jiǎn)介:

      田滿鑫(1994-),男,碩士生.研究領(lǐng)域:數(shù)據(jù)挖掘,知識(shí)圖譜.

      壽黎但(1974-),男,博士,教授.研究領(lǐng)域:空間數(shù)據(jù)庫,數(shù)據(jù)挖掘,數(shù)據(jù)可視化.

      陳 ?珂(1977-),女,博士,副教授.研究領(lǐng)域:時(shí)空數(shù)據(jù)庫,數(shù)據(jù)挖掘,數(shù)據(jù)隱私保護(hù).

      江大偉(1982-),男,博士,研究員.研究領(lǐng)域:數(shù)據(jù)庫技術(shù),大數(shù)據(jù)管理技術(shù),區(qū)塊鏈技術(shù).

      陳 ? 剛(1973-),男,博士,教授.研究領(lǐng)域:大數(shù)據(jù)管理.

      猜你喜歡
      知識(shí)圖譜
      國(guó)內(nèi)外智庫研究態(tài)勢(shì)知識(shí)圖譜對(duì)比分析
      國(guó)內(nèi)信息素養(yǎng)研究的知識(shí)圖譜分析
      國(guó)內(nèi)圖書館嵌入式服務(wù)研究主題分析
      國(guó)內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢(shì)
      近十五年我國(guó)小學(xué)英語教學(xué)研究的熱點(diǎn)、問題及對(duì)策
      基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績(jī)效可視化分析
      基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
      國(guó)內(nèi)酒店品牌管理研究進(jìn)展的可視化分析
      從《ET&S》與《電化教育研究》對(duì)比分析中管窺教育技術(shù)發(fā)展
      專家知識(shí)圖譜構(gòu)建研究
      潼南县| 绵竹市| 平顶山市| 梨树县| 尖扎县| 云和县| 兰坪| 错那县| 石柱| 宁津县| 大兴区| 鸡泽县| 崇阳县| 黄冈市| 定远县| 瓦房店市| 河池市| 丰宁| 定日县| 寿阳县| 左权县| 泾川县| 诏安县| 思茅市| 华坪县| 舒兰市| 贵南县| 建昌县| 东丽区| 宜兰县| 内乡县| 保亭| 郓城县| 方城县| 大田县| 德安县| 余庆县| 遂昌县| 安义县| 广宗县| 丽水市|