李涓子,侯磊
(清華大學(xué) 計算機科學(xué)與技術(shù)系,北京 100084)
知識圖譜研究綜述
李涓子,侯磊*
(清華大學(xué) 計算機科學(xué)與技術(shù)系,北京 100084)
知識圖譜以結(jié)構(gòu)化的方式描述客觀世界中概念、實體及其間的關(guān)系,將互聯(lián)網(wǎng)的信息表達成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識圖譜與大數(shù)據(jù)和深度學(xué)習(xí)一起,正在成為推動人工智能發(fā)展的核心驅(qū)動力。文章概述了當(dāng)前已有的重要知識資源,對知識圖譜關(guān)鍵技術(shù)——知識表示、知識圖譜構(gòu)建和知識圖譜應(yīng)用進行了綜述,并對知識圖譜未來發(fā)展的挑戰(zhàn)和趨勢進行了總結(jié)展望。
知識圖譜;知識表示;知識獲取;語義集成;知識應(yīng)用
知識圖譜(Knowledge Graph, KG)旨在描述客觀世界的概念、實體、事件及其間的關(guān)系。其中,概念是指人們在認(rèn)識世界過程中形成的對客觀事物的概念化表示,如人、動物、組織機構(gòu)等;實體是客觀世界中的具體事物,如籃球運動員姚明、互聯(lián)網(wǎng)公司騰訊等;事件是客觀世界的活動,如地震、買賣行為等。關(guān)系描述概念、實體、事件之間客觀存在的關(guān)聯(lián),如畢業(yè)院校描述了個人與其所在院校的關(guān)系,運動員和籃球運動員之間概念和子概念的關(guān)系等。谷歌于2012年5月推出谷歌知識圖譜,增強其搜索引擎的搜索結(jié)果,標(biāo)志著大規(guī)模知識在互聯(lián)網(wǎng)語義搜索中的成功應(yīng)用。
知識圖譜將互聯(lián)網(wǎng)的信息表達成更接近人類認(rèn)知世界的形式,提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識圖譜給互聯(lián)網(wǎng)語義搜索帶來了活力,同時也在智能問答、大數(shù)據(jù)分析與決策中顯示出強大威力,已經(jīng)成為互聯(lián)網(wǎng)基于知識的智能服務(wù)的基礎(chǔ)設(shè)施。知識圖譜與大數(shù)據(jù)和深度學(xué)習(xí)一起,成為推動人工智能發(fā)展的核心驅(qū)動力之一。
知識圖譜技術(shù)是指在建立知識圖譜中使用的技術(shù),是融合認(rèn)知計算、知識表示與推理、信息檢索與抽取、自然語言處理與語義Web、數(shù)據(jù)挖掘與機器學(xué)習(xí)等技術(shù)的交叉研究。知識圖譜研究,一方面探索從互聯(lián)網(wǎng)語言資源中獲取知識的理論和方法;另一方面促進知識驅(qū)動的語言理解研究。隨著大數(shù)據(jù)時代的到來,研究從大數(shù)據(jù)中挖掘隱含的知識理論與方法,將大數(shù)據(jù)轉(zhuǎn)化為知識,增強對互聯(lián)網(wǎng)資源的內(nèi)容理解,將促進當(dāng)代信息處理技術(shù)從信息服務(wù)向知識服務(wù)轉(zhuǎn)變。具體地,知識圖譜技術(shù)包括知識表示、知識圖譜構(gòu)建和知識圖譜應(yīng)用三方面的研究內(nèi)容。
?知識表示研究客觀世界知識的建模,以方便機器識別和理解,既要考慮知識的表示與存儲,又要考慮知識的使用和計算;
?知識圖譜構(gòu)建解決如何建立計算機算法從客觀世界或者互聯(lián)網(wǎng)的各種數(shù)據(jù)資源中獲取客觀世界的知識,主要研究使用何種數(shù)據(jù)和方法抽取何種知識;
?知識圖譜應(yīng)用主要研究如何利用知識圖譜建立基于知識的智能服務(wù)系統(tǒng),更好地解決實際應(yīng)用問題。
知識圖譜經(jīng)歷了由人工和群體智慧構(gòu)建,到面向互聯(lián)網(wǎng)利用機器學(xué)習(xí)和信息抽取技術(shù)自動獲取的過程。根據(jù)信息來源和獲取方式的不同,目前的知識圖譜分為以下幾類。
依靠人工構(gòu)建的知識資源:早期知識資源通過人工添加和合作編輯獲得,如英文WordNet[1]和Cyc項目[2]以及中文的HowNet。Cyc是一個通用的世界知識庫,始建于1984年,其目的是將上百萬條知識編碼為機器可處理形式,并在此基礎(chǔ)上實現(xiàn)知識推理等人工智能相關(guān)任務(wù),共包含了五十萬實體,近三萬個關(guān)系以及五百萬事實。
基于群體智能的知識圖譜:維基百科是至今利用群體智能建立的互聯(lián)網(wǎng)上最大的知識資源,因此出現(xiàn)了很多使用維基百科構(gòu)建知識庫的項目,如DBpedia[3-4]、YAGO[5-6]和Freebase[7]等。DBpedia以構(gòu)建本體的形式對知識條目進行組織。YAGO融合WordNet良好的概念層次結(jié)構(gòu)和維基百科中的大量實體數(shù)據(jù)。Freebase是基于維基百科,使用群體智能方法建立的包含6 800萬實體的結(jié)構(gòu)化數(shù)據(jù)的知識圖譜。清華大學(xué)和上海交通大學(xué)通過利用互動百科、百度百科,建立大規(guī)模知識圖譜XLORE[8]和Zhishi.me[9]。XLORE以英文維基百科為橋梁,通過跨語言鏈接技術(shù),建立融合了四大中英文百科數(shù)據(jù)的跨語言知識庫。
基于互聯(lián)網(wǎng)鏈接數(shù)據(jù)構(gòu)建的知識資源:國際萬維網(wǎng)組織W3C于2007年發(fā)起的開放互聯(lián)數(shù)據(jù)項目(Linked Open Data, LOD),為實現(xiàn)網(wǎng)絡(luò)環(huán)境下的知識發(fā)布、互聯(lián)、共享和服務(wù)提供了創(chuàng)新技術(shù),為智能搜索、知識問答和語義集成提供了創(chuàng)新源動力。Sean Bechhofer[10]等人在科學(xué)領(lǐng)域自建了一個近似于Linked Data的語義數(shù)據(jù)資源,該資源包含更準(zhǔn)確的學(xué)術(shù)用語,并能很好地反映研究者的影響力。
基于機器學(xué)習(xí)和信息抽取構(gòu)建的知識圖譜:從互聯(lián)網(wǎng)數(shù)據(jù)自動獲取知識是建立可持續(xù)發(fā)展知識圖譜的發(fā)展趨勢。這類知識圖譜構(gòu)建的特點是面向互聯(lián)網(wǎng)的大規(guī)模、開放、異構(gòu)環(huán)境,利用機器學(xué)習(xí)和信息抽取技術(shù)自動獲取Web上的信息構(gòu)建知識庫。如華盛頓大學(xué)圖靈中心的KnowItAll[11]和TextRunner[12]、卡內(nèi)基梅隆大學(xué)的 “永不停歇的語言學(xué)習(xí)者” (Never-Ending Language Learner,NELL)[13]都是這種類型的知識庫。
知識表示技術(shù)可以分成符號主義和聯(lián)結(jié)主義。符號主義的基礎(chǔ)是紐威爾和西蒙提出的物理符號系統(tǒng)假設(shè)[14],認(rèn)為人類認(rèn)知和思維的基本單元是符號,而認(rèn)知過程就是在符號表示上的運算。聯(lián)結(jié)主義認(rèn)為,人的認(rèn)知就是相互聯(lián)系的具有一定活性值的神經(jīng)單元所形成網(wǎng)絡(luò)的整體活動,知識信息不存在于特定的點,而是在神經(jīng)網(wǎng)絡(luò)的聯(lián)結(jié)或者權(quán)重中。具體的表示方法可以分為三類。
2.1 基于符號邏輯的知識表示
基于符號邏輯進行知識表示和推理,主要包括邏輯表示法(如一階邏輯、描述邏輯)、產(chǎn)生式表示法和框架表示等。邏輯表示與人類的自然語言比較接近,是最早使用的一種知識表示方法?;诜栠壿嫷闹R表示技術(shù)雖然可以很好地描述邏輯推理,然而機器生成推理規(guī)則的能力很弱,往往需要大量的人力,而且傳統(tǒng)方法對數(shù)據(jù)的質(zhì)量要求較高。因此,在目前大規(guī)模數(shù)據(jù)時代,基于符號邏輯的方法已經(jīng)不能很好地解決知識表示的問題。
2.2 萬維網(wǎng)內(nèi)容的知識表示
Tim Berners-Lee 在其著作《Waving the Web》[15]中提出了語義網(wǎng)(Semantic Web)的概念。在語義網(wǎng)中,網(wǎng)絡(luò)內(nèi)容均有確定的意義,而且可以很容易地被計算機理解、獲取和集成?;ヂ?lián)網(wǎng)信息的描述主要包括基于標(biāo)簽的半結(jié)構(gòu)置標(biāo)語言XML 、基于萬維網(wǎng)資源語義元數(shù)據(jù)描述框架RDF 和基于描述邏輯的本體描述語言O(shè)WL 等。XML通過為內(nèi)容置標(biāo),便于數(shù)據(jù)交換;RDF通過三元組(主體,謂詞,客體)描述互聯(lián)網(wǎng)資源之間的語義關(guān)系;OWL構(gòu)建在RDF之上,是具有更強表達及解釋能力的語言。這些技術(shù)使我們可以將機器理解和處理的語義信息表示在萬維網(wǎng)上,當(dāng)前在工業(yè)界大規(guī)模應(yīng)用的是基于RDF三元組的表示方法。
2.3 表示學(xué)習(xí)
表示學(xué)習(xí)的目標(biāo)是通過機器學(xué)習(xí)或深度學(xué)習(xí),將研究對象的語義信息表示為稠密低維的實值向量。對不同粒度知識單元進行隱式的向量化表示,以支持大數(shù)據(jù)環(huán)境下知識的快速計算,主要包括張量重構(gòu)[16-17]和勢能函數(shù)[18-21]的方法。張量重構(gòu)綜合整個知識庫的信息,但在大數(shù)據(jù)環(huán)境下張量維度很高,重構(gòu)的計算量較大。勢能函數(shù)方法認(rèn)為,關(guān)系是頭實體到尾實體一種平移變換,Bordes等人提出的TransE模型[19]是平移模型的代表。之后有大量的工作對TransE進行擴展和應(yīng)用,如通過優(yōu)化向量化表示模型[22]、結(jié)合文本等外部信息[23-25]、應(yīng)用邏輯推理規(guī)則[26]等方法,提升表示學(xué)習(xí)效果,以表示更復(fù)雜的關(guān)系[27-28]。相比傳統(tǒng)方法,知識表示學(xué)習(xí)方法可以顯著提升計算效率,有效緩解數(shù)據(jù)稀疏性,更容易實現(xiàn)不同來源的異質(zhì)信息融合。
知識圖譜中知識的來源有兩類,一類是互聯(lián)網(wǎng)上分布、異構(gòu)的海量資源;一類是已有的結(jié)構(gòu)化異構(gòu)語義資源。從第一類資源中構(gòu)建知識圖譜的方法根據(jù)獲取知識的類型分為概念層次學(xué)習(xí)、事實學(xué)習(xí)等,而針對第二類資源進行的工作是異構(gòu)資源的語義集成。
3.1 概念層次學(xué)習(xí)
概念是人們理解客觀世界的線索,是人們對客觀世界中的事物在不同層次上的概念化描述,概念層次是知識圖譜的“骨骼”。概念層次學(xué)習(xí)就是通過合理的技術(shù),抽取知識表示中的概念,并確定其上下位關(guān)系。概念層次學(xué)習(xí)多采用基于啟發(fā)式規(guī)則的方法,其基本思路是根據(jù)上下位概念的陳述模式,從大規(guī)模資源中找出可能具有上下位關(guān)系的概念對,并對上下位關(guān)系進行歸納。另一類是基于統(tǒng)計的概念層次學(xué)習(xí)方法[29],假設(shè)相同概念出現(xiàn)的上下文也相似,利用詞語或?qū)嶓w分布的相似性,通過定義計算特征學(xué)習(xí)概率模型來得到概念結(jié)構(gòu)。
3.2 事實學(xué)習(xí)
知識圖譜中事實以三元組的形式表示,事實數(shù)量決定了知識圖譜的豐富程度。按照知識圖譜構(gòu)建時采用的機器學(xué)習(xí)方法可以分為有監(jiān)督、半監(jiān)督及無監(jiān)督的知識圖譜構(gòu)建方法。
有監(jiān)督的事實知識獲取方法需要有已標(biāo)注文檔作為訓(xùn)練集,可以分為基于規(guī)則學(xué)習(xí)、基于分類標(biāo)注和基于序列標(biāo)注方法等?;谝?guī)則學(xué)習(xí)的語義標(biāo)注方法從帶語義標(biāo)注的語料中自動學(xué)習(xí)標(biāo)注規(guī)則,利用規(guī)則對數(shù)據(jù)資源進行語義標(biāo)注,適合比較規(guī)范資源上的知識獲取;基于分類的知識獲取方法將知識獲取轉(zhuǎn)化為分類問題,根據(jù)確定的標(biāo)注特征從標(biāo)注語料中學(xué)習(xí)標(biāo)注模型;基于序列模式標(biāo)注的方法同時考慮多個語義標(biāo)注之間的關(guān)系,可以提高標(biāo)注的準(zhǔn)確率。另外還包括其他(如考慮層次關(guān)系的)語義標(biāo)注的方法等。
半監(jiān)督的知識獲取方法主要包括自擴展方法和弱監(jiān)督方法。自擴展方法[30-31]需要初始的種子實體對,根據(jù)這些種子實體對,發(fā)現(xiàn)新的語義模板,再對語料進行迭代抽取以發(fā)現(xiàn)新的實體對,其主要問題是語義漂移;弱監(jiān)督方法使用知識庫中的關(guān)系啟發(fā)式地標(biāo)注文本,其主要問題在于訓(xùn)練實例中本身帶有大量噪音。近年來,基于深度學(xué)習(xí)的知識獲取越來越受到研究者的青睞,涌現(xiàn)出一批優(yōu)秀的研究工作[32-33]。
無監(jiān)督的知識獲取方法主要是開放信息抽取,使用自然語言處理方法,無須預(yù)先給定要抽取的關(guān)系類別,自動將自然語言句子轉(zhuǎn)換為命題,這種方法在處理復(fù)雜句子時效果會受到影響。代表性的系統(tǒng)有之前提到的KnowItAll,該系統(tǒng)具有領(lǐng)域無關(guān)特性,可以使用自擴展的方式從大規(guī)?;ヂ?lián)網(wǎng)信息中抽取語義信息,同時會自動地對抽取信息進行評估。
3.3 語義集成
知識庫間的異構(gòu)性阻礙了知識在整個語義網(wǎng)上的共享。語義集成,就是在異構(gòu)知識庫之間,發(fā)現(xiàn)實體間的等價關(guān)系,從而實現(xiàn)知識共享。由于知識庫多以本體的形式描述,因此語義集成中的主要環(huán)節(jié)是本體映射。主要方法包括:
?基于文本的方法主要利用本體中實體的文本信息,例如實體的標(biāo)簽和摘要。通過計算兩個實體字符串之間的相似度來確定實體之間是否具有匹配關(guān)系。
?基于結(jié)構(gòu)的方法主要利用本體的圖結(jié)構(gòu)信息對本體進行匹配。其中較為代表性的方法有SimRank[34]和相似度傳播[35],這些方法利用本體的圖結(jié)構(gòu),對實體間的相似度進行傳播,從而提高對齊的效果。
?基于背景知識的方法一般使用DBpedia或WordNet等已有的大規(guī)模領(lǐng)域無關(guān)知識庫作為背景知識來提高匹配效果。
?基于機器學(xué)習(xí)的方法將本體匹配問題視為機器學(xué)習(xí)中的分類或優(yōu)化問題,從而采取機器學(xué)習(xí)方法獲得匹配結(jié)果。例如,Niepert 等人將本體匹配轉(zhuǎn)換為馬爾可夫邏輯網(wǎng)絡(luò)問題,將本體中的各種信息轉(zhuǎn)化為各種約束條件,并求出最優(yōu)解[36]。
Google最初提出知識圖譜是為了增強搜索結(jié)果,改善用戶搜索體驗,但知識圖譜的應(yīng)用遠(yuǎn)不止這些,基于知識圖譜的服務(wù)和應(yīng)用是當(dāng)前的一大研究熱點。按照應(yīng)用方式可以分為語義搜索、知識問答,以及基于知識的大數(shù)據(jù)分析與決策等。
語義搜索:利用知識圖譜所具有的良好定義的結(jié)構(gòu)形式,以有向圖的方式提供滿足用戶需求的結(jié)構(gòu)化語義內(nèi)容,主要包括RDF和OWL的語義搜索引擎和基于鏈接數(shù)據(jù)的搜索等[37]。語義搜索利用建立大規(guī)模知識庫對搜索關(guān)鍵詞和文檔內(nèi)容進行語義標(biāo)注,改善搜索結(jié)果[38],如谷歌、百度和搜狗在搜索結(jié)果中嵌入知識圖譜,包括實體的結(jié)構(gòu)化信息和相關(guān)實體的描述。
知識問答:基于知識庫的問答[39-41]通過對問句的語義分析,將非結(jié)構(gòu)化問句解析成結(jié)構(gòu)化的查詢,在已有結(jié)構(gòu)化的知識庫上獲取答案。基于知識的問答依賴于語義解析器的性能,在面對大規(guī)模、開放域知識庫時性能較差。近年來很多研究者開始研究基于深度學(xué)習(xí)的知識庫問答方法[42-46],這類方法更具魯棒性。
知識驅(qū)動的大數(shù)據(jù)分析與決策:利用知識圖譜可以輔助行業(yè)和領(lǐng)域的大數(shù)據(jù)分析和決策。美國Netflix公司利用基于其訂閱用戶的注冊信息和觀看行為構(gòu)建的知識圖譜,分析了解到用戶很喜歡Fincher, Spacey主演的作品表現(xiàn)都不錯,以及英劇版的《紙牌屋》很受歡迎,因此決定拍攝了美劇《紙牌屋》,在美國及40多個國家成為熱門的在線劇集。
知識圖譜技術(shù)是人工智能知識表示和知識庫在互聯(lián)網(wǎng)環(huán)境下的大規(guī)模應(yīng)用,顯示出知識在智能系統(tǒng)中的重要性,是實現(xiàn)智能系統(tǒng)的基礎(chǔ)知識資源??v觀知識圖譜研究發(fā)展的相關(guān)研究現(xiàn)狀,以下研究將成為未來知識圖譜必須應(yīng)對的挑戰(zhàn):1)研究知識表示和獲取的新理論和方法,使知識既具有顯式的語義定義,又便于大數(shù)據(jù)下的知識計算;2)隨著信息技術(shù)從信息服務(wù)向知識服務(wù)的轉(zhuǎn)變,研究建立知識圖譜構(gòu)建的平臺,以服務(wù)不同的行業(yè)和應(yīng)用;3) 知識圖譜雖然已經(jīng)在語義搜索和知識問答等應(yīng)用中展示出一定的威力,但是基于知識圖譜的應(yīng)用研究遠(yuǎn)不止這些,如何進一步推進知識驅(qū)動的智能信息處理應(yīng)用是十分有價值的研究。
[1] Fellbaum C.WordNet[M].Hoboken:Blackwell Publishing Ltd,1998.
[2] Lenat D B.CYC:A Large-scale Investment in Knowledge Infrastructure[J].CommunicationsoftheACM,1995,38(11):33-38.DOI:10.1145/219717.219745.
[3] Bizer C,Lehmann J,Kobilarov G,etal.DBpedia-A Crystallization Point for the Web of Data[J].WebSemantics:Science,ServicesandAgentsontheWorldWideWeb,2009,7(3):154-165.DOI:10.1016/j.websem.2009.07.002.
[4] Auer S,Bizer C,Kobilarov G,etal.DBpedia:A Nucleus for a Web of Open Data[J].TheSemanticWeb,2007,4825:722-735.DOI:10.1007/978-3-540-76298-0-52.
[5] Suchanek F M,Kasneci G,Weikum G.Yago:A Core of Semantic Knowledge[C]∥Proceedings of the 16th international conference on World Wide Web.ACM,2007:697-706.DOI:10.1145/1242572.1242667.
[6] Suchanek F M,Kasneci G,Weikum G.Yago:A Large Ontology from Wikipedia and Wordnet[J].WebSemantics:Science,ServicesandAgentsontheWorldWideWeb,2008,6(3):203-217.DOI:10.1016/j.websem.2008.06.001.
[7] Bollacker K,Evans C,Paritosh P,etal.Freebase:A Collaboratively Created Graph Database for Structuring Human Knowledge[C]∥Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM,2008:1247-1250.DOI:10.1145/1376616.1376746.
[8] Wang Z,Li J,Wang Z,etal.Xlore:A Large-scale English-Chinese Bilingual Knowledge Graph[C]∥Proceedings of the 2013th International Conference on Posters & Demonstrations Track-Volume 1035.2013:121-124.
[9] Niu X,Sun X,Wang H,etal.Zhishi.me-weaving Chinese Linking Open Data[C]∥International Semantic Web Conference.Springer Berlin Heidelberg,2011,7032:205-220.DOI:10.1007/978-3-642-25093-4-14.
[10] Bechhofer S,Buchan I,De Roure D,etal.Why Linked Data is Not Enough for Scientists[J].FutureGenerationComputerSystems,2013,29(2): 599-611.DOI:10.1016/j.future.2011.08.004.
[11] Etzioni O,Cafarella M,Downey D,etal.Web-scale Information Extraction in Knowitall:(Preliminary Results)[C]∥Proceedings of the 13th international conference on World Wide Web.ACM,2004:100-110.DOI:10.1145/988672.988687.
[12] Yates A,Cafarella M,Banko M,etal.Textrunner:Open Information Extraction on the Web[C]∥Proceedings of Human Language Technologies:The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations.Association for Computational Linguistics,2007:25-26.
[13] Carlson A,Betteridge J,Kisiel B,etal.Toward an Architecture for Never-Ending Language Learning[C]∥Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence.2010,5:1306-1313.
[14] Newell A,Simon H A.Computer Science as Empirical Inquiry:Symbols and Search[J].CommunicationsoftheACM,1976,19(3):113-126.DOI:10.1145/360018.360022.
[15] Berners-Lee T,Fischetti M,Foreword By-Dertouzos M L.Weaving the Web:The Original Design and Ultimate Destiny of the World Wide Web by Its Inventor[M].San Francisco: HarperInformation,1999.
[16] Nickel M,Tresp V,Kriegel H P.A Three-way Model for Collective Learning on Multi-relational Data[C]∥Proceedings of the 28th international conference on machine learning.2011:809-816.
[17] Nickel M,Tresp V,Kriegel H P.Factorizing Yago:Scalable Machine Learning for Linked Data[C]∥Proceedings of the 21st International Conference on World Wide Web.ACM,2012: 271-280.DOI:10.1145/2187836.2187874.
[18] Bordes A,Weston J,Collobert R,etal.Learning Structured Embeddings of Knowledge Bases[C]∥Proceedings of the Twenty-Fifth AAAI Conference on Artificial Intelligence,2011:301-306.
[19] Bordes A,Usunier N,Garcia-Duran A,etal.Translating Embeddings for Modeling Multi-relational Data[C]∥Advances in Neural Information Processing Systems.2013:2787-2795.
[20] Bordes A,Glorot X,Weston J,etal.A Semantic Matching Energy Function for Learning with Multi-relational Data[J].MachineLearning,2014,94(2):233-259.DOI:10.1007/s10994-013-5363-6.
[21] Socher R,Chen D,Manning C D,etal.Reasoning with Neural Tensor Networks for Knowledge Base Completion[C]∥Advances in Neural Information Processing Systems,2013: 926-934.
[22] Lin Y,Liu Z,Sun M,etal.Learning Entity and Relation Embeddings for Knowledge Graph Completion[C]∥Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence,2015:2181-2187.
[23] Wang Zhen,Zhang Jianwen,Feng Jianlin,etal.Knowledge Graph and Text Jointly Embedding[C]∥Proceedings of the 2014 Conference on Empirical Methods on Natural Language Processing,2014:1591-1601.
[24] Wang Z,Li J Z.Text-Enhanced Representation Learning for Knowledge Graph[C]∥Proceeding of the 25th International Joint Conference on Artificial Intelligence,2016:1293-1299.
[25] Xie R,Liu Z,Jia J,etal.Representation Learning of Knowledge Graphs with Entity Descriptions[C]∥Proceedings of the 30th AAAI Conference on Artificial Intelligence,2016:2659-2665.
[26] Lin Y,Liu Z,Luan H,etal.Modeling Relation Paths for Representation Learning of Knowledge Bases[C]∥Proceedings of the 2014 Conference on Empirical Methods on Natural Language Processing,2015:705-714.
[27] Xie R,Liu Z,Sun M.Representation Learning of Knowledge Graphs with Hierarchical Types[C]∥Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence,2016:2965-2971.
[28] Lin Y,Liu Z,Sun M.Knowledge Representation Learning with Entities,Attributes and Relations[C]∥Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence,2016:2866-2872.
[29] Wu W,Li H,Wang H,etal.Probase:A Probabilistic Taxonomy for Text Understanding[C]∥Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data.ACM,2012:481-492.DOI:10.1145/2213836.2213891.
[30] Carlson A,Betteridge J,Wang R C,etal.Coupled Semi-supervised Learning for Information Extraction[C]∥Proceedings of the third ACM international conference on Web search and data mining.ACM,2010:101-110.DOI:10.1145/1718487.1718501.
[31] Shi B,Zhang Z,Sun L,etal.A Probabilistic Co-Bootstrapping Method for Entity Set Expansion[C]∥Proceedings of the 25th International Conference on Computational Linguistics,2014:2280-2290.
[32] Lin Y,Shen S,Liu Z,etal.Neural Relation Extraction with Selective Attention Over Instances[C]∥Proceedings of the 54th Annual Meeting of Association for Computational Linguistics,2016:2124-2133.
[33] Ji G,Liu K,He S,etal.Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions[C]∥Proceeding of the Thirty-First AAAI Conference on Artificial Intelligence,2017:3060-3066.
[34] Jeh G,Widom J.SimRank:A Measure of Structural-context Similarity[C]∥Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2002:538-543.DOI:10.1145/775047.775126.
[35] Melnik S,Garcia-Molina H,Rahm E.Similarity Flooding:A Versatile Graph Matching Algorithm and Its Application to Schema Matching[C]∥Proceedings of the 18th International Conference on Data Engineering.IEEE,2002:117-128.
[36] Niepert M,Meilicke C,Stuckenschmidt H.A Probabilistic-logical Framework for Ontology Matching[C]∥Proceedings of the Twenty-fourth AAAI Conference on Artificial Intelligence,2010:1413-1418.
[37] Qu Y,Cheng G.Falcons Concept Search:A Practical Search Engine for Web Ontologies[J].IEEETransactionsonSystems,Man,andCybernetics-PartA:SystemsandHumans,2011,41(4):810-816.
[38] Hua W,Wang Z,Wang H,etal.Understand Short Texts by Harvesting and Analyzing Semantic Knowledge[J].IEEEtransactionsonKnowledgeanddataEngineering,2017,29(3):499-512.
[39] Bron M,Balog K,De Rijke M.Example Based Entity Search in the Web of Data[C]∥European Conference on Information Retrieval.Springer Berlin Heidelberg,2013:392-403.DOI: 10.1007/978-3-642-36973-5-33.
[40] Cai Q,Yates A.Large-scale Semantic Parsing via Schema Matching and Lexicon Extension[C]∥Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,2013:423-433.
[41] Zettlemoyer L S,Collins M.Learning to Map Sentences to Logical form:Structured Classification with Probabilistic Categorical Grammars[C]∥Proceedings of the 21st Conference on Uncertainty in Artificial Intelligence,2015.
[42] Bordes A,Weston J,Usunier N.Open Question Answering with Weakly Supervised Embedding Models[C]∥Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Springer Berlin Heidelberg,2014:165-180.DOI:10.1007/978-3-662-44848-9-11.
[43] Bordes A,Chopra S,Weston J.Question Answering with Subgraph Embeddings[C]∥Proceedings of the 2014 Conference on Empirical Methods on Natural Language Processing.2014:615-620.
[44] Dong L,Wei F,Zhou M,etal.Question Answering over Freebase with Multi-Column Convolutional Neural Networks[C]∥Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.2015,1:260-269.
[45] Liu K,Zhao J,He S,etal.Question Answering over Knowledge Bases[J].IEEEIntelligentSystems,2015,30(5):26-35.
[46] Zhang Y,He S,Liu K,etal.A Joint Model for Question Answering over Multiple Knowledge Bases[C]∥Proceedings of the 30th AAAI Conference on Artificial Intelligence,2016: 3094-3100.
Reviews on Knowledge Graph Research
LI Juanzi,HOU Lei*
(Department of Computer Science and Technology, Tsinghua University, Beijing 100084,China)
Knowledge graph describes the real-world concepts, entities and their relationships in a structured way, expresses the Internet information in the form that is much closer to the human cognition, and provides a better ability to organize, manage and understand the mass information on the Internet. Knowledge graph, together with big data and deep learning, are becoming the core driving forces to promote the development of artificial intelligence. The paper outlines the existing important knowledge resources, reviews the key techniques about knowledge graph, namely, knowledge representation, construction and application, and finally summarizes the challenges and trends of the future development of knowledge graph.
knowledge graph;knowledge representation;knowledge acquisition;semantic integration;knowledge application
10.13451/j.cnki.shanxi.univ(nat.sci.).2017.03.008
2017-06-12;
2017-06-15
國家重點基礎(chǔ)研究發(fā)展計劃(973計劃No.2014CB340504);國家自然科學(xué)基金(No:61533018);教育部在線教育研究基金(全通教育)重點課題(No.2016ZD102)
李涓子(1964-),女,教授,博導(dǎo),主要研究方向為語義Web,新聞與社會挖掘。
侯磊(HOU Lei),E-mail:greener2009@gmail.com
TP391
A
0253-2395(2017)03-0454-06