• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于圖數(shù)據(jù)庫的電影知識圖譜應(yīng)用研究

      2016-09-20 07:22:38陸曉華張宇錢進四川大學(xué)計算機學(xué)院成都60065成都航空職業(yè)技術(shù)學(xué)院成都60065重慶市通信服務(wù)產(chǎn)業(yè)有限公司移動服務(wù)分公司重慶40400
      現(xiàn)代計算機 2016年7期
      關(guān)鍵詞:命名圖譜實體

      陸曉華,張宇,錢進(.四川大學(xué)計算機學(xué)院,成都 60065;.成都航空職業(yè)技術(shù)學(xué)院,成都 60065;.重慶市通信服務(wù)產(chǎn)業(yè)有限公司移動服務(wù)分公司,重慶 40400)

      基于圖數(shù)據(jù)庫的電影知識圖譜應(yīng)用研究

      陸曉華1,張宇2,錢進3
      (1.四川大學(xué)計算機學(xué)院,成都610065;2.成都航空職業(yè)技術(shù)學(xué)院,成都610065;3.重慶市通信服務(wù)產(chǎn)業(yè)有限公司移動服務(wù)分公司,重慶404100)

      0 引言

      知識圖譜,也被稱為科學(xué)知識圖譜、知識域可視化或知識域映射地圖,是顯示科學(xué)知識的發(fā)展進程與結(jié)構(gòu)關(guān)系的的一系列各種不同的圖形。它用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系[1]。

      具體來說,知識圖譜是把應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,用可視化的圖譜形象地展示學(xué)科的核心框架、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu)的多學(xué)科融合的一種研究方法。它把復(fù)雜的知識領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制而顯示出來,揭示知識領(lǐng)域的動態(tài)發(fā)展規(guī)律,為學(xué)科研究提供切實的、有價值的參考[1]。

      近些年,隨著大數(shù)據(jù)時代的到來,知識圖譜已經(jīng)在其他領(lǐng)域有所應(yīng)用。Google早在2012年就發(fā)布了“知識圖譜”,利用知識圖譜將Google的搜索結(jié)果進行知識系統(tǒng)化。當用戶在搜索某一關(guān)鍵詞時,Google就會在搜索結(jié)果的右邊給出該關(guān)鍵詞相關(guān)的信息,極大地方便了人們對信息的搜索。2013年2月,百度也推出了自己的知識圖譜。不同于基于關(guān)鍵詞搜索的傳統(tǒng)搜索引擎,知識圖譜可用來更好地查詢復(fù)雜的關(guān)聯(lián)信息,從語義層面理解用戶意圖,改進搜索質(zhì)量。例如在百度的搜索框里輸入“馬云”的時候,搜索結(jié)果頁面的右側(cè)還會出現(xiàn)與“馬云”相關(guān)的人物,如圖1(a)所示;另外,對于包含邏輯關(guān)系的搜索語句例如 “馬云妻子”,百度能準確返回他的妻子“張瑛”,如圖1(b)所示。這就說明搜索引擎通過知識圖譜真正理解了用戶的意圖。

      知識圖譜的構(gòu)建主要包括知識單元的構(gòu)建、知識單元間關(guān)系的構(gòu)建和知識的可視化三個部分。其中前兩個部分是構(gòu)建知識圖譜的最基本任務(wù)。以往的知識圖譜研究多基于文獻來進行研究,將關(guān)鍵詞、摘要等結(jié)構(gòu)化信息可以直接作為知識單元進行構(gòu)建。而大數(shù)據(jù)概念的興起,將研究者的目光集中到互聯(lián)網(wǎng)的海量數(shù)據(jù)上來。這其中的信息多為非結(jié)構(gòu)化的文本,而且還含有大量雜訊,要對這些信息進行語義分析,提取出能用于可視化知識圖譜的知識單元并抽取出知識單元之間的關(guān)系就相當復(fù)雜了。另外,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫經(jīng)歷幾十年的發(fā)展,雖然具備較高的安全性和數(shù)據(jù)一致性,能夠依賴簡單的數(shù)據(jù)結(jié)構(gòu)表達豐富的語義信息,但是對于知識圖譜這樣連接相對豐富,查詢復(fù)雜的數(shù)據(jù)結(jié)構(gòu),效率上考慮已經(jīng)不適用了。在本文中,將對IMDB數(shù)據(jù)進行抓取并抽取出命名實體和實體關(guān)系,并通過Neo4j圖數(shù)據(jù)庫建立一個電影知識圖譜。

      圖1 百度搜索知識圖譜應(yīng)用

      1 知識圖譜構(gòu)建流程

      知識圖譜的構(gòu)建流程[2]通常包含下面幾個重要的環(huán)節(jié):構(gòu)建知識單元、單元關(guān)系抽取以及結(jié)構(gòu)化展示。在實現(xiàn)上,流程通常如圖2所示。通常我們把數(shù)據(jù)獲取和數(shù)據(jù)清洗歸結(jié)為數(shù)據(jù)準備階段。構(gòu)建知識單元的操作主要為提取文本中的命名實體信息;單元關(guān)系抽取主要是抽取出上一步提取出的命名實體之間的關(guān)系;結(jié)構(gòu)化展示即為利用數(shù)據(jù)可視化技術(shù)對提取出的實體和關(guān)系進行可視化處理。

      在實現(xiàn)上,構(gòu)建知識圖譜通常首先會從維基百科、百度百科等資源中提取所需內(nèi)容。本文的系統(tǒng)使用的電影及電影人數(shù)據(jù)來自于IMBD網(wǎng)站。利用爬蟲技術(shù)從互聯(lián)網(wǎng)空間中抓取的文本包含HTML標簽等雜訊,需要進行數(shù)據(jù)清洗。數(shù)據(jù)準備完成之后,我們通過統(tǒng)計機器學(xué)習(xí)算法提取文本中的命名實體,繼而通過特殊的正則模式匹配找出實體之間的關(guān)系,并將其持久化為csv文件。最后,我們將所有命名實體及實體關(guān)系導(dǎo)入Neo4j圖數(shù)據(jù)庫,以供數(shù)據(jù)可視化及知識圖譜內(nèi)部聯(lián)系的查詢。

      1.1數(shù)據(jù)來源

      基于目前的研究和技術(shù),通常的知識圖譜具有以下幾種類型[3]:(1)領(lǐng)域無關(guān)的知識圖譜;(2)特定領(lǐng)域的知識圖譜;(3)跨語言的知識圖譜。其中特定領(lǐng)域的知識圖譜,雖然內(nèi)容不及領(lǐng)域無關(guān)知識圖譜廣泛,但是能夠囊括特定領(lǐng)域中的知識內(nèi)容,更具有針對性,所以在特定領(lǐng)域中具有很好的應(yīng)用。例如,宜信將知識圖譜技術(shù)成功應(yīng)用在互聯(lián)網(wǎng)金融領(lǐng)域,創(chuàng)立了全球首個基于金融知識圖譜的金融云平臺,為客戶提供個性化的金融服務(wù),取得了很好的效果。

      知識圖譜類型的多樣化導(dǎo)致了知識圖譜構(gòu)建方法的多樣化,一般來說,根據(jù)知識圖譜數(shù)據(jù)來源劃分,又可以將知識圖譜構(gòu)建的方法分為基于網(wǎng)絡(luò)百科資源的知識圖譜構(gòu)建方法、基于結(jié)構(gòu)化數(shù)據(jù)的知識圖譜構(gòu)建方法、基于半結(jié)構(gòu)化數(shù)據(jù)的知識圖譜構(gòu)建方法和基于非結(jié)構(gòu)化數(shù)據(jù)的知識圖譜構(gòu)建方法。

      本文的系統(tǒng)數(shù)據(jù)采集自IMDB(互聯(lián)網(wǎng)電影數(shù)據(jù)庫)電影資料庫。IMDB是一個關(guān)于電影、電影演員、電視節(jié)目、電視明星、電子游戲和電影制作小組的在線數(shù)據(jù)庫。它是目前全球互聯(lián)網(wǎng)中最大的一個電影資料庫,里面包括了幾乎所有的電影,以及1982年以后的電視劇集。我們通過IMDB的電影及演員介紹頁面釆集各類實體信息,如圖3所示分別為IMDB電影頁面和演員頁面。通過對頁面標簽的正則匹配,我們可以提取出電影中的演職人員名單及其對應(yīng)的角色;同樣,對于演員頁面可以提取出其參與拍攝的電影及其飾演的角色。由此,我們可以得到演員-飾演-角色的關(guān)系。另外,對于電影而言,還可以抽取出例如電影分級、發(fā)行時間、發(fā)行公司、電影類型、電影評分等屬性;同樣,演員還有身高、生日、性別等人物屬性。

      圖2 知識圖譜構(gòu)建流程

      圖3 IMBD電影及人物頁面

      1.2命名實體識別

      知識圖譜構(gòu)建流程中的知識單元構(gòu)建通常是指提取文本中命名實體的識別。命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等。命名實體識別技術(shù)是信息抽取、信息檢索、機器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)必不可少的組成部分。

      基于統(tǒng)計機器學(xué)習(xí)的命名實體提取方法通常包括:隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵 (Maxmium Entropy,ME)、支持向量機(Support Vector Machine,SVM)、條件隨機場 (Conditional Ran-dom Fields,CRF)[4]。在這4種學(xué)習(xí)方法中,最大熵模型結(jié)構(gòu)緊湊,具有較好的通用性,主要缺點是訓(xùn)練時間復(fù)雜性非常高,有時甚至導(dǎo)致訓(xùn)練代價難以承受,另外由于需要明確的歸一化計算,導(dǎo)致開銷比較大。而條件隨機場為命名實體識別提供了一個特征靈活、全局最優(yōu)的標注框架,但同時存在收斂速度慢、訓(xùn)練時間長的問題。一般說來,最大熵和支持向量機在正確率上要比隱馬爾可夫模型高一些,但是隱馬爾可夫模型在訓(xùn)練和識別時的速度要快一些,主要是由于在利用Viterbi算法求解命名實體類別序列的效率較高。隱馬爾可夫模型更適用于一些對實時性有要求以及像信息檢索這樣需要處理大量文本的應(yīng)用,如短文本命名實體識別。

      在本文的系統(tǒng)實現(xiàn)中,我們的命名實體提取使用的是NLTK[10]庫中的最大熵算法。命名實體提取示例如圖4(a)所示。NLTK的命名實體識別使用的是MaxEnt分類器,其工作時有兩個原則:①總是試圖保持均勻分布(即最大化熵);②保持其統(tǒng)計概率與經(jīng)驗數(shù)據(jù)一致。NLTK提供了一個持久化的pickle文件,即為通過手動標記語料庫訓(xùn)練出的MaxEnt分類器實例。

      1.3實體關(guān)系抽取

      在知識圖譜構(gòu)建過程中,單元關(guān)系抽取通常在命名實體提取之后進行,就是提取出命名實體之間的聯(lián)系?;谀壳暗难芯浚呀?jīng)有許多關(guān)系實體關(guān)系抽取方法被應(yīng)用在各種實驗系統(tǒng)當中。這些方法所遵循的技術(shù)方法基本可以歸納為:基于模式匹配的關(guān)系抽取、基于詞典驅(qū)動的關(guān)系抽取、基于機器學(xué)習(xí)的關(guān)系抽取、基于Ontology的關(guān)系抽取以及混合抽取方法[5]。

      在關(guān)系抽取研究領(lǐng)域,普遍使用基于模式匹配的關(guān)系抽取方法。這種抽取方法通過運用語言學(xué)知識,在執(zhí)行抽取任務(wù)之前,構(gòu)造出若干基于語詞、基于詞性或基于語義的模式集合并存儲起來。當進行關(guān)系抽取時,將經(jīng)過預(yù)處理的語句片段與模式集合中的模式進行匹配。一旦匹配成功,就可以認為該語句片段具有對應(yīng)模式的關(guān)系屬性。

      圖4 

      在本文的系統(tǒng)中,一旦我們提取出命名實體,就可以基于模式匹配提取出它們之間的關(guān)系。如前所述,我們通常會尋找指定類型的命名實體之間的關(guān)系。進行這一任務(wù)的方法之一是首先尋找所有 (X,α,Y)形式的三元組,其中X和Y是指定類型的命名實體,α表示X和Y之間關(guān)系的字符串。NLTK提供了特殊的正則匹配方式,可以方便對詞性、命名實體類別等進行模式匹配,提取出我們感興趣的元組。圖4(b)示例演示了使用NLTK抽取組織-地名關(guān)系的過程。同樣,我們可以使用NLTK編寫各種模式匹配抽取出人-人、人-電影之間的關(guān)系。

      2 圖數(shù)據(jù)庫設(shè)計

      在數(shù)據(jù)存儲領(lǐng)域,關(guān)系模型曾經(jīng)是數(shù)據(jù)存儲的主流,近年來逐漸被NoSQL數(shù)據(jù)庫取代。NoSQL,泛指非關(guān)系型的數(shù)據(jù)庫,通常分為鍵值(Key-Value)存儲數(shù)據(jù)庫、列存儲數(shù)據(jù)庫、文檔型數(shù)據(jù)庫和圖數(shù)據(jù)庫。圖5(a)是來自db-engines網(wǎng)站的統(tǒng)計數(shù)據(jù),展示了2013年以來各類數(shù)據(jù)庫系統(tǒng)的使用情況,其中,圖數(shù)據(jù)庫的使用率上漲了5倍多。

      圖形數(shù)據(jù)庫中每個對象是一個節(jié)點,而對象之間的關(guān)系是一條邊。相對于關(guān)系數(shù)據(jù)庫來說,圖形數(shù)據(jù)庫善于處理大量復(fù)雜、互連接、低結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)變化迅速,需要頻繁的查詢——在關(guān)系數(shù)據(jù)庫中,由于這些查詢會導(dǎo)致大量的表連接,從而導(dǎo)致性能問題,而且在設(shè)計使用上也不方便。圖形數(shù)據(jù)庫適合用于社交網(wǎng)絡(luò),推薦系統(tǒng)等專注于構(gòu)建關(guān)系圖譜的系統(tǒng)。圖數(shù)據(jù)庫用圖來存儲數(shù)據(jù),是最接近高性能的一種用于存儲數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)方式之一。

      知識圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu),它的存儲方式主要有兩種形式:RDF存儲格式和圖數(shù)據(jù)庫[6]。圖數(shù)據(jù)庫的代表有 Neo4J、Titan、OrientDB、DEX、AllegroGraph、GraphDB等。圖5(b)展示了目前比較流行的基于圖存儲的數(shù)據(jù)庫性能情況?;赟 Jouili的研究,Neo4j[7]在存儲查詢等方面性能均優(yōu)于其他圖數(shù)據(jù)庫,在工業(yè)上具有廣泛的應(yīng)用[8]。

      通常,現(xiàn)實生活中的實體和關(guān)系普遍都比較復(fù)雜當然,而且常常查詢涉及到1度以上的關(guān)聯(lián)查詢,如果使用關(guān)系型數(shù)據(jù)庫存儲知識圖譜會形成性能瓶頸。對于復(fù)雜的關(guān)系網(wǎng)絡(luò),基于圖數(shù)據(jù)庫存儲優(yōu)勢非常明顯。首先,在關(guān)聯(lián)查詢的效率上會比傳統(tǒng)的存儲方式有顯著的提高。當涉及到2~3度的關(guān)聯(lián)查詢時,基于知識圖譜的查詢效率會比關(guān)系型數(shù)據(jù)庫高出幾千倍甚至幾百萬倍。其次,基于圖的存儲在設(shè)計上會非常靈活,一般只需要局部的改動即可。例如我們有一個新的數(shù)據(jù)源,我們只需要在已有的圖譜上插入就可以。與此相反,關(guān)系型存儲方式靈活性方面就比較差,它所有的Schema都是提前定義好的,如果后續(xù)要改變,它的代價就非常高。最后,把實體和關(guān)系存儲在圖數(shù)據(jù)結(jié)構(gòu)是一種符合整個故事邏輯的最好的方式。

      在本文的系統(tǒng)中,我們設(shè)計的節(jié)點主要有兩種類型,分為Movie和Person類型,而關(guān)系類型主要有4種,分別為:ACTED_IN、DIRECTED、PRODUCED、WROTE。具體的,Movie還有電影分級、發(fā)行時間、發(fā)行公司、電影類型、電影評分等屬性;而Person也有身高、生日、性別等屬性。此外,所有的關(guān)系都是有向邊,例如ACTED_IN就是一條有Person指向Movie的邊,其屬性是演員在該電影中飾演的角色名。

      3 系統(tǒng)實現(xiàn)及實驗結(jié)果

      圖5 

      本文的系統(tǒng)主要使用Python實現(xiàn),主要分為3個模塊:數(shù)據(jù)采集模塊、數(shù)據(jù)提取模塊以及Neo4j圖數(shù)據(jù)庫導(dǎo)入模塊。數(shù)據(jù)采集模塊主要是通過Python的url-lib2庫爬取相關(guān)的IMDB網(wǎng)頁,然后使用BeautifulSoup庫清洗掉網(wǎng)頁中的HTML標簽,這樣得到的純文本數(shù)據(jù)以供后面的數(shù)據(jù)提取工作。命名實體的識別和實體關(guān)系的提取主要是通過Python的NLTK庫實現(xiàn)。我們將識別出的命名實體及關(guān)系分別存儲為csv文件,以方便后續(xù)導(dǎo)入Neo4j圖數(shù)據(jù)庫。在最新版本的Neo4j系統(tǒng)中,提供了一個大規(guī)模并行的可伸縮csv導(dǎo)入工具,該工具為Neo4j目錄./bin/neo4j-import。在使用neo4jimport時,需要將待導(dǎo)入的csv文件表頭定制為指定格式——顯示地節(jié)點指定 ID和 LABEL以及邊的START_ID和END_ID等。

      本文所構(gòu)建的電影知識圖譜示意如圖6所示,其中,(a)圖為全量數(shù)據(jù)可視化之后的局部截圖,(b)為隨機查詢的25條邊視圖以及它們之間的聯(lián)系;(c)為隨機查詢的25個節(jié)點視圖以及它們之間的聯(lián)系。從我們構(gòu)建的電影知識圖譜,可以非常容易地分析電影節(jié)點及電影人節(jié)點,以及它們之間的關(guān)系,推理出演員之間是否認識或者間接認識,從而推斷出是否存在合作的可能等。

      Neo4j系統(tǒng)提供了名為Cypher的查詢語言。Cypher是一種可以對圖形數(shù)據(jù)庫進行查詢和更新的圖形查詢語言,它類似于關(guān)系數(shù)據(jù)庫的SQL語言。Cypher的語法并不復(fù)雜,但是它的功能卻非常強大,它可以實現(xiàn)SQL難以實現(xiàn)的功能。在本文的知識圖譜中,我們可以通過編寫Cypher查詢語句,探索數(shù)據(jù)內(nèi)部的關(guān)系。例如,六度分割理論中曾指出任何兩個人之間所間隔的人不會超過六個。只要數(shù)據(jù)足夠完整,釆用Cypher可以很容易地找到任何兩個人之間是通過哪些人聯(lián)系起來的,而這一點是SQL很難實現(xiàn)的。

      程序1所示的Cypher語句,可以查詢Kevin Bacon 和Meg Ryan之間到最短路徑,如圖8(a)所示:Kevin Bacon和 Tom Cruise合作出演過電影 A Few Good Men;而Tom Cruise和Meg Ryan通過Top Gun結(jié)識。

      相似地程序2所示的查詢語句,可以查詢到Tom Hanks和Tom Cruise兩位演員之間相距1跳的聯(lián)系。查詢結(jié)果如圖8(b)所示。

      圖6 電影知識圖譜示例

      知識圖譜的另一個應(yīng)用是可以用于推薦系統(tǒng)。這其中,最著名的就是 Taher H.Haveliwala設(shè)計的PersonalRank算法[9]:在計算所有節(jié)點相對于用戶u的相關(guān)度時,PersonalRank算法從用戶u對應(yīng)的節(jié)點開始游走,每到一個節(jié)點都以1-d的概率停止游走并從u重新開始,或者以d的概率繼續(xù)游走,從當前節(jié)點指向的節(jié)點中按照均勻分布隨機選擇一個節(jié)點往下游走。這樣經(jīng)過很多輪游走之后,每個頂點被訪問到的概率也會收斂趨于穩(wěn)定,這個穩(wěn)定的概率就可用進行排名。在本文的系統(tǒng)中,我們可以編寫簡單的Cypher語句給Tom Hanks推薦好友,推薦結(jié)果如表1所示。

      基于Neo4j圖數(shù)據(jù)構(gòu)建的電影知識圖譜系統(tǒng),具有界面友好,查詢方便,應(yīng)用廣泛的特點,在工業(yè)上具有廣闊的前景。本文雖然提出了基于圖數(shù)據(jù)庫的電影知識圖譜研究實現(xiàn),然而系統(tǒng)中還存在著許多不足和可以提高的地方。首先,我們只是提供了有限類型的邊和點節(jié)點;此外,僅僅提供了基于Cypher的查詢功能,還未集成相關(guān)的圖算法。后續(xù)工作中我們將結(jié)合Spark GraphX[11],運用圖算法進行大規(guī)模的知識圖譜分析,進而可以方便的實現(xiàn)社區(qū)發(fā)現(xiàn)、用戶影響力、人群劃分等功能。

      表1 Tom Hanks推薦結(jié)果

      圖8 Cypher查詢示例

      [1]秦長江,侯漢清.知識圖譜——信息管理與知識管理的新領(lǐng)域[J].大學(xué)圖書館學(xué)報,2009(1):30-37,96.

      [2]金貴陽,呂福在,項占琴.基于知識圖譜和語義網(wǎng)技術(shù)的企業(yè)信息集成方法[J].東南大學(xué)學(xué)報:自然科學(xué)版,2014(02):250-255. [3]梁秀娟.科學(xué)知識圖譜研究綜述[J].圖書館雜志,2009(6):58-62.

      [4]孫鎮(zhèn),王惠臨.命名實體識別研究進展綜述[J].現(xiàn)代圖書情報技術(shù),2010(6):42-47.

      [5]徐健,張智雄,吳振新.實體關(guān)系抽取的技術(shù)方法綜述[J].現(xiàn)代圖書情報技術(shù),2008(8):18-23.

      [6]Abreu D D,Flores A,Palma G,et al.Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data[J]. Cold,2013.

      [7]Webber J.A Programmatic Introduction to Neo4j[J].Addison Wesley Pub Co Inc,2012:217-218.

      [8]Jouili S,Vansteenberghe V.An Empirical Comparison of Graph Databases[C].2013 International Conference on Social Computing.IEEE Computer Society,2013:708-715.

      [9]Haveliwala T H.Topic-Sensitive PageRank:a Context-Sensitive Ranking Algorithm for Web Search[J].Knowledge&Data Engineering IEEE Transactions on,2003,15(4):784-796.

      [10]Loper E,Bird S.NLTK:The Natural Language Toolkit[C].Proceedings of the ACL-02 Workshop on Effective Tools and Methodologies for Teaching Natural Language Processing and Computational Linguistics-Volume 1.Association for Computational Linguistics, 2002:63-70.

      [11]Xin R S,Gonzalez J E,Franklin M J,et al.GraphX:a Resilient Distributed Graph System on Spark[C].First International Workshop on Graph Data Management Experiences&Systems.ACM,2013:1-6.

      張宇(1962-),教授,研究方向為模式識別,

      錢進,工程師,研究方向為通信傳輸

      Knowledge Graph;Graph Database;Neo4j

      Implementation of Movie Knowledge Graph Based on Graph Database

      LU Xiao-hua1,ZHANG Yu2,QIAN Jin3
      (1.College of Computer Science Sichuan University,Chengdu 610065 2.Chengdu Aeronautic Polytechnic,Chengdu 610065;3.Chongqing Communcation Industry Services Co.Ltd.,Chongqing 404100)

      1007-1423(2016)07-0076-08

      10.3969/j.issn.1007-1423.2016.07.018

      陸曉華(1988-),男,江蘇蘇州人,碩士,研究方向為機器學(xué)習(xí)、計算機視覺

      2015-01-12

      2016-02-25

      知識圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點和邊組成,其本質(zhì)上屬于語義網(wǎng)絡(luò)。近年來,伴隨著大數(shù)據(jù)概念的提出,知識圖譜已經(jīng)成為是當前的研究熱點。由于非結(jié)構(gòu)化文本的知識提取和數(shù)據(jù)可視化這兩方面的技術(shù)難點,目前知識圖譜應(yīng)用主要局限于搜索引擎和問答系統(tǒng)等方面。著眼于電影知識圖譜的設(shè)計與實現(xiàn),通過引入圖數(shù)據(jù)庫Neo4j,為知識圖譜的實現(xiàn)提供一種新的思路。

      知識圖譜;圖數(shù)據(jù)庫;Neo4j

      Knowledge graph is a graph-based data structure,consisting of nodes and edges,and it is essentially a semantic network.In recent years, along with the proposed concept of big data,knowledge graph has become the current research focus.As technical difficulties of knowl-edge extraction of unstructured text and data visualization,the current applications of knowledge graph mainly limited in the aspects of search engine and Q/A system.Focuses on the design and implementation of movie knowledge graph,by the introduction of the Neo4j graph database,provides a new way of thinking for the realization of knowledge graph.

      猜你喜歡
      命名圖譜實體
      命名——助力有機化學(xué)的學(xué)習(xí)
      繪一張成長圖譜
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      主動對接你思維的知識圖譜
      迁安市| 长治市| 福海县| 西和县| 财经| 页游| 清苑县| 诸城市| 嵊泗县| 高淳县| 磐安县| 平定县| 留坝县| 盈江县| 称多县| 临夏县| 鄂州市| 咸宁市| 奉节县| 马山县| 西乡县| 绵竹市| 鹿邑县| 忻城县| 犍为县| 虹口区| 拉孜县| 齐河县| 上虞市| 镇安县| 浠水县| 铜川市| 龙岩市| 尉犁县| 浦江县| 罗定市| 宁德市| 洞口县| 响水县| 隆安县| 紫金县|