劉鵬鵬,趙占芳,2,王 楠
(1. 河北地質(zhì)大學(xué)信息工程學(xué)院 河北 石家莊 050031;2. 河北省智能傳感物聯(lián)網(wǎng)技術(shù)工程研究中心 河北 石家莊 050031)
通過人物關(guān)系分析挖掘?qū)嶓w之間的聯(lián)系,在數(shù)據(jù)挖掘領(lǐng)域具有重要的研究意義。在信息資源的生成、利用和傳播過程中,人際關(guān)系網(wǎng)絡(luò)發(fā)揮著重要的主導(dǎo)作用。通過對(duì)人物關(guān)系的分析,可以揭示信息資源流動(dòng)和傳播的途徑,發(fā)現(xiàn)人物及信息資源的聚類,這對(duì)信息資源的數(shù)據(jù)挖掘應(yīng)用具有重要的價(jià)值。
當(dāng)前,通過對(duì)人物關(guān)系的分析來挖掘?qū)嶓w間的關(guān)聯(lián)關(guān)系已經(jīng)引起了國(guó)內(nèi)外一些學(xué)者的關(guān)注。國(guó)內(nèi),劉錦文對(duì)新聞數(shù)據(jù)中人物關(guān)系進(jìn)行了抽取與分析[1];周舸、楊岸楨等人對(duì)微博人物關(guān)系進(jìn)行了分析研究[2-3];許婷通過話單對(duì)人物關(guān)系進(jìn)行了挖掘研究[4]。國(guó)外,L. Galárraga 等[5]對(duì) DBpedia的人物名稱、地點(diǎn)名稱、機(jī)構(gòu)名稱等數(shù)據(jù)進(jìn)行了語義關(guān)系的挖掘;A. Spitz等[6]根據(jù)人物名稱、地點(diǎn)名稱、機(jī)構(gòu)名稱和時(shí)間數(shù)據(jù)構(gòu)建出適合跨文檔事實(shí)信息抽取的LOAD模型。
應(yīng)用知識(shí)圖譜構(gòu)建人物關(guān)系網(wǎng)絡(luò),進(jìn)行人物關(guān)系分析,是當(dāng)前流行的技術(shù)手段。知識(shí)圖譜以資源描述框架(簡(jiǎn)稱:RDF模型)為基本模型,它是一種流行的圖數(shù)據(jù)模型。但是RDF模型[7]具有一定的局限性:(1)RDF模型在數(shù)據(jù)表示方面缺乏必要的靈活性,尤其在多元關(guān)系的表示上難以擴(kuò)展和應(yīng)用;(2)RDF模型使用空白結(jié)點(diǎn)描述多元關(guān)系,而空白結(jié)點(diǎn)的使用對(duì)數(shù)據(jù)的檢索和遍歷帶來很大的障礙,極大地影響了信息檢索的性能。
標(biāo)記屬性圖模型也是當(dāng)前流行的圖數(shù)據(jù)模型,它是 Neo4j圖數(shù)據(jù)庫(kù)的基本數(shù)據(jù)模型[8]。在數(shù)據(jù)表示方面,標(biāo)記屬性圖模型允許結(jié)點(diǎn)和邊具有多個(gè)屬性,可以靈活表達(dá)多元關(guān)系,因此比RDF模型具有更強(qiáng)的表現(xiàn)力[9-10]。并且 Neo4j平臺(tái)提供了高性能的圖形算法庫(kù)和圖形分析控件,可以有效的揭示圖數(shù)據(jù)中隱藏的關(guān)系和結(jié)構(gòu),以圖形可視化的方式展示數(shù)據(jù)分析的知識(shí)發(fā)現(xiàn)。
基于此,本文提出了基于標(biāo)記屬性圖模型的人物關(guān)系的可視化分析框架,通過對(duì)人物實(shí)體條目抽取、數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理、標(biāo)記屬性圖模型構(gòu)建、圖數(shù)據(jù)生成,利于 Neo4j Browser平臺(tái)和Cypher語言實(shí)現(xiàn)了人物關(guān)系的可視化分析展示。本文所提出的數(shù)據(jù)分析的可視化框架對(duì)領(lǐng)域?qū)嶓w的關(guān)系分析,提供了一種通用的研究框架,為知識(shí)發(fā)現(xiàn)的深入挖掘提供了基礎(chǔ)服務(wù)。
本文的研究框架如圖1所示,包含數(shù)據(jù)采集、數(shù)據(jù)處理和可視化數(shù)據(jù)分析三個(gè)模塊。在數(shù)據(jù)采集模塊,從知識(shí)庫(kù)中抽取領(lǐng)域?qū)嶓w條目,用于構(gòu)建人物的實(shí)體集;在數(shù)據(jù)處理模塊,對(duì)抽取的實(shí)體屬性值進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,同時(shí)依據(jù)抽取的實(shí)體及屬性字段構(gòu)建標(biāo)記屬性圖模型,生成標(biāo)記屬性圖數(shù)據(jù);在可視化數(shù)據(jù)分析模塊,首先將圖數(shù)據(jù)導(dǎo)入數(shù)據(jù)分析平臺(tái),然后利用Cypher語言的遍歷及路徑算法、中心性算法、及其它分組統(tǒng)計(jì)算法,對(duì)圖數(shù)據(jù)進(jìn)行可視化的數(shù)據(jù)分析。
圖1 研究框架Fig.1 Research framework
1.2.1 數(shù)據(jù)源
Wikidata是百科類的超大規(guī)模知識(shí)庫(kù)之一。它可用于基于本體的語義檢索、知識(shí)可視化、知識(shí)庫(kù)建設(shè)等多種研究[11-14]。對(duì)于Wikidata的復(fù)用和研究在國(guó)外學(xué)術(shù)界非常廣泛,而Wikidata在國(guó)內(nèi)的應(yīng)用研究很少[15-16]。Wikidata提供了非常豐富的人物實(shí)體信息,本文選擇Wikidata作為數(shù)據(jù)分析的數(shù)據(jù)源。
1.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化預(yù)處理
通過維基數(shù)據(jù)查詢方式批量下載的CSV數(shù)據(jù)中,實(shí)體ID的屬性值格式是URI格式,其指向了維基百科的一個(gè)具體頁面;日期屬性值的格式是日期時(shí)間格式。在數(shù)據(jù)分析之前,需要將數(shù)據(jù)格式進(jìn)行標(biāo)準(zhǔn)化處理。
1.2.3 標(biāo)記屬性圖模型構(gòu)建
標(biāo)記屬性圖是當(dāng)前流行的圖數(shù)據(jù)模型,具有和RDF模型非常相似的結(jié)構(gòu),由結(jié)點(diǎn)、邊和屬性組成[17-18]。在標(biāo)記屬性圖模型中,實(shí)體或資源被表示為頂點(diǎn),它們之間的關(guān)系被表示為邊。構(gòu)建標(biāo)記屬性圖模型,要確定領(lǐng)域內(nèi)的實(shí)體集及其類型、確定實(shí)體的屬性集、構(gòu)建實(shí)體之間的關(guān)聯(lián)關(guān)系,明確其方向性、確定關(guān)系的屬性集。
1.2.4 基于Neo4j Browser平臺(tái)的Cypher語言可視化分析
Cypher語言提供了完善的圖形算法,包括遍歷和尋路算法、中心性算法和分類統(tǒng)計(jì)算法等。利用這些圖形算法,可以深入探索圖結(jié)構(gòu)中隱含的關(guān)聯(lián)關(guān)系,發(fā)現(xiàn)信息的分組聚類。動(dòng)態(tài)圖形顯示庫(kù)d3.js以可視化的形式展示數(shù)據(jù)分析的效果,使得數(shù)據(jù)分析的結(jié)論更加直觀、可讀、便于理解。
2.1.1 數(shù)據(jù)采集
Wikidata包含自1901年起的諾貝爾獎(jiǎng)得主的詳細(xì)信息,本文選取了諾貝爾化學(xué)獎(jiǎng)得主為研究對(duì)象,通過維基數(shù)據(jù)查詢(WDQ)的方式批量下載獲取數(shù)據(jù)。獲取的數(shù)據(jù)集包含迄今為止獲得諾貝爾化學(xué)獎(jiǎng)的共177位人物實(shí)體的條目信息。
2.1.2 數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)集中的實(shí)體 ID通常使用 URI來表示,例如,“http://www.wikidata.org/entity/Q7186”表示“瑪麗 居里”的實(shí)體ID。為了使數(shù)據(jù)描述更清晰、簡(jiǎn)潔并具有良好的可讀性,使用前綴“wd:”代替所有的“http://www.wikidata.org/entity/”描述。則“瑪麗·居里”的實(shí)體ID描述為“wd:Q7186”。其次,所有日期型的數(shù)據(jù)標(biāo)準(zhǔn)化為“YYYY/MM/DD”的格式。因 Cypher語言不支持日期格式,日期型數(shù)據(jù)以字符串形式存儲(chǔ)并表示。
考慮人物關(guān)系分析的基本目標(biāo),選擇諾貝爾獎(jiǎng)獲得者、導(dǎo)師、學(xué)生、就讀學(xué)校、供職單位、國(guó)籍和研究方向?yàn)闃?biāo)記屬性圖模型中的實(shí)體集。實(shí)體之間的關(guān)系包括:指導(dǎo)、就讀、供職、研究方向和所屬國(guó)籍。
圖2展示了“瑪麗 居里”的結(jié)點(diǎn)信息,圖3展示了“瑪麗 居里”部分實(shí)體關(guān)系信息。
圖2 “瑪麗·居里”的結(jié)點(diǎn)信息Fig.2 Node information of “Marie Curie”
圖3 “瑪麗 居里”人物實(shí)體的部分關(guān)系Fig.3 Part of the relationship of the character entity of “Marie Curie”
2.3.1 圖數(shù)據(jù)導(dǎo)入
將圖數(shù)據(jù)文件導(dǎo)入Neo4j Browser平臺(tái)包含3個(gè)步驟。第一步,導(dǎo)入各類實(shí)體集數(shù)據(jù)文件,生成結(jié)點(diǎn)信息。第二步,為每一類實(shí)體信息創(chuàng)建索引。索引的創(chuàng)建將有助于數(shù)據(jù)的查詢遍歷和統(tǒng)計(jì)分析。第三步,建立所有實(shí)體之間的關(guān)聯(lián)關(guān)系。
2.3.2 可視化數(shù)據(jù)分析
Neo4j平臺(tái)下Cypher語言提供了基于圖遍歷和路徑算法的高效查詢語句,可以實(shí)現(xiàn)關(guān)系探索、分組聚類、匯總統(tǒng)計(jì)等多種可視化的圖分析操作,本節(jié)通過對(duì)諾貝爾化學(xué)獎(jiǎng)得主的數(shù)據(jù)分析,給出了典型的可視化分析案例。
(1)最短路徑分析。圖4顯示了兩個(gè)獲獎(jiǎng)?wù)咧g存在3條最短路徑。
圖4 所有最短路徑分析Fig.4 All shortest path analysis
(2)圖遍歷。圖5展示了諾貝爾化學(xué)獎(jiǎng)得主的所有師生關(guān)系圖。圖中藍(lán)色結(jié)點(diǎn)表示諾貝爾獎(jiǎng)得主,紅色結(jié)點(diǎn)表示導(dǎo)師,紫色結(jié)點(diǎn)是他們所指導(dǎo)的博士生。
圖5 師生關(guān)系探索Fig.5 Exploration of teacher-student relationship
(3)分組聚類。由圖6可知,有5所高校培養(yǎng)了人數(shù)眾多的諾貝爾化學(xué)獎(jiǎng)得主,在化學(xué)研究領(lǐng)域的人才培養(yǎng)方面處于世界一流水平。
圖6 高校與諾貝爾化學(xué)獎(jiǎng)得主的關(guān)系探索Fig.6 Exploring the relationship between universities and Nobel Prize winners in chemistry
(4)分類匯總。通過分類統(tǒng)計(jì)進(jìn)行數(shù)據(jù)分析
圖 7統(tǒng)計(jì)了培養(yǎng)諾貝爾化學(xué)獎(jiǎng)人數(shù)最多的 5所高校的情況,其中哈佛大學(xué)共計(jì)培養(yǎng)了20名。圖8統(tǒng)計(jì)了英國(guó)的獲獎(jiǎng)?wù)咂溲芯糠较蛑饕性谀?個(gè)方向上,分別是哪些獲獎(jiǎng)?wù)摺?/p>
圖7 統(tǒng)計(jì)培養(yǎng)諾貝爾化學(xué)獎(jiǎng)最多的5所高校Fig.7 Statistics the five universities that produce the most Nobel Prize in Chemistry
本文探索了諾貝爾獎(jiǎng)得主之間任意兩個(gè)人物實(shí)體之間的關(guān)聯(lián)關(guān)系。圖4展示了兩名諾貝爾獎(jiǎng)得主之間的三條最短路徑。
其次,通過指定關(guān)聯(lián)關(guān)系的圖遍歷,可以發(fā)現(xiàn)實(shí)體關(guān)系中隱藏的分組聚類。圖5展示了以“師生關(guān)系”遍歷的結(jié)果,揭示了獲獎(jiǎng)?wù)咧g的師徒研究團(tuán)隊(duì)。可以挖掘到的事實(shí)如:歷史上,曾有5個(gè)師徒研究團(tuán)隊(duì)在化學(xué)領(lǐng)域做出了卓越的貢獻(xiàn)。其中以“Adolf von Baeyer”為中心的師徒團(tuán)隊(duì),自 1905—1950年間共有 9人獲獎(jiǎng);以“Ernest Rutherford”為核心的師徒團(tuán)隊(duì)盡管只有 3人獲獎(jiǎng),但其多達(dá)17名弟子的研究團(tuán)隊(duì)在化學(xué)研究領(lǐng)域依然做出很大貢獻(xiàn)。由師生關(guān)系所揭示的師徒研究團(tuán)隊(duì)的發(fā)現(xiàn),對(duì)學(xué)術(shù)流派演變和發(fā)展的研究具有重要的意義。
度中心性算法是最簡(jiǎn)單的中心性算法,它是度量某個(gè)結(jié)點(diǎn)在網(wǎng)絡(luò)中的聯(lián)結(jié)數(shù),聯(lián)結(jié)數(shù)越多,則此結(jié)點(diǎn)在網(wǎng)絡(luò)中就越處于關(guān)鍵地位。使用度中心性算法可以實(shí)現(xiàn)分組聚類分析。圖6以可視化的形式展示了度中心性算法的計(jì)算結(jié)果。
圖 6不僅展示了獲獎(jiǎng)?wù)咴诰妥x學(xué)校上的分組情況,還進(jìn)一步揭示了分組之間的關(guān)聯(lián)關(guān)系。例如,哈佛大學(xué)和劍橋大學(xué)的兩個(gè)分組中,具有唯一一個(gè)共同的結(jié)點(diǎn)“Roger Y. Tsien”,即“Roger Y.Tsien”曾在這兩所學(xué)校就讀過;哥倫比亞大學(xué)和哈佛大學(xué)的兩個(gè)分組之間具有 5個(gè)相關(guān)聯(lián)的結(jié)點(diǎn),其中有4人曾就讀過這兩所大學(xué),另一個(gè)展示了一個(gè)師生關(guān)系的聯(lián)系。這從一個(gè)側(cè)面說明這兩所大學(xué)在化學(xué)研究領(lǐng)域具有更多的交集和合作。
Cypher語言還提供了強(qiáng)大的數(shù)據(jù)分類匯總功能。圖 7統(tǒng)計(jì)了培養(yǎng)諾貝爾化學(xué)獎(jiǎng)得主較多的 5所著名的大學(xué)。圖8統(tǒng)計(jì)了獲得者主要集中的研究方向,及每一個(gè)方向上的獲獎(jiǎng)?wù)摺?/p>
圖8 統(tǒng)計(jì)英國(guó)諾貝爾化學(xué)獎(jiǎng)主要的研究方向Fig.8 statistics of the main research directions of British Nobel Prize in Chemistry
借助于Cypher統(tǒng)計(jì)函數(shù),還可以發(fā)現(xiàn)如下事實(shí)。諾貝爾化學(xué)獎(jiǎng)得主中,擁有美國(guó)國(guó)籍的人數(shù)最多是76人,其次是德國(guó)和英國(guó)。需要注意的是,有關(guān)德國(guó)的實(shí)體包括:德國(guó)、納粹德國(guó)、德意志帝國(guó)和西德。其中 4個(gè)女性、173個(gè)男性獲獎(jiǎng),獲獎(jiǎng)的年齡最小35歲,平均58歲,最大85歲,已經(jīng)去世的獲獎(jiǎng)?wù)咂骄挲g是78歲。
本文以Wikidata知識(shí)庫(kù)中1901-2017年間的177名諾貝爾化學(xué)獎(jiǎng)得主為研究對(duì)象,利用標(biāo)記屬性圖模型表示實(shí)體數(shù)據(jù)集,利用Neo4j Browser平臺(tái)進(jìn)行了人物關(guān)系的可視化分析。數(shù)據(jù)分析的結(jié)果揭示了在化學(xué)研究領(lǐng)域最知名的學(xué)術(shù)研究師生團(tuán)隊(duì)、具有一流教學(xué)水平的高校、以及諾貝爾化學(xué)獎(jiǎng)得主所聚集的科研機(jī)構(gòu)和研究方向等重要信息。實(shí)證實(shí)驗(yàn)說明,這種以屬性圖為基本模型的數(shù)據(jù)表示方式,在探索最短路徑、關(guān)鍵結(jié)點(diǎn)、共同鄰居和分組聚類等數(shù)據(jù)分析方面具有顯著的優(yōu)勢(shì)。并且在Neo4j Browser平臺(tái)下,將標(biāo)記屬性圖模型與編程工具相結(jié)合,更容易實(shí)施各種中心性算法和社區(qū)檢測(cè)算法。因此,本文下一步研究的目標(biāo)是,在標(biāo)記屬性圖模型上選擇適當(dāng)?shù)拈_發(fā)工具,實(shí)施中心性算法和社區(qū)檢測(cè)算法,進(jìn)行更為深入細(xì)致的數(shù)據(jù)分析與挖掘研究工作。