錢衛(wèi)寧,孫晨,程文亮,周傲英
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院, 上海 200062
面向圖數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)的知識(shí)圖譜統(tǒng)計(jì)特征分析
錢衛(wèi)寧,孫晨,程文亮,周傲英
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院, 上海 200062
近年來(lái),圖結(jié)構(gòu)數(shù)據(jù)在信息安全、科學(xué)研究、互聯(lián)網(wǎng)服務(wù)等各個(gè)領(lǐng)域被廣泛采用,圖數(shù)據(jù)管理系統(tǒng)也隨之快速發(fā)展。然而,當(dāng)前最主要的圖數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)都是面向社交網(wǎng)絡(luò)服務(wù)和分析應(yīng)用而設(shè)計(jì)和開發(fā)的。通過(guò)對(duì)知識(shí)圖譜(know ledgegraph)這一類快速發(fā)展的圖結(jié)構(gòu)數(shù)據(jù)的統(tǒng)計(jì)特征進(jìn)行分析,并和社交網(wǎng)絡(luò)進(jìn)行比較,展示知識(shí)圖譜和社交網(wǎng)絡(luò)的顯著區(qū)別,以此說(shuō)明現(xiàn)有圖數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)無(wú)法滿足知識(shí)圖譜管理的需要,進(jìn)一步展望圖數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)的需求和發(fā)展。
基準(zhǔn)評(píng)測(cè);圖數(shù)據(jù);知識(shí)圖譜;統(tǒng)計(jì)特征
近年來(lái)學(xué)術(shù)界和工業(yè)界都見(jiàn)證了大規(guī)模知識(shí)圖譜構(gòu)建和應(yīng)用的高漲熱情。知識(shí)圖譜已成為如擴(kuò)展查詢[1]、問(wèn)答系統(tǒng)[2]這樣的大規(guī)模Web應(yīng)用的核心模塊。例如,谷歌知識(shí)圖譜中就包含了超過(guò)5億個(gè)實(shí)體以及35億條事實(shí),用來(lái)完善谷歌搜索引擎的搜索結(jié)果①https:// googleblog.blogspot.com/2012/05/ introducingknowledgegraph-thingsnot.html。然而,面對(duì)如此龐大的知識(shí)圖譜數(shù)據(jù),如何對(duì)它進(jìn)行有效的管理就成了一個(gè)很重要的問(wèn)題。盡管已經(jīng)存在一些技術(shù),比如使用具有特定索引的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)或構(gòu)建本地圖數(shù)據(jù)管理系統(tǒng),但大規(guī)模圖數(shù)據(jù)的管理仍是一個(gè)研究難點(diǎn)和熱點(diǎn)[3]。因此,需要專門的圖數(shù)據(jù)管理評(píng)測(cè)基準(zhǔn)來(lái)更好地理解知識(shí)圖譜的構(gòu)建與應(yīng)用,并幫助用戶選擇合適的系統(tǒng)或技術(shù)。
目前已有的圖數(shù)據(jù)管理基準(zhǔn)評(píng)測(cè)主要是針對(duì)社交網(wǎng)絡(luò)圖譜管理應(yīng)用而設(shè)計(jì)的。例如,F(xiàn)acebook 的LinkBenck[4]、LDBC的SNB (social network benchmark)[5]以及之前的研究工作BSMA[6]等。但需要注意的是,知識(shí)圖譜與社交網(wǎng)絡(luò)之間的本質(zhì)區(qū)別在于知識(shí)圖譜中的頂點(diǎn)節(jié)點(diǎn)和邊都是用大量豐富的屬性或語(yǔ)義標(biāo)簽標(biāo)注過(guò)的,具有屬性和語(yǔ)義標(biāo)簽,而在社交網(wǎng)絡(luò)中這樣的頂點(diǎn)和邊卻很少。所以,認(rèn)為現(xiàn)有的面向社交網(wǎng)絡(luò)的評(píng)測(cè)基準(zhǔn)在對(duì)于知識(shí)圖譜數(shù)據(jù)的管理問(wèn)題中是不適用的。況且知識(shí)圖譜和社交網(wǎng)絡(luò)的應(yīng)用場(chǎng)景不同,導(dǎo)致它們的查詢負(fù)載也不相同。
本文將從描述知識(shí)圖譜結(jié)構(gòu)的統(tǒng)計(jì)特征這一特定視角,分析知識(shí)圖譜管理基準(zhǔn)評(píng)測(cè)的要求。通過(guò)對(duì)真實(shí)社交網(wǎng)絡(luò)和知識(shí)圖譜進(jìn)行統(tǒng)計(jì)特征分析,研究?jī)烧咧g的差異。
本文的貢獻(xiàn)如下。
● 為特征化圖譜結(jié)構(gòu)引入了4類分布特征指標(biāo),對(duì)知識(shí)圖譜進(jìn)行了定量和定性的分析,并分析展示了它們?cè)谥R(shí)圖譜的管理數(shù)據(jù)中的意義。
● 本文對(duì)4個(gè)知識(shí)圖譜和2個(gè)社交網(wǎng)絡(luò)進(jìn)行了深入的分析。其中,知識(shí)圖譜既包含了通用領(lǐng)域的知識(shí)圖譜,也包含專門領(lǐng)域的知識(shí)圖譜。通過(guò)實(shí)證,盡管展示了這些圖數(shù)據(jù)在某些特定的結(jié)構(gòu)特征上具有相似性,如頂點(diǎn)度數(shù)的冪律分布,但在其他特征上卻具有明顯的差異。同時(shí)本文也將差異存在的原因進(jìn)行了詳細(xì)分析。
● 分析了知識(shí)圖譜評(píng)測(cè)基準(zhǔn)中種子數(shù)據(jù)集以及數(shù)據(jù)生成器的一些要求,并分析了已有的社交網(wǎng)絡(luò)數(shù)據(jù)生成器不能滿足面向知識(shí)圖譜數(shù)據(jù)管理的評(píng)測(cè)基準(zhǔn)需要的原因。
本文分析2個(gè)社交網(wǎng)絡(luò)和4個(gè)知識(shí)圖譜數(shù)據(jù)集,簡(jiǎn)介如下。
社交網(wǎng)絡(luò):新浪微博是中國(guó)最重要的社交媒體服務(wù)之一。使用獲取自新浪微博的兩個(gè)關(guān)注關(guān)系圖數(shù)據(jù)集。第一個(gè)數(shù)據(jù)集是從整個(gè)用戶集中隨機(jī)獲取200000個(gè)用戶構(gòu)建的關(guān)注關(guān)系子圖SNRand。它包含了超過(guò)5000000個(gè)用戶間關(guān)注關(guān)系。第二個(gè)數(shù)據(jù)集挑選了200000個(gè)最活躍的用戶后所構(gòu)建的關(guān)注關(guān)系子圖SNRank。它包含了超過(guò)36000000個(gè)關(guān)注關(guān)系。需要注意的是,SNRand接近于真實(shí)的社交網(wǎng)絡(luò)數(shù)據(jù),SNRank則接近很多對(duì)熱點(diǎn)事件和用戶進(jìn)行分析的社交媒體分析應(yīng)用中所處理的數(shù)據(jù)。
WordNet[7]:它是由美國(guó)普林斯頓大學(xué)設(shè)計(jì)開發(fā)的基于認(rèn)知語(yǔ)言學(xué)的英語(yǔ)詞典。其中名詞、動(dòng)詞、形容詞和副詞等各自被組織成一個(gè)由同義詞詞集構(gòu)成的網(wǎng)絡(luò),每個(gè)同義詞集合都代表一個(gè)基本的語(yǔ)義概念,并且這些集合之間也由各種關(guān)系連接。在實(shí)驗(yàn)中直接利用WordNet,其中單詞或概念構(gòu)成了節(jié)點(diǎn),而語(yǔ)義關(guān)系則作為邊。
YAGO2[8]:YAGO2是一個(gè)繼承綜合了Wikipedia、WordNet 和GeoNames,經(jīng)過(guò)擴(kuò)展后得到的大型語(yǔ)義知識(shí)圖譜。從中生成了3個(gè)子圖,依次命名為YagoTax、YagoFact 和YagoWiki。其中YagoTax是YAGO2的分類知識(shí),包含了子類實(shí)體之間的從屬關(guān)系(subclassof)、上下位關(guān)系(isA)關(guān)系等;YagoFact則包含了YAGO2的所有事實(shí)關(guān)系,代表了事實(shí)性知識(shí);YagoWiki包含了YAGO2中包含的Wikipedia頁(yè)面之間的超鏈接關(guān)系,反映了Wikipedia的內(nèi)在超鏈接結(jié)構(gòu)。
DBpedia[9]:DBpedia是一個(gè)從Wikipedia中抽取得到的多語(yǔ)言知識(shí)庫(kù),其英文版本描述了4580000個(gè)實(shí)體和2795個(gè)不同屬性。基于DBpedia中所有事實(shí)性知識(shí)構(gòu)造了數(shù)據(jù)集DBpediaFact。
EKG:EKG(enterprise knowledge graph)是根據(jù)上海證劵交易所上市公司公報(bào)構(gòu)建的特定領(lǐng)域知識(shí)圖譜,包括企業(yè)和企業(yè)之間以及企業(yè)和人之間的assignment、hold、subcompany、changename、manager、cooperate、merge 7種關(guān)系,共包含51853個(gè)實(shí)體和430973個(gè)關(guān)系。
知識(shí)圖譜和社交網(wǎng)絡(luò)都可以用有向圖G=(V,E)表示,其中V是節(jié)點(diǎn)的集合,表征實(shí)體或用戶,E是有向邊的集合,表征語(yǔ)義關(guān)系。主要考量關(guān)于圖的4個(gè)分布特征,具體如下。
● 度數(shù)分布:圖G的度數(shù)分布是p(d)=nd/|V|,其中,nd表示度數(shù)為d的節(jié)點(diǎn)數(shù),|V|表示G中所有的節(jié)點(diǎn)數(shù)。在大多數(shù)圖中,度數(shù)服從冪律分布,即p(d)∝L(d)d-α,其中,α>1且L(d)是一個(gè)慢變函數(shù)。本文中將分別研究入度和出度。
● 跳數(shù)分布:對(duì)于圖G中的路徑P={v1,v2,…,vh}而言,其長(zhǎng)度被定義為Hops(P)=h–2,其中,h表示P中的節(jié)點(diǎn)數(shù)。跳數(shù)分布反映了圖中的連通代價(jià)。
● 連通分支的分布:強(qiáng)連通分支中任意兩個(gè)節(jié)點(diǎn)間相互可以到達(dá),弱連通分支則是在忽略邊的方向后任意兩個(gè)節(jié)點(diǎn)間可以連通。連通分支反映了圖的連通性。
● 聚類系數(shù)的分布:一個(gè)節(jié)點(diǎn)vi的聚集系數(shù)[10]的定義為Ci=|{ejk∶vj,vk∈Ni,ejk∈E}|/ [|Ni|(|Ni|-1)],其中,ejk是vj和vk之間的邊(j≠k),而Ni是vi的鄰居節(jié)點(diǎn)的集合。聚集系數(shù)衡量的是節(jié)點(diǎn)聚集的趨勢(shì)。
利用工具SNAP[11]計(jì)算了4個(gè)知識(shí)圖譜與2個(gè)社交網(wǎng)絡(luò)的統(tǒng)計(jì)特征?;诓煌哪繕?biāo)將圖譜分為3組進(jìn)行分析:為了研究同一知識(shí)圖譜的不同部分,比較了YAGO2的3個(gè)子圖;為了研究不同知識(shí)圖譜之間的差異性,考量了4類知識(shí)圖譜并對(duì)它們進(jìn)行橫向?qū)Ρ?;還將知識(shí)圖譜與社交網(wǎng)絡(luò)作對(duì)比,并解釋其間的區(qū)別及存在的原因。
圖1展示了所有知識(shí)圖譜以及社交網(wǎng)絡(luò)的節(jié)點(diǎn)入度和出度。所有數(shù)據(jù)集的入度分布都接近于冪律分布(如圖1(a)所示)。除了SNRank,這些冪律分布的指數(shù)α都在(1.8,2.4)附近。SNRank與其他數(shù)據(jù)集明顯不同,它的初始部分明顯偏離冪律,直到入度增加至560左右才服從冪律分布。這是因?yàn)镾NRank中只包含最活躍的社交網(wǎng)絡(luò)用戶,因此和其他數(shù)據(jù)集之間有明顯偏差。
圖1 知識(shí)圖譜與社交網(wǎng)絡(luò)節(jié)點(diǎn)度數(shù)分布
出度分布(如圖1(b)所示)不同,可以看出,不僅知識(shí)圖譜與社交網(wǎng)絡(luò)間,甚至知識(shí)圖譜之間也存在著明顯的區(qū)別。3個(gè)YAGO2子圖的出度分布具有顯著不同。所有的分布最初都偏離冪律且彼此間不同,分布的下降率也變化很廣,指數(shù)參數(shù)α波動(dòng)于1.4~8.4。需要注意,YagoTax作為這些知識(shí)圖譜數(shù)據(jù)集中唯一的層次狀數(shù)據(jù),其分布與其他知識(shí)圖譜數(shù)據(jù)和社交網(wǎng)絡(luò)數(shù)據(jù)都有著明顯的區(qū)別。
圖2 知識(shí)圖譜與社交網(wǎng)絡(luò)節(jié)點(diǎn)間距離分布與圖直徑
圖2展示了這些圖數(shù)據(jù)的節(jié)點(diǎn)間距離分布,均呈現(xiàn)為S型。為了使數(shù)據(jù)適合于某些曲線,引入Sigmoid函數(shù)f(x)=a/(1+eb-cx)即可對(duì)圖2(a)的數(shù)據(jù)進(jìn)行準(zhǔn)確建模。YagoTax和WordNet的直徑,即任意一對(duì)節(jié)點(diǎn)間的最大跳數(shù),普遍比其他數(shù)據(jù)集都大。而SNRand和SNRank的直徑最小,近似于6,這正符合社交網(wǎng)絡(luò)中的六度分隔現(xiàn)象[10]。另一個(gè)有趣的發(fā)現(xiàn)是,當(dāng)跳數(shù)由2增加至3時(shí),所有的分布都會(huì)產(chǎn)生爆炸式增長(zhǎng)。還有一個(gè)有趣的現(xiàn)象是除YagoTax以外,所有數(shù)據(jù)集的直徑和數(shù)據(jù)集節(jié)點(diǎn)個(gè)數(shù)的log值之間呈線性下降關(guān)系。這表明,這些數(shù)據(jù)集在節(jié)點(diǎn)間距離的分布上相似。
圖3 知識(shí)圖譜與社交網(wǎng)絡(luò)連通分支規(guī)模分布
圖3展示了連通分支的分布。除了YagoTax,知識(shí)圖譜的強(qiáng)、弱連通分支分布都服從冪律分布。這是因?yàn)閅agoTax是一棵擁有大量非連通葉子節(jié)點(diǎn)的扁平的樹。在SNRand和SNRank這樣的社交網(wǎng)絡(luò)中,只有一個(gè)最大的強(qiáng)連通分支和一小部分的孤立點(diǎn)。知識(shí)圖譜的強(qiáng)、弱連通分支的冪律分布顯示知識(shí)圖譜中的節(jié)點(diǎn)在小范圍內(nèi)聚集,而社交網(wǎng)絡(luò)中的節(jié)點(diǎn)則被組織為一個(gè)大的強(qiáng)連通分支。
圖4展示了平均聚類系數(shù)(average clustering coefficient,ACC)的分布。計(jì)算ACC時(shí),將圖視為無(wú)向圖且度數(shù)視為出度與入度的總和。圖4顯示除了SNRank以外,其他的圖在最初都傾向于呈現(xiàn)冪律分布,而SNRank則隨著x的增大曲線發(fā)生偏離。社交網(wǎng)絡(luò)的ACC一般高于知識(shí)圖譜,這也反映了知識(shí)圖譜的局部聚集屬性不如社交網(wǎng)絡(luò)。
進(jìn)一步將EKG包含的7種關(guān)系分為7個(gè)子圖。子圖的節(jié)點(diǎn)度數(shù)分布如圖5所示。從中可以看到,“manager”這一關(guān)系的出度分布在指數(shù)標(biāo)度上部分呈鐘形。這說(shuō)明,即使去除了分類層次等具有樹形或?qū)哟螤畹牟糠郑R(shí)圖譜的各部分的分布仍然有較大區(qū)別。
圖4 知識(shí)圖譜與社交網(wǎng)絡(luò)節(jié)點(diǎn)聚類系數(shù)分布
進(jìn)一步分析7個(gè)子圖的節(jié)點(diǎn)間距離分布,如圖6所示,可以看到,“manager”關(guān)系不同于其他子圖,而“hold”和“merge”又不同于其余4個(gè)子圖。這進(jìn)一步說(shuō)明了知識(shí)圖譜各部分之間存在較大區(qū)別。
這7個(gè)子圖并非在所有統(tǒng)計(jì)特征上都不相同。如圖7所示,在連通分支規(guī)模分布方面,這些子圖相互間差別較小。同樣,如圖8所示,除“changename”這一關(guān)系聚類系數(shù)較高以外,剩余6個(gè)子圖的聚簇特性相近。
圖5 企業(yè)知識(shí)圖譜各關(guān)系子圖的節(jié)點(diǎn)度數(shù)分布
圖6 企業(yè)知識(shí)圖譜各關(guān)系子圖的節(jié)點(diǎn)間距離分布
面向知識(shí)圖譜管理的評(píng)測(cè)基準(zhǔn)的制定需要建立在對(duì)知識(shí)圖譜的統(tǒng)計(jì)特征詳細(xì)分析的基礎(chǔ)上。在對(duì)復(fù)雜網(wǎng)絡(luò)的研究中,已經(jīng)提出了很多結(jié)構(gòu)度量標(biāo)準(zhǔn)和分布統(tǒng)計(jì)來(lái)對(duì)圖的統(tǒng)計(jì)特征建模。這些統(tǒng)計(jì)度量包括節(jié)點(diǎn)度數(shù)、跳數(shù)、直徑等。
研究人員已花費(fèi)了大量精力來(lái)分析大規(guī)模圖譜的結(jié)構(gòu)化屬性。Broder等人就通過(guò)一系列的圖結(jié)構(gòu)度量指標(biāo)(如直徑、節(jié)點(diǎn)、度等)來(lái)研究網(wǎng)絡(luò)[12]。在社交網(wǎng)絡(luò)方面,Kumar等人通過(guò)研究Flickr以及Yahoo! 360的動(dòng)態(tài)時(shí)距圖的結(jié)構(gòu)屬性諸如直徑、度、社區(qū)規(guī)模等指標(biāo)來(lái)研究其演變[13]。Boccaletti等人則調(diào)研了復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)和動(dòng)態(tài)變化[14]。筆者曾對(duì)包括EKG的一個(gè)早期版本的4個(gè)知識(shí)圖譜和2個(gè)社交網(wǎng)絡(luò)進(jìn)行統(tǒng)計(jì)特征分析[15]。隨著EKG的完善和規(guī)模增長(zhǎng),本文進(jìn)一步拓展了原有的分析。
與此同時(shí),大型圖譜大規(guī)模圖譜分析系統(tǒng)也在近年來(lái)得以迅速發(fā)展。Lancichinetti等人提出了關(guān)于節(jié)點(diǎn)度數(shù)和社區(qū)規(guī)模的具有分布不均勻性的圖數(shù)據(jù)評(píng)測(cè)基準(zhǔn)[16]。而在社交網(wǎng)絡(luò)評(píng)測(cè)基準(zhǔn)方面,LinkBench在對(duì)Facebook的社交網(wǎng)絡(luò)工作負(fù)載進(jìn)行特征分析的基礎(chǔ)上實(shí)現(xiàn)了評(píng)測(cè)基準(zhǔn)[4]。LDBC的社交網(wǎng)絡(luò)評(píng)測(cè)基準(zhǔn)(SNB)對(duì)一個(gè)類似于Facebook的綜合社交網(wǎng)絡(luò)進(jìn)行了建模,它也是第一個(gè)基于瓶頸分析的LDBC評(píng)測(cè)基準(zhǔn),準(zhǔn)確刻畫了負(fù)載處理上的技術(shù)挑戰(zhàn)[5]。BSMA是另一個(gè)社交媒體數(shù)據(jù)分析評(píng)測(cè)基準(zhǔn),旨在提供面向新浪微博分析的評(píng)測(cè)基準(zhǔn)[6,17]。
圖7 企業(yè)知識(shí)圖譜各關(guān)系子圖的連通分支分布
圖8 企業(yè)知識(shí)圖譜各關(guān)系子圖的節(jié)點(diǎn)聚類系數(shù)分布
本文分析了4個(gè)知識(shí)圖譜和2個(gè)社交網(wǎng)絡(luò)的統(tǒng)計(jì)特征。通過(guò)對(duì)它們的深入分析后可得出如下結(jié)論。
首先,知識(shí)圖譜與社交網(wǎng)絡(luò)在節(jié)點(diǎn)度數(shù)分布、節(jié)點(diǎn)間距離和網(wǎng)絡(luò)直徑、連通分支規(guī)模分布、節(jié)點(diǎn)聚簇程度等方面都不相同。因此,現(xiàn)有的社交網(wǎng)絡(luò)數(shù)據(jù)以及相關(guān)的數(shù)據(jù)生成器所產(chǎn)生的模擬數(shù)據(jù)集都不能被用來(lái)模擬知識(shí)圖譜數(shù)據(jù)。
其次,與社交網(wǎng)絡(luò)相比,知識(shí)圖譜更為復(fù)雜。這體現(xiàn)在兩個(gè)方面。一方面,知識(shí)圖譜的節(jié)點(diǎn)和邊上的屬性和標(biāo)簽在查詢處理、分析處理時(shí)占有重要地位,且屬性值和標(biāo)簽值多樣;另一方面,在不同屬性和標(biāo)簽類別所決定的子圖之間,各個(gè)統(tǒng)計(jì)特征差別巨大。這其中既有概念層次和本體這樣的抽象知識(shí)的圖結(jié)構(gòu)與實(shí)體間聯(lián)系這樣的事實(shí)知識(shí)的圖結(jié)構(gòu)的顯著區(qū)別,也有不同類別的實(shí)體間聯(lián)系子圖之間的區(qū)別。因此,單純地用多個(gè)同構(gòu)網(wǎng)絡(luò)疊加的方式是無(wú)法構(gòu)造出類似于知識(shí)圖譜的復(fù)雜結(jié)構(gòu)的。
第三,不同知識(shí)圖譜之間仍然具有一定的相似性。在本文研究的4類統(tǒng)計(jì)分布特征上,各個(gè)知識(shí)圖譜的事實(shí)部分顯示出較大的相似性。因此,面向知識(shí)圖譜應(yīng)用,設(shè)計(jì)、開發(fā)圖數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)是有意義,也是可能的。
本文的工作仍剛起步。一方面,本文的統(tǒng)計(jì)分析只對(duì)單一子圖進(jìn)行,并未對(duì)知識(shí)圖譜各子圖間的聯(lián)系進(jìn)行分析;另一方面,本文只研究了最基本的4類分布特征。但本文的分析結(jié)果和結(jié)論對(duì)于設(shè)計(jì)評(píng)測(cè)基準(zhǔn),特別是其中的數(shù)據(jù)生成器,仍然具有明確的指導(dǎo)意義。
從本文的分析結(jié)果可知,面向知識(shí)圖譜應(yīng)用的圖數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評(píng)測(cè)的數(shù)據(jù)生成器應(yīng)能夠生成分布上多樣的大規(guī)模異構(gòu)圖數(shù)據(jù),以彌補(bǔ)現(xiàn)有圖數(shù)據(jù)生成器的不足。
[1] DALTON J, DIETZ L, ALLAN J.Entity query feature expansion using knowledge base links[C]//International ACM Sigir Conference on Research and Development in Information Retrieval, July 6-11, 2014, Gold Coast, QLD, Australia.New York: ACM Press, 2014: 365-374.
[2] JOSHI M, SAWANT U, CHAKRABARTI S.Knowledge graph and corpus driven segmentation and answer inference for telegraphic entity-seeking queries[C]// Conference on Empirical Methods in Natural Language Processing, October 25-29, 2014, Doha, Qatar.[S.l.:s.n.], 2014: 1104-1114.
[3] RAJARAMAN A, ULLMAN J D.Mining of massive datasets[M].New York: Cambridge University Press, 2011.
[4] ARMSTRONG T G, PONNEKANTI V, BORTHAKUR D, et al.Linkbench: A database benchmark based on the facebook social graph[C]//ACM SIGMOD International Conference on Management of Data, June 22-27, 2013, New York, USA.New York: ACM Press, 2013: 1185-1196.
[5] ERLING O, AVERBUCH A, LARRIBAPEY J, et al.The ldbc social network benchmark: Interactive workload[C]// ACM SIGMOD International Conference on Management of Data, May 31-June 4, 2015, Melbourne, Victoria, Australia.New York: ACM Press, 2015: 619-630.
[6] MA H, WEI J, QIAN W, et al.On benchmarking online social media analytical queries[C]//International Workshop on Graph Data Management Experiences and Systems, June 23, 2013, New York, USA.[S.l.:s.n.], 2013: 1-7.
[7] FELLBAUM C.WordNet: an electronic lexical database[M].Massachusetts: MIT Press, 1998.
[8] H O F FA R T J, S U C H A N E K F M, BERBERICH K, et al.Yago2: a spatially and temporally enhanced knowledge base from Wikipedia[J].Artificial Intelligence, 2013(194): 28-61.
[9] LEHMANN J, ISELE R, JAKOB M, et al.Dbpedia: a large-scale, multilingual knowledge base extracted from Wikipedia[J].Semantic Web Journal, 2015, 6(2): 167-195.
[10] WATTS D, STROGATZ S.Collective dynamics of ‘small-world’ networks[J].Nature, 1998, 393(6684): 440-442.
[11] LESKOVEC J, SOSIC R.SNAP: a general purpose network analysis and graph mining library[J].ACM Transactions on Intelligent Systems and Technology, 2016, 8(1): 1-20.
[12] BRODER A, KUMAR R, MAGHOUL F, et al.Graph structure in the web[J].ComputerNetworks, 2000, 33(1-6): 309-320.
[13] KUMAR R, NOVAK J, TOMKINS A.Structure and evolution of online social networks[M].New York: Springer, 2006: 337-357.
[14] BOCCALETTI S, LATORA V, MORENO Y, et al.Complex networks: structure and dynamics[J].Phys Rep, 2006, 424(4-5): 175-308.
[15] CHENG W, WANG C, XIAO B, et al.On statistical characteristics of reallife knowledge graphs[C]//The Workshop on Big Data Benchmarks, Performance, Optimization, and Emerging Hardware, September 4, 2015, Hawaii, USA.[S.l.:s.n.], 2015: 261-267.
[16] LANCICHINETTI A, FORTUNATO S, RADICCHI F.Benchmark graphs for testing community detection algorithms[J].Physical Review E Statistical Nonlinear and Soft Matter Physics, 2008, 78(2): 561-570.
[17] 錢衛(wèi)寧, 夏帆, 周敏奇, 等.大數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)的挑戰(zhàn)與研究進(jìn)展[J].大數(shù)據(jù),2015, 1(1): 82-96.QIAN W N, XIA F, ZHOU M Q, et al.Challenges and progress of big data management system benchmarks[J].Big Data Research, 2015, 1(1): 82-96.
Statistical characteristics analysis of knowledge graphs for benchmarking graph database management systems
QIAN Weining, SUN Chen, CHENG Wenliang, ZHOU Aoying
Institute for Data Science and Engineering, East China Normal University, Shanghai 200062, China
Recently, graph data has been widely used in domains such as information security, scientific research, internet services, etc., that stimulates the fast development of graph data management systems.However, existing benchmarks for graph databases are all designed for applications that manage and analyze social networks.The statistical characteristics of knowledge graphs were analyzed, and compared with two social networks.It was showed that knowledge graphs, as an important and fast growing kind of graph data, were significantly different from social networks.Therefore, existing social network based benchmarks were not suitable for applications that deal with knowledge graphs.Furthermore, the requirements for a new benchmark were analyzed.
benchmark, graph data, knowledge graph, statistical measurement
TP31
A
10.11959/j.issn.2096-0271.2016049
錢衛(wèi)寧(1976-),男,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院教授、博士生導(dǎo)師,主要研究方向?yàn)榛ヂ?lián)網(wǎng)環(huán)境下的數(shù)據(jù)管理、大數(shù)據(jù)管理系統(tǒng)評(píng)測(cè)基準(zhǔn)、社交媒體數(shù)據(jù)分析、知識(shí)圖譜構(gòu)建與應(yīng)用等。
孫晨(1995-),女,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院碩士生,主要研究方向?yàn)橹R(shí)圖譜構(gòu)建。
程文亮(1989-),男,華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院碩士生,主要研究方向?yàn)閿?shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)。
周傲英(1965-),男,華東師范大學(xué)副校長(zhǎng),長(zhǎng)江學(xué)者特聘教授,數(shù)據(jù)科學(xué)與工程研究院院長(zhǎng),主要研究方向?yàn)閃eb數(shù)據(jù)管理、數(shù)據(jù)密集型計(jì)算、內(nèi)存集群計(jì)算、分布事務(wù)處理、大數(shù)據(jù)基準(zhǔn)測(cè)試和性能優(yōu)化。
2016-08-10
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61432006)
Foundation Item: The National Natural Science Foundation of China (No.61432006)