在傳統(tǒng)OLAP中,上卷與下鉆是最重要的兩個操作。在StarGraphCube中,上卷下鉆操作主要在實體立方體上進(jìn)行。上卷意味著從底層的n元關(guān)系元路徑聚集得到相應(yīng)的n-m元關(guān)系元路徑聚集網(wǎng)絡(luò)(0<m<n),對應(yīng)的逆向操作為下鉆操作。
同質(zhì)轉(zhuǎn)換操作:給定一個多維異質(zhì)信息網(wǎng)絡(luò)N=(V,E,T,A),選定節(jié)點類型集合T,對其中某一個節(jié)點類型Ti,若在實體立方體中類型為Ti的節(jié)點Vi、Vj與同一個節(jié)點存在邊的關(guān)系,則在節(jié)點Vi與Vj之間構(gòu)建同質(zhì)的邊。
同質(zhì)轉(zhuǎn)換操作給人們發(fā)現(xiàn)同質(zhì)節(jié)點之間的隱藏信息做鋪墊。在多維異質(zhì)信息網(wǎng)絡(luò)中,實體的類型多種多樣,同實體間的關(guān)系主要通過其他類型實體節(jié)點進(jìn)行建立。通過同質(zhì)轉(zhuǎn)換操作,發(fā)掘異質(zhì)網(wǎng)絡(luò)中的同質(zhì)網(wǎng)絡(luò)信息,進(jìn)行群體劃分和分析。
屬性轉(zhuǎn)換:給定一個多維異質(zhì)信息網(wǎng)絡(luò)N=(V,E,T,A),選定某一類型節(jié)點集合Tt,對每一個節(jié)點類型Tti與維度集合Ai中的m個維度屬性{Aij,1≤j≤m},將這m個維度屬性值變換成節(jié)點加入節(jié)點集合形成新的節(jié)點集合V′與類型集合T′。對于新節(jié)點Aij與Aij′,若屬于同一節(jié)點或者隸屬的節(jié)點之間存在邊,則建立兩者之間的邊關(guān)系并加入邊集形成E′。最終得到屬性轉(zhuǎn)換網(wǎng)絡(luò)N′=(V′,E′,T′,A)。
同質(zhì)轉(zhuǎn)換操作的算法如下:
算法1同質(zhì)轉(zhuǎn)換

屬性轉(zhuǎn)換操作的算法如下:
算法2屬性轉(zhuǎn)化


3 優(yōu)化物化策略
在實體立方體上的上卷下鉆操作需要根據(jù)關(guān)系元路徑重組網(wǎng)絡(luò)節(jié)點,計算的復(fù)雜度很高。對于大規(guī)模網(wǎng)絡(luò)這些操作是十分耗時的,因此提出了下面的一些優(yōu)化算法。
3.1 操作優(yōu)化
二元關(guān)系元路徑聚集操作將網(wǎng)絡(luò)中的多個實體屬性在二元關(guān)系元路徑P(T1,Tn,list)=T1→T2→…→Ti→…→Tn的指導(dǎo)下,形成以起點和終點類型構(gòu)成的網(wǎng)絡(luò)。可以將相鄰的節(jié)點做join操作,逐步合并中間路徑節(jié)點,最終得到T1→Tn的網(wǎng)絡(luò)。join操作的復(fù)雜度和邊的大小與計算方法有關(guān)系,若原始網(wǎng)絡(luò)有l(wèi)條邊,join的復(fù)雜度為O(α(l))。二元關(guān)系元路徑長度為|list|+1,則最終的復(fù)雜度為O(α(l)×(|list|+1))。二元關(guān)系元路徑的長度增加,計算復(fù)雜度也會逐漸增加,同時起點與終點的關(guān)聯(lián)性越弱,得到的網(wǎng)絡(luò)可分析性越弱。因此一般聚集網(wǎng)絡(luò)的二元關(guān)系元路徑不會太長,否則得到的圖就沒有分析的意義。二元關(guān)系元路徑的聚集網(wǎng)絡(luò)的計算可以表示N′=agg2meta(N,T1,Tn,list),其中N表示多維信息網(wǎng)絡(luò),T1表示起點類型,Tn表示終點類型,list表示二元關(guān)系元路徑序列。N′為二元關(guān)系元路徑聚集網(wǎng)絡(luò),生成算法見算法1。遍歷的循環(huán)可以使用Spark的map函數(shù)生成對應(yīng)邊的RDD,利用RDD的join函數(shù)對算法1進(jìn)行并行操作。
對于n元關(guān)系元路徑的聚集網(wǎng)絡(luò)計算,根據(jù)定義可知n元關(guān)系元路徑可以由n-1個二元關(guān)系元路徑拼接而成,故二元關(guān)系元路徑指導(dǎo)的網(wǎng)絡(luò)聚集操作可以轉(zhuǎn)換成n-1個二元關(guān)系元路徑網(wǎng)絡(luò)指導(dǎo)的聚集操作,最后將n-1個聚集網(wǎng)絡(luò)合并。
3.2 實體立方體物化
立方體的物化策略一共有3種:不物化、部分物化和完全物化。不物化策略是指在每一次的計算過程中,都直接生成所需網(wǎng)絡(luò)再計算結(jié)果。這種策略不需要耗費很多內(nèi)存空間,但是當(dāng)數(shù)據(jù)量很大時,每一步的計算時間會顯著增加,不適合大數(shù)據(jù)量的操作。完全物化策略是指在計算初期,就將數(shù)據(jù)立方體的所有網(wǎng)絡(luò)計算出來并保存。這種方法在數(shù)據(jù)立方體的維度較多的情況下,計算初期需要花費大量時間并且占用大量的內(nèi)存。部分物化策略是在計算初期,按照一定方案將數(shù)據(jù)立方體的部分網(wǎng)絡(luò)計算出來并保存。這種方式兼顧了時間和空間效率,因此本文選擇這種物化策略。
對于實體立方體,由于關(guān)系元路徑的多樣性,每一個方體可能會產(chǎn)生多個聚集網(wǎng)絡(luò),整個立方體的聚集網(wǎng)絡(luò)不容易計算出來。而由于n元關(guān)系元路徑可以利用n-1個對應(yīng)的二元關(guān)系元路徑聚集網(wǎng)絡(luò)得到,對于n元關(guān)系元路徑產(chǎn)生的聚集網(wǎng)絡(luò),是路徑中的一點,則二元關(guān)系元路徑的計算可以通過將P(T1,Ti,list)和P(Ti,Tn,list)的聚集網(wǎng)絡(luò)連接得到。因此物化策略選擇優(yōu)先物化二元關(guān)系元路徑聚集網(wǎng)絡(luò),初始物化所有二元關(guān)系元路徑集合的最短元路徑聚集網(wǎng)絡(luò)。若一共有n種類型的實體,則物化產(chǎn)生n(n-1)/2個聚集網(wǎng)絡(luò)。
另外在物化過程中,如果要計算二元關(guān)系元路徑聚集網(wǎng)絡(luò),可以先檢查是否已經(jīng)物化過。如果之前已經(jīng)物化過,則可以直接利用。
3.3 維度編碼
傳統(tǒng)的OLAP查詢中,事實表往往比維度表大很多,維度表所占的事實表比例基本都在1%左右,一般不會超過3%。數(shù)據(jù)規(guī)模越大,維度表所占比例越低。而且數(shù)據(jù)倉庫查詢具有高輸入低輸出的特點。在SSB標(biāo)準(zhǔn)測試集中,任何一個查詢輸出記錄都在1 000條以下[3]。直接將維度表進(jìn)行維度編碼壓縮,融入事實表中,能夠大大減少事實表與維度表的連接操作,而且輸出結(jié)果數(shù)據(jù)量很小,解碼時間也很短,運行效率會大大提升。
對于節(jié)點的維度進(jìn)行編碼并存入邊表中,這樣在進(jìn)行維度操作時可以只進(jìn)行邊表的計算,而不需要邊表與維度表的連接操作。使用位運算與二進(jìn)制,對節(jié)點名稱、節(jié)點類型、節(jié)點維度一次進(jìn)行等位編碼,最終形成節(jié)點存入邊表中,編碼形式為節(jié)點類型編碼+節(jié)點名稱編碼+節(jié)點維度編碼。其中節(jié)點類型編碼位數(shù)為,T為節(jié)點類型,|T|+1表示維度上卷下鉆形成的節(jié)點。節(jié)點編碼算法如下。
(1)節(jié)點編碼
由定義可得編碼實例:User U3 Male China:000 010 0 01。通過前3位得到類型,類型000表示User;接下來3位表示用戶編碼,010表示用戶名稱U3;接下來1位表示用戶性別,0代表男性;最后2位表示用戶國家,01表示USA。
(2)維度上卷編碼
例如圖中的movie Category聚集形成Comedy節(jié)點,首先是類型編碼100,之后是上卷的類型編碼,Movie為001,上卷維度數(shù)量為1,編碼為1。上卷維度在movie類型中是第0個編號,編碼為0,取值Comedy編碼為01,如果后面還有編碼則表示下個類型的上卷維度。最終Comedy編碼為1000011001。
4 實驗驗證
本文將在4個節(jié)點的本地集群上進(jìn)行模型和算法的實驗。每個節(jié)點由2個E5-2620 6(12)@2.0 GHz CPU,64 GB內(nèi)存和500 GB SATA disks構(gòu)成。實驗的環(huán)境主要是基于Hadoop 2.6.0和Spark 1.5.1。
本文將在真實數(shù)據(jù)集和模擬數(shù)據(jù)集上進(jìn)行實驗驗證。其中真實數(shù)據(jù)集為MAG(Microsoft academic graph)和IMDB數(shù)據(jù)集,模擬數(shù)據(jù)集為使用模擬算法生成的數(shù)據(jù)集。真實數(shù)據(jù)集主要用來驗證模型的有效性,而模擬數(shù)據(jù)用來驗證模型的高效性。
4.1 有效性驗證
4.1.1 MAG數(shù)據(jù)集
該數(shù)據(jù)集是由微軟在2016年發(fā)布,主要包含作者、論文和會議的關(guān)系,其中不同的實體有不同的維度屬性。數(shù)據(jù)集中包含114 698 044個作者,126 909 021篇論文,1 283個會議。在有效性實驗中,重點關(guān)注了4個領(lǐng)域:database(DB)、data mining(DM)、artificial intelligence(AI)和information retrieval(IR)。
實驗中,通過建立StarGraphCube模型以及關(guān)系元路徑的聚集和維度的聚集進(jìn)行作者合作網(wǎng)絡(luò)的分析。
首先以二元關(guān)系元路徑P(Author,Author)=Author→Paper→Author聚集得到作者合作網(wǎng)絡(luò)。選定Philip S Yu作為研究對象,可以得到與他合作最緊密的作者,在field維度上聚集得到選定的4個領(lǐng)域之間的關(guān)系。從圖2(a)中可以知道,DB領(lǐng)域作者與DM領(lǐng)域作者合作的頻率比和AI、IR領(lǐng)域作者合作的頻率更高,而且DB領(lǐng)域的作者更傾向于跟自己領(lǐng)域的作者合作。IR領(lǐng)域的作者傾向于跟非自己領(lǐng)域的作者合作,跟DB領(lǐng)域作者合作的頻率比AI、DM的頻率更高。對P(Author,Paper)=Author→Paper聚集網(wǎng)絡(luò)進(jìn)行field維度上卷,可以得到作者與field的網(wǎng)絡(luò)。從圖2(c)中可以看出,Philip S Yu的主要領(lǐng)域是datamining,并且和CharuCAggarwal的合作最為緊密。
4.1.2 IMDB數(shù)據(jù)集
該數(shù)據(jù)集從IMDB的官網(wǎng)爬取,主要包含用戶、電影和演員之間的關(guān)系,其中不同的實體有不同的維度屬性。數(shù)據(jù)集中包含Movies:129 918,Actors:832 087。在有效性實驗中,主要選取了4種電影類型Drama、Comedy、Short和Adult進(jìn)行研究。
在本次實驗中,重點關(guān)注了Drama、Comedy、Short、Adult這4種類型的電影。通過建立Star Graph-Cube模型以及關(guān)系元路徑的聚集與維度的聚集進(jìn)行科研網(wǎng)絡(luò)的分析。
首先以二元關(guān)系元路徑P(Movie,Movie)=Movie→Actor→Movie聚集得到電影的關(guān)系網(wǎng)絡(luò)圖。將Movie進(jìn)行類型維度的上卷,聚集函數(shù)采用count(*),得到4個類型電影的關(guān)系如圖3(a)。
同時也可以對單點進(jìn)行分析。通過二元關(guān)系元路徑P(Actor,Movie)=Actor→Movie的聚集網(wǎng)絡(luò)進(jìn)行Movie的類型維度上卷,可以得到Actor和電影類型的關(guān)系網(wǎng)絡(luò)。通過電影的發(fā)行國家維度上卷得到Actor和電影發(fā)行國家之間的關(guān)系。通過二元關(guān)系元路徑P(Actor,Actor)=Actor→Movie→Actor聚集得到演員合作關(guān)系網(wǎng)絡(luò),可以知道與演員合作最密切的其他演員。如圖3(c)中Jonny Depp經(jīng)常出演的電影類型是Comedy和Drama,大多數(shù)電影都是由美國公司發(fā)行的。
4.2 高效性驗證
4.2.1 實體立方體效能驗證
在該實驗中使用MAG數(shù)據(jù)進(jìn)行實驗,將MAG數(shù)據(jù)集分為5份,每一份的大小分別為2×106,4×106,6×106,8×106,10×106。

Fig.2 Experiments on MAG datasets圖2 MAG實驗結(jié)果

Fig.3 Experiments on IMDB datasets圖3 IMDB實驗結(jié)果
首先對不同的二元關(guān)系元路徑聚集網(wǎng)絡(luò)進(jìn)行實驗。選取P1(Author,Paper)=Author→Paper,P2(Author,Conference)=Author→Paper→Conference,P2(Author,Author)=Author→Paper→Author。實驗結(jié)果如圖4(a)所示。由P1(Author,Paper)與P2(Author,Conference)的比較可以看出,隨著路徑的增加,需要的時間也會增加。由P2(Author,Conference)和P3(Author,Author)的比較可以知道,P2產(chǎn)生的作者和會議的網(wǎng)絡(luò),依賴關(guān)系緊密,產(chǎn)生的網(wǎng)絡(luò)規(guī)模較小。而P3產(chǎn)生的是作者合作網(wǎng)絡(luò),同一篇文章的合作者較多,產(chǎn)生的網(wǎng)絡(luò)規(guī)模較大。因此相同長度元路徑的聚集網(wǎng)絡(luò),需要的時間也會不同。由圖可知,隨著邊數(shù)的增加,消耗的時間是線性變化的,即O(α(l))=O(l),最終的時間復(fù)雜度是O(l×|list|+1)。
然后對物化策略進(jìn)行實驗。選取關(guān)系元路徑P(Author,Author)=Author→Paper→Conference→Paper→Author進(jìn)行聚集操作。物化Author→Paper→Conference路徑的聚集網(wǎng)絡(luò),則不物化的聚集操作需要進(jìn)行4次join操作。對于物化后,則只需要進(jìn)行1次join操作,實驗結(jié)果如圖4(b)。通過物化可以減少重復(fù)的聚集計算,提高運行效率。
4.2.2 維度屬性編碼
該實驗使用模擬的多維網(wǎng)絡(luò)數(shù)據(jù)。首先驗證維度屬性編碼對性能的提升,從維度數(shù)目和網(wǎng)絡(luò)規(guī)模兩個角度出發(fā)進(jìn)行實驗。從維度數(shù)目角度生成維度數(shù)目為3、5、7、9的網(wǎng)絡(luò),分別采用點邊join方式與本文提出維度編碼的方式進(jìn)行維度roll up,得到的結(jié)果如圖4(c)所示。從圖中可知,維度編碼能夠大大提高網(wǎng)絡(luò)聚集的效率,隨著網(wǎng)絡(luò)維度的增加,點邊join方法與維度編碼方法性能變化相似,消耗的時間都有所增加。這是由于維度增加,需要的存儲空間更多導(dǎo)致的。從網(wǎng)絡(luò)規(guī)模的角度生成了邊數(shù)分別為1×106,10×106和100×106的多維網(wǎng)絡(luò),并分別進(jìn)行了聚集操作,得到的結(jié)果如圖4(d)所示??梢钥闯觯S著網(wǎng)絡(luò)規(guī)模的增加,維度編碼對效率的提升也不斷增加,維度編碼的方式也更加有優(yōu)勢。通過維度編碼能夠大大提高對大規(guī)模網(wǎng)絡(luò)的分析性能。
然后,研究了屬性轉(zhuǎn)換操作。圖4(e)呈現(xiàn)了屬性轉(zhuǎn)換的維度數(shù)量與時間的關(guān)系??梢钥闯?,隨著屬性轉(zhuǎn)換的維度數(shù)量的增加,消耗的時間有加速上升的趨勢。這是因為屬性轉(zhuǎn)換生成的網(wǎng)絡(luò)以維度屬性為節(jié)點,隨著屬性轉(zhuǎn)換成維度,生成的網(wǎng)絡(luò)規(guī)模呈非線性增加的規(guī)律。
接著,研究了同質(zhì)轉(zhuǎn)換操作,圖4(f)呈現(xiàn)了同質(zhì)轉(zhuǎn)換的邊數(shù)量與時間的關(guān)系??梢钥闯觯S著同質(zhì)轉(zhuǎn)換的邊數(shù)量呈指數(shù)增長,消耗的時間也在不斷增加。這是因為隨著邊數(shù)量的增加,同一個節(jié)點的鄰居數(shù)量也在不斷增加,建立同類型節(jié)點間的關(guān)系概率也在不斷增加。
5 相關(guān)工作

Fig.4 Efficiency experiment results圖4 高效性驗證
傳統(tǒng)OLAP的研究起步較早,技術(shù)規(guī)范相對比較成熟,對于相關(guān)領(lǐng)域的應(yīng)用也比較深入。但是對于圖數(shù)據(jù)的GraphOLAP研究尚且處于起步階段。
最開始吳巍[4]提出了Link OLAP的概念,通過將面向?qū)嶓w的分析擴(kuò)展到面向連接的分析,結(jié)合復(fù)雜網(wǎng)絡(luò)中的網(wǎng)絡(luò)可視化技術(shù),將OLAP技術(shù)應(yīng)用到面向連接的分析,突破了以往傳統(tǒng)OLAP系統(tǒng)中單調(diào)的二維表格表現(xiàn)形式,OLAP的研究也逐漸轉(zhuǎn)向關(guān)聯(lián)的屬性度量和圖。
Chen等人[5]首次正式提出了GraphOLAP的概念,并且定義了信息維、拓?fù)渚S以及在這些維度上面的上卷下鉆切塊切片等操作,第一次較為系統(tǒng)地提出了GraphOLAP的概念,但是對于整個GraphOLAP的系統(tǒng)框架沒有進(jìn)行概述。
李川等人[6]設(shè)計了一種適合GraphOLAP的數(shù)據(jù)倉庫模型——雙星模型,提出了信息維聚集算法和拓?fù)渚S聚集算法,并將理論的GraphOLAP進(jìn)行了實現(xiàn),但是使用的功能場景相對單一。
Zhao等人[7]針對數(shù)據(jù)倉庫和多維網(wǎng)絡(luò)分析的Graph Cube模型,將傳統(tǒng)OLAP中立方體的概念與圖融合,并利用傳統(tǒng)OLAP的概念,將方體查詢引入到圖數(shù)據(jù)分析上,提出了crossboid查詢,使得圖數(shù)據(jù)也可以像表數(shù)據(jù)進(jìn)行復(fù)雜的查詢。除此之外還實現(xiàn)了物化操作,將圖數(shù)據(jù)對應(yīng)到傳統(tǒng)數(shù)據(jù)倉庫以及OLAP操作,重點實現(xiàn)了OLAP多維分析的查詢功能,使得傳統(tǒng)的數(shù)據(jù)倉庫以及OLAP的功能得到拓展。
Yin等人[8]提出了HMGraph OLAP模型,引入了實體維的概念,支持異質(zhì)網(wǎng)絡(luò)的分析,并且加入了旋轉(zhuǎn)和拉伸操作,在物化方面也采用相應(yīng)的策略。
Denis等人[9]將GraphOLAP的操作算法用并行框架實現(xiàn),并與傳統(tǒng)的集中式算法進(jìn)行了對比,對大規(guī)模數(shù)據(jù)有著較好的效果。
Wang等人[10]利用Hadoop實現(xiàn)了Pagrol并行圖分析系統(tǒng),并且改進(jìn)了圖立方體模型,加入了邊維度屬性的上卷下鉆,通過一些優(yōu)化操作使得系統(tǒng)有效高效地運行。
Wang等人[11]針對異質(zhì)網(wǎng)絡(luò)分析能力不足的問題,引入了關(guān)系元路徑的概念,設(shè)計了TSMH Graph Cube模型,并且擴(kuò)展了上卷下鉆的語義,給出了優(yōu)化的物化策略,引入了并行計算框架來進(jìn)行大數(shù)據(jù)處理。
除此之外,Hannachi[12]、Weiler[13]、Liu等人[14]也提出了針對社交網(wǎng)絡(luò)的立方體模型,Qu[15]、Jakawat等人[16]對文獻(xiàn)數(shù)據(jù)以及知識網(wǎng)絡(luò)實現(xiàn)了GraphOLAP的模型系統(tǒng),Sun[17]、Shi等人[18]將數(shù)據(jù)庫和內(nèi)鏈接的數(shù)據(jù)視為異質(zhì)信息網(wǎng)絡(luò),并研究如何利用實體的語義信息和網(wǎng)絡(luò)中的內(nèi)鏈接,Junghanns等人[19]將Hadoop引入到OLAP中以處理大規(guī)模的圖數(shù)據(jù),Beheshti等人[20]擴(kuò)展了應(yīng)用場景以便于能夠?qū)DF數(shù)據(jù)進(jìn)行處理。Cuzzocrea等人[21]研究了如何將云計算應(yīng)用到大數(shù)據(jù)上以處理大規(guī)模的圖數(shù)據(jù)。
6 總結(jié)
本文針對現(xiàn)有GraphOLAP對異質(zhì)網(wǎng)絡(luò)分析能力不足的問題,引入關(guān)系元路徑的概念,提出了主節(jié)點引導(dǎo)元路徑聚集,并且設(shè)計了星型數(shù)據(jù)模型以便于在異質(zhì)網(wǎng)絡(luò)中引入關(guān)系元路徑,在此基礎(chǔ)上提出了同質(zhì)轉(zhuǎn)換操作和屬性轉(zhuǎn)換操作以豐富模型操作。針對模型提出了優(yōu)先物化二元關(guān)系元路徑的物化策略和維度聚集時的維度編碼算法來進(jìn)行join操作的優(yōu)化。最后引入了Spark并行計算框架,使得模型處理大規(guī)模的圖數(shù)據(jù)的能力大大加強。通過真實數(shù)據(jù)與模擬數(shù)據(jù)的實驗,驗證了本文模型框架的有效性與高效性。
[1]Cohen J.Graph twiddling in a MapReduce world[J].Computing in Science&Engineering,2009,11(4):29-41.
[2]Li Chuan,Yu P S,Zhao Lei,et al.Infonetolaper:integrating InfoNetWarehouse and InfoNetCube with InfoNetOLAP[J].Proceedings of the VLDB Endowment,2011,4(12):1422-1425.
[3]Wang Huiju,Qin Xiongpai,Wang Shan,et al.Scalable OLAP queries processing towards large cluster[J].Chinese Journal of Computers,2015,38(1):45-58.
[4]Wu Wei.Complex network virtualization and link OLAP[D].Beijing:Beijing University of Posts and Telecommunications,2007.
[5]Chen Chen,Yan Xifeng,Zhu Feida,et al.Graph OLAP:towards online analytical processing on graphs[C]//Proceedings of the 8th International Conference on Data Mining,Pisa,Italy,Dec 15-19,2008.Washington:IEEE Computer Society,2008:103-112.
[6]Li Chuan,Zhao Lei,Tang Changjie,et al.Modeling,design and implementation of Graph OLAPing[J].Journal of Software,2011,22(2):258-268.
[7]Zhao Peixiang,Li Xiaolei,Xin Dong,et al.Graph Cube:on warehousing and OLAP multidimensional networks[C]//Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data,Athens,Greece,Jun 12-16,2011.New York:ACM,2011:853-864.
[8]Yin Mu,Wu Bin,Zeng Zengfeng.HMGraph OLAP:a novel framework for multi-dimensional heterogeneous network analysis[C]//Proceedings of the 15th International Workshop on Data Warehousing and OLAP,Maui,USA,Nov 2,2012.New York:ACM,2012:137-144.
[9]Denis B,Ghrab A,Skhiri S.A distributed approach for graphoriented multidimensional analysis[C]//Proceedings of the 2013 International Conference on Big Data,Santa Clara,USA,Oct 6-9,2013.Piscataway,USA:IEEE,2013:9-16.
[10]Wang Zhengkui,Fan Qi,Wang Huiju,et al.Pagrol:parallel graph OLAP over large-scale attributed graphs[C]//Proceedings of the 30th International Conference on Data Engineering,Chicago,USA,Mar 31-Apr 4,2014.Washington:IEEE Computer Society,2014:496-507.
[11]Wang Pengsen,Wu Bin,Wang Bai.TSMH Graph Cube:a novel framework for large scale multi-dimensional network analysis[C]//Proceedings of the 2015 International Conference on Data Science and Advanced Analytics,Paris,France,Oct 19-21,2015.Piscataway,USA:IEEE,2015:1-10.
[12]Hannachi L,Benblidia N,Bentayeb F,et al.Social microblogging cube[C]//Proceedings of the 16th International Workshop on Data Warehousing and OLAP,San Francisco,USA,Oct 28,2013.New York:ACM,2013:19-26.
[13]Rehman N U,Weiler A,Scholl M H.OLAPing social media:the case of Twitter[C]//Proceedings of the 2013 International Conference on Advances in Social Networks Analysis and Mining,Niagara,Canada,Aug 25-29,2013.New York:ACM,2013:1139-1146.
[14]Liu Xiong,Tang Kaizhi,Hancock J,et al.A text cube approach to human,social and cultural behavior in the Twitter stream[C]//LNCS 7812:Proceedings of the 6th International Conference on Social Computing,Behavioral-Cultural Modeling,and Prediction,Washington,Apr 2-5,2013.Berlin,Heidel-berg:Springer,2013:321-330.
[15]Qu Qiang,Zhu Feida,Yan Xifeng,et al.Efficient topological OLAP on information networks[C]//LNCS 6587:Proceedings of the 16th International Conference on Database Systems for Advanced Applications,Hong Kong,China,Apr 22-25,2011.Berlin,Heidelberg:Springer,2011:389-403.
[16]Jakawat W,Favre C,Loudcher S.OLAP on information networks:a new framework for dealing with bibliographic data[J].Advances in Intelligent Systems&Computing,2013,241:361-370.
[17]Sun Yizhou,Han Jiawei,Yan Xifeng,et al.Mining knowledge from interconnected data:a heterogeneous information network analysis approach[J].Proceedings of the VLDB Endowment,2012,5(12):2022-2023.
[18]Shi Chuan,Kong Xiangnan,Yu P S,et al.Relevance search in heterogeneous networks[C]//Proceedings of the 15th International Conference on Extending Database Technology,Berlin,Germany,Mar 27-30,2012.New York:ACM,2012:180-191.
[19]Junghanns M,Petermann A,Gómez K,et al.GRADOOP:scalable graph data management and analytics with Hadoop[J].arXiv:1506.00548,2015.
[20]Beheshti S M R,Benatallah B,Motahari-Nezhad H R.Scalable graph-based OLAP analytics over process execution data[J].Distributed&Parallel Databases,2016,34(3):379-423.
[21]Cuzzocrea A,Moussa R,Xu Guandong,et al.Cloud-based OLAP over big data:application scenarios and performance analysis[C]//Proceedings of the 15th International Symposium on Cluster,Cloud and Grid Computing,Shenzhen,China,May 4-7,2015.Washington:IEEE Computer Society,2015:921-927.
附中文參考文獻(xiàn):
[3]王會舉,覃雄派,王珊,等.面向大規(guī)模機群的可擴(kuò)展OLAP查詢技術(shù)[J].計算機學(xué)報,2015,38(1):45-58.
[4]吳巍.復(fù)雜網(wǎng)絡(luò)可視化與Link OLAP[D].北京:北京郵電大學(xué),2007.
[6]李川,趙磊,唐常杰,等.Graph OLAPing的建模、設(shè)計與實現(xiàn)[J].軟件學(xué)報,2011,22(2):258-268.
Research and Implementation of Framework for Large-Scale Multi-Dimensional NetworkAnalysis*
WANG Ze'ao+,WU Bin,WU Xinyu,ZHANG Zixing
College of Computer Science,Beijing University of Posts and Telecommunications,Beijing 100080,China
2016-09,Accepted 2016-11.
With the rapid development of the Internet and the increasing of computer applications,a large number of graph data especially social networks are generated.Multi-dimensional information networks have become a common way to represent these data.However in the multi-dimensional information networks there are multiple types of nodes and attributes.How to process the analysis of multi-view and multi-granularity and mine the hidden information has become the focus of current research.Graph online analytical processing(GraphOLAP)can process a quick online analysis and query operation of graph data.With the existing achievement of GraphOLAP,this paper proposes a new Graph-Cube framework according to the characteristics of multi-dimensional information network.This paper introduces the concept of meta-path and uses main node to guide the aggregation of the meta-path.Then this paper uses meta-path to guide the roll-up/drill-down operation of the network and proposes attributes transform and homogeneous transform operation of the Graph-Cube.Finally,this paper discusses the materialization strategy and implements the framework in Spark.The experimental results on real and simulation datasets prove the efficiency and effectiveness of the proposed framework.
GraphOLAP;Graph-Cube;meta-path;Spark
+Corresponding author:E-mail:tytyal@163.com
10.3778/j.issn.1673-9418.1609012
*The National Natural Science Foundation of China under Grant No.71231002(國家自然科學(xué)基金);the Special Fund for Beijing Common Construction Project(北京市共建項目專項).
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-11-11,http://www.cnki.net/kcms/detail/11.5602.TP.20161111.1627.002.html
WANG Ze'ao,WU Bin,WU Xinyu,et al.Research and implementation of framework for large-scale multidimensional network analysis.Journal of Frontiers of Computer Science and Technology,2017,11(12):1941-1952.
A
TP399

WANG Ze'ao was born in 1993.He is an M.S.candidate at Beijing University of Posts and Telecommunications.His research interests include data mining and social network analysis,etc.
王澤奧(1993—),男,四川安岳人,北京郵電大學(xué)碩士研究生,主要研究領(lǐng)域為數(shù)據(jù)挖掘,社會網(wǎng)絡(luò)分析等。

WU Bin was born in 1969.He is a professor and Ph.D.supervisor at Beijing University of Posts and Telecommunications.His research interests include data mining and complex network,etc.
吳斌(1969—),男,湖南長沙人,博士,北京郵電大學(xué)教授、博士生導(dǎo)師,主要研究領(lǐng)域為數(shù)據(jù)挖掘,復(fù)雜網(wǎng)絡(luò)等。

WU Xinyu was born in 1993.He is an M.S.candidate at Beijing University of Posts and Telecommunications.His research interests include data mining and social network analysis,etc.
吳心宇(1993—),男,福建莆田人,北京郵電大學(xué)碩士研究生,主要研究領(lǐng)域為數(shù)據(jù)挖掘,社會網(wǎng)絡(luò)分析等。

ZHANG Zixing was born in 1994.He is an M.S.candidate at Beijing University of Posts and Telecommunications.His research interests include data mining and social network analysis,etc.
張子興(1994—),男,河北遵化人,北京郵電大學(xué)碩士研究生,主要研究領(lǐng)域為數(shù)據(jù)挖掘,社會網(wǎng)絡(luò)分析等。