張 銳,肖如良,倪友聰,杜 欣
(1.福建師范大學(xué) 軟件學(xué)院,福州 350117; 2.福建省公共服務(wù)大數(shù)據(jù)挖掘與應(yīng)用工程研究中心,福州 350117)(*通信作者電子郵箱xiaoruliang@163.com)
逼真生成表格式數(shù)據(jù)的非時(shí)間屬性關(guān)聯(lián)模型
張 銳1,2,肖如良1,2*,倪友聰1,2,杜 欣1,2
(1.福建師范大學(xué) 軟件學(xué)院,福州 350117; 2.福建省公共服務(wù)大數(shù)據(jù)挖掘與應(yīng)用工程研究中心,福州 350117)(*通信作者電子郵箱xiaoruliang@163.com)
針對(duì)數(shù)據(jù)仿真過(guò)程中表格數(shù)據(jù)屬性間關(guān)聯(lián)難的問(wèn)題,提出一種刻畫表格數(shù)據(jù)中非時(shí)間屬性間關(guān)聯(lián)特征的H模型。首先,從數(shù)據(jù)集中提取評(píng)價(jià)主體和被評(píng)價(jià)主體關(guān)鍵屬性,進(jìn)行兩重頻數(shù)統(tǒng)計(jì),得到關(guān)于關(guān)鍵屬性的4個(gè)關(guān)系對(duì);然后,計(jì)算各關(guān)系對(duì)的最大信息系數(shù)(MIC)來(lái)評(píng)估各關(guān)系對(duì)的相關(guān)性,并采用拉伸指數(shù)分布(SE)對(duì)各關(guān)系對(duì)進(jìn)行關(guān)系擬合;最后,設(shè)置評(píng)價(jià)主體和被評(píng)價(jià)主體的數(shù)據(jù)規(guī)模,根據(jù)擬合出的關(guān)系計(jì)算出評(píng)價(jià)主體的活躍度和被評(píng)價(jià)主體的流行度,通過(guò)活躍度總和等于流行度總和建立關(guān)聯(lián),得到非時(shí)間屬性關(guān)聯(lián)的H模型。實(shí)驗(yàn)結(jié)果表明,利用H模型能有效地刻畫真實(shí)數(shù)據(jù)集中非時(shí)間屬性間的關(guān)聯(lián)特征。
數(shù)據(jù)仿真;關(guān)聯(lián);最大信息系數(shù);拉伸指數(shù)分布;屬性關(guān)聯(lián)
在大數(shù)據(jù)評(píng)測(cè)中,考慮到大數(shù)據(jù)集不易獲取,對(duì)大數(shù)據(jù)生成工具的研究引起了廣泛關(guān)注。文獻(xiàn)[1]提出,大數(shù)據(jù)生成器應(yīng)該在保持真實(shí)數(shù)據(jù)特征的情況下,可以擴(kuò)大或者縮小不同類型的數(shù)據(jù)集。大數(shù)據(jù)生成器應(yīng)該能產(chǎn)生GB到PB級(jí)的數(shù)據(jù)量來(lái)滿足不同測(cè)試要求。文獻(xiàn)[2]提出,大數(shù)據(jù)生成器應(yīng)該具有生成不同數(shù)據(jù)類型(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化),不同數(shù)據(jù)語(yǔ)義(文本、圖像、表格和多媒體)的功能。大數(shù)據(jù)生成器最重要的要求是能保持真實(shí)數(shù)據(jù)集中數(shù)據(jù)的特征。
當(dāng)前學(xué)術(shù)界已有許多相關(guān)研究,總體看來(lái),如何逼真地生成數(shù)據(jù)是這些相關(guān)研究的重心,其關(guān)鍵在于:如何刻畫數(shù)據(jù)集中表內(nèi)屬性的特征,如何處理表內(nèi)關(guān)鍵屬性間的關(guān)聯(lián)性,如何處理表與表之間的關(guān)聯(lián)性。表格數(shù)據(jù)屬性間的關(guān)聯(lián)分為與時(shí)間相關(guān)和非時(shí)間屬性相關(guān)的關(guān)聯(lián)。針對(duì)與時(shí)間相關(guān)的關(guān)聯(lián)已有許多成熟的研究。
本文針對(duì)表格數(shù)據(jù)中與非時(shí)間屬性相關(guān)的關(guān)聯(lián)性問(wèn)題,創(chuàng)新性地通過(guò)最大信息系數(shù)(Maximum Information Coefficient, MIC)值評(píng)估字段間的相關(guān)性,采用拉伸指數(shù)(Stretched Exponential, SE)分布擬合,構(gòu)建出表內(nèi)非時(shí)間屬性關(guān)聯(lián)的H模型,從統(tǒng)計(jì)特性上刻畫非時(shí)間屬性間的關(guān)聯(lián)性,實(shí)驗(yàn)結(jié)果表明H模型能保持真實(shí)數(shù)據(jù)集的統(tǒng)計(jì)特性。
當(dāng)前已有許多關(guān)于逼真生成表格數(shù)據(jù)的相關(guān)研究。
對(duì)單一屬性特征的刻畫一般有兩種方式:其一,通過(guò)隨機(jī)、枚舉或者數(shù)據(jù)字典的方式,主要作用于非關(guān)鍵屬性;其二,通過(guò)分布特征的刻畫方式,主要用于關(guān)鍵屬性。比如,Gray等[3]采用均勻分布、指數(shù)分布、正態(tài)分布、自相似分布刻畫關(guān)鍵屬性。典型的有Rabl等[4]使用β分布、二項(xiàng)指數(shù)分布、對(duì)數(shù)正態(tài)分布,泊松分布模擬關(guān)鍵屬性特征,設(shè)計(jì)了并行數(shù)據(jù)生成框架(Parallel Data Generation Framework, PDGF);還有文獻(xiàn)[1]中提出的開(kāi)源的大數(shù)據(jù)系統(tǒng)評(píng)測(cè)基準(zhǔn)(open-source Big Data Benchmark suite, BigDataBench)、中國(guó)科學(xué)院計(jì)算所詹劍鋒等[2]研發(fā)的大數(shù)據(jù)基準(zhǔn)的可擴(kuò)展大數(shù)據(jù)生成器框架(scalable Big Data Generator Suite in big data benchmarking, BDGS)、雅虎公司[5]的云服務(wù)測(cè)試框架(Yahoo! Cloud Serving Benchmark, YCSB)、微軟公司[6]的多樣數(shù)據(jù)庫(kù)生成器(flexible database generators)等。
對(duì)于多表之間的關(guān)聯(lián)性研究,文獻(xiàn)[7]給出了一個(gè)網(wǎng)絡(luò)學(xué)習(xí)管理系統(tǒng)(見(jiàn)圖1),其中主要包括三個(gè)表:學(xué)生信息表(主鍵為studentid)、課程信息表(主鍵為courseid)、學(xué)生選課信息表(主鍵為scid,外鍵為studentid和courseid)。首先生成學(xué)生選課信息表,然后根據(jù)學(xué)生選課信息表中的studentid和courseid分別生成學(xué)生信息表和課程信息表。這樣能保證學(xué)生選課信息表中的studentid來(lái)自學(xué)生信息表,courseid來(lái)自課程信息表。PDGF[4]框架中對(duì)多表之間的關(guān)聯(lián)也采用該方法。
圖1 網(wǎng)絡(luò)學(xué)習(xí)管理系統(tǒng)的一個(gè)實(shí)例
與時(shí)間有關(guān)的屬性間關(guān)聯(lián)性研究,需要為時(shí)間屬性建模(如自相似性、 多分形性等),通過(guò)模擬時(shí)間相關(guān)屬性特征來(lái)生成數(shù)據(jù)。比如,浙江大學(xué)Yin等[8]研發(fā)的一種用于云計(jì)算的突發(fā)和自相似的工作負(fù)載生成器(a bursty and self-similar workload generator for cloud computing, BURSE),根據(jù)數(shù)據(jù)的周期性、突發(fā)性特征來(lái)模擬數(shù)據(jù)的自相似性;法國(guó)凡爾賽大學(xué)Akrour等[9]利用多分形理論在不同單位時(shí)間內(nèi)進(jìn)行數(shù)據(jù)仿真;美國(guó)新澤西理工學(xué)院Ansari等[10]采用分?jǐn)?shù)差分自回歸求和移動(dòng)平均模型(Fractional AutoregRessive Integrated Moving-Average, FARIMA)對(duì)動(dòng)態(tài)圖像(Moving Picture Experts Group, MPEG)中的I、P和B幀自相關(guān)結(jié)構(gòu)進(jìn)行建模。較為成熟的產(chǎn)品,加拿大西蒙菲沙大學(xué) Jiang等[11]收集蜂窩數(shù)字包數(shù)據(jù)網(wǎng)絡(luò)中的業(yè)務(wù)數(shù)據(jù),運(yùn)用工具OPNET建模和仿真分析。
在表格形式的大規(guī)模數(shù)據(jù)生成研究工作中,已有許多學(xué)者做了大量的工作,特別是對(duì)表與表之間的關(guān)聯(lián)、某個(gè)屬性具有的特征、與時(shí)間屬性相關(guān)的特征關(guān)注比較多,而對(duì)非時(shí)間屬性間的關(guān)聯(lián)比較少。對(duì)非時(shí)間屬性間的關(guān)聯(lián)的研究,停留在相對(duì)粗糙的層面上。比如,文獻(xiàn)[12]中提出的一個(gè)用于評(píng)估Web代理緩存的綜合負(fù)載生成工具(synthetic Workload Generation tool for simulation evaluation of Web proxy caches, proWGen)采用的正/負(fù)相關(guān)來(lái)表達(dá)關(guān)聯(lián)、文獻(xiàn)[13]通過(guò)計(jì)算相關(guān)系數(shù)來(lái)表達(dá)關(guān)聯(lián)等。
綜上所述,在表格類型數(shù)據(jù)生成方面,對(duì)大數(shù)據(jù)生成器的研究已趨于成熟,但是對(duì)非時(shí)間字段相關(guān)性質(zhì)研究中仍存在許多需要急于解決的困難問(wèn)題。本文針對(duì)非時(shí)間字段的相關(guān)性,創(chuàng)新性提出了H模型,模擬不同應(yīng)用背景下表格數(shù)據(jù)中非時(shí)間關(guān)鍵屬性間的相關(guān)性。
本章主要介紹構(gòu)建模型所使用的到的理論基礎(chǔ)。
2.1 變量對(duì)間的相關(guān)性度量:MIC
在《Science》雜志上,Reshef等[14]通過(guò)網(wǎng)格劃分估計(jì)概率估計(jì)互信息的思想,提出最大信息系數(shù)(MIC)度量方式。Reshef等認(rèn)為如果兩個(gè)變量存在某種關(guān)系,那么在它們構(gòu)成的散點(diǎn)圖上一定存在一種網(wǎng)格劃分能概述出這個(gè)關(guān)系。此方法不僅能刻畫線性關(guān)系,還能很好地度量非線性關(guān)系,甚至是多種函數(shù)的疊加,具有廣泛性;對(duì)于不同關(guān)系類型,若噪聲相同,則MIC值也相同,具有公平性。
假設(shè)有n個(gè)變量對(duì)的數(shù)據(jù)集D,根據(jù)坐標(biāo)軸把D分為(x×y)等份表示為G,用動(dòng)態(tài)規(guī)劃算法求解的每次結(jié)果為D|G,那么D按照G這種劃分方式的最大互信息為:
I*(D,x,y)=maxI(D|G)
(1)
根據(jù)劃分的方式不同,可以得到一個(gè)的矩陣,對(duì)這個(gè)矩陣標(biāo)準(zhǔn)化得到:
(2)
在網(wǎng)格劃分細(xì)度下,矩陣中的最大值即為MIC值:
(3)
由于0≤I*(D,x,y)≤ln min{x,y}可得0≤MIC(D)≤1。當(dāng)MIC值越接近1表示相關(guān)性越強(qiáng),反之越弱。
2.2 分布擬合模型:SE分布
在人類行為動(dòng)力學(xué)領(lǐng)域,韓筱璞等[15]對(duì)各種人類行為中的統(tǒng)計(jì)特性進(jìn)行了廣泛的經(jīng)驗(yàn)研究,發(fā)現(xiàn)越來(lái)越多的多種形式的經(jīng)驗(yàn)性證據(jù)表明,許多人類行為的事件之間的時(shí)間間隔分布普遍存在寬尾特征。樊超等[16]的綜述中總結(jié)了人類在通信、訪問(wèn)網(wǎng)絡(luò)、工作和自身生理特征4個(gè)方面表現(xiàn)出時(shí)間標(biāo)度特征和遷移活動(dòng)中表現(xiàn)出的空間標(biāo)度特征,發(fā)現(xiàn)人類行為中一些普遍規(guī)律,并概述了產(chǎn)生重尾的動(dòng)力學(xué)機(jī)制。從上述可以知道,人類行為可以通過(guò)統(tǒng)計(jì)特性來(lái)刻畫。
Guo等[17-18]對(duì)Web工作負(fù)載上不同類型(Web、VOD、P2P和其他)的16個(gè)數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)Zipf-like分布不適合描述頻數(shù)與其排名的分布特征,而SE分布能對(duì)其進(jìn)行很好的刻畫。因?yàn)獒槍?duì)非時(shí)間屬性間的關(guān)聯(lián)關(guān)系,將采用SE分布擬合。
Zipf分布函數(shù)為:
y=c/xa
(4)
為了方便用最小二乘法擬合,將函數(shù)變換成:
lny=lnc-alnx
(5)
SE分布的分布函數(shù)為:
y=e-(x/x0)c
(6)
其中:c為廣延參數(shù),其參數(shù)范圍在(0,1),x0為尺度參數(shù)。為了方便用最小二乘法擬合,將分布函數(shù)變換成:
yc=-alnx+b
(7)
H模型的建模方法,其特征在于,首先從數(shù)據(jù)集中提取評(píng)價(jià)主體和被評(píng)價(jià)主體的關(guān)鍵屬性,進(jìn)行兩重頻數(shù)統(tǒng)計(jì),得到基于關(guān)鍵屬性的4個(gè)關(guān)系對(duì):評(píng)價(jià)主體的活躍度與活躍度排名的關(guān)系、評(píng)價(jià)主體的活躍度與其出現(xiàn)頻數(shù)的關(guān)系、被評(píng)價(jià)主體的流行度與流行度排名的關(guān)系和被評(píng)價(jià)主體的流行度與其出現(xiàn)頻數(shù)的關(guān)系;然后計(jì)算各關(guān)系對(duì)的MIC值來(lái)評(píng)估各關(guān)系對(duì)的相關(guān)性,并采用SE分布對(duì)各關(guān)系對(duì)進(jìn)行關(guān)系擬合;通過(guò)擬合的關(guān)系得到評(píng)價(jià)主體的屬性特征與其數(shù)據(jù)規(guī)模的關(guān)系,即評(píng)價(jià)主體的活躍度與其出現(xiàn)頻數(shù)關(guān)系和評(píng)價(jià)主體的數(shù)據(jù)規(guī)模的關(guān)系,以及被評(píng)價(jià)主體的屬性特征與其數(shù)據(jù)規(guī)模的關(guān)系,即流行度與其出現(xiàn)頻數(shù)關(guān)系和被評(píng)價(jià)主體的數(shù)據(jù)規(guī)模的關(guān)系,并將這兩個(gè)屬性特征通過(guò)活躍度總和等于流行度總和建立關(guān)聯(lián),得到非時(shí)間屬性關(guān)聯(lián)的H模型,如圖2所示。
圖2 H模型
在圖2中,F(xiàn)req表示活躍度,UserCount表示評(píng)價(jià)主體的數(shù)據(jù)規(guī)模,Popu表示流行度,ItemCount表示被評(píng)價(jià)主體的數(shù)據(jù)規(guī)模。式(8)表示評(píng)價(jià)主體活躍度總和等于被評(píng)價(jià)主體流行度總和。
(8)
通過(guò)評(píng)價(jià)主體的活躍度(Freq)與其頻數(shù)(FreqFreq)的SE分布關(guān)系,可以得到評(píng)價(jià)主體活躍度對(duì)應(yīng)的頻數(shù),所有活躍度對(duì)應(yīng)的頻數(shù)總和是評(píng)價(jià)主體的數(shù)據(jù)規(guī)模UserCount:
(9)
通過(guò)被評(píng)價(jià)主體流行度(Popu)與其頻數(shù)(PopuFreq)的SE分布關(guān)系,可以得到被評(píng)價(jià)主體的流行度對(duì)應(yīng)的頻數(shù),所有流行度對(duì)應(yīng)的頻數(shù)總和是被評(píng)價(jià)主體的數(shù)據(jù)規(guī)模ItemCount:
(10)
構(gòu)建H模型具體步驟如下。
步驟1 從數(shù)據(jù)集中提取關(guān)鍵屬性,包括評(píng)價(jià)主體id和被評(píng)價(jià)主體id;
步驟2 對(duì)評(píng)價(jià)主體id出現(xiàn)的頻次作頻數(shù)統(tǒng)計(jì)得到評(píng)價(jià)主體的活躍度,對(duì)被評(píng)價(jià)對(duì)象id出現(xiàn)的頻次作頻數(shù)統(tǒng)計(jì)得到被評(píng)價(jià)對(duì)象的流行度,對(duì)活躍度降序排列得到相應(yīng)的活躍度排名,對(duì)流行度降序排列得到相應(yīng)的流行度排名,對(duì)活躍度出現(xiàn)的頻次作頻數(shù)統(tǒng)計(jì)得到活躍度與其出現(xiàn)的頻數(shù),對(duì)流行度出現(xiàn)的頻次作頻數(shù)統(tǒng)計(jì)得到流行度與其出現(xiàn)的頻數(shù),從而得到以下4個(gè)關(guān)系:活躍度與活躍度排名的關(guān)系、活躍度與其出現(xiàn)頻數(shù)的關(guān)系、流行度與流行度排名的關(guān)系和流行度與其出現(xiàn)頻數(shù)的關(guān)系;
步驟3 分別對(duì)得到的4個(gè)關(guān)系計(jì)算MIC值,得到4個(gè)關(guān)系的MIC值,以度量各個(gè)關(guān)系中兩個(gè)字段間的相關(guān)性;
步驟4 對(duì)應(yīng)于4個(gè)關(guān)系分別預(yù)設(shè)4個(gè)閾值,比較4個(gè)MIC值是否都不小于預(yù)設(shè)的閾值,是則進(jìn)行下一步驟,否則此模型不適用,建模結(jié)束;
步驟5 采用SE分布對(duì)得到的4個(gè)關(guān)系進(jìn)行擬合,得到4個(gè)關(guān)系的SE分布參數(shù);
步驟6 設(shè)置評(píng)價(jià)主體的數(shù)據(jù)規(guī)模和被評(píng)價(jià)主體的數(shù)據(jù)規(guī)模;
步驟7 在活躍度排名的取值范圍內(nèi)隨機(jī)取一個(gè)數(shù)作為活躍度排名,通過(guò)活躍度與活躍度排名關(guān)系的SE分布,得到活躍度,進(jìn)一步通過(guò)活躍度與其出現(xiàn)頻數(shù)關(guān)系的SE分布,得到活躍度對(duì)應(yīng)的出現(xiàn)頻數(shù);
步驟8 對(duì)步驟7得到的頻數(shù)求和,判斷總數(shù)是否等于評(píng)價(jià)主體的數(shù)據(jù)規(guī)模,是則轉(zhuǎn)下一步驟,否則重復(fù)步驟7;
步驟9 將活躍度乘以其對(duì)應(yīng)的出現(xiàn)頻數(shù)得到活躍度總和;
步驟10 采用與步驟7、8同樣的方法,得到流行度對(duì)應(yīng)的出現(xiàn)頻數(shù),然后將流行度乘以其對(duì)應(yīng)的出現(xiàn)頻數(shù)得到流行度總和;
步驟11 判斷步驟10得到的活躍度總和是否等于步驟9得到的流行度總和,是則建模完成,否則重復(fù)步驟10。
實(shí)驗(yàn)?zāi)康氖球?yàn)證H模型能否刻畫真實(shí)數(shù)據(jù)集中非時(shí)間屬相間的關(guān)聯(lián)特征。構(gòu)造H模型的關(guān)鍵是對(duì)其中4個(gè)關(guān)系關(guān)聯(lián)度的度量和對(duì)這4個(gè)關(guān)系的擬合。因此驗(yàn)證這4個(gè)關(guān)系有較強(qiáng)的關(guān)聯(lián)度、能較好地?cái)M合這4個(gè)關(guān)系,即能說(shuō)明H模型能有效地刻畫真實(shí)數(shù)據(jù)集中非時(shí)間屬性的關(guān)聯(lián)特征。
實(shí)驗(yàn)分為2步:首先驗(yàn)證H模型中的4個(gè)關(guān)系具有較強(qiáng)的關(guān)聯(lián)度,此關(guān)聯(lián)度通過(guò)MIC值來(lái)評(píng)估;其次證明SE分布能有效地?cái)M合這4個(gè)關(guān)系,用決定系數(shù)(R2)來(lái)評(píng)估擬合程度。
4.1 數(shù)據(jù)集描述
實(shí)驗(yàn)選取6個(gè)真實(shí)數(shù)據(jù)集:MovieLens-1M、MovieLens-20M、Lastfm、Book-Crossing、Amazon-Movie、Amazon-Music。 這些數(shù)據(jù)集具有較好的代表性。主要表現(xiàn)在:1)數(shù)據(jù)集來(lái)源于可靠而權(quán)威的機(jī)構(gòu)或組織,比如,明尼蘇達(dá)大學(xué)的社會(huì)計(jì)算研究;2)在各自所在的應(yīng)用領(lǐng)域內(nèi),數(shù)據(jù)作為常用數(shù)據(jù)源被多次使用,如MovieLens數(shù)據(jù)集在推薦系統(tǒng)實(shí)驗(yàn)中廣泛使用;3)結(jié)合大數(shù)據(jù)的數(shù)據(jù)特性,針對(duì)表這種數(shù)據(jù)語(yǔ)義,考慮到數(shù)據(jù)的數(shù)據(jù)類型,實(shí)驗(yàn)中涵蓋了結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)類型;4)來(lái)自同一系統(tǒng)的不同數(shù)據(jù)集不同大小,不同時(shí)間段。比如,MoiveLens不同時(shí)期不同大小的數(shù)據(jù)1 MB和20 MB數(shù)據(jù)集,亞馬遜的用戶對(duì)電影和音樂(lè)的評(píng)論信息。表1對(duì)各個(gè)數(shù)據(jù)集進(jìn)行了簡(jiǎn)單介紹。
MovieLens-1M數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù),包含2003年2月期間6 040位用戶對(duì)3 900部電影的1 000 209條評(píng)分記錄。
MovieLens-20M數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù),包含1995年1月—2015年3月期間138 493位用戶對(duì)27 278部電影的20 000 263條評(píng)分記錄。
Lastfm數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)集,包含1 892位用戶對(duì)17 632位藝術(shù)家的186 479個(gè)標(biāo)簽信息。
Book-Crossing數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)集,包含2004年8月—9月期間278 858位用戶對(duì)2 713 798部書籍的1 149 780條評(píng)分記錄。
亞馬遜電影評(píng)論(Amazon-Movie)數(shù)據(jù)集是半結(jié)構(gòu)化數(shù)據(jù)集,包含1996年5月—2014年7月期間的4 607 047條評(píng)論記錄。
亞馬遜數(shù)字音樂(lè)評(píng)論(Amazon-Music)數(shù)據(jù)集是半結(jié)構(gòu)化數(shù)據(jù)集,包含1996年5月—2014年7月期間的836 006條評(píng)論記錄。
表1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 實(shí)驗(yàn)過(guò)程及結(jié)果分析
構(gòu)建H模型的4個(gè)關(guān)系為評(píng)價(jià)主體的活躍度與活躍度排名的關(guān)系、評(píng)價(jià)主體的活躍度與其出現(xiàn)頻數(shù)的關(guān)系、被評(píng)價(jià)主體的流行度與流行度排名的關(guān)系和被評(píng)價(jià)主體的流行度與其出現(xiàn)頻數(shù)的關(guān)系,依次表示為Rank-Freq、Rank-Popu、FreN-Freq、Popu-Freq。實(shí)驗(yàn)結(jié)果如表2。
表2 實(shí)驗(yàn)結(jié)果
對(duì)6個(gè)真實(shí)數(shù)據(jù)集分別按照H模型的構(gòu)建過(guò)程得到這4個(gè)關(guān)系的數(shù)據(jù),然后對(duì)其計(jì)算MIC值。實(shí)驗(yàn)結(jié)果表2,表明6個(gè)數(shù)據(jù)集中Rank-Freq關(guān)系的MIC值都為1,Rank-Popu關(guān)系的MIC值都為1,F(xiàn)reN-Freq關(guān)系的平均值為0.776,Popu-Freq關(guān)系的平均值為0.724,說(shuō)明這四個(gè)關(guān)系都有較強(qiáng)的相關(guān)性。特別是前兩個(gè)關(guān)系的MIC值都接近于1,表明有很強(qiáng)的相關(guān)性。
采用MovieLens-1M數(shù)據(jù)集為例說(shuō)明SE分布和Zipf分布擬合的效果,如圖3~6所示。從實(shí)驗(yàn)結(jié)果得出,這4個(gè)關(guān)系無(wú)論哪一個(gè),SE分布的決定系數(shù)都比Zipf分布的更接近于1,說(shuō)明SE分布比Zipf分布能夠更好地刻畫這4個(gè)關(guān)系。
圖3 MovieLens-1M數(shù)據(jù)集Rank-Freq散點(diǎn)圖
圖4 MovieLens-1M數(shù)據(jù)集Rank-Popu散點(diǎn)圖
圖5 MovieLens-1M數(shù)據(jù)集FreN-Freq散點(diǎn)圖
圖6 MovieLens-1M數(shù)據(jù)集Popu-Freq散點(diǎn)圖
實(shí)驗(yàn)結(jié)果表2,表明在6個(gè)數(shù)據(jù)集中用SE分布擬合,Rank-Freq關(guān)系決定系數(shù)的平均值為0.983,Rank-Popu關(guān)系決定系數(shù)的平均值為0.985,F(xiàn)reN-Freq關(guān)系決定系數(shù)的平均值為0.869,Popu-Freq關(guān)系決定系數(shù)的平均值為0.872,說(shuō)明用SE分布擬合這4個(gè)關(guān)系效果明顯。
實(shí)驗(yàn)結(jié)果顯示,后兩個(gè)關(guān)系MIC值普遍比前兩個(gè)關(guān)系的MIC值低。從MovieLens-1M數(shù)據(jù)集中的4個(gè)關(guān)系的散點(diǎn)圖,如圖3~6所示,可以得出是因?yàn)閿?shù)據(jù)集噪聲量比較大造成的,這也導(dǎo)致函數(shù)的擬合程度低于前兩個(gè)關(guān)系。在Popu-Freq這個(gè)關(guān)系的SE分布擬合圖像中,很明顯前幾個(gè)值的擬合程度非常地差,這是由于對(duì)被評(píng)價(jià)主體可以分為高頻和低頻所致。
從實(shí)驗(yàn)結(jié)果可以得出4個(gè)關(guān)系有較強(qiáng)的相關(guān)性,并能用SE分布擬合,即說(shuō)明H模型能有效地刻畫真實(shí)數(shù)據(jù)集中非時(shí)間屬性的關(guān)聯(lián)特征。
在數(shù)據(jù)測(cè)評(píng)時(shí),經(jīng)常需要根據(jù)小的真實(shí)數(shù)據(jù)集擴(kuò)展生成與真實(shí)大數(shù)據(jù)集逼真的新數(shù)據(jù)。本文針對(duì)生成表格數(shù)據(jù)技術(shù)中的非時(shí)間屬性相關(guān)性,提出H模型。H模型首先提取關(guān)鍵的4個(gè)關(guān)系,然后用MIC度量相關(guān)性,并用SE分布擬合,使得表格數(shù)據(jù)非時(shí)間屬性間的關(guān)聯(lián)特征更加明確。實(shí)驗(yàn)結(jié)果表明,H模型能有效地刻畫表內(nèi)非時(shí)間屬性間的關(guān)聯(lián)特性。非時(shí)間屬性的關(guān)聯(lián)技術(shù)是表格數(shù)據(jù)生成的重要組成部分,對(duì)表格數(shù)據(jù)的逼真生成軟件的研發(fā),提供了可靠的數(shù)據(jù)生成模型。然而,噪聲也是數(shù)據(jù)的一部分,對(duì)噪聲的注入也是數(shù)據(jù)真實(shí)性的一種體現(xiàn),因此如何注入噪聲是下一步要做的工作。
References)
[1] MING Z, LUO C, GAO W, et al. BDGS: a scalable big data generator suite in big data benchmarking [C]// Advancing Big Data Benchmarks, LNCS 8585. Berlin: Springer, 2014: 138-154.
[2] 詹劍鋒,高婉鈴,王磊,等.BigDataBench:開(kāi)源的大數(shù)據(jù)系統(tǒng)評(píng)測(cè)基準(zhǔn)[J].計(jì)算機(jī)學(xué)報(bào),2016,39(1):196-211.(ZHAN J F, GAO W L, WANG L, et al. Bigdatabench: an open-source big data benchmark suite [J]. Chinese Journal of Computers, 2016, 39(1): 196-211.)
[3] GRAY J, SUNDARESAN P, ENGLERT S, et al. Quickly generating billion-record synthetic databases [J]. ACM SIGMOD Record, 1994, 23(2): 243-252.
[4] RABL T, FRANK M, SERGIEH H M, et al. A data generator for cloud-scale benchmarking [C]// Proceedings of the 2nd TPC Technology Conference on Performance Evaluation, Measurement and Characterization of Complex Systems. Berlin: Springer, 2010: 41-56.
[5] COOPER B F, SILBERSTEIN A, TAM E, et al. Benchmarking cloud serving systems with YCSB [C]// Proceedings of the 1st ACM Symposium on Cloud Computing. New York: ACM, 2010: 143-154.
[6] BRUNO N, CHAUDHURI S. Flexible database generators [C]// Proceedings of the 31st International Conference on Very Large Data Bases. Trondheim, Norway: VLDB Endowment, 2005: 1097-1107.
[7] RABL T, LANG A, HACKL T, et al. Generating shifting workloads to benchmark adaptability in relational database systems [M]// Technology Conference on Performance Evaluation and Benchmarking, LNCS 5895. Berlin: Springer, 2009: 116-131.
[8] YIN J, LU X, ZHAO X, et al. BURSE: a bursty and self-similar workload generator for cloud computing [J]. IEEE Transactions on Parallel & Distributed Systems, 2015, 26(3): 668-680.
[9] AKROUR N, MALLET C, BARTHES L, et al. A rainfall simulator based on multifractal generator [EB/OL]. [2016- 12- 04]. http://meetingorganizer.copernicus.org/EGU2015/EGU2015-9488.pdf.
[10] ANSARI N, LIU H, SHI Y Q, et al. On modeling MPEG video traffics [J]. IEEE Transactions on Broadcasting, 2002, 48(4): 337-347.
[11] JIANG M, NIKOLIC M, HARDY S, et al. Impact of self-similarity on wireless data network performance [C]// Proceedings of the 2001 IEEE International Conference on Communications. Piscataway, NJ: IEEE, 2001: 477-481.
[12] BUSARI M, WILLIAMSON C. ProWGen: a synthetic workload generation tool for simulation evaluation of Web proxy caches [J]. Computer Networks, 2002, 38(6): 779-794.
[13] 丘志鵬,肖如良,張銳.優(yōu)先關(guān)聯(lián)的Web日志數(shù)據(jù)逼真生成算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(3):126-133.(QIU Z P, XIAO R L, ZHANG R. Simulate generating Web log algorithm using Fields’ priority relevance [J]. Computer Systems and Applications, 2017, 26(3): 126-133.)
[14] RESHEF D N, RESHEF Y A, FINUCANE H K, et al. Detecting novel association in large data sets [J]. Science, 2011, 334(6062): 1518-1524.
[15] 韓筱璞,汪秉宏,周濤.人類行為動(dòng)力學(xué)研究[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2010,7(2):132-144.(HAN X P, WANG B H, ZHOU T. Researches of human dynamics [J]. Complex Systems and Complexity Science, 2010, 7(2): 132-144.)
[16] 樊超,郭進(jìn)利,韓筱璞,等.人類行為動(dòng)力學(xué)研究綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2011,8(2):1-17.(FAN C, GUO J L, HAN X P, et al. A review of research on human dynamics [J]. Complex Systems and Complexity Science, 2011, 8(2): 1-17.)
[17] GUO L, TAN E, CHEN S, et al. The stretched exponential distribution of Internet media access patterns [C]// Proceedings of the 27th ACM Symposium on Principles of Distributed Computing. New York: ACM, 2008: 283-294.
[18] GUO L, TAN E, CHEN S, et al. Analyzing patterns of user content generation in online social networks [C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2009: 369-378.
Not-temporalattributecorrelationmodeltogeneratetabledatarealistically
ZHANG Rui1,2, XIAO Ruliang1,2*, NI Youcong1,2, DU Xin1,2
(1.FacultyofSoftware,FujianNormalUniversity,FuzhouFujian350117,China;2.FujianProvincialEngineeringResearchCenterofPublicServiceBigDataMiningandApplication,FuzhouFujian350117,China)
To solve the difficulty of attribute correlation in the process of simulating table data, an H model was proposed for describing not-temporal attribute correlation in table data. Firstly, the key attributes of the evaluation subject and the evaluated subject were extracted from the data set, by the twofold frequency statistics, four relationships of the key attributes were obtained. Then, the Maximum Information Coefficient (MIC) of each relationship was calculated to evaluate the correlation of each relationship, and each relationship was fitted by the Stretched Exponential (SE) distribution. Finally, the data scales of the evaluation subject and the evaluated subject were set. According to the result of fitting, the activity of the evaluation subject was calculated, and the popularity of the evaluated subject was calculated. H model was obtained through the association that was established by equal sum of activity and popularity. The experimental results show that H model can effectively describe the correlation characteristics of the non-temporal attributes in real data sets.
data simulation; correlation; Maximum Information Coefficient (MIC); Stretched Exponential (SE) distribution; attribute correlation
2017- 03- 29;
2017- 05- 16。
福建省科技計(jì)劃重大項(xiàng)目(2016H6007);福州市市校合作項(xiàng)目(2016-G-40)。
張銳(1992—),男,湖北孝感人,碩士研究生,主要研究方向:大數(shù)據(jù)軟件; 肖如良(1966—),男,湖南婁底人,教授,博士,CCF高級(jí)會(huì)員,主要研究方向:大數(shù)據(jù)軟件、Web智能推薦系統(tǒng)、軟件工程、系統(tǒng)虛擬化; 倪友聰(1976—),男,安徽合肥人,副教授,博士,主要研究方向:軟件體系結(jié)構(gòu)、移動(dòng)云計(jì)算; 杜欣(1979—),女,新疆石河子人,副教授,博士,主要研究方向:智能計(jì)算、計(jì)算復(fù)雜性、基于搜索的軟件工程。
1001- 9081(2017)09- 2684- 05
10.11772/j.issn.1001- 9081.2017.09.2684
TP311.1
A
This work is partially supported by the Major Project of Fuijian Provincial Science and Technology Plan (2016H6007), Fuzhou City School Cooperation Project (2016-G-40).
ZHANGRui, born in 1992, M. S. candidate. His research interests include big data software.
XIAORuliang, born in 1966, Ph. D., professor. His research interests include big data software, Web intelligent recommendation system, software engineering, system virtualization.
NIYoucong, born in 1966, Ph. D., associate professor. His research interests include software architecture, mobile cloud computing.
DUXin, born in 1979, Ph. D., associate professor. Her research interests include computational intelligence, computational complexity, search-based software engineering.