• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    關(guān)系數(shù)據(jù)庫不可用空值的查詢與處理

    2017-10-26 12:34:22郭詠科毛宇光向日鋒
    計算技術(shù)與自動化 2017年3期

    郭詠科 毛宇光 向日鋒

    摘要:在流式大數(shù)據(jù)系統(tǒng)測試過程中,測試數(shù)據(jù)集越真實,得到的測試報告越可信。然而真實大量的流式數(shù)據(jù)并不容易獲取,因此需要一種方法能夠產(chǎn)生大量符合真實場景特征的數(shù)據(jù)。這些特征包括數(shù)據(jù)屬性相關(guān)性、數(shù)據(jù)時序相關(guān)性、數(shù)據(jù)流的流速變化等等。在流式大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的時序相關(guān)性與流速變化尤為重要。本文提出了一種適用于流式大數(shù)據(jù)系統(tǒng)測試的數(shù)據(jù)生成方法,以真實場景的數(shù)據(jù)集作為種子數(shù)據(jù),對種子數(shù)據(jù)采用最大互信息系數(shù)描述數(shù)據(jù)屬性間的相關(guān)性,改進了Prim算法對屬性列集合進行分組,在盡量保證屬性列強相關(guān)的前提下提高生成效率,接著提出了一種時序模型選擇策略,保證生成的數(shù)據(jù)在時序上的相關(guān)性,提出了雙層滑動窗口的方法控制流數(shù)據(jù)輸出速度。最后,本文比較了提出的方法與其他流數(shù)據(jù)生成方法的生成效率。

    關(guān)鍵詞:流式大數(shù)據(jù)生成;非線性相關(guān)性;時序相關(guān)性;流速控制

    中圖分類號:TP311文獻標(biāo)識碼:A

    Abstract:In the process of streaming big data system testing,the more real test data sets,the more reliable the test report can be obtained.However,real data is not easy to obtain,so a method is needed to generate a large number of data with real scenario features.Thesefeatures include data attribute correlation,data temporal sequence correlation and the rates of streaming data.In the streaming big data environment,the data temporal sequence correlation and the rates of streaming dataare especially important.In this paper,we present amethod forstreaming big data generation,using real scenario streaming data as the seed data,using the maximum mutual information coefficient to describe the correlation between the data attributes,putting forward acprim algorithm to partition the attribute group,improve efficiency in the premise of ensuring that the attributes arestrong related.according to the different characteristics of each attribute group,using different temporal sequence model to ensure that the data generated hold temporal sequence correlation,a double sliding window method is proposed to control thedegree of parallelism and the output speed of the streaming data.Finally,this paper compares the proposed method with other streaming data generation methods for generating efficiency.

    Key words:streaming data generation;nonlinear correlation;temporal sequence correlation;velocity control

    1簡介

    流式大數(shù)據(jù)廣泛存在于社交網(wǎng)絡(luò)、金融服務(wù)等領(lǐng)域,越來越多的流式大數(shù)據(jù)處理系統(tǒng)應(yīng)運而生,為了保證此類系統(tǒng)的性能滿足設(shè)計需求,需要對其進行相應(yīng)的性能測試。Yahoo開發(fā)了云服務(wù)測試套件YCSB,用來對云服務(wù)進行基礎(chǔ)測試,目標(biāo)是進行云數(shù)據(jù)服務(wù)系統(tǒng)的性能比較[1];Ruirui Lu等人提出了測試套件StreamBench,描繪了流式系統(tǒng)的性能測試框架,比較全面地對流式大數(shù)據(jù)系統(tǒng)進行了測評[2];詹劍鋒等人提出了大數(shù)據(jù)測試基準BigDataBench,其基準測試程序覆蓋了多個大數(shù)據(jù)應(yīng)用領(lǐng)域[3]。然而諸如此類的測試套件,重點關(guān)注的是負載的全面性,在輸入數(shù)據(jù)集的選擇問題上考慮得不夠全面。進行流式大數(shù)據(jù)系統(tǒng)的測試,輸入到系統(tǒng)的數(shù)據(jù)與真實場景下的數(shù)據(jù)特征越吻合,得到的測試結(jié)果越準確,因此需要一種能夠保持數(shù)據(jù)真實特征的大數(shù)據(jù)仿真生成方法。

    在流數(shù)據(jù)和流數(shù)據(jù)庫仿真生成方面近年來有很多豐碩成果,Eric等人提出了DBMS測試套件MyBenchmark以及數(shù)據(jù)生成工具[4],把一組查詢操作作為輸入,能夠生成數(shù)據(jù)庫實例,同時用戶還能控制生成負載的特征。由于保持了大量數(shù)據(jù)依賴、數(shù)據(jù)分布等內(nèi)層特征,數(shù)據(jù)生成的速度不是很高。Joseph等人提出了一種合成數(shù)據(jù)形式化的描述語言SDDL[5],能夠并行生成具有某些約束和簡單用戶定義函數(shù)的數(shù)據(jù),但是沒有考慮到數(shù)據(jù)的分布特征,不能生成滿足例如高斯分布等復(fù)雜概率分布的數(shù)據(jù)。Kenneth等人將數(shù)據(jù)表的生成轉(zhuǎn)換成圖的遍歷過程[6],能夠保證比較好的屬性依賴和概率分布,由于重點保持屬性依賴,使得數(shù)據(jù)的并行化程度不高,在生成數(shù)據(jù)表規(guī)模比較龐大或者依賴關(guān)系比較復(fù)雜的時候生成速度比較慢。華東師范大學(xué)的顧伶等人提出了通用數(shù)據(jù)生成框架PSUG,使用標(biāo)準均方關(guān)聯(lián)度量計算屬性間相關(guān)性,使用隱式狄利克雷模型模擬數(shù)據(jù)流前后的主題相關(guān)性,開發(fā)了數(shù)據(jù)生成工具Chronos,能夠生成滿足流數(shù)據(jù)庫測試套件的數(shù)據(jù)[7][8],但是Chronos使用的標(biāo)準關(guān)聯(lián)度是一個線性的相關(guān)性度量指標(biāo),對于具有非線性關(guān)系的屬性關(guān)聯(lián)不能準確地描述,同時對于不存在主題的純數(shù)字型數(shù)據(jù),該生成方法無法滿足生成的數(shù)據(jù)在時序上的相關(guān)性。流式大數(shù)據(jù)的屬性依賴關(guān)系以及其固有流式特征都與傳統(tǒng)的數(shù)據(jù)庫和流數(shù)據(jù)庫有所不同。錢宇華等人研究了大數(shù)據(jù)環(huán)境下的數(shù)據(jù)相關(guān)性度量指標(biāo)的優(yōu)缺點[9][10],同時指出在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)之間的相關(guān)性一般都是非線性的。Reshef等人提出了最大互信息系數(shù),證明了該度量指標(biāo)對非線性相關(guān)性能進行比較準確的刻畫[11]。endprint

    本文在此基礎(chǔ)上提出一種適用于流式大數(shù)據(jù)系統(tǒng)測試的數(shù)據(jù)生成方法,在盡可能保證數(shù)據(jù)屬性相關(guān)性的同時,加入流式數(shù)據(jù)的時序性特征,同時還能控制流數(shù)據(jù)的流速。本文最后也進行了效率方面的檢測,證明了該數(shù)據(jù)生成方法的有效性。

    本文的結(jié)構(gòu)如下:第2節(jié)介紹數(shù)據(jù)生成方法的整體框架,第3節(jié)介紹參數(shù)設(shè)置方法,第4節(jié)介紹相關(guān)性控制方法,第5節(jié)介紹流速控制方法,第6節(jié)介紹實驗。

    2框架結(jié)構(gòu)概述

    本節(jié)對數(shù)據(jù)生成方法的框架進行簡要的描述,如圖1所示,整個框架分為3個部分:參數(shù)設(shè)置模塊、相關(guān)性控制模塊、流速控制模塊。

    參數(shù)設(shè)置模塊以種子數(shù)據(jù)作為輸入,提取屬性列的信息,生成數(shù)據(jù)描述文件,定義參數(shù)對后續(xù)生成的數(shù)據(jù)的特征進行校正,不同的參數(shù)組合可以代表不同的應(yīng)用場景下數(shù)據(jù)的不同特點。相關(guān)性控制模塊任務(wù)是計算數(shù)據(jù)屬性間的相關(guān)性系數(shù),對屬性集合進行劃分,劃分后得到的屬性組擁有類似高內(nèi)聚低耦合的特征。提出時序模型選擇策略對于每個屬性組進行時序相關(guān)性的分析,得出回歸方程用作數(shù)據(jù)生成。流速控制模塊定義內(nèi)層滑動窗口保證并行生成的數(shù)據(jù)在整個時間序上的相關(guān)性,定義外層滑動窗口控制數(shù)據(jù)流輸出速率。

    3參數(shù)設(shè)置

    本節(jié)介紹數(shù)據(jù)生成方法的參數(shù)設(shè)置。本文方法定義了四個參數(shù):最大相關(guān)性忽略系數(shù)c;時序相關(guān)回歸階數(shù)r;時間分段T;數(shù)據(jù)流速S。

    最大相關(guān)性忽略系數(shù)c是在數(shù)據(jù)屬性組劃分階段,終止搜索下一個屬性所參考的變量。取值范圍在0.2~0.4,屬性相關(guān)性在0.2以下說明屬性之間相關(guān)性極低,在0.2~0.4之間相關(guān)性較低。該參數(shù)越小,允許忽略的相關(guān)性越少,因此分解出的屬性組越少,并行化程度越低;相反,分解出的屬性組越多,并行化程度越高。對于僅僅需要進行壓力或者負載測試的系統(tǒng)來說,該參數(shù)設(shè)置大一些,忽略數(shù)據(jù)屬性之間一些不必要的相關(guān)性;對于某些具備數(shù)據(jù)挖掘功能的系統(tǒng)來說,該參數(shù)應(yīng)設(shè)置小一些,盡量保存數(shù)據(jù)屬性之間的相關(guān)性,使得數(shù)據(jù)挖掘性能能夠得到展現(xiàn)。

    時序相關(guān)回歸階數(shù)r是在進行數(shù)據(jù)時序相關(guān)性分析階段,向前參考數(shù)據(jù)的個數(shù),取值范圍在2~4。該參數(shù)越小,時序相關(guān)性越弱,但回歸公式越簡單,數(shù)據(jù)生成效率越高;相反,考慮的數(shù)據(jù)時序相關(guān)性越強,回歸公式越復(fù)雜,數(shù)據(jù)生成效率越低。對于類似股票流數(shù)據(jù)的場景,該參數(shù)應(yīng)設(shè)置高一些,使得生成的數(shù)據(jù)與之前數(shù)據(jù)的關(guān)系盡可能精準一些;而對于類似車載物聯(lián)網(wǎng)系統(tǒng)來說,其前后的流數(shù)據(jù)相關(guān)性不是特別重要,該參數(shù)可以設(shè)置低一點。

    時間分段T描述的就是某一個周期下不同數(shù)據(jù)流速的段數(shù)以及時長,是一個自然數(shù)的集合,即T={t1,t2,t3……}。該參數(shù)元素個數(shù)越小,流速越平穩(wěn),數(shù)據(jù)流越穩(wěn)定;相反,流速變化越頻繁,數(shù)據(jù)流波動越大。例如銀行系統(tǒng),每天早7點之前和晚7點之后,系統(tǒng)負載較小,早7點到11點和下午2點到7點為高峰,負載較大,則可以將整個數(shù)據(jù)流分為4段,即t1=12(晚7點到第二天早7點);t2=4(早7點到早11點);t2=3(早11點到下午2點);t4=5(下午2點到下午7點)。

    數(shù)據(jù)流速S描述的是時間分段T上的數(shù)據(jù)流速,S同樣是一個自然數(shù)的集合,元素個數(shù)與T一致。2012年的新年新浪微博的單秒最大數(shù)據(jù)條數(shù)達到了4萬條, 2016年11月11日,天貓購物節(jié)支付寶的交易峰值也只有16萬條數(shù)據(jù)/秒,根據(jù)互聯(lián)網(wǎng)用戶每年25%的增長趨勢,本文將其取值范圍設(shè)置在0~200000條數(shù)據(jù)/秒。S中元素的值越大,數(shù)據(jù)輸出得越快。假設(shè)s1代表晚上5點之前的流速,s2代表晚上7點之后的流速,則對于上述銀行系統(tǒng),朝九晚五的特點使得系統(tǒng)的數(shù)據(jù)流速在晚上7點之后明顯小于5點之前(s1s2);相反對于微博系統(tǒng),上班族下班,數(shù)據(jù)流速在晚上7點之后可能又遠遠大于晚上5點之前(s1s2)。

    4相關(guān)性控制

    本節(jié)介紹數(shù)據(jù)相關(guān)性控制方法,對于保證生成的數(shù)據(jù)符合真實數(shù)據(jù)特征具有重要作用。首先分析其兩兩之間的最大互信息相關(guān)系數(shù)(MIC),得到相關(guān)系數(shù)圖,接著改進了Prim算法進行屬性列集合的劃分,使得保持數(shù)據(jù)屬性列強相關(guān)的同時增加并行化來增加數(shù)據(jù)生成效率,最后給出一種時序模型選擇策略,對不同特征的屬性列集合采取不同的時序模型進行擬合,得到回歸方程或方程組用作后續(xù)數(shù)據(jù)生成。

    41屬性相關(guān)性

    屬性相關(guān)性是指擁有多個屬性的一批數(shù)據(jù),其屬性之間的關(guān)聯(lián)程度。在大數(shù)據(jù)相關(guān)分析中,MIC可以度量任何函數(shù)形式的相關(guān)性,具有通用性。同時,如果兩組不同形式、擁有相同MIC取值的數(shù)據(jù),當(dāng)給它們同等程度的噪音,MIC的取值仍然保持相等。流式大數(shù)據(jù)環(huán)境下,對數(shù)據(jù)的生成速度有要求,生成算法計算的復(fù)雜度越低越好,同時大數(shù)據(jù)復(fù)雜多樣、噪聲數(shù)據(jù)很多,算法的魯棒性同樣重要。表1是MIC與其他相關(guān)性度量指標(biāo)的對比,可以看出MIC更加適合流式大數(shù)據(jù)的環(huán)境。

    由于MIC具有對稱性,即MIC(A,B) = MIC(B,A),因此對于具有N個屬性的數(shù)據(jù)集,計算后能夠得到一個N個節(jié)點的帶權(quán)無向完全圖,圖中的邊的權(quán)值代表兩個屬性列之間的相關(guān)系數(shù)。當(dāng)兩個屬性列之間的相關(guān)性比較小時,應(yīng)該將它們單獨生成,而相關(guān)性比較大的幾個屬性列必須作為整體一起生成,所以可以對屬性列相關(guān)系數(shù)圖進行劃分,把相關(guān)性大的屬性列劃到同一組,以提高并行度,進而提高數(shù)據(jù)生成的整體效率。

    圖的最小生成樹算法以圖中連線權(quán)值為參考,生成一條包含所有節(jié)點的序列,由于本文進行屬性列分組時也需要參考連線權(quán)值,所以可以通過加入終止條件的辦法,讓算法提前結(jié)束,獲得序列的一條子序列,子序列中包含的節(jié)點就被分為同組。普利姆算法(Prim算法)和克魯斯卡爾算法(Kruskal算法),是最基本的兩種圖最小生成樹算法,分別適用于稠密圖和稀疏圖。帶權(quán)無向完全圖屬于稠密圖,因此本文對Prim算法進行改進,提出一種附加終止條件的Prim算法——cPrim算法劃分屬性列集合。endprint

    cPrim算法思想:從任意一個頂點出發(fā),尋找與其相連的邊集合中權(quán)值最大的邊,如果該邊的權(quán)值仍然小于等于最大相關(guān)性忽略系數(shù)c,則直接將該節(jié)點單獨分為一組;如果不小于c,找出最大權(quán)值邊對應(yīng)的節(jié)點,將該節(jié)點納入出發(fā)節(jié)點集合,再從出發(fā)節(jié)點集合出發(fā)尋找最大權(quán)值的邊,不斷循環(huán),直到所有節(jié)點被分成了若干組。假定最大相關(guān)性忽略系數(shù)c為0.2,下面以圖2為例,簡單介紹算法步驟。

    圖2(a)為劃分之前的關(guān)聯(lián)關(guān)系圖。隨機從一個節(jié)點出發(fā)(例如1號節(jié)點),與其相連的邊上的權(quán)值為0.1、0.1、0.2,均小于等于c,故直接將1號節(jié)點單獨分為一組,如圖2(b)所示。

    再從剩下的2,3,4號節(jié)點中隨機選取一個(例如3號節(jié)點),與其相連邊最大權(quán)值為0.5,大于c,那么將4號節(jié)點納入{3},如圖2(c)所示。

    繼續(xù)尋找從3,4號節(jié)點出發(fā)的最大權(quán)值的邊,是2號與4號節(jié)點的連接邊,權(quán)值為0.3,大于0.2,將2號節(jié)點納入{3,4}。整個屬性集合被分成了2組:{1},{2,3,4},如圖2(d)所示。

    假定的最大相關(guān)性忽略系數(shù)c為0.4,根據(jù)算法可以將屬性集合分為3組:{1},{2},{3,4}。

    算法偽代碼:

    42時序相關(guān)性

    數(shù)據(jù)的時序相關(guān)性是指帶有時間戳的一組數(shù)據(jù),其前后數(shù)據(jù)屬性值的關(guān)聯(lián)關(guān)系。在流式大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的時序性非常關(guān)鍵,缺少了時序的流式數(shù)據(jù)就喪失了數(shù)據(jù)挖掘特別是趨勢預(yù)測的意義。本小節(jié)提出一種時序模型選擇策略,針對不同特點的屬性組采用不同的時序模型進行回歸方程的擬合。

    屬性分組劃分完之后,首先將屬性組分為2類:單屬性組和多屬性組。

    對于單屬性組,首先判斷其是否平穩(wěn),即序列是否圍繞某個固定值上下波動或者序列的標(biāo)準差是否保持不變。若平穩(wěn),則采用經(jīng)典的自回歸移動平均(ARMA)模型進行擬合,形式為:

    Xt=Φ1Xt-1+…+ΦpXt-p+εt-…-θqεq(5)

    其中Xt是需要估計的下一個值,Xt-1~Xt-p是回歸參考的屬性數(shù)據(jù),εt是當(dāng)前噪聲,εt-1~εt-p是回歸參考的噪聲數(shù)據(jù),Φ1~Φp以及θ1~θq為回歸參考數(shù)據(jù)的參數(shù)。

    若非平穩(wěn),則采用自回歸滑動平均(ARIMA)模型進行擬合。ARIMA模型是針對非平穩(wěn)的單變量時間序列的,其基本思想是將一個非平穩(wěn)的時間序列通過一次或者多次差分轉(zhuǎn)換成平穩(wěn)序列再進行擬合。一般來說,一階差分可以使有線性趨勢的序列變得平穩(wěn);二階差分可以使有曲線趨勢的序列變得平穩(wěn)。ARIMA模型形式為:

    其中Δd是指經(jīng)過了d階差分,其他參數(shù)同ARMA模型的參數(shù)。

    對于多屬性組,采用自向量回歸(VAR)模型進行擬合。VAR模型針對的是多變量的時間序列,擬合之前需要觀察數(shù)據(jù)VAR模型根模散點是否均落在單位圓內(nèi)來的判斷序列是否平穩(wěn),若不平穩(wěn),首先差分成平穩(wěn)序列再進行擬合,模型形式為:

    Xt=Φ1Xt-1+…+ΦpXt-p+βYt+εt(7)

    其中Xt~Xt-p為內(nèi)生變量向量,Yt是外生變量向量,改變量是指除了參與,εt是當(dāng)前噪聲向量,Φ1~Φp以及β為回歸參考數(shù)據(jù)的參數(shù)。對所有屬性組進行擬合得到回歸方程,用作數(shù)據(jù)生成。

    5流速控制

    本節(jié)描述一種雙層滑動窗口的方法,控制流數(shù)據(jù)流速?;瑒哟翱诘母拍钭钕瘸霈F(xiàn)在計算機網(wǎng)絡(luò)中,通訊雙方約定一個能夠接受的窗口大小,每次只發(fā)送和接收指定窗口大小的內(nèi)容,防止數(shù)據(jù)溢出。

    為了保證流數(shù)據(jù)整體的時序性,必須在增加并行度時進行控制,定義內(nèi)層滑動窗口,窗口大小為時序相關(guān)回歸階數(shù)r,維護著最新的r個數(shù)據(jù),如圖3所示,有2個線程分別生成屬性a和屬性b,c。

    當(dāng)屬性組需要增加并行化時,不直接通過隨機數(shù)生成器生成種子,而是將窗口內(nèi)的r個數(shù)據(jù)當(dāng)作新線程的種子數(shù)據(jù),如圖4所示。因為回歸方程帶有一定的噪聲,因此在當(dāng)前窗口基礎(chǔ)上生成的后續(xù)數(shù)據(jù)和以這批數(shù)據(jù)作為新種子生成的數(shù)據(jù)不會完全一樣,同時保證了一個屬性組在整個時間序列上的相關(guān)性。

    為了控制數(shù)據(jù)流流速,定義外層滑動窗口,外層窗口大小為當(dāng)前時間段T上的流速S,輸出數(shù)據(jù)時,以恒定的速率輸出窗口內(nèi)數(shù)據(jù),需要流速加大時,就增大窗口大小;需要流速減小時,就減小窗口大小。如圖5所示,T1階段流速為500條/秒,T2階段流速為5000條/秒。

    6實驗

    本節(jié)介紹實驗,驗證提出的方法生成的數(shù)據(jù)滿足預(yù)設(shè)的速率要求;數(shù)據(jù)屬性之間的相關(guān)性仍然保持;最終生成的數(shù)據(jù)與種子數(shù)據(jù)的分布基本一致。此外,實驗還比較了本文方法與PSUG[7]和文獻[13]提出方法的數(shù)據(jù)生成效率。

    61實驗設(shè)置

    實驗配置為:4核酷睿i7處理器,主頻3.4 GHz,內(nèi)存16 GB,硬盤存儲1 TB。

    初始參數(shù)設(shè)置:最大相關(guān)性忽略系數(shù)c為0.2,時序相關(guān)回歸階數(shù)r為2,運行總時間30分鐘,分為3段,即t1=10、t2=10、tz=10,流速分別為500條/秒,10000條/秒,50000條/秒,即s1=500、s2=10000、sz=50000,3個時間段總計分別生成30W,600W,3000W條數(shù)據(jù)。實驗的種子數(shù)據(jù)為10000條帶有時間戳的新浪微博數(shù)據(jù),經(jīng)過清洗之后每條數(shù)據(jù)包含“微博文本長度”,“轉(zhuǎn)發(fā)數(shù)”,“評論數(shù)”,“點贊數(shù)”4個屬性。

    62實驗結(jié)果

    圖7為生成的數(shù)據(jù)分布與種子數(shù)據(jù)分布的對比,其中生成數(shù)據(jù)的分布圖是由生成的數(shù)據(jù)隨機開始位置10000條連續(xù)的記錄產(chǎn)生的,由于無法確定提取的數(shù)據(jù)流處在整個數(shù)據(jù)流的位置,考察每個值出現(xiàn)的位置沒有意義,比較每個數(shù)據(jù)段上的數(shù)據(jù)量分布即可,可以看到生成的數(shù)據(jù)比較符合種子數(shù)據(jù)的數(shù)據(jù)分布,圖7只列出了“文本長度”和“轉(zhuǎn)發(fā)數(shù)”的數(shù)據(jù)分布對比,“評論數(shù)”和“點贊數(shù)”與“轉(zhuǎn)發(fā)數(shù)”類似。endprint

    圖8為本文方法與其他方法的效率對比,與PSUG相比,兩種方法在屬性相關(guān)性分析方法策略上有所不同,但數(shù)據(jù)生成的速率本文方法大約為PSUG的2倍;與不保證時序相關(guān)的流數(shù)據(jù)表生成方法相比,本文提出的方法加入了數(shù)據(jù)時序性的特征,生成速度大約下降了20%,速度損失可以接受。

    7總結(jié)和展望

    本文提出了一種適用于流式大數(shù)據(jù)系統(tǒng)測試的數(shù)據(jù)生成方法,采用了更加適用于流式大數(shù)據(jù)系統(tǒng)的非線性相關(guān)系數(shù)MIC來描述數(shù)據(jù)屬性之間的相關(guān)關(guān)系,改進了Prim算法合理地劃分屬性集合;加入流式數(shù)據(jù)重要的時序性特征,盡可能保留了前后數(shù)據(jù)之間的相關(guān)性;提出了雙層滑動窗口的概念,能更好地控制數(shù)據(jù)輸出的速率。

    本文的不足之處在于:自動化程度不高,不能運行時動態(tài)添加屬性;需要手動定義變量;數(shù)據(jù)時序相關(guān)性分析的參數(shù)需要手動賦值;整個數(shù)據(jù)流的流速變化比較突然,實際的應(yīng)用系統(tǒng)中的數(shù)據(jù)流速變化應(yīng)該比較平滑;不能支持非結(jié)構(gòu)化類型的數(shù)據(jù)生成。

    在未來的工作中,我們希望能夠?qū)?shù)據(jù)生成的預(yù)處理過程進一步自動化,挖掘數(shù)據(jù)流的流速變化規(guī)律,支持生成更多數(shù)據(jù)類型的數(shù)據(jù)。

    參考文獻

    [1]COOPER B F,SILBERSTEIN A.Benchmarking Cloud Serving Systems with YCSB[C].international IEEE SOCC,2010.

    [2]LU Ruirui,WU Gang,XIE Bin.StreamBench:Towards Benchmarking Modern Distributed Stream Computing Frameworks[C].IEEE/ACM 7th International Conference on Utility and Cloud Computing.2014.

    [3]ZHAN Jianfeng,GAO Wanling,WANG Lei.Big Data Bench:An Opensource Big Data Benchmark Suite[J].Chinese Journal Of Computers,2016,39(1):196-211.

    [4]LO Eric,CHENG Nick.Generating Databases for Query Workloads[J].VLDB.2010,3(1),848-855.

    [5]HOAG J E,THOMPSON C W.A parallel generalpurpose synthetic data generator[C].SIGMOD.2007,36(1),19-24.

    [6]HOUKJAR K,TORP K,WID R.Simple and realistic data generation[C].VLDB.2006,1243-1246.

    [7]GU Ling,ZHOU Minqi.A Scalable Framework for Universal Data Generation in Parallel[C].6th TPCTC.2014.

    [8]GU Ling,ZHOU Minqi.Chronos:An Elastic Parallel Framework for Stream Benchmark Generation and Simulation[C],IEEE 31st International Conference on Data Engineering.2015.

    [9]LIANG Jiye,F(xiàn)ENG Chenjiao,SONG Peng.A Survey on Correlation Analysis of Big Data[J].ChineseJournal Of Computers,2016,39(1),1-18.

    [10]QIAN Yuhua,CHENG Honghong,LIANG Xinyan.Review for Association Measures in Big Data[J].Journal of Data Acquisition and Processing,2015,30(6),1147-1159.

    [11]RESHEF D N,RESHEF Y A,F(xiàn)INUCANE H K,et al.Grossman.Detecting Novel Associations in Large Data Sets[C].Science,2011,334(10),1518-1524.

    [12]HU Bo,GUO Li.Practical statistical analysis method and technology[M].Beijing:Chemical Industry Press,2013.

    [13]ARASU A,KAUSHIK R,LI Jian.Data Generation using Declarative Constraints[J].Acm Sigmod International Conference on Management of Data,2011,685-696.endprint

    欧美激情久久久久久爽电影 | 精品一区二区三卡| 老司机影院毛片| 国产精品偷伦视频观看了| 欧洲精品卡2卡3卡4卡5卡区| 欧美精品啪啪一区二区三区| 新久久久久国产一级毛片| 欧美黄色片欧美黄色片| 在线观看午夜福利视频| 丰满迷人的少妇在线观看| 欧美不卡视频在线免费观看 | 国产午夜精品久久久久久| 99riav亚洲国产免费| 国产男女内射视频| 国产在视频线精品| 女人高潮潮喷娇喘18禁视频| 欧美日韩乱码在线| 成人三级做爰电影| 又黄又粗又硬又大视频| 天天躁狠狠躁夜夜躁狠狠躁| а√天堂www在线а√下载 | 欧美激情 高清一区二区三区| 国产精品久久久久久人妻精品电影| 女人被狂操c到高潮| 在线国产一区二区在线| 精品亚洲成a人片在线观看| 亚洲av电影在线进入| 欧美日韩福利视频一区二区| 男男h啪啪无遮挡| 亚洲精品中文字幕在线视频| 男女床上黄色一级片免费看| 欧美日韩福利视频一区二区| 91在线观看av| 在线视频色国产色| 69av精品久久久久久| 成年女人毛片免费观看观看9 | 亚洲精品美女久久av网站| 男人的好看免费观看在线视频 | 一边摸一边做爽爽视频免费| 午夜福利,免费看| 欧美激情高清一区二区三区| 亚洲第一欧美日韩一区二区三区| 老司机在亚洲福利影院| 亚洲av美国av| 在线观看日韩欧美| 久久青草综合色| 热re99久久精品国产66热6| 在线永久观看黄色视频| 电影成人av| 麻豆国产av国片精品| 国产aⅴ精品一区二区三区波| 国产精品98久久久久久宅男小说| 国产av一区二区精品久久| 久久久久久久精品吃奶| 国产精品一区二区在线不卡| 不卡一级毛片| 免费高清在线观看日韩| 美女午夜性视频免费| 99精品欧美一区二区三区四区| 狠狠狠狠99中文字幕| 免费看十八禁软件| 夜夜躁狠狠躁天天躁| 建设人人有责人人尽责人人享有的| 国产蜜桃级精品一区二区三区 | 精品国产超薄肉色丝袜足j| 中文字幕制服av| 亚洲av美国av| x7x7x7水蜜桃| netflix在线观看网站| 天天躁夜夜躁狠狠躁躁| 欧美日本中文国产一区发布| 国产精华一区二区三区| 国产成人免费无遮挡视频| 亚洲欧美激情在线| 亚洲久久久国产精品| 欧美色视频一区免费| 制服人妻中文乱码| 亚洲专区字幕在线| 欧美午夜高清在线| 丝袜美腿诱惑在线| 亚洲成国产人片在线观看| 咕卡用的链子| 午夜福利一区二区在线看| 这个男人来自地球电影免费观看| 免费观看精品视频网站| 超碰97精品在线观看| 日本精品一区二区三区蜜桃| 18禁黄网站禁片午夜丰满| 色播在线永久视频| 日韩中文字幕欧美一区二区| 在线观看一区二区三区激情| 黄色视频不卡| 久久精品亚洲av国产电影网| 国产成人av激情在线播放| 老司机在亚洲福利影院| 18禁国产床啪视频网站| 久久天躁狠狠躁夜夜2o2o| 久久久久国产一级毛片高清牌| 国产成人精品久久二区二区免费| 女人爽到高潮嗷嗷叫在线视频| 久久香蕉精品热| 久久精品aⅴ一区二区三区四区| 露出奶头的视频| 十八禁人妻一区二区| 99久久综合精品五月天人人| 99国产精品99久久久久| 亚洲三区欧美一区| 热99久久久久精品小说推荐| 国产精华一区二区三区| 亚洲色图综合在线观看| 精品久久久久久,| 最近最新中文字幕大全免费视频| 色尼玛亚洲综合影院| 高清欧美精品videossex| 人人妻,人人澡人人爽秒播| 男人舔女人的私密视频| 丰满人妻熟妇乱又伦精品不卡| 王馨瑶露胸无遮挡在线观看| 亚洲av美国av| 久久中文字幕一级| 国产不卡av网站在线观看| 麻豆av在线久日| 色综合欧美亚洲国产小说| netflix在线观看网站| 黑人巨大精品欧美一区二区蜜桃| 午夜免费观看网址| 久久久久久久精品吃奶| 亚洲第一欧美日韩一区二区三区| 亚洲av成人一区二区三| 日本五十路高清| 国产99白浆流出| 久久久国产欧美日韩av| 国产男靠女视频免费网站| 国产免费现黄频在线看| 亚洲一区二区三区欧美精品| 大片电影免费在线观看免费| 亚洲欧美一区二区三区久久| 亚洲成人手机| 91大片在线观看| 在线观看免费高清a一片| 亚洲精品国产一区二区精华液| tocl精华| 美女扒开内裤让男人捅视频| 国产成人啪精品午夜网站| 国产亚洲精品一区二区www | 国产蜜桃级精品一区二区三区 | 国产激情欧美一区二区| 色综合婷婷激情| 真人做人爱边吃奶动态| 麻豆乱淫一区二区| 亚洲av成人不卡在线观看播放网| 亚洲精品在线美女| 欧美在线黄色| 日韩 欧美 亚洲 中文字幕| 精品人妻熟女毛片av久久网站| 成人手机av| 波多野结衣一区麻豆| 国产1区2区3区精品| 亚洲欧美日韩另类电影网站| 久久精品人人爽人人爽视色| 老司机福利观看| 国产亚洲精品久久久久久毛片 | 亚洲国产精品合色在线| 国产三级黄色录像| 一级片'在线观看视频| 在线观看免费视频日本深夜| 久久中文字幕人妻熟女| 精品国产一区二区久久| 久久精品亚洲熟妇少妇任你| 宅男免费午夜| 女人精品久久久久毛片| 亚洲精品在线美女| 大型av网站在线播放| 黄片播放在线免费| 午夜福利视频在线观看免费| 在线观看午夜福利视频| 黄色毛片三级朝国网站| 成人精品一区二区免费| 精品一区二区三卡| 久久久久精品国产欧美久久久| 777米奇影视久久| 国产精品一区二区在线不卡| 亚洲国产中文字幕在线视频| 最新在线观看一区二区三区| 久久99一区二区三区| 露出奶头的视频| 天堂中文最新版在线下载| 亚洲性夜色夜夜综合| 天堂中文最新版在线下载| a在线观看视频网站| 18在线观看网站| 夜夜爽天天搞| 成人黄色视频免费在线看| 久久久久久久久久久久大奶| 大香蕉久久成人网| 午夜精品久久久久久毛片777| 亚洲人成电影观看| a级毛片在线看网站| 亚洲色图 男人天堂 中文字幕| 久久久精品国产亚洲av高清涩受| 国产成人欧美在线观看 | 欧美在线一区亚洲| 老司机影院毛片| 交换朋友夫妻互换小说| 久久久国产成人免费| 日本撒尿小便嘘嘘汇集6| 色综合欧美亚洲国产小说| 精品久久久久久久久久免费视频 | 99精国产麻豆久久婷婷| 在线看a的网站| 日本a在线网址| 在线观看午夜福利视频| 国产麻豆69| 欧美国产精品一级二级三级| 看片在线看免费视频| 亚洲专区字幕在线| 中文亚洲av片在线观看爽 | 一级,二级,三级黄色视频| 国产精品成人在线| 男人的好看免费观看在线视频 | 999久久久国产精品视频| 日韩制服丝袜自拍偷拍| 亚洲精品久久成人aⅴ小说| 亚洲av美国av| 大陆偷拍与自拍| 国产精品久久久久久人妻精品电影| 欧美日韩福利视频一区二区| 亚洲一区高清亚洲精品| 男女高潮啪啪啪动态图| 精品国内亚洲2022精品成人 | 又紧又爽又黄一区二区| 久久久久久人人人人人| 久久国产乱子伦精品免费另类| 国产一卡二卡三卡精品| 国产精品一区二区在线观看99| 久久久久久久久久久久大奶| 久久这里只有精品19| 久久影院123| 亚洲午夜精品一区,二区,三区| 精品电影一区二区在线| 亚洲美女黄片视频| 午夜福利乱码中文字幕| 午夜福利免费观看在线| av电影中文网址| 啦啦啦免费观看视频1| 99国产精品99久久久久| 精品人妻熟女毛片av久久网站| 亚洲国产精品一区二区三区在线| 少妇 在线观看| 国产精品永久免费网站| 久久九九热精品免费| 日韩熟女老妇一区二区性免费视频| 亚洲色图av天堂| 久久午夜综合久久蜜桃| 欧美一级毛片孕妇| 又黄又粗又硬又大视频| 少妇 在线观看| tube8黄色片| 黄色女人牲交| 国产精品九九99| 国产有黄有色有爽视频| 亚洲一码二码三码区别大吗| 视频在线观看一区二区三区| 一级,二级,三级黄色视频| 嫁个100分男人电影在线观看| 成年人黄色毛片网站| 国产极品粉嫩免费观看在线| 大码成人一级视频| 黄色怎么调成土黄色| 色老头精品视频在线观看| 国产一区二区三区视频了| a级片在线免费高清观看视频| 国产有黄有色有爽视频| aaaaa片日本免费| 十八禁人妻一区二区| 国产极品粉嫩免费观看在线| 制服人妻中文乱码| 久久国产亚洲av麻豆专区| 少妇 在线观看| 一区福利在线观看| 黄色视频不卡| av超薄肉色丝袜交足视频| 一级作爱视频免费观看| 亚洲av成人一区二区三| 纯流量卡能插随身wifi吗| 90打野战视频偷拍视频| 女人精品久久久久毛片| 黄色成人免费大全| 欧美午夜高清在线| 欧美日韩乱码在线| 无遮挡黄片免费观看| 国产亚洲精品久久久久久毛片 | 亚洲综合色网址| 美女国产高潮福利片在线看| 午夜福利一区二区在线看| 日本一区二区免费在线视频| 亚洲自偷自拍图片 自拍| 免费在线观看完整版高清| 国产成人免费观看mmmm| 热re99久久精品国产66热6| 午夜福利免费观看在线| 亚洲精品国产色婷婷电影| 久久久久久久国产电影| 国产色视频综合| 亚洲专区字幕在线| 国产欧美日韩一区二区三| 亚洲成a人片在线一区二区| 一区二区三区激情视频| 亚洲精品自拍成人| 成年版毛片免费区| 男女免费视频国产| 美国免费a级毛片| 啦啦啦 在线观看视频| 法律面前人人平等表现在哪些方面| 十八禁高潮呻吟视频| 一区在线观看完整版| 精品少妇一区二区三区视频日本电影| 一夜夜www| 一区二区三区国产精品乱码| 久久久水蜜桃国产精品网| 久久ye,这里只有精品| 亚洲少妇的诱惑av| 国产麻豆69| 国产无遮挡羞羞视频在线观看| 在线看a的网站| 精品国产国语对白av| 精品人妻熟女毛片av久久网站| 国产精品永久免费网站| 欧美黑人精品巨大| av网站在线播放免费| 男女午夜视频在线观看| 性少妇av在线| 人人妻,人人澡人人爽秒播| 免费观看a级毛片全部| 又紧又爽又黄一区二区| 精品福利永久在线观看| 久久精品亚洲精品国产色婷小说| 亚洲性夜色夜夜综合| 国产99久久九九免费精品| 午夜免费观看网址| 亚洲欧洲精品一区二区精品久久久| 在线观看一区二区三区激情| 精品午夜福利视频在线观看一区| 亚洲国产精品sss在线观看 | 国产精品久久电影中文字幕 | 麻豆国产av国片精品| 亚洲三区欧美一区| 在线观看午夜福利视频| 亚洲专区国产一区二区| 一级片免费观看大全| 热99国产精品久久久久久7| 午夜福利在线免费观看网站| 亚洲av成人一区二区三| 老司机影院毛片| 啦啦啦视频在线资源免费观看| 欧美老熟妇乱子伦牲交| 欧美精品av麻豆av| 两个人免费观看高清视频| 大片电影免费在线观看免费| 国产不卡一卡二| 成人国语在线视频| 亚洲国产毛片av蜜桃av| 老司机午夜十八禁免费视频| 精品人妻1区二区| 一进一出抽搐动态| 伊人久久大香线蕉亚洲五| 99香蕉大伊视频| 999精品在线视频| 亚洲熟女精品中文字幕| 免费在线观看影片大全网站| 一级作爱视频免费观看| 波多野结衣一区麻豆| 色婷婷久久久亚洲欧美| 在线观看www视频免费| 成年人免费黄色播放视频| 免费观看a级毛片全部| 人人澡人人妻人| 婷婷精品国产亚洲av在线 | 啪啪无遮挡十八禁网站| 性少妇av在线| 最新美女视频免费是黄的| 超碰97精品在线观看| a级片在线免费高清观看视频| 777久久人妻少妇嫩草av网站| 在线观看66精品国产| 亚洲,欧美精品.| 美女 人体艺术 gogo| 美女国产高潮福利片在线看| 99热只有精品国产| 一级作爱视频免费观看| 9色porny在线观看| 欧美亚洲日本最大视频资源| 国产亚洲欧美在线一区二区| av福利片在线| 一级毛片高清免费大全| 老熟妇仑乱视频hdxx| 亚洲中文av在线| 国产精品美女特级片免费视频播放器 | 天天躁狠狠躁夜夜躁狠狠躁| 精品久久久久久久毛片微露脸| 欧美日韩一级在线毛片| 啦啦啦视频在线资源免费观看| 成人国产一区最新在线观看| 精品久久久久久久毛片微露脸| bbb黄色大片| 777米奇影视久久| 777久久人妻少妇嫩草av网站| 国产欧美亚洲国产| 精品熟女少妇八av免费久了| 欧美不卡视频在线免费观看 | 又黄又粗又硬又大视频| 午夜精品国产一区二区电影| 久久天躁狠狠躁夜夜2o2o| 亚洲色图综合在线观看| av在线播放免费不卡| 国产成人av教育| 国产精品国产高清国产av | 一级作爱视频免费观看| 王馨瑶露胸无遮挡在线观看| 久久国产精品男人的天堂亚洲| 亚洲欧美一区二区三区黑人| 欧美黄色淫秽网站| 亚洲一区中文字幕在线| 久久久精品免费免费高清| 国产成人精品无人区| 老司机午夜福利在线观看视频| 久久精品亚洲精品国产色婷小说| 欧美av亚洲av综合av国产av| 狠狠婷婷综合久久久久久88av| 操美女的视频在线观看| 亚洲成人手机| 日本五十路高清| 日韩欧美免费精品| 狂野欧美激情性xxxx| 超碰成人久久| 日韩 欧美 亚洲 中文字幕| 国产精品 国内视频| 成人18禁高潮啪啪吃奶动态图| 亚洲欧美激情在线| 午夜福利乱码中文字幕| 男人的好看免费观看在线视频 | 久久午夜亚洲精品久久| 欧美激情高清一区二区三区| 国产有黄有色有爽视频| 操出白浆在线播放| 极品人妻少妇av视频| 欧洲精品卡2卡3卡4卡5卡区| 日日夜夜操网爽| 美女国产高潮福利片在线看| 纯流量卡能插随身wifi吗| 亚洲精品久久成人aⅴ小说| 日本黄色日本黄色录像| 男女免费视频国产| av福利片在线| 大片电影免费在线观看免费| 高潮久久久久久久久久久不卡| 国产精品乱码一区二三区的特点 | 午夜91福利影院| 精品少妇一区二区三区视频日本电影| 国产不卡av网站在线观看| 自拍欧美九色日韩亚洲蝌蚪91| 老熟女久久久| 中文字幕人妻熟女乱码| 成人特级黄色片久久久久久久| 俄罗斯特黄特色一大片| 精品人妻熟女毛片av久久网站| 免费观看a级毛片全部| 热99国产精品久久久久久7| 国产一区二区三区在线臀色熟女 | 欧美久久黑人一区二区| 国产av一区二区精品久久| e午夜精品久久久久久久| 午夜视频精品福利| 亚洲熟女精品中文字幕| 妹子高潮喷水视频| 中国美女看黄片| 欧美日韩精品网址| 满18在线观看网站| 91九色精品人成在线观看| 美女高潮喷水抽搐中文字幕| 精品午夜福利视频在线观看一区| 婷婷精品国产亚洲av在线 | 一本综合久久免费| 视频区欧美日本亚洲| 亚洲精品久久午夜乱码| 国产精品久久久人人做人人爽| 在线av久久热| 婷婷精品国产亚洲av在线 | 国产精品1区2区在线观看. | 操出白浆在线播放| 动漫黄色视频在线观看| 亚洲aⅴ乱码一区二区在线播放 | av不卡在线播放| 午夜福利一区二区在线看| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲午夜理论影院| 亚洲视频免费观看视频| 少妇的丰满在线观看| 韩国精品一区二区三区| 国产精品美女特级片免费视频播放器 | 欧美日韩亚洲国产一区二区在线观看 | 久久久久国产精品人妻aⅴ院 | 日本撒尿小便嘘嘘汇集6| 亚洲专区字幕在线| 午夜福利一区二区在线看| 国产av又大| 亚洲av成人一区二区三| 国产真人三级小视频在线观看| 亚洲精品自拍成人| 欧美最黄视频在线播放免费 | 成人三级做爰电影| 久久久久久人人人人人| 欧美精品人与动牲交sv欧美| 一级毛片高清免费大全| 热99久久久久精品小说推荐| 别揉我奶头~嗯~啊~动态视频| 超碰成人久久| 男女之事视频高清在线观看| 久久 成人 亚洲| 欧美黄色片欧美黄色片| 两个人看的免费小视频| 午夜免费观看网址| 久久国产精品人妻蜜桃| 国产一卡二卡三卡精品| av天堂久久9| 久热这里只有精品99| 国产97色在线日韩免费| 黑人巨大精品欧美一区二区蜜桃| av福利片在线| 麻豆成人av在线观看| 欧美激情极品国产一区二区三区| 国产精品亚洲av一区麻豆| 下体分泌物呈黄色| 欧美激情极品国产一区二区三区| 精品欧美一区二区三区在线| 亚洲成人免费电影在线观看| 亚洲精品国产精品久久久不卡| 色婷婷av一区二区三区视频| 一二三四在线观看免费中文在| 捣出白浆h1v1| 可以免费在线观看a视频的电影网站| 少妇 在线观看| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲视频免费观看视频| 日本wwww免费看| 九色亚洲精品在线播放| 久久香蕉国产精品| 法律面前人人平等表现在哪些方面| 三上悠亚av全集在线观看| 亚洲av第一区精品v没综合| 久久国产精品人妻蜜桃| 久久久国产欧美日韩av| 久久九九热精品免费| 久久精品亚洲精品国产色婷小说| 欧美激情 高清一区二区三区| 免费不卡黄色视频| 天堂俺去俺来也www色官网| 亚洲九九香蕉| 欧美久久黑人一区二区| 天天影视国产精品| 欧美色视频一区免费| 热99国产精品久久久久久7| 日本黄色日本黄色录像| 免费久久久久久久精品成人欧美视频| 欧美亚洲日本最大视频资源| 男女下面插进去视频免费观看| 亚洲精品久久午夜乱码| avwww免费| 国产麻豆69| 精品国产亚洲在线| 国产亚洲精品久久久久5区| 亚洲在线自拍视频| 免费少妇av软件| 一进一出抽搐动态| 国产亚洲一区二区精品| 亚洲av熟女| 亚洲成人手机| 欧美黑人欧美精品刺激| 熟女少妇亚洲综合色aaa.| 成人国产一区最新在线观看| 超色免费av| 欧美国产精品va在线观看不卡| 捣出白浆h1v1| 正在播放国产对白刺激| 在线观看一区二区三区激情| 国产国语露脸激情在线看| 又紧又爽又黄一区二区| 男女之事视频高清在线观看| 真人做人爱边吃奶动态| 亚洲av美国av| 欧洲精品卡2卡3卡4卡5卡区| 午夜影院日韩av| 99精品久久久久人妻精品| 亚洲专区国产一区二区| 男女免费视频国产| 精品高清国产在线一区| 一a级毛片在线观看| 99riav亚洲国产免费| 啦啦啦在线免费观看视频4| 亚洲全国av大片| 叶爱在线成人免费视频播放| 美女扒开内裤让男人捅视频| 日本黄色视频三级网站网址 | 桃红色精品国产亚洲av| 丁香六月欧美| 一级片'在线观看视频| 水蜜桃什么品种好| 老汉色av国产亚洲站长工具| 三级毛片av免费| 国产精品乱码一区二三区的特点 | 日本黄色视频三级网站网址 | 男人的好看免费观看在线视频 | 国产主播在线观看一区二区| 男人的好看免费观看在线视频 | 久久久国产成人精品二区 |