• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Spark的傾斜數(shù)據(jù)虛擬劃分算法

    2021-08-23 04:11:32李俊麗
    關(guān)鍵詞:傾斜度均勻分布互信息

    李俊麗

    (晉中學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,山西 晉中 030619)

    0 引 言

    隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)量以驚人的速度增長(zhǎng)。大數(shù)據(jù)應(yīng)用的出現(xiàn)給數(shù)據(jù)處理帶來(lái)了巨大的挑戰(zhàn)[1,2],越來(lái)越多的高效并行計(jì)算平臺(tái),如MapReduce[3]和Spark[4-6],被廣泛采用來(lái)處理大數(shù)據(jù)。互信息是對(duì)兩個(gè)隨機(jī)變量之間共享的信息量的度量。互信息的計(jì)算量很大,特別對(duì)于處理大規(guī)模的類別數(shù)據(jù)?;バ畔⒖梢詮V泛應(yīng)用于數(shù)據(jù)挖掘[7,8]算法中。為了提高互信息計(jì)算的效率,Spark內(nèi)存計(jì)算模型是最好的選擇,但要面對(duì)Spark數(shù)據(jù)傾斜的性能優(yōu)化問(wèn)題。針對(duì)Spark中的數(shù)據(jù)傾斜問(wèn)題,近年來(lái)提出了很多算法和模型。例如,文獻(xiàn)[9]提出了Spark平臺(tái)上基于特征分組的并行離群挖掘算法。SCID算法[10]設(shè)計(jì)了一種Pond-sampling算法來(lái)收集數(shù)據(jù)分布信息,并對(duì)總體數(shù)據(jù)分布進(jìn)行估計(jì)。在數(shù)據(jù)劃分過(guò)程中,SCID實(shí)現(xiàn)了Bin-packing算法對(duì)Map任務(wù)的輸出進(jìn)行桶狀處理。此外,在分區(qū)過(guò)程中,還會(huì)進(jìn)一步切割大型分區(qū)。SP-Partitioner算法[11]將到達(dá)的批次數(shù)據(jù)作為候選樣本,在系統(tǒng)抽樣的基礎(chǔ)上選擇樣本,預(yù)測(cè)中間數(shù)據(jù)的特征。該方法根據(jù)預(yù)測(cè)結(jié)果生成參考表,指導(dǎo)下一批數(shù)據(jù)的均勻分布。文獻(xiàn)[12]優(yōu)化了笛卡爾(笛卡兒積)算子。由于計(jì)算笛卡爾積需要連接操作,因此可能會(huì)出現(xiàn)數(shù)據(jù)傾斜。文獻(xiàn)[13]提出了SASM(Spark adaptive skew mitigation),通過(guò)將大分區(qū)遷移到其它節(jié)點(diǎn),同時(shí)平衡各任務(wù)之間的大小,來(lái)緩解數(shù)據(jù)傾斜問(wèn)題。與這些現(xiàn)有的方法不同,DVP算法針對(duì)文獻(xiàn)[9]中并行互信息計(jì)算中出現(xiàn)的數(shù)據(jù)傾斜問(wèn)題進(jìn)行研究和改進(jìn)。DVP算法探索了數(shù)據(jù)虛擬劃分,其中虛擬前綴附加在一個(gè)大分區(qū)中的所有鍵之前,然后是一個(gè)輔助散列。DVP中的虛擬分區(qū)確保消除了大分區(qū)。DVP算法是在Spark計(jì)算平臺(tái)上設(shè)計(jì)并實(shí)現(xiàn)的一種數(shù)據(jù)虛擬劃分的方案,主要針對(duì)數(shù)據(jù)傾斜情況下大規(guī)模類別數(shù)據(jù)的互信息并行計(jì)算,解決了數(shù)據(jù)分布不均勻?qū)е碌臄?shù)據(jù)傾斜問(wèn)題。

    1 互信息計(jì)算

    互信息是信息論中對(duì)兩個(gè)隨機(jī)變量關(guān)聯(lián)程度的統(tǒng)計(jì)描述,可以表示為這兩個(gè)隨機(jī)變量概率的函數(shù)。

    假設(shè)DS是一個(gè)包含n個(gè)對(duì)象的數(shù)據(jù)集,每個(gè)對(duì)象都由m個(gè)特征表示。我們使用H(yi,yj)和MI(yi;yj)分別表示集合DS上計(jì)算的特征yi和yj之間的熵和互信息。熵可以表示如下

    (1)

    其中,Pij(yi=vik∧yj=vjl)為特征yi和yj分別等于vik和vjl的概率。式(1)中di和dj為特征yi和yj的取值個(gè)數(shù);vik和vjl可以在集合D(yi)和D(yj)中找到,其中D(yi)={vi1,…,>vidi},D(yj)={vj1,…,>vjdj}。熵H(yi,>yj)是概率Pij和logPij的乘積的函數(shù)。

    MI(yi;yj)作為特征yi和yj之間的互信息。我們將互信息MI(yi;yj)表示為

    (2)

    其中,概率Pij,特征yi和yj,值vik和vjl,域di和dj,集合D(yi)和D(yj)與式(1)中的相同,Pi和Pj分別為特征yi和yj等于vik和vjl的概率。

    互信息可以廣泛應(yīng)用于數(shù)據(jù)挖掘算法中,DVP算法中的互信息是作為度量指標(biāo)來(lái)量化類別數(shù)據(jù)特征之間的相似性。

    2 數(shù)據(jù)傾斜

    2.1 概 述

    在Spark Shuffle階段,Spark必須將相同的鍵從每個(gè)節(jié)點(diǎn)拉到節(jié)點(diǎn)上的任務(wù)中。這樣的過(guò)程可能會(huì)給單個(gè)節(jié)點(diǎn)帶來(lái)沉重的負(fù)載。此時(shí),如果某個(gè)鍵對(duì)應(yīng)的數(shù)據(jù)量特別大,就會(huì)出現(xiàn)傾斜。

    圖1描述了分區(qū)2總體上比分區(qū)1和分區(qū)3大。由于輸入數(shù)據(jù)分布不均勻,使用系統(tǒng)的默認(rèn)哈希分區(qū)可能導(dǎo)致子RDD中每個(gè)分區(qū)的大小存在較大差異,從而導(dǎo)致數(shù)據(jù)傾斜。當(dāng)遇到數(shù)據(jù)傾斜問(wèn)題時(shí),整個(gè)Spark作業(yè)的執(zhí)行時(shí)間由運(yùn)行時(shí)間最長(zhǎng)的任務(wù)控制,這使得Spark作業(yè)運(yùn)行得相當(dāng)慢。在最壞的情況下,由于最慢的任務(wù)處理了過(guò)多的數(shù)據(jù),Spark作業(yè)可能耗盡內(nèi)存。

    圖1 Spark Shuffle數(shù)據(jù)分布

    2.2 數(shù)據(jù)傾斜模型

    接下來(lái)建立了一個(gè)數(shù)據(jù)傾斜模型來(lái)量化由Spark創(chuàng)建的分區(qū)之間的數(shù)據(jù)傾斜度引起的問(wèn)題。

    圖1描述了Spark集群中默認(rèn)的哈希分布機(jī)制,該機(jī)制執(zhí)行以下3個(gè)步驟。首先,Map任務(wù)檢索輸入數(shù)據(jù)。然后,這些數(shù)據(jù)由Map任務(wù)處理,Map任務(wù)生成以鍵值對(duì)格式組織的中間結(jié)果。最后,使用鍵將中間結(jié)果分組到分區(qū)中。最后一步中的一個(gè)障礙是,由于數(shù)據(jù)傾斜,這些分區(qū)的大小不均勻。

    假設(shè)根據(jù)鍵值聚合數(shù)據(jù)時(shí)有p個(gè)唯一的鍵,我們?cè)O(shè)K表示鍵,K={k1,>…,>kp}。我們把V表示為集合k中所有鍵的值

    (3)

    假設(shè)有p個(gè)分區(qū),每個(gè)分區(qū)中的值共享一個(gè)鍵。值得注意的是,所有分區(qū)的大小可能不同。例如,第i和第j個(gè)分區(qū)的大小分別為li和lj。這兩個(gè)分區(qū)的大小可能不同(即li≠lj)。

    現(xiàn)在使用域dom(ki)的大小來(lái)度量鍵ki的第i個(gè)分區(qū)的大小,它的形式是|dom(ki)|。平均分區(qū)大小由|dom(K)|avg表示,|dom(K) |avg由平均域大小來(lái)衡量,具體如下表示

    (4)

    分區(qū)之間的數(shù)據(jù)傾斜度定義為分區(qū)大小的偏差(即,|dom(ki)|)。設(shè)(ki)為第i個(gè)分區(qū)或域dom(ki)的傾斜度。在形式上,域dom(ki)的傾斜度s(ki)如下表示

    (5)

    3 數(shù)據(jù)虛擬劃分方法

    3.1 并行互信息計(jì)算中的數(shù)據(jù)傾斜

    聚合操作符是Spark Shuffle階段的性能瓶頸。并行計(jì)算互信息的一個(gè)關(guān)鍵挑戰(zhàn)在于countByKey或reduceByKey操作符(參見算法1第(4)行和第(12)行),它引入了包含兩個(gè)階段的shuffle。在shuffle過(guò)程中,第一階段執(zhí)行shuffle write操作分區(qū)數(shù)據(jù)。具有相同鍵的已處理數(shù)據(jù)被寫入相同的磁盤文件。

    一旦countByKey或reduceByKey操作符執(zhí)行,第二階段中的每個(gè)任務(wù)都會(huì)執(zhí)行shuffle read操作。執(zhí)行此操作的任務(wù)提取屬于前一階段任務(wù)節(jié)點(diǎn)的鍵,然后對(duì)同一鍵執(zhí)行全局聚合或連接操作。在這個(gè)場(chǎng)景中,鍵值被累積。如果數(shù)據(jù)分布不均勻,就會(huì)發(fā)生數(shù)據(jù)傾斜。

    3.2 數(shù)據(jù)虛擬劃分

    數(shù)據(jù)虛擬劃分是一種針對(duì)shuffle操作(例如,reduceByKey)可能引起數(shù)據(jù)傾斜而進(jìn)行的虛擬分區(qū)機(jī)制。為了減少shuffle操作中的數(shù)據(jù)傾斜,DVP算法只在統(tǒng)計(jì)單個(gè)特征的取值時(shí)進(jìn)行虛擬分區(qū),因?yàn)樘卣鲗?duì)的取值不容易發(fā)生數(shù)據(jù)傾斜。圖2描述了虛擬分區(qū)的過(guò)程。

    圖2 虛擬分區(qū)過(guò)程

    在這里,首先為RDD中的每個(gè)鍵添加一個(gè)隨機(jī)前綴,然后是reduceByKey聚合操作。通過(guò)向同一個(gè)鍵添加隨機(jī)前綴并將其更改為幾個(gè)不同的鍵,一個(gè)任務(wù)最初處理的數(shù)據(jù)被分散到多個(gè)任務(wù)中,以便進(jìn)行本地聚合。這種虛擬分區(qū)的策略減少了單個(gè)任務(wù)處理的過(guò)量數(shù)據(jù)。刪除每個(gè)鍵的前綴后,再次執(zhí)行全局聚合操作以獲得最終結(jié)果。

    3.3 DVP算法描述

    DVP算法主要由以下基本步驟完成:首先,使用關(guān)鍵字val定義一個(gè)可變長(zhǎng)數(shù)組doubleCol用于存放特征對(duì)的計(jì)算結(jié)果。其次,使用map映射操作將RDD數(shù)據(jù)datapre轉(zhuǎn)換為鍵值對(duì)的形式,即pair((x(m);x(n));1)。值得注意的是,((x(m);x(n))是特征對(duì)m和n的取值;1表示特征對(duì)的值出現(xiàn)一次,并且記錄每一對(duì)特征對(duì)取值的整體出現(xiàn)情況。然后,使用關(guān)鍵字val定義另一個(gè)可變長(zhǎng)數(shù)組singleCol用于存放單個(gè)特征的計(jì)算結(jié)果,由于在計(jì)算單特征值時(shí)容易出現(xiàn)數(shù)據(jù)傾斜,為了緩解數(shù)據(jù)傾斜問(wèn)題,最后需要對(duì)單個(gè)特征的取值進(jìn)行數(shù)據(jù)虛擬劃分。

    具體算法如下:

    算法1:DVP算法

    輸入:數(shù)據(jù)集DS(nobjects ×mfeatures),由數(shù)據(jù)集生成的名為 datapre的RDD

    輸出:兩個(gè)變長(zhǎng)數(shù)組

    (1) val doubleCol = new Array [ArrayBuffer [Map [(String, String), Long] ] ](dimension) //關(guān)鍵字val定義了一個(gè)可變長(zhǎng)度數(shù)組,即doubleCol

    (2) for (m= 0;m≤dimension;m++)

    (3) for (n= 0;n≤dimension;n++)

    (4) doubleCol(m)(n)+ = datapre:map(x≥((x(m);x(n)); 1))>.countByKey()>.toMap //將RDD數(shù)據(jù)的datapre轉(zhuǎn)換為pair ((x(m); >x(n));>1)使用映射轉(zhuǎn)換,并計(jì)算特征對(duì)取值的整體出現(xiàn)情況

    (5) end for

    (6) end for

    (7)val singleCol = ArrayBuffer[Map[String,Long]]() //關(guān)鍵字val定義了一個(gè)可變長(zhǎng)度數(shù)組,即singleCol

    (8) for (k= 0;k≤dimension;k++)

    (9) singleCol+= datapre.map

    (10) val random:Random = new Random()

    (11) val prefix:Int = random.nextInt(10)

    (12) prefix+-+x(k),1)).reduceByKey(-+-).map (line ≥(line.-1.split("-")(1), line.-2)).reduceByKey (-+-).collectAsMap().toMap // 數(shù)據(jù)虛擬劃分

    (13) end for

    4 實(shí)驗(yàn)結(jié)果及分析

    4.1 實(shí)驗(yàn)環(huán)境

    DVP算法在一個(gè)配備了24個(gè)節(jié)點(diǎn)的Spark集群中實(shí)現(xiàn)并驗(yàn)證,每個(gè)節(jié)點(diǎn)都有一個(gè)Intel處理器(即,E5-1620 v2系列3.7 GHz),4芯16 GB RAM。主節(jié)點(diǎn)硬盤配置為500 GB;其它節(jié)點(diǎn)的磁盤容量是2 TB。集群中的所有數(shù)據(jù)節(jié)點(diǎn)都通過(guò)千兆以太網(wǎng)連接;使用SSH協(xié)議保證節(jié)點(diǎn)之間的通信。我們?cè)赟park的standalone模式下實(shí)現(xiàn)了DVP算法。

    在DVP實(shí)現(xiàn)中使用的編程語(yǔ)言是Scala,這是一種在Java虛擬機(jī)(JVM)上運(yùn)行的函數(shù)式面向?qū)ο笳Z(yǔ)言。Scala無(wú)縫集成了現(xiàn)有的Java程序。利用集成開發(fā)環(huán)境IntelliJ IDEA開發(fā)了DVP算法。

    表1中列出了DVP算法中所用到的Spark集群的配置情況。

    表1 Spark集群中的軟件配置

    4.2 人工數(shù)據(jù)集

    DVP使用人工合成類別數(shù)據(jù)集來(lái)進(jìn)行性能評(píng)估。為了評(píng)估DVP算法,構(gòu)造了兩種類型的合成數(shù)據(jù)集:均勻分布數(shù)據(jù)集和正態(tài)分布數(shù)據(jù)集。通過(guò)以下兩個(gè)步驟生成數(shù)據(jù)集。首先,創(chuàng)建一個(gè)相對(duì)較小的類別屬性數(shù)據(jù)集。接下來(lái),不斷復(fù)制第一步中創(chuàng)建的數(shù)據(jù)集,以擴(kuò)大數(shù)據(jù)集的大小。合成數(shù)據(jù)集包含100個(gè)特征,這些數(shù)據(jù)集的大小分別為8 GB、16 GB、24 GB和32 GB。數(shù)據(jù)集見表2。

    表2 人工合成數(shù)據(jù)集

    4.3 比較算法DEFH

    DEFH是使用最廣泛的哈希算法,是Spark中的一種默認(rèn)機(jī)制。當(dāng)鍵值呈現(xiàn)均勻分布時(shí),可以獲得較好的性能。

    4.4 實(shí)驗(yàn)分析

    (1)不同數(shù)據(jù)大小下的執(zhí)行時(shí)間:圖3為DVP和DEFH算法處理不同數(shù)據(jù)大小的均勻分布數(shù)據(jù)和正態(tài)分布數(shù)據(jù)所使用的運(yùn)行時(shí)間。分別將數(shù)據(jù)大小設(shè)置為8 GB、16 GB、24 GB和32 GB。計(jì)算節(jié)點(diǎn)的數(shù)量配置為24個(gè)。

    圖3 不同數(shù)據(jù)大小下均勻分布和正態(tài) 分布數(shù)據(jù)的執(zhí)行時(shí)間

    由圖3(a)可以看出,在分布均勻的數(shù)據(jù)集中,由于虛擬分區(qū)的副作用,DVP算法的運(yùn)行時(shí)間比DEFH稍長(zhǎng)。然而,從圖3(b)可以看出,對(duì)于正態(tài)分布的數(shù)據(jù)集,DVP算法優(yōu)于DEFH。這是預(yù)期的結(jié)果,因?yàn)檎龖B(tài)分布數(shù)據(jù)集包含了分布不均勻的數(shù)據(jù),導(dǎo)致了數(shù)據(jù)傾斜,從而耗費(fèi)了時(shí)間。而由虛擬分區(qū)支持的DVP算法可以很好地處理傾斜數(shù)據(jù)。

    另外,從圖3(a)和圖3(b)還可以看出,增加數(shù)據(jù)量會(huì)導(dǎo)致所有算法的運(yùn)行時(shí)間增加。直觀地說(shuō),這是因?yàn)樘幚泶笠?guī)模數(shù)據(jù)需要更長(zhǎng)的時(shí)間。

    (2)不同計(jì)算節(jié)點(diǎn)下的執(zhí)行時(shí)間:圖4展示了DVP和DEFH算法在不同數(shù)量的計(jì)算節(jié)點(diǎn)上處理均勻分布數(shù)據(jù)和正態(tài)分布數(shù)據(jù)所使用的時(shí)間。節(jié)點(diǎn)的數(shù)量分別配置為4、8、16和24。數(shù)據(jù)大小設(shè)置為8 GB。圖4(a)顯示,由于虛擬分區(qū)的開銷,我們的DVP算法在均勻分布數(shù)據(jù)中的運(yùn)行時(shí)間要比DEFH的運(yùn)行時(shí)間長(zhǎng)。這一趨勢(shì)與圖3(a)所示一致。圖4(b)顯示,在不均勻分布的情況下,正態(tài)分布數(shù)據(jù)集中DVP算法的性能要明顯優(yōu)于DEFH。DVP在DEFH上的性能改進(jìn)歸功于數(shù)據(jù)虛擬劃分,它有效地緩解了數(shù)據(jù)的傾斜。同樣,這些結(jié)果和圖3(b)所描述是一致的。

    圖4 不同數(shù)量節(jié)點(diǎn)下均勻分布和正態(tài) 分布數(shù)據(jù)的執(zhí)行時(shí)間

    另外,從圖4(a)和圖4(b)還可以看出,隨著計(jì)算節(jié)點(diǎn)數(shù)量的不斷增加,兩個(gè)算法的運(yùn)行時(shí)間都有所減少。這主要是因?yàn)榧河?jì)算能力的不斷增加。

    (3)數(shù)據(jù)傾斜度的影響:由于均勻分布數(shù)據(jù)集中不會(huì)發(fā)生數(shù)據(jù)傾斜,因此選擇正態(tài)分布數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。從處理時(shí)間的角度對(duì)數(shù)據(jù)傾斜度的影響進(jìn)行了評(píng)價(jià)。

    圖5顯示了不同數(shù)據(jù)傾斜度下DVP和DEFH算法的處理時(shí)間,傾斜度從1到3不等,增量為0.5。我們觀察到,DVP算法的處理時(shí)間對(duì)數(shù)據(jù)傾斜度的敏感性小于DEFH。例如,當(dāng)我們將傾斜度從1.5提高到3時(shí),DVP和DEFH算法的處理時(shí)間分別增加了7.2%和28.4%。實(shí)驗(yàn)結(jié)果表明,DVP算法利用數(shù)據(jù)虛擬劃分有效地緩解了數(shù)據(jù)傾斜帶來(lái)的性能問(wèn)題。因此,在不平衡數(shù)據(jù)集中,DVP算法優(yōu)于DEFH。在較高的數(shù)據(jù)傾斜度下,DVP算法對(duì)數(shù)據(jù)傾斜的改善更為顯著。

    圖5 數(shù)據(jù)傾斜度對(duì)DVP和DEFH處理時(shí)間的影響

    (4)Shuffling-Cost分析:通過(guò)改變計(jì)算節(jié)點(diǎn)的數(shù)量來(lái)比較DVP和DEFH算法的Shuffling-Cost成本。以節(jié)點(diǎn)的shuffle-write-size作為對(duì)算法的Shuffling-Cost進(jìn)行監(jiān)控。以正態(tài)分布數(shù)據(jù)集(8 G)為例,圖6是兩個(gè)算法Shuffling-Cost對(duì)比。

    圖6 不同數(shù)量計(jì)算節(jié)點(diǎn)上的DVP和DEFH的 Shuffling-Cost

    顯而易見,所有測(cè)試用例中DVP算法的shuffle-write-size都明顯小于DEFH。更重要的是,隨著計(jì)算節(jié)點(diǎn)數(shù)量的不斷增加,兩種解決方案之間的shuffle-write-size差距也在擴(kuò)大。DEFH依賴于Spark的默認(rèn)哈希分區(qū),導(dǎo)致任務(wù)頻繁地跨多個(gè)節(jié)點(diǎn)訪問(wèn)數(shù)據(jù)。例如,當(dāng)節(jié)點(diǎn)數(shù)量從4個(gè)更改為24個(gè)時(shí),DEFH算法的shuffle-write-size從667.0 MB上升到1590.0 MB。與DEFH算法不同的是,DVP算法利用了數(shù)據(jù)虛擬劃分技術(shù)來(lái)減少Spark環(huán)境中的數(shù)據(jù)傳輸量。因此,DVP算法的shuffle-write-size僅僅從260.0 MB跳到628.0 MB。就shuffling-cost而言,這比DEFH的情況要好得多。

    (5)可擴(kuò)展性分析:在這組實(shí)驗(yàn)中,通過(guò)增加計(jì)算節(jié)點(diǎn)的數(shù)量(分別設(shè)置為4、8、16和24)和調(diào)節(jié)數(shù)據(jù)集大小(配置分別為8 GB、16 GB、24 GB和32 GB),對(duì)DVP算法進(jìn)行可擴(kuò)展性分析,評(píng)估DVP算法在集群系統(tǒng)中處理大規(guī)模數(shù)據(jù)的能力。

    圖7(a)顯示了Spark集群中節(jié)點(diǎn)數(shù)量對(duì)并行互信息計(jì)算時(shí)間的影響。由圖7(a)可以看出,隨著計(jì)算節(jié)點(diǎn)數(shù)量的增加,DVP算法的執(zhí)行時(shí)間明顯減少。大數(shù)據(jù)集(如32 GB)的下降趨勢(shì)非常明顯。當(dāng)數(shù)據(jù)集很小(例如4 GB)時(shí),集群擴(kuò)展性能提高很微弱。結(jié)果表明,DVP是一種對(duì)大數(shù)據(jù)集具有高擴(kuò)展性的并行計(jì)算方法。

    圖7 DVP的可擴(kuò)展性分析

    圖7(b)展示了計(jì)算節(jié)點(diǎn)數(shù)量對(duì)系統(tǒng)加速的影響。從圖7(b)可以看出,對(duì)于大多數(shù)數(shù)據(jù)集來(lái)說(shuō),DVP的加速率接近線性。例如,在32 GB的情況下,DVP的加速性能幾乎與線性性能相當(dāng)。結(jié)果表明,我們的并行計(jì)算算法能夠保持大規(guī)模高維類別數(shù)據(jù)集的計(jì)算性能。

    上述DVP的高可擴(kuò)展性主要?dú)w功于以下幾個(gè)因素。首先,并行互信息計(jì)算的時(shí)間在很大程度上取決于任意兩個(gè)特征之間的互信息計(jì)算,這種互信息計(jì)算時(shí)間與分配給節(jié)點(diǎn)的數(shù)據(jù)對(duì)象數(shù)量成正比。其次,所有計(jì)算節(jié)點(diǎn)都獨(dú)立地并行計(jì)算。最后,由于數(shù)據(jù)虛擬劃分,DVP在所有節(jié)點(diǎn)之間保持了良好的負(fù)載平衡性能。

    5 結(jié)束語(yǔ)

    本文基于Spark平臺(tái)開發(fā)了DVP算法,在大規(guī)模類別數(shù)據(jù)的背景下并行計(jì)算互信息。DVP的核心是數(shù)據(jù)虛擬分區(qū)方案。更具體地說(shuō),虛擬分區(qū)技術(shù)緩解了shuffle過(guò)程中出現(xiàn)的數(shù)據(jù)傾斜問(wèn)題。最后在一個(gè)24節(jié)點(diǎn)驅(qū)動(dòng)的Spark集群上采用人工合成類別數(shù)據(jù)集驗(yàn)證了DVP算法。

    大量的實(shí)驗(yàn)結(jié)果表明,該算法在效率和負(fù)載均衡等方面優(yōu)于Spark集群默認(rèn)的DEFH算法。此外, 在Spark處理大型類別數(shù)據(jù)集時(shí),DVP能夠很好地減輕數(shù)據(jù)傾斜,從而優(yōu)化網(wǎng)絡(luò)性能。

    在未來(lái)的工作中,將重點(diǎn)從內(nèi)存資源的角度優(yōu)化shuffle性能。當(dāng)數(shù)據(jù)分布變得不均勻時(shí),分配給分區(qū)的數(shù)據(jù)量就不平衡。因此,任務(wù)所需的內(nèi)存空間本質(zhì)上是不同的。如果給每個(gè)任務(wù)分配固定比例的內(nèi)存空間,任務(wù)中頻繁的內(nèi)存溢出將是不可避免的。這樣的內(nèi)存資源問(wèn)題會(huì)對(duì)Spark的整體性能產(chǎn)生負(fù)面影響。打算研究一種分配內(nèi)存資源的方法,以進(jìn)一步優(yōu)化所有任務(wù)之間的shuffle進(jìn)程。該技術(shù)有望從內(nèi)存計(jì)算的角度提高Spark應(yīng)用程序的性能。

    猜你喜歡
    傾斜度均勻分布互信息
    上頜不同區(qū)域牙槽骨頰舌向傾斜度的CBCT測(cè)量分析*
    接觸壓力非均勻分布下彎曲孔道摩阻損失分析
    電磁感應(yīng)綜合應(yīng)用檢測(cè)題
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    改進(jìn)的互信息最小化非線性盲源分離算法
    基于增量式互信息的圖像快速匹配方法
    408XL傾斜度測(cè)試的原理及實(shí)質(zhì)
    威金斯氣柜活塞傾斜度運(yùn)行分析及改進(jìn)*
    河南冶金(2012年1期)2012-12-07 05:28:36
    橢球上三維均勻分布的參數(shù)估計(jì)
    亚洲,一卡二卡三卡| 国产免费视频播放在线视频| 大码成人一级视频| 色婷婷av一区二区三区视频| 国产真实伦视频高清在线观看| 亚洲av中文av极速乱| 2022亚洲国产成人精品| av播播在线观看一区| 精品国产露脸久久av麻豆| 国产成人一区二区在线| 免费观看在线日韩| 亚洲综合色惰| 婷婷色综合www| 九九爱精品视频在线观看| 日日摸夜夜添夜夜添av毛片| 欧美精品人与动牲交sv欧美| 精品久久久久久久久av| 久久久色成人| 免费人成在线观看视频色| 国产精品久久久久久久电影| 国产欧美另类精品又又久久亚洲欧美| 日韩欧美精品免费久久| 狠狠精品人妻久久久久久综合| 色5月婷婷丁香| 精品人妻偷拍中文字幕| 自拍欧美九色日韩亚洲蝌蚪91 | 久久久久网色| 日韩欧美一区视频在线观看 | 国产一区亚洲一区在线观看| 最近手机中文字幕大全| 99久久人妻综合| 国产成人精品福利久久| av免费观看日本| 国产综合精华液| 人妻系列 视频| av专区在线播放| 亚洲精品aⅴ在线观看| 爱豆传媒免费全集在线观看| 全区人妻精品视频| 街头女战士在线观看网站| 精品一区在线观看国产| 熟女人妻精品中文字幕| 久久婷婷青草| 91午夜精品亚洲一区二区三区| 高清av免费在线| 亚洲四区av| 乱码一卡2卡4卡精品| 黑丝袜美女国产一区| 亚洲美女视频黄频| 国产成人a∨麻豆精品| 中文字幕制服av| 亚洲最大成人中文| 成人黄色视频免费在线看| 免费大片18禁| 免费观看av网站的网址| 国内揄拍国产精品人妻在线| 欧美xxxx黑人xx丫x性爽| 丝瓜视频免费看黄片| 国产白丝娇喘喷水9色精品| 少妇丰满av| 91在线精品国自产拍蜜月| 免费看日本二区| 人人妻人人爽人人添夜夜欢视频 | 免费播放大片免费观看视频在线观看| 男男h啪啪无遮挡| 中文字幕免费在线视频6| 久久鲁丝午夜福利片| 哪个播放器可以免费观看大片| 成人影院久久| 久久精品久久久久久久性| 人妻一区二区av| 国产精品成人在线| 一级毛片久久久久久久久女| 亚洲不卡免费看| 免费av不卡在线播放| 国产精品av视频在线免费观看| 免费观看无遮挡的男女| 九九爱精品视频在线观看| 波野结衣二区三区在线| 亚洲综合色惰| 最近2019中文字幕mv第一页| 亚洲丝袜综合中文字幕| 午夜日本视频在线| 18禁在线播放成人免费| 免费看av在线观看网站| 国产欧美亚洲国产| 一区二区av电影网| 日韩免费高清中文字幕av| 国产亚洲av片在线观看秒播厂| 最近中文字幕2019免费版| 亚洲一级一片aⅴ在线观看| 日韩免费高清中文字幕av| 亚洲第一av免费看| 国产爱豆传媒在线观看| 亚洲精品国产色婷婷电影| 久久精品国产亚洲网站| 欧美+日韩+精品| 国产 一区精品| 免费观看性生交大片5| 欧美极品一区二区三区四区| 免费观看av网站的网址| 国产男女内射视频| 在线免费观看不下载黄p国产| 熟女av电影| 91aial.com中文字幕在线观看| 嫩草影院新地址| 中文字幕亚洲精品专区| 久久国产精品大桥未久av | 亚洲综合精品二区| 国产色爽女视频免费观看| 国产免费一级a男人的天堂| 草草在线视频免费看| 亚洲精品国产色婷婷电影| 久久久久性生活片| 亚洲国产精品国产精品| 国产男女超爽视频在线观看| 在线观看三级黄色| 国产成人aa在线观看| kizo精华| 国产成人91sexporn| 国产亚洲精品久久久com| 青春草视频在线免费观看| 91午夜精品亚洲一区二区三区| 偷拍熟女少妇极品色| 国产v大片淫在线免费观看| 国产精品.久久久| 国产成人91sexporn| 日韩亚洲欧美综合| 午夜免费男女啪啪视频观看| 九九久久精品国产亚洲av麻豆| 亚洲欧美清纯卡通| 一级毛片aaaaaa免费看小| 亚洲av中文av极速乱| 午夜免费鲁丝| 观看免费一级毛片| 精品人妻偷拍中文字幕| 在线观看美女被高潮喷水网站| 熟妇人妻不卡中文字幕| 99视频精品全部免费 在线| 亚洲国产欧美在线一区| 少妇 在线观看| 亚洲欧美日韩东京热| 九九久久精品国产亚洲av麻豆| 国产精品久久久久成人av| 久久精品熟女亚洲av麻豆精品| 91午夜精品亚洲一区二区三区| 人人妻人人添人人爽欧美一区卜 | 亚洲美女黄色视频免费看| 免费观看无遮挡的男女| 国产乱人偷精品视频| 一个人看的www免费观看视频| av天堂中文字幕网| 国产精品久久久久久久久免| 国产爽快片一区二区三区| 国产日韩欧美亚洲二区| h视频一区二区三区| 看免费成人av毛片| 亚洲激情五月婷婷啪啪| 国产精品一及| 少妇猛男粗大的猛烈进出视频| 性色av一级| 少妇的逼水好多| 欧美三级亚洲精品| 搡女人真爽免费视频火全软件| 少妇的逼好多水| 国产无遮挡羞羞视频在线观看| 国产精品.久久久| 777米奇影视久久| 三级国产精品片| 亚洲成色77777| 国产亚洲91精品色在线| 久久久久性生活片| 久久久久久久久久人人人人人人| 成人影院久久| 亚洲精品一区蜜桃| 在线观看av片永久免费下载| av卡一久久| 精品一区二区三卡| 国产真实伦视频高清在线观看| 午夜老司机福利剧场| 亚洲丝袜综合中文字幕| 少妇被粗大猛烈的视频| 久久久色成人| 九草在线视频观看| 午夜激情久久久久久久| 极品教师在线视频| 亚洲av日韩在线播放| 亚洲国产精品一区三区| 精品人妻一区二区三区麻豆| 深夜a级毛片| 国产男女超爽视频在线观看| 午夜福利高清视频| 搡老乐熟女国产| 日韩一区二区三区影片| 色5月婷婷丁香| 国产黄频视频在线观看| 91在线精品国自产拍蜜月| 国产在线一区二区三区精| 你懂的网址亚洲精品在线观看| 91精品一卡2卡3卡4卡| 十八禁网站网址无遮挡 | 国产成人精品久久久久久| 深爱激情五月婷婷| 精品亚洲成国产av| 亚洲真实伦在线观看| 好男人视频免费观看在线| 欧美变态另类bdsm刘玥| 99热国产这里只有精品6| 老司机影院成人| 麻豆成人av视频| 日本av手机在线免费观看| 亚洲国产色片| 九九在线视频观看精品| 国产精品女同一区二区软件| 男女无遮挡免费网站观看| 成人黄色视频免费在线看| 99久国产av精品国产电影| 亚洲性久久影院| 七月丁香在线播放| 国产69精品久久久久777片| 少妇高潮的动态图| 成人国产av品久久久| 中文字幕久久专区| 日韩一区二区视频免费看| 国产精品一区二区性色av| 亚州av有码| 99久久精品国产国产毛片| 免费黄频网站在线观看国产| 夫妻性生交免费视频一级片| 久久精品国产自在天天线| 欧美精品国产亚洲| 亚洲精品国产av成人精品| 亚洲av成人精品一区久久| av在线蜜桃| 两个人的视频大全免费| 亚洲精品国产成人久久av| 麻豆精品久久久久久蜜桃| www.av在线官网国产| 日韩伦理黄色片| 久久6这里有精品| 青春草国产在线视频| 不卡视频在线观看欧美| 亚洲精品乱码久久久久久按摩| 一本—道久久a久久精品蜜桃钙片| 91精品伊人久久大香线蕉| 亚洲精品一区蜜桃| 插逼视频在线观看| 2018国产大陆天天弄谢| 国产人妻一区二区三区在| 国产精品人妻久久久久久| 亚洲欧洲国产日韩| 在现免费观看毛片| 国产成人精品一,二区| 一区在线观看完整版| 麻豆成人午夜福利视频| 国产白丝娇喘喷水9色精品| 亚洲精品国产色婷婷电影| 国产 一区 欧美 日韩| 街头女战士在线观看网站| 五月天丁香电影| 网址你懂的国产日韩在线| 久久ye,这里只有精品| 在线观看人妻少妇| 免费人妻精品一区二区三区视频| 观看美女的网站| 久久精品国产亚洲网站| 国产 一区 欧美 日韩| www.av在线官网国产| 有码 亚洲区| 尤物成人国产欧美一区二区三区| 国产 一区 欧美 日韩| 欧美精品一区二区大全| 成人特级av手机在线观看| 久久久久性生活片| 日韩,欧美,国产一区二区三区| 99久久精品热视频| 日韩亚洲欧美综合| 日韩一区二区视频免费看| 亚洲精品亚洲一区二区| 久久久久视频综合| 亚洲综合精品二区| 国产精品麻豆人妻色哟哟久久| 男女免费视频国产| 亚洲精品国产成人久久av| 久久99热6这里只有精品| 97超碰精品成人国产| 欧美bdsm另类| 夜夜骑夜夜射夜夜干| 国产伦在线观看视频一区| 又粗又硬又长又爽又黄的视频| 国产深夜福利视频在线观看| 久久精品久久久久久噜噜老黄| 99热全是精品| 亚洲精品乱码久久久久久按摩| 国内精品宾馆在线| 精品国产一区二区三区久久久樱花 | 欧美国产精品一级二级三级 | 国产精品久久久久久久电影| 97热精品久久久久久| 国产一区二区三区综合在线观看 | 女人久久www免费人成看片| 成人影院久久| 蜜桃在线观看..| 高清av免费在线| 久久久a久久爽久久v久久| 亚洲欧美成人综合另类久久久| 免费看av在线观看网站| 日产精品乱码卡一卡2卡三| 亚洲国产精品成人久久小说| 男女免费视频国产| 亚洲综合精品二区| 国产高清不卡午夜福利| 国产成人免费无遮挡视频| 日日摸夜夜添夜夜添av毛片| 亚洲国产精品一区三区| 18+在线观看网站| 少妇的逼好多水| 99热这里只有是精品50| 最近最新中文字幕免费大全7| 中文字幕亚洲精品专区| 亚洲欧美精品专区久久| 麻豆精品久久久久久蜜桃| 日韩一本色道免费dvd| 99久国产av精品国产电影| 美女脱内裤让男人舔精品视频| 国产成人a∨麻豆精品| 亚洲最大成人中文| 日本爱情动作片www.在线观看| 久久毛片免费看一区二区三区| 九色成人免费人妻av| 又黄又爽又刺激的免费视频.| 菩萨蛮人人尽说江南好唐韦庄| 国产精品久久久久久久久免| 日韩中字成人| 中文字幕亚洲精品专区| 欧美日韩精品成人综合77777| 日本黄色片子视频| 国产精品福利在线免费观看| 超碰97精品在线观看| 九九在线视频观看精品| 国产欧美另类精品又又久久亚洲欧美| 亚洲欧美精品专区久久| 午夜免费鲁丝| 狠狠精品人妻久久久久久综合| 国产熟女欧美一区二区| 亚洲欧洲国产日韩| 美女福利国产在线 | 国产乱人偷精品视频| 国产精品久久久久久久电影| 搡老乐熟女国产| 国产乱人偷精品视频| 精品人妻偷拍中文字幕| 一二三四中文在线观看免费高清| 夜夜爽夜夜爽视频| 少妇被粗大猛烈的视频| 中文字幕亚洲精品专区| 久久精品久久久久久噜噜老黄| 欧美 日韩 精品 国产| 少妇人妻一区二区三区视频| 嘟嘟电影网在线观看| 亚洲欧美精品专区久久| 国产69精品久久久久777片| 一区二区三区精品91| 三级国产精品片| 午夜福利在线在线| 国产视频内射| 国产 一区精品| 香蕉精品网在线| av免费观看日本| 欧美 日韩 精品 国产| 观看av在线不卡| 欧美日韩亚洲高清精品| 美女主播在线视频| 干丝袜人妻中文字幕| 亚洲真实伦在线观看| 建设人人有责人人尽责人人享有的 | 中国三级夫妇交换| av在线老鸭窝| 有码 亚洲区| 80岁老熟妇乱子伦牲交| 久久久久人妻精品一区果冻| 99re6热这里在线精品视频| 天美传媒精品一区二区| 九草在线视频观看| 亚洲成人手机| 亚洲第一区二区三区不卡| 热99国产精品久久久久久7| 午夜福利在线观看免费完整高清在| 18禁裸乳无遮挡免费网站照片| 国产熟女欧美一区二区| 亚洲精品日本国产第一区| av在线蜜桃| 人妻少妇偷人精品九色| 亚洲av中文av极速乱| 三级国产精品片| 欧美精品一区二区免费开放| 精品99又大又爽又粗少妇毛片| 免费播放大片免费观看视频在线观看| 国产日韩欧美亚洲二区| 国产亚洲91精品色在线| 午夜免费男女啪啪视频观看| 黄色怎么调成土黄色| 亚洲国产日韩一区二区| 亚洲婷婷狠狠爱综合网| 天堂中文最新版在线下载| 99久国产av精品国产电影| 纵有疾风起免费观看全集完整版| 少妇人妻精品综合一区二区| 久久国产乱子免费精品| 亚洲图色成人| 各种免费的搞黄视频| 免费少妇av软件| 国产亚洲午夜精品一区二区久久| 中文资源天堂在线| 国精品久久久久久国模美| 九草在线视频观看| 国语对白做爰xxxⅹ性视频网站| 你懂的网址亚洲精品在线观看| 女性被躁到高潮视频| 久久久亚洲精品成人影院| 99热全是精品| 26uuu在线亚洲综合色| 老熟女久久久| 久久久久视频综合| 另类亚洲欧美激情| 欧美日韩视频高清一区二区三区二| 国产在线视频一区二区| 六月丁香七月| 男女免费视频国产| 国产精品国产三级国产专区5o| 国产一区二区三区av在线| 99热这里只有精品一区| 97超视频在线观看视频| 青春草视频在线免费观看| 亚洲精品国产成人久久av| 久久久久久久久久成人| 王馨瑶露胸无遮挡在线观看| 寂寞人妻少妇视频99o| 欧美精品亚洲一区二区| 久久国产乱子免费精品| 新久久久久国产一级毛片| 欧美精品国产亚洲| 熟女av电影| 女人十人毛片免费观看3o分钟| 亚洲经典国产精华液单| 女性被躁到高潮视频| videossex国产| 寂寞人妻少妇视频99o| 久久久久国产精品人妻一区二区| 成人黄色视频免费在线看| 高清毛片免费看| av又黄又爽大尺度在线免费看| 国产淫语在线视频| 欧美性感艳星| 波野结衣二区三区在线| 亚州av有码| 成人二区视频| 日韩制服骚丝袜av| 一级毛片aaaaaa免费看小| 国产高清国产精品国产三级 | 一区二区三区乱码不卡18| 亚洲欧美一区二区三区黑人 | 亚洲国产精品999| 久久97久久精品| 全区人妻精品视频| 一级黄片播放器| 精品久久久久久久久亚洲| 又爽又黄a免费视频| 2018国产大陆天天弄谢| 内射极品少妇av片p| 一区二区三区免费毛片| 天天躁夜夜躁狠狠久久av| 美女视频免费永久观看网站| 亚洲一级一片aⅴ在线观看| 国产在线男女| 91精品国产国语对白视频| 插逼视频在线观看| 少妇熟女欧美另类| 亚洲欧美成人综合另类久久久| 国产免费又黄又爽又色| 深爱激情五月婷婷| 美女脱内裤让男人舔精品视频| a 毛片基地| 亚洲美女黄色视频免费看| 高清在线视频一区二区三区| 一级a做视频免费观看| 亚洲久久久国产精品| av国产久精品久网站免费入址| 亚洲av欧美aⅴ国产| 亚洲成人一二三区av| 久久久久久伊人网av| a级一级毛片免费在线观看| 最近中文字幕高清免费大全6| 国产熟女欧美一区二区| 麻豆精品久久久久久蜜桃| 日本wwww免费看| 欧美97在线视频| 成人18禁高潮啪啪吃奶动态图 | 涩涩av久久男人的天堂| 亚洲精品国产色婷婷电影| 伦理电影大哥的女人| 老司机影院成人| 国产一区二区三区av在线| 乱码一卡2卡4卡精品| 男女国产视频网站| 亚洲色图av天堂| 在线免费十八禁| 亚洲精品日韩av片在线观看| 久久久久久久亚洲中文字幕| 青青草视频在线视频观看| 人体艺术视频欧美日本| 少妇熟女欧美另类| 色婷婷av一区二区三区视频| 欧美高清成人免费视频www| 久久韩国三级中文字幕| 天天躁夜夜躁狠狠久久av| 狠狠精品人妻久久久久久综合| 国产亚洲91精品色在线| 亚洲最大成人中文| 久久久久网色| 3wmmmm亚洲av在线观看| 在线观看一区二区三区激情| 天堂8中文在线网| 亚洲国产高清在线一区二区三| 国产乱来视频区| 国产成人免费观看mmmm| 欧美老熟妇乱子伦牲交| 一本久久精品| 久久99蜜桃精品久久| 久久久a久久爽久久v久久| 美女xxoo啪啪120秒动态图| 国产在线免费精品| av卡一久久| 欧美日韩综合久久久久久| 免费观看性生交大片5| 中国美白少妇内射xxxbb| 成人特级av手机在线观看| 大又大粗又爽又黄少妇毛片口| 免费久久久久久久精品成人欧美视频 | a级毛片免费高清观看在线播放| 国产伦理片在线播放av一区| 精品少妇久久久久久888优播| 国产一区二区三区综合在线观看 | 国产v大片淫在线免费观看| 99热国产这里只有精品6| 亚洲不卡免费看| 国产精品三级大全| 久久女婷五月综合色啪小说| 国产人妻一区二区三区在| 视频区图区小说| 国产午夜精品一二区理论片| 日韩欧美精品免费久久| 街头女战士在线观看网站| 国产成人a区在线观看| 免费观看性生交大片5| 边亲边吃奶的免费视频| 免费黄网站久久成人精品| 精品久久国产蜜桃| 免费av不卡在线播放| 久久久久性生活片| 各种免费的搞黄视频| 国产探花极品一区二区| 日韩亚洲欧美综合| 久久精品久久久久久噜噜老黄| 成人午夜精彩视频在线观看| 亚洲成人手机| 国产精品偷伦视频观看了| av在线老鸭窝| 一区二区三区四区激情视频| 边亲边吃奶的免费视频| 老熟女久久久| 深爱激情五月婷婷| 人妻夜夜爽99麻豆av| 久久久久久人妻| 久久ye,这里只有精品| 99视频精品全部免费 在线| 亚洲av综合色区一区| 高清av免费在线| 久久女婷五月综合色啪小说| 韩国高清视频一区二区三区| 国产男人的电影天堂91| 岛国毛片在线播放| 亚洲精品第二区| 七月丁香在线播放| 日韩国内少妇激情av| 中文乱码字字幕精品一区二区三区| 成人国产麻豆网| kizo精华| 国产精品嫩草影院av在线观看| 久久精品国产自在天天线| 国产精品国产av在线观看| 高清欧美精品videossex| 国产一区二区在线观看日韩| 久久久欧美国产精品| 亚洲欧美清纯卡通| 黄片wwwwww| 国产av一区二区精品久久 | 看免费成人av毛片| 免费黄色在线免费观看| 日韩三级伦理在线观看| 女人久久www免费人成看片| 人妻系列 视频| 国产成人精品婷婷| 夫妻性生交免费视频一级片| 亚洲av综合色区一区| 一级a做视频免费观看| 九九在线视频观看精品| 特大巨黑吊av在线直播| 日韩强制内射视频| 免费观看在线日韩| 蜜桃久久精品国产亚洲av| 成人漫画全彩无遮挡| 身体一侧抽搐| 亚洲图色成人| 日本av手机在线免费观看|