• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    用于重復(fù)充電運(yùn)營記錄的基于塊采樣的高效聚集查詢算法

    2018-08-28 08:52:24潘鳴宇龍國標(biāo)李香龍馬冬雪
    計(jì)算機(jī)應(yīng)用 2018年6期
    關(guān)鍵詞:元組估計(jì)量相似性

    潘鳴宇,張 祿,龍國標(biāo),李香龍,馬冬雪,徐 亮

    (1.國網(wǎng)北京市電力公司,北京100075; 2.南瑞集團(tuán),北京102299)

    (*通信作者電子郵箱bjdky123@163.com)

    0 引言

    近年來,大數(shù)據(jù)已廣為人知,各行各業(yè)每天積累大量的數(shù)據(jù)并進(jìn)行分析,以支持重要的商業(yè)決策。大數(shù)據(jù)的數(shù)據(jù)量以難以想象的速度增長,給數(shù)據(jù)處理帶來了極大的挑戰(zhàn),一些應(yīng)用對查詢響應(yīng)時(shí)間提出了很高的要求。例如,日志分析通過不停地分析系統(tǒng)日志可以找到系統(tǒng)性能瓶頸或潛在的風(fēng)險(xiǎn),如果分析時(shí)間較長而未能及時(shí)規(guī)避風(fēng)險(xiǎn),可能造成不可估量的損失。

    另外,數(shù)據(jù)分析專家或用戶通常希望可以整合多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行聯(lián)合分析決策。例如,一個(gè)好的銷售經(jīng)理會(huì)經(jīng)常上網(wǎng)搜集對比不同商家的定價(jià),從而確定適合自己的定價(jià)。然而,從多數(shù)據(jù)源整合數(shù)據(jù)經(jīng)常引發(fā)數(shù)據(jù)質(zhì)量問題,如同一個(gè)實(shí)體可能存在多種不同的表示,即實(shí)體識別問題,也稱去重復(fù)問題。

    實(shí)體識別旨在識別出所有表示相同實(shí)體的重復(fù)元組。文獻(xiàn)[1-2]概述了近年來實(shí)體識別問題的研究現(xiàn)狀及成果,文獻(xiàn)[3]研究如何提升實(shí)體識別的效率,文獻(xiàn)[4-6]研究了復(fù)雜數(shù)據(jù)上的實(shí)體識別技術(shù),文獻(xiàn)[7-8]致力于提升實(shí)體識別準(zhǔn)確性。這些方法將實(shí)體識別作為線下預(yù)處理過程用來清洗整個(gè)數(shù)據(jù)集,找出全部的同一實(shí)體。然而,隨著數(shù)據(jù)規(guī)模的不斷增大,這種高計(jì)算復(fù)雜性的線下清洗模式已經(jīng)很難滿足實(shí)時(shí)性分析應(yīng)用的需求。文獻(xiàn)[9-17]研究了多種漸進(jìn)式實(shí)體識別方法,旨在通過部分清洗過的數(shù)據(jù)給出較好的查詢結(jié)果,然而,這些工作都針對于選擇投影連接查詢,還沒有聚集查詢相關(guān)的研究工作。眾所周知,聚集查詢是數(shù)據(jù)分析的基礎(chǔ),快速準(zhǔn)確的聚集查詢處理為深入的大數(shù)據(jù)分析挖掘提供保障。

    基于采樣的近似查詢處理是處理大數(shù)據(jù)聚集查詢的有利工具,這方面的研究可以追述到20世紀(jì)90年代末,為了保證交互式查詢的響應(yīng)時(shí)間,文獻(xiàn)[18-27]提出了多種近似查詢方法。最近,隨著大數(shù)據(jù)研究的興起,Agarwal等[21]提出了以BlinkDB為代表的新型近似查詢處理系統(tǒng),用于處理TB級數(shù)據(jù)分析。然而在重復(fù)數(shù)據(jù)上的近似查詢處理的相關(guān)工作仍處于起步階段。

    本文研究有重復(fù)數(shù)據(jù)的情況下的高效聚集查詢處理問題,將聚集查詢處理與實(shí)體識別有效地結(jié)合,快速返回滿足用戶需求的聚集結(jié)果。本文采用基于塊的采樣策略,在采集到的樣本上進(jìn)行實(shí)體識別,并根據(jù)實(shí)體識別的結(jié)果重構(gòu)得到聚集結(jié)果的無偏估計(jì)。

    具體地,在Spark/MapReduce等云計(jì)算平臺(tái)中,數(shù)據(jù)以塊的形式存儲(chǔ)在分布式文件系統(tǒng)中,塊是數(shù)據(jù)在節(jié)點(diǎn)和磁盤間傳輸?shù)幕締挝?,傳統(tǒng)的元組級的簡單采樣不再高效。例如,在元組級采樣過程中,想要從分布式文件系統(tǒng)中隨機(jī)采集b個(gè)元組構(gòu)成樣本,若這b個(gè)元組在不同的塊內(nèi),則會(huì)引發(fā)b塊數(shù)據(jù)的傳輸,網(wǎng)絡(luò)傳輸代價(jià)增大從而降低采樣的效率。另外,在有重復(fù)元組出現(xiàn)的情況下,經(jīng)典的概率學(xué)定理不能直接應(yīng)用,為此,本文提出了適用于塊采樣的聚集結(jié)果估計(jì)量,并證明該估計(jì)量可以保證給出無偏的結(jié)果估計(jì)。

    總的來說,本文主要工作如下:

    1)研究了有重復(fù)數(shù)據(jù)的情況下如何高效處理聚集查詢問題,該問題相關(guān)的研究工作仍處于起步階段。

    2)提出了基于塊的采樣策略,高效地適用于分布式云計(jì)算環(huán)境。

    3)提出了一種基于塊采樣的聚集查詢結(jié)果無偏估計(jì)量,并證明該估計(jì)量是無偏的。

    1 實(shí)體識別

    實(shí)體識別是數(shù)據(jù)質(zhì)量中的一個(gè)重要問題[17],在聯(lián)合分析和數(shù)據(jù)聚合中應(yīng)用很多。實(shí)體識別旨在識別出表示同一實(shí)體的不同元組,典型的實(shí)體識別方法包含兩個(gè)階段:劃分階段和去重階段。

    1.1 劃分階段

    劃分是實(shí)體識別中提高效率的重要技術(shù),它通過將元組集合劃分為小塊,使得不同塊內(nèi)的元組不可能指向相同的實(shí)體。劃分的目的是將原本需要應(yīng)用在全部元組上的實(shí)體識別算法降低到只需要應(yīng)用在一個(gè)塊內(nèi)的元組。劃分階段通過劃分函數(shù)作用在一個(gè)或多個(gè)屬性值上,得到劃分鍵,相同劃分鍵的元組會(huì)分到相同的塊內(nèi)。

    劃分函數(shù)需要滿足以下兩點(diǎn):首先,如果兩個(gè)元組可能共同指向同一個(gè)實(shí)體,那么劃分函數(shù)應(yīng)該保證這兩個(gè)元組劃分后至少同時(shí)出現(xiàn)在一個(gè)塊內(nèi)。其次,如果兩個(gè)元組劃分后不在任何一個(gè)塊內(nèi)同時(shí)出現(xiàn),則它們很大概率上不會(huì)共同指向相同實(shí)體。例如,將論文按照會(huì)議名稱劃分,那么只有發(fā)表在相同會(huì)議的論文會(huì)被劃分到一起,進(jìn)入下一步的去重階段。

    1.2 去重階段

    去重階段的目的是檢測、聚集然后合并重復(fù)元組,包含三個(gè)子過程:計(jì)算相似性、聚集候選對、合并候選對。

    計(jì)算相似性 通過計(jì)算同一塊內(nèi)的元組的相似性,每對元組是否可能指向同一實(shí)體。這一階段通常計(jì)算代價(jià)很高,對于一個(gè)大小為n的塊,可能需要比較O(n2)個(gè)元組對的相似性??偟膩碚f,不同的實(shí)體識別算法在計(jì)算相似性時(shí)采取的技術(shù)各種各樣,大致可以分為兩類:一種是基于相似性函數(shù)的方法;另一種是基于學(xué)習(xí)的方法?;谙嗨菩院瘮?shù)的方法需要設(shè)計(jì)一個(gè)相似性函數(shù)和一個(gè)閾值。基于學(xué)習(xí)的方法將實(shí)體識別問題建模為一個(gè)分類問題,通過訓(xùn)練分類器標(biāo)記每個(gè)元組對是重復(fù)的或者不重復(fù)的。

    聚集候選對 根據(jù)上一階段計(jì)算的相似性或標(biāo)簽,將滿足條件的相似元組對劃分到無重疊的簇中,使得同一個(gè)簇內(nèi)的元組指向同一實(shí)體。

    合并候選對 將每個(gè)簇中指向相同實(shí)體的元組合并為一個(gè)有代表性的實(shí)體,返回給用戶。合并函數(shù)是領(lǐng)域相關(guān)的,要根據(jù)元組具體形式確定,例如,對于數(shù)值型元組,合并函數(shù)可以為平均值,用均值代表簇內(nèi)元組的一般取值。

    2 總體框架

    2.1 基于塊的采樣策略

    本文研究數(shù)值型聚集查詢,如 SUM、AVG、COUNT、VAR、GEOMEAN等,對于關(guān)系表R,本文研究如下查詢:SELECT op(exp(ti))FROM R

    WHERE predicate GROUP BY col

    其中:op表示聚集操作(SUM,AVG,COUNT);exp表示R的屬性算術(shù)表達(dá)式;predicate是屬性上的選擇條件;col是R中一個(gè)或多個(gè)列。當(dāng)op是COUNT時(shí),exp相當(dāng)于SQL中的“*”通配符,ti表示表 R中的第 i條元組。構(gòu)造隨機(jī)變量 Xi=|R|*expp(ti),對于給定的分組k,若ti滿足predicate條件并屬于分組k,則expp(ti)=exp(ti);否則expp(ti)=0。如果操作op是COUNT,則expp(ti)=1或0。

    本文假設(shè)數(shù)據(jù)沒有重復(fù),由于數(shù)據(jù)在分布式文件系統(tǒng)以塊的形式存儲(chǔ),通常一塊大小為128 MB,設(shè)R有N個(gè)塊,每個(gè)塊大小為 B,則 |R|=NB,R={B1,B2,…,BN}。和簡單隨機(jī)采樣不同,基于塊的抽樣以塊為基本抽樣單元,隨機(jī)抽取n塊組成樣本 S,不失一般性,假設(shè) S={B1,B2,…,Bn}。為樣本中的每個(gè)塊構(gòu)造一個(gè)隨機(jī)變量n。

    以COUNT為例,聚集結(jié)果的估計(jì)為:

    令隨機(jī)變量 Yi=N·expp(Bi),則 COUNT(R) =,即COUNT(R)是Yi的均值,又由于樣本S是從R中隨機(jī)抽取,則隨機(jī)變量Yi的觀察值獨(dú)立同分布。由中心極限定理可知,COUNT(R)服從以真實(shí)值為期望的正態(tài)分布,聚集結(jié)果的置信區(qū)間為:

    其他聚集函數(shù)的估計(jì)量可以通過類似的方式構(gòu)造,且可以證明是總體聚集結(jié)果的無偏估計(jì)。上述估計(jì)量適用于總體R中沒有重復(fù)元組的情況,當(dāng)有重復(fù)元組出現(xiàn)的時(shí)候,就不能保證樣本中每個(gè)采樣單元被抽取的概率是相等的,因?yàn)橹貜?fù)出現(xiàn)的元組被采樣的概率大于其他元組,違背了中心極限定理中隨機(jī)變量獨(dú)立同分布的前提,因此在有實(shí)體重復(fù)情況下,不能直接應(yīng)用上述估計(jì)量,需要根據(jù)元組重復(fù)次數(shù)修改估計(jì)量,元組重復(fù)出現(xiàn)的次數(shù)將其定義為重復(fù)因子,然后利用重復(fù)因子修正估計(jì)量得到總體聚集結(jié)果的無偏估計(jì)。

    為了確定樣本中每個(gè)元組的重復(fù)因子,需要對樣本進(jìn)行實(shí)體識別,總體框架如圖1所示。系統(tǒng)輸入是關(guān)系R={B1,B2,…,BN},以及聚集查詢語句Q,輸出是聚集查詢結(jié)果的估計(jì)值及置信區(qū)間。首先對總體N塊數(shù)據(jù)進(jìn)行隨機(jī)采樣得到n塊數(shù)據(jù),構(gòu)成樣本S;然后,對S進(jìn)行實(shí)體識別,檢測所有重復(fù)元組,若S中的一條元組t經(jīng)過實(shí)體識別過程,發(fā)現(xiàn)和m個(gè)其他元組重復(fù),則t的重復(fù)因子為m。根據(jù)樣本中每個(gè)元組的重復(fù)因子,可以計(jì)算出聚集結(jié)果的無偏估計(jì),詳情見第3章。樣本S上可以采用任何現(xiàn)有的實(shí)體識別方法,用戶可根據(jù)數(shù)據(jù)特點(diǎn)及需求選擇,本文采用經(jīng)典的基于相似性的實(shí)體識別。

    圖1 聚集查詢處理總體框架Fig.1 Overall framework of aggregation query processing

    2.2 樣本實(shí)體識別

    通常實(shí)體識別是針對字符型數(shù)據(jù)的排字錯(cuò)誤,因此本文根據(jù)字符串的類別提供相應(yīng)的相似性函數(shù)。具體地,對于短字符串使用編輯距離作為相似性度量標(biāo)準(zhǔn),對于長字符串使用杰卡德(Jaccard)相似性函數(shù)。

    短字符串比較 如果用戶指定要去重的屬性是短字符串,只有幾個(gè)單詞,那么就使用編輯距離計(jì)算候選對之間的相似性。兩個(gè)元組之間的相似性為用戶指定的去重屬性上兩個(gè)屬性值的編輯距離,也就是將其中一個(gè)屬性值轉(zhuǎn)換為另一個(gè)屬性值所需要的最少編輯操作。一共有三種編輯操作:插入、刪除和修改。舉個(gè)例子,Apple和Aplee之間的編輯距離為2,因?yàn)樾枰獙plee的字符e刪掉,然后再插入p到A和p之間。

    長字符串比較 如果用戶指定的去重屬性是由長字符串構(gòu)成的,那么使用Jaccard相似性函數(shù)計(jì)算屬性值之間的相似性。兩個(gè)字符串集合S1、S2的Jaccard相似性值定義為:

    即兩個(gè)集合交集大小比兩個(gè)集合并集大小。例如,S1={A,B,C},S2={A,C},則J(S1,S2)=2/3。Jaccard 相似性函數(shù)同樣適用于元組之間相似性計(jì)算,將整條元組看作是各個(gè)屬性值組成的集合即可。

    3 基于塊采樣的無偏估計(jì)

    對樣本實(shí)體識別后,將得到樣本中每個(gè)元組的重復(fù)因子,接下來,研究如何利用重復(fù)因子重新構(gòu)造總體聚集值的估計(jì)量,使得其適用于重復(fù)數(shù)據(jù)并保證結(jié)果的無偏性。

    不難發(fā)現(xiàn),有重復(fù)數(shù)據(jù)的總體大小大于實(shí)際大小,因此在其上進(jìn)行均勻采樣,每個(gè)樣本被采到的概率發(fā)生改變,重復(fù)元組被采到的概率增大,沒有重復(fù)的元組被采到的概率減小。若一條元組ti的重復(fù)因子為m,即它表示的實(shí)體重復(fù)出現(xiàn)m次(若只出現(xiàn)一次沒有其他重復(fù),則m=1)。ti被采到的概率為其他非重復(fù)元組的m倍,若ti出現(xiàn)在樣本S中,需要將其聚集屬性取值除以m,這樣等同于將其采樣的概率降低為1/m,從而和其他非重復(fù)元組的采樣概率相同,滿足均勻采樣的要求。

    為了證明這種在樣本上降低重復(fù)元組權(quán)重的方法可以得到總體結(jié)果的無偏估計(jì),首先證明在總體上降低重復(fù)元組權(quán)重后計(jì)算得到的聚集值和總體去重后的聚集結(jié)果一致。以SUM操作為例,其他聚集操作可以用類似的方法證明。

    引理1 總體R={t11,t12,…,tNB}是由N個(gè)數(shù)據(jù)塊,共NB個(gè)元組構(gòu)成,令Ru表示R去重復(fù)后的數(shù)據(jù)集合,有NB個(gè)無重復(fù)元組,N'≤N。對于R中的任意元組tij,其重復(fù)因子為mij(mij≥1),對R中每個(gè)元組按照重復(fù)因子降低權(quán)重后得到新集合,則 SUM(R')=SUM(Ru)。

    接下來,證明可以通過樣本得到總體聚集值的無偏估計(jì)。和引理1類似,構(gòu)造S',可以證明其上求得的SUM值乘以N/n,期望上等于總體去重后Ru上的SUM值,詳見定理1。

    定理1 令S R是R上基于塊采樣得到的樣本,且|S|=nB,和引理1類似,Su為去重后的干凈樣本。對于任意Sij∈S,令mij表示Sij在總體中重復(fù)個(gè)數(shù),對S中每個(gè)元組按照重復(fù)因子降低權(quán)重后得到集合

    證明 由于采用均勻隨機(jī)采樣,因此sij和mij可視為獨(dú)立同分布的隨機(jī)變量,并且=MEAN(R'),根據(jù)期望線性可知,有=MEAN(R')代入上式可得如下關(guān)系:E(SUM(S'))=(nB·MEAN(R'))=NB·MEAN(R')=SUM(R')。由引理 1可知,SUM(R') =SUM(R),因此,E(SUM(S'))=SUM(R)。uu

    由定理1可知,可以對樣本進(jìn)行去重后計(jì)算聚集值,通過一定的變換可以得到總體的無偏估計(jì),這樣可以大大減少清洗全部數(shù)據(jù)所需代價(jià),既滿足了用戶精度要求,又可以快速返回計(jì)算結(jié)果。接下來,通過一個(gè)例子說明總體框架流程。

    例1 假設(shè)塊大小為2,表R有6個(gè)元組,分布在3個(gè)塊內(nèi),R={(t11,t12),(t21,t22),(t31,t32)},查詢Q要計(jì)算 R上所有元組的SUM值。隨機(jī)選取一塊入樣本S,假設(shè)S={(t11,t12)},通過實(shí)體識別得出(t11,t12)指向同一實(shí)體,(t12,t32) 指向同一實(shí)體,因此,m11=m12=2,總體SUM值的估計(jì)值為

    4 實(shí)驗(yàn)與結(jié)果分析

    本文在真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),測試本文提出的算法的準(zhǔn)確性和效率。實(shí)驗(yàn)在10個(gè)節(jié)點(diǎn)的集群上進(jìn)行,包含1個(gè)主節(jié)點(diǎn)和9個(gè)從節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)有2個(gè) Intel Xeon處理器,六核,16 GB的隨機(jī)存取存儲(chǔ)器(Random Access Memory,RAM),1 TB 的硬盤。

    4.1 實(shí)驗(yàn)設(shè)置和數(shù)據(jù)集

    通過以下兩個(gè)指標(biāo)衡量本文提出的方法的性能:1)樣本大小,單位為塊,表示采樣和去重的塊個(gè)數(shù)。2)錯(cuò)誤率,q%的錯(cuò)誤率表示估計(jì)值以95%概率位于真實(shí)值±q%范圍內(nèi)。

    本文和當(dāng)前最好算法文獻(xiàn)[28]中提出的SampleClean(Sample and Clean framework)進(jìn)行比較,SampleClean采用的是基于元組的采樣策略,和基于塊采樣不同,另外,SampleClean是在Hive上實(shí)現(xiàn)的,通過調(diào)用Hive操作數(shù)據(jù)庫實(shí)現(xiàn)采樣,本文直接在數(shù)據(jù)集上進(jìn)行采樣,避免了中間層的開銷。為了方便對比,將本文提出的基于塊的采樣算法記為BlockSample(Block-based Sample)。

    實(shí)驗(yàn)中采用的數(shù)據(jù)集包括合成數(shù)據(jù)集TPC-H(Transaction Processing performance Council-H)和真實(shí)數(shù)據(jù)集微軟學(xué)術(shù)檢索數(shù)據(jù)集(Microsoft Academic Search,MAS)。

    TPC-H數(shù)據(jù)集:生成1 GB的TPC-H標(biāo)準(zhǔn)數(shù)據(jù)集(lineitem表中有6001199個(gè)元組),lineitem的關(guān)系模式模擬工業(yè)購買記錄。隨機(jī)注入d%的重復(fù)數(shù)據(jù):80%一次重復(fù),15%二次重復(fù),5%三次重復(fù)。

    微軟學(xué)術(shù)檢索數(shù)據(jù)集:該公開數(shù)據(jù)集包含學(xué)術(shù)論文發(fā)表信息,該數(shù)據(jù)集合中主要的錯(cuò)誤來源于重復(fù)數(shù)據(jù),選取Jeffrey Ullman10位研究人員發(fā)表的論文進(jìn)行研究(記為publish)。原始數(shù)據(jù)集顯示Jeffrey Ullman這10位研究人員共發(fā)表了4605733篇文章,通過手動(dòng)去重,得到真實(shí)值為2554892篇。

    對以上兩個(gè)關(guān)系表設(shè)計(jì)兩組聚集查詢,對lineitem表進(jìn)行SUM查詢,對publish表進(jìn)行COUNT查詢,如下所示:

    SELECT SUM(quantity) FROM lineitem WHERE returnflag='A'AND linestatus='F'

    SELECT COUNT(paper)FROM publish

    4.2 準(zhǔn)確性

    在TPC-H數(shù)據(jù)集上分別注入0.1%的重復(fù)數(shù)據(jù)和10%的重復(fù)數(shù)據(jù),并和SampleClean進(jìn)行比較。在0.1%重復(fù)數(shù)據(jù)上,BlockSample和 SampleClean中 NormalizedSC(Normalized Sample Clean)算法比較,該算法適用于重復(fù)數(shù)據(jù)較少的情況;在10%重復(fù)數(shù)據(jù)上和SampleClean中的RawSC(Raw Sample Clean)算法比較,該算法適用于重復(fù)元組較多的情況。實(shí)驗(yàn)結(jié)果如圖2所示。

    從TPC-H數(shù)據(jù)集上測試的結(jié)果可以看出,無論在較少重復(fù)數(shù)據(jù)或較多重復(fù)數(shù)據(jù)的情況下,BlockSample都可以和SampleClean達(dá)到幾乎相同的準(zhǔn)確率,另外,錯(cuò)誤率以1/SampleSize的速度下降。

    為了更直觀地顯示計(jì)算結(jié)果,用圖3中的置信區(qū)間顯示結(jié)果的變化。圖3(a)是在0.1%重復(fù)數(shù)據(jù)的TPC-H上的實(shí)驗(yàn)結(jié)果,圖3(b)是真實(shí)數(shù)據(jù)集publish上的實(shí)驗(yàn)結(jié)果,可以看出,隨著樣本大小的增大,結(jié)果的置信區(qū)間逐漸縮小,估計(jì)結(jié)果最終趨近真實(shí)值(ground-truth)。

    BlockSample可以達(dá)到和SampleClean幾乎相同的準(zhǔn)確率是因?yàn)樵O(shè)置SampleClean采用本文中的實(shí)體識別技術(shù),兩者又存在一些差異,是因?yàn)槊看尾蓸佣际请S機(jī)的,得到的樣本不可能完全相同。

    4.3 運(yùn)行時(shí)間

    接下來,對BlockSample和SampleClean的運(yùn)行時(shí)間進(jìn)行測試,如圖4(a)所示,在重復(fù)率0.1%,大小為1 GB的TPC-H數(shù)據(jù)集上,相同樣本大小時(shí)(即準(zhǔn)確度相同),BlockSample計(jì)算時(shí)間總是小于SampleClean,并且時(shí)間差隨著樣本增大逐漸增大,也就是說,BlockSample在數(shù)據(jù)較大的情況下性能表現(xiàn)更好。

    圖2 SampleClean和BlockSample準(zhǔn)確率比較Fig.2 Accuracy comparison of SampleClean and BlockSample

    圖3 不同數(shù)據(jù)集上查詢結(jié)果與置信區(qū)間比較Fig.3 Query result and confidence interval comparison on different datasets

    為了證實(shí)上述猜想,在更大的數(shù)據(jù)集上進(jìn)行測試,選取TPC-H數(shù)據(jù)集,生成10 GB~100 GB的數(shù)據(jù),重復(fù)率為0.1%,設(shè)置BlockSample和SampleClean都采取樣本大小為全部數(shù)據(jù)的10%,記錄兩個(gè)算法的運(yùn)行時(shí)間如圖4(b)所示。

    由圖4(b)可以看出:在數(shù)據(jù)量較大時(shí),BlockSample運(yùn)行時(shí)間也少于SampleClean的運(yùn)行時(shí)間;并且,當(dāng)數(shù)據(jù)線性增大時(shí),BlockSample運(yùn)行時(shí)間呈線性緩慢增長,而SampleClean呈指數(shù)趨勢增長。通過這個(gè)實(shí)驗(yàn),可以看出BlockSample具有更好的可擴(kuò)展性,適用于數(shù)據(jù)量較大的情況。

    通過分析,共有兩點(diǎn)原因:首先,BlockSample采用基于塊的采樣策略,在Spark中,數(shù)據(jù)以塊作為基本單位進(jìn)行存儲(chǔ)和傳輸,基于元組的采樣取一個(gè)樣本就可能造成一個(gè)塊的傳輸,從而增大了I/O時(shí)間和通信時(shí)間。另外,SampleClean構(gòu)建在Hive數(shù)據(jù)庫上層,所有數(shù)據(jù)的操作都通過Hive層進(jìn)行,無疑增大了中間層的計(jì)算代價(jià),而BlockSample是在數(shù)據(jù)上直接進(jìn)行計(jì)算,省去了中間數(shù)據(jù)管理的開銷。

    圖4 不同數(shù)據(jù)集上運(yùn)行時(shí)間比較Fig.4 Running time comparison on different datasets

    5 結(jié)語

    本文研究了將實(shí)體識別與聚集查詢高效融合問題,提出了基于塊的采樣策略,大大提高了聚集查詢效率。另外,本文提出了適用于塊采樣和重復(fù)數(shù)據(jù)的查詢結(jié)果的估計(jì)量,并證明該估計(jì)量是無偏的。實(shí)驗(yàn)結(jié)果表明本文提出的算法能達(dá)到和當(dāng)前最好的算法相同的精確度,并且大大提高了查詢效率,能夠更好地適用于大數(shù)據(jù)情況。未來我們將研究重復(fù)數(shù)據(jù)上的嵌套聚集查詢處理方法,當(dāng)查詢嵌套時(shí),本文提出的無偏估計(jì)量不再有效,因此,需要進(jìn)一步研究如何保證查詢結(jié)果的無偏性。

    猜你喜歡
    元組估計(jì)量相似性
    一類上三角算子矩陣的相似性與酉相似性
    Python核心語法
    淺析當(dāng)代中西方繪畫的相似性
    海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
    基于減少檢索的負(fù)表約束優(yōu)化算法
    淺談估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)
    低滲透黏土中氯離子彌散作用離心模擬相似性
    基于配網(wǎng)先驗(yàn)信息的諧波狀態(tài)估計(jì)量測點(diǎn)最優(yōu)配置
    電測與儀表(2015年6期)2015-04-09 12:00:50
    負(fù)極值指標(biāo)估計(jì)量的漸近性質(zhì)
    面向數(shù)據(jù)流處理的元組跟蹤方法
    成人特级av手机在线观看| 国产精品野战在线观看| 久久久久久久久久久丰满 | 在线观看66精品国产| 少妇人妻一区二区三区视频| 国产一区二区三区在线臀色熟女| 噜噜噜噜噜久久久久久91| 夜夜爽天天搞| 久久精品国产99精品国产亚洲性色| 成人美女网站在线观看视频| 成人特级黄色片久久久久久久| 国产高清激情床上av| 69人妻影院| 亚洲成a人片在线一区二区| 99精品在免费线老司机午夜| ponron亚洲| 国产91精品成人一区二区三区| 一夜夜www| 可以在线观看的亚洲视频| 亚洲在线自拍视频| 日本-黄色视频高清免费观看| 国产伦精品一区二区三区视频9| 中文字幕熟女人妻在线| x7x7x7水蜜桃| 国产午夜精品论理片| 午夜福利在线在线| 一个人免费在线观看电影| 国内精品久久久久久久电影| 国产午夜精品论理片| 婷婷精品国产亚洲av在线| 精品久久久久久久久av| 久99久视频精品免费| 天堂网av新在线| 全区人妻精品视频| 国产精品,欧美在线| 国模一区二区三区四区视频| 国产精品一区二区免费欧美| 一级黄色大片毛片| 美女黄网站色视频| 午夜精品久久久久久毛片777| 成人一区二区视频在线观看| 99久久久亚洲精品蜜臀av| 国产成年人精品一区二区| 色播亚洲综合网| 99热这里只有是精品在线观看| 少妇的逼水好多| 一进一出抽搐gif免费好疼| 五月玫瑰六月丁香| 免费观看的影片在线观看| 一本精品99久久精品77| h日本视频在线播放| 搡女人真爽免费视频火全软件 | 18禁裸乳无遮挡免费网站照片| 亚洲avbb在线观看| 国产乱人伦免费视频| 久久亚洲精品不卡| 桃红色精品国产亚洲av| 国产高清三级在线| 夜夜看夜夜爽夜夜摸| 日韩欧美三级三区| 国产黄色小视频在线观看| 美女高潮的动态| 国产伦在线观看视频一区| 亚洲乱码一区二区免费版| 乱人视频在线观看| 亚洲av不卡在线观看| 国产伦在线观看视频一区| 国产女主播在线喷水免费视频网站 | 亚洲四区av| 国产人妻一区二区三区在| 欧美高清性xxxxhd video| 在线播放国产精品三级| 天堂av国产一区二区熟女人妻| 中国美白少妇内射xxxbb| 亚洲一区二区三区色噜噜| 久久欧美精品欧美久久欧美| 免费av毛片视频| 国产黄a三级三级三级人| av女优亚洲男人天堂| 国产av麻豆久久久久久久| 午夜福利高清视频| 美女xxoo啪啪120秒动态图| 成人二区视频| 欧美+日韩+精品| 亚洲美女黄片视频| 亚洲欧美日韩卡通动漫| 99久久成人亚洲精品观看| 国产精品亚洲一级av第二区| 九色成人免费人妻av| 能在线免费观看的黄片| 亚洲av中文字字幕乱码综合| 午夜福利18| 天美传媒精品一区二区| 精品99又大又爽又粗少妇毛片 | 给我免费播放毛片高清在线观看| 日韩一区二区视频免费看| 在线观看av片永久免费下载| 美女xxoo啪啪120秒动态图| 99久国产av精品| 麻豆一二三区av精品| 成人国产综合亚洲| 国产蜜桃级精品一区二区三区| 国产成人福利小说| 国产成人av教育| 亚洲,欧美,日韩| 91av网一区二区| 丝袜美腿在线中文| 日本一本二区三区精品| av在线观看视频网站免费| 一级毛片久久久久久久久女| 蜜桃久久精品国产亚洲av| 在线观看66精品国产| 亚洲av免费在线观看| 欧美色视频一区免费| 真人做人爱边吃奶动态| 五月伊人婷婷丁香| www.www免费av| 精品一区二区三区av网在线观看| 日日啪夜夜撸| 久久午夜福利片| av在线老鸭窝| 午夜免费成人在线视频| 两个人视频免费观看高清| 在线播放国产精品三级| 国产三级中文精品| 亚洲国产精品成人综合色| 黄色丝袜av网址大全| 国产极品精品免费视频能看的| 男女边吃奶边做爰视频| 最新在线观看一区二区三区| 亚洲专区国产一区二区| a级毛片a级免费在线| 成年免费大片在线观看| 国产黄片美女视频| 国产精品人妻久久久影院| 能在线免费观看的黄片| 国产免费男女视频| 免费不卡的大黄色大毛片视频在线观看 | 午夜激情欧美在线| 黄色日韩在线| 九九热线精品视视频播放| 桃色一区二区三区在线观看| 国产老妇女一区| 国产欧美日韩精品亚洲av| 久久久国产成人免费| 在线国产一区二区在线| 精品一区二区免费观看| 成人性生交大片免费视频hd| 婷婷亚洲欧美| 色哟哟·www| 美女高潮的动态| av天堂中文字幕网| 听说在线观看完整版免费高清| 极品教师在线视频| 国产一区二区三区视频了| 欧美一区二区国产精品久久精品| 精品久久久久久成人av| 国产高清视频在线播放一区| 亚洲av日韩精品久久久久久密| 久久久国产成人精品二区| 波野结衣二区三区在线| 免费高清视频大片| 女的被弄到高潮叫床怎么办 | 18禁黄网站禁片午夜丰满| 日日摸夜夜添夜夜添av毛片 | 啦啦啦韩国在线观看视频| 2021天堂中文幕一二区在线观| 天天躁日日操中文字幕| 99热只有精品国产| 成人鲁丝片一二三区免费| 三级男女做爰猛烈吃奶摸视频| 深夜精品福利| 91精品国产九色| 亚洲中文字幕日韩| 国产精品精品国产色婷婷| 亚洲男人的天堂狠狠| 亚洲一区二区三区色噜噜| 超碰av人人做人人爽久久| 久久精品国产鲁丝片午夜精品 | 干丝袜人妻中文字幕| 在线观看66精品国产| 欧美日韩中文字幕国产精品一区二区三区| 亚洲精品乱码久久久v下载方式| 人妻夜夜爽99麻豆av| 18禁在线播放成人免费| 国产精品久久电影中文字幕| 成人国产一区最新在线观看| 高清毛片免费观看视频网站| 久久久久久久久中文| 午夜a级毛片| 亚洲国产色片| 波野结衣二区三区在线| 乱人视频在线观看| 啦啦啦观看免费观看视频高清| 亚洲美女黄片视频| 午夜精品在线福利| 一个人看视频在线观看www免费| 91麻豆精品激情在线观看国产| 人妻少妇偷人精品九色| 伦理电影大哥的女人| 国产av不卡久久| 免费看日本二区| 日本黄色视频三级网站网址| 嫩草影院精品99| 精品人妻一区二区三区麻豆 | 国产精品无大码| 一区二区三区免费毛片| 99久久精品一区二区三区| 婷婷色综合大香蕉| 很黄的视频免费| 亚洲av二区三区四区| 国产精品日韩av在线免费观看| 午夜福利成人在线免费观看| 亚洲精品在线观看二区| 亚洲av免费高清在线观看| 色5月婷婷丁香| 丰满人妻一区二区三区视频av| aaaaa片日本免费| 波野结衣二区三区在线| 国产黄色小视频在线观看| 淫妇啪啪啪对白视频| 国产午夜精品久久久久久一区二区三区 | 天美传媒精品一区二区| 精品久久久久久久人妻蜜臀av| 久久精品久久久久久噜噜老黄 | 精品久久久久久久久亚洲 | 97人妻精品一区二区三区麻豆| 春色校园在线视频观看| 黄色一级大片看看| 噜噜噜噜噜久久久久久91| 一本精品99久久精品77| 男女下面进入的视频免费午夜| 一进一出抽搐动态| 国产一区二区三区视频了| а√天堂www在线а√下载| 精品久久久噜噜| 日韩中字成人| 久久99热6这里只有精品| 国产亚洲精品久久久久久毛片| 极品教师在线免费播放| 国产探花在线观看一区二区| 我的女老师完整版在线观看| 精品久久久久久成人av| 国产精品久久久久久亚洲av鲁大| 亚洲欧美日韩高清专用| 在线观看免费视频日本深夜| 亚洲av第一区精品v没综合| 99精品在免费线老司机午夜| 一进一出好大好爽视频| 精品久久久久久成人av| 国产 一区精品| 1024手机看黄色片| 全区人妻精品视频| 久久久久久久精品吃奶| 国产伦在线观看视频一区| 久久人人爽人人爽人人片va| 日韩欧美国产在线观看| 色噜噜av男人的天堂激情| 可以在线观看的亚洲视频| 小说图片视频综合网站| 欧美成人a在线观看| 久久久久久久久中文| 免费不卡的大黄色大毛片视频在线观看 | 别揉我奶头 嗯啊视频| 人人妻,人人澡人人爽秒播| 久久久久九九精品影院| 亚洲精品一卡2卡三卡4卡5卡| 欧美一区二区亚洲| 国产激情偷乱视频一区二区| 亚洲18禁久久av| 精品日产1卡2卡| 又粗又爽又猛毛片免费看| 性色avwww在线观看| 免费看光身美女| 亚洲精品国产成人久久av| 精品久久久久久久久久免费视频| 日日撸夜夜添| 日韩欧美在线二视频| 精品人妻1区二区| 一本一本综合久久| 熟女电影av网| 精品久久久久久久末码| 婷婷亚洲欧美| 欧美激情在线99| 日韩欧美在线乱码| 久久久久久久午夜电影| 可以在线观看毛片的网站| www.色视频.com| 久久精品国产99精品国产亚洲性色| 我的老师免费观看完整版| 欧美成人a在线观看| 国产精品99久久久久久久久| 国产精品自产拍在线观看55亚洲| 国产精品野战在线观看| АⅤ资源中文在线天堂| 成熟少妇高潮喷水视频| 美女大奶头视频| 简卡轻食公司| 国产视频一区二区在线看| 日本爱情动作片www.在线观看 | 亚洲真实伦在线观看| 好男人在线观看高清免费视频| 又紧又爽又黄一区二区| 国模一区二区三区四区视频| 三级男女做爰猛烈吃奶摸视频| 一区二区三区四区激情视频 | 窝窝影院91人妻| 高清日韩中文字幕在线| 内地一区二区视频在线| 一a级毛片在线观看| 久久99热6这里只有精品| 久久精品人妻少妇| 三级毛片av免费| 日本黄大片高清| 久久久久九九精品影院| 全区人妻精品视频| 久久天躁狠狠躁夜夜2o2o| 黄色配什么色好看| 99国产精品一区二区蜜桃av| 黄色配什么色好看| 69av精品久久久久久| 特级一级黄色大片| 欧美性猛交黑人性爽| 黄色欧美视频在线观看| 在线免费观看的www视频| av在线蜜桃| 成人无遮挡网站| 伦理电影大哥的女人| 精品免费久久久久久久清纯| 免费看光身美女| 欧美性感艳星| 欧美绝顶高潮抽搐喷水| 男女边吃奶边做爰视频| 国产在线男女| 久久精品影院6| 99热这里只有是精品50| 国产亚洲91精品色在线| 可以在线观看毛片的网站| 天堂动漫精品| 国产精品电影一区二区三区| 成年女人永久免费观看视频| 免费一级毛片在线播放高清视频| 色哟哟·www| 国产探花在线观看一区二区| 有码 亚洲区| 亚洲在线观看片| 国产伦精品一区二区三区视频9| 校园春色视频在线观看| 国产一区二区在线观看日韩| 免费黄网站久久成人精品| 日韩一本色道免费dvd| 久久久色成人| 久久精品91蜜桃| 性色avwww在线观看| 黄色一级大片看看| 亚洲熟妇熟女久久| 在线免费十八禁| a在线观看视频网站| 淫妇啪啪啪对白视频| 12—13女人毛片做爰片一| 日韩精品青青久久久久久| 国产国拍精品亚洲av在线观看| 51国产日韩欧美| 少妇熟女aⅴ在线视频| 欧美黑人欧美精品刺激| 男女那种视频在线观看| 波多野结衣高清作品| 天堂网av新在线| 波多野结衣高清作品| 国内精品久久久久精免费| 88av欧美| 99久久精品一区二区三区| 国产黄a三级三级三级人| 精品国内亚洲2022精品成人| 成人特级av手机在线观看| 波多野结衣巨乳人妻| 亚洲国产欧美人成| 韩国av一区二区三区四区| 99九九线精品视频在线观看视频| 伦精品一区二区三区| 观看美女的网站| 亚洲va日本ⅴa欧美va伊人久久| 免费大片18禁| 亚洲国产精品合色在线| 久久天躁狠狠躁夜夜2o2o| 欧美日韩综合久久久久久 | av黄色大香蕉| 国产精品国产三级国产av玫瑰| 国产高清三级在线| 麻豆国产97在线/欧美| 精品久久久久久久人妻蜜臀av| 淫秽高清视频在线观看| 国产精品99久久久久久久久| 99久久无色码亚洲精品果冻| 亚洲成人免费电影在线观看| 亚洲四区av| 免费在线观看影片大全网站| 热99re8久久精品国产| 亚洲精品在线观看二区| 91麻豆av在线| 免费av毛片视频| 国产综合懂色| 免费高清视频大片| 国产亚洲精品综合一区在线观看| 我要搜黄色片| 老熟妇乱子伦视频在线观看| 中国美女看黄片| 亚洲电影在线观看av| 最近在线观看免费完整版| ponron亚洲| 99热6这里只有精品| 亚洲美女黄片视频| 欧美高清性xxxxhd video| 一进一出好大好爽视频| 免费在线观看日本一区| 日韩强制内射视频| 一个人看视频在线观看www免费| 99国产精品一区二区蜜桃av| 亚洲成人免费电影在线观看| 精品人妻熟女av久视频| 深夜a级毛片| 国产精品久久电影中文字幕| 亚州av有码| 联通29元200g的流量卡| 极品教师在线免费播放| 精品福利观看| 禁无遮挡网站| 日韩欧美国产一区二区入口| 91精品国产九色| 国产高清激情床上av| 久久国产精品人妻蜜桃| 九九热线精品视视频播放| 国产精品亚洲美女久久久| 欧美zozozo另类| 精品不卡国产一区二区三区| 麻豆国产av国片精品| 欧美一区二区精品小视频在线| 午夜激情欧美在线| eeuss影院久久| 精品人妻一区二区三区麻豆 | 国产伦人伦偷精品视频| 国产精品1区2区在线观看.| 免费观看的影片在线观看| 午夜福利高清视频| 亚洲精品456在线播放app | 日日夜夜操网爽| 日韩强制内射视频| 亚洲国产精品合色在线| 国产亚洲精品久久久com| 亚洲 国产 在线| 男人狂女人下面高潮的视频| 他把我摸到了高潮在线观看| 欧美潮喷喷水| 我要搜黄色片| 女同久久另类99精品国产91| 18禁黄网站禁片午夜丰满| 精品久久久久久,| 国产精品久久电影中文字幕| 国产亚洲91精品色在线| 国产精品亚洲美女久久久| 国产精品久久久久久av不卡| 国产不卡一卡二| 美女高潮的动态| 亚洲美女视频黄频| 十八禁国产超污无遮挡网站| 久久久久久久午夜电影| 欧美日韩瑟瑟在线播放| 亚洲四区av| 日日啪夜夜撸| 国产久久久一区二区三区| 国产精品一区二区三区四区久久| 韩国av一区二区三区四区| 啪啪无遮挡十八禁网站| 亚洲成人久久性| 久久精品国产亚洲网站| avwww免费| 老女人水多毛片| 男女边吃奶边做爰视频| 黄色配什么色好看| 精品欧美国产一区二区三| 日韩欧美国产一区二区入口| 欧美高清性xxxxhd video| 日本精品一区二区三区蜜桃| 国产亚洲精品综合一区在线观看| 性插视频无遮挡在线免费观看| 人妻夜夜爽99麻豆av| 最新在线观看一区二区三区| 99久久精品热视频| 麻豆一二三区av精品| 深爱激情五月婷婷| 在线a可以看的网站| 毛片女人毛片| 2021天堂中文幕一二区在线观| 日本在线视频免费播放| 久久精品综合一区二区三区| 国产毛片a区久久久久| 午夜精品在线福利| 精品人妻视频免费看| 观看免费一级毛片| 中文字幕熟女人妻在线| 在线观看66精品国产| bbb黄色大片| 男女下面进入的视频免费午夜| 午夜精品一区二区三区免费看| 免费看美女性在线毛片视频| 亚洲成人免费电影在线观看| 桃色一区二区三区在线观看| 91麻豆精品激情在线观看国产| 中文字幕av在线有码专区| 免费搜索国产男女视频| 欧美一区二区精品小视频在线| 极品教师在线视频| 亚洲熟妇中文字幕五十中出| 伦精品一区二区三区| aaaaa片日本免费| 国产主播在线观看一区二区| 真人做人爱边吃奶动态| 嫩草影院入口| 男人舔奶头视频| 日本三级黄在线观看| 亚洲精品粉嫩美女一区| 婷婷亚洲欧美| 熟女人妻精品中文字幕| 精品国产三级普通话版| 日日夜夜操网爽| 欧美成人性av电影在线观看| 两个人的视频大全免费| 女的被弄到高潮叫床怎么办 | 搞女人的毛片| 日本一二三区视频观看| 国产一区二区三区av在线 | 亚洲不卡免费看| 国产一区二区在线av高清观看| 国产精品国产高清国产av| 别揉我奶头~嗯~啊~动态视频| 亚洲成人中文字幕在线播放| 精品国内亚洲2022精品成人| 丝袜美腿在线中文| 久久热精品热| 国内久久婷婷六月综合欲色啪| 91久久精品国产一区二区三区| 亚洲精品一卡2卡三卡4卡5卡| 美女 人体艺术 gogo| 久久久成人免费电影| 赤兔流量卡办理| 天天躁日日操中文字幕| 国产精品久久久久久亚洲av鲁大| 午夜久久久久精精品| av在线天堂中文字幕| 国产老妇女一区| 色视频www国产| 精品乱码久久久久久99久播| 国产亚洲精品av在线| a在线观看视频网站| 村上凉子中文字幕在线| 精品久久久久久久久久免费视频| 91在线精品国自产拍蜜月| 一区二区三区高清视频在线| 欧美另类亚洲清纯唯美| 欧美性猛交黑人性爽| 精品不卡国产一区二区三区| 成人鲁丝片一二三区免费| 国产精品一区二区三区四区久久| 国产精品国产高清国产av| 欧美xxxx性猛交bbbb| 草草在线视频免费看| 亚洲av成人精品一区久久| 亚洲精品国产成人久久av| 日韩,欧美,国产一区二区三区 | 久久久国产成人免费| 国产亚洲精品综合一区在线观看| 乱人视频在线观看| 在线观看舔阴道视频| 深爱激情五月婷婷| 91狼人影院| 午夜亚洲福利在线播放| 亚洲色图av天堂| 国产成人影院久久av| 国产高清视频在线播放一区| 夜夜夜夜夜久久久久| 欧美bdsm另类| 午夜久久久久精精品| 亚洲精品粉嫩美女一区| 亚洲无线观看免费| 亚洲av熟女| 久久香蕉精品热| 国产淫片久久久久久久久| 97碰自拍视频| 亚洲av不卡在线观看| 国产精品,欧美在线| a级一级毛片免费在线观看| 亚洲性夜色夜夜综合| 人妻制服诱惑在线中文字幕| 午夜老司机福利剧场| 久久热精品热| 中出人妻视频一区二区| 久久久成人免费电影| 免费在线观看日本一区| 舔av片在线| 黄色配什么色好看| 男插女下体视频免费在线播放| 男女啪啪激烈高潮av片| 欧美中文日本在线观看视频| 99热网站在线观看| 窝窝影院91人妻| 男女之事视频高清在线观看| 国产亚洲精品久久久久久毛片| 国产麻豆成人av免费视频| 成人三级黄色视频| 九色国产91popny在线| a级毛片免费高清观看在线播放| 又黄又爽又免费观看的视频| 欧美色视频一区免费| 亚洲欧美日韩无卡精品| 级片在线观看|