• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    異構(gòu)分布式環(huán)境中的并行離群點(diǎn)檢測(cè)算法

    2020-11-09 03:16王習(xí)特朱宗梅于雪蘋白梅
    關(guān)鍵詞:網(wǎng)格

    王習(xí)特 朱宗梅 于雪蘋 白梅

    摘? ?要:離群點(diǎn)檢測(cè)是數(shù)據(jù)挖掘領(lǐng)域研究的熱點(diǎn)之一,主要目的是識(shí)別出數(shù)據(jù)集中異常但有價(jià)值的數(shù)據(jù)點(diǎn). 隨著數(shù)據(jù)規(guī)模不斷擴(kuò)大,使得處理海量數(shù)據(jù)的效率降低,隨即引入分布式算法. 目前現(xiàn)有的分布式算法大都用于解決同構(gòu)分布式的處理環(huán)境,但在實(shí)際應(yīng)用中,由于參與分布式計(jì)算的處理機(jī)配置的差異,現(xiàn)有的分布式離群點(diǎn)檢測(cè)算法不能很好地適用于異構(gòu)分布式環(huán)境. 針對(duì)上述問(wèn)題,本文提出一種面向異構(gòu)分布式環(huán)境的離群點(diǎn)檢測(cè)算法. 首先提出基于網(wǎng)格的動(dòng)態(tài)數(shù)據(jù)劃分方法(Gird-based Dynamic Data Partitioning,GDDP),充分利用各處理機(jī)的計(jì)算資源,同時(shí)根據(jù)數(shù)據(jù)點(diǎn)的空間位置信息進(jìn)行數(shù)據(jù)劃分,可有效減少網(wǎng)絡(luò)通信. 其次基于GDDP算法,提出了異構(gòu)分布式環(huán)境中并行的離群點(diǎn)檢測(cè)算法(GDDP-based Outlier Detection Algorithm,GODA). 該算法包括2個(gè)階段:在每個(gè)處理機(jī)本地,按照索引中數(shù)據(jù)點(diǎn)的順序進(jìn)行過(guò)濾,通過(guò)2次掃描得到離群點(diǎn)候選集;判斷候選離群點(diǎn)需要進(jìn)行網(wǎng)絡(luò)通信的處理機(jī),使用較低網(wǎng)絡(luò)開(kāi)銷得出全局離群點(diǎn). 最后,通過(guò)大量實(shí)驗(yàn)驗(yàn)證了本文提出的GDDP和GODA算法的有效性.

    關(guān)鍵詞:離群點(diǎn)檢測(cè);異構(gòu)分布式;網(wǎng)格;數(shù)據(jù)劃分

    中圖分類號(hào):TP391 ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A

    Parallel Outlier Detection Algorithm

    in Heterogeneous Distributed Environment

    WANG Xite?,ZHU Zongmei,YU Xueping,BAI Mei

    (College of Information Science and Technology,Dalian Maritime University,Dalian 116000,China)

    Abstract:Outlier detection is one of the hotspots in the field of data mining. The main purpose is to identify the abnormal but valuable data points in the data set. With the expansion of data scale,the efficiency of processing massive data is reduced,and then a distributed algorithm is introduced. At present,most of the existing distributed algorithms are used to solve the homogeneous distributed processing environment. However,in practical applications,due to the differences in processor configuration involved in distributed computing,the existing distributed outlier detection algorithms cannot be well applied to heterogeneous distributed environments. In view of the above problems,this paper proposes an outlier detection algorithm for heterogeneous distributed environments. Firstly,a grid-based dynamic data partitioning (GDDP) method is proposed,which makes full use of the computing resources of each processor and divides the data according to the spatial location information of the data points,which can effectively reduce the network communication. Secondly,based on the GDDP algorithm,a parallel GDDP-based Outlier Detection Algorithm (GODA) is proposed. The algorithm consists of two stages:in each processor,filtering according to the order of the data points in the index and obtaining the outlier candidate set by two scans;determining the candidate outliers requiring network communication and using low network overhead leads to global outliers. Finally,the effectiveness of the proposed GDDP and GODA algorithms is verified by a large number of experiments.

    Key words:outlier detection;heterogeneous distribution;grid;data partition

    離群點(diǎn)檢測(cè)是數(shù)據(jù)管理領(lǐng)域的重要研究?jī)?nèi)容之一,其主要目的是識(shí)別出數(shù)據(jù)集中與其他數(shù)據(jù)存在顯著差異的數(shù)據(jù)對(duì)象. 隨著對(duì)離群點(diǎn)的不斷研究,出現(xiàn)了多種離群點(diǎn)描述方式. 其中,最直觀的方式是通過(guò)度量數(shù)據(jù)空間中數(shù)據(jù)點(diǎn)間的距離來(lái)量化數(shù)據(jù)的離群程度. 具體地,基于距離的離群點(diǎn)可定義為:給定參數(shù)k和r,對(duì)于數(shù)據(jù)集P中任意數(shù)據(jù)點(diǎn)p,若與點(diǎn)p的距離小于等于r的數(shù)據(jù)點(diǎn)個(gè)數(shù)少于k,則p為離群點(diǎn)[1].

    隨著數(shù)據(jù)庫(kù)中數(shù)據(jù)量的不斷增加,有關(guān)離群點(diǎn)的研究已從集中式處理環(huán)境轉(zhuǎn)向分布式處理環(huán)境,以提高海量數(shù)據(jù)的離群點(diǎn)檢測(cè)效率[2]. 但是,現(xiàn)有的分布式算法大都用來(lái)解決同構(gòu)分布式環(huán)境中的離群點(diǎn)檢測(cè)問(wèn)題. 在實(shí)際應(yīng)用中,參與分布式計(jì)算的處理機(jī)大都存在配置上的差異,各處理機(jī)的性能可能存在較大差異. 這也就使得現(xiàn)有的針對(duì)同構(gòu)分布式環(huán)境設(shè)計(jì)的離群點(diǎn)檢測(cè)算法不能很好地適用于異構(gòu)分布式環(huán)境. 因此,迫切需要設(shè)計(jì)一種高效的異構(gòu)分布式環(huán)境中的并行離群點(diǎn)檢測(cè)算法.

    本文主要針對(duì)異構(gòu)分布式環(huán)境下的離群點(diǎn)檢測(cè)問(wèn)題,提出一種動(dòng)態(tài)數(shù)據(jù)劃分方法和相應(yīng)計(jì)算方法,旨在提高算法的執(zhí)行效率. 具體地,本文的主要貢獻(xiàn)包括以下幾個(gè)部分:

    1)提出一種基于網(wǎng)格的動(dòng)態(tài)數(shù)據(jù)劃分方法GDDP(Gird-based Dynamic Data Partitioning). 該方法依據(jù)異構(gòu)分布式環(huán)境中各處理機(jī)計(jì)算能力的差異動(dòng)態(tài)分配計(jì)算任務(wù),實(shí)現(xiàn)了各處理機(jī)計(jì)算任務(wù)的負(fù)載均衡,加快了計(jì)算效率. 同時(shí),考慮了數(shù)據(jù)集中數(shù)據(jù)點(diǎn)所處的空間位置信息,盡可能將空間上相鄰的數(shù)據(jù)點(diǎn)劃分至同一處理機(jī),降低網(wǎng)絡(luò)開(kāi)銷.

    2)基于GDDP劃分方法,提出了異構(gòu)分布式環(huán)境中并行的離群點(diǎn)檢測(cè)算法GODA(GDDP-based Outlier Detection Algorithm). 該算法主要包括兩個(gè)過(guò)程:①本地離群點(diǎn)計(jì)算.首先通過(guò)索引對(duì)每個(gè)處理機(jī)本地的數(shù)據(jù)集進(jìn)行管理,然后根據(jù)過(guò)濾規(guī)則實(shí)現(xiàn)數(shù)據(jù)集中非離群點(diǎn)的過(guò)濾,從而快速計(jì)算出本地離群點(diǎn);②全局離群點(diǎn)計(jì)算.利用每個(gè)候選離群點(diǎn)和其所在數(shù)據(jù)塊與相鄰數(shù)據(jù)塊的距離關(guān)系,判斷需要進(jìn)行網(wǎng)絡(luò)通信的處理機(jī),然后統(tǒng)一將候選點(diǎn)發(fā)送到相應(yīng)的處理機(jī)上,從而得到全局離群點(diǎn).

    3)分別利用真實(shí)數(shù)據(jù)集和人工合成數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文提出的GDDP和GODA算法的有效性.

    1? ?相關(guān)工作

    本節(jié)主要從集中式和分布式兩方面對(duì)離群點(diǎn)檢測(cè)的相關(guān)研究進(jìn)行概述.

    1.1? ?集中式離群點(diǎn)檢測(cè)

    目前,大多數(shù)離群點(diǎn)研究都是面向集中式環(huán)境的. 研究?jī)?nèi)容主要包括兩個(gè)方面:離群點(diǎn)定義和離群點(diǎn)檢測(cè)方法. 首先,離群點(diǎn)定義方面的研究致力于給出一種描述或者形式化定義離群點(diǎn)的方法. Hawkins等[3]最早給出離群點(diǎn)的形象化描述,認(rèn)為離群點(diǎn)是數(shù)據(jù)集中與其他點(diǎn)差距很大、且懷疑與其他數(shù)據(jù)點(diǎn)并非由同一機(jī)制生成的點(diǎn). 為了更明確數(shù)據(jù)點(diǎn)是否為離群點(diǎn),提出基于模型的離群點(diǎn)定義,以數(shù)據(jù)的分布模型為參考,將數(shù)據(jù)集中不符合分布模型的數(shù)據(jù)點(diǎn)定義為離群點(diǎn)[4]. 至今,研究人員給出了多種不同的離群點(diǎn)定義標(biāo)準(zhǔn),如:基于距離的離群點(diǎn)、基于聚類的離群點(diǎn)[5]、基于密度的離群點(diǎn)[6]. 其中,基于距離的離群點(diǎn)定義能直觀地反應(yīng)離群點(diǎn)本質(zhì)進(jìn)而得到廣泛應(yīng)用.

    其次,離群點(diǎn)檢測(cè)是指根據(jù)某種離群點(diǎn)判定方式,從數(shù)據(jù)集中快速找到符合該判定方式的數(shù)據(jù)點(diǎn)的過(guò)程,判定方式不同,相應(yīng)的離群點(diǎn)計(jì)算方法也不同. 具體地,文獻(xiàn)[1]基于距離的離群點(diǎn)定義,提出一種嵌套循環(huán)方式,對(duì)數(shù)據(jù)集中每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行距離計(jì)算,以找出最終的離群點(diǎn). 這種方法可以應(yīng)對(duì)多維數(shù)據(jù)集,但實(shí)際的計(jì)算效率有待優(yōu)化. 之后,Bay等[7]提出ORCA算法,利用緩沖區(qū)給出一種修剪規(guī)則,實(shí)現(xiàn)對(duì)非離群點(diǎn)的過(guò)濾,加快檢測(cè)效率. 此外,有些學(xué)者利用空間索引加速離群點(diǎn)的計(jì)算過(guò)程. 文獻(xiàn)[8] 提出了基于R樹(shù)的離群點(diǎn)檢測(cè)算法,文獻(xiàn)[9]給出了基于k-d樹(shù)的離群點(diǎn)檢測(cè)算法.

    1.2? ?分布式離群點(diǎn)檢測(cè)

    為了解決傳統(tǒng)集中式離群點(diǎn)檢測(cè)算法在大規(guī)模數(shù)據(jù)中檢測(cè)效率低的問(wèn)題,許多研究人員提出了有效的分布式算法,而現(xiàn)有的分布式離群點(diǎn)檢測(cè)算法都是面向同構(gòu)分布式環(huán)境的. Hung等[10]首先給出分布式環(huán)境中基于距離的離群點(diǎn)檢測(cè)算法,將數(shù)據(jù)均勻劃分至各處理機(jī),然后對(duì)傳統(tǒng)嵌套循環(huán)算法進(jìn)行優(yōu)化,實(shí)現(xiàn)分布式的離群點(diǎn)計(jì)算過(guò)程. 文獻(xiàn)[11]首先提出了GBP數(shù)據(jù)劃分方法,利用網(wǎng)格空間索引結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行管理和劃分,然后基于GBP劃分方法給出分布式離群點(diǎn)檢測(cè)算法DLC. 同樣地,針對(duì)同一離群點(diǎn)定義,文獻(xiàn)[12]也提出了相應(yīng)的分布式離群點(diǎn)計(jì)算方法,在處理具有偏態(tài)分布的數(shù)據(jù)集時(shí)非常有效. 文獻(xiàn)[13]首先提出了BDSP數(shù)據(jù)劃分算法,可以有效均衡各計(jì)算節(jié)點(diǎn)的工作負(fù)載,同時(shí)實(shí)現(xiàn)良好的過(guò)濾效果,然后利用BDSP方法提出基于距離的分布式離群點(diǎn)檢測(cè)算法BOD,有效減少網(wǎng)絡(luò)開(kāi)銷,縮短了離群點(diǎn)的計(jì)算時(shí)間. 此外,文獻(xiàn)[14]還給出了利用GPU并行地計(jì)算離群點(diǎn)的策略.

    雖然已有一些優(yōu)秀的分布式離群點(diǎn)檢測(cè)方法,但這些方法都是針對(duì)同構(gòu)分布式環(huán)境設(shè)計(jì)的,在異構(gòu)分布式環(huán)境中無(wú)法保證高效的離群點(diǎn)檢測(cè)效率.

    2? ?問(wèn)題描述

    本文主要研究在異構(gòu)分布式環(huán)境中,如何并行地計(jì)算出數(shù)據(jù)集內(nèi)所有基于距離的離群點(diǎn). 下面,具體地給出基于距離的離群點(diǎn)的形式化定義,其中,表1列出了本文使用的符號(hào)及其含義.

    一般地,給定一個(gè)具有d維屬性值的數(shù)據(jù)集合P. 對(duì)于P中任一數(shù)據(jù)點(diǎn)p可表示為: p

    p[3],…,p[d]>,那么對(duì)于數(shù)據(jù)集P中任意兩個(gè)數(shù)據(jù)點(diǎn)p1和p2之間的歐式距離的計(jì)算公式為:

    3? ?異構(gòu)分布式中的離群點(diǎn)查詢處理框架

    本文主要針對(duì)異構(gòu)分布式環(huán)境,其整體上包含一臺(tái)主控制節(jié)點(diǎn)和數(shù)目固定的多個(gè)從節(jié)點(diǎn)C = {c1,c2,…,cn }. 由于各節(jié)點(diǎn)間數(shù)據(jù)遷移量較小,本文不考慮網(wǎng)絡(luò)異構(gòu),其異構(gòu)環(huán)境特指每個(gè)參與計(jì)算的從節(jié)點(diǎn)的配置各不相同,使得它們?cè)谟?jì)算能力上存在差異. 另外,主控節(jié)點(diǎn)和每一個(gè)從節(jié)點(diǎn)都通過(guò)網(wǎng)絡(luò)互連,可以進(jìn)行網(wǎng)絡(luò)通信. 每?jī)蓚€(gè)相鄰的從節(jié)點(diǎn)之間也可相互通信. 為了防止主控節(jié)點(diǎn)在計(jì)算過(guò)程中發(fā)生擁塞,在數(shù)據(jù)劃分時(shí)將不給主控節(jié)點(diǎn)分配計(jì)算任務(wù),即在整個(gè)基于距離的離群點(diǎn)計(jì)算過(guò)程中,主控節(jié)點(diǎn)主要負(fù)責(zé)計(jì)算任務(wù)的調(diào)度,大部分的離群點(diǎn)計(jì)算任務(wù)都將由從節(jié)點(diǎn)完成.

    根據(jù)圖1中的查詢處理框架,異構(gòu)分布式環(huán)境中的基于距離的離群點(diǎn)檢測(cè)任務(wù)可以被描述為:對(duì)于給定的數(shù)據(jù)集合P、查詢距離閾值r和查詢數(shù)量閾值k,通過(guò)充分利用異構(gòu)分布式計(jì)算框架中各異構(gòu)處理機(jī)的計(jì)算能力,快速地計(jì)算出給定數(shù)據(jù)集合P中的所有基于距離的離群點(diǎn).

    具體地,整個(gè)過(guò)程大致可分為3個(gè)階段:

    1)數(shù)據(jù)劃分階段. 對(duì)于給定數(shù)據(jù)集P,主控制節(jié)點(diǎn)首先依據(jù)各異構(gòu)處理機(jī)的計(jì)算能力的不同對(duì)數(shù)據(jù)集進(jìn)行劃分,然后將劃分后的子數(shù)據(jù)集發(fā)送至相應(yīng)的處理機(jī).

    2)局部離群點(diǎn)計(jì)算階段. 各個(gè)參與計(jì)算的處理

    機(jī)在接收到對(duì)應(yīng)的數(shù)據(jù)子集合后,在本地進(jìn)行局部計(jì)算,得到局部離群點(diǎn),最后將它們發(fā)送到主控制節(jié)點(diǎn).

    3)全局離群點(diǎn)計(jì)算階段. 主控制節(jié)點(diǎn)根據(jù)接收

    到的局部離群點(diǎn)的位置信息判斷其需要通信的從節(jié)點(diǎn),然后將它們發(fā)送到相應(yīng)處理機(jī)再次進(jìn)行距離計(jì)算,得出最終的全局離群點(diǎn).

    4? ?基于網(wǎng)格的動(dòng)態(tài)數(shù)據(jù)劃分方法

    在離群點(diǎn)檢測(cè)之前,對(duì)數(shù)據(jù)集進(jìn)行有效的劃分,可以顯著提高離群點(diǎn)檢測(cè)效率. 本文提出的基于網(wǎng)格的動(dòng)態(tài)數(shù)據(jù)劃分方法GDDP保證了計(jì)算資源的充分利用,具有較高的負(fù)載均衡性.

    4.1? ?計(jì)算能力評(píng)估

    在分布式計(jì)算系統(tǒng)中為了能夠?qū)崿F(xiàn)整個(gè)系統(tǒng)的高可用性,一般需要實(shí)現(xiàn)各個(gè)參與計(jì)算的處理機(jī)之間負(fù)載均衡. 在異構(gòu)分布式環(huán)境中,各處理機(jī)間的計(jì)算能力不同,為了能對(duì)計(jì)算任務(wù)進(jìn)行合理的分配,需要對(duì)每個(gè)處理機(jī)的計(jì)算能力進(jìn)行評(píng)估.

    首先,查詢處理框架中的主控制節(jié)點(diǎn)會(huì)將相同的一份測(cè)試數(shù)據(jù)集發(fā)送給每個(gè)參與計(jì)算的從節(jié)點(diǎn),進(jìn)行相同的任務(wù)計(jì)算,然后記錄每個(gè)處理機(jī)完成任務(wù)的時(shí)間. 其中,處理機(jī)完成任務(wù)的時(shí)間越短,說(shuō)明其計(jì)算能力越強(qiáng);反之,其計(jì)算能力越弱.

    為了便于后續(xù)基于網(wǎng)格的數(shù)據(jù)集的劃分,本文給出一種有效的評(píng)分機(jī)制. 首先,將工作節(jié)點(diǎn)的計(jì)算能力劃分為m個(gè)等級(jí),即β1,β2,…,βm,對(duì)應(yīng)得分分別為1,2,3,…,m,相應(yīng)的工作節(jié)點(diǎn)的計(jì)算能力依次增強(qiáng);其次,求出每個(gè)從節(jié)點(diǎn)的計(jì)算能力與當(dāng)前最大計(jì)算能力的比值,所得結(jié)果在(0,1]內(nèi),其中,將(0,1]劃分為m等份,表示(0,1/m],(1/m,2/m],…,(m-1/m,1],所得比值在各區(qū)間內(nèi)的處理機(jī)的等級(jí)分別為β1,β2,…,βm;最后,根據(jù)每臺(tái)處理機(jī)的計(jì)算能力等級(jí)得出相應(yīng)的評(píng)分. 例如,在一個(gè)異構(gòu)分布式系統(tǒng)中有c1~c5 5臺(tái)從節(jié)點(diǎn),為簡(jiǎn)化示例,此處等級(jí)數(shù)m=4,由以上方法得出各處理機(jī)的計(jì)算能力評(píng)估表如表2所示.

    4.2? ?數(shù)據(jù)集劃分

    傳統(tǒng)的數(shù)據(jù)劃分方法對(duì)維度過(guò)高的數(shù)據(jù)集進(jìn)行處理時(shí),會(huì)產(chǎn)生巨量的劃分子塊,致使檢測(cè)效率低下,由此本文決定對(duì)給定的多維數(shù)據(jù)集中數(shù)據(jù)分布最均勻的二維空間利用網(wǎng)格進(jìn)行數(shù)據(jù)劃分,經(jīng)數(shù)據(jù)劃分后會(huì)形成多個(gè)二維的數(shù)據(jù)子塊.

    首先確定數(shù)據(jù)集中每一維數(shù)據(jù)需劃分為幾段. 考慮在異構(gòu)分布式環(huán)境中,各從節(jié)點(diǎn)的計(jì)算能力不同,由此具體的劃分段數(shù)為:

    其中,comp_Grade(ci)表示處理機(jī)ci的計(jì)算能力得分,n表示處理機(jī)的數(shù)目. 例如,根據(jù)表2中對(duì)5臺(tái)異構(gòu)處理機(jī)c1 ~ c5計(jì)算能力的評(píng)估結(jié)果,結(jié)合公式(2)可得劃分段數(shù)Segment值為4,因此,數(shù)據(jù)集將被映射到一個(gè)4×4規(guī)模的網(wǎng)格結(jié)構(gòu)內(nèi).

    其次,為了判斷數(shù)據(jù)在哪個(gè)維度上分布最均勻,本文給出一種衡量標(biāo)準(zhǔn). 具體地,數(shù)據(jù)在第d維上分布的均勻程度為:

    single_U(d)的值越小,說(shuō)明數(shù)據(jù)在第d維上分布越均勻. 其中,num(segment(i))表示數(shù)據(jù)在第d維上的第i個(gè)劃分段內(nèi)的實(shí)際分布數(shù)量;μ表示數(shù)據(jù)在第d維上每個(gè)劃分段數(shù)內(nèi)的平均分布數(shù)量,它等于數(shù)據(jù)集的大小與劃分段數(shù)Segment的比值;n取值為劃分段數(shù)Segment的值.

    接下來(lái),數(shù)據(jù)在由d1和d2維所組成的二維空間內(nèi)的分布均勻程度用multi_U(d1,d2)來(lái)描述. 同樣地,multi_U(d1,d2)的值越小,表明數(shù)據(jù)在該二維空間內(nèi)分布越均勻. 具體地,multi_U(d1,d2)的計(jì)算公式表示為:

    式中:num(gi)表示數(shù)據(jù)在當(dāng)前d1和d2維空間內(nèi)所建立的網(wǎng)格索引中第i個(gè)網(wǎng)格內(nèi)的實(shí)際分布數(shù)量;n表示二維網(wǎng)格中網(wǎng)格的數(shù)目,其值等于劃分段數(shù)Segment的平方;μ表示數(shù)據(jù)在每個(gè)網(wǎng)格內(nèi)的平均分布數(shù)據(jù),其值等于數(shù)據(jù)集的總量與網(wǎng)格數(shù)目的比值.

    由以上數(shù)據(jù)分布均勻程度的兩個(gè)衡量過(guò)程,可確定給定數(shù)據(jù)集中數(shù)據(jù)分布最均勻的二維空間,從而完成數(shù)據(jù)集的劃分. 具體地,對(duì)于給定的具有d個(gè)維度的數(shù)據(jù)集的劃分過(guò)程大致為:首先,根據(jù)劃分段數(shù)Segment將數(shù)據(jù)集的每一維度劃分成s個(gè)區(qū)間,然后統(tǒng)計(jì)數(shù)據(jù)在每個(gè)區(qū)間內(nèi)的分布情況,并根據(jù)計(jì)算得出數(shù)據(jù)在每一維上的single_U(d)值,選擇single_U(d)值最小的 [] 個(gè)數(shù)據(jù)維度作為候選目標(biāo);其次,在候選維度里面,根據(jù)劃分段數(shù)Segment,依次選取兩個(gè)維度建立二維網(wǎng)格,并評(píng)估數(shù)據(jù)在二維網(wǎng)格內(nèi)的分布情況;最終,根據(jù)multi_U(d1,d2)值最小的二個(gè)維度上對(duì)應(yīng)的網(wǎng)格對(duì)數(shù)據(jù)集進(jìn)行劃分,可以得到多個(gè)不相交的劃分?jǐn)?shù)據(jù)子塊.

    4.3? ?數(shù)據(jù)塊的分配

    當(dāng)數(shù)據(jù)集被分成多個(gè)不相交的數(shù)據(jù)子塊后,緊接著需將其合理地分配到各異構(gòu)的從節(jié)點(diǎn)上.

    4.3.1? ?分配順序

    根據(jù)基于距離的離群點(diǎn)定義,為了減少分布式計(jì)算過(guò)程中各處理機(jī)之間的通信代價(jià),需要將空間中鄰近的數(shù)據(jù)點(diǎn)盡量分配到同一臺(tái)工作節(jié)點(diǎn)上. 因此,在數(shù)據(jù)塊的分配過(guò)程中首先需要考慮數(shù)據(jù)集劃分后各數(shù)據(jù)塊之間的相鄰關(guān)系,這樣才能盡可能將空間中相鄰的數(shù)據(jù)對(duì)象分配到同一臺(tái)工作節(jié)點(diǎn)上. 由于劃分時(shí)用到的是二維網(wǎng)格,本文則按照網(wǎng)格的行序?qū)⑾噜彽臄?shù)據(jù)塊依次進(jìn)行分配即可保證數(shù)據(jù)塊之間是相鄰的,如圖2中箭頭所指方向即為數(shù)據(jù)塊的分配順序.

    4.3.2? ?分配規(guī)則

    在本文所指的異構(gòu)分布式環(huán)境中,對(duì)于參與計(jì)算的異構(gòu)處理機(jī),按照其計(jì)算能力由大到小順序排列,之后優(yōu)先選擇計(jì)算能力強(qiáng)的處理機(jī)進(jìn)行數(shù)據(jù)塊的分配. 如下算法1給出了具體的數(shù)據(jù)塊分配過(guò)程.

    經(jīng)過(guò)上述分配過(guò)程,可以完成數(shù)據(jù)集中大多數(shù)數(shù)據(jù)的初分配,并且分配后大多數(shù)處理機(jī)都能獲得小于等于其實(shí)際所需的數(shù)據(jù)量.

    例如,給定多維數(shù)據(jù)集P,且|P|=120. 如表2所示,有5臺(tái)異構(gòu)的從節(jié)點(diǎn)參與離群點(diǎn)的計(jì)算,對(duì)應(yīng)的c1~c5處理機(jī)順序?yàn)椋篶2、c4、c1、c3、c5. 圖3所示為數(shù)據(jù)集劃分的結(jié)果,則數(shù)據(jù)塊的分配順序?yàn)閎1~b16 . 首先對(duì)處理機(jī)c2進(jìn)行數(shù)據(jù)塊分配,計(jì)算可得其所需數(shù)據(jù)量為×120 = 40. 優(yōu)先處理數(shù)據(jù)塊b1,由于塊內(nèi)數(shù)據(jù)量5小于c2當(dāng)前所需數(shù)據(jù)量40,則將b2分配給處理機(jī)c2,同時(shí)更新c2當(dāng)前所需數(shù)據(jù)量為35,最終,數(shù)據(jù)塊b1、b2、b3、b4、b5都可被分配給c2,當(dāng)對(duì)數(shù)據(jù)塊b6進(jìn)行分配時(shí),由于處理機(jī)c2目前所需要的數(shù)據(jù)量為1,小于數(shù)據(jù)塊b6的數(shù)據(jù)量,所以停止對(duì)處理機(jī)c2的數(shù)據(jù)塊分配. 同理,可依次完成處理機(jī)c4、c1、c3、c5的數(shù)據(jù)塊分配任務(wù).

    具體的分配結(jié)果如表3所示. 這樣經(jīng)過(guò)數(shù)據(jù)塊的分配后,只有處理機(jī)c5所分配的數(shù)據(jù)量略大于它實(shí)際所需要的數(shù)據(jù)量. 同時(shí),只有數(shù)據(jù)塊b16未被分配,把它暫時(shí)留在主控制處理機(jī)上.

    4.4? ?動(dòng)態(tài)數(shù)據(jù)分配

    動(dòng)態(tài)分配旨在對(duì)存儲(chǔ)于主控制節(jié)點(diǎn)上的剩余的未被分配的數(shù)據(jù)塊進(jìn)行數(shù)據(jù)分配. 為了對(duì)空閑處理機(jī)進(jìn)行準(zhǔn)確的任務(wù)分配,主控制節(jié)點(diǎn)需記錄從開(kāi)始執(zhí)行計(jì)算任務(wù)到有空閑節(jié)點(diǎn)出現(xiàn)所經(jīng)過(guò)的時(shí)間,即當(dāng)前空閑的處理機(jī)ci完成初始的分配任務(wù)的時(shí)間t,以及在處理時(shí)間t內(nèi)每個(gè)處理機(jī)已經(jīng)處理的數(shù)據(jù)量complete_num(ci),由此可計(jì)算出各處理機(jī)在當(dāng)前所劃分的數(shù)據(jù)集中進(jìn)行離群點(diǎn)檢測(cè)任務(wù)時(shí)的實(shí)時(shí)處理速度vi(其中,vi = );同時(shí),用當(dāng)前未被處理的數(shù)據(jù)總量除以各處理機(jī)處理速度之和還可預(yù)估出剩余的所有計(jì)算任務(wù)完成的時(shí)間T;最后,將時(shí)間T和空閑處理機(jī)的實(shí)時(shí)處理速度vi相乘,即可得出當(dāng)前空閑工作節(jié)點(diǎn)所應(yīng)分配的數(shù)據(jù)量. 當(dāng)存儲(chǔ)在主控制節(jié)點(diǎn)上的數(shù)據(jù)都被分配后,動(dòng)態(tài)分配過(guò)程結(jié)束.

    這種動(dòng)態(tài)數(shù)據(jù)分配方法依據(jù)各處理機(jī)的實(shí)際處理速度進(jìn)行計(jì)算任務(wù)的分配,盡可能地避免了空閑處理機(jī)的等待,并充分利用了整個(gè)異構(gòu)分布式環(huán)境中各處理機(jī)的計(jì)算資源,加快了離群點(diǎn)的檢測(cè)速度.

    5? ?GODA算法描述

    本節(jié)主要描述了GODA算法的具體細(xì)節(jié). 整個(gè)過(guò)程分為2個(gè)階段:1)本地離群點(diǎn)計(jì)算,即利用每個(gè)處理機(jī)的計(jì)算能力計(jì)算出本地離群點(diǎn);2)全局離群點(diǎn)計(jì)算,即通過(guò)全局通信確定最終離群點(diǎn)結(jié)果集.

    5.1? ?本地離群點(diǎn)計(jì)算

    本小節(jié)主要闡述GODA算法中一種有效的面向多維大規(guī)模數(shù)據(jù)集的本地離群點(diǎn)計(jì)算方法.

    5.1.1? ?索引構(gòu)建

    由于網(wǎng)格索引、R樹(shù)索引等一般的空間索引無(wú)法應(yīng)對(duì)數(shù)據(jù)集維度的增長(zhǎng),并且根據(jù)離群點(diǎn)的形象化描述,在給定的數(shù)據(jù)集中,大部分?jǐn)?shù)據(jù)點(diǎn)都是非離群點(diǎn),而離群點(diǎn)只占據(jù)數(shù)據(jù)集的很少一部分,因此,本文索引構(gòu)建采用如下方法.

    在給定數(shù)據(jù)集中隨機(jī)選取一個(gè)數(shù)據(jù)點(diǎn)p,其中,點(diǎn)p在很大程度上為非離群點(diǎn),以點(diǎn)p為中心,計(jì)算數(shù)據(jù)集中其他數(shù)據(jù)點(diǎn)到點(diǎn)p的距離,依據(jù)距點(diǎn)p由近及遠(yuǎn)的順序?qū)?shù)據(jù)進(jìn)行管理,如果數(shù)據(jù)點(diǎn)q距離中心點(diǎn)p很遠(yuǎn),則說(shuō)明點(diǎn)q很可能是離群點(diǎn).

    5.1.2? ?本地離群點(diǎn)計(jì)算方法描述

    首先,對(duì)于給定數(shù)據(jù)集P中的數(shù)據(jù)點(diǎn)p,自定義數(shù)據(jù)結(jié)構(gòu)node如下:

    1)給定數(shù)據(jù)集P中的一個(gè)數(shù)據(jù)點(diǎn)p;

    2)數(shù)據(jù)點(diǎn)p在給定數(shù)據(jù)集P中的唯一標(biāo)識(shí),用

    p.id表示;

    3)數(shù)據(jù)點(diǎn)p在給定數(shù)據(jù)集P中的鄰居情況,用

    p.nn表示;

    4)數(shù)據(jù)點(diǎn)p與其第k個(gè)近鄰點(diǎn)的距離,用p.r表示.

    其中,p.nn是一個(gè)大小為k(用戶給定的查詢數(shù)量閾值)的列表,用于存儲(chǔ)數(shù)據(jù)集P中與數(shù)據(jù)點(diǎn)p的距離不大于用戶給定的查詢距離閾值r的數(shù)據(jù)點(diǎn)q的標(biāo)識(shí)以及點(diǎn)q與點(diǎn)p間的距離dist(p,q);對(duì)于p.r,當(dāng)p.nn的大小為k時(shí),p.r等于存儲(chǔ)在p.nn中最大的距離值;當(dāng)p.nn的大小小于k時(shí),p.r的值被設(shè)為+∞.

    在離群點(diǎn)計(jì)算過(guò)程中,根據(jù)點(diǎn)p的node結(jié)構(gòu)中p.r的值與查詢距離閾值r的大小關(guān)系即可判斷當(dāng)前數(shù)據(jù)點(diǎn)p是否為離群點(diǎn). 例如,若p.r的值小于等于查詢距離閾值r,那么數(shù)據(jù)點(diǎn)p是非離群點(diǎn);若p.nn列表未存滿,且p.r取值為+∞,則點(diǎn)p是離群點(diǎn).

    根據(jù)上述自定義的node結(jié)構(gòu),給出非離群點(diǎn)過(guò)濾定理.

    定理1? ?對(duì)于當(dāng)前掃描到的數(shù)據(jù)集P中的數(shù)據(jù)點(diǎn)q,如果它和內(nèi)存中存儲(chǔ)的數(shù)據(jù)點(diǎn)p之間的距離滿足dist(p,q)≤r-p.r,則數(shù)據(jù)點(diǎn)q為非離群點(diǎn).

    證? ?根據(jù)dist(p,q)≤r-p.r可得p.r≤r,則說(shuō)明內(nèi)存中的數(shù)據(jù)點(diǎn)p為非離群點(diǎn),且在p.r范圍內(nèi)數(shù)據(jù)點(diǎn)p的鄰居個(gè)數(shù)至少為k個(gè). 又因?yàn)閿?shù)據(jù)點(diǎn)p和數(shù)據(jù)點(diǎn)q之間的距離滿足dist(p,q)+ p.r≤ r,則說(shuō)明數(shù)據(jù)點(diǎn)p及其鄰居都是數(shù)據(jù)點(diǎn)q的鄰居,也即數(shù)據(jù)點(diǎn)q的鄰居個(gè)數(shù)大于給定的數(shù)量閾值k,因此根據(jù)基于距離的離群點(diǎn)定義可得數(shù)據(jù)點(diǎn)q為非離群點(diǎn).?? ? ? ? 證畢.

    根據(jù)索引中數(shù)據(jù)點(diǎn)的順序及定理1中的過(guò)濾規(guī)則,每個(gè)處理機(jī)通過(guò)掃描兩次數(shù)據(jù)集可實(shí)現(xiàn)本地離群點(diǎn)的計(jì)算過(guò)程. 算法2給出了本地離群點(diǎn)檢測(cè)的具體過(guò)程.

    算法2? ?本地離群點(diǎn)檢測(cè)算法.

    輸入:查詢距離閾值r,查詢數(shù)量閾值k,本地存儲(chǔ)的數(shù)據(jù)集P;

    輸出:本地離群點(diǎn)集合

    1. 初始化隊(duì)列H為空;

    2. FOR 數(shù)據(jù)集P中的每個(gè)數(shù)據(jù)點(diǎn)p? DO

    3.? ? 初始化p的信息,p.nn為空,p.r為+∞;

    4.? ? IF H為空 或者 IsNoInlier(p)? THEN

    5.? ? ? ?將數(shù)據(jù)點(diǎn)p加入到隊(duì)列H中;

    6.? ? ENDIF

    7. ENDFOR

    8. FOR H中的每一個(gè)數(shù)據(jù)點(diǎn)q DO

    9.? ? 將滿足q.r不大于查詢半徑r的數(shù)據(jù)點(diǎn)從H中刪除;

    10. ENDFOR

    11. FOR 數(shù)據(jù)集P中的每個(gè)數(shù)據(jù)點(diǎn)p? DO

    12.? ? DeleteInlier(p);

    13. ENDFOR

    14. 隊(duì)列H中的數(shù)據(jù)點(diǎn)全部都是離群點(diǎn),輸出;

    第一次掃描數(shù)據(jù)集時(shí),需要將當(dāng)前掃描到的不能確定是非離群點(diǎn)的數(shù)據(jù)點(diǎn)的node結(jié)構(gòu)存儲(chǔ)到內(nèi)存中,以致于第一次掃描結(jié)束后,內(nèi)存中至少存儲(chǔ)著所有的本地離群點(diǎn)的信息. 由此,判定數(shù)據(jù)點(diǎn)p不是非離群點(diǎn)的IsNoInlier(p)函數(shù)的算法如下:

    IsNoInlier()

    輸入:查詢距離閾值r,查詢數(shù)量閾值k,查詢數(shù)據(jù)點(diǎn)p,隊(duì)列H;

    輸出:數(shù)據(jù)點(diǎn)p的查詢結(jié)果

    1. FOR H中的每一個(gè)數(shù)據(jù)點(diǎn)q? DO

    2.? ? IF dist(p,q)≤r-p.r? THEN

    3.? ? ? 數(shù)據(jù)點(diǎn)p為非離群點(diǎn),返回FALSE;

    4.? ? ? BREAK;

    5.? ? ENDIF

    6.? ? IF dist(p,q)≤r THEN

    7.? ? ? 利用臨時(shí)變量oldr記錄數(shù)據(jù)點(diǎn)q的q.r值,并將p更新到q的

    q.nn列表中;

    8.? ? ? IF oldr>r 并且 q.r≤r THEN

    9.? ? ? ? 以0.5的概率將數(shù)據(jù)點(diǎn)q從H中刪除;

    10.? ? ? ENDIF

    11.? ? ? 將q更新到p的p.nn列表中;

    12.? ? ? IF p.r≤r? THEN

    13.? ? ? ? 數(shù)據(jù)點(diǎn)p為非離群點(diǎn),返回FALSE;

    14.? ? ? ENDIF

    15.? ? ENDIF

    16. ENDFOR

    17. IF p.r>r THEN

    18.? ? 返回TRUE;

    19. ENDIF

    第二次掃描數(shù)據(jù)集時(shí),即從所有的候選本地離群點(diǎn)集合中找出真正的本地離群點(diǎn),其中,刪除內(nèi)存中非離群點(diǎn)的DeleteInlier(p)函數(shù)的算法如下:

    DeleteInlier()

    輸入:查詢距離閾值r,查詢數(shù)量閾值k,數(shù)據(jù)點(diǎn)p,隊(duì)列H;

    輸出:隊(duì)列H

    1. FOR H中的每一個(gè)數(shù)據(jù)點(diǎn)q? DO

    2.? ? IF dist(p,q)≤r THEN

    3.? ? ? 將p更新到q的q.nn列表中;

    4.? ? ? IF q.r≤r THEN

    5.? ? ? ? 將數(shù)據(jù)點(diǎn)q從隊(duì)列H中刪除;

    6.? ? ? ENDIF

    7.? ? ENDIF

    8. ENDFOR

    總體上,本小節(jié)基于距離的本地離群點(diǎn)計(jì)算方法可以通過(guò)掃描較少次數(shù)的數(shù)據(jù)集完成離群點(diǎn)的檢測(cè)過(guò)程,在一定程度上減少了IO代價(jià),同時(shí),還可以很好地應(yīng)對(duì)數(shù)據(jù)集中數(shù)據(jù)維數(shù)的增長(zhǎng).

    復(fù)雜度分析:記本地?cái)?shù)據(jù)集的大小為N. 對(duì)于本地離群點(diǎn)的計(jì)算,構(gòu)建索引所需時(shí)間復(fù)雜度為O(N·lgN),兩次掃描數(shù)據(jù)集所需的時(shí)間復(fù)雜度為O(|H|·N). 因此,算法2的時(shí)間復(fù)雜度為O(N·lgN+|H|·N).

    5.2? ?全局離群點(diǎn)計(jì)算

    在完成5.1節(jié)的計(jì)算之后,本地離群點(diǎn)被發(fā)送到主控制節(jié)點(diǎn)形成離群點(diǎn)候選集,此后由主控制節(jié)點(diǎn)判斷其所需進(jìn)行網(wǎng)絡(luò)通信的處理機(jī),進(jìn)而計(jì)算出真正的離群點(diǎn).

    對(duì)于給定的數(shù)據(jù)集P,利用GDDP劃分方法對(duì)數(shù)據(jù)分布最均勻的二維空間(假設(shè)是d1和d2維所

    組成的空間)劃分后所得的數(shù)據(jù)塊b可表示為b =

    [b.min,b.max]. 其中,b.min、b.max分別表示數(shù)據(jù)塊b的下界和上界,則對(duì)于數(shù)據(jù)塊b中的任意數(shù)據(jù)p,

    都有b.min[d1]≤p[d1]≤b.max[d1],b.min[d2]≤p[d2]≤

    b.max[d2]. 進(jìn)一步,有如下引理:

    引理1[15]? ?對(duì)于數(shù)據(jù)塊b中的任意本地離群點(diǎn)p,如果?i∈{d1,d2},p[d1]-b.min[d1]>r且b.max[d2]-

    p[d2]≥r,則數(shù)據(jù)點(diǎn)p是全局離群點(diǎn).

    對(duì)于離群點(diǎn)候選集中滿足引理1的數(shù)據(jù)點(diǎn)p,可得出其一定是全局離群點(diǎn),而對(duì)于候選集中剩余的非確定的本地離群點(diǎn),需和其所在數(shù)據(jù)塊的相鄰數(shù)據(jù)塊進(jìn)行計(jì)算,以確定是否為真正的離群點(diǎn).

    定義3? ?點(diǎn)與數(shù)據(jù)塊的最小距離.給定數(shù)據(jù)點(diǎn)p和數(shù)據(jù)塊b,則點(diǎn)p與塊b的最小距離:

    min_dist(p,b) =? ? ? (5)

    其中:

    z[i] = b.min[i]-p[i],b.min[i]>p[i]

    p[i]-b.max[i],p[i]>b.max[i]

    0,其他? ? ? (6)

    顯然,對(duì)于塊b的近鄰塊集合N(b)中的塊bi,若min_dist(p,bi)≤r,說(shuō)明塊bi中可能存在點(diǎn)p的近鄰,則將點(diǎn)p發(fā)送到Sb集合中,最終將Sb中的數(shù)據(jù)點(diǎn)發(fā)送到塊bi所在的處理機(jī)上. 算法3展示了具體的全局離群點(diǎn)計(jì)算過(guò)程.

    算法3? ?全局離群點(diǎn)檢測(cè)算法.

    輸入:數(shù)據(jù)塊b中的本地離群點(diǎn)集合Lb,數(shù)據(jù)塊b的近鄰塊集合

    N(b),距離閾值r,數(shù)量閾值k;

    輸出:本地離群點(diǎn)集合Lb中的全局離群點(diǎn)

    1. FOR N(b)中的每一個(gè)數(shù)據(jù)塊bi DO

    2.? ? 初始化集合Sb;

    3.? ? FOR 本地離群點(diǎn)集合Lb中的每一個(gè)數(shù)據(jù)點(diǎn)p DO

    4.? ? ? ?IF min_dist(p,bi)≤r THEN

    5.? ? ? ? ?把數(shù)據(jù)點(diǎn)p加入到集合Sb中;

    6.? ? ? ?ENDIF

    7.? ? ENDFOR

    8. 將集合Sb發(fā)送到數(shù)據(jù)塊bi所在的節(jié)點(diǎn)上;

    9. ENDFOR

    10. FOR Lb中的每個(gè)數(shù)據(jù)點(diǎn)p DO

    11.? ? 根據(jù)各數(shù)據(jù)塊返回的結(jié)果,計(jì)算數(shù)據(jù)點(diǎn)p的近鄰數(shù)目 nn(p);

    12.? ? IF nn(p) < k THEN

    13.? ? ? 將數(shù)據(jù)點(diǎn)p加入到全局離群點(diǎn)集合中;

    14.? ? ENDIF

    15. ENDFOR

    復(fù)雜度分析:對(duì)于全局離群點(diǎn)的計(jì)算,記本地候選離群點(diǎn)的個(gè)數(shù)為η,根據(jù)公式(2)~(4)可將總數(shù)據(jù)集P劃分為b個(gè)數(shù)據(jù)塊,將本地候選離群點(diǎn)與相鄰數(shù)據(jù)塊中的數(shù)據(jù)點(diǎn)依次計(jì)算,因此,算法3的時(shí)間復(fù)雜度為O(η·(8/b)·|P|). 不難發(fā)現(xiàn),在分布式環(huán)境中,一個(gè)數(shù)據(jù)塊的相鄰塊通常分布在不同的處理機(jī)上,因此可以并行執(zhí)行離群點(diǎn)的計(jì)算,使得處理效率大大提高.

    6? ?實(shí)驗(yàn)分析

    6.1? ?實(shí)驗(yàn)環(huán)境

    本文實(shí)驗(yàn)所搭建的異構(gòu)分布式計(jì)算系統(tǒng)共包含5臺(tái)處理機(jī),其中1臺(tái)主控節(jié)點(diǎn),4臺(tái)從節(jié)點(diǎn),它們的具體配置如下.

    主控制節(jié)點(diǎn):Intel Core i3-7020U CPU,4GB內(nèi)存,500GB硬盤,操作系統(tǒng)為Windows 10;從節(jié)點(diǎn)1:Intel Core i5-8265U CPU,8GB內(nèi)存,256GB硬盤,操作系統(tǒng)為Windows 10;從節(jié)點(diǎn)2:Intel Pentium(R) 2020M 2.4 GHz CPU,4GB內(nèi)存,500GB硬盤,操作系統(tǒng)為Windows 10;從節(jié)點(diǎn)3:Intel Core i3 2100 3.1GHz CPU,8GB內(nèi)存,500GB硬盤,操作系統(tǒng)為Windows 10;從節(jié)點(diǎn)4:Intel Core i3-6006U CPU,4GB內(nèi)存,125GB硬盤,操作系統(tǒng)為Windows 10.

    本文分別用真實(shí)數(shù)據(jù)集和合成數(shù)據(jù)集對(duì)所提出的GODA算法與PENL算法、BOD算法進(jìn)行對(duì)比實(shí)驗(yàn).

    6.2? ?真實(shí)數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果分析

    實(shí)驗(yàn)所用的真實(shí)數(shù)據(jù)集為森林覆蓋數(shù)據(jù)集Covertype,包含581 012條數(shù)據(jù),每條數(shù)據(jù)有10個(gè)維度,每維屬性值的范圍為[0,100]. 表4和表5展示了3種算法在該數(shù)據(jù)集中的處理時(shí)間和通信量.

    如表4和表5所示,本文提出的GODA算法采用了基于網(wǎng)格的動(dòng)態(tài)數(shù)據(jù)劃分方法GDDP,可以根據(jù)各從節(jié)點(diǎn)的計(jì)算能力進(jìn)行數(shù)據(jù)劃分,實(shí)現(xiàn)異構(gòu)分布式環(huán)境中各處理機(jī)的負(fù)載均衡,加快檢測(cè)效率;同時(shí),考慮點(diǎn)的空間位置,將相鄰的點(diǎn)盡可能劃分至同一節(jié)點(diǎn),大大節(jié)省了網(wǎng)絡(luò)開(kāi)銷. 相比之下,BOD算法和PENL算法主要針對(duì)同構(gòu)分布式環(huán)境,導(dǎo)致各節(jié)點(diǎn)數(shù)據(jù)分配不均衡,降低處理速度;PENL算法采用基于數(shù)據(jù)量的劃分方法,對(duì)于處理機(jī)的數(shù)據(jù)分配,都需與其他處理機(jī)上的數(shù)據(jù)集比較來(lái)確定最終結(jié)果,導(dǎo)致數(shù)據(jù)集重復(fù)傳輸,增加了網(wǎng)絡(luò)開(kāi)銷.

    另一方面,通過(guò)對(duì)比表4和表5中1、2行的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),當(dāng)k不變,隨著距離閾值r的增大,數(shù)據(jù)集中離群點(diǎn)數(shù)目逐漸減少,GODA算法和BOD算法的處理時(shí)間和通信量也逐步減少. PENL算法的處理時(shí)間與這兩種算法趨勢(shì)相同,而通信量維持不變. 這主要是因?yàn)镻ENL算法需要將所有處理機(jī)上的數(shù)據(jù)集進(jìn)行兩兩之間的比較,網(wǎng)絡(luò)傳輸量與處理機(jī)的數(shù)目和數(shù)據(jù)集的規(guī)模有關(guān),與查詢無(wú)關(guān). 通過(guò)對(duì)比3、4行實(shí)驗(yàn)結(jié)果可以看出,隨著查詢閾值k的增大,離群點(diǎn)的數(shù)目變多,導(dǎo)致GODA算法的處理時(shí)間和通信量都隨之增加. 但是,不管查詢閾值k和距離閾值r如何變化,與BOD算法和PENL算法相比,本文提出的GODA算法在異構(gòu)分布式環(huán)境中能更有效地進(jìn)行離群點(diǎn)的檢測(cè).

    6.3? ?人工合成數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果分析

    由于真實(shí)數(shù)據(jù)集規(guī)模有限,數(shù)據(jù)維度也無(wú)法變化,所以本節(jié)使用人工合成的數(shù)據(jù)集對(duì)3種算法進(jìn)行有效性驗(yàn)證. 首先,所使用的合成數(shù)據(jù)集為聚簇分布數(shù)據(jù),各維取值范圍為0~10 000. 具體地,對(duì)于含有n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集,隨機(jī)生成n/10 000個(gè)聚簇點(diǎn),每個(gè)聚簇內(nèi)平均包含1 000個(gè)數(shù)據(jù)對(duì)象,并以聚簇點(diǎn)為中心呈高斯分布. 表6給出了實(shí)驗(yàn)相關(guān)變量的默認(rèn)值和變化范圍.

    表6? ?人工合成數(shù)據(jù)集中的參數(shù)設(shè)置

    Tab.6? ?Parameter settings in a synthetic dataset

    [參數(shù) 默認(rèn)值 變化范圍 數(shù)據(jù)量 108 0.2 × 108 ~ 5 × 108 數(shù)據(jù)維度 10 8 ~ 16 查詢數(shù)量閾值k 50 40 ~ 60 查詢距離閾值r 16 14 ~ 18 ]

    圖4描述了數(shù)據(jù)量對(duì)3種檢測(cè)算法的影響. 隨著數(shù)據(jù)量的增加,上述算法的處理時(shí)間都會(huì)變長(zhǎng),對(duì)應(yīng)的通信量也隨之變多. 但通過(guò)對(duì)比可以發(fā)現(xiàn),GODA算法和BOD算法的處理時(shí)間變化的速度較慢,而PENL算法的處理時(shí)間的增長(zhǎng)趨勢(shì)較快,也會(huì)增大網(wǎng)絡(luò)開(kāi)銷. 由此說(shuō)明GODA算法的查詢效率要高于BOD算法和PENL算法的查詢效率.

    圖5顯示了數(shù)據(jù)維度對(duì)3種算法檢測(cè)效果的影響. 在圖5(a)中,隨著數(shù)據(jù)維度的升高,PENL算法和GODA算法的處理時(shí)間呈現(xiàn)出線性變化,而B(niǎo)OD算法處理時(shí)間的增長(zhǎng)趨勢(shì)明顯較快. 通過(guò)圖5(b)可以發(fā)現(xiàn),3種算法的通信量都不受維度的影響.

    圖6表述了查詢閾值k的變化對(duì)3種算法的影響. 在圖6(a)中,查詢閾值k增大時(shí),3種算法的處理時(shí)間都變長(zhǎng),這是因?yàn)閗增大,數(shù)據(jù)集中離群點(diǎn)數(shù)目增多,增加了算法的處理時(shí)間. 但與PENL算法相比,由于GODA算法和BOD算法在本地計(jì)算時(shí)良好的過(guò)濾措施,使其處理時(shí)間小于PENL算法. 通過(guò)圖6(b)可得,隨著查詢閾值k增大,PENL算法的通信量不變,而對(duì)于GODA算法和BOD算法,當(dāng)k增大,使得數(shù)據(jù)集中離群點(diǎn)的數(shù)目增多,從而使其通信量稍微增加.

    圖7描述了距離閾值r的變化對(duì)3種算法性能的影響. 在圖7(a)中,當(dāng)距離閾值r不斷變大,數(shù)據(jù)集中離群點(diǎn)數(shù)目變少,使得所有算法的處理時(shí)間都變短. 由圖7(b)可以發(fā)現(xiàn),隨著距離閾值r增大,PENL算法的通信量不變,而對(duì)于GODA算法和BOD算法,由于r變大,數(shù)據(jù)集中離群點(diǎn)數(shù)目減少,使其通信量也稍微變少.

    通過(guò)上述對(duì)比實(shí)驗(yàn),驗(yàn)證了本文提出的GODA算法的優(yōu)秀性能. 與PENL算法和BOD算法相比,GODA算法可以很好地解決異構(gòu)分布式環(huán)境中基于距離的離群點(diǎn)檢測(cè)問(wèn)題.

    7? ?結(jié)? ?論

    本文針對(duì)常見(jiàn)的異構(gòu)分布式環(huán)境中的離群點(diǎn)檢測(cè)問(wèn)題,首先,提出有效的數(shù)據(jù)劃分方法GDDP,保證了各處理機(jī)計(jì)算能力的充分利用,并通過(guò)考慮數(shù)據(jù)點(diǎn)的空間位置信息減少網(wǎng)絡(luò)通信. 其次,基于GDDP方法,提出了GODA算法,在每個(gè)處理機(jī)本地,通過(guò)構(gòu)建索引進(jìn)行數(shù)據(jù)管理,使用過(guò)濾規(guī)則進(jìn)行批量過(guò)濾,加快本地離群點(diǎn)計(jì)算. 再次,通過(guò)異構(gòu)分布式計(jì)算框架中各節(jié)點(diǎn)間的網(wǎng)絡(luò)通信,計(jì)算出全局離群點(diǎn). 最后,通過(guò)實(shí)驗(yàn)驗(yàn)證了GDDP和GODA算法的有效性.

    參考文獻(xiàn)

    [1]? ? KNORR E M,NG R T. Algorithms for mining distance-based outliers in large datasets[C]//Proceedings of the 24th International Conference on Very Large Data Bases. New York,USA,1998:392—403.

    [2]? ? 鄭明玲,蔣句平,袁遠(yuǎn),等.? 一種面向大規(guī)模計(jì)算機(jī)的監(jiān)控管理系統(tǒng)[J]. 湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,42(4):107—113.

    ZHENG M L,JIANG J P,YUAN Y,et al. A monitoring and management system for the large-scale computer[J].Journal of Hunan University( Natural Sciences),2015,42(4):107—113. (In Chinese)

    [3]? ? ATKINSON A C,HAWKINS D M. Identification of outliers[J]. Biometrics,1981,37(4):860.

    [4]? ? FITRIANTO A,RANA S,MIDI H,et al. Effects of a single outlier on the coefficient of determination:An empirical study[J]. Empowering the Applications of Statistical and Mathematical Sciences,2015,1643:409—413.

    [5]? ? WANG X T,SHEN D R,BAI M,et al. Cluster-based outlier detection using unsupervised extreme learning machines[C]//Proceedings of ELM-2015 Volume 1. Berlin:Springer International Publishing,2016:135—146.

    [6]? ? BREUNIG M M,KRIEGEL H P,NG R T,et al. LOF:Identifying Density-Based Local Outliers[C]// Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. Dallas,Texas,USA:ACM,2000:93—104.

    [7]? ? BAY S D,SCHWABACHER M. Mining distance-based outliers in near linear time with randomization and a simple pruning rule[C]//Proceedings of the ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Texas,USA:ACM,2003:29—38.

    [8]? ? YANG P,HUANG B. An efficient outlier mining algorithm for large dataset[C]// International Conference on Information Management. IEEE Computer Society,2008:41—46.

    [9]? ? BUZZI-FERRARIS G ,MANENTI F . Outlier detection in large data sets[J]. Computers & Chemical Engineering,2011,35(2):388—390.

    [10]? HUNG E,CHEUNG D W. Parallel mining of outliers in large database[J]. Distributed and Parallel Databases,2002,12(1):5—26.

    [11]? BAI M,WANG X T,XIN J C,et al. An efficient algorithm for distributed density-based outlier detection on big data[J]. Neurocomputing,2016,181:19—28.

    [12]? YAN Y Z,CAO L,KULHMAN C,et al. Distributed local outlier detection in big data[C]//Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Halifax,Canada,2017:1225—1234.

    [13]? 王習(xí)特,申德榮,白梅,等. BOD:一種高效的分布式離群點(diǎn)檢測(cè)算法[J]. 計(jì)算機(jī)學(xué)報(bào),2016,39(1):36—51.

    WANG X T,SHEN D R,BAI M,et al. BOD:An efficient algorithm for distributed outlier detection[J]. Chinese Journal of Computers,2016,39(1):36—51. (In Chinese)

    [14]? ANGIULLI F,BASTA S,LODI S,et al. GPU strategies for distance-based outlier detection[J]. IEEE Transactions on Parallel & Distributed Systems,2016,27(11):3256—3268.

    [15]? 王珊,王會(huì)舉,覃雄派,等. 架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741—1752.

    WANG S,WANG H J,QIN X P,et al. Architecting Big data:challenges,studies and forecasts[J]. Chinese Journal of Computers,2011,34(10):1741—1752. (In Chinese)

    猜你喜歡
    網(wǎng)格
    搭建“3+N”全域網(wǎng)格 提升基層治理水平
    網(wǎng)格背景題解答策略
    追逐
    增加網(wǎng)格 以退求進(jìn)
    忻城縣:成立首個(gè)勞動(dòng)保障監(jiān)察“兩網(wǎng)化”管理辦公室
    男女之事视频高清在线观看| 日韩强制内射视频| 亚洲av.av天堂| 国产一区二区在线观看日韩| 色噜噜av男人的天堂激情| 午夜日韩欧美国产| 成人综合一区亚洲| 国产91av在线免费观看| 春色校园在线视频观看| 在线免费十八禁| 简卡轻食公司| 性欧美人与动物交配| 欧美国产日韩亚洲一区| 99热这里只有是精品50| 全区人妻精品视频| 99热只有精品国产| 亚洲va在线va天堂va国产| 欧美色欧美亚洲另类二区| 免费观看精品视频网站| 1000部很黄的大片| 香蕉av资源在线| 男女视频在线观看网站免费| 亚洲久久久久久中文字幕| 亚洲最大成人中文| 色在线成人网| 色噜噜av男人的天堂激情| 精品一区二区三区人妻视频| 我的老师免费观看完整版| 午夜福利18| 女生性感内裤真人,穿戴方法视频| 欧美性猛交╳xxx乱大交人| 岛国在线免费视频观看| 最近在线观看免费完整版| 午夜精品国产一区二区电影 | av.在线天堂| 三级国产精品欧美在线观看| 91av网一区二区| 五月玫瑰六月丁香| 日韩av在线大香蕉| 最后的刺客免费高清国语| 性欧美人与动物交配| 精品一区二区三区av网在线观看| 欧美激情久久久久久爽电影| 欧美一区二区精品小视频在线| 男人舔女人下体高潮全视频| 九色成人免费人妻av| 日本爱情动作片www.在线观看 | 亚洲精品一卡2卡三卡4卡5卡| 2021天堂中文幕一二区在线观| 麻豆久久精品国产亚洲av| 寂寞人妻少妇视频99o| 色噜噜av男人的天堂激情| 免费不卡的大黄色大毛片视频在线观看 | 伊人久久精品亚洲午夜| 亚洲中文字幕日韩| 大型黄色视频在线免费观看| 日本 av在线| 久久久精品94久久精品| 国产精品爽爽va在线观看网站| 欧美成人a在线观看| 天美传媒精品一区二区| 日韩欧美免费精品| 欧美激情在线99| 99热全是精品| 韩国av在线不卡| 亚洲精品乱码久久久v下载方式| 亚洲精华国产精华液的使用体验 | 少妇人妻精品综合一区二区 | 欧美xxxx黑人xx丫x性爽| 99久国产av精品国产电影| 久久99热6这里只有精品| 国产激情偷乱视频一区二区| 国产高清不卡午夜福利| 精品久久久久久久久亚洲| a级毛片a级免费在线| 欧美激情在线99| 一级黄片播放器| 亚洲在线观看片| 亚洲精华国产精华液的使用体验 | 亚洲国产高清在线一区二区三| 精品人妻视频免费看| 国产伦精品一区二区三区视频9| 97在线视频观看| 亚洲高清免费不卡视频| 亚洲欧美精品综合久久99| 麻豆一二三区av精品| 少妇高潮的动态图| 悠悠久久av| 日日啪夜夜撸| 久久这里只有精品中国| 最近视频中文字幕2019在线8| 99riav亚洲国产免费| 99久国产av精品| 国产亚洲精品av在线| 人妻夜夜爽99麻豆av| 国产精品av视频在线免费观看| 日本色播在线视频| 亚洲国产精品sss在线观看| 床上黄色一级片| 美女cb高潮喷水在线观看| 国产精品嫩草影院av在线观看| 可以在线观看的亚洲视频| 女的被弄到高潮叫床怎么办| 日本三级黄在线观看| 国产乱人偷精品视频| 国产乱人偷精品视频| 91狼人影院| 精品福利观看| 亚洲成人久久性| 91午夜精品亚洲一区二区三区| 日韩中字成人| 色综合亚洲欧美另类图片| 国产亚洲91精品色在线| 亚洲高清免费不卡视频| 久久久国产成人精品二区| 青春草视频在线免费观看| 精品福利观看| 亚洲美女黄片视频| 国产男人的电影天堂91| 麻豆精品久久久久久蜜桃| 两性午夜刺激爽爽歪歪视频在线观看| 久久精品国产亚洲av香蕉五月| 99riav亚洲国产免费| 成人综合一区亚洲| 欧美日韩在线观看h| 欧美在线一区亚洲| 国产 一区 欧美 日韩| 91久久精品电影网| 日本爱情动作片www.在线观看 | 欧美bdsm另类| 国产亚洲av嫩草精品影院| 欧美最黄视频在线播放免费| 欧美日本亚洲视频在线播放| 男女之事视频高清在线观看| 亚洲人成网站高清观看| 亚洲真实伦在线观看| 69人妻影院| 在线播放国产精品三级| 一区二区三区高清视频在线| 精品午夜福利在线看| 国产美女午夜福利| 亚洲欧美日韩东京热| 久久久久久伊人网av| 久久九九热精品免费| 人人妻人人看人人澡| 国产精品一区二区性色av| 久久精品人妻少妇| 欧美成人精品欧美一级黄| 国产91av在线免费观看| 赤兔流量卡办理| 国语自产精品视频在线第100页| 国产午夜精品久久久久久一区二区三区 | 国产av在哪里看| 日韩欧美免费精品| 国产在视频线在精品| 免费在线观看影片大全网站| 国产精品精品国产色婷婷| 极品教师在线视频| 三级国产精品欧美在线观看| a级毛片a级免费在线| 日韩亚洲欧美综合| 亚洲性久久影院| 久久99热这里只有精品18| 男人和女人高潮做爰伦理| 波多野结衣巨乳人妻| www日本黄色视频网| 久久久久九九精品影院| 97超碰精品成人国产| 色噜噜av男人的天堂激情| 亚洲精品国产av成人精品 | 女人十人毛片免费观看3o分钟| 别揉我奶头 嗯啊视频| 国内精品美女久久久久久| 天堂动漫精品| 久99久视频精品免费| 真实男女啪啪啪动态图| 精品国内亚洲2022精品成人| 插阴视频在线观看视频| 简卡轻食公司| 国产探花在线观看一区二区| 精品熟女少妇av免费看| 免费av毛片视频| 91久久精品国产一区二区成人| 国产成人aa在线观看| 91精品国产九色| 青春草视频在线免费观看| 小说图片视频综合网站| 一a级毛片在线观看| 一边摸一边抽搐一进一小说| 啦啦啦韩国在线观看视频| 午夜福利18| 午夜福利在线观看吧| 美女被艹到高潮喷水动态| 国产精品福利在线免费观看| 性色avwww在线观看| 国产欧美日韩精品一区二区| 国产高清激情床上av| 久久久色成人| av国产免费在线观看| 精品午夜福利视频在线观看一区| eeuss影院久久| 亚洲av成人精品一区久久| 极品教师在线视频| 欧美最黄视频在线播放免费| 内射极品少妇av片p| 天天躁夜夜躁狠狠久久av| 国产一区亚洲一区在线观看| 亚洲性夜色夜夜综合| 狠狠狠狠99中文字幕| 亚洲av一区综合| 亚洲最大成人av| or卡值多少钱| 免费大片18禁| 99久久无色码亚洲精品果冻| 综合色丁香网| 毛片一级片免费看久久久久| 日韩av在线大香蕉| 一级毛片我不卡| 午夜福利视频1000在线观看| 秋霞在线观看毛片| 久久精品国产99精品国产亚洲性色| 欧洲精品卡2卡3卡4卡5卡区| 亚洲国产精品久久男人天堂| 成人永久免费在线观看视频| 国产午夜精品论理片| 精品一区二区三区视频在线观看免费| 免费观看在线日韩| 天天躁夜夜躁狠狠久久av| 国产三级在线视频| 国产精品福利在线免费观看| 国产高清激情床上av| 国产国拍精品亚洲av在线观看| 麻豆国产97在线/欧美| 久久久久久大精品| 亚洲aⅴ乱码一区二区在线播放| 麻豆国产av国片精品| 精品人妻熟女av久视频| 老司机午夜福利在线观看视频| 一级av片app| 在线播放国产精品三级| 在线播放无遮挡| 欧美绝顶高潮抽搐喷水| av.在线天堂| 欧美bdsm另类| 色噜噜av男人的天堂激情| 在线免费观看的www视频| 国产精品女同一区二区软件| 精品久久久久久久末码| 在现免费观看毛片| 最近的中文字幕免费完整| 亚洲av不卡在线观看| 国产成人freesex在线 | 国产中年淑女户外野战色| 国产av麻豆久久久久久久| 22中文网久久字幕| 国产精品爽爽va在线观看网站| 热99re8久久精品国产| 国产精品人妻久久久久久| 亚洲欧美日韩无卡精品| av在线播放精品| 成年av动漫网址| 国语自产精品视频在线第100页| 久久久成人免费电影| 国模一区二区三区四区视频| 别揉我奶头 嗯啊视频| 国产精品亚洲一级av第二区| 色综合亚洲欧美另类图片| 一边摸一边抽搐一进一小说| 午夜精品一区二区三区免费看| 精品一区二区三区人妻视频| 国产欧美日韩精品亚洲av| 亚洲成人久久爱视频| 美女被艹到高潮喷水动态| 欧美+亚洲+日韩+国产| 岛国在线免费视频观看| 国产又黄又爽又无遮挡在线| 一区二区三区高清视频在线| 国产精品国产三级国产av玫瑰| 欧美精品国产亚洲| 好男人在线观看高清免费视频| 人妻少妇偷人精品九色| 日日摸夜夜添夜夜添小说| 亚洲精品亚洲一区二区| 最近视频中文字幕2019在线8| 国产麻豆成人av免费视频| 亚洲中文日韩欧美视频| 亚洲精品在线观看二区| 精品久久国产蜜桃| 激情 狠狠 欧美| 亚洲av美国av| 色综合站精品国产| 嫩草影院入口| a级毛色黄片| 真实男女啪啪啪动态图| 一个人看视频在线观看www免费| 一进一出抽搐gif免费好疼| 婷婷色综合大香蕉| 女生性感内裤真人,穿戴方法视频| 国产亚洲精品久久久com| 在线播放国产精品三级| 亚洲,欧美,日韩| 国产免费一级a男人的天堂| 精品国产三级普通话版| 99九九线精品视频在线观看视频| 日韩亚洲欧美综合| 国产91av在线免费观看| 欧美高清成人免费视频www| 婷婷精品国产亚洲av在线| 国产成人91sexporn| av视频在线观看入口| 在线免费十八禁| 日本一本二区三区精品| 免费无遮挡裸体视频| 亚洲精品日韩av片在线观看| 黑人高潮一二区| 18禁裸乳无遮挡免费网站照片| 欧美最黄视频在线播放免费| 又粗又爽又猛毛片免费看| 亚洲无线在线观看| 老司机午夜福利在线观看视频| 少妇熟女aⅴ在线视频| 男人舔女人下体高潮全视频| 亚洲婷婷狠狠爱综合网| 又黄又爽又刺激的免费视频.| 熟女电影av网| 国产精品国产三级国产av玫瑰| 99久国产av精品国产电影| 精品国内亚洲2022精品成人| 日日啪夜夜撸| 观看美女的网站| 亚洲欧美精品综合久久99| 亚洲最大成人中文| 国产不卡一卡二| 亚洲最大成人手机在线| 国内精品久久久久精免费| 国产高潮美女av| 亚洲最大成人av| 亚洲成a人片在线一区二区| 国产伦在线观看视频一区| 少妇人妻一区二区三区视频| 91久久精品国产一区二区成人| 欧洲精品卡2卡3卡4卡5卡区| 亚洲中文字幕日韩| 哪里可以看免费的av片| 国产成人aa在线观看| 伦精品一区二区三区| 一级a爱片免费观看的视频| 欧美在线一区亚洲| 亚洲天堂国产精品一区在线| 国产精品综合久久久久久久免费| 国产一区二区在线av高清观看| 亚洲成人久久爱视频| 91在线观看av| 婷婷色综合大香蕉| 一级毛片我不卡| 成人欧美大片| av在线观看视频网站免费| 亚洲av第一区精品v没综合| 亚洲人成网站在线播| 国产黄片美女视频| 日韩欧美三级三区| 国产美女午夜福利| 国产伦一二天堂av在线观看| 日韩精品有码人妻一区| videossex国产| 成人一区二区视频在线观看| 国内少妇人妻偷人精品xxx网站| 成人特级av手机在线观看| 国产日本99.免费观看| 欧美绝顶高潮抽搐喷水| 国产成人91sexporn| 国产精品嫩草影院av在线观看| 天堂av国产一区二区熟女人妻| 亚洲美女黄片视频| 男女视频在线观看网站免费| 欧洲精品卡2卡3卡4卡5卡区| av.在线天堂| 亚洲性夜色夜夜综合| 精品99又大又爽又粗少妇毛片| 国产一级毛片七仙女欲春2| 国产国拍精品亚洲av在线观看| 国内精品宾馆在线| 久久人妻av系列| 国产高潮美女av| 色播亚洲综合网| 99精品在免费线老司机午夜| 男人舔女人下体高潮全视频| 亚洲人与动物交配视频| 看十八女毛片水多多多| a级毛片a级免费在线| 别揉我奶头 嗯啊视频| 日韩av不卡免费在线播放| 亚洲高清免费不卡视频| 亚洲人成网站在线观看播放| 99热网站在线观看| 欧美色欧美亚洲另类二区| 国产视频一区二区在线看| 最近视频中文字幕2019在线8| 老师上课跳d突然被开到最大视频| 日日啪夜夜撸| 亚洲欧美日韩高清专用| 免费一级毛片在线播放高清视频| ponron亚洲| 激情 狠狠 欧美| 亚洲精品乱码久久久v下载方式| 免费看光身美女| 亚洲美女视频黄频| av在线播放精品| 天堂影院成人在线观看| 成人毛片a级毛片在线播放| 免费高清视频大片| 欧美xxxx性猛交bbbb| 在线国产一区二区在线| 日韩中字成人| 男人的好看免费观看在线视频| 99久久精品一区二区三区| 97碰自拍视频| 一区二区三区免费毛片| 直男gayav资源| av.在线天堂| 色哟哟·www| 久久久国产成人精品二区| 熟妇人妻久久中文字幕3abv| 精品一区二区免费观看| 别揉我奶头~嗯~啊~动态视频| 尾随美女入室| 在线免费观看不下载黄p国产| 国产在线男女| 五月伊人婷婷丁香| 插阴视频在线观看视频| 国产欧美日韩精品一区二区| av中文乱码字幕在线| 一边摸一边抽搐一进一小说| 国产av麻豆久久久久久久| 2021天堂中文幕一二区在线观| 成人漫画全彩无遮挡| av黄色大香蕉| 麻豆久久精品国产亚洲av| 淫秽高清视频在线观看| 亚洲不卡免费看| 国产视频一区二区在线看| 亚洲精品粉嫩美女一区| 性欧美人与动物交配| 国产高清不卡午夜福利| 麻豆国产97在线/欧美| 欧美极品一区二区三区四区| 一级黄色大片毛片| 国产精品爽爽va在线观看网站| 成熟少妇高潮喷水视频| 亚洲中文字幕日韩| 久久久精品94久久精品| 亚洲人成网站在线播| 亚洲中文字幕一区二区三区有码在线看| 女人十人毛片免费观看3o分钟| 成人精品一区二区免费| 日本与韩国留学比较| 禁无遮挡网站| 欧美不卡视频在线免费观看| 久久综合国产亚洲精品| 国产伦精品一区二区三区四那| 非洲黑人性xxxx精品又粗又长| 蜜桃久久精品国产亚洲av| 国产爱豆传媒在线观看| 日本免费a在线| 国产乱人偷精品视频| 成人av一区二区三区在线看| 久久午夜福利片| 成人欧美大片| 黄片wwwwww| 1024手机看黄色片| 亚洲无线观看免费| 美女黄网站色视频| 99热6这里只有精品| 在线a可以看的网站| 国产黄a三级三级三级人| 晚上一个人看的免费电影| 免费在线观看影片大全网站| 丝袜美腿在线中文| 大又大粗又爽又黄少妇毛片口| 精品久久久久久久久亚洲| 国产真实乱freesex| 日本熟妇午夜| 日韩欧美三级三区| 亚洲久久久久久中文字幕| 亚洲欧美精品自产自拍| 女人十人毛片免费观看3o分钟| 99热这里只有是精品50| 3wmmmm亚洲av在线观看| 久久九九热精品免费| 看免费成人av毛片| 亚洲内射少妇av| 精品久久久久久久久久免费视频| 日本与韩国留学比较| 国产黄色视频一区二区在线观看 | 国产私拍福利视频在线观看| 久久99热6这里只有精品| 亚洲第一区二区三区不卡| 亚洲av一区综合| 国产精品野战在线观看| 国产精品久久久久久精品电影| 51国产日韩欧美| 亚洲电影在线观看av| 天美传媒精品一区二区| 精品久久久噜噜| 少妇丰满av| 极品教师在线视频| 午夜福利高清视频| 男女视频在线观看网站免费| 久久久久免费精品人妻一区二区| 丰满人妻一区二区三区视频av| 97超级碰碰碰精品色视频在线观看| 国产午夜福利久久久久久| 午夜亚洲福利在线播放| 少妇的逼水好多| 哪里可以看免费的av片| 老女人水多毛片| 五月伊人婷婷丁香| 色av中文字幕| 成人三级黄色视频| 欧美色视频一区免费| 黄色日韩在线| 亚洲aⅴ乱码一区二区在线播放| 尾随美女入室| 亚洲熟妇中文字幕五十中出| 一卡2卡三卡四卡精品乱码亚洲| 日产精品乱码卡一卡2卡三| 国产黄色视频一区二区在线观看 | 精品免费久久久久久久清纯| 国产精品野战在线观看| 少妇丰满av| 狂野欧美白嫩少妇大欣赏| 在线观看免费视频日本深夜| 69人妻影院| 成人欧美大片| 精品乱码久久久久久99久播| 国产精品久久电影中文字幕| 美女大奶头视频| 一级av片app| 亚洲精品一区av在线观看| 在线免费观看不下载黄p国产| 亚洲精华国产精华液的使用体验 | 一级a爱片免费观看的视频| 久久午夜福利片| av在线亚洲专区| 久久精品影院6| 青春草视频在线免费观看| 日韩三级伦理在线观看| 亚洲人成网站在线播| 免费在线观看影片大全网站| 一本一本综合久久| 亚洲色图av天堂| 免费大片18禁| 国产精品永久免费网站| 亚洲美女黄片视频| 久久久国产成人精品二区| 97碰自拍视频| 日韩欧美精品免费久久| 久久精品国产亚洲av涩爱 | 日本黄大片高清| 免费高清视频大片| 老司机午夜福利在线观看视频| 日本与韩国留学比较| 一级av片app| 久久人人精品亚洲av| 亚洲欧美中文字幕日韩二区| 国产精品乱码一区二三区的特点| 长腿黑丝高跟| 国产亚洲精品综合一区在线观看| 精品久久久久久久久av| 欧美成人精品欧美一级黄| 亚洲成人久久性| 一本一本综合久久| 三级国产精品欧美在线观看| 午夜福利视频1000在线观看| 亚洲电影在线观看av| 精品久久久久久久末码| 免费av不卡在线播放| 卡戴珊不雅视频在线播放| 国产av麻豆久久久久久久| 久久精品久久久久久噜噜老黄 | av福利片在线观看| 一个人观看的视频www高清免费观看| 欧美激情久久久久久爽电影| 校园人妻丝袜中文字幕| 欧美激情久久久久久爽电影| 69av精品久久久久久| 黄色日韩在线| 亚洲av第一区精品v没综合| 成人精品一区二区免费| 国产精品日韩av在线免费观看| 亚洲三级黄色毛片| 亚洲精品粉嫩美女一区| 99热精品在线国产| 黑人高潮一二区| 老师上课跳d突然被开到最大视频| av国产免费在线观看| 欧美色欧美亚洲另类二区| 男人舔奶头视频| 美女 人体艺术 gogo| av在线蜜桃| 最近手机中文字幕大全| 国产精品1区2区在线观看.| 69人妻影院| 久久鲁丝午夜福利片| 一夜夜www| 亚洲人成网站在线观看播放| 亚洲性夜色夜夜综合| 亚洲国产精品合色在线| 夜夜爽天天搞| 免费无遮挡裸体视频| 毛片一级片免费看久久久久| 白带黄色成豆腐渣| 最近手机中文字幕大全| 男女啪啪激烈高潮av片| 麻豆乱淫一区二区|