• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于密度的Top-n局部異常點快速檢測算法

    2019-10-14 06:45:50齊建鵬于彥偉趙金東
    自動化學報 2019年9期
    關(guān)鍵詞:上界剪枝復雜度

    劉 芳 齊建鵬 于彥偉 曹 磊 趙金東

    近年來,隨著各類智能移動設(shè)備的廣泛普及,社交網(wǎng)絡(luò)、網(wǎng)上購物、移動支付、位置服務(wù)等新興應(yīng)用不斷涌現(xiàn),各類海量大數(shù)據(jù)被采集和處理,而面向這些大數(shù)據(jù)的挖掘分析服務(wù)已儼然成為一大獨具特色的新興產(chǎn)業(yè).異常檢測作為數(shù)據(jù)挖掘最重要的任務(wù)之一,在網(wǎng)絡(luò)監(jiān)測、信用卡欺詐、電信詐騙、金融證券服務(wù)、電子商務(wù)等各種應(yīng)用領(lǐng)域都被認為是至關(guān)重要的內(nèi)容.因此,異常檢測在學術(shù)界與工業(yè)界都受到了越來越多的關(guān)注,在大數(shù)據(jù)與人工智能應(yīng)用中,異常檢測也發(fā)揮了越來越重要的作用,例如在北京,通過對地鐵和公交乘車記錄的異常檢測分析可幫助安保系統(tǒng)識別出潛在的小偷[1].

    異常檢測旨在從海量數(shù)據(jù)中識別出與大多數(shù)數(shù)據(jù)樣本差異較大的數(shù)據(jù)對象.目前已存在很多異常檢測研究工作[2?4],如基于距離的異常檢測[5?7]、基于鄰居的異常檢測[8?10]、基于分布的異常檢測[11?13]和基于聚類的異常檢測[14?15]等.然而,這些異常檢測方法都無法處理數(shù)據(jù)傾斜分布下的異常檢測問題,因為在傾斜分布的數(shù)據(jù)中,不同區(qū)域的異常數(shù)據(jù)可能具有不同的數(shù)據(jù)特征,而上述方法都采用全局的異常標準來處理數(shù)據(jù)對象.基于密度的LOF[16]有效解決了在數(shù)據(jù)傾斜分布下的異常檢測問題.局部異常檢測利用每個數(shù)據(jù)對象相對于其周圍鄰居的相對密度衡量異常因子,這樣的相對密度反映了局部的數(shù)據(jù)分布,也就是說,對異常的檢測是相對于局部數(shù)據(jù)的,因此可以處理傾斜分布下的異常檢測問題.在實際應(yīng)用中,尤其是在大數(shù)據(jù)系統(tǒng)中,數(shù)據(jù)的分布往往是傾斜的,基于LOF 的局部異常檢測方法相比其他檢測方法在很多應(yīng)用領(lǐng)域都表現(xiàn)出了較好的異常檢測效果[17?18].

    局部異常檢測方法[16]需要計算每個數(shù)據(jù)對象的LOF 異常因子,然后通過排序找出LOF 值較大的數(shù)據(jù)點作為異常對象,而LOF 定義了相對密度,要求查找每個數(shù)據(jù)的k近鄰及可達距離,因此檢測計算成本非常高,很難滿足對大規(guī)模數(shù)據(jù)的異常檢測效率需求.最新研究[19]針對Top-n局部異常點檢測,提出了一種基于LOF 上界剪枝的檢測算法(Top-nLOF,TOLF),利用Cell 索引和LOF 上界對數(shù)據(jù)對象進行剪枝,較大地提升了局部異常點檢測的效率.盡管如此,TOLF 在Cell 剪枝中僅采用了一個全局的兩點間最小距離cpmin進行剪枝,當全局cpmin較小時,將嚴重影響Cell 剪枝效果,甚至失效,此外,針對數(shù)據(jù)對象剪枝的LOF 上界相比真實LOF 值較大且計算復雜度較高,使得剪枝效果也有限.

    針對這些問題,本文提出了一種改進的Top-n局部異常點檢測算法MTLOF,融合索引結(jié)構(gòu)和多層LOF 上界設(shè)計剪枝策略,實現(xiàn)了高效的局部異常點檢測.1)為避免直接計算LOF 值,提出了四個更接近真實LOF 值的LOF 上界(UB1?UB4),并對它們的計算復雜度進行了理論分析;2)利用索引結(jié)構(gòu)和UB1、UB2上界,提出了兩層的Cell 剪枝策略,不僅采用全局Cell 剪枝策略,還引入了基于Cell 內(nèi)部數(shù)據(jù)對象分布的局部剪枝策略,有效解決了高密度區(qū)域的剪枝問題;3)利用提出的UB3和UB4上界,提出了兩個更加合理有效的數(shù)據(jù)對象剪枝策略,UB3和UB4上界更加接近于真實LOF 值,有利于剪枝更多數(shù)據(jù)對象,而基于計算復用的LOF上界計算方法,大大降低了計算成本;4)優(yōu)化了初始候選Top-n局部異常點的選擇方法,利用均勻區(qū)域劃分和建立的索引結(jié)構(gòu),在數(shù)據(jù)分布的稀疏區(qū)域選擇初始局部異常點,有利于選擇LOF 值較大的數(shù)據(jù)對象作為初始局部異常點,有效提升初始臨界值(Cutoff threshold)ct,使得在初始階段剪枝掉更多的Cell 和數(shù)據(jù)對象.5)在六個不同維度的真實數(shù)據(jù)集上的綜合實驗評估驗證了MTLOF 算法的高效性和可擴展性,相比最新的TOLF 算法,提升的效率可高達3.5 倍.

    本文結(jié)構(gòu)如下:第1 節(jié)討論相關(guān)工作;第2 節(jié)定義基本概念和問題;第3 節(jié)給出詳細的檢測算法;第4 節(jié)進行實驗驗證和分析;第5 節(jié)總結(jié)全文.

    1 相關(guān)工作

    Breunig 等[16]最早提出了局部異常因子LOF的概念,相對基于距離的異常檢測[5?6]和KNN 異常檢測[9],LOF 采用相對密度衡量每個數(shù)據(jù)對象的異常程度,LOF 越高表示數(shù)據(jù)對象相對于其鄰居的密度差異較大,異常的可能性也就越高.異常通常只是數(shù)據(jù)集的極少部分,因此Jin 等[20]首次提出了Top-n局部異常的概念,從數(shù)據(jù)集中選取n個LOF 值最大的數(shù)據(jù)對象,即為Top-n局部異常.傳統(tǒng)LOF 挖掘方法[16]主要分為兩步:首先計算出所有數(shù)據(jù)對象的LOF 值,然后對所有數(shù)據(jù)按LOF 值降序排序,前n個數(shù)據(jù)對象即為Top-n局部異常.文獻[20]首先利用Birch 算法[21]對數(shù)據(jù)對象進行聚類,利用聚簇的半徑和聚簇間的距離關(guān)系計算每個聚簇的LOF 界值,對聚簇進行排序,然后在最可能包含異常的聚簇中檢測Top-n局部異常點.雖然該方法通過聚類方法剪枝掉了部分數(shù)據(jù)對象,但是數(shù)據(jù)預處理計算成本昂貴,不適用于大數(shù)據(jù)的處理.此外,算法的剪枝策略也具有較大局限性,并沒有表現(xiàn)很好的剪枝效果.

    另外一類相關(guān)工作就是LOF 的變種方法,Tang 等[22]提出了一種基于連通性的異常檢測方法(Connectivity-based outlier factor,COF),COF首先利用最小生成樹衡量每個數(shù)據(jù)對象與它k近鄰的連通度,然后與LOF 相似,利用相對k近鄰連通度定義每個數(shù)據(jù)對象的COF.為了優(yōu)化基于最小生成樹聚類的異常檢測,朱利等[23]提出了一種快速構(gòu)建最小生成樹的優(yōu)化方法,可同時檢測基于距離的全局異常和基于密度的局部異常,但是這類基于掃描樹的聚類方法無法處理大規(guī)模數(shù)據(jù),如文獻[23]中性能驗證,在處理1 800 個數(shù)據(jù)點時已消耗近60秒.Papadimitriou 等[24]提出了一種局部相關(guān)度方法(Local correlation integral,LOCI),LOCI 采用一個區(qū)域半徑r定義數(shù)據(jù)對象的本地鄰居區(qū)域,以代替k近鄰.雖然LOCI 相比LOF 具有較低計算復雜度,但是在數(shù)據(jù)傾斜分布下,通過固定區(qū)域半徑定義局部異常并不合理,可能導致稀疏區(qū)域的數(shù)據(jù)對象沒有鄰居點而高密度區(qū)域的數(shù)據(jù)對象包含過多的鄰居點.楊宜東等[25]為了減少計算時間,還提出了一種動態(tài)網(wǎng)格劃分的數(shù)據(jù)流下的LOCI 異常檢測方法.Zhang 等[26]提出了一種基于距離的局部異常點檢測(Local distance-based outlier factor,LDOF),LDOF 采用數(shù)據(jù)對象到其k近鄰距離的均值定義數(shù)據(jù)對象的局部密度,然后相對k近鄰計算相對密度獲得異常因子.與文獻[26]相似,Krieget 等[27]則使用數(shù)據(jù)對象到其k近鄰距離的平方和的均值來定義局部密度.最近,Schubert 等[28?29]又提出了一種更為簡單的LOF 變種方法,稱為Simplified-LOF,該方法直接使用k-距離代替可達距離,也就是說,直接使用k-距離的倒數(shù)定義局部密度.該方法雖然簡化了LOF 方法,但是僅考慮每個數(shù)據(jù)對象到第k個近鄰的距離,將導致異常檢測效果嚴重依賴于參數(shù)k的選取.此外,Liu 等[30]將局部異常檢測擴展到了不確定數(shù)據(jù)領(lǐng)域上,研究了在概率密度表示的不確定數(shù)據(jù)模型上的異常檢測方法.最近Cao 等[31?32]還考慮了在屬性級不確定數(shù)據(jù)上的Top-n局部異常點檢測方法.

    Liu 等[33?34]提出一種基于隔離樹的快速異常檢測算法(Isolation forest,Iforest),該方法首先隨機采樣m個數(shù)據(jù)對象樣本,構(gòu)建多棵Itree 隔離樹(Isolation trees),然后對每個數(shù)據(jù)對象來遍歷這些Itree,根據(jù)數(shù)據(jù)對象經(jīng)過的平均路徑長度來判斷是否為異常對象.Iforest 雖具有線性的時間復雜度,但并不適用于特別高維數(shù)據(jù),因為每次切割數(shù)據(jù)空間都是隨機選取一個維度,建立隔離樹后仍有大量維度信息沒有使用,導致算法可靠性降低.此外,Iforest 算法也僅對全局異常敏感,不擅長處理局部的相對稀疏點,即本文處理的局部異常點.為了加快Top-n局部異常點檢測,最新研究[19]提出了一種基于Cell 索引和LOF 上界剪枝的TOLF 算法,TOLF 首先將數(shù)據(jù)集劃分成多個相對均勻的區(qū)域,并對相對密集的區(qū)域建立Cell 索引,然后利用Cell索引和LOF 上界對Cell 和數(shù)據(jù)對象進行剪枝.盡管TOLF 有效提升了Top-n局部異常點的檢測效率,但是采用全局最小距離的Cell 剪枝策略具有一定局限性,當存在較多過密區(qū)域時(最小距離非常小),將嚴重影響Cell 剪枝效果,甚至失效.此外,TOLF 所采用的面向單個數(shù)據(jù)對象剪枝的LOF 上界相比數(shù)據(jù)對象真實LOF 值較大,導致數(shù)據(jù)對象的剪枝空間有限.

    2 問題定義

    本節(jié)首先介紹LOF[16]相關(guān)定義,然后給出Top-n局部異常點檢測的問題定義.

    基于密度的局部異常根據(jù)每個數(shù)據(jù)對象本地的密度與它k近鄰的密度的比值判斷該數(shù)據(jù)對象是否是一個局部異常點.對于兩個數(shù)據(jù)對象p和q,本文使用dist(p,q)表示它們間的距離.所有數(shù)據(jù)對象集合表示為D.

    定義1(k 近鄰).給定數(shù)據(jù)對象p和任意正整數(shù)k,數(shù)據(jù)對象p的k近鄰集合由到p距離最近的k個數(shù)據(jù)對象組成,表示為Nk(p).

    定義2(k-距離).給定數(shù)據(jù)對象p和任意正整數(shù)k,距離p第k個最近的數(shù)據(jù)對象記為qk,p的k-距離則是p到qk的距離,記為distk(p).

    也就是說,對于任意q ∈Nk(p),dist(p,q)≤distk(p).

    定義3(可達距離).給定數(shù)據(jù)對象p和q ∈Nk(p),數(shù)據(jù)對象p相對于q的可達距離distr(p,q)定義如下:distr(p,q)=max{dist(p,q),distk(q)}.

    根據(jù)定義3,如果對象p也是q的k近鄰,也就是說p ∈Nk(q),則p相對于q的可達距離就是distk(q);反之,則為兩對象的距離dist(p,q).

    定義4(k 近鄰可達距離和).給定數(shù)據(jù)對象p,數(shù)據(jù)對象p的k近鄰可達距離和distkr(p)定義如下:

    定義5(局部可達密度).數(shù)據(jù)對象p的局部可達密度(Local reachability density,LRD)表示為:

    從定義5 可知,LRD(p)就是數(shù)據(jù)對象p相對于其k近鄰的可達距離的均值的倒數(shù),也就是說,局部可達密度主要通過數(shù)據(jù)對象相對于其k近鄰的可達距離來估計它的局部密度.數(shù)據(jù)對象相對于其k近鄰的可達距離均值越小,也就是說相對越密集,它的局部可達密度就越高.接下來根據(jù)LRD(p)來定義數(shù)據(jù)對象的局部異常因子LOF.

    定義6(局部異常因子).數(shù)據(jù)對象p的局部異常因子表示為:

    很明顯,LOF(p)就是數(shù)據(jù)對象p的所有k近鄰的局部可達密度與p的局部可達密度比值的均值.因此,LOF(p)越接近于1,說明對象p與其k近鄰的局部密度越接近,p的異常程度越小;LOF(p)小于1 時,則說明對象p處于一個高密度區(qū)域.相反,LOF(p)值越大,則表示p是異常點的可能性越大.所以本文的關(guān)注點在于快速檢測出具有較高LOF的數(shù)據(jù)對象,下面給出本文所要解決的Top-n局部異常點檢測的問題定義.

    問題1(Top-n 局部異常點檢測).給定數(shù)據(jù)集合D,對象近鄰數(shù)k,和異常點數(shù)量n,Top-n局部異常點檢測則是返回數(shù)據(jù)集D中LOF 值最大的前n個數(shù)據(jù)對象.

    3 基于密度的Top-n局部異常點檢測

    本節(jié)將詳細介紹本文所提出的Top-n局部異常點檢測的優(yōu)化算法,首先介紹基于臨界值剪枝的檢測算法,然后介紹優(yōu)化算法用到的四個LOF 上界,接著介紹基于LOF 上界的剪枝策略,最后給出優(yōu)化的檢測算法.

    3.1 基于臨界值剪枝的檢測算法

    為了獲取LOF 值最大的前n個數(shù)據(jù)對象,即Top-n局部異常點,傳統(tǒng)的基本方法將計算出所有數(shù)據(jù)對象的LOF 值,然后按照LOF 值排序,返回前n個數(shù)據(jù)對象.然而,對于Top-n局部異常點,并不需要計算出所有數(shù)據(jù)對象的LOF 值,我們僅關(guān)心LOF 值最大的n個數(shù)據(jù)對象,因此,只需要維護LOF 值最大的n個數(shù)據(jù)對象即可.

    給定數(shù)據(jù)集D,從中隨機選取n個數(shù)據(jù)對象,并計算它們的LOF 值,選取最小的LOF 值作為臨界值(Cutoff threshold,ct).可以發(fā)現(xiàn),對于數(shù)據(jù)集D中任意的數(shù)據(jù)對象p,如果LOF(p)ct,則p可能是Top-n局部異常點,將p放入維護隊列,剔除隊列中LOF 最小的數(shù)據(jù)對象,并更新臨界值ct.依次遍歷一遍數(shù)據(jù)集,即可獲取到Top-n局部異常點.這種剪枝檢測方法我們稱之為基于臨界值剪枝的檢測算法.

    從定義6 可知,直接計算數(shù)據(jù)對象LOF 值的成本較高,為了更高效地檢測出Top-n局部異常點,我們將從四個方面優(yōu)化基于臨界值剪枝的檢測方法:1)如何快速獲取到LOF 值較大的n個數(shù)據(jù)對象作為初始維護的候選異常對象;2)選取更合理有效的LOF 值上界進行剪枝判斷,以避免直接計算數(shù)據(jù)對象的LOF 值;3)如何使用數(shù)據(jù)對象的這些LOF 值上界,使得計算量盡量小,且被剪枝掉的數(shù)據(jù)對象數(shù)量盡量多;4)如何結(jié)合索引技術(shù)和LOF 上界快速剪枝掉高密度區(qū)域的所有數(shù)據(jù)對象.

    3.2 LOF 上界

    本小節(jié)將首先介紹數(shù)據(jù)對象LOF 值的四個上界,然后分析四個上界的計算時間復雜度.

    3.2.1 四個LOF 上界

    根據(jù)定義5 和定義6 可以得出:

    LOF(p)被表示成了兩個部分的乘積,第一部分表示p的局部可達密度的倒數(shù),第二部分表示p所有k近鄰的k近鄰可達距離和的倒數(shù)和.下面由定理1 引出數(shù)據(jù)對象p的第一個LOF 上界UB1(p).

    定理1(LOF 的上界一).給定數(shù)據(jù)集D中的一個數(shù)據(jù)對象p,p的LOF 值滿足以下上界:

    其中,cpmin表示D中所有數(shù)據(jù)對象間最小的距離.

    定理2(LOF 的上界二).給定數(shù)據(jù)集D中的一個數(shù)據(jù)對象p,p的LOF 值滿足以下上界:

    圖1 distr(q,o)與dist(q,o)的關(guān)系示例Fig.1 The relationships between distr(q,o)and dist(q,o)

    定理3(LOF 的上界三).給定數(shù)據(jù)集D中的一個數(shù)據(jù)對象p,p的LOF 值滿足以下上界:

    接下來只需證明distkr(p)/|Nk(p)| ≤2· distk(p)即 可.設(shè) 定directmax(p)=max{distr(p,q)|q ∈Nk(p)}[16],所以directmax(p)大于等于對象p的k近鄰可達距離和的均值,即distkr(p)/|Nk(p)| ≤directmax(p),所以只需證明directmax(p)≤2·distk(p)即可.

    directmax(p)是取對象p相對于它的k近鄰最大的可達距離,根據(jù)定義3 可知,這等價于求解?q ∈Nk(p),返回dist(p,q)和distk(q)的最大值,所以只需證明maxq∈Nk(p)dist(p,q)≤2·distk(p)和maxq∈Nk(p)distk(q)≤2·distk(p)即可.

    由定義2 可知,?q ∈ Nk(p),dist(p,q)≤distk(p),所以maxq∈Nk(p)dist(p,q)≤2·distk(p);對于q ∈Nk(p)來說,它的k近鄰分布可分為圖2(a)和圖2(b)兩種情況,一種情況為q附近有很多數(shù)據(jù)對象,q的k-距離小于2·distk(p),甚至小于distk(p),如圖2(a)所示;另一種情況為q附近存在較少的數(shù)據(jù)對象,在最極端情況下,不存在任何數(shù)據(jù)對象,但是,當q搜索鄰居的范圍擴大到2·distk(p)時,一定能夠涵蓋p以及p的k近鄰,如圖2(b)所示,也就說,distk(q)≤2·distk(p).因此,maxq∈Nk(p)distk(q)≤2·distk(p).

    圖2 distk(p)與distk(q)的關(guān)系示例Fig.2 The relationships between distk(p)and distk(q)

    接下來,我們給出最后一個更加接近于LOF 值的上界UB4(p).

    定理4(LOF 的上界四).給定數(shù)據(jù)集D中的一個數(shù)據(jù)對象p,p的LOF 值滿足以下上界:

    由定理3、定理4 及它們證明過程可以得出,LOF(p)≤UB4(p)≤UB3(p).

    3.2.2 時間復雜度分析

    根據(jù)定理1~4,四個上界的大小順序為:LOF(p)≤ UB4(p)≤ UB2(p)≤ UB1(p)和LOF(p)≤UB4(p)≤UB3(p).由于UB3(p)的第一部分相對于UB1(p)、UB2(p)的第一部分變大,而第二部分相對變小,因此,不能確定UB3(p)和UB1(p)、UB2(p)的相對大小.

    設(shè)定數(shù)據(jù)集D中數(shù)據(jù)對象總數(shù)為N,一般情況下,,查詢每個數(shù)據(jù)對象k近鄰的時間復雜度為O(Nlogk),計算distkr(p)時,首先查詢到p的k個近鄰,時間復雜度為O(Nlogk),然后求出所有k近鄰的k近鄰,時間復雜度為O(k·Nlogk),求得k個可達距離并相加,時間復雜度為O(k),所以計算distkr(p)的復雜度為O[(k+1)Nlogk+k].計算時,同樣,首先獲得p的k近鄰,然后求每個k近鄰q的k近鄰,并計算每個q與其近鄰的距離和,時間復雜度為O[(k+1)·Nlogk+k],最后,求取k個距離和中的最小值或倒數(shù)和,時間復雜度為O(k),因此,和的時間復雜度為O((k+1)Nlogk+2k).

    1)UB1(p):獲取全局cpmin的時間復雜度為O(N2);但整個檢測算法僅需計算一次,所以平均到每個數(shù)據(jù)對象的計算時間為O(N);計算distkr(p)的時間復雜度為O((k+1)Nlogk+k),因此,計算UB1(p)的平均復雜度為O(UB1(p))=O(N+(k+1)Nlogk+k).

    2)UB2(p):根據(jù)distkr(p)和的時間復雜度知,UB2(p)的時間復雜度為O(2(k+1)Nlogk+3k).

    5)LOF(p):獲取distkr(p)/|Nk(p)|的復雜度為O((k+1)Nlogk+k),所以計算LRD(p)的復雜度為O((k+1)Nlogk+k+1);計算p每個k近鄰q的LRD 的時間復雜度為O(k·Nlogk+k+1);因此,計算LOF(p)的時間復雜度為O((k+1)Nlogk+k+1)+k·O(k·Nlogk+k+1)+O(k)≈O((k2+k+1)Nlogk+k2+3k).

    根據(jù)以上時間復雜度分析,LOF(p)的時間復雜度遠大于四個上界的時間復雜度,因此,計算上界的時間遠小于計算LOF 值的時間.

    3.3 融合索引和LOF 上界的剪枝方法

    盡管利用LOF 上界剪枝數(shù)據(jù)對象可減少計算成本,但是對于每個數(shù)據(jù)對象仍需計算k近鄰可達距離和.為了快速剪枝掉高密度區(qū)域的數(shù)據(jù)對象,下面介紹融合Cell 索引和LOF 上界的剪枝方法,無需對每個數(shù)據(jù)對象進行計算即可剪枝掉高密度區(qū)域內(nèi)的所有數(shù)據(jù)對象.

    3.3.1 基于Cell 的全局剪枝

    對于某一高密度區(qū)域內(nèi)的數(shù)據(jù)對象,如果能夠保證所有數(shù)據(jù)對象的LOF 值上界UBi小于臨界值ct,則該區(qū)域內(nèi)的所有數(shù)據(jù)對象都可以直接被剪枝掉.給定邊長lenside,將整個數(shù)據(jù)空間按照lenside為單位長度劃分,得到的每個子空間劃分稱為一個Cell,如圖3 所示,包括了9 個Cell,中間Cell 記為C.

    考慮使用上界UB1(p),給定一個高密度的CellC,如果對于?p ∈C,UB1(p)

    引理1(基于Cell的全局剪枝).給定一個Cell,記為C,LOF 剪枝臨界值ct,如果C包含的數(shù)據(jù)對象多于k個,并且其邊長(d為數(shù)據(jù)的維度),那么C中所有的數(shù)據(jù)對象可以直接被剪枝.

    證明.由定理1 可知,LOF(p)≤UB1(p)=distkr(p)/|Nk(p)|·cpmin,只 需 證 明?p ∈ C,UB1(p)≤ct即可,也就是證明distkr(p)/|Nk(p)|≤ct·cpmin.

    由于C包括多于k個對象,所以對于任一對象p ∈C都可以在Cell 對角線范圍內(nèi)找到k近鄰,即對于p的k近鄰,在最壞情況下,都可以在范圍內(nèi)找到k近鄰,即如圖3 所示,當p處于C的右上角時(極端情況),假設(shè)C中僅包含k+1 個數(shù)據(jù)點,p的k近鄰可能會取到C外的q點,在最壞情況下,q仍能在范圍內(nèi)找到k個近鄰.因此,

    圖3 基于Cell 索引的剪枝示例Fig.3 An example of pruning based on Cell index

    傳統(tǒng)Cell 劃分方法將整個數(shù)據(jù)空間按照全局的邊長劃分,從引理1 可知,高密度區(qū)域的剪枝條件除了與Cell 內(nèi)的數(shù)據(jù)對象數(shù)量有關(guān),還要求Cell 的邊長不大于很明顯,該邊長條件與cpmin有關(guān),當全局cpmin較小時,將嚴重影響被剪枝掉的高密度區(qū)域的數(shù)量.

    基于上述考慮,本文采用文獻[19]提出的均勻區(qū)域生成方法,首先將整個數(shù)據(jù)集按照數(shù)據(jù)對象分布劃分成幾個相對獨立的數(shù)據(jù)分布相對均勻的區(qū)域,每個區(qū)域獨自處理數(shù)據(jù)對象,即分區(qū)自治.具體的劃分方法分為兩步,1)首先將整個數(shù)據(jù)空間看成根節(jié)點,然后按照二叉樹迭代地劃分數(shù)據(jù)空間,直到每個葉子節(jié)點至少包括k個數(shù)據(jù)對象且不可再分;2)從葉子節(jié)點向上合并節(jié)點,如果兩個子節(jié)點內(nèi)部數(shù)據(jù)對象間最小的距離的大小比例小于diff,即則合并這兩個子節(jié)點,直到不能再向上合并,一個獨立的區(qū)域被生成.通過設(shè)定適當?shù)谋壤齞iff,可以將兩個分布相似的子節(jié)點合并,因此,可以得到相對分布均勻的區(qū)域.如圖4 所示,根據(jù)數(shù)據(jù)密度分布生成4個均勻區(qū)域,每個區(qū)域內(nèi)即可采用一個執(zhí)行基于Cell 的全局剪枝策略.

    圖4 區(qū)域劃分示例Fig.4 An example of area partition

    雖然基于Cell 索引方法可以用于剪枝掉高密度的區(qū)域,但Cell 索引采用統(tǒng)一的邊長劃分數(shù)據(jù)空間,雖然實現(xiàn)簡單,但是限制了大塊的高密度區(qū)域的剪枝,除此之外,固定的邊長也不夠靈活,不便于檢驗不同密度的高密度區(qū)域,例如,給定邊長下的某個Cell 內(nèi)少于k個數(shù)據(jù)對象,但是若適當增加邊長(仍滿足剪枝限定條件),該Cell 即可包含多于k個數(shù)據(jù)對象.因此,本文在每個數(shù)據(jù)對象較多的區(qū)域內(nèi)(|Ai| ≥t·k),建立一顆Rtree 索引,使用簡單的層次索引Rtree 代替Cell 索引,Rtree 索引從上向下索引數(shù)據(jù)對象,每個葉子節(jié)點包含小于等于k個數(shù)據(jù)對象.雖然Rtree 索引的節(jié)點區(qū)域為矩形,但是可以按矩形中較長的邊等同于Cell 的邊長來處理,上述的引理1 依然可以適用.Rtree 索引為層次索引結(jié)構(gòu),節(jié)點的矩形大小不固定,這樣,我們就可以從上向下快速剪枝掉最大塊的符合邊長條件的高密度區(qū)域.為了便于描述,在下文仍采用Cell 來表述Rtree 索引中的一個樹節(jié)點.

    3.3.2 基于Cell 的局部剪枝

    從引理1 可以看出,對于被剪枝掉的Cell 需要滿足全局條件雖然該方法只需計算出cpmin,但是僅考慮到上界UB1(p),忽略了Cell 內(nèi)部數(shù)據(jù)對象的分布情況,下面給出考慮到Cell 內(nèi)數(shù)據(jù)對象分布的局部剪枝方法.

    引理2(基于Cell的局部剪枝).給定一個Cell,記為C,LOF 剪枝臨界值ct,如果C包含的數(shù)據(jù)對象多于k個,并且其邊長那么C中所有的數(shù)據(jù)對象可以直接被剪枝,其中

    證明.與引理1 相似,只需證明?p ∈ C,LOF(p)≤ UB2(p)≤ ct即可,也就是證明參見引理1 證明,得出

    可以看出,引理1 采用了上界UB2(p)對Cell進行剪枝處理,雖然剪枝的邊長條件放松了,但是該剪枝需要計算Cell 內(nèi)部所有數(shù)據(jù)對象的k近鄰距離和的均值.因此,本文設(shè)計了一個兩層的Cell 剪枝策略,首先使用邊長條件進行剪枝,若不能被剪枝掉,再使用邊長條件進一步地進行剪枝判斷.

    3.4 基于LOF 上界的數(shù)據(jù)對象剪枝

    經(jīng)過兩層Cell 的剪枝檢測后,對于沒有被剪枝掉的Cell,為了避免直接計算LOF 值,將首先對每個數(shù)據(jù)對象進行基于上界的剪枝判斷,若不能被剪枝,再計算LOF 值,最后判斷是否為Top-n異常候選項,若是,則更新臨界值ct.

    基于UB3(p)和UB4(p)的數(shù)據(jù)對象剪枝:根據(jù)引理1 和引理2,被剪枝的Cell 內(nèi)的數(shù)據(jù)對象一般滿足小于等于上界UB1(p)和UB2(p),因此,對于不滿足Cell 剪枝條件的數(shù)據(jù)對象,需要采用更加小的上界來進行剪枝.根據(jù)3.2.2 節(jié)分析可知,UB4(p)≤UB2(p)≤UB1(p),UB4(p)≤UB3(p),可使用UB4(p)進一步對數(shù)據(jù)對象進行剪枝檢測,但是,計算UB4(p)的時間復雜度是UB3(p)的近兩倍.此外,計算每個數(shù)據(jù)對象p的UB3(p)時,可直接復用之前對該Cell 進行局部剪枝時已計算過的也就是說,可直接復用之前計算過的每個數(shù)據(jù)對象的k近鄰距離和結(jié)果直接獲得該Cell 內(nèi)每個對象的UB3(p).因此,我們先使用上界UB3(p)對數(shù)據(jù)對象進行剪枝檢測,若不滿足剪枝條件,再使用更小的上界UB4(p)進行剪枝檢測.

    計算復用:除了計算UB3(p)時可直接復用之前的計算結(jié)果,在計算UB4(p)同樣可以復用之前計算UB3(p)和時的結(jié)果.對于最終未能被上界剪枝的數(shù)據(jù)對象,在計算真實LOF 值時,也可以復用之前已經(jīng)計算得到所有數(shù)據(jù)對象的k近鄰和k-距離.因此,本文的檢測算法對每個數(shù)據(jù)對象最多僅執(zhí)行一次k近鄰查詢.

    3.5 選取初始候選局部異常點

    第3.2 節(jié)~3.4 節(jié)詳細描述第3.1 節(jié)提出的優(yōu)化方法,第3.2 節(jié)回答了可利用哪些LOF 上界進行剪枝判斷,而避免直接計算LOF 值,第3.3 節(jié)回答了如何結(jié)合索引技術(shù)和LOF 上界快速剪枝高密度區(qū)域內(nèi)的所有數(shù)據(jù)對象,第3.3 和第3.4 節(jié)共同回答了如何使用LOF 上界,使得上界的計算盡量小,而剪枝掉的數(shù)據(jù)對象盡量多,接下來本節(jié)來回答第一個優(yōu)化問題:如何快速獲取到LOF 值較大的n個對象作為初始維護的候選異常對象?

    初始Top-n候選異常對象的選取嚴重影響著檢測算法的執(zhí)行效率,當選擇的初始數(shù)據(jù)對象的LOF值偏大時,可快速剪枝掉大量的Cell 區(qū)域或數(shù)據(jù)對象,但是,當選擇的初始數(shù)據(jù)對象包括高密度區(qū)域的數(shù)據(jù)對象時,將導致初始臨界值ct非常低,初始階段將幾乎沒有Cell 或數(shù)據(jù)對象被剪枝.因此,在選擇初始Top-n候選異常對象時應(yīng)盡量避免選取高密度區(qū)域的數(shù)據(jù)對象,顯然隨機選擇方法并不適合,因為在LOF 異常檢測場景中,通常情況下異常對象是極少數(shù)的,隨機選擇方法更容易選取到非異常對象或高密度區(qū)域內(nèi)的數(shù)據(jù)對象.

    本文針對采用的區(qū)域劃分和索引結(jié)構(gòu)選取初始Top-n候選異常對象,Rtree 索引利用空間區(qū)域索引數(shù)據(jù)對象,每個節(jié)點記錄了所包含的數(shù)據(jù)對象及覆蓋的區(qū)域.對于高密度區(qū)域,通常節(jié)點包括數(shù)據(jù)對象較多,且覆蓋區(qū)域較小,而局部異常點通常分散在稀疏區(qū)域.因此,本文首先在區(qū)域劃分中,選擇較大且數(shù)據(jù)對象較少的區(qū)域,在這些區(qū)域內(nèi)隨機選取初始Top-n局部異常點;如果這些區(qū)域不足n個數(shù)據(jù)對象,接著在Rtree 索引的葉子節(jié)點中,根據(jù)節(jié)點的覆蓋區(qū)域,選擇區(qū)域最大的個節(jié)點,在這些區(qū)域和葉子節(jié)點內(nèi)部隨機選取n個節(jié)點作為初始Top-n局部異常點.

    3.6 MTLOF:Top-n局部異常點檢測算法

    本節(jié)給出本文提出的基于多粒度上界剪枝的Top-n局部異常點檢測算法(Multi-granularity upper bound pruning based t op-nLOFdetection,MTLOF),MTLOF 算法的偽代碼如算法1 所示.

    算法1.MTLOF 算法

    首先,采用均勻區(qū)域劃分方法將數(shù)據(jù)空間劃分成多個區(qū)域(如行1)所示),對于內(nèi)部數(shù)據(jù)對象數(shù)量大于等于t·k的區(qū)域,建立一顆Rtree 索引(如行3)~5)所示),否則,如果該區(qū)域的為SetareaSetini的最大者,將區(qū)域內(nèi)的數(shù)據(jù)對象放入初始候選異常點集合Setini(如行6)~7)所示).在數(shù)據(jù)對象較多的區(qū)域內(nèi)建立Rtree 的目的有兩個:一是為了進行基于Cell 的剪枝判斷,二是快速查找每個數(shù)據(jù)對象的k近鄰.

    然后,在Setini集合中隨機選擇n個數(shù)據(jù)對象作為初始Top-n局部異常點,如果Setini內(nèi)少于n個數(shù)據(jù)對象,則從Rtree 集合中選擇覆蓋區(qū)域最大的葉子節(jié)點,從中再隨機選擇初始Top-n局部異常點,并獲取初始臨界值ct,過程如行8)~12)所示.

    之后,開始遍歷所有數(shù)據(jù)對象.首先遍歷Setini剩余的數(shù)據(jù)對象,這是因為這些數(shù)據(jù)對象被Cell 剪枝的可能性較小.如行13)~19)所示,首先利用上界UB3(p)和UB4(p)進行剪枝判斷,若不行,再計算LOF 值,若不能被剪枝,則將p放入Topn取代LOF 值最小的數(shù)據(jù)對象,并更新臨界值ct.接下來開始遍歷Rtree 集合,對于每棵Rtree,從上向下遍歷節(jié)點.根據(jù)引理1 和引理2,如果節(jié)點內(nèi)包含多于k個數(shù)據(jù)對象,并且其邊長則該節(jié)點可被剪枝掉,因此,它的所有子節(jié)點都可以被剪枝掉(行21)~29)所示).對于不能被兩層Cell剪枝策略剪枝的節(jié)點,則需要對內(nèi)部每個數(shù)據(jù)對象進行基于LOF 上界的剪枝判斷,如行31)~37)所示,首先執(zhí)行兩層LOF 上界UB3(p)和UB4(p)的剪枝判斷,若不能通過上界剪枝,再計算LOF 值,若仍大于臨界值ct,則更新Topn和ct.最后,返回最終的Top-n局部異常點集合.

    4 實驗評估

    本節(jié)在6 個真實數(shù)據(jù)集(第4.1 節(jié))上對所提算法進行了綜合評估.首先,在第4.2 節(jié)評估了所提算法的總體效率,然后,在第4.3 節(jié)分別評估了基于Cell 剪枝和基于數(shù)據(jù)對象剪枝的效率,在第4.4節(jié)分別證明了所提的四個上界在剪枝方面的有效性以及初始化優(yōu)化方法的有效性,之后,在第4.5 節(jié)評估了LOF 類算法(MTLOF、LOF、MC、TOLF)與Iforest、Simplified-LOF 算法的異常檢測準確率和效率,在第4.6 節(jié)分析了參數(shù)k和n對所提的MTLOF 及對比算法的效率影響,最后,在第4.7 節(jié)驗證了所提算法在多維數(shù)據(jù)集上的有效性.

    4.1 實驗數(shù)據(jù)與測試方法

    實驗平臺采用Intel Xeon E5-2660 處理器,8核,48 GB 內(nèi)存,Windows sever 2012 操作系統(tǒng).所有算法采用Java 實現(xiàn),MTLOF 源代碼已在Github1https://github.com/LiuFang0812/TopNDetection公開.

    實驗數(shù)據(jù).實驗采用了6 個真實數(shù)據(jù)集,詳細統(tǒng)計信息如表1所示.

    1)Mobike:通過摩拜單車平臺上2https://api.mobike.com/爬取的北京市六環(huán)內(nèi)所有摩拜單車的真實Gps 位置數(shù)據(jù),單車數(shù)量多達五萬輛,該數(shù)據(jù)集僅提取了一天的數(shù)據(jù).

    2)Gowalla[35]:該數(shù)據(jù)集來自移動社交網(wǎng)站Gowalla,包括了19.6 萬用戶在2009 年2 月到2010年10 月的簽到位置數(shù)據(jù),共計644 萬條位置信息,本實驗提取了在北美范圍內(nèi)的數(shù)據(jù),約510 萬條位置信息.

    表1 實驗數(shù)據(jù)集統(tǒng)計信息Table 1 The statistical information of experimental data sets

    3)Geolife[36]:該數(shù)據(jù)集來自微軟亞洲研究院的Geolife 項目,收集了182 名用戶在2007 年4 月至2012 年8 月間的Gps 軌跡數(shù)據(jù),每條Gps 軌跡由帶有時間戳的經(jīng)緯度位置點序列組成.

    4)Massachusetts(Mass)[37]:該數(shù)據(jù)集通過Openstreemap3https://www.openstreetmap.org采集,在美國馬薩諸塞州范圍內(nèi)所有的建筑物的地理位置,數(shù)據(jù)集中的每一行代表一棟建筑物,地理位置采用經(jīng)度和緯度兩個屬性表示.

    5)Skinseg[38]:該數(shù)據(jù)集從不同年齡組(青年、中年、老年)、不同種族(白人、黑人、亞洲人)以及不同性別的人臉照片中隨機采樣的B、G、R 數(shù)值的數(shù)據(jù)集,包含三維特征屬性.

    6)Forestcover[39]:該數(shù)據(jù)集來自科羅拉多北部羅斯福國家森林的四個荒野森林(Neota、Rawah、Comanche Peak 和Cache La Poudre),共包括58 萬多個30×30 平方米的區(qū)域,每個區(qū)域包含了各種樹種的海拔高度、數(shù)量以及坡度等十個屬性.

    7)Subforestcover[39]:該數(shù)據(jù)集選取了Forestcover 數(shù)據(jù)集中所有帶標簽的數(shù)據(jù),共包括28 萬多個對象.Rawah 和Comanche Peak 森林主要生長的物種為黑松,它們的物種和特征變量的范圍(如海拔范圍等)都比較典型,于是把標記為黑松的數(shù)據(jù)記錄視為正常對象,標記類別為2,Cache La Poudre森林主要生長黃松、花旗松和楊木/柳樹,由于相對較低的海拔和物種組成,該森林相比其他森林更為獨特,數(shù)據(jù)集中將標記為楊木/柳樹的數(shù)據(jù)記錄視為異常對象,類別標記為4,異常對象數(shù)量的比例為Subforestcover 數(shù)據(jù)的7%.

    對比算法.為了驗證所提MTLOF 算法的有效性,實驗結(jié)果與LOF 算法[16]、MC 算法[20]以及最新的TOLF 算法[19]、Iforest 算法[33?34]、Simplified-LOF[28?29]進行了對比分析.

    評估指標.針對算法的效率評估,測量了每個算法總的檢測時間,同時還分別測量了數(shù)據(jù)預處理和檢測計算的CPU 時間.為了更好地評估算法性能,實驗部分還對算法的剪枝效果進行了評價.

    4.2 總體效率評估

    首先,在表1 所示的四個二維數(shù)據(jù)集上,評估了我們提出的MTLOF 的效率,并與LOF、MC、TOLF 算法進行了對比分析.

    實驗結(jié)果如圖5 所示,參數(shù)n取0.001%·|D|,由于各數(shù)據(jù)集的數(shù)據(jù)對象數(shù)量及分布不同,在Mobike、Gowalla、Geolife 和Mass 數(shù)據(jù)集,k分別取6、20、20 和30,與TOLF 算法設(shè)置一致,固定diff為10,t為6.

    從圖5 可以看出,MTLOF 算法在四個數(shù)據(jù)集上都表現(xiàn)出了最好的檢測效率,相比LOF、MC 和TOLF 算法,分別平均提升了30、18 和2.6 倍的效率.特別是在大規(guī)模的Geolife 數(shù)據(jù)集,相比最新的TOLF,MTLOF 算法提升的效率高達3.5 倍.MTLOF 和TOLF 都采用了均勻區(qū)域劃分的預處理方法,還對區(qū)域內(nèi)數(shù)據(jù)對象建立了索引結(jié)構(gòu),極大地加快了k近鄰的搜索,減少了數(shù)據(jù)預處理的時間.雖然MC 算法也通過聚類的方法對數(shù)據(jù)進行預處理,在聚類結(jié)果上進行相應(yīng)的剪枝,但是數(shù)據(jù)對象聚類所消耗的預處理時間遠高于建立索引的預處理時間.最新的TOLF 在劃分的區(qū)域內(nèi)建立Cell 網(wǎng)格索引,利用cpmin進行一次Cell 剪枝,然后利用較大的兩個上界進行兩次數(shù)據(jù)點剪枝,然而當區(qū)域內(nèi)的cpmin較小時,幾乎沒有Cell 被剪枝掉,而且執(zhí)行數(shù)據(jù)點剪枝的兩個上界相比真實LOF 值較大且計算量較高.而本文所提的MTLOF 采用了兩層Cell 剪枝策略,除了使用全局的cpmin剪枝,還利用基于Cell 內(nèi)部數(shù)據(jù)對象分布的局部剪枝策略,當cpmin較小時,仍能通過剪枝掉高密度的Cell,此外,我們使用層次的Rtree 代替Cell 網(wǎng)格索引,可以更快速地剪枝掉較大塊的高密度節(jié)點.對于不能被剪枝的節(jié)點內(nèi)的數(shù)據(jù)對象,我們采用了兩個更加接近LOF 值的上界進行剪枝判斷,從而使得被剪枝掉的數(shù)據(jù)對象更多,同時,基于我們的復用計算優(yōu)化,對UB3(p)和UB4(p)的計算完全可復用Cell 剪枝過程中的計算,有效減少了檢測計算成本.MTLOF 效率遠高于TOLF 的另外一個重要原因還在于,我們優(yōu)化了對初始局部異常點的選取,利用預處理過程的區(qū)域劃分和數(shù)據(jù)索引,優(yōu)先在稀疏區(qū)域和Rtree 中覆蓋區(qū)域較大的葉子節(jié)點內(nèi)部選擇初始候選局部異常點,相比隨機選擇方法,大大提升了初始異常點的LOF值,相應(yīng)地,也提升了初始臨界值ct,使得更多的樹節(jié)點在初始階段被快速剪枝.

    圖5 總體效率對比評估Fig.5 Comparison evaluation of overall efficiency

    4.3 剪枝效率評估

    為了驗證算法剪枝的有效性,在上一個實驗的同時,我們還在四個數(shù)據(jù)集上統(tǒng)計了MTLOF 和TOLF 算法的Cell 剪枝及對象剪枝中被剪枝的數(shù)據(jù)對象數(shù)量.MTLOF 算法的統(tǒng)計結(jié)果如表2 所示,TOLF 算法的統(tǒng)計結(jié)果如表3 所示.

    表2 MTLOF 剪枝數(shù)量(%)Table 2 The pruning number of MTLOF(%)

    表3 TOLF 剪枝數(shù)量(%)Table 3 The pruning number of TOLF(%)

    從表2 和表3 可以看到,在四個數(shù)據(jù)集上,MTLOF 的總剪枝的數(shù)據(jù)對象數(shù)量都遠多于TOLF 的總剪枝數(shù)量.在Mobike 和Mass 數(shù)據(jù)集上,MTLOF 算法直接剪枝掉的數(shù)據(jù)對象總量高達98% 以上,在TOLF 剪枝較少的Gowalla 數(shù)據(jù)集上,MTLOF 也直接剪枝了61.8% 的數(shù)據(jù)對象.更為明顯地是,MTLOF 的Cell 剪枝的數(shù)據(jù)量比例都在20%以上,甚至高達40% 以上,而TOLF 的Cell 剪枝比例相對較少,在Mobike 和Gowalla 數(shù)據(jù)集上,TOLF 的Cell 剪枝甚至為0%,這是因為在Mobike和Gowalla 數(shù)據(jù)集的高密度區(qū)域內(nèi),數(shù)據(jù)對象間的最小距離往往非常小甚至為零,在TOLF 的Cell 剪枝中,始終采用為Cell 邊長,當每個區(qū)域的cpmin都很小時,就使得Cell 剪枝失效.而本文所提的MTLOF 除了基于Cell 的全局剪枝,還引入了基于Cell 的局部剪枝,當區(qū)域內(nèi)的cpmin較小時,仍能通過每個節(jié)點(Cell)內(nèi)數(shù)據(jù)對象的進行Cell 剪枝.此外,在同一數(shù)據(jù)集上,MTLOF的數(shù)據(jù)對象剪枝的數(shù)量比例也高于TOLF 的數(shù)據(jù)對象剪枝比例,這是因為MTLOF 采用的兩個上界UB3(p)和UB4(p)更加接近于真實LOF 值,因此,被剪枝掉的數(shù)據(jù)對象更多,這也說明了本文所提的LOF 上界更加合理有效.優(yōu)化的初始局部異常點選擇方法也是MTLOF 算法具有較高的剪枝比例的重要原因,初始臨界值ct越高,被剪枝掉Cell 和數(shù)據(jù)對象數(shù)量也就越多.

    4.4 優(yōu)化有效性評估

    為了評估UB1、UB2、UB3和UB4四個上界在剪枝方面的有效性,本節(jié)在四個二維數(shù)據(jù)集上,分別統(tǒng)計了UB1、UB1+UB2、UB1+UB2+UB3和UB1+UB2+UB3+UB4四種組合情況下的被剪枝的對象數(shù)量,實驗結(jié)果如表4 所示.第二行表示在每個數(shù)據(jù)集上僅利用上界UB1剪枝的對象數(shù)量,第三行表示同時采用UB1和UB2剪枝的對象數(shù)量,第四行表示通過UB1、UB2和UB3總共剪枝的對象數(shù)量,最后一行表示同時使用四個上界時的總剪枝數(shù)量.可以看到,隨著采用上界個數(shù)的增加,表中每行剪枝數(shù)量比例都有所增加,這證明了每個上界剪枝都是有效的.利用上界UB1的Cell 全局剪枝,雖然計算成本較小,但是剪枝的數(shù)量也相對有限.基于UB2的Cell 局部剪枝,雖然需要計算本地所有數(shù)據(jù)對象的k近鄰距離和的均值,但剪枝掉的數(shù)量也相對較多.上界UB3和UB4主要用于剪枝Cell 過程中未被剪枝的對象.根據(jù)第3.2.2 節(jié)分析可知,UB4(p)

    此外,我們還在Mobike 和Gowalla 數(shù)據(jù)集上統(tǒng)計了MTLOF 在采用初始Top-n異常對象優(yōu)化選取方法和沒有采用優(yōu)化選取方法時分別所需的運行時間,實驗結(jié)果如圖6 所示.相比TOLF 算法,沒有采用初始化優(yōu)化方法的MTLOF 在兩個數(shù)據(jù)集上分別提升2.1 和2.5 倍,而采用初始化優(yōu)化的MTLOF 分別提升2.6 和3.4 倍.也就是說,本文所提的剪枝策略在兩個數(shù)據(jù)集上提升2.1 和2.5 倍效率,而初始化優(yōu)化方法又進一步提升1.3 倍和1.4倍.

    表4 MTLOF 每個上界剪枝數(shù)量(%)Table 4 The pruning number of each upper bound in MTLOF(%)

    圖6 初始化優(yōu)化方法有效性評估Fig.6 Effectiveness evaluation of initialization optimization

    4.5 正確性評估

    本節(jié)在Subforestcover 數(shù)據(jù)集上評估了MTLOF 算法以及對比算法LOF、MC、TOLF、Iforest、Simplified-LOF 的準確率和效率.準確率=(R ∩D)/R,其中D表示數(shù)據(jù)集中真實的異常對象集合,R指檢測算法發(fā)現(xiàn)的異常對象集合.

    實驗結(jié)果如圖7 所示,對于MTLOF、LOF、MC、TOLF 和Simplified-LOF 算法,橫坐標表示參數(shù)k值,對于Iforest 算法,橫坐標表示為訓練Itree 而采樣的對象子集數(shù)量m.圖7(a)展示了所有算法檢測結(jié)果的準確率,由于MTLOF、MC 和TOLF 都是通過計算對象的LOF 值來檢查Top-n異常的,所以這三種算法的準確率與LOF 算法一致,同時,實驗結(jié)果也驗證了本文所提剪枝策略的正確性.從圖中還可以看出,LOF 類算法(MTLOF、LOF、MC、TOLF)的準確率在k(m)≥50以后一直優(yōu)于Iforest 和Simplified-LOF 算法.當k取100 時,LOF 類算法的準確率達到最大的93%.而對于Iforest 算法,準確率最高僅達到86%.Simplified-LOF 算法的準確率相對小,最大值僅達到81%,之后不斷增大k值,準確率反而急劇下降,這是因為Simplified-LOF 直接用k-距離代替可達距離,當k值較大時,采用k-距離所表示的局部密度將變的不準確.

    圖7(b)展示了所有算法在參數(shù)變化下的檢測時間,可以發(fā)現(xiàn),MTLOF 的運行時間一直優(yōu)于所有對比算法.隨著k(m)值增加,所有算法所需的運行時間都有所增加,這是因為隨著k的不斷增大,搜索k近鄰的時間不斷增加.盡管如此,MTLOF 在所有測試參數(shù)下的運行時間都少于Iforest 所消耗的時間.MTLOF 相比Simplified-LOF 和Iforest 算法,平均分別提升3.7 和1.5 倍效率.

    4.6 參數(shù)敏感性分析

    本節(jié)在Mobike 和Mass 數(shù)據(jù)集上評估重要參數(shù)k和n的變化對所提MTLOF 算法以及對比算法的效率影響.

    圖7 準確率和效率評估Fig.7 Evaluation of precision and efficiency

    4.6.1 參數(shù)k 影響評估

    固定參數(shù)n=0.001%·|D|,從1 到80 變化參數(shù)k,圖8 展示了四個算法在兩個數(shù)據(jù)集上隨著參數(shù)k變化的總檢測時間.如圖8 所示,MTLOF的檢測效率在兩個數(shù)據(jù)集上的所有測試都一直優(yōu)于三個對比算法,相比LOF、MC 和TOLF 算法分別平均提升了28,19 和2.7 倍.隨著k值的增大,所有算法消耗的總檢測時間越來越長,這是因為k值的增加,使得所有數(shù)據(jù)對象的k近鄰查詢越來越費時,導致總處理時間直線增加.盡管如此,隨著參數(shù)k的增加,MTLOF 比LOF、MC 和TOLF 算法節(jié)省的CPU 時間越來越多,優(yōu)勢越來越明顯,這是因為k值的增加使得Rtree 索引的葉子節(jié)點不斷增大,同時所提的上界也更加接近于真實的LOF 值,致使MTLOF 剪枝掉更多的節(jié)點和數(shù)據(jù)對象,相對對比算法,效率優(yōu)勢越來越明顯.

    4.6.2 參數(shù)n 影響評估

    圖9 展示了算法隨參數(shù)n變化的總檢測時間,在Mobike 數(shù)據(jù)集上固定k=5,在Mass 數(shù)據(jù)集上固定k=10,從1 到1 000 變化參數(shù)n.如圖9 所示,MTLOF 算法在所有參數(shù)下的檢測效率都優(yōu)于三個對比算法,相比最新的TOLF 算法,平均提升了2.75 倍.所有算法的檢測時間相對于n的變化并不明顯.基本的LOF 算法檢測Top-n局部異常分為兩個步驟,首先計算所有數(shù)據(jù)對象的LOF 值,然后排序獲取前n個異常對象,隨著n的不斷變化,排序所花費的時間也會不斷地增加,但是這個排序的時間相比計算LOF 的時間要小的多,使得總的檢測時間并沒有明顯增加.MC 算法首先采用Birch聚類獲得聚類簇,然后按照聚簇的半徑和距離關(guān)系排序聚類簇,僅需在最可能包含異常的簇內(nèi)檢測異常,因此,隨著n的增加,需要檢測的聚簇個數(shù)越多,消耗的總檢測時間也越長,但是MC 在n較小時剪枝掉的數(shù)據(jù)數(shù)量都相對較少,因此,總消耗的檢測時間也沒有明顯增加.TOLF 和MTLOF 算法的檢測時間隨著n的增加而緩慢增加,這是因為n的增加使得初始需要計算LOF 值的數(shù)據(jù)對象增加,盡管如此,由于兩個算法都對數(shù)據(jù)進行了均勻區(qū)域劃分并在區(qū)域內(nèi)建立了索引結(jié)構(gòu),即使n不斷增加,仍然可以通過索引快速查找k近鄰,并通過LOF 上界執(zhí)行剪枝,因此,總檢測時間也沒有急劇增加.隨著n的增加,我們MTLOF 能夠通過提出的UB3(p)和UB4(p)上界剪枝掉更多數(shù)據(jù)對象,相比TOLF,節(jié)省更多檢測時間.

    圖8 參數(shù)k對檢測時間的影響Fig.8 Impact of parameter kon detection time

    圖9 參數(shù)n對檢測時間的影響Fig.9 Impact of parameter non detection time

    圖10 多維數(shù)據(jù)集上的效率評估Fig.10 Efficient evaluation on multi-dimensional datasets

    4.7 多維數(shù)據(jù)上的有效性評估

    最后,在多維數(shù)據(jù)集Skinseg 和Forestcover 上評估了所提算法的有效性.圖10 展示了四個算法在Skinseg 和Forestcover 上的總檢測時間.參數(shù)n固定為0.001%·|D|,k固定為6.在Skinseg 數(shù)據(jù)集上,MTLOF 仍然能比最新的TOLF 算法快了近2.5 倍.雖然Skinseg 數(shù)據(jù)集較小,但本文提出的多粒度的剪枝策略在這個數(shù)據(jù)集上明顯優(yōu)于TOLF 算法.在10 維的Forestcover 數(shù)據(jù)集上,MTLOF 算法也展現(xiàn)了所提剪枝策略的優(yōu)勢,相比LOF、MC和TOLF 算法分別提升了15 倍、12 倍和3 倍的檢測效率,這也說明了MTLOF 在高維數(shù)據(jù)集上具有更高的可擴展性.

    5 結(jié)論

    本文提出了一個面向大數(shù)據(jù)的高效的Top-n局部異常點檢測算法MTLOF.首先,為了避免直接計算數(shù)據(jù)對象的LOF 值,提出了四個計算復雜度更低并且更接近于真實LOF 值的上界.其次,結(jié)合索引結(jié)構(gòu)和LOF 上界,引入了兩層的Cell 剪枝策略.然后,針對未被剪枝的Cell 內(nèi)部數(shù)據(jù)對象,利用UB3(p)和UB4(p)上界提出了兩個更加合理有效的剪枝策略.此外,還利用均勻區(qū)域劃分和建立的索引結(jié)構(gòu),優(yōu)化了初始候選局部異常點的選取方法,使得LOF 值較大的數(shù)據(jù)對象被選取為初始局部異常點.最后,在六個真實數(shù)據(jù)集上的綜合實驗評估驗證了所提MTLOF 算法的有效性,相比LOF、MC 和TOLF 算法,檢測效率可分別提升30、18 和2.6 倍.

    下一步工作將考慮借助分布式計算平臺,設(shè)計分布式異常檢測算法以進一步提升檢測效率,此外,還計劃面向不斷快速增長的海量高速數(shù)據(jù)集,研究實時的Top-n局部異常點檢測方法.

    猜你喜歡
    上界剪枝復雜度
    人到晚年宜“剪枝”
    基于YOLOv4-Tiny模型剪枝算法
    一種低復雜度的慣性/GNSS矢量深組合方法
    一個三角形角平分線不等式的上界估計
    一道經(jīng)典不等式的再加強
    求圖上廣探樹的時間復雜度
    剪枝
    天津詩人(2017年2期)2017-03-16 03:09:39
    某雷達導51 頭中心控制軟件圈復雜度分析與改進
    出口技術(shù)復雜度研究回顧與評述
    Nekrasov矩陣‖A-1‖∞的上界估計
    国产精品综合久久久久久久免费| 国产欧美日韩精品一区二区| av卡一久久| 欧美一区二区国产精品久久精品| 国产高清视频在线观看网站| 男女下面进入的视频免费午夜| 色5月婷婷丁香| 久久久精品大字幕| 直男gayav资源| videos熟女内射| 国产精品麻豆人妻色哟哟久久 | 99热这里只有是精品在线观看| 禁无遮挡网站| 国内精品宾馆在线| 日本欧美国产在线视频| 国产精华一区二区三区| 大香蕉97超碰在线| 国产在视频线精品| 99久久无色码亚洲精品果冻| 国产精品三级大全| 亚洲欧美成人综合另类久久久 | 亚洲最大成人av| 村上凉子中文字幕在线| 99视频精品全部免费 在线| 乱码一卡2卡4卡精品| 精品久久久久久成人av| 欧美成人免费av一区二区三区| 成人二区视频| 啦啦啦啦在线视频资源| 精品一区二区三区视频在线| 天美传媒精品一区二区| 日本猛色少妇xxxxx猛交久久| 亚洲伊人久久精品综合 | 搡女人真爽免费视频火全软件| 最新中文字幕久久久久| 免费观看a级毛片全部| 日韩av在线免费看完整版不卡| 欧美一区二区精品小视频在线| 国产爱豆传媒在线观看| 99久久九九国产精品国产免费| 中文资源天堂在线| 国产色婷婷99| 色尼玛亚洲综合影院| 国产av一区在线观看免费| 色尼玛亚洲综合影院| 色尼玛亚洲综合影院| 狂野欧美白嫩少妇大欣赏| 青春草国产在线视频| 51国产日韩欧美| 51国产日韩欧美| 亚洲国产成人一精品久久久| 国产综合懂色| 啦啦啦观看免费观看视频高清| 99久久人妻综合| 干丝袜人妻中文字幕| 国产视频内射| 中文字幕制服av| 日韩欧美国产在线观看| 老女人水多毛片| 国产淫语在线视频| 国产探花在线观看一区二区| 国产精品不卡视频一区二区| 伊人久久精品亚洲午夜| kizo精华| 国产伦一二天堂av在线观看| 搞女人的毛片| 啦啦啦啦在线视频资源| 精品免费久久久久久久清纯| 久久99热这里只有精品18| 草草在线视频免费看| 国产精品一及| АⅤ资源中文在线天堂| 高清av免费在线| 床上黄色一级片| 高清日韩中文字幕在线| 久久久久久大精品| 激情 狠狠 欧美| 国产国拍精品亚洲av在线观看| 日韩中字成人| 蜜臀久久99精品久久宅男| 你懂的网址亚洲精品在线观看 | 亚洲自拍偷在线| 只有这里有精品99| 人人妻人人澡欧美一区二区| 婷婷色麻豆天堂久久 | 97热精品久久久久久| 最近中文字幕高清免费大全6| 亚洲综合色惰| 七月丁香在线播放| 日韩成人av中文字幕在线观看| 六月丁香七月| 国内精品宾馆在线| 精品欧美国产一区二区三| 欧美xxxx黑人xx丫x性爽| 国产高清有码在线观看视频| 又粗又硬又长又爽又黄的视频| 中文字幕熟女人妻在线| 国产私拍福利视频在线观看| 精品久久久久久久久av| 免费看美女性在线毛片视频| 偷拍熟女少妇极品色| 日日干狠狠操夜夜爽| 免费看美女性在线毛片视频| 少妇裸体淫交视频免费看高清| 激情 狠狠 欧美| 美女xxoo啪啪120秒动态图| 超碰av人人做人人爽久久| 久久午夜福利片| 国语对白做爰xxxⅹ性视频网站| 成人无遮挡网站| 性插视频无遮挡在线免费观看| 91久久精品国产一区二区成人| 女人十人毛片免费观看3o分钟| 丝袜美腿在线中文| 少妇猛男粗大的猛烈进出视频 | 一级爰片在线观看| 久久久久免费精品人妻一区二区| 国产精品1区2区在线观看.| 一区二区三区高清视频在线| 国产亚洲91精品色在线| 欧美日韩精品成人综合77777| 热99在线观看视频| 日韩大片免费观看网站 | 日韩av在线大香蕉| 好男人视频免费观看在线| 久久国内精品自在自线图片| 少妇人妻精品综合一区二区| 女的被弄到高潮叫床怎么办| 超碰97精品在线观看| 一级黄片播放器| 国产成人aa在线观看| 热99re8久久精品国产| 91精品国产九色| av在线老鸭窝| 成人一区二区视频在线观看| 日韩成人伦理影院| 亚洲,欧美,日韩| 成年版毛片免费区| 最近中文字幕2019免费版| 国产女主播在线喷水免费视频网站 | 日韩亚洲欧美综合| 国产真实乱freesex| 亚洲欧美一区二区三区国产| 国产乱来视频区| 色视频www国产| 超碰97精品在线观看| 久久精品国产亚洲av天美| 小蜜桃在线观看免费完整版高清| www.av在线官网国产| 国产精品乱码一区二三区的特点| 国产午夜精品论理片| 91狼人影院| 日韩国内少妇激情av| 久久亚洲国产成人精品v| 黄色配什么色好看| 国产极品精品免费视频能看的| 国产精品综合久久久久久久免费| 国产三级中文精品| 日本色播在线视频| 免费av毛片视频| 亚洲av免费在线观看| 国产视频首页在线观看| 最近中文字幕高清免费大全6| 91精品伊人久久大香线蕉| 一区二区三区免费毛片| 2021少妇久久久久久久久久久| 欧美成人一区二区免费高清观看| 免费在线观看成人毛片| 最近2019中文字幕mv第一页| 久久草成人影院| 一级爰片在线观看| 亚洲国产精品合色在线| 精品不卡国产一区二区三区| 精品一区二区三区人妻视频| 中文欧美无线码| 日韩制服骚丝袜av| 色综合亚洲欧美另类图片| 国产精品久久久久久精品电影| 看非洲黑人一级黄片| av免费在线看不卡| 亚洲国产欧美人成| 久久6这里有精品| 亚洲最大成人手机在线| 久久精品久久久久久久性| 高清在线视频一区二区三区 | 97超碰精品成人国产| 伦理电影大哥的女人| 久久久亚洲精品成人影院| 高清日韩中文字幕在线| 最近最新中文字幕免费大全7| 精品久久国产蜜桃| 视频中文字幕在线观看| 最后的刺客免费高清国语| 在线免费十八禁| 午夜激情福利司机影院| 尤物成人国产欧美一区二区三区| 午夜免费男女啪啪视频观看| 不卡视频在线观看欧美| 在线天堂最新版资源| 亚洲av中文av极速乱| 热99在线观看视频| 综合色丁香网| 乱系列少妇在线播放| 又爽又黄无遮挡网站| 亚洲在线自拍视频| 国产免费男女视频| 最近中文字幕2019免费版| 精品熟女少妇av免费看| 亚洲精品久久久久久婷婷小说 | 亚洲乱码一区二区免费版| 91aial.com中文字幕在线观看| 国产不卡一卡二| 国产成人精品婷婷| 国产黄片视频在线免费观看| 99久国产av精品国产电影| 2021少妇久久久久久久久久久| 建设人人有责人人尽责人人享有的 | 成人毛片60女人毛片免费| 成人三级黄色视频| 国产黄a三级三级三级人| 久久久精品大字幕| 国产伦精品一区二区三区四那| 国产高清不卡午夜福利| 久久国产乱子免费精品| 观看美女的网站| 欧美成人一区二区免费高清观看| 国产精品久久久久久精品电影小说 | 91久久精品电影网| 中文天堂在线官网| 蜜臀久久99精品久久宅男| 亚洲av成人av| 少妇裸体淫交视频免费看高清| 久久久色成人| 亚洲国产精品国产精品| 啦啦啦观看免费观看视频高清| 日日摸夜夜添夜夜添av毛片| 大香蕉久久网| 免费无遮挡裸体视频| 久久热精品热| av免费观看日本| 亚洲欧洲日产国产| 淫秽高清视频在线观看| 国产精品嫩草影院av在线观看| 国产精品久久久久久久久免| 亚洲av成人精品一区久久| 欧美不卡视频在线免费观看| 91aial.com中文字幕在线观看| 婷婷色综合大香蕉| 美女国产视频在线观看| 国产国拍精品亚洲av在线观看| 亚洲欧美日韩卡通动漫| 免费看日本二区| kizo精华| 国产精品一区二区性色av| 亚洲怡红院男人天堂| 狠狠狠狠99中文字幕| 国产成人aa在线观看| 国产 一区 欧美 日韩| 三级经典国产精品| 国产一区二区三区av在线| 国产成人精品婷婷| 国模一区二区三区四区视频| 国产单亲对白刺激| 亚洲av中文字字幕乱码综合| 亚洲激情五月婷婷啪啪| 国产一区二区在线av高清观看| 成人av在线播放网站| 99热这里只有是精品50| 三级男女做爰猛烈吃奶摸视频| 2021天堂中文幕一二区在线观| 高清av免费在线| 69av精品久久久久久| 一级黄片播放器| 青春草视频在线免费观看| 插逼视频在线观看| 亚洲精品成人久久久久久| 中文精品一卡2卡3卡4更新| 嫩草影院入口| 日韩亚洲欧美综合| 国产亚洲一区二区精品| 久久久久久久国产电影| 亚洲人成网站高清观看| 欧美不卡视频在线免费观看| 亚洲国产高清在线一区二区三| 男人舔奶头视频| 亚洲欧美成人综合另类久久久 | 毛片女人毛片| 久久草成人影院| 中文字幕久久专区| kizo精华| 小说图片视频综合网站| 自拍偷自拍亚洲精品老妇| 欧美性猛交黑人性爽| 成人av在线播放网站| 午夜精品一区二区三区免费看| 国产精品1区2区在线观看.| 亚洲欧美成人综合另类久久久 | 亚洲国产精品久久男人天堂| 真实男女啪啪啪动态图| 久久久欧美国产精品| 欧美激情国产日韩精品一区| 亚洲中文字幕日韩| 久久精品久久久久久噜噜老黄 | 亚洲国产精品久久男人天堂| 亚洲国产精品合色在线| 看非洲黑人一级黄片| 我要搜黄色片| 精品99又大又爽又粗少妇毛片| 伦精品一区二区三区| 人妻夜夜爽99麻豆av| 3wmmmm亚洲av在线观看| 91久久精品国产一区二区三区| 99在线视频只有这里精品首页| 联通29元200g的流量卡| av在线观看视频网站免费| 亚洲av免费在线观看| 国产精品嫩草影院av在线观看| videos熟女内射| 亚洲精品aⅴ在线观看| 一边亲一边摸免费视频| 婷婷色av中文字幕| 看免费成人av毛片| 亚洲成人中文字幕在线播放| 舔av片在线| 成年av动漫网址| 国产白丝娇喘喷水9色精品| 国产私拍福利视频在线观看| 男人的好看免费观看在线视频| 青春草视频在线免费观看| 亚洲精品日韩在线中文字幕| 偷拍熟女少妇极品色| 亚洲国产成人一精品久久久| 国产老妇女一区| 国产精品,欧美在线| 18禁在线无遮挡免费观看视频| 精品国内亚洲2022精品成人| 久久欧美精品欧美久久欧美| 国产91av在线免费观看| 天天一区二区日本电影三级| 免费av毛片视频| 麻豆乱淫一区二区| 精品少妇黑人巨大在线播放 | 麻豆成人午夜福利视频| 少妇熟女aⅴ在线视频| 欧美精品国产亚洲| 中文字幕免费在线视频6| 国产午夜福利久久久久久| 一个人免费在线观看电影| 在线播放国产精品三级| 中国美白少妇内射xxxbb| 欧美精品一区二区大全| 国产一区二区在线av高清观看| 熟女人妻精品中文字幕| 日韩在线高清观看一区二区三区| 国产午夜精品久久久久久一区二区三区| 中文精品一卡2卡3卡4更新| 精品人妻熟女av久视频| 18+在线观看网站| 村上凉子中文字幕在线| 午夜亚洲福利在线播放| 天堂影院成人在线观看| 91久久精品电影网| 有码 亚洲区| 免费在线观看成人毛片| 欧美不卡视频在线免费观看| 久久久成人免费电影| 亚洲欧美日韩高清专用| 级片在线观看| 国产精品.久久久| 亚洲精品乱久久久久久| 亚洲欧美一区二区三区国产| 搞女人的毛片| 亚洲av.av天堂| 国产精品久久久久久精品电影小说 | 亚洲av一区综合| 欧美另类亚洲清纯唯美| 亚洲国产精品合色在线| 国产一区二区在线观看日韩| 少妇猛男粗大的猛烈进出视频 | 五月伊人婷婷丁香| 免费观看人在逋| 中文字幕亚洲精品专区| 老司机影院毛片| 中文精品一卡2卡3卡4更新| 日韩亚洲欧美综合| 精品久久久久久久人妻蜜臀av| av播播在线观看一区| 久久午夜福利片| 中文字幕人妻熟人妻熟丝袜美| 精品熟女少妇av免费看| 国产黄a三级三级三级人| 三级毛片av免费| 人妻制服诱惑在线中文字幕| 国内揄拍国产精品人妻在线| 国产精品久久视频播放| 联通29元200g的流量卡| 自拍偷自拍亚洲精品老妇| 免费大片18禁| 男人狂女人下面高潮的视频| 国产精品.久久久| 免费电影在线观看免费观看| 成人性生交大片免费视频hd| 一个人看视频在线观看www免费| 亚洲精品成人久久久久久| 国产精华一区二区三区| 看片在线看免费视频| av免费观看日本| 欧美成人a在线观看| 高清毛片免费看| 日本黄色视频三级网站网址| 国产精品三级大全| 免费看av在线观看网站| 亚洲色图av天堂| 国产精品三级大全| 秋霞在线观看毛片| 国产毛片a区久久久久| 日韩欧美三级三区| 成人鲁丝片一二三区免费| 日本免费在线观看一区| 一级毛片电影观看 | 51国产日韩欧美| 亚洲,欧美,日韩| 99久久中文字幕三级久久日本| 免费观看的影片在线观看| 精品久久久噜噜| 久久久久久九九精品二区国产| 麻豆国产97在线/欧美| 国产人妻一区二区三区在| a级一级毛片免费在线观看| 亚洲精品久久久久久婷婷小说 | 亚洲精品456在线播放app| 国产精品不卡视频一区二区| 汤姆久久久久久久影院中文字幕 | 国产免费一级a男人的天堂| 麻豆国产97在线/欧美| 亚洲人与动物交配视频| 亚洲丝袜综合中文字幕| 日韩人妻高清精品专区| av视频在线观看入口| 欧美xxxx性猛交bbbb| 亚洲经典国产精华液单| a级毛片免费高清观看在线播放| 99热这里只有精品一区| 99视频精品全部免费 在线| 变态另类丝袜制服| 精品久久久久久成人av| 九九在线视频观看精品| 精品午夜福利在线看| 久久99热6这里只有精品| 国产高清不卡午夜福利| www.色视频.com| 午夜免费激情av| 看黄色毛片网站| 精品国产三级普通话版| 久99久视频精品免费| 国产精品一区二区三区四区免费观看| 久久久久久久久久黄片| 桃色一区二区三区在线观看| 国产精品不卡视频一区二区| 欧美日本亚洲视频在线播放| 日日干狠狠操夜夜爽| 人妻系列 视频| 午夜福利在线观看免费完整高清在| 久久久精品欧美日韩精品| 国产成人精品一,二区| 搡女人真爽免费视频火全软件| 亚洲国产精品成人久久小说| 色综合色国产| 久久久精品欧美日韩精品| 日韩欧美国产在线观看| 深夜a级毛片| 国产精品国产三级国产专区5o | 成人漫画全彩无遮挡| 国产在线一区二区三区精 | 欧美性猛交╳xxx乱大交人| 99热这里只有是精品50| 亚洲欧洲国产日韩| 干丝袜人妻中文字幕| 亚洲电影在线观看av| 91精品伊人久久大香线蕉| 天天一区二区日本电影三级| 欧美性猛交黑人性爽| 尤物成人国产欧美一区二区三区| 国产乱人视频| 免费搜索国产男女视频| 亚洲在线自拍视频| 日韩精品青青久久久久久| 六月丁香七月| 亚洲欧美日韩东京热| 综合色av麻豆| 成人欧美大片| av又黄又爽大尺度在线免费看 | 波野结衣二区三区在线| 久久综合国产亚洲精品| 国产成人午夜福利电影在线观看| 长腿黑丝高跟| 免费黄网站久久成人精品| 婷婷色麻豆天堂久久 | 免费无遮挡裸体视频| 青春草亚洲视频在线观看| 可以在线观看毛片的网站| 久久婷婷人人爽人人干人人爱| 国产中年淑女户外野战色| 1000部很黄的大片| 99国产精品一区二区蜜桃av| 日韩在线高清观看一区二区三区| АⅤ资源中文在线天堂| 亚洲av成人精品一区久久| 色噜噜av男人的天堂激情| 美女高潮的动态| av在线蜜桃| 午夜福利视频1000在线观看| 在线a可以看的网站| 亚洲精品影视一区二区三区av| 国产毛片a区久久久久| 日本免费a在线| 亚洲欧美成人精品一区二区| 久久精品综合一区二区三区| av在线老鸭窝| 草草在线视频免费看| 久久精品国产亚洲网站| 波多野结衣高清无吗| 国产黄色视频一区二区在线观看 | 六月丁香七月| 不卡视频在线观看欧美| 我要搜黄色片| 欧美激情国产日韩精品一区| 嫩草影院精品99| 国产大屁股一区二区在线视频| 亚洲欧美精品自产自拍| 97在线视频观看| 国产日韩欧美在线精品| 日韩精品有码人妻一区| 蜜桃亚洲精品一区二区三区| 亚洲欧美日韩无卡精品| 午夜爱爱视频在线播放| 免费无遮挡裸体视频| 少妇丰满av| 久久精品夜色国产| 国产精品综合久久久久久久免费| 麻豆成人午夜福利视频| 精品国产露脸久久av麻豆 | 亚洲真实伦在线观看| 久久人人爽人人片av| 亚洲精品久久久久久婷婷小说 | 一级爰片在线观看| 国产欧美另类精品又又久久亚洲欧美| 国产乱人偷精品视频| 久久99热这里只有精品18| 久久精品国产亚洲av天美| 亚洲欧美精品专区久久| 亚洲最大成人手机在线| 人人妻人人澡人人爽人人夜夜 | 日本五十路高清| 老司机影院成人| av.在线天堂| 少妇猛男粗大的猛烈进出视频 | 高清日韩中文字幕在线| 久久精品久久久久久久性| 村上凉子中文字幕在线| 成人鲁丝片一二三区免费| 亚洲自拍偷在线| 婷婷色av中文字幕| 国产一区二区三区av在线| 欧美成人精品欧美一级黄| 国产不卡一卡二| 久久精品国产鲁丝片午夜精品| 久久久久久久久久黄片| 久久这里有精品视频免费| 偷拍熟女少妇极品色| 天天一区二区日本电影三级| 卡戴珊不雅视频在线播放| 99久久九九国产精品国产免费| 最近中文字幕高清免费大全6| 伦理电影大哥的女人| 国模一区二区三区四区视频| 成年女人看的毛片在线观看| 男人和女人高潮做爰伦理| 国产精品一区二区性色av| 免费黄色在线免费观看| 91午夜精品亚洲一区二区三区| 麻豆av噜噜一区二区三区| 五月伊人婷婷丁香| 日本三级黄在线观看| 精品久久久久久电影网 | 国产av在哪里看| 日韩 亚洲 欧美在线| 午夜福利高清视频| 狂野欧美白嫩少妇大欣赏| 久久久午夜欧美精品| 人妻少妇偷人精品九色| 高清午夜精品一区二区三区| 午夜免费激情av| 免费av不卡在线播放| 午夜福利在线观看吧| 国产黄片美女视频| 亚洲国产精品成人综合色| 国产探花极品一区二区| 久久精品影院6| 午夜精品一区二区三区免费看| 国产精品人妻久久久影院| 久久精品国产鲁丝片午夜精品| 精品久久久久久久久亚洲| 又爽又黄无遮挡网站| 亚洲欧美日韩无卡精品| 国产69精品久久久久777片| 日韩av在线免费看完整版不卡| 在线免费十八禁| ponron亚洲| 日韩 亚洲 欧美在线| 亚洲精品乱码久久久久久按摩| 简卡轻食公司| 国产高潮美女av| 水蜜桃什么品种好| 日本黄色视频三级网站网址|