• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于隨機森林的實體識別方法

    2018-03-26 15:13:32聶鐵錚申德榮
    集成技術 2018年2期
    關鍵詞:決策樹相似性增益

    楊 萌 聶鐵錚 申德榮 寇 月 于 戈

    (東北大學計算機科學與工程學院 沈陽 110819)

    1 引 言

    隨著信息領域各項技術的飛速發(fā)展,數(shù)據(jù)呈爆炸式增長,以數(shù)據(jù)為中心的系統(tǒng)得到了廣泛的應用。雖然各類應用系統(tǒng)中存儲了大量數(shù)據(jù),但這些信息并非總是正確無誤的,即可能存在各種問題。一個典型的問題就是不同的數(shù)據(jù)提供方對同一個事物及實體可能會有不同的描述(包括數(shù)據(jù)格式、表示方法等),為此需要實體識別技術進行數(shù)據(jù)清洗。實體識別也稱作實體解析,是從“引用集合”中解析并映射到現(xiàn)實世界中“實體”的過程。記錄鏈接則是一種面向結構化數(shù)據(jù)的實體識別技術,目的是從數(shù)據(jù)集中識別和聚類表示同一實體的記錄。

    現(xiàn)有研究工作中,有基于記錄的組鏈接[1]和基于記錄的實體鏈接。其中,組鏈接是指把表示同一類的實體放到相同的聚簇中;實體鏈接是把表示同一個實體的記錄方法放到相同的聚簇中。本文主要研究實體鏈接。基于所處理的數(shù)據(jù)對象,實體識別技術可以分為兩類:面向靜態(tài)數(shù)據(jù)的實體識別和面向演化數(shù)據(jù)的實體識別。

    面向靜態(tài)數(shù)據(jù)的實體識別方法:從數(shù)據(jù)集中識別和聚類表示同一實體的記錄,對相似度達到一定閾值的記錄做聚類操作,從而獲得表示同一個實體的記錄簇,而不同簇中的記錄認為表示不同的實體。實體間相似性一般根據(jù)領域知識設定匹配規(guī)則度量標準[2],可通過編輯距離和歐氏距離計算[3],也可以用機器學習訓練分類器的方法實現(xiàn)[4]?;谙嗨菩詫嶓w進行聚類的方法有鄰接性聚類[2]、相關性聚類[5,6]、密度聚類[7-9]。

    面向靜態(tài)數(shù)據(jù)的實體識別方法在很多情況下并不適用。在現(xiàn)實應用中,實體記錄的某些屬性值通常會隨時間或解釋的變化而發(fā)生演化,而面向靜態(tài)數(shù)據(jù)的實體識別方法無法根據(jù)屬性值的演化調整相似性的計算結果。

    面向演化數(shù)據(jù)的實體識別,是考慮數(shù)據(jù)隨時間的變化而變化的特性即考慮時間特征,體現(xiàn)了數(shù)據(jù)的動態(tài)性和演化性。Li 等[10]在計算記錄的相似性時考慮了記錄的時間特征:考慮時間的流逝對記錄改變的影響,基于延遲提出了 early binding、late binding、adjusted binding 三個聚類算法。之后 Hu 等[11]提出了基于時序特征的記錄鏈接的改進方法;Chiang 等[12]提出了兩階段聚類的方法;Chiang 等[13]提出了 mutation 模型,用來檢測一個給定屬性的值經(jīng)過一段時間之后該值重復出現(xiàn)的概率;Li 等[14]提出了 source-aware temporal matching 算法,整合不同的數(shù)據(jù)源,豐富實體的信息。除此以外,還有基于增量的實體識別方法,從匹配規(guī)則的演化[11]及數(shù)據(jù)的演化[15-17]兩方面為依據(jù)探討記錄鏈接的增量問題。

    對于演化數(shù)據(jù),實體記錄的某些屬性值通常會發(fā)生變化。其中有些實體屬性會隨著時間的變化而發(fā)生規(guī)律性演化,但也有實體屬性的演化不具有規(guī)律性,因此很難抽取出其演化的規(guī)律。對于不規(guī)律演化的數(shù)據(jù),基于演化的實體識別方法聚類的結果準確度并不高。這是因為對于這種不規(guī)律的變化也使用規(guī)律變化的準則結果會產(chǎn)生偏差。為此,本文的工作將解決不規(guī)律演化實體的識別問題。

    本文提出一個基于隨機森林的兩階段聚類實體識別模型:利用已有的數(shù)據(jù)集,訓練出隨機森林。其中,隨機森林是由很多棵決策樹組成的,每棵樹的輸入是任意兩條記錄,輸出是兩個記錄的相似度結果。在最后的聚類結果,利用前面記錄的相似度結果,進行兩階段聚類,其中保證簇內的記錄盡可能完整,同時盡可能多的簇被發(fā)現(xiàn),提高聚類結果的準確性。主要貢獻如下:

    (1)提出基于隨機森林的記錄相似度計算模型。該相似度模型充分考慮實體記錄變化的不規(guī)律性,從而動態(tài)地、準確地衡量記錄的相似性。

    (2)提出一個新型的兩階段聚類算法。簇的聚類過程分為兩個階段:第一階段進行核聚類,把盡可能多的已經(jīng)確定的記錄放在相同的簇中;第二階段進行端點聚類,能夠將剩余的記錄和已知的簇合并或者合并已有的簇,保證簇內記錄盡可能完整,盡可能多的簇被發(fā)現(xiàn)。

    (3)在真實的數(shù)據(jù)集上對提出的算法進行充分的實驗評價,驗證算法的有效性。與已有的聚類算法對比,該算法能夠有效提高演化實體的識別準確性。

    本文組織結構如下:第 2 節(jié)介紹準備工作,包括實體識別模型和問題描述;第 3 節(jié)對連續(xù)值的決策樹和隨機森林進行了定義;第 4 節(jié)介紹了基本的隨機森林計算相似度算法框架,并提出防止過擬合的優(yōu)化算法;第 5 節(jié)通過實驗與分析將本文工作與已有工作進行對比,證明其有效性;第 6 節(jié)總結全文。

    2 準備工作

    2.1 實體識別模型

    基于聚類方法的實體識別模型包括相似度計算模塊和聚類決定模塊,具體如圖 1 所示。整個模型輸入待判斷數(shù)據(jù)集,輸出識別結果。

    圖1 實體識別模型Fig. 1 The similarity algorithm based random forest

    2.1.1 相似度計算模塊

    該模塊調用匹配函數(shù)得到候選記錄對的相似度[18],得到的相似性結果介于[0,1]。相似度的值越大,表示兩個數(shù)據(jù)對象越有可能表示同一個實體。其中,最大值 1 代表兩個記錄表示同一個實體,最小值 0 代表兩條記錄表示不同實體。每個記錄包含多個屬性,不同屬性可能是不同類型的數(shù)據(jù)。在確定記錄對相似度之前,針對每個屬性調用特定的相似度函數(shù)來計算其相似度,確定記錄對的對應屬性的相似性。在此基礎上需要設計恰當?shù)慕M合函數(shù)來將這些相似度合理地融合成一個綜合相似度。組合函數(shù)可以是線性函數(shù)、非線性函數(shù)或者其他類型的函數(shù)[3-5],如加權求和就是線性函數(shù)。在考慮時間屬性的實體識別方法中[10-13],根據(jù)時間為每個屬性分配一個權值,綜合相似性則為所有屬性的加權和。綜合相似度能有效地估計一個候選記錄對是否對應同一實體。除了使用上述綜合相似度方法來計算相似度外,也可以用機器學習中的監(jiān)督方法(如支持向量機、決策樹、EM 算法[3,19]和主動學習[20])計算記錄對的相似性。相似度計算模塊的輸入是候選數(shù)據(jù)對象的集合,輸出是每個候選對與其相似度組成的三元組。

    2.1.2 聚類決定模塊

    該模塊基于候選記錄對的相似度,把表示同一個實體的記錄放到一個簇中。在前一階段作出表象局部相似性判斷后,可以對實體進行鄰接性聚類、相關性聚類或密度聚類,利用相似度閾值以及傳遞閉包確定記錄是否屬于同一個簇。Li 等[10]逐個判斷每一個簇和記錄的相似度閾值,選擇相似度最大的記錄和簇:如果這個相似度的值大于預先設定好的閾值,則記錄和簇中表示同一個實體,從而把記錄和簇合并,否則為記錄新建一個簇。如果記錄與多個簇的相似度都大于閾值,則判斷是否將兩個簇合并。文獻[21-26]使用多個已有的聚類算法對數(shù)據(jù)集合進行聚類來得到匹配結果,獲得了比基于閾值的匹配方法更好的識別結果。聚類決定模塊的輸入是相似對集合,輸出是識別結果。

    本文重點研究相似度匹配問題以及匹配后的聚類問題,針對監(jiān)督的實體識別提出基于隨機森林的實體識別方法。

    2.2 問題描述

    真實世界的實體用E表示,一個實體可能被多個數(shù)據(jù)記錄(用r表示)所描述,每一個記錄都包括k個特征,屬性的特征集記作數(shù)據(jù)對象集合記對于任何一個記錄表示記錄的特征的值。任何一對數(shù)據(jù)記錄都是候選匹配對相似對是三元組,包括一個候選匹配對和它們的相似度Simij,記作相似對構成一個集合

    本文提出采用隨機森林方法計算記錄的相似性,根據(jù)相似性把表示同一個實體的記錄放到相同的簇中。因此,同一個簇中的記錄表示同一個實體,不同簇中的記錄表示不同的實體。

    3 隨機森林

    本文模型中采用余弦相似度來度量記錄屬性的相似度,在計算記錄的相似性時采用了隨機森林的方法。這是因為隨機森林對有偏差的數(shù)據(jù)有很好的泛化能力。它是以決策樹為基學習器,可構建多個基學習器,且每個基學習器都能得到記錄的相似性結果,綜合所有基學習器的結果,得到最終的相似性結果。

    3.1 決策樹

    決策樹是一個樹結構,每個非葉節(jié)點表示一個特征屬性上的判斷,每個分支代表這個特征屬性在某個值域上的輸出,而每個葉節(jié)點存放一個類別。使用決策樹進行決策的過程就是從根節(jié)點開始,測試待分類項中相應的特征屬性,并按照其值選擇輸出分支,直到到達葉子節(jié)點,將葉子節(jié)點存放的類別作為決策結果。在這個問題中,根節(jié)點的輸入是兩個記錄的屬性集合,中間節(jié)點表示對某個屬性的決策,葉節(jié)點的輸出結果表示兩條記錄是否對應于同一個實體。

    本文采用 ID3 方法。該方法以信息增益和信息增益率兩種方法選擇分裂特征。首先計算信息熵,用來衡量樣本集合純度的指標,其中表示在集合D中第k類樣本所占的比例。則信息增益的計算公式為:

    其次,給定樣本集D和連續(xù)屬性a,將屬性a上出現(xiàn)的n個值按從大到小排序,記為基于劃分點t將D分為子集和其中,包含那些在屬性a上取值小于t的樣本,而則包含那些在屬性a上取值大于t的樣本,即把的中位點作為候選劃分點。其中,劃分點集合為:

    最后分別利用信息增益(Gain)和信息增益率(Gain_ratio)來考察這些劃分點,選擇使 Gain(D,a,t) 最大的劃分點t和對應的特征a作為切分點;以及使 Gain_ ratio(D,a,t) 最大的劃分點t和對應的特征a作為切分點。

    3.2 隨機森林

    到目前為止,基于隨機森林的方法解決了很多實際問題[27]。本文采用隨機森林的方法計算記錄的相似度。隨機森林是用隨機的方式建立一個森林,森林由很多決策樹組成,但決策樹之間不具有關聯(lián)性。當有一個新的輸入樣本進入時,用森林中的每一棵決策樹分別進行判斷,得到該樣本應該屬于哪一類(對于分類算法);之后判斷哪一類被選擇得最多,據(jù)此預測該樣本為選擇最多的那一類。而本文提出的隨機森林的方法,輸入的是一個記錄對,通過決策樹判斷該記錄對是否表示同一個實體,整合所有決策樹的結果,得到記錄對最終的相似性。

    建立決策樹的過程中,需要注意兩點:采樣和完全分裂。首先是兩個隨機采樣的過程,隨機森林對輸入的數(shù)據(jù)要進行行、列采樣。對于行采樣,采用有放回的方式,也就是在采樣得到的樣本集合中,可能有重復的樣本。假設輸入樣本為N個,那么采樣的樣本為n(n<N)個。這樣使得在訓練的時候,每一棵樹的輸入樣本都不是全部的樣本,從而不容易出現(xiàn)過擬合。然后進行列采樣,從M個特征中,選擇m個,一般地,令m=log2M。之后對采樣的數(shù)據(jù)使用完全分裂的方式建立決策樹,這樣決策樹的葉子節(jié)點要么是無法繼續(xù)分裂的,要么里面的所有樣本都是指向同一個分類。

    4 算法模型

    4.1 基于隨機森林的相似性算法

    計算兩條記錄的相似性是實體識別過程中的基礎。針對這個問題,本文提出了一個隨機森林算法來計算記錄的相似性。該算法的思想是,從樣本集N中隨機選擇n個樣本和m個屬性,利用所選的樣本和屬性構建一棵決策樹,重復這個過程。決策樹的輸出結果用來計算兩個記錄是否表示同一個實體,構建隨機森林的詳細算法見表1。

    如算法 1 所示,先把記錄集中所有記錄兩兩配對,組成一個三元組其中,ri、rj表示兩條記錄;Simij表示匹配結果。如果兩個記錄對應同一個實體,則Simij=1;如果兩個記錄對應不同實體,則Simij=0。然后把這個三元組添加到集合N中(第 2 行),有放回地從訓練集R中隨機選擇n個樣本(每次隨機選擇一個樣本,然后返回繼續(xù)選擇)。將選擇好的n個樣本作為決策樹根節(jié)點處的樣本(第 4 行),一般選擇N中的 80%,即n=N×80%。接著,進行列采樣,每次隨機地從所有特征中選擇m個特征滿足條件(第 5 行)。通過算法 1,已選擇每棵決策樹的數(shù)據(jù)集和特征,接下來就是利用算法2(如表2)對n個樣本記錄和m個特征構建決策樹,此時的決策樹是多變量決策樹。

    表1 隨機森林的算法Table 1 The algorithm of random forest

    表2 連續(xù)值的多變量決策樹的訓練算法Table 2 The training algorithm of continuous value and multivariable decision tree

    多變量決策樹是指每次選擇完一個切分點aj時,并不將aj從原始的特征集A中剔除,下次選擇的時候仍然是從全部選中的特征集中選擇特征和特征值中選擇切分點,即每次都對所有的特征計算信息增益或信息增益率的值。

    多變量決策樹的構建由算法 2 實現(xiàn)。該算法基本思想是,利用公式(2)計算所有特征的劃分點集合,并計算特征和對應劃分點的信息增益的值,最終選擇信息增益最大的值對應的切分點(特征、特征值),一步步構建決策樹。在這個算法中,先判斷這些實例是否屬于同一個類,如果D中所有實例屬于同一類Ck,則置T為單節(jié)點樹,并將Ck作為該節(jié)點的類,返回T(第 1 行);否則根據(jù)某特征的特征值對記錄排序,選擇兩個連續(xù)的特征值的中值作為切分點的特征值,選擇信息增益最大的切分(amax,t)(第 2~3 行)。如果切分點信息增益的值小于預先設定的θ,則此時樹不再分裂,返回T(第 4~6 行);否則選擇對應的特征和特征值作為切分點,根據(jù)切分點把數(shù)據(jù)集切分為兩部分(第 7~8 行),對應于一棵子樹的兩個分支,分別重復地在上面的分支上計算信息增益,選擇切分點、切分子樹,直到子樹不能再分裂(第 9 行)。

    以上選用的是計算信息增益的最大值,同時還可以計算信息增益率的最大值,其過程除了計算公式與前者不同外,其他步驟完全相同。

    通過上述過程,已經(jīng)構建完k棵決策樹。在計算兩條記錄的相似性時,需要用所有決策樹的結果判斷每棵決策樹的結果是 1 或 0。因此,最后的相似性使用公式(3)計算。

    其中,n1表示投票結果是 1 的決策樹個數(shù)。通過上式可知,Sim(r1,r2)的值越大,則兩個記錄的相似性越高;該值越小,則兩條記錄的相似性越低。其中,最高相似性的值為 1,表示所有的決策樹都認為這兩個記錄對應的是同一個實體;最低相似性的值是 0,表示所有的決策樹都認為這兩個記錄不表示同一個實體。

    4.2 記錄的聚類模型

    通過上文的計算,可以得到任何兩條記錄的相似性。把具有高度相似性的記錄對合并成簇,即表示同一個實體的記錄合并;使表示同一個實體的記錄都放在相同的簇中,表示不同實體的記錄放在不同的簇中。這個過程分為兩個階段:第一階段是核聚類,該過程把能夠確定的具有高度相似的記錄放在同一個簇中;第二階段是邊緣聚類,或合并剩余的記錄和已知的簇,或合并兩個已知簇(如圖 2)。核聚類主要是指利用傳遞閉包的思想,如果Sim(r1,r2)=1 且Sim(r1,r3)=1,則可以判斷r1、r2、r3表示的是同一個實體,即r1、r2、r3位于同一個簇中。所有的記錄經(jīng)過上述判斷,把表示通過傳遞關系得到的相似度為1 的記錄對放在相同的簇中,可以得到幾個核心簇,每一個核心簇對應著同一個實體,且每個記錄僅屬于一個實體。接著就是利用核心簇的結果進行邊緣聚類。具體過程如算法 3(表3)所示。

    圖2 邊緣聚類中合并兩個簇的情況Fig. 2 The case of merging two clusters

    在以上的邊緣聚類算法中,主要處理記錄的相似性在e~1 的記錄對。將D中的所有結果分類,把相似度范圍為的三元添加到一個集合B中(第 2 行)。對于三元組中的數(shù),如果r1、r2位于同一個簇中,則說明兩個記錄通過前面的傳遞閉包算法,已經(jīng)合并,無需再考慮兩個記錄(第 5~6 行)。如果r1、r2位于兩個不同簇中,則先暫時不考慮這兩個記錄,為兩個記錄對應的簇新建一個三元組如果三元組或(m>0)在F中已經(jīng)存在,則更新三元組中m值,令m=m+1;否則將三元組添加到F中(第 7~12 行)。如果兩個記錄r1、r2有一個記錄r1位于已知的簇ci中,另一個r2沒有位于任何一個已知的簇中,計算r2與ci中記錄相似度大于e的個數(shù),記為p。如果,則將兩個記錄都和這個已知的簇合并,否則為r2新建一個簇(第 13~18 行)。如果兩個記錄r1、r2沒有位于任何一個已知的簇中,則為r1、r2新建一個簇(第 19~20 行)。接著對于F中的三元組遍歷,如圖 3 所示,如果中m的值為兩個簇中連接線的個數(shù),且的值,則將兩個簇合并(第 25~28 行)并將三元組從集合F中刪除,直到F為空。

    表3 邊緣聚類算法Table 3 The algorithm of edge clustering

    4.3 基于隨機森林的相似性改進算法

    利用算法 2 構建決策樹時,在一棵樹的分支部分可能會出現(xiàn)如圖 3(a)所示的情況。相似度小于 0.68 的記錄對表示同一個實體,而相似度大于0.68 的記錄對反而表示不是同一個實體,這顯然與實際是相悖的。

    圖3 決策樹分裂后產(chǎn)生與事實相悖情況的子樹圖Fig. 3 The subtree is contrary to the facts in the decision tree

    對于上圖中的問題,有多種解決辦法,本文采用了一個強制手段。如果按切分點劃分時出現(xiàn)了圖 3 中的這種情況,強制在該階段不能以該特征和特征值作為切分點。因此進一步對算法 2 進行改進。在每一次選擇完切分點的時候進行檢查,檢查該切分點中的部分會不會輸出結果為 1(表示同一個實體),如果是,則需要重新選擇下一個信息增益最大的點,再判斷是否會產(chǎn)生這種現(xiàn)象。除此之外,還有一種情況如圖 3(b),即部分的結果會輸出 0(表示不同實體),即當屬性的相似度大于某一個值時表示不同的實體,當屬性的相似度小于某一個值時反而可能表示相同的實體。這種情況與前面采取的措施是一樣的,即對每一個分割點增加一次判斷。最終的算法如算法 4(表4)所示,該算法與算法 2 基本相同,只是在第 7 行后增加了一次判斷:對每一個部分判斷其結果是不是全是 0(表示不同實體);對每個部分判斷其結果是不是全是1(表示相同實體),如果不是才可以選擇該點作為切分點,否則重新選擇新的切分點并判斷。

    表4 連續(xù)值的多變量決策樹的改進算法Table 4 The improved training algorithm of continuous value and multivariable decision tree

    5 實驗評價

    5.1 實驗設置

    實驗使用基于 DBLP 數(shù)據(jù)創(chuàng)建的數(shù)據(jù)集。該數(shù)據(jù)集包含了 12 401 條引文記錄,對應于 1 239個實體,其屬性包含引文作者姓名、引文標題、引文作者單位、引文的其他作者、引文發(fā)表時間。屬于同一個實體的某些屬性可能不同,但屬于不同實體的某些屬性值也有可能相同。本文通過在此數(shù)據(jù)集上實驗,對本文提出的基于隨機森林的實體識別算法的性能進行測試。

    對算法的性能采用準確率和召回率進行評價,采用準確率和召回率的調和平均數(shù)F評價實體識別結果的精度。

    實驗采用 Intel(R)Core(TM)i7-26003.4 GHz處理器,8 G 內存,Microsoft Windows 864 位操作系統(tǒng)進行數(shù)據(jù)處理。

    本實驗旨在解決,變化頻繁且變化與時間沒有規(guī)律的記錄的實體識別問題,從計算記錄的相似度,到最終的聚類算法都提供了一個新型的解決方案。

    5.2 實驗結果與分析

    5.2.1 參數(shù)測試

    在 DBLP 數(shù)據(jù)集上測試決策樹構建算法(算法 2)中的信息增益和信息增益率的閾值參數(shù)θ對最終結果的影響。由圖 4 可以看出,隨著θ增加,準確率(P)變化趨勢是先增高后下降,最終趨于穩(wěn)定:在開始階段逐漸增高,達到最大值后開始下降,最后基本保持不變。召回率(R)的值隨著θ的增大而增加,達到了最大值后隨著θ的增加緩慢減少。精確性(F)的走向基本和準確率的一樣:在開始階段逐漸增高,達到最大值后開始下降,最終趨于穩(wěn)定。在信息增益的試驗中,最終結果最好的θ取值為 0.001 6 時,準確率、召回率和精確性都很高;當θ>0.005 時,準確率、精度值都很低。在信息增益率的試驗中,當θ取值為 0.09 時,準確率、召回率和精確性都很高;當θ>0.2 時,準確率、精度值都很低。閾值較低時造成了過擬合,閾值較高時造成了欠擬合,造成了最終結果出現(xiàn)偏差,準確率和F精度值都很低。

    圖4 在 DBLP 數(shù)據(jù)集上測試參數(shù) θ 對聚類的影響Fig. 4 Tests of the parameter θ influence on clustering on DBLP

    另外,還檢測了 DBLP 數(shù)據(jù)集上聚類算法(算法 4)中的相似度閾值參數(shù)e對算法效果的影響。從圖 5(a)可以看出,準確率(P)在開始階段逐漸提高,當P達到最大值后,隨著e的一直增大,P仍能保持較高的水平。召回率(R)隨著e的增大一直維持在較高的水平,之后隨著e的增加開始下降。精確性(F)的走向基本和準確率是一樣的,隨著e的增大,精確性一直增大到最大值,之后隨著e的增大開始減小。從圖 5(b)可以看到 3 條曲線的走勢和圖 5(a)是一致的。產(chǎn)生這種現(xiàn)象的原因是,相似度閾值越高,越能保證同一個簇中的記錄越準確,即準確率越高,但是簇中發(fā)現(xiàn)的記錄越不全,即召回率越低。

    圖5 在 DBLP 數(shù)據(jù)集上測試參數(shù) e 對聚類的影響Fig. 5 Tests of the parameter e influence on clustering on DBLP

    5.2.2 算法性能對比

    本文提出了一個隨機森林的相似度計算方法(RFBas)(見算法 2)以及基于該隨機森林的相似度算法的改進算法(RF)。改進算法考慮了事實情況,構建決策樹時,當按某個相似度分類時,相似度大于某一個值判斷為不同實體,相似度小于某一個值判斷為相同實體,把這些與事實相悖的分類情況剔除,得到最終的聚類結果。兩個算法的對比結果如圖 6 所示,可以看出改進之后的算法,準確率、召回率和精確性都有所提高。以信息增益為特征選擇方法改進后提高了 0.6%,以信息增益率為特征選擇方法改進后提高了2.8%,因此改進后的決策樹構建方法優(yōu)于改進前的決策樹構建方法。

    圖6 基本隨機森林算法與改進算法在 DBLP 數(shù)據(jù)集上對比Fig. 6 Comparisons between basic RF and improved RF on DBLP

    5.2.3 隨機森林與決策樹方法對比

    本文選擇了兩種劃分決策樹的方法:信息增益和信息增益率,即基于信息增益的決策樹方法和基于信息增益率的決策樹方法,與之對應的是基于信息增益的隨機森林方法和基于信息增益率的隨機森林方法。基于這 4 種方法來計算記錄相似性,結果如圖 7 所示。由圖 7 可以看出,隨機森林的方法在準確率、召回率、F精度值上都比相應的決策樹方法要好。產(chǎn)生這種結果的原因是,隨機森林的方法綜合了所有結果的投票,防止了數(shù)據(jù)傾斜。在這個實驗中,利用信息增益的方法比利用信息增益率方法的F值較高。并且使用信息增益的方法比使用信息增益率算法的P、R、F值都較高,這是因為信息增益率更加適合于特征值種類比較多的情況。

    圖7 基于信息增益和信息增益率的森林算法的對比Fig. 7 Comparisons between RF+Gain and RF+Gain_ratio

    5.2.4 與已有工作對比

    傳統(tǒng)的相似性一般根據(jù)特定匹配規(guī)則度量或利用編輯距離、歐式距離計算,在做出表象局部相似性判斷后,利用 Rodriguez 等[9]提出的密度聚類。該算法是經(jīng)典的K-mean 算法的改進算法,不需要指定聚類中心k值,并且可以檢測非球面類別,通過計算可以確定k值,但該算法有一定的局限性。之后 Bie 等[28]又提出了該算法的改進算法,此時確定k值不僅僅是依靠圖形,還能依靠計算公式直接計算,避免k值確定的偶然性。本文主要與 Bie 等[28]提出的算法(CFSFDP)進行對比。同時還和傳統(tǒng)的 Partition(簡稱“Part”)方法對比,結果如圖 8 所示。

    由圖 8 可以看出,在 DBLP 數(shù)據(jù)集上,RF+Gain 算法的準確率、召回率和F值都明顯高于其他算法,F(xiàn)值順序為:RF+Gain>RF+Gain_ratio>CFSFDP>Part。本文提出的 RFES 算法明顯優(yōu)于其他 3 種算法,以 Part 為基礎,在F精度值上,CFSFDP 高出了 10%,RF+Gain_ratio高出了 32%,RF+Gain 算法高出 38%。可見,本文提出的基于隨機森林的相似度計算方法和聚類方法加一起比其他實體識別方法對于屬性值在變化,且變化和時間關系不規(guī)律的數(shù)據(jù)上更加準確。分析其原因,本文提出的方法考慮到了屬性的改變,把許多弱分類器的投票綜合起來,使結果更加可靠可信,同時提出的聚類算法充分利用上一階段的結果。因此,對于數(shù)據(jù)的屬性一直在改變,并且這種改變和時間的相關性不大的問題,本文提出的 RF+Gain 和 RF+Gain_ratio 算法具有更大的優(yōu)越性。

    圖8 改進的隨機森林算法與已有聚類算法在 DBLP 上的對比Fig. 8 Comparisons between improved RF algorithm and existing clustering algorithm on DBLP

    除此之外,本文還和 Li 等[10]提出的動態(tài)記錄鏈接算法進行比較。該算法中屬性的變化和時間是有規(guī)律的,某實體的某個屬性值,經(jīng)歷的時間越久,變化為不同值的可能性越大;不同實體記錄的屬性值,經(jīng)歷時間越久,變化為相同值的可能性越大。根據(jù)時間為每一個屬性分配一個權值,在此基礎上提出了 EARLY、LATE、ADJUST 三種聚類算法,這三種算法和本文算法對比結果如圖 9 所示。

    從圖 9 可以看出,RF+Gain_ratio 算法在準確率、召回率和F值都明顯高于其他算法,F(xiàn)值的順序為:RF+Gain_ratio>RF+Gain>ADJUST>LATE>EARLY,本文提出的 RF+Gain 和 RF+Gain_ratio 算法明顯優(yōu)于其他三種算法。其原因為考慮時間特征的記錄鏈接算法,在計算屬性的權重時,某屬性在改變了一個值后,在很短一段時間內又變回原來值的概率是很低的,即對屬性在一段時間內反復變化或者屬性的變化跟時間關系不大的問題建模時是有問題的,它會為這種頻繁改變的屬性值分配一個很低的權重值,影響最后的聚類結果。因此在屬性變化和時間變化關聯(lián)性不大的時候,本文提出的算法更具有優(yōu)越性。

    圖9 改進的隨機森林算法與考慮時間特征的算法在 DBLP上的對比Fig. 9 Comparisons between improved RF algorithm and temporal records linking algorithm on DBLP

    6 總 結

    實體識別對于數(shù)據(jù)集成和數(shù)據(jù)分析是非常重要的。本文針對演化數(shù)據(jù)的實體識別問題,提出了一個基于隨機森林與兩階段聚類的實體識別模型。在該問題中,通過訓練幾棵決策樹構成隨機森林計算記錄對的相似性,并提出了一個兩階段的聚類算法。最后通過在 DBLP 數(shù)據(jù)集上的實驗對比和分析,驗證了該算法的有效性。

    [1]Li P, Dong XL, Guo ST, et al. Robust group linkage[C]// International Conference on World Wide Web, 2015: 647-657.

    [2]Hernández MA, Stolfo SJ. Real-world data is dirty:data cleansing and the merge/purge problem [J].Data Mining and Knowledge Discovery, 1998, 2(1):9-37.

    [3]Elmagarmid AK, Ipeirotis PG, Verykios VS.Duplicate record detection: a survey [J]. IEEE Transactions on Knowledge and Data Engineering,2007, 19(1): 1-16.

    [4]Sarawagi S, Bhamidipaty A. Interactive deduplication using active learning [C]// Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002: 269-278.

    [5]Charikar M, Guruswami V, Wirth A. Clustering with qualitative information [J]. Journal of Computer and System Sciences, 2005, 71(3): 360-383.

    [6]Bansal N, Blum A, Chawla S. Correlation clustering[J]. Machine Learning, 2004, 56(1-3): 89-113.

    [7]Davies DL, Bouldin DW. A cluster separation measure [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1979, 1(2): 224-227.

    [8]Ester M, Kriegel HP, Sander J, et al. A densitybased algorithm for discovering clusters in large spatial databases with noise [C]// Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining, 1996: 226-231.

    [9]Rodriguez A, Laio A. Clustering by fast search and fi nd of density peaks [J]. Science, 2014, 344(6191):1492-1496.

    [10]Li P, Dong XL, Maurino A, et al. Linking temporal records [J]. Frontiers of Computer Science, 2012,6(3): 293-312.

    [11]Hu YC, Wang Q, Vatsalan D, et al. Improving temporal record linkage using regression classi fi cation[C]// Pacific-Asia Conference on Knowledge Discovery & Data Mining, 2017: 561-573.

    [12]Chiang YH, Doan AH, Naughton JF. Tracking entities in the dynamic world: a fast algorithm for matching temporal records [J]. Proceedings of the VLDB Endowment, 2014, 7(6): 469-480.

    [13]Chiang YH, Doan AH, Naughton JF. Modeling entity evolution for temporal record matching [C]// ACM SIGMOD International Conference on Management of Data, 2014: 1175-1186.

    [14]Li F, Lee ML, Hsu W, et al. Linking temporal records for profiling entities [C]// SIGMOD’15 Proceedings of the ACM SIGMOD International Conference on Management of Data, 2015: 593-605.

    [15]Whang SE, Garcia-Molina H. Entity resolution with evolving rules [J]. Proceedings of the VLDB Endowment, 2010, 3(1-2): 1326-1337.

    [16]Whang SE, Garcia-Molina H. Incremental entity resolution on rules and data [J]. The VLDB Journal-The International Journal on Very Large Data Bases, 2014, 23(1): 77-102.

    [17]Gruenheid A, Dong XL, Srivastava D. Incremental record linkage [J]. Proceedings of the VLDB Endowment, 2014, 7(9): 697-708.

    [18]Cohen W, Ravikumar P, Fienberg S. A comparison of string metrics for matching names and records[C]// KDD Workshop on Data Cleaning & Object Consolidation, 2003: 73-78.

    [19]K?pcke H, Thor A, Rahm E. Evaluation of entity resolution approaches on real-world match problems[J]. Proceedings of the VLDB Endowment, 2010,3(1-2): 484-493.

    [20]Arasu A, G?tz M, Kaushik R. On active learning of record matching packages [C]// ACM Sigmod International Conference on Management of Data,2010: 783-794.

    [21]Haveliwala T, Gionis A, Indyk P. Scalable techniques for clustering the Web [C]// Third International Workshop on the Web and Databases,2000: 129-134.

    [22]Dongen S. Graph clustering by fl ow simulation [D].Utrecht: University of Utrecht, 2000.

    [23]Brohée S, Van Helden J. Evaluation of clustering algorithms for protein-protein interaction networks[J]. BMC Bioinformatics, 2006, 7(1): 488.

    [24]Flake GW, Tarjan RE, Tsioutsiouliklis K. Graph clustering and minimum cut trees [J]. Internet Mathematics, 2004, 1(4): 385-408.

    [25]Cormen TH, Leiserson CE, Rivest RL. Introduction to Algorithms [M]. Cambridge: MIT Press, 1990.

    [26]Bansal N, Chiang F, Koudas N, et al. Seeking stable clusters in the blogosphere [C]// VLDB’07 Proceedings of the 33rd International Conference on Very Large Data Bases, 2007: 806-817.

    [27]Kim K, Giles CL. Financial entity record linkage with random forests [C]// International Workshop on Data Science for Macro-Modeling, 2016.

    [28]Bie RF, Mehmood R, Ruan S. Adaptive fuzzy clustering by fast search and fi nd of density peaks[J]. Personal and Ubiquitous Computing, 2016,20(5): 785-793.

    猜你喜歡
    決策樹相似性增益
    一類上三角算子矩陣的相似性與酉相似性
    基于增益調度與光滑切換的傾轉旋翼機最優(yōu)控制
    淺析當代中西方繪畫的相似性
    河北畫報(2020年8期)2020-10-27 02:54:20
    基于單片機的程控增益放大器設計
    電子制作(2019年19期)2019-11-23 08:41:36
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    基于Multisim10和AD603的程控增益放大器仿真研究
    電子制作(2018年19期)2018-11-14 02:37:02
    決策樹和隨機森林方法在管理決策中的應用
    電子制作(2018年16期)2018-09-26 03:27:06
    基于決策樹的出租車乘客出行目的識別
    低滲透黏土中氯離子彌散作用離心模擬相似性
    基于肺癌CT的決策樹模型在肺癌診斷中的應用
    免费av中文字幕在线| 国语对白做爰xxxⅹ性视频网站| 女性被躁到高潮视频| 国产亚洲av高清不卡| 自线自在国产av| 狠狠精品人妻久久久久久综合| 国产日韩欧美亚洲二区| 在线天堂中文资源库| 1024视频免费在线观看| 国产男女内射视频| 老司机在亚洲福利影院| 丝袜喷水一区| 亚洲九九香蕉| 久久性视频一级片| 亚洲成国产人片在线观看| 免费一级毛片在线播放高清视频 | 亚洲五月婷婷丁香| 国产片内射在线| 一边摸一边抽搐一进一出视频| 丁香六月天网| 国产伦人伦偷精品视频| 久久久久视频综合| 老司机深夜福利视频在线观看 | 久久精品久久久久久久性| 人人妻,人人澡人人爽秒播 | 久久综合国产亚洲精品| 亚洲专区国产一区二区| 一区二区日韩欧美中文字幕| 欧美精品人与动牲交sv欧美| av网站在线播放免费| 美国免费a级毛片| 久久久久久人人人人人| 久久亚洲精品不卡| 亚洲精品自拍成人| 国产精品一区二区在线不卡| 亚洲午夜精品一区,二区,三区| tube8黄色片| 看免费成人av毛片| 久久人妻熟女aⅴ| 最近最新中文字幕大全免费视频 | 国产主播在线观看一区二区 | 亚洲熟女精品中文字幕| 精品福利永久在线观看| 最近最新中文字幕大全免费视频 | 一级a爱视频在线免费观看| 亚洲国产成人一精品久久久| 一个人免费看片子| kizo精华| 午夜福利在线免费观看网站| 人人妻人人爽人人添夜夜欢视频| 亚洲成人国产一区在线观看 | 美女扒开内裤让男人捅视频| 亚洲av电影在线观看一区二区三区| 两个人看的免费小视频| 久久综合国产亚洲精品| 99国产精品99久久久久| av不卡在线播放| 亚洲欧美一区二区三区久久| 成人18禁高潮啪啪吃奶动态图| 制服人妻中文乱码| 亚洲av电影在线观看一区二区三区| 国产精品久久久久久人妻精品电影 | 国产爽快片一区二区三区| 一区二区三区激情视频| 亚洲成人免费电影在线观看 | 日韩大码丰满熟妇| 久久精品久久久久久噜噜老黄| av网站在线播放免费| 一本综合久久免费| 欧美+亚洲+日韩+国产| 久久久久精品人妻al黑| 国产成人精品久久久久久| 国产色视频综合| 亚洲av男天堂| 国产高清videossex| 男男h啪啪无遮挡| 九色亚洲精品在线播放| 999久久久国产精品视频| 日韩电影二区| 黄色视频不卡| 国产成人精品无人区| 91国产中文字幕| 日本wwww免费看| 国产精品人妻久久久影院| 女人精品久久久久毛片| 精品一区二区三区四区五区乱码 | 亚洲一卡2卡3卡4卡5卡精品中文| 国产成人影院久久av| 国产精品国产三级专区第一集| av片东京热男人的天堂| 18禁黄网站禁片午夜丰满| 亚洲免费av在线视频| 亚洲精品国产一区二区精华液| 黄色毛片三级朝国网站| 女人爽到高潮嗷嗷叫在线视频| 国产亚洲一区二区精品| av在线老鸭窝| 一本一本久久a久久精品综合妖精| 丝袜美腿诱惑在线| 一区二区三区精品91| 日韩大片免费观看网站| 丰满迷人的少妇在线观看| 午夜91福利影院| 在线观看www视频免费| tube8黄色片| 亚洲精品一二三| 岛国毛片在线播放| 人成视频在线观看免费观看| 亚洲色图 男人天堂 中文字幕| 一本—道久久a久久精品蜜桃钙片| 中国国产av一级| 丰满少妇做爰视频| 777久久人妻少妇嫩草av网站| 亚洲欧美清纯卡通| 久久精品久久精品一区二区三区| 精品欧美一区二区三区在线| 一边亲一边摸免费视频| 人人妻人人添人人爽欧美一区卜| 五月天丁香电影| 日本91视频免费播放| 国产一区二区三区综合在线观看| 国产av精品麻豆| 18在线观看网站| 国产成人一区二区三区免费视频网站 | 色94色欧美一区二区| 亚洲国产精品一区二区三区在线| 免费观看av网站的网址| 国产黄色免费在线视频| 亚洲一区二区三区欧美精品| 又大又黄又爽视频免费| 国产亚洲欧美精品永久| 啦啦啦在线免费观看视频4| 不卡av一区二区三区| 欧美日韩国产mv在线观看视频| 亚洲精品在线美女| 欧美黑人精品巨大| 成在线人永久免费视频| 两性夫妻黄色片| 国产人伦9x9x在线观看| 女性被躁到高潮视频| 97在线人人人人妻| 19禁男女啪啪无遮挡网站| 汤姆久久久久久久影院中文字幕| 一级片'在线观看视频| 王馨瑶露胸无遮挡在线观看| 国产亚洲一区二区精品| 一区二区日韩欧美中文字幕| 久久人妻福利社区极品人妻图片 | 亚洲国产欧美日韩在线播放| 美女脱内裤让男人舔精品视频| 熟女少妇亚洲综合色aaa.| 国产精品一二三区在线看| 欧美激情极品国产一区二区三区| 亚洲国产欧美在线一区| 少妇 在线观看| 久久精品国产亚洲av涩爱| 亚洲欧美成人综合另类久久久| 女人爽到高潮嗷嗷叫在线视频| avwww免费| 久久久久久久久久久久大奶| 一本—道久久a久久精品蜜桃钙片| 久久精品久久精品一区二区三区| 午夜影院在线不卡| 欧美日韩视频精品一区| www日本在线高清视频| 另类亚洲欧美激情| 99久久精品国产亚洲精品| 曰老女人黄片| 久久精品人人爽人人爽视色| 亚洲欧洲精品一区二区精品久久久| 美女视频免费永久观看网站| 免费女性裸体啪啪无遮挡网站| 久久久精品94久久精品| 97在线人人人人妻| 天天躁夜夜躁狠狠久久av| 50天的宝宝边吃奶边哭怎么回事| 丁香六月天网| 亚洲精品日韩在线中文字幕| 人妻人人澡人人爽人人| 欧美人与善性xxx| 亚洲国产av新网站| 国产亚洲av高清不卡| 看十八女毛片水多多多| www.精华液| 每晚都被弄得嗷嗷叫到高潮| 国产女主播在线喷水免费视频网站| 黄片播放在线免费| 国产精品久久久av美女十八| 国产一区二区三区av在线| 丝袜美足系列| 男人舔女人的私密视频| 中文字幕人妻丝袜一区二区| 欧美亚洲 丝袜 人妻 在线| 熟女少妇亚洲综合色aaa.| 高潮久久久久久久久久久不卡| 亚洲午夜精品一区,二区,三区| 久久久国产欧美日韩av| 国产精品九九99| 最新的欧美精品一区二区| 亚洲伊人久久精品综合| 亚洲欧洲日产国产| 午夜日韩欧美国产| 欧美日韩亚洲高清精品| 亚洲,欧美,日韩| 国产成人影院久久av| 中文字幕最新亚洲高清| 亚洲精品一卡2卡三卡4卡5卡 | 老司机在亚洲福利影院| 在线观看免费视频网站a站| cao死你这个sao货| 一级片'在线观看视频| 国产片特级美女逼逼视频| avwww免费| 纵有疾风起免费观看全集完整版| 亚洲国产av新网站| 丰满迷人的少妇在线观看| 亚洲精品日本国产第一区| 妹子高潮喷水视频| 国产精品国产av在线观看| 亚洲精品久久久久久婷婷小说| 中国国产av一级| 亚洲欧美精品综合一区二区三区| 男人添女人高潮全过程视频| 黄频高清免费视频| 狂野欧美激情性xxxx| 免费在线观看视频国产中文字幕亚洲 | 欧美另类一区| 激情视频va一区二区三区| 啦啦啦 在线观看视频| 日韩一卡2卡3卡4卡2021年| 久久精品久久精品一区二区三区| 自线自在国产av| 亚洲,欧美,日韩| 超色免费av| 人人澡人人妻人| 国产亚洲av高清不卡| 国产精品二区激情视频| 免费人妻精品一区二区三区视频| 中文字幕色久视频| 咕卡用的链子| 久久久久久久大尺度免费视频| 国产精品香港三级国产av潘金莲 | 国产日韩一区二区三区精品不卡| 亚洲欧美精品综合一区二区三区| 天天影视国产精品| 在线看a的网站| 成人影院久久| 在线观看www视频免费| kizo精华| 大香蕉久久成人网| 色视频在线一区二区三区| 亚洲欧美精品综合一区二区三区| 欧美在线黄色| 久久女婷五月综合色啪小说| 亚洲av日韩在线播放| 久久久久视频综合| 老司机影院成人| 狠狠精品人妻久久久久久综合| 午夜福利乱码中文字幕| 高清黄色对白视频在线免费看| 国产黄频视频在线观看| 校园人妻丝袜中文字幕| 9191精品国产免费久久| 男女床上黄色一级片免费看| 免费av中文字幕在线| 极品少妇高潮喷水抽搐| 人人妻人人澡人人看| 97精品久久久久久久久久精品| 精品久久久久久久毛片微露脸 | 一级毛片电影观看| 美女视频免费永久观看网站| 亚洲成色77777| 日本猛色少妇xxxxx猛交久久| 欧美国产精品va在线观看不卡| 在线观看一区二区三区激情| 国产一区二区在线观看av| 精品国产超薄肉色丝袜足j| 日本a在线网址| 91精品国产国语对白视频| 国产精品国产av在线观看| 国产成人欧美在线观看 | 久久久久视频综合| 天天躁夜夜躁狠狠躁躁| 一区二区三区精品91| 超碰成人久久| 国产淫语在线视频| 青草久久国产| 日日摸夜夜添夜夜爱| 亚洲专区中文字幕在线| 女性生殖器流出的白浆| 国产成人一区二区三区免费视频网站 | 99国产精品99久久久久| 精品人妻一区二区三区麻豆| 久久中文字幕一级| 成人国语在线视频| 亚洲欧美精品综合一区二区三区| 国产欧美日韩一区二区三 | 蜜桃在线观看..| 成年人黄色毛片网站| 黑人欧美特级aaaaaa片| 亚洲 国产 在线| 精品国产一区二区三区久久久樱花| 国产成人欧美在线观看 | 国产视频一区二区在线看| 国产又色又爽无遮挡免| 亚洲一卡2卡3卡4卡5卡精品中文| 久久综合国产亚洲精品| 91字幕亚洲| 51午夜福利影视在线观看| 18禁裸乳无遮挡动漫免费视频| 女性被躁到高潮视频| 精品人妻在线不人妻| 久久99精品国语久久久| 高清不卡的av网站| 人人妻,人人澡人人爽秒播 | 又大又黄又爽视频免费| 欧美日韩视频高清一区二区三区二| 国产精品一二三区在线看| 黄色视频不卡| av片东京热男人的天堂| 免费日韩欧美在线观看| avwww免费| 18在线观看网站| 中文字幕最新亚洲高清| 精品福利观看| kizo精华| 午夜av观看不卡| 一区二区三区四区激情视频| 日本91视频免费播放| 日韩大码丰满熟妇| 亚洲中文日韩欧美视频| 精品视频人人做人人爽| 欧美成狂野欧美在线观看| 大片免费播放器 马上看| h视频一区二区三区| 麻豆国产av国片精品| 一本大道久久a久久精品| 国产精品国产av在线观看| 日本一区二区免费在线视频| 亚洲精品日本国产第一区| 捣出白浆h1v1| 91麻豆av在线| 天堂俺去俺来也www色官网| 亚洲人成77777在线视频| 男女国产视频网站| 女人高潮潮喷娇喘18禁视频| 中文欧美无线码| 欧美性长视频在线观看| 十八禁网站网址无遮挡| 亚洲成国产人片在线观看| 性色av一级| 中文字幕另类日韩欧美亚洲嫩草| 欧美另类一区| 久热爱精品视频在线9| 一二三四社区在线视频社区8| 日韩制服骚丝袜av| 国产片特级美女逼逼视频| 十八禁网站网址无遮挡| 日韩一卡2卡3卡4卡2021年| 欧美日韩av久久| 久热这里只有精品99| 国产熟女午夜一区二区三区| av电影中文网址| 欧美激情 高清一区二区三区| 韩国高清视频一区二区三区| 国产成人精品在线电影| 一级毛片电影观看| 丝瓜视频免费看黄片| 色精品久久人妻99蜜桃| 好男人视频免费观看在线| 亚洲人成网站在线观看播放| 日韩制服骚丝袜av| 国产精品国产三级国产专区5o| 夫妻性生交免费视频一级片| 国产人伦9x9x在线观看| 免费黄频网站在线观看国产| 91国产中文字幕| www日本在线高清视频| 欧美xxⅹ黑人| 下体分泌物呈黄色| 亚洲一区二区三区欧美精品| 激情视频va一区二区三区| 久久性视频一级片| 晚上一个人看的免费电影| 大型av网站在线播放| 亚洲成人手机| 精品国产乱码久久久久久男人| 亚洲精品国产av成人精品| 免费观看人在逋| 欧美 亚洲 国产 日韩一| 中文字幕人妻丝袜制服| 亚洲一区中文字幕在线| 欧美精品一区二区大全| 99热全是精品| 两性夫妻黄色片| 999精品在线视频| 婷婷色综合大香蕉| 91字幕亚洲| 极品人妻少妇av视频| 女人高潮潮喷娇喘18禁视频| 自拍欧美九色日韩亚洲蝌蚪91| 国产xxxxx性猛交| av网站在线播放免费| 人人妻,人人澡人人爽秒播 | 国产97色在线日韩免费| 日韩 亚洲 欧美在线| 天天添夜夜摸| 天堂8中文在线网| 三上悠亚av全集在线观看| 日本a在线网址| 91精品国产国语对白视频| 精品国产一区二区三区四区第35| 性少妇av在线| 丰满饥渴人妻一区二区三| 大话2 男鬼变身卡| 黄色毛片三级朝国网站| 国产午夜精品一二区理论片| 在线av久久热| 波多野结衣av一区二区av| 可以免费在线观看a视频的电影网站| 亚洲欧美色中文字幕在线| 高清av免费在线| 国产精品国产av在线观看| 久久人人爽av亚洲精品天堂| 日韩熟女老妇一区二区性免费视频| 99久久99久久久精品蜜桃| 国产男女超爽视频在线观看| 老司机影院成人| 日韩人妻精品一区2区三区| 亚洲成人免费电影在线观看 | 国产成人欧美| 菩萨蛮人人尽说江南好唐韦庄| 天天躁狠狠躁夜夜躁狠狠躁| 欧美另类一区| 欧美日本中文国产一区发布| 一区二区三区激情视频| 国产色视频综合| 一区二区三区激情视频| 伊人亚洲综合成人网| 欧美 亚洲 国产 日韩一| 国产精品久久久久久人妻精品电影 | 亚洲免费av在线视频| 亚洲第一av免费看| av天堂久久9| 久久鲁丝午夜福利片| 王馨瑶露胸无遮挡在线观看| 国产女主播在线喷水免费视频网站| 侵犯人妻中文字幕一二三四区| 只有这里有精品99| 韩国精品一区二区三区| 成人三级做爰电影| 亚洲男人天堂网一区| 91精品国产国语对白视频| 一级毛片黄色毛片免费观看视频| 亚洲欧美一区二区三区国产| 免费观看a级毛片全部| 亚洲图色成人| 美女扒开内裤让男人捅视频| 亚洲成av片中文字幕在线观看| 热re99久久国产66热| 日本a在线网址| 秋霞在线观看毛片| 欧美日韩一级在线毛片| 国产成人系列免费观看| 热re99久久国产66热| 久久亚洲精品不卡| 我的亚洲天堂| 精品久久久久久久毛片微露脸 | 午夜激情av网站| 久久九九热精品免费| 嫩草影视91久久| 自拍欧美九色日韩亚洲蝌蚪91| 1024香蕉在线观看| 日日摸夜夜添夜夜爱| 欧美日本中文国产一区发布| av在线播放精品| 香蕉丝袜av| 一级a爱视频在线免费观看| 日本色播在线视频| 少妇精品久久久久久久| 国产日韩一区二区三区精品不卡| 亚洲成色77777| 国产老妇伦熟女老妇高清| 大香蕉久久成人网| 精品人妻1区二区| 国产激情久久老熟女| 99re6热这里在线精品视频| netflix在线观看网站| 亚洲黑人精品在线| 欧美成人精品欧美一级黄| 十分钟在线观看高清视频www| 80岁老熟妇乱子伦牲交| 啦啦啦视频在线资源免费观看| 天天添夜夜摸| 久久国产精品影院| 操出白浆在线播放| 男女无遮挡免费网站观看| 国产成人av激情在线播放| 最近中文字幕2019免费版| 手机成人av网站| 制服诱惑二区| 国产精品久久久av美女十八| 免费久久久久久久精品成人欧美视频| 日韩 欧美 亚洲 中文字幕| 丰满人妻熟妇乱又伦精品不卡| 国产一区二区三区综合在线观看| 99国产精品一区二区三区| 丝袜人妻中文字幕| 乱人伦中国视频| 国产精品免费大片| 日本黄色日本黄色录像| 国产精品久久久久成人av| 国产黄色免费在线视频| 乱人伦中国视频| 多毛熟女@视频| 啦啦啦 在线观看视频| 热99国产精品久久久久久7| 欧美精品一区二区免费开放| tube8黄色片| 两个人看的免费小视频| 一级毛片黄色毛片免费观看视频| 亚洲中文字幕日韩| 成人国产av品久久久| 热re99久久精品国产66热6| 日韩一卡2卡3卡4卡2021年| 欧美变态另类bdsm刘玥| 丝袜美足系列| 国产黄色免费在线视频| 97在线人人人人妻| 大码成人一级视频| 午夜福利一区二区在线看| 国产成人免费无遮挡视频| 纵有疾风起免费观看全集完整版| 亚洲国产成人一精品久久久| 色综合欧美亚洲国产小说| 国产精品二区激情视频| 热99国产精品久久久久久7| 欧美成狂野欧美在线观看| 国产精品麻豆人妻色哟哟久久| 久久午夜综合久久蜜桃| 国产精品av久久久久免费| 午夜两性在线视频| 国产精品亚洲av一区麻豆| 一本一本久久a久久精品综合妖精| 亚洲欧美清纯卡通| 香蕉国产在线看| 亚洲,欧美精品.| 一本久久精品| 成年人黄色毛片网站| 搡老岳熟女国产| 久久精品久久精品一区二区三区| 男女下面插进去视频免费观看| 女人被躁到高潮嗷嗷叫费观| 免费久久久久久久精品成人欧美视频| 国产三级黄色录像| 国产精品99久久99久久久不卡| 女警被强在线播放| 亚洲人成网站在线观看播放| 欧美乱码精品一区二区三区| 中文欧美无线码| 国产日韩欧美在线精品| 国产av国产精品国产| 男的添女的下面高潮视频| www.自偷自拍.com| 国产精品一区二区在线不卡| 免费观看人在逋| 黄色 视频免费看| 亚洲综合色网址| 五月开心婷婷网| 国产黄色视频一区二区在线观看| 极品人妻少妇av视频| 宅男免费午夜| 老司机深夜福利视频在线观看 | 脱女人内裤的视频| 欧美在线一区亚洲| 老熟女久久久| 中国国产av一级| 国产伦人伦偷精品视频| 久久久久久久大尺度免费视频| 多毛熟女@视频| 国产av精品麻豆| 欧美日韩黄片免| 一边亲一边摸免费视频| 国产精品一区二区在线观看99| 国产精品一二三区在线看| 精品欧美一区二区三区在线| 女人久久www免费人成看片| 亚洲欧美日韩另类电影网站| 成人国语在线视频| 国产欧美亚洲国产| 2021少妇久久久久久久久久久| 母亲3免费完整高清在线观看| 国产无遮挡羞羞视频在线观看| 一边亲一边摸免费视频| 精品久久久久久久毛片微露脸 | 乱人伦中国视频| 亚洲情色 制服丝袜| 亚洲一码二码三码区别大吗| 国产深夜福利视频在线观看| 青春草亚洲视频在线观看| 国产有黄有色有爽视频| 每晚都被弄得嗷嗷叫到高潮| svipshipincom国产片| 99精国产麻豆久久婷婷| 蜜桃国产av成人99| 国产精品 欧美亚洲| 亚洲九九香蕉| 国产成人欧美| 丰满人妻熟妇乱又伦精品不卡| 你懂的网址亚洲精品在线观看| 午夜视频精品福利| av天堂久久9| 亚洲一码二码三码区别大吗| 亚洲伊人色综图| 亚洲精品久久午夜乱码|