• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于因子圖的不一致記錄對(duì)消歧方法

    2020-01-09 03:48:32徐耀麗李戰(zhàn)懷王艷艷樊峰峰
    關(guān)鍵詞:消歧查全率解析

    徐耀麗 李戰(zhàn)懷 陳 群 王艷艷 樊峰峰

    (西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 西安 710072) (大數(shù)據(jù)存儲(chǔ)與管理工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室(西北工業(yè)大學(xué)) 西安 710129)

    大數(shù)據(jù)時(shí)代,信息化進(jìn)程的迅猛發(fā)展促使各行各業(yè)都累積了大量的數(shù)據(jù).但真實(shí)的數(shù)據(jù)存在各種各樣的數(shù)據(jù)質(zhì)量問題如數(shù)據(jù)不完整、不一致、和不滿足實(shí)體同一性等,使得直接基于這些臟數(shù)據(jù)的分析和預(yù)測(cè)不能滿足應(yīng)用場(chǎng)景的需求.為此,大量的研究工作針對(duì)這些問題提出一系列清洗算法.其中,針對(duì)數(shù)據(jù)無(wú)法滿足實(shí)體同一性現(xiàn)象,學(xué)術(shù)界和工業(yè)界研究了實(shí)體解析問題[1-3].實(shí)體解析也稱實(shí)體匹配,是通過識(shí)別出所有描述真實(shí)世界同一個(gè)實(shí)體的記錄對(duì),來(lái)保證數(shù)據(jù)的實(shí)體同一性.它是數(shù)據(jù)集成或清洗系統(tǒng)的一個(gè)首要問題.

    自實(shí)體解析問題第1次[4]被提出后,有大量實(shí)體解析方法被提出.部分實(shí)體解析方法[3,5-6]假設(shè)訓(xùn)練數(shù)據(jù)事先給定.文獻(xiàn)[5-6]首先從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)實(shí)體匹配規(guī)則,然后用這些規(guī)則來(lái)解析記錄對(duì)是否匹配.文獻(xiàn)[3]首先使用embedding技術(shù)如fastText[7]將每個(gè)屬性的單詞序列轉(zhuǎn)換為相同維度的向量序列;然后訓(xùn)練雙向序列模型Bi_RNN[8](bidirectional recurrent neural network)和序列比對(duì)模型來(lái)生成屬性摘要向量;接著用比較函數(shù)構(gòu)建出記錄對(duì)的一系列特征;最后使用分類模型如多層感知器模型,訓(xùn)練一個(gè)二分類模型,進(jìn)而進(jìn)行實(shí)體解析.然而,現(xiàn)實(shí)場(chǎng)景中,面臨一個(gè)新的實(shí)體解析任務(wù)時(shí),事先標(biāo)記好的數(shù)據(jù)集并不一定總是可用,而且某些領(lǐng)域數(shù)據(jù)需要由經(jīng)驗(yàn)豐富的專家來(lái)標(biāo)記.考慮到依賴專家來(lái)標(biāo)記數(shù)據(jù)集會(huì)帶來(lái)高昂的成本,本文所提的方法無(wú)需標(biāo)注數(shù)據(jù),因而具有更廣泛的應(yīng)用場(chǎng)景.

    一些學(xué)者[2,9]從數(shù)據(jù)統(tǒng)計(jì)角度分析匹配特征,提出了無(wú)監(jiān)督的實(shí)體解析方法.如文獻(xiàn)[2]使用離群距離來(lái)估算記錄對(duì)的匹配可能性;文獻(xiàn)[9]使用機(jī)器學(xué)習(xí)的聚類算法,把具有類似特征的記錄劃分到匹配或不匹配組中.由于各種實(shí)體解析技術(shù)有特定的假設(shè),以及解析任務(wù)的復(fù)雜性,對(duì)同一個(gè)實(shí)體解析任務(wù)處理的結(jié)果,存在大量的不一致記錄對(duì).例如在文獻(xiàn)數(shù)據(jù)集Cora上,使用11種方法(如Rule,Distance,Cluster等)得到的解析結(jié)果中,一致匹配對(duì)的數(shù)目?jī)H有1 013;而不一致記錄對(duì)的數(shù)目則高達(dá)44 909.所謂一致匹配對(duì)是指所有的方法一致認(rèn)為該記錄對(duì)是匹配的;而不一致記錄對(duì)是指部分方法(如Rule)認(rèn)為該記錄對(duì)是匹配的,而其余方法(如Distance)認(rèn)為不匹配.本文的工作側(cè)重于解決這些不一致的記錄對(duì).

    對(duì)不一致記錄對(duì)進(jìn)行消歧處理面臨很大挑戰(zhàn).一方面,在沒有標(biāo)簽數(shù)據(jù)情況下,直接選出所有方法中最好的是不現(xiàn)實(shí)的.另一方面,假設(shè)能夠選出綜合表現(xiàn)最好的方法,某些記錄對(duì)(如已選中的方法無(wú)法有效處理,而其他方法可以處理的匹配記錄對(duì))的信息就不能夠得到充分利用.鑒于此,我們利用因子圖把各類匹配特征統(tǒng)一且有效地利用起來(lái),并提出了基于因子圖的不一致記錄對(duì)消歧方法.

    與記錄對(duì)是否匹配相關(guān)的信息大致可分為3類:1)記錄對(duì)自身匹配特征.例如使用字符串相似度,度量記錄對(duì)屬性值的相似程度.2)匹配傳遞特征.例如一個(gè)記錄對(duì)(r1,r2)匹配后,對(duì)其他記錄對(duì)(r1,r3)是否匹配的影響.3)外部匹配特征.例如個(gè)體方法的解析結(jié)果.為便于陳述,本文把現(xiàn)存的實(shí)體解析方法稱為個(gè)體方法.概率圖模型[10]的因子圖能夠利用因子函數(shù)靈活地為變量之間的關(guān)系建模.它首先把記錄對(duì)pi,j是否匹配視為待推斷變量m(pi,j),而把與m(pi,j)相關(guān)的其他匹配特征看成是已知變量,m(pi,j)為二元變量.當(dāng)m(pi,j)=1時(shí),表示ri和rj是匹配的;當(dāng)m(pi,j)=0時(shí),ri和rj是不匹配的.接著,使用核密度估計(jì)和圖的連通性來(lái)擬合出已知變量和未知變量之間的關(guān)系,并形式化為因子圖的因子函數(shù).這樣,我們就能把不一致記錄對(duì)消歧問題,建模為一個(gè)隨機(jī)變量概率推斷問題,其中因子圖中因子的權(quán)重使用最大似然估計(jì)來(lái)推算.

    本文的主要貢獻(xiàn)有3個(gè)方面:

    1) 首次提出了一個(gè)基于因子圖的不一致記錄對(duì)消歧框架FG-RIP.該框架不依賴標(biāo)記數(shù)據(jù),能通過因子圖匯總各種異構(gòu)匹配特征,如記錄對(duì)自身匹配特征、匹配傳遞特征和現(xiàn)存實(shí)體解析技術(shù)的外部匹配特征,來(lái)估算不一致記錄對(duì)的匹配可能性.

    2) 設(shè)計(jì)并實(shí)現(xiàn)了基于最大似然估計(jì)的因子權(quán)重學(xué)習(xí)算法.該算法可以自動(dòng)組合匹配特征的權(quán)重,并輸出最優(yōu)的匹配特征權(quán)重組合.

    3) 在真實(shí)的數(shù)據(jù)集上,大量的實(shí)驗(yàn)結(jié)果表明該算法能明顯提升個(gè)體方法的解析效果.

    1 不一致記錄對(duì)消歧問題

    實(shí)體解析(entity resolution, ER)就是給定記錄集合D,識(shí)別出所有表示真實(shí)世界同一實(shí)體的記錄對(duì)p=(ri,rj),i≠j,其中,ri∈D且rj∈D.如表1所示,文獻(xiàn)數(shù)據(jù)集Cora包括記錄的唯一標(biāo)識(shí)rID、論文的作者信息author、標(biāo)題title和頁(yè)碼信息pages.實(shí)體解析就是找出所有表示同一個(gè)實(shí)體的記錄對(duì)如p2,3.給定一個(gè)實(shí)體解析方法M,它的輸入是候選記錄對(duì)的特征,輸出是所有預(yù)測(cè)為匹配的記錄對(duì),記為P(M).為了與消歧算法相互區(qū)分,本文把現(xiàn)存的實(shí)體解析方法稱為個(gè)體方法.假定一系列個(gè)體方法的輸出結(jié)果如表2所示,pID是記錄對(duì)的唯一標(biāo)識(shí)符,Mk列為第k個(gè)方法的預(yù)測(cè)結(jié)果,其中1≤k≤10,P(positive)(或N(negative))代表記錄對(duì)的預(yù)測(cè)狀態(tài)為匹配(或不匹配);GT(ground truth)列是記錄對(duì)的真實(shí)狀態(tài).不一致記錄對(duì)pinc是只被部分個(gè)體方法預(yù)測(cè)為匹配的記錄對(duì),如p2,3.一致記錄對(duì)pc是被個(gè)體方法統(tǒng)一預(yù)測(cè)為匹配的或者不匹配的記錄對(duì).pc包括一致匹配對(duì)pcp如p4,5,和一致不匹配對(duì)pcn如p7,8.

    Table 1 Dataset表1 數(shù)據(jù)集

    Table 2 Output of Individual Methods表2 個(gè)體方法的解析結(jié)果

    Notes:Mk(k=1,2,…,10) represents the predicted label by thek-th method, GT represents the ground truth label of each record pair,N represents the predicated label of a pair is matching, P represents the predicated label of a pair is non-matching.

    所謂不一致記錄對(duì)的消歧問題,就是給定一系列個(gè)體方法和一致記錄對(duì)集合Pc,推斷Pinc中不一致記錄對(duì)是否匹配.例如表2中不一致記錄對(duì)的消歧問題就是已知個(gè)體方法的解析結(jié)果M1,M2,…,M10和一致記錄對(duì)集合Pc={p4,5,p4,6,p5,6,p7,8},推斷Pinc={p1,2,p1,3,p2,3,p2,5,p3,6}中不一致記錄對(duì)的匹配狀態(tài).

    2 不一致記錄對(duì)消歧框架

    本節(jié)首先概述基于因子圖的不一致記錄對(duì)消歧框架FG-RIP,接著詳細(xì)介紹它的2個(gè)關(guān)鍵模塊:基于因子圖的異構(gòu)信息融合(heterogeneous informa-tion fusion based on factor graph)和基于最大似然估計(jì)的因子權(quán)重學(xué)習(xí)(learning factor weights based on maximum likelihood estimation).

    FG-RIP的處理流程如圖1所示:

    Fig. 1 A workflow for reconciling inconsistent pairs圖1 不一致記錄對(duì)消歧流程圖

    1) 利用現(xiàn)存的個(gè)體方法(individual methods)解析數(shù)據(jù)集D,并得到Pc和Pinc.

    2) 構(gòu)建自身匹配特征(self-matching feature,縮寫為S),即計(jì)算記錄對(duì)的屬性值相似度和使用核密度估計(jì)來(lái)量化不一致記錄對(duì)的匹配可能性;利用圖的連通性構(gòu)建一致匹配記錄對(duì)和不一致記錄對(duì)之間的匹配傳遞特征(transitive matching feature,縮寫為T);利用個(gè)體方法的解析結(jié)果構(gòu)建外部匹配特征(external matching feature,縮寫為E),進(jìn)而構(gòu)建與不一致記錄對(duì)相關(guān)的因子圖.

    3) 用最大似然估計(jì)方法計(jì)算因子圖中因子的權(quán)重.最后使用這些權(quán)重估計(jì)不一致記錄對(duì)的邊緣概率密度,并判斷不一致記錄對(duì)是否匹配.

    2.1 基于因子圖的異構(gòu)信息融合

    在概率圖模型中,因子圖G=(V,E)類似于二部圖,其中V(vertices)是頂點(diǎn)集合,E(edges)是頂點(diǎn)之間邊的集合.它的頂點(diǎn)集合包括2類節(jié)點(diǎn):因子節(jié)點(diǎn)f和變量節(jié)點(diǎn)v.邊只存在于因子節(jié)點(diǎn)和變量節(jié)點(diǎn)之間,而因子節(jié)點(diǎn)(或變量節(jié)點(diǎn))之間沒有邊.因子節(jié)點(diǎn)定義了與它相連的變量節(jié)點(diǎn)的聯(lián)合概率分布.與二部圖的不同點(diǎn)是因子圖的因子節(jié)點(diǎn)定義了一個(gè)概率分布,而二部圖沒有概率分布的含義.

    本文利用因子圖把與記錄對(duì)是否匹配相關(guān)的異構(gòu)信息綜合起來(lái),以便量化記錄對(duì)匹配的概率和不匹配的概率.與不一致記錄對(duì)是否匹配相關(guān)的異構(gòu)特征有3類:記錄對(duì)的自身匹配特征、匹配傳遞特征和外部匹配特征.因子圖模型首先把不一致記錄對(duì)是否匹配,以及與不一致記錄對(duì)是否匹配的相關(guān)特征看成是隨機(jī)變量,然后構(gòu)建這些隨機(jī)變量的聯(lián)合概率分布.它的處理過程是:1)把不一致記錄對(duì)(如pi,j)是否匹配m(pi,j)看成是一個(gè)二元隨機(jī)變量,把與m(pi,j)相關(guān)的3類特征看成是隨機(jī)變量集合V,這些隨機(jī)變量構(gòu)成因子圖的變量節(jié)點(diǎn)或因子節(jié)點(diǎn);2)使用指數(shù)函數(shù)exp(·)來(lái)構(gòu)建V中變量與m(pi,j)之間的函數(shù)關(guān)系,并作為因子節(jié)點(diǎn)的因子函數(shù);3)借鑒最大似然估計(jì)的思想計(jì)算出各個(gè)因子的權(quán)重;4)計(jì)算pi,j匹配的概率p(m(pi,j)=1|V)和pi,j不匹配的概率p(m(pi,j)=0|V).如果p(m(pi,j)=1|V)大于p(m(pi,j)=0|V),那么pi,j匹配,反之不匹配.為減少不必要的計(jì)算,本文所指的概率分布都是未經(jīng)歸一化的概率分布,因?yàn)閷?duì)于某不一致記錄對(duì)pinc而言,pinc的匹配狀態(tài)只取決于匹配概率和不匹配概率的相對(duì)大小.對(duì)未歸一化的pinc匹配概率和不匹配概率而言,它們的歸一化因子是相同的,使用未歸一化的概率值不影響匹配狀態(tài)的預(yù)測(cè)結(jié)果.

    2.1.1 自身匹配特征

    記錄對(duì)的自身匹配特征,主要考慮:1)不一致記錄對(duì)pinc中相應(yīng)屬性值之間的相似度sim(pinc,nattr);2)使用核密度估計(jì)擬合出屬性值的相似度sim(pinc,nattr)與記錄對(duì)是否匹配m(pinc)之間的概率分布.nattr(attribute name)是屬性名,sim(·)可以是任意相似度度量.本文使用Jaccard相似系數(shù)來(lái)度量2個(gè)屬性值的相似度.

    我們把屬性值相似度建模為因子節(jié)點(diǎn).該類因子節(jié)點(diǎn)的因子函數(shù)fS,是m(pinc)與sim(pinc,nattr)之間的分布律,具體數(shù)學(xué)描述為

    (1)

    其中,S(self-matching)代表基于相似度的自身匹配特征;nattr是屬性名;sim(pinc,nattr)是pinc的nattr屬性值相似度;exp(·)是指數(shù)函數(shù);m(pinc)是一個(gè)布爾變量,如果m(pinc)=1,那么pinc匹配,否則m(pinc)=0,pinc不匹配.例如表2中p2,3的title屬性,有sim(p2,3,title)=1,那么p2,3的因子圖包含一個(gè)因子節(jié)點(diǎn),且該因子節(jié)點(diǎn)的因子函數(shù)定義為

    (2)

    核密度估計(jì)(kernel density estimation, KDE)是一種無(wú)參數(shù)的密度估計(jì)技術(shù),它能夠依據(jù)樣本擬合出屬性值相似度和記錄對(duì)是否匹配之間的概率密度函數(shù).對(duì)每個(gè)屬性nattr,我們使用了所有的一致匹配對(duì)集合Pcp和一致不匹配對(duì)集合Pcn的子集(也就是在nattr上與Pinc相似的)作為核密度估計(jì)的輸入樣本.對(duì)于任意pinc和nattr,依據(jù)擬合出的密度函數(shù)和屬性值相似度sim(pinc,nattr),我們就可以計(jì)算pinc匹配不匹配的概率值.匹配的概率值越高,表明pinc匹配的可能性越大.

    本文使用scikit-learn提供的核密度估計(jì)算法KernelDensity[11].它的核心思想是以給定的一系列樣本值作為觀察值集合,以一個(gè)非線性函數(shù)作為核函數(shù),對(duì)于某待判斷的樣本xq,它的概率密度值由觀察值集合X的樣本與xq的差值決定,具體計(jì)算為

    (3)

    其中,N是樣本的數(shù)目;n(·)是一個(gè)歸一化函數(shù),保證p(xq)∈[0,1].h是一個(gè)平滑因子,用來(lái)權(quán)衡偏差和方差.h越大,密度函數(shù)p(xq)具有高的偏差,也越光滑;反之,h越小,p(x)具有高的方差,即越不光滑.為了避免核密度估計(jì)遇到不連續(xù)性問題,本文采用平滑的高斯函數(shù)作為核函數(shù):

    (4)

    類似屬性值相似度特征,我們把由KDE擬合的記錄匹配特征看成是另一種自身匹配特征.這類因子節(jié)點(diǎn)的因子函數(shù)fSKDE定義為

    (5)

    p(v)=p(sim(pinc,nattr)).

    (6)

    式(6)是把sim(pinc,nattr)作為式(3)的輸入得到的,SKDE(self-matching KDE)代表基于核密度估計(jì)的自身匹配特征.

    Fig. 2 Relationships among matched pairs and unpredicted pairs圖2 匹配的記錄對(duì)與待預(yù)測(cè)的記錄對(duì)之間的關(guān)系

    2.1.2 匹配傳遞特征

    假設(shè)把每個(gè)記錄看成是無(wú)向圖的頂點(diǎn),如果某個(gè)記錄對(duì)被預(yù)測(cè)為匹配,那么相關(guān)的記錄之間存在1條實(shí)線邊,如圖2(a)中r1和r2所示.對(duì)于待判斷記錄對(duì)如p2,5,該記錄對(duì)的相關(guān)記錄之間存在1條虛線邊,表示待預(yù)測(cè)狀態(tài).在消歧過程中,處于待預(yù)測(cè)狀態(tài)的記錄對(duì)pi,j可分為2種情況:

    情況1.ri和rj分別屬于不同的連通圖,記為c=1,如圖2(a)的r2和r5,c表示記錄對(duì)所屬情況.

    情況2.ri和rj屬于同一個(gè)連通圖,記為c=2,如圖2(b)的r3和r6.

    情況1如圖2(a)所示.假設(shè)已知記錄對(duì)p1,2,p1,3,p2,3,p4,5,p4,6,p5,6處于匹配狀態(tài),那么記錄對(duì)p2,5是否匹配的信息可以從r2和r5各自所在的連通圖中得到.由實(shí)體解析的定義可知,處于匹配狀態(tài)的記錄對(duì)p2,3,表明r2和r3是現(xiàn)實(shí)世界中同一個(gè)實(shí)體erec的2個(gè)不同描述.對(duì)某個(gè)屬性nattr來(lái)說,r2[nattr]和r3[nattr]是erec[nattr]的近似描述.當(dāng)判斷r2和r5是否匹配時(shí),可以用sim(r3[nattr],r5[nattr])作為匹配傳遞特征.傳遞特征的因子函數(shù)定義與自身匹配特征的因子函數(shù)定義類似.

    情況2如圖2(b)所示.由于p2,5處于匹配狀態(tài),待預(yù)測(cè)記錄對(duì)p3,6的r3和r6處于同一個(gè)連通圖.我們?cè)谝蜃訄D中添加傳遞變量節(jié)點(diǎn)vT和傳遞因子節(jié)點(diǎn)fT.fT的因子函數(shù)為

    (7)

    其中,m(p3,6)是待預(yù)測(cè)的變量節(jié)點(diǎn),且m(p3,6)=1表示p3,6匹配,而m(p3,6)=0表示p3,6不匹配.為便于陳述,本文把與匹配傳遞特征相關(guān)的節(jié)點(diǎn)稱為傳遞變量節(jié)點(diǎn)或傳遞因子節(jié)點(diǎn),并用T(transitive)表示匹配傳遞特征.

    綜上所述,對(duì)于匹配傳遞特征,我們按照算法1構(gòu)建與pinc相關(guān)的傳遞變量節(jié)點(diǎn)和傳遞因子節(jié)點(diǎn).

    算法1.匹配傳遞特征的因子節(jié)點(diǎn)和變量節(jié)點(diǎn)的構(gòu)建.

    輸入:不一致記錄對(duì)pinc和一致匹配對(duì)集合Pcp;

    輸出:pinc的變量節(jié)點(diǎn)、傳遞變量節(jié)點(diǎn)集VT和傳遞因子節(jié)點(diǎn)集FT.

    ① 根據(jù)Pcp構(gòu)建無(wú)向圖.

    ② 對(duì)于待預(yù)測(cè)狀態(tài)的記錄對(duì)pinc,利用圖的連通性,判斷pinc是屬于情況1還是情況2.

    ③ 若pinc屬于情況1,首先構(gòu)建一個(gè)待預(yù)測(cè)變量節(jié)點(diǎn)m(pinc),并為它的每個(gè)屬性nattr構(gòu)建一個(gè)傳遞變量節(jié)點(diǎn)vT∈VT和一個(gè)傳遞因子節(jié)點(diǎn)fT∈FT.考慮到某些待預(yù)測(cè)狀態(tài)的記錄對(duì),會(huì)產(chǎn)生較多的匹配傳遞特征.例如在圖2(a)中,p2,5的nattr屬性的匹配傳遞特征包括sim(r3[nattr],r5[nattr]),sim(r1[nattr],r5[nattr]),sim(r2[nattr],r4[nattr]),sim(r2[nattr],r6[nattr]).鑒于此,對(duì)于每個(gè)屬性nattr,本文只選擇這些匹配特征中sim(·)最小的,記為ms(pinc,nattr),作為pinc在nattr上傳遞變量節(jié)點(diǎn)vT的變量值.fT的因子函數(shù)定義為

    (8)

    ④ 若pinc屬于情況2,首先構(gòu)建變量節(jié)點(diǎn)m(pinc),并為它的每個(gè)屬性構(gòu)建一個(gè)傳遞變量節(jié)點(diǎn)vT∈VT和一個(gè)傳遞因子節(jié)點(diǎn)fT∈FT,其中fT的因子函數(shù)定義為

    (9)

    2.1.3 外部匹配特征

    與傳統(tǒng)的實(shí)體解析方法不同,本文的消歧方法是對(duì)傳統(tǒng)實(shí)體解析方法的結(jié)果中不一致記錄對(duì)進(jìn)行預(yù)測(cè).這些不一致記錄對(duì)具有個(gè)體方法的投票信息.本文把這些投票信息歸類為外部匹配特征,并用E(external)表示外部匹配特征.pinc的外部匹配特征包括:1)pinc獲得的投票比例;2)個(gè)體方法關(guān)于pinc的投票信息.

    依據(jù)pinc獲得的投票比例,可構(gòu)建與源自投票比例的外部匹配特征相關(guān)的因子節(jié)點(diǎn)和變量節(jié)點(diǎn).假設(shè)使用k(k>1)個(gè)不同的個(gè)體方法,且有Npinc個(gè)方法預(yù)測(cè)pinc為匹配的,那么在因子圖中添加因子節(jié)點(diǎn)fE、變量節(jié)點(diǎn)vE和待預(yù)測(cè)變量節(jié)點(diǎn)m(pinc).其中vE=Npinck,fE(m(pinc),vE)是fE的因子函數(shù),其數(shù)學(xué)形式為

    fE(m(pinc),Npinck)=

    (10)

    (11)

    2.2 基于最大似然估計(jì)的因子權(quán)重學(xué)習(xí)

    對(duì)于某不一致記錄對(duì)pinc,假設(shè)已經(jīng)得到與它相關(guān)的所有因子函數(shù)如f1,f2,…,fl,其中l(wèi)是因子節(jié)點(diǎn)的數(shù)目,那么pinc是否匹配的變量m(pinc)與所有相關(guān)的變量V={v1,v2,…,vl}之間的聯(lián)合概率密度可定義為

    p(m(pinc),v1,v2,…,vl;w1,w2,…,wl)= exp(w1)×f1×exp(w2)×f2×…× exp(wl)×fl,

    (12)

    其中wi是因子fi的權(quán)重.

    最大似然估計(jì)是一種估計(jì)總體分布中未知參數(shù)的方法,它的核心思想是概率最大的事件最有可能出現(xiàn).由于因子節(jié)點(diǎn)的權(quán)重是未知的,為了估計(jì)這些權(quán)重,我們采用最大似然估計(jì)的思想,極大化觀察數(shù)據(jù),也就是最大化變量V關(guān)于參數(shù)W的對(duì)數(shù)似然函數(shù):

    (13)

    其中V={v1,v2,…,vl}是除了m(pinc)以外的所有變量集合;W={w1,w2,…,wl}是所有權(quán)重的集合;n是待消歧的不一致記錄對(duì)的數(shù)目|Pinc|.

    我們使用scipy提供的信任區(qū)域約束算法(trust region constrained algorithm)[12]求解有約束的最優(yōu)化問題.

    3 實(shí)驗(yàn)與結(jié)果

    本節(jié)概述了實(shí)驗(yàn)的運(yùn)行環(huán)境,并在真實(shí)數(shù)據(jù)集Cora和Song上驗(yàn)證算法的有效性.所有實(shí)驗(yàn)的運(yùn)行環(huán)境配置為 Intel?CoreTMi7-4710MQ 2.50 GHz處理器、16 GB內(nèi)存和Ubuntu 16.04 64位的操作系統(tǒng).編程語(yǔ)言是Python 3.服務(wù)器端數(shù)據(jù)庫(kù)是MongoDB.

    3.1 度量標(biāo)準(zhǔn)

    本文采用實(shí)體解析文獻(xiàn)[5,13-14]廣泛使用的查準(zhǔn)率、查全率和F1來(lái)評(píng)價(jià)算法的有效性.由于個(gè)體方法是從候選記錄對(duì)開始處理,所以,在與個(gè)體方法的對(duì)比中,使用的是全部候選記錄對(duì)的查全率、查準(zhǔn)率和F1,而其他實(shí)驗(yàn)使用不一致記錄對(duì)集合的查全率、查準(zhǔn)率和F1.所謂查準(zhǔn)率是指預(yù)測(cè)為匹配且真正匹配的記錄對(duì)數(shù)目,與預(yù)測(cè)為匹配的記錄對(duì)數(shù)目的比值,記為Ppre.查全率是指預(yù)測(cè)為匹配且真正匹配的記錄對(duì)數(shù)目,與所有真正匹配的記錄對(duì)數(shù)目的比值,記為Rrec.F1是查準(zhǔn)率和查全率的調(diào)和平均值,具體定義為

    (14)

    3.2 數(shù)據(jù)集

    本文在Cora和Song數(shù)據(jù)集上測(cè)試提出的方法.下面我們從數(shù)據(jù)集特點(diǎn)和記錄對(duì)方面介紹這2個(gè)數(shù)據(jù)集.

    數(shù)據(jù)集Cora[15]是一個(gè)文獻(xiàn)數(shù)據(jù).它包含1 295個(gè)記錄,而這些記錄隸屬于112個(gè)實(shí)體的某一個(gè).每個(gè)記錄由12個(gè)屬性描述如文獻(xiàn)的作者列表和標(biāo)題等.我們將這些記錄對(duì)兩兩比較,得到的候選記錄對(duì)數(shù)目為837 865.本文處理的對(duì)象是不一致記錄對(duì).對(duì)Cora數(shù)據(jù)而言,不一致記錄對(duì)的數(shù)目為44 909,一致匹配對(duì)的數(shù)目是1 013,而一致不匹配對(duì)的數(shù)目是791 943.

    數(shù)據(jù)集Song[16]是一個(gè)歌曲數(shù)據(jù).它包含100 000個(gè)記錄,每個(gè)記錄由7個(gè)屬性描述,例如歌曲的專輯名和發(fā)布時(shí)間等.我們抽取了其中的20 744個(gè)記錄進(jìn)行實(shí)驗(yàn).這些記錄對(duì)經(jīng)過blocking技術(shù)過濾后,得到的候選記錄對(duì)的數(shù)目是260 181,其中不一致記錄對(duì)的數(shù)目為115 258,一致匹配對(duì)的數(shù)目為651,一致不匹配對(duì)的數(shù)目為144 272.

    3.3 對(duì)比方法概述

    本文采用的個(gè)體方法總共有11個(gè),包括:1)5個(gè)無(wú)監(jiān)督的解析方法,分別是基于RR規(guī)則[6]的方法Rule、基于離群距離的方法Distance[2]、基于k-means的Cluster[9]、基于高斯混合模型的GMM[10]、基于狄利克雷過程的變分貝葉斯高斯混合模型DPBGM[17];2)6個(gè)基于學(xué)習(xí)的解析方法,分別是基于支持向量機(jī)的SVM[18]、基于決策樹模型的CART[19]、基于隨機(jī)森林的ERT[20]、基于高斯樸素貝葉斯模型的GNB[11]、基于多層感知器的MLP[8]和基于深度學(xué)習(xí)技術(shù)的Hybrid[3].

    各個(gè)無(wú)監(jiān)督方法的解析過程逐一概述為:Rule方法是使用事先給定的匹配規(guī)則來(lái)判斷記錄對(duì)是否匹配,其規(guī)則形式與文獻(xiàn)[6]提出的RR規(guī)則相同.Distance方法[2]首先計(jì)算離群距離,然后依據(jù)離群距離和匹配約束來(lái)判斷記錄對(duì)是否匹配.Cluster方法是使用開源的機(jī)器學(xué)習(xí)庫(kù)scikit-learn來(lái)復(fù)現(xiàn)文獻(xiàn)[9]中提到的k-means聚類解析方法.GMM和DPBGM方法是把實(shí)體解析問題等價(jià)于將候選記錄對(duì)劃分為匹配組和不匹配組的聚類問題.GMM即高斯混合模型[10],假設(shè)匹配記錄對(duì)和不匹配記錄對(duì)分別服從2個(gè)參數(shù)未知的高斯分布,而觀測(cè)數(shù)據(jù)來(lái)自這2個(gè)高斯分布的混合模型.GMM通過EM算法[18]學(xué)習(xí)該模型的未知參數(shù),進(jìn)而使用訓(xùn)練好的模型將記錄對(duì)劃分為匹配組和不匹配組.DPBGM是高斯混合模型的一種變體,即高斯混合的變分貝葉斯估計(jì)模型.DPBGM與GMM的不同點(diǎn)是,DPBGM使用變分推斷估計(jì)模型的參數(shù).

    基于學(xué)習(xí)的解析方法SVM,CART,ERT,GNB,MLP是機(jī)器學(xué)習(xí)領(lǐng)域的分類模型.這些模型的主要思想是構(gòu)建樣本特征,訓(xùn)練二分類模型,并預(yù)測(cè)記錄對(duì)是否匹配,其中樣本的特征是記錄對(duì)的相應(yīng)屬性值的相似度構(gòu)成的向量.這些模型的不同點(diǎn)在于模型構(gòu)建原理.本實(shí)驗(yàn)的SVM是非線性支持向量機(jī),其模型構(gòu)建原理是在特征空間中搜索一個(gè)超平面,用來(lái)把記錄對(duì)集合劃分為匹配組和不匹配組.CART的模型構(gòu)建原理是使用特征和閾值構(gòu)建二叉樹,其中每個(gè)樹節(jié)點(diǎn)都具有最大的信息收益.ERT的模型構(gòu)建原理是首先使用訓(xùn)練集的子樣本構(gòu)建一系列隨機(jī)決策樹,然后使用這些決策樹的解析結(jié)果均值來(lái)進(jìn)行最終的判斷.GNB算法與樸素貝葉斯算法的相同點(diǎn)是基于貝葉斯定理和類條件獨(dú)立性假設(shè);兩者的不同點(diǎn)是GNB假設(shè)在給定類標(biāo)簽后,每個(gè)特征服從高斯分布.MLP模型是一個(gè)二分類的前饋神經(jīng)網(wǎng)絡(luò),本實(shí)驗(yàn)中MLP的輸入層是記錄對(duì)的屬性相似度特征,輸出層是記錄對(duì)的匹配狀態(tài).隱藏層包括2層:第1層的神經(jīng)元數(shù)目是5;第2層的神經(jīng)元數(shù)目是2.它的損失函數(shù)是交叉熵?fù)p失函數(shù),優(yōu)化算法是擬牛頓方法L-BFGS.本實(shí)驗(yàn)調(diào)用scikit-learn庫(kù)中這些算法的API實(shí)現(xiàn)接口[11].本實(shí)驗(yàn)的Hybrid算法,首先使用預(yù)訓(xùn)練的embedding模型把每個(gè)屬性的單詞序列轉(zhuǎn)換為固定維度的向量序列;然后訓(xùn)練并融合雙向序列模型Bi_RNN和序列比對(duì)模型來(lái)構(gòu)建屬性摘要向量;接著用比較函數(shù)計(jì)算記錄對(duì)的屬性相似度描述向量;最后多層感知器以訓(xùn)練集的屬性相似度描述向量為輸入,訓(xùn)練出二分類模型進(jìn)行實(shí)體解析.所有監(jiān)督或無(wú)監(jiān)督的現(xiàn)存實(shí)體解析方法,都可以作為消歧框架的個(gè)體方法,但必須有至少2個(gè)不依賴標(biāo)簽數(shù)據(jù),且有差異的個(gè)體方法.這樣基于學(xué)習(xí)的解析方法就可以用有差異的無(wú)監(jiān)督方法的輸出結(jié)果中的一致的部分作為訓(xùn)練集.有差異的無(wú)監(jiān)督個(gè)體方法越多,訓(xùn)練集的純度越高.所謂訓(xùn)練集的純度是指訓(xùn)練集中標(biāo)簽正確的記錄對(duì)所占的比例.

    消歧方法GL-RF[21]是針對(duì)Clean-Clean ER場(chǎng)景[22]下消歧算法.本文將該算法的匹配約束去掉,修改為可以處理Dirty-Dirty ER場(chǎng)景下的消歧算法,并進(jìn)行了對(duì)比實(shí)驗(yàn).

    3.4 實(shí)驗(yàn)和結(jié)果

    本節(jié)中,我們進(jìn)行4組實(shí)驗(yàn)來(lái)驗(yàn)證FG-RIP的有效性.

    實(shí)驗(yàn)1.與個(gè)體方法進(jìn)行了對(duì)比,驗(yàn)證了FG-RIP算法能自動(dòng)組合出在F1指標(biāo)上最好的方法.這些個(gè)體方法的實(shí)驗(yàn)結(jié)果如表3,4所示,最大值已用黑體標(biāo)出.

    Note: The maximum values are in bold.

    Table 4 Comparison with Individual Methods on Cora表4 Cora數(shù)據(jù)集上與個(gè)體方法的對(duì)比

    Note: The maximum values are in bold.

    由表3,4可以得出:

    1) 在相同的數(shù)據(jù)集上,個(gè)體方法各有所長(zhǎng).①對(duì)Song數(shù)據(jù)而言,在所有的個(gè)體方法中,Rule具有最高的查全率和相對(duì)較高的查準(zhǔn)率,這說明了基于屬性值相似度和閾值的領(lǐng)域規(guī)則能夠有效識(shí)別出記錄對(duì),但存在準(zhǔn)確率欠缺的不足.這也表明,查全率高而查準(zhǔn)率低的個(gè)體方法如Rule,GMM等,有助于過濾掉不匹配的記錄對(duì),同時(shí)保障真正匹配的記錄對(duì)以較高的概率落入不一致記錄對(duì)集合中.另外,盡管GNB具有最高的查準(zhǔn)率,但查全率較低.這表明被GNB預(yù)測(cè)為匹配的記錄對(duì),具有較高的可信性.這也表明對(duì)于查準(zhǔn)率高而查全率低的方法如GNB,可有效保證真正匹配記錄對(duì)以較高概率落入一致匹配記錄對(duì)集合中.CART和MLP算法的查準(zhǔn)率、查全率和F1均達(dá)到90%以上.這表明屬性值相似度特征和較少的模型參數(shù)就能夠?yàn)镾ong數(shù)據(jù)集訓(xùn)練較好的解析模型.②對(duì)Cora數(shù)據(jù)而言,Distance具有最高的查準(zhǔn)率和極低的查全率.這是由于樊峰峰等人[2]提出了一個(gè)基于主成分分析的離群距離.對(duì)某個(gè)記錄ri,該離群距離能夠找到與該記錄匹配概率最高的記錄對(duì)rj,其中i≠j.對(duì)于數(shù)據(jù)集中某實(shí)體erec,假設(shè)只有2個(gè)記錄ri和ri描述該實(shí)體erec,那么Distance的解析結(jié)果較好.而Cora數(shù)據(jù)集中erec對(duì)應(yīng)多個(gè)記錄,使得Distance識(shí)別為匹配的記錄對(duì),有較高概率是真正匹配的.而其他匹配的記錄對(duì)被解析為不匹配的,導(dǎo)致了極低的查全率.DPBGM具有最高的查全率,且GMM具有較高的查全率.這些說明在沒有標(biāo)簽數(shù)據(jù)的情況下,選擇一個(gè)適合所有數(shù)據(jù)集的方法具有很大的挑戰(zhàn).

    2) 在不同的數(shù)據(jù)集上,大部分個(gè)體方法的查準(zhǔn)率、查全率和F1有差異.例如SVM在Cora數(shù)據(jù)上F1值與最高的F1值相差2.18%,卻在Song數(shù)據(jù)上相差43.98%.這是由于SVM模型依賴于來(lái)自數(shù)據(jù)集的支持向量,若這些支持向量無(wú)法有效分類樣本,則模型的分類效果較差.Hybrid在Cora數(shù)據(jù)上有較高的查全率,而在Song數(shù)據(jù)集上有較高的查準(zhǔn)率.這是由于文獻(xiàn)[3]融合了embedding技術(shù)、雙向序列模型、序列比對(duì)模型和多層感知器來(lái)訓(xùn)練出一個(gè)二分類模型.由于該模型的參數(shù)多(如在Song和Cora數(shù)據(jù)集上,需要訓(xùn)練的參數(shù)數(shù)目分別為9 210 006和26 545 814),但訓(xùn)練樣本集合(即一致記錄對(duì)集合)有限,且訓(xùn)練樣本集合(一致記錄對(duì)集合)和測(cè)試樣本集合(不一致記錄對(duì)集合)屬于不同的分布,導(dǎo)致訓(xùn)練的模型過擬合即在訓(xùn)練數(shù)據(jù)集上查準(zhǔn)率、查全率和F1高達(dá)90%以上,而在Song數(shù)據(jù)集的測(cè)試集合上,僅查準(zhǔn)率較高;而在Cora數(shù)據(jù)集上,僅查全率最高.另外,某些個(gè)體方法不受數(shù)據(jù)集差異的影響.比如GMM在Cora和Song數(shù)據(jù)上均有高達(dá)90%以上的查全率和較低的查準(zhǔn)率,這說明混合高斯模型對(duì)數(shù)據(jù)的差異不敏感,具有較好的健壯性.

    3) 平均來(lái)看,監(jiān)督模型的解析效果優(yōu)于無(wú)監(jiān)督的.例如對(duì)Song數(shù)據(jù)而言,6個(gè)監(jiān)督模型的平均查全率、查準(zhǔn)率和F1,依次為0.674 7,0.911 9,0.756 9;而5個(gè)無(wú)監(jiān)督模型的平均查全率、查準(zhǔn)率和F1依次為0.735 3,0.367 3,0.423 8.對(duì)Cora數(shù)據(jù)而言,6個(gè)監(jiān)督模型的平均查全率、查準(zhǔn)率和F1依次為0.868 5,0.719 4,0.785 4;而5個(gè)無(wú)監(jiān)督模型的平均查全率、查準(zhǔn)率和F1依次為0.745 5,0.474 3,0.388 1.這表明,盡管在消歧問題上,訓(xùn)練集(一致記錄對(duì)集合)和測(cè)試集(不一致記錄對(duì)集合)不滿足獨(dú)立同分布,且在理論上,當(dāng)訓(xùn)練樣本和測(cè)試樣本是獨(dú)立同分布時(shí),監(jiān)督模型才有最好的效果,但由于部分監(jiān)督模型如CART和MLP,具有較好的健壯性,能在非獨(dú)立同分布場(chǎng)景下,訓(xùn)練出較好的二分類模型.如在Song數(shù)據(jù)的消歧問題上,CART和MLP的查準(zhǔn)率、查全率和F1高達(dá)90%.這也表明通過分析一致記錄對(duì)的特征有助于更好地預(yù)測(cè)不一致記錄對(duì)的匹配狀態(tài).

    4) FG-RIP 能夠更準(zhǔn)確地解析出更多的匹配記錄,具有最好的綜合指標(biāo)F1.由表3,4可知,與其他個(gè)體方法相比,F(xiàn)G-RIP具有較高的查準(zhǔn)率和查全率.這是由于FG-RIP把個(gè)體方法的解析結(jié)果作為外部匹配特征,并綜合記錄對(duì)的自身匹配特征和匹配傳遞特征來(lái)進(jìn)行消歧.在Cora數(shù)據(jù)集上,雖然FG-RIP的查準(zhǔn)率沒有Distance高,但它具有最好的綜合指標(biāo)F1.類似地,在Song數(shù)據(jù)集上,F(xiàn)G-RIP也具有最高的F1值.這些表明,基于因子圖的消歧算法FG-RIP能自動(dòng)組合各類特征,獲得最優(yōu)的綜合指標(biāo).

    實(shí)驗(yàn)2.與已存在的消歧方法GL-RF進(jìn)行了對(duì)比.我們分別從Song和Cora數(shù)據(jù)集的不一致記錄對(duì)集合中抽取了1 000個(gè)和2 000個(gè)進(jìn)行對(duì)比實(shí)驗(yàn).如表5,6所示:

    Table 5 Comparison with GL-RF on Song表5 Song數(shù)據(jù)集上與GL-RF的對(duì)比

    Table 6 Comparison with GL-RF on Cora表6 Cora數(shù)據(jù)集上與GL-RF的對(duì)比

    表5,6所示的實(shí)驗(yàn)對(duì)比結(jié)果可得出:

    1) 改造后的GL-RF可以有效處理部分Dirty-Dirty ER場(chǎng)景下的不一致記錄對(duì)消歧問題.由表5可知,在Song數(shù)據(jù)集上,GL-RF和FG-RIP的實(shí)驗(yàn)結(jié)果相同.這是由于雖然Song數(shù)據(jù)屬于Dirty-Dirty ER場(chǎng)景,但Song的不一致記錄對(duì)集中匹配記錄對(duì)與Clean-Clean ER場(chǎng)景的大體吻合.具體來(lái)說,在Clean-Clean ER場(chǎng)景下,某個(gè)記錄最多有1個(gè)與之相匹配的記錄.Song數(shù)據(jù)上,92.81%的記錄最多有1個(gè)與之匹配的記錄;7.19%的記錄與2個(gè)以上的其他記錄相匹配,因而GL-RF能有效地處理這類消歧問題.

    2) FG-RIP算法在Cora數(shù)據(jù)集上優(yōu)于GL-RF.這是由于:①?gòu)臄?shù)據(jù)集的角度看,Cora的不一致記錄對(duì)集中匹配記錄對(duì)與Clean-Clean ER場(chǎng)景差異較大.具體來(lái)說,Cora數(shù)據(jù)中,僅6.88%的記錄最多有1個(gè)與之匹配的記錄;93.12%的記錄與2個(gè)以上的記錄相匹配;有的記錄甚至有83個(gè)與之匹配的記錄.這導(dǎo)致改進(jìn)后的GL-RF在Cora數(shù)據(jù)中消歧效果有限.②從方法的角度看,GL-RF只考慮了一致記錄對(duì)和不一致記錄對(duì)之間的距離關(guān)系,適合識(shí)別與某個(gè)記錄最匹配的記錄.而FG-RIP把各類匹配特征建模為特征因子,自動(dòng)組合最優(yōu)消歧模型,因而能更準(zhǔn)確地識(shí)別匹配記錄對(duì).

    實(shí)驗(yàn)3.本文使用查準(zhǔn)率、查全率和F1指標(biāo),分析了不同的因子特征對(duì)Cora和Song數(shù)據(jù)的消歧結(jié)果的影響.在圖3(a)(b)中,如第2節(jié)所述,S,T,E分別代表記錄對(duì)自身匹配特征、匹配傳遞特征、外部匹配特征.我們可以觀察到:1)匹配傳遞特征T在2個(gè)數(shù)據(jù)集上均具有較高的查全率.這表明特征T有助于識(shí)別更多的匹配記錄對(duì).2)記錄對(duì)自身匹配特征S消歧效果表現(xiàn)不穩(wěn)定.在Cora數(shù)據(jù)上,S具有較高的F1,而在Song數(shù)據(jù)上具有較低的F1.3)外部匹配特征E具有較好的消歧效果.如E的查全率在Cora數(shù)據(jù)上最高,且F1值高于記錄對(duì)自身匹配特征S和匹配傳遞特征T.這表明融合個(gè)體方法的特征能有效地發(fā)揮個(gè)體方法識(shí)別匹配記錄對(duì)的能力.4)所有特征表現(xiàn)穩(wěn)定,在所有數(shù)據(jù)集上均能取得較好的效果.以F1指標(biāo)為例,所有特征的解析效果在Song和Cora數(shù)據(jù)上達(dá)到最高.

    Fig. 3 Performance comparison on different factors圖3 不同因子的消歧效果對(duì)比

    實(shí)驗(yàn)4.分析基于相似度的核密度估計(jì)技術(shù)對(duì)FG-RIP方法的影響.如圖4所示,KDE代表FG-RIP算法只使用基于相似度的核密度估計(jì)特征;-KDE代表FG-RIP算法使用去掉核密度估計(jì)特征后所有其他特征.本質(zhì)上,在相似度值的基礎(chǔ)上,用核密度估計(jì)技術(shù)計(jì)算概率值,相當(dāng)于把原來(lái)的相似度特征從線性空間變換到非線性空間.變化后的特征對(duì)非線性可分的數(shù)據(jù)集有效,而對(duì)線性可分的數(shù)據(jù)集效果不明顯.由圖4的實(shí)驗(yàn)結(jié)果可知:1)當(dāng)變化后的特征空間能有效劃分候選記錄對(duì)集合的匹配記錄對(duì)和不匹配記錄對(duì)時(shí),基于核密度估計(jì)技術(shù)的特征可獲得較好的消歧效果.如對(duì)于Cora而言,與-KDE相比,變化后的特征空間(KDE)有較高的查全率、查準(zhǔn)率和F1值,即能提供更好的分類效果;而對(duì)于Song而言,原有特征空間(-KDE)的消歧質(zhì)量指標(biāo)均高于KDE的消歧質(zhì)量.2)基于全部特征的消歧算法具有一定的魯棒性.在核密度估計(jì)特征有效時(shí),它的消歧效果略低于核密度估計(jì)特征的效果;在核密度估計(jì)特征無(wú)效時(shí),它受其消歧效果的影響小.①當(dāng)變化后的特征空間能有效區(qū)分匹配對(duì)和不匹配對(duì)時(shí),僅僅使用基于相似度的核密度估計(jì)特征,F(xiàn)G-RIP就能獲得最好的消歧效果,甚至在某些質(zhì)量指標(biāo)上略高于所有特征.如在Cora數(shù)據(jù)集上,KDE的查全率和F1值最高.所有特征的查全率和F1值低于KDE的相應(yīng)值,表明在Cora數(shù)據(jù)中增加非KDE特征后,質(zhì)量指標(biāo)有所下降,但降低的幅度不大,如所有特征的F1值僅減低了0.49%.②當(dāng)變化后的特征空間不能有效地區(qū)分匹配對(duì)和不匹配對(duì)時(shí),KDE的消歧效果較差.如在Song數(shù)據(jù)集上,KDE的所有質(zhì)量指標(biāo)最低.但所有特征的消歧質(zhì)量受KDE特征的影響小.由于缺少標(biāo)簽數(shù)據(jù),事先評(píng)估KDE的消歧效果不可行.鑒于此,在實(shí)際應(yīng)用場(chǎng)景中,建議使用全部的特征,以便消歧算法具有較好的魯棒性.

    Fig. 4 Performance comparison on kernel density estimation圖4 核密度估計(jì)的消歧效果對(duì)比

    4 相關(guān)工作

    由于實(shí)體解析問題是數(shù)據(jù)集成和清洗系統(tǒng)的核心基礎(chǔ)問題,且在很多領(lǐng)域有廣泛的應(yīng)用,領(lǐng)域?qū)<液蛯W(xué)者提出了一系列的解析技術(shù).這些相關(guān)的工作可劃分為三大類:基于學(xué)習(xí)的[3,5-6]、基于統(tǒng)計(jì)的[2,9,23-25]、和基于人機(jī)配合的[26-27].

    基于學(xué)習(xí)的實(shí)體解析方法[3,5-6]首先使用訓(xùn)練數(shù)據(jù)集來(lái)學(xué)習(xí)實(shí)體匹配的模式或者規(guī)則,接著用訓(xùn)練好的模式或規(guī)則判定記錄對(duì)是否匹配.文獻(xiàn)[3]提出了4種屬性級(jí)摘要表示方法(分別是聚合模型(SIF)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列模型(RNN)、注意力模型(Attention)和基于序列和注意力的混合模型(Hybrid)),并使用神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練實(shí)體解析模型.文獻(xiàn)[6]從已知的匹配(和不匹配)記錄對(duì)集合中學(xué)習(xí)屬性級(jí)別的匹配規(guī)則集(ARs),并組合這些規(guī)則成一系列記錄級(jí)別的規(guī)則集(RRs).文獻(xiàn)[5]提出了一種描述記錄和實(shí)體之間匹配關(guān)系的規(guī)則(ER-rule),并設(shè)計(jì)了從訓(xùn)練集中自動(dòng)學(xué)習(xí)ER-rule的算法和高效的在線實(shí)體解析算法.這些方法都依賴標(biāo)簽數(shù)據(jù),且不能解決不一致記錄對(duì)消歧問題,而我們的方法假設(shè)標(biāo)簽數(shù)據(jù)不存在,側(cè)重于標(biāo)簽數(shù)據(jù)缺失場(chǎng)景下消歧問題.

    基于統(tǒng)計(jì)的實(shí)體解析方法[2,9,23-25]是通過統(tǒng)計(jì)分析記錄對(duì)的匹配特征,并形式化為某個(gè)合適度量,進(jìn)而選取合適的閾值來(lái)將記錄對(duì)劃分為匹配的或者不匹配的.比如文獻(xiàn)[23]分別從單詞的簡(jiǎn)寫和全寫,前綴關(guān)系和字符近似匹配方面提出了3種字段匹配度量算法.文獻(xiàn)[24]提出了Footrule Distance,用來(lái)輸出與給定元組最相關(guān)的topk個(gè)記錄值.針對(duì)大多數(shù)算法未體現(xiàn)關(guān)鍵屬性重要性的不足,文獻(xiàn)[25]利用信息增益或統(tǒng)計(jì)概率的方法計(jì)算屬性權(quán)重,并提出了基于這些屬性權(quán)重的最終相似度來(lái)提升實(shí)體解析的準(zhǔn)確率.文獻(xiàn)[2]提出了離群距離,并證明了離群距離與記錄對(duì)匹配的可能性是正相關(guān)的.這類方法的優(yōu)點(diǎn)是不需要訓(xùn)練數(shù)據(jù)集和額外的訓(xùn)練過程,只需要估算出合適的匹配度量和閾值.但由于實(shí)體解析應(yīng)用場(chǎng)景的復(fù)雜性,匹配度量和閾值的確定很難做到適用于所有的場(chǎng)景.文獻(xiàn)[9]使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的聚類算法如k-means方法,把候選記錄對(duì)分成兩組:匹配組和不匹配組.這類不依賴標(biāo)簽數(shù)據(jù)的方法都可以作為消歧框架的個(gè)體方法,用來(lái)對(duì)數(shù)據(jù)集進(jìn)行預(yù)先處理,以得到一致或不一致記錄對(duì).

    針對(duì)全自動(dòng)的實(shí)體解析方法不能徹底解決實(shí)體解析問題,基于人機(jī)配合的實(shí)體解析方法[26-27]提出借用用戶的知識(shí)以人機(jī)配合的方式進(jìn)行解析.文獻(xiàn)[26]將實(shí)體解析過程分為設(shè)計(jì)階段和執(zhí)行階段.設(shè)計(jì)階段就是用戶在樣本數(shù)據(jù)上使用現(xiàn)成的工具靈活地構(gòu)建出一個(gè)實(shí)體解析工作流;在執(zhí)行階段,用戶可調(diào)用支持大數(shù)據(jù)處理的工具來(lái)執(zhí)行設(shè)計(jì)好的工作流.文獻(xiàn)[27]提出了基于規(guī)則的候選記錄對(duì)生成階段和基于crowd細(xì)化匹配記錄對(duì)2個(gè)階段.這2個(gè)階段都有人和自動(dòng)算法的共同參與,這類方法需要人的參與,無(wú)法自動(dòng)完成不一致記錄對(duì)的消歧處理.

    與本文的消歧算法最相關(guān)的是GL-RF[21].該算法的核心思想是首先基于TF.IDF計(jì)算記錄對(duì)的向量表示;接著分析與每個(gè)不一致記錄對(duì)距離最近的前k個(gè)一致匹配對(duì)和一致不匹配對(duì),對(duì)于該不一致記錄對(duì)的影響;最后當(dāng)前k個(gè)一致匹配對(duì)的影響大于前k個(gè)一致不匹配對(duì)時(shí),該不一致記錄對(duì)為匹配,反之為不匹配.文獻(xiàn)[22]依據(jù)數(shù)據(jù)集是否存在重復(fù)記錄,把實(shí)體識(shí)別問題區(qū)分為3種場(chǎng)景:Clean-Clean ER,Dirty-Clean ER,Dirty-Dirty ER.其中Clean-Clean ER是指左數(shù)據(jù)源和右數(shù)據(jù)源都沒有重復(fù)記錄.FG-RIP與GL-RF的區(qū)別有2點(diǎn):1)GL-RF是針對(duì)Clean-Clean ER場(chǎng)景,而FG-RIP則是針對(duì)Dirty-Dirty ER場(chǎng)景;2)GL-RF沒有考慮個(gè)體方法的解析結(jié)果的可信程度,而FG-RIP使用因子權(quán)重來(lái)區(qū)分個(gè)體方法的解析結(jié)果.

    5 總結(jié)和展望

    本文研究了在沒有標(biāo)簽數(shù)據(jù)場(chǎng)景下不一致記錄對(duì)消歧問題,并首次提出了基于因子圖的不一致記錄對(duì)消歧框架.該框架利用因子圖融合與不一致記錄對(duì)相關(guān)的特征(包括自身匹配特征、匹配傳遞特征和外部匹配特征),并使用最大似然估計(jì)計(jì)算因子圖中因子的權(quán)重.實(shí)驗(yàn)結(jié)果表明:該算法能夠有效地學(xué)習(xí)到合適的權(quán)重,并自動(dòng)組合出最優(yōu)的消歧方案.在沒有標(biāo)簽的場(chǎng)景下,自動(dòng)估計(jì)不同特征的解析效果很有挑戰(zhàn)性,也具有深遠(yuǎn)的現(xiàn)實(shí)意義.因?yàn)樽詣?dòng)估計(jì)不同特征的解析結(jié)果,并選擇最優(yōu)的特征組合,可進(jìn)一步提升解析的效果.比如在Cora數(shù)據(jù)集上只使用記錄對(duì)的基于相似度的核密度估計(jì)特征就能獲得更好的解析效果.鑒于此,我們把無(wú)標(biāo)簽場(chǎng)景下,不同特征消歧結(jié)果的質(zhì)量估計(jì)問題作為將來(lái)的研究問題.

    猜你喜歡
    消歧查全率解析
    基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
    三角函數(shù)解析式中ω的幾種求法
    基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
    海量圖書館檔案信息的快速檢索方法
    藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
    睡夢(mèng)解析儀
    基于詞嵌入語(yǔ)義的精準(zhǔn)檢索式構(gòu)建方法
    電競(jìng)初解析
    商周刊(2017年12期)2017-06-22 12:02:01
    相機(jī)解析
    中文分詞技術(shù)對(duì)中文搜索引擎的查準(zhǔn)率及查全率的影響
    国产av精品麻豆| 一二三四社区在线视频社区8| 国产深夜福利视频在线观看| 亚洲专区中文字幕在线| 欧美一区二区精品小视频在线| 少妇 在线观看| 欧美性长视频在线观看| 老司机亚洲免费影院| 在线十欧美十亚洲十日本专区| 亚洲色图av天堂| 久热爱精品视频在线9| 美女国产高潮福利片在线看| 亚洲免费av在线视频| 十八禁人妻一区二区| 国产亚洲精品久久久久5区| 国产成人精品在线电影| 黑丝袜美女国产一区| 国产有黄有色有爽视频| 国产亚洲精品久久久久5区| 99国产精品一区二区蜜桃av| 最近最新免费中文字幕在线| 亚洲五月婷婷丁香| 18美女黄网站色大片免费观看| 十八禁人妻一区二区| 精品国产一区二区久久| 久久久久国产一级毛片高清牌| 欧美丝袜亚洲另类 | 麻豆国产av国片精品| 操出白浆在线播放| 国产极品粉嫩免费观看在线| 老司机午夜十八禁免费视频| 欧美丝袜亚洲另类 | 亚洲午夜精品一区,二区,三区| 水蜜桃什么品种好| 久热爱精品视频在线9| 亚洲精品在线美女| 天天躁夜夜躁狠狠躁躁| 新久久久久国产一级毛片| 国产真人三级小视频在线观看| 丰满的人妻完整版| 99精品欧美一区二区三区四区| 91精品三级在线观看| 90打野战视频偷拍视频| 欧美日韩乱码在线| 高清黄色对白视频在线免费看| 国产成人影院久久av| 成人黄色视频免费在线看| 国产麻豆69| 亚洲成国产人片在线观看| 美女扒开内裤让男人捅视频| 成人影院久久| 脱女人内裤的视频| 免费一级毛片在线播放高清视频 | 亚洲 欧美一区二区三区| 精品国内亚洲2022精品成人| 国产成人免费无遮挡视频| 亚洲午夜理论影院| 精品久久久精品久久久| 高清在线国产一区| 天堂影院成人在线观看| 看黄色毛片网站| 校园春色视频在线观看| 成人国语在线视频| 桃红色精品国产亚洲av| 欧美色视频一区免费| 免费不卡黄色视频| av网站在线播放免费| 久久热在线av| 可以在线观看毛片的网站| 国产精品电影一区二区三区| 一级毛片精品| 热99国产精品久久久久久7| 亚洲三区欧美一区| 欧美日韩亚洲高清精品| 涩涩av久久男人的天堂| 他把我摸到了高潮在线观看| 国产欧美日韩精品亚洲av| 国产一区二区三区综合在线观看| 精品久久久久久久毛片微露脸| 亚洲aⅴ乱码一区二区在线播放 | 18禁裸乳无遮挡免费网站照片 | 好看av亚洲va欧美ⅴa在| av电影中文网址| 97人妻天天添夜夜摸| 丝袜在线中文字幕| 乱人伦中国视频| 亚洲国产精品sss在线观看 | a级毛片在线看网站| 亚洲五月婷婷丁香| 午夜老司机福利片| 精品午夜福利视频在线观看一区| 制服人妻中文乱码| 在线观看舔阴道视频| 老熟妇乱子伦视频在线观看| 国产99白浆流出| 每晚都被弄得嗷嗷叫到高潮| 午夜免费成人在线视频| 看黄色毛片网站| 操美女的视频在线观看| 老司机午夜十八禁免费视频| www.熟女人妻精品国产| 我的亚洲天堂| 亚洲国产欧美网| 亚洲国产精品合色在线| 精品国产亚洲在线| 伊人久久大香线蕉亚洲五| 一级a爱片免费观看的视频| 丰满的人妻完整版| 亚洲精品粉嫩美女一区| 精品久久久久久久毛片微露脸| 免费人成视频x8x8入口观看| 欧美人与性动交α欧美精品济南到| 亚洲成a人片在线一区二区| 高清在线国产一区| 一区二区三区国产精品乱码| 色婷婷久久久亚洲欧美| 亚洲人成网站在线播放欧美日韩| 嫩草影视91久久| 国产高清激情床上av| 国产精品九九99| 18美女黄网站色大片免费观看| 午夜老司机福利片| www.精华液| 美女福利国产在线| 欧美不卡视频在线免费观看 | 国产亚洲精品久久久久久毛片| 大型黄色视频在线免费观看| av欧美777| 免费高清视频大片| 日本a在线网址| 男人的好看免费观看在线视频 | 男女高潮啪啪啪动态图| 中文字幕高清在线视频| 亚洲欧美日韩另类电影网站| 女人高潮潮喷娇喘18禁视频| 在线免费观看的www视频| 国产亚洲欧美在线一区二区| 99国产精品一区二区蜜桃av| 欧美成狂野欧美在线观看| 狂野欧美激情性xxxx| 老司机福利观看| 国产精品野战在线观看 | 性色av乱码一区二区三区2| 亚洲色图 男人天堂 中文字幕| 最新在线观看一区二区三区| 级片在线观看| 9191精品国产免费久久| 久热爱精品视频在线9| 午夜影院日韩av| 亚洲av美国av| 国产伦人伦偷精品视频| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲国产中文字幕在线视频| xxxhd国产人妻xxx| 久久久久国产精品人妻aⅴ院| 国产高清视频在线播放一区| 久久国产乱子伦精品免费另类| av在线播放免费不卡| 成人三级黄色视频| 80岁老熟妇乱子伦牲交| 国产不卡一卡二| 99在线人妻在线中文字幕| a级毛片在线看网站| 婷婷丁香在线五月| 人妻丰满熟妇av一区二区三区| 久久久久国产精品人妻aⅴ院| 午夜免费成人在线视频| 在线天堂中文资源库| 久久久久久久久久久久大奶| 免费在线观看亚洲国产| 国产日韩一区二区三区精品不卡| 亚洲专区字幕在线| 午夜视频精品福利| 免费av毛片视频| 久久久久久久精品吃奶| 欧美日韩一级在线毛片| 在线播放国产精品三级| 午夜福利影视在线免费观看| 久久婷婷成人综合色麻豆| 男人舔女人下体高潮全视频| 日韩三级视频一区二区三区| 亚洲七黄色美女视频| 无人区码免费观看不卡| 精品一区二区三区av网在线观看| 热99国产精品久久久久久7| 好男人电影高清在线观看| 少妇被粗大的猛进出69影院| 日日干狠狠操夜夜爽| 人人妻人人澡人人看| 两个人看的免费小视频| 国产精品98久久久久久宅男小说| 国产亚洲精品第一综合不卡| 精品一区二区三卡| 国产精品一区二区三区四区久久 | 欧美大码av| 日韩国内少妇激情av| 国产精品影院久久| 中文字幕人妻丝袜一区二区| 久久久久国内视频| 丰满人妻熟妇乱又伦精品不卡| 欧美性长视频在线观看| 涩涩av久久男人的天堂| 精品久久久久久久毛片微露脸| 一区在线观看完整版| 自拍欧美九色日韩亚洲蝌蚪91| 99re在线观看精品视频| 两个人免费观看高清视频| 性色av乱码一区二区三区2| 午夜老司机福利片| 成人精品一区二区免费| 午夜视频精品福利| 欧美午夜高清在线| 91国产中文字幕| 久久午夜综合久久蜜桃| 一级黄色大片毛片| 99re在线观看精品视频| 久久人妻福利社区极品人妻图片| 午夜老司机福利片| 国产成人免费无遮挡视频| 激情视频va一区二区三区| 久久精品aⅴ一区二区三区四区| 日韩欧美免费精品| 亚洲人成电影免费在线| 91老司机精品| 一级黄色大片毛片| 国产av一区二区精品久久| 亚洲国产欧美一区二区综合| 亚洲精品国产一区二区精华液| 欧美日韩精品网址| 在线观看免费视频网站a站| а√天堂www在线а√下载| 精品欧美一区二区三区在线| 国产精品久久久久成人av| 国产成人系列免费观看| 亚洲熟妇中文字幕五十中出 | 国产精品98久久久久久宅男小说| 美女大奶头视频| 狠狠狠狠99中文字幕| 欧美另类亚洲清纯唯美| 日韩精品中文字幕看吧| 国产又爽黄色视频| 亚洲av熟女| 国产成人啪精品午夜网站| 亚洲一区二区三区不卡视频| 999久久久国产精品视频| 欧美黄色片欧美黄色片| 叶爱在线成人免费视频播放| 精品熟女少妇八av免费久了| 看片在线看免费视频| 涩涩av久久男人的天堂| 国产一区二区激情短视频| 成年人黄色毛片网站| 日日夜夜操网爽| 成人av一区二区三区在线看| 亚洲熟妇熟女久久| 真人一进一出gif抽搐免费| 久久影院123| 国产99白浆流出| 中文字幕人妻丝袜一区二区| 久久久国产成人免费| 亚洲色图综合在线观看| 丝袜在线中文字幕| 久久精品国产清高在天天线| 久久久久久久久久久久大奶| 日本三级黄在线观看| 成人特级黄色片久久久久久久| 日韩精品免费视频一区二区三区| 国产亚洲精品久久久久5区| 夜夜夜夜夜久久久久| 精品国产国语对白av| 午夜影院日韩av| 久久精品国产亚洲av高清一级| 18禁黄网站禁片午夜丰满| 99久久99久久久精品蜜桃| 无遮挡黄片免费观看| 最近最新中文字幕大全免费视频| 亚洲国产中文字幕在线视频| 中文亚洲av片在线观看爽| 国产成年人精品一区二区 | av免费在线观看网站| 国产又色又爽无遮挡免费看| 国产精品久久视频播放| av天堂久久9| 国产1区2区3区精品| 亚洲精品成人av观看孕妇| 精品一品国产午夜福利视频| 亚洲aⅴ乱码一区二区在线播放 | 无限看片的www在线观看| 日韩欧美一区视频在线观看| 18美女黄网站色大片免费观看| 黄片播放在线免费| 97碰自拍视频| 欧美激情高清一区二区三区| 法律面前人人平等表现在哪些方面| 国产乱人伦免费视频| 午夜a级毛片| 高清毛片免费观看视频网站 | av天堂在线播放| 欧美成人性av电影在线观看| 午夜成年电影在线免费观看| 在线观看www视频免费| 另类亚洲欧美激情| 在线观看日韩欧美| 好看av亚洲va欧美ⅴa在| 国产av一区二区精品久久| 久久香蕉激情| 99国产精品一区二区三区| 久久天堂一区二区三区四区| av福利片在线| 亚洲自偷自拍图片 自拍| av视频免费观看在线观看| 69av精品久久久久久| 亚洲精品国产色婷婷电影| 亚洲熟女毛片儿| 亚洲熟妇中文字幕五十中出 | 三上悠亚av全集在线观看| 90打野战视频偷拍视频| aaaaa片日本免费| 九色亚洲精品在线播放| 亚洲激情在线av| 久99久视频精品免费| 超碰成人久久| 18禁国产床啪视频网站| 女警被强在线播放| 不卡av一区二区三区| 亚洲成人免费av在线播放| 最近最新中文字幕大全免费视频| 成年女人毛片免费观看观看9| 久久精品91蜜桃| 亚洲av日韩精品久久久久久密| 国产亚洲欧美98| 久久国产精品影院| www.999成人在线观看| 亚洲人成伊人成综合网2020| 久久国产亚洲av麻豆专区| 亚洲精品久久午夜乱码| ponron亚洲| 国产午夜精品久久久久久| 极品人妻少妇av视频| 咕卡用的链子| 一区二区日韩欧美中文字幕| 国产欧美日韩一区二区精品| 国产成+人综合+亚洲专区| 巨乳人妻的诱惑在线观看| 18美女黄网站色大片免费观看| 99精品在免费线老司机午夜| 村上凉子中文字幕在线| 午夜免费激情av| 久久国产亚洲av麻豆专区| 国产又爽黄色视频| 国产av又大| 精品国产国语对白av| 村上凉子中文字幕在线| 视频在线观看一区二区三区| 高潮久久久久久久久久久不卡| 久久人人精品亚洲av| 嫁个100分男人电影在线观看| 黄片播放在线免费| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲一区二区三区欧美精品| 久久国产亚洲av麻豆专区| 国产又爽黄色视频| 国产精华一区二区三区| 91在线观看av| 日本精品一区二区三区蜜桃| 很黄的视频免费| 水蜜桃什么品种好| 美女高潮到喷水免费观看| 色综合欧美亚洲国产小说| 久久久久久免费高清国产稀缺| 午夜福利免费观看在线| 免费av中文字幕在线| 久久人人97超碰香蕉20202| 中文字幕人妻丝袜制服| 久久人妻av系列| 婷婷精品国产亚洲av在线| 久久久久久久久久久久大奶| 99精品在免费线老司机午夜| 无遮挡黄片免费观看| 国产欧美日韩一区二区精品| 又黄又粗又硬又大视频| 十八禁网站免费在线| 老司机午夜福利在线观看视频| 女人被躁到高潮嗷嗷叫费观| 亚洲av熟女| 99国产精品99久久久久| 久久精品aⅴ一区二区三区四区| 无人区码免费观看不卡| 亚洲专区国产一区二区| 亚洲狠狠婷婷综合久久图片| 日韩欧美在线二视频| 伊人久久大香线蕉亚洲五| 又大又爽又粗| 日韩免费高清中文字幕av| 国产午夜精品久久久久久| 夫妻午夜视频| ponron亚洲| 亚洲一区二区三区欧美精品| 9191精品国产免费久久| 午夜福利,免费看| 国产麻豆69| 一区二区三区激情视频| 久久中文字幕一级| 日日夜夜操网爽| 久久中文看片网| 婷婷丁香在线五月| 日韩欧美国产一区二区入口| 一边摸一边抽搐一进一小说| 国产亚洲精品综合一区在线观看 | 日韩av在线大香蕉| 一级毛片高清免费大全| 男女做爰动态图高潮gif福利片 | 国产成人影院久久av| 超碰成人久久| 久久香蕉国产精品| 伦理电影免费视频| 在线视频色国产色| 一级作爱视频免费观看| 亚洲欧美精品综合一区二区三区| 色综合站精品国产| 丰满迷人的少妇在线观看| 日韩 欧美 亚洲 中文字幕| 极品人妻少妇av视频| 亚洲欧美激情在线| 亚洲国产精品一区二区三区在线| 国产1区2区3区精品| 国产精品免费一区二区三区在线| 亚洲免费av在线视频| 久久久久久人人人人人| 18禁裸乳无遮挡免费网站照片 | 亚洲av电影在线进入| 国产精品一区二区在线不卡| 久久狼人影院| 很黄的视频免费| 色哟哟哟哟哟哟| 99riav亚洲国产免费| 亚洲午夜精品一区,二区,三区| 黑丝袜美女国产一区| 亚洲 欧美一区二区三区| 1024香蕉在线观看| 精品日产1卡2卡| 男女午夜视频在线观看| 一级作爱视频免费观看| 亚洲三区欧美一区| 大型av网站在线播放| 亚洲三区欧美一区| 亚洲在线自拍视频| 日韩欧美一区二区三区在线观看| 午夜老司机福利片| 国产99白浆流出| 亚洲一码二码三码区别大吗| 99久久99久久久精品蜜桃| 亚洲精品国产精品久久久不卡| 夫妻午夜视频| 亚洲第一av免费看| 性少妇av在线| 大型黄色视频在线免费观看| 成人手机av| 侵犯人妻中文字幕一二三四区| 亚洲七黄色美女视频| 国产亚洲精品综合一区在线观看 | 日日干狠狠操夜夜爽| 亚洲欧美一区二区三区久久| a级片在线免费高清观看视频| 亚洲精品国产一区二区精华液| 黄色女人牲交| 女人被狂操c到高潮| 悠悠久久av| 青草久久国产| 国产精品98久久久久久宅男小说| 午夜亚洲福利在线播放| 男男h啪啪无遮挡| 亚洲精品粉嫩美女一区| 黑人欧美特级aaaaaa片| 国产蜜桃级精品一区二区三区| 久久久久国产一级毛片高清牌| 99久久人妻综合| 欧美人与性动交α欧美精品济南到| 亚洲五月色婷婷综合| 在线看a的网站| 亚洲av片天天在线观看| 免费高清视频大片| 精品久久久久久成人av| 色在线成人网| 国产97色在线日韩免费| www.自偷自拍.com| 女警被强在线播放| 亚洲国产欧美日韩在线播放| 国产精品成人在线| 国产精品一区二区精品视频观看| 最近最新中文字幕大全免费视频| 精品久久久精品久久久| 久久久国产精品麻豆| 窝窝影院91人妻| 亚洲熟妇中文字幕五十中出 | 亚洲视频免费观看视频| 美女扒开内裤让男人捅视频| 美女大奶头视频| www国产在线视频色| 村上凉子中文字幕在线| 免费在线观看亚洲国产| 日韩免费av在线播放| 99香蕉大伊视频| 悠悠久久av| 国产欧美日韩一区二区精品| 丰满饥渴人妻一区二区三| 在线观看午夜福利视频| 国产精品99久久99久久久不卡| 国产成人精品久久二区二区91| 91九色精品人成在线观看| 天天添夜夜摸| 韩国av一区二区三区四区| 免费高清在线观看日韩| 一区二区三区国产精品乱码| 19禁男女啪啪无遮挡网站| 国产99久久九九免费精品| 男女床上黄色一级片免费看| 9色porny在线观看| 日韩欧美三级三区| 亚洲欧洲精品一区二区精品久久久| 欧美在线黄色| 国产单亲对白刺激| 日韩成人在线观看一区二区三区| 两人在一起打扑克的视频| 午夜视频精品福利| 国产成人av教育| 女人高潮潮喷娇喘18禁视频| 老司机午夜十八禁免费视频| 亚洲全国av大片| 别揉我奶头~嗯~啊~动态视频| 免费在线观看影片大全网站| 后天国语完整版免费观看| 亚洲人成网站在线播放欧美日韩| 日韩大码丰满熟妇| 少妇 在线观看| 亚洲人成电影观看| 一区二区三区激情视频| 桃红色精品国产亚洲av| 精品少妇一区二区三区视频日本电影| 麻豆av在线久日| 国产精品亚洲一级av第二区| 又大又爽又粗| 精品国产超薄肉色丝袜足j| 国产av又大| 老司机靠b影院| av福利片在线| 亚洲 国产 在线| 日本vs欧美在线观看视频| 免费看a级黄色片| 国产单亲对白刺激| 日韩精品免费视频一区二区三区| 日本三级黄在线观看| 日本 av在线| www.熟女人妻精品国产| 国产精品免费一区二区三区在线| 免费观看精品视频网站| 日韩三级视频一区二区三区| 国产99久久九九免费精品| 视频区欧美日本亚洲| 亚洲欧美一区二区三区久久| 51午夜福利影视在线观看| 国产精品国产高清国产av| 国产精品久久视频播放| 精品国产超薄肉色丝袜足j| 亚洲人成电影免费在线| 黑人巨大精品欧美一区二区蜜桃| 日本撒尿小便嘘嘘汇集6| 在线视频色国产色| 亚洲avbb在线观看| 国产蜜桃级精品一区二区三区| 夜夜躁狠狠躁天天躁| 亚洲av日韩精品久久久久久密| 欧美久久黑人一区二区| 亚洲熟妇中文字幕五十中出 | www.999成人在线观看| 国产精品野战在线观看 | 法律面前人人平等表现在哪些方面| 国产三级在线视频| 成人国语在线视频| 欧美av亚洲av综合av国产av| 99久久国产精品久久久| 超碰97精品在线观看| 真人一进一出gif抽搐免费| 亚洲 国产 在线| 成人国语在线视频| 日韩欧美一区视频在线观看| 国产精品一区二区免费欧美| 五月开心婷婷网| 成人永久免费在线观看视频| 久久亚洲真实| 精品一区二区三区视频在线观看免费 | 色在线成人网| 丰满人妻熟妇乱又伦精品不卡| 99国产精品免费福利视频| 看片在线看免费视频| 一夜夜www| 美女国产高潮福利片在线看| 国产成人影院久久av| ponron亚洲| 在线av久久热| 久久精品国产亚洲av香蕉五月| 50天的宝宝边吃奶边哭怎么回事| 91成年电影在线观看| 美女国产高潮福利片在线看| 青草久久国产| 久久久久亚洲av毛片大全| 最新在线观看一区二区三区| 黄色女人牲交| 脱女人内裤的视频| 欧美日韩乱码在线| 一二三四在线观看免费中文在| 69精品国产乱码久久久| 涩涩av久久男人的天堂| 男女高潮啪啪啪动态图| 五月开心婷婷网|