• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于可信度模型的重復(fù)主數(shù)據(jù)檢測算法

    2014-08-05 04:27:09王繼奎李少波
    計(jì)算機(jī)工程 2014年5期
    關(guān)鍵詞:檢測

    王繼奎,李少波

    (1. 中國科學(xué)院成都計(jì)算機(jī)應(yīng)用研究所,成都 6 10041;2. 貴州大學(xué)省部共建現(xiàn)代制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,貴陽 5 50003;3. 蘭州商學(xué)院信息工程學(xué)院,蘭州 730 020)

    基于可信度模型的重復(fù)主數(shù)據(jù)檢測算法

    王繼奎1,2,3,李少波1,2

    (1. 中國科學(xué)院成都計(jì)算機(jī)應(yīng)用研究所,成都 6 10041;2. 貴州大學(xué)省部共建現(xiàn)代制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,貴陽 5 50003;3. 蘭州商學(xué)院信息工程學(xué)院,蘭州 730 020)

    針對來源于多個(gè)業(yè)務(wù)系統(tǒng)的重復(fù)主數(shù)據(jù)影響主數(shù)據(jù)質(zhì)量、主數(shù)據(jù)同步及主數(shù)據(jù)挖掘等問題,提出重復(fù)主數(shù)據(jù)檢測算法fastCdrDetection。從數(shù)據(jù)可信度的角度出發(fā),在考慮數(shù)據(jù)源可信度、數(shù)據(jù)最后更新時(shí)間及數(shù)據(jù)長度的基礎(chǔ)上,建立主數(shù)據(jù)可信度模型,并實(shí)現(xiàn)可信記錄生成算法。設(shè)計(jì)非遞歸的字符串相似度計(jì)算算法FiledMatch,解決了由中文簡寫、縮寫、錯(cuò)誤拼寫造成的主數(shù)據(jù)重復(fù)問題,采用sourceKeys算法對來源于同一業(yè)務(wù)系統(tǒng)、具有同樣業(yè)務(wù)主鍵的重復(fù)記錄進(jìn)行預(yù)處理,從而提高重復(fù)主數(shù)據(jù)檢測效率。通過對某電網(wǎng)基建物資63萬余條供應(yīng)商存量數(shù)據(jù)及23萬余條模擬數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,與PQS算法相比,fastCdrDetection算法的召回率由74%提高到88%,準(zhǔn)確率由61%提高到95%,證明了算法的有效性。

    多數(shù)據(jù)源;重復(fù)主數(shù)據(jù);可信度模型;檢測算法;數(shù)據(jù)可信度

    1 概述

    重復(fù)主數(shù)據(jù)會對主數(shù)據(jù)質(zhì)量、主數(shù)據(jù)同步及主數(shù)據(jù)挖掘等操作產(chǎn)生不良影響[1],如何檢測重復(fù)主數(shù)據(jù)是十分重要的研究課題。文獻(xiàn)[2]對重復(fù)記錄進(jìn)行了定義,文獻(xiàn)[3]提出識別相似重復(fù)記錄的5個(gè)基本步驟:數(shù)據(jù)預(yù)處理,縮小搜索空間,相似重復(fù)記錄識別,相似重復(fù)記錄清除和驗(yàn)證。文獻(xiàn)[4]提出由召回率與準(zhǔn)確率2個(gè)標(biāo)準(zhǔn)度量重復(fù)記錄識別的有效性。在字段識別方面,文獻(xiàn)[5]提出著名的S-W遞歸算法,文獻(xiàn)[6]對S-W算法進(jìn)行了改進(jìn),加入了擴(kuò)大的遞歸變量,提高了運(yùn)行效率。文獻(xiàn)[7]提出非遞歸算法以及PCM算法。在實(shí)際應(yīng)用中,發(fā)現(xiàn)主數(shù)據(jù)重復(fù)主要由中文簡寫、縮寫、錯(cuò)誤拼寫造成,針對這3種情況,提出一種非遞歸的字符串相似度計(jì)算算法FieldMatch。目前的重復(fù)記錄檢測算法主要基于排序-比較-合并的思路,常用的算法有近鄰排序法SNM[8]、多趟近鄰排序法MPN[9]、優(yōu)先隊(duì)列算法PQS[10]。文獻(xiàn)[11]設(shè)計(jì)的Max-merge算法兼顧了閉包算法[12]相似的傳遞性與獨(dú)立性,對XML對象識別有較高的準(zhǔn)確率與召回率。本文從數(shù)據(jù)可信度的角度出發(fā),建立主數(shù)據(jù)可信度模型,基于主數(shù)據(jù)可信度模型改進(jìn)了PQS算法,對每一個(gè)聚類采用可信記錄作為代表記錄參與相似度計(jì)算,以提高檢測算法的召回率與準(zhǔn)確率,并采用某電網(wǎng)公司的供應(yīng)商主數(shù)據(jù)存量數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。

    2 主數(shù)據(jù)重復(fù)記錄檢測模型

    2.1 符號、縮寫及其含義

    符號、縮寫及其含義如表1所示。

    表1 符號、縮寫及其含義

    2.2 術(shù)語定義

    定義1屬性相似度:sim(ri.attrk, rj.attrk)表示記錄ri與rj的k屬性相似度;其計(jì)算方法是若2個(gè)屬性ri.attrk,rj.attrk是相似的,當(dāng)且僅當(dāng)2個(gè)字段的sim(ri.attrk, rj.attrk)>t。ri.attrk.el代表i的k屬性的字符,score(ri.attrk, rj.attrk)表示記錄i的屬性k的字符與記錄j的屬性k的字符匹配值,score (ri.attrk, rj.attrk)∈[0,1]、|ri.attrk|<|rj.attrk|。將ri.attrk,rj.attrk轉(zhuǎn)化為字符串,逐一掃描2個(gè)字符串?dāng)?shù)組,若字符相等,則score值為1,否則向后掃描rj.attrk;若ri.attrk掃描結(jié)束,則算法結(jié)束。

    由于ri、rj具有相同的關(guān)系模式,因此|ri|=|rj|=n,相似度計(jì)算公式轉(zhuǎn)變?yōu)椋?/p>

    其中,RD代表識別出的重復(fù)記錄的集合;RO代表實(shí)際重復(fù)記錄的集合。

    定義4準(zhǔn)確率:

    2.3 識別主數(shù)據(jù)重復(fù)記錄的規(guī)則

    2.3.1 sourceKeys計(jì)算規(guī)則的記錄

    規(guī)則1記錄i的sourceKeys由記錄的業(yè)務(wù)主鍵與記錄來源系統(tǒng)決定。

    2.3.2 重復(fù)規(guī)則的記錄

    關(guān)系R為重復(fù)關(guān)系,R’為不重復(fù)關(guān)系。

    規(guī)則2若記錄的sourceKeys相同,則記錄為重復(fù)記錄。

    規(guī)則3若2條記錄相似度大于閾值,則2條記錄重復(fù)。

    2.4 多數(shù)據(jù)源可信度定義

    定義5數(shù)據(jù)源可信度ri.sTScore。目前為簡便計(jì)算,ri.sTScore由系統(tǒng)賦初始值,ri.sTScore∈(0,1)。

    定義6字段可信度ri.attrk.tScore。由字段的數(shù)據(jù)源、記錄的最后更新時(shí)間、字段長度共同決定。其依據(jù)為:

    (1)從主數(shù)據(jù)系統(tǒng)的建設(shè)實(shí)踐中總結(jié)出長的字段更可信,主要是因?yàn)橹貜?fù)主數(shù)據(jù)很多是縮寫、簡寫造成的;

    (2)在長度相同的基礎(chǔ)上,來源系統(tǒng)可信度大的數(shù)據(jù)更可信;

    (3)字段長度與來源系統(tǒng)的可信度均相等,從實(shí)踐上發(fā)現(xiàn)這樣的重復(fù)主數(shù)據(jù)大多是來源于同一業(yè)務(wù)系統(tǒng),這種情況下記錄的最后更新時(shí)間可以作為數(shù)據(jù)可信的依據(jù),因?yàn)樽詈蟾碌臄?shù)據(jù)應(yīng)該是現(xiàn)實(shí)世界的真值,也更可信。

    2.5 重復(fù)主數(shù)據(jù)檢測

    重復(fù)主數(shù)據(jù)檢測模型如圖1所示。

    圖1 重復(fù)主數(shù)據(jù)檢測模型

    重復(fù)主數(shù)據(jù)檢測算法步驟具體如下:

    (1)從各業(yè)務(wù)系統(tǒng)中抽取進(jìn)入主數(shù)據(jù)系統(tǒng)的存量數(shù)據(jù)。

    (2)根據(jù)主數(shù)據(jù)的數(shù)據(jù)格式要求對存量數(shù)據(jù)進(jìn)行預(yù)處理,計(jì)算sourceKeys與matchKeys,并從源數(shù)據(jù)庫日志中獲取數(shù)據(jù)的lsDate,填充到待檢測數(shù)據(jù)集中。

    (3)以matchkeys為第一排序關(guān)鍵字,sourceKeys為第二關(guān)鍵字升序排序。

    (4)采用fastCdrDetection(Fast Cluster Duplicate Records Detection)算法進(jìn)行聚類,隊(duì)列每個(gè)節(jié)點(diǎn)的代表記錄為本聚類的可信記錄。

    (5)輸出聚類記錄數(shù)大于1的聚類記錄。

    3 fastCdrDetection檢測算法

    算法1屬性相似度sim(ri.attrk, rj.attrk)算法

    思路:屬性值數(shù)字型或boolean,完全相等,相似度為1,否則為0;其他類型統(tǒng)一處理成字符串。

    屬性相似度計(jì)算是計(jì)算記錄相似度的基礎(chǔ),目前主要有基本的字段匹配算法與遞歸的字段匹配算法2種,主要針對英文字符串的相似度研究。通過分析主數(shù)據(jù)管理系統(tǒng)中,常出現(xiàn)的不一致表現(xiàn)主要為縮寫、簡寫與錯(cuò)寫,采用FieldMatch字符串比較算法。

    輸入帶比較的2個(gè)記錄的屬性值ri.attrk,rj.attrk

    輸出相似度比較結(jié)果

    f1Array,f2Array為ri.attrk,rj.attrk的字符串?dāng)?shù)組;k與m為指向f1Array,f2Array的指針,初始值為0;count統(tǒng)計(jì)字符相同的結(jié)果,初始值位0。

    算法分析:將ri.attrk轉(zhuǎn)化為字符數(shù)組,每個(gè)字符即ri.attrk的原子串,將rj.attrk轉(zhuǎn)化為字符數(shù)組,掃描一遍2個(gè)數(shù)組,統(tǒng)計(jì)相同字符的個(gè)數(shù)。設(shè)ri.attrk對應(yīng)的數(shù)組長度為m,rj.attrk對應(yīng)的數(shù)組長度為n,最好情況需要比較min(m,n),最壞情況需要比較max(m,n)。

    算法2記錄相似度similarity(ri, rj)算法

    思路:ri.soruceKey=rj.soruceKey表示ri,rj是來源于同一業(yè)務(wù)系統(tǒng)的同一實(shí)體,similarity(ri, rj)值為1;否則根據(jù)式(3)計(jì)算相似度。

    算法3可信記錄生成算法getTrustedRecord

    輸入待檢測記錄ri,聚類m的可信記錄trustedRecord(m)

    輸出聚類m的可信記錄

    參數(shù):change: boolean,初始值位false。

    思路:計(jì)算待檢測記錄ri與聚類m的可信記錄trusted-Record(m)的相似度;若相似度大于閾值,同一字段值不同,則選取可信度更高的字段值作為可信記錄的字段值,生成可信記錄。

    算法分析:在計(jì)算聚類的代表記錄(可信記錄)時(shí),需要根據(jù)可信度模型計(jì)算字段的可信度進(jìn)而生成可信記錄,與PQS算法相比會產(chǎn)生額外開銷。從實(shí)驗(yàn)結(jié)果可看出,處理10 146條供應(yīng)商數(shù)據(jù)fastCdrDetection算法耗時(shí)14 660 ms,而PQS算法耗時(shí)14 430 ms,平均每條數(shù)據(jù)fastCdrDetection算法多耗時(shí)0.022 7 ms。

    算法4matchKeys生成算法

    思路:根據(jù)主數(shù)據(jù)管理業(yè)務(wù)需要,選取特定字段或者字段集作為matchKeys生成字段,將各生成字段的轉(zhuǎn)換為字符串,然后連接起來作為matchKeys。

    算法5 fastCdrDetection算法

    思路:fastCdrDetection算法基于排序-檢測-合并思路。首先利用matchKeys作為第一排序關(guān)鍵字,sourceKeys作為第二排序關(guān)鍵字對記錄進(jìn)行排序。順序掃描記錄集,比較當(dāng)前記錄ri與優(yōu)先隊(duì)列包含的可信記錄,若在優(yōu)先隊(duì)列中有重復(fù)記錄,則將這條記錄合并入匹配記錄所在的聚類中,包含這個(gè)記錄的聚類進(jìn)入優(yōu)先隊(duì)列并有最高的優(yōu)先級;若掃描整個(gè)優(yōu)先隊(duì)列后發(fā)現(xiàn)ri不屬于任何一個(gè)聚類,則生成新的聚類加入優(yōu)先隊(duì)列,并使其具有最高優(yōu)先級。將ri加入該聚類中,成為該聚類的可信記錄。最后輸出所有聚類記錄數(shù)大于1的聚類記錄,即為重復(fù)記錄。

    采用優(yōu)先隊(duì)列策略識別重復(fù)記錄的精度很大程度上依賴于排序所選擇的關(guān)鍵字,第一關(guān)鍵字的選擇要結(jié)合業(yè)務(wù)應(yīng)用場景,為了快速檢測來源于同一系統(tǒng)、具有同一業(yè)務(wù)主鍵的重復(fù)記錄,采用sourceKeys作為第二排序關(guān)鍵字。優(yōu)先隊(duì)列算法選擇進(jìn)入聚類的第一條記錄作為代表記錄,而fastCdrDetection算法采用可信記錄作為代表記錄,采用動態(tài)的、不斷變好的可信記錄替換進(jìn)入聚類的第一條記錄作為聚類的代表記錄,提高了檢測結(jié)果的準(zhǔn)確率與召回率。

    輸入排序后的記錄集recordSet

    輸出重復(fù)記錄檢測結(jié)果

    參數(shù):PQ表示優(yōu)先隊(duì)列,maxPriority表示當(dāng)前最高優(yōu)先級。

    算法分析:

    由于采用了對來源于同一業(yè)務(wù)系統(tǒng)、具有同樣業(yè)務(wù)主鍵的重復(fù)記錄進(jìn)行了預(yù)先處理,在比較相似度時(shí)先比較記錄的sourceSystem,因此在實(shí)際應(yīng)用中fastCdrDetection算法具有更高的效率,來源于同一業(yè)務(wù)系統(tǒng)、具有同一業(yè)務(wù)主鍵的重復(fù)記錄越多,則算法效率越高;在記錄相似度計(jì)算時(shí),采用本文聚類的可信記錄代替進(jìn)入聚類的第一條記錄,相似度計(jì)算結(jié)果也具有更高的準(zhǔn)確性。

    4 實(shí)驗(yàn)與結(jié)果分析

    由于優(yōu)先隊(duì)列算法項(xiàng)的代表記錄采用的是聚類的第一條記錄,導(dǎo)致記錄相似度比較的結(jié)果失真,算法的準(zhǔn)確率與召回率降低;fastCdrDetection檢測算法采用可信記錄代替作為聚類的代表記錄,并在檢測過程中首先檢測來源于同一數(shù)據(jù)源的數(shù)據(jù)的sourceKeys,能較快的檢測出來源于同一數(shù)據(jù)源的重復(fù)記錄。

    實(shí)驗(yàn)驗(yàn)證程序采用Java語言編寫,在Win7 64位操作系統(tǒng)、Jre1.6環(huán)境下運(yùn)行。實(shí)驗(yàn)采用的數(shù)據(jù)為來源于物資基建系統(tǒng)供應(yīng)商主數(shù)據(jù)63萬余條及模擬噪聲數(shù)據(jù)23萬余條。主要對比PQS算法與fastCdrDetection算法的運(yùn)行時(shí)間、召回率、準(zhǔn)確率。

    4.1 相似度算法對比

    fastCdrDetection算法使用的字符串相似度算法是非遞歸的基于位置編碼的匹配算法,屬性相似度算法對比實(shí)驗(yàn)以PCM算法為對比對象。取某電網(wǎng)公司前1 000條供應(yīng)商名稱作為測試數(shù)據(jù)進(jìn)行測試。

    (1)算法準(zhǔn)確率

    實(shí)驗(yàn)表明,PCM由于采取了罰分的手段,針對中文識別,識別準(zhǔn)確率不穩(wěn)定;FieldMatch算法是基于統(tǒng)計(jì)的方法,順次掃描2個(gè)字符串,指針一直向后掃描不回歸,如果存在不一致的字符,則匹配結(jié)束。針對主數(shù)據(jù)管理系統(tǒng)常出現(xiàn)的中文縮寫、簡寫等情況,F(xiàn)ieldMatch相似度比較的準(zhǔn)確度更高。實(shí)驗(yàn)結(jié)果表明,F(xiàn)ieldMatch針對主數(shù)據(jù)中文識別準(zhǔn)確率隨著閾值的提高而逐漸穩(wěn)步提高。圖2中字段相似度閾值t∈(0,1],算法準(zhǔn)確率P∈(0,1]。

    圖2 算法準(zhǔn)確率對比

    (2)算法召回率

    對比實(shí)驗(yàn)表明,F(xiàn)ieldMatch一直比PCM算法召回率高。通過分析真實(shí)數(shù)據(jù)發(fā)現(xiàn),由于PCM算法采取了罰分的思路,導(dǎo)致一些表示同一供應(yīng)商實(shí)體的數(shù)據(jù)沒有被識別出來,而FieldMatch則能較好地識別。圖3中字段相似度閾值t∈(0,1],算法召回率R∈(0,1]。

    圖3 算法召回率對比

    (3)算法識別出的重復(fù)聚類數(shù)對比

    實(shí)驗(yàn)結(jié)果表明,PCM算法識別出的聚類數(shù)始終比FieldMatch算法少,隨著閾值的增加2種算法識別出的重復(fù)聚類數(shù)不斷減少。通過分析發(fā)現(xiàn)隨著閾值的增加屬性相似的要求變得越來越高,導(dǎo)致重復(fù)的聚類數(shù)不斷減少。由于PCM是基于位置的罰分算法,使得計(jì)算所得的相似度低于FieldMatchs算法,因此實(shí)驗(yàn)結(jié)果表明,F(xiàn)ieldMatch算法在相同閾值設(shè)置的情況下發(fā)現(xiàn)的重復(fù)聚類數(shù)比PCM算法多。圖4中字段相似度閾值t∈(0,1],聚類個(gè)數(shù)n是一個(gè)整數(shù)。

    圖4 算法識別出的聚類數(shù)對比

    4.2 P QS算法與fastCdrDetection算法對比

    實(shí)驗(yàn)采用數(shù)據(jù)為供應(yīng)商數(shù)據(jù),總計(jì)10 146條,記錄相似度閾值為0.9,屬性相似度閾值為0.8,通過人工識別重復(fù)記錄數(shù)位42條,PQS算法與fastCdrDetection算法性能對比如表2所示。

    表2 算法性能對比

    可以看出,在同樣運(yùn)行參數(shù)的情況下,fastCdrDetection算法比PQS算法的召回率與準(zhǔn)確率高。通過分析實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),由于fastCdrDetection算法采用基于可信度計(jì)算,利用更好的記錄代替PQS算法第一條記錄(或者是最后一條)參與相似度計(jì)算,相似度計(jì)算的結(jié)果更接近實(shí)際結(jié)果,因此算法的召回率與準(zhǔn)確率較高。然而,fastCdrDetection采用更好的記錄替代PQS的代表記錄,因此運(yùn)算時(shí)間比PQS算法略長。但由于采用sourceKeys快速計(jì)算記錄的相似度,隨著來源于同一源系統(tǒng)的重復(fù)記錄的增加,會縮短fastCdr-Detection的運(yùn)算時(shí)間。

    4.3 運(yùn)行參數(shù)對算法的影響

    采用某電網(wǎng)公司基建物資聯(lián)系人表中的前6 0 00條數(shù)據(jù)進(jìn)行測試,數(shù)據(jù)規(guī)模對算法性能的影響如表3所示。

    表3 數(shù)據(jù)規(guī)模對算法性能的影響

    由表3可以看出,隨著規(guī)模的增加,每條記錄的處理時(shí)間也在不斷增加,聚類數(shù)也在增加,這說明對海量數(shù)據(jù)必須進(jìn)行分組處理,并合理控制優(yōu)先隊(duì)列的長度。

    5 結(jié)束語

    重復(fù)主數(shù)據(jù)檢測是主數(shù)據(jù)集成的熱門研究課題,從數(shù)據(jù)可信度的角度出發(fā),在考慮了數(shù)據(jù)源可信度、數(shù)據(jù)最后更新時(shí)間及數(shù)據(jù)長度的基礎(chǔ)上建立了主數(shù)據(jù)可信度模型,并實(shí)現(xiàn)可信記錄生成算法。本文提出一種非遞歸的字符串相似度計(jì)算FieldMatch算法,較好地解決了由中文簡寫、縮寫、錯(cuò)誤拼寫造成的主數(shù)據(jù)重復(fù)問題。針對來源于同一數(shù)據(jù)源的重復(fù)主數(shù)據(jù),設(shè)計(jì)sourceKeys進(jìn)行預(yù)處理,提高算法效率,并提出fastCdrDetection主數(shù)據(jù)重復(fù)記錄檢測算法,對每一個(gè)聚類采用可信記錄作為代表記錄參與相似度計(jì)算,從而提高檢測算法的召回率與準(zhǔn)確率。采用某電網(wǎng)公司的供應(yīng)商主數(shù)據(jù)存量數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與PQS相比,fastCdrDetection算法的召回率由74%提高到88%,準(zhǔn)確率由61%提高到95%,證明了fastCdrDetection聚類算法有較高的召回率及準(zhǔn)確率。目前可信度模型僅考慮了主數(shù)據(jù)字段的長度、來源系統(tǒng)的可信度及記錄最后更新時(shí)間因素,今后將對數(shù)據(jù)源的可信度生成算法進(jìn)行研究。

    [1] Hernandez M A, Stolfo S J. Real-world D ata is D irty: Data Cleansing and th e Merge/Purge Problem[J]. Data Ming and Knowledge Discovery, 1998, 2(1): 9-37.

    [2] 韓京宇, 徐立臻, 董逸生. 數(shù)據(jù)質(zhì)量研究綜述[J]. 計(jì)算機(jī)科學(xué), 2008, 35(2): 1-5.

    [3] Batin C, Scannapieca M. Data Quality: Concepts, Methodologies and Techniques[M]. New York, USA: Springer-Verlag, 2006.

    [4] 陳 偉, 丁秋林. 可擴(kuò)展數(shù)據(jù)清理平臺的研究[J]. 電子科技大學(xué)學(xué)報(bào), 2006, 35(1): 100-103.

    [5] Smith T F, Waterman M S. Identification of C ommon Molecular Subseque nces[J]. Journal of Molecular Biology, 198 1, 147(1): 195-197.

    [6] Nawaz Z, Bertelsk A. Acceleration of Simth-Waterman Using Recursive V ariable Expansion[C]//Proceedings o f the 1 1th EUROMICRO Conference on Digital System Design Architectures, Methods and Tools. Parma, Italy: IEEE Press, 2008: 915-922.

    [7] 張 永, 遲忠先, 閆德勤. 數(shù)據(jù)倉庫ETL中相似重復(fù)記錄的檢測方法及應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用, 2006, 26(4): 880-882.

    [8] Hernandez M, Stolfo S. The Merge/Purge Problem for Large Databases[C]//Proceedings of ACM SIGMOD International Conference on Management of Data. San Jose, USA: [s. n.], 1995: 127-138.

    [9] 李 堅(jiān), 鄭 寧. 對基于MPN數(shù)據(jù)清洗算法的改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件, 2008, 25(2): 245-247.

    [10] Monge A, Elkan C. An Efficient Domain Independent Algorithm for Detecting A pproximately D uplicate Database Records[C]//Proceedings of SI GMOD Workshop on Data Mining and Knowledge Discovery. Tucson, USA: [s. n.], 1997: 23-29.

    [11] 李亞坤, 王宏志. 基于實(shí)體描述屬性技術(shù)的XML重復(fù)對象檢測方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2011, 34(11): 2132- 2141.

    [12] Whang S E, Menestrina D, Georgiaet K. Entity Resolution with Iterative Blocking[C]//Proceedings of the 35th SI GMOD International Conference on Management of Data. New York, USA: ACM Press, 2009: 219-231.

    編輯 陸燕菲

    Duplicate Master Data Detection Algorithm Based on Credibility Model

    WANG Ji-kui1,2,3, LI Shao-bo1,2

    (1. Chengdu Institute of Computer Applications, Chinese Academy of Sciences, Chengdu 610041, China; 2. Key Laboratory of Advanced Manufacturing Technology, Ministry of Education, Guizhou University, Guiyang 550003, China; 3. College of Information Engineering, Lanzhou University of Finance and Economics, Lanzhou 730020, China)

    To avoid the effect of duplicate master data from multiple business systems on the quality, synchronization of the master data as well as master data mining, this paper propose a fastCdrDetec tion(Fast Cluster Duplicate Record s Detection) algo rithm, in wh ich a duplicate master data detection model and a credible record ge nerating algorithm are included, c onsidering data source reliabil ity, data refresh time and data length. A non-recursive algorithm FiledMatch is established for character string similar ity calculation. Aiming at the eliminating problems caused by abbreviations and wrong spellings in Chinese input, a sourceKeys algorithm is constructed for pretreatment of duplicate records arising from a same business system and sharing same business keys to achieve high efficiency in duplicate master data detection. Experiments are carried on a power grid with 630 thousand records of raw material and 230 thousand simulated data records. Result shows that the recall rate of the fastCdrDetection algorithm is 88%, while the PQS algorithm is 74%, and the accuracy is 95% to 61%. The effectiveness of the algorithm is verified.

    multiple data source; duplicate master data; credibility model; detection algorithm; data credibility

    10.3969/j.issn.1000-3428.2014.05.007

    國家科技支撐計(jì)劃基金資助項(xiàng)目(2012BAF12B14)。

    王繼奎(1978-),男,副教授、博士研究生,主研方向:數(shù)據(jù)管理,軟件過程技術(shù),智能計(jì)算;李少波,教授、博士生導(dǎo)師。

    2013-04-02

    2013-05-27E-mail:wjkweb@163.com

    1000-3428(2014)05-0031-05

    A

    TP311

    猜你喜歡
    檢測
    QC 檢測
    “不等式”檢測題
    “一元一次不等式”檢測題
    “一元一次不等式組”檢測題
    “幾何圖形”檢測題
    “角”檢測題
    “有理數(shù)的乘除法”檢測題
    “有理數(shù)”檢測題
    “角”檢測題
    “幾何圖形”檢測題
    毛片一级片免费看久久久久| 激情视频va一区二区三区| 精品少妇一区二区三区视频日本电影 | 亚洲国产中文字幕在线视频| 色播在线永久视频| 国产一级毛片在线| 日韩精品免费视频一区二区三区| 另类亚洲欧美激情| 国产av精品麻豆| 中文天堂在线官网| 这个男人来自地球电影免费观看 | 97在线人人人人妻| 90打野战视频偷拍视频| 亚洲国产av新网站| netflix在线观看网站| a 毛片基地| av线在线观看网站| 国产精品二区激情视频| 波多野结衣一区麻豆| 中文字幕最新亚洲高清| 男女免费视频国产| 爱豆传媒免费全集在线观看| 天天躁日日躁夜夜躁夜夜| 久久久精品区二区三区| 国产探花极品一区二区| 日韩av在线免费看完整版不卡| h视频一区二区三区| 曰老女人黄片| 中文字幕最新亚洲高清| 一区二区三区四区激情视频| 大片免费播放器 马上看| 日韩成人av中文字幕在线观看| 校园人妻丝袜中文字幕| 久久久久久久精品精品| netflix在线观看网站| 女人被躁到高潮嗷嗷叫费观| 黄色一级大片看看| 一区二区av电影网| 亚洲,一卡二卡三卡| 国产精品国产三级国产专区5o| 秋霞伦理黄片| 这个男人来自地球电影免费观看 | 久久久久久久大尺度免费视频| 美女视频免费永久观看网站| 搡老岳熟女国产| 在线观看免费视频网站a站| 国产av一区二区精品久久| 一区二区日韩欧美中文字幕| 岛国毛片在线播放| 亚洲精品aⅴ在线观看| 国产精品 国内视频| 这个男人来自地球电影免费观看 | 婷婷色av中文字幕| 国产一区有黄有色的免费视频| 亚洲第一av免费看| 亚洲 欧美一区二区三区| 精品国产一区二区三区四区第35| 欧美久久黑人一区二区| 国产成人免费观看mmmm| 日韩av在线免费看完整版不卡| 一区二区三区精品91| 只有这里有精品99| 国产精品一国产av| 久久午夜综合久久蜜桃| 国产精品蜜桃在线观看| 欧美最新免费一区二区三区| 一本色道久久久久久精品综合| 女人爽到高潮嗷嗷叫在线视频| 十分钟在线观看高清视频www| 啦啦啦中文免费视频观看日本| 99热全是精品| 亚洲欧美一区二区三区国产| 亚洲精品久久成人aⅴ小说| 纵有疾风起免费观看全集完整版| 久久精品aⅴ一区二区三区四区| 国产成人精品久久久久久| 亚洲成国产人片在线观看| 精品少妇内射三级| 极品少妇高潮喷水抽搐| 天堂中文最新版在线下载| 国产一区亚洲一区在线观看| 777久久人妻少妇嫩草av网站| 国产亚洲av片在线观看秒播厂| 丝袜美腿诱惑在线| 国产成人欧美在线观看 | 久久久久精品性色| 赤兔流量卡办理| 日韩人妻精品一区2区三区| 少妇的丰满在线观看| 2021少妇久久久久久久久久久| 亚洲国产毛片av蜜桃av| 欧美日韩亚洲综合一区二区三区_| 少妇人妻 视频| 咕卡用的链子| 亚洲人成网站在线观看播放| 亚洲熟女精品中文字幕| 热re99久久国产66热| 嫩草影视91久久| 国产成人精品在线电影| 亚洲国产欧美在线一区| 日韩一区二区三区影片| 欧美变态另类bdsm刘玥| 如日韩欧美国产精品一区二区三区| 亚洲综合色网址| 又黄又粗又硬又大视频| 欧美另类一区| av免费观看日本| 亚洲精品乱久久久久久| 黄色怎么调成土黄色| 少妇猛男粗大的猛烈进出视频| 少妇被粗大猛烈的视频| 人成视频在线观看免费观看| 1024视频免费在线观看| 国产成人免费观看mmmm| 久久午夜综合久久蜜桃| 午夜福利视频精品| 丝袜美足系列| netflix在线观看网站| 久久久久精品性色| 亚洲三区欧美一区| 熟妇人妻不卡中文字幕| 国产xxxxx性猛交| 国产亚洲精品第一综合不卡| 欧美老熟妇乱子伦牲交| 观看av在线不卡| 毛片一级片免费看久久久久| 一级爰片在线观看| 美女大奶头黄色视频| 男女国产视频网站| 美女视频免费永久观看网站| 欧美xxⅹ黑人| 宅男免费午夜| 成人毛片60女人毛片免费| www.熟女人妻精品国产| 18禁观看日本| 天天添夜夜摸| 男女国产视频网站| 欧美日韩亚洲高清精品| 色94色欧美一区二区| 国产一区亚洲一区在线观看| 美女视频免费永久观看网站| 亚洲欧美精品自产自拍| 欧美日韩视频高清一区二区三区二| 欧美日韩亚洲高清精品| 永久免费av网站大全| 亚洲精品国产色婷婷电影| 另类精品久久| 亚洲人成77777在线视频| 成年女人毛片免费观看观看9 | 亚洲欧美一区二区三区久久| 久久毛片免费看一区二区三区| 日本色播在线视频| 我要看黄色一级片免费的| 国产xxxxx性猛交| 18在线观看网站| 综合色丁香网| 国产xxxxx性猛交| 欧美亚洲 丝袜 人妻 在线| 日本爱情动作片www.在线观看| 亚洲美女搞黄在线观看| 午夜福利网站1000一区二区三区| av在线播放精品| 久久久久久人人人人人| 欧美精品一区二区大全| 日本爱情动作片www.在线观看| 伊人久久国产一区二区| 十八禁人妻一区二区| 在线观看免费高清a一片| 亚洲伊人色综图| 亚洲精品aⅴ在线观看| 人人澡人人妻人| 亚洲伊人色综图| 大话2 男鬼变身卡| 啦啦啦中文免费视频观看日本| 精品亚洲成a人片在线观看| 国产精品久久久久久人妻精品电影 | 欧美日韩国产mv在线观看视频| 免费少妇av软件| 欧美亚洲 丝袜 人妻 在线| 亚洲成人手机| 日韩电影二区| bbb黄色大片| 9191精品国产免费久久| 精品亚洲乱码少妇综合久久| 人人妻人人澡人人爽人人夜夜| 人妻一区二区av| 久久99一区二区三区| 久久精品久久久久久噜噜老黄| xxxhd国产人妻xxx| 韩国高清视频一区二区三区| 乱人伦中国视频| 欧美黄色片欧美黄色片| 只有这里有精品99| 亚洲精品国产色婷婷电影| a级毛片黄视频| 纯流量卡能插随身wifi吗| 日韩精品免费视频一区二区三区| 亚洲,欧美精品.| 亚洲中文av在线| 免费在线观看黄色视频的| 国产亚洲午夜精品一区二区久久| www日本在线高清视频| 一级毛片我不卡| 久久 成人 亚洲| 久久这里只有精品19| 中文字幕人妻熟女乱码| 色婷婷av一区二区三区视频| 久久性视频一级片| 爱豆传媒免费全集在线观看| 亚洲色图综合在线观看| 美女国产高潮福利片在线看| 精品人妻一区二区三区麻豆| 国产乱人偷精品视频| 青春草视频在线免费观看| 国产精品.久久久| av免费观看日本| 精品少妇内射三级| 久久久久久久精品精品| 99久久综合免费| 国产免费视频播放在线视频| 婷婷色综合www| 国产精品久久久av美女十八| 精品国产一区二区三区久久久樱花| 久久久久久久久久久免费av| 日韩av不卡免费在线播放| 中文字幕人妻熟女乱码| 好男人视频免费观看在线| 最近手机中文字幕大全| 亚洲国产欧美日韩在线播放| 日韩一区二区三区影片| 少妇被粗大的猛进出69影院| 99国产综合亚洲精品| 欧美日韩福利视频一区二区| 丝袜美足系列| 久热爱精品视频在线9| 国产亚洲av片在线观看秒播厂| 老汉色av国产亚洲站长工具| 中文字幕人妻丝袜制服| 人成视频在线观看免费观看| 少妇被粗大猛烈的视频| 欧美日韩亚洲国产一区二区在线观看 | 亚洲四区av| 丝瓜视频免费看黄片| 99国产精品免费福利视频| 国产av码专区亚洲av| 日日撸夜夜添| 亚洲精品久久午夜乱码| 亚洲欧美一区二区三区国产| 男女无遮挡免费网站观看| 捣出白浆h1v1| 男的添女的下面高潮视频| 性少妇av在线| 久久久精品94久久精品| 免费在线观看视频国产中文字幕亚洲 | 亚洲国产欧美一区二区综合| 亚洲国产欧美在线一区| 亚洲国产欧美网| 熟妇人妻不卡中文字幕| 日韩欧美一区视频在线观看| 汤姆久久久久久久影院中文字幕| 亚洲国产精品一区三区| 国产乱来视频区| 精品亚洲成国产av| 国产日韩欧美亚洲二区| 久久精品aⅴ一区二区三区四区| 日日啪夜夜爽| 免费黄色在线免费观看| 国产免费一区二区三区四区乱码| 亚洲av男天堂| 永久免费av网站大全| 亚洲成国产人片在线观看| 国产成人免费无遮挡视频| 中国国产av一级| 搡老乐熟女国产| 少妇猛男粗大的猛烈进出视频| 观看美女的网站| 国产免费一区二区三区四区乱码| 免费在线观看视频国产中文字幕亚洲 | 一区二区三区乱码不卡18| 777久久人妻少妇嫩草av网站| 亚洲精品国产av成人精品| 国产精品av久久久久免费| 国产精品一国产av| av又黄又爽大尺度在线免费看| 国产无遮挡羞羞视频在线观看| 国产探花极品一区二区| 狠狠婷婷综合久久久久久88av| 亚洲欧美成人综合另类久久久| 美女国产高潮福利片在线看| 99国产综合亚洲精品| 国精品久久久久久国模美| 久久天堂一区二区三区四区| 丰满乱子伦码专区| 欧美变态另类bdsm刘玥| 免费av中文字幕在线| 亚洲第一av免费看| 在线观看三级黄色| 国产精品久久久av美女十八| 狂野欧美激情性xxxx| 18禁观看日本| 国产国语露脸激情在线看| 日韩中文字幕欧美一区二区 | 国产 一区精品| 韩国av在线不卡| 精品免费久久久久久久清纯 | 国产日韩欧美亚洲二区| 国产成人免费观看mmmm| 乱人伦中国视频| 成人黄色视频免费在线看| 秋霞在线观看毛片| 成人毛片60女人毛片免费| 国产成人91sexporn| 丝袜在线中文字幕| 如日韩欧美国产精品一区二区三区| 亚洲欧美精品综合一区二区三区| av网站免费在线观看视频| 国产精品久久久久成人av| 久久久久久久久久久免费av| 亚洲成人手机| 黑丝袜美女国产一区| 91精品国产国语对白视频| 人妻一区二区av| 国产高清国产精品国产三级| 蜜桃在线观看..| 日韩中文字幕视频在线看片| 国产成人系列免费观看| 成年女人毛片免费观看观看9 | 国产伦理片在线播放av一区| 亚洲国产精品一区三区| 男女床上黄色一级片免费看| 我的亚洲天堂| 久久久久精品人妻al黑| 最近中文字幕高清免费大全6| 亚洲成人国产一区在线观看 | 丝袜脚勾引网站| 制服丝袜香蕉在线| 在线 av 中文字幕| 在线看a的网站| 亚洲自偷自拍图片 自拍| 美女脱内裤让男人舔精品视频| 看免费av毛片| 两个人免费观看高清视频| 少妇被粗大猛烈的视频| 少妇 在线观看| 看免费成人av毛片| 国产亚洲欧美精品永久| 国产精品蜜桃在线观看| 日韩人妻精品一区2区三区| 啦啦啦中文免费视频观看日本| av在线老鸭窝| 中文字幕人妻熟女乱码| 日韩 亚洲 欧美在线| 亚洲精品美女久久久久99蜜臀 | 啦啦啦在线观看免费高清www| 在线观看www视频免费| 国产成人精品在线电影| 精品第一国产精品| 一级爰片在线观看| 日本一区二区免费在线视频| 国产黄色视频一区二区在线观看| 最近中文字幕2019免费版| 欧美国产精品一级二级三级| 亚洲精品一区蜜桃| 国产黄频视频在线观看| 老司机深夜福利视频在线观看 | 在线 av 中文字幕| 日韩熟女老妇一区二区性免费视频| 2018国产大陆天天弄谢| 国产爽快片一区二区三区| 国产女主播在线喷水免费视频网站| 色视频在线一区二区三区| tube8黄色片| 制服诱惑二区| 国产精品国产三级国产专区5o| 亚洲精品久久久久久婷婷小说| 亚洲精品成人av观看孕妇| 亚洲激情五月婷婷啪啪| 麻豆乱淫一区二区| 青草久久国产| 中文字幕制服av| 日本一区二区免费在线视频| 伊人久久国产一区二区| 可以免费在线观看a视频的电影网站 | 亚洲精品,欧美精品| 韩国高清视频一区二区三区| 69精品国产乱码久久久| 久久人人97超碰香蕉20202| 一区在线观看完整版| 久久久精品区二区三区| 中文字幕人妻熟女乱码| 亚洲伊人色综图| 七月丁香在线播放| 亚洲第一av免费看| 久久久精品94久久精品| kizo精华| 精品少妇久久久久久888优播| 国产探花极品一区二区| 亚洲精品av麻豆狂野| 欧美人与善性xxx| 人人澡人人妻人| 十八禁网站网址无遮挡| 亚洲成人手机| 成年美女黄网站色视频大全免费| a级毛片黄视频| 日韩av不卡免费在线播放| 韩国av在线不卡| 街头女战士在线观看网站| 精品国产超薄肉色丝袜足j| 日本av免费视频播放| 老司机靠b影院| 在线观看免费午夜福利视频| 男女午夜视频在线观看| 国产男人的电影天堂91| 天天躁狠狠躁夜夜躁狠狠躁| 男人操女人黄网站| 国产老妇伦熟女老妇高清| av在线app专区| 精品一区二区三卡| 人成视频在线观看免费观看| 亚洲精品av麻豆狂野| 国产xxxxx性猛交| 人成视频在线观看免费观看| 校园人妻丝袜中文字幕| av在线app专区| 超色免费av| 国产老妇伦熟女老妇高清| 在线天堂最新版资源| av在线播放精品| 国产又色又爽无遮挡免| 日韩制服骚丝袜av| 啦啦啦啦在线视频资源| 国产av码专区亚洲av| 黑人猛操日本美女一级片| videos熟女内射| 日本色播在线视频| 亚洲精品日本国产第一区| 国产探花极品一区二区| 色婷婷av一区二区三区视频| 天堂俺去俺来也www色官网| 在线精品无人区一区二区三| 精品一区在线观看国产| tube8黄色片| 日韩制服骚丝袜av| 无遮挡黄片免费观看| 少妇的丰满在线观看| 亚洲精品久久成人aⅴ小说| 久久午夜综合久久蜜桃| 亚洲中文av在线| 亚洲国产最新在线播放| 国产成人精品久久二区二区91 | 久久久欧美国产精品| 人人澡人人妻人| 美女高潮到喷水免费观看| 大片免费播放器 马上看| 免费观看人在逋| 欧美精品亚洲一区二区| 丰满饥渴人妻一区二区三| 国产极品天堂在线| 麻豆精品久久久久久蜜桃| 两性夫妻黄色片| 国产深夜福利视频在线观看| 777米奇影视久久| 国产不卡av网站在线观看| 精品少妇久久久久久888优播| 欧美最新免费一区二区三区| 下体分泌物呈黄色| 国产精品一国产av| 91成人精品电影| 午夜精品国产一区二区电影| 色吧在线观看| 久久天堂一区二区三区四区| 黄色毛片三级朝国网站| 亚洲av日韩在线播放| 一二三四在线观看免费中文在| 制服诱惑二区| videos熟女内射| 高清av免费在线| 免费看不卡的av| av国产精品久久久久影院| 国产精品av久久久久免费| 我要看黄色一级片免费的| 日韩av在线免费看完整版不卡| 黄色 视频免费看| 99久久精品国产亚洲精品| 午夜福利乱码中文字幕| 校园人妻丝袜中文字幕| 你懂的网址亚洲精品在线观看| 午夜激情av网站| 亚洲一区二区三区欧美精品| 熟妇人妻不卡中文字幕| 一级片'在线观看视频| 考比视频在线观看| 欧美少妇被猛烈插入视频| 80岁老熟妇乱子伦牲交| 免费不卡黄色视频| av在线app专区| 国产精品亚洲av一区麻豆 | 日本av手机在线免费观看| 久久国产精品大桥未久av| 亚洲国产精品成人久久小说| 国产 一区精品| 在线观看人妻少妇| 青春草亚洲视频在线观看| 国产成人精品在线电影| a 毛片基地| 别揉我奶头~嗯~啊~动态视频 | 久久人人爽人人片av| 99热国产这里只有精品6| tube8黄色片| av天堂久久9| 亚洲av电影在线进入| 欧美日韩av久久| 免费观看a级毛片全部| 欧美av亚洲av综合av国产av | 亚洲成av片中文字幕在线观看| 王馨瑶露胸无遮挡在线观看| a级毛片在线看网站| 狠狠精品人妻久久久久久综合| 色吧在线观看| 亚洲男人天堂网一区| 在线观看免费高清a一片| 国产精品久久久久久人妻精品电影 | 日韩,欧美,国产一区二区三区| 国产在视频线精品| 婷婷色麻豆天堂久久| av线在线观看网站| 伦理电影免费视频| 久久精品人人爽人人爽视色| 亚洲欧美一区二区三区国产| 亚洲美女视频黄频| 久久毛片免费看一区二区三区| 毛片一级片免费看久久久久| 男女边摸边吃奶| 久久久久久人妻| 日韩av免费高清视频| 黄色视频不卡| 国产老妇伦熟女老妇高清| 香蕉国产在线看| 丝袜喷水一区| 国产片内射在线| 精品酒店卫生间| 9热在线视频观看99| 欧美日韩一级在线毛片| 秋霞伦理黄片| 亚洲国产精品一区三区| 老汉色av国产亚洲站长工具| 国产成人免费无遮挡视频| 午夜免费男女啪啪视频观看| 成人免费观看视频高清| 精品久久蜜臀av无| 成年动漫av网址| 免费av中文字幕在线| 中文字幕人妻丝袜一区二区 | 中国国产av一级| 国产不卡av网站在线观看| 久久精品久久精品一区二区三区| 看十八女毛片水多多多| 欧美 亚洲 国产 日韩一| 欧美激情高清一区二区三区 | 黄频高清免费视频| 亚洲欧美中文字幕日韩二区| 欧美亚洲 丝袜 人妻 在线| 另类精品久久| 亚洲av成人精品一二三区| 韩国精品一区二区三区| 成人国语在线视频| h视频一区二区三区| 激情五月婷婷亚洲| 不卡视频在线观看欧美| 99久久99久久久精品蜜桃| 国产成人精品无人区| 在线观看www视频免费| 亚洲天堂av无毛| 天天躁狠狠躁夜夜躁狠狠躁| 欧美另类一区| 啦啦啦 在线观看视频| 欧美乱码精品一区二区三区| 日韩一本色道免费dvd| 欧美 日韩 精品 国产| 少妇的丰满在线观看| 亚洲成人国产一区在线观看 | 9热在线视频观看99| 午夜av观看不卡| av在线app专区| 国产人伦9x9x在线观看| 久久鲁丝午夜福利片| 久久97久久精品| 国产有黄有色有爽视频| 日韩 亚洲 欧美在线| 日本色播在线视频| 国产爽快片一区二区三区| 色吧在线观看| 国产av一区二区精品久久| 免费观看性生交大片5| 欧美最新免费一区二区三区| 热99国产精品久久久久久7| 这个男人来自地球电影免费观看 | 丝袜人妻中文字幕| 美女视频免费永久观看网站| 久久久久精品久久久久真实原创| 国产日韩欧美亚洲二区| 色综合欧美亚洲国产小说| 国产不卡av网站在线观看| av国产精品久久久久影院| 美女脱内裤让男人舔精品视频| a级毛片黄视频| 国产精品一国产av| 十八禁高潮呻吟视频| 欧美日韩亚洲国产一区二区在线观看 | 亚洲色图综合在线观看| 日韩av在线免费看完整版不卡| 天天躁狠狠躁夜夜躁狠狠躁| 日日摸夜夜添夜夜爱| 久久99精品国语久久久| 日韩精品免费视频一区二区三区|