• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于可信度模型的重復(fù)主數(shù)據(jù)檢測算法

    2014-08-05 04:27:09王繼奎李少波
    計(jì)算機(jī)工程 2014年5期
    關(guān)鍵詞:檢測

    王繼奎,李少波

    (1. 中國科學(xué)院成都計(jì)算機(jī)應(yīng)用研究所,成都 6 10041;2. 貴州大學(xué)省部共建現(xiàn)代制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,貴陽 5 50003;3. 蘭州商學(xué)院信息工程學(xué)院,蘭州 730 020)

    基于可信度模型的重復(fù)主數(shù)據(jù)檢測算法

    王繼奎1,2,3,李少波1,2

    (1. 中國科學(xué)院成都計(jì)算機(jī)應(yīng)用研究所,成都 6 10041;2. 貴州大學(xué)省部共建現(xiàn)代制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,貴陽 5 50003;3. 蘭州商學(xué)院信息工程學(xué)院,蘭州 730 020)

    針對(duì)來源于多個(gè)業(yè)務(wù)系統(tǒng)的重復(fù)主數(shù)據(jù)影響主數(shù)據(jù)質(zhì)量、主數(shù)據(jù)同步及主數(shù)據(jù)挖掘等問題,提出重復(fù)主數(shù)據(jù)檢測算法fastCdrDetection。從數(shù)據(jù)可信度的角度出發(fā),在考慮數(shù)據(jù)源可信度、數(shù)據(jù)最后更新時(shí)間及數(shù)據(jù)長度的基礎(chǔ)上,建立主數(shù)據(jù)可信度模型,并實(shí)現(xiàn)可信記錄生成算法。設(shè)計(jì)非遞歸的字符串相似度計(jì)算算法FiledMatch,解決了由中文簡寫、縮寫、錯(cuò)誤拼寫造成的主數(shù)據(jù)重復(fù)問題,采用sourceKeys算法對(duì)來源于同一業(yè)務(wù)系統(tǒng)、具有同樣業(yè)務(wù)主鍵的重復(fù)記錄進(jìn)行預(yù)處理,從而提高重復(fù)主數(shù)據(jù)檢測效率。通過對(duì)某電網(wǎng)基建物資63萬余條供應(yīng)商存量數(shù)據(jù)及23萬余條模擬數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,與PQS算法相比,fastCdrDetection算法的召回率由74%提高到88%,準(zhǔn)確率由61%提高到95%,證明了算法的有效性。

    多數(shù)據(jù)源;重復(fù)主數(shù)據(jù);可信度模型;檢測算法;數(shù)據(jù)可信度

    1 概述

    重復(fù)主數(shù)據(jù)會(huì)對(duì)主數(shù)據(jù)質(zhì)量、主數(shù)據(jù)同步及主數(shù)據(jù)挖掘等操作產(chǎn)生不良影響[1],如何檢測重復(fù)主數(shù)據(jù)是十分重要的研究課題。文獻(xiàn)[2]對(duì)重復(fù)記錄進(jìn)行了定義,文獻(xiàn)[3]提出識(shí)別相似重復(fù)記錄的5個(gè)基本步驟:數(shù)據(jù)預(yù)處理,縮小搜索空間,相似重復(fù)記錄識(shí)別,相似重復(fù)記錄清除和驗(yàn)證。文獻(xiàn)[4]提出由召回率與準(zhǔn)確率2個(gè)標(biāo)準(zhǔn)度量重復(fù)記錄識(shí)別的有效性。在字段識(shí)別方面,文獻(xiàn)[5]提出著名的S-W遞歸算法,文獻(xiàn)[6]對(duì)S-W算法進(jìn)行了改進(jìn),加入了擴(kuò)大的遞歸變量,提高了運(yùn)行效率。文獻(xiàn)[7]提出非遞歸算法以及PCM算法。在實(shí)際應(yīng)用中,發(fā)現(xiàn)主數(shù)據(jù)重復(fù)主要由中文簡寫、縮寫、錯(cuò)誤拼寫造成,針對(duì)這3種情況,提出一種非遞歸的字符串相似度計(jì)算算法FieldMatch。目前的重復(fù)記錄檢測算法主要基于排序-比較-合并的思路,常用的算法有近鄰排序法SNM[8]、多趟近鄰排序法MPN[9]、優(yōu)先隊(duì)列算法PQS[10]。文獻(xiàn)[11]設(shè)計(jì)的Max-merge算法兼顧了閉包算法[12]相似的傳遞性與獨(dú)立性,對(duì)XML對(duì)象識(shí)別有較高的準(zhǔn)確率與召回率。本文從數(shù)據(jù)可信度的角度出發(fā),建立主數(shù)據(jù)可信度模型,基于主數(shù)據(jù)可信度模型改進(jìn)了PQS算法,對(duì)每一個(gè)聚類采用可信記錄作為代表記錄參與相似度計(jì)算,以提高檢測算法的召回率與準(zhǔn)確率,并采用某電網(wǎng)公司的供應(yīng)商主數(shù)據(jù)存量數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。

    2 主數(shù)據(jù)重復(fù)記錄檢測模型

    2.1 符號(hào)、縮寫及其含義

    符號(hào)、縮寫及其含義如表1所示。

    表1 符號(hào)、縮寫及其含義

    2.2 術(shù)語定義

    定義1屬性相似度:sim(ri.attrk, rj.attrk)表示記錄ri與rj的k屬性相似度;其計(jì)算方法是若2個(gè)屬性ri.attrk,rj.attrk是相似的,當(dāng)且僅當(dāng)2個(gè)字段的sim(ri.attrk, rj.attrk)>t。ri.attrk.el代表i的k屬性的字符,score(ri.attrk, rj.attrk)表示記錄i的屬性k的字符與記錄j的屬性k的字符匹配值,score (ri.attrk, rj.attrk)∈[0,1]、|ri.attrk|<|rj.attrk|。將ri.attrk,rj.attrk轉(zhuǎn)化為字符串,逐一掃描2個(gè)字符串?dāng)?shù)組,若字符相等,則score值為1,否則向后掃描rj.attrk;若ri.attrk掃描結(jié)束,則算法結(jié)束。

    由于ri、rj具有相同的關(guān)系模式,因此|ri|=|rj|=n,相似度計(jì)算公式轉(zhuǎn)變?yōu)椋?/p>

    其中,RD代表識(shí)別出的重復(fù)記錄的集合;RO代表實(shí)際重復(fù)記錄的集合。

    定義4準(zhǔn)確率:

    2.3 識(shí)別主數(shù)據(jù)重復(fù)記錄的規(guī)則

    2.3.1 sourceKeys計(jì)算規(guī)則的記錄

    規(guī)則1記錄i的sourceKeys由記錄的業(yè)務(wù)主鍵與記錄來源系統(tǒng)決定。

    2.3.2 重復(fù)規(guī)則的記錄

    關(guān)系R為重復(fù)關(guān)系,R’為不重復(fù)關(guān)系。

    規(guī)則2若記錄的sourceKeys相同,則記錄為重復(fù)記錄。

    規(guī)則3若2條記錄相似度大于閾值,則2條記錄重復(fù)。

    2.4 多數(shù)據(jù)源可信度定義

    定義5數(shù)據(jù)源可信度ri.sTScore。目前為簡便計(jì)算,ri.sTScore由系統(tǒng)賦初始值,ri.sTScore∈(0,1)。

    定義6字段可信度ri.attrk.tScore。由字段的數(shù)據(jù)源、記錄的最后更新時(shí)間、字段長度共同決定。其依據(jù)為:

    (1)從主數(shù)據(jù)系統(tǒng)的建設(shè)實(shí)踐中總結(jié)出長的字段更可信,主要是因?yàn)橹貜?fù)主數(shù)據(jù)很多是縮寫、簡寫造成的;

    (2)在長度相同的基礎(chǔ)上,來源系統(tǒng)可信度大的數(shù)據(jù)更可信;

    (3)字段長度與來源系統(tǒng)的可信度均相等,從實(shí)踐上發(fā)現(xiàn)這樣的重復(fù)主數(shù)據(jù)大多是來源于同一業(yè)務(wù)系統(tǒng),這種情況下記錄的最后更新時(shí)間可以作為數(shù)據(jù)可信的依據(jù),因?yàn)樽詈蟾碌臄?shù)據(jù)應(yīng)該是現(xiàn)實(shí)世界的真值,也更可信。

    2.5 重復(fù)主數(shù)據(jù)檢測

    重復(fù)主數(shù)據(jù)檢測模型如圖1所示。

    圖1 重復(fù)主數(shù)據(jù)檢測模型

    重復(fù)主數(shù)據(jù)檢測算法步驟具體如下:

    (1)從各業(yè)務(wù)系統(tǒng)中抽取進(jìn)入主數(shù)據(jù)系統(tǒng)的存量數(shù)據(jù)。

    (2)根據(jù)主數(shù)據(jù)的數(shù)據(jù)格式要求對(duì)存量數(shù)據(jù)進(jìn)行預(yù)處理,計(jì)算sourceKeys與matchKeys,并從源數(shù)據(jù)庫日志中獲取數(shù)據(jù)的lsDate,填充到待檢測數(shù)據(jù)集中。

    (3)以matchkeys為第一排序關(guān)鍵字,sourceKeys為第二關(guān)鍵字升序排序。

    (4)采用fastCdrDetection(Fast Cluster Duplicate Records Detection)算法進(jìn)行聚類,隊(duì)列每個(gè)節(jié)點(diǎn)的代表記錄為本聚類的可信記錄。

    (5)輸出聚類記錄數(shù)大于1的聚類記錄。

    3 fastCdrDetection檢測算法

    算法1屬性相似度sim(ri.attrk, rj.attrk)算法

    思路:屬性值數(shù)字型或boolean,完全相等,相似度為1,否則為0;其他類型統(tǒng)一處理成字符串。

    屬性相似度計(jì)算是計(jì)算記錄相似度的基礎(chǔ),目前主要有基本的字段匹配算法與遞歸的字段匹配算法2種,主要針對(duì)英文字符串的相似度研究。通過分析主數(shù)據(jù)管理系統(tǒng)中,常出現(xiàn)的不一致表現(xiàn)主要為縮寫、簡寫與錯(cuò)寫,采用FieldMatch字符串比較算法。

    輸入帶比較的2個(gè)記錄的屬性值ri.attrk,rj.attrk

    輸出相似度比較結(jié)果

    f1Array,f2Array為ri.attrk,rj.attrk的字符串?dāng)?shù)組;k與m為指向f1Array,f2Array的指針,初始值為0;count統(tǒng)計(jì)字符相同的結(jié)果,初始值位0。

    算法分析:將ri.attrk轉(zhuǎn)化為字符數(shù)組,每個(gè)字符即ri.attrk的原子串,將rj.attrk轉(zhuǎn)化為字符數(shù)組,掃描一遍2個(gè)數(shù)組,統(tǒng)計(jì)相同字符的個(gè)數(shù)。設(shè)ri.attrk對(duì)應(yīng)的數(shù)組長度為m,rj.attrk對(duì)應(yīng)的數(shù)組長度為n,最好情況需要比較min(m,n),最壞情況需要比較max(m,n)。

    算法2記錄相似度similarity(ri, rj)算法

    思路:ri.soruceKey=rj.soruceKey表示ri,rj是來源于同一業(yè)務(wù)系統(tǒng)的同一實(shí)體,similarity(ri, rj)值為1;否則根據(jù)式(3)計(jì)算相似度。

    算法3可信記錄生成算法getTrustedRecord

    輸入待檢測記錄ri,聚類m的可信記錄trustedRecord(m)

    輸出聚類m的可信記錄

    參數(shù):change: boolean,初始值位false。

    思路:計(jì)算待檢測記錄ri與聚類m的可信記錄trusted-Record(m)的相似度;若相似度大于閾值,同一字段值不同,則選取可信度更高的字段值作為可信記錄的字段值,生成可信記錄。

    算法分析:在計(jì)算聚類的代表記錄(可信記錄)時(shí),需要根據(jù)可信度模型計(jì)算字段的可信度進(jìn)而生成可信記錄,與PQS算法相比會(huì)產(chǎn)生額外開銷。從實(shí)驗(yàn)結(jié)果可看出,處理10 146條供應(yīng)商數(shù)據(jù)fastCdrDetection算法耗時(shí)14 660 ms,而PQS算法耗時(shí)14 430 ms,平均每條數(shù)據(jù)fastCdrDetection算法多耗時(shí)0.022 7 ms。

    算法4matchKeys生成算法

    思路:根據(jù)主數(shù)據(jù)管理業(yè)務(wù)需要,選取特定字段或者字段集作為matchKeys生成字段,將各生成字段的轉(zhuǎn)換為字符串,然后連接起來作為matchKeys。

    算法5 fastCdrDetection算法

    思路:fastCdrDetection算法基于排序-檢測-合并思路。首先利用matchKeys作為第一排序關(guān)鍵字,sourceKeys作為第二排序關(guān)鍵字對(duì)記錄進(jìn)行排序。順序掃描記錄集,比較當(dāng)前記錄ri與優(yōu)先隊(duì)列包含的可信記錄,若在優(yōu)先隊(duì)列中有重復(fù)記錄,則將這條記錄合并入匹配記錄所在的聚類中,包含這個(gè)記錄的聚類進(jìn)入優(yōu)先隊(duì)列并有最高的優(yōu)先級(jí);若掃描整個(gè)優(yōu)先隊(duì)列后發(fā)現(xiàn)ri不屬于任何一個(gè)聚類,則生成新的聚類加入優(yōu)先隊(duì)列,并使其具有最高優(yōu)先級(jí)。將ri加入該聚類中,成為該聚類的可信記錄。最后輸出所有聚類記錄數(shù)大于1的聚類記錄,即為重復(fù)記錄。

    采用優(yōu)先隊(duì)列策略識(shí)別重復(fù)記錄的精度很大程度上依賴于排序所選擇的關(guān)鍵字,第一關(guān)鍵字的選擇要結(jié)合業(yè)務(wù)應(yīng)用場景,為了快速檢測來源于同一系統(tǒng)、具有同一業(yè)務(wù)主鍵的重復(fù)記錄,采用sourceKeys作為第二排序關(guān)鍵字。優(yōu)先隊(duì)列算法選擇進(jìn)入聚類的第一條記錄作為代表記錄,而fastCdrDetection算法采用可信記錄作為代表記錄,采用動(dòng)態(tài)的、不斷變好的可信記錄替換進(jìn)入聚類的第一條記錄作為聚類的代表記錄,提高了檢測結(jié)果的準(zhǔn)確率與召回率。

    輸入排序后的記錄集recordSet

    輸出重復(fù)記錄檢測結(jié)果

    參數(shù):PQ表示優(yōu)先隊(duì)列,maxPriority表示當(dāng)前最高優(yōu)先級(jí)。

    算法分析:

    由于采用了對(duì)來源于同一業(yè)務(wù)系統(tǒng)、具有同樣業(yè)務(wù)主鍵的重復(fù)記錄進(jìn)行了預(yù)先處理,在比較相似度時(shí)先比較記錄的sourceSystem,因此在實(shí)際應(yīng)用中fastCdrDetection算法具有更高的效率,來源于同一業(yè)務(wù)系統(tǒng)、具有同一業(yè)務(wù)主鍵的重復(fù)記錄越多,則算法效率越高;在記錄相似度計(jì)算時(shí),采用本文聚類的可信記錄代替進(jìn)入聚類的第一條記錄,相似度計(jì)算結(jié)果也具有更高的準(zhǔn)確性。

    4 實(shí)驗(yàn)與結(jié)果分析

    由于優(yōu)先隊(duì)列算法項(xiàng)的代表記錄采用的是聚類的第一條記錄,導(dǎo)致記錄相似度比較的結(jié)果失真,算法的準(zhǔn)確率與召回率降低;fastCdrDetection檢測算法采用可信記錄代替作為聚類的代表記錄,并在檢測過程中首先檢測來源于同一數(shù)據(jù)源的數(shù)據(jù)的sourceKeys,能較快的檢測出來源于同一數(shù)據(jù)源的重復(fù)記錄。

    實(shí)驗(yàn)驗(yàn)證程序采用Java語言編寫,在Win7 64位操作系統(tǒng)、Jre1.6環(huán)境下運(yùn)行。實(shí)驗(yàn)采用的數(shù)據(jù)為來源于物資基建系統(tǒng)供應(yīng)商主數(shù)據(jù)63萬余條及模擬噪聲數(shù)據(jù)23萬余條。主要對(duì)比PQS算法與fastCdrDetection算法的運(yùn)行時(shí)間、召回率、準(zhǔn)確率。

    4.1 相似度算法對(duì)比

    fastCdrDetection算法使用的字符串相似度算法是非遞歸的基于位置編碼的匹配算法,屬性相似度算法對(duì)比實(shí)驗(yàn)以PCM算法為對(duì)比對(duì)象。取某電網(wǎng)公司前1 000條供應(yīng)商名稱作為測試數(shù)據(jù)進(jìn)行測試。

    (1)算法準(zhǔn)確率

    實(shí)驗(yàn)表明,PCM由于采取了罰分的手段,針對(duì)中文識(shí)別,識(shí)別準(zhǔn)確率不穩(wěn)定;FieldMatch算法是基于統(tǒng)計(jì)的方法,順次掃描2個(gè)字符串,指針一直向后掃描不回歸,如果存在不一致的字符,則匹配結(jié)束。針對(duì)主數(shù)據(jù)管理系統(tǒng)常出現(xiàn)的中文縮寫、簡寫等情況,F(xiàn)ieldMatch相似度比較的準(zhǔn)確度更高。實(shí)驗(yàn)結(jié)果表明,F(xiàn)ieldMatch針對(duì)主數(shù)據(jù)中文識(shí)別準(zhǔn)確率隨著閾值的提高而逐漸穩(wěn)步提高。圖2中字段相似度閾值t∈(0,1],算法準(zhǔn)確率P∈(0,1]。

    圖2 算法準(zhǔn)確率對(duì)比

    (2)算法召回率

    對(duì)比實(shí)驗(yàn)表明,F(xiàn)ieldMatch一直比PCM算法召回率高。通過分析真實(shí)數(shù)據(jù)發(fā)現(xiàn),由于PCM算法采取了罰分的思路,導(dǎo)致一些表示同一供應(yīng)商實(shí)體的數(shù)據(jù)沒有被識(shí)別出來,而FieldMatch則能較好地識(shí)別。圖3中字段相似度閾值t∈(0,1],算法召回率R∈(0,1]。

    圖3 算法召回率對(duì)比

    (3)算法識(shí)別出的重復(fù)聚類數(shù)對(duì)比

    實(shí)驗(yàn)結(jié)果表明,PCM算法識(shí)別出的聚類數(shù)始終比FieldMatch算法少,隨著閾值的增加2種算法識(shí)別出的重復(fù)聚類數(shù)不斷減少。通過分析發(fā)現(xiàn)隨著閾值的增加屬性相似的要求變得越來越高,導(dǎo)致重復(fù)的聚類數(shù)不斷減少。由于PCM是基于位置的罰分算法,使得計(jì)算所得的相似度低于FieldMatchs算法,因此實(shí)驗(yàn)結(jié)果表明,F(xiàn)ieldMatch算法在相同閾值設(shè)置的情況下發(fā)現(xiàn)的重復(fù)聚類數(shù)比PCM算法多。圖4中字段相似度閾值t∈(0,1],聚類個(gè)數(shù)n是一個(gè)整數(shù)。

    圖4 算法識(shí)別出的聚類數(shù)對(duì)比

    4.2 P QS算法與fastCdrDetection算法對(duì)比

    實(shí)驗(yàn)采用數(shù)據(jù)為供應(yīng)商數(shù)據(jù),總計(jì)10 146條,記錄相似度閾值為0.9,屬性相似度閾值為0.8,通過人工識(shí)別重復(fù)記錄數(shù)位42條,PQS算法與fastCdrDetection算法性能對(duì)比如表2所示。

    表2 算法性能對(duì)比

    可以看出,在同樣運(yùn)行參數(shù)的情況下,fastCdrDetection算法比PQS算法的召回率與準(zhǔn)確率高。通過分析實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),由于fastCdrDetection算法采用基于可信度計(jì)算,利用更好的記錄代替PQS算法第一條記錄(或者是最后一條)參與相似度計(jì)算,相似度計(jì)算的結(jié)果更接近實(shí)際結(jié)果,因此算法的召回率與準(zhǔn)確率較高。然而,fastCdrDetection采用更好的記錄替代PQS的代表記錄,因此運(yùn)算時(shí)間比PQS算法略長。但由于采用sourceKeys快速計(jì)算記錄的相似度,隨著來源于同一源系統(tǒng)的重復(fù)記錄的增加,會(huì)縮短fastCdr-Detection的運(yùn)算時(shí)間。

    4.3 運(yùn)行參數(shù)對(duì)算法的影響

    采用某電網(wǎng)公司基建物資聯(lián)系人表中的前6 0 00條數(shù)據(jù)進(jìn)行測試,數(shù)據(jù)規(guī)模對(duì)算法性能的影響如表3所示。

    表3 數(shù)據(jù)規(guī)模對(duì)算法性能的影響

    由表3可以看出,隨著規(guī)模的增加,每條記錄的處理時(shí)間也在不斷增加,聚類數(shù)也在增加,這說明對(duì)海量數(shù)據(jù)必須進(jìn)行分組處理,并合理控制優(yōu)先隊(duì)列的長度。

    5 結(jié)束語

    重復(fù)主數(shù)據(jù)檢測是主數(shù)據(jù)集成的熱門研究課題,從數(shù)據(jù)可信度的角度出發(fā),在考慮了數(shù)據(jù)源可信度、數(shù)據(jù)最后更新時(shí)間及數(shù)據(jù)長度的基礎(chǔ)上建立了主數(shù)據(jù)可信度模型,并實(shí)現(xiàn)可信記錄生成算法。本文提出一種非遞歸的字符串相似度計(jì)算FieldMatch算法,較好地解決了由中文簡寫、縮寫、錯(cuò)誤拼寫造成的主數(shù)據(jù)重復(fù)問題。針對(duì)來源于同一數(shù)據(jù)源的重復(fù)主數(shù)據(jù),設(shè)計(jì)sourceKeys進(jìn)行預(yù)處理,提高算法效率,并提出fastCdrDetection主數(shù)據(jù)重復(fù)記錄檢測算法,對(duì)每一個(gè)聚類采用可信記錄作為代表記錄參與相似度計(jì)算,從而提高檢測算法的召回率與準(zhǔn)確率。采用某電網(wǎng)公司的供應(yīng)商主數(shù)據(jù)存量數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與PQS相比,fastCdrDetection算法的召回率由74%提高到88%,準(zhǔn)確率由61%提高到95%,證明了fastCdrDetection聚類算法有較高的召回率及準(zhǔn)確率。目前可信度模型僅考慮了主數(shù)據(jù)字段的長度、來源系統(tǒng)的可信度及記錄最后更新時(shí)間因素,今后將對(duì)數(shù)據(jù)源的可信度生成算法進(jìn)行研究。

    [1] Hernandez M A, Stolfo S J. Real-world D ata is D irty: Data Cleansing and th e Merge/Purge Problem[J]. Data Ming and Knowledge Discovery, 1998, 2(1): 9-37.

    [2] 韓京宇, 徐立臻, 董逸生. 數(shù)據(jù)質(zhì)量研究綜述[J]. 計(jì)算機(jī)科學(xué), 2008, 35(2): 1-5.

    [3] Batin C, Scannapieca M. Data Quality: Concepts, Methodologies and Techniques[M]. New York, USA: Springer-Verlag, 2006.

    [4] 陳 偉, 丁秋林. 可擴(kuò)展數(shù)據(jù)清理平臺(tái)的研究[J]. 電子科技大學(xué)學(xué)報(bào), 2006, 35(1): 100-103.

    [5] Smith T F, Waterman M S. Identification of C ommon Molecular Subseque nces[J]. Journal of Molecular Biology, 198 1, 147(1): 195-197.

    [6] Nawaz Z, Bertelsk A. Acceleration of Simth-Waterman Using Recursive V ariable Expansion[C]//Proceedings o f the 1 1th EUROMICRO Conference on Digital System Design Architectures, Methods and Tools. Parma, Italy: IEEE Press, 2008: 915-922.

    [7] 張 永, 遲忠先, 閆德勤. 數(shù)據(jù)倉庫ETL中相似重復(fù)記錄的檢測方法及應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用, 2006, 26(4): 880-882.

    [8] Hernandez M, Stolfo S. The Merge/Purge Problem for Large Databases[C]//Proceedings of ACM SIGMOD International Conference on Management of Data. San Jose, USA: [s. n.], 1995: 127-138.

    [9] 李 堅(jiān), 鄭 寧. 對(duì)基于MPN數(shù)據(jù)清洗算法的改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件, 2008, 25(2): 245-247.

    [10] Monge A, Elkan C. An Efficient Domain Independent Algorithm for Detecting A pproximately D uplicate Database Records[C]//Proceedings of SI GMOD Workshop on Data Mining and Knowledge Discovery. Tucson, USA: [s. n.], 1997: 23-29.

    [11] 李亞坤, 王宏志. 基于實(shí)體描述屬性技術(shù)的XML重復(fù)對(duì)象檢測方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2011, 34(11): 2132- 2141.

    [12] Whang S E, Menestrina D, Georgiaet K. Entity Resolution with Iterative Blocking[C]//Proceedings of the 35th SI GMOD International Conference on Management of Data. New York, USA: ACM Press, 2009: 219-231.

    編輯 陸燕菲

    Duplicate Master Data Detection Algorithm Based on Credibility Model

    WANG Ji-kui1,2,3, LI Shao-bo1,2

    (1. Chengdu Institute of Computer Applications, Chinese Academy of Sciences, Chengdu 610041, China; 2. Key Laboratory of Advanced Manufacturing Technology, Ministry of Education, Guizhou University, Guiyang 550003, China; 3. College of Information Engineering, Lanzhou University of Finance and Economics, Lanzhou 730020, China)

    To avoid the effect of duplicate master data from multiple business systems on the quality, synchronization of the master data as well as master data mining, this paper propose a fastCdrDetec tion(Fast Cluster Duplicate Record s Detection) algo rithm, in wh ich a duplicate master data detection model and a credible record ge nerating algorithm are included, c onsidering data source reliabil ity, data refresh time and data length. A non-recursive algorithm FiledMatch is established for character string similar ity calculation. Aiming at the eliminating problems caused by abbreviations and wrong spellings in Chinese input, a sourceKeys algorithm is constructed for pretreatment of duplicate records arising from a same business system and sharing same business keys to achieve high efficiency in duplicate master data detection. Experiments are carried on a power grid with 630 thousand records of raw material and 230 thousand simulated data records. Result shows that the recall rate of the fastCdrDetection algorithm is 88%, while the PQS algorithm is 74%, and the accuracy is 95% to 61%. The effectiveness of the algorithm is verified.

    multiple data source; duplicate master data; credibility model; detection algorithm; data credibility

    10.3969/j.issn.1000-3428.2014.05.007

    國家科技支撐計(jì)劃基金資助項(xiàng)目(2012BAF12B14)。

    王繼奎(1978-),男,副教授、博士研究生,主研方向:數(shù)據(jù)管理,軟件過程技術(shù),智能計(jì)算;李少波,教授、博士生導(dǎo)師。

    2013-04-02

    2013-05-27E-mail:wjkweb@163.com

    1000-3428(2014)05-0031-05

    A

    TP311

    猜你喜歡
    檢測
    QC 檢測
    “不等式”檢測題
    “一元一次不等式”檢測題
    “一元一次不等式組”檢測題
    “幾何圖形”檢測題
    “角”檢測題
    “有理數(shù)的乘除法”檢測題
    “有理數(shù)”檢測題
    “角”檢測題
    “幾何圖形”檢測題
    精品人妻熟女毛片av久久网站| 高清在线国产一区| 久久人妻福利社区极品人妻图片| videos熟女内射| 黑人巨大精品欧美一区二区mp4| 久久人妻av系列| 亚洲一区高清亚洲精品| 高清黄色对白视频在线免费看| 国产精品影院久久| 侵犯人妻中文字幕一二三四区| 亚洲精品久久午夜乱码| 两人在一起打扑克的视频| 电影成人av| 天天添夜夜摸| 亚洲视频免费观看视频| 国产日韩欧美亚洲二区| 国产乱人伦免费视频| 国产99久久九九免费精品| 美女扒开内裤让男人捅视频| 亚洲五月婷婷丁香| 国产av精品麻豆| 国产免费av片在线观看野外av| 黑人巨大精品欧美一区二区mp4| 亚洲 欧美一区二区三区| 国产单亲对白刺激| 黄色片一级片一级黄色片| 大型av网站在线播放| 天堂√8在线中文| 18禁国产床啪视频网站| 午夜两性在线视频| 黄色毛片三级朝国网站| av网站在线播放免费| 久久香蕉激情| 久久久国产精品麻豆| 男女床上黄色一级片免费看| 激情视频va一区二区三区| av天堂久久9| 国产精品偷伦视频观看了| 亚洲av成人av| www.自偷自拍.com| 天堂俺去俺来也www色官网| 日日摸夜夜添夜夜添小说| 午夜91福利影院| 欧美乱码精品一区二区三区| 丁香六月欧美| svipshipincom国产片| 在线观看免费日韩欧美大片| 国产亚洲精品久久久久5区| 母亲3免费完整高清在线观看| 美女高潮到喷水免费观看| 另类亚洲欧美激情| 日韩精品免费视频一区二区三区| 99re在线观看精品视频| 国产在线观看jvid| 成人国产一区最新在线观看| 岛国在线观看网站| 欧美人与性动交α欧美软件| 美国免费a级毛片| 国产在视频线精品| 午夜福利影视在线免费观看| 日日夜夜操网爽| 黑人操中国人逼视频| 日韩免费高清中文字幕av| 美国免费a级毛片| 超碰成人久久| 少妇 在线观看| 麻豆成人av在线观看| 精品国产亚洲在线| 中文字幕制服av| 新久久久久国产一级毛片| 涩涩av久久男人的天堂| 成人国产一区最新在线观看| videos熟女内射| 久久精品熟女亚洲av麻豆精品| 国产真人三级小视频在线观看| 久久久精品免费免费高清| 在线观看免费视频网站a站| 国产野战对白在线观看| 丝瓜视频免费看黄片| 美女福利国产在线| 91麻豆av在线| 久久国产精品影院| 午夜91福利影院| www.熟女人妻精品国产| 欧美另类亚洲清纯唯美| av一本久久久久| 最近最新中文字幕大全电影3 | 中文字幕制服av| 一本大道久久a久久精品| 久久精品亚洲熟妇少妇任你| 真人做人爱边吃奶动态| 亚洲欧美日韩高清在线视频| 精品第一国产精品| 精品久久久久久久久久免费视频 | 国产av精品麻豆| 亚洲人成77777在线视频| 国产不卡av网站在线观看| 捣出白浆h1v1| 午夜福利,免费看| 精品国产一区二区三区四区第35| 女人高潮潮喷娇喘18禁视频| 黑人巨大精品欧美一区二区蜜桃| 国产成人欧美| 精品少妇一区二区三区视频日本电影| 黑人巨大精品欧美一区二区mp4| 欧美最黄视频在线播放免费 | 日韩熟女老妇一区二区性免费视频| 免费少妇av软件| 色在线成人网| 纯流量卡能插随身wifi吗| 国产精品亚洲一级av第二区| 国产亚洲一区二区精品| 下体分泌物呈黄色| 国产精品99久久99久久久不卡| 欧美成人午夜精品| 免费日韩欧美在线观看| 看黄色毛片网站| 丰满迷人的少妇在线观看| 成人18禁在线播放| 欧美中文综合在线视频| 男女高潮啪啪啪动态图| 国产亚洲欧美精品永久| 69精品国产乱码久久久| 精品福利永久在线观看| 交换朋友夫妻互换小说| 国产有黄有色有爽视频| 久久精品人人爽人人爽视色| 日韩熟女老妇一区二区性免费视频| 久久精品国产清高在天天线| 在线观看免费视频网站a站| 国产真人三级小视频在线观看| 久久精品国产亚洲av香蕉五月 | 国产麻豆69| √禁漫天堂资源中文www| 久久草成人影院| 欧美国产精品一级二级三级| 校园春色视频在线观看| 亚洲在线自拍视频| 精品卡一卡二卡四卡免费| 美国免费a级毛片| 久热爱精品视频在线9| 在线观看www视频免费| 韩国精品一区二区三区| 一边摸一边做爽爽视频免费| av免费在线观看网站| 一级a爱视频在线免费观看| 午夜精品国产一区二区电影| 欧美 日韩 精品 国产| 曰老女人黄片| 亚洲欧美一区二区三区久久| 欧美乱码精品一区二区三区| 超碰成人久久| 国产亚洲av高清不卡| 韩国精品一区二区三区| 午夜影院日韩av| 亚洲少妇的诱惑av| 久久国产乱子伦精品免费另类| 亚洲三区欧美一区| 丰满饥渴人妻一区二区三| 国产高清视频在线播放一区| 国产又色又爽无遮挡免费看| a级片在线免费高清观看视频| 国产av一区二区精品久久| 99re6热这里在线精品视频| 女性生殖器流出的白浆| 亚洲欧美一区二区三区黑人| 这个男人来自地球电影免费观看| а√天堂www在线а√下载 | 高清在线国产一区| 少妇猛男粗大的猛烈进出视频| 欧美日韩瑟瑟在线播放| 国产精品久久久久久精品古装| 波多野结衣av一区二区av| 久久天堂一区二区三区四区| 人人妻人人澡人人爽人人夜夜| 中出人妻视频一区二区| 99久久综合精品五月天人人| 国产精品一区二区免费欧美| 99国产精品一区二区三区| 成人av一区二区三区在线看| 涩涩av久久男人的天堂| 午夜福利欧美成人| 国产成人精品在线电影| 午夜亚洲福利在线播放| 一区在线观看完整版| 国产成人一区二区三区免费视频网站| 欧美人与性动交α欧美精品济南到| 在线观看免费午夜福利视频| 最新在线观看一区二区三区| 女人被狂操c到高潮| 欧美一级毛片孕妇| 亚洲 欧美一区二区三区| 免费日韩欧美在线观看| 女人被躁到高潮嗷嗷叫费观| 国产不卡一卡二| 女性生殖器流出的白浆| 在线观看午夜福利视频| 免费不卡黄色视频| 成人18禁高潮啪啪吃奶动态图| 亚洲国产欧美网| 久久国产精品影院| av中文乱码字幕在线| 国产欧美日韩精品亚洲av| 国产黄色免费在线视频| 欧美丝袜亚洲另类 | 久久久久精品人妻al黑| 国产av精品麻豆| 国产精品偷伦视频观看了| 国产麻豆69| 黄色怎么调成土黄色| 国产精品久久久久成人av| 变态另类成人亚洲欧美熟女 | 国产一区二区三区综合在线观看| 男女之事视频高清在线观看| 欧美日韩成人在线一区二区| 亚洲一区高清亚洲精品| 精品第一国产精品| 老熟妇乱子伦视频在线观看| 久久国产乱子伦精品免费另类| 亚洲av美国av| 天堂中文最新版在线下载| 一区二区三区精品91| 国产精品秋霞免费鲁丝片| 国产亚洲欧美98| 人妻久久中文字幕网| 韩国av一区二区三区四区| 91字幕亚洲| 国产精品免费一区二区三区在线 | 久久人妻熟女aⅴ| 18禁裸乳无遮挡免费网站照片 | 国产亚洲欧美在线一区二区| 一级片免费观看大全| 国产高清videossex| 纯流量卡能插随身wifi吗| 欧美激情极品国产一区二区三区| 大香蕉久久成人网| 国内久久婷婷六月综合欲色啪| 岛国在线观看网站| 热99久久久久精品小说推荐| 老鸭窝网址在线观看| 亚洲综合色网址| 不卡av一区二区三区| 女人高潮潮喷娇喘18禁视频| videosex国产| av福利片在线| 久久人人爽av亚洲精品天堂| 精品少妇一区二区三区视频日本电影| 亚洲国产看品久久| 精品福利永久在线观看| 国产成人啪精品午夜网站| 免费日韩欧美在线观看| 美女午夜性视频免费| 老鸭窝网址在线观看| 在线播放国产精品三级| 亚洲中文字幕日韩| 99re6热这里在线精品视频| 老鸭窝网址在线观看| av天堂久久9| 一边摸一边做爽爽视频免费| 男女床上黄色一级片免费看| tocl精华| 午夜免费鲁丝| 国产一区二区三区视频了| 欧美激情 高清一区二区三区| 中国美女看黄片| 淫妇啪啪啪对白视频| 侵犯人妻中文字幕一二三四区| 国产主播在线观看一区二区| 精品福利永久在线观看| 国产片内射在线| 国产乱人伦免费视频| 久久精品国产清高在天天线| 最新的欧美精品一区二区| 成人影院久久| 侵犯人妻中文字幕一二三四区| 国产蜜桃级精品一区二区三区 | 搡老熟女国产l中国老女人| 无遮挡黄片免费观看| 久久久久久久久久久久大奶| 大码成人一级视频| 一级a爱视频在线免费观看| 一本一本久久a久久精品综合妖精| 欧美丝袜亚洲另类 | 人人澡人人妻人| 村上凉子中文字幕在线| 日本wwww免费看| 动漫黄色视频在线观看| 欧美日韩成人在线一区二区| 精品少妇一区二区三区视频日本电影| 亚洲av熟女| 亚洲午夜理论影院| 91成年电影在线观看| 久久久久久久久免费视频了| 国产91精品成人一区二区三区| 在线av久久热| 国产男靠女视频免费网站| 欧美日韩一级在线毛片| 国产一区二区三区视频了| 中国美女看黄片| 国产精品国产高清国产av | 午夜福利影视在线免费观看| 久久香蕉国产精品| 日日摸夜夜添夜夜添小说| 日韩欧美三级三区| 精品第一国产精品| 99热只有精品国产| 国产人伦9x9x在线观看| 日韩欧美一区二区三区在线观看 | 身体一侧抽搐| 中文欧美无线码| 一级黄色大片毛片| 国产黄色免费在线视频| 老司机在亚洲福利影院| 国产成人精品无人区| 午夜日韩欧美国产| 亚洲av日韩精品久久久久久密| 成人影院久久| 久热这里只有精品99| 欧美黄色淫秽网站| 精品久久久久久,| 精品久久久久久电影网| 亚洲专区中文字幕在线| 中文字幕人妻熟女乱码| 18禁观看日本| 欧美日韩福利视频一区二区| 精品电影一区二区在线| 无人区码免费观看不卡| 乱人伦中国视频| 中国美女看黄片| 老司机在亚洲福利影院| 最近最新免费中文字幕在线| 777久久人妻少妇嫩草av网站| 国内毛片毛片毛片毛片毛片| 香蕉久久夜色| 香蕉丝袜av| 国产成人精品久久二区二区免费| 亚洲久久久国产精品| 国产精品永久免费网站| 丰满的人妻完整版| www.精华液| 欧美精品高潮呻吟av久久| 成人黄色视频免费在线看| 精品久久久精品久久久| 欧美黑人精品巨大| 99热国产这里只有精品6| 久久精品亚洲熟妇少妇任你| 99热只有精品国产| 亚洲人成电影免费在线| 亚洲午夜理论影院| 亚洲欧美色中文字幕在线| 91国产中文字幕| 女人爽到高潮嗷嗷叫在线视频| 亚洲美女黄片视频| 欧美亚洲 丝袜 人妻 在线| 色尼玛亚洲综合影院| 在线观看免费视频日本深夜| 午夜福利,免费看| 91国产中文字幕| 一级毛片精品| 久久久国产欧美日韩av| 欧美激情极品国产一区二区三区| 久久九九热精品免费| 午夜福利影视在线免费观看| 涩涩av久久男人的天堂| 丝袜美腿诱惑在线| 十分钟在线观看高清视频www| 人人澡人人妻人| 18禁观看日本| 性色av乱码一区二区三区2| 亚洲第一欧美日韩一区二区三区| 香蕉久久夜色| 一区福利在线观看| 天天操日日干夜夜撸| 亚洲成国产人片在线观看| 国产亚洲精品一区二区www | 中亚洲国语对白在线视频| www.熟女人妻精品国产| 成人av一区二区三区在线看| 人人妻人人澡人人爽人人夜夜| 欧美日韩福利视频一区二区| 国产在视频线精品| 亚洲国产看品久久| a级毛片在线看网站| 免费观看精品视频网站| 免费黄频网站在线观看国产| 国产有黄有色有爽视频| 日韩欧美在线二视频 | 啦啦啦 在线观看视频| 很黄的视频免费| 亚洲国产精品合色在线| 免费少妇av软件| 精品免费久久久久久久清纯 | 在线观看www视频免费| 国产精品.久久久| 老司机午夜福利在线观看视频| 一级黄色大片毛片| 国产一区二区三区综合在线观看| 午夜精品久久久久久毛片777| 50天的宝宝边吃奶边哭怎么回事| 纯流量卡能插随身wifi吗| 午夜免费观看网址| 国产国语露脸激情在线看| 亚洲成人手机| 91成人精品电影| 亚洲av第一区精品v没综合| 国产精品一区二区在线不卡| 久久人人97超碰香蕉20202| 亚洲精品中文字幕一二三四区| 日韩欧美在线二视频 | 国产午夜精品久久久久久| 国产亚洲欧美精品永久| 亚洲专区国产一区二区| 女人久久www免费人成看片| 99久久精品国产亚洲精品| 老熟妇乱子伦视频在线观看| 国产免费av片在线观看野外av| 又大又爽又粗| 美女福利国产在线| 嫩草影视91久久| 久久精品91无色码中文字幕| 亚洲第一欧美日韩一区二区三区| 亚洲国产欧美网| 国产不卡一卡二| 嫁个100分男人电影在线观看| 黄片播放在线免费| av线在线观看网站| 十八禁人妻一区二区| 王馨瑶露胸无遮挡在线观看| 精品电影一区二区在线| 交换朋友夫妻互换小说| 亚洲情色 制服丝袜| 免费看a级黄色片| 亚洲人成电影观看| 精品免费久久久久久久清纯 | 日韩成人在线观看一区二区三区| 免费看十八禁软件| 亚洲一区二区三区不卡视频| 91麻豆精品激情在线观看国产 | 久久久久视频综合| 精品国产超薄肉色丝袜足j| cao死你这个sao货| 在线观看舔阴道视频| 亚洲中文av在线| 欧美一级毛片孕妇| 免费在线观看影片大全网站| tocl精华| 国产日韩欧美亚洲二区| 自拍欧美九色日韩亚洲蝌蚪91| 午夜福利视频在线观看免费| √禁漫天堂资源中文www| 少妇被粗大的猛进出69影院| 精品一区二区三区av网在线观看| 大香蕉久久网| 亚洲自偷自拍图片 自拍| 夜夜爽天天搞| 老司机靠b影院| 99久久精品国产亚洲精品| 美女午夜性视频免费| 欧美黑人精品巨大| 高清av免费在线| 在线免费观看的www视频| 亚洲精品久久午夜乱码| 大香蕉久久网| 国产精品乱码一区二三区的特点 | 亚洲av日韩精品久久久久久密| 精品国产国语对白av| 欧美激情高清一区二区三区| 亚洲专区国产一区二区| 亚洲人成电影免费在线| 在线观看一区二区三区激情| 多毛熟女@视频| 欧美激情 高清一区二区三区| 午夜免费鲁丝| 一个人免费在线观看的高清视频| 欧美 亚洲 国产 日韩一| 亚洲七黄色美女视频| 麻豆成人av在线观看| av福利片在线| 色在线成人网| 制服人妻中文乱码| 欧美日韩中文字幕国产精品一区二区三区 | 嫩草影视91久久| 99久久综合精品五月天人人| 欧美黄色片欧美黄色片| 在线观看舔阴道视频| 久久亚洲真实| 国产高清视频在线播放一区| 99久久综合精品五月天人人| 男女床上黄色一级片免费看| 美国免费a级毛片| 亚洲精品自拍成人| 国产高清视频在线播放一区| 中出人妻视频一区二区| 人人妻人人爽人人添夜夜欢视频| 在线观看免费高清a一片| 久久人妻福利社区极品人妻图片| 欧美精品亚洲一区二区| 欧美成狂野欧美在线观看| 日本五十路高清| 国产成人啪精品午夜网站| 亚洲av成人av| 不卡av一区二区三区| 国产精品偷伦视频观看了| 999久久久国产精品视频| 精品午夜福利视频在线观看一区| 国产一卡二卡三卡精品| 9191精品国产免费久久| 久久精品成人免费网站| www.自偷自拍.com| 欧美国产精品一级二级三级| 亚洲av日韩精品久久久久久密| 国产免费男女视频| 国产精品成人在线| 日韩欧美国产一区二区入口| 国产精品欧美亚洲77777| 欧美黑人欧美精品刺激| 国产免费男女视频| 香蕉国产在线看| 免费黄频网站在线观看国产| 久久久久精品国产欧美久久久| www.999成人在线观看| 国产免费男女视频| 欧美乱妇无乱码| 久久久国产欧美日韩av| 国产高清videossex| 90打野战视频偷拍视频| 一级a爱视频在线免费观看| 一进一出抽搐动态| 久热这里只有精品99| 人人妻人人添人人爽欧美一区卜| 大陆偷拍与自拍| 777久久人妻少妇嫩草av网站| tocl精华| 国产一区在线观看成人免费| 亚洲 欧美一区二区三区| 久久99一区二区三区| 成人特级黄色片久久久久久久| 人人妻人人澡人人看| 国产真人三级小视频在线观看| 丰满迷人的少妇在线观看| 色94色欧美一区二区| 女性被躁到高潮视频| 国产色视频综合| 天天躁狠狠躁夜夜躁狠狠躁| 婷婷丁香在线五月| 午夜福利乱码中文字幕| 大码成人一级视频| 亚洲少妇的诱惑av| 久久这里只有精品19| 涩涩av久久男人的天堂| 国产熟女午夜一区二区三区| 欧美 日韩 精品 国产| 日韩大码丰满熟妇| 成人特级黄色片久久久久久久| 18在线观看网站| 亚洲欧美激情在线| 成人黄色视频免费在线看| 999精品在线视频| 国产精品美女特级片免费视频播放器 | 欧美+亚洲+日韩+国产| 两人在一起打扑克的视频| 久久国产精品男人的天堂亚洲| 久久久久视频综合| 国产在线观看jvid| av一本久久久久| 亚洲成人国产一区在线观看| 免费观看精品视频网站| 成人亚洲精品一区在线观看| 男男h啪啪无遮挡| 天堂中文最新版在线下载| 国产亚洲一区二区精品| 久久久久国产一级毛片高清牌| 欧美黄色片欧美黄色片| 老司机亚洲免费影院| 后天国语完整版免费观看| 丁香欧美五月| 日日摸夜夜添夜夜添小说| 久久天躁狠狠躁夜夜2o2o| 午夜免费成人在线视频| 国产精品一区二区免费欧美| 亚洲国产精品一区二区三区在线| 婷婷成人精品国产| 免费久久久久久久精品成人欧美视频| 啦啦啦 在线观看视频| 亚洲欧美精品综合一区二区三区| 热99re8久久精品国产| 亚洲视频免费观看视频| 老司机深夜福利视频在线观看| a在线观看视频网站| 在线观看一区二区三区激情| 黄色怎么调成土黄色| 亚洲七黄色美女视频| 好男人电影高清在线观看| 久久午夜综合久久蜜桃| 丝袜美腿诱惑在线| 飞空精品影院首页| 在线播放国产精品三级| 91av网站免费观看| 国产欧美日韩一区二区三区在线| 国产激情久久老熟女| 黄色视频,在线免费观看| 婷婷成人精品国产| 黑人猛操日本美女一级片| 国产一区二区三区在线臀色熟女 | 亚洲国产欧美日韩在线播放| 欧美成人免费av一区二区三区 | 精品午夜福利视频在线观看一区| 久久久久精品人妻al黑| 亚洲专区国产一区二区| 久久精品国产99精品国产亚洲性色 | 亚洲精品久久午夜乱码| 国产成人精品无人区| 亚洲全国av大片| 黑人欧美特级aaaaaa片| 啪啪无遮挡十八禁网站|