• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于N-Gram算法的數(shù)據(jù)清洗技術(shù)*

    2017-02-10 03:12:10馬平全紀(jì)建偉
    關(guān)鍵詞:數(shù)據(jù)庫

    馬平全, 宋 凱, 紀(jì)建偉

    (1. 沈陽農(nóng)業(yè)大學(xué) 信息與電氣工程學(xué)院, 沈陽 110866; 2. 沈陽理工大學(xué) 自動(dòng)化與電氣工程學(xué)院, 沈陽 110159)

    基于N-Gram算法的數(shù)據(jù)清洗技術(shù)*

    馬平全1,2, 宋 凱1,2, 紀(jì)建偉1

    (1. 沈陽農(nóng)業(yè)大學(xué) 信息與電氣工程學(xué)院, 沈陽 110866; 2. 沈陽理工大學(xué) 自動(dòng)化與電氣工程學(xué)院, 沈陽 110159)

    針對(duì)數(shù)據(jù)庫中存在的大量相似重復(fù)數(shù)據(jù),對(duì)相似重復(fù)記錄的屬性結(jié)構(gòu)以及產(chǎn)生原因進(jìn)行了分析,采用N-Gram算法對(duì)數(shù)據(jù)記錄進(jìn)行計(jì)算,得到代表每條記錄屬性的鍵值,即N-Gram值.依據(jù)該鍵值將數(shù)據(jù)庫中的數(shù)據(jù)記錄進(jìn)行排序處理,建立有序的數(shù)據(jù)庫,并對(duì)其中的數(shù)據(jù)記錄進(jìn)行相似度計(jì)算.運(yùn)用排列合并的清洗思想對(duì)識(shí)別出來的相似重復(fù)數(shù)據(jù)記錄進(jìn)行清洗,實(shí)驗(yàn)結(jié)果表明,N-Gram算法有效提高了相似重復(fù)數(shù)據(jù)記錄的查全率和查準(zhǔn)率.

    相似度; 相似重復(fù)記錄; 屬性; 排序; 合并; 數(shù)據(jù)清洗; 查全率; 查準(zhǔn)率

    在第二次世界大戰(zhàn)期間,信息傳遞給戰(zhàn)爭雙方帶來了極大的便利,在戰(zhàn)爭進(jìn)行過程中,人們漸漸地發(fā)現(xiàn)信息的重要性,各方都在不斷地更新自己的信息處理機(jī)制,加速信息的獲取.這種形式促進(jìn)了電子計(jì)算機(jī)的產(chǎn)生,并在戰(zhàn)爭中起到了舉足輕重的作用.戰(zhàn)爭結(jié)束以后,電子計(jì)算機(jī)作為一種新的技術(shù)被保留下來,并且不斷地被開發(fā),漸漸走進(jìn)了人們的生活,人類逐漸進(jìn)入了信息化時(shí)代,信息技術(shù)成為每一位新時(shí)代人所必備的技術(shù).

    但隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)量不斷增加,大量的錯(cuò)誤數(shù)據(jù)充斥其中,相似數(shù)據(jù)、重復(fù)數(shù)據(jù)和字段缺失數(shù)據(jù)等,這些垃圾數(shù)據(jù)的出現(xiàn)給人們帶來了很大的不便,甚至?xí)o一些企業(yè)機(jī)關(guān)單位帶來嚴(yán)重的后果[1-3].因此,針對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗變得迫在眉睫.

    1 相似重復(fù)數(shù)據(jù)產(chǎn)生的原因

    相似重復(fù)記錄是指在合并數(shù)據(jù)集的過程中,同一目標(biāo)實(shí)體往往有著多條記錄,這些記錄之間雖然在形式上有所不同,但其所描述的目標(biāo)卻是相同的一個(gè).通常造成這種結(jié)果的原因是由于數(shù)據(jù)錄入時(shí)錯(cuò)誤的拼寫、對(duì)名詞的縮寫以及不同的存儲(chǔ)類型,導(dǎo)致同一記錄實(shí)體有著多種不同表現(xiàn)形式,但這些記錄往往本意上都是表現(xiàn)同一條數(shù)據(jù)記錄[4-5].由于這種特殊原因,造成了其數(shù)據(jù)特征并不明顯,這對(duì)相似重復(fù)記錄的識(shí)別以及對(duì)其進(jìn)行數(shù)據(jù)清洗造成了很大的困難.因此,清除數(shù)據(jù)庫中的相似重復(fù)記錄是提高數(shù)據(jù)庫使用率、降低消耗、提高數(shù)據(jù)質(zhì)量的一個(gè)重要途徑[6-7].

    本文將相似重復(fù)記錄大致分為以下兩大類:

    1) 完全重復(fù)記錄.這類記錄在數(shù)據(jù)庫中無論是字符還是數(shù)值,在屬性和表現(xiàn)形式上都是完全相同的.

    2) 相似重復(fù)記錄.這類記錄是指在數(shù)據(jù)庫中部分屬性字段相同或者相似,但卻是同一記錄實(shí)體的不同表現(xiàn)形式[8-9].

    2 數(shù)據(jù)清洗

    數(shù)據(jù)清洗是指通過某種方式來清除數(shù)據(jù)集中“臟數(shù)據(jù)”的技術(shù),經(jīng)常作為提高數(shù)據(jù)使用率的一種途徑.到目前為止,數(shù)據(jù)清洗仍是一個(gè)模糊的概念,研究人員對(duì)數(shù)據(jù)清洗沒有給出一個(gè)標(biāo)準(zhǔn)定義,對(duì)數(shù)據(jù)清洗技術(shù)的理解仍是從字面意思上解釋的,比較通用的說法是數(shù)據(jù)清洗就是把數(shù)據(jù)庫中“臟”的數(shù)據(jù)記錄清洗掉,保留下“干凈”的數(shù)據(jù)記錄[10-11].

    數(shù)據(jù)清洗的步驟與一般數(shù)據(jù)處理過程類似,主要內(nèi)容包括如下幾個(gè)方面.

    1) 數(shù)據(jù)分析.數(shù)據(jù)分析基本上是所有數(shù)據(jù)處理過程的首要步驟,通過詳細(xì)分析源數(shù)據(jù)庫,檢測源數(shù)據(jù)庫中的錯(cuò)誤數(shù)據(jù)和不一致數(shù)據(jù)的情況,從而來判定數(shù)據(jù)質(zhì)量上的問題.然而,如何準(zhǔn)確了解數(shù)據(jù)集中的質(zhì)量問題是個(gè)難點(diǎn),而這個(gè)問題僅依靠既有的元數(shù)據(jù)并不能達(dá)到預(yù)期目的.這便需要對(duì)具體的數(shù)據(jù)實(shí)例進(jìn)行數(shù)據(jù)分析,從中提取出能夠代表整條記錄的元數(shù)據(jù),這些元數(shù)據(jù)能夠自動(dòng)改變數(shù)據(jù)之間的屬性,本文稱之為依附性,然后重點(diǎn)對(duì)這些實(shí)例的屬性進(jìn)行分析,才能發(fā)現(xiàn)其中的數(shù)據(jù)質(zhì)量問題[12].

    數(shù)據(jù)派生和數(shù)據(jù)挖掘都能夠較好地完成數(shù)據(jù)分析的任務(wù),但兩者主要應(yīng)用在不同的數(shù)據(jù)庫中.首先兩者最大的不同是作用范圍,數(shù)據(jù)派生主要是作用在單獨(dú)的屬性上,通過對(duì)單獨(dú)的屬性實(shí)例進(jìn)行分析,從而得到大量的屬性信息,包括數(shù)據(jù)類型、數(shù)據(jù)單位、屬性沖突的次數(shù)和缺失信息的頻率等.而數(shù)據(jù)挖掘恰好與其相反,其主要應(yīng)用在大型數(shù)據(jù)中心,通過對(duì)大型數(shù)據(jù)中心的海量信息進(jìn)行分析,挖掘出屬性之間依賴關(guān)系和約束關(guān)系,這些關(guān)系往往是后期對(duì)多數(shù)據(jù)源中相似重復(fù)記錄進(jìn)行數(shù)據(jù)清洗的一個(gè)重要依據(jù),根據(jù)這些關(guān)系能夠較為完善地解決存在的問題[13-14].

    2) 確定數(shù)據(jù)轉(zhuǎn)換規(guī)則和工作流.通過數(shù)據(jù)分析可得到一些信息,包括數(shù)據(jù)源的個(gè)數(shù)、錯(cuò)誤數(shù)據(jù)的多少以及“臟數(shù)據(jù)”的主要類型等,通過這些信息建立合適的清洗步驟、轉(zhuǎn)換算法、查詢語句以及檢測算法等,從而確定主句轉(zhuǎn)換規(guī)則和工作流.

    3) 數(shù)據(jù)驗(yàn)證.在確定數(shù)據(jù)轉(zhuǎn)換規(guī)則和工作流之后,需要對(duì)其進(jìn)行驗(yàn)證,避免出現(xiàn)效率低下等問題.從數(shù)據(jù)源中抽出一部分?jǐn)?shù)據(jù)當(dāng)作樣本數(shù)據(jù),然后利用上一步確定的數(shù)據(jù)轉(zhuǎn)換規(guī)則和工作流對(duì)抽出來的樣本進(jìn)行驗(yàn)證,并對(duì)驗(yàn)證結(jié)果進(jìn)行分析,對(duì)工作流和轉(zhuǎn)換規(guī)則進(jìn)行相應(yīng)的調(diào)整和改進(jìn)[15-16].數(shù)據(jù)驗(yàn)證這一過程往往需要進(jìn)行多次,以達(dá)到盡可能高的效率以及高精度地進(jìn)行數(shù)據(jù)清洗.

    4) 數(shù)據(jù)清洗.在數(shù)據(jù)驗(yàn)證過程中,對(duì)選擇的清洗策略進(jìn)行了驗(yàn)證,確定其可行性,并利用該策略進(jìn)行數(shù)據(jù)清洗操作,數(shù)據(jù)清洗的流程如圖1所示.

    圖1 數(shù)據(jù)清洗流程Fig.1 Flow chart of data cleaning

    3 N-Gram算法

    N-Gram算法是一種大詞匯連續(xù)語音識(shí)別中常用的語言模型,它遵循的思想是每一條數(shù)據(jù)的出現(xiàn)都有一定的概率,通過假設(shè)數(shù)據(jù)中所有詞的出現(xiàn)都會(huì)影響其之后的詞,但對(duì)已出現(xiàn)的詞并沒有任何影響.通過這種思想可以認(rèn)為整條記錄的出現(xiàn)都有一定的概率,與記錄中的每一個(gè)詞均有關(guān)系.因此,本文根據(jù)每個(gè)詞出現(xiàn)的概率,給每條記錄計(jì)算出一個(gè)鍵值,即N-Gram值,該值在一定程度上代表了該條記錄的屬性,屬性越相近,相似程度越高,該值在數(shù)值上就越接近.根據(jù)這種特性對(duì)數(shù)據(jù)源中所有的數(shù)據(jù)進(jìn)行排序能夠?qū)⑾嗨浦貜?fù)數(shù)據(jù)放到一起.

    當(dāng)某條記錄中第N個(gè)詞的出現(xiàn)概率并不是隨機(jī)出現(xiàn)時(shí),而是與這條記錄的前N-1個(gè)詞息息相關(guān),并且僅與這N-1個(gè)詞有關(guān),與第N個(gè)詞后面的詞都沒有關(guān)系,每個(gè)詞出現(xiàn)的概率相乘,便得到整條數(shù)據(jù)記錄出現(xiàn)的概率,而每個(gè)詞出現(xiàn)的概率都可以直接從所有數(shù)據(jù)記錄的語料庫和重復(fù)矩陣中計(jì)算得到,這便是N-Gram算法模型.

    統(tǒng)計(jì)語言模型的數(shù)學(xué)模型表達(dá)式為

    (1)

    (2)

    式(2)即為“馬爾可夫假設(shè)”.二元的Bigram認(rèn)為,每條語句中的所有詞僅和其前面最相近的那個(gè)詞有關(guān),與其他任何詞都無關(guān),則其概率表達(dá)式為

    P(S)=P(w1w2…wn)=

    (3)

    三元的Trigram假設(shè)下一個(gè)詞的出現(xiàn)僅依賴于其前面的兩個(gè)詞,則其概率表達(dá)式為

    (4)

    算法過程描述如下.

    1) 數(shù)據(jù)預(yù)處理.在進(jìn)行數(shù)據(jù)清洗之前,首先對(duì)待清洗的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,將其中無法識(shí)別的字符串或者帶有標(biāo)識(shí)性含義的標(biāo)點(diǎn)進(jìn)行處理,例如銀行系統(tǒng)中常用的“¥”和“$”符號(hào),以及處于對(duì)數(shù)據(jù)保密的原因所進(jìn)行的加密處理符號(hào)“*”,這些字符串在后期進(jìn)行數(shù)據(jù)清洗的時(shí)候,由于其具有相似性,會(huì)對(duì)清洗結(jié)果的準(zhǔn)確性產(chǎn)生很大的影響.

    例如,待清洗的數(shù)據(jù)庫中有如下5條數(shù)據(jù):

    ①Johnny·Depp,California,PrincetonUniversity,Computer

    ②Tom·Hanks,Districtofcolumbia,HarvardUniversity,philosophy

    ③Tom·Hanks,Districtcolumbia,HarvardUniversity,philosophy

    ④Adam·Sandler,Alabamas,UniversityofCaliforniaBerkeley,PhysicalScience

    ⑤Leonardo·Dicaprio,Connecticut,UniversityofSou-thernCalifornia,Biology

    對(duì)它們進(jìn)行預(yù)處理之后的結(jié)果如下:

    ① s1=johnnydeppcaliforniaprincetonuniversityco-mputer

    ② s2=tomhanksdistrictofcolumbiaharvardunivers-ityphilosophy

    ③ s3=tomhanksdistrictcolumbiaharvarduniversit-yphilosophy

    ④ s4=adamsandleralabamasuniversityofcaliforni-aberkeleyphysicalscience

    ⑤ s5=leonardodicaprioconnecticutuniversityofs-outherncaliforniabiology

    2) 建立語料庫.掃描整個(gè)待清洗數(shù)據(jù)庫,根據(jù)N-Gram算法精度建立語料庫.當(dāng)N值為2時(shí),語料庫中每一個(gè)元素字符串的長度則為1,建立上述5條待清洗記錄的語料庫,如表1所示.

    3) 分 割數(shù)據(jù)記錄,計(jì)算重復(fù)矩陣.按照N-Gram算法將這5條字符串分割成元字符串,例如,當(dāng)N值為2時(shí),這5條字符串經(jīng)過N-Gram算法分割后得到的字符串?dāng)?shù)組如下:

    S1={“jo”,“oh”,“hn”,“nn”,…,“ut”,“te”,“er”}

    S2={“to”,“om”,“mh”,“ha”,…,“op”,“ph”,“hy”}

    S3={“to”,“om”,“mh”,“ha”,…,“op”,“ph”,“hy”}

    S4={“ad”,“da”,“am”,“ms”,…,“en”,“nc”,“ce”}

    表1 待清洗記錄語料庫
    Tab.1 Corpus of records to be cleaned

    名稱數(shù)量a24b5c16d9名稱數(shù)量e17f6g1h11名稱數(shù)量i31j1k3l13名稱數(shù)量m7n20o24p10名稱數(shù)量q0r21s16t16名稱數(shù)量u10v7w0x0名稱數(shù)量y11z0

    S5={“l(fā)e”,“eo”,“on”,“na”,…,“l(fā)o”,“og”,“gy”}

    對(duì)這些字符串?dāng)?shù)組建立重復(fù)矩陣M.在重復(fù)矩陣中,M(a,b)代表“ab”在整個(gè)數(shù)據(jù)庫中的數(shù)量,則有

    4) 計(jì)算N-Gram值.根據(jù)式(4)及語料庫和重復(fù)矩陣,對(duì)這5條待清洗數(shù)據(jù)記錄進(jìn)行計(jì)算,得到它們的N-Gram值,即

    (p(jo)/p(o))(p(oh)/p(h))(p(hn)/p(n))…(p(er)/p(r))=

    4.9×10-37

    (5)

    P(S2)=7.411×10-36

    (6)

    P(S3)=4.447×10-35

    (7)

    P(S4)=1.9e×10-51

    (8)

    P(S5)=3.7×10-50

    (9)

    5) 對(duì)數(shù)據(jù)進(jìn)行清洗.根據(jù)步驟4)所得到的N-Gram值對(duì)待清洗數(shù)據(jù)記錄進(jìn)行排序,對(duì)所得到的排序結(jié)果采用基本的字段匹配算法計(jì)算數(shù)據(jù)記錄之間的相似度,當(dāng)相似度低于規(guī)定的閾值時(shí),則判定兩者為相似重復(fù)記錄.

    4 實(shí)驗(yàn)結(jié)果及分析

    本文根據(jù)上述算法設(shè)計(jì)了一個(gè)基于N-Gram算法的相似重復(fù)記錄數(shù)據(jù)清洗流程,通過查全率、查準(zhǔn)率和運(yùn)行速度3個(gè)因素對(duì)數(shù)據(jù)清洗過程和基于S-W算法的數(shù)據(jù)清洗技術(shù)進(jìn)行對(duì)比.

    查全率是評(píng)判數(shù)據(jù)清洗技術(shù)好壞的一個(gè)重要指標(biāo),查全率越高,代表所檢查出來的相似重復(fù)記錄越多,在一定程度上能夠代表數(shù)據(jù)清洗技術(shù)的性能.圖2為查全率曲線圖.從圖2中可以看出,在查全率方面,本文提出的算法較S-W算法有較大的優(yōu)勢,且隨著數(shù)據(jù)量的不斷增加,兩種算法的查全率都在不斷遞增.

    圖2 查全率Fig.2 Recall ratio

    查準(zhǔn)率是評(píng)判數(shù)據(jù)清洗技術(shù)好壞的重要指標(biāo),是指所檢測出來的相似重復(fù)記錄中確實(shí)為相似重復(fù)記錄的比例,能夠真實(shí)地反映出一個(gè)算法的好壞.圖3為查準(zhǔn)率曲線圖.從圖3中可以看出,本文提出的算法較S-W算法有較大優(yōu)勢,雖然隨著數(shù)據(jù)量的不斷增加,該優(yōu)勢有所減緩,但結(jié)合查全率的優(yōu)勢可以看出本文算法的優(yōu)點(diǎn).

    圖3 查準(zhǔn)率Fig.3 Precision ratio

    隨著信息的不斷發(fā)展,數(shù)據(jù)記錄的不斷增多,運(yùn)行時(shí)間也作為評(píng)判一個(gè)算法好壞的標(biāo)準(zhǔn),本文對(duì)兩種算法的運(yùn)行時(shí)間進(jìn)行了對(duì)比,結(jié)果如圖4所示.從圖4中可以看出,數(shù)量級(jí)較低時(shí),S-W算法較本文算法具有較大優(yōu)勢,隨著數(shù)量級(jí)的不斷增多,S-W算法的運(yùn)行時(shí)間增長迅速,超過本文算法所提出的數(shù)據(jù)清洗算法運(yùn)行時(shí)間.

    圖4 運(yùn)行時(shí)間對(duì)比Fig.4 Runtime comparison

    5 結(jié) 論

    通過對(duì)相似重復(fù)數(shù)據(jù)記錄的結(jié)構(gòu)及產(chǎn)生原因進(jìn)行分析,提出了一種基于N-Gram算法的相似重復(fù)記錄的數(shù)據(jù)清洗技術(shù).該方法通過計(jì)算數(shù)據(jù)記錄之間的N-Gram值,將待清洗記錄進(jìn)行排序,并對(duì)排序后的結(jié)果進(jìn)行相似度檢測,從而提高了相似重復(fù)記錄的查全率和查準(zhǔn)率,且隨著數(shù)量級(jí)的不斷增加,本文算法的運(yùn)行時(shí)間優(yōu)于其他算法.

    [1]楊東華,李寧寧,王宏志,等.基于任務(wù)合并的并行大數(shù)據(jù)清洗過程優(yōu)化 [J].計(jì)算機(jī)學(xué)報(bào),2016,39(1):97-108.

    (YANG Dong-hua,LI Ning-ning,WANG Hong-zhi,et al.The optimization of the big data cleaning based on task merging [J].Chinese Journal of Computers,2016,39(1):97-108.)

    [2]羅景峰,劉艷秋,許開立.基于均勻設(shè)計(jì)與灰局勢決策的智能算法參數(shù)設(shè)定 [J].沈陽工業(yè)大學(xué)學(xué)報(bào),2010,32(1):84-89.

    (LUO Jing-feng,LIU Yan-qiu,XU Kai-li.Parameter establishment of intelligent algorithm based on uniform design and grey situation decision [J].Journal of Shenyang University of Technology,2010,32(1):84-89.)

    [3]陳明.大數(shù)據(jù)分析 [J].計(jì)算機(jī)教育,2014(5):122-126.

    (CHEN Ming.Big data analysis [J].Computer Education,2014(5):122-126.)

    [4]吳斐,唐雁,補(bǔ)嘉.基于N-Gram的VB源代碼抄襲檢測算法 [J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2012,26(2):86-91.

    (WU Fei,TANG Yan,BU Jia.A VB source code plagiarism detection method based onN-Gram [J].Journal of Chongqing University of Technology (Natural Science),2012,26(2):86-91.)

    [5]邵林,黃芝平,唐貴林,等.并行緩存結(jié)構(gòu)在高速海量數(shù)據(jù)記錄系統(tǒng)中的應(yīng)用 [J].計(jì)算機(jī)測量與控制,2008,16(4):527-529.

    (SHAO Lin,HUANG Zhi-ping,TANG Gui-lin,et al.Application of parallel cache structure in high-speed mass data recording system [J].Computer Measurement and Control,2008,16(4):527-529.)

    [6]周典瑞,周蓮英.海量數(shù)據(jù)的相似重復(fù)記錄檢測算法 [J].計(jì)算機(jī)應(yīng)用,2013,33(8):2208-2211.

    (ZHOU Dian-rui,ZHOU Lian-ying.Algorithm for detecting approximate duplicate records in massive data [J].Journal of Computer Applications,2013,33(8):2208-2211.)

    [7]付印金,肖儂,劉芳.重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展 [J].計(jì)算機(jī)研究與發(fā)展,2012,49(1):12-20.

    (FU Yin-jin,XIAO Nong,LIU Fang.Research and development on key techniques of data deduplication [J].Journal of Computer Research and Development,2012,49(1):12-20.)

    [8]Lillibridge M,Eshghi K,Bhagwat D.Improving restore speed for backup systems that use inline chunk-based deduplication [C]//Proceedings of the 11th USENIX Conference on File and Storage Technologies.New York,USA,2013:183-197.

    [9]朱燦,曹健.實(shí)體解析技術(shù)綜述與展望 [J].計(jì)算機(jī)科學(xué),2015,42(3):8-12.

    (ZHU Can,CAO Jian.Summary and prospect on entity resolution [J].Computer Science,2015,42(3):8-12.)

    [10]王琛.Web數(shù)據(jù)清洗及其系統(tǒng)框架研究 [J].計(jì)算機(jī)時(shí)代,2014(12):42-44.

    (WANG Chen.Research on Webdata cleaning and its system framework [J].Computer Era,2014(12):42-44.)

    [11]Geerts F,Mecca G,Papotti P,et al.The LLUNATIC data-cleaning framework [J].VLDB Endowment,2013,6(9):625-636.

    [12]Tan Y J,Jiang H,Sha H M,et al.SAFE:a source deduplication framework for efficient cloud backup ser-vices [J].Journal of Signal Processing Systems,2013,72(3):209-228.

    [13]殷秀葉.大數(shù)據(jù)環(huán)境下的相似重復(fù)記錄檢測方法 [J].武漢工程大學(xué)學(xué)報(bào),2014,36(3):66-69.

    (YIN Xiu-ye.Method for detecting approximately duplicate database records in big data environment [J].Journal of Wuhan Institute of Technology,2014,36(3):66-69.)

    [14]Nguyen T T,Hui S C,Chang K.A lattice-based approach for mathematical search using formal concept analysis [J].Expert Systems with Applications,2012,39(5):5820-5828.

    [15]黨小超,高琪,郝占軍.基于小波變換的分布式WSN數(shù)據(jù)融合模型研究 [J].計(jì)算機(jī)工程與應(yīng)用,2014,50(22):97-101.

    (DANG Xiao-chao,GAO Qi,HAO Zhan-jun.Research on model of distributed date aggregation in WSN based on wavelet transform [J].Computer Engineering and Applications,2014,50(22):97-101.)

    [16]譚霜,何力,陳志坤,等.云存儲(chǔ)中一致基于格的數(shù)據(jù)完整性驗(yàn)證方法 [J].計(jì)算機(jī)研究與發(fā)展,2015,52(8):1862-1872.

    (TAN Shuang,HE Li,CHEN Zhi-kun,et al.A method of provable data integrity based on lattice in cloud storage [J].Journal of Computer Research and Deve-lopment,2015,52(8):1862-1872.)

    (責(zé)任編輯:鐘 媛 英文審校:尹淑英)

    Data cleaning technology based onN-Gram algorithm

    MA Ping-quan1,2, SONG Kai1,2, JI Jian-wei1

    (1. College of Information and Electrical Engineering, Shenyang Agricultural University, Shenyang 110866, China; 2. School of Automation and Electrical Engineering, Shenyang Ligong University, Shenyang 110159, China)

    Aiming at the plentiful approximately duplicate data in the database, the attribute structure of approximately duplicate records and the causing reason were analyzed. The data records were calculated with theN-Gram algorithm to get the key values, namelyN-Gram values, which represented the attribute of every record. According to the key values, the data records in the database were ordered so as to form a well-organized database. In addition, the similarity of data records in the database was calculated. The identified approximately duplicate records were cleaned by applying the arranged combination cleaning idea. The experimental results show that theN-Gram algorithm effectively increases the recall ratio and precision ratio of approximately duplicate data records.

    similarity; approximately duplicate record; attribute; ordering; combination; data cleaning; recall ratio; precision ratio

    2016-06-28.

    遼寧省教育廳科學(xué)研究項(xiàng)目(LG201610).

    馬平全(1975-),男,遼寧丹東人,講師,博士生,主要從事信號(hào)檢測與處理等方面的研究.

    17∶40在中國知網(wǎng)優(yōu)先數(shù)字出版.

    http:∥www.cnki.net/kcms/detail/21.1189.T.20161222.1740.040.html

    10.7688/j.issn.1000-1646.2017.01.13

    TP 311.11

    A

    1000-1646(2017)01-0067-06

    猜你喜歡
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    數(shù)據(jù)庫
    性插视频无遮挡在线免费观看| 国产黄a三级三级三级人| 男女边摸边吃奶| 99视频精品全部免费 在线| 看免费成人av毛片| 日韩成人伦理影院| 可以在线观看毛片的网站| 黄色欧美视频在线观看| 午夜精品国产一区二区电影 | 国产午夜精品论理片| 婷婷色av中文字幕| 中文乱码字字幕精品一区二区三区 | 最近中文字幕高清免费大全6| 国产黄色免费在线视频| 亚洲经典国产精华液单| 联通29元200g的流量卡| 欧美成人精品欧美一级黄| 午夜老司机福利剧场| 国产精品三级大全| 免费看a级黄色片| 少妇人妻一区二区三区视频| 国产免费福利视频在线观看| 欧美最新免费一区二区三区| 国产精品不卡视频一区二区| 成人一区二区视频在线观看| 日本三级黄在线观看| 亚洲成人久久爱视频| 99久久精品国产国产毛片| 啦啦啦中文免费视频观看日本| 国产一区二区亚洲精品在线观看| 九九久久精品国产亚洲av麻豆| 人妻夜夜爽99麻豆av| 国产一级毛片七仙女欲春2| 色综合色国产| 亚洲av中文字字幕乱码综合| 国产成人a区在线观看| 中文字幕人妻熟人妻熟丝袜美| 国产精品一区www在线观看| 午夜激情福利司机影院| 一级毛片久久久久久久久女| 国产精品一及| 少妇人妻一区二区三区视频| 国产永久视频网站| 国内精品美女久久久久久| 久久久久久久久久人人人人人人| 亚洲欧美成人综合另类久久久| 久久草成人影院| 日本欧美国产在线视频| 淫秽高清视频在线观看| www.色视频.com| 黄片无遮挡物在线观看| 国产av码专区亚洲av| 国内精品一区二区在线观看| 80岁老熟妇乱子伦牲交| 亚洲美女搞黄在线观看| 97精品久久久久久久久久精品| 能在线免费看毛片的网站| 国产黄片视频在线免费观看| 精品一区在线观看国产| 我的女老师完整版在线观看| 亚洲欧美日韩无卡精品| 久久久久久九九精品二区国产| 欧美日韩一区二区视频在线观看视频在线 | 波多野结衣巨乳人妻| 国产91av在线免费观看| 麻豆av噜噜一区二区三区| 国产精品熟女久久久久浪| 色播亚洲综合网| 亚洲最大成人av| 免费av毛片视频| 日韩欧美精品v在线| 欧美不卡视频在线免费观看| 亚洲三级黄色毛片| 尤物成人国产欧美一区二区三区| 久久99热6这里只有精品| 亚洲国产精品成人久久小说| 国产免费视频播放在线视频 | 如何舔出高潮| 午夜爱爱视频在线播放| 午夜福利在线观看吧| 美女xxoo啪啪120秒动态图| 亚洲av免费在线观看| 91aial.com中文字幕在线观看| 中文天堂在线官网| 99视频精品全部免费 在线| 免费看光身美女| 免费av观看视频| 亚洲av成人精品一区久久| 女的被弄到高潮叫床怎么办| 精品欧美国产一区二区三| 69av精品久久久久久| 噜噜噜噜噜久久久久久91| 精品一区二区免费观看| 黄片无遮挡物在线观看| 久久久久久九九精品二区国产| 精品不卡国产一区二区三区| 国产探花极品一区二区| 日韩成人伦理影院| 免费观看精品视频网站| 丝瓜视频免费看黄片| 久久99热6这里只有精品| 国产精品久久久久久精品电影小说 | 精品久久国产蜜桃| 免费av毛片视频| 亚洲精品成人久久久久久| 中文字幕av成人在线电影| 在线天堂最新版资源| 三级经典国产精品| 伦精品一区二区三区| 久久久欧美国产精品| 亚洲av在线观看美女高潮| 精品久久久久久成人av| 久久久久久久大尺度免费视频| 99热6这里只有精品| 亚洲综合精品二区| 水蜜桃什么品种好| 久久精品夜色国产| 久久精品国产亚洲网站| 成人性生交大片免费视频hd| 日本欧美国产在线视频| 一本久久精品| 欧美成人一区二区免费高清观看| 18禁在线播放成人免费| 91久久精品国产一区二区三区| 久久人人爽人人爽人人片va| 亚洲成人中文字幕在线播放| 五月伊人婷婷丁香| 人人妻人人澡欧美一区二区| 美女大奶头视频| 国产成人免费观看mmmm| 国产精品一及| 中文精品一卡2卡3卡4更新| 亚洲精品色激情综合| 又粗又硬又长又爽又黄的视频| 高清视频免费观看一区二区 | 日韩电影二区| 午夜免费男女啪啪视频观看| 成人综合一区亚洲| 精品久久久噜噜| 亚洲丝袜综合中文字幕| 看黄色毛片网站| 午夜免费观看性视频| 秋霞伦理黄片| 亚洲aⅴ乱码一区二区在线播放| av线在线观看网站| 亚洲av在线观看美女高潮| 波多野结衣巨乳人妻| 精品国内亚洲2022精品成人| 久久精品熟女亚洲av麻豆精品 | 老司机影院毛片| 亚洲电影在线观看av| 日韩一区二区视频免费看| 少妇熟女aⅴ在线视频| 国产男女超爽视频在线观看| 夜夜看夜夜爽夜夜摸| 亚洲av国产av综合av卡| 久久国产乱子免费精品| 免费看a级黄色片| 久久精品国产自在天天线| 国产精品久久久久久精品电影| 3wmmmm亚洲av在线观看| 精品国产三级普通话版| 国产一区亚洲一区在线观看| 麻豆国产97在线/欧美| 国产成年人精品一区二区| 欧美日韩精品成人综合77777| 午夜福利高清视频| 午夜福利在线在线| 婷婷色麻豆天堂久久| 3wmmmm亚洲av在线观看| 免费av毛片视频| 麻豆国产97在线/欧美| 综合色丁香网| 偷拍熟女少妇极品色| 亚洲aⅴ乱码一区二区在线播放| 国内精品宾馆在线| 一级黄片播放器| 蜜桃亚洲精品一区二区三区| 亚洲精品中文字幕在线视频 | 午夜福利在线观看吧| 在现免费观看毛片| 最近的中文字幕免费完整| 啦啦啦啦在线视频资源| 特大巨黑吊av在线直播| 国产大屁股一区二区在线视频| 亚洲三级黄色毛片| 国产午夜精品一二区理论片| 人妻制服诱惑在线中文字幕| 久久久久久久久久人人人人人人| 精品国产露脸久久av麻豆 | 久久这里只有精品中国| 久久久久久伊人网av| 久久久成人免费电影| 色综合站精品国产| 色播亚洲综合网| av卡一久久| 国产老妇伦熟女老妇高清| 亚洲人与动物交配视频| 亚洲一区高清亚洲精品| av线在线观看网站| 国产午夜精品一二区理论片| 国产色婷婷99| 久久这里有精品视频免费| 亚洲精品,欧美精品| 少妇被粗大猛烈的视频| 国产成人精品婷婷| 一级片'在线观看视频| 91久久精品国产一区二区三区| 国产精品.久久久| av国产免费在线观看| 亚洲国产欧美人成| 久久精品国产亚洲网站| 国产成人午夜福利电影在线观看| 午夜福利高清视频| 噜噜噜噜噜久久久久久91| 简卡轻食公司| 99久国产av精品| 国产精品.久久久| 我的女老师完整版在线观看| 有码 亚洲区| av女优亚洲男人天堂| av在线亚洲专区| 午夜日本视频在线| 精品午夜福利在线看| 亚洲国产精品成人综合色| 国产精品嫩草影院av在线观看| 亚洲美女搞黄在线观看| 网址你懂的国产日韩在线| 免费av毛片视频| 18禁在线无遮挡免费观看视频| 九九爱精品视频在线观看| 国产毛片a区久久久久| av免费观看日本| 69av精品久久久久久| 久久97久久精品| 又爽又黄a免费视频| 大话2 男鬼变身卡| 国产精品爽爽va在线观看网站| 少妇熟女欧美另类| 国产在线男女| 久久久久久九九精品二区国产| 国产亚洲最大av| 国产亚洲一区二区精品| 亚洲,欧美,日韩| 亚洲国产av新网站| 精品久久久精品久久久| 午夜久久久久精精品| 国产黄片美女视频| 特级一级黄色大片| 边亲边吃奶的免费视频| 久久精品综合一区二区三区| 午夜爱爱视频在线播放| 国产伦理片在线播放av一区| 久久久久精品久久久久真实原创| 18禁裸乳无遮挡免费网站照片| 亚洲在线观看片| 国产亚洲5aaaaa淫片| 最近中文字幕高清免费大全6| 午夜精品国产一区二区电影 | 成人午夜高清在线视频| 午夜福利成人在线免费观看| 人体艺术视频欧美日本| 又粗又硬又长又爽又黄的视频| 老司机影院成人| 日韩欧美一区视频在线观看 | 国产黄a三级三级三级人| 好男人在线观看高清免费视频| 在线a可以看的网站| 日韩欧美 国产精品| 久久精品综合一区二区三区| 青春草国产在线视频| 久久精品国产亚洲av涩爱| 自拍偷自拍亚洲精品老妇| 久久久久久久午夜电影| 亚洲国产最新在线播放| 国产在视频线在精品| 国产有黄有色有爽视频| 日本猛色少妇xxxxx猛交久久| 亚洲va在线va天堂va国产| av在线老鸭窝| h日本视频在线播放| 亚洲欧美成人综合另类久久久| 色播亚洲综合网| 晚上一个人看的免费电影| 高清视频免费观看一区二区 | 国产单亲对白刺激| 成人亚洲精品一区在线观看 | 99久久精品国产国产毛片| 免费黄网站久久成人精品| 亚洲欧美日韩东京热| 亚洲欧美精品专区久久| 日韩成人av中文字幕在线观看| 色视频www国产| 亚洲无线观看免费| 精品人妻偷拍中文字幕| 国产高清国产精品国产三级 | 亚洲va在线va天堂va国产| 免费大片黄手机在线观看| 丰满乱子伦码专区| 久久精品熟女亚洲av麻豆精品 | 国产v大片淫在线免费观看| 国产永久视频网站| 久久久久网色| 欧美日韩一区二区视频在线观看视频在线 | 亚洲国产精品成人综合色| 80岁老熟妇乱子伦牲交| 美女黄网站色视频| 久久久久久久久久久丰满| 五月伊人婷婷丁香| 亚洲av不卡在线观看| 亚洲精品久久久久久婷婷小说| 日本欧美国产在线视频| 精品国产露脸久久av麻豆 | 国产亚洲精品av在线| 国产成人精品婷婷| 成人一区二区视频在线观看| 777米奇影视久久| 直男gayav资源| 深夜a级毛片| 国产精品一区www在线观看| 熟女电影av网| 精品久久久精品久久久| 成人亚洲欧美一区二区av| 搡老妇女老女人老熟妇| 麻豆成人av视频| 亚洲欧洲日产国产| 美女被艹到高潮喷水动态| 国产 亚洲一区二区三区 | 亚洲国产精品成人久久小说| 亚洲欧美一区二区三区黑人 | 久久久午夜欧美精品| 五月天丁香电影| 国产熟女欧美一区二区| 最后的刺客免费高清国语| 国产黄片美女视频| av国产久精品久网站免费入址| 日韩国内少妇激情av| 一级毛片久久久久久久久女| 内射极品少妇av片p| 99九九线精品视频在线观看视频| 免费av观看视频| 国产精品日韩av在线免费观看| 亚洲在线观看片| 亚州av有码| 国产在视频线在精品| 九九久久精品国产亚洲av麻豆| 欧美 日韩 精品 国产| 国产精品福利在线免费观看| 一级av片app| 国产一区二区三区av在线| 国产亚洲一区二区精品| 免费观看a级毛片全部| 天堂俺去俺来也www色官网 | 久99久视频精品免费| 边亲边吃奶的免费视频| 欧美xxxx性猛交bbbb| 国产女主播在线喷水免费视频网站 | 国产精品一二三区在线看| 日韩一本色道免费dvd| 精品一区二区三区视频在线| 国产乱人视频| 非洲黑人性xxxx精品又粗又长| 成人毛片60女人毛片免费| 婷婷色综合www| 色网站视频免费| 六月丁香七月| 精品不卡国产一区二区三区| 深爱激情五月婷婷| 国产色爽女视频免费观看| 亚洲av成人精品一二三区| a级毛色黄片| 欧美日韩综合久久久久久| 国产黄色小视频在线观看| 久久精品国产亚洲av涩爱| 一夜夜www| 亚洲,欧美,日韩| 视频中文字幕在线观看| 国产成人freesex在线| 一区二区三区四区激情视频| 99久久九九国产精品国产免费| 免费观看性生交大片5| 日日摸夜夜添夜夜添av毛片| 青青草视频在线视频观看| 久久久久免费精品人妻一区二区| 欧美日韩视频高清一区二区三区二| 中国美白少妇内射xxxbb| 搡老乐熟女国产| 18+在线观看网站| 国产亚洲最大av| 91精品一卡2卡3卡4卡| 国产视频首页在线观看| 国产探花极品一区二区| 日韩av在线大香蕉| 女人久久www免费人成看片| 大片免费播放器 马上看| 国产黄片美女视频| 国产亚洲精品久久久com| av在线蜜桃| 男人爽女人下面视频在线观看| 亚洲av日韩在线播放| 成人av在线播放网站| 91久久精品电影网| 天堂俺去俺来也www色官网 | 成人鲁丝片一二三区免费| 久久99蜜桃精品久久| 国产v大片淫在线免费观看| 最新中文字幕久久久久| 又爽又黄a免费视频| 黑人高潮一二区| 成人综合一区亚洲| 我要看日韩黄色一级片| 十八禁网站网址无遮挡 | 亚洲欧美一区二区三区黑人 | 亚洲欧洲国产日韩| 亚洲天堂国产精品一区在线| 国产成年人精品一区二区| 夜夜爽夜夜爽视频| 青春草亚洲视频在线观看| 赤兔流量卡办理| 亚洲国产欧美人成| 日日摸夜夜添夜夜添av毛片| 色播亚洲综合网| 美女脱内裤让男人舔精品视频| 最后的刺客免费高清国语| 日本黄大片高清| 成人性生交大片免费视频hd| 汤姆久久久久久久影院中文字幕 | 亚洲精品自拍成人| 久久精品久久久久久久性| 国产 一区精品| 亚洲国产成人一精品久久久| 色吧在线观看| 波多野结衣巨乳人妻| 舔av片在线| 99re6热这里在线精品视频| 日日干狠狠操夜夜爽| 女人久久www免费人成看片| 插阴视频在线观看视频| 国产高潮美女av| 99热这里只有是精品在线观看| 欧美日韩在线观看h| 女的被弄到高潮叫床怎么办| 免费av毛片视频| 大又大粗又爽又黄少妇毛片口| 综合色av麻豆| 日韩电影二区| xxx大片免费视频| 亚洲av在线观看美女高潮| 亚洲成人精品中文字幕电影| 乱系列少妇在线播放| 高清午夜精品一区二区三区| 欧美性猛交╳xxx乱大交人| 久久久精品免费免费高清| 亚洲伊人久久精品综合| 久热久热在线精品观看| 精品国产露脸久久av麻豆 | 日本欧美国产在线视频| 亚洲最大成人中文| 欧美性猛交╳xxx乱大交人| 精品久久久噜噜| 国产精品人妻久久久影院| 欧美3d第一页| 日韩国内少妇激情av| 午夜激情久久久久久久| 熟女人妻精品中文字幕| 中文乱码字字幕精品一区二区三区 | 丰满少妇做爰视频| 特级一级黄色大片| 国产高清国产精品国产三级 | 亚洲综合精品二区| 免费无遮挡裸体视频| 校园人妻丝袜中文字幕| 小蜜桃在线观看免费完整版高清| 黑人高潮一二区| 老师上课跳d突然被开到最大视频| 国产精品av视频在线免费观看| 国产v大片淫在线免费观看| 黄片无遮挡物在线观看| 成人性生交大片免费视频hd| 人妻夜夜爽99麻豆av| 日本一二三区视频观看| 欧美三级亚洲精品| 好男人视频免费观看在线| 网址你懂的国产日韩在线| 91在线精品国自产拍蜜月| 少妇熟女aⅴ在线视频| 丰满乱子伦码专区| 欧美激情国产日韩精品一区| 亚洲综合精品二区| 国产av在哪里看| av线在线观看网站| 欧美另类一区| 网址你懂的国产日韩在线| 成年人午夜在线观看视频 | 简卡轻食公司| 日韩中字成人| 成人美女网站在线观看视频| 青春草亚洲视频在线观看| 国产精品1区2区在线观看.| 亚洲欧美中文字幕日韩二区| 日韩中字成人| 日韩电影二区| 女人十人毛片免费观看3o分钟| 精品国产露脸久久av麻豆 | 纵有疾风起免费观看全集完整版 | 22中文网久久字幕| 欧美成人精品欧美一级黄| 免费电影在线观看免费观看| 国产又色又爽无遮挡免| 91精品伊人久久大香线蕉| 精品一区二区三区人妻视频| 欧美3d第一页| 国产精品人妻久久久影院| 国产成人一区二区在线| 丰满少妇做爰视频| 久久99精品国语久久久| 久久久久久久久久久丰满| 麻豆国产97在线/欧美| 一个人看视频在线观看www免费| 97热精品久久久久久| 午夜日本视频在线| 熟妇人妻不卡中文字幕| 国产成人福利小说| 免费无遮挡裸体视频| 精品人妻熟女av久视频| eeuss影院久久| 亚洲在线观看片| 校园人妻丝袜中文字幕| av在线蜜桃| 晚上一个人看的免费电影| 午夜激情久久久久久久| 欧美激情久久久久久爽电影| 国产精品一区www在线观看| 在线观看一区二区三区| 在线观看人妻少妇| 激情五月婷婷亚洲| 欧美日韩综合久久久久久| 久久精品国产亚洲网站| av国产免费在线观看| 亚洲精品乱码久久久v下载方式| 免费电影在线观看免费观看| 国产伦在线观看视频一区| 免费观看的影片在线观看| 国产极品天堂在线| 男人狂女人下面高潮的视频| 五月玫瑰六月丁香| 久久精品熟女亚洲av麻豆精品 | 亚洲国产精品国产精品| 国产亚洲最大av| 特级一级黄色大片| 嫩草影院入口| 永久免费av网站大全| 水蜜桃什么品种好| 男人舔奶头视频| 午夜激情福利司机影院| 97热精品久久久久久| 少妇高潮的动态图| 六月丁香七月| 国产av码专区亚洲av| 国产在视频线精品| 免费观看av网站的网址| 最近手机中文字幕大全| 午夜福利在线观看免费完整高清在| 国产精品熟女久久久久浪| av在线蜜桃| 久久久久性生活片| 街头女战士在线观看网站| 成人二区视频| 草草在线视频免费看| 老女人水多毛片| 亚洲av成人av| 在线播放无遮挡| 久久6这里有精品| av福利片在线观看| 国产淫片久久久久久久久| 91午夜精品亚洲一区二区三区| 美女高潮的动态| 久久这里只有精品中国| 一级爰片在线观看| 夫妻午夜视频| 国产伦在线观看视频一区| 91精品伊人久久大香线蕉| 免费观看在线日韩| 乱系列少妇在线播放| 久久99蜜桃精品久久| 少妇的逼好多水| 免费少妇av软件| 日韩强制内射视频| www.av在线官网国产| 午夜免费激情av| 中文字幕av成人在线电影| 又爽又黄无遮挡网站| 九九久久精品国产亚洲av麻豆| 精品一区二区三卡| or卡值多少钱| 成年版毛片免费区| a级毛色黄片| 又粗又硬又长又爽又黄的视频| 欧美激情久久久久久爽电影| 秋霞在线观看毛片| 99久久中文字幕三级久久日本| 国产成人freesex在线| 欧美xxxx性猛交bbbb| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 91aial.com中文字幕在线观看| 综合色av麻豆| 日本熟妇午夜| 午夜免费激情av| 亚洲自拍偷在线| 免费少妇av软件| a级毛片免费高清观看在线播放| 亚洲色图av天堂| 国产黄色视频一区二区在线观看| 亚洲精品成人久久久久久| 成年av动漫网址|