• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    改進(jìn)的SNM 中文語義重復(fù)記錄檢測算法

    2021-09-05 05:56:16滿穆永豪王貴友于再富
    關(guān)鍵詞:關(guān)鍵字語句閾值

    袁 滿穆永豪王貴友于再富

    (1.東北石油大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318;2.黑龍江省大慶市第十采油廠肇東分公司 信息中心,黑龍江大慶 163000)

    0 引 言

    隨著大數(shù)據(jù)時代的到來,企業(yè)由IT時代進(jìn)入DT時代,數(shù)據(jù)在企業(yè)發(fā)展中將扮演越來越重要的角色[1]。然而隨著大數(shù)據(jù)的爆炸式增長,劣質(zhì)數(shù)據(jù)也隨之而來,導(dǎo)致數(shù)據(jù)質(zhì)量低劣,極大降低了數(shù)據(jù)的可用性[2]。這些低劣“臟數(shù)據(jù)”的產(chǎn)生使這些數(shù)據(jù)質(zhì)量問題會直接導(dǎo)致計算偏差,造成難以想象的后果[3]。其中,數(shù)據(jù)庫中重復(fù)記錄占用了大量的空間,直接影響數(shù)據(jù)庫的使用效率[4],企業(yè)需要利用大量的數(shù)據(jù)進(jìn)行某些結(jié)果的預(yù)測,但由于相似重復(fù)記錄的存在,導(dǎo)致預(yù)測結(jié)果產(chǎn)生偏差,給企業(yè)決策造成很大困難。因此,如何消除數(shù)據(jù)冗余,保證數(shù)據(jù)庫中高質(zhì)量數(shù)據(jù)的使用成為人們面臨的巨大挑戰(zhàn)。

    關(guān)于重復(fù)記錄的定義,Monge[5]提出將同一實(shí)體對象對應(yīng)的多條記錄稱之為相似重復(fù)記錄。Lillibridge等[6]提出數(shù)據(jù)庫中存在這樣的兩條記錄R1、R2,其內(nèi)容相同或相似,且都對應(yīng)著同一個現(xiàn)實(shí)實(shí)體,則記錄對〈R1,R2〉互為相似重復(fù)記錄。李軍[7]提出在同一個數(shù)據(jù)庫系統(tǒng)中,如果出現(xiàn)兩條或兩條以上的記錄,它們之間出現(xiàn)足夠多的相同或相似的屬性值,即可認(rèn)定其為相似重復(fù)記錄。潘瑋等[8]認(rèn)為重復(fù)記錄是指原始數(shù)據(jù)中同一文獻(xiàn)產(chǎn)生的多條相同記錄,其特點(diǎn)是各記錄的所有字段均相同。陳亮等[9]認(rèn)為相似重復(fù)記錄檢測就是識別一對是否表示為真實(shí)世界中的同一個實(shí)體。目前對于數(shù)據(jù)庫中存在的英文重復(fù)數(shù)據(jù)記錄清洗已經(jīng)形成一套完整的體系,可以利用多種算法對其進(jìn)行檢測和清洗,但對中文重復(fù)記錄清洗的研究在國內(nèi)還處于初步階段,并且對中文的重復(fù)記錄數(shù)據(jù)清洗的算法積累還比較欠缺。造成這種現(xiàn)象主要原因是由于中英文本身表達(dá)、語法和語義等存在的差異和國情差距,所以對中文數(shù)據(jù)清洗的研究成果報道很少[10]。因此筆者在SNM(Sorted-Neighborhood Method)算法的基礎(chǔ)上對中文的重復(fù)記錄檢測進(jìn)行了更深一步的研究。SNM算法在英文重復(fù)記錄清洗中的高效性主要是因?yàn)橛⑽牡恼Z義和時態(tài)是基于單詞[11]。但在中文中重復(fù)記錄數(shù)據(jù)主要是以中文詞語為單位,與此同時中文單詞多會出現(xiàn)同一個實(shí)體以不同形式進(jìn)行表達(dá),這也就成為了中英文數(shù)據(jù)清洗的本質(zhì)原因。為此筆者在傳統(tǒng)的SNM算法基礎(chǔ)上對其加以改進(jìn),引入《同義詞詞林?jǐn)U展版》標(biāo)準(zhǔn)詞匯集對中文字段的詞語進(jìn)行相似度計算。同時引入Jieba分詞對語句進(jìn)行分詞處理,以保證句子的語義有效性,進(jìn)而利用余弦相似度計算語句相似度,提高中文重復(fù)記錄檢測的準(zhǔn)確性。

    1 相似重復(fù)記錄檢測相關(guān)技術(shù)研究

    1.1 相似重復(fù)記錄檢測相關(guān)算法研究

    目前對英文相似重復(fù)記錄檢測的算法已經(jīng)有了很多成果,例如多趟鄰近排序算法,PSNM(Partitionbased Sorted-Neighborhood Method)算法,聚類算法,優(yōu)先隊(duì)列算法等。Monge等[12]在鄰近排序算法(SNM)的基礎(chǔ)上提出了多趟鄰近排序算法,該算法的基本思想是對SNM算法獨(dú)立的執(zhí)行多次,然后再選取不同關(guān)鍵字對每次的檢測進(jìn)行排序,通過本次排序使沒能排在同一個窗口的相似重復(fù)記錄能重新選取關(guān)鍵字再次匹配檢測,最后進(jìn)行合并刪除重復(fù)記錄數(shù)據(jù)。進(jìn)而達(dá)到全部記錄相似重復(fù)檢測的目的。PSNM算法通過將整體的數(shù)據(jù)集劃分成小數(shù)據(jù)集,并對每個小數(shù)據(jù)集內(nèi)部采用等級綜合評價法為屬性設(shè)置權(quán)重,以權(quán)重為關(guān)鍵字,最后采用滑動窗口的方式進(jìn)行檢測[13]。劉齊銳[14]通過利用聚類算法進(jìn)行相似重復(fù)記錄檢測,因?yàn)榫垲愃惴芡ㄟ^無監(jiān)督學(xué)習(xí)和迭代計算將相似重復(fù)記錄數(shù)據(jù)放在同一個集合中。這使同類的數(shù)據(jù)相似度比較高,不同類間的數(shù)據(jù)差異就比較大。優(yōu)先隊(duì)列算法將隊(duì)列中的數(shù)據(jù)元素作為比對記錄,然后按照順序?qū)?shù)據(jù)庫中的記錄進(jìn)行匹配,如果記錄為隊(duì)列中的元素,則對兩條記錄進(jìn)行比較,檢測出重復(fù)的記錄,否則將該記錄加入一個新的簇,并進(jìn)入優(yōu)先隊(duì)列,且具有最高優(yōu)先級[15],但單趟優(yōu)先隊(duì)列算法容易漏掉一些數(shù)據(jù)。綜上所述,這幾種常見的相似重復(fù)記錄檢測算法都各有其適用的范圍,具體優(yōu)勢和不足如表1所示。

    表1 重復(fù)記錄清洗算法優(yōu)缺點(diǎn)比較Tab.1 Comparison of advantages and disadvantages of duplicate record cleaning algorithms

    1.2 詞語及句子相似度度量研究

    《同義詞詞林》是由梅家駒等[16]編篆而成,這本詞典最初版本中包含了不止一個詞語的同義詞,同時也包含了一定數(shù)量的相關(guān)詞。之后由哈工大信息檢索研究室利用眾多詞語相關(guān)資源,更新修改后并發(fā)布《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》。同義詞詞林?jǐn)U展版共收錄詞語7萬多條,這些詞語被分為12個大類,94個中類,1 428個小類,小類下方進(jìn)一步劃分為詞群和原子詞群兩級[17]。這使同義詞詞林?jǐn)U展版具有5層結(jié)構(gòu),如圖1所示。隨著級別的遞增,同一行的詞語語義更加相近,相關(guān)性也越來越強(qiáng)。

    圖1 同義詞詞林5層結(jié)構(gòu)Fig.1 The five-tier structure of synonyms cilin

    《同義詞詞林?jǐn)U展版》編碼方式是由5層編碼實(shí)現(xiàn)的,編碼規(guī)則如表2所示,第1層主要用大寫字母表示;第2層用小寫的英文字母表示;第3層則是用二位的十進(jìn)制整數(shù)表示;第4層使用大寫英文字母表示;第5層用二位十進(jìn)制整數(shù)表示。例如:“Aa05B01=別人 旁人 他人 人家”,“Aa05B01=”是編碼,“別人 旁人 他人 人家”是這個類的詞語。其中第8個的編碼有3種,“=”代表的是“相等”,屬于同義詞;“#”代表的是“不等”,屬于相關(guān)詞語;“@”代表的是“獨(dú)立”,既沒有相關(guān)詞也沒有同義詞。

    表2 詞語編碼表Tab.2 The table of code of word

    Jieba分詞是目前應(yīng)用比較廣泛的一種分詞工具,是基于Python的一個第三方分詞庫。Jieba分詞采用動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合;對于未登錄詞,采用了基于漢字成詞能力的HMM(Hidden Markov Model)模型,使用了Viterbi算法。Jieba分詞主要包含3種分詞模式:全模式、精確模式和搜索引擎模式。全模式是盡可能將語句屬性中的詞語全部切分;精確模式主要是對語句進(jìn)行準(zhǔn)確切分詞;搜索引擎模式,是在精確模式基礎(chǔ)上對長詞進(jìn)行深度切分,從而得到比精確模式更多的詞。

    余弦相似度是目前比較主流的一種文本語義相似度計算方法,通過將詞組進(jìn)行分詞,然后將分出的詞組全部列出,將所出現(xiàn)的詞組進(jìn)行詞頻統(tǒng)計,通過統(tǒng)計出的詞頻對詞組進(jìn)行向量化處理,最后利用余弦相似度計算公式將兩個詞組進(jìn)行相似度計算,最后得出兩個詞組之間的文本相似度。

    2 SNM算法

    SNM算法是目前數(shù)據(jù)清洗各類算法中針對英文字段相似重復(fù)記錄應(yīng)用比較成熟的算法之一,其中主要包括如下3個步驟。

    1)排序關(guān)鍵字的選取。首先從數(shù)據(jù)表中提取關(guān)鍵的屬性或?qū)傩缘慕M合對記錄進(jìn)行劃分,并且其劃分時具有很強(qiáng)的區(qū)分度[18]。

    2)關(guān)鍵字排序。按照選取的關(guān)鍵字對數(shù)據(jù)庫中所有的數(shù)據(jù)進(jìn)行排序,將數(shù)據(jù)庫中不同位置但關(guān)鍵字相同的相似重復(fù)的記錄分配到相鄰的位置[19]。

    3)重復(fù)記錄檢測及合并,為數(shù)據(jù)集設(shè)定一個大小可滑動的窗口[7]。將最后一個滑入窗口的記錄數(shù)據(jù)與窗口內(nèi)的其他記錄數(shù)據(jù)進(jìn)行比較,判定兩條記錄是否完全相同。如果相同則將兩條記錄判定為相似重復(fù)記錄,并將這兩條記錄進(jìn)行合并;如果不同,就將窗口向后滑動。滑動窗口內(nèi)的記錄是采用先進(jìn)先出的方式進(jìn)行組織,比較后的數(shù)據(jù)則滑向下一條記錄的位置,再進(jìn)行新的檢測,直至滑動最后一個數(shù)據(jù)記錄。算法圖如圖2所示。

    圖2 SNM算法示意圖Fig.2 Schematic diagram of SNM algorithm

    SNM算法極大地提高了英文字段的匹配效率,另外,采用滑動窗口極大地減少了記錄比較的次數(shù),提高了比較速度,縮短了匹配時間[19]。但也有如下缺陷。1)關(guān)鍵字的選取。因?yàn)殛P(guān)鍵字是直接影響整個數(shù)據(jù)集的排序結(jié)果,關(guān)鍵字選取的好壞不僅影響檢測效率,而且對相似性檢測的精度也有很大影響,如果選取不當(dāng),還有可能漏掉一些重復(fù)記錄[7]。2)對滑動窗口大小的選擇。當(dāng)滑動窗口過大時,會導(dǎo)致檢測效率過低,但如果滑動窗口選擇較小,則容易導(dǎo)致在匹配過程中漏掉一些重復(fù)記錄,因此對確定的數(shù)據(jù)集,很難選擇合適的窗口進(jìn)行檢測。3)因?yàn)榛瑒哟翱趦?nèi)部記錄比較采用笛卡爾乘積的方式進(jìn)行字段比較,極大地增加了記錄的比對時間,導(dǎo)致檢測時間過長。

    3 系統(tǒng)架構(gòu)和改進(jìn)的SNM算法

    3.1 改進(jìn)的中文重復(fù)記錄檢測模型

    針對上述SNM算法的不足,筆者提出基于改進(jìn)的SNM算法中文重復(fù)記錄檢測模型,該模型主要包含讀取數(shù)據(jù),數(shù)據(jù)預(yù)處理,數(shù)據(jù)檢測以及結(jié)果統(tǒng)計4部分。具體模型整體架構(gòu)如圖3所示。

    圖3 改進(jìn)的中文重復(fù)記錄檢測模型Fig.3 Improved Chinese duplicate record detection model

    數(shù)據(jù)讀取。將獲取的數(shù)據(jù)存放入相應(yīng)運(yùn)行的數(shù)據(jù)庫中。

    數(shù)據(jù)預(yù)處理。首先是對關(guān)鍵字的處理,由于在SNM算法中關(guān)鍵字的選定對SNM算法排序的影響很大,因此在同一關(guān)鍵字記錄滑入窗口前,對同一屬性的關(guān)鍵字進(jìn)行排序處理,以增強(qiáng)數(shù)據(jù)庫中數(shù)據(jù)排序結(jié)果的單一性[20]。然后將同一關(guān)鍵字記錄滑入檢測的窗口。

    根據(jù)輸入的數(shù)據(jù)記錄進(jìn)行屬性值判斷。如果是詞語屬性,判斷該詞是否在《同義詞詞林?jǐn)U展版》中,如果在,則使用同義詞詞林算法對兩組詞語進(jìn)行相似度檢測;如果不在,則使用Jaccard算法進(jìn)行檢測。如果為語句屬性值則利用余弦相似度對其進(jìn)行檢測。

    對測試的語句相似度和詞語相似度取平均值,根據(jù)設(shè)定閾值判斷兩條記錄是否屬于重復(fù)記錄。如果匹配度超過設(shè)定閾值則將這兩條記錄進(jìn)行合并;如果兩條記錄相似度小于閾值則判定為非重復(fù)記錄,同時將檢測后的單一數(shù)據(jù)集也放入結(jié)果集。

    3.2 相關(guān)定義

    改進(jìn)后的算法具體處理過程是先將記錄按照屬性創(chuàng)建關(guān)鍵字,然后對關(guān)鍵字排序,把關(guān)鍵字相同的記錄聚集在一起,然后對比窗口內(nèi)部記錄,通過判斷比較后的兩條記錄之間的相似度值,從而找出相似重復(fù)記錄。為了方便描述改進(jìn)的算法,給出如下定義:

    定義1 設(shè)數(shù)據(jù)集R={r1,r2,…,r L},L為記錄的總數(shù),Ri為數(shù)據(jù)記錄集R的第i個記錄,1≤i≤L。

    定義2 Sim(Ri,Rj)為記錄Ri和Rj的相似程度即就是兩個記錄之間的相似度,1≤i≤L,1≤j≤L,如果兩條記錄完全相同,則相似度為1。

    定義3 設(shè)Ssim1為余弦相似度計算結(jié)果,其中X i與Y i為兩條語句分詞后向量化的結(jié)果向量。

    定義4 設(shè)Ssim2為Jaccard算法計算結(jié)果,其中A和B分別為兩組詞語向量化后的結(jié)果向量。

    定義5 設(shè)置閾值U,如果相似度大于U,則說明Ri和Rj相似重復(fù)。

    定義6 設(shè)Q為查全率。設(shè)T為測試數(shù)據(jù)集中人為插入的相似重復(fù)記錄的實(shí)際條數(shù),C為實(shí)際檢測出正確的相似重復(fù)記錄條數(shù),則有Q=C/T。Q的值域?yàn)閇0,1],求得的Q值越大,則表明檢測算法的查全性能越高[7]。

    定義7 設(shè)P為查準(zhǔn)率。設(shè)F為檢測算法檢測出正確的相似重復(fù)記錄條數(shù),則P=F/C,P越高,算法判別的準(zhǔn)確性越高。

    3.3 SNM改進(jìn)算法

    根據(jù)上述對SNM算法的描述得知要判斷兩條記錄是否為相似重復(fù)記錄,就是通過判定兩條記錄之間的相似度是否超過設(shè)定的閾值U。在改進(jìn)的過程中,將主鍵作為關(guān)鍵字對整個加載的記錄進(jìn)行排序。下面對整個改進(jìn)后的SNM算法步驟進(jìn)行詳述。

    1)將所有將要進(jìn)行檢測的數(shù)據(jù)記錄進(jìn)行導(dǎo)入。

    2)排序關(guān)鍵字選取,對數(shù)據(jù)庫中全部數(shù)據(jù)記錄進(jìn)行排序,排序后所有關(guān)鍵字相同的屬性記錄基本上能聚類到一起,以便后期在窗口內(nèi)對排序后的鄰近記錄進(jìn)行檢測。

    3)將數(shù)據(jù)記錄放入伸縮滑動窗口中進(jìn)行檢測,每次滑動記錄都是將關(guān)鍵字相同的記錄滑動進(jìn)入同一窗口進(jìn)行遍歷檢測。

    4)在記錄比對過程中,利用《同義詞詞林》對相應(yīng)的詞語屬性進(jìn)行相似度比對,計算出屬性中存在于同義詞詞林中的詞組相似度值,若不存在于同義詞詞林中則將新的詞組利用Jaccard算法進(jìn)行計算相似度值。對屬性為語句的記錄,首先,利用Jieba分詞對語句屬性值進(jìn)行分詞處理,將得到的分詞進(jìn)行詞頻統(tǒng)計,通過統(tǒng)計結(jié)果對兩條語句記錄進(jìn)行向量化,最后利用余弦相似度對語句屬性進(jìn)行相似度計算得出兩條記錄相似度。

    5)設(shè)定具體的閾值U,如果兩條記錄的相似度等于1,則判定兩條記錄為重復(fù)記錄;如果不等于1,則將兩條記錄進(jìn)行細(xì)化比對。若匹配度超過設(shè)定閾值則將這兩條記錄判定為重復(fù);若兩條記錄相似度小于閾值U則判定為非重復(fù)記錄,將兩條記錄放入設(shè)定的總數(shù)據(jù)集,同時將檢測后的單一數(shù)據(jù)集也放入總數(shù)據(jù)集。

    算法1 讀取數(shù)據(jù)集Data,并對數(shù)據(jù)集進(jìn)行排序。利用余弦相似度算法,詞林相似度算法,Jaccard算法分別對語句和詞語進(jìn)行相似度計算,通過合并的兩條記錄相似度計算值判斷兩條記錄是否屬于重復(fù)記錄,最終輸出統(tǒng)計后的重復(fù)記錄數(shù)據(jù)條數(shù)Count。改進(jìn)的SNM算法偽代碼如下:

    Input(Data);

    Sort(Data,Key);

    SimCount[]=Findsim(Data)∥相同關(guān)鍵字?jǐn)?shù)據(jù)條目數(shù)量數(shù)組

    Count←0;∥記錄重復(fù)記錄對數(shù)

    i←0;∥數(shù)據(jù)條數(shù)循環(huán)變量

    num←0;∥相同關(guān)鍵字條目變量

    Whilei

    forj←0 toj

    fork←j+1 tok

    YX=YuXianSim(Data[2].get(j),Data[2].get(k));

    if(CiLin.Include(Data[1].get(j)and CiLin.Include(Data[1].get(k))//判斷兩個詞組是否在詞林中

    else do

    JC=JCSim(Data[1].get(j),Data[1].get(k));//采用JC相似度計算

    if((YX+JC)/2>U)

    Count++;

    end if

    end if

    end for

    Output(count);

    end

    算法2 余弦相似度算法。輸入兩條語句值,通過利用Jieba分詞將語句進(jìn)行劃分,統(tǒng)計兩條語句中所有詞,計算詞頻,利用余弦相似度公式計算兩條語句相似度,最終輸出兩條語句相似度值。算法偽代碼如下:

    Input(S1,S2);∥讀取兩條語句

    S1_cut←Jieba.cut(S1);

    S2_cut←Jieba.cut(S2);∥對兩條語句分詞

    All_word←set(S1_cut+S2_cut);∥統(tǒng)計所有詞

    計算詞頻;

    公式1;∥兩條語句計算相似度;

    Output(sim1);

    算法3 詞林相似度算法。輸入兩個詞語屬性值,利用《同義詞詞林》詞匯集查找兩個詞的編碼,根據(jù)編碼計算兩個詞語的相似度。算法偽代碼如下:

    Input(X1,X2);∥讀取兩個詞語

    code1←cilin.word[X1];

    code2←cilin.word[X1];∥獲取兩個詞的編碼

    獲取兩個詞的層級信息;

    if(code1.end()==‘@’or code2.end()==‘@’):∥如果連個詞編碼以@結(jié)尾詞語為獨(dú)立的;

    fori←1 toi<9 do

    獲取兩個編碼公共部分;

    判斷兩個編碼層級是否相同;

    計算兩個編碼之間相似度;

    Output(sim1);

    end for

    end if

    算法4 Jaccard算法。輸入兩個詞語屬性值似度值,輸出相似度。算法偽代碼如下:

    Input(A,B);∥讀取兩個詞語

    corpus←[A,B];∥獲取兩個詞語編碼

    公式2;∥計算兩個詞語相似度;

    Output(sim);∥輸出兩條詞語相似度

    4 實(shí)驗(yàn)結(jié)果驗(yàn)證及分析

    實(shí)驗(yàn)基于相同實(shí)驗(yàn)環(huán)境下利用SNM算法以及改進(jìn)后的SNM算法對同一測試數(shù)據(jù)集進(jìn)行相似重復(fù)記錄檢測。實(shí)驗(yàn)數(shù)據(jù)取自某輔導(dǎo)機(jī)構(gòu)部分學(xué)生學(xué)習(xí)信息數(shù)據(jù)集。該數(shù)據(jù)集共有1 083條數(shù)據(jù)記錄,其中插入210條相似重復(fù)記錄數(shù)據(jù)。數(shù)據(jù)表中主要包含姓名,聽寫詞語以及詞語釋義屬性。通過人工方式統(tǒng)計檢測并利用不同閾值對兩種算法的影響,以比較兩種算法的查全率和查準(zhǔn)率。

    實(shí)驗(yàn)配置:CPU 2.62 GHz,4 GByte內(nèi)存,500 GByte硬盤;操作系統(tǒng):Windows10;軟件:MySQL+Python3.6。

    一般對相似重復(fù)記錄算法的衡量主要依靠查全率和查準(zhǔn)率兩個性能指標(biāo)。通過利用不同算法在實(shí)驗(yàn)條件相同的情況下對同一數(shù)據(jù)集進(jìn)行對比實(shí)驗(yàn),得到結(jié)果如圖4和圖5所示。圖4給出了在不同閾值的設(shè)定下得到的SNM算法及改進(jìn)后算法的查全率,圖5給出了在不同閾值設(shè)定下得到的SNM算法及改進(jìn)后算法的查準(zhǔn)率。

    圖4 查全率結(jié)果分析圖Fig.4 Analysis chart of recall results

    圖5 查準(zhǔn)率結(jié)果分析圖Fig.5 Analysis chart of precision results

    通過圖4可以看出,在閾值相同的情況下改進(jìn)后算法的查全率Q高于傳統(tǒng)SNM算法。同時隨著閾值設(shè)定越高,兩種算法的查全率隨之降低。

    通過圖5可以看出,改進(jìn)后算法的查準(zhǔn)率P雖然在某些情況下可能對于相似重復(fù)記錄的檢測比較低,但整體查準(zhǔn)率高于傳統(tǒng)SNM算法的查準(zhǔn)率,這也證明了改進(jìn)后的算法更適合普遍的中文文本數(shù)據(jù)重復(fù)清洗。

    5 結(jié) 語

    在傳統(tǒng)數(shù)據(jù)庫中,一般存放著大量的數(shù)據(jù)記錄,很多數(shù)據(jù)由于某些人為原因,使這些記錄構(gòu)成了相似重復(fù)記錄。目前現(xiàn)有的一些算法雖然可以對部分的英文相似重復(fù)記錄進(jìn)行檢測,但對中文數(shù)據(jù)的檢測還是有些欠缺。筆者在已有的SNM算法基礎(chǔ)上融合了《同義詞詞林?jǐn)U展版》以及Python中的Jieba分詞對其進(jìn)行改進(jìn),并通過對最后閾值的調(diào)節(jié)對同一數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)判定,并得到如下結(jié)論,不同閾值的設(shè)定對相似重復(fù)記錄有很大影響,如果要得到合適的結(jié)果需要對閾值的調(diào)節(jié)有一個合適的調(diào)控度。綜上所述,筆者提出的算法在對中文數(shù)據(jù)清洗時獲得了較好的效果。但還存在如下不足,由于數(shù)據(jù)集的數(shù)量較少,可能掩蓋了改進(jìn)算法的某些缺點(diǎn),在遇到較大的數(shù)據(jù)集時可能執(zhí)行效果較差,這也是未來工作中要解決的問題。

    猜你喜歡
    關(guān)鍵字語句閾值
    履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
    華人時刊(2022年1期)2022-04-26 13:39:28
    重點(diǎn):語句銜接
    成功避開“關(guān)鍵字”
    小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
    基于自適應(yīng)閾值和連通域的隧道裂縫提取
    精彩語句
    比值遙感蝕變信息提取及閾值確定(插圖)
    河北遙感(2017年2期)2017-08-07 14:49:00
    室內(nèi)表面平均氡析出率閾值探討
    如何搞定語句銜接題
    語文知識(2014年4期)2014-02-28 21:59:52
    基于用戶反饋的關(guān)系數(shù)據(jù)庫關(guān)鍵字查詢系統(tǒng)
    日韩av免费高清视频| 精品人妻视频免费看| 欧美bdsm另类| 成人漫画全彩无遮挡| 亚洲精品国产av成人精品| 如何舔出高潮| 欧美+日韩+精品| 在线观看av片永久免费下载| 97超视频在线观看视频| 国产在视频线精品| 蜜桃久久精品国产亚洲av| 免费观看精品视频网站| 我的老师免费观看完整版| 亚洲综合色惰| 美女内射精品一级片tv| 伊人久久国产一区二区| av天堂中文字幕网| 亚洲综合色惰| 国产亚洲精品久久久com| 国产亚洲一区二区精品| 人妻一区二区av| 国产爱豆传媒在线观看| 亚洲国产欧美人成| 欧美xxxx性猛交bbbb| 亚洲在线观看片| av天堂中文字幕网| 美女国产视频在线观看| 一本久久精品| 国产一区有黄有色的免费视频 | 熟女电影av网| 国产欧美另类精品又又久久亚洲欧美| 国内精品宾馆在线| 精品一区二区三卡| 国内精品美女久久久久久| 国产不卡一卡二| 一级毛片久久久久久久久女| 国产v大片淫在线免费观看| 国产亚洲精品av在线| 久久热精品热| 狂野欧美激情性xxxx在线观看| 成人性生交大片免费视频hd| 少妇的逼水好多| 中文天堂在线官网| 夫妻午夜视频| 天堂俺去俺来也www色官网 | 国产精品三级大全| 最近2019中文字幕mv第一页| 国产伦理片在线播放av一区| 亚洲精品日韩av片在线观看| 免费看美女性在线毛片视频| 中文字幕制服av| 不卡视频在线观看欧美| 五月伊人婷婷丁香| 国产精品久久视频播放| 国产综合懂色| 日本免费在线观看一区| 国产成人精品婷婷| 水蜜桃什么品种好| 欧美日本视频| eeuss影院久久| 搡老妇女老女人老熟妇| 蜜桃久久精品国产亚洲av| 欧美激情久久久久久爽电影| 久久99热这里只有精品18| 少妇猛男粗大的猛烈进出视频 | 国产精品一区二区三区四区免费观看| www.色视频.com| 国产精品久久视频播放| 精品一区二区三卡| 国产极品天堂在线| 嫩草影院新地址| 成人二区视频| 三级男女做爰猛烈吃奶摸视频| 亚洲欧美成人综合另类久久久| 亚洲欧美日韩卡通动漫| videos熟女内射| 精品国产露脸久久av麻豆 | 欧美日韩亚洲高清精品| 亚洲成色77777| 亚洲欧美成人综合另类久久久| 最近中文字幕2019免费版| 美女大奶头视频| 日本av手机在线免费观看| 一区二区三区乱码不卡18| 亚洲美女搞黄在线观看| 欧美日韩一区二区视频在线观看视频在线 | 极品少妇高潮喷水抽搐| 国产黄片美女视频| 国产精品人妻久久久影院| 色综合站精品国产| 国产中年淑女户外野战色| 欧美极品一区二区三区四区| 亚洲性久久影院| 日韩欧美精品v在线| 综合色丁香网| 亚洲av电影不卡..在线观看| 久久久久国产网址| 亚洲av免费在线观看| 男人和女人高潮做爰伦理| 欧美潮喷喷水| 精品久久久久久久久亚洲| 久久韩国三级中文字幕| 欧美一级a爱片免费观看看| 国产女主播在线喷水免费视频网站 | 成年av动漫网址| 夫妻性生交免费视频一级片| 亚洲真实伦在线观看| 中文精品一卡2卡3卡4更新| 精品熟女少妇av免费看| 免费av观看视频| 国产免费一级a男人的天堂| 久久久久精品久久久久真实原创| 少妇的逼好多水| 婷婷色综合www| 直男gayav资源| 成年女人在线观看亚洲视频 | 亚洲精品乱码久久久v下载方式| 日韩一区二区三区影片| 老女人水多毛片| 欧美高清成人免费视频www| 日韩在线高清观看一区二区三区| 内射极品少妇av片p| 人妻夜夜爽99麻豆av| 精品国产三级普通话版| 亚洲av电影在线观看一区二区三区 | 国产亚洲91精品色在线| 亚洲国产精品成人综合色| 韩国av在线不卡| 成人综合一区亚洲| 欧美日韩综合久久久久久| 又大又黄又爽视频免费| 免费看美女性在线毛片视频| 国产精品久久久久久精品电影小说 | 能在线免费观看的黄片| 十八禁网站网址无遮挡 | 欧美潮喷喷水| 欧美日韩精品成人综合77777| 欧美成人一区二区免费高清观看| 国产午夜精品一二区理论片| 久久久成人免费电影| 在现免费观看毛片| 国产成人freesex在线| 亚洲美女视频黄频| 亚洲人与动物交配视频| 亚洲成色77777| 国产男人的电影天堂91| 久久久色成人| av在线亚洲专区| 欧美bdsm另类| 亚洲欧美一区二区三区国产| 国产精品不卡视频一区二区| av免费观看日本| 97热精品久久久久久| 亚洲丝袜综合中文字幕| 又大又黄又爽视频免费| 三级毛片av免费| 国产成人freesex在线| 久久久久久久久大av| 国产人妻一区二区三区在| 日韩视频在线欧美| 久久久久精品久久久久真实原创| 乱系列少妇在线播放| 高清视频免费观看一区二区 | 秋霞伦理黄片| 久久精品国产自在天天线| 最后的刺客免费高清国语| 亚洲丝袜综合中文字幕| 国产伦精品一区二区三区视频9| 18禁裸乳无遮挡免费网站照片| 一级毛片aaaaaa免费看小| 亚洲国产精品sss在线观看| 一区二区三区乱码不卡18| 看黄色毛片网站| 看非洲黑人一级黄片| 最近手机中文字幕大全| 久久久欧美国产精品| 成人国产麻豆网| 亚洲国产色片| 波野结衣二区三区在线| 免费大片18禁| 亚洲三级黄色毛片| 97人妻精品一区二区三区麻豆| 精品久久久久久久末码| 日韩成人伦理影院| 免费电影在线观看免费观看| 干丝袜人妻中文字幕| 91精品国产九色| 精品熟女少妇av免费看| 69人妻影院| 午夜精品一区二区三区免费看| 久久99蜜桃精品久久| 亚洲国产最新在线播放| 99re6热这里在线精品视频| 亚洲av.av天堂| 国产精品国产三级国产专区5o| 亚洲经典国产精华液单| 亚洲av电影在线观看一区二区三区 | 精品国内亚洲2022精品成人| 热99在线观看视频| 麻豆av噜噜一区二区三区| 精品国产露脸久久av麻豆 | 国产欧美日韩精品一区二区| 国产成人免费观看mmmm| 特大巨黑吊av在线直播| 中文字幕av成人在线电影| 一二三四中文在线观看免费高清| 欧美日韩综合久久久久久| 国产欧美另类精品又又久久亚洲欧美| 成年av动漫网址| 22中文网久久字幕| 毛片一级片免费看久久久久| av在线亚洲专区| 国产 亚洲一区二区三区 | 水蜜桃什么品种好| 九草在线视频观看| 乱人视频在线观看| 国产色婷婷99| 日日撸夜夜添| 熟妇人妻不卡中文字幕| 亚洲成人精品中文字幕电影| 亚洲人与动物交配视频| 国产免费福利视频在线观看| 日韩av在线大香蕉| 麻豆成人av视频| 亚洲国产欧美在线一区| av线在线观看网站| 日本色播在线视频| 在线免费观看不下载黄p国产| 特级一级黄色大片| av一本久久久久| 国产在视频线在精品| 免费看a级黄色片| 国产亚洲精品久久久com| 亚洲精品一二三| 亚洲国产精品专区欧美| 青春草国产在线视频| 亚洲国产高清在线一区二区三| 在线观看美女被高潮喷水网站| 十八禁国产超污无遮挡网站| freevideosex欧美| 毛片女人毛片| 欧美最新免费一区二区三区| 91在线精品国自产拍蜜月| 99久久精品一区二区三区| 日韩制服骚丝袜av| 一级av片app| 1000部很黄的大片| 午夜福利视频1000在线观看| 一个人看的www免费观看视频| 久久久精品94久久精品| 亚洲在线观看片| 又大又黄又爽视频免费| 99久国产av精品| 日韩人妻高清精品专区| 日本欧美国产在线视频| 熟女电影av网| 一区二区三区免费毛片| 岛国毛片在线播放| 青青草视频在线视频观看| 欧美97在线视频| 草草在线视频免费看| 人妻系列 视频| 国产免费福利视频在线观看| 亚洲精品国产av成人精品| www.av在线官网国产| 欧美另类一区| 久久精品熟女亚洲av麻豆精品 | 又爽又黄无遮挡网站| 国产精品综合久久久久久久免费| 美女cb高潮喷水在线观看| 国产成人精品福利久久| 国产黄片视频在线免费观看| 尾随美女入室| 成人特级av手机在线观看| 乱码一卡2卡4卡精品| 亚洲精品日韩av片在线观看| 欧美3d第一页| av播播在线观看一区| 国产精品一区www在线观看| 九九在线视频观看精品| 久久午夜福利片| 免费av观看视频| 中文精品一卡2卡3卡4更新| 日本三级黄在线观看| 国产一区二区三区av在线| 乱系列少妇在线播放| 肉色欧美久久久久久久蜜桃 | 久久精品国产亚洲av天美| 国产三级在线视频| 韩国高清视频一区二区三区| 国产黄色免费在线视频| 97精品久久久久久久久久精品| 免费观看av网站的网址| 久久久久九九精品影院| 亚洲成人av在线免费| 观看美女的网站| 80岁老熟妇乱子伦牲交| av又黄又爽大尺度在线免费看| 直男gayav资源| 精华霜和精华液先用哪个| 国产美女午夜福利| 中文字幕av成人在线电影| 大香蕉97超碰在线| 成年女人看的毛片在线观看| 毛片女人毛片| 日本黄大片高清| 一区二区三区乱码不卡18| 成年版毛片免费区| 日韩av在线大香蕉| 亚洲在久久综合| 中国国产av一级| 成人一区二区视频在线观看| 亚洲内射少妇av| 免费黄频网站在线观看国产| 美女国产视频在线观看| 午夜久久久久精精品| 少妇丰满av| 欧美3d第一页| 免费观看a级毛片全部| 秋霞在线观看毛片| 天天躁夜夜躁狠狠久久av| 男人和女人高潮做爰伦理| 国产av码专区亚洲av| 男女视频在线观看网站免费| 黄色配什么色好看| 久久6这里有精品| 欧美人与善性xxx| 我要看日韩黄色一级片| 亚洲国产日韩欧美精品在线观看| 最近视频中文字幕2019在线8| 成人欧美大片| 激情五月婷婷亚洲| 亚洲人成网站在线观看播放| 国产视频首页在线观看| 亚洲精品一二三| 亚洲精品国产成人久久av| 国产淫语在线视频| 一边亲一边摸免费视频| 天堂av国产一区二区熟女人妻| 久久久国产一区二区| 国产日韩欧美在线精品| 黑人高潮一二区| av黄色大香蕉| 亚洲精品乱久久久久久| 夜夜爽夜夜爽视频| 男女边吃奶边做爰视频| 赤兔流量卡办理| 国产亚洲午夜精品一区二区久久 | 22中文网久久字幕| 久99久视频精品免费| 身体一侧抽搐| 国产片特级美女逼逼视频| av.在线天堂| 亚洲精品国产av成人精品| 国产老妇女一区| 亚洲精品影视一区二区三区av| 国产毛片a区久久久久| 日韩成人av中文字幕在线观看| 中文资源天堂在线| 视频中文字幕在线观看| 国产一区二区三区综合在线观看 | 国产精品爽爽va在线观看网站| 国产成人a区在线观看| 美女黄网站色视频| 亚洲三级黄色毛片| 丰满乱子伦码专区| 97超碰精品成人国产| 国产精品日韩av在线免费观看| 可以在线观看毛片的网站| 麻豆国产97在线/欧美| av专区在线播放| 精品久久久久久久久av| 少妇的逼水好多| or卡值多少钱| 国产探花极品一区二区| 色播亚洲综合网| h日本视频在线播放| 免费观看无遮挡的男女| 欧美最新免费一区二区三区| 春色校园在线视频观看| 午夜福利网站1000一区二区三区| 51国产日韩欧美| 亚洲精品日韩av片在线观看| 亚洲欧美中文字幕日韩二区| 中文天堂在线官网| 久久久久性生活片| 亚洲国产精品sss在线观看| 成年免费大片在线观看| 91av网一区二区| 99久国产av精品| 26uuu在线亚洲综合色| 蜜桃久久精品国产亚洲av| 国产伦精品一区二区三区视频9| 亚洲国产精品国产精品| av又黄又爽大尺度在线免费看| 黄色欧美视频在线观看| 色吧在线观看| 熟妇人妻不卡中文字幕| 哪个播放器可以免费观看大片| 欧美 日韩 精品 国产| av网站免费在线观看视频 | 国产在线男女| 青青草视频在线视频观看| 国产一区二区三区综合在线观看 | 校园人妻丝袜中文字幕| 成人亚洲精品一区在线观看 | 精品午夜福利在线看| 免费人成在线观看视频色| 日韩av免费高清视频| 80岁老熟妇乱子伦牲交| 日本免费a在线| www.av在线官网国产| 亚洲精品影视一区二区三区av| 最近中文字幕2019免费版| 禁无遮挡网站| 亚洲精品亚洲一区二区| 91精品国产九色| 亚洲美女视频黄频| 欧美一级a爱片免费观看看| 亚洲国产欧美人成| 搞女人的毛片| 久久午夜福利片| 欧美日韩一区二区视频在线观看视频在线 | 日本爱情动作片www.在线观看| 色综合色国产| 男插女下体视频免费在线播放| 我的老师免费观看完整版| 少妇人妻精品综合一区二区| 国产一区二区三区av在线| 国产91av在线免费观看| 日韩三级伦理在线观看| kizo精华| 在线观看免费高清a一片| 欧美最新免费一区二区三区| 在线 av 中文字幕| 蜜臀久久99精品久久宅男| 青春草国产在线视频| 黄片wwwwww| 乱码一卡2卡4卡精品| 亚洲内射少妇av| 亚洲无线观看免费| 一二三四中文在线观看免费高清| 日本-黄色视频高清免费观看| 人妻少妇偷人精品九色| av播播在线观看一区| 中文字幕免费在线视频6| 亚洲av.av天堂| 国产探花在线观看一区二区| 免费大片18禁| 精品不卡国产一区二区三区| 中文乱码字字幕精品一区二区三区 | 禁无遮挡网站| 亚洲av国产av综合av卡| 中文字幕制服av| 日韩大片免费观看网站| 欧美变态另类bdsm刘玥| 青青草视频在线视频观看| 国产黄片美女视频| 在线免费十八禁| 人人妻人人澡欧美一区二区| 内地一区二区视频在线| 国产精品一区二区三区四区久久| 尾随美女入室| 97热精品久久久久久| 一区二区三区高清视频在线| 国产一级毛片在线| 国产成人免费观看mmmm| 久久久久久久久中文| 免费观看性生交大片5| 国产男女超爽视频在线观看| 亚洲成人久久爱视频| 久久99蜜桃精品久久| 日本三级黄在线观看| 久久精品久久久久久久性| 三级国产精品欧美在线观看| 国产精品国产三级国产专区5o| 人人妻人人澡欧美一区二区| 久久久久久久久久久丰满| 高清av免费在线| 色5月婷婷丁香| 精品久久久久久久末码| 天天躁夜夜躁狠狠久久av| 极品教师在线视频| 精品国产露脸久久av麻豆 | 美女脱内裤让男人舔精品视频| 老司机影院成人| 亚洲精品,欧美精品| 色尼玛亚洲综合影院| 国产黄a三级三级三级人| 国产午夜精品论理片| 毛片一级片免费看久久久久| av网站免费在线观看视频 | 亚洲精品久久久久久婷婷小说| 极品教师在线视频| xxx大片免费视频| 亚洲性久久影院| 能在线免费看毛片的网站| 中文字幕av成人在线电影| 亚洲国产成人一精品久久久| 欧美精品国产亚洲| 麻豆成人av视频| 精品久久久精品久久久| 亚洲精品亚洲一区二区| 亚洲美女搞黄在线观看| 国国产精品蜜臀av免费| 三级经典国产精品| 日韩 亚洲 欧美在线| av免费观看日本| 国产成人精品一,二区| 久久综合国产亚洲精品| 亚洲国产高清在线一区二区三| 久久精品国产亚洲网站| 国产成人91sexporn| 看黄色毛片网站| 国产成人a∨麻豆精品| av网站免费在线观看视频 | 人人妻人人澡欧美一区二区| 午夜久久久久精精品| or卡值多少钱| 欧美区成人在线视频| 97精品久久久久久久久久精品| 日韩精品有码人妻一区| 日韩一区二区视频免费看| 免费观看无遮挡的男女| 国内少妇人妻偷人精品xxx网站| 久久久久久久大尺度免费视频| 亚洲av福利一区| 伊人久久精品亚洲午夜| 亚洲四区av| 亚洲成人精品中文字幕电影| 亚洲人成网站高清观看| 搡老妇女老女人老熟妇| 麻豆久久精品国产亚洲av| 国产精品伦人一区二区| 又粗又硬又长又爽又黄的视频| 国产成人freesex在线| 日韩亚洲欧美综合| 哪个播放器可以免费观看大片| 免费少妇av软件| 最近中文字幕高清免费大全6| 大话2 男鬼变身卡| 女人被狂操c到高潮| 五月玫瑰六月丁香| 人妻制服诱惑在线中文字幕| 人妻少妇偷人精品九色| 26uuu在线亚洲综合色| 久久这里有精品视频免费| 国产精品久久久久久av不卡| 午夜日本视频在线| 乱码一卡2卡4卡精品| 一级毛片久久久久久久久女| 大话2 男鬼变身卡| 中文字幕亚洲精品专区| 国产黄a三级三级三级人| 看十八女毛片水多多多| 国产精品美女特级片免费视频播放器| 又大又黄又爽视频免费| 午夜免费男女啪啪视频观看| 一区二区三区乱码不卡18| av播播在线观看一区| 精品久久久噜噜| 免费观看无遮挡的男女| 91午夜精品亚洲一区二区三区| 日日啪夜夜爽| 在线观看美女被高潮喷水网站| 日本黄大片高清| 久久久久久久国产电影| a级毛片免费高清观看在线播放| 亚洲成人av在线免费| 美女高潮的动态| 亚洲av成人av| 亚洲经典国产精华液单| 建设人人有责人人尽责人人享有的 | 日韩欧美精品v在线| 精品一区二区三卡| 国产精品久久久久久av不卡| 国产精品国产三级专区第一集| 日本一本二区三区精品| 一区二区三区四区激情视频| 91午夜精品亚洲一区二区三区| 亚洲天堂国产精品一区在线| or卡值多少钱| 国产一级毛片七仙女欲春2| 亚洲av电影不卡..在线观看| 国产视频首页在线观看| 日本-黄色视频高清免费观看| 久久久久久久大尺度免费视频| 亚洲国产欧美人成| 精品国产露脸久久av麻豆 | 汤姆久久久久久久影院中文字幕 | www.色视频.com| 国产伦在线观看视频一区| 麻豆成人午夜福利视频| 精品一区二区免费观看| 亚洲在久久综合| 日韩 亚洲 欧美在线| 最近最新中文字幕免费大全7| 日韩,欧美,国产一区二区三区| 国产麻豆成人av免费视频| 日韩大片免费观看网站| 岛国毛片在线播放| 国产精品国产三级国产专区5o| xxx大片免费视频| 一个人看的www免费观看视频| 国产亚洲一区二区精品| 九色成人免费人妻av| 精品国产一区二区三区久久久樱花 | 精品久久久久久电影网| 中国美白少妇内射xxxbb| 五月天丁香电影| 亚洲国产精品专区欧美| 日本熟妇午夜| 亚洲人与动物交配视频| 国产欧美另类精品又又久久亚洲欧美| 国产精品.久久久|