• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    2022-01-20 06:28:40張晨陽(yáng)段國(guó)云文春生
    關(guān)鍵詞:查重分詞文檔

    張晨陽(yáng) 段國(guó)云 文春生

    基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    張晨陽(yáng)a段國(guó)云b文春生a

    (湖南科技學(xué)院 a.信息工程學(xué)院;b.信息與網(wǎng)絡(luò)中心,湖南 永州 425199)

    為解決文本數(shù)據(jù)的個(gè)性化查重問(wèn)題,提出基于Simhash算法的文本查重的方法,設(shè)計(jì)并實(shí)現(xiàn)了系統(tǒng)原型。首先,闡述了文本相似度模型和計(jì)算算法;其次,根據(jù)需求規(guī)劃設(shè)計(jì)了系統(tǒng)整體實(shí)現(xiàn)架構(gòu)并詳細(xì)描述其設(shè)計(jì)過(guò)程;再次,描述了查重算法和查重功能模塊實(shí)現(xiàn)的詳細(xì)流程;最后,對(duì)系統(tǒng)原型進(jìn)行功能測(cè)試和算法相似度計(jì)算準(zhǔn)確性測(cè)試。實(shí)驗(yàn)證明:在小規(guī)模文本文檔樣本中,系統(tǒng)能較好的實(shí)現(xiàn)文本相似度的計(jì)算和特征庫(kù)的個(gè)性化定制,可集成并適用于小規(guī)模企業(yè)辦公系統(tǒng)等平臺(tái)的文本相似性查重環(huán)境。

    Simhash算法;文本相似度;余弦相似度;文本查重;Flask框架

    隨著互聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的高速發(fā)展,用戶正在從數(shù)據(jù)的接受者向數(shù)據(jù)的制造者轉(zhuǎn)變,遠(yuǎn)端數(shù)據(jù)存儲(chǔ)容量呈爆炸式增長(zhǎng)[1]。用戶利用網(wǎng)絡(luò)可在個(gè)人云盤(pán)、企業(yè)網(wǎng)盤(pán)、社交網(wǎng)等平臺(tái)上發(fā)布視頻、上傳文檔和圖片等資料,用戶在為互聯(lián)網(wǎng)做出貢獻(xiàn)的同時(shí)也制造了大量的冗余數(shù)據(jù)。相關(guān)研究表明,當(dāng)前一些存儲(chǔ)系統(tǒng)中的數(shù)據(jù)冗余量已達(dá)到60%[2],且呈現(xiàn)上升趨勢(shì)。如何對(duì)文本進(jìn)行原創(chuàng)性檢測(cè)、對(duì)文本中內(nèi)容進(jìn)行相似度對(duì)比檢測(cè),成為文本檢測(cè)領(lǐng)域亟需解決的重要問(wèn)題。

    近年來(lái),研究者在文本檢測(cè)領(lǐng)域取得了大量的研究成果,突出成果在工業(yè)界得到了應(yīng)用和推廣。其中Simhash算法成為近似文本檢測(cè)領(lǐng)域的主流方法之一,文獻(xiàn)[3]針對(duì)Simhash算法中近似文本指紋位數(shù)單一而丟失一定信息量的缺點(diǎn),提出了基于多Simhash指紋和K維超曲面的近似文本檢測(cè)方法。文獻(xiàn)[4]從提升Simhash算法去重效果、提高準(zhǔn)確率的角度出發(fā),提出了基于信息熵加權(quán)的改正算法E-Simhash。文獻(xiàn)[5]基于LDA(Latent Dirichlet Allocation,狄利克雷分布)和Doc2Vec模型提出HybridDL文本相似度檢測(cè)算法,以便提高文本檢測(cè)的準(zhǔn)確度。文本查重算法被廣泛應(yīng)用于知網(wǎng)、百度網(wǎng)盤(pán)、阿里云盤(pán)等大型平臺(tái)并融入到文本檢測(cè)產(chǎn)品中。文本相似度檢測(cè)技術(shù)雖然應(yīng)用廣泛,但市場(chǎng)上沒(méi)有出現(xiàn)針對(duì)有保密要求、個(gè)人文檔對(duì)比需求等特殊場(chǎng)景的文本檢測(cè)工具。本文設(shè)計(jì)一款基于Simhash算法的文本相似度檢測(cè)系統(tǒng),該系統(tǒng)可以個(gè)性化定制內(nèi)部文本查重庫(kù),以解決企業(yè)文件、原創(chuàng)性文檔等特殊場(chǎng)景下用戶文本檢測(cè)的問(wèn)題。

    1 相關(guān)技術(shù)

    1.1 文本相似度模型

    判斷兩個(gè)文本內(nèi)容是否重合其實(shí)質(zhì)是對(duì)兩個(gè)文本的相似性進(jìn)行計(jì)算[6]。相似度為0則表明對(duì)比的兩個(gè)文本完全不同,相似度為1則說(shuō)明兩個(gè)文本內(nèi)容完全相同,其相似程度取值在[0,1]之間,通常采用百分率表示。如有文本文件M和參照文檔N,其內(nèi)容相似性定義為M、N之間相匹配元素變量的個(gè)數(shù)之和與M中所有元素個(gè)數(shù)的絕對(duì)比值,而Sim用于性能衡量,Sim越趨近于1說(shuō)明兩個(gè)文件越相似,sim越趨近于0則兩個(gè)文本相似度極低。設(shè)向量集合是文件的元素集合,向量集合是文件的元素集合,是文件和元素集合之間匹配后的交集,文本文件的相似度模型如圖1所示。

    圖1 文本相似度模型

    1.2 余弦相似度算法

    1)余弦相似度原理

    余弦相似度是通過(guò)比較兩個(gè)向量?jī)?nèi)積空間夾角余弦值的大小來(lái)對(duì)他們之間的相似度進(jìn)行比較。當(dāng)兩個(gè)向量完全重合且方向相同時(shí)夾角余弦值為0,兩個(gè)向量指向相反時(shí)其余弦相似度值為-1,余弦值的取值范圍為[-1,1],其值的大小與向量指向的方向有關(guān),而與向量長(zhǎng)度無(wú)關(guān)[7-8]。但對(duì)文本而言,在比較過(guò)程中只考慮向量的方向而不考慮其規(guī)模的大小。向量夾角的取值通常小于90°,由此得知取值范圍是[0,1]。因此,它可以用于任何維度向量的比較中,尤其在高維度向量空間的比較中應(yīng)用更為廣泛。當(dāng)進(jìn)行信息檢索時(shí),每個(gè)詞條都擁有不同的權(quán)重,每一個(gè)文檔由一個(gè)擁有權(quán)值的特征向量來(lái)表示,權(quán)值的大小取決于該詞在文本中出現(xiàn)的頻次大小,通過(guò)計(jì)算余弦相似度就可以給出兩個(gè)文本在其內(nèi)容上的相似度。

    2)TF-IDF權(quán)重計(jì)算

    通過(guò)IDF值的計(jì)算,可做到少數(shù)罕見(jiàn)單詞的值比較高,多數(shù)低頻單詞的值比較低。然后通過(guò)TF-IDF的計(jì)算公式TF-IDF = TF * IDF進(jìn)行計(jì)算,對(duì)文檔向量化后的每個(gè)詞項(xiàng)分配一個(gè)權(quán)重,若不含這個(gè)詞則權(quán)重值為0。

    3)余弦相似度計(jì)算

    基于余弦相似度計(jì)算的原理,文中將每個(gè)已經(jīng)分好詞和去停用字的文本進(jìn)行文本向量化,分別記為向量D1和向量D2,并且將文本中每個(gè)詞項(xiàng)的權(quán)重進(jìn)行精確計(jì)算,由于每個(gè)文本的向量維度相同,因而比較這兩個(gè)文檔的相似性就是通過(guò)計(jì)算這兩個(gè)詞項(xiàng)向量之間夾角的 cos值來(lái)進(jìn)行判斷。相似度值的計(jì)算方法如公式(2)所示:

    公式中分母代表的是每篇文檔經(jīng)TF處理后的向量模的乘積,分子代表的是經(jīng)比較文檔中TF后的兩個(gè)向量的乘積,如果兩個(gè)向量夾角的余弦值越趨向于1,則說(shuō)明兩個(gè)文檔的相似度越高,反之越低。

    2 系統(tǒng)設(shè)計(jì)

    2.1 性能需求分析

    本節(jié)以文本文件對(duì)比查重的性能優(yōu)化為需求展開(kāi)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)工作。設(shè)計(jì)初期充分調(diào)研現(xiàn)有的查重系統(tǒng),分析其使用過(guò)程中所出現(xiàn)的問(wèn)題,分析影響系統(tǒng)性能所面臨的問(wèn)題,結(jié)合優(yōu)化設(shè)計(jì)目標(biāo)按問(wèn)題類型對(duì)其進(jìn)行細(xì)分,帶著提高系統(tǒng)性能的目標(biāo)進(jìn)行文本查重系統(tǒng)的設(shè)計(jì)。影響系統(tǒng)性能的要素有很多,在此選擇提高結(jié)果精度和計(jì)算速度為設(shè)計(jì)目標(biāo),研究解決影響因素以提高系統(tǒng)的整體性能。系統(tǒng)性能優(yōu)化設(shè)計(jì)出發(fā)點(diǎn)在于提高結(jié)果精確度和計(jì)算速度,結(jié)果精度將從文本查重的匹配度和相似度算法兩個(gè)角度展開(kāi)研究,計(jì)算速度將從文本的相似度算法的時(shí)間復(fù)雜度、返回文本數(shù)的設(shè)置和文本檢索速度三個(gè)方面下手以提高整體性能。系統(tǒng)性能需求分析要點(diǎn)如圖2所示:

    圖2 系統(tǒng)性能需求分析

    2.2 系統(tǒng)整體框架

    文中系統(tǒng)采用B/S(Browser/Server,瀏覽器/服務(wù)器)結(jié)構(gòu)進(jìn)行設(shè)計(jì),由用戶端和管理端兩個(gè)部分組成,以數(shù)據(jù)庫(kù)為樞紐完成用戶端和管理端數(shù)據(jù)的交互,設(shè)計(jì)兩級(jí)權(quán)限管理體系實(shí)現(xiàn)不同用戶、不同層級(jí)權(quán)限針對(duì)不同操作模塊的精細(xì)化授權(quán)。普通用戶端和管理端兩個(gè)部分所設(shè)計(jì)的功能不同,用戶端設(shè)計(jì)注冊(cè)、登錄、文本上傳、查重和報(bào)告管理五個(gè)二級(jí)模塊;管理端設(shè)計(jì)對(duì)比庫(kù)管理、用戶管理、文本庫(kù)上傳、統(tǒng)計(jì)分析、報(bào)告模板管理和系統(tǒng)管理六個(gè)模塊;相似度和權(quán)重計(jì)算算法單獨(dú)設(shè)計(jì)模塊供查重模塊調(diào)度使用;為方便管理,文本特征庫(kù)通過(guò)管理端授權(quán)獨(dú)立管理;系統(tǒng)數(shù)據(jù)的傳輸加密、存儲(chǔ)加密由安全檢測(cè)模塊負(fù)責(zé)。系統(tǒng)功能模塊劃分及整體架構(gòu)如圖3所示:

    圖3 系統(tǒng)功能整體架構(gòu)

    普通用戶在用戶端經(jīng)注冊(cè)并審核通過(guò)后可登錄系統(tǒng),通過(guò)權(quán)限認(rèn)證、系統(tǒng)裝載后進(jìn)入用戶主界面進(jìn)行權(quán)限內(nèi)功能模塊的操作,可上傳查重目標(biāo)文件、選擇查重參照文本庫(kù)后進(jìn)行相似度計(jì)算,系統(tǒng)調(diào)用用戶組指定的模板進(jìn)行對(duì)比數(shù)據(jù)填充形成相似度檢測(cè)報(bào)告,用戶在報(bào)告管理模塊對(duì)查重報(bào)告進(jìn)行刪除、管理并下載使用。管理員權(quán)限分超級(jí)管理員、審計(jì)管理員和普通管理員,超級(jí)管理員之外的管理用戶ID均通過(guò)初始化超級(jí)管理員后進(jìn)行分配,超級(jí)管理員可定制其他管理員的功能權(quán)限。管理員登錄后,可以對(duì)文本特征庫(kù)、查重報(bào)告模板進(jìn)行增加、刪除、修改、查詢操作,可以針對(duì)某一特殊需求創(chuàng)建某一類型的文本特征庫(kù),文本特征可線下編輯并上傳到新創(chuàng)建的特征文本庫(kù)中以便系統(tǒng)對(duì)其進(jìn)行初始化操作。

    2.3 查重模塊設(shè)計(jì)

    采用余弦相似度算法對(duì)查重模塊進(jìn)行設(shè)計(jì),工作時(shí)調(diào)用相似度算法和權(quán)重算法模塊,其中Simhash算法的設(shè)計(jì)由文本分詞、Hash計(jì)算、加權(quán)賦值、向量合并、降維五個(gè)步驟組成。首先,對(duì)于目標(biāo)文檔中的文本語(yǔ)句按選定對(duì)比庫(kù)的特征進(jìn)行分詞,按1-5級(jí)劃分得到其中有效的特征向量等級(jí);如果特征向量是文本中的詞且其值落在等級(jí)范圍之內(nèi),那向量值就代表這個(gè)特征向量出現(xiàn)的次數(shù),詞的權(quán)重值與向量值相等。其次,通過(guò)Hash函數(shù)把文本中每個(gè)特征向量的Hash值計(jì)算出來(lái),其中Hash值由0和1組成。再次,給擁有Hash值的特征向量進(jìn)行加權(quán),加權(quán)的計(jì)算方法為W=Hash*Weight,當(dāng)遇到Hash值為1時(shí),向量與權(quán)值正相乘,反之則與權(quán)值負(fù)相乘。然后,合并累加單個(gè)文本中所有特征向量的加權(quán)結(jié)果,形成一個(gè)序列串。最后,我們可以對(duì)權(quán)值進(jìn)行降維,如果合并的累加結(jié)果大于0則置為1,反之置為0,從而可以得出文檔文本的Simhash值。由此,根據(jù)文檔中不同文本之間的海明距離(Hamming Distance)計(jì)算得到其相似度。

    3 關(guān)鍵功能的實(shí)現(xiàn)

    文中所設(shè)計(jì)的系統(tǒng)采用Python語(yǔ)言結(jié)合Flask框架和MongoDB數(shù)據(jù)庫(kù)實(shí)現(xiàn)系統(tǒng)的開(kāi)發(fā),如下詳細(xì)介紹相似度查重算法、用戶查重流程兩個(gè)關(guān)鍵功能的實(shí)現(xiàn)過(guò)程。

    3.1 相似度查重算法

    文本相似度主要采用Simhash算法、分詞算法并結(jié)合海明距離計(jì)算進(jìn)行實(shí)現(xiàn)。Simhash算法的主要思想是降維[10],將高維的特征向量映射成一個(gè)f-bit的指紋,通過(guò)比較兩個(gè)文本f-bit指紋的海明距離來(lái)確定內(nèi)容是否重復(fù)并計(jì)算出兩者的相似度值。具體計(jì)算過(guò)程分為五步[11]:

    1)基于傳統(tǒng)的IR方法,將分詞后的文本數(shù)據(jù)轉(zhuǎn)換為由加權(quán)特征值構(gòu)成的向量組。

    2)初始化一個(gè)多維(定義為維)向量,其中每維的初始值為0。

    3)針對(duì)文本特征向量集中的單個(gè)特征做簽名計(jì)算。計(jì)算思路是將傳統(tǒng)的Hash算法映射到一個(gè)f-bit的簽名,如果簽名的第維上為1,則對(duì)向量V中第維加上這個(gè)特征的權(quán)值,否則對(duì)向量的第i維減去該特征的權(quán)值。

    4)對(duì)整個(gè)特征向量集合進(jìn)行-bit迭代計(jì)算,由中每維向量符號(hào)確定生成-bit指紋值,如果第維為正數(shù),則第維指紋為1,否則為0。

    5)計(jì)算海明距離。通過(guò)將文本向量化后,如得到10101和00110兩個(gè)比特?cái)?shù),通過(guò)海明距離計(jì)算算法對(duì)兩個(gè)比特串進(jìn)行計(jì)算得到其值為3。

    通過(guò)上述五個(gè)步驟,由相似度查重算法模塊計(jì)算文本之間的相似度,其實(shí)現(xiàn)過(guò)程中關(guān)鍵函數(shù)的代碼如圖4所示:

    圖4 相似度計(jì)算函數(shù)關(guān)鍵代碼

    針對(duì)文本分詞進(jìn)行測(cè)試,從0分詞到利用海明距離對(duì)兩個(gè)文本向量進(jìn)行對(duì)比分析,通過(guò)關(guān)鍵代碼進(jìn)行測(cè)試。測(cè)試時(shí)創(chuàng)建3個(gè)txt文檔,第一個(gè)文檔內(nèi)容為“基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)”,第二個(gè)文檔內(nèi)容為“基于Selenium的在線文本查重的設(shè)計(jì)與實(shí)現(xiàn)”,第三個(gè)文檔添加前兩個(gè)文檔的全部?jī)?nèi)容,定義前兩個(gè)文檔為測(cè)試文檔,第三個(gè)文檔作為中文停詞庫(kù)。首先定義Simhash算法,利用jieba分詞對(duì)兩個(gè)文檔進(jìn)行分詞操作,接下來(lái)是按照相對(duì)應(yīng)的權(quán)重對(duì)分詞后的詞進(jìn)行分詞操作,然后設(shè)計(jì)文本對(duì)比函數(shù),打開(kāi)第三個(gè)文本,將前兩個(gè)文本與第三個(gè)文本中的分詞進(jìn)行對(duì)比分析,最后可得出兩個(gè)文本的文本相似度。文本查重效果如圖5所示:

    圖5 文本查重實(shí)現(xiàn)測(cè)試

    3.2 查重功能的實(shí)現(xiàn)

    文本查重功能的實(shí)現(xiàn)流程是文中系統(tǒng)的核心工作,由文本上傳、特征庫(kù)選擇、查重計(jì)算和報(bào)告生成四個(gè)流程協(xié)調(diào)完成。用戶通過(guò)登錄驗(yàn)證和權(quán)限鑒別后進(jìn)入文本查重功能區(qū),通過(guò)上傳文本文件后選擇特征庫(kù)進(jìn)行查重計(jì)算,通過(guò)調(diào)用相似度和權(quán)重計(jì)算算法完成目標(biāo)文本與特征庫(kù)內(nèi)容相似度值的計(jì)算,最后將計(jì)算結(jié)果存入數(shù)據(jù)庫(kù),調(diào)用報(bào)告模板生成查重報(bào)告。其實(shí)現(xiàn)的流程如圖6所示:

    圖6 文本查重實(shí)現(xiàn)流程

    文本上傳模塊主要目標(biāo)是為用戶提供文本文件上傳的入口,通過(guò)識(shí)別并轉(zhuǎn)化文本編碼后以指定的編碼格式存入數(shù)據(jù)庫(kù)中;查重時(shí)系統(tǒng)從庫(kù)中讀取與特征庫(kù)相同編碼的被測(cè)文本完成相似度計(jì)算,調(diào)用過(guò)程中如發(fā)現(xiàn)編碼不同需采用轉(zhuǎn)換函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換。查重模塊首先需對(duì)目標(biāo)文本進(jìn)行預(yù)處理,包括對(duì)文本進(jìn)行分詞、加權(quán)、權(quán)值、降維等操作,其次將處理后的目標(biāo)文本內(nèi)容與特征庫(kù)文本逐次進(jìn)行相似度檢驗(yàn),通過(guò)逐次對(duì)比后獲取重復(fù)的部分,最后統(tǒng)計(jì)相似內(nèi)容數(shù)量得出相似度值和相似內(nèi)容后存放于數(shù)據(jù)庫(kù)中,為查重報(bào)告的生成提供依據(jù)。文中系統(tǒng)以查詢時(shí)間生成報(bào)告文件名,管理員根據(jù)特征庫(kù)為用戶配置報(bào)告模板供生成查重報(bào)告使用。

    4 系統(tǒng)測(cè)試實(shí)驗(yàn)

    4.1 實(shí)驗(yàn)環(huán)境

    文中開(kāi)發(fā)了系統(tǒng)原型,在實(shí)驗(yàn)室部署了測(cè)試環(huán)境,服務(wù)器硬件為單路Intel(R) Xeon(R) E5-2683 V4 CPU,提供2.1GHz的頻率和32個(gè)線程,配64G ECC內(nèi)核;網(wǎng)絡(luò)環(huán)境采用RG-S2910-24GT4XS-E二層交換機(jī)連接服務(wù)器和測(cè)試筆記本;操作系統(tǒng)是Windows Server 2016,數(shù)據(jù)庫(kù)系統(tǒng)選用MongoDB 4.4.6,采用Python3.7作為解釋器并安裝好所需的依賴包,選用Flask 2.02作為Web服務(wù)框架,在Pycharm中運(yùn)行原型系統(tǒng)提供測(cè)試服務(wù)。

    4.2 查重功能測(cè)試

    系統(tǒng)主要針對(duì)企業(yè)內(nèi)部文件查重和個(gè)人重復(fù)文本對(duì)比的個(gè)性化需求應(yīng)用場(chǎng)景,實(shí)驗(yàn)過(guò)程中沒(méi)有知網(wǎng)、萬(wàn)方、Paperyy等論文查重平臺(tái)對(duì)比特征庫(kù),無(wú)法完成此類大型平臺(tái)的對(duì)比。本文通過(guò)上傳50篇技術(shù)文檔構(gòu)建一個(gè)文本特征庫(kù),每個(gè)文本文檔限定為1000字50個(gè)句子;再?gòu)?0篇文檔中任意抽1個(gè)、5個(gè)、10個(gè)句子構(gòu)建測(cè)試用例,通過(guò)普通用戶端權(quán)限上傳目標(biāo)文檔并選擇文本特征庫(kù)對(duì)其進(jìn)行測(cè)試。測(cè)試結(jié)果表明文中系統(tǒng)能夠計(jì)算目標(biāo)文檔重復(fù)文字相似率、能按系統(tǒng)設(shè)計(jì)的文字顏色將其中重復(fù)的文字較好地標(biāo)記出來(lái)、能根據(jù)模板和計(jì)算結(jié)果生成查重報(bào)告,實(shí)現(xiàn)了系統(tǒng)設(shè)計(jì)的功能。

    4.3 查重性能測(cè)試

    性能實(shí)驗(yàn)主要針對(duì)文中系統(tǒng)文本查重相似度計(jì)算的準(zhǔn)確率展開(kāi)測(cè)試,測(cè)試算法在檢測(cè)過(guò)程中分詞、對(duì)比等性能的穩(wěn)定性。實(shí)驗(yàn)中構(gòu)建10個(gè)特征庫(kù)從管理端上傳到系統(tǒng)中,再構(gòu)建10個(gè)目標(biāo)測(cè)試文本文件,目標(biāo)文件從特征庫(kù)文本數(shù)據(jù)中取一定比例的重復(fù)內(nèi)容,比例控制分別與對(duì)應(yīng)測(cè)試庫(kù)的相似率從0%到100%按10%遞增。將測(cè)試目標(biāo)文件從用戶端上傳并選擇對(duì)應(yīng)的特征庫(kù)進(jìn)行測(cè)試,每個(gè)目標(biāo)測(cè)試文件測(cè)5次,取相似度數(shù)據(jù)的平均值后再與制定的重復(fù)比例對(duì)比,計(jì)算測(cè)試的準(zhǔn)確率。測(cè)試結(jié)果表明文中系統(tǒng)能較精確的計(jì)算目標(biāo)文檔重復(fù)文字相似率,算法測(cè)試的平均準(zhǔn)確率在99.7%以上,當(dāng)文本相似度越高時(shí)查重相似率計(jì)算的準(zhǔn)確度越高,反映出相似度算法計(jì)算的穩(wěn)定性。

    5 結(jié) 語(yǔ)

    本文基于Simhash算法開(kāi)發(fā)了可自定義特征庫(kù)的文本查重系統(tǒng)原型。通過(guò)對(duì)被測(cè)目標(biāo)文本進(jìn)行分詞、Hash、加權(quán)、合并、降維等系列操作后,再使用海明距離與特征庫(kù)文本進(jìn)行相似度對(duì)比,完成文本的相似度檢測(cè)。經(jīng)功能和性能實(shí)驗(yàn)測(cè)試,所開(kāi)發(fā)的系統(tǒng)能較好的完成系統(tǒng)的設(shè)計(jì)目標(biāo),算法有較好的穩(wěn)定性。系統(tǒng)適用于個(gè)性化定制需求,可用于文本對(duì)比、日志文本數(shù)據(jù)處理分析等應(yīng)用場(chǎng)景,但離大規(guī)模企業(yè)應(yīng)用還有一定的距離。

    [1]Chen T.Analysis of computer data processing mode based on big data era[J]. Agro Food Industry Hi-tech, 2017, 28(1): 828-831.

    [2]Clements A T,Ahmad I,Vilayannur M,et al. Decentralized deduplication in SAN cluster file systems[C]// Usenix Technical Conference, 2009.

    [3]董博,鄭慶華,宋凱磊,田鋒,馬瑞.基于多SimHash指紋的近似文本檢測(cè)[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(11):2152- 2157.

    [4]張航,盛志偉,張仕斌,等. Simhash算法在文本去重中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用,2020,56(11): 246-251.

    [5]肖晗,毛雪松,朱澤德. 基于HybridDL模型的文本相似度檢測(cè)方法[J].電子技術(shù)應(yīng)用,2020,46(06):28-31+35.

    [6]王寒茹,張仰森.文本相似度計(jì)算研究進(jìn)展綜述[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,34(01):68-74.

    [7]嚴(yán)李強(qiáng),田博,梁煒恒,楊歡歡.藏文文本相似度計(jì)算方法研究[J].高原科學(xué)研究,2021,5(03):70-77+114.

    [8]呂燁鑫. 基于Android惡意行為分析的移動(dòng)終端取證研究[D].哈爾濱工程大學(xué),2017.

    [9]甘秋云.基于TF-IDF向量空間模型文本相似度算法的分析[J].池州學(xué)院學(xué)報(bào),2018,32(03):41-43.

    [10]Charikar M S. Similarity estimation techniques from rounding algorithms[C]//Proceedings of the thiry-fourth annual ACM symposium on Theory of computing. 2002: 380-388.

    [11]張?jiān)?海量Android應(yīng)用相似性檢測(cè)方法研究[D].湘潭大學(xué),2017.

    TP391.1

    A

    1673-2219(2021)05-0051-04

    2021-05-26

    永州市科技計(jì)劃項(xiàng)目資助(永科發(fā)[2014]17號(hào));湖南省教育廳科學(xué)研究重點(diǎn)項(xiàng)目資助(20A212);湖南科技學(xué)院應(yīng)用特色學(xué)科建設(shè)項(xiàng)目資助。

    張晨陽(yáng)(1998-),男,河南駐馬店人,湖南科技學(xué)院2017級(jí)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)本科學(xué)生,研究方向?yàn)槿罩痉治觯?/p>

    段國(guó)云(1982-),男,湖南永州人,博士生,副教授,研究方向?yàn)橄到y(tǒng)安全、隱私保護(hù)。

    (責(zé)任編校:文春生)

    猜你喜歡
    查重分詞文檔
    有人一聲不吭向你扔了個(gè)文檔
    學(xué)位論文查重亂象引關(guān)注
    論文查重雜談
    結(jié)巴分詞在詞云中的應(yīng)用
    學(xué)術(shù)論文該“查”什么?
    雜文月刊(2018年20期)2018-11-14 21:28:46
    學(xué)術(shù)論文該“查”什么?
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    值得重視的分詞的特殊用法
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
    亚洲欧美日韩无卡精品| 又粗又硬又长又爽又黄的视频| 在线看a的网站| av在线蜜桃| 亚洲真实伦在线观看| 观看av在线不卡| 欧美bdsm另类| 少妇人妻 视频| 国产精品一及| 多毛熟女@视频| 一区二区三区四区激情视频| 国产成人免费无遮挡视频| 日韩亚洲欧美综合| 久热久热在线精品观看| 亚洲av在线观看美女高潮| 欧美97在线视频| 欧美老熟妇乱子伦牲交| 日本免费在线观看一区| 3wmmmm亚洲av在线观看| 精华霜和精华液先用哪个| 亚洲一级一片aⅴ在线观看| 99九九线精品视频在线观看视频| 亚洲欧美清纯卡通| 国产91av在线免费观看| 欧美一级a爱片免费观看看| 十八禁网站网址无遮挡 | 美女高潮的动态| 欧美极品一区二区三区四区| 久久久久久久久久成人| 日韩中字成人| 欧美精品一区二区免费开放| 亚洲精品久久午夜乱码| 99热6这里只有精品| 99久久人妻综合| a级一级毛片免费在线观看| 精品酒店卫生间| 成人毛片60女人毛片免费| 美女主播在线视频| 激情五月婷婷亚洲| 色吧在线观看| 国产成人免费观看mmmm| 在线观看一区二区三区| 亚州av有码| av国产精品久久久久影院| 中文乱码字字幕精品一区二区三区| 国产精品国产三级国产专区5o| 免费黄频网站在线观看国产| 亚洲av二区三区四区| 免费人妻精品一区二区三区视频| 大陆偷拍与自拍| 国产黄色免费在线视频| 精品国产一区二区三区久久久樱花 | 日韩电影二区| 午夜福利在线观看免费完整高清在| 亚洲一区二区三区欧美精品| 免费久久久久久久精品成人欧美视频 | 三级国产精品欧美在线观看| 日本与韩国留学比较| 视频区图区小说| 国产精品爽爽va在线观看网站| 性色avwww在线观看| 建设人人有责人人尽责人人享有的 | 亚洲图色成人| 日韩欧美一区视频在线观看 | 亚洲在久久综合| 国产av精品麻豆| 街头女战士在线观看网站| 亚洲精品色激情综合| 久久青草综合色| 下体分泌物呈黄色| videos熟女内射| 亚洲国产精品999| 全区人妻精品视频| 日本vs欧美在线观看视频 | 小蜜桃在线观看免费完整版高清| .国产精品久久| 国产精品福利在线免费观看| 久久久久人妻精品一区果冻| 国产老妇伦熟女老妇高清| 老熟女久久久| 九草在线视频观看| 久久精品国产自在天天线| 国产男女内射视频| 能在线免费看毛片的网站| 免费黄网站久久成人精品| 欧美高清成人免费视频www| 肉色欧美久久久久久久蜜桃| 色吧在线观看| 精品久久久久久久末码| 久久99热6这里只有精品| 啦啦啦啦在线视频资源| 成人二区视频| 国产伦理片在线播放av一区| 亚洲精品aⅴ在线观看| 亚洲美女视频黄频| 国产成人免费无遮挡视频| a级毛色黄片| 午夜免费观看性视频| 国产精品99久久久久久久久| 日韩伦理黄色片| 狂野欧美激情性xxxx在线观看| 我要看黄色一级片免费的| 午夜精品国产一区二区电影| 亚洲国产日韩一区二区| 1000部很黄的大片| 各种免费的搞黄视频| 卡戴珊不雅视频在线播放| 久久久久性生活片| 蜜桃在线观看..| 高清黄色对白视频在线免费看 | 久久精品国产自在天天线| 黑人猛操日本美女一级片| 久久久色成人| 青春草视频在线免费观看| 黄色配什么色好看| 久久久亚洲精品成人影院| 大片电影免费在线观看免费| 91久久精品国产一区二区成人| 少妇熟女欧美另类| 秋霞伦理黄片| 久久热精品热| 国产精品欧美亚洲77777| 午夜福利影视在线免费观看| 老女人水多毛片| 亚洲欧美日韩东京热| 亚洲真实伦在线观看| 亚洲欧洲日产国产| 精品人妻熟女av久视频| 久热这里只有精品99| 欧美日韩一区二区视频在线观看视频在线| 国产成人免费观看mmmm| 最近手机中文字幕大全| 精品亚洲成a人片在线观看 | 亚洲aⅴ乱码一区二区在线播放| 国产老妇伦熟女老妇高清| 男人狂女人下面高潮的视频| 欧美激情国产日韩精品一区| 欧美亚洲 丝袜 人妻 在线| 日韩大片免费观看网站| 午夜福利影视在线免费观看| 黄色欧美视频在线观看| 久久人妻熟女aⅴ| 一区二区av电影网| 美女内射精品一级片tv| 欧美丝袜亚洲另类| 男人添女人高潮全过程视频| 男的添女的下面高潮视频| 七月丁香在线播放| 毛片女人毛片| 亚洲第一av免费看| 精品熟女少妇av免费看| 国产欧美另类精品又又久久亚洲欧美| 热99国产精品久久久久久7| 少妇 在线观看| 丝袜喷水一区| av福利片在线观看| av免费在线看不卡| 2021少妇久久久久久久久久久| 亚洲精品一区蜜桃| 成人亚洲精品一区在线观看 | 99久久精品国产国产毛片| 老女人水多毛片| 美女中出高潮动态图| 91精品一卡2卡3卡4卡| 五月伊人婷婷丁香| 美女福利国产在线 | 熟女av电影| 国产女主播在线喷水免费视频网站| 伦精品一区二区三区| 亚洲精品亚洲一区二区| 国产国拍精品亚洲av在线观看| 男人和女人高潮做爰伦理| 国产大屁股一区二区在线视频| 大香蕉久久网| 99久久精品热视频| 卡戴珊不雅视频在线播放| 亚洲人成网站在线播| 国产一区二区三区综合在线观看 | 日韩中字成人| 一级二级三级毛片免费看| 青春草国产在线视频| a级一级毛片免费在线观看| 永久免费av网站大全| 中国三级夫妇交换| 水蜜桃什么品种好| 国产精品99久久久久久久久| 国内揄拍国产精品人妻在线| 国产免费一区二区三区四区乱码| 九九爱精品视频在线观看| 99re6热这里在线精品视频| 午夜福利在线在线| 国产精品爽爽va在线观看网站| 亚洲人与动物交配视频| 高清视频免费观看一区二区| 日本色播在线视频| 能在线免费看毛片的网站| 精品亚洲成国产av| 你懂的网址亚洲精品在线观看| 久久久久久伊人网av| 91精品伊人久久大香线蕉| 嘟嘟电影网在线观看| 久久久久久久久久成人| 婷婷色综合大香蕉| 国产男女内射视频| 成人二区视频| 最近中文字幕2019免费版| 精品国产三级普通话版| 高清欧美精品videossex| 国产高清三级在线| 国产精品一区二区性色av| 777米奇影视久久| 久久久久网色| 国产av一区二区精品久久 | 精品人妻视频免费看| 综合色丁香网| 久久精品国产a三级三级三级| 人人妻人人澡人人爽人人夜夜| 亚洲美女视频黄频| 久久久久精品性色| 久久久久久久久久久免费av| 亚洲国产精品专区欧美| 一本一本综合久久| 国产伦在线观看视频一区| 亚洲成人中文字幕在线播放| 欧美成人a在线观看| 内地一区二区视频在线| 夜夜看夜夜爽夜夜摸| 99久久中文字幕三级久久日本| 国产在视频线精品| 日韩电影二区| 亚洲真实伦在线观看| 亚洲国产精品一区三区| 国产在线一区二区三区精| 人人妻人人澡人人爽人人夜夜| 日本vs欧美在线观看视频 | 一区二区三区免费毛片| 欧美高清性xxxxhd video| 成人一区二区视频在线观看| 亚洲精品自拍成人| 久久99热这里只频精品6学生| 国产精品久久久久久久久免| 在线天堂最新版资源| 亚洲综合色惰| 亚洲精品日本国产第一区| 国产精品国产av在线观看| 日日啪夜夜撸| 免费观看性生交大片5| 亚洲综合精品二区| 成人一区二区视频在线观看| 日产精品乱码卡一卡2卡三| 亚洲伊人久久精品综合| av在线播放精品| 深爱激情五月婷婷| 国产美女午夜福利| 一个人看视频在线观看www免费| 亚洲欧美精品专区久久| 亚洲国产最新在线播放| 尤物成人国产欧美一区二区三区| 插逼视频在线观看| 国产伦精品一区二区三区视频9| 国产在视频线精品| 久久这里有精品视频免费| 亚洲一区二区三区欧美精品| 久久精品久久精品一区二区三区| 精品亚洲成a人片在线观看 | 大片免费播放器 马上看| 午夜精品国产一区二区电影| 男女免费视频国产| 美女主播在线视频| 夜夜骑夜夜射夜夜干| 欧美97在线视频| 亚洲精品,欧美精品| 国产黄片视频在线免费观看| 成人二区视频| 国产精品一区二区在线观看99| 日韩大片免费观看网站| 啦啦啦啦在线视频资源| 少妇高潮的动态图| 久久久久久伊人网av| av女优亚洲男人天堂| 亚洲无线观看免费| 99热国产这里只有精品6| 嫩草影院入口| 精品亚洲成国产av| 成人毛片60女人毛片免费| 黑人高潮一二区| 欧美xxxx性猛交bbbb| 99re6热这里在线精品视频| 色婷婷av一区二区三区视频| 亚洲欧美日韩另类电影网站 | 国产视频内射| 伦精品一区二区三区| 国产精品国产三级国产av玫瑰| 老司机影院成人| 亚洲精品国产av蜜桃| 夜夜看夜夜爽夜夜摸| 丰满乱子伦码专区| 午夜精品国产一区二区电影| 最黄视频免费看| 三级国产精品片| 男的添女的下面高潮视频| 夜夜骑夜夜射夜夜干| 成人亚洲精品一区在线观看 | 亚洲精品乱码久久久v下载方式| 蜜臀久久99精品久久宅男| 日韩亚洲欧美综合| 色网站视频免费| 久久97久久精品| 国产爽快片一区二区三区| 国产成人精品久久久久久| 精品久久久久久久久av| 免费看av在线观看网站| 欧美精品一区二区免费开放| 欧美丝袜亚洲另类| 婷婷色麻豆天堂久久| 亚洲国产欧美在线一区| 99热这里只有精品一区| 三级国产精品欧美在线观看| 久久6这里有精品| 在线观看人妻少妇| av免费观看日本| 欧美日韩国产mv在线观看视频 | 十分钟在线观看高清视频www | 91久久精品国产一区二区三区| 久久精品久久久久久久性| 国产有黄有色有爽视频| 青青草视频在线视频观看| 精品人妻一区二区三区麻豆| 久久99精品国语久久久| 日本欧美国产在线视频| 日日摸夜夜添夜夜添av毛片| 少妇人妻久久综合中文| 韩国高清视频一区二区三区| 制服丝袜香蕉在线| 欧美日韩视频高清一区二区三区二| 国产无遮挡羞羞视频在线观看| 99视频精品全部免费 在线| 欧美国产精品一级二级三级 | 国内精品宾馆在线| 一个人看视频在线观看www免费| 一本色道久久久久久精品综合| 97精品久久久久久久久久精品| 少妇高潮的动态图| 日本猛色少妇xxxxx猛交久久| 美女视频免费永久观看网站| 久久久亚洲精品成人影院| 久久国产亚洲av麻豆专区| 成人美女网站在线观看视频| 自拍偷自拍亚洲精品老妇| 日日摸夜夜添夜夜爱| 久久精品熟女亚洲av麻豆精品| 国产真实伦视频高清在线观看| 色婷婷久久久亚洲欧美| 亚洲在久久综合| 国产精品国产三级国产av玫瑰| 天堂俺去俺来也www色官网| 九九在线视频观看精品| 久久影院123| 在线观看人妻少妇| 免费观看a级毛片全部| 日韩亚洲欧美综合| av天堂中文字幕网| 少妇裸体淫交视频免费看高清| 高清在线视频一区二区三区| 亚洲精品日韩在线中文字幕| 99久国产av精品国产电影| 不卡视频在线观看欧美| 免费av中文字幕在线| 又爽又黄a免费视频| 日本午夜av视频| 免费观看的影片在线观看| 日韩视频在线欧美| 777米奇影视久久| 亚洲人成网站在线播| 国产黄色免费在线视频| 麻豆成人午夜福利视频| 欧美日韩综合久久久久久| 男女国产视频网站| 乱码一卡2卡4卡精品| 最近中文字幕2019免费版| 亚洲欧洲日产国产| 国产 一区 欧美 日韩| 久久99热这里只有精品18| 美女视频免费永久观看网站| 中文字幕av成人在线电影| 最后的刺客免费高清国语| 亚洲av中文av极速乱| 在线观看免费高清a一片| 成年女人在线观看亚洲视频| 免费高清在线观看视频在线观看| 亚洲国产精品成人久久小说| 看免费成人av毛片| 18禁在线播放成人免费| 日韩电影二区| 色吧在线观看| 国产久久久一区二区三区| 国产精品国产三级专区第一集| 亚洲欧美清纯卡通| av福利片在线观看| 欧美成人a在线观看| 赤兔流量卡办理| av又黄又爽大尺度在线免费看| 蜜桃久久精品国产亚洲av| 国产精品成人在线| 狂野欧美激情性bbbbbb| 午夜福利网站1000一区二区三区| 伦理电影免费视频| 18禁动态无遮挡网站| 国产男女超爽视频在线观看| 亚洲精品久久午夜乱码| 中文资源天堂在线| 国国产精品蜜臀av免费| 中文在线观看免费www的网站| 亚洲精品日韩av片在线观看| 少妇熟女欧美另类| 日韩av不卡免费在线播放| 久久 成人 亚洲| 免费看不卡的av| 夫妻午夜视频| 久久久久久久亚洲中文字幕| 国产成人91sexporn| 韩国高清视频一区二区三区| 国产永久视频网站| av不卡在线播放| 国产一区二区三区综合在线观看 | 永久网站在线| 欧美日韩国产mv在线观看视频 | 亚洲怡红院男人天堂| 欧美xxxx性猛交bbbb| 国产成人精品福利久久| 99九九线精品视频在线观看视频| 一个人看视频在线观看www免费| a级毛片免费高清观看在线播放| 久久久久久久久久久丰满| 国产精品久久久久久久电影| 五月玫瑰六月丁香| 夜夜骑夜夜射夜夜干| 另类亚洲欧美激情| 亚洲国产欧美人成| 国产免费又黄又爽又色| 日本wwww免费看| 国产欧美日韩一区二区三区在线 | 国产一区亚洲一区在线观看| 久久亚洲国产成人精品v| 日韩伦理黄色片| 国产日韩欧美亚洲二区| 大片电影免费在线观看免费| 久久av网站| 最近中文字幕高清免费大全6| av福利片在线观看| 亚洲欧美中文字幕日韩二区| 国产精品无大码| 丝瓜视频免费看黄片| 国产精品一及| 赤兔流量卡办理| 久久99热这里只频精品6学生| 免费av不卡在线播放| 日本一二三区视频观看| 久久久午夜欧美精品| 特大巨黑吊av在线直播| 99热网站在线观看| 中文字幕久久专区| 成人18禁高潮啪啪吃奶动态图 | 国产中年淑女户外野战色| 成人黄色视频免费在线看| 国产在线一区二区三区精| 一级片'在线观看视频| 久久毛片免费看一区二区三区| 天美传媒精品一区二区| 国产av码专区亚洲av| 国产淫片久久久久久久久| 亚洲精品,欧美精品| 欧美高清性xxxxhd video| 精品午夜福利在线看| 蜜桃在线观看..| 国产成人免费无遮挡视频| 精品熟女少妇av免费看| 免费在线观看成人毛片| 国产伦精品一区二区三区视频9| 精品一区二区三卡| 人人妻人人添人人爽欧美一区卜 | 丰满迷人的少妇在线观看| 性高湖久久久久久久久免费观看| 一本一本综合久久| 黄片无遮挡物在线观看| 中文在线观看免费www的网站| 黑人猛操日本美女一级片| 免费看光身美女| 亚洲欧美清纯卡通| 久久99精品国语久久久| av黄色大香蕉| 欧美精品国产亚洲| 十八禁网站网址无遮挡 | 黄色欧美视频在线观看| 在线观看美女被高潮喷水网站| 黑丝袜美女国产一区| 国产片特级美女逼逼视频| 国产亚洲5aaaaa淫片| 国产v大片淫在线免费观看| 久久久成人免费电影| 国产伦精品一区二区三区四那| 久久99热这里只频精品6学生| 亚洲国产高清在线一区二区三| 久久精品国产亚洲网站| 色婷婷av一区二区三区视频| 免费看不卡的av| 大片免费播放器 马上看| 久久久久久九九精品二区国产| 如何舔出高潮| 又粗又硬又长又爽又黄的视频| 欧美+日韩+精品| 王馨瑶露胸无遮挡在线观看| 午夜福利高清视频| 亚洲av不卡在线观看| 爱豆传媒免费全集在线观看| 中国美白少妇内射xxxbb| 久久午夜福利片| 22中文网久久字幕| 蜜桃久久精品国产亚洲av| 国产精品免费大片| 成人高潮视频无遮挡免费网站| 婷婷色综合www| 自拍偷自拍亚洲精品老妇| 中文字幕人妻熟人妻熟丝袜美| 日韩强制内射视频| 亚洲成人av在线免费| 99热6这里只有精品| 精品一区二区免费观看| 赤兔流量卡办理| 美女内射精品一级片tv| 这个男人来自地球电影免费观看 | 天堂俺去俺来也www色官网| 色婷婷av一区二区三区视频| 国产精品不卡视频一区二区| 久久午夜福利片| 久久久午夜欧美精品| 日日啪夜夜爽| 成人影院久久| 大陆偷拍与自拍| 麻豆乱淫一区二区| 十分钟在线观看高清视频www | 人体艺术视频欧美日本| 一级黄片播放器| 99热网站在线观看| 91狼人影院| 毛片女人毛片| 婷婷色综合大香蕉| 国产伦精品一区二区三区四那| 91精品伊人久久大香线蕉| 日韩av不卡免费在线播放| av线在线观看网站| 我要看日韩黄色一级片| 欧美日韩综合久久久久久| 亚洲熟女精品中文字幕| 黄色欧美视频在线观看| 欧美zozozo另类| 久久久亚洲精品成人影院| 亚洲av在线观看美女高潮| 国产高清国产精品国产三级 | 久久精品夜色国产| 99热网站在线观看| 伦精品一区二区三区| 男人和女人高潮做爰伦理| 精品久久久久久久久亚洲| 老女人水多毛片| 黄色怎么调成土黄色| 亚洲欧美精品自产自拍| 欧美极品一区二区三区四区| 久久久精品94久久精品| .国产精品久久| 久久99热6这里只有精品| av又黄又爽大尺度在线免费看| 久久鲁丝午夜福利片| 国产片特级美女逼逼视频| 成人国产麻豆网| kizo精华| 大香蕉97超碰在线| 日本色播在线视频| 人妻 亚洲 视频| 午夜老司机福利剧场| 国产精品偷伦视频观看了| 精品久久久噜噜| 亚洲色图综合在线观看| 男女啪啪激烈高潮av片| 久久精品国产鲁丝片午夜精品| 欧美一区二区亚洲| 一级毛片黄色毛片免费观看视频| 香蕉精品网在线| 黑人猛操日本美女一级片| 插逼视频在线观看| 久热久热在线精品观看| 免费av中文字幕在线| 在线天堂最新版资源| 欧美成人精品欧美一级黄| 精品久久久久久久久av| 黑丝袜美女国产一区| 婷婷色av中文字幕| 2018国产大陆天天弄谢| 三级经典国产精品| 99热全是精品| 自拍欧美九色日韩亚洲蝌蚪91 | 精品久久久久久电影网| 熟女av电影| av女优亚洲男人天堂| 99热网站在线观看| 日本黄色日本黄色录像| 午夜激情福利司机影院| 国产一区亚洲一区在线观看| 三级经典国产精品| 欧美3d第一页| 国产精品欧美亚洲77777| 日本免费在线观看一区| 99热这里只有精品一区| 成人漫画全彩无遮挡| 欧美精品一区二区大全|