• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    2022-01-20 06:28:40張晨陽(yáng)段國(guó)云文春生
    關(guān)鍵詞:查重分詞文檔

    張晨陽(yáng) 段國(guó)云 文春生

    基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

    張晨陽(yáng)a段國(guó)云b文春生a

    (湖南科技學(xué)院 a.信息工程學(xué)院;b.信息與網(wǎng)絡(luò)中心,湖南 永州 425199)

    為解決文本數(shù)據(jù)的個(gè)性化查重問(wèn)題,提出基于Simhash算法的文本查重的方法,設(shè)計(jì)并實(shí)現(xiàn)了系統(tǒng)原型。首先,闡述了文本相似度模型和計(jì)算算法;其次,根據(jù)需求規(guī)劃設(shè)計(jì)了系統(tǒng)整體實(shí)現(xiàn)架構(gòu)并詳細(xì)描述其設(shè)計(jì)過(guò)程;再次,描述了查重算法和查重功能模塊實(shí)現(xiàn)的詳細(xì)流程;最后,對(duì)系統(tǒng)原型進(jìn)行功能測(cè)試和算法相似度計(jì)算準(zhǔn)確性測(cè)試。實(shí)驗(yàn)證明:在小規(guī)模文本文檔樣本中,系統(tǒng)能較好的實(shí)現(xiàn)文本相似度的計(jì)算和特征庫(kù)的個(gè)性化定制,可集成并適用于小規(guī)模企業(yè)辦公系統(tǒng)等平臺(tái)的文本相似性查重環(huán)境。

    Simhash算法;文本相似度;余弦相似度;文本查重;Flask框架

    隨著互聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的高速發(fā)展,用戶正在從數(shù)據(jù)的接受者向數(shù)據(jù)的制造者轉(zhuǎn)變,遠(yuǎn)端數(shù)據(jù)存儲(chǔ)容量呈爆炸式增長(zhǎng)[1]。用戶利用網(wǎng)絡(luò)可在個(gè)人云盤(pán)、企業(yè)網(wǎng)盤(pán)、社交網(wǎng)等平臺(tái)上發(fā)布視頻、上傳文檔和圖片等資料,用戶在為互聯(lián)網(wǎng)做出貢獻(xiàn)的同時(shí)也制造了大量的冗余數(shù)據(jù)。相關(guān)研究表明,當(dāng)前一些存儲(chǔ)系統(tǒng)中的數(shù)據(jù)冗余量已達(dá)到60%[2],且呈現(xiàn)上升趨勢(shì)。如何對(duì)文本進(jìn)行原創(chuàng)性檢測(cè)、對(duì)文本中內(nèi)容進(jìn)行相似度對(duì)比檢測(cè),成為文本檢測(cè)領(lǐng)域亟需解決的重要問(wèn)題。

    近年來(lái),研究者在文本檢測(cè)領(lǐng)域取得了大量的研究成果,突出成果在工業(yè)界得到了應(yīng)用和推廣。其中Simhash算法成為近似文本檢測(cè)領(lǐng)域的主流方法之一,文獻(xiàn)[3]針對(duì)Simhash算法中近似文本指紋位數(shù)單一而丟失一定信息量的缺點(diǎn),提出了基于多Simhash指紋和K維超曲面的近似文本檢測(cè)方法。文獻(xiàn)[4]從提升Simhash算法去重效果、提高準(zhǔn)確率的角度出發(fā),提出了基于信息熵加權(quán)的改正算法E-Simhash。文獻(xiàn)[5]基于LDA(Latent Dirichlet Allocation,狄利克雷分布)和Doc2Vec模型提出HybridDL文本相似度檢測(cè)算法,以便提高文本檢測(cè)的準(zhǔn)確度。文本查重算法被廣泛應(yīng)用于知網(wǎng)、百度網(wǎng)盤(pán)、阿里云盤(pán)等大型平臺(tái)并融入到文本檢測(cè)產(chǎn)品中。文本相似度檢測(cè)技術(shù)雖然應(yīng)用廣泛,但市場(chǎng)上沒(méi)有出現(xiàn)針對(duì)有保密要求、個(gè)人文檔對(duì)比需求等特殊場(chǎng)景的文本檢測(cè)工具。本文設(shè)計(jì)一款基于Simhash算法的文本相似度檢測(cè)系統(tǒng),該系統(tǒng)可以個(gè)性化定制內(nèi)部文本查重庫(kù),以解決企業(yè)文件、原創(chuàng)性文檔等特殊場(chǎng)景下用戶文本檢測(cè)的問(wèn)題。

    1 相關(guān)技術(shù)

    1.1 文本相似度模型

    判斷兩個(gè)文本內(nèi)容是否重合其實(shí)質(zhì)是對(duì)兩個(gè)文本的相似性進(jìn)行計(jì)算[6]。相似度為0則表明對(duì)比的兩個(gè)文本完全不同,相似度為1則說(shuō)明兩個(gè)文本內(nèi)容完全相同,其相似程度取值在[0,1]之間,通常采用百分率表示。如有文本文件M和參照文檔N,其內(nèi)容相似性定義為M、N之間相匹配元素變量的個(gè)數(shù)之和與M中所有元素個(gè)數(shù)的絕對(duì)比值,而Sim用于性能衡量,Sim越趨近于1說(shuō)明兩個(gè)文件越相似,sim越趨近于0則兩個(gè)文本相似度極低。設(shè)向量集合是文件的元素集合,向量集合是文件的元素集合,是文件和元素集合之間匹配后的交集,文本文件的相似度模型如圖1所示。

    圖1 文本相似度模型

    1.2 余弦相似度算法

    1)余弦相似度原理

    余弦相似度是通過(guò)比較兩個(gè)向量?jī)?nèi)積空間夾角余弦值的大小來(lái)對(duì)他們之間的相似度進(jìn)行比較。當(dāng)兩個(gè)向量完全重合且方向相同時(shí)夾角余弦值為0,兩個(gè)向量指向相反時(shí)其余弦相似度值為-1,余弦值的取值范圍為[-1,1],其值的大小與向量指向的方向有關(guān),而與向量長(zhǎng)度無(wú)關(guān)[7-8]。但對(duì)文本而言,在比較過(guò)程中只考慮向量的方向而不考慮其規(guī)模的大小。向量夾角的取值通常小于90°,由此得知取值范圍是[0,1]。因此,它可以用于任何維度向量的比較中,尤其在高維度向量空間的比較中應(yīng)用更為廣泛。當(dāng)進(jìn)行信息檢索時(shí),每個(gè)詞條都擁有不同的權(quán)重,每一個(gè)文檔由一個(gè)擁有權(quán)值的特征向量來(lái)表示,權(quán)值的大小取決于該詞在文本中出現(xiàn)的頻次大小,通過(guò)計(jì)算余弦相似度就可以給出兩個(gè)文本在其內(nèi)容上的相似度。

    2)TF-IDF權(quán)重計(jì)算

    通過(guò)IDF值的計(jì)算,可做到少數(shù)罕見(jiàn)單詞的值比較高,多數(shù)低頻單詞的值比較低。然后通過(guò)TF-IDF的計(jì)算公式TF-IDF = TF * IDF進(jìn)行計(jì)算,對(duì)文檔向量化后的每個(gè)詞項(xiàng)分配一個(gè)權(quán)重,若不含這個(gè)詞則權(quán)重值為0。

    3)余弦相似度計(jì)算

    基于余弦相似度計(jì)算的原理,文中將每個(gè)已經(jīng)分好詞和去停用字的文本進(jìn)行文本向量化,分別記為向量D1和向量D2,并且將文本中每個(gè)詞項(xiàng)的權(quán)重進(jìn)行精確計(jì)算,由于每個(gè)文本的向量維度相同,因而比較這兩個(gè)文檔的相似性就是通過(guò)計(jì)算這兩個(gè)詞項(xiàng)向量之間夾角的 cos值來(lái)進(jìn)行判斷。相似度值的計(jì)算方法如公式(2)所示:

    公式中分母代表的是每篇文檔經(jīng)TF處理后的向量模的乘積,分子代表的是經(jīng)比較文檔中TF后的兩個(gè)向量的乘積,如果兩個(gè)向量夾角的余弦值越趨向于1,則說(shuō)明兩個(gè)文檔的相似度越高,反之越低。

    2 系統(tǒng)設(shè)計(jì)

    2.1 性能需求分析

    本節(jié)以文本文件對(duì)比查重的性能優(yōu)化為需求展開(kāi)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)工作。設(shè)計(jì)初期充分調(diào)研現(xiàn)有的查重系統(tǒng),分析其使用過(guò)程中所出現(xiàn)的問(wèn)題,分析影響系統(tǒng)性能所面臨的問(wèn)題,結(jié)合優(yōu)化設(shè)計(jì)目標(biāo)按問(wèn)題類型對(duì)其進(jìn)行細(xì)分,帶著提高系統(tǒng)性能的目標(biāo)進(jìn)行文本查重系統(tǒng)的設(shè)計(jì)。影響系統(tǒng)性能的要素有很多,在此選擇提高結(jié)果精度和計(jì)算速度為設(shè)計(jì)目標(biāo),研究解決影響因素以提高系統(tǒng)的整體性能。系統(tǒng)性能優(yōu)化設(shè)計(jì)出發(fā)點(diǎn)在于提高結(jié)果精確度和計(jì)算速度,結(jié)果精度將從文本查重的匹配度和相似度算法兩個(gè)角度展開(kāi)研究,計(jì)算速度將從文本的相似度算法的時(shí)間復(fù)雜度、返回文本數(shù)的設(shè)置和文本檢索速度三個(gè)方面下手以提高整體性能。系統(tǒng)性能需求分析要點(diǎn)如圖2所示:

    圖2 系統(tǒng)性能需求分析

    2.2 系統(tǒng)整體框架

    文中系統(tǒng)采用B/S(Browser/Server,瀏覽器/服務(wù)器)結(jié)構(gòu)進(jìn)行設(shè)計(jì),由用戶端和管理端兩個(gè)部分組成,以數(shù)據(jù)庫(kù)為樞紐完成用戶端和管理端數(shù)據(jù)的交互,設(shè)計(jì)兩級(jí)權(quán)限管理體系實(shí)現(xiàn)不同用戶、不同層級(jí)權(quán)限針對(duì)不同操作模塊的精細(xì)化授權(quán)。普通用戶端和管理端兩個(gè)部分所設(shè)計(jì)的功能不同,用戶端設(shè)計(jì)注冊(cè)、登錄、文本上傳、查重和報(bào)告管理五個(gè)二級(jí)模塊;管理端設(shè)計(jì)對(duì)比庫(kù)管理、用戶管理、文本庫(kù)上傳、統(tǒng)計(jì)分析、報(bào)告模板管理和系統(tǒng)管理六個(gè)模塊;相似度和權(quán)重計(jì)算算法單獨(dú)設(shè)計(jì)模塊供查重模塊調(diào)度使用;為方便管理,文本特征庫(kù)通過(guò)管理端授權(quán)獨(dú)立管理;系統(tǒng)數(shù)據(jù)的傳輸加密、存儲(chǔ)加密由安全檢測(cè)模塊負(fù)責(zé)。系統(tǒng)功能模塊劃分及整體架構(gòu)如圖3所示:

    圖3 系統(tǒng)功能整體架構(gòu)

    普通用戶在用戶端經(jīng)注冊(cè)并審核通過(guò)后可登錄系統(tǒng),通過(guò)權(quán)限認(rèn)證、系統(tǒng)裝載后進(jìn)入用戶主界面進(jìn)行權(quán)限內(nèi)功能模塊的操作,可上傳查重目標(biāo)文件、選擇查重參照文本庫(kù)后進(jìn)行相似度計(jì)算,系統(tǒng)調(diào)用用戶組指定的模板進(jìn)行對(duì)比數(shù)據(jù)填充形成相似度檢測(cè)報(bào)告,用戶在報(bào)告管理模塊對(duì)查重報(bào)告進(jìn)行刪除、管理并下載使用。管理員權(quán)限分超級(jí)管理員、審計(jì)管理員和普通管理員,超級(jí)管理員之外的管理用戶ID均通過(guò)初始化超級(jí)管理員后進(jìn)行分配,超級(jí)管理員可定制其他管理員的功能權(quán)限。管理員登錄后,可以對(duì)文本特征庫(kù)、查重報(bào)告模板進(jìn)行增加、刪除、修改、查詢操作,可以針對(duì)某一特殊需求創(chuàng)建某一類型的文本特征庫(kù),文本特征可線下編輯并上傳到新創(chuàng)建的特征文本庫(kù)中以便系統(tǒng)對(duì)其進(jìn)行初始化操作。

    2.3 查重模塊設(shè)計(jì)

    采用余弦相似度算法對(duì)查重模塊進(jìn)行設(shè)計(jì),工作時(shí)調(diào)用相似度算法和權(quán)重算法模塊,其中Simhash算法的設(shè)計(jì)由文本分詞、Hash計(jì)算、加權(quán)賦值、向量合并、降維五個(gè)步驟組成。首先,對(duì)于目標(biāo)文檔中的文本語(yǔ)句按選定對(duì)比庫(kù)的特征進(jìn)行分詞,按1-5級(jí)劃分得到其中有效的特征向量等級(jí);如果特征向量是文本中的詞且其值落在等級(jí)范圍之內(nèi),那向量值就代表這個(gè)特征向量出現(xiàn)的次數(shù),詞的權(quán)重值與向量值相等。其次,通過(guò)Hash函數(shù)把文本中每個(gè)特征向量的Hash值計(jì)算出來(lái),其中Hash值由0和1組成。再次,給擁有Hash值的特征向量進(jìn)行加權(quán),加權(quán)的計(jì)算方法為W=Hash*Weight,當(dāng)遇到Hash值為1時(shí),向量與權(quán)值正相乘,反之則與權(quán)值負(fù)相乘。然后,合并累加單個(gè)文本中所有特征向量的加權(quán)結(jié)果,形成一個(gè)序列串。最后,我們可以對(duì)權(quán)值進(jìn)行降維,如果合并的累加結(jié)果大于0則置為1,反之置為0,從而可以得出文檔文本的Simhash值。由此,根據(jù)文檔中不同文本之間的海明距離(Hamming Distance)計(jì)算得到其相似度。

    3 關(guān)鍵功能的實(shí)現(xiàn)

    文中所設(shè)計(jì)的系統(tǒng)采用Python語(yǔ)言結(jié)合Flask框架和MongoDB數(shù)據(jù)庫(kù)實(shí)現(xiàn)系統(tǒng)的開(kāi)發(fā),如下詳細(xì)介紹相似度查重算法、用戶查重流程兩個(gè)關(guān)鍵功能的實(shí)現(xiàn)過(guò)程。

    3.1 相似度查重算法

    文本相似度主要采用Simhash算法、分詞算法并結(jié)合海明距離計(jì)算進(jìn)行實(shí)現(xiàn)。Simhash算法的主要思想是降維[10],將高維的特征向量映射成一個(gè)f-bit的指紋,通過(guò)比較兩個(gè)文本f-bit指紋的海明距離來(lái)確定內(nèi)容是否重復(fù)并計(jì)算出兩者的相似度值。具體計(jì)算過(guò)程分為五步[11]:

    1)基于傳統(tǒng)的IR方法,將分詞后的文本數(shù)據(jù)轉(zhuǎn)換為由加權(quán)特征值構(gòu)成的向量組。

    2)初始化一個(gè)多維(定義為維)向量,其中每維的初始值為0。

    3)針對(duì)文本特征向量集中的單個(gè)特征做簽名計(jì)算。計(jì)算思路是將傳統(tǒng)的Hash算法映射到一個(gè)f-bit的簽名,如果簽名的第維上為1,則對(duì)向量V中第維加上這個(gè)特征的權(quán)值,否則對(duì)向量的第i維減去該特征的權(quán)值。

    4)對(duì)整個(gè)特征向量集合進(jìn)行-bit迭代計(jì)算,由中每維向量符號(hào)確定生成-bit指紋值,如果第維為正數(shù),則第維指紋為1,否則為0。

    5)計(jì)算海明距離。通過(guò)將文本向量化后,如得到10101和00110兩個(gè)比特?cái)?shù),通過(guò)海明距離計(jì)算算法對(duì)兩個(gè)比特串進(jìn)行計(jì)算得到其值為3。

    通過(guò)上述五個(gè)步驟,由相似度查重算法模塊計(jì)算文本之間的相似度,其實(shí)現(xiàn)過(guò)程中關(guān)鍵函數(shù)的代碼如圖4所示:

    圖4 相似度計(jì)算函數(shù)關(guān)鍵代碼

    針對(duì)文本分詞進(jìn)行測(cè)試,從0分詞到利用海明距離對(duì)兩個(gè)文本向量進(jìn)行對(duì)比分析,通過(guò)關(guān)鍵代碼進(jìn)行測(cè)試。測(cè)試時(shí)創(chuàng)建3個(gè)txt文檔,第一個(gè)文檔內(nèi)容為“基于Simhash算法的文本查重系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)”,第二個(gè)文檔內(nèi)容為“基于Selenium的在線文本查重的設(shè)計(jì)與實(shí)現(xiàn)”,第三個(gè)文檔添加前兩個(gè)文檔的全部?jī)?nèi)容,定義前兩個(gè)文檔為測(cè)試文檔,第三個(gè)文檔作為中文停詞庫(kù)。首先定義Simhash算法,利用jieba分詞對(duì)兩個(gè)文檔進(jìn)行分詞操作,接下來(lái)是按照相對(duì)應(yīng)的權(quán)重對(duì)分詞后的詞進(jìn)行分詞操作,然后設(shè)計(jì)文本對(duì)比函數(shù),打開(kāi)第三個(gè)文本,將前兩個(gè)文本與第三個(gè)文本中的分詞進(jìn)行對(duì)比分析,最后可得出兩個(gè)文本的文本相似度。文本查重效果如圖5所示:

    圖5 文本查重實(shí)現(xiàn)測(cè)試

    3.2 查重功能的實(shí)現(xiàn)

    文本查重功能的實(shí)現(xiàn)流程是文中系統(tǒng)的核心工作,由文本上傳、特征庫(kù)選擇、查重計(jì)算和報(bào)告生成四個(gè)流程協(xié)調(diào)完成。用戶通過(guò)登錄驗(yàn)證和權(quán)限鑒別后進(jìn)入文本查重功能區(qū),通過(guò)上傳文本文件后選擇特征庫(kù)進(jìn)行查重計(jì)算,通過(guò)調(diào)用相似度和權(quán)重計(jì)算算法完成目標(biāo)文本與特征庫(kù)內(nèi)容相似度值的計(jì)算,最后將計(jì)算結(jié)果存入數(shù)據(jù)庫(kù),調(diào)用報(bào)告模板生成查重報(bào)告。其實(shí)現(xiàn)的流程如圖6所示:

    圖6 文本查重實(shí)現(xiàn)流程

    文本上傳模塊主要目標(biāo)是為用戶提供文本文件上傳的入口,通過(guò)識(shí)別并轉(zhuǎn)化文本編碼后以指定的編碼格式存入數(shù)據(jù)庫(kù)中;查重時(shí)系統(tǒng)從庫(kù)中讀取與特征庫(kù)相同編碼的被測(cè)文本完成相似度計(jì)算,調(diào)用過(guò)程中如發(fā)現(xiàn)編碼不同需采用轉(zhuǎn)換函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換。查重模塊首先需對(duì)目標(biāo)文本進(jìn)行預(yù)處理,包括對(duì)文本進(jìn)行分詞、加權(quán)、權(quán)值、降維等操作,其次將處理后的目標(biāo)文本內(nèi)容與特征庫(kù)文本逐次進(jìn)行相似度檢驗(yàn),通過(guò)逐次對(duì)比后獲取重復(fù)的部分,最后統(tǒng)計(jì)相似內(nèi)容數(shù)量得出相似度值和相似內(nèi)容后存放于數(shù)據(jù)庫(kù)中,為查重報(bào)告的生成提供依據(jù)。文中系統(tǒng)以查詢時(shí)間生成報(bào)告文件名,管理員根據(jù)特征庫(kù)為用戶配置報(bào)告模板供生成查重報(bào)告使用。

    4 系統(tǒng)測(cè)試實(shí)驗(yàn)

    4.1 實(shí)驗(yàn)環(huán)境

    文中開(kāi)發(fā)了系統(tǒng)原型,在實(shí)驗(yàn)室部署了測(cè)試環(huán)境,服務(wù)器硬件為單路Intel(R) Xeon(R) E5-2683 V4 CPU,提供2.1GHz的頻率和32個(gè)線程,配64G ECC內(nèi)核;網(wǎng)絡(luò)環(huán)境采用RG-S2910-24GT4XS-E二層交換機(jī)連接服務(wù)器和測(cè)試筆記本;操作系統(tǒng)是Windows Server 2016,數(shù)據(jù)庫(kù)系統(tǒng)選用MongoDB 4.4.6,采用Python3.7作為解釋器并安裝好所需的依賴包,選用Flask 2.02作為Web服務(wù)框架,在Pycharm中運(yùn)行原型系統(tǒng)提供測(cè)試服務(wù)。

    4.2 查重功能測(cè)試

    系統(tǒng)主要針對(duì)企業(yè)內(nèi)部文件查重和個(gè)人重復(fù)文本對(duì)比的個(gè)性化需求應(yīng)用場(chǎng)景,實(shí)驗(yàn)過(guò)程中沒(méi)有知網(wǎng)、萬(wàn)方、Paperyy等論文查重平臺(tái)對(duì)比特征庫(kù),無(wú)法完成此類大型平臺(tái)的對(duì)比。本文通過(guò)上傳50篇技術(shù)文檔構(gòu)建一個(gè)文本特征庫(kù),每個(gè)文本文檔限定為1000字50個(gè)句子;再?gòu)?0篇文檔中任意抽1個(gè)、5個(gè)、10個(gè)句子構(gòu)建測(cè)試用例,通過(guò)普通用戶端權(quán)限上傳目標(biāo)文檔并選擇文本特征庫(kù)對(duì)其進(jìn)行測(cè)試。測(cè)試結(jié)果表明文中系統(tǒng)能夠計(jì)算目標(biāo)文檔重復(fù)文字相似率、能按系統(tǒng)設(shè)計(jì)的文字顏色將其中重復(fù)的文字較好地標(biāo)記出來(lái)、能根據(jù)模板和計(jì)算結(jié)果生成查重報(bào)告,實(shí)現(xiàn)了系統(tǒng)設(shè)計(jì)的功能。

    4.3 查重性能測(cè)試

    性能實(shí)驗(yàn)主要針對(duì)文中系統(tǒng)文本查重相似度計(jì)算的準(zhǔn)確率展開(kāi)測(cè)試,測(cè)試算法在檢測(cè)過(guò)程中分詞、對(duì)比等性能的穩(wěn)定性。實(shí)驗(yàn)中構(gòu)建10個(gè)特征庫(kù)從管理端上傳到系統(tǒng)中,再構(gòu)建10個(gè)目標(biāo)測(cè)試文本文件,目標(biāo)文件從特征庫(kù)文本數(shù)據(jù)中取一定比例的重復(fù)內(nèi)容,比例控制分別與對(duì)應(yīng)測(cè)試庫(kù)的相似率從0%到100%按10%遞增。將測(cè)試目標(biāo)文件從用戶端上傳并選擇對(duì)應(yīng)的特征庫(kù)進(jìn)行測(cè)試,每個(gè)目標(biāo)測(cè)試文件測(cè)5次,取相似度數(shù)據(jù)的平均值后再與制定的重復(fù)比例對(duì)比,計(jì)算測(cè)試的準(zhǔn)確率。測(cè)試結(jié)果表明文中系統(tǒng)能較精確的計(jì)算目標(biāo)文檔重復(fù)文字相似率,算法測(cè)試的平均準(zhǔn)確率在99.7%以上,當(dāng)文本相似度越高時(shí)查重相似率計(jì)算的準(zhǔn)確度越高,反映出相似度算法計(jì)算的穩(wěn)定性。

    5 結(jié) 語(yǔ)

    本文基于Simhash算法開(kāi)發(fā)了可自定義特征庫(kù)的文本查重系統(tǒng)原型。通過(guò)對(duì)被測(cè)目標(biāo)文本進(jìn)行分詞、Hash、加權(quán)、合并、降維等系列操作后,再使用海明距離與特征庫(kù)文本進(jìn)行相似度對(duì)比,完成文本的相似度檢測(cè)。經(jīng)功能和性能實(shí)驗(yàn)測(cè)試,所開(kāi)發(fā)的系統(tǒng)能較好的完成系統(tǒng)的設(shè)計(jì)目標(biāo),算法有較好的穩(wěn)定性。系統(tǒng)適用于個(gè)性化定制需求,可用于文本對(duì)比、日志文本數(shù)據(jù)處理分析等應(yīng)用場(chǎng)景,但離大規(guī)模企業(yè)應(yīng)用還有一定的距離。

    [1]Chen T.Analysis of computer data processing mode based on big data era[J]. Agro Food Industry Hi-tech, 2017, 28(1): 828-831.

    [2]Clements A T,Ahmad I,Vilayannur M,et al. Decentralized deduplication in SAN cluster file systems[C]// Usenix Technical Conference, 2009.

    [3]董博,鄭慶華,宋凱磊,田鋒,馬瑞.基于多SimHash指紋的近似文本檢測(cè)[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(11):2152- 2157.

    [4]張航,盛志偉,張仕斌,等. Simhash算法在文本去重中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用,2020,56(11): 246-251.

    [5]肖晗,毛雪松,朱澤德. 基于HybridDL模型的文本相似度檢測(cè)方法[J].電子技術(shù)應(yīng)用,2020,46(06):28-31+35.

    [6]王寒茹,張仰森.文本相似度計(jì)算研究進(jìn)展綜述[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,34(01):68-74.

    [7]嚴(yán)李強(qiáng),田博,梁煒恒,楊歡歡.藏文文本相似度計(jì)算方法研究[J].高原科學(xué)研究,2021,5(03):70-77+114.

    [8]呂燁鑫. 基于Android惡意行為分析的移動(dòng)終端取證研究[D].哈爾濱工程大學(xué),2017.

    [9]甘秋云.基于TF-IDF向量空間模型文本相似度算法的分析[J].池州學(xué)院學(xué)報(bào),2018,32(03):41-43.

    [10]Charikar M S. Similarity estimation techniques from rounding algorithms[C]//Proceedings of the thiry-fourth annual ACM symposium on Theory of computing. 2002: 380-388.

    [11]張?jiān)?海量Android應(yīng)用相似性檢測(cè)方法研究[D].湘潭大學(xué),2017.

    TP391.1

    A

    1673-2219(2021)05-0051-04

    2021-05-26

    永州市科技計(jì)劃項(xiàng)目資助(永科發(fā)[2014]17號(hào));湖南省教育廳科學(xué)研究重點(diǎn)項(xiàng)目資助(20A212);湖南科技學(xué)院應(yīng)用特色學(xué)科建設(shè)項(xiàng)目資助。

    張晨陽(yáng)(1998-),男,河南駐馬店人,湖南科技學(xué)院2017級(jí)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)本科學(xué)生,研究方向?yàn)槿罩痉治觯?/p>

    段國(guó)云(1982-),男,湖南永州人,博士生,副教授,研究方向?yàn)橄到y(tǒng)安全、隱私保護(hù)。

    (責(zé)任編校:文春生)

    猜你喜歡
    查重分詞文檔
    有人一聲不吭向你扔了個(gè)文檔
    學(xué)位論文查重亂象引關(guān)注
    論文查重雜談
    結(jié)巴分詞在詞云中的應(yīng)用
    學(xué)術(shù)論文該“查”什么?
    雜文月刊(2018年20期)2018-11-14 21:28:46
    學(xué)術(shù)論文該“查”什么?
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    值得重視的分詞的特殊用法
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
    黄色毛片三级朝国网站| 中文字幕精品免费在线观看视频 | 欧美日韩综合久久久久久| 国产免费一级a男人的天堂| 国产一区二区三区av在线| 国产精品人妻久久久影院| 99久久综合免费| 久久精品久久久久久久性| 国产又爽黄色视频| 天堂中文最新版在线下载| 少妇被粗大猛烈的视频| 毛片一级片免费看久久久久| 妹子高潮喷水视频| 欧美日本中文国产一区发布| 久久精品国产自在天天线| 多毛熟女@视频| 99久国产av精品国产电影| 久久精品国产鲁丝片午夜精品| 久久久久精品人妻al黑| 婷婷色综合大香蕉| 免费观看无遮挡的男女| 久久精品国产亚洲av天美| 在线天堂中文资源库| 亚洲精品,欧美精品| 国国产精品蜜臀av免费| 韩国高清视频一区二区三区| 18禁国产床啪视频网站| 日本av免费视频播放| 欧美精品av麻豆av| 激情视频va一区二区三区| 亚洲第一av免费看| 中文字幕另类日韩欧美亚洲嫩草| www.色视频.com| 日日摸夜夜添夜夜爱| 妹子高潮喷水视频| 成人亚洲精品一区在线观看| 免费在线观看黄色视频的| 久久久久久久精品精品| 午夜精品国产一区二区电影| 久久女婷五月综合色啪小说| 一级毛片 在线播放| 毛片一级片免费看久久久久| 国产亚洲av片在线观看秒播厂| 亚洲av电影在线进入| 精品国产乱码久久久久久小说| 精品少妇久久久久久888优播| 99热这里只有是精品在线观看| 欧美变态另类bdsm刘玥| 成人毛片a级毛片在线播放| 日韩中文字幕视频在线看片| 欧美日韩av久久| 亚洲丝袜综合中文字幕| 交换朋友夫妻互换小说| 男女高潮啪啪啪动态图| 99热6这里只有精品| 国产成人午夜福利电影在线观看| 亚洲精品日韩在线中文字幕| 在线观看美女被高潮喷水网站| 妹子高潮喷水视频| 亚洲人成77777在线视频| 久久久久精品久久久久真实原创| 午夜91福利影院| 九九爱精品视频在线观看| 国产在线免费精品| 亚洲av.av天堂| 99久久综合免费| 高清在线视频一区二区三区| 日本黄大片高清| 在线观看三级黄色| 侵犯人妻中文字幕一二三四区| 午夜福利乱码中文字幕| 亚洲欧美精品自产自拍| 狂野欧美激情性xxxx在线观看| 韩国av在线不卡| 一区二区日韩欧美中文字幕 | 男男h啪啪无遮挡| 久久久久久久大尺度免费视频| 国产一区二区三区综合在线观看 | 韩国精品一区二区三区 | 国产在视频线精品| 中文字幕精品免费在线观看视频 | 视频在线观看一区二区三区| 肉色欧美久久久久久久蜜桃| freevideosex欧美| 欧美bdsm另类| 一级a做视频免费观看| 视频中文字幕在线观看| 91久久精品国产一区二区三区| 黑人猛操日本美女一级片| 啦啦啦中文免费视频观看日本| 综合色丁香网| 久久精品国产综合久久久 | 亚洲av中文av极速乱| 制服人妻中文乱码| 久久久久久久国产电影| 日本免费在线观看一区| 爱豆传媒免费全集在线观看| 国产 精品1| 欧美老熟妇乱子伦牲交| 一级,二级,三级黄色视频| 亚洲内射少妇av| 国产成人aa在线观看| 蜜桃在线观看..| 18在线观看网站| 综合色丁香网| av在线老鸭窝| 一区二区三区精品91| 91久久精品国产一区二区三区| 久久久精品区二区三区| 国产av码专区亚洲av| 一本—道久久a久久精品蜜桃钙片| 日本欧美国产在线视频| 久久久久久久亚洲中文字幕| 午夜福利网站1000一区二区三区| 综合色丁香网| 高清毛片免费看| 国产av精品麻豆| 各种免费的搞黄视频| 老司机影院成人| 一区二区日韩欧美中文字幕 | 下体分泌物呈黄色| 一级爰片在线观看| videosex国产| 女性生殖器流出的白浆| 久久毛片免费看一区二区三区| 人妻一区二区av| 成人亚洲精品一区在线观看| 蜜臀久久99精品久久宅男| 国产男人的电影天堂91| 欧美日韩国产mv在线观看视频| 在线观看www视频免费| 国产免费又黄又爽又色| 人人妻人人爽人人添夜夜欢视频| 中文天堂在线官网| 日本wwww免费看| 男女边吃奶边做爰视频| 久久青草综合色| 最近手机中文字幕大全| 曰老女人黄片| 免费黄色在线免费观看| 丝袜在线中文字幕| 午夜福利视频在线观看免费| 青春草视频在线免费观看| 伦精品一区二区三区| 精品国产一区二区三区久久久樱花| 国产欧美亚洲国产| 插逼视频在线观看| 最黄视频免费看| 一级毛片我不卡| h视频一区二区三区| 在线看a的网站| 91久久精品国产一区二区三区| 99热这里只有是精品在线观看| 女性生殖器流出的白浆| www.熟女人妻精品国产 | 国产极品天堂在线| 精品少妇内射三级| 少妇的逼水好多| 国产精品无大码| 一区二区三区四区激情视频| 免费少妇av软件| 久久99蜜桃精品久久| 高清不卡的av网站| 国产精品国产av在线观看| 免费高清在线观看视频在线观看| 国产成人a∨麻豆精品| 国产xxxxx性猛交| av在线观看视频网站免费| av国产精品久久久久影院| 亚洲国产精品国产精品| 超色免费av| 亚洲高清免费不卡视频| 亚洲人成网站在线观看播放| 精品一区二区三区四区五区乱码 | 亚洲av电影在线进入| 国产男女内射视频| 精品99又大又爽又粗少妇毛片| 狠狠婷婷综合久久久久久88av| 国产男女内射视频| 伊人久久国产一区二区| 最新的欧美精品一区二区| 国产1区2区3区精品| 国产精品久久久久久精品古装| av线在线观看网站| 美女福利国产在线| 免费黄色在线免费观看| 久热这里只有精品99| 久久av网站| 交换朋友夫妻互换小说| 国产成人91sexporn| 欧美少妇被猛烈插入视频| 丝袜美足系列| 啦啦啦啦在线视频资源| 国产精品人妻久久久久久| 看十八女毛片水多多多| 中文欧美无线码| 免费久久久久久久精品成人欧美视频 | 成人亚洲精品一区在线观看| 国产精品偷伦视频观看了| 久久久精品94久久精品| 久久久久久久国产电影| videosex国产| 好男人视频免费观看在线| 亚洲成国产人片在线观看| 校园人妻丝袜中文字幕| 秋霞在线观看毛片| 一区二区日韩欧美中文字幕 | 亚洲国产av影院在线观看| 免费观看无遮挡的男女| 日日啪夜夜爽| 日韩人妻精品一区2区三区| 久久韩国三级中文字幕| 欧美人与善性xxx| 十分钟在线观看高清视频www| 99热这里只有是精品在线观看| 人体艺术视频欧美日本| 观看美女的网站| 老女人水多毛片| 超色免费av| 国产精品久久久久成人av| 99国产精品免费福利视频| 国产精品人妻久久久影院| 丝袜在线中文字幕| 日产精品乱码卡一卡2卡三| 亚洲婷婷狠狠爱综合网| 国产毛片在线视频| 五月玫瑰六月丁香| 韩国精品一区二区三区 | 亚洲图色成人| 成人黄色视频免费在线看| 中文乱码字字幕精品一区二区三区| 精品少妇黑人巨大在线播放| 亚洲欧洲精品一区二区精品久久久 | 国产一区二区在线观看av| 亚洲欧美一区二区三区国产| 国产精品久久久久久久电影| 啦啦啦中文免费视频观看日本| 久久狼人影院| 各种免费的搞黄视频| 欧美成人精品欧美一级黄| 高清黄色对白视频在线免费看| 黄色毛片三级朝国网站| 亚洲成av片中文字幕在线观看 | 激情五月婷婷亚洲| 免费少妇av软件| 精品国产乱码久久久久久小说| 欧美xxxx性猛交bbbb| 人人妻人人澡人人爽人人夜夜| 欧美另类一区| 亚洲国产毛片av蜜桃av| 亚洲av成人精品一二三区| 国产精品99久久99久久久不卡 | 久久久精品免费免费高清| 成人国产麻豆网| 欧美成人午夜精品| 日本黄大片高清| 久久97久久精品| 久久这里有精品视频免费| 99热网站在线观看| 纯流量卡能插随身wifi吗| 天天操日日干夜夜撸| 成人无遮挡网站| 国产成人午夜福利电影在线观看| 午夜久久久在线观看| 精品人妻一区二区三区麻豆| 少妇人妻 视频| 国产69精品久久久久777片| 国产免费一级a男人的天堂| 亚洲高清免费不卡视频| 亚洲中文av在线| 中文字幕最新亚洲高清| 精品国产一区二区三区四区第35| 我的女老师完整版在线观看| 精品亚洲乱码少妇综合久久| 日韩精品有码人妻一区| 亚洲精品456在线播放app| 欧美精品一区二区大全| 国语对白做爰xxxⅹ性视频网站| 国产一区二区三区综合在线观看 | 久久久久国产网址| 黑人欧美特级aaaaaa片| 少妇被粗大的猛进出69影院 | 国产深夜福利视频在线观看| av免费观看日本| 下体分泌物呈黄色| 天天操日日干夜夜撸| 一区二区三区乱码不卡18| 岛国毛片在线播放| av国产精品久久久久影院| 亚洲欧美成人精品一区二区| 色哟哟·www| 国产高清三级在线| 亚洲综合色惰| 久久精品国产亚洲av天美| 亚洲色图 男人天堂 中文字幕 | 男女免费视频国产| 国产亚洲精品久久久com| 亚洲中文av在线| 观看美女的网站| 热99久久久久精品小说推荐| 丰满乱子伦码专区| 一区二区日韩欧美中文字幕 | 丝瓜视频免费看黄片| 亚洲色图 男人天堂 中文字幕 | 满18在线观看网站| 国产精品嫩草影院av在线观看| 欧美最新免费一区二区三区| 国产1区2区3区精品| 欧美+日韩+精品| 亚洲内射少妇av| 国产精品久久久av美女十八| 最近最新中文字幕免费大全7| 国产爽快片一区二区三区| 国产一区二区三区av在线| 少妇熟女欧美另类| 欧美亚洲 丝袜 人妻 在线| 五月天丁香电影| 国产熟女欧美一区二区| 热re99久久国产66热| 十八禁网站网址无遮挡| 人人澡人人妻人| 免费看不卡的av| 久久人人爽人人爽人人片va| 乱码一卡2卡4卡精品| 草草在线视频免费看| 亚洲精品国产av蜜桃| 中文欧美无线码| 欧美人与性动交α欧美软件 | 99热网站在线观看| 又大又黄又爽视频免费| 9191精品国产免费久久| 精品国产一区二区三区四区第35| 亚洲一区二区三区欧美精品| 好男人视频免费观看在线| 国产精品不卡视频一区二区| 菩萨蛮人人尽说江南好唐韦庄| 51国产日韩欧美| 欧美成人午夜精品| 天天躁夜夜躁狠狠躁躁| 日韩av在线免费看完整版不卡| 9191精品国产免费久久| 人人妻人人爽人人添夜夜欢视频| 女人精品久久久久毛片| 亚洲成人一二三区av| a级片在线免费高清观看视频| 99久久中文字幕三级久久日本| 国产一级毛片在线| 熟女电影av网| 中国国产av一级| 国产精品麻豆人妻色哟哟久久| 国产一区二区三区av在线| 亚洲国产最新在线播放| 久久久欧美国产精品| 亚洲精品,欧美精品| a 毛片基地| 人成视频在线观看免费观看| 欧美xxxx性猛交bbbb| a级毛片在线看网站| 97人妻天天添夜夜摸| 美女大奶头黄色视频| 男人爽女人下面视频在线观看| 欧美日韩一区二区视频在线观看视频在线| 美国免费a级毛片| 精品国产露脸久久av麻豆| 99久久综合免费| 90打野战视频偷拍视频| 午夜免费鲁丝| 国产日韩欧美在线精品| 男女下面插进去视频免费观看 | av国产精品久久久久影院| 午夜影院在线不卡| 欧美精品一区二区免费开放| 2021少妇久久久久久久久久久| 亚洲欧美成人精品一区二区| 亚洲精品乱久久久久久| 免费看av在线观看网站| 满18在线观看网站| 国产成人aa在线观看| 久久久亚洲精品成人影院| 欧美日韩av久久| 美女大奶头黄色视频| 九色亚洲精品在线播放| freevideosex欧美| 黄色 视频免费看| 少妇被粗大猛烈的视频| 十八禁高潮呻吟视频| 菩萨蛮人人尽说江南好唐韦庄| 久久精品国产鲁丝片午夜精品| 美女国产视频在线观看| 日韩视频在线欧美| 男女国产视频网站| 久久精品国产亚洲av涩爱| 啦啦啦中文免费视频观看日本| 大香蕉久久网| 一区二区三区乱码不卡18| 狠狠婷婷综合久久久久久88av| 热99国产精品久久久久久7| 亚洲一码二码三码区别大吗| 亚洲精品成人av观看孕妇| 国产精品偷伦视频观看了| 蜜桃国产av成人99| 最新中文字幕久久久久| 十八禁高潮呻吟视频| 亚洲精品乱久久久久久| 久久狼人影院| 亚洲av电影在线观看一区二区三区| 亚洲性久久影院| 色视频在线一区二区三区| 黄色配什么色好看| 9191精品国产免费久久| 亚洲一码二码三码区别大吗| 韩国av在线不卡| 制服诱惑二区| 久久精品国产鲁丝片午夜精品| 亚洲一级一片aⅴ在线观看| 久久国产精品男人的天堂亚洲 | 99国产精品免费福利视频| 国精品久久久久久国模美| 国产成人精品福利久久| 久久精品国产综合久久久 | 啦啦啦啦在线视频资源| 成人国产麻豆网| 国产亚洲精品第一综合不卡 | 亚洲性久久影院| 一区二区三区四区激情视频| 国产熟女欧美一区二区| 欧美精品亚洲一区二区| 国产精品成人在线| 亚洲图色成人| 一边亲一边摸免费视频| av视频免费观看在线观看| 国产精品女同一区二区软件| videosex国产| 国产老妇伦熟女老妇高清| 国产永久视频网站| 国产一级毛片在线| av片东京热男人的天堂| 日韩一区二区视频免费看| 欧美性感艳星| 亚洲av电影在线进入| 欧美国产精品va在线观看不卡| 欧美精品一区二区大全| 免费看av在线观看网站| 色婷婷av一区二区三区视频| 成年动漫av网址| 两个人看的免费小视频| 少妇高潮的动态图| 夜夜骑夜夜射夜夜干| 国产精品 国内视频| 青春草国产在线视频| 26uuu在线亚洲综合色| 国产亚洲av片在线观看秒播厂| 免费久久久久久久精品成人欧美视频 | 国产精品免费大片| 国产午夜精品一二区理论片| 亚洲精品av麻豆狂野| 香蕉丝袜av| 曰老女人黄片| 亚洲熟女精品中文字幕| 丁香六月天网| 男女边吃奶边做爰视频| 免费看光身美女| 日韩欧美精品免费久久| 日韩一本色道免费dvd| 国产69精品久久久久777片| 亚洲欧美成人综合另类久久久| 天天影视国产精品| 国产日韩一区二区三区精品不卡| 90打野战视频偷拍视频| a 毛片基地| 国产一区二区三区av在线| 亚洲伊人色综图| 高清av免费在线| 高清视频免费观看一区二区| 9191精品国产免费久久| 日韩人妻精品一区2区三区| 黄色 视频免费看| 十分钟在线观看高清视频www| 久久久精品免费免费高清| 日本爱情动作片www.在线观看| 久久久久久久久久人人人人人人| 国产黄色视频一区二区在线观看| 看非洲黑人一级黄片| 欧美精品高潮呻吟av久久| av天堂久久9| 国产在线免费精品| 国产片特级美女逼逼视频| 中文欧美无线码| 精品人妻一区二区三区麻豆| 91久久精品国产一区二区三区| 国产欧美亚洲国产| 五月天丁香电影| 亚洲美女黄色视频免费看| 精品亚洲乱码少妇综合久久| 男女高潮啪啪啪动态图| 色94色欧美一区二区| 欧美日韩av久久| 观看av在线不卡| 亚洲欧美色中文字幕在线| 制服人妻中文乱码| 最近中文字幕2019免费版| 丝袜脚勾引网站| 日本午夜av视频| 国产成人精品一,二区| 两个人看的免费小视频| 精品国产露脸久久av麻豆| 亚洲欧美日韩另类电影网站| 草草在线视频免费看| 久久这里有精品视频免费| 亚洲,一卡二卡三卡| 中文字幕制服av| 国产亚洲一区二区精品| 日产精品乱码卡一卡2卡三| 国语对白做爰xxxⅹ性视频网站| 在线天堂最新版资源| 国产1区2区3区精品| 亚洲经典国产精华液单| 成人无遮挡网站| 免费女性裸体啪啪无遮挡网站| 看免费成人av毛片| 久久青草综合色| 精品酒店卫生间| 99久久综合免费| 熟女电影av网| 国产亚洲一区二区精品| 一本色道久久久久久精品综合| 宅男免费午夜| 亚洲综合精品二区| 欧美亚洲 丝袜 人妻 在线| 亚洲国产精品国产精品| av天堂久久9| 欧美日韩综合久久久久久| 一级黄片播放器| 色婷婷av一区二区三区视频| 国产精品不卡视频一区二区| 人妻人人澡人人爽人人| 大香蕉久久成人网| 少妇精品久久久久久久| 精品第一国产精品| 精品熟女少妇av免费看| 欧美丝袜亚洲另类| 国产极品粉嫩免费观看在线| 亚洲伊人色综图| 91午夜精品亚洲一区二区三区| 国产成人91sexporn| 晚上一个人看的免费电影| 亚洲国产av新网站| 亚洲第一av免费看| 制服人妻中文乱码| 国产精品.久久久| 国产精品熟女久久久久浪| 久久久久久久久久久久大奶| 国产亚洲一区二区精品| 成人黄色视频免费在线看| 精品亚洲成a人片在线观看| 有码 亚洲区| 国产伦理片在线播放av一区| 日日摸夜夜添夜夜爱| 国产av码专区亚洲av| 国产黄色视频一区二区在线观看| 波多野结衣一区麻豆| 国产一级毛片在线| 中文字幕人妻熟女乱码| 久久久久久久亚洲中文字幕| 一级片'在线观看视频| 少妇被粗大的猛进出69影院 | 青青草视频在线视频观看| 亚洲精品一二三| 国产av国产精品国产| 国产一区二区激情短视频 | 大片电影免费在线观看免费| 免费少妇av软件| 97在线视频观看| 亚洲成av片中文字幕在线观看 | 自拍欧美九色日韩亚洲蝌蚪91| 欧美变态另类bdsm刘玥| 美女xxoo啪啪120秒动态图| 国产成人精品福利久久| videossex国产| 亚洲一码二码三码区别大吗| 三级国产精品片| 国产老妇伦熟女老妇高清| 亚洲精品自拍成人| 黄色 视频免费看| 国产精品秋霞免费鲁丝片| 精品视频人人做人人爽| 精品国产国语对白av| 亚洲美女黄色视频免费看| 男人添女人高潮全过程视频| 美女福利国产在线| 91国产中文字幕| 免费少妇av软件| 国产成人a∨麻豆精品| 欧美日韩成人在线一区二区| 天天影视国产精品| 精品少妇内射三级| 中文欧美无线码| 在线观看免费视频网站a站| 国产成人a∨麻豆精品| 免费人妻精品一区二区三区视频| tube8黄色片| 国产免费视频播放在线视频| 蜜臀久久99精品久久宅男| 久久国产精品男人的天堂亚洲 | 男女下面插进去视频免费观看 | 欧美少妇被猛烈插入视频| 国产熟女欧美一区二区| 18禁动态无遮挡网站| 丰满乱子伦码专区| 亚洲第一区二区三区不卡| 久久人人97超碰香蕉20202| 亚洲情色 制服丝袜| 美女大奶头黄色视频| 免费黄频网站在线观看国产| 久久 成人 亚洲|