• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Simhash改進(jìn)的文本去重算法

    2022-08-23 07:16:40張亞男陳衛(wèi)衛(wèi)付印金
    關(guān)鍵詞:特征詞哈希降維

    張亞男,陳衛(wèi)衛(wèi),付印金,徐 堃

    (陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007)

    0 引 言

    進(jìn)入大數(shù)據(jù)時代,數(shù)字化信息呈現(xiàn)爆炸式增長。伴隨著云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等信息技術(shù)的快速發(fā)展,數(shù)據(jù)量呈幾何級增長,據(jù)IDC最新發(fā)布的報告預(yù)測,全球數(shù)據(jù)總量將從2016年的16.1 ZB增長到2025年的175 ZB[1]。隨著全球生成和存儲的數(shù)據(jù)越來越多,對存儲容量的需求將繼續(xù)以穩(wěn)定的速度增長。但是無論是云存儲系統(tǒng),還是傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng),都存在大量的冗余數(shù)據(jù),有的系統(tǒng)中數(shù)據(jù)重復(fù)率高達(dá)70%~90%[2]。越來越多的研究者開始關(guān)注解決數(shù)據(jù)冗余問題以縮減存儲空間,重復(fù)數(shù)據(jù)刪除技術(shù)應(yīng)運而生。重復(fù)數(shù)據(jù)刪除技術(shù)的核心思想是,只存儲唯一的數(shù)據(jù)對象,對于其他重復(fù)數(shù)據(jù)則通過存儲指針代替,指針指向該唯一數(shù)據(jù)對象。

    當(dāng)前流行的相似文本檢測和去重算法主要有k-shingle[3]、Minhash[4]和Simhash[5]算法。Simhash是Google工程師Charikar等人提出的一種局部敏感哈希算法,用來解決億萬級別網(wǎng)頁去重問題。Simhash算法較其他算法的優(yōu)勢是處理速度快,結(jié)果準(zhǔn)確度高,被廣泛應(yīng)用于相似文本檢測、冗余數(shù)據(jù)去重和數(shù)據(jù)異常檢測等領(lǐng)域[6]。該文主要對Simhash算法在文本去重上的應(yīng)用進(jìn)行研究和改進(jìn),以進(jìn)一步提高其檢測重復(fù)文本的精確率。

    1 相關(guān)研究

    1.1 Simhash算法

    傳統(tǒng)的哈希算法能夠?qū)θ我忾L度的輸入數(shù)據(jù)進(jìn)行計算,輸出固定長度的哈希值。SHA-1、MD5等傳統(tǒng)哈希算法,對輸入數(shù)據(jù)非常敏感,只要有1 bit的差距都幾乎不可能產(chǎn)生相同的哈希值,因此無法衡量文本的相似度。重復(fù)數(shù)據(jù)刪除技術(shù)分為相同數(shù)據(jù)檢測技術(shù)和相似數(shù)據(jù)檢測技術(shù)兩大類,傳統(tǒng)的哈希算法對后者的效果并不理想[7]。Simhash的主要思想是降維,將高維的特征向量映射成低維的特征向量,通過這些向量的漢明距離(Hamming Distance)來判定文本的相似度。Simhash算法流程(如圖1所示)大致如下:

    圖1 Simhash算法流程

    (1)分詞。首先對文本進(jìn)行分詞,將文本轉(zhuǎn)化為一組特征。然后,去除特殊符號、停用詞等無關(guān)字詞。

    (2)哈希。使用同一哈希函數(shù)計算各個詞的哈希值,分別得到它們對應(yīng)的f位簽名Sig。

    (3)加權(quán)。為每個特征詞賦予權(quán)重,對每個詞的f位簽名進(jìn)行加權(quán)計算。在計算每個比特位時,遇到1則加上其權(quán)重值,遇到0則減去其權(quán)重值,得到每個詞的加權(quán)特征值。

    (4)合并。對文本內(nèi)的每個加權(quán)特征值進(jìn)行累加,得到一個f位向量V。

    (5)降維。對向量V降維,對于每個比特位,如果大于0則將該比特位置為1,否則置為0。得到的結(jié)果作為文本的簽名,記為S。

    在計算文本間距離階段,對不同文本的簽名進(jìn)行異或操作,逐位比較其簽名值。如果該比特位上的值不同則記為1,否則為0,得到1的個數(shù)即為漢明距離的大小。漢明距離越大,代表兩個文本相似度越低,反之則相似度越高。

    1.2 當(dāng)前研究現(xiàn)狀

    在大數(shù)據(jù)高性能存儲應(yīng)用領(lǐng)域,傳統(tǒng)的Simhash算法已無法滿足其需求。首先,特征詞選取的精度不高,不能很好地體現(xiàn)文本特征。其次,對特征詞權(quán)重的計算比較片面,導(dǎo)致準(zhǔn)確率下降。針對上述問題,國內(nèi)外研究者進(jìn)行了進(jìn)一步的研究與改進(jìn)。

    文獻(xiàn)[8]針對特征詞權(quán)重影響因素考慮不足的問題,在Simhash權(quán)重計算階段,從詞性、詞長、標(biāo)志詞以及文檔標(biāo)題中是否含有特征詞等幾大方面對TF-IDF算法的權(quán)重計算進(jìn)行改進(jìn),缺點是僅僅根據(jù)特征詞的詞性、長度和是否處于標(biāo)題摘要等位置對權(quán)重進(jìn)行優(yōu)化,會導(dǎo)致部分權(quán)重過大。文獻(xiàn)[9]將Simhash算法和GAN(Generative Adversarial Networks)網(wǎng)絡(luò)進(jìn)行結(jié)合用于惡意軟件檢測,通過轉(zhuǎn)化為灰度圖像提高惡意軟件識別率和性能。文獻(xiàn)[10]引入文檔標(biāo)簽、摘要、關(guān)鍵詞和參考文獻(xiàn)等其他信息,從多個維度計算文本相似度,但是沒有考慮詞匯位置分布的影響因素。文獻(xiàn)[11]提出的E-Simhash算法采用詞頻和熵加權(quán)的方式優(yōu)化特征詞權(quán)重計算,并針對Simhash算法無法體現(xiàn)特征詞位置信息的問題,在特征詞哈希時與其位置進(jìn)行異或運算。但是在計算特征詞簽名時簡單地將其哈希與所在位置進(jìn)行異或運算,容易造成文本簽名失真。例如在文本頭僅僅添加一個文字就可能會導(dǎo)致所有特征詞位置發(fā)生改變,造成文本簽名值的顯著改變。

    以上對Simhash算法的改進(jìn)主要存在兩個問題。第一個問題是,在對特征詞哈希加權(quán)時沒有考慮特征詞之間的關(guān)聯(lián)性,例如待去重文本中可能存在幾個大類,而屬于某一類文本中的特征詞具有很強(qiáng)的關(guān)聯(lián)性,可能會同時出現(xiàn)。如果這些詞同時占有較高權(quán)重,對于分類性能很好,但是卻為差異檢測帶來了干擾。第二個問題是,不能很好地體現(xiàn)特征詞位置分布信息。

    2 改進(jìn)的Simhash算法

    針對以上提到的問題,對Simhash算法進(jìn)行改進(jìn)。傳統(tǒng)的Simhash算法基于詞袋模型,無法表征語序信息。但是僅考慮特征詞出現(xiàn)的頻率而不考慮語序特征,會影響結(jié)果的準(zhǔn)確性。為了減少誤判,該文將特征詞的位置分布信息融入Simhash計算簽名。為提高運算效率,選取權(quán)重前m的詞語而非全部詞語作為特征詞。針對特征詞的共現(xiàn)現(xiàn)象,根據(jù)Jaccard相似度對權(quán)重進(jìn)行優(yōu)化,降低相關(guān)度較高的特征詞的權(quán)重,以提高檢測精度。改進(jìn)BDR算法用于反映特征詞位置分布,使用隨機(jī)函數(shù)將特征詞所在位置映射到f維向量空間,對得到的特征向量累加得到均差向量,然后做降維處理作為位置特征值。取特征詞哈希與位置特征值加權(quán)求和作為其特征向量,與優(yōu)化后的特征詞權(quán)重相乘,經(jīng)合并降維后生成新的文本簽名。最后,通過計算文本間的漢明距離來判斷文本相似度,將A,B兩個文本之間的相似度定義為:

    (1)

    其中,Ham(A,B)表示A,B兩個文本的漢明距離,f表示文本簽名值的比特位數(shù)。兩個文本的距離越小,相似度越大。文獻(xiàn)[12]的實驗結(jié)果表明,對于64位的長文本簽名,可以將漢明距離不大于3的兩個文本判定為相似文本,同時保證較高的準(zhǔn)確性。

    2.1 特征詞權(quán)重的改進(jìn)

    現(xiàn)有的基于Simhash改進(jìn)算法主要使用TF-IDF算法為特征詞賦權(quán),在計算文本間相似性時沒有考慮特征詞之間的共現(xiàn)現(xiàn)象,而這與基于選擇的特征降維模型前提條件“特征項之間相互獨立”相矛盾[13]。文本集中的特征詞可以分為三類[14]:第1類特征詞在某一類文本中大量出現(xiàn)而在其他類文本里很少出現(xiàn),第2類特征詞常常在幾個文本類別中出現(xiàn)而在其他類文本里很少出現(xiàn),第3類特征詞卻在幾乎所有文本類別中都出現(xiàn)。使用TF-IDF算法會對第3類特征詞賦予極低的權(quán)重,對于前兩類特征詞通常會賦予較高權(quán)重。但是當(dāng)前兩類特征詞出現(xiàn)共現(xiàn)現(xiàn)象時,由于都占據(jù)較高的權(quán)重,導(dǎo)致文本簽名模糊,反而不利于文本去重。例如有以下文本:

    ①李白是唐代詩人

    簽名值:010011000101000100101101

    ②李白不是唐代詩人

    簽名值:010011000101000100111101

    其中,詞語“是”、“不是”就屬于第3類,在幾乎哪一類文本中都有出現(xiàn),根據(jù)TF-IDF計算得到的權(quán)重很低。而“李白”、“唐代”、“詩人”這些詞屬于前兩類,根據(jù)TF-IDF算法計算得到的權(quán)重較高。如果取權(quán)重前3的詞語作為特征詞,通過傳統(tǒng)Simhash計算兩個文本簽名值距離為1,即使兩個文本內(nèi)容和含義有很大差異也會被判定為重復(fù)。而“李白”、“唐代”、“詩人”共現(xiàn)頻率很高,由“李白”一詞幾乎可以代替其他詞語,這樣一來“是”、“不是”就成為影響文本簽名值的特征詞。

    (1)TF-IDF算法。

    在大數(shù)據(jù)高性能存儲中,文本數(shù)量巨大,將每個文本分詞后所得的詞語數(shù)量會大大增加,為降低計算機(jī)運行的時空間復(fù)雜度,需要對分詞結(jié)果進(jìn)行篩選。TF-IDF算法是一種特征提取的方法,可以在盡量保證文本特征信息的同時縮減特征詞的數(shù)量,達(dá)到降維目的。其一般表達(dá)形式為:

    ωdt=tfdt×idf(Nnt)

    (2)

    其中,ωdt表示特征詞t在文本d中的權(quán)重,tfdt表示特征詞t在文本d中出現(xiàn)的頻率,N表示文本集中文本的總數(shù),idf(Nnt)表示逆文檔頻率,是對文本集中文本總數(shù)N和特征詞t出現(xiàn)的文本數(shù)目n的比值取對數(shù),用于權(quán)衡特征詞重要性。在實際應(yīng)用中,為減少文本長度影響,需要對特征詞權(quán)重進(jìn)行歸一化處理。在改進(jìn)的算法中,TFC[15]的應(yīng)用最為廣泛,其表達(dá)式可寫作:

    (3)

    其中,mdt表示特征詞t在文本d中出現(xiàn)的次數(shù),Md表示文本d中的特征詞總數(shù),nt表示文本集中出現(xiàn)特征詞t的文本數(shù)。

    (2)Jaccard相似度。

    Jaccard系數(shù)是一種二元數(shù)據(jù)對象的相似性度量方法,常用于比較有限樣本集之間的相似性。其表達(dá)式為:

    (4)

    其中,J(x,y)表示二元對象x,y的相似度,f11表示x取1并且y取1的樣本個數(shù),f01表示x取0并且y取1的樣本個數(shù),f10表示x取1并且y取0的樣本個數(shù)。在上式中,x取1表示樣本中包含特征詞x,反之則不包含,y同理。在實際應(yīng)用中,特征詞x,y即使同時出現(xiàn)在多個樣本中,它們出現(xiàn)的次數(shù)也會呈現(xiàn)隨機(jī)性。為了消除量綱的影響,對其做了以下改進(jìn):

    (5)

    其中,n表示同時包含特征詞x,y的樣本總數(shù),xk表示第k個樣本中特征詞x出現(xiàn)的次數(shù),yk表示第k個樣本中特征詞y出現(xiàn)的次數(shù)。

    (3)相似度加權(quán)算法。

    在計算特征詞權(quán)重時,在TF-IDF基礎(chǔ)上,根據(jù)Jaccard相似度對權(quán)重進(jìn)行優(yōu)化。算法簡記為J-Tidf,由其計算得到的權(quán)重表達(dá)式為:

    (6)

    2.2 體現(xiàn)特征詞位置信息的哈希簽名

    傳統(tǒng)的Simhash算法基于詞袋模型,無法表征特征詞在文本中出現(xiàn)的位置。例如有以下文本:

    ①太陽隊總決賽贏了雄鹿隊

    簽名值:101110010101000100001100

    ②雄鹿隊總決賽贏了太陽隊

    簽名值:101110010101000100001100

    即使兩個文本的內(nèi)容和含義大不相同,使用傳統(tǒng)的Simhash算法也會得到完全相同的簽名值。因此,該文針對文本詞匯位置信息設(shè)計一套簽名方案,以量化文本間的特征詞分布差異。

    2.2.1 BDR算法

    BDR(Binary Dimension Reduction)是Rameshwar等人提出的一種稀疏二進(jìn)制向量降維算法[16],旨在通過維度壓縮降低存儲空間和提高計算效率,同時盡可能保留原始向量的特征。在詞袋模型中,大多數(shù)單詞很少出現(xiàn)在文本中。以Twitter為例,每條推文限制為140個字符,如果只考慮英文推文,由于英文詞匯量為171 476個,每條推文都可以表示為171 476維度的稀疏二進(jìn)制向量,其中1表示存在單詞,0表示不存在。在BDR算法中,這種稀疏性是實現(xiàn)降維的前提[17]。BDR算法(如圖2所示)分為以下幾步:

    圖2 BDR算法示例

    ①映射。對于由01組成的d維二進(jìn)制向量u和N維向量v,選擇一個隨機(jī)函數(shù),將向量u中的每個比特位映射到向量v上的每個位置。

    ②奇偶校驗。對于映射到向量v上的每個比特位上的01求和,如果和是奇數(shù)則記為1,否則記為0。

    壓縮維度N的邊界為ψ2log2n,與原始向量維度d無關(guān)。其中ψ表示數(shù)據(jù)稀疏性,即原始向量集合中出現(xiàn)1的數(shù)量最多的向量中1的個數(shù),n表示待比較二進(jìn)制向量個數(shù)。壓縮后的數(shù)據(jù)繼承了原始數(shù)據(jù)的內(nèi)積,其漢明距離總是小于或等于原始數(shù)據(jù)的漢明距離,同時在Jaccard相似性計算上與Minhash保持幾乎相同的準(zhǔn)確性。

    2.2.2 改進(jìn)BDR算法用于表示特征詞位置差異

    BDR算法在保留數(shù)據(jù)對象內(nèi)積的前提下有效實現(xiàn)了數(shù)據(jù)降維,但是隨著待比較向量數(shù)目n的增加,文本長度增加導(dǎo)致稀疏性系數(shù)ψ變大,這使得壓縮維度N不斷增大。該文對BDR算法進(jìn)行了改進(jìn),將其應(yīng)用到特征詞位置信息的降維表達(dá)上,在損失一定精度的情況下,可以大大降低壓縮維度。改進(jìn)后的算法簡稱PBDR,流程(如圖3所示)如下:

    圖3 改進(jìn)的BDR算法流程

    ①生成原始向量。對于每個特征詞,統(tǒng)計其在文本中的位置,生成對應(yīng)的d維二進(jìn)制向量u,d表示文本詞匯總數(shù)。對于每個比特位,如果該特征詞在文本第p個位置出現(xiàn),則向量u的第p位置為1,否則置為0。

    ②映射。選擇一個隨機(jī)函數(shù),將向量u中的每個比特位映射到f維向量v。在計算向量v的每個位置時,將映射到該位的01值進(jìn)行求和。

    ③求均差。對向量v每個位置,先求所有位置上數(shù)值的均值,然后將每個位置上的數(shù)值減去均值,得到該特征詞的均差向量。

    ④降維。對特征詞的均差向量降維,對于每個比特位,如果大于0則將該比特位置為1,否則置為0。得到反映特征詞位置特征的簽名,記為Sig'。

    2.3 融合特征詞詞匯和位置信息的Simhash算法

    改進(jìn)后的算法(P-Simhash算法)主要針對傳統(tǒng)Simhash算法為特征詞賦權(quán)不夠合理、沒有體現(xiàn)文本特征詞分布位置差異的缺點,在哈希、加權(quán)兩個過程中做出改進(jìn)。算法流程(如圖4所示)如下:

    (1)分詞。使用Jieba分詞工具對文本進(jìn)行分詞,去除特殊符號、停用詞等無關(guān)字詞。

    (2)哈希。計算權(quán)重并按照權(quán)重大小選取前m個分詞結(jié)果作為特征詞,使用同一哈希函數(shù)計算各個詞的哈希值,得到它們分別對應(yīng)的f位簽名Sig。

    圖4 P-Simhash算法流程

    (3)位置特征轉(zhuǎn)換。使用同一映射函數(shù)通過PBDR算法計算各個詞對應(yīng)的f位位置特征簽名Sig'。

    (4)簽名加權(quán)合并。對于上兩步得到的特征詞的兩種特征簽名加權(quán)求和,得到其對應(yīng)的特征向量SigFnl,計算公式為SigFnl=μ×Sig+(1-μ)×Sig'。在計算每一位時,如果遇到0則先將其置為-1然后再進(jìn)行運算。

    (5)二次加權(quán)。使用J-Tidf算法計算詞的權(quán)重,對每個詞的特征向量SigFnl進(jìn)行加權(quán)計算。將特征向量對應(yīng)的每一位上的數(shù)值乘以權(quán)重值,得到每個詞的加權(quán)特征值。

    (6)合并。對文本內(nèi)的每個加權(quán)特征值進(jìn)行累加,得到一個f位向量V。

    (7)降維。對向量V降維,對于每個比特位,如果大于0則將該比特位置為1,否則置為0。得到的結(jié)果作為文本的簽名,記為S。

    3 實驗及分析

    為了檢驗提出的改進(jìn)算法對重復(fù)文本的檢測性能,選擇搜狗新聞數(shù)據(jù)集作為實驗數(shù)據(jù),對原Simhash算法和改進(jìn)后的Simhash算法進(jìn)行對比。主要評估去重率、精確率、召回率和F1值[18]等指標(biāo),各指標(biāo)的表達(dá)式如下:

    (7)

    精確率(Precision)=

    (8)

    (9)

    (10)

    3.1 實驗環(huán)境

    實驗代碼采用Python語言編寫,測試環(huán)境部署在Windows10操作系統(tǒng)上,硬件環(huán)境為Intel(R) Core(TM) i5-10200HCPU @2.40 GHz 處理器,8 GB內(nèi)存容量,分詞工具采用 Jieba3.0。

    3.2 實驗數(shù)據(jù)

    數(shù)據(jù)集采用搜狗實驗室中的全網(wǎng)新聞數(shù)據(jù)2012版,收錄了來自若干新聞?wù)军c2012年6至7月期間國內(nèi)、國際、體育、社會和娛樂等18個頻道的新聞數(shù)據(jù),有近10萬條。首先剔除少于100個內(nèi)容的新聞類別,然后再剔除其中字?jǐn)?shù)小于800的新聞,隨機(jī)選取4 246篇新聞進(jìn)行后續(xù)實驗。前文提及的E-Simhash算法在計算文本簽名時也融入了特征詞分布信息,因此該文也將重點與其進(jìn)行實驗比較。隨機(jī)選取其中的2 831個樣本作為訓(xùn)練集,用作計算特征詞之間的Jaccard相似度,以優(yōu)化其權(quán)重。在E-Simhash算法對比實驗中,用作計算特征詞的左右信息熵。將剩余的1 515個樣本作為測試集,比較不同算法性能。

    3.3 實驗結(jié)果與分析

    使用64位二進(jìn)制01向量作為文本簽名值,在計算簽名值時μ值的選取待實驗后給出。E-Simhash算法選取漢明距離為10并以此為基礎(chǔ)開展實驗,為了保證實驗的客觀性,漢明距離取10。

    3.3.1μ的取值對去重率的影響

    如2.3中所述,P-Simhash算法在第(4)步計算特征詞對應(yīng)的向量時,采用加權(quán)合并的方法得到融合位置分布信息的特征向量。對于任意比特位,若Sig和Sig'在該位上相同時μ值大小對結(jié)果無任何影響;當(dāng)Sig和Sig'在該比特位上不同時,經(jīng)加權(quán)計算得到的值域為|2μ-1|,μ值表征了特征詞位置分布對簽名的影響程度。μ取值越大,特征詞位置分布不同帶來的影響就越大,但是對于自然文本來說,大多數(shù)時候特征詞位置的改變并不影響整個文本的語義。因此,當(dāng)μ取值超過一定范圍后,算法的去重率反而會下降。圖5顯示了μ在不同取值情況下,運行P-Simhash算法得到對應(yīng)的去重率。實驗結(jié)果表明,對于實驗選取的搜狗新聞數(shù)據(jù)集,當(dāng)μ取值在1.4到1.9之間時,P-Simhash的去重率達(dá)到比較高的程度。因此,進(jìn)行后續(xù)的算法性能比較實驗時,參數(shù)選擇μ=1.5。

    3.3.2 不同算法性能比較

    P-Simhash在計算文本簽名時融入了位置信息,計算的文本簽名能夠體現(xiàn)特征詞位置分布差異的影響;同時在特征詞哈希加權(quán)時降低了共現(xiàn)詞的權(quán)重,避免了關(guān)聯(lián)特征詞具有較高權(quán)重導(dǎo)致簽名模糊,因此相比其他算法擁有較高的精確率和召回率。如圖6所示,P-Simhash算法在精確率上以0.946:0.803:0.909分別高于傳統(tǒng)Simhash算法和E-Simhash算法,在召回率上以0.879:0.674:0.813分別高于傳統(tǒng)Simhash算法和E-Simhash算法。F1值是評價去重算法性能的重要指標(biāo),在該指標(biāo)上P-Simhash算法以0.911:0.732:0.858優(yōu)于傳統(tǒng)Simhash算法和E-Simhash算法。

    圖5 μ在不同取值下的去重率

    圖6 算法性能對比

    3.3.3 算法執(zhí)行時間比較

    P-Simhash算法在生成文本簽名時加入了詞匯位置特征計算,帶來了一定的時間開銷。為解決這一問題,該文采用前m個特征詞而非全部特征詞計算文本簽名,因此可以節(jié)省大量的哈希運算時間。由圖7可以看出,特征詞權(quán)重幾乎呈指數(shù)下降,當(dāng)m大于20時,特征詞的權(quán)重值很小,對生成簽名值的影響也有限。因此,選擇權(quán)重前20的特征詞計算文本簽名。

    圖7 前m個特征詞的權(quán)重

    為了比較不同算法的運行時間,將測試樣本集通過裁剪拼接,調(diào)整每條新聞樣本長度為1 000、2 000、3 000、4 000字,然后分別進(jìn)行測試。實驗結(jié)果如圖8所示,隨著文本長度不斷增加,算法的執(zhí)行時間也越來越長。P-Simhash算法由于在生成文本簽名時加入了詞匯位置特征計算,有一定的時間開銷,但由于僅使用前20個特征詞計算文本簽名,節(jié)省了特征詞哈希時間,因此P-Simhash算法執(zhí)行時間與Simhash算法幾乎相同。同時,由于無論文本長度變化始終選取前20個特征詞計算文本簽名,因此算法穩(wěn)定性更好。而E-Simhash算法將全部特征詞哈希與其每個位置分別進(jìn)行異或操作,因此耗費時間更多。

    圖8 算法執(zhí)行時間對比

    總結(jié)以上實驗結(jié)果可以得出,P-Simhash以0.911:0.732將傳統(tǒng)Simhash的去重效果提高了24.4%,而算法執(zhí)行時間幾乎相等。同時,在時間開銷和去重性能上均明顯優(yōu)于E-Simhash算法。綜合去重性能和算法執(zhí)行效率,提出的P-Simhash算法較其他算法性能更好。

    4 結(jié)束語

    針對傳統(tǒng)Simhash算法對重復(fù)文本檢測精確度不高的問題,采用改進(jìn)的Jaccard相似度計算方法計算特征詞的關(guān)聯(lián)度,適當(dāng)降低共現(xiàn)詞的權(quán)重,從而將注意力放在可能造成文本差異的部分。對于其無法體現(xiàn)特征詞在文中分布的缺點,引入了二進(jìn)制維度縮減算法,并在此基礎(chǔ)上進(jìn)行了改進(jìn),以便將特征詞在文本中的位置分布信息映射到低維向量空間。設(shè)計了新的特征詞簽名,將詞哈希與其位置信息結(jié)合在一起作為新的特征詞簽名。實驗結(jié)果表明,提出的P-Simhash算法的去重性能較傳統(tǒng)Simhash算法有明顯提高。基于Simhash改進(jìn)的中文文本去重算法普遍依賴ICTCLAS、Jieba等分詞工具,如不能識別新詞、分詞不準(zhǔn)確等會給相似度計算帶來較大影響,在算法的分詞階段還有較大的改進(jìn)空間。此外,上述算法直接將特征詞進(jìn)行哈希計算,缺乏衡量近似詞的手段,兩個同義詞的哈希值很可能完全不同,可能導(dǎo)致兩個相似文本相似度很低。下一步將針對詞義的相似程度設(shè)計一套獨特的詞簽名方案,以便更好地應(yīng)用于相似文本檢測工程。

    猜你喜歡
    特征詞哈希降維
    混動成為降維打擊的實力 東風(fēng)風(fēng)神皓極
    車主之友(2022年4期)2022-08-27 00:57:12
    降維打擊
    海峽姐妹(2019年12期)2020-01-14 03:24:40
    基于改進(jìn)TFIDF算法的郵件分類技術(shù)
    產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
    基于OpenCV與均值哈希算法的人臉相似識別系統(tǒng)
    基于維度分解的哈希多維快速流分類算法
    面向文本分類的特征詞選取方法研究與改進(jìn)
    拋物化Navier-Stokes方程的降維仿真模型
    計算物理(2014年1期)2014-03-11 17:00:18
    基于特征聯(lián)合和偏最小二乘降維的手勢識別
    基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗證算法
    1024手机看黄色片| 日韩欧美国产在线观看| 日本撒尿小便嘘嘘汇集6| 桃色一区二区三区在线观看| 国产视频内射| 欧美丝袜亚洲另类 | 九色成人免费人妻av| a在线观看视频网站| 欧美黑人欧美精品刺激| 国产高清激情床上av| 精品一区二区免费观看| 3wmmmm亚洲av在线观看| av欧美777| 深夜精品福利| 国产精品爽爽va在线观看网站| 51午夜福利影视在线观看| 亚洲欧美清纯卡通| 国产麻豆成人av免费视频| 久久久国产成人精品二区| 亚洲男人的天堂狠狠| 中文字幕久久专区| 搞女人的毛片| 精品一区二区三区视频在线观看免费| 我的老师免费观看完整版| 亚洲成人精品中文字幕电影| 久久精品国产清高在天天线| 嫩草影院精品99| 欧美xxxx黑人xx丫x性爽| 亚洲国产色片| 欧美极品一区二区三区四区| 精品久久久久久久久久免费视频| 国内精品久久久久精免费| 亚洲va日本ⅴa欧美va伊人久久| 亚洲第一区二区三区不卡| 日本免费一区二区三区高清不卡| 自拍偷自拍亚洲精品老妇| 国产免费av片在线观看野外av| av欧美777| 少妇的逼好多水| 午夜亚洲福利在线播放| 在线观看午夜福利视频| 成人性生交大片免费视频hd| 欧美丝袜亚洲另类 | 免费观看精品视频网站| 99精品在免费线老司机午夜| 91在线观看av| 91狼人影院| 一个人看视频在线观看www免费| 伊人久久精品亚洲午夜| 成人特级黄色片久久久久久久| 亚洲精品亚洲一区二区| 国产不卡一卡二| 97超视频在线观看视频| 99国产综合亚洲精品| 亚洲精华国产精华精| 国产麻豆成人av免费视频| 中文字幕人妻熟人妻熟丝袜美| 日日夜夜操网爽| 日韩精品中文字幕看吧| 欧美日韩黄片免| 久久热精品热| 最好的美女福利视频网| 男女下面进入的视频免费午夜| АⅤ资源中文在线天堂| 亚洲av第一区精品v没综合| 精品欧美国产一区二区三| 又爽又黄无遮挡网站| 夜夜躁狠狠躁天天躁| 一本综合久久免费| 老熟妇乱子伦视频在线观看| 一区二区三区激情视频| 深夜a级毛片| 国产精品一区二区三区四区久久| 俄罗斯特黄特色一大片| 色精品久久人妻99蜜桃| 精品无人区乱码1区二区| 国产aⅴ精品一区二区三区波| 亚洲国产日韩欧美精品在线观看| 国产精品1区2区在线观看.| 成人毛片a级毛片在线播放| 国内揄拍国产精品人妻在线| 亚洲国产欧美人成| 亚洲精华国产精华精| 国产日本99.免费观看| 成人亚洲精品av一区二区| 国产av麻豆久久久久久久| 女同久久另类99精品国产91| 国产男靠女视频免费网站| 免费电影在线观看免费观看| 九九热线精品视视频播放| 午夜老司机福利剧场| 97超级碰碰碰精品色视频在线观看| 色综合欧美亚洲国产小说| 欧美一级a爱片免费观看看| 成年版毛片免费区| 国产男靠女视频免费网站| 欧美精品国产亚洲| 男女视频在线观看网站免费| 无人区码免费观看不卡| 老女人水多毛片| 欧美日韩国产亚洲二区| 不卡一级毛片| 搡女人真爽免费视频火全软件 | av专区在线播放| 国产精品国产高清国产av| 亚洲 国产 在线| 一进一出好大好爽视频| 美女xxoo啪啪120秒动态图 | 国产高潮美女av| 国内揄拍国产精品人妻在线| 美女xxoo啪啪120秒动态图 | 在线观看av片永久免费下载| 国内揄拍国产精品人妻在线| 亚洲最大成人av| 波多野结衣巨乳人妻| 人妻丰满熟妇av一区二区三区| 欧美乱色亚洲激情| 欧美日韩黄片免| 最新中文字幕久久久久| 90打野战视频偷拍视频| 亚洲五月天丁香| 国产精品美女特级片免费视频播放器| 国产aⅴ精品一区二区三区波| 国产精品乱码一区二三区的特点| 欧美一区二区精品小视频在线| 亚洲成人中文字幕在线播放| 精品久久久久久久久av| 最近最新免费中文字幕在线| 久久99热6这里只有精品| 啦啦啦韩国在线观看视频| 在线观看免费视频日本深夜| 国产一区二区在线观看日韩| 综合色av麻豆| 欧美色视频一区免费| 日本三级黄在线观看| 日日摸夜夜添夜夜添av毛片 | 国产三级在线视频| 国产精品一区二区三区四区久久| 国产高清有码在线观看视频| 久久久国产成人免费| 亚洲av不卡在线观看| 91九色精品人成在线观看| 老熟妇仑乱视频hdxx| 深夜精品福利| 在线观看午夜福利视频| 日韩欧美在线二视频| 国产精品国产高清国产av| 色在线成人网| 国产精品三级大全| 高清毛片免费观看视频网站| 亚洲av不卡在线观看| 91九色精品人成在线观看| 日本免费一区二区三区高清不卡| 99热只有精品国产| 亚洲精品影视一区二区三区av| 欧美中文日本在线观看视频| 国产精品电影一区二区三区| 亚洲精品一卡2卡三卡4卡5卡| www日本黄色视频网| 一个人免费在线观看的高清视频| 97热精品久久久久久| 久99久视频精品免费| 特大巨黑吊av在线直播| 人人妻人人看人人澡| 我的老师免费观看完整版| 88av欧美| 国产成人影院久久av| 国产成人啪精品午夜网站| 一本综合久久免费| 亚洲国产高清在线一区二区三| av欧美777| 国产精品久久久久久人妻精品电影| 国产成人aa在线观看| av专区在线播放| 女同久久另类99精品国产91| 神马国产精品三级电影在线观看| 国产欧美日韩精品亚洲av| 高清毛片免费观看视频网站| 又爽又黄a免费视频| 又黄又爽又免费观看的视频| 美女免费视频网站| 免费看美女性在线毛片视频| 别揉我奶头~嗯~啊~动态视频| av在线老鸭窝| 亚洲电影在线观看av| 香蕉av资源在线| 色精品久久人妻99蜜桃| 久久精品国产亚洲av天美| 免费无遮挡裸体视频| 久久亚洲精品不卡| 日韩av在线大香蕉| 亚洲人成网站在线播| 亚洲国产精品合色在线| 大型黄色视频在线免费观看| 久久久久久久午夜电影| 亚洲欧美清纯卡通| 国产精品久久久久久久久免 | 久久精品久久久久久噜噜老黄 | 有码 亚洲区| 可以在线观看的亚洲视频| 欧美潮喷喷水| 国产免费一级a男人的天堂| 波多野结衣高清作品| 男插女下体视频免费在线播放| 国产大屁股一区二区在线视频| 波野结衣二区三区在线| 在线观看一区二区三区| 男女视频在线观看网站免费| 久久伊人香网站| 成年版毛片免费区| 国产高清激情床上av| 色精品久久人妻99蜜桃| 亚洲第一电影网av| 欧美三级亚洲精品| 国产私拍福利视频在线观看| 国产精品久久视频播放| 国产av一区在线观看免费| 成年女人看的毛片在线观看| 国产欧美日韩精品亚洲av| 1024手机看黄色片| 高潮久久久久久久久久久不卡| 亚洲电影在线观看av| 国产高清视频在线观看网站| 午夜老司机福利剧场| 亚洲欧美日韩高清在线视频| 国产一级毛片七仙女欲春2| 男女床上黄色一级片免费看| 毛片女人毛片| 亚洲在线自拍视频| 亚洲一区二区三区色噜噜| 波多野结衣高清作品| 国产美女午夜福利| 91在线观看av| 国产真实伦视频高清在线观看 | 久久精品国产自在天天线| 国内少妇人妻偷人精品xxx网站| 精品久久久久久,| 久久婷婷人人爽人人干人人爱| 女人十人毛片免费观看3o分钟| 欧美高清性xxxxhd video| 国产老妇女一区| 我的女老师完整版在线观看| 午夜福利视频1000在线观看| 窝窝影院91人妻| 免费看a级黄色片| 精品免费久久久久久久清纯| 欧美成人免费av一区二区三区| 婷婷精品国产亚洲av| 美女黄网站色视频| 精品一区二区三区视频在线| 少妇的逼水好多| 美女大奶头视频| 亚洲国产精品成人综合色| 亚洲第一电影网av| 永久网站在线| 琪琪午夜伦伦电影理论片6080| 变态另类成人亚洲欧美熟女| 高清日韩中文字幕在线| 给我免费播放毛片高清在线观看| 亚洲人成网站高清观看| 国产免费一级a男人的天堂| or卡值多少钱| 男人狂女人下面高潮的视频| 亚洲精品一卡2卡三卡4卡5卡| 男女床上黄色一级片免费看| bbb黄色大片| av专区在线播放| 日韩欧美精品v在线| 99国产精品一区二区蜜桃av| 蜜桃亚洲精品一区二区三区| 白带黄色成豆腐渣| 久久国产乱子免费精品| 男女视频在线观看网站免费| 十八禁国产超污无遮挡网站| 日本黄大片高清| 一个人免费在线观看的高清视频| 如何舔出高潮| 国产精品久久久久久久电影| 亚洲内射少妇av| 国产成人av教育| 国产免费男女视频| 男女做爰动态图高潮gif福利片| 啪啪无遮挡十八禁网站| 男女那种视频在线观看| 国产精品久久久久久亚洲av鲁大| 亚洲av第一区精品v没综合| 精品久久久久久久久久久久久| 精品一区二区三区人妻视频| 国产精品女同一区二区软件 | 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 香蕉av资源在线| 麻豆国产av国片精品| 18+在线观看网站| 婷婷色综合大香蕉| 桃红色精品国产亚洲av| 99热这里只有是精品50| 国产男靠女视频免费网站| 日本 欧美在线| 精品国内亚洲2022精品成人| av在线观看视频网站免费| 狠狠狠狠99中文字幕| 蜜桃久久精品国产亚洲av| 欧美一区二区精品小视频在线| 天美传媒精品一区二区| 老女人水多毛片| 亚洲真实伦在线观看| 97热精品久久久久久| 午夜视频国产福利| 亚洲片人在线观看| 久久久国产成人免费| 欧美绝顶高潮抽搐喷水| 99久久精品热视频| 简卡轻食公司| 国产乱人伦免费视频| 国产国拍精品亚洲av在线观看| 免费在线观看成人毛片| 国语自产精品视频在线第100页| 波多野结衣高清作品| 国产日本99.免费观看| 欧美最新免费一区二区三区 | 亚洲国产色片| 国产探花极品一区二区| 久久中文看片网| 99热6这里只有精品| 国产精品99久久久久久久久| 黄片小视频在线播放| 久久久久性生活片| 黄色日韩在线| 琪琪午夜伦伦电影理论片6080| 亚洲精品乱码久久久v下载方式| 亚洲中文字幕一区二区三区有码在线看| 舔av片在线| 一本精品99久久精品77| 日韩欧美国产一区二区入口| 日本 欧美在线| 免费一级毛片在线播放高清视频| 91av网一区二区| 国产亚洲精品久久久com| 内射极品少妇av片p| 国产91精品成人一区二区三区| 午夜激情欧美在线| .国产精品久久| 琪琪午夜伦伦电影理论片6080| 成人亚洲精品av一区二区| 麻豆久久精品国产亚洲av| 国产伦人伦偷精品视频| 国产 一区 欧美 日韩| 波多野结衣高清无吗| 亚洲精品久久国产高清桃花| 美女被艹到高潮喷水动态| 午夜福利欧美成人| 1024手机看黄色片| 国产精品乱码一区二三区的特点| 亚洲国产欧洲综合997久久,| 中出人妻视频一区二区| 久久香蕉精品热| 露出奶头的视频| 成人亚洲精品av一区二区| 一区二区三区高清视频在线| 色播亚洲综合网| 在线国产一区二区在线| 亚洲综合色惰| 美女高潮的动态| 国产精品一区二区性色av| 99国产精品一区二区蜜桃av| a级一级毛片免费在线观看| 国产精品av视频在线免费观看| 少妇人妻精品综合一区二区 | 国产av在哪里看| a在线观看视频网站| 99国产精品一区二区三区| 99在线人妻在线中文字幕| 欧美极品一区二区三区四区| 97碰自拍视频| 日韩欧美精品免费久久 | 国产精品野战在线观看| 亚洲乱码一区二区免费版| 成年人黄色毛片网站| 欧美精品啪啪一区二区三区| 免费高清视频大片| 蜜桃亚洲精品一区二区三区| 1000部很黄的大片| 欧美黑人巨大hd| 亚洲中文字幕一区二区三区有码在线看| 一个人免费在线观看电影| 欧美一级a爱片免费观看看| 一区福利在线观看| x7x7x7水蜜桃| 亚洲精品在线美女| 夜夜爽天天搞| 91在线观看av| 免费高清视频大片| www.熟女人妻精品国产| 色在线成人网| 一级作爱视频免费观看| 网址你懂的国产日韩在线| 亚洲最大成人av| 欧美一级a爱片免费观看看| 久久亚洲精品不卡| 两人在一起打扑克的视频| 三级国产精品欧美在线观看| 国产高清有码在线观看视频| a级一级毛片免费在线观看| 色吧在线观看| 欧美另类亚洲清纯唯美| 国产三级在线视频| 别揉我奶头~嗯~啊~动态视频| 免费av不卡在线播放| 欧美一区二区亚洲| 中文字幕久久专区| 亚洲综合色惰| 久久99热6这里只有精品| 两个人的视频大全免费| 毛片一级片免费看久久久久 | 免费观看精品视频网站| 日韩欧美一区二区三区在线观看| 国产69精品久久久久777片| 色哟哟哟哟哟哟| 色播亚洲综合网| 熟妇人妻久久中文字幕3abv| 女生性感内裤真人,穿戴方法视频| 在线播放国产精品三级| 免费看a级黄色片| 国产美女午夜福利| 精品国产亚洲在线| 亚洲精品影视一区二区三区av| 91九色精品人成在线观看| 国产成人福利小说| 男女那种视频在线观看| 国产高清激情床上av| 久久精品国产99精品国产亚洲性色| 1000部很黄的大片| 亚洲欧美清纯卡通| 婷婷精品国产亚洲av| 男女之事视频高清在线观看| 亚洲成av人片在线播放无| 变态另类丝袜制服| 精品人妻一区二区三区麻豆 | 桃红色精品国产亚洲av| 久久久久国产精品人妻aⅴ院| 九九热线精品视视频播放| 欧美潮喷喷水| 在线免费观看的www视频| 如何舔出高潮| 色在线成人网| x7x7x7水蜜桃| 大型黄色视频在线免费观看| 久久九九热精品免费| 变态另类成人亚洲欧美熟女| 国内毛片毛片毛片毛片毛片| 日韩有码中文字幕| 欧美三级亚洲精品| 国产精品久久视频播放| 国产精品一区二区三区四区免费观看 | 我要搜黄色片| 赤兔流量卡办理| 久久人人爽人人爽人人片va | av在线蜜桃| 美女cb高潮喷水在线观看| 成年版毛片免费区| 日本免费a在线| 韩国av一区二区三区四区| 九九热线精品视视频播放| 免费人成在线观看视频色| 精品午夜福利在线看| 乱码一卡2卡4卡精品| 久久久成人免费电影| 日本三级黄在线观看| 深夜a级毛片| 欧美黄色淫秽网站| av在线观看视频网站免费| 免费在线观看成人毛片| 一进一出抽搐gif免费好疼| 午夜福利视频1000在线观看| 久久香蕉精品热| 午夜老司机福利剧场| 又紧又爽又黄一区二区| 亚洲国产精品成人综合色| 在线十欧美十亚洲十日本专区| а√天堂www在线а√下载| 成人永久免费在线观看视频| 亚洲最大成人av| 色综合婷婷激情| 久久久久久国产a免费观看| 美女被艹到高潮喷水动态| 精品午夜福利在线看| 欧美一级a爱片免费观看看| 亚洲精品色激情综合| 真实男女啪啪啪动态图| 亚州av有码| 亚洲av成人精品一区久久| 国产精品一及| 在线播放国产精品三级| 久久99热这里只有精品18| 亚洲人成网站在线播| 3wmmmm亚洲av在线观看| 一卡2卡三卡四卡精品乱码亚洲| 91av网一区二区| 老司机福利观看| 五月伊人婷婷丁香| 国产成人欧美在线观看| 久久国产乱子伦精品免费另类| 麻豆av噜噜一区二区三区| 色在线成人网| 日本黄色片子视频| 日本与韩国留学比较| 成人鲁丝片一二三区免费| 2021天堂中文幕一二区在线观| 国产视频内射| 精品人妻视频免费看| 国产成人欧美在线观看| 美女免费视频网站| 欧美另类亚洲清纯唯美| 男女做爰动态图高潮gif福利片| 亚洲第一电影网av| 国产91精品成人一区二区三区| 精品久久久久久久久久免费视频| АⅤ资源中文在线天堂| 国产在线男女| 99国产综合亚洲精品| 日韩高清综合在线| 亚洲经典国产精华液单 | av天堂中文字幕网| 日韩欧美精品免费久久 | 麻豆国产av国片精品| 久久热精品热| 日本撒尿小便嘘嘘汇集6| 日韩精品青青久久久久久| 非洲黑人性xxxx精品又粗又长| 人人妻人人澡欧美一区二区| 色视频www国产| 亚洲国产精品sss在线观看| 中文字幕免费在线视频6| 久久这里只有精品中国| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 午夜免费激情av| 色哟哟哟哟哟哟| 国产成人av教育| 日本与韩国留学比较| 日韩 亚洲 欧美在线| 在线天堂最新版资源| 亚洲黑人精品在线| 国产黄片美女视频| 天天躁日日操中文字幕| 在线观看66精品国产| 日韩欧美精品免费久久 | 国产亚洲欧美在线一区二区| 免费在线观看日本一区| 男女下面进入的视频免费午夜| 国产成人av教育| 国产精品影院久久| 色视频www国产| 亚洲片人在线观看| 观看免费一级毛片| 欧美国产日韩亚洲一区| 午夜福利欧美成人| 国产精品永久免费网站| 美女高潮喷水抽搐中文字幕| 免费一级毛片在线播放高清视频| or卡值多少钱| 天天一区二区日本电影三级| 久久天躁狠狠躁夜夜2o2o| 亚洲电影在线观看av| 可以在线观看的亚洲视频| 嫩草影视91久久| 日本黄色片子视频| av欧美777| 99热这里只有是精品50| 成人特级av手机在线观看| 国产成+人综合+亚洲专区| 91在线精品国自产拍蜜月| 在线a可以看的网站| 1024手机看黄色片| 波多野结衣高清无吗| 国产精品伦人一区二区| 国产欧美日韩一区二区三| 亚洲在线观看片| 亚洲av电影在线进入| 人妻制服诱惑在线中文字幕| 亚洲精品影视一区二区三区av| 麻豆久久精品国产亚洲av| 99久久精品国产亚洲精品| 一区福利在线观看| 亚洲人成网站高清观看| 女生性感内裤真人,穿戴方法视频| 色5月婷婷丁香| 欧美黑人巨大hd| 1000部很黄的大片| 日本黄色片子视频| 久久这里只有精品中国| 久久久精品大字幕| 俄罗斯特黄特色一大片| 精品福利观看| 麻豆国产av国片精品| 午夜福利18| 精品人妻一区二区三区麻豆 | 亚洲天堂国产精品一区在线| 久久人人爽人人爽人人片va | 五月伊人婷婷丁香| 国产aⅴ精品一区二区三区波| 欧美日韩中文字幕国产精品一区二区三区| 特级一级黄色大片| 欧美xxxx黑人xx丫x性爽| 91久久精品电影网| 亚洲第一欧美日韩一区二区三区| avwww免费| 啦啦啦观看免费观看视频高清| 国产精品自产拍在线观看55亚洲| 免费无遮挡裸体视频| 成人av在线播放网站| 97人妻精品一区二区三区麻豆| 国产色爽女视频免费观看| 中文字幕熟女人妻在线| 黄色日韩在线| 国产麻豆成人av免费视频|