• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于全文檢索的文本相似度算法應(yīng)用研究*

    2016-08-11 06:59:50

    王 格 吳 釗 李 向

    (1.湖北文理學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 襄陽(yáng) 441053)(2.中國(guó)地質(zhì)大學(xué)(武漢)計(jì)算機(jī)學(xué)院 武漢 430074)

    ?

    基于全文檢索的文本相似度算法應(yīng)用研究*

    王格1,2吳釗1李向2

    (1.湖北文理學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院襄陽(yáng)441053)(2.中國(guó)地質(zhì)大學(xué)(武漢)計(jì)算機(jī)學(xué)院武漢430074)

    摘要在大量的文本數(shù)據(jù)中,針對(duì)不能快速有效地提取或查找有用信息及知識(shí)這個(gè)問(wèn)題,以文本相似度計(jì)算為基礎(chǔ)的文本數(shù)據(jù)挖掘成為數(shù)據(jù)挖掘研究領(lǐng)域里的一個(gè)重要的課題。論文主要研究?jī)煞N不同的方法VSM余弦算法和Simhash來(lái)實(shí)現(xiàn)文本相似度的計(jì)算,首先采用傳統(tǒng)的VSM余弦算法和Simhash算法,按照余弦公式通過(guò)內(nèi)積最終計(jì)算出文本間的相似度大小n(0

    關(guān)鍵詞文本相似度; 余弦VSM; Simhash

    Class NumberTP301.6

    1 引言

    文本相似度計(jì)算[1]是自然語(yǔ)言處理的一部分,可以計(jì)算一個(gè)文本中不同詞條的相似度,可以計(jì)算兩個(gè)文本間的相似度,也可以進(jìn)行批處理,對(duì)多個(gè)文本之間進(jìn)行兩兩計(jì)算,并輸出文本相似度的最后結(jié)果。在機(jī)器翻譯中,相似度可看作是用于衡量文本中詞語(yǔ)的可替換程度的參數(shù);在信息檢索中,又可理解為文本內(nèi)容與用戶想要搜索的資料的符合程度[2]等。

    隨著科技的進(jìn)步,計(jì)算機(jī)的普及以及Internet的飛速發(fā)展,文本信息的大量增長(zhǎng),文本相似度計(jì)算在信息檢索的效率提高方面,對(duì)于發(fā)表的文章中抄襲的檢測(cè),對(duì)于文章相似信息進(jìn)行壓縮存儲(chǔ)以便節(jié)省存儲(chǔ)空間的方面都起到了很大的作用。然而對(duì)于英文的文本相似度計(jì)算的時(shí)候,英文單詞本身是有空格分開(kāi)的,這樣以單詞來(lái)處理一個(gè)英文文本進(jìn)行比較就很簡(jiǎn)單。

    但是中文是沒(méi)有分隔的,需要加入很多詞義,中文是使用多個(gè)連續(xù)的字如雙字、四字成語(yǔ)來(lái)表達(dá)一個(gè)意思,并且在中文的前后語(yǔ)境的不同,一個(gè)詞語(yǔ)的意思也是不同的,并且有時(shí)候中文還會(huì)產(chǎn)生歧義,目前對(duì)文本的處理方式如圖1所示。

    圖1 文本分詞處理方法

    長(zhǎng)久以來(lái),國(guó)內(nèi)外的很多學(xué)者一直在研究文本相似度的計(jì)算問(wèn)題,對(duì)于文本相似度計(jì)算提出了一些解決的方案。著名的VSM向量空間模型(Vector Space Model)是由Gerard Salton等[3]在1969年首先提出的,文本映射成為N維空間向量,通過(guò)向量降維處理,詞頻統(tǒng)計(jì)和比較向量間的關(guān)系來(lái)計(jì)算相似度。在傳統(tǒng)的空間向量模型中,所使用的詞語(yǔ)向量之間是沒(méi)有任何語(yǔ)義聯(lián)系的,僅僅只是不同的詞語(yǔ)代表的向量就是不同。為此廣義向量空間模型(Generalized Vector Space Model,GVSM)[4]則使用了語(yǔ)義之間的聯(lián)系,使用文本代替詞語(yǔ)來(lái)表達(dá)文本之間的關(guān)系。Deerwester[5]等提出的隱性語(yǔ)義索引(Latent Semantic Indexing)也是文本相似度計(jì)算的有效方法,Oleshchuk等[6]在文本相似度計(jì)算中引入了本體論,提出了基于Ontology out的文本相似度比較方法,這個(gè)方法可以通過(guò)語(yǔ)義計(jì)算文本詞語(yǔ)的相似度。2002年由Google的Charikar[7]提出一種Simhash算法,將一篇文檔轉(zhuǎn)化為n位的簽名,通過(guò)比較簽名的相似度來(lái)計(jì)算原文檔的相似度。

    國(guó)內(nèi)學(xué)者中2001年,張煥炯、王國(guó)勝等提出了漢明碼的概念[8],利用漢明距離來(lái)計(jì)算文本相似度,較好地提高了相似度計(jì)算速度。2004年晉耀紅[9]提出了語(yǔ)境框架的新語(yǔ)義模型,實(shí)現(xiàn)了文本間語(yǔ)義相似度的量化,取得了較好的計(jì)算效果。2008年,曹恬、周麗、張國(guó)煊[10]等提出了基于詞共現(xiàn)的文本相似度計(jì)算方法。2013王振振[11]等提出了一種基于LDA主題模型的文本相似度計(jì)算方法,挖掘隱藏在文本內(nèi)的不同主題與詞之間的關(guān)系,能夠明顯提高文本相似度計(jì)算的準(zhǔn)確率。

    本文對(duì)現(xiàn)有的兩種文本相似度計(jì)算方法VSM和Simhash進(jìn)行研究,目的是為了對(duì)這兩種方法的優(yōu)劣進(jìn)行更深入的了解,以提高文本相似度計(jì)算的精度和有效性,用以對(duì)相關(guān)的應(yīng)用起到引導(dǎo)以及參考作用。

    2 VSM算法

    文本在向量空間模型中代表的是各種電腦可以識(shí)別的數(shù)據(jù),該數(shù)據(jù)使用Document表示,文本的關(guān)鍵字Key是指在該數(shù)據(jù)中出現(xiàn)而且可以代表該文章不同于其他文章或者代表文章中觀點(diǎn)的基本單位,關(guān)鍵字可以用文章之中特定的詞語(yǔ)表示,可以用關(guān)鍵字集表示文本為D(K1,K2,…,Kn),其中Ki是關(guān)鍵字,1≤i≤n。

    文本之中有a,b,c,d這幾個(gè)關(guān)鍵字,那么這篇文本就可以用D(a,b,c,d)表示。對(duì)含有n個(gè)關(guān)鍵字的文本而言,通常會(huì)給每個(gè)關(guān)鍵字K的出現(xiàn)次數(shù)作為其代表的權(quán)重W來(lái)表示該關(guān)鍵字對(duì)文本的重要程度。D=D(K1,W1,K2,W2,…,Kn,Wn),簡(jiǎn)記為D=D(W1,W2,…,Wn),這種方式叫做該文本D的向量代表方法。

    其中Wi是Ki的權(quán)重,1≤i≤n。該文本之中,其關(guān)鍵字a,b,c,d的權(quán)重分別設(shè)置為30,20,20,10,就可以將該文本表示為D(30,20,20,10)。在VSM的向量空間之中,要計(jì)算的文本D1和D2的文本相似程度Sim(D1,D2)就可以使用文本之間的計(jì)算所得的文本向量余弦值大小表示:

    (1)

    式中,W1i,W2i表示文本D1和D2第i個(gè)關(guān)鍵字的權(quán)值,1≤i≤n。

    在搜索文本的時(shí)候就可以計(jì)算待搜索文本和數(shù)據(jù)庫(kù)中文本的相似度進(jìn)行余弦計(jì)算,其算法的流程圖如圖2所示。

    例如待搜索文本Di的關(guān)鍵字為a,b,c,d,關(guān)鍵字權(quán)值分別為30,20,20,10,數(shù)據(jù)庫(kù)待核實(shí)文本C1的關(guān)鍵字為a,c,d,e,關(guān)鍵字權(quán)值分別為40,30,20,10,則D1的向量代表方法為D1(30,20,20,10,0),C1的向量代表方法為C1(40,0,30,20,10),根據(jù)式(1)計(jì)算待搜索文本D1與數(shù)據(jù)庫(kù)中待核實(shí)文本C1文本相似度是0.86。

    圖2 VSM算法流程

    文本相似度0.86的計(jì)算方法如下。

    它的模:

    (2)

    兩個(gè)向量的點(diǎn)積:

    (3)

    (4)

    (5)

    物理意義就是兩個(gè)向量的空間夾角的余弦數(shù)值,下面是代入公式的過(guò)程:

    =2000

    (6)

    (7)

    (8)

    (9)

    3 Simhash算法

    圖3 Simhash算法流程圖

    Simhash算法是由Charikar[6]于2002年提出新的算法,這個(gè)算法也是目前被認(rèn)同為最好、最有效的網(wǎng)頁(yè)相似內(nèi)容去重算法,Simhash算法實(shí)質(zhì)上是一種可傳統(tǒng)的Hash算法只負(fù)責(zé)將原始內(nèi)容盡量均勻隨機(jī)地映射為一個(gè)簽名值,原理上相當(dāng)于偽隨機(jī)數(shù)產(chǎn)生算法。而Simhash算法則是基于概率的文本相似度計(jì)算方法,對(duì)于一篇文章,提取出其中關(guān)鍵詞,然后將這些關(guān)鍵詞Hash一次,得到n位長(zhǎng)度的Hash值,Hash值為1的,特征向量就為1,當(dāng)Hash值為0,特征向量就為-1,如果要考慮權(quán)重,就在特征向量基礎(chǔ)上乘以權(quán)重,就是這個(gè)詞的向量值,一篇文檔的所有詞的向量累加,這個(gè)向量為全文主向量,大于或等于零的分量,映射為1,小于0的,映射為0,這相關(guān)得出全文的Simhash值,這個(gè)叫文本的簽名。通過(guò)比較不同文本之間簽名則可直接得到文本相似度,該算法的流程圖如圖3所示。

    Simhash算法的步驟:

    1) 先將文本定義為一個(gè)n維的向量D,將D的所有維度均置為0;再定義一個(gè)n位的二進(jìn)制數(shù)x作為該文本的特征數(shù)并將其初始化為0;

    2) 對(duì)文本之中每一個(gè)關(guān)鍵字:對(duì)該關(guān)鍵字使用傳統(tǒng)的Hash算法計(jì)算得到一個(gè)n位的二進(jìn)制數(shù)y;

    3) 對(duì)于i∈(0,n)進(jìn)行循環(huán)操作:

    如果二進(jìn)制數(shù)y的第i位為1,則D的第i個(gè)維度的元素值加上該關(guān)鍵字的權(quán)重;

    如果其為0,D的第i個(gè)維度的元素值減去該關(guān)鍵字的權(quán)重。

    4) 再觀察D中的元素值,如果D的第i個(gè)元素值大于0,則二進(jìn)制x的第i位設(shè)置為1,否則設(shè)置為0,并輸出文本的特征數(shù)x。

    首先將所需要進(jìn)行文本相似度計(jì)算的多個(gè)文章進(jìn)行一個(gè)映射,不管這個(gè)映射是怎樣進(jìn)行的,只需要得到該文本與其它文本完全不相似的映射,因?yàn)镠ash算法就是對(duì)于不同的數(shù)據(jù)得到的Hash值是完全不相同的,于是對(duì)于每個(gè)關(guān)鍵字進(jìn)行Hash處理,所得到的Hash值是均勻的隨機(jī)分布,且唯一的。如果一個(gè)關(guān)鍵字的Hash結(jié)果對(duì)應(yīng)的二進(jìn)制x的值為101010…0001,則其在算法中對(duì)應(yīng)的向量大小為(k,-k,k,-k,k,-k,…,-k,-k,-k,k)T,其中k為當(dāng)前關(guān)鍵字的權(quán)重,也就是說(shuō)當(dāng)其二進(jìn)制數(shù)值為0是當(dāng)前向量位置就為負(fù)值的權(quán)重,為1則為權(quán)重值大小。然后,將該文本所有的關(guān)鍵字的n維向量進(jìn)行求和計(jì)算,此時(shí)會(huì)得到一個(gè)n位的1,0串,該串就表示該文檔的特征數(shù)。

    為了得到這個(gè)n位的1,0串,進(jìn)行求和計(jì)算的時(shí)候,如果第i位的數(shù)字大于等于1則將x該位的數(shù)據(jù)置為1,如果小于等于0,則將x該位的數(shù)據(jù)置為0。

    3.1隨機(jī)超平面Hash算法

    Simhash在數(shù)學(xué)運(yùn)算中的方法具有可行性,但是,在2個(gè)文本相似較高的時(shí)候它們的特征數(shù)x是否會(huì)比較相似,在Google發(fā)布的Simhash的方法之中并沒(méi)有給出Google所使用的具體的Simhash算法和證明,本來(lái)在對(duì)其進(jìn)行了試驗(yàn)之后得到了下面的這些想法。

    Simhash的算法思路是使用了Sandom hyperplane hash算法,其算法思路為對(duì)于一個(gè)n維的向量D:

    1) 先定義k個(gè)n維的向量r1,r2,…,rk;

    2) 對(duì)每一個(gè)向量ri(0

    算法之中將每一維的向量都視做一個(gè)特定的hyperplane,在D在該hyperplane的投影值大于1則修改x在當(dāng)前的元素值為1,否則就置其為0。對(duì)于2個(gè)不同的n維向量A,B來(lái)說(shuō),它們之間有一個(gè)夾角θ,對(duì)于任意一個(gè)hyperplane來(lái)說(shuō),能將2個(gè)向量分開(kāi)的概率為θ/π,所以它們的特征數(shù)x在某一位的元素值不同的概率也是θ/π。所以可以使用hamming distance來(lái)計(jì)算2個(gè)n維向量之間的特征數(shù)所有元素值不同的數(shù)值總和來(lái)表示不同向量之間的差異程度。

    3.2Simhash算法與隨機(jī)超平面Hash算法的比較

    Simhash的算法之中使用Random Hyperplane Hash算法,Simhash并未使用Hyperplane的向量,而是使用關(guān)鍵字在某一位的數(shù)值如果為1則不變,為0則置其值為-1,這樣便有n位的特征值x得到了n維的空間隨機(jī)向量。對(duì)應(yīng)了n維的Hyperplane。

    下面是一個(gè)特殊的例子,首先使用5個(gè)關(guān)鍵字來(lái)代表某個(gè)特定的文本,并且得到一個(gè)4位的特征數(shù),所以假設(shè)5個(gè)關(guān)鍵字的4位特征數(shù)分別為x1=1010,x2=1100,x3=1110,x4=1000,x5=0001;則對(duì)應(yīng)的向量為(1,-1,1,-1),(1,1,-1,-1),(1,1,1,-1)(1,-1,-1,-1),(-1,-1,-1,1);再由算法中的第三步可以進(jìn)行相同位數(shù)間的求和運(yùn)算,得到的結(jié)果為(3,-1,-1,-3),由算法中的第四步可以得到文本的特征數(shù)x為1001。而對(duì)于Random Hyperplane Hash算法來(lái)說(shuō)進(jìn)行4個(gè)5維的向量(1,1,1,1,-1),(-1,1,1,-1,-1),(1,-1,1,-1,-1),(-1,-1,-1,-1,1)按照Random Hyperplane Hash算法可以得到向量D與4個(gè)5維向量的乘積結(jié)果為(3,-1,-1,3),所求得的文本的特征數(shù)也是1001。由兩種不同的算法所求得的文本特征數(shù)的結(jié)果都是1001,可以看出Simhash算法和Random Hyperplane Hash算法的思路是相同的,通過(guò)計(jì)算Simhash所得的特征數(shù)的Hamming distance,可以計(jì)算出兩個(gè)文本之間的相似程度。

    由于本文使用的是C++的來(lái)進(jìn)行Simhash的算法設(shè)計(jì),由于C++中最大的數(shù)據(jù)只能使用long long類型來(lái)定義的2進(jìn)制數(shù)只有最大2的63次方,在進(jìn)行Simhash算法的時(shí)候還需進(jìn)行乘法運(yùn)算,經(jīng)過(guò)測(cè)試使用50位的2進(jìn)制串是比較合適的,但是由于2進(jìn)制串的位數(shù)較少,算法精度不夠精準(zhǔn),本文又使用了Python進(jìn)行編碼,再使用C++進(jìn)行Python的調(diào)用,這樣就使2進(jìn)制數(shù)的特征數(shù)達(dá)到了128位,對(duì)比2個(gè)Simhash的計(jì)算數(shù)值,也可以看出精度不同的區(qū)別。

    4 實(shí)驗(yàn)結(jié)果以及結(jié)果分析

    4.1實(shí)驗(yàn)數(shù)據(jù)

    本文處理的文本是由網(wǎng)上找尋的一篇論文之中的幾段話,作為實(shí)驗(yàn)中的原數(shù)據(jù),來(lái)進(jìn)行它們之間的文本相似度計(jì)算。

    文本a.txt和文本b.txt中的文本數(shù)據(jù)是比較相似的如圖4和圖5中所示,用來(lái)做一組對(duì)照。而c.txt和d.txt中數(shù)據(jù)之間沒(méi)有任何的相似度,和a.txt與b.txt也沒(méi)有任何的相似程度如圖6和7中所示。

    4.2實(shí)驗(yàn)結(jié)果與對(duì)比分析

    系統(tǒng)采用C++MFC界面并在Visual Studio 2010中實(shí)現(xiàn),分別為瀏覽需要進(jìn)行比較的文本并顯示其訪問(wèn)路徑,然后對(duì)文本進(jìn)行Simhash1(C++),Simhash2(Python),余弦算法的計(jì)算。

    圖4 實(shí)驗(yàn)數(shù)據(jù)a.txt

    圖5 實(shí)驗(yàn)數(shù)據(jù)b.txt

    圖6 實(shí)驗(yàn)數(shù)據(jù)c.txt

    圖7 實(shí)驗(yàn)數(shù)據(jù)d.txt

    4.2.1實(shí)驗(yàn)結(jié)果

    將實(shí)驗(yàn)數(shù)據(jù)a.txt,b.txt,c.txt,d.txt,進(jìn)行比較,其中b.txt和a.txt的正反比較以及a.txt和a.txt的比較為對(duì)照比較。

    表1 實(shí)驗(yàn)結(jié)果

    將實(shí)驗(yàn)結(jié)果對(duì)照的結(jié)果用表1和圖8表示出來(lái)。

    圖8 實(shí)驗(yàn)結(jié)果折線圖

    4.2.2實(shí)驗(yàn)結(jié)果分析

    Simhash算法,對(duì)于一篇文章,用分詞的方式將它分出詞來(lái),然后將這些詞Hash一次,得到n位長(zhǎng)度的Hash值,Hash值為1的,特征向量就為1,當(dāng)Hash值為0,特征向量就為-1,如果要考慮權(quán)重,就在特征向量基礎(chǔ)上乘以權(quán)重,就是這個(gè)詞的向量值,一篇文檔的所有詞的向量累加,這個(gè)向量為全文主向量,大于或等于零的分量,映射為1,小于0的,映射為0,這相關(guān)得出全文的Hash值,這個(gè)叫全文的簽名。

    對(duì)于文本a.txt和b.txt,它們本身只有幾個(gè)單詞的細(xì)微差別,對(duì)于整個(gè)文本而言是很少的Simhash1計(jì)算結(jié)果為0.971627,該結(jié)果準(zhǔn)確度較低;Simhash2的計(jì)算結(jié)果為0.999939,該結(jié)果的準(zhǔn)確度相當(dāng)高;余弦算法VSM的計(jì)算結(jié)果為0.993358,該結(jié)果的精確度也是比較高的。對(duì)于文本a.txt和c.txt因?yàn)樗鼈冎g的聯(lián)系度非常之低,可以進(jìn)行結(jié)果比較三種算法的準(zhǔn)確度。Simhash1的計(jì)算結(jié)果為0.027991,雖然由于精度的原因該結(jié)果還是比較準(zhǔn)確度;Simhash2的計(jì)算結(jié)果為0.000486,該結(jié)果是非常準(zhǔn)確的;余弦算法VSM的結(jié)果為0.405043,該結(jié)果就非常不準(zhǔn)確了。如數(shù)據(jù)所示,Simhash1與Simhash2相比較而言,由于C++中l(wèi)ong long的數(shù)據(jù)限制使2進(jìn)制10串的長(zhǎng)度低于Python中128位的2進(jìn)制10串,所以導(dǎo)致計(jì)算結(jié)果的不穩(wěn)定,而余弦算

    法,因?yàn)槠渌惴ū旧淼脑?其算法的準(zhǔn)確度和Simhash1與Simhash2就相差很遠(yuǎn)。

    因此可以得出結(jié)論,余弦算法VSM由于其局限性已經(jīng)不適合進(jìn)行文本的相似度計(jì)算。而Simhash算法不管是因?yàn)镃++的精度問(wèn)題還是直接Python進(jìn)行的128高精度計(jì)算都可以看出該基于概率的算法的高準(zhǔn)確度具備可行性。

    5 結(jié)語(yǔ)

    本文對(duì)現(xiàn)有的兩種文本相似度計(jì)算方法VSM和Simhash進(jìn)行研究,通過(guò)對(duì)文本進(jìn)行Simhash1(C++),Simhash2(Python),余弦算法的計(jì)算,得出這兩種方法的優(yōu)劣性,余弦算法VSM不適合進(jìn)行文本的相似度計(jì)算,而Simhash算法基于概率的高準(zhǔn)確度具有可行性,可以借此來(lái)給相關(guān)的應(yīng)用提供參考,提高文本相似度計(jì)算的精度和有效性。

    參 考 文 獻(xiàn)

    [1] 宋玲,馬軍,連莉,等.文檔相似度綜合計(jì)算研究[J].計(jì)算機(jī)工程與應(yīng)用,2006,30:160-163.

    SONG Ling, MA Jun, LIAN Li, et al. The comprehensive computing research on document similarity[J]. Computer Engineering and Applications,2006,30:160-163.

    [2] 劉麗珍,宋瀚濤.文本分類中的特征選取[J].計(jì)算機(jī)工程,2004,30(4):14-15.

    LIU Lizhen, SONG Hantao. The feature selection oftext classification[J]. Computer Engineering,2004,30(4):14-15.

    [3] Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM,1975,18(11):613-620.

    [4] Wong S K M, Ziarko W, Wong P C N. Generalized vector spaces model in information retrieval[C]//Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. ACM,1985:18-25.

    [5] Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis[J]. JAsIs,1990,41(6):391-407.

    [6] Oleshchuk V, Pedersen A. Ontology based semantic similarity comparison ofdocuments[C]//Proceedings of the 14th International Workshop on Database and Expert Systems Applications. IEEE,2003:735-738.

    [7] Charikar M S. Similarity estimation techniques from rounding algorithms[C]//Proceedings of the thiry-fourth annual ACM symposium on Theory of Computing. ACM,2002:380-388.

    [8] 張煥炯,王國(guó)勝,鐘義信.基于漢明距離的文本相度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2001,21(2):21-22.

    ZHANG Huanjiong, WANG Guosheng, ZHONG Yixin. The text similarity calculation based on hamming distance[J]. Computer Engineering and Applications,2001,21(2):21-22.

    [9] 晉耀紅.基于語(yǔ)境框架的文本相似度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2004,16:36-39.

    JIN Yaohong. The text similarity calculation based on thecontext framework[J]. Computer Engineering and Applications,2004,16:36-39.

    [10] 曹恬,周麗,張國(guó)煊.一種基于詞共現(xiàn)的文本似度計(jì)算[J].計(jì)算機(jī)工程與科學(xué),2008,29(3):52-53.

    CAO Tian, ZHOU Li, ZHANG Guoxuan. A kind of textsimilarity computing based on wordco-occurrence[J]. Computer Engineering and Applications,2008,29(3):52-53.

    [11] 王振振,何明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013,12:229-232.

    WANG Zhenzhen, HE Ming, DU Yongping. The text similarity calculation based on the LDA theme model[J]. Computer Science,2013,12:229-232.

    收稿日期:2015年10月7日,修回日期:2015年11月23日

    基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目“高可靠服務(wù)組合快速優(yōu)化方法研究”(編號(hào):61172084)資助。

    作者簡(jiǎn)介:王格,女,碩士研究生,研究方向:智能計(jì)算及應(yīng)用。吳釗,男,博士研究生,教授,碩士生導(dǎo)師,研究方向:云計(jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)處理。李向,男,博士研究生,副教授,碩士生導(dǎo)師,研究方向:智能計(jì)算及應(yīng)用。

    中圖分類號(hào)TP301.6

    DOI:10.3969/j.issn.1672-9722.2016.04.001

    Application of Text Similar Algorithm Based on Full-text Retrieval

    WANG Ge1,2WU Zhao1LI Xiang2

    (1. School of Mathematics and Computer Science, Hubei University of Arts and Science, Xiangyang441053)(2. School of Computer Science and Technology, China University of Geosciences, Wuhan430074)

    AbstractIn a large number of text data, due to the problem that it can’t quickly and efficiently find useful information and knowledge, text data mining on the basis of the text similarity calculation becomes an important research topic in the field of data mining. In this paper, Simhash and VSM cosine algorithm are used to realize the text similarity calculation. First, the traditional VSM cosine algorithm and Simhash algorithm are adopted to calculate the degree of similarity between the text size n(0

    Key Wordstext similarity, cosine VSM, Simhash

    中国美女看黄片| 狂野欧美激情性xxxx| 两性午夜刺激爽爽歪歪视频在线观看 | 少妇 在线观看| 色综合婷婷激情| 欧美国产精品va在线观看不卡| 欧美中文综合在线视频| 成人国产综合亚洲| 亚洲欧美日韩高清在线视频| 黄色片一级片一级黄色片| 日本a在线网址| 18禁国产床啪视频网站| 亚洲国产精品sss在线观看| 一区二区三区高清视频在线| 欧美精品啪啪一区二区三区| 50天的宝宝边吃奶边哭怎么回事| 少妇的丰满在线观看| 97超级碰碰碰精品色视频在线观看| 久久性视频一级片| 久久精品成人免费网站| 99riav亚洲国产免费| 亚洲精品久久国产高清桃花| 99久久久亚洲精品蜜臀av| 首页视频小说图片口味搜索| 99久久综合精品五月天人人| 欧美成人性av电影在线观看| 少妇裸体淫交视频免费看高清 | 亚洲欧美激情综合另类| 亚洲五月天丁香| av有码第一页| 国产成年人精品一区二区| 在线观看免费视频网站a站| 免费看a级黄色片| 国产精品香港三级国产av潘金莲| 波多野结衣高清无吗| 一区二区三区高清视频在线| 欧美+亚洲+日韩+国产| 少妇 在线观看| 免费不卡黄色视频| 很黄的视频免费| 极品人妻少妇av视频| 老司机福利观看| 熟女少妇亚洲综合色aaa.| svipshipincom国产片| 中文字幕最新亚洲高清| 人人澡人人妻人| 中文字幕高清在线视频| 咕卡用的链子| 欧美不卡视频在线免费观看 | 亚洲欧美一区二区三区黑人| 一个人观看的视频www高清免费观看 | 夜夜躁狠狠躁天天躁| 日日爽夜夜爽网站| 99精品在免费线老司机午夜| 精品久久久久久久人妻蜜臀av | www.熟女人妻精品国产| 精品久久久久久成人av| 欧美另类亚洲清纯唯美| bbb黄色大片| 欧美日本中文国产一区发布| 天天躁夜夜躁狠狠躁躁| 国产伦一二天堂av在线观看| 亚洲av片天天在线观看| 欧美乱码精品一区二区三区| 精品久久久久久成人av| 99久久综合精品五月天人人| 中出人妻视频一区二区| 极品人妻少妇av视频| 桃色一区二区三区在线观看| 精品欧美一区二区三区在线| 欧美成狂野欧美在线观看| 午夜福利,免费看| 美女午夜性视频免费| 在线观看免费视频网站a站| 黄片小视频在线播放| 日韩三级视频一区二区三区| 日韩视频一区二区在线观看| 制服丝袜大香蕉在线| 国产欧美日韩一区二区三| 日韩欧美国产一区二区入口| 亚洲国产高清在线一区二区三 | 女性被躁到高潮视频| 精品卡一卡二卡四卡免费| 国产在线精品亚洲第一网站| 午夜老司机福利片| 欧美+亚洲+日韩+国产| 一区二区三区高清视频在线| 免费无遮挡裸体视频| 欧美乱色亚洲激情| 精品久久久久久久人妻蜜臀av | www.精华液| 国产精品美女特级片免费视频播放器 | 精品欧美一区二区三区在线| 欧美日韩一级在线毛片| 国产成人影院久久av| 搡老妇女老女人老熟妇| 亚洲精品国产精品久久久不卡| 久久亚洲精品不卡| 美女午夜性视频免费| 国产xxxxx性猛交| 9热在线视频观看99| 美女高潮喷水抽搐中文字幕| 丝袜在线中文字幕| 女性被躁到高潮视频| 美国免费a级毛片| 中文字幕最新亚洲高清| 国产亚洲欧美精品永久| 亚洲成av人片免费观看| 日本免费a在线| 淫秽高清视频在线观看| 99国产精品免费福利视频| 男人舔女人下体高潮全视频| 少妇被粗大的猛进出69影院| 国产精品一区二区三区四区久久 | 好看av亚洲va欧美ⅴa在| 精品一区二区三区视频在线观看免费| 神马国产精品三级电影在线观看 | 日日爽夜夜爽网站| 日韩欧美国产一区二区入口| 国产精品一区二区三区四区久久 | 两个人视频免费观看高清| 性少妇av在线| 成人精品一区二区免费| 757午夜福利合集在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 日韩视频一区二区在线观看| 中出人妻视频一区二区| 国语自产精品视频在线第100页| 精品久久久久久,| 90打野战视频偷拍视频| 亚洲欧美激情综合另类| 不卡av一区二区三区| 亚洲欧美日韩无卡精品| 狠狠狠狠99中文字幕| 操美女的视频在线观看| 咕卡用的链子| 天天躁狠狠躁夜夜躁狠狠躁| 国产亚洲av嫩草精品影院| 亚洲精品国产色婷婷电影| 日韩大尺度精品在线看网址 | 一夜夜www| 久久久久久亚洲精品国产蜜桃av| 老司机深夜福利视频在线观看| 人人妻,人人澡人人爽秒播| 91成年电影在线观看| 国产精品美女特级片免费视频播放器 | 久久亚洲真实| 级片在线观看| 丝袜在线中文字幕| 女生性感内裤真人,穿戴方法视频| 久久久国产成人免费| 两个人看的免费小视频| 国产亚洲av高清不卡| 1024香蕉在线观看| av超薄肉色丝袜交足视频| 首页视频小说图片口味搜索| 亚洲一区二区三区不卡视频| 亚洲第一av免费看| 男女之事视频高清在线观看| 国产激情久久老熟女| 又黄又粗又硬又大视频| 久久亚洲精品不卡| 桃红色精品国产亚洲av| 成人18禁高潮啪啪吃奶动态图| 欧美精品亚洲一区二区| 久热这里只有精品99| а√天堂www在线а√下载| 女人被狂操c到高潮| 欧美精品亚洲一区二区| 国产精品日韩av在线免费观看 | 巨乳人妻的诱惑在线观看| 中国美女看黄片| 久久国产亚洲av麻豆专区| 在线视频色国产色| 欧美成狂野欧美在线观看| 黑人操中国人逼视频| 男女做爰动态图高潮gif福利片 | 国产精品免费视频内射| 黄色视频,在线免费观看| 亚洲avbb在线观看| 男人舔女人的私密视频| 中文字幕另类日韩欧美亚洲嫩草| 久久久久国内视频| 两个人看的免费小视频| 国产成人欧美| 极品教师在线免费播放| 欧美黄色淫秽网站| 成在线人永久免费视频| 久久伊人香网站| 动漫黄色视频在线观看| 91成年电影在线观看| 久久亚洲精品不卡| 久久久久九九精品影院| 中文字幕高清在线视频| 韩国精品一区二区三区| 老鸭窝网址在线观看| 在线播放国产精品三级| 国产成+人综合+亚洲专区| 一级a爱片免费观看的视频| 性色av乱码一区二区三区2| 亚洲精品国产一区二区精华液| 又黄又粗又硬又大视频| 12—13女人毛片做爰片一| 国产在线观看jvid| 国产精品香港三级国产av潘金莲| 亚洲久久久国产精品| 国产精品爽爽va在线观看网站 | 啦啦啦观看免费观看视频高清 | 欧美日韩黄片免| 国产高清视频在线播放一区| av天堂在线播放| 一a级毛片在线观看| 国产免费av片在线观看野外av| 91精品三级在线观看| 久久人妻熟女aⅴ| 国产欧美日韩综合在线一区二区| 亚洲国产中文字幕在线视频| 手机成人av网站| 精品人妻在线不人妻| 视频在线观看一区二区三区| 国产精品一区二区免费欧美| 午夜影院日韩av| 亚洲国产精品成人综合色| 欧美大码av| 欧美一区二区精品小视频在线| 视频区欧美日本亚洲| 国产成人欧美在线观看| 女性被躁到高潮视频| 亚洲视频免费观看视频| 国产精品美女特级片免费视频播放器 | 亚洲五月婷婷丁香| 热re99久久国产66热| 无遮挡黄片免费观看| 99国产精品一区二区蜜桃av| 两个人看的免费小视频| 村上凉子中文字幕在线| 亚洲国产欧美一区二区综合| 亚洲色图综合在线观看| 婷婷精品国产亚洲av在线| 欧美日韩亚洲综合一区二区三区_| 91麻豆av在线| 99久久久亚洲精品蜜臀av| av在线天堂中文字幕| 成人三级做爰电影| 妹子高潮喷水视频| 狠狠狠狠99中文字幕| 91大片在线观看| 麻豆久久精品国产亚洲av| 日韩视频一区二区在线观看| 亚洲精品国产色婷婷电影| 12—13女人毛片做爰片一| 叶爱在线成人免费视频播放| 欧美成人免费av一区二区三区| 老熟妇乱子伦视频在线观看| 成人亚洲精品一区在线观看| √禁漫天堂资源中文www| 欧美亚洲日本最大视频资源| 叶爱在线成人免费视频播放| 午夜久久久久精精品| 国产一区二区三区视频了| 成在线人永久免费视频| xxx96com| 亚洲国产精品999在线| 亚洲av熟女| 高清在线国产一区| 亚洲专区中文字幕在线| 欧美成人午夜精品| 亚洲av成人一区二区三| 免费在线观看完整版高清| 成人国语在线视频| 久久久久久人人人人人| 国产麻豆成人av免费视频| 成人手机av| 欧美成人免费av一区二区三区| 久久国产亚洲av麻豆专区| 亚洲国产精品999在线| 高清毛片免费观看视频网站| 91在线观看av| 宅男免费午夜| 久久久久久久午夜电影| 黑人欧美特级aaaaaa片| 日韩欧美一区视频在线观看| 如日韩欧美国产精品一区二区三区| 免费一级毛片在线播放高清视频 | 丰满的人妻完整版| 国产极品粉嫩免费观看在线| 亚洲最大成人中文| 啦啦啦 在线观看视频| 在线观看免费午夜福利视频| 亚洲一区中文字幕在线| 亚洲精品美女久久久久99蜜臀| 99久久国产精品久久久| 黄色成人免费大全| 成在线人永久免费视频| 亚洲精品国产一区二区精华液| 亚洲一区二区三区不卡视频| www.自偷自拍.com| 久久精品影院6| 中文字幕另类日韩欧美亚洲嫩草| 美女 人体艺术 gogo| 国内精品久久久久精免费| 精品国产国语对白av| 欧美日韩黄片免| 亚洲第一av免费看| 国产精品一区二区精品视频观看| 一级a爱视频在线免费观看| 国产不卡一卡二| 人成视频在线观看免费观看| 桃红色精品国产亚洲av| 婷婷丁香在线五月| 中文字幕高清在线视频| 欧美日韩黄片免| 国产91精品成人一区二区三区| 国产精品久久久久久人妻精品电影| 桃色一区二区三区在线观看| 亚洲色图av天堂| 国产成人啪精品午夜网站| 欧美日韩精品网址| 欧美黄色片欧美黄色片| 国产麻豆69| 手机成人av网站| 国产成年人精品一区二区| 国产麻豆69| 手机成人av网站| 欧美黄色片欧美黄色片| aaaaa片日本免费| 国产亚洲av高清不卡| 国产一区二区三区在线臀色熟女| 高潮久久久久久久久久久不卡| 久久精品国产清高在天天线| 亚洲国产精品久久男人天堂| 午夜福利一区二区在线看| 色综合欧美亚洲国产小说| 无遮挡黄片免费观看| 日韩一卡2卡3卡4卡2021年| 99久久久亚洲精品蜜臀av| 亚洲成av人片免费观看| 久久婷婷成人综合色麻豆| 午夜免费激情av| 国产精品1区2区在线观看.| 两个人视频免费观看高清| 免费在线观看视频国产中文字幕亚洲| 国产精品av久久久久免费| 精品卡一卡二卡四卡免费| 视频区欧美日本亚洲| 久久 成人 亚洲| 在线天堂中文资源库| 怎么达到女性高潮| 国产精品九九99| 91老司机精品| 天堂动漫精品| 日日摸夜夜添夜夜添小说| 国产欧美日韩精品亚洲av| 黑人欧美特级aaaaaa片| 久久精品影院6| 免费在线观看日本一区| 久久久久久久午夜电影| 国产亚洲精品av在线| 亚洲人成77777在线视频| 在线国产一区二区在线| 久久人妻福利社区极品人妻图片| 欧美乱色亚洲激情| 国产成人精品久久二区二区91| 两性午夜刺激爽爽歪歪视频在线观看 | 在线av久久热| 国产又爽黄色视频| 午夜福利成人在线免费观看| av欧美777| 午夜福利成人在线免费观看| 久久精品国产亚洲av香蕉五月| 自拍欧美九色日韩亚洲蝌蚪91| 免费看a级黄色片| e午夜精品久久久久久久| 久久久久亚洲av毛片大全| 一进一出抽搐动态| 午夜免费成人在线视频| 亚洲成国产人片在线观看| 亚洲国产精品sss在线观看| 欧美丝袜亚洲另类 | 久久九九热精品免费| 757午夜福利合集在线观看| 国产又爽黄色视频| 美女大奶头视频| 色精品久久人妻99蜜桃| 免费一级毛片在线播放高清视频 | 99国产精品一区二区蜜桃av| 人人澡人人妻人| 久久久久亚洲av毛片大全| 一边摸一边抽搐一进一小说| netflix在线观看网站| 日韩欧美一区二区三区在线观看| 操出白浆在线播放| 一边摸一边抽搐一进一出视频| 亚洲成av片中文字幕在线观看| 美女扒开内裤让男人捅视频| av中文乱码字幕在线| 1024视频免费在线观看| 美国免费a级毛片| 天堂√8在线中文| 99久久综合精品五月天人人| 亚洲全国av大片| 亚洲精品国产区一区二| 黄色成人免费大全| 免费高清在线观看日韩| 久久久久久国产a免费观看| 人妻丰满熟妇av一区二区三区| 国产主播在线观看一区二区| 久久这里只有精品19| 国产一区二区三区视频了| 99riav亚洲国产免费| 久久久久国产精品人妻aⅴ院| АⅤ资源中文在线天堂| 国产精品永久免费网站| 天天躁夜夜躁狠狠躁躁| cao死你这个sao货| 国产激情欧美一区二区| 美女大奶头视频| 18禁裸乳无遮挡免费网站照片 | 一级作爱视频免费观看| 国产精品一区二区精品视频观看| 久久久久久久午夜电影| 亚洲第一电影网av| 亚洲美女黄片视频| 最近最新免费中文字幕在线| 99精品在免费线老司机午夜| 国产真人三级小视频在线观看| 在线观看免费午夜福利视频| 女同久久另类99精品国产91| 欧美在线一区亚洲| 亚洲国产高清在线一区二区三 | 热99re8久久精品国产| 女人高潮潮喷娇喘18禁视频| 久久久久国产一级毛片高清牌| 久久狼人影院| 欧美大码av| 亚洲精品美女久久av网站| 久久国产亚洲av麻豆专区| 国内毛片毛片毛片毛片毛片| 国产一区二区激情短视频| 99国产极品粉嫩在线观看| 老司机午夜十八禁免费视频| 亚洲欧美日韩无卡精品| 成人18禁在线播放| 长腿黑丝高跟| netflix在线观看网站| 性色av乱码一区二区三区2| 手机成人av网站| 一边摸一边抽搐一进一小说| 免费在线观看影片大全网站| 99久久国产精品久久久| 亚洲第一av免费看| 午夜久久久久精精品| 亚洲,欧美精品.| 国产1区2区3区精品| 少妇裸体淫交视频免费看高清 | 男女午夜视频在线观看| 97人妻天天添夜夜摸| 天堂√8在线中文| 成人18禁在线播放| 国产一区在线观看成人免费| 日本vs欧美在线观看视频| 久久久久久人人人人人| 午夜福利视频1000在线观看 | 日韩欧美一区视频在线观看| 性欧美人与动物交配| 亚洲全国av大片| 在线观看免费午夜福利视频| 国产成人欧美| 欧美乱妇无乱码| 在线观看www视频免费| 国产亚洲av嫩草精品影院| 亚洲国产高清在线一区二区三 | 国产精品一区二区三区四区久久 | 国产精品久久久久久人妻精品电影| 一级毛片精品| 天堂动漫精品| 国产成人av激情在线播放| 91麻豆精品激情在线观看国产| 国产区一区二久久| 999久久久国产精品视频| 国产成人影院久久av| 手机成人av网站| 国产成人精品久久二区二区91| 看黄色毛片网站| 久久久久久国产a免费观看| 中文字幕久久专区| 中文字幕人妻丝袜一区二区| 两个人看的免费小视频| 午夜福利一区二区在线看| 亚洲男人的天堂狠狠| 国产又爽黄色视频| 成年女人毛片免费观看观看9| av天堂在线播放| 99久久国产精品久久久| 国产精品综合久久久久久久免费 | 久久久久久久久免费视频了| 黄色女人牲交| 亚洲精品国产一区二区精华液| 天天躁狠狠躁夜夜躁狠狠躁| av片东京热男人的天堂| 黑人巨大精品欧美一区二区蜜桃| 欧美色视频一区免费| 妹子高潮喷水视频| 首页视频小说图片口味搜索| 国产精品,欧美在线| 一级毛片女人18水好多| 狠狠狠狠99中文字幕| 午夜福利免费观看在线| 色尼玛亚洲综合影院| 国产精品久久久人人做人人爽| 午夜久久久在线观看| 中文字幕人妻丝袜一区二区| 亚洲自偷自拍图片 自拍| 男人的好看免费观看在线视频 | 激情视频va一区二区三区| x7x7x7水蜜桃| 亚洲视频免费观看视频| 91在线观看av| 亚洲人成电影观看| 亚洲精品一区av在线观看| 国产高清videossex| 亚洲av日韩精品久久久久久密| 国产精品国产高清国产av| 成年人黄色毛片网站| 天天躁狠狠躁夜夜躁狠狠躁| 淫妇啪啪啪对白视频| 免费女性裸体啪啪无遮挡网站| 女同久久另类99精品国产91| av片东京热男人的天堂| 亚洲,欧美精品.| 国产亚洲精品一区二区www| 高清毛片免费观看视频网站| 91成人精品电影| 9色porny在线观看| 搡老妇女老女人老熟妇| 久久婷婷成人综合色麻豆| 亚洲欧美精品综合久久99| АⅤ资源中文在线天堂| 手机成人av网站| 国产极品粉嫩免费观看在线| 久久婷婷人人爽人人干人人爱 | cao死你这个sao货| 91字幕亚洲| 亚洲第一电影网av| 成在线人永久免费视频| 黄网站色视频无遮挡免费观看| 免费不卡黄色视频| 岛国视频午夜一区免费看| 国产免费男女视频| 69精品国产乱码久久久| avwww免费| 99国产精品99久久久久| 在线观看午夜福利视频| 久久久国产欧美日韩av| 高潮久久久久久久久久久不卡| 亚洲七黄色美女视频| 国产高清视频在线播放一区| √禁漫天堂资源中文www| 亚洲av日韩精品久久久久久密| av免费在线观看网站| aaaaa片日本免费| 免费在线观看完整版高清| 超碰成人久久| 好男人在线观看高清免费视频 | 一个人观看的视频www高清免费观看 | 成人18禁在线播放| 啦啦啦免费观看视频1| 成熟少妇高潮喷水视频| 午夜福利一区二区在线看| 我的亚洲天堂| 男女床上黄色一级片免费看| 亚洲精品久久国产高清桃花| 老汉色∧v一级毛片| 男人操女人黄网站| 一区二区三区高清视频在线| 免费不卡黄色视频| 精品一品国产午夜福利视频| 欧美中文综合在线视频| 国产高清激情床上av| 免费久久久久久久精品成人欧美视频| 久热这里只有精品99| 两个人看的免费小视频| 亚洲av日韩精品久久久久久密| 午夜福利影视在线免费观看| 欧美在线一区亚洲| 在线观看66精品国产| 国产精华一区二区三区| 亚洲专区中文字幕在线| 免费不卡黄色视频| 亚洲自拍偷在线| 国产激情久久老熟女| 欧美午夜高清在线| 国产99久久九九免费精品| 久久久水蜜桃国产精品网| 成人精品一区二区免费| 黑丝袜美女国产一区| 日韩精品中文字幕看吧| 久久精品91无色码中文字幕| 色哟哟哟哟哟哟| 桃色一区二区三区在线观看| 久热这里只有精品99| 亚洲欧美日韩高清在线视频| 成人亚洲精品一区在线观看| www日本在线高清视频| 免费看十八禁软件| 国产欧美日韩一区二区三区在线| 精品无人区乱码1区二区| 国产xxxxx性猛交| 9色porny在线观看| 成在线人永久免费视频| 亚洲色图av天堂| 亚洲一卡2卡3卡4卡5卡精品中文| 国产三级在线视频| 伦理电影免费视频| 久久精品人人爽人人爽视色|