• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    輿情去重算法的研究與比較

    2017-08-08 03:01:10張慶梅
    電子設(shè)計(jì)工程 2017年14期
    關(guān)鍵詞:詞頻特征選擇輿情

    張慶梅

    (中國科學(xué)技術(shù)大學(xué) 軟件學(xué)院,江蘇 蘇州215123)

    輿情去重算法的研究與比較

    張慶梅

    (中國科學(xué)技術(shù)大學(xué) 軟件學(xué)院,江蘇 蘇州215123)

    近年來,輿情信息在大數(shù)據(jù)服務(wù)中廣泛被加工使用,但轉(zhuǎn)載、復(fù)制等操作使得采集的輿情信息重復(fù)量龐大,給后期的加工帶來困難。在這種情況下,針對(duì)輿情數(shù)據(jù)開展去重研究的卻相對(duì)較少。文中針對(duì)輿情去重不可避免但缺乏理論指導(dǎo)的問題,通過研究SimHash、MinHash、Jaccard等經(jīng)典去重算法,結(jié)合TF、TF-IDF、特征碼等不同特征選擇和3 000輿情樣本進(jìn)行實(shí)驗(yàn),最終發(fā)現(xiàn)MinHash+特征碼運(yùn)行時(shí)間最短;Jaccard的漏判數(shù)最少,召回率可達(dá)90%以上;MinHash算法的誤判數(shù)最少,去重精度可達(dá)100%,并且MinHash通過閾值的調(diào)整能夠獲得Jaccard同樣的召回率。

    輿情數(shù)據(jù);去重算法;特征選擇;相似度計(jì)算;大數(shù)據(jù)服務(wù)

    截至2015年12月,我國社交網(wǎng)站、微博等社交應(yīng)用的網(wǎng)民使用率達(dá)77.0%[1],新媒體的迅捷性、開放性和方便性使得越來越多的網(wǎng)民使用其表達(dá)自己的意見和看法[2]。各種新媒體的出現(xiàn),使得輿論信息傳播范圍更廣、速度更快、數(shù)量更大,輿情對(duì)社會(huì)經(jīng)濟(jì)影響也越來越大。西蒙曾指出:在信息時(shí)代,最稀缺的資源不再是信息本身,而是對(duì)信息的處理能力。目前大數(shù)據(jù)服務(wù)公司利用互聯(lián)網(wǎng)技術(shù),收集有關(guān)輿情信息,再加工分析,為銀行、信托等金融機(jī)構(gòu)提供企業(yè)、個(gè)人的輿情數(shù)據(jù),為其評(píng)估客戶信用、預(yù)估客戶風(fēng)險(xiǎn)、預(yù)測(cè)金融發(fā)展趨勢(shì)提供參考。此外對(duì)金融輿情信息進(jìn)行分析,能夠?qū)鹑谶\(yùn)行的形式和趨勢(shì)做出預(yù)測(cè)和判斷,方便引導(dǎo)輿情基于真實(shí)信息向有利于金融穩(wěn)定運(yùn)行的方向發(fā)展[3]。但內(nèi)容復(fù)制、轉(zhuǎn)載等原因,互聯(lián)網(wǎng)上存在大量的相似重復(fù)網(wǎng)頁信息[4],致使數(shù)據(jù)收集階段獲得的數(shù)據(jù)往往重復(fù)嚴(yán)重。這些重復(fù)的輿情數(shù)據(jù)一方面加大了后期人工運(yùn)營的強(qiáng)度。另一方面影響數(shù)據(jù)服務(wù)質(zhì)量,增大數(shù)據(jù)存儲(chǔ)難度,降低索引效率,嚴(yán)重影響輿情價(jià)值的發(fā)揮。

    文中針對(duì)輿情去重進(jìn)行研究,分析SimHash、MinHash、Cosine Similarity、Jaccard 基于相似性度量的去重原理,對(duì)輿情數(shù)據(jù)文本的 TF、TF-IDF、TextRank和特征碼進(jìn)行提取,使用不同方式將特征選擇與相似性計(jì)算方式進(jìn)行結(jié)合,編程實(shí)現(xiàn)各個(gè)去重算法。確定合理高效的測(cè)試方案,利用3 000輿情數(shù)據(jù)樣本進(jìn)行測(cè)試,獲取各個(gè)算法在輿情去重方面的測(cè)試結(jié)果,比較分析。實(shí)驗(yàn)成果將在輿情數(shù)據(jù)去重方面為人們?cè)谶M(jìn)行算法選擇時(shí)提供決策參考。

    1 相關(guān)工作

    就輿情研究而言,國外起步較早,從19世紀(jì)中期開始發(fā)展,到20世紀(jì)中期已逐漸走向成熟。我國對(duì)網(wǎng)絡(luò)輿情的研究,直到20世紀(jì)末才剛剛開始[5]。整體上對(duì)輿情的研究主要集中于這兩個(gè)方面,一是收集和分析輿情信息進(jìn)行輿情對(duì)策,來幫助政府或企業(yè)有效地應(yīng)對(duì)輿情節(jié)拍緩慢和極端化等問題[6]。二是基于信息技術(shù)的輿情監(jiān)測(cè)和輿情挖掘研究,依托計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)建構(gòu)監(jiān)測(cè)、分析和預(yù)警系統(tǒng)[7]。大數(shù)據(jù)時(shí)代的來臨,越來越依賴輿情大數(shù)據(jù)分析技術(shù),而面對(duì)如此龐大的數(shù)據(jù),大數(shù)據(jù)在進(jìn)行分析之前必須對(duì)數(shù)據(jù)進(jìn)行清洗工作,其中清洗環(huán)節(jié)的一個(gè)重要工作就是去除重復(fù)數(shù)據(jù)。

    就去重算法而言,其主要應(yīng)用于搜索引擎。據(jù)統(tǒng)計(jì),用戶在回答“檢索信息時(shí)遇到的最大問題”這一提問時(shí),選擇“重復(fù)信息太多”選項(xiàng)的占44.6%,排名第1位[8]。因此在搜索引擎方面,解決網(wǎng)頁重復(fù)的問題是必不可少的步驟,網(wǎng)頁去重技術(shù)蘊(yùn)含于信息搜索技術(shù),是后者發(fā)展的有力支撐[9]。此外去重的開展是基于相似度的計(jì)算,因此去重技術(shù)的基本算法也被應(yīng)用于解決高維數(shù)據(jù)的聚類問題。例如利用基于LSH算法協(xié)同過濾處理高維數(shù)據(jù)的良好特性來解決圖書館用戶的聚類問題[10]。近年來,隨著存儲(chǔ)容量快速增長,去重技術(shù)也被應(yīng)用于數(shù)據(jù)備份系統(tǒng)來消除冗余數(shù)據(jù),降低數(shù)據(jù)存儲(chǔ)成本[11]。

    國外在去重方面的研究開始于19世紀(jì),去重算法的應(yīng)用也比國內(nèi)成熟。目前許多去重算法都是在最初提出的算法的基礎(chǔ)上進(jìn)行改進(jìn)。1997年,Andrei Broder首次提出MinHash算法[12],該算法可以用來快速估算兩個(gè)集合的相似度,查找網(wǎng)絡(luò)上的重復(fù)網(wǎng)頁或者相似新聞網(wǎng)頁[13]。在2000年,Peter.D.Turney首次提出關(guān)鍵字提取算法,將文章中出現(xiàn)的詞語劃分為關(guān)鍵和非關(guān)鍵兩部分,從關(guān)鍵類中選擇若干個(gè)作為關(guān)鍵詞。這個(gè)方法的提出為基于文章內(nèi)容的特征去重奠定了基礎(chǔ)[14]。2002年,ChariKar提出Simhash算法[15],Simhash這個(gè)算法能將一篇文章最后轉(zhuǎn)換一個(gè)n位的指紋碼,所有相似度比較都基于這n位指紋碼進(jìn)行,大大降低了計(jì)算維度。

    綜上所述,對(duì)于去重技術(shù),傳統(tǒng)的處理對(duì)象主要是網(wǎng)頁,目前也被擴(kuò)展到其他領(lǐng)域解決去重和聚類問題,將去重算法應(yīng)用到輿情服務(wù)領(lǐng)域的卻很少。但是大數(shù)據(jù)時(shí)代的到來,在輿情數(shù)據(jù)分析方面去重已不可忽略。本課題針對(duì)輿情數(shù)據(jù)進(jìn)行去重研究,通過實(shí)現(xiàn)幾種經(jīng)典的去重算法,使用輿情樣本進(jìn)行測(cè)試,來觀察這些算法在輿情數(shù)據(jù)方面的去重表現(xiàn),最終為輿情去重在算法方面的選擇提供參考資料。

    2 相關(guān)理論及實(shí)現(xiàn)方法

    2.1 特征選擇

    文中特征選擇的范圍主要是這4種:TF、特征碼、TF-IDF和TextRank。這4種特征分別從不同方面反映了一個(gè)輿情文章的屬性。在去重技術(shù)中,不同的特征選擇將直接影響去重效果以及去重效率。

    1)詞頻(TF)

    常用的詞頻是指某個(gè)詞在文章中出現(xiàn)的次數(shù),但這種計(jì)算方式忽略了文章有長短之分,當(dāng)文章篇幅差距很大,這種表示文章的屬性將不能準(zhǔn)確體現(xiàn)文章內(nèi)容之間的差異性,因此這種詞頻計(jì)算方式適用于文章長短相似的文章去重,具有一定的局限性。在本文采用的是相對(duì)詞頻(TF),其計(jì)算公式如式(1)所示。

    2)特征碼

    特征碼一般由主碼和輔碼構(gòu)成,主碼一般是一個(gè)自然段前幾個(gè)字符的組合,輔碼一般是各自然段中標(biāo)點(diǎn)符號(hào)前后幾個(gè)字符的組合。文中采用的特征碼僅由輔碼組成。

    3)TF-IDF

    TF-IDF在詞頻的基礎(chǔ)上,能夠反映詞在文章中的“重要程度”,文中利用此特征值來獲取每個(gè)單詞的“重要程度”。了解TF-IDF首先了解逆文檔頻率,這個(gè)特征的取值大小與這個(gè)詞的常見程度成反比,比如最常見的詞,如“的”,“在”,“這”等,這個(gè)特征值會(huì)最小。而對(duì)于不常見的詞這個(gè)特征值會(huì)比較大。逆文檔頻率(IDF)的計(jì)算公式如式(2)所示。

    詞頻和逆文檔頻率的乘積就是TF-IDF,某個(gè)詞在文章中的重要程度越大,TF-IDF的值就越大。TFIDF的計(jì)算公式如式(3)所示。

    4)TextRank

    文中TextRank的計(jì)算對(duì)象是文本里的詞語,每個(gè)詞語根據(jù)此算法會(huì)得到相應(yīng)的權(quán)重。計(jì)算公式如式(4)所示。

    TextRank把每個(gè)詞語看成一個(gè)節(jié)點(diǎn)(Vi),文中認(rèn)為文章中全部詞語都是相鄰的。S(Vi)表示文本中詞語的重要性,d是阻尼系數(shù),通常設(shè)為0.85。ln(Vi)是文章中指向詞語的詞語集合,out(Vi)表示文章中詞語指向的詞語集合。

    2.2 基于相似性度量的去重算法

    文中選用目前去重領(lǐng)域中經(jīng)典的去重算法進(jìn)行研究,其中包括傳統(tǒng)的去重算法Jaccard、Cosine Similarity,這兩種是文本相似度比較中經(jīng)典的計(jì)算方式。同時(shí)也涉及針對(duì)海量數(shù)據(jù)去重的算法Simhash、Minhash,這兩種算法能夠很好地降維。近年來,數(shù)據(jù)量不斷增長,數(shù)據(jù)維度日漸增加,Simhash、Minhash以及其他位置敏感哈希 (LSH)的經(jīng)典算法都成為研究和改進(jìn)的重點(diǎn)算法。

    1)Jaccard

    Jaccard用于計(jì)算兩個(gè)集合的相似程度,對(duì)于兩個(gè)集合A和B,利用Jaccard計(jì)算相似度的公式如式(5)所示。計(jì)算結(jié)果越大,文章的相似度越大。

    2)Cosine Similarity

    Cosine用于計(jì)算樣本向量之間的相似度,當(dāng)把一篇文章的特征抽象成一個(gè)向量時(shí),可以使用這種方式計(jì)算文章之間的相似度,類似幾何中夾角余弦的計(jì)算方式。對(duì)于兩個(gè)向量A和B,利用Cosine計(jì)算相似度的公式如(6)所示。

    對(duì)于傳統(tǒng)的Cosine Similarity的主要思想是根據(jù)一篇文章中各個(gè)詞的詞頻來組成一個(gè)向量,通過計(jì)算兩篇文章的向量夾角來判定相似度[16]。在文中將向量的構(gòu)造不再局限于詞頻,而是采用其他更多的特征選擇。計(jì)算結(jié)果越靠近1,文章的相似度越大。

    3)MinHash

    MinHash通過hash函數(shù),將文章中的每個(gè)詞語、關(guān)鍵句等映射成一個(gè)整數(shù),從整數(shù)集合中篩選出最小的n個(gè)hash值。這樣每篇文章都能抽象成一個(gè)由n個(gè)hash整數(shù)組成的集合,然后使用Jaccard計(jì)算文章間的相似度。MinHash有兩種實(shí)現(xiàn)方法,一種是使用單個(gè)hash函數(shù),另一種是使用多個(gè)hash函數(shù),經(jīng)實(shí)驗(yàn)前者特征比較時(shí)間太大,本文使用后者來與其他相似度算法進(jìn)行比較。hash的對(duì)象是每個(gè)詞語。

    4)SimHash

    文中利用SimHash將一篇文章最后轉(zhuǎn)換一個(gè)32位的指紋碼,然后使用海明距離來計(jì)算文章間的相似度。海明距離是指兩個(gè)碼字對(duì)應(yīng)比特位取值不同的比特?cái)?shù)目,例如:11001和01100從第一位開始依次有第一位、第三位、第五位不同,則海明距離為3。海明距離越大則相似度越小。本文實(shí)現(xiàn)SimHash的過程具體如下:

    ①首先將文章轉(zhuǎn)換為一組加權(quán)的字符串構(gòu)成的向量,這個(gè)字符串可以是詞或者句。

    ②初始化一個(gè)32維的向量V,每個(gè)元素值都為0。

    ③對(duì)于文章的字符串集合中的每一個(gè)字符串進(jìn)行如下運(yùn)算:

    將字符串利用hash函數(shù)計(jì)算后得到一個(gè)32-bit的簽名。對(duì)于一個(gè)32-bit的簽名,如果第k位上為1,則對(duì)向量V中第i維加上這個(gè)字符串的權(quán)值,否則減去該字符串的權(quán)值。

    ④完成以上全部字符串的計(jì)算后,一篇文章將被映射成一個(gè)32維向量V,然后根據(jù)每一維的符號(hào)來確定生成一個(gè)32-bit的指紋碼,如果V的第i維為正數(shù),則32-bit指紋的第i位(從左數(shù))為1,否則為0。最終一篇文章被映射成一個(gè)32-bit指紋碼。

    3 實(shí)驗(yàn)測(cè)試及分析

    整個(gè)實(shí)驗(yàn)的研究內(nèi)容細(xì)分為兩大塊:特征選擇方法的研究和相似度算法的研究。每個(gè)模塊研究的具體內(nèi)容見表1。

    比較方案就是針對(duì)上表所列內(nèi)容,利用3000輿情文章組合的數(shù)據(jù)集,采用先縱向比較,再交叉實(shí)驗(yàn)的策略。首先,每一步驟內(nèi)的內(nèi)容進(jìn)行縱向比較,在每個(gè)步驟中,選出效果最好的1-2個(gè)算法。然后,再橫向交叉組合實(shí)驗(yàn),整體上選出表現(xiàn)突出的組合方案??紤]輿情數(shù)據(jù)服務(wù)準(zhǔn)確度的需求,我們會(huì)優(yōu)先選擇誤判率較低的算法。

    表1 去重算法的研究內(nèi)容

    3.1 縱向比較特征選擇算法

    在縱向比較特征選擇算法時(shí),我們保持相似度算法相同,來對(duì)不同的特征選擇進(jìn)行測(cè)試。考慮算法實(shí)現(xiàn)原理,SimHash的實(shí)現(xiàn)過程與權(quán)值密切相關(guān),因此相似度算法我們選擇SimHash,閾值都設(shè)為2。特征選擇的我們分別選用未加權(quán)、詞頻TF、TF-IDF、TextRank。對(duì)于特征碼,其不適用此比較方法,在此保留,留在后面進(jìn)行比較。

    不同特征選擇算法的比較結(jié)果見表2。

    表2 特征選擇的算法比較結(jié)果

    結(jié)果分析:TextRank雖然時(shí)間復(fù)雜度太高,但其對(duì)減少誤判率上有明顯優(yōu)勢(shì)。TF-IDF在減少誤判率有一定效果,在減少漏判率上也具有明顯優(yōu)勢(shì)。詞頻TF雖然在減少漏判率上有較好的效果,但誤判率大。

    綜合考慮:特征選擇保留TextRank,TF-IDF。

    3.2 縱向比較相似度算法

    在縱向比較相似度算法時(shí),我們只對(duì)文章進(jìn)行分詞操作,不對(duì)詞語進(jìn)行任何特征加權(quán),并統(tǒng)一使用HanLP標(biāo)準(zhǔn)分詞。相似度算法中參與比較的有SimHash、MinHash和Cosine。其中SimHash的閾值為2;MinHash的hash函數(shù)個(gè)數(shù)選擇20,閾值為3;Cosine閾值設(shè)為0.95。對(duì)于Jaccard,其不適用此比較方法,在此保留,留在后面進(jìn)行比較。

    不同特征提取算法的比較結(jié)果見表3。

    表3 特征提取的算法比較結(jié)果

    結(jié)果分析:MinHash的誤判數(shù)最小,Cosine的漏判數(shù)雖然較小,但特征比較時(shí)間相對(duì)太大,而SimHash誤判數(shù)和漏判數(shù)都較多,效果太差。

    綜合考慮:MinHash > Cosine>SimHash,保留MinHash(誤判數(shù)少)、Cosine(漏判數(shù)少)。

    3.3 交叉組合比較

    以上完成算法的縱向比較之后,使用縱向比較的結(jié)果再橫向交叉組合實(shí)驗(yàn)。在交叉組合中各個(gè)算法的參數(shù)設(shè)置如下:MinHash的hash函數(shù)個(gè)數(shù)選擇20,閾值為5,使用CRF分詞;特征碼+MinHash中特征碼的長度設(shè)為5,其MinHash同樣使用20個(gè)hash函數(shù),閾值同樣設(shè)為5;Jaccard的閾值設(shè)為0.2,分詞使用HanLP標(biāo)準(zhǔn)分詞;TextRank+Cosine閾值設(shè)為0.95,分詞使用HanLP標(biāo)準(zhǔn)分詞。交叉組合比較結(jié)果見表4。

    表4 交叉組合比較結(jié)果

    結(jié)果分析:MinHash算法誤判數(shù)最少,精度最高;Jaccard算法漏判數(shù)最少,召回率最高;特征碼+MinHash算法計(jì)算時(shí)間非常短。

    4 結(jié) 論

    優(yōu)先考慮算法精度(誤判數(shù)少)的情況下,推薦MinHash;優(yōu)先考慮算法召回率(漏判數(shù)少)的情況下,Jaccard算法最好,但誤判數(shù)較多;對(duì)運(yùn)行時(shí)間有非常高要求時(shí),推薦特征碼+MinHash。

    總體來說MinHash在輿情去重效果上具有一定的優(yōu)勢(shì)。經(jīng)實(shí)驗(yàn),相似度判別的閾值設(shè)置對(duì)實(shí)驗(yàn)結(jié)果有很大影響,在放寬MinHash閾值的情況下,MinHash能達(dá)到Jaccard同樣的漏判效果。結(jié)合Hadoop優(yōu)化算法特征計(jì)算和比較的時(shí)間復(fù)雜度,可以進(jìn)一步提高去重效率。因此,實(shí)際應(yīng)用可以結(jié)合具體業(yè)務(wù)場景,針對(duì)MinHash進(jìn)行優(yōu)化,使其在計(jì)算時(shí)間和漏判率上有一定的改善。

    [1]中國互聯(lián)網(wǎng)信息中心.2016年第37次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].[2016].http://www.cnnic.net.cn/gywm/xwzx/rdxw/2016/201601/t20160122_53293.htm.

    [2]魏超.新媒體技術(shù)發(fā)展對(duì)網(wǎng)絡(luò)輿情信息工作的影響研究[J].圖書情報(bào)工作,2014,58(1):30-34.

    [3]夏火松,甄化春.大數(shù)據(jù)環(huán)境下輿情分析與決策支持研究文獻(xiàn)綜述[J].情報(bào)雜志,2015,34(2):1-6.

    [4]賀知義.基于關(guān)鍵詞的搜索引擎網(wǎng)頁去重算法研究[D].湖北:華中師范大學(xué),2015.

    [5]張俊勇.基于本體的網(wǎng)絡(luò)輿情挖掘研究[D].重慶:重慶大學(xué),2014.

    [6]陳冬.公共部門應(yīng)對(duì)網(wǎng)絡(luò)輿情對(duì)策研究 [D].上海:華東理工大學(xué),2013.

    [7]曹樹金,周小又,陳桂鴻.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中的主題帖自動(dòng)標(biāo)引及情感傾向分析研究[J].圖書情報(bào)知識(shí),2012,32(1):66-73.

    [8]中國互聯(lián)網(wǎng)絡(luò)信息中心.第十六次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告 [EB/OL].[2016].http://www.cnnic.cn/gywm/xwzx/rdxw/2005nrd/201207/t20120710_31438.htm.

    [9]李志義,梁士金.國內(nèi)網(wǎng)頁去重技術(shù)研究現(xiàn)狀與總結(jié)[J].信息技術(shù),2011,55(7):118-121.

    [10]卞藝杰,陳超,馬玲玲,等.一種改進(jìn)的LSH/MinHash協(xié)同過濾算法 [J].計(jì)算機(jī)與現(xiàn)代化,2013,12(12):19-22.

    [11]譚玉娟.數(shù)據(jù)備份系統(tǒng)中數(shù)據(jù)去重技術(shù)研究[D].武漢:華中科技大學(xué),2012.

    [12]Andrei Broder.On the resemblance and containment of documents[C]//Proceedings of the Compression and Complexity of Sequences.Washington:IEEE,1997:21-29.

    [13]王洪亞,吳西送,任建軍,等.分布式平臺(tái)下MinHash算法研究與實(shí)現(xiàn) [J].智能計(jì)算機(jī)與應(yīng)用,2014,4(6):44-46.

    [14]D.Cohn,H.Chang.Learning to Probabilistically Identify Authoritative Documents[C]//Proceedings of the Seventeenth International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publishers Inc,2000:167-174.

    [15]Charikar M.S.Similarity Estimation Techniques from Algorithms[C]//Proceeding of the 34th annual ACM Symposium on theory of computing.NewYork.NY.USA:AACM,2002:380-388.

    [16]王源.一種基于Simhash的文本快速去重算法[D].吉林:吉林大學(xué),2014.

    Research and comparison on duplication deletion algorithm of public opinion

    ZHANG Qing-mei(School of Software Engineering of USTC,Suzhou 215123,China)

    In recent years,public opinion information is processed and used in the big data serviceswidely,but those operation such as copying,reproducing make the repetitionof the collection of public opinion information hugeand make post-processingbecome very difficult.In this situation,there is relativelyless about study on the on duplication deletion of public opinion.Althoughit is inevitable for big data services to remove the duplication of public opinion,it lacks theoretical guidance.Therefore,in this paper,throughstudying onthe classical duplication deletion algorithmsuch asSimHash,MinHash,Jaccard,and combining the algorithmwithdifferent feature selection algorithm such as TF,TF-IDF,feature code and3000 public opinion sample to make a series of experiments.Finally resultsshow that MinHash combined with feature code have the shortest running time,Jaccard have the least number of missed article and the recall rate can reach more than 90%,MinHash have the least number of mistakes and accuracycan reach 100%,furthermore,MinHash can get the same recall rate by adjusting threshold.

    public opinion data; duplication deletion algorithm; feature selection; similarity computing;big data service

    TP391

    :A

    :1674-6236(2017)14-0023-05

    2016-05-04稿件編號(hào):201605015

    張慶梅(1992—),女,安徽阜陽人,碩士研究生。研究方向:軟件系統(tǒng)設(shè)計(jì)。

    猜你喜歡
    詞頻特征選擇輿情
    基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    Kmeans 應(yīng)用與特征選擇
    電子制作(2017年23期)2017-02-02 07:17:06
    輿情
    中國民政(2016年16期)2016-09-19 02:16:48
    輿情
    中國民政(2016年10期)2016-06-05 09:04:16
    輿情
    中國民政(2016年24期)2016-02-11 03:34:38
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    詞頻,一部隱秘的歷史
    云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
    以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
    圖書館論壇(2014年8期)2014-03-11 18:47:59
    基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
    国产一区亚洲一区在线观看| av天堂中文字幕网| 亚洲人成网站在线播放欧美日韩| 国产成人一区二区在线| 欧美人与善性xxx| 国产精品人妻久久久久久| 精品欧美国产一区二区三| 国产精品伦人一区二区| 免费在线观看成人毛片| 精品人妻熟女av久视频| 日韩高清综合在线| 性插视频无遮挡在线免费观看| 免费不卡的大黄色大毛片视频在线观看 | 国产一区二区在线av高清观看| 久久综合国产亚洲精品| 成人鲁丝片一二三区免费| 国产成人a区在线观看| 婷婷亚洲欧美| 日日啪夜夜撸| 天天躁夜夜躁狠狠久久av| 麻豆成人av视频| 夜夜看夜夜爽夜夜摸| 亚洲中文字幕一区二区三区有码在线看| 婷婷精品国产亚洲av| www.av在线官网国产| 久久久欧美国产精品| 国产成人午夜福利电影在线观看| 少妇的逼水好多| 亚洲无线观看免费| 久久久久久久久久久免费av| 亚洲成人av在线免费| 欧美成人a在线观看| 日日啪夜夜撸| 日韩精品青青久久久久久| 国产午夜精品久久久久久一区二区三区| 亚洲乱码一区二区免费版| 亚洲av男天堂| 国产精品三级大全| 国产中年淑女户外野战色| 精品国内亚洲2022精品成人| 蜜臀久久99精品久久宅男| 国国产精品蜜臀av免费| 国产视频内射| 中文资源天堂在线| 精品久久久久久久久亚洲| 少妇裸体淫交视频免费看高清| 午夜激情欧美在线| 免费看光身美女| 亚洲激情五月婷婷啪啪| 超碰av人人做人人爽久久| 欧美3d第一页| 白带黄色成豆腐渣| 草草在线视频免费看| 欧美在线一区亚洲| 亚洲精品乱码久久久v下载方式| 亚洲欧美日韩东京热| 欧美日韩精品成人综合77777| 我要搜黄色片| 亚洲av电影不卡..在线观看| 久久久久免费精品人妻一区二区| 美女大奶头视频| 观看美女的网站| 成人鲁丝片一二三区免费| 免费看光身美女| eeuss影院久久| 69人妻影院| 一卡2卡三卡四卡精品乱码亚洲| 一个人看视频在线观看www免费| 久久99精品国语久久久| 99国产精品一区二区蜜桃av| 日韩欧美国产在线观看| av在线蜜桃| 亚洲av成人av| 欧美xxxx性猛交bbbb| 成人午夜精彩视频在线观看| 日韩欧美精品v在线| 搡老妇女老女人老熟妇| 国产精品永久免费网站| h日本视频在线播放| 国产 一区精品| 欧美日韩乱码在线| 99久久人妻综合| 女同久久另类99精品国产91| 有码 亚洲区| 中文字幕精品亚洲无线码一区| 免费av观看视频| 久久欧美精品欧美久久欧美| 日日干狠狠操夜夜爽| 国产精品蜜桃在线观看 | 亚洲欧美精品专区久久| 久久综合国产亚洲精品| av黄色大香蕉| 你懂的网址亚洲精品在线观看 | 在线观看午夜福利视频| 99热精品在线国产| 国产精品福利在线免费观看| 亚洲婷婷狠狠爱综合网| 国产精品麻豆人妻色哟哟久久 | 精品熟女少妇av免费看| 亚洲人成网站高清观看| 又爽又黄无遮挡网站| 亚洲精品色激情综合| 成年av动漫网址| 精品99又大又爽又粗少妇毛片| 国产单亲对白刺激| 中文字幕免费在线视频6| 丝袜喷水一区| 欧美激情久久久久久爽电影| 我的老师免费观看完整版| 国产精品三级大全| 一级黄片播放器| 99热这里只有是精品50| 国产精品久久久久久精品电影| 中文字幕av成人在线电影| 亚洲经典国产精华液单| 亚洲国产高清在线一区二区三| 人妻夜夜爽99麻豆av| 热99在线观看视频| 超碰av人人做人人爽久久| 麻豆国产av国片精品| 国产av一区在线观看免费| 日韩国内少妇激情av| 日韩精品青青久久久久久| 国产精品人妻久久久影院| 变态另类丝袜制服| 久久久久久久久久黄片| 乱人视频在线观看| 成人无遮挡网站| 国产69精品久久久久777片| 日韩一区二区视频免费看| 伊人久久精品亚洲午夜| 五月玫瑰六月丁香| 国产69精品久久久久777片| 白带黄色成豆腐渣| 色综合站精品国产| 欧美高清性xxxxhd video| 女同久久另类99精品国产91| 国产精品日韩av在线免费观看| 久久人人爽人人片av| 黄色配什么色好看| 一边亲一边摸免费视频| 亚洲欧美精品综合久久99| 在线观看66精品国产| 国产一区亚洲一区在线观看| 蜜桃亚洲精品一区二区三区| 插逼视频在线观看| 99九九线精品视频在线观看视频| 精品人妻熟女av久视频| 99热这里只有是精品在线观看| www.色视频.com| 欧美人与善性xxx| 黄色配什么色好看| 91av网一区二区| 超碰av人人做人人爽久久| 乱系列少妇在线播放| 男女那种视频在线观看| 国产黄片美女视频| avwww免费| 国产一区二区三区在线臀色熟女| 国产精品蜜桃在线观看 | 99热网站在线观看| 国产麻豆成人av免费视频| 久久精品国产亚洲av涩爱 | 99久久精品一区二区三区| 亚洲成人精品中文字幕电影| 亚洲va在线va天堂va国产| 午夜视频国产福利| 精华霜和精华液先用哪个| 日韩欧美精品免费久久| 可以在线观看毛片的网站| 精品人妻视频免费看| 午夜福利在线观看吧| 亚洲三级黄色毛片| 日本与韩国留学比较| 色播亚洲综合网| 精品久久久久久久久久免费视频| 精华霜和精华液先用哪个| 99久久精品国产国产毛片| 小蜜桃在线观看免费完整版高清| 日本色播在线视频| 两个人视频免费观看高清| 特大巨黑吊av在线直播| .国产精品久久| 亚洲国产欧美人成| 99久国产av精品| 精品熟女少妇av免费看| 免费人成视频x8x8入口观看| 午夜免费男女啪啪视频观看| av免费在线看不卡| 亚洲精品456在线播放app| 欧美区成人在线视频| 成人国产麻豆网| 男女视频在线观看网站免费| 午夜爱爱视频在线播放| 日韩精品有码人妻一区| 亚洲美女视频黄频| 99热只有精品国产| 日本免费a在线| 在线免费观看不下载黄p国产| 成年女人永久免费观看视频| 性色avwww在线观看| 国产v大片淫在线免费观看| 白带黄色成豆腐渣| 日韩欧美一区二区三区在线观看| 哪里可以看免费的av片| av女优亚洲男人天堂| 成人美女网站在线观看视频| 熟女电影av网| 国产精品av视频在线免费观看| 两个人视频免费观看高清| 国产一级毛片在线| 成人永久免费在线观看视频| 日产精品乱码卡一卡2卡三| 成人特级av手机在线观看| 亚洲国产色片| 十八禁国产超污无遮挡网站| www.av在线官网国产| 亚洲精品日韩av片在线观看| 综合色av麻豆| 精品人妻熟女av久视频| 国产成人午夜福利电影在线观看| 我的老师免费观看完整版| 亚洲精品色激情综合| 一本久久精品| 日本三级黄在线观看| 国产毛片a区久久久久| 免费观看a级毛片全部| 国产精品爽爽va在线观看网站| 麻豆国产av国片精品| 99热精品在线国产| 精品一区二区三区人妻视频| 国产私拍福利视频在线观看| 18禁在线无遮挡免费观看视频| 嘟嘟电影网在线观看| 看片在线看免费视频| 免费无遮挡裸体视频| 成人三级黄色视频| 中国国产av一级| av女优亚洲男人天堂| 亚洲三级黄色毛片| 两个人的视频大全免费| 免费不卡的大黄色大毛片视频在线观看 | 1000部很黄的大片| 精品久久久久久久久亚洲| 青春草亚洲视频在线观看| 给我免费播放毛片高清在线观看| 啦啦啦啦在线视频资源| 别揉我奶头 嗯啊视频| 黄色配什么色好看| 自拍偷自拍亚洲精品老妇| 欧美性猛交黑人性爽| 99久久精品国产国产毛片| 特大巨黑吊av在线直播| 成人高潮视频无遮挡免费网站| 日本与韩国留学比较| 最近视频中文字幕2019在线8| 国产麻豆成人av免费视频| 99精品在免费线老司机午夜| 亚洲中文字幕一区二区三区有码在线看| 九九久久精品国产亚洲av麻豆| 99久久无色码亚洲精品果冻| 欧美色欧美亚洲另类二区| 小蜜桃在线观看免费完整版高清| 99视频精品全部免费 在线| 男女做爰动态图高潮gif福利片| 国产成人影院久久av| 又黄又爽又刺激的免费视频.| 欧美+日韩+精品| 亚洲精品日韩在线中文字幕 | 乱码一卡2卡4卡精品| 免费av不卡在线播放| 免费不卡的大黄色大毛片视频在线观看 | 欧美性感艳星| 色视频www国产| 搞女人的毛片| 哪个播放器可以免费观看大片| 国产精品精品国产色婷婷| 麻豆乱淫一区二区| 欧美激情国产日韩精品一区| 国产一区二区三区av在线 | 久久久久免费精品人妻一区二区| 蜜臀久久99精品久久宅男| 亚洲最大成人av| 麻豆乱淫一区二区| 国产精品不卡视频一区二区| 午夜福利高清视频| 哪里可以看免费的av片| 精品人妻熟女av久视频| 亚洲人成网站在线观看播放| 边亲边吃奶的免费视频| 亚洲精品国产成人久久av| 午夜激情福利司机影院| 久久久欧美国产精品| 日本与韩国留学比较| 国产精品爽爽va在线观看网站| 国产中年淑女户外野战色| 91狼人影院| 亚洲精品成人久久久久久| 亚洲欧美日韩卡通动漫| 老师上课跳d突然被开到最大视频| 日本成人三级电影网站| 国产一区亚洲一区在线观看| 久久九九热精品免费| 啦啦啦啦在线视频资源| 内射极品少妇av片p| 国内揄拍国产精品人妻在线| 18禁裸乳无遮挡免费网站照片| 精品国内亚洲2022精品成人| 一个人看的www免费观看视频| 热99在线观看视频| 久久午夜亚洲精品久久| 中文字幕久久专区| 国产免费一级a男人的天堂| 九九热线精品视视频播放| 国产精品一二三区在线看| 尾随美女入室| 日韩中字成人| videossex国产| 亚洲欧美日韩高清在线视频| 边亲边吃奶的免费视频| 中国国产av一级| 欧美另类亚洲清纯唯美| 成人高潮视频无遮挡免费网站| www.色视频.com| 久久久国产成人免费| 亚洲人成网站在线观看播放| 精华霜和精华液先用哪个| 一夜夜www| 成年av动漫网址| 免费观看在线日韩| 色哟哟·www| 国产69精品久久久久777片| .国产精品久久| 久久久久久久午夜电影| 干丝袜人妻中文字幕| 亚洲中文字幕一区二区三区有码在线看| 色综合亚洲欧美另类图片| 99久久精品国产国产毛片| 99久久精品一区二区三区| 美女大奶头视频| 亚洲四区av| kizo精华| 国产 一区精品| 最后的刺客免费高清国语| 精品久久久久久久人妻蜜臀av| 亚洲精品乱码久久久久久按摩| 免费观看人在逋| 国产综合懂色| 中文字幕av成人在线电影| 天美传媒精品一区二区| 直男gayav资源| 成年女人看的毛片在线观看| 成人特级av手机在线观看| 校园春色视频在线观看| 小说图片视频综合网站| 综合色av麻豆| 国产精品久久电影中文字幕| 婷婷精品国产亚洲av| 亚洲国产欧美人成| 中文字幕制服av| 成年女人看的毛片在线观看| 听说在线观看完整版免费高清| 日本撒尿小便嘘嘘汇集6| 欧美不卡视频在线免费观看| 国产成人精品婷婷| 国产视频内射| 九九在线视频观看精品| 亚洲精品国产成人久久av| 国产久久久一区二区三区| 亚洲精品自拍成人| 久久午夜福利片| 天堂av国产一区二区熟女人妻| 国内揄拍国产精品人妻在线| 亚洲欧美日韩卡通动漫| 黄色欧美视频在线观看| 亚洲精品自拍成人| 毛片一级片免费看久久久久| 亚洲丝袜综合中文字幕| 成人国产麻豆网| 99热全是精品| 在线a可以看的网站| 久久久精品94久久精品| 久久精品国产鲁丝片午夜精品| 亚洲精品日韩在线中文字幕 | 国产午夜精品一二区理论片| 在线观看一区二区三区| 久久久久网色| 欧美激情久久久久久爽电影| 久久精品综合一区二区三区| 欧美成人免费av一区二区三区| 亚洲一区二区三区色噜噜| 又粗又硬又长又爽又黄的视频 | 日韩欧美在线乱码| 精品国产三级普通话版| 亚洲国产色片| 内射极品少妇av片p| 国产成人精品婷婷| 欧美3d第一页| 欧美最新免费一区二区三区| 乱人视频在线观看| 成人美女网站在线观看视频| 少妇被粗大猛烈的视频| 国产淫片久久久久久久久| 成年版毛片免费区| 国产亚洲91精品色在线| 亚洲人成网站在线播| 91久久精品电影网| 国产精品久久视频播放| 亚洲,欧美,日韩| 美女国产视频在线观看| 免费看日本二区| 国产精品一区二区性色av| 性插视频无遮挡在线免费观看| 亚洲成av人片在线播放无| 99热只有精品国产| 特大巨黑吊av在线直播| 国产乱人视频| 欧美zozozo另类| 18+在线观看网站| 99热只有精品国产| 成熟少妇高潮喷水视频| 男人舔奶头视频| 美女cb高潮喷水在线观看| 成人高潮视频无遮挡免费网站| 有码 亚洲区| 一本精品99久久精品77| 黄片无遮挡物在线观看| 一本一本综合久久| 内射极品少妇av片p| 久久久久久大精品| 直男gayav资源| 哪个播放器可以免费观看大片| 午夜福利视频1000在线观看| 看黄色毛片网站| av又黄又爽大尺度在线免费看 | 亚洲婷婷狠狠爱综合网| 91狼人影院| 亚洲精品粉嫩美女一区| 亚洲国产精品久久男人天堂| 亚洲乱码一区二区免费版| 国产精品久久久久久精品电影小说 | 国产真实伦视频高清在线观看| 欧美日韩在线观看h| 国产人妻一区二区三区在| 国语自产精品视频在线第100页| 亚洲无线在线观看| 亚洲人成网站高清观看| 国产伦精品一区二区三区视频9| 麻豆av噜噜一区二区三区| 91久久精品电影网| 美女内射精品一级片tv| 亚洲性久久影院| 丰满乱子伦码专区| 久久久久久久亚洲中文字幕| 色噜噜av男人的天堂激情| а√天堂www在线а√下载| 午夜免费男女啪啪视频观看| 亚洲18禁久久av| 国产av一区在线观看免费| 3wmmmm亚洲av在线观看| 国产美女午夜福利| 日本-黄色视频高清免费观看| 国产精品久久久久久av不卡| 伊人久久精品亚洲午夜| 我要看日韩黄色一级片| 精品久久久久久久人妻蜜臀av| 男女做爰动态图高潮gif福利片| 国产精品伦人一区二区| 亚洲精品自拍成人| 人妻少妇偷人精品九色| 波野结衣二区三区在线| 欧美性感艳星| 久久久久久久久中文| 欧美性猛交黑人性爽| 中文字幕久久专区| 国产成年人精品一区二区| 免费黄网站久久成人精品| 成人三级黄色视频| 青春草国产在线视频 | 美女黄网站色视频| 直男gayav资源| 欧美bdsm另类| 特大巨黑吊av在线直播| 深夜a级毛片| 麻豆精品久久久久久蜜桃| 国产爱豆传媒在线观看| 国产淫片久久久久久久久| 日本成人三级电影网站| 国模一区二区三区四区视频| 白带黄色成豆腐渣| 亚洲av熟女| 国产毛片a区久久久久| 国产黄片视频在线免费观看| 日韩在线高清观看一区二区三区| 精品午夜福利在线看| 久久人妻av系列| 亚洲一级一片aⅴ在线观看| 天堂影院成人在线观看| 免费电影在线观看免费观看| 直男gayav资源| 国产高清激情床上av| 校园春色视频在线观看| 日韩中字成人| 校园春色视频在线观看| www日本黄色视频网| 嘟嘟电影网在线观看| 国产午夜精品久久久久久一区二区三区| 美女 人体艺术 gogo| 悠悠久久av| 欧美色视频一区免费| 一进一出抽搐gif免费好疼| 国产片特级美女逼逼视频| 身体一侧抽搐| 毛片女人毛片| 九九在线视频观看精品| 一本久久中文字幕| 夫妻性生交免费视频一级片| 日日摸夜夜添夜夜爱| 成人高潮视频无遮挡免费网站| 欧美日韩乱码在线| 久久精品国产亚洲av涩爱 | 日韩成人伦理影院| 国产精品爽爽va在线观看网站| 国产av麻豆久久久久久久| 亚洲av成人av| 国产在线精品亚洲第一网站| 欧美极品一区二区三区四区| 国产极品天堂在线| 99热6这里只有精品| 中文字幕av成人在线电影| 午夜爱爱视频在线播放| 国产爱豆传媒在线观看| 亚洲成人久久爱视频| 午夜福利高清视频| 国产麻豆成人av免费视频| 男人舔奶头视频| 国产中年淑女户外野战色| 亚洲真实伦在线观看| 亚洲一区高清亚洲精品| 91av网一区二区| 欧美极品一区二区三区四区| 最新中文字幕久久久久| 亚洲不卡免费看| 国产精品免费一区二区三区在线| 丝袜喷水一区| 麻豆国产97在线/欧美| 99久久成人亚洲精品观看| 亚洲美女视频黄频| 亚洲久久久久久中文字幕| 91麻豆精品激情在线观看国产| 一卡2卡三卡四卡精品乱码亚洲| 男人舔女人下体高潮全视频| 内地一区二区视频在线| 国内揄拍国产精品人妻在线| 色尼玛亚洲综合影院| 男女做爰动态图高潮gif福利片| 色尼玛亚洲综合影院| www.色视频.com| 久久久国产成人精品二区| 国产一级毛片七仙女欲春2| 亚洲欧美中文字幕日韩二区| 国产精品久久久久久久电影| 97在线视频观看| 看片在线看免费视频| 欧美一区二区亚洲| 熟妇人妻久久中文字幕3abv| 校园人妻丝袜中文字幕| 看十八女毛片水多多多| 一本久久精品| 久久热精品热| 欧美3d第一页| eeuss影院久久| 日本在线视频免费播放| 成人国产麻豆网| 中文字幕人妻熟人妻熟丝袜美| 日日撸夜夜添| 欧美最黄视频在线播放免费| a级毛片a级免费在线| 亚洲欧美成人精品一区二区| 超碰av人人做人人爽久久| 大香蕉久久网| 一本久久精品| 久久久久久九九精品二区国产| 午夜激情欧美在线| 18禁黄网站禁片免费观看直播| 中文字幕制服av| 国产精品一及| 中文字幕人妻熟人妻熟丝袜美| 中文精品一卡2卡3卡4更新| 亚洲av中文字字幕乱码综合| 听说在线观看完整版免费高清| 国产免费男女视频| 日日摸夜夜添夜夜爱| 欧美日韩综合久久久久久| av女优亚洲男人天堂| av在线观看视频网站免费| 欧美另类亚洲清纯唯美| 在线免费观看的www视频| 国产精品野战在线观看| 我要搜黄色片| 国产老妇女一区| 亚洲国产精品成人久久小说 | 成人无遮挡网站| 波野结衣二区三区在线| 亚洲欧美日韩高清专用| av天堂在线播放| 91精品国产九色| 亚洲一级一片aⅴ在线观看| 波多野结衣巨乳人妻| 在线观看美女被高潮喷水网站| 伦理电影大哥的女人| 亚洲成人中文字幕在线播放| 国产综合懂色| 淫秽高清视频在线观看| 国产精品.久久久|