• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    針對(duì)輿情數(shù)據(jù)的去重算法①

    2017-06-07 08:24:04張慶梅
    關(guān)鍵詞:詞頻特征選擇分詞

    張慶梅

    (中國(guó)科學(xué)技術(shù)大學(xué) 軟件學(xué)院,蘇州 215123)

    針對(duì)輿情數(shù)據(jù)的去重算法①

    張慶梅

    (中國(guó)科學(xué)技術(shù)大學(xué) 軟件學(xué)院,蘇州 215123)

    針對(duì)在數(shù)據(jù)服務(wù)中輿情去重不可避免且缺乏理論指導(dǎo)的問題,通過研究SimHash、MinHash、Jaccard、Cosine Similarty經(jīng)典去重算法,以及常見的分詞和特征選擇算法,以尋求表現(xiàn)優(yōu)異的算法搭配,并對(duì)傳統(tǒng)Jaccard和SimHash進(jìn)行了改進(jìn)分別產(chǎn)生新算法:基于短文章的Jaccard和基于Cosine Distance的SimHash.針對(duì)比較對(duì)象眾多實(shí)驗(yàn)效率低下的問題,提出了先縱向比較篩選出優(yōu)勢(shì)算法,然后橫向比較獲得最佳搭配,最后綜合比較的策略,并結(jié)合3000輿情樣本實(shí)驗(yàn)證明:改進(jìn)的SimHash比傳統(tǒng)的SimHash具有更高的精度和召回率;改進(jìn)的Jaccard較傳統(tǒng)Jaccard,召回率提高了17%,效率提高了50%;MinHash+結(jié)巴全模式分詞和Jaccard+IKAnalyzer智能分詞在保持精度高于96%的條件下,都具有75%以上的高召回率,且穩(wěn)定性很好.其中MinHash去重效果略低于Jaccard,但特征比較時(shí)間較短,綜合表現(xiàn)最好.

    輿情數(shù)據(jù);去重算法;相似度計(jì)算;大數(shù)據(jù)服務(wù)

    據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計(jì),截止到2015年12月,我國(guó)社交網(wǎng)站、微博等社交應(yīng)用的網(wǎng)民使用率達(dá)77.0%[1],新媒體逐漸成為網(wǎng)民表達(dá)意見和看法、行使公民權(quán)利的重要渠道和方式[2],是用戶獲取和分享“新聞熱點(diǎn)”、“興趣內(nèi)容”、“專業(yè)知識(shí)”、“輿論導(dǎo)向”的重要平臺(tái)[3].從社會(huì)學(xué)角度來看,這些輿情信息反映了民眾的社會(huì)政治態(tài)度,有著強(qiáng)大的監(jiān)督力度[4].而輿情信息的價(jià)值遠(yuǎn)遠(yuǎn)不止其傳播性所帶來的社會(huì)監(jiān)督力度,在金融領(lǐng)域也廣泛被使用.由于輿情信息可以準(zhǔn)確反映個(gè)人和企業(yè)的信用狀況,目前已有大數(shù)據(jù)服務(wù)公司采集輿情數(shù)據(jù),然后加工分析為金融機(jī)構(gòu)在信用評(píng)定、風(fēng)險(xiǎn)評(píng)估方面提高參考.然而隨著大數(shù)據(jù)時(shí)代的到來,抓取的輿情數(shù)據(jù)重復(fù)性冗余急劇增大[5],這些重復(fù)的數(shù)據(jù)嚴(yán)重影響后期的加工處理和客戶體驗(yàn).據(jù)調(diào)研,目前的去重技術(shù)大多針對(duì)網(wǎng)頁(yè),專門針對(duì)輿情數(shù)據(jù)的卻很少.因此對(duì)于輿情數(shù)據(jù)服務(wù),迫切需要針對(duì)輿情開展去重研究來解決數(shù)據(jù)重復(fù)帶來的一系列問題.本文通過對(duì)幾種經(jīng)典去重算法在輿情數(shù)據(jù)方面的表現(xiàn)進(jìn)行研究,并分析不同實(shí)現(xiàn)方式的去重算法之間的精度、召回率和效率的差異,尋求在輿情去重上表現(xiàn)優(yōu)異的算法,為輿情數(shù)據(jù)服務(wù)在機(jī)器去重方面提供參考.

    1 相關(guān)技術(shù)和實(shí)現(xiàn)方法

    本文將整個(gè)去重分為三個(gè)步驟:首先是分詞,將一篇文章轉(zhuǎn)化為詞語列表;然后是對(duì)文章進(jìn)行特征選擇,實(shí)現(xiàn)文章特征屬性的提取;最后是基于相似度計(jì)算的去重算法進(jìn)行去重.因此關(guān)鍵技術(shù)包括分詞、特征選擇、相似度計(jì)算.每種技術(shù)中本文都有多種候選算法,相關(guān)技術(shù)的研究對(duì)象如表1所示.

    表1 相關(guān)技術(shù)的研究對(duì)象

    1.1 分詞

    本文的分詞具體指中文分詞,目的是將漢字序列切分成由詞語組成的序列[6].分詞算法的不同將直接影響去重效果.本文嘗試通過比較不同分詞算法對(duì)輿情去重效果的影響,來獲得最適合輿情去重的分詞方法.本文選用中文分詞中比較常用的3種分詞方法:結(jié)巴分詞、IKAnalyzer分詞和HanLP分詞,其中結(jié)巴分詞包含3種模式:精確模式、全模式和搜索引擎模式.IKAnalyzer包含2種分詞模式:細(xì)粒度模式和智能模式.HanLP包含8個(gè)分詞器:標(biāo)準(zhǔn)分詞、NLP分詞、索引分詞、N最短路徑分詞、最短路徑分詞、CRF分詞、極速詞典分詞和繁體分詞.由于本文的輿情樣本全部是簡(jiǎn)體中文,因此本文只將前7種分詞納入此后的研究中去.

    1.2 特征選擇

    選用較小維度的特征代表整個(gè)文本正文的過程就是特征選擇.在本文中將幾種常見的特征選擇納入研究范圍,分別是:詞頻、TF-IDF和TextRank.這三種特征選擇都是權(quán)重特征,適合與Cosine Similarity和SimHash算法結(jié)合使用.

    1.2.1 詞頻

    詞頻是指詞語出現(xiàn)的次數(shù),詞頻統(tǒng)計(jì)通常不單獨(dú)被使用,一般是結(jié)合其他算法一起使用,應(yīng)用范圍涉及中文分詞、研究熱點(diǎn)分析、文本分析等諸多方面[7-9].常用詞頻的計(jì)算方式是獲取某個(gè)詞在文章中出現(xiàn)的次數(shù),但這種計(jì)算方式忽略了文章有長(zhǎng)短之分.當(dāng)文章篇幅差距很大,將不能準(zhǔn)確體現(xiàn)文章內(nèi)容之間的差異性.因此在本文采用的是相對(duì)詞頻,它對(duì)的計(jì)算公式如式(1)所示.

    1.2.2 TF-IDF

    TF-IDF和詞頻同樣都是常用的加權(quán)技術(shù),但相比于詞頻,TF-IDF能夠反映整個(gè)詞在一個(gè)文本集合或者語料庫(kù)中的“重要程度”,詞頻僅僅在一定程度上反映一個(gè)詞在一篇文章的重要程度,沒有將整個(gè)文本庫(kù)的大小考慮進(jìn)去.TF-IDF廣泛應(yīng)用于自動(dòng)關(guān)鍵詞提取、文本摘要提取等[10,11].TF-IDF的主要思想是詞語的重要性隨著這個(gè)詞在文本出現(xiàn)的次數(shù)成正比,同時(shí)隨著它在整個(gè)文本集合中出現(xiàn)的頻率成反比,某個(gè)詞在文章中的重要程度越大,TF-IDF的值就越大.了解TF-IDF首先了解逆文檔頻率,詞頻和逆文檔頻率的乘積就是TF-IDF,逆文檔頻率(IDF)的計(jì)算公式如式(2)所示.

    1.2.3 TextRank

    TextRank是受啟發(fā)于PageRank,PageRank最開始是用于網(wǎng)頁(yè)相關(guān)性和重要性的評(píng)估,獲取網(wǎng)頁(yè)排序,提高用戶對(duì)搜索引擎檢索結(jié)果的滿意度,此算法由Google的創(chuàng)始人謝爾蓋?布林和拉里?佩奇在1998年提出[12].PageRank的計(jì)算公式如式(3)所示.

    S(Vi)表示網(wǎng)頁(yè)i的重要性,d是阻尼系數(shù),通常設(shè)為0.85.In(Vi)是指向網(wǎng)頁(yè)i的鏈接集合,Out(Vi)表示網(wǎng)頁(yè)i指向的網(wǎng)頁(yè)集合,|Out(Vi)|表示網(wǎng)頁(yè)i指向的網(wǎng)頁(yè)集合的元素個(gè)數(shù).整個(gè)計(jì)算需要經(jīng)過多次迭代,初始設(shè)置網(wǎng)頁(yè)重要性為1.

    TextRank計(jì)算對(duì)象從網(wǎng)頁(yè)轉(zhuǎn)化為文本中的詞語或者句子,每個(gè)詞語或句子根據(jù)此算法會(huì)得到相應(yīng)的權(quán)重.具體計(jì)算公式如式(4)所示.

    本文利用此特征選擇主要是獲取不同詞語的權(quán)重值,即把每個(gè)詞語看成一個(gè)節(jié)點(diǎn)(Vi).當(dāng)計(jì)算對(duì)象是詞語時(shí),因?yàn)?wjk取值都為 1,TextRank就蛻變成PageRank.不過式4中的變量含義有所變化,S(Vi)表示文本中詞語i的重要性,In(Vi)是文章中指向詞語i的詞語集合,|Out(Vi)|表示文章中詞語i指向的詞語集合的元素個(gè)數(shù).詞語之間的相鄰關(guān)系,依賴于窗口大小的設(shè)置,一個(gè)窗口中的任意兩個(gè)詞語之間都是相鄰的,并且邊都是無向無權(quán)的.由于TextRank需要經(jīng)過多次迭代,因此特征獲取的時(shí)間復(fù)雜度很高.

    1.3 相似度計(jì)算

    相似度計(jì)算是指是在特征選擇的基礎(chǔ)上通過去重算法來求取文章之間相似度的過程,是自然語言處理和數(shù)據(jù)挖掘中常用的操作.本文參考網(wǎng)頁(yè)去重的經(jīng)典算法,將 Jaccard、Cosine Similarity、SimHash和MinHash納入研究范圍,對(duì)于傳統(tǒng)實(shí)現(xiàn)方式, MinHash有兩種:基于單Hash函數(shù)的MinHash算法和基于多Hash函數(shù)的MinHash算法,其余的各有一種.本文除了實(shí)現(xiàn)傳統(tǒng)的算法之外,還對(duì)傳統(tǒng)Jaccard和SimHash進(jìn)行改進(jìn)分別產(chǎn)生新的算法:基于短文章的Jaccard和基于Cosine Distance的SimHash.

    2 基于相似度計(jì)算的去重算法

    對(duì)于不同的應(yīng)用場(chǎng)景,考慮到數(shù)據(jù)規(guī)模、時(shí)間開銷,去重算法的選擇會(huì)有所不同.本文在此分析不同算法的去重原理以及時(shí)間開銷,從理論上分析不同算法的優(yōu)缺點(diǎn),并給出具體的實(shí)現(xiàn)步驟.為不同需求的應(yīng)用場(chǎng)景在去重算法的選擇上提供參考.

    2.1 Jaccard算法

    Jaccard系數(shù),又稱Jaccard相似度系數(shù),用來評(píng)估兩個(gè)集合之間的相似度和分散度[13],Jaccard系數(shù)越大表明兩篇文章的相似度越大.利用Jaccard去重,首先將文章通過分詞轉(zhuǎn)化為由詞語構(gòu)成的特征集合,通過檢查兩個(gè)集合的Jaccard系數(shù)是否超過指定的閾值來判斷文章是否重復(fù).

    1)傳統(tǒng)的Jaccard

    傳統(tǒng)的Jaccard,基于Merge算法,通過求取兩個(gè)文章的特征集合交集和并集的長(zhǎng)度比例來衡量文章之間的距離.計(jì)算公式如式(5)所示.

    從實(shí)現(xiàn)的原理上看,傳統(tǒng)的Jaccard算法,并沒有將兩篇文章的長(zhǎng)度差異考慮進(jìn)去,假設(shè)兩篇文章重復(fù)的文章長(zhǎng)度差異很大,例如一個(gè)包含1500個(gè)單詞,一個(gè)包含500個(gè)單詞,兩篇文章的單詞交集長(zhǎng)度是500,利用傳統(tǒng)的Jaccard計(jì)算兩篇文章距離,結(jié)果是:0.25,傳統(tǒng) Jaccard的閾值一般在0.5以上,在這種情況下,就很容易漏判長(zhǎng)度差異大的重復(fù)文章.此外Merge算法的時(shí)間復(fù)雜度是O(m+n)(m和n是兩個(gè)集合的長(zhǎng)度),不是很高,但當(dāng)文章篇幅很長(zhǎng),數(shù)據(jù)規(guī)模很大時(shí),這個(gè)時(shí)間開銷將會(huì)非常龐大.因此Jaccard算法不適應(yīng)文章篇幅普遍較長(zhǎng)、數(shù)據(jù)規(guī)模較大的業(yè)務(wù)場(chǎng)景.

    2)基于短文章的Jaccard

    針對(duì)傳統(tǒng)Jaccard對(duì)屬于包含關(guān)系重復(fù)的文章識(shí)別能力低的問題,本文提出一種基于短文章的Jaccard,通過求取兩個(gè)特征集合交集占短文章集合長(zhǎng)度的比例來衡量?jī)晌恼碌木嚯x.以下簡(jiǎn)稱改進(jìn)的Jaccard,計(jì)算公式如式(6)所示.

    在這種改進(jìn)下,屬于包含關(guān)系的重復(fù)文章,即使文章長(zhǎng)度差異很大,求取的文章Jaccard系數(shù)也會(huì)隨文章相似程度的增大而增大.對(duì)于傳統(tǒng)Jaccard中的例子,使用改進(jìn)的Jaccard計(jì)算,兩篇文章的距離就是1,即完全重復(fù),符合實(shí)際情況.改進(jìn)的Jaccard的時(shí)間復(fù)雜度和傳統(tǒng)Jaccard相同,但是相比傳統(tǒng)的Jaccard少了求并集的過程,因此時(shí)間消耗要少.

    2.2 Cosine Similarity算法

    Cosine Similarity又稱Cosine Distance,與幾何中的向量余弦夾角很相似.當(dāng)把一篇文章的特征抽象成一個(gè)向量時(shí),可以使用這種方式計(jì)算文章之間的相似度,計(jì)算公式如式(7)所示.

    具體實(shí)現(xiàn)步驟如下:

    對(duì)于Step 3向量坐標(biāo)的轉(zhuǎn)化,需要遍歷集合unionS中的元素,并依次判斷每個(gè)元素在待轉(zhuǎn)化向量中的存在情況,因此整個(gè)相似度計(jì)算的時(shí)間復(fù)雜度平均為O(n*m)(n為并集的長(zhǎng)度,m為待轉(zhuǎn)化向量的長(zhǎng)度),相比于Jaccard,時(shí)間開銷更大.

    2.3 SimHash算法

    SimHash是由Charikar在2002年提出的去重算法,主要用于海量文本的去重工作[14].SimHash對(duì)文章進(jìn)行相似度計(jì)算,需要兩步,首先特征提取形成指紋,然后根據(jù)指紋進(jìn)行特征比較,計(jì)算相似度.

    1)傳統(tǒng)的SimHash

    傳統(tǒng)的SimHash首先將一篇文章轉(zhuǎn)化為由k位0/1構(gòu)成的指紋(k通常取32或64),然后利用Hamming Distance(海明距離)來對(duì)兩篇文章的指紋進(jìn)行相似計(jì)算.海明距離是指兩串二進(jìn)制編碼對(duì)應(yīng)比特位取值不同的比特?cái)?shù)目,海明距離越大則相似度越小.由于SimHash能將一篇文章轉(zhuǎn)化為k位的字符,相比于Jaccard和Cosine Similarity,能大大降低特征比較的維度.雖然多了特征提取的步驟,但對(duì)于大數(shù)據(jù)服務(wù),一篇文章只需在入庫(kù)時(shí)進(jìn)行一次特征提取,然后將形成的指紋保存下來,而特征比較會(huì)在每次去重時(shí)都要基于指紋進(jìn)行多次.因此對(duì)于大規(guī)模的數(shù)據(jù)去重, SimHash具有絕對(duì)優(yōu)勢(shì)的去重效率.傳統(tǒng)的SimHash的具體實(shí)現(xiàn)步驟如下:

    (2)基于Cosine Distance的SimHash

    在對(duì)Cosine Distance和傳統(tǒng)SimHash研究的基礎(chǔ)上,本文提出基于Cosine Distance的SimHash,以下簡(jiǎn)稱SimHashCosine.該SimHash特征提取只保留傳統(tǒng)SimHash實(shí)現(xiàn)步驟的Step1.1-1.4,然后利用Cosine Distance來計(jì)算指紋之間的相似度,最后通過判斷是否超過給定的閾值來判定是否重復(fù).兩種SimHash的時(shí)間開銷差異主要體現(xiàn)在是特征比較上,若n為指紋碼的長(zhǎng)度,m為閾值(n>m),傳統(tǒng)的SimHash相似度計(jì)算利用Hamming Distance,時(shí)間復(fù)雜度最壞情況是O(n),最小只有O(m),而SimHashCosine,相似度計(jì)算利用Cosine Distance,時(shí)間復(fù)雜度至少O(n),且時(shí)間頻度至少是傳統(tǒng)SimHash的3倍,因此在特征比較效率上傳統(tǒng)的SimHash更高一點(diǎn).

    2.4 MinHash算法

    MinHash和SimHash一樣,能對(duì)文章進(jìn)行很好的降維,適用于大規(guī)模的網(wǎng)頁(yè)去重工作[15].MinHash經(jīng)過特征提取,將一篇文章最終轉(zhuǎn)化為n個(gè)最小Hash函數(shù)值構(gòu)成的特征集合,然后基于Hash函數(shù)值集合獲取Jaccard距離來衡量相似度.

    1)基于單Hash函數(shù)的MinHash

    基于單 Hash函數(shù)的 MinHash,以下簡(jiǎn)稱MinOneHash,在進(jìn)行特征提取僅使用了一個(gè)Hash函數(shù),然后使用傳統(tǒng)的基于Merge算法的Jaccard計(jì)算相似度,具體的實(shí)現(xiàn)步驟如下:

    2)基于多Hash函數(shù)的MinHash

    基于多 Hash函數(shù)的 MinHash,以下簡(jiǎn)稱MinMutilHash,使用n個(gè)Hash函數(shù)進(jìn)行特征提取(n>1),特征提取的步驟:對(duì)于事先確定的n個(gè)Hash函數(shù),對(duì)于每個(gè)Hash函數(shù),按照約定的順序都對(duì)文章的詞語集合s中的所有詞語進(jìn)行Hash操作,形成各自的Hash函數(shù)值集合,然后各自從各自的Hash函數(shù)值集合中篩選出最小Hash值,n個(gè)Hash函數(shù)最終獲得n個(gè)最小值.由于特征提取計(jì)算維度的擴(kuò)大,相對(duì)于MinOneHash,時(shí)間復(fù)雜度較高.但MinMutilHash相似度計(jì)算法是根據(jù)Broder提出的最小獨(dú)立置換概念,通過求得兩個(gè)Hash函數(shù)值集合中對(duì)應(yīng)位置Hash值相同的元素?cái)?shù)目來評(píng)估相似度,特征比較的時(shí)間復(fù)雜度是 O(n),相比于MinMutilHash的O(m+n),特征比較效率要高.

    3 實(shí)驗(yàn)測(cè)試及分析

    3.1 測(cè)試方案設(shè)計(jì)

    由于涉及算法眾多,以排列組合的形式進(jìn)行組合測(cè)試需要耗費(fèi)大量時(shí)間.因此本文針對(duì)表1所列算法,先縱向比較剔除明顯劣勢(shì)的算法,然后橫向比較獲得各個(gè)去重算法最適宜的分詞算法和特征選擇,最后對(duì)去重表現(xiàn)良好的候選算法,進(jìn)行進(jìn)一步優(yōu)化后再綜合測(cè)試比較的策略.

    本文以精度、召回率、計(jì)算時(shí)間來衡量算法的去重效果.精度是衡量算法準(zhǔn)確性的指標(biāo),公式如式(8)所示.召回率是衡量算法查全程度的指標(biāo).公式如式(9)所示

    考慮到大數(shù)據(jù)服務(wù)對(duì)數(shù)據(jù)準(zhǔn)確性的要求,去重效果的衡量標(biāo)準(zhǔn)以精度優(yōu)先,精度越高表示去重效果越好;其次是召回率,召回率越高去重效果越好;在精度相差不大時(shí),優(yōu)先選擇召回率高的算法,相差不大的標(biāo)準(zhǔn)是正負(fù)差值不超過1%;計(jì)算時(shí)間最后考慮.計(jì)算時(shí)間中包括兩部分:特征提取時(shí)間,特征比較時(shí)間.在大數(shù)據(jù)服務(wù)的輿情去重中,對(duì)一篇文章特征提取只需要進(jìn)行一次,特征比較則會(huì)進(jìn)行很多次,因此對(duì)于不同的去重算法,算法特征比較時(shí)間要優(yōu)于特征提取時(shí)間考慮.測(cè)試樣本統(tǒng)一使用包含3000真實(shí)輿情文章的數(shù)據(jù)集.

    3.2 縱向比較

    3.2.1 分詞算法的比較

    為了保證實(shí)驗(yàn)結(jié)果不受特征選擇的影響,在本實(shí)驗(yàn)中對(duì)詞語都不進(jìn)行特征選擇,為了保證實(shí)驗(yàn)結(jié)果不受去重算法的影響,在本實(shí)驗(yàn)中去重算法統(tǒng)一使用傳統(tǒng)的SimHash.測(cè)試結(jié)果如表2所示.

    表2 基于結(jié)巴分詞不同模式的去重測(cè)試結(jié)果

    由表2可得,精度:IKAnalyzer智能>HanLP CRF>結(jié)巴全模式分詞>90.5%,召回率:IKAnalyzer智能>HanLP CRF>結(jié)巴全模式分詞>55.5%,因此保留IKAnalyzer智能、HanLP CRF和結(jié)巴全模式.

    3.2.2 特征選擇算法的比較

    本文繼續(xù)使用SimHash算法,分詞算法選用IKAnalyzer智能分詞,以無加權(quán)為參照,觀察不同特征選擇下去重效果的差.實(shí)驗(yàn)結(jié)果如表3所示.

    表3 基于不同特征選擇的去重測(cè)試結(jié)果

    由表3可得,無加權(quán)和TextRank去重表現(xiàn)最好,但是根據(jù)實(shí)驗(yàn)發(fā)現(xiàn)TextRank特征提取時(shí)間很長(zhǎng)導(dǎo)致總計(jì)算時(shí)間太長(zhǎng),且更換其他分詞算法時(shí),結(jié)合TextRank的去重效果都有所降低,因此輿情去重在此只保留無加權(quán).

    3.2.3 去重算法比較

    去重算法的比較研究部分主要任務(wù)是從Jaccard、SimHash、MinHash中各篩選出一種,然后和Cosine Similarity進(jìn)行比較.測(cè)試結(jié)果如表4所示.

    表4 不同去重算法的測(cè)試結(jié)果

    由表4可知:

    ① 在精度和召回率上,SimHashCosine同時(shí)高于SimHashHamming,保留SimHashCosine.

    ②MinMultiHash精度略低于MinOneHash,但兩者相差不大,且在召回率和特征比較時(shí)間上, MinMultiHash相比于MinOneHash具有絕對(duì)優(yōu)勢(shì),因此保留MinMultiHash.

    ③Cosine Similarity時(shí)間花費(fèi)太大,確定舍去.

    ④ 傳統(tǒng)的Jaccard精度明顯高于改進(jìn)的Jaccard,但改進(jìn)的Jaccard召回率和特征效率明顯高于傳統(tǒng)的Jaccard,各具明顯優(yōu)勢(shì),實(shí)際使用時(shí)可以根據(jù)場(chǎng)景需求進(jìn)行選擇,在面向金融行業(yè)的大數(shù)據(jù)服務(wù)中,以精度優(yōu)先保留傳統(tǒng)的Jaccard.

    3.3 橫向比較

    在算法橫向比較部分,分詞算法保留IKAnalyzer智能、HanLP CRF和結(jié)巴全模式,排除使用特征選擇,因此在橫向比較部分主要研究保留的分詞算法對(duì)去重算法的影響.便于表示在此將IKAnalyzer智能、HanLP CRF、結(jié)巴全模式分詞分別簡(jiǎn)稱為智能、CRF、全模式.橫向比較結(jié)果如表5所示.

    表5 橫向比較結(jié)果

    由表5可知:

    ① 精度優(yōu)先原則,SimHashCosine與IKAnalyzer智能結(jié)合效果最高.

    ②MinMultiHash與三種分詞方法結(jié)合時(shí),全模式和CRF精度最高且相差很小,考慮全模式的召回率明顯高于CRF,確定MinMultiHash和全模式結(jié)合.

    ③Jaccard與三種分詞方法結(jié)合時(shí),召回率和精度都相差不大,但特征比較時(shí)間,全模式:1018.42s,智能:638.54s,CRF:861.57s,其中IKAnalyzer智能模式最短,因此選擇智能模式和Jaccard結(jié)合.

    3.3 綜合比較

    算法橫向比較后篩選出這3種算法: MinMultiHash+結(jié)巴全模式、Jaccard+IKAnalyzer智能、SimHashCosine+IKAnalyzer智能.閾值的不同,會(huì)導(dǎo)致去重結(jié)果有很大差異,此處研究這3種算法去重效果隨著閾值的變化情況.此外本文認(rèn)為一個(gè)好的去重算法,應(yīng)當(dāng)在保持較高精度時(shí)召回率也很高,算法的特征比較時(shí)間短,算法的穩(wěn)定性較好.這個(gè)穩(wěn)定性主要體現(xiàn)在在整個(gè)閾值取值范圍內(nèi),精度和召回率隨閾值的整體變化是否比較平穩(wěn).本文以折線圖的形式展示每種算法隨著閾值的改變,精度和召回率的變化趨勢(shì).精度隨閾值的變化折線圖如圖1所示,召回率隨閾值變化折線圖如圖2所示.如果一個(gè)算法的某個(gè)閾值精度少于80%或召回率低于40%,相應(yīng)閾值下的精度和召回率都不再被顯示.

    圖1 精度隨閾值的變化折線圖

    圖2 召回率隨閾值的變化折線圖

    由圖1和2很明顯可以看出:

    ①Jaccard和MinMultiHash在很大的閾值變化范圍內(nèi),都能同時(shí)保證較高的精度和較高的召回率.

    ②Jaccard始終以微弱的優(yōu)勢(shì),在精度和召回率上高于MinMultiHash.

    ③ 算法的穩(wěn)定性排序:Jaccard>MinMultiHash> SimHashCosine.

    ④ 結(jié)合表4觀察,MinMultiHash特征比較時(shí)間遠(yuǎn)小于Jaccard.

    因此在輿情去重場(chǎng)景中,對(duì)算法精度和召回率非常高,推薦Jaccard;追求較高的精度和召回率,同時(shí)對(duì)時(shí)間的要求也很高的情況,推薦MinMultiHash.

    4 結(jié)語

    輿情是大數(shù)據(jù)服務(wù)中一種重要的數(shù)據(jù)產(chǎn)品,但隨著大數(shù)據(jù)時(shí)代的來臨,輿情服務(wù)必須解決重復(fù)嚴(yán)重的問題才能提供更高質(zhì)量的數(shù)據(jù).本文通過對(duì)分詞算法、特征選擇和去重算法進(jìn)行實(shí)驗(yàn)研究,并對(duì)傳統(tǒng)的Jaccard和SimHash進(jìn)行了改進(jìn).提出了先縱向比較,后橫向比較,最后綜合比較的實(shí)驗(yàn)策略,通過此實(shí)驗(yàn)策略篩選出了輿情去重表現(xiàn)突出的算法搭配.隨著輿情研究的深入,在今后可將Hadoop算法納入研究范圍,以提高算法的去重效率.

    1中國(guó)互聯(lián)網(wǎng)信息中心.2016年第37次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r 統(tǒng) 計(jì) 報(bào) 告 .http://www.cnnic.net.cn/gywm/xwzx/rdxw/ 2016/201601/t20160122_53293.htm.[2016].

    2魏超.新媒體技術(shù)發(fā)展對(duì)網(wǎng)絡(luò)輿情信息工作的影響研究.圖書情報(bào)工作,2014,58(1):30–34.

    3胡洋,劉秀榮,魏娜,張么九,劉婉行,鈕文異.北京健康教育微博體系初建參與者網(wǎng)絡(luò)及微博使用習(xí)慣的現(xiàn)狀分析.中國(guó)健康教育,2014,30(8):706–708.

    4吳紹忠,李淑華.互聯(lián)網(wǎng)絡(luò)輿情預(yù)警機(jī)制研究.中國(guó)人民公安大學(xué)學(xué)報(bào),2008,14(3):38–42.

    5賀知義.基于關(guān)鍵詞的搜索引擎網(wǎng)頁(yè)去重算法研究[碩士學(xué)位論文].武漢:華中師范大學(xué),2015.

    6龍樹全,趙正文,唐華.中文分詞算法概述.電腦知識(shí)與技術(shù), 2009,5(10):2605–2607.

    7劉洪波.詞頻統(tǒng)計(jì)的發(fā)展.情報(bào)科學(xué),1991,12(6):69–73.

    8朱小娟,陳特放.基于SVM的詞頻統(tǒng)計(jì)中文分詞研究.微計(jì)算機(jī)信息,2007,23(30):205–207.

    9華秀麗,朱巧明,李培峰.語義分析與詞頻統(tǒng)計(jì)相結(jié)合的中文文本相似度量方法研究.計(jì)算機(jī)應(yīng)用研究,2012,29(3):833–836.

    10王景中,邱銅相.改進(jìn)的TF-IDF關(guān)鍵詞提取方法.計(jì)算機(jī)科學(xué)與應(yīng)用,2013,35(10):2901–2904.

    11 Cho J,Shivakumar N,Garcia-Molina H.Finding Replicated WebCollections.AcmSigmodRecord,2000,29(2):355–366.

    12黃德才,戚華春.PageRank算法研究.計(jì)算工程,2003,32(4): 145–146.

    13 Real R,Vargas JM.The Probabilistic Basis of Jaccard's Index of Similarity.Systematic Biology,1996,45(3):380–385.

    14 Sood S,Loguinov D.Probabilistic Near-Duplicate Detection Using SimHash.Acm Conference on Information,New York,2011:1117–1126.

    15 Rao BC,Zhu E.Searching Web Data using MinHash LSH. International Conference on Management of Data,New York,2016:2257–2258.

    Duplicate RemovalAlgorithm for Public Opinion

    ZHANG Qing-Mei

    (School of Software Engineering,University of Science and Technology of China,Suzhou 215123,China)

    In big data services,duplicate removal of public opinion information is inevitable,and it lacks theoretical guidance.There is a research on the classical duplicate removal algorithm such as SimHash,MinHash,Jaccard,Cosine Similarty,as well as common segmentation algorithm and feature selection algorithm in order to seek excellent performance of the algorithm.The Jaccard based on short article and the SimHash algorithm based on Cosine Distance are proposed to improve the traditional algorithms.Aiming at the problem of the low efficiency of experiment on many research subjects,the strategy is adopted that filters out algorithm of obvious advantages by vertical comparison firstly, and gets the most appropriate algorithm collocation by horizontal comparison secondly,at last,makes a comprehensive comparison.The experiment of 3000 public opinion samples shows that improved SimHash has better effect than traditional SimHash;improved Jaccard increases the recall rate by 17%and improves the efficiency by 50%compared with traditional Jaccard.Under the condition that the accuracy is higher than 96%,MinHash+Jieba full pattern word segmentation and Jaccard+IKAnalyzer intelligent word segmentation has more than 75%recall rate and good stability. MinHash is a bit weak than Jaccard in the aspect of removal effect,yet has the best comprehensive performance and shorter feature comparison time.

    public opinion data;duplicate removal algorithm;similarity computation;big data service

    2016-08-28;收到修改稿時(shí)間:2016-09-27

    10.15888/j.cnki.csa.005745

    猜你喜歡
    詞頻特征選擇分詞
    基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    結(jié)巴分詞在詞云中的應(yīng)用
    Kmeans 應(yīng)用與特征選擇
    電子制作(2017年23期)2017-02-02 07:17:06
    值得重視的分詞的特殊用法
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    詞頻,一部隱秘的歷史
    云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
    以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
    圖書館論壇(2014年8期)2014-03-11 18:47:59
    基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
    基于二元搭配詞的微博情感特征選擇
    欧美精品啪啪一区二区三区| 男人的好看免费观看在线视频 | 欧美zozozo另类| 听说在线观看完整版免费高清| 久久天堂一区二区三区四区| 久久久国产欧美日韩av| 日本五十路高清| 亚洲色图av天堂| 无限看片的www在线观看| 欧美绝顶高潮抽搐喷水| 日本成人三级电影网站| 国产99白浆流出| 午夜免费成人在线视频| 日韩 欧美 亚洲 中文字幕| 久久久久久久久久黄片| 19禁男女啪啪无遮挡网站| 精品久久久久久久毛片微露脸| 国产高清有码在线观看视频 | 国内精品久久久久精免费| 99热这里只有是精品50| 亚洲第一电影网av| 久久亚洲真实| av国产免费在线观看| 精品人妻1区二区| 色在线成人网| 一级a爱片免费观看的视频| 少妇被粗大的猛进出69影院| 黄色视频不卡| 日韩欧美免费精品| 国产精品 国内视频| www.www免费av| 又大又爽又粗| 亚洲五月婷婷丁香| 一边摸一边抽搐一进一小说| 久久精品成人免费网站| 久久久久九九精品影院| 亚洲国产欧美一区二区综合| 久久久久九九精品影院| 真人一进一出gif抽搐免费| 久99久视频精品免费| 老司机午夜十八禁免费视频| 欧美一级毛片孕妇| 成年免费大片在线观看| 18禁黄网站禁片免费观看直播| 亚洲成人中文字幕在线播放| 国产精品av视频在线免费观看| 国产一区二区在线av高清观看| 一夜夜www| 高清毛片免费观看视频网站| 成年人黄色毛片网站| 一本一本综合久久| √禁漫天堂资源中文www| 欧美绝顶高潮抽搐喷水| 色哟哟哟哟哟哟| 男人舔女人下体高潮全视频| 精品国产乱码久久久久久男人| 麻豆av在线久日| 亚洲成av人片免费观看| 欧美人与性动交α欧美精品济南到| 美女扒开内裤让男人捅视频| 国产亚洲精品综合一区在线观看 | 免费看美女性在线毛片视频| 成人手机av| 久久久国产成人精品二区| 两个人看的免费小视频| 国产亚洲精品av在线| 日韩欧美 国产精品| 国产精品,欧美在线| 精品久久久久久久末码| 黄色片一级片一级黄色片| 色av中文字幕| 亚洲av片天天在线观看| 久久国产精品影院| 又粗又爽又猛毛片免费看| 男女床上黄色一级片免费看| 亚洲七黄色美女视频| 少妇被粗大的猛进出69影院| 色老头精品视频在线观看| 一级毛片女人18水好多| 亚洲国产日韩欧美精品在线观看 | 国产精品久久久人人做人人爽| 免费高清视频大片| 免费观看人在逋| 高清毛片免费观看视频网站| 在线看三级毛片| 国产精品 欧美亚洲| 看黄色毛片网站| 两性午夜刺激爽爽歪歪视频在线观看 | 一级a爱片免费观看的视频| 99精品欧美一区二区三区四区| av视频在线观看入口| 后天国语完整版免费观看| 欧美一级a爱片免费观看看 | 午夜老司机福利片| 搡老熟女国产l中国老女人| 国产在线观看jvid| 欧美成人一区二区免费高清观看 | 国产亚洲精品久久久久久毛片| 美女高潮喷水抽搐中文字幕| 1024手机看黄色片| xxx96com| 97碰自拍视频| 99久久无色码亚洲精品果冻| 久久精品国产99精品国产亚洲性色| www.熟女人妻精品国产| 精品第一国产精品| 伊人久久大香线蕉亚洲五| 中文字幕熟女人妻在线| 熟女少妇亚洲综合色aaa.| 又紧又爽又黄一区二区| 19禁男女啪啪无遮挡网站| 亚洲欧美激情综合另类| 国产精品98久久久久久宅男小说| 中文字幕人妻丝袜一区二区| 亚洲色图 男人天堂 中文字幕| 国产av一区在线观看免费| 久久久久久国产a免费观看| 国内毛片毛片毛片毛片毛片| 18禁黄网站禁片午夜丰满| 窝窝影院91人妻| 中文亚洲av片在线观看爽| 日韩精品免费视频一区二区三区| 俄罗斯特黄特色一大片| 操出白浆在线播放| 一本精品99久久精品77| 亚洲专区字幕在线| 国产野战对白在线观看| 国产黄a三级三级三级人| 欧美成狂野欧美在线观看| 欧美日韩亚洲国产一区二区在线观看| 精品久久久久久久久久免费视频| 国产精品亚洲美女久久久| 12—13女人毛片做爰片一| 午夜免费观看网址| 欧美zozozo另类| 欧美黄色淫秽网站| 欧美一级a爱片免费观看看 | 久久香蕉国产精品| 1024视频免费在线观看| 成年女人毛片免费观看观看9| 中文字幕高清在线视频| 久久精品91蜜桃| 久久精品aⅴ一区二区三区四区| 亚洲欧美一区二区三区黑人| 国产亚洲欧美98| 91九色精品人成在线观看| 此物有八面人人有两片| 亚洲精品美女久久久久99蜜臀| 亚洲人成77777在线视频| 久久精品夜夜夜夜夜久久蜜豆 | tocl精华| 国内久久婷婷六月综合欲色啪| 又黄又粗又硬又大视频| 国产av在哪里看| 天天添夜夜摸| 精品一区二区三区视频在线观看免费| 日本 av在线| 国产黄色小视频在线观看| 国产视频内射| 真人做人爱边吃奶动态| 999久久久国产精品视频| 一二三四社区在线视频社区8| 久久久久九九精品影院| 淫妇啪啪啪对白视频| 夜夜看夜夜爽夜夜摸| 亚洲av美国av| 黄片大片在线免费观看| 亚洲avbb在线观看| 两性午夜刺激爽爽歪歪视频在线观看 | 九色成人免费人妻av| 十八禁人妻一区二区| 亚洲欧美日韩高清在线视频| 国产高清视频在线播放一区| 黄色视频不卡| 久久这里只有精品19| 夜夜躁狠狠躁天天躁| 久久久久久九九精品二区国产 | 99国产精品99久久久久| 国产精品久久久久久亚洲av鲁大| av有码第一页| 99久久精品国产亚洲精品| 亚洲中文日韩欧美视频| 老熟妇仑乱视频hdxx| 久久精品影院6| 国产伦人伦偷精品视频| 久久久久国产一级毛片高清牌| 国产成+人综合+亚洲专区| 午夜福利高清视频| 日韩三级视频一区二区三区| 午夜老司机福利片| 国产1区2区3区精品| 不卡一级毛片| 国产成年人精品一区二区| tocl精华| 看免费av毛片| 又粗又爽又猛毛片免费看| 国产亚洲欧美在线一区二区| av超薄肉色丝袜交足视频| 国产私拍福利视频在线观看| 国产av在哪里看| 18禁国产床啪视频网站| 久久国产精品影院| 悠悠久久av| 男女床上黄色一级片免费看| 国产黄色小视频在线观看| 国产熟女午夜一区二区三区| xxx96com| 亚洲电影在线观看av| 老汉色∧v一级毛片| 亚洲中文字幕一区二区三区有码在线看 | 久久性视频一级片| 三级毛片av免费| 最近在线观看免费完整版| 精品久久久久久久久久久久久| 可以在线观看毛片的网站| 不卡av一区二区三区| 亚洲精品在线观看二区| 亚洲av成人av| 久久性视频一级片| 午夜福利成人在线免费观看| 级片在线观看| 精品福利观看| 最好的美女福利视频网| 美女大奶头视频| 国产精品精品国产色婷婷| 久久天躁狠狠躁夜夜2o2o| 久久草成人影院| 欧美乱色亚洲激情| 丁香欧美五月| 国产精品爽爽va在线观看网站| 亚洲aⅴ乱码一区二区在线播放 | 国产精品乱码一区二三区的特点| 大型黄色视频在线免费观看| 久久久久久大精品| 夜夜夜夜夜久久久久| netflix在线观看网站| 免费看a级黄色片| 一个人免费在线观看电影 | 日韩欧美国产在线观看| 精品国产超薄肉色丝袜足j| 长腿黑丝高跟| 女警被强在线播放| 久久久久久久久中文| 亚洲乱码一区二区免费版| а√天堂www在线а√下载| 成人亚洲精品av一区二区| 三级男女做爰猛烈吃奶摸视频| 黄片小视频在线播放| 欧美成狂野欧美在线观看| 波多野结衣巨乳人妻| 97碰自拍视频| 在线观看美女被高潮喷水网站 | 亚洲av日韩精品久久久久久密| 99热6这里只有精品| 亚洲国产欧美网| 久久久国产欧美日韩av| 国产高清有码在线观看视频 | 小说图片视频综合网站| 岛国视频午夜一区免费看| 亚洲人成电影免费在线| 日韩欧美在线乱码| 美女免费视频网站| 亚洲aⅴ乱码一区二区在线播放 | 1024香蕉在线观看| 成人av在线播放网站| 亚洲在线自拍视频| 久久这里只有精品中国| 婷婷丁香在线五月| 午夜福利高清视频| 久久久国产成人免费| 国产乱人伦免费视频| 成在线人永久免费视频| 色综合婷婷激情| 国产成年人精品一区二区| 国产精品免费一区二区三区在线| 午夜激情福利司机影院| 亚洲中文字幕日韩| 大型av网站在线播放| netflix在线观看网站| 国产高清视频在线观看网站| 国产人伦9x9x在线观看| 久久99热这里只有精品18| 99热6这里只有精品| 不卡一级毛片| 欧美乱妇无乱码| 成人国产综合亚洲| 欧美日韩乱码在线| 麻豆一二三区av精品| 99热只有精品国产| 天堂影院成人在线观看| 亚洲国产看品久久| 91麻豆av在线| 美女免费视频网站| 国产v大片淫在线免费观看| 此物有八面人人有两片| bbb黄色大片| 久久久久久免费高清国产稀缺| 两个人视频免费观看高清| 波多野结衣巨乳人妻| 中文字幕人妻丝袜一区二区| 亚洲av成人精品一区久久| 国产av一区二区精品久久| 欧美丝袜亚洲另类 | 久久久久久国产a免费观看| 久久国产精品人妻蜜桃| avwww免费| 亚洲成a人片在线一区二区| 国产精品综合久久久久久久免费| 欧美成狂野欧美在线观看| 又紧又爽又黄一区二区| 久久久久国内视频| 一二三四在线观看免费中文在| 搡老妇女老女人老熟妇| 国产精品亚洲美女久久久| 91成年电影在线观看| 国产精品电影一区二区三区| 变态另类丝袜制服| 国产精品电影一区二区三区| 床上黄色一级片| 精品久久久久久久久久免费视频| 亚洲精品色激情综合| 欧美国产日韩亚洲一区| 国产高清激情床上av| 老司机福利观看| 亚洲成人精品中文字幕电影| 久久精品国产99精品国产亚洲性色| 久久久久亚洲av毛片大全| 久99久视频精品免费| 亚洲中文字幕一区二区三区有码在线看 | 香蕉国产在线看| 亚洲欧美精品综合一区二区三区| 久久精品91无色码中文字幕| 小说图片视频综合网站| 高清毛片免费观看视频网站| 动漫黄色视频在线观看| 午夜精品在线福利| 亚洲中文字幕一区二区三区有码在线看 | 久久久国产成人免费| 在线观看www视频免费| 18美女黄网站色大片免费观看| 手机成人av网站| 黄频高清免费视频| 欧美日韩瑟瑟在线播放| 国产成人精品无人区| 熟妇人妻久久中文字幕3abv| 制服丝袜大香蕉在线| 久久久久免费精品人妻一区二区| 免费观看人在逋| 在线观看舔阴道视频| 亚洲精品国产精品久久久不卡| 亚洲人成网站高清观看| 亚洲av成人av| 日日摸夜夜添夜夜添小说| 亚洲国产欧洲综合997久久,| 高潮久久久久久久久久久不卡| 久久中文看片网| 中文在线观看免费www的网站 | 国产成人精品久久二区二区免费| 久久久久久久午夜电影| 亚洲av中文字字幕乱码综合| 舔av片在线| 精品高清国产在线一区| 一个人免费在线观看的高清视频| 搡老熟女国产l中国老女人| 国产精品自产拍在线观看55亚洲| 黑人操中国人逼视频| 90打野战视频偷拍视频| 欧美高清成人免费视频www| a级毛片a级免费在线| 黄色毛片三级朝国网站| 嫩草影院精品99| 亚洲成av人片在线播放无| 天天添夜夜摸| 老司机深夜福利视频在线观看| 国产精品精品国产色婷婷| 中文资源天堂在线| 精品国产乱码久久久久久男人| 久久精品亚洲精品国产色婷小说| av视频在线观看入口| 又黄又爽又免费观看的视频| 1024视频免费在线观看| 国产午夜福利久久久久久| 久久午夜亚洲精品久久| 老熟妇仑乱视频hdxx| 免费在线观看黄色视频的| 国产精品综合久久久久久久免费| x7x7x7水蜜桃| 午夜福利18| 国产区一区二久久| 美女午夜性视频免费| 亚洲avbb在线观看| 国产私拍福利视频在线观看| 一级毛片女人18水好多| 一个人免费在线观看的高清视频| 老司机深夜福利视频在线观看| 18禁美女被吸乳视频| 免费在线观看视频国产中文字幕亚洲| 最近最新中文字幕大全免费视频| 亚洲色图av天堂| 色精品久久人妻99蜜桃| 亚洲中文字幕一区二区三区有码在线看 | 老司机午夜十八禁免费视频| 久久人人精品亚洲av| www国产在线视频色| 巨乳人妻的诱惑在线观看| 精品久久蜜臀av无| 草草在线视频免费看| 午夜成年电影在线免费观看| 国产精品免费一区二区三区在线| 精品国内亚洲2022精品成人| 99在线人妻在线中文字幕| 人妻丰满熟妇av一区二区三区| 麻豆国产97在线/欧美 | 一二三四社区在线视频社区8| 99精品在免费线老司机午夜| a级毛片a级免费在线| 一级毛片女人18水好多| 1024香蕉在线观看| 亚洲第一欧美日韩一区二区三区| 在线观看免费视频日本深夜| 亚洲熟妇中文字幕五十中出| 久久久久精品国产欧美久久久| 亚洲成人中文字幕在线播放| 成人国语在线视频| 亚洲乱码一区二区免费版| 精品一区二区三区四区五区乱码| 999久久久精品免费观看国产| 久久中文字幕一级| 在线国产一区二区在线| 亚洲熟妇中文字幕五十中出| 91大片在线观看| 久久精品国产亚洲av香蕉五月| 亚洲欧美精品综合久久99| 国产亚洲精品第一综合不卡| 国内精品久久久久久久电影| 99久久久亚洲精品蜜臀av| 午夜免费激情av| 一区二区三区激情视频| 一边摸一边抽搐一进一小说| 亚洲va日本ⅴa欧美va伊人久久| 中文字幕熟女人妻在线| 黄色毛片三级朝国网站| 午夜福利在线在线| 91国产中文字幕| 欧美精品亚洲一区二区| 欧美黑人欧美精品刺激| 亚洲第一电影网av| 欧美在线黄色| 久久久久性生活片| 我的老师免费观看完整版| a在线观看视频网站| 亚洲欧美精品综合一区二区三区| 狠狠狠狠99中文字幕| 国产成+人综合+亚洲专区| 国产精品爽爽va在线观看网站| 啦啦啦韩国在线观看视频| 亚洲精品色激情综合| 黄色丝袜av网址大全| 婷婷六月久久综合丁香| 成人三级做爰电影| 精品人妻1区二区| 国产97色在线日韩免费| 久久99热这里只有精品18| 久久久精品大字幕| 叶爱在线成人免费视频播放| 久热爱精品视频在线9| 给我免费播放毛片高清在线观看| 老司机靠b影院| av福利片在线| 久久久国产欧美日韩av| 一本精品99久久精品77| 91成年电影在线观看| 欧美日韩瑟瑟在线播放| 午夜精品在线福利| 久久久国产欧美日韩av| 国产片内射在线| 国产欧美日韩精品亚洲av| 91九色精品人成在线观看| 夜夜爽天天搞| 麻豆久久精品国产亚洲av| 两人在一起打扑克的视频| 国产不卡一卡二| 国产精品一区二区免费欧美| 亚洲中文av在线| 亚洲专区字幕在线| 桃红色精品国产亚洲av| 女人高潮潮喷娇喘18禁视频| 久久久久精品国产欧美久久久| 女生性感内裤真人,穿戴方法视频| 亚洲自偷自拍图片 自拍| 午夜福利在线观看吧| 欧美一区二区精品小视频在线| 狂野欧美激情性xxxx| 免费电影在线观看免费观看| 亚洲av成人一区二区三| a级毛片在线看网站| 午夜视频精品福利| 成熟少妇高潮喷水视频| 国产欧美日韩精品亚洲av| 国产伦一二天堂av在线观看| 高清毛片免费观看视频网站| 日本五十路高清| 国产精品永久免费网站| АⅤ资源中文在线天堂| 又黄又粗又硬又大视频| 国产亚洲av嫩草精品影院| 国产男靠女视频免费网站| 国产av一区在线观看免费| 久久精品综合一区二区三区| 岛国在线观看网站| 久久久国产成人免费| 丁香欧美五月| 人妻丰满熟妇av一区二区三区| 日韩欧美免费精品| 日韩中文字幕欧美一区二区| 免费在线观看亚洲国产| 草草在线视频免费看| 国产精品野战在线观看| 一个人观看的视频www高清免费观看 | 亚洲中文日韩欧美视频| 中亚洲国语对白在线视频| 一级黄色大片毛片| 男插女下体视频免费在线播放| 国产精品电影一区二区三区| 老司机靠b影院| 精品熟女少妇八av免费久了| 又粗又爽又猛毛片免费看| 首页视频小说图片口味搜索| 美女午夜性视频免费| 日本在线视频免费播放| 久久久久久久久久黄片| 观看免费一级毛片| 久久久久久久久久黄片| 亚洲av成人精品一区久久| 男女床上黄色一级片免费看| 中文字幕久久专区| 亚洲精品国产精品久久久不卡| 波多野结衣巨乳人妻| 成在线人永久免费视频| 亚洲专区字幕在线| 精品免费久久久久久久清纯| 欧美不卡视频在线免费观看 | 怎么达到女性高潮| 国产精品九九99| 国产亚洲精品综合一区在线观看 | 又黄又粗又硬又大视频| 国产高清有码在线观看视频 | 国产精品一及| 日本在线视频免费播放| 99热只有精品国产| 一级毛片精品| 俄罗斯特黄特色一大片| 日韩精品中文字幕看吧| 国产精品久久久久久人妻精品电影| 亚洲av五月六月丁香网| 别揉我奶头~嗯~啊~动态视频| 在线观看一区二区三区| 中文字幕高清在线视频| 又大又爽又粗| 日韩欧美精品v在线| 人妻丰满熟妇av一区二区三区| av视频在线观看入口| 精品电影一区二区在线| 日韩欧美在线二视频| or卡值多少钱| 欧美三级亚洲精品| 亚洲欧美精品综合久久99| 麻豆国产97在线/欧美 | 亚洲欧美一区二区三区黑人| 午夜视频精品福利| 久久伊人香网站| 听说在线观看完整版免费高清| 亚洲一区二区三区不卡视频| 日日干狠狠操夜夜爽| 婷婷精品国产亚洲av| 成人手机av| 国内少妇人妻偷人精品xxx网站 | 成熟少妇高潮喷水视频| 免费av毛片视频| 91老司机精品| 亚洲国产欧美人成| 亚洲专区字幕在线| 色精品久久人妻99蜜桃| 三级国产精品欧美在线观看 | 精品久久蜜臀av无| 国产av一区二区精品久久| 国产探花在线观看一区二区| 一个人免费在线观看的高清视频| 在线十欧美十亚洲十日本专区| 久久精品成人免费网站| 欧美一区二区精品小视频在线| 国产97色在线日韩免费| 久久精品aⅴ一区二区三区四区| 精品一区二区三区av网在线观看| 国产一区二区三区在线臀色熟女| 欧美不卡视频在线免费观看 | 免费在线观看影片大全网站| 夜夜夜夜夜久久久久| 国产精品av视频在线免费观看| 国产成人av激情在线播放| 精品久久久久久久毛片微露脸| 国产精品国产高清国产av| 久久性视频一级片| 好男人电影高清在线观看| 精品久久蜜臀av无| 在线免费观看的www视频| 亚洲av片天天在线观看| 大型av网站在线播放| 日本黄大片高清| 久99久视频精品免费| 亚洲全国av大片| 欧美极品一区二区三区四区| 岛国视频午夜一区免费看| 午夜日韩欧美国产| 69av精品久久久久久|