• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    特征融合在微博數(shù)據(jù)挖掘中的應(yīng)用研究

    2015-08-17 05:30:12王和勇
    現(xiàn)代情報 2015年5期
    關(guān)鍵詞:詞頻字段分詞

    王和勇 洪 明

    (華南理工大學(xué)電子商務(wù)系 ,廣東 廣州510006)

    特征融合在微博數(shù)據(jù)挖掘中的應(yīng)用研究

    王和勇洪明

    (華南理工大學(xué)電子商務(wù)系 ,廣東 廣州510006)

    針對傳統(tǒng)的微博聚類分析中,只單獨針對微博閱讀數(shù)、評論數(shù)等數(shù)據(jù) (下稱微博結(jié)構(gòu)化數(shù)據(jù))進行分類或者單獨針對由微博內(nèi)容進行文本分詞得到的分詞數(shù)據(jù) (下稱微博分詞)進行分類的問題,本文采用了Kohonen聚類,研究結(jié)合微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞的融合數(shù)據(jù)聚類的效果是否比單獨對微博結(jié)構(gòu)化數(shù)據(jù)或?qū)ξ⒉┓衷~聚類有所提高。實證數(shù)據(jù)實驗結(jié)果顯示 ,微博結(jié)構(gòu)化數(shù)據(jù)單獨聚類會出現(xiàn)一個類的標(biāo)準(zhǔn)差特別大 (本文稱為離群類),而對融合數(shù)據(jù)聚類 ,微博結(jié)構(gòu)化數(shù)據(jù)則不會出現(xiàn)離群類;融合數(shù)據(jù)聚類結(jié)果對微博分詞的影響不顯著。

    微博 ;聚類;融合數(shù)據(jù)

    微博是當(dāng)今流行的信息發(fā)布和交流的工具,微博蘊含著大量的信息資源,成為數(shù)據(jù)分析的重要數(shù)據(jù)來源。微博數(shù)據(jù)可以分為兩類 ,一類是結(jié)構(gòu)化數(shù)據(jù),微博的用戶名、閱讀數(shù)、轉(zhuǎn)播數(shù)、發(fā)表日期等微博相關(guān)的信息 (下稱 “微博結(jié)構(gòu)化數(shù)據(jù)”);另一類是非結(jié)構(gòu)化數(shù)據(jù)即微博用戶發(fā)表微博內(nèi)容的文本數(shù)據(jù) (下稱 “微博內(nèi)容”)。

    在微博研究中,往往需要對微博數(shù)據(jù)進行分類以發(fā)現(xiàn)某些數(shù)據(jù)間有趣的規(guī)律和模式。而從微博中收集的現(xiàn)實數(shù)據(jù)往往沒有預(yù)先定義的分類 ,由于微博數(shù)據(jù)龐大 ,無法進行手工分類,必須采用一些分類方法進行處理。由于微博非結(jié)構(gòu)化數(shù)據(jù)都是經(jīng)過文本分詞轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進行有關(guān)分類研究,由微博內(nèi)容轉(zhuǎn)化成的結(jié)構(gòu)化數(shù)據(jù)下文稱為“微博分詞”。

    文獻中,馬彬、洪宇、陸劍江、姚建民和朱巧明(2012)利用線索樹雙層聚類過濾垃圾微博,進而實現(xiàn)微博話題檢測 (微博分詞聚類)[1];張國安和鐘紹輝 (2012)分析用戶數(shù)據(jù),利用K均值聚類研究微博用戶分類 (微博結(jié)構(gòu)化數(shù)據(jù)聚類)[2];路榮、項亮、劉明榮和楊青 (2012)利用兩層K均值和層次聚類的混和聚類方法對微博文本進行聚類從而檢測出新聞話題 (微博分詞聚類)[3];潘大慶(2012)利用層次聚類以敏感話題為單位對微博進行分類(微博分詞聚類)[4];熊祖濤 (2013)基于文本稀疏性問題,描述了多種微博文本聚類的方法 (微博分詞聚類)[5];英文文獻中,Yang C,Ding H,Yang J等 (2012)利用K-均值聚類算法發(fā)現(xiàn)微博中的用戶社區(qū) (微博分詞聚類)[6];Olariu A.(2013)利用層次聚類對Twitter的文本進行分類從而提高微博流匯總算法的有效性(微博分詞聚類)[7];Muhammad Atif Qureshi,Colm O'Riordan,Gabriella Pasi(2013)利用聚類分析來檢測Twitter上公司的聲望 (微博分詞聚類)[8];Huang B、Yang Y、Mahmood A等 (2013)利用單遍聚類方法來發(fā)現(xiàn)微博話題 (微博分詞聚類)[9];Elena Baralis、Tania Cerquitelli、Silvia Chiusano等 (2013)對Twitter同一話題發(fā)表內(nèi)容的用戶進行聚類以發(fā)現(xiàn)相似的群組 (微博分詞聚類)[10]。目前的文獻都只是單獨針對微博結(jié)構(gòu)化數(shù)據(jù)或者單獨針對微博分詞進行聚類分析,得到一個分類,本文將微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞結(jié)合起來形成融合數(shù)據(jù),研究對融合數(shù)據(jù)進行聚類的分類效果是否比單獨對微博結(jié)構(gòu)化數(shù)據(jù)或微博分詞聚類的分類效果有所優(yōu)化。

    通過軟件抓取騰訊微博 “房價”話題的數(shù)據(jù) ,首先提取出用戶名,閱讀數(shù)等微博結(jié)構(gòu)化數(shù)據(jù)和微博內(nèi)容的文本 ,對微博內(nèi)容的文本進行文本分詞形成微博分詞,然后將微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞結(jié)合形成包含微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞的融合數(shù)據(jù)。聚類實驗部分分別進行對微博結(jié)構(gòu)化數(shù)據(jù)、微博分詞和融合數(shù)據(jù)所有字段的Kohonen神經(jīng)網(wǎng)絡(luò)聚類分析,通過字段聚類后的標(biāo)準(zhǔn)差比較聚類結(jié)果的相對好壞,驗證融合了微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞的數(shù)據(jù)是否比單獨的微博結(jié)構(gòu)化數(shù)據(jù)和單獨的微博分詞聚類效果有所提高。

    1 數(shù)據(jù)收集與整理

    1.1數(shù)據(jù)搜集

    本文利用軟件搜集騰訊微博2011年11月8日 -2014年2月15日話題為 “房價”的數(shù)據(jù)共2 000條。搜集來的數(shù)據(jù)是HTML形式,需要進一步的處理提取出結(jié)構(gòu)化字段和微博的文本內(nèi)容,原始數(shù)據(jù)具體的情況如表1所示。

    表1 R微博原始數(shù)據(jù)

    1.2數(shù)據(jù)整理

    采集的數(shù)據(jù)是HTML的形式,為半結(jié)構(gòu)化的數(shù)據(jù),因此需要提取出結(jié)構(gòu)化的字段微博結(jié)構(gòu)化數(shù)據(jù)和微博的內(nèi)容。經(jīng)過閱讀THML代碼,代碼中可以提取的結(jié)構(gòu)化字段名稱,含義及格式如表2所示。

    表2 R微博結(jié)構(gòu)化數(shù)據(jù)

    本文使用R語言提取HTML文件中的微博結(jié)構(gòu)化數(shù)據(jù)和微博內(nèi)容。提取的過程如圖1所示。

    圖1 RR提取微博結(jié)構(gòu)化數(shù)據(jù)和微博內(nèi)容

    用R語言提取出的結(jié)構(gòu)化數(shù)據(jù)存儲在EXCEL表格中,去掉重復(fù)的數(shù)據(jù)。在過程中發(fā)現(xiàn)有些微博的時間是 “今天10∶10”這樣沒有確切時間的數(shù)據(jù),將其作為缺失處理,用NULL補全數(shù)據(jù),因為不清楚發(fā)表日期,所以發(fā)表時間意義不大,因此發(fā)表日期為 NULL的條目發(fā)表時刻也設(shè)為NULL。微博內(nèi)容的文本數(shù)據(jù)存儲在文本文件中。去掉了重復(fù)的數(shù)據(jù)后,現(xiàn)存的數(shù)據(jù)有1 672條,如果去掉發(fā)表時間和發(fā)表時刻為NULL的數(shù)據(jù),則剩余1 399條。

    微博內(nèi)容數(shù)據(jù)存放在TXT文本文件中,每一條微博為一行。

    2 非結(jié)構(gòu)化化數(shù)據(jù)處理與數(shù)據(jù)融合

    2.1文本分詞

    文本屬于非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)利用現(xiàn)有的技術(shù)無法直接處理,因此需要將文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。根據(jù)一個文本中詞語的意義將文本劃分為一個一系列的有意義的詞的向量并統(tǒng)計每個有意義詞在一個文本中出現(xiàn)的次數(shù)即詞頻,這樣就將一個文本有非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。有意義的詞是字段,詞頻是字段的值。非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化過程如圖2所示。

    圖2 RR文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)過程

    語料庫是匯總非結(jié)構(gòu)化文本 ,一個文檔就是一個獨立的文本,本文把每一條微博內(nèi)容作為一個文檔,文本庫是在語料庫的基礎(chǔ)上去掉了停用詞,數(shù)字等無用信息的非結(jié)構(gòu)化純文本,而且初始的非結(jié)構(gòu)化文本可能是HTML,XML等文件,因此由語料庫轉(zhuǎn)化為文本庫是必要的。文檔詞條矩陣是將每一個文檔分詞 ,然后統(tǒng)計每個文檔中詞條 (即前文說的有意義的詞)的詞頻,形成的一個以文檔為行,詞條為列的矩陣。文檔詞條矩陣是非結(jié)構(gòu)化文本的結(jié)構(gòu)化表現(xiàn)形式。

    本文以R語言的tm包為基礎(chǔ),構(gòu)建語料庫和文本庫以及文檔詞條矩陣,使用Rwordseg包分詞。

    2.2文本分詞實驗

    利用本文數(shù)據(jù)和R語言進行文本分詞的過程如圖3所示。

    圖3 RRR語言文本分詞過程

    在建立結(jié)構(gòu)化數(shù)據(jù)的過程中,對分詞進行了兩次篩選,第一次是篩選出分詞中的名詞,因為名詞的意義比較大 ,含義比較豐富。第二次是根據(jù)文檔詞條矩陣篩選出了詞頻大于200的詞,因為建立的矩陣稀疏,而且有些詞的詞頻很小,很難有代表性,因此人為選擇詞頻大于200的分詞。實驗過程中提取出詞頻100以上,200以上,300以上,400以上和500以上的詞。

    實驗中發(fā)現(xiàn),詞頻大于100的詞太多,會導(dǎo)致文檔詞條矩陣過于稀疏,不利于進一步實驗,詞頻大于200的詞數(shù)量比較適中,而選擇詞頻大于300的詞數(shù)量稀少,因此選擇詞頻大于200的詞。在詞頻大于200的詞中,有些詞跟房價的關(guān)聯(lián)性不大,因此進一步人為篩選,人工去掉“價”,“房價”,“錢”,“人”,“問題”,“新聞”和 “中國”去掉,這些詞語跟房價沒有太大的關(guān)聯(lián)性。因此 ,整理后的微博文本結(jié)構(gòu)化數(shù)據(jù)的字段即微博分詞如表3所示。

    2.3數(shù)據(jù)融合

    在原來的結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上 ,把微博分詞融合到微博結(jié)構(gòu)化數(shù)據(jù)當(dāng)中,形成一個新的數(shù)據(jù)表,該數(shù)據(jù)表的字段匯總?cè)绫?所示。

    表3 R微博分詞字段

    表4 R融合數(shù)據(jù)字段

    3 Kohonen神經(jīng)網(wǎng)絡(luò)聚類實驗

    3.1Kohonen神經(jīng)網(wǎng)絡(luò)聚類簡介

    Kohonen神經(jīng)網(wǎng)絡(luò)聚類的原理大致是:當(dāng)一條數(shù)據(jù)輸入到輸入層,輸入層將數(shù)據(jù)項的變量特征作為刺激信號傳遞給輸出層,輸出層中對該信號最為敏感的節(jié)點 “獲勝”,作為最能解釋該數(shù)據(jù)項的節(jié)點。對每條數(shù)據(jù)進行相同的操作,最后輸出層形成一個二維的結(jié)構(gòu),即是聚類的輸出結(jié)果。

    Kohonen神經(jīng)網(wǎng)絡(luò)聚類的過程如下:

    3.1.1確定聚類的初始中心

    設(shè)有p個輸入節(jié)點,則在時刻 t第j個輸出節(jié)點和p個輸入節(jié)點的中心Wj(t)為:

    其中,w1j(t)(i=1,2,3,…,p)是連接的權(quán)值。剛開始時權(quán)值是隨機的,因此,剛開始的聚類中心也是隨機的。

    3.1.2確定獲勝節(jié)點

    在時刻 t,一條數(shù)據(jù)X(t)到達輸入層,根據(jù)X(t)屬性計算其與類中心的歐氏距離 d(t),最后選出d(t)最小的類中心Wc(t),Wc(t)便是獲勝節(jié)點。

    3.1.3調(diào)整獲勝節(jié)點及其鄰居節(jié)點的類中心位置

    當(dāng)Wc(t)對一條數(shù)據(jù) X(t)勝出時,Wc(t)及其鄰居節(jié)點對輸入層節(jié)點的權(quán)值需要調(diào)整 ,也就調(diào)整了類中心。調(diào)整Wc(t)類中心的方法如下:

    其中,η(t)表示時刻 t的學(xué)習(xí)率。

    Wc(t)鄰居節(jié)點指的是以Wc(t)為圓心 ,指定半徑內(nèi)的節(jié)點,鄰居節(jié)點Wj(t)的調(diào)整方法如下:

    其中,hjc(t)是時刻Wj(t)和Wc(t)的距離的度量。hjc(t)的一種形式是切比雪夫距離:

    3.1.4判斷是否迭代終止

    迭代終止的條件一般是權(quán)值基本穩(wěn)定或者到達預(yù)定義的迭代次數(shù),如果滿足條件,終止,否則回到第二步。

    3.2Kohonen神經(jīng)網(wǎng)絡(luò)聚類實驗

    本文使用SPSSClementine軟件作為實驗環(huán)境,以6種比例的訓(xùn)練集來進行實驗,分別使用50% ,60% ,70% ,80% ,90%和100%的數(shù)據(jù)進行聚類實驗。利用融合數(shù)據(jù)隨機篩選出上述比例的數(shù)據(jù),實驗時分別提取出融合數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù),文本結(jié)構(gòu)化數(shù)據(jù)分別進行聚類實驗,最后再進行融合數(shù)據(jù)聚類實驗。實驗中剔除 “用戶名”、“發(fā)表日期”和 “發(fā)表時刻”以確保所有字段都是數(shù)字類型,使得微博結(jié)構(gòu)化數(shù)據(jù)的字段和文微博分詞的字段具有可比性。具體的實驗步驟如圖4所示。

    3.3實驗結(jié)果對比分析

    按照實驗步驟對各個比例的融合數(shù)據(jù)分別進行微博結(jié)構(gòu)化數(shù)據(jù)聚類,微博分詞聚類以及融合數(shù)據(jù)聚類。聚類結(jié)果顯示,在6個不同比例的訓(xùn)練集實驗數(shù)據(jù)下,微博結(jié)構(gòu)化數(shù)據(jù)聚類,微博分詞聚類,融合數(shù)據(jù)聚類都分為12類。

    評判聚類效果的方法很多,本文使用標(biāo)準(zhǔn)差來評價聚類的相對好壞,1個類中相同字段的標(biāo)準(zhǔn)差越小,說明該字段的值相差越小,也就越相似。用函數(shù) std(字段)表示在聚類結(jié)果中1個字段的12個類的標(biāo)準(zhǔn)差的匯總折線,如std(閱讀數(shù))表示一個聚類結(jié)果中閱讀數(shù)的12個類的標(biāo)準(zhǔn)差的匯總折線。比較兩組結(jié)果:微博結(jié)構(gòu)化數(shù)據(jù)聚類和融合數(shù)據(jù)聚類 ,微博分詞聚類和融合數(shù)據(jù)聚類,通過匯總折線的比較,評價聚類的效果的相對好壞,兩組比較具體的比較內(nèi)容如表所示。對于微博結(jié)構(gòu)化數(shù)據(jù)聚類,只需要把3個結(jié)構(gòu)化字段的12個類的標(biāo)準(zhǔn)差折線和融合數(shù)據(jù)聚類中對應(yīng)的字段的標(biāo)準(zhǔn)差折線分別比較,對于微博分詞數(shù)據(jù),則要比較9個字段。具體如表5所示。

    圖4 RR聚類實驗過程

    表5 R實驗結(jié)果比較方法

    3.3.1微博結(jié)構(gòu)化數(shù)據(jù)聚類和融合數(shù)據(jù)聚類比較

    將微博結(jié)構(gòu)化數(shù)據(jù)聚類結(jié)果和融合數(shù)據(jù)聚類結(jié)果中微博結(jié)構(gòu)化數(shù)據(jù)和融合數(shù)據(jù)共有的3個字段——閱讀數(shù),評論數(shù)和轉(zhuǎn)播數(shù)的12個類的標(biāo)準(zhǔn)差繪制成折線圖,選擇80%訓(xùn)練集的實驗結(jié)果展示如下 ,其他比例下的訓(xùn)練集實驗結(jié)果類似 (fusion表示融合數(shù)據(jù),structured表示微博結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù))。

    圖5 RR80%實驗數(shù)據(jù)3個字段的比較

    從圖5可以看出,微博結(jié)構(gòu)化數(shù)據(jù)聚類的結(jié)果往往出現(xiàn)一個這樣一個類,類中3個字段的標(biāo)準(zhǔn)差都很大,偏離平均水平很多,本文稱為 “離群類”。而融合數(shù)據(jù)的結(jié)果則能夠縮小離群類和其他類的差異性。微博結(jié)構(gòu)化數(shù)據(jù)的字段融入微博分詞聚類以后,能夠把 “離群類”的標(biāo)準(zhǔn)差的差異分?jǐn)偟狡渌悾瑥亩?“離群類”拉回平均水平附近 ,這樣的代價是其他類的標(biāo)準(zhǔn)差會有所增加,但是整體的聚類效果得到提升,因為聚類中 “離群類”的與其他類的差異性變小,其他類的標(biāo)準(zhǔn)差影響不大。

    3.3.2微博分詞聚類和融合數(shù)據(jù)聚類比較

    將微博分詞聚類結(jié)果和融合數(shù)據(jù)聚類結(jié)果中共有的9個字段的12個類的標(biāo)準(zhǔn)差繪制成折線圖 ,選擇80%訓(xùn)練集的實驗結(jié)果展示如下,其他比例下的訓(xùn)練集實驗結(jié)果一致(Fusion表示融合數(shù)據(jù),Non-structured表微博分詞)。

    圖6 RR80%實驗數(shù)據(jù)9個字段的比較

    從圖6可以看出,融入微博結(jié)構(gòu)化數(shù)據(jù)的字段聚類后,微博分詞字段的標(biāo)準(zhǔn)差沒有明顯下降,跟微博分詞單獨聚類沒有明顯差異,因此,融合數(shù)據(jù)對微博分詞聚類沒有明顯幫助。

    4 結(jié) 論

    傳統(tǒng)的微博聚類分析針對微博結(jié)構(gòu)化數(shù)據(jù) (結(jié)構(gòu)化字段)分類或者微博分詞 (通過某種方法轉(zhuǎn)化為結(jié)構(gòu)化字段)分類。本文采用Kohonen神經(jīng)網(wǎng)絡(luò)聚類,研究對結(jié)合了微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞 (通過某種方法轉(zhuǎn)化為結(jié)構(gòu)化字段)的融合數(shù)據(jù)聚類的效果是否比單獨對結(jié)構(gòu)化字段或文本結(jié)構(gòu)化字段聚類有所提高。從數(shù)據(jù)中提取實證數(shù)據(jù)實驗結(jié)果顯示,結(jié)構(gòu)化字段單獨聚類會出現(xiàn)一個類的標(biāo)準(zhǔn)差特別大的 “離群類”,而對融合數(shù)據(jù)聚類,結(jié)構(gòu)化字段則不會出現(xiàn) “離群類”,融合了微博分詞一起分類后,結(jié)構(gòu)化字段的 “離群類”的標(biāo)準(zhǔn)差變小,被拉近標(biāo)準(zhǔn)

    差的平均水平。另一方面,融合數(shù)據(jù)聚類對微博分詞的效果不太明顯,融合了微博結(jié)構(gòu)化數(shù)據(jù)再聚類和微博分詞單獨聚類,結(jié)果不太顯著。

    [1]馬彬 ,洪宇 ,陸劍江 ,等 .基于線索樹雙層聚類的微博話題檢測 [J].中文信息學(xué)報 ,2012,26(6):121-128.

    [2]張國安,鐘紹輝.基于K均值聚類的微博用戶分類的研究[J].電腦知識與技術(shù),2012,8(26):6273-6275.

    [3]路榮,項亮 ,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn) [J].模式識別與人工智能,2012,25 (3):382-387.

    [4]潘大慶 .基于層次聚類的微博敏感話題檢測算法研究 [J].廣西民族大學(xué)學(xué)報 ,2012,18(4):56-59.

    [5]熊祖濤.基于稀疏特征的中文微博短文本聚類方法研究 [J].軟件導(dǎo)刊,2014,13(1):133-134.

    [6]Changchun Yang,Hong Ding,Jing Yang,Hengxin Xue.Mining Microblog Community Based on Clustering Analysis[C]∥Proceedings of the International Conference on Information Engineering and Applications(IEA)2012.Springer London,2013:825-832.

    [7]Olariu A.Hierarchical clustering in improvingmicroblog stream summarization[M]∥Computational Linguistics and Intelligent Text Processing.Springer Berlin Heidelberg,2013:424-435.

    [8]Muhammad Atif Qureshi,Colm O'Riordan,Gabriella Pasi.Clustering with Error-Estimation forMonitoring Reputation of Companieson Twitter[M]∥Information Retrieval Technology Lecture Notes in Computer Science,2013:170-180.

    [9]Bo Huang,Yan Yang,Amjad Mahmood,Hongjun Wang.Microblog topic detection based on LDA model and single-pass clustering[C]∥Rough Sets and Current Trends in Computing.Springer Berlin Heidelberg,2012:166-171.

    [10]Elena Baralis,Tania Cerquitelli,Silvia Chiusano,Luigi Grimaudo,Xin Xiao.Analysis of Twitter Data Using a Multiple-level Clustering Strategy[C]∥Model and Data Engineering Lecture Notes in Computer Science,2013:13-24.

    [11]Jiawei Han,M icheline Kamber.數(shù)據(jù)挖掘概念與技術(shù) [M].北京 :機械工業(yè)出版社,2008:283-284.

    (本文責(zé)任編輯:郭沫含)

    The Study of M icroblog Data M ining Using Feature Fusion

    Wang Heyong Hong Ming
    (Departmentof E-Business,South China University of Technology,Guangzhou 510006,China)

    This paper focused the problem that traditional clustering analysis have focused on only structured data such as microblog reading numbers andmicroblog commentnumbers(microblog segmentation)oronlymicroblog text.In thispaper,microblogmetadata are combinedwithmicroblog text to form fusion data and Kohonen Network Clustering is applied to test if fusion data clustering is better thanmicroblogmetadata clustering and thanmicroblog text clustering.Experiments indicates thatmicroblog metadata clusteringmay causea classwith large standard deviation(outlier class)and on the contrary,fusion data clustering does not.Microblog text clustering performs aswell as fusion clustering.

    microblog;clustering;fusion data

    王和勇 (1973-),男,提前上崗教授,研究方向:數(shù)據(jù)挖掘、文本挖掘和大數(shù)據(jù)挖掘。

    10.3969/j.issn.1008-0821.2015.05.013

    G250.78

    A

    1008-0821(2015)05-0068-05

    2015-03-05

    猜你喜歡
    詞頻字段分詞
    圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
    基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    值得重視的分詞的特殊用法
    詞頻,一部隱秘的歷史
    云存儲中支持詞頻和用戶喜好的密文模糊檢索
    CNMARC304字段和314字段責(zé)任附注方式解析
    無正題名文獻著錄方法評述
    以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
    圖書館論壇(2014年8期)2014-03-11 18:47:59
    關(guān)于CNMARC的3--字段改革的必要性與可行性研究
    国产黄色免费在线视频| 90打野战视频偷拍视频| 高清黄色对白视频在线免费看| 在线观看免费午夜福利视频| 免费在线观看日本一区| 亚洲国产欧美日韩在线播放| 他把我摸到了高潮在线观看 | 看免费av毛片| 女同久久另类99精品国产91| 一区福利在线观看| 免费女性裸体啪啪无遮挡网站| av福利片在线| 日日夜夜操网爽| 一区二区三区激情视频| 亚洲成人国产一区在线观看| 大香蕉久久成人网| 免费av中文字幕在线| 国产精品熟女久久久久浪| 精品人妻1区二区| 国产三级黄色录像| 中文字幕人妻熟女乱码| 亚洲欧美日韩高清在线视频 | 国产欧美日韩一区二区精品| 久久青草综合色| 久久久精品区二区三区| www.999成人在线观看| a级毛片在线看网站| 精品欧美一区二区三区在线| 色老头精品视频在线观看| 亚洲国产毛片av蜜桃av| 国产精品自产拍在线观看55亚洲 | 少妇猛男粗大的猛烈进出视频| 999久久久精品免费观看国产| 久久久欧美国产精品| 69av精品久久久久久 | 国产伦理片在线播放av一区| 亚洲精华国产精华精| 午夜激情久久久久久久| 国产精品98久久久久久宅男小说| 亚洲视频免费观看视频| 男人操女人黄网站| 久久国产亚洲av麻豆专区| 亚洲国产欧美日韩在线播放| 国产亚洲欧美在线一区二区| 日本撒尿小便嘘嘘汇集6| 午夜福利视频精品| videos熟女内射| 老司机影院毛片| 三级毛片av免费| 免费一级毛片在线播放高清视频 | 日韩中文字幕视频在线看片| 国产精品一区二区精品视频观看| 亚洲精品一二三| 久久精品成人免费网站| 国产aⅴ精品一区二区三区波| 一级黄色大片毛片| 一二三四社区在线视频社区8| 两性夫妻黄色片| 国产精品一区二区免费欧美| 日韩免费av在线播放| 亚洲av美国av| 日本一区二区免费在线视频| 高潮久久久久久久久久久不卡| av天堂久久9| 午夜福利,免费看| 精品人妻在线不人妻| 国产午夜精品久久久久久| 久久久水蜜桃国产精品网| 亚洲熟妇熟女久久| 国产精品久久久人人做人人爽| 国产在线免费精品| 国产精品 国内视频| 国产极品粉嫩免费观看在线| 国产亚洲欧美精品永久| 精品国内亚洲2022精品成人 | bbb黄色大片| 黑人猛操日本美女一级片| 成人精品一区二区免费| 日本五十路高清| 黄色视频,在线免费观看| 99久久精品国产亚洲精品| 在线观看舔阴道视频| 男女午夜视频在线观看| 男女之事视频高清在线观看| 久久久精品94久久精品| 少妇粗大呻吟视频| 国产亚洲精品久久久久5区| 亚洲国产欧美在线一区| 欧美精品亚洲一区二区| 精品人妻熟女毛片av久久网站| 69精品国产乱码久久久| 天天躁日日躁夜夜躁夜夜| 精品亚洲成a人片在线观看| 欧美日韩亚洲综合一区二区三区_| 国产区一区二久久| 国产精品99久久99久久久不卡| 国产xxxxx性猛交| 天堂中文最新版在线下载| av不卡在线播放| 午夜激情av网站| 国产视频一区二区在线看| 国产亚洲一区二区精品| 成人av一区二区三区在线看| 麻豆成人av在线观看| 十八禁高潮呻吟视频| 黄片小视频在线播放| 性色av乱码一区二区三区2| 国产精品偷伦视频观看了| 亚洲成国产人片在线观看| 久久99热这里只频精品6学生| 美女国产高潮福利片在线看| 天天躁夜夜躁狠狠躁躁| 欧美变态另类bdsm刘玥| 中文字幕另类日韩欧美亚洲嫩草| 一边摸一边抽搐一进一小说 | 国精品久久久久久国模美| 可以免费在线观看a视频的电影网站| www.熟女人妻精品国产| 黑人操中国人逼视频| 天堂俺去俺来也www色官网| 久久国产精品男人的天堂亚洲| 国产亚洲欧美在线一区二区| 成人手机av| 免费av中文字幕在线| 久久精品亚洲熟妇少妇任你| 好男人电影高清在线观看| 免费在线观看完整版高清| 精品福利永久在线观看| 一区二区av电影网| 久久青草综合色| 在线观看www视频免费| 大香蕉久久网| 国产精品久久电影中文字幕 | 老汉色∧v一级毛片| 亚洲中文av在线| 日本vs欧美在线观看视频| 超碰成人久久| 久久毛片免费看一区二区三区| 亚洲色图 男人天堂 中文字幕| 大片免费播放器 马上看| 天天躁狠狠躁夜夜躁狠狠躁| 久久免费观看电影| 久久国产亚洲av麻豆专区| 天天躁狠狠躁夜夜躁狠狠躁| tocl精华| 国产老妇伦熟女老妇高清| 国产精品久久久人人做人人爽| 波多野结衣一区麻豆| 王馨瑶露胸无遮挡在线观看| 亚洲视频免费观看视频| 国产97色在线日韩免费| 一区二区三区激情视频| 男女之事视频高清在线观看| 久久99热这里只频精品6学生| 极品少妇高潮喷水抽搐| 十八禁人妻一区二区| 亚洲情色 制服丝袜| 日韩中文字幕欧美一区二区| 超碰成人久久| 国产精品电影一区二区三区 | 法律面前人人平等表现在哪些方面| 热re99久久国产66热| 飞空精品影院首页| 久久av网站| 色精品久久人妻99蜜桃| 亚洲国产欧美在线一区| 国产成+人综合+亚洲专区| 丝袜在线中文字幕| a级片在线免费高清观看视频| 交换朋友夫妻互换小说| 日韩中文字幕视频在线看片| 女人爽到高潮嗷嗷叫在线视频| 三上悠亚av全集在线观看| 亚洲男人天堂网一区| 成人黄色视频免费在线看| 99九九在线精品视频| 国产又色又爽无遮挡免费看| 午夜老司机福利片| 国产精品98久久久久久宅男小说| 精品久久久久久久毛片微露脸| 久久久国产一区二区| 黄色 视频免费看| 香蕉丝袜av| 欧美精品av麻豆av| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲五月婷婷丁香| 久久精品亚洲熟妇少妇任你| 视频区欧美日本亚洲| 老司机福利观看| 婷婷成人精品国产| 欧美精品人与动牲交sv欧美| 99久久99久久久精品蜜桃| 久热这里只有精品99| 亚洲人成电影免费在线| 麻豆成人av在线观看| 国产精品一区二区在线观看99| 亚洲avbb在线观看| 国产日韩欧美亚洲二区| 亚洲熟女精品中文字幕| 亚洲色图av天堂| 啦啦啦 在线观看视频| 欧美一级毛片孕妇| 欧美+亚洲+日韩+国产| 啪啪无遮挡十八禁网站| 9191精品国产免费久久| 精品少妇黑人巨大在线播放| 成年女人毛片免费观看观看9 | 免费看a级黄色片| 久久天躁狠狠躁夜夜2o2o| 久久国产亚洲av麻豆专区| 久久亚洲精品不卡| 十分钟在线观看高清视频www| 女同久久另类99精品国产91| 亚洲国产精品一区二区三区在线| 精品高清国产在线一区| 精品人妻熟女毛片av久久网站| 大码成人一级视频| 飞空精品影院首页| 欧美日韩成人在线一区二区| 我要看黄色一级片免费的| 黄片小视频在线播放| 亚洲精品乱久久久久久| 黑人巨大精品欧美一区二区蜜桃| 国产精品成人在线| 国产精品1区2区在线观看. | 久久精品亚洲av国产电影网| 欧美日韩中文字幕国产精品一区二区三区 | 国产日韩一区二区三区精品不卡| 免费少妇av软件| 日韩大码丰满熟妇| 9热在线视频观看99| 亚洲精品国产精品久久久不卡| 免费久久久久久久精品成人欧美视频| 午夜免费成人在线视频| 久9热在线精品视频| 曰老女人黄片| 天堂中文最新版在线下载| 丰满迷人的少妇在线观看| 女人爽到高潮嗷嗷叫在线视频| 大片电影免费在线观看免费| 亚洲欧美日韩高清在线视频 | 一区福利在线观看| 99精品欧美一区二区三区四区| 中国美女看黄片| 亚洲综合色网址| 老司机影院毛片| 亚洲天堂av无毛| 两个人看的免费小视频| 又紧又爽又黄一区二区| a级片在线免费高清观看视频| 在线观看免费日韩欧美大片| 91老司机精品| 亚洲专区中文字幕在线| videosex国产| 国产成人欧美在线观看 | 女人爽到高潮嗷嗷叫在线视频| 少妇精品久久久久久久| 交换朋友夫妻互换小说| 最新美女视频免费是黄的| 亚洲专区中文字幕在线| 免费女性裸体啪啪无遮挡网站| 免费av中文字幕在线| 妹子高潮喷水视频| 久久久久久久久久久久大奶| 757午夜福利合集在线观看| 亚洲av日韩精品久久久久久密| 久久久精品94久久精品| 一区福利在线观看| 午夜激情久久久久久久| 午夜福利视频在线观看免费| 日本wwww免费看| 亚洲精品在线美女| 免费人妻精品一区二区三区视频| 水蜜桃什么品种好| 男女免费视频国产| 国产在视频线精品| 久久国产精品大桥未久av| 我的亚洲天堂| 免费在线观看完整版高清| 2018国产大陆天天弄谢| 亚洲第一av免费看| 日韩大片免费观看网站| 男女午夜视频在线观看| 国产麻豆69| 亚洲精品中文字幕在线视频| 欧美精品一区二区免费开放| 在线观看66精品国产| 少妇裸体淫交视频免费看高清 | 亚洲人成伊人成综合网2020| 少妇粗大呻吟视频| 久久久国产成人免费| 亚洲五月色婷婷综合| 亚洲欧美一区二区三区黑人| 午夜福利影视在线免费观看| 99国产综合亚洲精品| av国产精品久久久久影院| 国产精品久久久人人做人人爽| av又黄又爽大尺度在线免费看| www.自偷自拍.com| 国产国语露脸激情在线看| 一区二区三区激情视频| a级毛片在线看网站| 在线十欧美十亚洲十日本专区| 日韩视频一区二区在线观看| 免费在线观看日本一区| 亚洲精品美女久久av网站| 久久人妻av系列| 在线观看免费视频网站a站| 女人精品久久久久毛片| 91字幕亚洲| 两性夫妻黄色片| 国产视频一区二区在线看| 精品福利永久在线观看| 欧美日韩精品网址| 中亚洲国语对白在线视频| av不卡在线播放| 精品国产一区二区三区久久久樱花| 啦啦啦中文免费视频观看日本| 一进一出好大好爽视频| 中文字幕最新亚洲高清| 欧美变态另类bdsm刘玥| 亚洲欧洲精品一区二区精品久久久| 日本欧美视频一区| 色综合欧美亚洲国产小说| 丁香六月天网| 十分钟在线观看高清视频www| 老熟女久久久| 日本wwww免费看| 三上悠亚av全集在线观看| 成人黄色视频免费在线看| 国产亚洲一区二区精品| 久久午夜亚洲精品久久| 飞空精品影院首页| 欧美日韩福利视频一区二区| 亚洲 国产 在线| 在线观看免费午夜福利视频| 欧美+亚洲+日韩+国产| 欧美日韩福利视频一区二区| 天天躁夜夜躁狠狠躁躁| 亚洲人成伊人成综合网2020| 新久久久久国产一级毛片| 黄色片一级片一级黄色片| 美女视频免费永久观看网站| 日韩有码中文字幕| 亚洲全国av大片| 69精品国产乱码久久久| 91字幕亚洲| 女警被强在线播放| 自线自在国产av| 在线观看免费午夜福利视频| 丝瓜视频免费看黄片| av福利片在线| 日韩欧美国产一区二区入口| 亚洲伊人久久精品综合| 日本五十路高清| 色婷婷av一区二区三区视频| 新久久久久国产一级毛片| 日本vs欧美在线观看视频| 午夜免费成人在线视频| 国产成人欧美在线观看 | 久久99一区二区三区| 夜夜骑夜夜射夜夜干| 黄色视频,在线免费观看| 欧美日韩国产mv在线观看视频| 视频区欧美日本亚洲| 中文字幕高清在线视频| 国产av精品麻豆| 精品卡一卡二卡四卡免费| 久久精品人人爽人人爽视色| 亚洲午夜理论影院| 黄频高清免费视频| 亚洲va日本ⅴa欧美va伊人久久| 丝袜美腿诱惑在线| 亚洲va日本ⅴa欧美va伊人久久| 亚洲av第一区精品v没综合| 免费日韩欧美在线观看| 久久久久久久久久久久大奶| 亚洲欧美激情在线| 国产熟女午夜一区二区三区| 亚洲全国av大片| 久久这里只有精品19| 十八禁高潮呻吟视频| 国产成人免费观看mmmm| 精品国产一区二区三区四区第35| 国产精品久久电影中文字幕 | 岛国毛片在线播放| 美女福利国产在线| 中文字幕另类日韩欧美亚洲嫩草| a级毛片黄视频| 国产精品 国内视频| 极品人妻少妇av视频| 国产在线一区二区三区精| 国产成人一区二区三区免费视频网站| 国产野战对白在线观看| 大码成人一级视频| 在线永久观看黄色视频| 国产精品一区二区免费欧美| 国产精品九九99| 大片免费播放器 马上看| 精品国产一区二区三区久久久樱花| 亚洲专区字幕在线| 国产精品一区二区在线观看99| 久久ye,这里只有精品| 少妇被粗大的猛进出69影院| 人妻久久中文字幕网| 国产精品香港三级国产av潘金莲| 法律面前人人平等表现在哪些方面| 国产免费av片在线观看野外av| 熟女少妇亚洲综合色aaa.| 午夜福利一区二区在线看| 中文字幕色久视频| 日韩视频在线欧美| 十分钟在线观看高清视频www| 搡老岳熟女国产| 免费久久久久久久精品成人欧美视频| 1024香蕉在线观看| 国产精品久久电影中文字幕 | 手机成人av网站| 国产91精品成人一区二区三区 | 久久久久久久国产电影| a在线观看视频网站| 激情在线观看视频在线高清 | 亚洲av欧美aⅴ国产| 亚洲av片天天在线观看| 亚洲精品美女久久久久99蜜臀| 欧美国产精品一级二级三级| 丁香六月天网| 国产精品 国内视频| 人成视频在线观看免费观看| 国精品久久久久久国模美| 久久天堂一区二区三区四区| 一本—道久久a久久精品蜜桃钙片| 色老头精品视频在线观看| 99re6热这里在线精品视频| 中文字幕色久视频| 久久久精品区二区三区| 啪啪无遮挡十八禁网站| 午夜日韩欧美国产| 国产亚洲精品久久久久5区| 亚洲国产av新网站| 亚洲欧美激情在线| 国产精品久久久久久人妻精品电影 | 美国免费a级毛片| videosex国产| 色视频在线一区二区三区| 日韩欧美一区视频在线观看| 久久久久国产一级毛片高清牌| 久久精品国产a三级三级三级| 久久性视频一级片| 一边摸一边抽搐一进一出视频| 大香蕉久久网| 色视频在线一区二区三区| 99re在线观看精品视频| 亚洲一区二区三区欧美精品| av不卡在线播放| 一个人免费在线观看的高清视频| 精品国产乱子伦一区二区三区| 国产精品久久久人人做人人爽| 色综合欧美亚洲国产小说| 国产男靠女视频免费网站| 黄色片一级片一级黄色片| 欧美 日韩 精品 国产| 1024视频免费在线观看| 欧美日韩av久久| 狠狠狠狠99中文字幕| 国产在视频线精品| 大陆偷拍与自拍| 成人精品一区二区免费| 19禁男女啪啪无遮挡网站| 亚洲情色 制服丝袜| 国产91精品成人一区二区三区 | 一区福利在线观看| 成人三级做爰电影| 欧美av亚洲av综合av国产av| 欧美国产精品一级二级三级| 亚洲精品国产精品久久久不卡| 中文字幕精品免费在线观看视频| 日韩大码丰满熟妇| av线在线观看网站| 夫妻午夜视频| 欧美激情极品国产一区二区三区| 又黄又粗又硬又大视频| 视频在线观看一区二区三区| 久久久久久久大尺度免费视频| 最新在线观看一区二区三区| 国产精品久久久人人做人人爽| 国产av国产精品国产| 国产有黄有色有爽视频| 久热爱精品视频在线9| 亚洲天堂av无毛| 一个人免费看片子| 制服人妻中文乱码| 国产一区二区三区在线臀色熟女 | 美国免费a级毛片| 久久天躁狠狠躁夜夜2o2o| 老熟妇仑乱视频hdxx| 欧美一级毛片孕妇| 91精品三级在线观看| 国产成+人综合+亚洲专区| 又大又爽又粗| 亚洲av成人不卡在线观看播放网| 亚洲精品国产一区二区精华液| 十八禁网站网址无遮挡| 欧美国产精品va在线观看不卡| 久久精品亚洲av国产电影网| 丁香六月天网| 两个人看的免费小视频| 久久中文字幕一级| 天堂俺去俺来也www色官网| 亚洲伊人久久精品综合| 欧美午夜高清在线| 日日爽夜夜爽网站| 亚洲av欧美aⅴ国产| 亚洲国产成人一精品久久久| 久久久国产一区二区| 亚洲精品美女久久av网站| 亚洲va日本ⅴa欧美va伊人久久| 青草久久国产| 欧美精品高潮呻吟av久久| 制服人妻中文乱码| 国内毛片毛片毛片毛片毛片| 建设人人有责人人尽责人人享有的| 日本vs欧美在线观看视频| 久久毛片免费看一区二区三区| 成人精品一区二区免费| 久久免费观看电影| 人人妻,人人澡人人爽秒播| 午夜成年电影在线免费观看| videosex国产| 亚洲精品一卡2卡三卡4卡5卡| 视频区图区小说| 欧美黑人精品巨大| 午夜福利视频精品| 麻豆av在线久日| 乱人伦中国视频| 一级毛片电影观看| 免费在线观看完整版高清| 亚洲精品久久午夜乱码| 一区二区日韩欧美中文字幕| 中文字幕色久视频| 少妇精品久久久久久久| 99热网站在线观看| 美女视频免费永久观看网站| 最黄视频免费看| 欧美+亚洲+日韩+国产| 成人黄色视频免费在线看| 纯流量卡能插随身wifi吗| 最黄视频免费看| 亚洲精品国产区一区二| 亚洲精华国产精华精| 精品少妇一区二区三区视频日本电影| 日韩大码丰满熟妇| 亚洲精品中文字幕在线视频| av福利片在线| 午夜免费成人在线视频| 久久久久视频综合| 午夜福利乱码中文字幕| www.熟女人妻精品国产| 欧美黑人欧美精品刺激| 亚洲精品久久午夜乱码| 90打野战视频偷拍视频| 中文字幕精品免费在线观看视频| 国产成人精品久久二区二区91| 一级a爱视频在线免费观看| 又大又爽又粗| 黄色 视频免费看| 国产一区二区在线观看av| 亚洲第一av免费看| 久久久精品区二区三区| 亚洲天堂av无毛| 亚洲伊人色综图| 大码成人一级视频| 国产精品国产av在线观看| 久久国产精品人妻蜜桃| 一二三四社区在线视频社区8| 亚洲成人手机| 日韩人妻精品一区2区三区| 日本五十路高清| 色视频在线一区二区三区| 纵有疾风起免费观看全集完整版| 18禁观看日本| 久久午夜综合久久蜜桃| 久久精品国产亚洲av高清一级| 18禁观看日本| 久久影院123| 免费女性裸体啪啪无遮挡网站| 女人被躁到高潮嗷嗷叫费观| 久久久精品94久久精品| 免费观看人在逋| 欧美 日韩 精品 国产| 色尼玛亚洲综合影院| 久久人妻福利社区极品人妻图片| 欧美日韩黄片免| 国产成人啪精品午夜网站| 日韩视频一区二区在线观看| 国产一区二区三区视频了| 午夜激情久久久久久久| 欧美日韩中文字幕国产精品一区二区三区 | 女人被躁到高潮嗷嗷叫费观| 久久精品成人免费网站| 国产欧美日韩一区二区三区在线| 菩萨蛮人人尽说江南好唐韦庄| 一个人免费看片子| av一本久久久久| 欧美激情极品国产一区二区三区| 又黄又粗又硬又大视频| 免费看十八禁软件| 成人av一区二区三区在线看| 自拍欧美九色日韩亚洲蝌蚪91| a级片在线免费高清观看视频| 午夜福利视频精品| 国产成人精品无人区| 超碰97精品在线观看| 色婷婷av一区二区三区视频| 精品视频人人做人人爽|