• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中文微博客的垃圾用戶檢測(cè)

    2014-10-15 01:52:28李赫元俞曉明程學(xué)旗
    中文信息學(xué)報(bào) 2014年3期
    關(guān)鍵詞:賬號(hào)分類器垃圾

    李赫元,俞曉明,劉 悅,程學(xué)旗,程 工

    (1.中國科學(xué)院 計(jì)算技術(shù)研究所,北京100190;2.中國科學(xué)院大學(xué),北京100190;3.國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京100029)

    1 引言

    微博客(簡稱微博)是一種基于用戶關(guān)系的信息分享、傳播與獲取平臺(tái)。近幾年,中文微博服務(wù)發(fā)展迅猛,截止2012年5月,新浪微博的注冊(cè)用戶已達(dá)3億、每日發(fā)布的消息量超過1億條[1];騰訊微博的注冊(cè)用戶數(shù)也已超過4億。微博的出現(xiàn)不僅改變了信息的傳播方式,也改善了我們的生活質(zhì)量。然而,微博上卻充斥著炒作、營銷、謠言等不良信息,困擾著微博的健康發(fā)展。如何對(duì)垃圾用戶及其發(fā)布的垃圾消息進(jìn)行識(shí)別,已經(jīng)成為了亟待解決的問題。目前,相關(guān)研究工作主要集中在Twitter等英文微博中,中文微博與英文微博之間存在著一些較為顯著的差異。

    (1)評(píng)論模式與提及

    在Twitter中,轉(zhuǎn)發(fā)只顯示原作者。Twitter中的提及是用戶之間的直接交互。針對(duì)這一點(diǎn),國外學(xué)者提出了基于提及關(guān)系的檢測(cè)方法。然而在中文微博中,轉(zhuǎn)發(fā)的同時(shí)可以提及(@)原作者,使得兩者難以區(qū)分。因此,利用提及關(guān)系的檢測(cè)方法并不適用于中文微博。

    (2)互粉行為

    中文微博引入了“加V”“人氣用戶”等概念。為了提升自己的粉絲數(shù)量,新浪等微博中出現(xiàn)了大量的“互粉行為”,即主動(dòng)關(guān)注別人并要求對(duì)方也關(guān)注自己。這一具有中文微博特色的現(xiàn)象,將影響“用戶權(quán)威度”等在Twitter中有效的垃圾用戶檢測(cè)特征。

    (3)對(duì)待垃圾用戶的態(tài)度

    Twitter中,官方開設(shè)了“spam賬號(hào)”接受舉報(bào)。舉報(bào)信息公開、透明、便于采集,許多學(xué)者都選用舉報(bào)信息作為垃圾用戶的范本。中文微博客雖然提供了舉報(bào)功能,但信息是不公開的。因此,在中文微博客中我們無法自動(dòng)取得垃圾用戶的標(biāo)注信息。

    本文以中文微博客為重點(diǎn),探索垃圾用戶檢測(cè)方法。本文的創(chuàng)新之處在于:(1)關(guān)注中文微博中的“互粉”行為,并據(jù)此提出了新的用戶圖特征;(2)研究了注冊(cè)時(shí)間與垃圾用戶行為的關(guān)系,并據(jù)此提出了近期活躍度特征;(3)討論中文微博開放平臺(tái)中的應(yīng)用,提出了應(yīng)用來源黑、白名單特征。

    本文余下的部分將如下安排:第2節(jié)討論國內(nèi)外的相關(guān)工作。第3節(jié)從用戶圖、用戶資料、微博內(nèi)容3個(gè)方面提出了7種新的檢測(cè)特征。第4節(jié)首先介紹了數(shù)據(jù)的采集、標(biāo)注,接著進(jìn)行了分類器的訓(xùn)練、實(shí)驗(yàn)。通過對(duì)實(shí)驗(yàn)結(jié)果的分析,驗(yàn)證了特征的有效性。第5節(jié)對(duì)本文工作進(jìn)行總結(jié)與展望。

    2 相關(guān)工作

    Grier[2]等研究了Twitter中包含URL的微博消息。統(tǒng)計(jì)表明,約8%的URL指向垃圾網(wǎng)頁。研究還對(duì)垃圾賬號(hào)進(jìn)行了研究。只有16%的垃圾賬號(hào)從注冊(cè)之初就在發(fā)布垃圾Tweet;余下84%的賬號(hào)均是被盜用的,其行為特征是,賬號(hào)注冊(cè)于很久之前并已經(jīng)被棄用,直到近期突然開始散布垃圾消息。

    Wang[3]等將垃圾用戶的檢測(cè)轉(zhuǎn)化為機(jī)器學(xué)習(xí)的分類問題。該研究提出了5種檢測(cè)特征,“用戶權(quán)威度”、“重復(fù)Tweet率”、“含URL的Tweet比率”、“含提及(@)的 Tweet比率”、“含話題(#)的Tweet比率”。統(tǒng)計(jì)結(jié)果表明,垃圾用戶在上述各項(xiàng)指標(biāo)中都略區(qū)別于普通用戶,但多數(shù)特征不具有魯棒性。應(yīng)用上述特征構(gòu)造的樸素貝葉斯分類器可以達(dá)到91.7%的準(zhǔn)確率。

    Song[4]等從社交關(guān)系網(wǎng)的角度研究了Twitter中的垃圾用戶。該研究提出了“用戶距離”和“用戶連通度”兩個(gè)特征:若兩個(gè)距離大于4的用戶之間相互“提及”,則可認(rèn)為是在傳播垃圾信息;在用戶距離相同的情況下,正常用戶之間的連通度要強(qiáng)于垃圾賬戶之間的連通度。利用上述兩個(gè)特征進(jìn)行檢測(cè),可以達(dá)到94.6%的準(zhǔn)確率。如第1節(jié)所述,在中文微博中,提及和評(píng)論混在了一起,因此該檢測(cè)方法難以應(yīng)用于中文微博中。

    在國內(nèi)的研究中,王宇[5]等人對(duì)新浪微博中的“僵尸粉”進(jìn)行了研究,總結(jié)出了“用戶微博數(shù)”“用戶是否包含簡介”等6種具有區(qū)分度的特征。其中“用戶昵稱可疑度”等特征需要借助人工識(shí)別。該研究同樣使用樸素貝葉斯算法訓(xùn)練分類器,準(zhǔn)確率達(dá)到了88%。

    3 垃圾用戶檢測(cè)

    3.1 檢測(cè)特征

    本節(jié)將從用戶圖、用戶資料、微博內(nèi)容三個(gè)方面,提出垃圾用戶檢測(cè)特征。在討論相關(guān)研究中提出的5種檢測(cè)特征的基礎(chǔ)上,我們新提出了“純粉絲度”“黑名單應(yīng)用”“用戶用字多樣性”等7種新的檢測(cè)特征。

    3.1.1 用戶圖特征

    微博中,用戶的關(guān)系可以用有向圖表示:出度表示“關(guān)注”,入度表示“粉絲”(被關(guān)注);若用戶彼此關(guān)注了對(duì)方,則稱為“互粉”(互為粉絲的簡稱)。以圖1為例,C關(guān)注了A,A關(guān)注了B;B和C互粉。A的粉絲是C;B的粉絲是A和C;C的粉絲是B。

    圖1 “關(guān)注”“粉絲”和“互粉”

    用戶權(quán)威度

    在Wang等人的研究中[3],定義了特征“用戶權(quán)威度”,見式(1)。Nfollow表示用戶u的粉絲數(shù),Nfriend表示該用戶的關(guān)注數(shù)。若用戶既沒有粉絲也沒有關(guān)注,規(guī)定該用戶的權(quán)威度為0。

    用戶關(guān)注度

    為了探討垃圾用戶、普通用戶在主動(dòng)關(guān)注方面有無差異,我們提出了“用戶關(guān)注度”特征,如式(2)所示。Nfollow是用戶的粉絲數(shù),Nfriend是用戶的關(guān)注數(shù)。直觀地分析:垃圾用戶會(huì)大量的關(guān)注別人,卻很少得到別人的關(guān)注,因而該特征偏高。

    純粉絲度

    在中文微博中,用戶之間的“互粉”可以提高雙方的粉絲數(shù),也會(huì)干擾“用戶權(quán)威度”特征的區(qū)分度。為了避免這種情況,我們定義了純粉絲度,見式(3)。Nfollow依然表示用戶u的粉絲數(shù);分子部分為去除了互粉用戶之后的“純粉絲數(shù)”。該特征描述了粉絲質(zhì)量。

    3.1.2 用戶資料特征

    在王宇等人的研究中[5],提出了“用戶簡介”“微博域名”特征。本節(jié)將提出“用戶頭像特征”“近期活躍度”兩個(gè)新的特征。

    用戶頭像特征

    在本研究中,我們對(duì)用戶頭像的圖片進(jìn)行了采集,并提出了“用戶頭像”特征,它識(shí)別用戶是否使用了默認(rèn)頭像。若為默認(rèn)頭像,g(u)=0;若上傳了頭像,g(u)=1。

    近期活躍度

    用新賬號(hào)發(fā)布垃圾信息很容易被識(shí)破。因此,垃圾用戶更傾向于使用注冊(cè)時(shí)間較長的“沉睡賬號(hào)”散播垃圾信息。我們定義了“近期活躍度”指標(biāo),見式(5)。NDuringDays是用戶最近100條消息跨越的天數(shù)。NCreateDays是截止采集當(dāng)天,用戶賬號(hào)已存活的天數(shù)(注冊(cè)天數(shù))。對(duì)于突然活躍的沉睡賬號(hào),上述特征值會(huì)偏高;而對(duì)于一直活躍或已經(jīng)很久不活躍的正常用戶而言,這一特征值較低。

    3.1.3 微博內(nèi)容特征

    基于內(nèi)容過濾的技術(shù)在反垃圾郵件等領(lǐng)域取得了很好的效果。然而,這類方法需要大量的訓(xùn)練數(shù)據(jù)和標(biāo)注樣本。在國外的研究中,主要從“微博中是否含URL”“微博是否大量重復(fù)”兩個(gè)方面考慮內(nèi)容特征。本節(jié)結(jié)合了中文微博客的特點(diǎn),提出了“用字多樣性”、“白名單應(yīng)用率”、“黑名單應(yīng)用率”三個(gè)新的檢測(cè)特征。

    不含URL微博比例

    由于微博消息的長度限定在140字以內(nèi),垃圾用戶通常會(huì)選用“在微博中附加鏈接”的方式推廣垃圾信息?;诖?,Benevenuto[6]等提出了“不含URL微博比”這一特征,如式(6)所示。NAll是用戶發(fā)布的微博數(shù)量,NNoURL是在所發(fā)微博中不含有URL的數(shù)量。

    應(yīng)用來源的白名單率和黑名單率

    中文微博客推出了開放平臺(tái),提供了豐富多彩的應(yīng)用,它們具有獲取微博、發(fā)送微博、關(guān)注等操作權(quán)限。通過開放應(yīng)用發(fā)布微博時(shí),應(yīng)用名稱會(huì)顯示在“消息來源”字段中。借助這一字段,我們對(duì)開放應(yīng)用進(jìn)行了研究,分為如下三類。

    (1)黑名單應(yīng)用

    為了降低維護(hù)成本、垃圾制造者會(huì)使用“皮皮時(shí)光機(jī)”等開放應(yīng)用管理微博。在采集數(shù)據(jù)中,我們選取垃圾用戶使用最多的30個(gè)應(yīng)用作為黑名單。當(dāng)然,使用黑名單發(fā)送的微博不一定都是垃圾信息,例如,很多用戶會(huì)選用“皮皮時(shí)光機(jī)”定期地轉(zhuǎn)發(fā)熱門微博。

    隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,越來越多的用戶使用手機(jī)客戶端發(fā)微博。但對(duì)垃圾用戶而言,用手機(jī)客戶端管理數(shù)百個(gè)賬號(hào)的成本過大。因此,我們將手機(jī)客戶端定義為白名單應(yīng)用。

    (3)其他應(yīng)用

    并非全部的開放應(yīng)用都符合上述兩種分類。如“微博桌面”等應(yīng)用,正常用戶使用它們來發(fā)微博,垃圾用戶通過“模擬點(diǎn)擊”的方式操控賬號(hào)。由于其不具有明顯區(qū)分度,我們?cè)谔卣餮芯恐胁皇褂眠@類應(yīng)用。

    在如上所述的分類基礎(chǔ)上,我們定義了“白名單率”“黑名單率”兩個(gè)特征:

    NAll是用戶u發(fā)布的微博總數(shù)。NWhiteList是通過白名單發(fā)送的微博總數(shù),NBlackList是通過黑名單發(fā)送的微博總數(shù)。根據(jù)預(yù)期,垃圾用戶具有較高的黑名單率和較低的白名單率。

    微博相似度

    在Wang的研究中[3],使用了編輯距離計(jì)算微博的重復(fù)度,并以此作為檢測(cè)特征。但在中文微博中,用戶很少發(fā)布重復(fù)消息。我們應(yīng)用余弦距離計(jì)算用戶微博相似度,如式(9)所示。該特征計(jì)算了用戶u所發(fā)布的n條微博之間的余弦相似度均值。

    微博用字多樣性

    老佛爺何等人物,一聽就火大了,一個(gè)江湖人物還敢如此擺架子?幸虧太監(jiān)建議,說程廷華是孝子,他母親馬上七十大壽了,不如在他母親身上做點(diǎn)文章。于是慈禧就派人做了一塊大匾,書“節(jié)孝可風(fēng)”四個(gè)字,刻太后金印,由宮里派人,宮寶田帶隊(duì),吹吹打打給程廷華的母親送了過去,聲勢(shì)把半個(gè)北京城都轟動(dòng)了。

    為了研究正常用戶與垃圾用戶在微博消息的用詞(字)上有無差異,我們定義了用字多樣性這個(gè)特征,見式(10)。由于微博消息具有長度短、用詞不規(guī)范等特點(diǎn),我們以字為最小分割單位,并在處理前刪除消息中的URL鏈接。

    假設(shè)用戶u一共發(fā)了n條微博,每條消息的長度記為leni,則全部消息的總長度為同時(shí),統(tǒng)計(jì)這些消息中非重復(fù)的單字?jǐn)?shù),記為cntd。

    分類器與檢測(cè)

    垃圾用戶的檢測(cè)問題,可以視為一個(gè)分類(Classification)問題。假設(shè)微博用戶的全集為U,類別集合C={Cspam,Cnormal},Cspam表示垃圾用戶、Cnormal表示正常用戶。垃圾用戶的檢測(cè)問題,即為求一個(gè)分類函數(shù)F,將U中的微博用戶影射到類別C上。

    上述影射函數(shù)F即代表了一個(gè)分類器,它可由機(jī)器學(xué)習(xí)算法習(xí)得。在本研究中,選用支持向量機(jī)(SVM)算法,它是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,可以解決分類、回歸等問題。對(duì)于分類問題,SVM通過預(yù)定義核函數(shù)的非線性變換,將輸入空間變換到一個(gè)高維空間,在后者中求廣義的最優(yōu)分類面[7]。常用的核函數(shù)主要有三種:多項(xiàng)式函數(shù)(Polynomial)、徑向基函數(shù)(Radial Basis Function)和Sigmoid函數(shù)。

    基于SVM分類器的垃圾用戶檢測(cè)流程如圖2所示。

    圖2 垃圾用戶檢測(cè)流程

    檢測(cè)可分為“訓(xùn)練”“分類”兩個(gè)階段。在訓(xùn)練階段,我們對(duì)采集的微博用戶數(shù)據(jù)進(jìn)行標(biāo)注,提取3.1節(jié)所述的檢測(cè)特征。接著,用SVM訓(xùn)練分類器并對(duì)其效果進(jìn)行評(píng)價(jià),如有必要,將選擇新的特征(集)并重新訓(xùn)練分類器。在檢測(cè)階段,提取待檢測(cè)用戶的特征,并使用訓(xùn)練階段得到的SVM分類器進(jìn)行分類,分類結(jié)果(Cspam或Cnormal)即為檢測(cè)結(jié)果。

    4 實(shí)驗(yàn)與分析

    4.1 數(shù)據(jù)的采集與標(biāo)注

    我們使用OAuth2和API開發(fā)了新浪微博采集器,它的首要任務(wù)是搜集一些用戶樣本。微博的API提供了“public_timeline”接口,它會(huì)隨機(jī)返回最新發(fā)言的20個(gè)用戶及其微博信息。我們使用該接口,于2011年12月20日進(jìn)行了用戶數(shù)據(jù)的采集。經(jīng)過去重處理后,共包含145 317個(gè)微博用戶、1 522 092條微博。

    上述采集只能獲取部分活躍用戶的最新微博信息,卻并不包含用戶的全部消息。此外,如3.1節(jié)所述,用戶的表現(xiàn)行為與其注冊(cè)時(shí)間有一定關(guān)聯(lián)。為此,我們?cè)?012年6月23日進(jìn)行了二次采集。本次我們使用“user_timeline”接口,它根據(jù)第一次采集的用戶ID,獲取用戶頭像等資料、粉絲數(shù)等信息,并抓取用戶最新發(fā)布的100條微博。本輪采集后,共包含125 683個(gè)有效用戶、4 657 811條微博(新浪會(huì)定期清理垃圾賬號(hào),導(dǎo)致用戶數(shù)減少)。

    為了將二次采集的數(shù)據(jù)用于分類器,隨機(jī)抽取了3 000個(gè)用戶作為實(shí)驗(yàn)的數(shù)據(jù)集。為了獲取客觀、準(zhǔn)確的標(biāo)注結(jié)果,開發(fā)了標(biāo)注平臺(tái),并邀請(qǐng)3位評(píng)價(jià)者對(duì)實(shí)驗(yàn)進(jìn)行隨機(jī)、交叉標(biāo)注。標(biāo)注遵循如下標(biāo)準(zhǔn)。

    1)垃圾用戶

    標(biāo)注值為-1,其行為特征為:轉(zhuǎn)發(fā)大量廣告、炒作消息;發(fā)布的微博具有明顯的商業(yè)意圖(如商品推介);發(fā)送或轉(zhuǎn)發(fā)大量低質(zhì)微博(如心靈雞湯)。

    2)正常用戶

    標(biāo)注值為1,其行為特征為:發(fā)布較為貼近生活的微博(如聚會(huì)、心情等);在轉(zhuǎn)發(fā)微博時(shí),包含了個(gè)人的見解、評(píng)價(jià)(轉(zhuǎn)發(fā)加評(píng)論);與他人存在較為真實(shí)的互動(dòng)(如相互@、評(píng)論)。

    3)不確定用戶

    標(biāo)注值為0,若評(píng)價(jià)者認(rèn)為賬號(hào)難以區(qū)分,可將其標(biāo)注為“不確定用戶”。該類用戶可能同時(shí)具有垃圾用戶、正常用戶的部分行為。

    在標(biāo)注者完成標(biāo)注后,我們對(duì)數(shù)據(jù)進(jìn)行了篩選與清理:首先,選擇出至少2位評(píng)價(jià)者給出一致標(biāo)注值的用戶賬號(hào);其次,去除標(biāo)注結(jié)果為“不確定”的賬號(hào)。經(jīng)過上述處理后,共剩余2 471個(gè)用戶,本研究使用它們作為訓(xùn)練、測(cè)試數(shù)據(jù)。

    4.2 實(shí)驗(yàn)結(jié)果

    本研究使用LIBSVM[8]軟件訓(xùn)練分類器。在效果的評(píng)價(jià)方面,選用準(zhǔn)確率(Accuracy)、召回率(Recall)和F值。為了說明指標(biāo)在本研究中的意義,考慮如表1所示的混淆矩陣。

    表1 混淆矩陣

    其中,準(zhǔn)確率(Accuracy)描述了分類器將垃圾用戶、正常用戶正常分類的百分比。

    召回率(Recall)表明了檢測(cè)出的垃圾用戶中,真實(shí)垃圾用戶的百分比。

    F值則綜合考慮了準(zhǔn)確率和召回率。

    在明確了指標(biāo)之后,我們從標(biāo)注數(shù)據(jù)集上提取出第3節(jié)提出的各種特征,并采用10折交叉驗(yàn)證的策略,對(duì)分類器進(jìn)行訓(xùn)練、驗(yàn)證。表2記錄了兩組實(shí)驗(yàn)結(jié)果:F_ALL和F_OPTIMAL。

    表2 分類器實(shí)驗(yàn)結(jié)果

    在第一組實(shí)驗(yàn),F(xiàn)_ALL中,我們選擇了第3節(jié)提出的全部12個(gè)特征訓(xùn)練分類器。實(shí)驗(yàn)結(jié)果如表2第1行所示:分類器的準(zhǔn)確率達(dá)到93.46%,召回率為97.64%。

    在進(jìn)行該實(shí)驗(yàn)的過程中,我們發(fā)現(xiàn)部分特征具有“負(fù)效果”,會(huì)降低分類器的準(zhǔn)確率。為了找出最優(yōu)的特征組合,我們使用Wrapper[9]策略對(duì)12種特征進(jìn)行選擇:首先,求出特征組合的冪集,它共包含212+1=8 192個(gè)特征組合;其次,使用上述每一種特征組合訓(xùn)練分類器,對(duì)用戶進(jìn)行檢測(cè),計(jì)算分類結(jié)果的F值;最后,選出F值最高的特征組合,作為最優(yōu)特征組合。最優(yōu)組合共包含7個(gè)特征,如表3第1列所示。

    為了驗(yàn)證最優(yōu)組合中不同特征的貢獻(xiàn),我們單獨(dú)使用每一特征訓(xùn)練分類器,并計(jì)算其F值,如表3第2列所示。從表中不難發(fā)現(xiàn):應(yīng)用黑名單率、純粉絲度等本文提出的特征排名較為靠前,說明其具有較好的區(qū)分度。

    在上述研究的基礎(chǔ)上,我們進(jìn)行了第二組實(shí)驗(yàn)。使用如表3所述的最優(yōu)特征組合作為特征集合,訓(xùn)練、測(cè)試分類器。實(shí)驗(yàn)結(jié)果見表2的第2行,F(xiàn)_OPTIMAL。與第一組實(shí)驗(yàn)對(duì)比,準(zhǔn)確率提升到了94.4%,召回率為97.71%。

    表3 最優(yōu)特征組合

    在3.1.2節(jié),我們提出了“用戶頭像特征”,但在最特征優(yōu)組合中卻不包含該特征。相反,前人提出的“簡介”“微博域名”等特征卻具有較好的效果。為此,我們對(duì)這三種特征進(jìn)行了統(tǒng)計(jì)研究,結(jié)果如圖3所示。在全部測(cè)試數(shù)據(jù)中,只有約3%的用戶使用了默認(rèn)頭像,特征數(shù)據(jù)的不均衡導(dǎo)致它失去了應(yīng)有的區(qū)分度。相反地,“簡介”“微博域名”等特征的分布相對(duì)均衡,具有一定的區(qū)分度。

    圖3 用戶資料特征的統(tǒng)計(jì)特征

    4.3 特征分析

    用戶圖特征

    由4.2節(jié)實(shí)驗(yàn)可知,本文提出的“純粉絲度”比前人提出的“用戶權(quán)威度”更能顯著區(qū)分垃圾用戶。在中文微博中,許多用戶選擇了“互粉”“刷粉”等不正當(dāng)手段來提高自身人氣。純粉絲度能很好地過濾掉“互粉”導(dǎo)致的“假人氣”,因而具有更好的區(qū)分度。另一方面,為了更好地偽裝自己,垃圾賬號(hào)之間往往會(huì)互粉,形成錯(cuò)綜復(fù)雜的關(guān)系網(wǎng),造成受到高度關(guān)注的假象。因此,本文提出的“用戶關(guān)注度”特征并沒有取得預(yù)期的效果。

    用戶資料特征

    本文提出的“近期活躍度”特征效果良好。垃圾用戶的確會(huì)使用早期注冊(cè)的“沉睡賬號(hào)”發(fā)布垃圾消息。而本文提出的“用戶頭像”特征效果不佳。如4.2節(jié)所述,用戶頭像的分布極不均勻,致使該特征很難表現(xiàn)出應(yīng)有的區(qū)分度。

    微博內(nèi)容特征

    本文提出的“應(yīng)用白名單率”“應(yīng)用黑名單率”均具有很好的區(qū)分度。首先,手機(jī)客戶端的應(yīng)用門檻和管理成本阻礙了垃圾用戶。其次,確實(shí)有大量的垃圾微博是通過黑名單中的應(yīng)用傳播的。此外,傳統(tǒng)的“微博相似度”效果不佳。本文提出的“微博用字多樣性”考慮了用戶的微博用詞習(xí)慣,取得了較好的效果:正常用戶的微博話題廣泛、用詞隨意,多樣性較高;垃圾用戶傳播的信息較為單一,用詞單調(diào)。

    5 總結(jié)和展望

    本文研究了中文微博客中垃圾用戶的檢測(cè)問題。研究從用戶圖、用戶資料、微博內(nèi)容三個(gè)方面提出了7種新的垃圾用戶檢測(cè)特征。利用上述特征訓(xùn)練的SVM分類器,取得了較好的準(zhǔn)確率和召回率。實(shí)驗(yàn)表明,本文提出的“純粉絲度”“用戶近期活躍度”等5個(gè)特征具有良好的區(qū)分效果。

    在實(shí)驗(yàn)與研究中,我們也遇到了一些問題:(1)對(duì)采集數(shù)據(jù)的標(biāo)注依靠人工判別,工作量巨大。有必要尋找一種更好的實(shí)驗(yàn)數(shù)據(jù)標(biāo)注方法。(2)在本文中,垃圾用戶分類器的召回率較為理想,但分類器的準(zhǔn)確率只有94%,仍有一定上升空間。我們將在未來的工作中對(duì)上述問題進(jìn)行更為深入的探索與研究。

    [1]新浪科技.新浪微博用戶數(shù)超3億 [EB/OL].2012-05-16.http://is.gd/Qfn4Z9.

    [2]Grier C,Thomas K,Paxson V,et al.@spam:The Underground on 140Characters or Less [C]//Proceedings of the 17th ACM Conference on Computer and Communications Security (CCS 2010).New York,US,2010:27-37.

    [3]Wang A.Don't follow me:Spam detection in Twitter[C]//Proceedings of the International Conference on Security and Cryptography.Athens,Greece,2011:142-151.

    [4]Song J,Lee S,Kim J.Spam Filtering in Twitter Using Sender-ReceiverRelationship [M].Berlin,German:Springer,2006:301-317.

    [5]王宇,陸余良,郭浩,等.中文微博僵尸粉檢測(cè)技術(shù)研究[C]//中國自動(dòng)化學(xué)會(huì).第三屆全國社會(huì)計(jì)算會(huì)議、平行控制會(huì)議、平行管理會(huì)議論文集.北京:中國自動(dòng)化學(xué)會(huì),2011.

    [6]Benevenuto F,Magno G,Rodrigues T,et al.Detecting Spammers on Twitter[C]//Proceedings of Seventhannual Collaboration,Electronic Messaging,Anti-Abuseand Spam Conference(CEAS 2010).Redmond,US,2010.

    [7]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量[J].自動(dòng)化學(xué)報(bào),2001,26(1):32-41.

    [8]Chang C.LIBSVM—A Library for Support Vector Machines [EB/OL].2006-2012.http://is.gd/rocwn9.

    [9]Guyon I,Gunn S,Nikravesh M.Feature extraction,foundations and applications[M].Berlin,German:Springer,2006:188-191.

    猜你喜歡
    賬號(hào)分類器垃圾
    彤彤的聊天賬號(hào)
    垃圾去哪了
    施詐計(jì)騙走游戲賬號(hào)
    派出所工作(2021年4期)2021-05-17 15:19:10
    那一雙“分揀垃圾”的手
    倒垃圾
    BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
    倒垃圾
    加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
    結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
    Google Play游戲取消賬號(hào)綁定沒有Google賬號(hào)也能玩
    CHIP新電腦(2016年3期)2016-03-10 14:52:50
    a级毛色黄片| 精品国内亚洲2022精品成人| 国产精品一区二区三区四区免费观看| 亚洲电影在线观看av| 久久99精品国语久久久| 国产黄a三级三级三级人| 日韩高清综合在线| 国产色爽女视频免费观看| 国产毛片a区久久久久| 国产av在哪里看| 亚洲国产欧洲综合997久久,| 一区二区三区乱码不卡18| 亚洲av电影不卡..在线观看| 赤兔流量卡办理| 特级一级黄色大片| 伦理电影大哥的女人| 免费av不卡在线播放| 久久久午夜欧美精品| 少妇被粗大猛烈的视频| 国产亚洲5aaaaa淫片| av播播在线观看一区| 五月伊人婷婷丁香| 69av精品久久久久久| 国产黄色视频一区二区在线观看 | 日韩精品青青久久久久久| 欧美变态另类bdsm刘玥| 啦啦啦观看免费观看视频高清| 老女人水多毛片| 中文字幕久久专区| 久久久精品大字幕| 一卡2卡三卡四卡精品乱码亚洲| 国产精品久久视频播放| 国产精品熟女久久久久浪| 亚洲国产成人一精品久久久| 99久久九九国产精品国产免费| 22中文网久久字幕| 男女边吃奶边做爰视频| 欧美成人a在线观看| 亚洲最大成人手机在线| 一边摸一边抽搐一进一小说| 国产精华一区二区三区| 最近最新中文字幕免费大全7| АⅤ资源中文在线天堂| 国产成人精品婷婷| 我要看日韩黄色一级片| 人妻少妇偷人精品九色| 欧美高清成人免费视频www| 中文字幕av成人在线电影| av又黄又爽大尺度在线免费看 | av线在线观看网站| 国产午夜福利久久久久久| 国产成人免费观看mmmm| 日韩亚洲欧美综合| 欧美潮喷喷水| 日本与韩国留学比较| 久久久精品欧美日韩精品| 午夜激情欧美在线| 日韩在线高清观看一区二区三区| 嘟嘟电影网在线观看| 91狼人影院| 波多野结衣高清无吗| 色综合站精品国产| 少妇人妻精品综合一区二区| 高清视频免费观看一区二区 | 狂野欧美激情性xxxx在线观看| 丝袜美腿在线中文| 亚洲精品一区蜜桃| 国产成人精品久久久久久| 99热网站在线观看| 精品欧美国产一区二区三| 久久久久久久亚洲中文字幕| 久久热精品热| 国产亚洲最大av| 欧美xxxx性猛交bbbb| 看片在线看免费视频| 天天躁夜夜躁狠狠久久av| 国产一区二区亚洲精品在线观看| 99国产精品一区二区蜜桃av| 久久久久久久久久久丰满| 亚洲成人av在线免费| 国产私拍福利视频在线观看| 一个人观看的视频www高清免费观看| 欧美3d第一页| 亚洲最大成人中文| 日韩中字成人| 天天躁日日操中文字幕| 高清在线视频一区二区三区 | 久久久精品94久久精品| 免费黄色在线免费观看| 国产一区有黄有色的免费视频 | 成人鲁丝片一二三区免费| 久久精品国产鲁丝片午夜精品| 精品国内亚洲2022精品成人| 九草在线视频观看| 人妻夜夜爽99麻豆av| 黄片无遮挡物在线观看| 99热网站在线观看| 最近视频中文字幕2019在线8| 男人和女人高潮做爰伦理| 亚洲人成网站高清观看| 欧美日韩一区二区视频在线观看视频在线 | 成年免费大片在线观看| 三级经典国产精品| 亚洲一级一片aⅴ在线观看| 亚洲最大成人手机在线| 色5月婷婷丁香| av国产免费在线观看| 毛片一级片免费看久久久久| av在线老鸭窝| 2022亚洲国产成人精品| av视频在线观看入口| 久久久久久久久久久丰满| 国产午夜福利久久久久久| 久久这里只有精品中国| 精品免费久久久久久久清纯| 水蜜桃什么品种好| 国产中年淑女户外野战色| 老女人水多毛片| 亚洲精品aⅴ在线观看| or卡值多少钱| 18禁动态无遮挡网站| 国产伦在线观看视频一区| 欧美一区二区精品小视频在线| 午夜福利高清视频| 久久这里只有精品中国| 久久综合国产亚洲精品| 午夜老司机福利剧场| 黄片无遮挡物在线观看| av在线蜜桃| 午夜a级毛片| 国产精品日韩av在线免费观看| eeuss影院久久| 男女国产视频网站| 国产淫片久久久久久久久| 亚洲不卡免费看| 欧美+日韩+精品| 国产精品综合久久久久久久免费| 日韩欧美精品v在线| 精品久久久久久电影网 | 欧美xxxx黑人xx丫x性爽| 国产精品国产三级专区第一集| 91av网一区二区| 亚洲国产精品成人综合色| 91精品国产九色| 天堂av国产一区二区熟女人妻| 国产精品1区2区在线观看.| 中文欧美无线码| 国产一区亚洲一区在线观看| 国产精品久久久久久av不卡| 男人狂女人下面高潮的视频| 中文字幕av在线有码专区| 亚洲精品日韩在线中文字幕| 午夜福利在线观看吧| 国产色婷婷99| 22中文网久久字幕| 国产亚洲最大av| 成人鲁丝片一二三区免费| 波野结衣二区三区在线| 国产精品,欧美在线| 能在线免费观看的黄片| 久久精品国产亚洲av涩爱| 99久久精品热视频| 久久久色成人| 欧美高清成人免费视频www| eeuss影院久久| 大香蕉97超碰在线| av在线亚洲专区| 色综合亚洲欧美另类图片| 超碰av人人做人人爽久久| 国产精品国产三级国产专区5o | 人体艺术视频欧美日本| 国产不卡一卡二| 欧美一区二区亚洲| 国产在视频线精品| 少妇丰满av| 国产一区亚洲一区在线观看| 欧美zozozo另类| 天天躁日日操中文字幕| 少妇人妻精品综合一区二区| 高清在线视频一区二区三区 | 97超碰精品成人国产| 精华霜和精华液先用哪个| 春色校园在线视频观看| 少妇的逼水好多| 在线观看一区二区三区| 精品欧美国产一区二区三| 国产伦在线观看视频一区| 国产精品一及| 国产精品伦人一区二区| 纵有疾风起免费观看全集完整版 | 好男人视频免费观看在线| 精品国内亚洲2022精品成人| 亚洲成人精品中文字幕电影| 欧美性感艳星| 国产亚洲一区二区精品| 赤兔流量卡办理| 成年女人看的毛片在线观看| 国产欧美另类精品又又久久亚洲欧美| 亚洲人与动物交配视频| 精品久久久久久久人妻蜜臀av| 欧美人与善性xxx| 日韩av在线免费看完整版不卡| 久久久久久久久久黄片| 欧美成人免费av一区二区三区| 欧美日韩综合久久久久久| 丰满乱子伦码专区| 中文在线观看免费www的网站| 日韩欧美 国产精品| 国产黄色小视频在线观看| 午夜久久久久精精品| 午夜福利在线在线| 久久久久网色| 色网站视频免费| or卡值多少钱| 啦啦啦韩国在线观看视频| 91aial.com中文字幕在线观看| 国产69精品久久久久777片| 日本爱情动作片www.在线观看| 国产精品一二三区在线看| 欧美最新免费一区二区三区| 深爱激情五月婷婷| av专区在线播放| 精品国产三级普通话版| 国产精品国产三级国产专区5o | 亚洲欧美成人综合另类久久久 | 亚洲不卡免费看| 人体艺术视频欧美日本| 日日干狠狠操夜夜爽| 色尼玛亚洲综合影院| 成人高潮视频无遮挡免费网站| 国产午夜福利久久久久久| 草草在线视频免费看| 最近中文字幕高清免费大全6| 久久久久性生活片| 亚洲电影在线观看av| 免费大片18禁| 成人午夜精彩视频在线观看| 搡女人真爽免费视频火全软件| 毛片一级片免费看久久久久| 国产免费男女视频| av又黄又爽大尺度在线免费看 | 国产成人freesex在线| 久久久久精品久久久久真实原创| 国产成人午夜福利电影在线观看| 91精品国产九色| 午夜视频国产福利| 男的添女的下面高潮视频| 国内揄拍国产精品人妻在线| 免费大片18禁| 久久草成人影院| 天天一区二区日本电影三级| 色综合站精品国产| 中文在线观看免费www的网站| 亚洲精华国产精华液的使用体验| 国产午夜精品论理片| 插逼视频在线观看| 九九热线精品视视频播放| 在线播放国产精品三级| 精华霜和精华液先用哪个| 亚洲国产最新在线播放| 99热这里只有是精品50| 老司机影院毛片| 精品一区二区免费观看| 69av精品久久久久久| 真实男女啪啪啪动态图| 午夜a级毛片| 亚洲国产色片| 亚洲av中文字字幕乱码综合| 97人妻精品一区二区三区麻豆| 久久人人爽人人爽人人片va| 国产久久久一区二区三区| 久久热精品热| 成人性生交大片免费视频hd| 亚洲国产高清在线一区二区三| 高清av免费在线| av黄色大香蕉| 91aial.com中文字幕在线观看| 色播亚洲综合网| 97超碰精品成人国产| 爱豆传媒免费全集在线观看| 国产在视频线在精品| 久久99蜜桃精品久久| 老司机影院成人| 少妇高潮的动态图| av在线天堂中文字幕| 亚洲av不卡在线观看| 亚洲成人av在线免费| 一边亲一边摸免费视频| 国产淫片久久久久久久久| 精品国内亚洲2022精品成人| 亚洲精品aⅴ在线观看| 偷拍熟女少妇极品色| 青春草视频在线免费观看| 精品国产三级普通话版| 成年免费大片在线观看| 国产精品国产高清国产av| 99久久精品热视频| 最后的刺客免费高清国语| 欧美97在线视频| 精品不卡国产一区二区三区| 国产在线一区二区三区精 | 神马国产精品三级电影在线观看| 日日摸夜夜添夜夜爱| 亚洲国产日韩欧美精品在线观看| 国产高清视频在线观看网站| 色尼玛亚洲综合影院| 亚洲成人中文字幕在线播放| 一级av片app| 国产精品一区二区性色av| 国模一区二区三区四区视频| 国产伦理片在线播放av一区| 国产亚洲午夜精品一区二区久久 | 简卡轻食公司| 欧美精品一区二区大全| 春色校园在线视频观看| 精品熟女少妇av免费看| 久久综合国产亚洲精品| 天堂影院成人在线观看| 国产女主播在线喷水免费视频网站 | 看免费成人av毛片| 国产精品一及| 老司机福利观看| 亚洲成人精品中文字幕电影| 99热6这里只有精品| ponron亚洲| 亚洲四区av| 国产av码专区亚洲av| 毛片一级片免费看久久久久| 夫妻性生交免费视频一级片| 色播亚洲综合网| 欧美潮喷喷水| 国产av不卡久久| 丝袜喷水一区| 99久久中文字幕三级久久日本| 午夜爱爱视频在线播放| 男的添女的下面高潮视频| 好男人在线观看高清免费视频| 在线播放无遮挡| 2021天堂中文幕一二区在线观| 嫩草影院精品99| 啦啦啦啦在线视频资源| 国产成人精品久久久久久| 一级毛片久久久久久久久女| 久久精品国产亚洲av天美| 亚洲电影在线观看av| 有码 亚洲区| 国产91av在线免费观看| 男女下面进入的视频免费午夜| 欧美成人a在线观看| 欧美高清成人免费视频www| 亚洲av成人精品一二三区| 乱系列少妇在线播放| 亚洲欧美日韩东京热| 亚洲国产欧洲综合997久久,| 特大巨黑吊av在线直播| 成人毛片a级毛片在线播放| 一个人免费在线观看电影| 观看免费一级毛片| 在线观看av片永久免费下载| 久久精品影院6| 婷婷色av中文字幕| 精品国产露脸久久av麻豆 | 日韩欧美三级三区| 国产色婷婷99| 色综合站精品国产| 国产亚洲精品av在线| 国产精品精品国产色婷婷| 麻豆一二三区av精品| 国产伦精品一区二区三区视频9| 老司机影院成人| 欧美激情国产日韩精品一区| 国产精品人妻久久久影院| 建设人人有责人人尽责人人享有的 | 99热全是精品| 小说图片视频综合网站| 午夜亚洲福利在线播放| 日本三级黄在线观看| 全区人妻精品视频| 亚洲av熟女| 99久久成人亚洲精品观看| 插逼视频在线观看| 色哟哟·www| 国产精品久久电影中文字幕| 男女啪啪激烈高潮av片| 成人无遮挡网站| 国产亚洲精品av在线| 亚洲熟妇中文字幕五十中出| 亚洲国产成人一精品久久久| 亚洲精品aⅴ在线观看| 毛片一级片免费看久久久久| 99热精品在线国产| 男女下面进入的视频免费午夜| 亚洲人与动物交配视频| 免费看a级黄色片| 成年免费大片在线观看| 哪个播放器可以免费观看大片| 久久久久性生活片| 亚洲国产精品sss在线观看| 韩国av在线不卡| 汤姆久久久久久久影院中文字幕 | 午夜激情欧美在线| 一级黄色大片毛片| 少妇裸体淫交视频免费看高清| 一区二区三区免费毛片| 男女那种视频在线观看| 五月玫瑰六月丁香| a级一级毛片免费在线观看| 久久久久久久午夜电影| 少妇的逼水好多| 深爱激情五月婷婷| 国产精品.久久久| 99久久无色码亚洲精品果冻| 国产av码专区亚洲av| 2021少妇久久久久久久久久久| 色网站视频免费| 男插女下体视频免费在线播放| 大香蕉久久网| 久久韩国三级中文字幕| 日本黄色视频三级网站网址| 成人av在线播放网站| www.av在线官网国产| 久久综合国产亚洲精品| kizo精华| 女人十人毛片免费观看3o分钟| 日韩国内少妇激情av| 亚洲aⅴ乱码一区二区在线播放| 国产精品国产高清国产av| 久久午夜福利片| 免费观看在线日韩| 能在线免费观看的黄片| 欧美日韩在线观看h| 欧美极品一区二区三区四区| 国产精品国产三级国产av玫瑰| 高清在线视频一区二区三区 | 毛片女人毛片| .国产精品久久| 日本免费a在线| 赤兔流量卡办理| 丰满人妻一区二区三区视频av| 韩国高清视频一区二区三区| 午夜福利高清视频| 99久久精品国产国产毛片| 亚洲经典国产精华液单| 国产亚洲最大av| 亚洲在线观看片| 国产欧美另类精品又又久久亚洲欧美| 联通29元200g的流量卡| 免费大片18禁| 在线观看66精品国产| 好男人在线观看高清免费视频| 你懂的网址亚洲精品在线观看 | 免费av观看视频| 乱人视频在线观看| 日韩,欧美,国产一区二区三区 | 麻豆一二三区av精品| 一级毛片电影观看 | 日本av手机在线免费观看| 日韩,欧美,国产一区二区三区 | 免费看光身美女| 日本免费一区二区三区高清不卡| 插逼视频在线观看| 免费播放大片免费观看视频在线观看 | 天堂网av新在线| 国产一区二区亚洲精品在线观看| 亚洲成av人片在线播放无| 日日干狠狠操夜夜爽| 精品不卡国产一区二区三区| 乱系列少妇在线播放| 亚洲自拍偷在线| 国产精品永久免费网站| 男女边吃奶边做爰视频| 人妻制服诱惑在线中文字幕| 国产亚洲av嫩草精品影院| 国产乱人视频| 国产v大片淫在线免费观看| 亚洲av.av天堂| 免费一级毛片在线播放高清视频| av在线天堂中文字幕| 成年版毛片免费区| 国产老妇伦熟女老妇高清| 自拍偷自拍亚洲精品老妇| 内地一区二区视频在线| 久久人人爽人人爽人人片va| 国产免费男女视频| 美女cb高潮喷水在线观看| 三级国产精品欧美在线观看| 久久99热6这里只有精品| 草草在线视频免费看| 啦啦啦韩国在线观看视频| 日本免费a在线| 九九在线视频观看精品| 非洲黑人性xxxx精品又粗又长| 成人三级黄色视频| 真实男女啪啪啪动态图| 国产一区亚洲一区在线观看| 欧美一级a爱片免费观看看| 日本猛色少妇xxxxx猛交久久| 日韩成人伦理影院| 久久午夜福利片| 久久热精品热| 亚洲久久久久久中文字幕| 日韩精品有码人妻一区| 99久久成人亚洲精品观看| 日日撸夜夜添| 最近最新中文字幕大全电影3| 深夜a级毛片| 成人鲁丝片一二三区免费| 2021天堂中文幕一二区在线观| 国产人妻一区二区三区在| 亚洲精品乱码久久久久久按摩| 婷婷色av中文字幕| 国产精品人妻久久久影院| 国产成人一区二区在线| 美女cb高潮喷水在线观看| 成人毛片a级毛片在线播放| 国产黄色视频一区二区在线观看 | 18禁在线无遮挡免费观看视频| 黄色配什么色好看| 少妇裸体淫交视频免费看高清| 亚洲精华国产精华液的使用体验| 一夜夜www| 永久网站在线| 亚洲精品456在线播放app| 国产欧美另类精品又又久久亚洲欧美| 久久久欧美国产精品| 色播亚洲综合网| 边亲边吃奶的免费视频| 成人亚洲精品av一区二区| 长腿黑丝高跟| 看免费成人av毛片| 亚洲国产精品成人久久小说| www日本黄色视频网| 级片在线观看| 国产精品一区二区三区四区久久| 亚洲久久久久久中文字幕| 婷婷六月久久综合丁香| 午夜久久久久精精品| 变态另类丝袜制服| 国产亚洲精品av在线| 岛国在线免费视频观看| 一级黄色大片毛片| 精品欧美国产一区二区三| 国产三级中文精品| 国产69精品久久久久777片| 欧美日韩精品成人综合77777| 国产美女午夜福利| 2022亚洲国产成人精品| 超碰97精品在线观看| 男人舔女人下体高潮全视频| 久久精品国产鲁丝片午夜精品| 精品久久久久久久久av| 国产黄片美女视频| 日韩 亚洲 欧美在线| 亚洲怡红院男人天堂| 18+在线观看网站| 一区二区三区免费毛片| 亚洲精品,欧美精品| av在线老鸭窝| 日日干狠狠操夜夜爽| ponron亚洲| av线在线观看网站| 欧美性猛交╳xxx乱大交人| 欧美日韩一区二区视频在线观看视频在线 | 亚洲av成人精品一二三区| 亚洲在线观看片| 日韩成人av中文字幕在线观看| 精品国产一区二区三区久久久樱花 | 麻豆av噜噜一区二区三区| 日本与韩国留学比较| 亚洲av电影不卡..在线观看| 国产精品av视频在线免费观看| 欧美极品一区二区三区四区| 久久精品夜夜夜夜夜久久蜜豆| 老司机福利观看| 99热网站在线观看| 国产探花在线观看一区二区| 天堂√8在线中文| 久久久久久久久中文| 日韩成人av中文字幕在线观看| 国产成人freesex在线| 男插女下体视频免费在线播放| 亚洲第一区二区三区不卡| 国产中年淑女户外野战色| 亚洲一级一片aⅴ在线观看| 天天一区二区日本电影三级| 人妻少妇偷人精品九色| 美女国产视频在线观看| 精品少妇黑人巨大在线播放 | 村上凉子中文字幕在线| 午夜精品国产一区二区电影 | 看免费成人av毛片| 最近的中文字幕免费完整| 最近最新中文字幕免费大全7| 尾随美女入室| 久久久色成人| 九九久久精品国产亚洲av麻豆| a级一级毛片免费在线观看| 性色avwww在线观看| av国产免费在线观看| 少妇的逼水好多| 午夜福利视频1000在线观看| 精品久久久久久久久亚洲| 午夜免费男女啪啪视频观看| 毛片女人毛片| 久久亚洲精品不卡| 国产成人一区二区在线| 简卡轻食公司| 99久久中文字幕三级久久日本| 国产成人一区二区在线| 国产真实乱freesex| 国产 一区精品| 国产亚洲av片在线观看秒播厂 | 天天躁夜夜躁狠狠久久av| 免费看av在线观看网站| 日韩制服骚丝袜av|