李赫元,俞曉明,劉 悅,程學(xué)旗,程 工
(1.中國科學(xué)院 計(jì)算技術(shù)研究所,北京100190;2.中國科學(xué)院大學(xué),北京100190;3.國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京100029)
微博客(簡稱微博)是一種基于用戶關(guān)系的信息分享、傳播與獲取平臺(tái)。近幾年,中文微博服務(wù)發(fā)展迅猛,截止2012年5月,新浪微博的注冊(cè)用戶已達(dá)3億、每日發(fā)布的消息量超過1億條[1];騰訊微博的注冊(cè)用戶數(shù)也已超過4億。微博的出現(xiàn)不僅改變了信息的傳播方式,也改善了我們的生活質(zhì)量。然而,微博上卻充斥著炒作、營銷、謠言等不良信息,困擾著微博的健康發(fā)展。如何對(duì)垃圾用戶及其發(fā)布的垃圾消息進(jìn)行識(shí)別,已經(jīng)成為了亟待解決的問題。目前,相關(guān)研究工作主要集中在Twitter等英文微博中,中文微博與英文微博之間存在著一些較為顯著的差異。
(1)評(píng)論模式與提及
在Twitter中,轉(zhuǎn)發(fā)只顯示原作者。Twitter中的提及是用戶之間的直接交互。針對(duì)這一點(diǎn),國外學(xué)者提出了基于提及關(guān)系的檢測(cè)方法。然而在中文微博中,轉(zhuǎn)發(fā)的同時(shí)可以提及(@)原作者,使得兩者難以區(qū)分。因此,利用提及關(guān)系的檢測(cè)方法并不適用于中文微博。
(2)互粉行為
中文微博引入了“加V”“人氣用戶”等概念。為了提升自己的粉絲數(shù)量,新浪等微博中出現(xiàn)了大量的“互粉行為”,即主動(dòng)關(guān)注別人并要求對(duì)方也關(guān)注自己。這一具有中文微博特色的現(xiàn)象,將影響“用戶權(quán)威度”等在Twitter中有效的垃圾用戶檢測(cè)特征。
(3)對(duì)待垃圾用戶的態(tài)度
Twitter中,官方開設(shè)了“spam賬號(hào)”接受舉報(bào)。舉報(bào)信息公開、透明、便于采集,許多學(xué)者都選用舉報(bào)信息作為垃圾用戶的范本。中文微博客雖然提供了舉報(bào)功能,但信息是不公開的。因此,在中文微博客中我們無法自動(dòng)取得垃圾用戶的標(biāo)注信息。
本文以中文微博客為重點(diǎn),探索垃圾用戶檢測(cè)方法。本文的創(chuàng)新之處在于:(1)關(guān)注中文微博中的“互粉”行為,并據(jù)此提出了新的用戶圖特征;(2)研究了注冊(cè)時(shí)間與垃圾用戶行為的關(guān)系,并據(jù)此提出了近期活躍度特征;(3)討論中文微博開放平臺(tái)中的應(yīng)用,提出了應(yīng)用來源黑、白名單特征。
本文余下的部分將如下安排:第2節(jié)討論國內(nèi)外的相關(guān)工作。第3節(jié)從用戶圖、用戶資料、微博內(nèi)容3個(gè)方面提出了7種新的檢測(cè)特征。第4節(jié)首先介紹了數(shù)據(jù)的采集、標(biāo)注,接著進(jìn)行了分類器的訓(xùn)練、實(shí)驗(yàn)。通過對(duì)實(shí)驗(yàn)結(jié)果的分析,驗(yàn)證了特征的有效性。第5節(jié)對(duì)本文工作進(jìn)行總結(jié)與展望。
Grier[2]等研究了Twitter中包含URL的微博消息。統(tǒng)計(jì)表明,約8%的URL指向垃圾網(wǎng)頁。研究還對(duì)垃圾賬號(hào)進(jìn)行了研究。只有16%的垃圾賬號(hào)從注冊(cè)之初就在發(fā)布垃圾Tweet;余下84%的賬號(hào)均是被盜用的,其行為特征是,賬號(hào)注冊(cè)于很久之前并已經(jīng)被棄用,直到近期突然開始散布垃圾消息。
Wang[3]等將垃圾用戶的檢測(cè)轉(zhuǎn)化為機(jī)器學(xué)習(xí)的分類問題。該研究提出了5種檢測(cè)特征,“用戶權(quán)威度”、“重復(fù)Tweet率”、“含URL的Tweet比率”、“含提及(@)的 Tweet比率”、“含話題(#)的Tweet比率”。統(tǒng)計(jì)結(jié)果表明,垃圾用戶在上述各項(xiàng)指標(biāo)中都略區(qū)別于普通用戶,但多數(shù)特征不具有魯棒性。應(yīng)用上述特征構(gòu)造的樸素貝葉斯分類器可以達(dá)到91.7%的準(zhǔn)確率。
Song[4]等從社交關(guān)系網(wǎng)的角度研究了Twitter中的垃圾用戶。該研究提出了“用戶距離”和“用戶連通度”兩個(gè)特征:若兩個(gè)距離大于4的用戶之間相互“提及”,則可認(rèn)為是在傳播垃圾信息;在用戶距離相同的情況下,正常用戶之間的連通度要強(qiáng)于垃圾賬戶之間的連通度。利用上述兩個(gè)特征進(jìn)行檢測(cè),可以達(dá)到94.6%的準(zhǔn)確率。如第1節(jié)所述,在中文微博中,提及和評(píng)論混在了一起,因此該檢測(cè)方法難以應(yīng)用于中文微博中。
在國內(nèi)的研究中,王宇[5]等人對(duì)新浪微博中的“僵尸粉”進(jìn)行了研究,總結(jié)出了“用戶微博數(shù)”“用戶是否包含簡介”等6種具有區(qū)分度的特征。其中“用戶昵稱可疑度”等特征需要借助人工識(shí)別。該研究同樣使用樸素貝葉斯算法訓(xùn)練分類器,準(zhǔn)確率達(dá)到了88%。
本節(jié)將從用戶圖、用戶資料、微博內(nèi)容三個(gè)方面,提出垃圾用戶檢測(cè)特征。在討論相關(guān)研究中提出的5種檢測(cè)特征的基礎(chǔ)上,我們新提出了“純粉絲度”“黑名單應(yīng)用”“用戶用字多樣性”等7種新的檢測(cè)特征。
3.1.1 用戶圖特征
微博中,用戶的關(guān)系可以用有向圖表示:出度表示“關(guān)注”,入度表示“粉絲”(被關(guān)注);若用戶彼此關(guān)注了對(duì)方,則稱為“互粉”(互為粉絲的簡稱)。以圖1為例,C關(guān)注了A,A關(guān)注了B;B和C互粉。A的粉絲是C;B的粉絲是A和C;C的粉絲是B。
圖1 “關(guān)注”“粉絲”和“互粉”
用戶權(quán)威度
在Wang等人的研究中[3],定義了特征“用戶權(quán)威度”,見式(1)。Nfollow表示用戶u的粉絲數(shù),Nfriend表示該用戶的關(guān)注數(shù)。若用戶既沒有粉絲也沒有關(guān)注,規(guī)定該用戶的權(quán)威度為0。
用戶關(guān)注度
為了探討垃圾用戶、普通用戶在主動(dòng)關(guān)注方面有無差異,我們提出了“用戶關(guān)注度”特征,如式(2)所示。Nfollow是用戶的粉絲數(shù),Nfriend是用戶的關(guān)注數(shù)。直觀地分析:垃圾用戶會(huì)大量的關(guān)注別人,卻很少得到別人的關(guān)注,因而該特征偏高。
純粉絲度
在中文微博中,用戶之間的“互粉”可以提高雙方的粉絲數(shù),也會(huì)干擾“用戶權(quán)威度”特征的區(qū)分度。為了避免這種情況,我們定義了純粉絲度,見式(3)。Nfollow依然表示用戶u的粉絲數(shù);分子部分為去除了互粉用戶之后的“純粉絲數(shù)”。該特征描述了粉絲質(zhì)量。
3.1.2 用戶資料特征
在王宇等人的研究中[5],提出了“用戶簡介”“微博域名”特征。本節(jié)將提出“用戶頭像特征”“近期活躍度”兩個(gè)新的特征。
用戶頭像特征
在本研究中,我們對(duì)用戶頭像的圖片進(jìn)行了采集,并提出了“用戶頭像”特征,它識(shí)別用戶是否使用了默認(rèn)頭像。若為默認(rèn)頭像,g(u)=0;若上傳了頭像,g(u)=1。
近期活躍度
用新賬號(hào)發(fā)布垃圾信息很容易被識(shí)破。因此,垃圾用戶更傾向于使用注冊(cè)時(shí)間較長的“沉睡賬號(hào)”散播垃圾信息。我們定義了“近期活躍度”指標(biāo),見式(5)。NDuringDays是用戶最近100條消息跨越的天數(shù)。NCreateDays是截止采集當(dāng)天,用戶賬號(hào)已存活的天數(shù)(注冊(cè)天數(shù))。對(duì)于突然活躍的沉睡賬號(hào),上述特征值會(huì)偏高;而對(duì)于一直活躍或已經(jīng)很久不活躍的正常用戶而言,這一特征值較低。
3.1.3 微博內(nèi)容特征
基于內(nèi)容過濾的技術(shù)在反垃圾郵件等領(lǐng)域取得了很好的效果。然而,這類方法需要大量的訓(xùn)練數(shù)據(jù)和標(biāo)注樣本。在國外的研究中,主要從“微博中是否含URL”“微博是否大量重復(fù)”兩個(gè)方面考慮內(nèi)容特征。本節(jié)結(jié)合了中文微博客的特點(diǎn),提出了“用字多樣性”、“白名單應(yīng)用率”、“黑名單應(yīng)用率”三個(gè)新的檢測(cè)特征。
不含URL微博比例
由于微博消息的長度限定在140字以內(nèi),垃圾用戶通常會(huì)選用“在微博中附加鏈接”的方式推廣垃圾信息?;诖?,Benevenuto[6]等提出了“不含URL微博比”這一特征,如式(6)所示。NAll是用戶發(fā)布的微博數(shù)量,NNoURL是在所發(fā)微博中不含有URL的數(shù)量。
應(yīng)用來源的白名單率和黑名單率
中文微博客推出了開放平臺(tái),提供了豐富多彩的應(yīng)用,它們具有獲取微博、發(fā)送微博、關(guān)注等操作權(quán)限。通過開放應(yīng)用發(fā)布微博時(shí),應(yīng)用名稱會(huì)顯示在“消息來源”字段中。借助這一字段,我們對(duì)開放應(yīng)用進(jìn)行了研究,分為如下三類。
(1)黑名單應(yīng)用
為了降低維護(hù)成本、垃圾制造者會(huì)使用“皮皮時(shí)光機(jī)”等開放應(yīng)用管理微博。在采集數(shù)據(jù)中,我們選取垃圾用戶使用最多的30個(gè)應(yīng)用作為黑名單。當(dāng)然,使用黑名單發(fā)送的微博不一定都是垃圾信息,例如,很多用戶會(huì)選用“皮皮時(shí)光機(jī)”定期地轉(zhuǎn)發(fā)熱門微博。
隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,越來越多的用戶使用手機(jī)客戶端發(fā)微博。但對(duì)垃圾用戶而言,用手機(jī)客戶端管理數(shù)百個(gè)賬號(hào)的成本過大。因此,我們將手機(jī)客戶端定義為白名單應(yīng)用。
(3)其他應(yīng)用
并非全部的開放應(yīng)用都符合上述兩種分類。如“微博桌面”等應(yīng)用,正常用戶使用它們來發(fā)微博,垃圾用戶通過“模擬點(diǎn)擊”的方式操控賬號(hào)。由于其不具有明顯區(qū)分度,我們?cè)谔卣餮芯恐胁皇褂眠@類應(yīng)用。
在如上所述的分類基礎(chǔ)上,我們定義了“白名單率”“黑名單率”兩個(gè)特征:
NAll是用戶u發(fā)布的微博總數(shù)。NWhiteList是通過白名單發(fā)送的微博總數(shù),NBlackList是通過黑名單發(fā)送的微博總數(shù)。根據(jù)預(yù)期,垃圾用戶具有較高的黑名單率和較低的白名單率。
微博相似度
在Wang的研究中[3],使用了編輯距離計(jì)算微博的重復(fù)度,并以此作為檢測(cè)特征。但在中文微博中,用戶很少發(fā)布重復(fù)消息。我們應(yīng)用余弦距離計(jì)算用戶微博相似度,如式(9)所示。該特征計(jì)算了用戶u所發(fā)布的n條微博之間的余弦相似度均值。
微博用字多樣性
老佛爺何等人物,一聽就火大了,一個(gè)江湖人物還敢如此擺架子?幸虧太監(jiān)建議,說程廷華是孝子,他母親馬上七十大壽了,不如在他母親身上做點(diǎn)文章。于是慈禧就派人做了一塊大匾,書“節(jié)孝可風(fēng)”四個(gè)字,刻太后金印,由宮里派人,宮寶田帶隊(duì),吹吹打打給程廷華的母親送了過去,聲勢(shì)把半個(gè)北京城都轟動(dòng)了。
為了研究正常用戶與垃圾用戶在微博消息的用詞(字)上有無差異,我們定義了用字多樣性這個(gè)特征,見式(10)。由于微博消息具有長度短、用詞不規(guī)范等特點(diǎn),我們以字為最小分割單位,并在處理前刪除消息中的URL鏈接。
假設(shè)用戶u一共發(fā)了n條微博,每條消息的長度記為leni,則全部消息的總長度為同時(shí),統(tǒng)計(jì)這些消息中非重復(fù)的單字?jǐn)?shù),記為cntd。
分類器與檢測(cè)
垃圾用戶的檢測(cè)問題,可以視為一個(gè)分類(Classification)問題。假設(shè)微博用戶的全集為U,類別集合C={Cspam,Cnormal},Cspam表示垃圾用戶、Cnormal表示正常用戶。垃圾用戶的檢測(cè)問題,即為求一個(gè)分類函數(shù)F,將U中的微博用戶影射到類別C上。
上述影射函數(shù)F即代表了一個(gè)分類器,它可由機(jī)器學(xué)習(xí)算法習(xí)得。在本研究中,選用支持向量機(jī)(SVM)算法,它是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法,可以解決分類、回歸等問題。對(duì)于分類問題,SVM通過預(yù)定義核函數(shù)的非線性變換,將輸入空間變換到一個(gè)高維空間,在后者中求廣義的最優(yōu)分類面[7]。常用的核函數(shù)主要有三種:多項(xiàng)式函數(shù)(Polynomial)、徑向基函數(shù)(Radial Basis Function)和Sigmoid函數(shù)。
基于SVM分類器的垃圾用戶檢測(cè)流程如圖2所示。
圖2 垃圾用戶檢測(cè)流程
檢測(cè)可分為“訓(xùn)練”“分類”兩個(gè)階段。在訓(xùn)練階段,我們對(duì)采集的微博用戶數(shù)據(jù)進(jìn)行標(biāo)注,提取3.1節(jié)所述的檢測(cè)特征。接著,用SVM訓(xùn)練分類器并對(duì)其效果進(jìn)行評(píng)價(jià),如有必要,將選擇新的特征(集)并重新訓(xùn)練分類器。在檢測(cè)階段,提取待檢測(cè)用戶的特征,并使用訓(xùn)練階段得到的SVM分類器進(jìn)行分類,分類結(jié)果(Cspam或Cnormal)即為檢測(cè)結(jié)果。
我們使用OAuth2和API開發(fā)了新浪微博采集器,它的首要任務(wù)是搜集一些用戶樣本。微博的API提供了“public_timeline”接口,它會(huì)隨機(jī)返回最新發(fā)言的20個(gè)用戶及其微博信息。我們使用該接口,于2011年12月20日進(jìn)行了用戶數(shù)據(jù)的采集。經(jīng)過去重處理后,共包含145 317個(gè)微博用戶、1 522 092條微博。
上述采集只能獲取部分活躍用戶的最新微博信息,卻并不包含用戶的全部消息。此外,如3.1節(jié)所述,用戶的表現(xiàn)行為與其注冊(cè)時(shí)間有一定關(guān)聯(lián)。為此,我們?cè)?012年6月23日進(jìn)行了二次采集。本次我們使用“user_timeline”接口,它根據(jù)第一次采集的用戶ID,獲取用戶頭像等資料、粉絲數(shù)等信息,并抓取用戶最新發(fā)布的100條微博。本輪采集后,共包含125 683個(gè)有效用戶、4 657 811條微博(新浪會(huì)定期清理垃圾賬號(hào),導(dǎo)致用戶數(shù)減少)。
為了將二次采集的數(shù)據(jù)用于分類器,隨機(jī)抽取了3 000個(gè)用戶作為實(shí)驗(yàn)的數(shù)據(jù)集。為了獲取客觀、準(zhǔn)確的標(biāo)注結(jié)果,開發(fā)了標(biāo)注平臺(tái),并邀請(qǐng)3位評(píng)價(jià)者對(duì)實(shí)驗(yàn)進(jìn)行隨機(jī)、交叉標(biāo)注。標(biāo)注遵循如下標(biāo)準(zhǔn)。
1)垃圾用戶
標(biāo)注值為-1,其行為特征為:轉(zhuǎn)發(fā)大量廣告、炒作消息;發(fā)布的微博具有明顯的商業(yè)意圖(如商品推介);發(fā)送或轉(zhuǎn)發(fā)大量低質(zhì)微博(如心靈雞湯)。
2)正常用戶
標(biāo)注值為1,其行為特征為:發(fā)布較為貼近生活的微博(如聚會(huì)、心情等);在轉(zhuǎn)發(fā)微博時(shí),包含了個(gè)人的見解、評(píng)價(jià)(轉(zhuǎn)發(fā)加評(píng)論);與他人存在較為真實(shí)的互動(dòng)(如相互@、評(píng)論)。
3)不確定用戶
標(biāo)注值為0,若評(píng)價(jià)者認(rèn)為賬號(hào)難以區(qū)分,可將其標(biāo)注為“不確定用戶”。該類用戶可能同時(shí)具有垃圾用戶、正常用戶的部分行為。
在標(biāo)注者完成標(biāo)注后,我們對(duì)數(shù)據(jù)進(jìn)行了篩選與清理:首先,選擇出至少2位評(píng)價(jià)者給出一致標(biāo)注值的用戶賬號(hào);其次,去除標(biāo)注結(jié)果為“不確定”的賬號(hào)。經(jīng)過上述處理后,共剩余2 471個(gè)用戶,本研究使用它們作為訓(xùn)練、測(cè)試數(shù)據(jù)。
本研究使用LIBSVM[8]軟件訓(xùn)練分類器。在效果的評(píng)價(jià)方面,選用準(zhǔn)確率(Accuracy)、召回率(Recall)和F值。為了說明指標(biāo)在本研究中的意義,考慮如表1所示的混淆矩陣。
表1 混淆矩陣
其中,準(zhǔn)確率(Accuracy)描述了分類器將垃圾用戶、正常用戶正常分類的百分比。
召回率(Recall)表明了檢測(cè)出的垃圾用戶中,真實(shí)垃圾用戶的百分比。
F值則綜合考慮了準(zhǔn)確率和召回率。
在明確了指標(biāo)之后,我們從標(biāo)注數(shù)據(jù)集上提取出第3節(jié)提出的各種特征,并采用10折交叉驗(yàn)證的策略,對(duì)分類器進(jìn)行訓(xùn)練、驗(yàn)證。表2記錄了兩組實(shí)驗(yàn)結(jié)果:F_ALL和F_OPTIMAL。
表2 分類器實(shí)驗(yàn)結(jié)果
在第一組實(shí)驗(yàn),F(xiàn)_ALL中,我們選擇了第3節(jié)提出的全部12個(gè)特征訓(xùn)練分類器。實(shí)驗(yàn)結(jié)果如表2第1行所示:分類器的準(zhǔn)確率達(dá)到93.46%,召回率為97.64%。
在進(jìn)行該實(shí)驗(yàn)的過程中,我們發(fā)現(xiàn)部分特征具有“負(fù)效果”,會(huì)降低分類器的準(zhǔn)確率。為了找出最優(yōu)的特征組合,我們使用Wrapper[9]策略對(duì)12種特征進(jìn)行選擇:首先,求出特征組合的冪集,它共包含212+1=8 192個(gè)特征組合;其次,使用上述每一種特征組合訓(xùn)練分類器,對(duì)用戶進(jìn)行檢測(cè),計(jì)算分類結(jié)果的F值;最后,選出F值最高的特征組合,作為最優(yōu)特征組合。最優(yōu)組合共包含7個(gè)特征,如表3第1列所示。
為了驗(yàn)證最優(yōu)組合中不同特征的貢獻(xiàn),我們單獨(dú)使用每一特征訓(xùn)練分類器,并計(jì)算其F值,如表3第2列所示。從表中不難發(fā)現(xiàn):應(yīng)用黑名單率、純粉絲度等本文提出的特征排名較為靠前,說明其具有較好的區(qū)分度。
在上述研究的基礎(chǔ)上,我們進(jìn)行了第二組實(shí)驗(yàn)。使用如表3所述的最優(yōu)特征組合作為特征集合,訓(xùn)練、測(cè)試分類器。實(shí)驗(yàn)結(jié)果見表2的第2行,F(xiàn)_OPTIMAL。與第一組實(shí)驗(yàn)對(duì)比,準(zhǔn)確率提升到了94.4%,召回率為97.71%。
表3 最優(yōu)特征組合
在3.1.2節(jié),我們提出了“用戶頭像特征”,但在最特征優(yōu)組合中卻不包含該特征。相反,前人提出的“簡介”“微博域名”等特征卻具有較好的效果。為此,我們對(duì)這三種特征進(jìn)行了統(tǒng)計(jì)研究,結(jié)果如圖3所示。在全部測(cè)試數(shù)據(jù)中,只有約3%的用戶使用了默認(rèn)頭像,特征數(shù)據(jù)的不均衡導(dǎo)致它失去了應(yīng)有的區(qū)分度。相反地,“簡介”“微博域名”等特征的分布相對(duì)均衡,具有一定的區(qū)分度。
圖3 用戶資料特征的統(tǒng)計(jì)特征
用戶圖特征
由4.2節(jié)實(shí)驗(yàn)可知,本文提出的“純粉絲度”比前人提出的“用戶權(quán)威度”更能顯著區(qū)分垃圾用戶。在中文微博中,許多用戶選擇了“互粉”“刷粉”等不正當(dāng)手段來提高自身人氣。純粉絲度能很好地過濾掉“互粉”導(dǎo)致的“假人氣”,因而具有更好的區(qū)分度。另一方面,為了更好地偽裝自己,垃圾賬號(hào)之間往往會(huì)互粉,形成錯(cuò)綜復(fù)雜的關(guān)系網(wǎng),造成受到高度關(guān)注的假象。因此,本文提出的“用戶關(guān)注度”特征并沒有取得預(yù)期的效果。
用戶資料特征
本文提出的“近期活躍度”特征效果良好。垃圾用戶的確會(huì)使用早期注冊(cè)的“沉睡賬號(hào)”發(fā)布垃圾消息。而本文提出的“用戶頭像”特征效果不佳。如4.2節(jié)所述,用戶頭像的分布極不均勻,致使該特征很難表現(xiàn)出應(yīng)有的區(qū)分度。
微博內(nèi)容特征
本文提出的“應(yīng)用白名單率”“應(yīng)用黑名單率”均具有很好的區(qū)分度。首先,手機(jī)客戶端的應(yīng)用門檻和管理成本阻礙了垃圾用戶。其次,確實(shí)有大量的垃圾微博是通過黑名單中的應(yīng)用傳播的。此外,傳統(tǒng)的“微博相似度”效果不佳。本文提出的“微博用字多樣性”考慮了用戶的微博用詞習(xí)慣,取得了較好的效果:正常用戶的微博話題廣泛、用詞隨意,多樣性較高;垃圾用戶傳播的信息較為單一,用詞單調(diào)。
本文研究了中文微博客中垃圾用戶的檢測(cè)問題。研究從用戶圖、用戶資料、微博內(nèi)容三個(gè)方面提出了7種新的垃圾用戶檢測(cè)特征。利用上述特征訓(xùn)練的SVM分類器,取得了較好的準(zhǔn)確率和召回率。實(shí)驗(yàn)表明,本文提出的“純粉絲度”“用戶近期活躍度”等5個(gè)特征具有良好的區(qū)分效果。
在實(shí)驗(yàn)與研究中,我們也遇到了一些問題:(1)對(duì)采集數(shù)據(jù)的標(biāo)注依靠人工判別,工作量巨大。有必要尋找一種更好的實(shí)驗(yàn)數(shù)據(jù)標(biāo)注方法。(2)在本文中,垃圾用戶分類器的召回率較為理想,但分類器的準(zhǔn)確率只有94%,仍有一定上升空間。我們將在未來的工作中對(duì)上述問題進(jìn)行更為深入的探索與研究。
[1]新浪科技.新浪微博用戶數(shù)超3億 [EB/OL].2012-05-16.http://is.gd/Qfn4Z9.
[2]Grier C,Thomas K,Paxson V,et al.@spam:The Underground on 140Characters or Less [C]//Proceedings of the 17th ACM Conference on Computer and Communications Security (CCS 2010).New York,US,2010:27-37.
[3]Wang A.Don't follow me:Spam detection in Twitter[C]//Proceedings of the International Conference on Security and Cryptography.Athens,Greece,2011:142-151.
[4]Song J,Lee S,Kim J.Spam Filtering in Twitter Using Sender-ReceiverRelationship [M].Berlin,German:Springer,2006:301-317.
[5]王宇,陸余良,郭浩,等.中文微博僵尸粉檢測(cè)技術(shù)研究[C]//中國自動(dòng)化學(xué)會(huì).第三屆全國社會(huì)計(jì)算會(huì)議、平行控制會(huì)議、平行管理會(huì)議論文集.北京:中國自動(dòng)化學(xué)會(huì),2011.
[6]Benevenuto F,Magno G,Rodrigues T,et al.Detecting Spammers on Twitter[C]//Proceedings of Seventhannual Collaboration,Electronic Messaging,Anti-Abuseand Spam Conference(CEAS 2010).Redmond,US,2010.
[7]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量[J].自動(dòng)化學(xué)報(bào),2001,26(1):32-41.
[8]Chang C.LIBSVM—A Library for Support Vector Machines [EB/OL].2006-2012.http://is.gd/rocwn9.
[9]Guyon I,Gunn S,Nikravesh M.Feature extraction,foundations and applications[M].Berlin,German:Springer,2006:188-191.