馮程,梁剛,周鴻宇,楊進(jìn)(.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 60065;.樂山師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,樂山 64000)
FENG Cheng1,LIANG Gang1,ZHOU Hong-yu1,YANG Jin2(1.College of Computer Science,Sichuan University,Chengdu,Chengdu 610065;2.College of Computer Science,Leshan Normal University,Leshan,Leshan 614000)
自動謠言檢測分析與實(shí)現(xiàn)
馮程1,梁剛1,周鴻宇1,楊進(jìn)2
(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.樂山師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,樂山614000)
隨著微博的發(fā)展,微博從傳統(tǒng)的社交工具轉(zhuǎn)變?yōu)橛脩舴窒硇畔⒌闹匾獊碓碵1]。截至2015年10月,新浪微博月活躍用戶數(shù)達(dá)到2.2億,每日發(fā)布的微博數(shù)超過1億條[2]。在提供信息便利的同時(shí),微博也面臨著謠言泛濫的問題。據(jù)2015年中國社科院新聞與傳播研究所發(fā)布的《新媒體藍(lán)皮書》調(diào)查顯示,近六成的假新聞首發(fā)于微博[3]。謠言是指真相或來源不可靠的消息,其傳播會引起公眾的恐慌,擾亂社會的秩序,降低政府的公信力,甚至危及國家安全。如2011年的日本核電站泄露事故,有謠言稱日本核輻射會污染海水導(dǎo)致以后生產(chǎn)的鹽都無法食用,而且吃含碘的食用鹽可防核輻射,從而導(dǎo)致了鹽價(jià)上漲,民眾大量搶購食鹽[4]。
為了抑制微博謠言泛濫的問題,學(xué)術(shù)界和相關(guān)行業(yè)提出了基于手工的識別技術(shù)和基于機(jī)器學(xué)習(xí)的識別技術(shù)?;谑止さ淖R別技術(shù)由人為判別,需較長的時(shí)間周期并依賴鑒定者的專業(yè)能力?;跈C(jī)器學(xué)習(xí)的方法是一種自動識別的技術(shù),它將謠言問題看作分類問題,通過提取謠言和其傳播的特征用于訓(xùn)練分類模型。該方法受平臺限制,并且特征的設(shè)計(jì)與選擇較為困難。本文在前人基礎(chǔ)之上,提出了并實(shí)現(xiàn)了一種微博謠言的自動識別系統(tǒng)。由于沒有任何一種單一的學(xué)習(xí)算法在所有情況下都具有優(yōu)勢,不同的學(xué)習(xí)算法可能會得到類似的結(jié)果[5],并且最有效的特征通常對機(jī)器學(xué)習(xí)的結(jié)果有著巨大的影響[6],因此有效特征的選擇對于謠言檢測非常重要。前人的研究集中使用微博的固有特征[7-9],而忽略隱含因素的影響,因此本文在前人的研究基礎(chǔ)上提出兩個(gè)微博的隱特征:贊的數(shù)目和置疑度。
為了識別微博中的謠言,微博服務(wù)提供商做了大量的努力。新浪微博推出了名為“微博辟謠”的官方賬號,由7名經(jīng)驗(yàn)豐富的編輯組成,對新浪微博24小時(shí)不間斷監(jiān)控。微博辟謠定期收集和判斷微博中的謠言消息,并將結(jié)果以微博的形式發(fā)布,凡是關(guān)注該賬號的用戶都可以及時(shí)收到辟謠消息。另外,新浪微博還提出了基于眾包技術(shù)的“不實(shí)消息舉報(bào)”服務(wù)。任何用戶都可以通過這個(gè)平臺舉報(bào)謠言,最終由微博社區(qū)服務(wù)中心的編輯進(jìn)行判斷并通過微博展示結(jié)果。由于消息的正確性完全由人工判斷、識別周期長,這些方法不能有效地識別謠言。
為了解決手工識別方式的缺點(diǎn),提出了基于機(jī)器學(xué)習(xí)的自動識別技術(shù)。Mendoza[7]中從Twitter中提取出68個(gè)特征并歸為4類:基于內(nèi)容的特征、基于用戶的特征、基于傳播的特征和基于話題的特征。后續(xù)的一些研究在不同的研究對象上分析出更適合的特征,或者從不同角度發(fā)現(xiàn)更具有代表性的特征。如Yang[8]等提出了客戶端類型和事件地點(diǎn)兩個(gè)新的特征;Sun[9]等提出了消息使用的實(shí)意動詞數(shù)、消息是否包含強(qiáng)烈消極詞匯等,并針對于圖文不符類謠言提出了基于多媒體的特征;Cai[10]根據(jù)轉(zhuǎn)發(fā)和評論文本簇聚消息得到關(guān)鍵詞作為特征。這些研究集中使用微博的固有特征,而忽略了微博中各個(gè)實(shí)體間的聯(lián)系和其中隱藏的特征,如微博之間的爭議、用戶態(tài)度等。
謠言識別可以看作機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)的任務(wù)是通過學(xué)習(xí)使得模型能夠?qū)θ我饨o定的輸入,對其相應(yīng)的輸出做出一個(gè)好的預(yù)測。監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型,由條件概率分布P (Y|X)或決策函數(shù)Y=f(x)表示。其中X稱為輸入變量,Y稱為輸出變量。在監(jiān)督學(xué)習(xí)中,輸入變量的取值記作x,通常由特征向量表示:
x=(x(1),x(2),…,x(i),…,x(n))
x(i)表示的第i個(gè)特征,通常使用xi表示多個(gè)輸入變量中的第i個(gè),即:
xi=(xi(1),xi(2),…,xi(n))
監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)模型,對測試數(shù)據(jù)進(jìn)行預(yù)測。訓(xùn)練數(shù)據(jù)由輸入與輸出對組成,通常表示為:
T={(x1,y1),(x1,y1),…,(xN,yN)}
xi∈N哿R表示輸入,即特征向量;yi表示輸出,即預(yù)測結(jié)果。測試數(shù)據(jù)也由相應(yīng)的輸入與輸出對組成。監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測兩個(gè)過程,在學(xué)習(xí)過程中,利用給定訓(xùn)練集學(xué)習(xí)得到模型,表示為概率模型或決策函數(shù)。在預(yù)測過程中,對于給定測試樣本中的輸入xN+1,由模型yN+1=argmaxyN+1P(yN+1|xN+1或yN+1=f(xN+1)給出相應(yīng)的yN+1。
特征選擇和提取是機(jī)器學(xué)習(xí)的重要步驟,在文獻(xiàn)[8]中列舉出了68個(gè)特征用于謠言檢測。本文分析了微博的特性,使用Best-first策略選擇了其中的7個(gè)特征,如表1所示。
表1 特征描述
在此基礎(chǔ)上,本文分析了微博中包含的隱藏信息,提出了兩個(gè)新的特征:贊的數(shù)目和置疑度。新浪微博中提供了 “贊”的操作用于統(tǒng)計(jì)用戶對該微博的喜好。Mendoza[7]指出微博平臺中的謠言消息通常會比正常消息受到更多的置疑。通過觀察發(fā)現(xiàn),對于熱點(diǎn)話題,正常消息的“贊”的數(shù)目和謠言消息的“贊”的數(shù)目存在明顯的區(qū)別。置疑度定義為評論數(shù)與轉(zhuǎn)發(fā)數(shù)之間的關(guān)系,定義為:
評論數(shù)通常表示用戶對該條消息存在者不同的態(tài)度或其他的想法,而轉(zhuǎn)發(fā)數(shù)通常表示了用戶對該條微博存在支持的態(tài)度,置疑度表示了用戶對微博消息存在不同態(tài)度的比率。我們將收集到的數(shù)據(jù)進(jìn)行處理,提取“贊”的數(shù)目及置疑度與消息之間的關(guān)系,使用箱線圖描述兩個(gè)新特征區(qū)分消息的能力,得到如圖1所示的結(jié)果。
如圖1所示,“贊”的數(shù)目和置疑度對謠言和正常消息有著明顯的區(qū)分能力。通常正常消息的“贊”的數(shù)目會更多。與此同時(shí),謠言的置疑程度也明顯區(qū)別于正常消息。
4.1數(shù)據(jù)集
本文通過模擬登錄weibo.cn頁面,構(gòu)造URL抓取微博數(shù)據(jù)。數(shù)據(jù)集中包含了1000條正常數(shù)據(jù)和1000條謠言數(shù)據(jù)。在實(shí)驗(yàn)過程中,本文使用10則交叉驗(yàn)證
進(jìn)行訓(xùn)練和驗(yàn)證分類器。
圖1 兩個(gè)新特征對于1(謠言)和2(正常消息)貢獻(xiàn)的箱線圖
4.2實(shí)驗(yàn)結(jié)果
本文經(jīng)過分析,提取出包含了新特征的9個(gè)特征用于謠言檢測系統(tǒng),最后使用標(biāo)準(zhǔn)信息檢索度量值準(zhǔn)確率、召回率和F1來評估方法的性能。精度表示被正確標(biāo)注的謠言占分類器預(yù)測為謠言的比率。召回率表示被正確標(biāo)注的謠言占真正謠言的比率。F1是精度和召回率的一個(gè)綜合評價(jià),定義為:
在實(shí)驗(yàn)過程中,我們分別使用三種不同的分類算法構(gòu)造分類器。實(shí)驗(yàn)結(jié)果如圖2所示。
如圖2所示,SVM分類器、貝葉斯分類器和決策樹分類器的準(zhǔn)確率分別是87%、83%和78%,F(xiàn)1分?jǐn)?shù)分別為0.855、0.850和0.765。決策數(shù)在三者中精度較低,這是因?yàn)樘卣髦杏猩僭S的特征分類能力較弱。而從整體結(jié)果看出,選擇不同的機(jī)器學(xué)習(xí)算法得到的結(jié)果是相似的。
圖2 三種不同分類算法結(jié)果對比圖
微博給消息傳播提供了一個(gè)良好的平臺,同時(shí)也面臨著謠言泛濫的問題,找到一種有效的自動謠言識別方法是非常重要的。本文分析了基于機(jī)器學(xué)習(xí)的分類模型,實(shí)現(xiàn)了一個(gè)自動謠言檢測系統(tǒng)。并挖掘微博中包含的隱藏信息,提出了贊的數(shù)目和置疑度兩個(gè)新的特征。實(shí)驗(yàn)結(jié)果證明本文提出的方法與特征的可行性和有效性。
[1]M.Mendoza,B.Poblete,C.Castillo,Twitter Under Crisis:Can We Trust What We RT[C].Proceedings of the First Workshop on Social Media Analytics,2010:71-79.
[2]Weibo MAUs 198 Mln in Q1 2015,Up 38%YoY.http://www.chinainternetwatch.com/13364/weibo-q1-2015/.
[3]報(bào)告稱近六成假新聞首發(fā)于微博 周二微信謠言最多.http://www.chinanews.com/gn/2015/06-24/7362797.shtml.
[4]人民日報(bào)盤點(diǎn)十大網(wǎng)絡(luò)謠言軍車進(jìn)京、搶鹽風(fēng)波上榜.http://news.xinhuanet.com/politics/2012-04/16/c1117824495.htm.
[5]J.Friedman,T.Hastie,R.Tibshirani.The Elements of Statistical Learning vol.1:Springer Series in Statistics Springer,Berlin,2001. [6]M.A.Hall.Correlation-Based Feature Selection for Machine Learning.The University of Waikato,1999.
[7]C.Carlos,M.Marcelo,P.Barbara,Information Credibility on Twitter[C].Proceedings of the 20th International Conference on World Wide Web,2011:675-684.
[8]Y.Fan,L.Yang,Y.Xiaohui et al.Automatic Detection on Sina Weibo[C].Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics,2012,13.
[9]S.Shengyun,L.Hongyan,H.Jun et al.Detecting Event Rumors on Sina Weibo Automatically[J].Web Technologies and Applications,2013:120-131.
[10]C.Guoyong,W.Hao,L.Rui,Rumor Detection in Chinese Via Crowd Responses[C].2014 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining,2014.
Rumor;Social Media;Microblog;Machine Learning
Research and Implementation of Automatic Rumor Detection
1007-1423(2016)07-0040-04
10.3969/j.issn.1007-1423.2016.07.009
馮程(1992-),男,貴州桐梓人,碩士研究生,研究方向?yàn)榫W(wǎng)絡(luò)安全、機(jī)器學(xué)習(xí)
梁剛(1976-),男,四川成都人,博士,講師,研究方向?yàn)榫W(wǎng)絡(luò)安全、智能計(jì)算、機(jī)器學(xué)習(xí)
周泓宇(1990-),男,重慶人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)
楊進(jìn)(1980-),男,四川樂山人,博士,教授,研究方向?yàn)榫W(wǎng)絡(luò)安全、機(jī)器學(xué)習(xí)
2016-01-26
2016-02-26
FENG Cheng1,LIANG Gang1,ZHOU Hong-yu1,YANG Jin2
(1.College of Computer Science,Sichuan University,Chengdu,Chengdu 610065;2.College of Computer Science,Leshan Normal University,Leshan,Leshan 614000)
針對微博中謠言泛濫的問題,提出一種自動識別謠言的方法。該方法基于機(jī)器學(xué)習(xí)的原理,并在前人的基礎(chǔ)上,結(jié)合贊的數(shù)目和置疑度兩個(gè)新特征。實(shí)驗(yàn)結(jié)果顯示結(jié)合新特征實(shí)現(xiàn)的系統(tǒng)在識別謠言上準(zhǔn)確率達(dá)到82%,驗(yàn)證所提出的方法與特征的可行性和有效性。
謠言;社交網(wǎng)絡(luò);微博;機(jī)器學(xué)習(xí)
四川省科技廳項(xiàng)目(No.2014JY0036)、四川省教育廳創(chuàng)新團(tuán)隊(duì)基金(No.13TD0014)
Aiming at the spread of rumor in microblog system,proposes an automatic rumor detection method.It is based on the principle of ma-chine learning and combined with the number of pros as well as the number of the doubt on the basis of previous studies.The experiment shows that system with new features reaches 82%accuracy rate.Thus,it proves that system that implemented is feasible and two new fea-tures are efficient.