• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于梯度提升決策樹的微博虛假消息檢測(cè)

      2018-04-12 07:18:01段大高蓋新新韓忠明劉冰心
      計(jì)算機(jī)應(yīng)用 2018年2期
      關(guān)鍵詞:謠言特征值分類器

      段大高,蓋新新,韓忠明,劉冰心

      (1.北京工商大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,北京 100048; 2.北京工商大學(xué) 食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048;3.University of Liverpool, Department of mathematical Sciences, Liverpool, GB L69 7ZX)(*通信作者電子郵箱hanzhongming@btbu.edu.cn)

      0 引言

      微博是如今網(wǎng)民發(fā)布信息和獲取信息的主要渠道之一。根據(jù)中國互聯(lián)網(wǎng)信息中心(China Internet Network Information Center, CNNIC)2017年1月發(fā)布的全國互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報(bào)告[1],我國網(wǎng)民規(guī)模達(dá)7.31億,其中微博用戶超過2.67億,占整體網(wǎng)民的36.5%。微博的低門檻特性使得用戶可以不受時(shí)間地域的限制,自由表達(dá)自己的觀點(diǎn),使用戶之間分享信息更加迅速、便捷。微博已經(jīng)逐步滲透進(jìn)人們的生活,影響人們的生活方式。

      微博平均每天會(huì)增加數(shù)億條博文,這些博文中既有真實(shí)的信息,也有大量的虛假信息,而虛假信息的泛濫對(duì)群眾的影響非常大。例如:2017年3月初,一篇文章在網(wǎng)絡(luò)上引起軒然大波,該文稱疫苗會(huì)損害人體健康,危害無窮,家長(zhǎng)們應(yīng)該讓孩子遠(yuǎn)離疫苗,甚至聲稱孩子自然感染疾病比打疫苗強(qiáng)。該虛假消息在傳播的過程中,誤導(dǎo)了網(wǎng)民的思想,很多家長(zhǎng)選擇了不再給孩子注射疫苗。4月,微博上紛紛在轉(zhuǎn)一條如何鑒別草莓變色催熟的文章。該文稱如果草莓籽是紅色的,便是用了染色劑的緣故。浙江寧波、江蘇徐州等地市民也的確發(fā)現(xiàn),市面上很多草莓的籽是紅色的,頓時(shí)心生不安。很多市民不再食用草莓,給社會(huì)造成了巨大的經(jīng)濟(jì)損失。然而,真實(shí)的情況是,草莓自然成熟后,有部分草莓籽是會(huì)變成紅色的。有效地識(shí)別虛假信息對(duì)營造誠信、公平、健康的網(wǎng)絡(luò)環(huán)境以及維持正常的社會(huì)秩序是十分必要的。

      現(xiàn)有的研究主要是通過選取文本內(nèi)容、用戶屬性和傳播特性等方面的特征,然后構(gòu)建合適的分類模型,以達(dá)到識(shí)別微博虛假消息的目的。但是,這些研究中往往只選取局部、片面的特征(如選取文本內(nèi)容特征的統(tǒng)計(jì)特征、淺層傳播特征或者簡(jiǎn)單的用戶屬性特征),沒有全面、深入地分析并挖掘影響虛假消息識(shí)別的主要因素。另外,以往的研究中只是選用單一的分類器對(duì)微博虛假消息進(jìn)行檢測(cè),如樸素貝葉斯(Naive Bayes, NB)、支持向量機(jī)(Support Vector Machine, SVM)、決策樹(Decision Tree,DT)等,沒有考慮使用組合多個(gè)弱分類器構(gòu)建強(qiáng)分類器來識(shí)別虛假消息,故而識(shí)別的精度不高。因此,基于微博的短文本特性,本文提取微博評(píng)論的文本內(nèi)容、用戶屬性、信息傳播和時(shí)間特性四個(gè)方面的特征,構(gòu)建基于梯度提升決策樹(Gradient Boost Decision Tree, GBDT)算法的微博虛假消息識(shí)別模型。實(shí)驗(yàn)結(jié)果表明,本文提出的識(shí)別方法能夠有效提高虛假消息檢測(cè)的準(zhǔn)確率。

      1 相關(guān)工作

      近幾年國內(nèi)外關(guān)于微博虛假消息的研究逐漸增多。在國外方面,2011年,Castillo等[2]提出了對(duì)Twitter話題可信度進(jìn)行評(píng)估的方法,通過提取消息特征、用戶特征、話題特征以及傳播特征,采用J48決策樹分類方法來預(yù)測(cè)熱門話題是否可信。2012年,Yang等[3]提出客戶端類型和微博事件發(fā)生的地理位置兩種新特征,采用SVM分類方法對(duì)謠言進(jìn)行檢測(cè)。實(shí)驗(yàn)結(jié)果表明,當(dāng)微博所涉及的事件發(fā)生在國外而且使用非移動(dòng)客戶端時(shí),此微博被判斷為謠言微博的概率較高。2015年,Dayani等[4]通過提取用戶特征和內(nèi)容特征,并采用K最近鄰(K-Nearest Neighbors, KNN)分類器以及NB分類器在Twitter中檢測(cè)謠言中支持、反對(duì)、質(zhì)疑、中性的評(píng)論。實(shí)驗(yàn)結(jié)果表明:對(duì)于用戶特征,KNN分類器的效果并不理想;而對(duì)于內(nèi)容特征,樸素貝葉斯能有效檢測(cè)出謠言話題下的評(píng)論數(shù)量。2015年,Ma等[5]提出基于謠言生命周期的時(shí)間序列的社交上下文特征,包括微博內(nèi)容特征、用戶特征和傳播特征,并采用線性SVM分類器分別在Twitter數(shù)據(jù)集與DT、隨機(jī)森林(Random Forest, RF)以及SVM-RBF方法作比較。實(shí)驗(yàn)結(jié)果表明:該文中提出方法的精確性比DT、RF以及SVM-RBF方法高,且達(dá)到與DT、RF以及SVM-RBF相同的精確性的用時(shí)最少。2015年,Liu等[6]提出在Twitter上的實(shí)時(shí)謠言揭露,通過使用“群眾智慧”和系統(tǒng)性方法來挖掘語言特征,并采用DT分類器、RF分類器以及SVM分類器進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:該文中提出的方法在事件只有最初的5條Tweets以及最初的一小時(shí)內(nèi)的預(yù)測(cè)結(jié)果都要高于其他方法;而選取兩個(gè)實(shí)時(shí)謠言跟蹤網(wǎng)站snopes.com和emergent.info與人工驗(yàn)證方法相比,結(jié)果顯示該方法能將檢測(cè)延遲減少25%和50%。

      與國外相比,國內(nèi)關(guān)于虛假消息檢測(cè)的研究相對(duì)較少。2013年,蔣盛益等[7]對(duì)現(xiàn)有成果進(jìn)行了梳理,總結(jié)了這些研究的不足,指出了微博信息可信度分析的關(guān)鍵問題和核心方法,并對(duì)未來進(jìn)行了展望。2013年,賀剛等[8]提出利用符號(hào)特征、鏈接特征、關(guān)鍵詞分布特征和時(shí)間差等新特征,將微博謠言識(shí)別形式化為分類問題,利用SVM分類算法對(duì)微博進(jìn)行分類,識(shí)別結(jié)果可以輔助識(shí)別謠言。2016年,路同強(qiáng)等[9]在分析微博謠言傳播特點(diǎn)的基礎(chǔ)上,結(jié)合微博文本內(nèi)容、微博用戶等方面的特征構(gòu)建特征集合,將半監(jiān)督學(xué)習(xí)算法應(yīng)用到謠言檢測(cè)中,以解決人工標(biāo)注語料代價(jià)高昂的問題。2016年,吳樹芳等[10]在HITS(Hyperlink-Induced Topic Search)算法的基礎(chǔ)上,提出了融合用戶交互行為和博文內(nèi)容的微博用戶可信度評(píng)估算法,分別構(gòu)建基于交互行為和基于博文內(nèi)容的微博用戶有向鏈接圖,通過反復(fù)訓(xùn)練法獲得可信度閾值,繪制不同可信度算法的用戶可信度曲線,驗(yàn)證了算法的可行性和有效性。2016年,謝柏林等[11]提出一種基于把關(guān)人行為的微博虛假信息及早檢測(cè)方法。該方法利用模型狀態(tài)持續(xù)時(shí)間概率為Gamma分布的隱半馬爾可夫模型來刻畫信息轉(zhuǎn)發(fā)者和評(píng)論者對(duì)流行的真實(shí)信息的把關(guān)行為,基于此來及早識(shí)別微博上流行的虛假信息。實(shí)驗(yàn)結(jié)果表明該方法具有較好的性能和較高的在線檢測(cè)速度。

      2 特征選取

      微博虛假消息與真實(shí)消息的評(píng)論存在著很大的差異。在文本內(nèi)容方面,虛假消息的評(píng)論具有語氣不確定程度強(qiáng)、消極詞匯多、內(nèi)容與源消息相關(guān)程度弱的特點(diǎn);在用戶屬性方面,虛假消息的發(fā)布者一般是非認(rèn)證用戶,其注冊(cè)日期比較短、注冊(cè)地信息不夠詳細(xì),朋友數(shù)量遠(yuǎn)高于粉絲數(shù)量,并且不使用頂級(jí)域名;在傳播特性方面,網(wǎng)絡(luò)大V用戶對(duì)源消息的轉(zhuǎn)發(fā)和URL、@、hashtag等符號(hào)信息將會(huì)影響用戶對(duì)源消息的信任程度,進(jìn)而影響微博的轉(zhuǎn)發(fā)量;在時(shí)間特性方面,距離源微博發(fā)布時(shí)間越久的微博,其是虛假消息的概率會(huì)越小。

      基于以上分析,本文中總共選取了11個(gè)特征,并將這些特征分為四類:基于文本內(nèi)容的特征、基于用戶的特征、基于信息傳播的特征和基于時(shí)間的特征。其中, 基于文本內(nèi)容的特征已在文獻(xiàn)[12]中詳細(xì)介紹,故在此不再多作闡述。表1列出了文中所使用的全部特征,并對(duì)特征作了簡(jiǎn)單的介紹。

      表1 特征及其描述Tab. 1 Features and their description

      2.1 關(guān)注度特征

      微博用戶之間存在的關(guān)系有兩種:關(guān)注與被關(guān)注。關(guān)注其他賬戶,則此賬戶為所關(guān)注賬戶的粉絲,可以看到其關(guān)注賬戶發(fā)表的博文。兩個(gè)賬戶互相關(guān)注,兩個(gè)賬戶即為朋友關(guān)系,都可以看到彼此發(fā)表的博文。郭浩等[13]指出, 積極關(guān)注別人,保持較高的發(fā)文數(shù)量,就可以吸引更多的粉絲,獲得更高的關(guān)注度,使社會(huì)化網(wǎng)絡(luò)媒體營銷更加有效。這說明一些在微博上傳播虛假消息的賬戶,可能會(huì)關(guān)注多個(gè)其他賬戶,以希望這些賬戶能夠關(guān)注自己,看到自己發(fā)表的博文并傳播這些消息,結(jié)果表現(xiàn)為朋友數(shù)量遠(yuǎn)遠(yuǎn)多于粉絲數(shù)量。正常用戶的朋友和粉絲的數(shù)量一般相差不多,其微博上的關(guān)注關(guān)系一般是現(xiàn)實(shí)中朋友關(guān)系的映射。因此,將關(guān)注度特征計(jì)算公式表示如下:

      ATTu=FOLu/(FOLu+FRIu)

      (1)

      其中:FOLu表示用戶u的粉絲數(shù)量,F(xiàn)RIu表示用戶u的朋友數(shù)量。正常用戶的關(guān)注度值要高于虛假消息傳播用戶的關(guān)注度值。

      2.2 頂級(jí)域名特征

      頂級(jí)域名是付費(fèi)服務(wù),它具有易查找、可信度高、獨(dú)立性等優(yōu)點(diǎn),一般來說,只有一些有需要的個(gè)人或者是公司才會(huì)使用這項(xiàng)服務(wù)。而虛假消息傳播用戶本身是為了盈利,故而只會(huì)注冊(cè)一些免費(fèi)的賬戶來傳播信息,所以此特征具有明顯的區(qū)分性。頂級(jí)域名特征(TLD)的取值是{0,1},0表示個(gè)人介紹中有頂級(jí)域名的用戶的特征值,1表示個(gè)人介紹中無頂級(jí)域名的用戶的特征值。

      2.3 意見領(lǐng)袖特征

      王永強(qiáng)[14]指出,所謂意見領(lǐng)袖,指的是人際傳播網(wǎng)絡(luò)中經(jīng)常為他人提供信息、意見、評(píng)論并對(duì)他人施加影響的“活躍分子”,是大眾傳播效果形成過程的中介或過濾環(huán)節(jié)。意見領(lǐng)袖在信息傳播過程中的影響是巨大的。例如,2010年12月6日,微博上爆出金庸先生“去世”的消息,當(dāng)晚《中國新聞周刊》在官方微博上轉(zhuǎn)發(fā)了這則微博,這則消息事后被證實(shí)為謠言。但網(wǎng)絡(luò)大V的轉(zhuǎn)發(fā)加速了消息的傳播,導(dǎo)致此謠言在數(shù)分鐘內(nèi)即被轉(zhuǎn)發(fā)近千條。為了衡量意見領(lǐng)袖在傳播過程中的影響,本文中將用戶分為兩類:認(rèn)證用戶和普通用戶,主要獲取認(rèn)證用戶在傳播過程中的影響。由此,將意見領(lǐng)袖特征的計(jì)算公式表示為:

      (2)

      其中:REPver表示通過認(rèn)證用戶微博被轉(zhuǎn)發(fā)的數(shù)量,REPori表示源消息的轉(zhuǎn)發(fā)數(shù)量。如果是普通用戶,則意見領(lǐng)袖特征為0。

      2.4 時(shí)間差特征

      謠言的傳播有四個(gè)階段:潛伏期、變異期、爆發(fā)期和消亡期。謠言的爆發(fā)期通常時(shí)間比較短暫。在謠言微博發(fā)布后,隨即會(huì)出現(xiàn)一系列辟謠的微博,并且其傳播要比謠言微博快很多,所以,距離謠言源微博時(shí)間越久的微博,它是謠言的概率會(huì)越小。根據(jù)以上分析,用時(shí)間差特征來表示當(dāng)前評(píng)論發(fā)布時(shí)間距微博源消息發(fā)布時(shí)間的間隔,其計(jì)算公式表示如下:

      TIDw=TIMw-TIMm

      (3)

      其中:TIMw表示當(dāng)前評(píng)論w的發(fā)布時(shí)間,TIMm表示源消息m的發(fā)布時(shí)間。時(shí)間差特征以天為單位。

      2.5 其他特征

      是否認(rèn)證特征(VER)、注冊(cè)日期特征(RED)、注冊(cè)地特征(POR)在一定程度上反映了用戶的可信度。本文中通過是否認(rèn)證特征將用戶分為兩類:認(rèn)證用戶和普通用戶。是否認(rèn)證特征的取值是{0,1},0表示普通用戶的特征值,1表示認(rèn)證用戶的特征值。注冊(cè)日期特征是指用戶注冊(cè)的實(shí)際天數(shù),通過計(jì)算用戶當(dāng)前評(píng)論的發(fā)表時(shí)間與用戶的注冊(cè)日期的差值來實(shí)現(xiàn)。注冊(cè)地特征衡量用戶注冊(cè)位置信息的詳細(xì)程度,其取值是{0, 0.5, 1},0表示注冊(cè)位置信息為空的用戶的特征值,0.5表示注冊(cè)位置信息中只有省份的用戶的特征值,1表示注冊(cè)位置信息中既有省份又有城市的用戶的特征值。

      3 特征選取

      本文在微博消息的評(píng)論中提取四個(gè)方面的特征,從不同的角度衡量微博虛假消息與真實(shí)消息之間的區(qū)別。與真實(shí)消息相比,在文本內(nèi)容方面,虛假消息中SUP特征值為負(fù)、COR特征值較低、CON特征值較低的評(píng)論更多;在用戶屬性方面,虛假消息的發(fā)布者一般是VER特征值為0,且ATT特征值較低、RED特征值較低、POR特征值較低、TLD特征值為0;在傳播特性方面,虛假消息的評(píng)論中URL、@、hashtag特征值較低,OPL特征值較低;在時(shí)間特性方面,虛假消息中TID特征值較小的評(píng)論更多。特征提取的目的是為了分析影響類別之間差異的主要因素。

      微博虛假消息識(shí)別問題,可以看作一個(gè)分類問題。在數(shù)據(jù)量較大的情況下,需要選擇一個(gè)分類速度高且準(zhǔn)確率也高的模型。因此本文中選用GBDT算法,它是由Friedman[15]提出的組合決策樹模型,是一種由多個(gè)弱分類器經(jīng)過多次迭代形成的強(qiáng)分類器。與傳統(tǒng)Boosting算法(如Adaboost)不同的是,GBDT算法的基分類器是回歸樹,其迭代的目的是通過計(jì)算上一次模型的負(fù)梯度來改進(jìn)模型,然后在殘差減少的梯度方向上建立新的決策樹;Adaboost算法通過簡(jiǎn)單地調(diào)整正確、錯(cuò)誤樣本的權(quán)重來改進(jìn)模型,二者有本質(zhì)區(qū)別。

      現(xiàn)給定微博數(shù)據(jù)樣本{(xi,yi)}(i=1,2,…,n)。由于虛假消息識(shí)別是一個(gè)分類過程,故采用對(duì)數(shù)損失函數(shù),即:

      (4)

      其中:xi=(x1i,x2i,…,xqi),n為樣本的數(shù)量,q為虛假消息識(shí)別中特征的數(shù)量,yi為樣本的實(shí)際標(biāo)簽,pi為樣本的預(yù)測(cè)標(biāo)簽。GBDT算法的詳細(xì)步驟如下:

      1)初始化模型,估計(jì)使損失函數(shù)最小化的常數(shù)值β:

      (5)

      2)在上一次模型損失函數(shù)的梯度下降方向上建立模型,從m=1到M(M為迭代次數(shù)):

      ①計(jì)算損失函數(shù)的負(fù)梯度在當(dāng)前模型的值,將它作為殘差rim的估計(jì)值:

      (6)

      ②將①中得到的估計(jì)殘差作為輸入,擬合一棵回歸樹,求得回歸樹的葉節(jié)點(diǎn)區(qū)域Rj,m(j=1,2,…,J)。

      ③為使損失函數(shù)極小化,對(duì)于j=1,2,…,J,求得沿梯度下降方向的最優(yōu)步長(zhǎng)βjm:

      (7)

      ④更新模型Fm(x):

      (8)

      3)迭代結(jié)束,得到模型FM(x):

      (9)

      4)根據(jù)得到的模型,估算樣本預(yù)測(cè)為正類的概率p+(x)和預(yù)測(cè)為負(fù)類的概率p-(x):

      (10)

      5)據(jù)以下準(zhǔn)則預(yù)測(cè)樣本標(biāo)簽y(x),其中c(-1,1)是代價(jià)函數(shù),表示當(dāng)真實(shí)類別為1,預(yù)測(cè)類別為-1時(shí)的代價(jià):

      y(x)=2*l{c(-1,1)p+(x)>c(1,-1)p-(x)}-1

      (11)

      其中:l{}是將布爾值轉(zhuǎn)換為{0,1}函數(shù)。

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)

      本文實(shí)驗(yàn)數(shù)據(jù)集有兩個(gè):數(shù)據(jù)集1選自文獻(xiàn)[16],其數(shù)據(jù)采集自新浪微博社區(qū)管理中心和新浪微博API接口,總共包含2 313個(gè)謠言和2 351個(gè)非謠言,內(nèi)容包括旅游、球賽、娛樂、生活、常識(shí)等話題。數(shù)據(jù)集2是在文獻(xiàn)[17]中數(shù)據(jù)集的基礎(chǔ)上,采集新浪微博社區(qū)管理中心中的不實(shí)信息作為謠言數(shù)據(jù),然后在新浪微博上爬取與謠言微博具有相同時(shí)間跨度的微博作為非謠言數(shù)據(jù),保留原微博字?jǐn)?shù)超過10,評(píng)論數(shù)超過200條的微博。處理后的數(shù)據(jù)集2總共包含447個(gè)謠言和455個(gè)非謠言,內(nèi)容主要是2013年和2014年的熱點(diǎn)新聞。兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)情況見表2。相比數(shù)據(jù)集2,數(shù)據(jù)集1包含的特征的相關(guān)信息更多,本文在數(shù)據(jù)集1中提取了表1中介紹的所有特征;而數(shù)據(jù)集2則缺少表1中某些特征的相關(guān)信息,最終在數(shù)據(jù)集2中提取了SUP、COR、CON、URL、@、hashtag和TID特征。本文中提出的虛假消息識(shí)別模型是一個(gè)綜合模型,如果需要針對(duì)具體某個(gè)事件進(jìn)行識(shí)別,可以結(jié)合本文中的模型,并使用和事件本身相關(guān)的特征進(jìn)行識(shí)別。實(shí)驗(yàn)按照8∶2的比例隨機(jī)劃分?jǐn)?shù)據(jù)集,即數(shù)據(jù)集的80%作訓(xùn)練集,余下20%作測(cè)試集,均采用十折交叉驗(yàn)證。

      表2 數(shù)據(jù)集的統(tǒng)計(jì)情況Tab. 2 Statistics of the data set

      4.2 特征歸一化

      從評(píng)論中提取的特征如果直接用于分類,其相差過大的權(quán)重范圍將會(huì)影響分類器的準(zhǔn)確性。為此,對(duì)特征進(jìn)行歸一化處理是十分有必要的。本文使用式(12)對(duì)特征進(jìn)行歸一化處理,歸一化后特征權(quán)重限定在[0,1]區(qū)間,可以消除離群數(shù)據(jù)對(duì)分類的影響,也可以使計(jì)算過程收斂得更快。

      (12)

      其中:min(x.j)表示第j列特征權(quán)重的最小值,max(x.j)表示第j列特征權(quán)重的最大值。

      4.3 評(píng)價(jià)指標(biāo)

      為了評(píng)測(cè)微博虛假消息檢測(cè)的結(jié)果,本文選用查準(zhǔn)率(P)、查全率(R)以及F1值作為評(píng)價(jià)標(biāo)準(zhǔn)。

      P=TP/(TP+FP)

      (13)

      R=TP/(TP+FN)

      (14)

      F1=2PR/(P+R)

      (15)

      其中:TP是被正確判別為謠言的微博數(shù),F(xiàn)P是被錯(cuò)誤判別為謠言的微博數(shù),F(xiàn)N是被錯(cuò)誤判別為非謠言的微博數(shù)。另外,為了衡量總體的分類效果,采用下面的公式計(jì)算總體分類正確率:

      Acc=識(shí)別正確的微博數(shù)/總微博數(shù)

      (16)

      4.4 結(jié)果分析

      微博虛假消息的評(píng)論存在著語氣不確定程度強(qiáng)、消極詞匯多、重復(fù)源消息等的特點(diǎn)?;诖?,通過統(tǒng)計(jì)微博消息中被模型判定為虛假消息評(píng)論的比例,可以得到一個(gè)閾值,當(dāng)微博消息中的虛假評(píng)論達(dá)到這個(gè)閾值的時(shí)候,則此微博被判定為虛假消息。

      為了比較不同分類器分類的結(jié)果,本文選擇Castillo等[2]使用的J48決策樹分類器、 Yang等[3]使用的SVM分類器以及Kwon等[18]使用的RF分類器。其中,SVM核函數(shù)選擇徑向基核函數(shù)(Radial Basis Function, RBF),使用LIBSVM[19]中的grid來尋找最優(yōu)的參數(shù)c和γ。

      4.4.1實(shí)驗(yàn)閾值

      實(shí)驗(yàn)以正確率Acc為基準(zhǔn),使用不同分類器獲得使正確率Acc最高的閾值,稱為最佳閾值,它可以最好地將虛假消息與真實(shí)消息區(qū)分開。兩個(gè)數(shù)據(jù)集的最佳閾值統(tǒng)計(jì)結(jié)果如表3所示。

      表3 數(shù)據(jù)集的最佳閾值Tab. 3 The best threshold of the data sets

      4.4.2特征重要性

      為了驗(yàn)證特征在分類過程中的影響,以正確率Acc為基準(zhǔn),用GBDT分類器的默認(rèn)參數(shù)來對(duì)不同的特征進(jìn)行訓(xùn)練,數(shù)據(jù)集1使用表1中的全部特征,數(shù)據(jù)集2使用SUP、COR、CON、URL、@、hashtag和TID特征,兩個(gè)數(shù)據(jù)集的訓(xùn)練結(jié)果如表4所示。其中,特征前面的“-”符號(hào)表示不包括該特征的特征集,Acc中的“—” 表示實(shí)驗(yàn)沒有使用該特征集。

      表4 不同特征對(duì)分類的影響Tab. 4 Influence on classification with different features

      從表4中可以明顯看出,實(shí)驗(yàn)中用到的所有特征都有助于提升微博虛假消息的檢測(cè)效果。其中,數(shù)據(jù)集1使用所有特征(ALL)的正確率Acc是0.894,高于數(shù)據(jù)集2(0.892)。這是因?yàn)閿?shù)據(jù)集1使用了表1中的全部特征,數(shù)據(jù)集2只使用表1中的部分特征。在數(shù)據(jù)集1中,時(shí)間差特征(TID)和注冊(cè)日期特征(RED)對(duì)總體分類結(jié)果影響是最大的;在數(shù)據(jù)集2中,內(nèi)容相關(guān)性特征(COR)和支持性特征(SUP)對(duì)總體分類結(jié)果影響是最大的。這是因?yàn)閿?shù)據(jù)集1中的話題,例如生活、常識(shí)等,其討論的時(shí)間會(huì)比較長(zhǎng),所以在數(shù)據(jù)集1中,關(guān)于時(shí)間特征的重要性會(huì)比較高;數(shù)據(jù)集2的話題是熱點(diǎn)新聞,其評(píng)論內(nèi)容比數(shù)據(jù)集1更加規(guī)范,所以在數(shù)據(jù)集2中,起重要作用的主要是基于文本內(nèi)容的特征,而新聞的時(shí)效一般都比較短,故時(shí)間差特征(TID)在數(shù)據(jù)集2中體現(xiàn)的重要性沒有在數(shù)據(jù)集1中的重要性高。

      4.4.3分類結(jié)果

      為了便于比較,實(shí)驗(yàn)將GBDT、RF、J48中決策樹的最大深度統(tǒng)一設(shè)定為15,SVM核函數(shù)選擇RBF,使用LIBSVM尋找最優(yōu)的參數(shù)c和γ。兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表5所示。其中,F(xiàn)表示虛假消息,T表示真實(shí)消息。

      從表5中可以看出,GBDT分類器的正確率Acc要明顯高于SVM和J48。這是因?yàn)镚BDT是一種由多個(gè)弱分類器形成的強(qiáng)分類器,其效果要好于單一的分類器;GBDT分類器的分類效果要好于RF, 這是因?yàn)镚BDT的輸出是所有結(jié)果的累積,RF采用多數(shù)投票原則決定最終結(jié)果,且RF訓(xùn)練調(diào)參時(shí)依賴于決策樹的最大深度,而GBDT只需很小的深度就可以達(dá)到很高的精度,實(shí)驗(yàn)中為了提高分類速度,沒有給RF增大深度。數(shù)據(jù)集1中GBDT分類器的正確率Acc要高于數(shù)據(jù)集2中GBDT分類器的Acc,因?yàn)閿?shù)據(jù)集1中使用了表1中的全部特征,數(shù)據(jù)集2只使用表1中的部分特征,且數(shù)據(jù)集1比數(shù)據(jù)集2數(shù)據(jù)量大,故分類模型加精確。

      表5 不同分類器的分類結(jié)果Tab. 5 Classification results of different classifiers

      5 結(jié)語

      本文從微博評(píng)論的角度在文本內(nèi)容、用戶屬性、信息傳播和時(shí)間特性四個(gè)方面分析影響分類的因素并提取分類特征,并基于GBDT算法設(shè)計(jì)微博虛假消息識(shí)別模型。通過在兩個(gè)微博數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)分析可以看到,模型在數(shù)據(jù)集1上的實(shí)驗(yàn)結(jié)果要好于在數(shù)據(jù)集2上的實(shí)驗(yàn)結(jié)果;在數(shù)據(jù)集1中,起主要作用的是基于時(shí)間的特征,在數(shù)據(jù)集2中,起主要作用的是基于文本內(nèi)容的特征。兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)均表明,本文提出的基于GBDT的方法能夠有效提高微博虛假消息檢測(cè)的準(zhǔn)確率。

      但是,微博虛假消息檢測(cè)的價(jià)值體現(xiàn)在能夠及早地發(fā)現(xiàn)并處理,以減少對(duì)社會(huì)的危害。因此,下一步的工作重點(diǎn)是通過借助傳播模型以及消息傳播過程中用戶的認(rèn)知與識(shí)別能力,綜合更復(fù)雜的特征來構(gòu)建合適的模型,實(shí)現(xiàn)實(shí)時(shí)檢測(cè)微博虛假消息的目的。

      參考文獻(xiàn):

      [1]中國互聯(lián)網(wǎng)絡(luò)信息中心.中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].北京:中國互聯(lián)網(wǎng)信息中心,2017. (China Internet Network Information Center (CNNIC). Statistical report on Internet development in China [R]. Beijing: China Internet Network Information Center, 2017.)

      [2]CASTILLO C, MENDOZA M, POBLETE B. Information credibility on twitter [C]// WWW ’11: Proceedings of the 20th International Conference on World Wide Web. New York: ACM, 2011: 675-684.

      [3]YANG F, LIU Y, YU X, et al. Automatic detection of rumor on Sina Weibo [C]// MDS ’12: Proceedings of the 2012 ACM SIGKDD Workshop on Mining Data Semantics. New York: ACM, 2012: Article No. 13.

      [4]DAYANI R, CHHABRA N, KADIAN T, et al. Rumor detection in Twitter: an analysis in retrospect [C]// ANTS 2015: Proceedings of the 2015 IEEE International Conference on Advanced Networks and Telecommuncations Systems. Piscataway, NJ: IEEE, 2015: 1-3.

      [5]MA J, GAO W, WEI Z, et al. Detect rumors using time series of social context information on microblogging websites [C]// CIKM ’15: Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1751-1754.

      [6]LIU X, NOURBAKHSH A, LI Q, et al. Real-time rumor debunking on twitter [C]// CIKM ’15: Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. New York: ACM, 2015: 1867-1870.

      [7]蔣盛益,陳東沂,龐觀松,等.微博信息可信度分析研究綜述[J].圖書情報(bào)工作,2013,57(12):136-142. (JIANG S Y, CHEN D Y, PANG G S, et al. Research review of information credibility analysis on microblog [J]. Library and Information Service, 2013, 57(12):136-142.)

      [8]賀剛,呂學(xué)強(qiáng),李卓,等.微博謠言識(shí)別研究[J].圖書情報(bào)工作,2013,57(23):114-120. (HE G, LYU X Q, LI Z, et al. Automatic rumor identification on microblog [J]. Library and Information Service, 2013, 57(23):114-120.)

      [9]路同強(qiáng),石冰,閆中敏,等.一種用于微博謠言檢測(cè)的半監(jiān)督學(xué)習(xí)算法[J].計(jì)算機(jī)應(yīng)用研究,2016,33(3):744-748. (LU T Q, SHI B, YAN Z M, et al. Semi-supervised learning algorithm applied to microblog rumors detection [J]. Application Research of Computers, 2016, 33(3): 744-748.)

      [10]吳樹芳,徐建民.基于HITS算法的微博用戶可信度評(píng)估[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2016,46(2):1-7. (WU S F, XU J M. Evaluation of microblog users’ credibility based on HITS algorithm [J]. Journal of Shandong University (Engineering Science), 2016, 46(2): 1-7.)

      [11]謝柏林,蔣盛益,周詠梅,等.基于把關(guān)人行為的微博虛假信息及早檢測(cè)方法[J].計(jì)算機(jī)學(xué)報(bào),2016,39(4):730-744. (XIE B L, JIANG S Y, ZHOU Y M, et al. Misinformation detection based on gatekeepers’ behaviors in microblog [J]. Chinese Journal of Computers, 2016, 39(4): 730-744.)

      [12]段大高,王長(zhǎng)生,韓忠明,等.基于微博評(píng)論的虛假消息檢測(cè)模型[J].計(jì)算機(jī)仿真,2016,33(1):386-390. (DUAN D G, WANG C S, HAN Z M, et al. A rumor detection model based on Weibo’ reviews [J]. Computer Simulation, 2016, 33(1): 386-390.)

      [13]郭浩,陸余良,王宇,等.多特征微博垃圾互粉檢測(cè)方法[J].中國科技論文,2012,7(7):548-551. (GUO H, LU Y L, WANG Y, et al. Detection of spam mutual concerns in micro-blogs based on multi-features [J]. China Sciencepaper, 2012, 7(7): 548-551.)

      [14]王永強(qiáng).微博“意見領(lǐng)袖” 少數(shù)派的權(quán)利[N].中國經(jīng)營報(bào),2011- 09- 19 (C05). (WANG Y Q. Micro-blog “opinion leaders” the minority’ rights [N]. China Business Journal, 2011- 09- 19 (C05).)

      [15]FRIEDMAN J H. Greedy function approximation: a gradient boosting machine [J]. The Annals of Statistics, 2001, 29(5): 1189-1232.

      [16]MA J, GAO W, MITRA P, et al. Detecting rumors from microblogs with recurrent neural networks [C]// IJCAI 2016: Proceedings of the 25th International Joint Conference on Artificial Intelligence. London: dblp Computer Science Bibliography, 2016: 3818-3824.

      [17]JIN Z, CAO J, JIANG Y-G, et al. News credibility evaluation on microblog with a hierarchical propagation model [C]// ICDM ’14: Proceedings of the 2014 IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2014: 230-239.

      [18]KWON S, CHA M, JUNG K, et al. Prominent features of rumor propagation in online social media [C]// ICDM 2013: Proceedings of the 2013 IEEE 13th International Conference on Data Mining. Piscataway, NJ: IEEE, 2013: 1103-1108.

      [19]CHANG C-C, LIN C-J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): Article No. 27.

      猜你喜歡
      謠言特征值分類器
      中國使館駁斥荒謬謠言
      一類帶強(qiáng)制位勢(shì)的p-Laplace特征值問題
      單圈圖關(guān)聯(lián)矩陣的特征值
      當(dāng)謠言不攻自破之時(shí)
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      謠言
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      謠言大揭秘
      基于商奇異值分解的一類二次特征值反問題
      高台县| 丰顺县| 海安县| 二连浩特市| 南雄市| 大洼县| 周宁县| 凤阳县| 南汇区| 资溪县| 泊头市| 滕州市| 南和县| 利川市| 永宁县| 杂多县| 剑阁县| 高雄市| 陆良县| 高安市| 德惠市| 明溪县| 五常市| 清镇市| 鲁山县| 宁安市| 徐水县| 安义县| 建湖县| 随州市| 汉寿县| 镇平县| 龙陵县| 通州区| 扶余县| 通化市| 琼结县| 宜城市| 若羌县| 浑源县| 尚志市|