張萌,李楊,沙朝鋒
近些年來,隨著互聯(lián)網(wǎng)的高速發(fā)展和社會媒體的快速興起,社交網(wǎng)絡(luò)已經(jīng)成為人們溝通和交流的重要工具[1][2][3]。微博作為社交網(wǎng)絡(luò)的一種重要形式,在新聞事件的傳播過程中發(fā)揮著越來越重要的作用。在微博等社交網(wǎng)絡(luò)中,信息在能夠呈病毒式傳播。一旦某一條新聞信息進(jìn)入微博平臺,常常能夠在短時間內(nèi)被數(shù)以萬計的用戶轉(zhuǎn)發(fā),從而實(shí)現(xiàn)信息的快速傳播。但是,由于微博的使用者都是普通用戶,他們在新聞的傳播過程中,通常缺少辨識真假的能力,這導(dǎo)致了在微博等社交媒體中也常常出現(xiàn)謠言或者是虛假信息被不明真相的用戶快速傳播的情況。這對于整個社會媒體造成了較大的消極影響。往往一個謠言或者虛假信息本身帶有一定的目的性,如果被廣泛傳播,很容易誤導(dǎo)用戶,甚至造成比較大的社會影響。進(jìn)一步,如果社會網(wǎng)絡(luò)中充斥著虛假信息,則會讓用戶不再信任社交網(wǎng)絡(luò),最終從根本上影響社會媒體和社會網(wǎng)絡(luò)的健康發(fā)展。近幾年來,各種社交網(wǎng)絡(luò)公司都相繼提供“辟謠”功能,但是,他們基本上需要通過管理員協(xié)助完成,且往往在謠言和虛假信息已經(jīng)大量傳播以后才能發(fā)現(xiàn)和阻止,無法避免反應(yīng)滯后的缺點(diǎn)。因此,如何快速而有效的將謠言和虛假信息止于源頭是一個重要而困難的問題[4]。近些年以來更多科研工作者將研究方向關(guān)注于信息在互聯(lián)網(wǎng)上的傳播方式等問題[5]。這其中,大部分工作都是基于社交網(wǎng)絡(luò)平臺(例如:twitter、新浪微博[6]等)的數(shù)據(jù)分析[7][8]。這些工作對于本文的研究起到了重要的借鑒作用。
本文正是在這個背景下,通過分析社交網(wǎng)絡(luò)的特點(diǎn),從微博內(nèi)容信息和微博用戶信息兩方面進(jìn)行特征提取的同時,通過利用置信度評估算法,自動實(shí)現(xiàn)對于微博信息中謠言以及虛假信息的快速檢測。從而實(shí)現(xiàn)在不影響社會媒體運(yùn)轉(zhuǎn)和工作的情況下,準(zhǔn)確判斷出謠言和虛假信息,并且進(jìn)一步阻止其傳播的目的。具體而言,想要通過計算機(jī)自動地判斷謠言或者虛假信息,在算法設(shè)計方面,我們需要著重考慮信息的特征提取和判別模型選擇這兩個方面,力求找到更加適合判別真實(shí)和虛假信息的方法。相比于其他的信息傳播方式,社會媒體的信息傳播有著其特殊性??紤]到它具有一定的組織結(jié)構(gòu),而且我們能夠獲得傳播者的用戶相關(guān)的更多信息,這都更加有利于對新聞信息的真假做出判斷。關(guān)于特征提取,本文針對微博具有不同類型的特征,設(shè)計了基于 CCA的多視角特征提取方法。同時本文在判別算法設(shè)計中受到物理學(xué)中引力場的啟發(fā),提出了一種新的判別學(xué)習(xí)模型——數(shù)據(jù)引力場模型??紤]到社會網(wǎng)絡(luò)的快速發(fā)展導(dǎo)致每天產(chǎn)生海量的微博數(shù)據(jù)。而其中并非只有新聞信息的傳遞,更多的內(nèi)容是無法判斷真假的,比如朋友之間的私人聊天對話,本文稱之為“閑聊”信息。要完成本文的提出的任務(wù),首先,要把新聞信息從大量的“閑聊”信息中區(qū)分出來。因此,如何有效的判別出新聞信息也是本文的重要工作。
微博信息的特征提取是微博置信度檢測和評估的第一步工作,也是重要的基礎(chǔ)工作。選擇合適的特征將有助于提高檢測和評判的準(zhǔn)確率。在這個過程中,需要從多個視角進(jìn)行特征的提?。紤]有關(guān)微博內(nèi)容的信息的同時,也需要考慮微博發(fā)布者的相關(guān)信息),從而保證獲取特征的全面性。下面本文將通過以下兩部分內(nèi)容闡述特征提取的過程:1)基于社交網(wǎng)絡(luò)微博信息的多視角特征選擇;2)利用CCA來實(shí)現(xiàn)多視角特征的融合。
如何選擇特征通常取決于要完成的任務(wù)和目標(biāo)。在本文中,我們則需要提取更適合判定虛假信息或是謠言的特征。同時,考慮到社交網(wǎng)絡(luò)中的信息具有多樣化的特點(diǎn):很多用戶也會在社交網(wǎng)絡(luò)中進(jìn)行私人聊天等,而這些內(nèi)容無法簡單的進(jìn)行真實(shí)或者虛假的區(qū)分。因此,為了實(shí)現(xiàn)置信度評估這一目標(biāo),首先要將微博信息中關(guān)于“新聞”和“閑聊”區(qū)分出來。其中,“新聞”表示可以被判定真假的微博信息,“閑聊”表示無法判定真假的微博信息。在社交網(wǎng)絡(luò)中,每天會有海量的新微博產(chǎn)生,因此,區(qū)分微博信息“新聞”和“閑聊”這個任務(wù)也不可避免的要借助計算機(jī)來自動判別完成。因此,在特征選擇的過程中我們不僅要提取那些有利于置信度辨別的特征,也要考慮那些傾向于區(qū)分“新聞”和“閑聊”的特征。所以,本文需要從微博內(nèi)容中提取信息(例如:該微博是否存在超鏈接等,這種信息有利于本文判斷微博內(nèi)容的置信度),同時,也不能忽略社交網(wǎng)絡(luò)中的相關(guān)信息,因?yàn)?,用戶信息也能夠幫助我們對虛假的信息做出更加?zhǔn)確的判定(可以認(rèn)為一個信用很低或者經(jīng)常發(fā)出虛假消息的人更新的微博信息往往是不被信任的)??紤]到以上因素,本文將從微博內(nèi)容信息和相關(guān)用戶信息兩個視角來提取相關(guān)的特征信息??紤]到特征選擇數(shù)量較多,部分被選擇出來的特征信息如圖1所示:
圖1 基于微博內(nèi)容和用戶信息的多視角特征信息(部分)
考慮到在判定虛假信息時選擇多視角的特征集合,因此,本文面臨著特征組合的問題。事實(shí)上,簡單的加權(quán)連接并不是一個好的選擇。而CCA[9](典型相關(guān)分析)作為一種常用的組合特征維數(shù)約減方法,可以將多視角的特征數(shù)據(jù)映射到同一個特征子空間中并且保證他們之間的相關(guān)性最大[10],因此,本文考慮采用 CCA方法來實(shí)現(xiàn)多個視角的特征融合。
下面將具體描述基于CCA的多視角特征融合方法。設(shè)S為數(shù)據(jù)樣本集,并且S中樣本數(shù)量為N。令P ∈RDPN, Q ∈RDQN, 為兩個不同視角的特征集合,并且通常不同視角特征具有不同的特征維度DP≠DQ,我們做如下定義如公式(1):
在公式中ρ為正則化因子。本文的目標(biāo)是為每個視角的特征數(shù)據(jù)找到一組投影方向,并保證他們之間的相關(guān)性最大化。我們用如下公式來表達(dá)如公式(2):
其中u和v表示從各自特征空間投影到同一特征子空間的投影向量。為了獲得這組相關(guān)性最大的投影向量,我們可以把其轉(zhuǎn)化為特征向量求解問題,通過公式3計算出投影向量{u1, u2…, uD}和{v1, v2…, vD}如公式(3):
在本文中,我們定義微博內(nèi)容視角特征為P,用戶信息視角的特征為Q,并且通過CCA將這兩個視角的數(shù)據(jù)融合到了同一子空間中。不同視角的數(shù)據(jù)融合的過程如圖 2所示:
圖2 基于CCA的多視角特征融合
最終的微博特征FV可以通過下列公式獲得公式(4):
本文所要實(shí)現(xiàn)的置信度判別的目標(biāo)可以轉(zhuǎn)化為對應(yīng)的分類學(xué)習(xí)問題。在我們獲得一個有效的數(shù)據(jù)特征集之后,選擇一個合適的學(xué)習(xí)判別算法也是提高系統(tǒng)性能的關(guān)鍵步驟。本文從物理學(xué)中引力重力場模型獲得啟發(fā),將引力場的思想引入到數(shù)據(jù)空間中,設(shè)計了一種監(jiān)督學(xué)習(xí)方法——數(shù)據(jù)引力場模型。并通過該模型完成信息置信度評估的任務(wù)。
為了更好的闡述數(shù)據(jù)引力場模型,我們首先考慮物理學(xué)中的有關(guān)萬有引力的公式如公式(5)、(6):
其中,公式5是萬有引力公式,m1, m2表示兩個物體的質(zhì)量,r表示兩個物體相互之間的距離,而G則是引力常量。公式6則表示質(zhì)量為M的物體在空間中形成的引力場。事實(shí)上,我們也可以把空間中的數(shù)據(jù)看成一個個不同的物體;不同的樣本都擁有自己對應(yīng)的引力場。假設(shè)同類的樣本具有相同方向的引力場,而不同的樣本具有相反方向的引力場。當(dāng)需要對一個新的樣本進(jìn)行分類的時候,可以通過計算該樣本點(diǎn)在當(dāng)前位置上所有訓(xùn)練集樣本點(diǎn)引力場的疊加,具有較大引力場的類別會把該樣本吸引過去,從而最終實(shí)現(xiàn)分類的目的。這里給定訓(xùn)練樣本S,可以通過以下公式計算樣本k的分類結(jié)果如公式(7)、(8):
其中,Location(*) 表示樣本點(diǎn)的坐標(biāo),K是常系數(shù)。
與引力場所不同的是,我們需要對每一個訓(xùn)練樣本的質(zhì)量做一個新的定義:數(shù)據(jù)置信度。如果一個樣本的周圍空間里都是相同類別的樣本,則可以認(rèn)為這個樣本關(guān)于這個類別具有較高的置信度。反之,如果它周圍都是其他類別的樣本,那么就認(rèn)為其具有較低的置信度,如圖3所示:
圖3 不同置信度的樣本示例
更加清晰解釋這個問題,其中,不同類別的樣本采用不同形狀來區(qū)分:左圖中展示的是低質(zhì)量的樣本,因?yàn)樗車臉颖径际瞧渌悇e的,所以它具有低置信度;右圖展示的是高質(zhì)量的樣本點(diǎn),因?yàn)樗車臉颖径际窍嗤悇e的,所以它具有高置信度。由此我們通過下列公式定義數(shù)據(jù)的置信度如公式(9):
這里通過高斯模型來限制周圍樣本對當(dāng)前樣本的影響權(quán)重。
在2.1章節(jié)中本文討論了關(guān)于數(shù)據(jù)引力場分類學(xué)習(xí)算法的理論模型。然而上述方法需要計算整個數(shù)據(jù)集,而當(dāng)數(shù)據(jù)集規(guī)模增大時,該模型的計算開銷非常巨大。為此,本文需要為該模型找到快速分類的方法。顯然,每個樣本的權(quán)重與距離的平方成反比,由此我們可以忽略距離較遠(yuǎn)的一些樣本點(diǎn),只計算離該樣本最近的前 N樣本的權(quán)重,這樣就近似的模擬出數(shù)據(jù)引力場模型并且極大的減小了計算開銷。如公式(10)、(11):
其中,TopN(i) 表示與樣本最近的N個近鄰樣本中屬于第i類的樣本集。這樣,我們就基于公式10、公式11為數(shù)據(jù)引力場算法找到了一個快速計算的近似解法。
上文中提到,微博平臺作為社交網(wǎng)絡(luò)的重要組成部分,它所承載的功能是十分多樣化。雖然微博平臺成為了一個重要的新聞和信息的傳播途徑,但是,實(shí)際上,新聞信息在所有微博中所占的比例并不高。大部分的微博信息仍然屬于“閑聊”的范疇。而本文要實(shí)現(xiàn)微博置信度的評估和預(yù)測,首先,就要找到可以評估置信度的新聞類數(shù)據(jù)。通過 CCA的特征提取算法對微博內(nèi)容信息和用戶信息進(jìn)行特征提取,然后進(jìn)入置信度評判系統(tǒng)。通過本文設(shè)計的數(shù)據(jù)引力場的判別模型計算出微博信息屬于置信度可評估的信息(“新聞”)還是置信度不可評估信息(“閑聊”)。如果是“新聞”類信息,則通過下一個分類判別機(jī)制最終判斷出該信息的置信度。在下一章中,本文將通過實(shí)驗(yàn)說明基于數(shù)據(jù)引力場模型和CCA特征提取的算法框架能夠獲得比較準(zhǔn)確的置信度評估結(jié)果。因此,本文基于上文中提到的相關(guān)算法設(shè)計了一個置信度評估的算法框架,如圖4所示:
圖4 微博信息置信度評估算法框架
為了驗(yàn)證本文設(shè)計的置信度評估方法的性能,我們從新浪微博中提取了233,369條微博以及相關(guān)的用戶信息。通過過濾如“轉(zhuǎn)發(fā)微博”等無內(nèi)容的信息產(chǎn)生最終的數(shù)據(jù)集,并進(jìn)行了相關(guān)的標(biāo)注工作。經(jīng)過統(tǒng)計,我們發(fā)現(xiàn)在這個數(shù)據(jù)集中,具有傳播“新聞”性質(zhì)的內(nèi)容占微博總數(shù)量的20%-30%。本文依照章節(jié)1描述的基于CCA特征融合方法產(chǎn)生了應(yīng)用于學(xué)習(xí)模型分類的特征,并且按照圖4的流程完成了以下實(shí)驗(yàn)過程。
首先,評估本文的算法在區(qū)分微博信息是屬于“新聞”類別和 “閑聊”的類別的性能,我們在最終提取的特征中選擇一部分作為訓(xùn)練集對引力場模型(DFG)進(jìn)行訓(xùn)練。為了說明本文中算法具有更好的性能,我們選擇SVM和KNN算法作為對比。采用相同特征對于微博“新聞”和“閑聊”信息在不同大小的訓(xùn)練集下進(jìn)行分類判別的實(shí)驗(yàn)結(jié)果。如圖5所示:
圖5 不同算法微博信息進(jìn)行“新聞”和“閑聊”的分類對比。
從圖5中可以看出,隨著訓(xùn)練集數(shù)量的增高,本文所提出的DGF算法最終能夠達(dá)到平均91%的準(zhǔn)確率,而在同等條件下,KNN算法和SVM算法分別只能達(dá)到88%和86%。這證明中本文提出的DFG方法具有更好的分類判別性能。
接下來本文采用同樣的方法針對“新聞”類進(jìn)行置信度評判,判別新聞是“真實(shí)”或“虛假”。本文在新聞類的特征集中選擇其中部分?jǐn)?shù)據(jù)作為訓(xùn)練集。采用3種分類判別算法(KNN算法、SVM算法和DGF算法)進(jìn)行對比實(shí)驗(yàn)得到的結(jié)果,如圖6所示:
圖6 不同算法對“新聞”類信息進(jìn)行真實(shí)和虛假分類對比。
通過該實(shí)驗(yàn)可以看出,隨著訓(xùn)練樣本數(shù)量的提升,本文提出的DGF算法仍然取得了較好的結(jié)果,平均準(zhǔn)確率能夠達(dá)到85%,明顯高于KNN和SVM所獲得的判別結(jié)果。
如表1所示:
表1.DGF、SVM、KNN分類結(jié)果的準(zhǔn)確率和召回率。
詳細(xì)闡釋了在這兩組分類過程中“新聞”與“閑聊”、“真實(shí)”與“虛假”之間采用 DGF、SVM、KNN3種不同算法的實(shí)驗(yàn)所獲得的準(zhǔn)確率和召回率。從表中1可以看到,本文提出的DGF算法相較于其他兩種算法有較大的提升,這證明本文的算法能夠提供更好的置信度評估。
最后為了說明基于CCA的多維度特征提取的在置信度評判問題上具有更好的效果。我們分別采用僅基于微博內(nèi)容特征、基于微博用戶特征和基于CCA的多視角特征對“新聞”類微博置信度判別做了對比實(shí)驗(yàn),實(shí)驗(yàn)均采用DFG作為判別算法。實(shí)驗(yàn)結(jié)果如圖7所示:
圖7 不同的特征提取方法獲得的分類判別準(zhǔn)確率對比結(jié)果。
隨著訓(xùn)練樣本數(shù)量的提升,本文的基于CCA的多維度特征提取方法相較于其他兩種方法能夠獲得更好的平均判別準(zhǔn)確率,這表明基于CCA的特征融合方法對本文的置信度評判性能的提升有較大的貢獻(xiàn)。
本文介紹了一種應(yīng)用于社會媒體上的信息置信度評估的分析與判別方法。該方法通過基于CCA 特征融合的多視角特征提取算法以及數(shù)據(jù)引力場DGF判別模型,設(shè)計了一個從海量社會媒體信息中檢測出謠言和虛假信息的算法框架,并且將該算法應(yīng)用于新浪微博數(shù)據(jù)集上的評估實(shí)驗(yàn)
取得了較好的實(shí)驗(yàn)結(jié)果。本文未來的工作主要關(guān)注于利用社交媒體中用戶之間的關(guān)聯(lián)信息對評估算法進(jìn)行優(yōu)化,以期望在檢測虛假信息或者謠言的任務(wù)中獲得更加準(zhǔn)確的檢測結(jié)果。
[1]Carlos Castillo, Marelo Mendoza, Barbara Poblete.Information credibility on twitter [C]// Proceedings of the 20th international conference on World Wide Web, NewYork: ACM, 2011: 675-684.
[2]Vahed Qazvinian, Emily Rosengren, Dragomir R.Radev,et al.Rumor has it: identifying misinformation in microblogs[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing, Stroudsburg,PA, USA: ACL, 2011: 1589--1599.
[3]Manish Gupta, Peixiang Zhao, and Jiawei Han.Evaluating event credibility on twitter [C]// SIAM International Conference on Data Mining (SDM13), Anaheim, California, USA: SIAM, 2012: 153-164.
[4]Ceren Budak, Divyakant Agrawal, and Amr El Abbadi.Limiting the spread of misinformation in social networks[C]// Proceedings of the 20th international conference on World Wide Web, New York: ACM, 2011: 665-674.
[5]Meredith Ringel Morris, Scott Counts, Asta Roseway, et al.Tweeting is believing? Understanding microblog credibility perceptions [C]// Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work,New York: ACM, 2012: 441-450.http://weibo.com.
[6]K.Lee, B.Eoff, and J.Caverlee.Seven months with the devils: a long-term study of content polluters on twitter[C]// Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, Barcelona,Spain: AAAI, 2011.
[7]Mohammad Ali Abbasi and Huan Liu.Measuring User credibility in social media [C]// Proceedings of the 6th International Conference on Social Computing, Behavioral-Cultural Modeling, and Prediction, Washington:LNCS, 2013: 441-448.
[8]Asaf Degani, Michael Shafto, Leonard Olson.Canonical correlation analysis: use of composite heliographs for representing multiple patterns [C]// Proceedings of the 4th International Conference, Diagrams 2006, CA, LNCS,2006: 93-97.
[9]Albert Gordoa,b, Jos′e A.Rodr′?guez-Serrano, Florent Per-ronnin, et al. Leveraging category-level labels for instance-level image retrieval[C].// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, Rhode Island: IEEE, 2012: 2045-2052.