余 韋 章金楠 朱夢(mèng)麗 王佳桐 穆榮健
(1. 浙江越秀外國語學(xué)院國際商學(xué)院 紹興 312069;2.紹興市智慧社會(huì)智能監(jiān)測(cè)防控重點(diǎn)實(shí)驗(yàn)室 紹興 312069;3.天津大學(xué)智能與計(jì)算學(xué)部 天津 300350)
輿情是公眾輿論情況的一種體現(xiàn),反映了一定時(shí)間內(nèi)公眾對(duì)于某些社會(huì)熱點(diǎn)事件的態(tài)度、情緒和意見等的總和。網(wǎng)絡(luò)輿情能夠反映人們對(duì)于社會(huì)政治的一定態(tài)度,研究網(wǎng)絡(luò)輿情的趨勢(shì)預(yù)測(cè)與評(píng)價(jià),在事件發(fā)生時(shí)及時(shí)做出輿情情報(bào)分析,可以幫助管理者做出更有利的決策。
目前,面對(duì)海量數(shù)據(jù)中的輿情情報(bào)分析問題,研究者們提出了一系列輿情情報(bào)分析方法。例如,利用文本挖掘方法進(jìn)行語義理解,實(shí)現(xiàn)輿情情報(bào)挖掘與追蹤[1];利用信息傳播模型,研究輿情傳播的路徑與傳播趨勢(shì),定量分析輿情傳播過程中的決定因素[2];利用輿情實(shí)體間的復(fù)雜關(guān)系構(gòu)建復(fù)雜網(wǎng)絡(luò),然后基于復(fù)雜網(wǎng)絡(luò)分析方法挖掘隱藏結(jié)構(gòu),預(yù)測(cè)可能關(guān)系或演化趨勢(shì)[3-4]。
其中,符號(hào)網(wǎng)絡(luò)本質(zhì)上是其邊具有正負(fù)屬性的復(fù)雜網(wǎng)絡(luò)。其中的正負(fù)屬性信息代表了節(jié)點(diǎn)之間的某種對(duì)應(yīng)關(guān)系,因此能比普通的復(fù)雜網(wǎng)絡(luò)更加全面細(xì)致地描述現(xiàn)實(shí)世界中的系統(tǒng)。在線社會(huì)網(wǎng)絡(luò)的涌現(xiàn)提供了許多詳細(xì)的符號(hào)網(wǎng)絡(luò)案例,分析這些真實(shí)網(wǎng)絡(luò)的拓?fù)涮卣骱脱莼^程,不僅能對(duì)傳統(tǒng)社會(huì)學(xué)理論進(jìn)行驗(yàn)證,同時(shí)還有可能發(fā)現(xiàn)新的規(guī)律。相較于普通復(fù)雜網(wǎng)絡(luò),符號(hào)網(wǎng)絡(luò)可以更全面地表達(dá)網(wǎng)絡(luò)中節(jié)點(diǎn)間的正負(fù)情感。通過挖掘網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu),可以發(fā)現(xiàn)輿情系統(tǒng)中的群體對(duì)于某些熱點(diǎn)事件的不同態(tài)度劃分。
據(jù)此,本文從符號(hào)網(wǎng)絡(luò)特性入手,在半非負(fù)分解過程中引入深度學(xué)習(xí)的框架,構(gòu)建深度半非負(fù)矩陣分解模型(Deep semi-non-negative matrix decomposition, DSNMF),通過對(duì)符號(hào)網(wǎng)絡(luò)多層屬性的表征學(xué)習(xí)以檢測(cè)社團(tuán)結(jié)構(gòu)。在此基礎(chǔ)上,將輿情情報(bào)分析及復(fù)雜網(wǎng)絡(luò)科學(xué)有機(jī)結(jié)合,基于輿情數(shù)據(jù)構(gòu)建符號(hào)網(wǎng)絡(luò)。并結(jié)合實(shí)際社交網(wǎng)絡(luò)中的應(yīng)用場(chǎng)景,應(yīng)用DSNMF符號(hào)網(wǎng)絡(luò)社團(tuán)檢測(cè)模型進(jìn)行微博輿情情報(bào)分析的實(shí)證實(shí)驗(yàn),創(chuàng)新輿情情報(bào)分析方法。
如表1所示,給定一個(gè)符號(hào)網(wǎng)絡(luò)G,它的鄰接矩陣A±中的元素包含了+1,-1和0三種類型,分別代表了節(jié)點(diǎn)間的正關(guān)系,負(fù)關(guān)系和無關(guān)系。基于符號(hào)網(wǎng)絡(luò)連邊屬性的復(fù)雜性,引入深度學(xué)習(xí)機(jī)制,擴(kuò)展半非負(fù)矩陣分解模型(Semi-NMF)[5],構(gòu)建DSNMF模型,有效提升模型的精度以及大規(guī)模應(yīng)用的適用性。
表1 符號(hào)說明
根據(jù)Semi-NMF的思路,鄰接矩陣A±可分解為低維社團(tuán)指示矩陣和基矩陣的乘積,表示如下:
A±≈W1±W2±…Wm±Hm+
(1)
因此,DNSMF模型的目標(biāo)就是要盡可能使等式(1)左右兩邊相等。針對(duì)DNSMF模型的優(yōu)化過程,引入自適應(yīng)矩估計(jì)(adaptive moment estimation,Adam)[6]優(yōu)化算法,使其具有很高的計(jì)算效率和較低的內(nèi)存需求。Adam是一種在深度學(xué)習(xí)模型中用來替代隨機(jī)梯度下降的優(yōu)化算法,其結(jié)合了適應(yīng)性梯度算法(AdaGrad)和均方根傳播(RMSProp)算法最優(yōu)的性能,解決 稀疏梯度和噪聲問題。具體來說,Adam優(yōu)化算法計(jì)算了梯度的指數(shù)移動(dòng)均值(exponential moving average),同時(shí)超參β1和β2控制了這些移動(dòng)均值的衰減率,使得優(yōu)化過程中自適應(yīng)控制梯度下降。具體地,在求解最終屬性特征向量過程中,利用棧式自編碼神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法,分為逐層預(yù)訓(xùn)練和整體微調(diào)兩個(gè)階段。
預(yù)訓(xùn)練階段:
第一層:A=W1H1
第二層:H1 =W2H2
?
(2)
為了挖掘符號(hào)網(wǎng)絡(luò)的多層隱藏屬性,預(yù)訓(xùn)練階段,將符號(hào)網(wǎng)絡(luò)G的鄰接矩陣A自上而下應(yīng)用非負(fù)矩陣分解算法得到每層屬性特征Hi的基矩陣Wi和社團(tuán)指示向量矩陣Hm。
整體微調(diào)階段:模型引入深度學(xué)習(xí)機(jī)制后的目標(biāo)函數(shù)為:
(3)
通過引入深度學(xué)習(xí)機(jī)制,本節(jié)利用Adam算法,在確定了參數(shù)α、β1、β2和隨機(jī)目標(biāo)函數(shù)L之后,需要初始化參數(shù)向量Wi、一階矩向量m0、二階矩向量v0和迭代次數(shù)t。當(dāng)目標(biāo)函數(shù)L沒有收斂時(shí),循環(huán)迭代地更新各個(gè)部分。即迭代次數(shù)t加1、更新目標(biāo)函數(shù)在該次迭代中對(duì)參數(shù)Wi所求的梯度gt、更新偏差的一階矩估計(jì)mt和二階原始矩估計(jì)vt,再計(jì)算偏差修正的一階矩估計(jì)mt和偏差修正的二階矩估計(jì)vt,然后再用以上計(jì)算出來的值更新目標(biāo)函數(shù)Lt,如算法1所示。
算法1:深度半非負(fù)矩陣分解(DNSMF)模型算法
輸入:
符號(hào)網(wǎng)絡(luò)G的鄰接矩陣A;
每層神經(jīng)元個(gè)數(shù)[l1,l2, …,lm] ;
學(xué)習(xí)率α= 0.001;
一階矩估計(jì)的指數(shù)衰減率β1= 0.9;
二階矩估計(jì)的指數(shù)衰減率β2= 0.999;
epsilon值(防止除零)ε= 10E-8;
輸出:
社團(tuán)指示矩陣Hm ;
初始化:Wi,Hi← SEMINMF (Wi-1, layers (i)),
m0← 0,v0← 0, t ← 0
1:whileLtnot converged do
2:t←t+ 1
3:gt←?wLt-1(w)
4:mt←β1·mt-1+ (1 -β1)·gt
5:vt←β2·vt-1+ (1 -β2)·g2t
9:end while
10: returnH
2.1實(shí)驗(yàn)數(shù)據(jù)集為了檢測(cè)提出的深度半非負(fù)矩陣分解算法(DSNMF)在真實(shí)大規(guī)模數(shù)據(jù)集中的準(zhǔn)確性和適用性,分別基于人工生產(chǎn)數(shù)據(jù)和真實(shí)數(shù)據(jù)進(jìn)行了模型測(cè)試實(shí)驗(yàn)。人工生成的符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集是通過符號(hào)隨機(jī)生成模型(signed stochastic block model, SSBM)生成的四種不同類型的符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集BN、UN-I、UN-II和UN-III[7]。另外,選取了以下四組來自真實(shí)的社交媒體平臺(tái)的公開大規(guī)模符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集進(jìn)行測(cè)試實(shí)驗(yàn):Slashdot[8]、Bitcoin OTC[9]、Epinions[8]以及Wiki[10]。其中,在現(xiàn)實(shí)世界的社交網(wǎng)絡(luò)中,一個(gè)人平均有40位線下朋友和338位在線朋友。因此檢測(cè)具有高節(jié)點(diǎn)度的網(wǎng)絡(luò)更具現(xiàn)實(shí)意義[11]。在大規(guī)模真實(shí)網(wǎng)絡(luò)中社團(tuán)檢測(cè)的對(duì)比實(shí)驗(yàn)中,在每個(gè)數(shù)據(jù)集中篩選出度≥50的節(jié)點(diǎn),設(shè)置后的網(wǎng)絡(luò)統(tǒng)計(jì)信息如表2所示,其中使用“數(shù)據(jù)集名稱@度閾值”來表示特定的數(shù)據(jù)集,例如Epinions@50表示Epinions網(wǎng)站中節(jié)點(diǎn)度≥50的用戶所構(gòu)建的符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集。表2描述了上述四種公開符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集的基本統(tǒng)計(jì)信息。
表2 大規(guī)模符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集描述
2.2評(píng)價(jià)指標(biāo)在具有真實(shí)分區(qū)的人工生成數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),利用常用的社團(tuán)檢測(cè)指標(biāo):歸一化互信息(Normalized mutual information,NMI)[7],可以評(píng)定出真實(shí)分區(qū)與算法得到的社團(tuán)劃分的差異大小。 另外,在大規(guī)模的符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集中,通常沒有已知的真實(shí)分區(qū),所以利用另外一種評(píng)價(jià)指標(biāo)模塊度來評(píng)定社團(tuán)檢測(cè)算法的準(zhǔn)確性。 傳統(tǒng)的模塊度Q被設(shè)計(jì)用于評(píng)價(jià)普通復(fù)雜網(wǎng)絡(luò)的社團(tuán)劃分質(zhì)量,它被定義為在同一社團(tuán)內(nèi)邊的概率減去對(duì)這些邊進(jìn)行隨機(jī)分配所得到的期望概率。模塊度的范圍從0到1,越接近1表示網(wǎng)絡(luò)社團(tuán)劃分的結(jié)果越好。但是傳統(tǒng)的模塊度Q不處理負(fù)邊,不適用于符號(hào)網(wǎng)絡(luò),Gomez等[12]發(fā)展了符號(hào)模塊度如下:
2.3實(shí)驗(yàn)結(jié)果分析本文提出的DSNMF算法在人工生成的四類符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖1所示。在社團(tuán)內(nèi)部無負(fù)連邊,社團(tuán)間無正連邊的弱平衡符號(hào)網(wǎng)絡(luò)BN中,當(dāng)社團(tuán)內(nèi)部正連邊和社團(tuán)間負(fù)連邊都比較稀疏的情況下,算法的性能較差,但隨著連邊變得密集,算法社團(tuán)劃分的結(jié)果變得準(zhǔn)確且大部分情況下與真實(shí)網(wǎng)絡(luò)劃分相同。在UN-I網(wǎng)絡(luò)即社團(tuán)內(nèi)部連邊密集、社團(tuán)間連邊稀疏的符號(hào)網(wǎng)絡(luò)中,社團(tuán)間連邊的狀態(tài)對(duì)算法網(wǎng)絡(luò)劃分的影響較大。當(dāng)社團(tuán)間的正連邊比例與負(fù)連邊比例趨于相同時(shí),算法社團(tuán)劃分的結(jié)果變得糟糕,其它情況社團(tuán)劃分結(jié)果較為準(zhǔn)確。在UN-II網(wǎng)絡(luò)即社團(tuán)內(nèi)部連邊稀疏,社團(tuán)間連邊密集的符號(hào)網(wǎng)絡(luò)中,社團(tuán)內(nèi)部的連邊情況對(duì)算法網(wǎng)絡(luò)劃分的影響較大。當(dāng)社團(tuán)內(nèi)的正連邊比例與負(fù)連邊比例趨于相同時(shí),算法社團(tuán)劃分的結(jié)果變得糟糕,其它情況下社團(tuán)劃分結(jié)果較為準(zhǔn)確。
圖1 DSNMF算法在人工生成的四類符號(hào)
在UN-III網(wǎng)絡(luò)即社團(tuán)內(nèi)外連邊都密集的符號(hào)網(wǎng)絡(luò)中,當(dāng)網(wǎng)絡(luò)在噪聲水平即社團(tuán)內(nèi)部負(fù)連邊和社團(tuán)間正連邊同時(shí)較小或較大的時(shí)候,算法社團(tuán)劃分結(jié)果準(zhǔn)確且與真實(shí)分區(qū)一致;當(dāng)社團(tuán)內(nèi)部負(fù)連邊比例與社團(tuán)間正連邊比例呈反比的狀態(tài)下,算法的社團(tuán)劃分結(jié)果較差。
另外,在上述四個(gè)真實(shí)的大規(guī)模符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集上與其它算法進(jìn)行了對(duì)比實(shí)驗(yàn),選擇符號(hào)網(wǎng)絡(luò)社團(tuán)檢測(cè)算法:SSL[13]和SISN[14]。為在真實(shí)的大規(guī)模數(shù)據(jù)上缺少真實(shí)的社團(tuán)劃分,為了確定社團(tuán)個(gè)數(shù),使用符號(hào)模塊度指標(biāo)來衡量社團(tuán)劃分結(jié)果。如表3結(jié)果所示,發(fā)現(xiàn)Epinions@50符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集中的社團(tuán)個(gè)數(shù)為21時(shí)幾個(gè)算法的符號(hào)模塊度指標(biāo)最高,且提出的DSNMF算法社團(tuán)劃分得到的符號(hào)模塊度指標(biāo)最高,表示提出的DSNMF算法社團(tuán)劃分結(jié)果最為準(zhǔn)確;Slashdot@50符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集在社團(tuán)個(gè)數(shù)設(shè)定為23時(shí)幾種社團(tuán)檢測(cè)算法得到的模塊度較高,SISN算法社團(tuán)劃分得到的模塊度最高,提出的DSNMF算法較之略差一點(diǎn)但優(yōu)于其它算法;Wiki@50符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集在社團(tuán)個(gè)數(shù)為47時(shí)幾種社團(tuán)檢測(cè)算法得到的符號(hào)模塊度指標(biāo)最高,且的算法優(yōu)于其它算法的劃分結(jié)果;Bitcoins@50符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集在社團(tuán)個(gè)數(shù)設(shè)定為6時(shí)幾種社團(tuán)檢測(cè)算法得到的符號(hào)模塊度指標(biāo)最高,SSL算法得到的符號(hào)模塊度指標(biāo)最高,提出的DSNMF算法略差但優(yōu)于其它算法。綜上所述,提出的DSNMF在大規(guī)模符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集上社團(tuán)檢測(cè)的性能要優(yōu)于其它幾種算法。
表3 真實(shí)大規(guī)模符號(hào)網(wǎng)絡(luò)數(shù)據(jù)集社團(tuán)檢測(cè)算法對(duì)比結(jié)果
本節(jié)利用疫情期間“‘司馬3忌’舉報(bào)韓紅愛心慈善基金會(huì)”熱點(diǎn)事件所產(chǎn)生的微博輿情數(shù)據(jù)構(gòu)建輿情情感符號(hào)網(wǎng)絡(luò),以微博用戶為節(jié)點(diǎn)、微博用戶間正向情感評(píng)論為正邊、負(fù)向情感評(píng)論為負(fù)邊。利用DSNMF算法對(duì)此符號(hào)網(wǎng)絡(luò)進(jìn)行社團(tuán)檢測(cè),分了群體在該輿情網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)。通過算法社團(tuán)劃分結(jié)果及真實(shí)事件的脈絡(luò)走向的對(duì)比驗(yàn)證提出的DSNMF算法的準(zhǔn)確性。
3.1實(shí)證背景描述為了介紹本文實(shí)證研究的事件背景,本節(jié)針對(duì)本文所研究的真實(shí)事件展開了詳細(xì)調(diào)查,具體描述如下:2020年02月,網(wǎng)名為 “司馬3忌”(真名:楊宏偉)的大V在新浪微博上公開舉報(bào)韓紅慈善基金會(huì)存在私自接收民眾善款的行為,在網(wǎng)上引起熱議。截止2月19日,“司馬3忌”一共寫了《明人不做暗事》等16篇文章,炮轟韓紅基金會(huì)“完全不透明”,聲稱“在韓紅的基金會(huì)信息公開層面,別說你找不到一包方便面,就是捐進(jìn)去一頭大象,你也別想找到”。對(duì)此,網(wǎng)民們也眾說紛紜,很多舉報(bào)支持者與反對(duì)者,在網(wǎng)上掀起了輿論的熱潮。
對(duì)此,結(jié)合微博數(shù)據(jù)集,利用深度半非負(fù)矩陣分解算法模型(DSNMF)分析了疫情期間司馬3忌舉報(bào)韓紅基金會(huì)事件中微博用戶的社團(tuán)結(jié)構(gòu)及隨時(shí)間社團(tuán)結(jié)構(gòu)的演化。首先通過每日微博帖子及評(píng)論轉(zhuǎn)發(fā)點(diǎn)贊數(shù)據(jù)構(gòu)建每日情感符號(hào)網(wǎng)絡(luò),其中節(jié)點(diǎn)為用戶,轉(zhuǎn)發(fā)及點(diǎn)贊為正連邊關(guān)系,利用Python語言的SnowNLP庫存儲(chǔ)評(píng)論數(shù)據(jù)以便于提取文本的情感系數(shù)作為符號(hào)網(wǎng)絡(luò)中邊正負(fù)屬性的依據(jù)。然后通過每日的用戶連邊數(shù)據(jù)構(gòu)建符號(hào)網(wǎng)絡(luò),分析推算用戶情感網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)及隨時(shí)間的演化過程。并且通過分析此次熱點(diǎn)事件,驗(yàn)證提出的深度半非負(fù)矩陣算法在真實(shí)大規(guī)模數(shù)據(jù)集上的實(shí)用性及準(zhǔn)確性。
3.2實(shí)證數(shù)據(jù)描述針對(duì)以上真實(shí)事件的實(shí)證研究需要,收集整理成了對(duì)應(yīng)事件的數(shù)據(jù)集,并構(gòu)建了相應(yīng)的符號(hào)網(wǎng)絡(luò)。具體實(shí)證使用的數(shù)據(jù)集來自于2020年疫情期間微博關(guān)于司馬3忌舉報(bào)韓紅基金會(huì)所引發(fā)的一系列微博數(shù)據(jù)。其中在2020年1月23日 18:13:12至2020年2月28日 18:13:12時(shí)間段內(nèi)所查詢的關(guān)鍵詞全部包含“韓紅、司馬3忌”。通過微博手機(jī)客戶端API爬取了11 414條微博數(shù)據(jù)的相關(guān)評(píng)論、回帖、轉(zhuǎn)發(fā)及點(diǎn)贊數(shù)據(jù)共計(jì)16 3145條數(shù)據(jù)記錄,其中主要包括微博用戶ID、微博內(nèi)容、評(píng)論用戶ID、評(píng)論內(nèi)容等字段(如表4所示)。本節(jié)對(duì)于該事件的數(shù)據(jù)采集主要聚焦于從2020年2月13日司馬3忌向北京民政局遞交韓紅基金會(huì)舉報(bào)材料到2020年2月21日北京市民政局發(fā)布調(diào)查公告這段時(shí)間。
表4 帖子數(shù)據(jù)集字段說明
3.3實(shí)證過程描述在實(shí)證中,預(yù)設(shè)社團(tuán)個(gè)數(shù)為3,代表此次熱點(diǎn)事件中的支持方、反對(duì)方和中立方。挖掘每日的社團(tuán)結(jié)構(gòu)并分析三方勢(shì)力隨時(shí)間演化的過程。具體步驟如下:
步驟1:讀取所爬取的每個(gè)文件,每個(gè)文件包含了一條微博的全部信息,文件格式為json。爬取的某些微博因?yàn)楸粍h除或權(quán)限問題無法讀取微博具體信息,在后續(xù)的數(shù)據(jù)處理中也將剔除這些微博。
步驟2:遍歷每一條正常的微博json數(shù)據(jù),讀取相關(guān)評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)數(shù)據(jù),利用python數(shù)據(jù)處理庫pandas形成字段為源微博用戶、目標(biāo)微博用戶、評(píng)論內(nèi)容、時(shí)間戳的csv文件。且針對(duì)特殊的評(píng)論進(jìn)行相應(yīng)處理,使每條評(píng)論都對(duì)應(yīng)到正確的微博用戶對(duì)上。
步驟3:通過自然語言處理庫SnowNLP中的情感系數(shù)評(píng)估每條評(píng)論數(shù)據(jù)的情感指數(shù),其中“轉(zhuǎn)發(fā)微博”和“點(diǎn)贊”代表了源微博用戶認(rèn)同目標(biāo)微博用戶的言論,即正向情感,默認(rèn)情感系數(shù)為1。其它文本評(píng)論數(shù)據(jù)根據(jù)自然語言處理工具分別得到相應(yīng)的情感系數(shù)從0到1,設(shè)置閾值為0.6,即≥0.6的評(píng)論文本相信其代表了一種正向情感,否則則表示為負(fù)向情感。且在此樣例中可以發(fā)現(xiàn)微博爬取到的數(shù)據(jù)中存在兩種不同的時(shí)間格式,為了后續(xù)進(jìn)一步對(duì)數(shù)據(jù)劃分,統(tǒng)一時(shí)間格式為“月-天”。通過對(duì)時(shí)間字段的聚合可以分別得到每一天的微博用戶間的情感,從而構(gòu)建出每一天的情感符號(hào)網(wǎng)絡(luò)。其中符號(hào)網(wǎng)絡(luò)具體可以形式化描述為G=(V,E),其中V={V1,V2,…,Vn}代表符號(hào)網(wǎng)絡(luò)G中的n個(gè)節(jié)點(diǎn)的集合,E={Eij}(i,j∈[1,N])代表符號(hào)網(wǎng)絡(luò)G中邊的集合。邊的權(quán)重為Wij,方向?yàn)閺腣i到Vj。可以使用鄰接矩陣A來表示數(shù)據(jù):當(dāng)Aij=0時(shí),代表節(jié)點(diǎn)Vi到Vj沒有連邊;當(dāng)?shù)扔?1或-1時(shí)分別代表正邊或負(fù)邊。
步驟4:利用基于深度雙非負(fù)矩陣分解算法模型的符號(hào)網(wǎng)絡(luò)社團(tuán)檢測(cè)算法對(duì)已構(gòu)建的每一天的情感符號(hào)網(wǎng)絡(luò)進(jìn)行深度分析計(jì)算,最終得出相關(guān)的公眾輿情分析結(jié)果。
3.4實(shí)證結(jié)果與討論在實(shí)驗(yàn)結(jié)果分析中,為了驗(yàn)證算法的準(zhǔn)確性和實(shí)用性,梳理了司馬3忌舉報(bào)韓紅愛心慈善基金會(huì)整個(gè)事件始末,其時(shí)間如下所示:
a.2020年2月13日,司馬3忌向北京民政局遞交對(duì)北京市韓紅愛心慈善基金會(huì)的舉報(bào)材料;b.2020年2月16日,司馬3忌舉報(bào)韓紅基金會(huì)事件的議論達(dá)到高潮,該天參與討論的微博用戶人數(shù)最多;c.2020年2月20日,北京市民政局發(fā)布對(duì)舉報(bào)北京韓紅愛心慈善基金會(huì)有關(guān)問題調(diào)查結(jié)果的通報(bào);d.2020年2月21日,司馬3忌向北京民政局遞交《行政復(fù)議申請(qǐng)意見》。
按照該事件時(shí)間表中的線索,圖2重點(diǎn)展示了2月13日、2月16日、2月20日和2月21日的深度雙非負(fù)矩陣分解算法(DSNMF)對(duì)情感傾向符號(hào)網(wǎng)絡(luò)G的社團(tuán)劃分結(jié)果。
圖2 符號(hào)網(wǎng)絡(luò)的社團(tuán)劃分結(jié)果
具體地以圖2(a)、2(d)為例來說明基于DSNMF算法的情感符號(hào)網(wǎng)絡(luò)社團(tuán)劃分結(jié)果。從圖2(a)可以看出,社團(tuán)被劃分為以“司馬3忌”“師偉微博”為代表的一派、以“MyTtZz”“雷雨評(píng)測(cè)”等為代表的一派和以“刺萼龍逵152”為代表的一派。然后通過分析2月13日前后這些代表人物所發(fā)的微博,可以發(fā)現(xiàn)以“司馬3忌”“師偉微博”為代表的一派支持司馬3忌舉報(bào)韓紅愛心慈善基金會(huì);以“MyTtZz”“雷雨評(píng)測(cè)”等為代表的一派支持韓紅,反對(duì)司馬3忌;而以“刺萼龍逵152”為代表的一派對(duì)其他兩方的態(tài)度搖擺不定,發(fā)表的言論既支持司馬3忌,又支持韓紅。據(jù)此可分析圖2(b)、2(c)。根據(jù)圖2(b)的社團(tuán)劃分結(jié)果可以看到支持司馬3忌和支持韓紅的兩方爭(zhēng)斗逐漸進(jìn)入白熱化階段,保持中立的比例較幾日內(nèi)最小。隨著事件的進(jìn)一步發(fā)展,圖2(c)中的社團(tuán)又被劃分為三派。從圖2(d)可以看到經(jīng)過前一天2月20日官方發(fā)布公告后,司馬3忌再次遞交《行政復(fù)議申請(qǐng)意見》并沒有引起網(wǎng)友的很大關(guān)注。司馬3忌陣營中的微博大V消失,且與之對(duì)立的反對(duì)陣營中“中國新聞周刊”“北京青年報(bào)”和“搜狐新聞”等新聞媒體成為主力軍,分析這些微博賬號(hào)2月21日近期所發(fā)的微博,發(fā)現(xiàn)他們都轉(zhuǎn)發(fā)了前一日北京民政局發(fā)布的調(diào)查報(bào)告表達(dá)了對(duì)此次熱點(diǎn)事件的態(tài)度。且保持中立的陣營中沒有再出現(xiàn)微博大V。在某種程度上代表此次熱點(diǎn)事件經(jīng)過官方調(diào)查而定性,走向尾聲。
本節(jié)基于爬取的疫情期間微博社交網(wǎng)絡(luò)上關(guān)于輿情話題的帖子、回帖、評(píng)論等數(shù)據(jù),構(gòu)建了疫情期間輿情話題的情感符號(hào)網(wǎng)絡(luò)。應(yīng)用上述符號(hào)網(wǎng)絡(luò)社團(tuán)檢測(cè)算法對(duì)輿情傳播進(jìn)行了實(shí)證分析,有效檢測(cè)出輿情事件中的隱藏派系,并通過社團(tuán)語義解析挖掘出隱藏的輿情情報(bào)信息。
本文從符號(hào)網(wǎng)絡(luò)特性入手,在半非負(fù)分解過程中引入了深度學(xué)習(xí)機(jī)制,構(gòu)建了深度半非負(fù)矩陣分解(DSNMF)模型,通過對(duì)符號(hào)網(wǎng)絡(luò)多層屬性的表示學(xué)習(xí)有效提升了符號(hào)網(wǎng)絡(luò)社團(tuán)檢測(cè)精度。在此基礎(chǔ)上,以“‘司馬3忌’舉報(bào)韓紅基金會(huì)”的輿情事件為例,爬取了相關(guān)微博數(shù)據(jù)并構(gòu)建了相應(yīng)的輿情情感符號(hào)網(wǎng)絡(luò)。應(yīng)用DSNMF符號(hào)網(wǎng)絡(luò)社團(tuán)檢測(cè)模型對(duì)輿情情感符號(hào)網(wǎng)絡(luò)進(jìn)行了微博輿情情報(bào)分析的實(shí)證實(shí)驗(yàn),有效檢測(cè)出輿情事件中的隱藏派系,并通過社團(tuán)語義解析挖掘出隱藏的輿情情報(bào)信息,實(shí)驗(yàn)結(jié)果證明了提出的DSNMF在輿情情報(bào)分析工作中的實(shí)用性及有效性。
然而,本文只是重點(diǎn)研究了如何對(duì)社交網(wǎng)絡(luò)媒體中的輿情信息構(gòu)建符號(hào)網(wǎng)絡(luò),并結(jié)合符號(hào)網(wǎng)絡(luò)社團(tuán)檢測(cè)算法來挖掘網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)。目前研究?jī)H停留在擁有正負(fù)關(guān)系的符號(hào)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)上,如何將符號(hào)網(wǎng)絡(luò)進(jìn)行細(xì)分,將邊的標(biāo)簽信息進(jìn)一步擴(kuò)展,融合更全面的信息,構(gòu)建一個(gè)多層符號(hào)網(wǎng)絡(luò),進(jìn)一步提升社團(tuán)檢測(cè)的效果?如何通過這一時(shí)間狀態(tài)下的連邊狀態(tài)預(yù)測(cè)下一時(shí)間狀態(tài)的連邊狀態(tài),以得到有用的輿情情報(bào)信息,為用戶接下來使用網(wǎng)絡(luò)時(shí)進(jìn)行個(gè)性化推薦奠定基礎(chǔ)?這些問題都具有重大的應(yīng)用價(jià)值,也是將來進(jìn)行進(jìn)一步研究的重要內(nèi)容。