仇麗青,曲福帥
(山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 山東 青島 266590)(?通信作者電子郵箱qiuliqing2019@163.com)
基于情感分析和影響力評(píng)估的突發(fā)事件情感圖譜
仇麗青*,曲福帥
(山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 山東 青島 266590)(?通信作者電子郵箱qiuliqing2019@163.com)
針對(duì)突發(fā)事件中負(fù)面網(wǎng)絡(luò)輿情傳播的問(wèn)題,提出了一種基于情感分析和影響力評(píng)估的突發(fā)事件情感圖譜研究方法。提出了一種基于多頭自注意力機(jī)制和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)的情感分析模型來(lái)計(jì)算網(wǎng)站用戶的情感傾向,并提出了一種融合加權(quán)度與K-shell值的節(jié)點(diǎn)影響力評(píng)估算法來(lái)評(píng)估用戶的影響力,從而綜合構(gòu)建突發(fā)事件的情感圖譜,有效提高了情感圖譜的準(zhǔn)確性和科學(xué)性。以“7.7安順公交車墜湖事件”為例,將突發(fā)事件的生命周期劃分為爆發(fā)期、蔓延期、成熟期和衰退期四個(gè)階段,分別生成情感圖譜進(jìn)行可視化分析。實(shí)驗(yàn)結(jié)果表明,在酒店評(píng)論數(shù)據(jù)集上,所提出的情感分析模型的F1值在積極和消極方面比文本循環(huán)神經(jīng)網(wǎng)絡(luò)(Text-RNN)模型分別提升了9.92個(gè)百分點(diǎn)和2.5個(gè)百分點(diǎn);在Karate網(wǎng)絡(luò)上,所提影響力評(píng)估算法的區(qū)分度和準(zhǔn)確性比K-shell算法分別提升了46.89個(gè)百分點(diǎn)和29.05個(gè)百分點(diǎn)。構(gòu)建基于社交網(wǎng)絡(luò)的情感圖譜有助于相關(guān)部門發(fā)現(xiàn)意見(jiàn)領(lǐng)袖及其情感傾向,從而把握網(wǎng)絡(luò)輿情的發(fā)展趨勢(shì),并降低消極情感對(duì)社會(huì)造成的影響。
社交網(wǎng)絡(luò);情感分析;意見(jiàn)領(lǐng)袖;情感圖譜;輿情監(jiān)測(cè)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,社交網(wǎng)絡(luò)已成為用戶信息傳遞和接收的重要平臺(tái)。第47次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2020年12月,我國(guó)網(wǎng)民規(guī)模達(dá)9.89億,互聯(lián)網(wǎng)普及率達(dá)70.4%[1]。與傳統(tǒng)的傳播平臺(tái)相比,在線社交網(wǎng)絡(luò)中信息與情感的傳播具有速度更快、影響范圍更廣等特點(diǎn),使得社交網(wǎng)絡(luò)的輿情研究成為研究者們重要研究的課題。
社交網(wǎng)絡(luò)的情感圖譜是綜合社交網(wǎng)絡(luò)影響力分析和用戶信息情感傾向的動(dòng)態(tài)分布圖,為社交網(wǎng)絡(luò)中突發(fā)事件輿情的分析和監(jiān)控提供了方便[2]。眾多輿情危機(jī)事件表明,對(duì)網(wǎng)絡(luò)輿情進(jìn)行實(shí)時(shí)監(jiān)控、正確引導(dǎo),能有效降低或避免負(fù)面輿情帶來(lái)的社會(huì)問(wèn)題[3]。安璐等[4]以“魏則西事件”為例,對(duì)利益相關(guān)者進(jìn)行標(biāo)識(shí),構(gòu)建利益相關(guān)者的社會(huì)網(wǎng)絡(luò)情感圖譜;趙蓉英等[5]對(duì)突發(fā)事件輿情傳播進(jìn)行定量化的測(cè)度分析,對(duì)結(jié)構(gòu)特征及演化規(guī)律進(jìn)行研究,提出了多種突發(fā)事件的網(wǎng)絡(luò)輿情控制和引導(dǎo)對(duì)策;張柳等[6]以“高校學(xué)術(shù)不端”話題為例,基于詞云統(tǒng)計(jì)進(jìn)行內(nèi)容特征分析,構(gòu)建微博環(huán)境下的高校輿情情感演化圖譜。
在情感圖譜研究中,首先要對(duì)文本數(shù)據(jù)進(jìn)行情感分析。情感分析是從特定領(lǐng)域的主觀文本中提取用戶的意見(jiàn)、情感,并區(qū)分其極性[7]。Vaswani等[8]首次將自注意力機(jī)制應(yīng)用在了機(jī)器翻譯領(lǐng)域,提出了Transformer 模型,并將注意力機(jī)制與傳統(tǒng)深度網(wǎng)絡(luò)相結(jié)合;Wang等[9]提出了一種基于注意力的方面嵌入長(zhǎng)短期記憶網(wǎng)絡(luò)(ATtention-based Long Short-Term Memory network with Aspect Embedding, ATAE-LSTM)模型,在方面級(jí)別的情感分類上達(dá)到了更好的性能;Liu等[10]將注意力機(jī)制與雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory network, Bi-LSTM)相結(jié)合并將其應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域,提出了一種AB-LSTM(Attention-based Bidirectional Long Short-Term Memory)模型,在場(chǎng)景文本檢測(cè)上取得了很好的效果;關(guān)鵬飛等[11]提出了一種注意力增強(qiáng)的雙向LSTM模型,建立自注意力機(jī)制來(lái)提高對(duì)句中情感關(guān)鍵詞的關(guān)注度,實(shí)驗(yàn)結(jié)果表明該模型具有優(yōu)越性能。
得到用戶情感傾向后,還需評(píng)估用戶在突發(fā)事件中的影響力。社交網(wǎng)絡(luò)中節(jié)點(diǎn)影響力評(píng)估方法主要根據(jù)節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)來(lái)評(píng)估節(jié)點(diǎn)的影響力[12],常用的節(jié)點(diǎn)重要性度量方法有度中心性[13]、接近中心性[14]、介數(shù)中心性[15]、PageRank算法[16]和K-shell算法[17]等。鄧凱旋等[18]利用K-shell分解過(guò)程中節(jié)點(diǎn)被刪除時(shí)的迭代層數(shù)來(lái)增加節(jié)點(diǎn)區(qū)分度,提高了影響力排序的分辨率和準(zhǔn)確性;Ibnoulouafi等[19]利用節(jié)點(diǎn)的度和距離來(lái)定義節(jié)點(diǎn)的密度,提出了一種密度中心性算法;王安等[20]考慮節(jié)點(diǎn)的社區(qū)結(jié)構(gòu)特征和其節(jié)點(diǎn)連接特征,提出了一種基于社區(qū)劃分的節(jié)點(diǎn)重要性排序算法,得到了關(guān)鍵節(jié)點(diǎn)排序結(jié)果。
現(xiàn)有的大部分情感圖譜研究忽視了網(wǎng)絡(luò)中的信息傳播方向,且大多使用單一標(biāo)準(zhǔn)對(duì)影響力進(jìn)行度量。網(wǎng)絡(luò)中具有較大影響力的個(gè)體會(huì)對(duì)其他個(gè)體造成一定的影響,信息傳播的方向決定個(gè)體之間的影響關(guān)系和影響強(qiáng)度。在情感分析過(guò)程中,輸入特征向量中的特征應(yīng)具有不同重要性,現(xiàn)有方法一般采用注意力機(jī)制賦予不同的重要性權(quán)重,然而這種方法只能獲取一個(gè)方面的信息,導(dǎo)致信息獲取的多樣性受限。若在構(gòu)建情感圖譜之前考慮到上述問(wèn)題,情感圖譜的研究會(huì)更加的準(zhǔn)確、合理。因此,本文首先提出了一種情感分析模型,該模型將多頭自注意力機(jī)制和Bi-LSTM模型相結(jié)合,使用多頭自注意力機(jī)制獲取不同子空間的信息并計(jì)算每個(gè)特征的重要性權(quán)重;此外,還提出了一種綜合考慮節(jié)點(diǎn)加權(quán)度和K-shell值的節(jié)點(diǎn)影響力評(píng)估算法WDK(Weighted Degree fusion K-shell),用來(lái)評(píng)估網(wǎng)絡(luò)中單個(gè)頂點(diǎn)的影響力。綜上所述,本文的主要工作如下:
1)提出了一種新的中文短文本情感分析模型,將多頭自注意力機(jī)制與Bi-LSTM模型結(jié)合來(lái)分析用戶的情感。
2)提出了一種評(píng)估節(jié)點(diǎn)影響力的WDK算法。該算法結(jié)合節(jié)點(diǎn)加權(quán)度和節(jié)點(diǎn)K-shell值來(lái)評(píng)估有向圖中節(jié)點(diǎn)的影響力。
3)使用1)、2)提出的模型和算法,提出了一種社交網(wǎng)絡(luò)情感圖譜研究方法。
實(shí)驗(yàn)結(jié)果驗(yàn)證了所提算法的優(yōu)越性和本文社交網(wǎng)絡(luò)的情感圖譜分析方法在實(shí)際案例上的可用性。
為了構(gòu)建準(zhǔn)確、合理的突發(fā)事件情感圖譜,本文綜合情感分析和影響力評(píng)估方法進(jìn)行算法設(shè)計(jì)與分析。首先,將多頭自注意力機(jī)制與Bi-LSTM相結(jié)合,并將其應(yīng)用到中文短文本情感分析當(dāng)中,獲取突發(fā)事件中用戶的情感傾向。同時(shí),提出了一種融合加權(quán)度與K-shell算法的節(jié)點(diǎn)影響力計(jì)算方法,對(duì)突發(fā)事件中用戶的影響力大小進(jìn)行度量,在有向圖的節(jié)點(diǎn)影響力計(jì)算中具有良好的區(qū)分度和準(zhǔn)確性。
1.1.1 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)
Hochreiter等[21]提出長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory network, LSTM)模型,引入“門”的概念,有效避免了梯度消失與爆炸問(wèn)題。LSTM的基本結(jié)構(gòu)如圖1所示。
圖1 LSTM模型結(jié)構(gòu)Fig. 1 LSTM model structure
傳統(tǒng)的LSTM模型只考慮了序列前值,忽略了未來(lái)的上下文信息。Bi-LSTM分別考慮前向和后向傳播,利用兩次LSTM充分提取短文本的所有特征。Bi-LSTM提取的文本特征向量如式(7)所示:
1.1.2 多頭自注意力機(jī)制
自注意力機(jī)制(self-attention)可以在模型訓(xùn)練中判斷關(guān)鍵詞的重要程度,關(guān)注那些對(duì)研究更有用的信息。為了增加情感詞在分類過(guò)程中的權(quán)重,利用多頭自注意力機(jī)制獲取情感詞在句子中的權(quán)重分布。通過(guò)多頭自注意力機(jī)制獲取不同方面更重要的上下文信息,與雙向長(zhǎng)短期記憶網(wǎng)絡(luò)相結(jié)合,實(shí)現(xiàn)了短文本的情感分類。本文使用多頭自注意力機(jī)制獲取不同子空間的信息并計(jì)算每個(gè)特征的重要性權(quán)重,具體實(shí)現(xiàn)原理如式(8)~(10)所示:
多頭自注意力機(jī)制的算法描述如下。
1.1.3 模型設(shè)計(jì)
為了更加準(zhǔn)確地得到突發(fā)事件中用戶的情感傾向,構(gòu)建更加科學(xué)有效的突發(fā)事件情感圖譜。本文使用基于多頭自注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型,將用戶情感劃分為積極(Positive)和消極(Negative)兩種。本文所使用的情感分析模型可以分為以下四層,模型結(jié)構(gòu)如圖2所示。
1)數(shù)據(jù)處理層。文本預(yù)處理之后,利用Word2vec將預(yù)處理之后的數(shù)據(jù)進(jìn)行向量化表示。
2)特征提取層。詞是模型處理的基本單位,利用Bi-LSTM模型獲取詞在句子上下文中的文本特征。
3)加權(quán)層。判斷詞級(jí)特征的重要性并賦予該詞在句子中的注意力權(quán)重。
4)分類層。對(duì)特征進(jìn)行加權(quán)處理后,利用Softmax函數(shù)進(jìn)行情感預(yù)測(cè),預(yù)測(cè)結(jié)果分為積極和消極。
圖2 基于自注意力的Bi-LSTM模型結(jié)構(gòu)Fig. 2 Self-attention based Bi-LSTM model structure
1.2.1 K-shell算法
K-Shell算法首次提出了節(jié)點(diǎn)的影響力與節(jié)點(diǎn)在社交網(wǎng)絡(luò)中的位置有關(guān),相較于傳統(tǒng)的中心性算法,K-Shell在處理大型社交網(wǎng)絡(luò)時(shí),具有較高的準(zhǔn)確性和更低的時(shí)間復(fù)雜度。
2)刪除度值為1的節(jié)點(diǎn),如果網(wǎng)絡(luò)中新出現(xiàn)度值為1的節(jié)點(diǎn),繼續(xù)刪除度為1的節(jié)點(diǎn),重復(fù)以上操作,直至網(wǎng)絡(luò)中不再存在度值為1的節(jié)點(diǎn)。本步驟刪除的節(jié)點(diǎn)構(gòu)成網(wǎng)絡(luò)的1-shell層,節(jié)點(diǎn)的層數(shù)。
3)重復(fù)步驟2)刪除操作,刪除度值為2的節(jié)點(diǎn),如果網(wǎng)絡(luò)中新出現(xiàn)度值小于等于2的節(jié)點(diǎn),重復(fù)以上操作,直至網(wǎng)絡(luò)中不再存在度值小于等于2的節(jié)點(diǎn)。本步驟刪除的節(jié)點(diǎn)構(gòu)成網(wǎng)絡(luò)的2-shell層,節(jié)點(diǎn)的層數(shù)。
1.2.2 WDK算法
大部分社交網(wǎng)絡(luò)中節(jié)點(diǎn)的影響不是對(duì)稱的,信息的傳播方向決定著節(jié)點(diǎn)之間的影響關(guān)系和影響力強(qiáng)度。K-shell算法能夠較好地從全局角度反映節(jié)點(diǎn)的影響力,但存在分辨率不高的問(wèn)題,忽略了節(jié)點(diǎn)之間的影響關(guān)系。度指標(biāo)是一種經(jīng)典的局部性指標(biāo),可以反映節(jié)點(diǎn)的局部影響。為了讓影響力評(píng)估算法有效適用于突發(fā)事件的情感圖譜研究,本文考慮用戶之間信息的傳播關(guān)系,將K-shell算法應(yīng)用到有向社交網(wǎng)絡(luò)中,從局部和全局方面對(duì)節(jié)點(diǎn)影響力進(jìn)行綜合度量,獲取用戶的綜合影響力。
定義1 由于有向圖中節(jié)點(diǎn)之間的影響不是對(duì)稱的,因此計(jì)算過(guò)程中只考慮影響關(guān)系,即只考慮節(jié)點(diǎn)的出度,為防止出現(xiàn)出度值為0的情況,計(jì)算節(jié)點(diǎn)影響力時(shí),節(jié)點(diǎn)的度記作:
為了更加準(zhǔn)確地對(duì)節(jié)點(diǎn)局部影響力進(jìn)行評(píng)估,提高節(jié)點(diǎn)間影響力的分辨率,考慮節(jié)點(diǎn)本身的同時(shí)結(jié)合其影響的鄰居節(jié)點(diǎn)的影響力,提出了一種加權(quán)度對(duì)有向圖的局部影響力進(jìn)行度量,如式(12)所示:
基于上述研究,本文提出了一種基于有向圖的融合加權(quán)度與K-shell的WDK算法,將度中心性與K-shell算法相結(jié)合,對(duì)節(jié)點(diǎn)影響力進(jìn)行綜合評(píng)估。WDK算法如式(13)所示:
融合度與K-shell的節(jié)點(diǎn)影響力算法綜合考慮節(jié)點(diǎn)的局部屬性和全局屬性,算法主要過(guò)程如下:
1)加權(quán)度計(jì)算,分別計(jì)算每個(gè)節(jié)點(diǎn)的出度、入度以及鄰居節(jié)點(diǎn)的度,利用三者的關(guān)系計(jì)算節(jié)點(diǎn)的加權(quán)度。
2)K-shell值計(jì)算,利用基于有向圖的K-shell算法計(jì)算節(jié)點(diǎn)的層數(shù)。
3)影響力計(jì)算,綜合考慮節(jié)點(diǎn)影響力的局部因素和全局因素,利用加權(quán)度與值計(jì)算節(jié)點(diǎn)的影響力。
WDK算法的偽代碼如下。
4) end for
7) end for
10) end for
通過(guò)構(gòu)建社交網(wǎng)絡(luò)的突發(fā)事件情感圖譜,將用戶的情感傾向和影響力差異進(jìn)行可視化表示,有效地展現(xiàn)突發(fā)事件的情感傳播方式和演化特征,為相關(guān)部門對(duì)突發(fā)事件風(fēng)險(xiǎn)監(jiān)控預(yù)警和調(diào)控提供了有效途徑,以維護(hù)社會(huì)的穩(wěn)定,降低消極情感對(duì)社會(huì)造成的影響。
在突發(fā)事件的情感圖譜研究過(guò)程中,首先將利用爬蟲技術(shù)獲取的突發(fā)事件中用戶評(píng)論關(guān)系及其發(fā)表的情感文本,作為本文研究的實(shí)驗(yàn)數(shù)據(jù)。為了構(gòu)建突發(fā)事件的情感圖譜,使用結(jié)合情感分析和影響力評(píng)估的方法進(jìn)行設(shè)計(jì)分析,提高本文情感圖譜研究的科學(xué)性和有效性。將用戶情感傾向和影響力大小作為情感圖譜中的評(píng)價(jià)標(biāo)準(zhǔn),分別設(shè)計(jì)相應(yīng)算法。在用戶情感傾向研究中,本文基于多頭自注意力機(jī)制和Bi-LSTM的情感分析模型計(jì)算用戶文本數(shù)據(jù)的情感傾向,得出用戶在突發(fā)事件中的情感傾向。在用戶對(duì)突發(fā)事件中影響力的評(píng)估上,利用WDK算法評(píng)估用戶在突發(fā)事件輿情傳播中的影響力。結(jié)合用戶情感傾向與影響力大小,對(duì)輿情事件的生命周期劃分為多個(gè)階段進(jìn)行分析,得到基于社交網(wǎng)絡(luò)的突發(fā)事件情感圖譜,動(dòng)態(tài)展示突發(fā)事件輿情的發(fā)展趨勢(shì),全面了解突發(fā)事件輿情的發(fā)展趨勢(shì)與用戶的情感變化規(guī)律。
基于社交網(wǎng)絡(luò)的突發(fā)事件情感圖譜結(jié)構(gòu)如圖3所示。
圖3 基于社交網(wǎng)絡(luò)的情感圖譜結(jié)構(gòu)Fig. 3 Emotional map structure based on social network
2.1.1 數(shù)據(jù)集與對(duì)比模型
為了準(zhǔn)確地獲取突發(fā)事件中用戶的情感傾向,構(gòu)建更加科學(xué)有效的情感圖譜,對(duì)本文情感分析模型在突發(fā)事件中的有效性進(jìn)行驗(yàn)證,在中文情感文本數(shù)據(jù)集上設(shè)計(jì)對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)使用酒店評(píng)論數(shù)據(jù)集和電商評(píng)論數(shù)據(jù)集對(duì)本文模型進(jìn)行測(cè)試對(duì)比。酒店評(píng)論數(shù)據(jù)集包含4 315條積極評(píng)論,1 971條消極評(píng)論;電商評(píng)論數(shù)據(jù)集包括書籍、平板、手機(jī)、水果、洗發(fā)水、熱水器等10個(gè)領(lǐng)域,其中積極評(píng)論31 728條,消極評(píng)論31 046條。本文按照6∶2∶2的比例對(duì)訓(xùn)練集、驗(yàn)證集和測(cè)試集進(jìn)行劃分。
將本文模型在不同數(shù)據(jù)集上分別與文本分類循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks for Text classification, Text-RNN)[22]、文本循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Convolutional Neural Networks for Text classification, Text-RCNN)[23]、Text-RNN+Attention[24]、FastText[25]、深度金字塔卷積神經(jīng)網(wǎng)絡(luò)(Deep Pyramid Convolutional Neural Network,DPCNN)[26]和Transformer[8]進(jìn)行對(duì)比。
1)Text-RNN:將Word Embedding輸入到雙向RNN中,將最后一位的輸出輸入到全連接層中,進(jìn)行Softmax分類。
2)Text-RCNN:使用雙向RNN處理輸入的向量,把雙向RNN的輸出與對(duì)應(yīng)的詞向量拼接,將其輸入到全連接網(wǎng)絡(luò)對(duì)其進(jìn)行整合,然后使用池化層進(jìn)行特征選擇,最后將其輸入一個(gè)全連接分類器中實(shí)現(xiàn)分類。
3)Text-RNN+Attention:將注意力機(jī)制應(yīng)用到Text-RNN中,為每個(gè)特征賦予不同的重要性,從而提高模型的預(yù)測(cè)準(zhǔn)確率。
4)FastText: 使用n-gram特征代替單個(gè)詞的特征,提取序列信息,使用層次Softmax對(duì)文本進(jìn)行分類,具有快速高效的優(yōu)勢(shì)。
5)DPCNN:通過(guò)下采樣來(lái)捕捉長(zhǎng)距離文本依賴關(guān)系,發(fā)現(xiàn)CNN不能提取的隱含的長(zhǎng)距離依賴關(guān)系,從而提高了模型預(yù)測(cè)準(zhǔn)確率。
6)Transformer:通過(guò)多頭自注意力機(jī)制,在不同的獨(dú)立子空間發(fā)現(xiàn)獨(dú)特的特征表示,在并行計(jì)算的同時(shí)捕獲長(zhǎng)距離依賴關(guān)系,學(xué)習(xí)得到文本的全局語(yǔ)義信息。
為了保證結(jié)果的可信度,本文的所有實(shí)驗(yàn)都在同一環(huán)境下進(jìn)行。
實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)Windows 10,內(nèi)存16 GB,處理器為Intel Core i5-8400H,GPU為Geforce GTX 1050 Ti,顯存4 GB,使用PyTorch深度學(xué)習(xí)框架。
為了防止過(guò)擬合,本文在訓(xùn)練過(guò)程中使用早停法來(lái)防止泛化能力的下降,具體參數(shù)設(shè)置如表1所示。
表1 實(shí)驗(yàn)參數(shù)設(shè)置Tab. 1 Experimental parameter setting
2.1.2 模型性能分析
將本文模型與其他情感分析模型分別在酒店評(píng)論數(shù)據(jù)集和電商評(píng)論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,并分析各模型在積極和消極兩個(gè)方面的準(zhǔn)確率、召回率和F1值情況,各情感分析模型在酒店評(píng)論數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同模型在酒店評(píng)論數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 單位:%Tab. 2 Experimental results of different models on hotel review dataset unit:%
各情感分析模型在電商評(píng)論數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同模型在電商評(píng)論數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果 單位:%Tab. 3 Experimental results of different models on e-commerce review dataset unit:%
由表2~3可知,在酒店評(píng)論數(shù)據(jù)集上,本文模型在積極和消極方面的性能均優(yōu)于其他對(duì)比模型,Text-RCNN的性能僅次于本文模型,Text-RNN在該數(shù)據(jù)集上性能最差。具體來(lái)說(shuō),在酒店評(píng)論數(shù)據(jù)集上,本文模型在積極和消極方面,與Text-RCNN模型相比,本文模型的F1值分別提升了0.65個(gè)百分點(diǎn)和0.2個(gè)百分點(diǎn);與Text-RNN模型相比,本文模型的F1值分別提升了9.92個(gè)百分點(diǎn)和2.5個(gè)百分點(diǎn)。在電商評(píng)論數(shù)據(jù)集上,本文模型在積極方面表現(xiàn)出最優(yōu)的性能,在消極方面略低于DPCNN模型,與Text-RCNN模型相比,本文模型的F1值分別提升了1.71個(gè)百分點(diǎn)和0.18個(gè)百分點(diǎn);與Text-RNN模型相比,本文模型的F1值分別提升了3.38個(gè)百分點(diǎn)和0.56個(gè)百分點(diǎn)。出現(xiàn)上述結(jié)果的主要原因是:本文模型使用Bi-LSTM更好地捕捉雙向的語(yǔ)義依賴,使用多頭自注意力機(jī)制自動(dòng)學(xué)習(xí)多個(gè)子空間權(quán)重分布,獲得更加多樣的信息增加情感詞在分類過(guò)程中的權(quán)重。因此,本文模型可以有效地提高模型的預(yù)測(cè)準(zhǔn)確率,有利于對(duì)中文短文本進(jìn)行情感分析,可應(yīng)用在突發(fā)事件的情感圖譜研究中。
2.2.1 數(shù)據(jù)集與對(duì)比算法
為了驗(yàn)證本文節(jié)點(diǎn)影響力評(píng)估算法在突發(fā)事件中用戶言論影響力度量上的有效性,對(duì)該算法的區(qū)分度和準(zhǔn)確性進(jìn)行驗(yàn)證。本節(jié)實(shí)驗(yàn)中使用的公開(kāi)數(shù)據(jù)集均來(lái)自Network Repository網(wǎng)站,數(shù)據(jù)集詳細(xì)信息如表4所示。為了驗(yàn)證WDK算法的性能,將本文算法與度中心性(Degree Centrality, DC)[13]、接近中心性(Closeness Centrality, CC)[14]、介數(shù)中心性(Betweenness Centrality, BC)[15]、K-Shell(KS)[17]和H-indeX(HX)[27]算法進(jìn)行對(duì)比。將各算法在每個(gè)數(shù)據(jù)集上計(jì)算得到其節(jié)點(diǎn)影響力序列,利用影響力序列對(duì)算法的區(qū)分度和準(zhǔn)確性進(jìn)行對(duì)比分析。
表4 社交網(wǎng)絡(luò)數(shù)據(jù)集統(tǒng)計(jì)Tab. 4 Statistics of social network datasets
2.2.2 區(qū)分度分析
通過(guò)提高影響力評(píng)估算法的區(qū)分度,使影響力較高的用戶意見(jiàn)領(lǐng)袖地位更加明確,方便情感圖譜針對(duì)意見(jiàn)領(lǐng)袖進(jìn)行研究,因此對(duì)WDK算法的區(qū)分度進(jìn)行對(duì)比分析。算法的區(qū)分度是指影響力算法區(qū)分節(jié)點(diǎn)影響力的能力,在相同級(jí)別中節(jié)點(diǎn)的數(shù)量越少,其區(qū)分度就越高。本文利用M函數(shù)[28]對(duì)算法區(qū)分度進(jìn)行測(cè)試,評(píng)價(jià)標(biāo)準(zhǔn)如式(17)所示:
由表5可知,WDK算法在不同數(shù)據(jù)集上的區(qū)分度均優(yōu)于其他對(duì)比算法。以Karate網(wǎng)絡(luò)為例,與度中心性算法相比,WDK算法的區(qū)分度提升了25.68個(gè)百分點(diǎn);與K-shell算法相比,WDK算法的區(qū)分度提升了46.98個(gè)百分點(diǎn)。WDK算法通過(guò)對(duì)度值進(jìn)行加權(quán),使相同級(jí)別中節(jié)點(diǎn)的數(shù)量更少。將加權(quán)度與K-shell算法相結(jié)合,提高算法的區(qū)分度,滿足情感圖譜研究中對(duì)用戶影響力的區(qū)分性要求。
表5 節(jié)點(diǎn)影響力算法的M函數(shù)值Tab. 5 M-function value of node influence algorithm
2.2.3 準(zhǔn)確性分析
通過(guò)提高影響力評(píng)估算法的準(zhǔn)確性,可以使用戶的評(píng)估影響力更加接近真實(shí)影響力,使得情感圖譜更加準(zhǔn)確科學(xué),因此對(duì)本文影響力評(píng)估算法的準(zhǔn)確性進(jìn)行對(duì)比分析。本文使用易感-感染-免疫(Susceptible-Infected-Recovered, SIR)模型進(jìn)行模擬,得到數(shù)據(jù)集的影響力序列作為數(shù)據(jù)集真實(shí)影響力序列,采用肯德?tīng)栂嚓P(guān)系數(shù)來(lái)計(jì)算和的關(guān)聯(lián)程度,測(cè)試算法的準(zhǔn)確性。對(duì)于節(jié)點(diǎn)對(duì)和,若滿足,或,,則認(rèn)為這兩個(gè)節(jié)點(diǎn)是協(xié)調(diào)的;反之認(rèn)為節(jié)點(diǎn)之間不協(xié)調(diào)??系?tīng)栂嚓P(guān)系數(shù)越高,表示算法的準(zhǔn)確度越高??系?tīng)栂嚓P(guān)系數(shù)如式(18)所示:
在SIR模型中,節(jié)點(diǎn)在任意時(shí)刻只能處于易感染(Susceptible)、已感染(Infected)和免疫(Recovered)三種狀態(tài),利用節(jié)點(diǎn)在感染概率下的感染數(shù)量表示節(jié)點(diǎn)的影響力。在SIR模型中,常用一階鄰居與二階鄰居的平均度數(shù)表示傳播概率的閾值,為了提高準(zhǔn)確性,實(shí)際應(yīng)用中傳播概率一般大于閾值。本節(jié)實(shí)驗(yàn)中,對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行1 000次SIR模擬,取平均值作為節(jié)點(diǎn)的真實(shí)影響力。通過(guò)對(duì)比各算法在不同數(shù)據(jù)集上的肯德?tīng)栂嚓P(guān)系數(shù),驗(yàn)證了WDK算法具有良好的準(zhǔn)確性,節(jié)點(diǎn)影響力算法的準(zhǔn)確性如表6所示。
表6 節(jié)點(diǎn)影響力算法的肯德?tīng)栂嚓P(guān)系數(shù)Tab. 6 Kendall coefficients of node influence algorithms
由表6可知,WDK算法在不同數(shù)據(jù)集上的準(zhǔn)確性均優(yōu)于其他對(duì)比算法,可以準(zhǔn)確體現(xiàn)節(jié)點(diǎn)的真實(shí)影響力。以Karate網(wǎng)絡(luò)為例,與度中心性算法相比,本文算法的準(zhǔn)確性提升了3.2個(gè)百分點(diǎn);與K-shell算法相比,本文算法的準(zhǔn)確性提升了29.05個(gè)百分點(diǎn)。度中心性算法在準(zhǔn)確性上具有較好的性能,度指標(biāo)在計(jì)算時(shí)更加接近準(zhǔn)確影響力。本文算法將度指標(biāo)進(jìn)行加權(quán),對(duì)節(jié)點(diǎn)的局部影響力進(jìn)行評(píng)估,且與K-shell值相結(jié)合,得到節(jié)點(diǎn)的綜合影響力,獲得更優(yōu)的準(zhǔn)確性,滿足情感圖譜研究中對(duì)用戶影響力的準(zhǔn)確性要求。
本文選取“7.7安順公交車墜湖事件”為研究案例,構(gòu)建基于社交網(wǎng)絡(luò)的情感圖譜對(duì)突發(fā)事件進(jìn)行可視化分析。2020年7月7日12時(shí)12分,安順市一公交車在行駛至西秀區(qū)虹山水庫(kù)大壩時(shí),突然轉(zhuǎn)向沖入水庫(kù),造成人員傷亡;7月12日,貴州省安順市公安局公布公交車墜湖原因,系駕駛員的個(gè)人犯罪行為,共搜救出37人,其中20人當(dāng)場(chǎng)死亡,1人經(jīng)搶救無(wú)效死亡,15人受傷,1人未受傷。該事件引起網(wǎng)友的廣泛關(guān)注,形成社會(huì)輿論。本文以微博為研究平臺(tái),以“安順公交車墜湖事件”為研究案例,生成相應(yīng)的情感圖譜,對(duì)突發(fā)事件進(jìn)行研究分析。為方便數(shù)據(jù)獲取和處理,利用微博的高級(jí)搜索功能篩選出熱門微博,對(duì)7月7日至7月17日時(shí)間區(qū)間內(nèi)事件相關(guān)的微博、用戶、評(píng)論、時(shí)間等信息進(jìn)行獲取。對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析前,首先進(jìn)行預(yù)處理操作,具體包括去除停用詞、制定正則表達(dá)式過(guò)濾規(guī)則、利用Jieba工具進(jìn)行分詞處理等。數(shù)據(jù)處理完成后,以用戶為節(jié)點(diǎn),以用戶之間的評(píng)論關(guān)系為有向邊,構(gòu)建突發(fā)事件的社交網(wǎng)絡(luò)圖。
“7.7安順公交車墜湖事件”的發(fā)生沒(méi)有任何征兆和預(yù)警,事件發(fā)生后輿情熱度瞬間爆發(fā),達(dá)到該事件熱度峰值。根據(jù)該突發(fā)事件不同時(shí)間段的熱度特征,將該事件的生命周期劃分為爆發(fā)期、蔓延期、成熟期和衰退期四個(gè)階段進(jìn)行分析,生命周期中各階段的用戶狀態(tài)如圖4所示。其中,7月7日為事件的爆發(fā)期,8~11日至為蔓延期,12日為成熟期,13~17日為衰退期。“7.7安順公交車墜湖事件”引發(fā)網(wǎng)民的熱議,網(wǎng)民的整體情感趨于正向,但依然存在一定比例的負(fù)面評(píng)論。
圖4 “7.7安順公交車墜湖事件”各發(fā)展階段用戶狀態(tài)Fig. 4 User status in each development stage of “7.7 Anshun Bus Falling into Lake Incident”
本文利用基于多頭自注意力和Bi-LSTM的情感分析模型計(jì)算用戶文本數(shù)據(jù)的情感傾向,情感值為正表示積極情感,情感值為負(fù)表示消極情感。若用戶發(fā)表多條信息,將多條文本數(shù)據(jù)的情感傾向平均值作為用戶的情感傾向。利用融合度與K-shell的節(jié)點(diǎn)影響力算法,計(jì)算用戶在突發(fā)事件輿情傳播中的影響力大小。在得到用戶的情感傾向和影響力之后,將計(jì)算結(jié)果導(dǎo)入Gephi可視化軟件,按照事件生命周期的不同階段生成情感圖譜。“7.7安順公交車墜湖事件”的情感圖譜如圖5所示。在圖5中,每個(gè)節(jié)點(diǎn)表示一個(gè)用戶,節(jié)點(diǎn)大小表示用戶的影響力大小,節(jié)點(diǎn)標(biāo)簽表示用戶名;節(jié)點(diǎn)的顏色表示用戶的情感傾向,灰色表示傳播消極的情感,白色表示傳播積極的情感,有向邊表示用戶之間的評(píng)論關(guān)系。
圖5 “7.7安順公交車墜湖事件”情感圖譜Fig. 5 Emotional map of “7.7 Anshun Bus Falling into Lake Incident”
為了更好地分析用戶在突發(fā)事件的不同階段關(guān)注的熱點(diǎn)問(wèn)題,研究用戶群體的情感變化趨勢(shì),本文利用該事件中用戶發(fā)布的文本信息,為事件生命周期各階段生成輿情詞云,對(duì)每個(gè)階段的話題詞頻進(jìn)行分析?!?.7安順公交車墜湖事件”詞云如圖6所示。
通過(guò)生成“7.7安順公交車墜湖事件”的情感圖譜和輿情詞云,對(duì)該事件爆發(fā)期、蔓延期、成熟期和衰退期進(jìn)行分析,研究了該事件的輿情發(fā)展趨勢(shì)。
在輿情的爆發(fā)期,事件熱度迅速增長(zhǎng),大量網(wǎng)友關(guān)注該事件,開(kāi)始形成社會(huì)輿論,輿論熱度出現(xiàn)“井噴式”傳播現(xiàn)象。在該時(shí)期,“共青團(tuán)中央”“紫光閣”“人民網(wǎng)”等官方賬號(hào)迅速向公眾發(fā)布事件的真實(shí)情況,對(duì)社會(huì)輿論進(jìn)行積極引導(dǎo)。從該時(shí)期情感圖譜可以看出,“共青團(tuán)中央”“紫光閣”“人民網(wǎng)”“楚天都市報(bào)”等白色節(jié)點(diǎn)數(shù)量較多,“北京突發(fā)”“江蘇侃爺”等灰色節(jié)點(diǎn)數(shù)量較少,大多數(shù)用戶表現(xiàn)積極的情感。該時(shí)期出現(xiàn)頻次較高的詞語(yǔ)有“公交車”“司機(jī)”“平安”“逝者”等,用戶主要圍繞事件的基本情況發(fā)表言論。在該時(shí)期的意見(jiàn)領(lǐng)袖中,官方賬號(hào)占據(jù)輿論的中心,不斷向公眾傳遞事件相關(guān)信息,防止事件相關(guān)謠言傳播。
圖6 “7.7安順公交車墜湖事件”詞云Fig. 6 Word cloud of “7.7 Anshun Bus Falling into Lake Incident”
在輿情的蔓延期,相關(guān)部門對(duì)事件展開(kāi)調(diào)查,該事件依然保持較高熱度。“人民日?qǐng)?bào)”等官方賬號(hào)對(duì)該事件持續(xù)跟進(jìn),傳達(dá)事件的正確信息并安撫網(wǎng)民情緒?!叭嗣袢?qǐng)?bào)”“沈陽(yáng)網(wǎng)警巡查執(zhí)法”等具有較大影響力節(jié)點(diǎn)均呈現(xiàn)白色,個(gè)別影響力較小的意見(jiàn)領(lǐng)袖節(jié)點(diǎn)呈現(xiàn)灰色。該時(shí)期用戶的討論話題以“公交車”“貴州”“司機(jī)”“英雄”為主,更多的用戶開(kāi)始關(guān)注事件的后續(xù)發(fā)展,出現(xiàn)較多對(duì)事件起因的分析。該時(shí)期用戶之間呈現(xiàn)明顯的小團(tuán)體現(xiàn)象,各小團(tuán)體之間存在大量關(guān)聯(lián),用戶接收到多方信息,降低了受到謠言的影響。
在輿情的成熟期,警方對(duì)案件基本情況及原因進(jìn)行通報(bào),對(duì)網(wǎng)絡(luò)傳言進(jìn)行聲明。官方媒體占據(jù)輿論的中心,傳達(dá)事件真實(shí)信息,使網(wǎng)民對(duì)該事件得到全方位的了解。其中,“新京報(bào)”“澎湃新聞”“人民日?qǐng)?bào)”等用戶節(jié)點(diǎn)均呈現(xiàn)白色,“中國(guó)新聞網(wǎng)”等少量用戶節(jié)點(diǎn)呈現(xiàn)灰色。該時(shí)期用戶討論話題以“司機(jī)”“蓄意”“報(bào)復(fù)社會(huì)”為主,隨著事件起因的爆出,輿情重心進(jìn)一步轉(zhuǎn)移。相較事件初期,該階段網(wǎng)絡(luò)輿情影響力得到有效的控制,體現(xiàn)出官方媒體的公信力。
在輿情的衰退期,事件熱度開(kāi)始分散,輿情傳播擴(kuò)散速度緩慢。該時(shí)期,傳播積極情感和傳播消極情感的意見(jiàn)領(lǐng)袖數(shù)量沒(méi)有明顯差距,未出現(xiàn)對(duì)事件占據(jù)主導(dǎo)作用的意見(jiàn)領(lǐng)袖。該時(shí)期用戶談?wù)撛掝}以“司機(jī)”“報(bào)復(fù)社會(huì)”“心理健康”為主,網(wǎng)民在討論事件起因的同時(shí),開(kāi)始出現(xiàn)對(duì)事件進(jìn)行反思和預(yù)防的話題。該時(shí)期網(wǎng)絡(luò)輿情進(jìn)入衰退狀態(tài),整個(gè)事件開(kāi)始進(jìn)入反思階段。
在事件整體過(guò)程中,官方賬號(hào)積極介入,向網(wǎng)民傳達(dá)正確的信息,有效避免了謠言及偏激輿論的傳播。傳播積極情感的用戶在該突發(fā)事件生命周期的各個(gè)階段,均多于傳播消極情感的用戶,絕大多數(shù)用戶對(duì)該事件具有正確的認(rèn)知。爆發(fā)期和蔓延期是進(jìn)行輿情監(jiān)控的主要時(shí)期。在爆發(fā)期中,普通用戶對(duì)事件的了解不夠全面,容易受到消極情緒的影響,需對(duì)用戶進(jìn)行正確引導(dǎo)。在蔓延期時(shí),用戶對(duì)事件有了更全面的認(rèn)知,主流媒體對(duì)事件真實(shí)情況持續(xù)更新,保證了積極的輿論發(fā)展趨勢(shì)。在突發(fā)事件發(fā)生時(shí),絕大部分用戶處于輿論的邊緣,對(duì)輿論的影響較小,官方媒體和主流媒體對(duì)事件的輿情發(fā)展具有主導(dǎo)作用。主流媒體表達(dá)信息客觀公正,能夠保證信息的正向傳播,有利于事件的和諧發(fā)展和社會(huì)的穩(wěn)定。在該事件中,雖然大多意見(jiàn)領(lǐng)袖能夠傳播積極的情感,也難免存在意見(jiàn)領(lǐng)袖傳播消極的情感,這類用戶屬于突發(fā)事件不穩(wěn)定因素,需進(jìn)行重點(diǎn)監(jiān)控和引導(dǎo)。
為了對(duì)突發(fā)事件的網(wǎng)絡(luò)輿情進(jìn)行合理監(jiān)控和引導(dǎo),本文基于情感分析和社交網(wǎng)絡(luò)分析方法,構(gòu)建情感圖譜對(duì)網(wǎng)絡(luò)輿情進(jìn)行可視化分析。為了有效評(píng)估突發(fā)事件中用戶的情感傾向和影響力大小,綜合情感分析與影響力評(píng)估算法構(gòu)建突發(fā)事件的情感圖譜。首先,提出了一種中文短文本情感分析模型,將多頭自注意力機(jī)制與Bi-LSTM模型結(jié)合來(lái)分析用戶的情感。同時(shí),提出了一種評(píng)估節(jié)點(diǎn)影響力的WDK算法,結(jié)合節(jié)點(diǎn)加權(quán)度和節(jié)點(diǎn)的K-shell值來(lái)評(píng)估有向圖中節(jié)點(diǎn)的影響力。實(shí)驗(yàn)結(jié)果表明,本文情感分析模型在情感分類上具有較優(yōu)的性能,社交網(wǎng)絡(luò)影響力算法在區(qū)分度和準(zhǔn)確性上表現(xiàn)優(yōu)異。
為了驗(yàn)證本文研究方法的有效性及實(shí)用性,以“安順公交車墜湖事件”為研究案例,對(duì)突發(fā)事件進(jìn)行了可視化分析。實(shí)驗(yàn)結(jié)果表明,通過(guò)構(gòu)建社交網(wǎng)絡(luò)的情感圖譜,可以有效地展現(xiàn)突發(fā)事件的情感傳播方式和演化特征,為相關(guān)部門對(duì)突發(fā)事件風(fēng)險(xiǎn)監(jiān)控預(yù)警和調(diào)控提供了有效途徑。在未來(lái)的研究中,可以進(jìn)一步提高情感分析精確度和影響力區(qū)分度,使情感圖譜更加準(zhǔn)確有效。
[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第47次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].[2021-03-12].http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203334633480104.pdf.(China Internet Network Information Center. The 47th China statistical report on Internet development [EB/OL]. [2021-03-12]. http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203334633480104.pdf.)
[2] 戴杏云,張柳,戴偉輝,等.社交網(wǎng)絡(luò)的情感圖譜研究[J].管理評(píng)論,2016,28(8):79-86.(DAI X Y, ZHANG L,DAI W H, et al. Research on emotional mapping of social networks [J]. Management Review, 2016, 28(8): 79-86.)
[3] 黃星,劉樑.突發(fā)事件網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)評(píng)價(jià)方法及應(yīng)用[J].情報(bào)科學(xué),2018,36(4):3-9.(HUANG X, LIU L. The evaluation method and application of unexpected events network public opinion [J]. Information Science, 2018, 36(4): 3-9.)
[4] 安璐,歐孟花.突發(fā)公共衛(wèi)生事件利益相關(guān)者的社會(huì)網(wǎng)絡(luò)情感圖譜研究[J].圖書情報(bào)工作,2017,61(20):120-130.(AN L, OU M H. Social network sentiment map of the stakeholders in public health emergencies [J]. Library and Information Service, 2017, 61(20): 120-130.)
[5] 趙蓉英,王旭.突發(fā)事件網(wǎng)絡(luò)輿情關(guān)鍵節(jié)點(diǎn)識(shí)別及導(dǎo)控對(duì)策研究——以“大賢村遭洪災(zāi)事件”為例[J].現(xiàn)代情報(bào),2018,38(1):19-24,30.(ZHAO R Y, WANG X. Research on identifying key nodes and guiding and controlling strategies of network public opinion in emergency — a case study of being suffered by flooding in Da Xian Village [J]. Journal of Modern Information, 2018, 38(1): 19-24, 30.)
[6] 張柳,王晰巍,王鐸,等.微博環(huán)境下高校輿情情感演化圖譜研究——以新浪微博“高校學(xué)術(shù)不端”話題為例[J].現(xiàn)代情報(bào),2019,39(10):119-126,135.(ZHANG L, WANG X W, WANG D, et al. The study of emotional evolution map of public opinions in university under the microblog environment — a case of “academic misconduct in universities” in Sina Weibo [J]. Journal of Modern Information, 2019, 39(10): 119-126, 135.)
[7] HEMMATIAN F, SOHRABI M K. A survey on classification techniques for opinion mining and sentiment analysis [J]. Artificial Intelligence Review, 2019, 52(3): 1495-1545.
[8] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 6000-6010.
[9] WANG Y Q, HUANG M L, ZHAO L, et al. Attention-based LSTM for aspect-level sentiment classification [C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2016: 606-615.
[10] LIU Z, ZHOU W, LI H. AB-LSTM: attention-based bidirectional LSTM model for scene text detection [J]. ACM Transactions on Multimedia Computing,Communications, and Applications, 2019, 15(4): Article No.107.
[11] 關(guān)鵬飛,李寶安,呂學(xué)強(qiáng),等.注意力增強(qiáng)的雙向LSTM情感分析[J].中文信息學(xué)報(bào),2019,33(2):105-111.(GUAN P F,LI B A, LYU X Q, et al. Attention enhanced Bi-directional LSTM for sentiment analysis [J]. Journal of Chinese Information Processing, 2019, 33(2): 105-111.)
[12] ZAREIE A, SHEIKHAHMADI A, FATEMI A. Influential nodes ranking in complex networks: an entropy-based approach [J]. Chaos, Solitons and Fractals, 2017, 104: 485-494.
[13] FREEMAN L C. Centrality in social networks conceptual clarification [J]. Social Networks, 1978, 1(3): 215-239.
[14] SABIDUSSI G. The centrality index of a graph [J]. Psychometrika, 1966, 31(4): 581-603.
[15] NEWMAN M E J. A measure of betweenness centrality based on random walks [J]. Social Networks, 2005, 27(1): 39-54.
[16] BRIN S, PAGE L. The anatomy of a large-scale hypertextual Web search engine [J]. Computer Networks and ISDN Systems, 1998, 30 (1/2/3/4/5/6/7) :107-117.
[17] GARAS A, SCHWEITZER F, HAVLIN S. Ak-shell de-composition method for weighted networks [J]. New Journal of Physics, 2012, 14(8): 2017 No. 083030.
[18] 鄧凱旋,陳鴻昶,黃瑞陽(yáng).一種基于改進(jìn)K-shell的節(jié)點(diǎn)重要性排序方法[J].計(jì)算機(jī)應(yīng)用研究,2017,34(10):3017-3019, 3084.(DENG K X, CHEN H C, HUANG R Y. Method of node importance ranking based on improved K-shell [J]. Application Research of Computers, 2017, 34(10):3017-3019, 3084.)
[19] IBNOULOUAFI A, EL HAZITI M. Density centrality: identifying influential nodes based on area density formula [J]. Chaos, Solitons and Fractals, 2018, 114: 69-80.
[20] 王安,顧益軍.基于社區(qū)劃分的節(jié)點(diǎn)重要性評(píng)估方法[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(8):42-48.(WANG A, GU Y J. Nodes importance ranking method based on community detection [J]. Computer Engineering and Applications,2020, 56(8): 42-48.)
[21] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[22] LAI S W, XU L H, LIU K, et al. Recurrent convolutional neural networks for text classification [C]// Proceedings of the 2015 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 2267-2273.
[23] LIU P, QIU X, HUANG X. Recurrent neural network for text classification with multi-task learning [C]// Proceedings of the 2016 Twenty-Fifth International Joint Conference on Artificial Intelligence. New York: AAAI Press, 2016: 2873-2879.
[24] YANG Z C, YANG D Y, DYER C, et al. Hierarchical attention networks for document classification [C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: ACL, 2016: 1480-1489.
[25] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification [C]// Proceedings of the 2017 15th Conference of the European Chapter of the Association for Computational Linguistics (Volume 2, Short Papers). Stroudsburg: ACL, 2017: 427-431.
[26] JOHNSON R, ZHANG T. Deep pyramid convolutional neural networks for text categorization [C]// Proceedings of the 2017 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg: ACL,2017:562-570.
[27] Lü L Y, ZHOU T, ZHANG Q M, et al. The H-index of a network node and its relation to degree and coreness [J]. Nature Communications, 2016, 7: Article No.10168.
[28] LI H J, ZHANG X S. Analysis of stability of community structure across multiple hierarchical levels[J]. Europhysics Letters, 2013, 103(5): Article No.58002.
Emotional map of emergency based on sentiment analysis and influence evaluation
QIU Liqing*, QU Fushuai
(College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao Shandong266590,China)
Aiming the spread of negative network public opinions in emergencies, a research method of emotional map of emergency based on sentiment analysis and influence evaluation was proposed. In the proposed method, a sentiment analysis model based on multi-head self-attention mechanism and Bi-directional Long Short-Term Memory network (Bi-LSTM) was proposed to evaluate website users’ emotional tendencies. Meanwhile, a point influence evaluation algorithm combining weighted degree and K-shell value was proposed to measure users’ influences. Based on the above models, the emotional map of emergency was constructed, which effectively improved the accuracy and scientificity of the emotional map. Taking “7.7 Anshun Bus Falling into Lake Incident” as an example,the life cycle of an emergency was divided into four stages such as outbreak stage, spread stage, maturity stage and decline stage, which were used to separately generate the emotional maps for visualization analysis. Experimental results show that, the F1-score of the proposed sentiment analysis model on the hotel review dataset is 9.92 percentage points and 2.5 percentage points higher than that of Recurrent Neural Networks for Text Classification (Text-RNN) model in positive and negative aspects respectively. On the Karate network, the discrimination and accuracy of the proposed influence evaluation algorithm are 46.89 percentage points and 29.05 percentage points higher than those of the K-shell algorithm respectively. By building the emotional map based on social networks, relevant department can find the opinion leaders and their tendencies, thereby grasping the development trend of online public opinion, and reducing the influence of negative emotions on society.
social network; sentiment analysis; opinion leader; emotional map; public opinion monitoring
TP391
A
1001-9081(2022)05-1330-09
10.11772/j.issn.1001-9081.2021040654
2021?04?25;
2021?07?10;
2021?07?14。
國(guó)家自然科學(xué)基金資助項(xiàng)目(71772107);山東省自然科學(xué)基金資助項(xiàng)目(ZR2020MF044);山東省社會(huì)科學(xué)規(guī)劃數(shù)字山東研究專項(xiàng)(21CSDJ48);青島市社科規(guī)劃項(xiàng)目(QDSKL1801103)。
仇麗青(1978—),女,山東德州人,副教授,博士,主要研究方向:社交網(wǎng)絡(luò)、數(shù)據(jù)挖掘; 曲福帥(1996—),男,山東濰坊人,碩士研究生,主要研究方向:社交網(wǎng)絡(luò)、情感分析。
This work is partially supported by National Natural Science Foundation of China (71772107),Shandong Natural Science Foundation (ZR2020MF044), Digital Shandong Research Project of Shandong Social Science Plan (21CSDJ48), Qingdao Social Science Planning Project (QDSKL1801103).
QIU Liqing, born in 1978, Ph. D., associate professor. Her research interests include social network, data mining.
QU Fushuai, born in 1996, M. S. candidate. His research interests include social network,sentiment analysis.