史偉,薛廣聰,何紹義
(1. 浙江海洋大學經濟與管理學院,舟山 316022;2. 湖州師范學院信息工程學院,湖州 313000;3. 加州州立大學圣伯納迪諾分校商業(yè)與公共管理學院,圣伯納迪諾 91708)
隨著大數據和信息時代的發(fā)展,移動互聯網讓“萬物互聯”成為可能,網絡逐漸成為公眾交流觀點和釋放自身本相的空間,是輿論產生、發(fā)酵和傳播的重要渠道。網絡環(huán)境具有相對客觀的匿名性,人們更愿意在網絡上表達自身的觀點和情感。近年來,接連不斷的突發(fā)公共事件在微博、貼吧以及推特等社交平臺上引發(fā)熱議,網絡輿情貫穿于突發(fā)事件的爆發(fā)、發(fā)展和消亡階段,并且對重大突發(fā)事件的演變影響甚大。一方面,促進重大事件及時得以解決;另一方面,可能加劇公眾的恐慌心理,影響社會穩(wěn)定和經濟發(fā)展。網絡輿情環(huán)境是一個復雜多變的社會網絡系統(tǒng),不同用戶、不同信息之間的非線性互動推動了輿情的發(fā)酵。社交媒體作為各種輿情信息的核心載體,其相關評論往往蘊含著非常豐富的公眾情感信息。目前已有大量研究利用情感分析等技術對公眾情感信息進行分析與預測,雖然可以有效預測網絡輿情的演變趨勢,但都沒有考慮到情感類間的相關性。
本文先將機器學習中的關聯規(guī)則算法應用到網絡輿情觀點挖掘,在傳統(tǒng)Apriori算法的基礎上計算情感偏移度來分析不同情感類之間的關聯關系,然后利用馬爾可夫鏈構建情感狀態(tài)轉移矩陣對網絡輿情情感趨勢進行預測,結合實際數據和預測數據的誤差分析驗證所構建情感預測模型的有效性和準確性,此項研究對突發(fā)事件中網絡輿情的引導和控制具有重大的應用價值和實際意義[1]。
情感分析為探究用戶情感以及行為方式提供了新的方法,并被廣泛應用在商品評論、主題情感挖掘、智能人機交互、相似性推薦和網絡輿情分析等熱門領域中[2-4]。情感分類作為情感分析的基礎,是自然語言處理領域的研究熱點之一[5]。Raza等[6]為了分析和檢測公眾對重大政治事件的情緒,提出一種基于語義定向的系統(tǒng),通過計算推文的情感權重來分析公眾意見和在線傳播對決策的影響,該系統(tǒng)對重大政治事件推文的情感分類準確率達到了86%,還發(fā)現微博內容以諷刺和消極的語調為主,導致機器對負面推文識別率較低。Yoon等[7]為了分析政治問題中的公眾輿論導向,利用多元回歸模型和潛在狄利克雷主題模型計算個人推文方面和主題層面的文本情感極性,該方法的情感分類精度比基線方法提高了7%。曾雪強等[8]引入普魯契克情感輪心理學模型計算情感間的心理距離,提出基于情感輪和情感詞典的情感分布標記增強方法,該方法在傳統(tǒng)的情感分類任務之外考慮了情感的心理學知識和情感詞的語言學信息,且在7個中英文情感數據集上的實驗性能優(yōu)于已有方法。Cai等[9]基于領域分類任務學習特定領域的詞向量,然后拼接普通詞向量和領域詞向量用于情感分類,在16個不同領域的數據集上取得了較好的分類效果;在此基礎上,曹柳文等[10]提出一種基于互學習的多詞向量融合情感分類模型,充分利用普通詞向量、領域詞向量和情感詞向量的信息,在方面級情感分類上的性能顯著優(yōu)于同類基準方法。
傳統(tǒng)的情感分類研究通常為單標簽情感分類任務,但實際上存在一個句子中包含多種情感類的情況。Wang等[11]提出一種基于約束優(yōu)化的文本情感檢測框架,該框架采用情感綁定、主題相關性以及情感詞典來檢測用戶社交媒體內容所包含的情緒,為文本選擇一個最主要的情感類別,解決了多標簽情感分類問題。鐘敏娟等[12]基于關聯規(guī)則挖掘主題特征詞與情感詞,考慮了情感詞之間的混合關系和上下文關系,構建了情感詞量化模型,從而對多標簽情感進行分類。Huang等[13]通過學習情感標簽特征進行多標簽分類,判斷標簽之間是否共享來考察標簽的相關性。張立等[14]提出一種基于多目標依存建模的情感分類模型,通過構建情感特征向量并對同一文本中多個標簽之間的依存性進行分析實現多目標情感分類任務。雖然在多標簽情感分類任務中,構建的情感分類模型可以有效識別出文本中包含的多種情感,但無法定量地回答各個相關情感的表達程度分別有多少[15]。
情感預測是指個體對事件的未來情感反應預測[16]。由于情感具有差異性、動態(tài)性和社會性等特征,用戶情感的變化不僅與外部環(huán)境有關,也與情感的歷史狀態(tài)有所關聯。一般來說,傳統(tǒng)的情感預測被視為單標簽的監(jiān)督學習,未考慮標簽之間的相關性。陳瑋等[17]基于神經網絡技術提取文本的局部特征和全局語義信息,對情感標簽之間的相關性進行建模分析,研究結果表明考慮標簽相關性的情感分類模型具有更高的精確度。Yoo等[18]提出一種從海量社交媒體內容中分析和預測用戶情感軌跡的系統(tǒng),通過分析特定關鍵詞的路徑、范圍和時間因素來預測事件情感。Lei等[19]提出一種基于情感的評級預測方法來提高推薦系統(tǒng)的預測準確率,該方法結合用戶情感相似性、人際情感影響和產品聲譽3個因素來做出準確的評級預測。Dong等[20]考慮到人的自我情感變化機制,提出一種結合用戶情感變化機制和用戶間交互的阻尼振蕩模型對情感發(fā)展趨勢進行實時預測,取得了不錯的效果。Gupta等[21]提出了一種混合用戶情感、行為的預測系統(tǒng),用于評估文本信息、預測文本情感以及識別用戶行為,該系統(tǒng)平均準確度可以達到90%。
公眾的情感狀態(tài)變化能為情感預測提供數據基礎,通過社交媒體評論更好地對網絡輿情事件進行情感分析和預測。Sun等[22]針對中文微博評論的情感特征,提出一種基于卷積擴展特征的深度神經網絡模型用于情感預測,但該模型的時耗隨著卷積層數的增加而增加。Huang等[23]研究了個體情緒、網絡結構、輿情傳播主體和環(huán)境等內外因素對網絡輿情演化的影響。Wang等[24]從輿情傳播的角度研究傳播主體與環(huán)境之間的交互演化機制,通過分析網民負面情感的突變趨勢來識別輿情爆發(fā)的關鍵時間窗口,為網絡輿情檢測和預警提供了參考。針對情感的時序變化特征,有學者將情感變化過程假設為一種馬爾可夫過程,即情感狀態(tài)轉移概率是由多方面因素共同決定的。Yang等[25]基于耦合隱馬爾可夫模型的多模態(tài)融合方法,對音頻和視頻中的異常情緒進行檢測,該方法在情緒障礙檢測中具有良好的準確性和有效性。趙晨陽等[26]基于生態(tài)科學中的種群共生理論,構建了公眾情感共生模型(public emotion - symbiosis model,E-SM),通過7種情感共生模式的仿真模擬來預測網絡輿情中公眾情感變化趨勢。
在情感預測應用上,王偉軍等[27]基于中文心境詞匯語義網絡和馬爾可夫隨機游走算法,構建了七維公眾情感狀態(tài)詞典,并提出一個混合預測特征模型對新產品市場趨勢進行預測,研究結果表明該混合預測模型具有較好的預測能力和預測提前期。Chai等[28]通過整合新聞事件、評論情感等多源資訊,構建了一個多源異類資料分析方法來預測未來期貨市場價格,利用擴展的隱馬爾可夫模型探索數據中潛在的時間相關性,除此之外,還實現了特定特征挖掘以探索目標行業(yè)未來的相關知識。孫嘉琪等[29]提出一種將時間序列模型與情感分析相結合的情感預測方法,采用深度學習模型構建ARIMAGARCH(autoregressive-moving average-generalized auto regressive conditional heteroscedasticity)時間序列模型,對情感值時間序列進行建模,分析投資者情感趨勢與股市漲跌幅,為投資者提供參考。
人類的情感復雜又多變,不同情感間存在著明顯的相關性,如某些情感經常會同時出現,表現出很強的正相關性,而其他情感則相反。本文從情感轉移的視角對情感變化趨勢進行研究,根據既有相關研究發(fā)現,網絡輿情的情感預測研究中還存在一些未解決的問題:①網絡輿情演變過程中不同極性的情感之間是否會發(fā)生轉移?②若發(fā)生轉移,情感轉移的概率是否會隨時間的推移而變化?③不同粒度下的情感分類是否會對輿情預測結果造成影響?
為解決上述問題,本文結合情感分析與數據挖掘技術提出一種新的情感預測模型,采用關聯規(guī)則算法挖掘網民不同情感狀態(tài)間的關聯關系,運用馬爾可夫鏈構造情感狀態(tài)轉移矩陣預測情感狀態(tài)的遷移概率,探索輿情事件下網民情感演變規(guī)律和遷移趨勢。
基于數據挖掘和情感分析技術提出一種網絡輿情情感預測模型。首先,對從新浪微博爬取到的評論數據進行預處理;其次,根據網絡輿情評論語料庫對情感本體擴展,利用擴展后的模糊情感本體進行情感詞標注;再其次,引入Apriori算法,計算不同情感類間的支持度、置信度和偏移度;最后,基于馬爾可夫鏈構建情感狀態(tài)轉移矩陣,并分別從宏觀和微觀兩個情感分類層面對預測結果進行分析,具體流程如圖1所示。
圖1 網絡輿情情感預測模型流程圖
如圖1所示,本文構建的網絡輿情情感預測模型涉及情感分析、數據挖掘、統(tǒng)計學、語言處理等技術,下文將分別介紹主要方法及改進措施。
2.2.1 模糊情感本體
情感本體是指情感領域中存在著的對象類型或概念及其相互之間關系的形式化表達。由于中文的“詞義”十分復雜且模糊,一個詞在不同語境下會表達出不同的語義,本課題組在前期工作中已經將知網(HowNet)提供的836個正面情感詞和1254個負面情感詞作為基礎詞匯,結合模糊理論和在線評論特點建立了模糊情感本體[30]。為了能包含大部分通用情感類,本文挑選了8種情感類(期待、高興、喜愛、驚訝、焦慮、悲傷、生氣和討厭)作為模糊情感本體中的情感類型,并以三元組的形式描述模糊情感本體,即FEO=(B,R,E)。其中,B(編號;詞條;對應英語;詞性;錄入者;版本信息)表示詞匯的基本信息;R(同義關系詞匯)表示詞匯之間的同義關系;E(情感類型;隸屬度)表示詞匯的情感類型和隸屬度。
網絡評論表達具有多樣性和發(fā)展性,輿情評論中也不斷出現具有情感傾向的新詞語。本文從網絡輿情評論語料庫中整理出87個具有情感傾向的新詞,并對這些新的情感詞進行分類。為了避免分類過程中個人偏向因素的問題,采取多人標注、集中分析的方式,并用kappa統(tǒng)計方法來衡量情感分類的精度,即
其中,P(A)表示兩人以上情感標注結果一致性的概率;P(E)表示專家憑直覺標注的一致性概率,其平均結果為0.75(0.61~0.80為高度一致性),表示情感標注一致性良好。為方便數據統(tǒng)計與實驗,下文采用數字標號1~8來依次表示情感類,擴展后的模糊情感本體如表1所示。
表1 擴展后的模糊情感本體數量
2.2.2 拓展的關聯規(guī)則
關聯規(guī)則(association rules)反映了一個事物與其他事物之間的相互依存性和關聯性,是數據挖掘的一個重要技術。Apriori算法作為關聯規(guī)則挖掘的經典算法之一,通過分析不同事項之間的聯系,根據支持度、置信度等相關規(guī)則獲取不同事項之間的強關聯規(guī)則,用于從大量數據中挖掘出有價值的數據關系。將關聯規(guī)則應用到情感分析中,通過挖掘網絡輿情評論中網民情感之間的關聯性來探索輿情過程中的情感變化趨勢。除傳統(tǒng)關聯規(guī)則中的支持度和置信度外,本文提出偏移度來表示一種情感向另一種情感轉變的趨勢。Apriori算法是關聯規(guī)則挖掘的經典算法之一,拓展后的Apriori算法主要由3個過程組成:迭代找出最大的頻繁項集、依次產生強關聯規(guī)則和計算情感類間的偏移度。對應的公式為
其中,A、B表示不同事件;N表示事務數據集總數;DataNum表示包含2種或2種以上情感類的數據集個數;n表示頻繁n項集;k表示最大的頻繁項集項數;Freq(A)表示A事件出現的頻次。支持度表示事件A、B同時出現的概率,置信度表示在事件A出現的情況下事件B也出現的概率,偏移度反映了事件A、B之間的轉移性。具體算法如下。
輸入:包含情感類別序號的原始數據集N、最小支持度minSupport、最小置信度minConf。
輸出:
(1)最大的頻繁k項集。
Step1.掃描整個數據集,挑選出所有出現過的特征構成候選1項集。
Step2.找出最大的頻繁k項集。
Step2.1.分別計算候選k項集中各項的支持度(k從1開始);
Step2.2.剪除候選k項集中支持度低于閾值的數據集,得到頻繁k項集;若所得的頻繁k項集為空,則返回頻繁k-1項集的集合作為結果,算法結束;
Step2.3.基于頻繁k項集,連接生成候選k+1項集。Step3.轉入Step2,迭代獲取k=k+1項集的結果。
(2)產生關聯規(guī)則。
Step1.對于每個頻繁項集L,生成L的所有非空子集。
Step2.對L的每個非空子集S,若Support(L)/Support(L-S)≥minConf,則輸出關聯規(guī)則(L-S)→S。
(3)計算偏移度。
Step1.根據情感類出現的頻次計算相同情感類間的偏移度。
Step2.根據關聯規(guī)則(L-S)→S在不同頻繁項集中的置信度計算不同情感類的偏移度。
2.2.3 馬爾可夫鏈
馬爾可夫模型(Markov model)是由A. A. Mar‐kov提出的一種統(tǒng)計模型。他將事件中的隨機變量作為節(jié)點,若兩個隨機變量之間相關,則用一條“邊”連接,當存在若干個隨機變量時,則形成一個有向圖,即構成一個網絡,將該有向圖用線性鏈的方式展開,則得到馬爾可夫模型。由于鏈中每個節(jié)點都是隨機變量,若將其看成各個時刻的相關變化,則可以得到時間和狀態(tài)離散的馬爾可夫鏈(Markov chain)。
假設過程中的序列狀態(tài)為
那么在Xt+1狀態(tài)下的轉移概率僅取決于Xt時的狀態(tài),即
在已知目前狀態(tài)的情況下,事件未來的演變不依賴于其過去的演變,每個狀態(tài)的轉移只與之前的一個狀態(tài)有關。同理,網民的情感狀態(tài)具有獨立性,不依賴于歷史情感狀態(tài)的演變,每種情感類別的轉移只與之前的一個情感類別相關,因此,本文引入馬爾可夫模型對網民情感狀態(tài)的變化進行預測。定義矩陣P某一位置P(i,j)的歸一偏移度為Pij,即從情感i轉移到情感j的概率,則得到的馬爾可夫鏈模型的情感轉移概率矩陣為
新冠肺炎疫情是全球最嚴重的突發(fā)公共衛(wèi)生事件之一,疫情的傳播速度和覆蓋范圍對全球各國經濟和社會造成嚴重影響,在網絡上引起巨大的輿論浪潮。本文利用Python爬蟲爬取2019年12月31日新浪官方微博“央視新聞”和“人民日報”發(fā)布的“XX出現不明肺炎”相關微博評論,共29930條。首先,對數據進行預處理,篩選掉重復評論和不包含情感詞的評論,去除包含表情、鏈接、@轉發(fā)標志等噪聲信息;其次,對剩余7978條評論數據進行情感詞標注,標注后的數據格式如表2所示。
表2 微博評論爬取數據及情感類標注結果(示例)
3.2.1 數據顯著性
頻繁項集是指頻繁出現在數據庫中情感類的集合,并且在數據庫中滿足最小支持度。將清洗、標注后的數據導入關聯規(guī)則Apriori算法,由于關聯規(guī)則至少需要兩種情感參與,因此,本文只需考慮頻繁2項集和頻繁3項集,在滿足最小支持度和最小置信度的條件下,不同項數的頻繁項集結果如表3和表4所示。
表4 頻繁3項集數量
3.2.2 穩(wěn)定概率分布
構建的情感轉移概率矩陣共有8種情感:期待、高興、喜愛、驚訝、焦慮、悲傷、生氣和討厭,每一個情感都以一定的概率轉移到另一個情感。以情感類“期待”為例,假設當前初始概率分布分別為
分別將式(8)和式(9)作為序列概率分布的初始狀態(tài)t0,代入情感轉移概率矩陣計算t1,t2,t3,…的狀態(tài),結果如表5和表6所示。
表5 情感類“期待”的轉移概率分布(式(8))
表6 情感類“期待”的轉移概率分布(式(9))
由表5和表6可以發(fā)現,盡管采用了不同的初始概率分布,但是最終情感轉移的概率分布趨于同一個穩(wěn)定的概率分布,即馬爾可夫鏈模型的情感轉移矩陣收斂到穩(wěn)定概率分布,與初始概率分布無關,這也證明了所得到的情感概率轉移矩陣符合穩(wěn)定概率分布。
為了探究不同粒度下的情感分類是否會對輿情預測結果造成影響,分別從宏觀和微觀兩個層面對網絡輿情事件中的情感轉移概率進行預測。
3.3.1 宏觀層面
在宏觀層面可分為積極情感和消極情感,在模糊情感本體的基礎上,將期待、高興、喜愛和驚訝情感類標記為積極情感,將焦慮、悲傷、生氣和討厭標記為消極情感。對清洗過后的評論數據進行情感極性標注(0表示包含消極,1表示包含積極),設置最小支持度和最小置信度閾值為0.01,把已標注數據和參數導入所構建的預測模型中,得到的情感狀態(tài)轉移矩陣如表7所示。
表7 宏觀層面下的情感狀態(tài)轉移矩陣
將預測過程迭代100次后的結果使用蜜蜂群圖表示(圖2),其中橫坐標表示輿情發(fā)生后的天數,縱坐標表示情感轉移的概率。圖例分別表示輿情發(fā)生后第1~7天的情感轉移概率預測樣本,點的分布位置能充分體現轉移概率數據的分布。從圖2可以看出,隨著天數的增加,積極情感和消極情感的轉移概率均在第4天趨于平穩(wěn),其中消極情感的轉移概率變化幅度最大,達到18%,而積極情感的轉移概率變化幅度最大僅3%。
圖2 宏觀層面下的情感轉移概率預測結果(彩圖請見https://qbxb.istic.ac.cn)
3.3.2 微觀層面
在微觀層面根據模糊情感本體將情感分為8種類別:期待、高興、喜愛、驚訝、焦慮、悲傷、生氣和討厭,分別以標號1~8表示。首先,設置最小支持度和最小置信度閾值為0.01;其次,對處理后的評論數據進行情感標注(若評論中包含期待情感詞,則標注序號1;若評論中包含高興情感詞,則標注序號2,以此類推);最后,將參數和已標注數據導入所構建的預測模型中。得到的情感狀態(tài)轉移矩陣如表8所示。
表8 微觀層面下的情感狀態(tài)轉移矩陣
下文分別研究各個情感類的轉移概率。橫坐標表示遞進的天數,縱坐標表示情感轉移概率,變量以“原始情感-轉移后的情感”的形式表示,即1-2表示情感“期待”轉移為情感“高興”的概率,1-3表示情感“期待”轉移為情感“喜愛”的概率,2-1表示為情感“高興”轉移為情感“期待”的概率,2-2表示情感“高興”不發(fā)生轉移的概率,以此類推。
圖3和圖4分別描述了情感“期待”和情感“高興”的轉移概率。圖中每個時間點的情感轉移概率不盡相同,隨著天數的增加,情感“期待”和情感“高興”相互轉移的概率呈波動式下降,而情感“期待”和情感“高興”保持不變的概率呈波動式上升,其轉移概率均在42%附近趨于穩(wěn)定。除此之外,情感“期待”和情感“高興”向其他情感轉移的概率均在10%以下,并在輿情演化前期出現小幅度變化后迅速趨于穩(wěn)定。
圖3 情感類“期待”的轉移概率
圖4 情感類“高興”的轉移概率
圖5和圖6描述了情感“喜愛”和情感“驚訝”的轉移概率。在輿情演化過程中,情感“喜愛”的轉移方向較明確,一方面,情感“喜愛”向情感“期待”轉移的概率均保持在43%,向情感“高興”轉移的概率從50%降低到42%并保持穩(wěn)定;另一方面,其余情感的轉移概率變化幅度均較小,并且在第2天后達到穩(wěn)定。情感“驚訝”的轉移概率變化不同于上述3種情感,消極情感的轉移概率變化程度明顯優(yōu)于積極情感。情感“驚訝”向情感“悲傷”的平均轉移概率為44.20%,向情感“焦慮”和情感“生氣”的平均轉移概率分別為21.56%和23.45%,向其余積極情感的轉移概率均在5%以下。
圖5 情感類“喜愛”的轉移概率
圖6 情感類“驚訝”的轉移概率
圖7和圖8描述了情感“焦慮”和情感“悲傷”的轉移概率。由圖7可知,情感“焦慮”向情感“期待”和情感“悲傷”的轉移概率明顯高于其他情感,穩(wěn)定時分別達到43%和41%,而情感“焦慮”向其他情感轉移的概率會在輿情爆發(fā)早期出現一定幅度的增加或減少,然后趨于穩(wěn)定。由此看來,情感“焦慮”的轉移方向并不確定,既有可能向積極情感轉移,也有可能向消極情感轉移。圖8中情感“悲傷”則有更大概率向情感“高興”和情感“驚訝”轉移,兩種情感均為積極情感,其余情感的轉移概率穩(wěn)定時均未超過5%,因此,情感“悲傷”在轉移過程中更偏向于積極情感。
圖7 情感類“焦慮”的轉移概率
圖8 情感類“悲傷”的轉移概率
圖9和圖10描述了情感“生氣”和情感“討厭”的轉移概率。情感“生氣”向情感“高興”轉移的概率在輿情前期變化較大,其余情感的轉移概率變化趨勢大致相同,并在第4天后趨于穩(wěn)定,情感“討厭”則有更大概率向情感“期待”和“高興”發(fā)生轉移。
圖9 情感類“生氣”的轉移概率
圖10 情感類“討厭”的轉移概率
為了從數據上直觀地反映網絡輿情情感的變化,本文引入SnowNLP模型對輿情事件中的評論數據進行情感分析。由于SnowNLP模型的數據庫主要應用于商品評論領域,在對網絡輿情領域進行情感分析時可能出現誤差,因此,本文從以下4個方面對SnowNLP模型的準確率進行提升:
(1)對爬取的網絡輿情評論數據標注情感極性,構建新冠肺炎疫情評論語料庫。
(2)將SnowNLP模型的分詞庫替換為jieba分詞庫。
(3)結合中文停用詞庫、哈工大停用詞表、四川大學機器智能實驗室停用詞庫和百度停用詞列表,更新SnowNLP模型的分詞庫。
(4)設置情感分類閾值λ,提高情感識別準確率。
改進后的SnowNLP模型情感分類性能如圖11所示,相較于原始模型,其在網絡輿情情感分類的準確率上有大幅提升,且當情感分類參數λ=0.55時,該模型情感分類準確率達到最優(yōu)值。
圖11 SnowNLP模型改進前后的情感分類準確率對比
基于改進后的SnowNLP模型對2020年1月1日至2020年1月7日的“新冠肺炎疫情”事件爆發(fā)后的評論文本進行情感值計算(圖12)。其中,情感值的取值范圍為[0,1],取值越偏向0,表示情感越消極;反之,表示越積極。從圖12可以看出,輿情事件中影響情感變化的因素是多方面的,隨著“XX市場休市整治衛(wèi)生”“不明原因肺炎患者轉入傳染病醫(yī)院”等相關新聞的報道,不同話題下的網民情感傾向也隨時間變化,但整體情感變化趨勢仍是積極的。
圖12 輿情發(fā)生初期網民情感值變化
圖13以三維柱狀圖展示了此次輿情事件中網民實際情感所占比例。為了驗證情感預測模型的準確性,先通過本文構建的模型得到“期待”“高興”“喜愛”“驚訝”“焦慮”“悲傷”“生氣”“討厭”情感類的轉移概率,再計算每種情感的轉移概率累計之和,將其平均值、中位值和加權平均值分別作為不同的模型參數進行誤差分析。
圖13 輿情爆發(fā)一周內的實際情感類別比例
以情感類“期待”(標簽1)為例,情感轉移概率之和的平均值計算方法為
根據圖13輿情事件的實際情感類別比例,設置不同情感類的權重依次為25%、21%、17%、13%、9%、7%、5%和3%。情感轉移概率之和的加權平均值計算方法為
圖14~圖16分別表示以情感轉移概率之和的平均值、中位值和加權平均值作為參數的情感趨勢預測結果。引入平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean squared error,RMSE)來衡量不同參數下模型的預測性能。其中,MAE表示預測值與實際值之間絕對誤差的平均值,可以更好地反映預測值誤差的實際情況;RMSE用于測量預測值與實際值之間的偏差,并解釋樣本的分散程度。兩者的值越小,預測效果越好。
圖14 情感預測結果(平均值)
圖15 情感預測結果(中位值)
圖16 情感預測結果(加權平均值)
MAE和RMSE的計算表達式分別為
表9顯示了3種實驗下的預測結果。通過對比可以看出,加權平均值的總體MAE和RMSE值最小,分別為2.7119和3.7254,該值在允許的誤差范圍內,表明以加權平均值作為參數的情感預測模型具有更好的預測精度。
表9 不同參數實驗下的預測結果誤差比較
為了驗證本文提出的情感預測模型的有效性和準確性,選取以下基線方法進行對比:
(1)基于回歸集成的情感預測模型[31]:提取時間序列特征,通過ARIMA(autoregressive integrated moving average)、神經網絡和支持向量機等模型對微博情感走勢進行預測。
(2)基于增強神經網絡的預測模型[32]:利用三邊平滑濾波器進行數據預處理,基于DGLTPD(dominant gradient local ternary pattern descriptor)技術提取數據特征,將提取的特征提供給增強型神經網絡EESNN(enhanced Elman spike neural network)進行預測。
從表10可以看出,相較于以上兩種模型,本文構建的情感預測模型在平均絕對誤差和均方根誤差的對比上具有較大優(yōu)勢,再一次證明了該模型在情感預測任務中的有效性和準確性。
表10 不同模型的情感預測結果比較
準確掌握和預測社交媒體環(huán)境中公眾情感的變化規(guī)律,對于正確引導突發(fā)事件的網絡輿情具有重要的理論價值。本文對上文提出的3個問題進行了充分研究,根據上述實驗結果可得出以下結論:
(1)假設不同類別的情感之間存在某種轉移關系。本文基于關聯規(guī)則Apriori算法挖掘大量公眾評論中的情感信息,得到不同情感類之間的強關聯規(guī)則;結合馬爾可夫鏈構建情感狀態(tài)轉移矩陣,對網絡輿情爆發(fā)前期的情感變化趨勢進行預測,實證結果表明,實際情感數據與預測情感數據的誤差率符合評價標準,使得這一假設得到了驗證。
(2)情感轉移的概率會隨時間的推移而變化,但會在一定時間后收斂至穩(wěn)定狀態(tài)。本文采用不同的初始概率分布來進行實驗,最終得到一個穩(wěn)定的概率分布,即馬爾可夫鏈模型的情感轉移矩陣收斂到穩(wěn)定概率分布,與初始概率分布無關;這也證明了所構建的情感狀態(tài)轉移矩陣符合穩(wěn)定概率分布。此外,無論從宏觀角度還是微觀角度來看,圖2~圖10的結果表明,情感轉移概率在輿情爆發(fā)初期出現波動變化,之后隨著輿情過程的演變達到穩(wěn)定。
(3)不同粒度下的情感分類對網絡輿情情感預測結果影響甚小。本文僅從宏觀和微觀角度對情感轉移概率進行預測,宏觀方面劃分為“積極”情感和“消極”情感,微觀方面基于模糊情感本體劃分為8種情感類,但是兩種方式下的網絡輿情情感變化趨勢大致相同,宏觀角度下的預測實驗可以為微觀角度下的實驗提供參考。
(4)在新冠肺炎疫情事件發(fā)展過程中,網絡輿情的情感傾向會隨著話題內容表現出階段化趨勢。本文通過探索公眾情感信息間的轉移作用,證實了不同情感類在網絡輿情演化過程中會相互影響,并能夠在一定的條件下實現相互轉移,進一步補充和發(fā)展了情感預測的研究。
(5)構建的情感預測模型為輿情監(jiān)管部門的工作提供了新思路。情感的產生、發(fā)展和消退是一個動態(tài)過程,網民在發(fā)表觀點時產生大量具有情感色彩的文本信息,這些信息在突發(fā)公共衛(wèi)生事件輿情研究中具有十分重要的意義??紤]到網民情感對網絡輿情傳播的影響作用,將情感因素納入網絡輿情預測依據之中,根據情感之間的遷移性預測網絡輿情的演變趨勢,同時定位網民負面情緒的根源,及時對負面情緒進行疏導,以公開、透明的方式解答網民的質疑,準確地發(fā)布與事件相關的官方信息,消除公眾焦慮、恐慌心理,避免引發(fā)輿情危機。
本文提出一種新的基于微博平臺的網絡輿情情感預測模型,即偏差規(guī)則馬爾可夫模型(the devia‐tion rules Markov model,DRMM)。首先,對網絡輿情評論數據進行情感極性標注,基于擴展后的關聯規(guī)則算法挖掘公共評論中存在的情感關系;其次,利用馬爾可夫鏈構建情感狀態(tài)轉移矩陣,進而實現對情感狀態(tài)的轉移預測。在傳統(tǒng)關聯規(guī)則算法的基礎上,本文提出偏移度的概念,用來表示情感類間的轉移關系,并計算出不同情感類間的轉移概率。實證研究表明,本文構建的情感預測模型在網絡輿情情感預測領域中具有一定的有效性和準確性。通過數據分析和情感預測,能夠更好地了解突發(fā)事件中的網絡輿情演變趨勢,輔助相關部門及時做好正確的輿論引導。
本文在研究思路和方法上有一些創(chuàng)新性,但仍然存在著一定的不足之處:由于網絡評論數據存在樣本代表性問題,單純分析某一個社交平臺的輿情數據無法全面了解現實輿論。因此,未來可選擇更多的突發(fā)公共衛(wèi)生事件進行實證研究,進一步拓寬網絡輿情情感分析的廣度和深度,從單一平臺到多平臺,從表層網絡到深層網絡,從公共輿情到圈群化輿情,進一步豐富情感本體,挖掘輿情評論中更多形式的融合情感特征,有效提升網絡輿情情感預測模型的預測性能,實現網絡輿情情感分析的立體化拓展。