董光文,袁 健
(上海理工大學 光電信息與計算機工程學院,上海 200093)
隨著互聯(lián)網的飛速發(fā)展,網絡社交平臺已經逐漸成為新興的輿論載體。當面對一些熱點新聞或者突發(fā)事件時,對網絡社交平臺中的相關言論進行有效分析,實時了解當前熱點或新聞事件的輿情演變發(fā)展趨勢,并在必要時采取行動施以重點監(jiān)控,保障網絡輿情平穩(wěn)發(fā)展,從而為人們營造一個積極健康的良好網絡環(huán)境。
常見的情感演化研究大多偏向于對靜態(tài)文本的分析或以熱門話題為基礎進行主題詞辨識,同時也要有海量數(shù)據(jù)作為支持,而輿情事件在熱點初期卻較難察覺,若能對輿論情感進行實時動態(tài)的細粒度分析就可以準確掌握輿情的動態(tài)和趨勢,對輿情的預測和調整具有重要的實用價值。
近年來,在情感分析領域,國內外學者已取得了可觀成果,研究上也主要集中在情感極性分析、多分類情感分析和方面級情感分類三個方向。
常用的情感分析技術研發(fā)初期就是以情感詞典為主的研究方法,這種方法需要依賴人工去構建詞典,并要不斷地擴充詞典,情感分析效率并不高[1]。后來學者們分別使用有監(jiān)督和無監(jiān)督的機器學習方法來進行情感分析研究,在一些模型上取得了較好的效果,但在此過程中也需進行特征工程的構建,往往消耗不少人力[2-3]。目前,深度學習技術已經成為該領域主流的研究方法。特別是循環(huán)神經網絡(RNN)、卷積神經網絡(CNN)以及注意力機制在情感分析中的組合使用,使情感分析技術已然日臻成熟。Lv 等人[4]提出一種上下文和方面記憶網絡(CAMN)方法來解決方面級情感分析問題,引入了深度記憶網絡、雙向長短期記憶網絡和多重注意力機制,能夠更好地捕捉文本中的情感特征,獲得文本方面級情感分析結果。
情感演變主要是對含有情感的主觀信息進行分析,并從情感的態(tài)度和角度對情感在時間中的演變進行分析。面對各類突發(fā)情況下不斷涌現(xiàn)的網絡輿論熱點事件,國內外的學術界從多個角度對其情感演變進行了全方位的分析和探討。
在網絡輿情情感演化分析方面,邢云菲等人[5]以“江歌案”為例,從情感的極端和情感的強弱入手,探討了其演變及變化規(guī)律。錢進寶[6]以“穹頂之下”為例,建立以詞匯相關性為基礎的文字情感矢量模型,在K-medoids 中加入歷史代價函數(shù),可以對網絡上的熱門事件進行動態(tài)的情感演變分析,從而避免了以往僅限于對靜止的數(shù)據(jù)進行分析的不足。戴杏云等人[7]在統(tǒng)計用戶關系、用戶影響力等指標的基礎上,建立基于網絡的動態(tài)情感圖的分析模型,從而為控制和指導社會網絡輿論提供了基礎。張柳等人[8]以“學術不端”為例,從輿論發(fā)展的角度來分析情感演變的規(guī)律,運用了詞云圖和情感知識圖譜,分別揭示了爆發(fā)期、蔓延期和衰退期用戶使用高頻率詞和情感分配的演變規(guī)律。
綜合前文論述可知,目前網絡輿情情感演化的研究大多著重于輿情主題的挖掘、傳播的特征和生命周期模型等方向展開研究。研究時則需要大量的數(shù)據(jù)做支撐,也就是只有當輿論成為熱點時才能更好地選擇準確的主題、抽取出特征或劃分生命周期,而當某輿論處于發(fā)展階段的初期時卻較難被發(fā)現(xiàn),這將導致輿論分析的效果欠佳。通常來說,人們對輿情的情感往往都是動態(tài)的,輿情情感的波動也會和某突發(fā)話題的發(fā)展趨勢密切相關,若不考慮時間發(fā)展的維度,對網民們的情感動態(tài)演化很難做出有效判斷。
基于此,本文引進了時間序列ARMA 模型,并在方面級情感分析CAMN 模型[4]的基礎上,提出了基于時間序列的方面級網絡輿情情感演化模型(Aspect -level network public opinion sentiment evolution model based on time series,ARMA-ALEE)。該模型的創(chuàng)新點如下:
(1)在方面級情感分析基礎上獲取方面詞和情感極性,對方面詞使用過濾和優(yōu)化算法以提高其精度,并在方面詞的基礎上進一步提取主題詞來做過濾優(yōu)化后分析,進行更加細粒度的輿情演化分析。
(2)提出了ARMA-ALEE 情感動態(tài)演化模型,引入ARMA 時間序列模型,基于ARMA 對方面詞、方面詞強度和情感強度動態(tài)傾向性訓練,實現(xiàn)網絡輿情動態(tài)情感演化分析。
ARMA-ALEE 模型的整體結構如圖1 所示,該模型先對實時文本數(shù)據(jù)集進行預處理,并按時間順序進行劃分,然后利用CAMN 模型對每個語料集進行處理,對處理后的結果進行方面詞優(yōu)化、情感強度計算和方面詞強度的算法實現(xiàn),接著將基于ARMA時間序列模型實現(xiàn)ARMA-ALEE 情感演化算法,最后進行情感演化分析及可視化。
圖1 ARMA-ALEE 模型整體框架圖Fig. 1 Overall framework diagram of ARMA-ALEE model
使用主題詞對輿情數(shù)據(jù)進行演化分析時,會有許多與數(shù)據(jù)集關聯(lián)不大且沒有實用價值的主題詞,為了避免對網絡輿情情感演化的影響,不少學者對無用主題的過濾也做了一定的研究[9]。本文將對文本數(shù)據(jù)中每個句子的方面級進行研究,確定每個句子的方面屬性,采用方面屬性代替主題詞屬性對網絡輿情情感演化進行分析。
由于文本數(shù)據(jù)集中的長度參差不齊(尤其是針對微博),這就導致方面分類有時不精確、或者方面分類過多等問題,對網絡輿情情感演化造成了一定的影響,本文將對文本數(shù)據(jù)集中獲取的所有方面詞進行優(yōu)化操作。
2.1.1 方面詞過濾框架
以時間為演化發(fā)展線索,利用CAMN 模型[4]獲取到每個時間段內的方面詞,對提取的方面詞進行過濾處理,提高方面詞對網絡輿情中情感演化分析的效果。本文對方面詞過濾的流程如圖2 所示。由圖2 可看到,首先把文本數(shù)據(jù)集以某個時間段為間隔劃分開,將對應的數(shù)據(jù)集分配到相應的時間段內,基于CAMN 模型[4]獲得每個時間段內的方面主題詞及其個數(shù)。接下來,對方面詞進行過濾,剔除一些沒有價值的方面詞,以防止在相鄰時間段內對相關主題的辨識和判斷。最后,通過算法對經過篩選后的方面詞確定最優(yōu)方面詞個數(shù)和鄰近時間段內方面詞之間的相關性。
圖2 方面詞過濾圖Fig. 2 Aspect words filtering diagram
2.1.2 時間段內方面詞過濾
對于每個時間段內的方面詞數(shù),一些方面詞在文本中出現(xiàn)的概率極低或毫無相關,不但加大運算的難度,還將導致與無關話題之間的不必要聯(lián)系,從而對方面主題進行演化的正確分析產生不利的作用。如果一個方面詞在數(shù)據(jù)集中出現(xiàn)的比例越高,那么該方面詞在某個時間片段內的重要程度越大。相反,如果某個方面詞在數(shù)據(jù)集中出現(xiàn)的比例越低,通常就可把該方面詞視為不重要的詞語,這種出現(xiàn)次數(shù)較少的方面詞也不會形成網絡輿論。本文對方面詞進行過濾篩選分為2 個階段,具體過程如下:
(1)基于方面詞分布的邊緣方面詞辨識和篩選。利用CAMN 模型[4]獲取到的方面詞在每個時間段內分布概率差異較大,在同一時間段內發(fā)生頻率較高的方面詞,則是該時間段內較為核心的熱點方面詞,也是研究情感演化的關鍵因素。相反,出現(xiàn)概率較小的方面詞,往往被邊緣化或者說是毫無意義的,同時也會對情感演化的分析結果產生影響。因此,針對使用CAMN 模型[4]所獲得的某個時間段內的方面詞數(shù),依據(jù)其在數(shù)據(jù)集中的分布情況來設定臨界點,設定方式如下:在數(shù)據(jù)集中,計算每個方面詞A累積的概率P,將一個時間段內的數(shù)據(jù)集總量N進行標準化處理,得出其在數(shù)據(jù)集中的權重值W,將權重W從大到小依次排序,并選取其平均值為篩選閾值,此處需用到的數(shù)學公式為:
其中,N表示數(shù)據(jù)集中所有方面詞A的總數(shù);p(wi |z)表示單獨一個方面詞在N中所占的比例;Pi表示單個方面詞的累加概率之和;Wi表示一個方面詞在數(shù)據(jù)集中的權重。
(2)基于方面詞分布的無用方面詞的辨識和篩選。經過上一步篩選后,把方面詞匯聚在一起進行概率的分布,這些方面詞之間的關聯(lián)意義通常是用來描繪某一話題相關意義或者發(fā)展趨勢的。假如某方面詞和大多數(shù)方面詞毫無關系且也不具備發(fā)展聯(lián)系,就會被視為無意義并篩選掉。
利用信息熵法對表達對象的方面詞傾向性進行衡量。信息熵是一種信息不穩(wěn)定的度量方法,一個方面詞可以看作一系列隨機的方面詞,當其在數(shù)據(jù)集中出現(xiàn)的可能性越大時,其信息熵值越低,也就越能突出所要表達的內涵。對經過上一步篩選出的每個方面詞進行信息熵計算,具體可由如下公式計算求得:
其中,Entropy(A)表示方面詞A的信息熵;Pj表示在方面詞A中第j個詞語出現(xiàn)的概率;K表示一般的常數(shù);m表示方面詞A中所包含的詞語的個數(shù)。
2.1.3 相鄰時間段內方面詞相關性
在鄰近時間段內的方面詞中,僅有相互關聯(lián)的方面詞之間才可能會存在相互演化的關系。方面詞的相似性是用來衡量方面詞之間的相似程度,使用“方面詞—單詞”概率分布來計算方面詞之間的相似性。
在相似度計算過程中,余弦相似度是用2 個矢量夾角的余弦值作為衡量矢量相似性的指標。經過濾后得到的每個時間段內的方面詞是由一系列的詞語組成,而不是以傳統(tǒng)的字詞矢量來表達,所以相對于余弦相似性,概率分布的距離公式在衡量方面詞之間的相似度時略有優(yōu)勢。KL的離散、即KL距離或者相關熵是對同一時間點在2 種概率分布的重要度量,能夠表示出2 個方面詞之間的差異情況。當2 個方面詞隨機分布相同時,KL距離為0,而隨著2 個方面詞隨機分配差異的加大,KL距離也隨之增大。推得的計算公式可寫為:
其中,KL(p‖q)表示2 個方面詞概率分布為p和q的KL距離;xi表示概率分布為p和q的第i個方面詞;n表示2 個概率分布為p和q的方面詞的總個數(shù)。
由于KL散度是非對稱化的,故根據(jù)其理論給出另一種變種JS散度,從而通過JS散度將KL散度轉化為真實的距離度量,如式(6)所示:
JS散度的擴散系數(shù)一般為0 至1,JS散度的數(shù)值越低,則表示兩者的相似度越高。
2.1.4 最優(yōu)方面詞的確定
經過方面詞過濾算法處理后,每個時間段內方面詞數(shù)量是不確定的,方面詞的個數(shù)會影響對情感演化分析的效果。如果同一時間段內方面詞個數(shù)太多,將會導致方面主題過于分散、且輿情方向過多,不能突出核心的演化方向。相反,如果同一時間段內方面詞個數(shù)過少,輿情分析則容易向一個方向發(fā)展,就可能會忽略掉一些潛在的方面主題方向。
困惑度是衡量一個語言模型好壞的指標,困惑度越低,說明該模型具有較好的泛化能力[10]。給出的數(shù)學定義可表示為:
其中,Perplexity(D)表示該模型困惑度的大??;D表示數(shù)據(jù)集中的測試集;M表示測試集中含有的時間段數(shù);Nd表示第d個時間段中包含的方面詞數(shù)量;p(wd)表示第d個時間段中所含方面詞分布的概率。
當潛在方面詞的數(shù)量增多時,該模型的困惑度也就越低,但是往往會有一個拐點,表明該模型的泛化能力得到了顯著的改善,從而可以通過這個拐點來估算方面詞最佳數(shù)量。然而,僅靠困惑度來判斷方面詞數(shù)量通常不準確,還需要綜合考慮其它的因素。
主題平均相似度是一種度量各個主題詞之間相似度的平均差異程度的指標[11],通常使用JS散度對其進行較好的衡量,使用主題相似度來計算方面詞的平均相似度,計算方法可由式(8)表示為:
其中,avgsim(Ti,Tj)表示所有方面詞之間的方面平均相似度;Ti和Tj分別表示不同的2 個方面詞;JS(Ti‖Tj)表示2 個方面詞之間的JS散度。
JS離散指當2 個方面詞的數(shù)值較大時,則表示相似性越大。當方面詞數(shù)目增多時,方面詞之間的相似程度總體上呈現(xiàn)上升的態(tài)勢,但同時也會出現(xiàn)一個拐點。
當方面詞數(shù)量增加時,方面詞間的平均相似性會變大,而困惑度將會呈現(xiàn)變小的趨勢,但也都會有顯著的轉折點,將二者結合起來確定最優(yōu)的主題詞個數(shù),從而使模型的泛化能力得到顯著的提高。
2.2.1 ARMA 時間序列模型
ARMA 時間序列模型也稱為自回歸移動平均模型,包括2 個方面:自回歸模型(AR)和移動平均模型(MA)[12]。定義時間序列t =(t1,t2,…,tn),假設在一定的時間內,一個特定時間點的數(shù)值與前面的p個序列的數(shù)值和前面q個輸入的隨機干擾相關,從而可以對接下來的時間點進行預測。假定ti被前面p個時間順序的數(shù)字所影響的自回歸過程的計算方法具體見如下:
其中,η1,η2,…,ηp表示自回歸系數(shù),ei表示誤差項。
在不同的時序上,誤差項ei之間存在著相關性,其移動的平均值的計算方法如式(10)所示:
其中,μ1,μ2,…,μq表示移動的平均系數(shù),εi表示白噪聲序列。
聯(lián)立式(9)~(10)得到ARMA 模型的計算公式,即:
進一步地,對ARMA 動態(tài)預測模型的流程步驟可做闡釋分述如下:
Step 1首先對時間序列中的每個數(shù)值ti進行均值化處理,然后對數(shù)值ti進行穩(wěn)定性檢測。如果不穩(wěn)定,就進行差分計算,直至差分后的數(shù)據(jù)平滑為止。
Step 2對穩(wěn)定后的數(shù)據(jù)進行白噪聲測試,當檢測到平滑的白噪聲數(shù)據(jù)時,利用自相關函數(shù)(ACF)和偏相關函數(shù)(PACF)求出ARMA 的階p、q,并利用StatsModels 包來擬合ARMA(p,q),接著對不同組合(p,q)來計算最小信息準則AIC的值,接下來選擇AIC(p,q)值中的最小階數(shù)作為值(p,q)的估計。
Step 3利用最小二乘方法對所建立的模型進行求解,得到未知參數(shù)η和μ,對于i +1 時刻的動態(tài)預測計算方法見式(12):
其中,t'i表示零均值時間序列。
2.2.2 方面詞強度計算
研究方面詞強度在不同時間窗口內的發(fā)展趨向,能夠反映出一個方面詞的穩(wěn)定性,能夠把握一個方面主題的發(fā)展方向。用當前時間段內該方面詞在所有方面詞中所占的比例來表示,計算方法見式(13):
其中,AS(Ai)表示時間段內方面詞Ai的強度;P(Ai)表示一個方面詞在時間段內出現(xiàn)的概率;m表示一個時間段內方面詞優(yōu)化后的總數(shù)量。
2.2.3 情感強度計算
在進行方面級情感分類時,會根據(jù)每個方面詞的情感極性值分成不同的類別,本文在進行情感強度計算時,選取時間段內的方面詞并根據(jù)方面詞的極性值進行累加求和得到該方面詞的情感強度,計算方法的數(shù)學公式可表示為:
其中,EI(Ai)表示方面詞Ai的情感強度;PV(Ai)表示一個方面詞的情感極性值;m表示一個時間段內該方面詞出現(xiàn)的次數(shù)。
2.2.4 情感演化算法實現(xiàn)
針對網上輿論活動中的文本數(shù)據(jù)進行動態(tài)方面級情感演化分析,本文給出了一種動態(tài)方面級情感演化分析模型ARMA-ALEE。ARMA-ALEE 情感動態(tài)演化模型的具體工作流程見如下。
輸入網絡輿情文本數(shù)據(jù)集
輸出不同時間段內情感動態(tài)演化分析結果
Step 1對文本進行預處理。
Step 2輿情演化時間段劃分。對數(shù)據(jù)集根據(jù)時間序列上的排序歸類進行時間段的劃分,本文以時間為單位把對應的數(shù)據(jù)集劃分到一個時間段(根據(jù)具體情況以不同單位劃分時間)。
Step 3使用CAMN 模型[4]對劃分的每個時間段內的數(shù)據(jù)進行模型訓練,獲取每個時間段內的數(shù)據(jù)集所對應的方面詞、情感極性值,并用標簽進行標記。
Step 4方面詞過濾和確定。根據(jù)式(1)~(4)方法篩選掉無用的方面詞。根據(jù)式(7)~(8)確定最終的方面詞個數(shù)。
Step 5方面詞強度計算。根據(jù)式(13)求出每個方面詞對應的方面詞強度。
Step 6方面詞相似度計算。根據(jù)式(5)~(6)求出方面詞之間的相似度。
Step 7情感強度計算。根據(jù)式(14)求出方面詞的情感強度。
Step 8以時間為線索統(tǒng)計數(shù)據(jù)集特征。將上述步驟中計算得出的方面詞強度、情感極性值和方面詞相似度按時序分段并合并成文本時間序列集合,數(shù)學表示形式如下:
Step 9網絡輿情情感演化動態(tài)傾向性訓練。把DT作為訓練集輸入到改進的ARMA-ALEE 模型中進行迭代訓練,把損失函數(shù)降低到最小時得到最佳魯棒性模型。將15%的訓練集分割成驗證集進行校驗,然后在校驗集上重復校驗,獲得最優(yōu)化的超參量組合。接著將驗證集和測試集結合,利用5 折交叉驗證方法選取最佳模式,對i +1 時段下的情感趨勢進行動態(tài)獲取,以t'i+1的值作為該時間段內的輿情情感分析結果。
Step 10網絡輿論情感演化分析。在劃分的時間段內,根據(jù)每個時間段內情感傾向性結果得到每個時間段內方面詞和情感極性的變化趨勢,進而分析網絡輿情情感演化的趨勢。
本文以微博“北京冬奧會”為例,根據(jù)“北京冬奧會”關鍵字百度指數(shù)數(shù)據(jù)顯示,這一輿情熱點事件集中在2022 年2 月1 日至2022 年2 月25 日,本文爬取這25 天內的數(shù)據(jù)內容進行輿情情感分析。首先對爬取的數(shù)據(jù)文本進行預處理,對數(shù)據(jù)進行清洗,篩選掉一些無用的文本數(shù)據(jù),最終獲取到159 332條博文數(shù)據(jù)和67 213 672 條評論文本數(shù)據(jù)。
把數(shù)據(jù)集輸入到模型中進行訓練,得到“北京冬奧會”情感演化過程圖,如圖3 所示。
圖3 網絡輿情情感演化過程圖Fig. 3 The evolution process of network public opinion
由于數(shù)據(jù)集過于龐大,本文選取2 月4 日至2月8 日爆發(fā)期的一段時間進行詳細分析。根據(jù)情感演化方面詞強度計算結果繪制出詞云圖,如圖4 所示,本文根據(jù)圖4 選取輿情熱度較高的方面詞“冰墩墩”進行分析,并獲取該方面詞的相關事件分析表,詳見表1。
圖4 輿情演化方面詞詞云圖Fig. 4 Word cloud map of public opinion evolution
表1 “冰墩墩”情感演化事件分析表Tab.1 “Bingdundun” emotional evolution event analysis table
3.2.1 基于方面詞的詞頻和主題的可視化分析
在數(shù)據(jù)集中,根據(jù)標簽標注的方面詞找到對應的文本句子,并將這些句子進行主題詞提取優(yōu)化處理(主題詞優(yōu)化方法同方面詞優(yōu)化方法),這樣就可以清晰地看到該方面詞所對應的主題詞,進而便于進行細粒度的輿情分析。
詞云圖是文本數(shù)據(jù)集經過分詞和去停用詞等操作后,再進行詞匯頻率的統(tǒng)計,并對頻率高的詞匯在大小和顏色方面進行視覺上的對比,直觀表現(xiàn)出文本數(shù)據(jù)集中所要表達的大致核心意思。本文對熱度較高的方面詞“冰墩墩”繪制出詞云圖,如圖5 所示,由圖5 便可直觀得出該時間段內引起網友們對方面詞“冰墩墩”高度關注的高頻詞匯。采用主題提取模型對該方面詞內的主題詞進行提取并對其優(yōu)化處理,對應的主題提取表見表2。
表2 方面詞“冰墩墩”主題詞提取表Tab.2 The subject word extraction table of the aspect word“Bingdundun”
圖5 方面詞“冰墩墩”詞云圖Fig. 5 Word cloud map of the aspect word “Bingdundun”
3.2.2 方面詞情感演化過程分析
方面詞“冰墩墩”情感演化過程圖如圖6 所示。
圖6 方面詞“冰墩墩”情感演化過程圖Fig. 6 The emotional evolution process diagram of the aspect word “Bingdundun”
從圖6 中紅線評論量曲線可以看出,網上關于冰墩墩的言論在2 月4 日之前也有一定的數(shù)量,隨著冬奧會開幕式的來臨,2 月4 日人氣暴漲,達到了頂峰,在之后幾天內的連續(xù)傳播,并連續(xù)出現(xiàn)了高峰,仍有大量網民對此表達自己情感想法。對比情感極性中的積極、中性和消極三條曲線,人們對冰墩墩的評論始終是以積極的態(tài)度為主,只有少部分會產生中性和消極的情緒,這也說明了網民們對冰墩墩吉祥物的喜愛之情。
由圖6 分析可知,藍色積極情感極性曲線要遠遠高于橙色(中性)和綠色(消極)的曲線,分析其中的原因,在圖5 中,可以看到“可愛”、“吉祥物”、“喜歡”等一些高頻的詞,體現(xiàn)出人們對“冰墩墩”所表達的積極情感,結合表2,在Topic1~6 這些主題詞中,從“表達冬奧會開幕式的舉辦圓滿成功、到表達對冬奧會上運動健兒的驕傲贊揚、到舉辦冬奧會中體現(xiàn)著中國科技的偉大、再到冰墩墩吉祥物和可愛等”言論中,大都體現(xiàn)著人們言論的積極情感。在圖6 中,某些時間點人們也表達出了消極的情緒。在圖5 中一些高頻詞“難買”、“搶購”等,這與網民出現(xiàn)情感消極的原因相關。在表2 的Topic7 主題詞中,進一步表達出網民們的情感極性,表現(xiàn)出網民們對一墩難求的消極情感。
為了驗證ARMA-ALEE 模型的有效性,本文在準確率、召回率和F1值方面對模型的方面主題詞的抽取和情感分類極性的判斷性能進行評估。對數(shù)據(jù)集按時間順序劃分,選取3 個時間段內的數(shù)據(jù)作為驗證數(shù)據(jù)集,并對這3 個時間段內的數(shù)據(jù)進行人工標注標記出主題詞,選用TF-IDF、TF-IDF-Means主題提取算法和本文的模型算法進行比較,實驗結果見表3。實驗結果表明,本文提出的模型在主題詞提取優(yōu)化方面取得了較好的效果,其在準確率、召回率和F1值方面都取得了較好的結果。
表3 各種算法對主題詞提取對比表Tab.3 Comparison table of various algorithms for subject word extraction
為了驗證ARMA-ALEE 模型的效果是否可行,仍以上述選取的驗證集作為實驗數(shù)據(jù),選取“JST 模型[13]”、“ASUM 模型[14]”和“主題-情感聯(lián)合模型[15]”進行對比實驗,實驗結果見表4。
表4 各種模型情感演化性能評價表Tab.4 Emotional evolution performance evaluation table of various models
從表4 中可以看出,在驗證數(shù)據(jù)集中模型ARMA-ALEE 在準確率、召回率和F1值三個指標上都有明顯的提升,表明模型ARMA-ALEE 的性能是遠遠優(yōu)于其它對比模型的。從實驗結果分析可知,ARMA-ALEE 模型首先在方面級情感分析模型的基礎上獲取到方面詞和情感極性值,又在ARMA 時間序列模型基礎上對優(yōu)化后的方面詞、情感極性值和相似度進行訓練,提高了輿情演化主題的準確率,并最終使用AMRA-ALEE 情感演化算法動態(tài)得到網絡輿情情感演化結果。
為了提高主題詞提取的精確度和實現(xiàn)動態(tài)網絡輿情情感演化分析,本文提出了一種基于時間序列的方面級網絡輿情情感演化ARMA-ALEE 模型。經實驗驗證,本文提出的ARMA-ALEE 模型在準確率、召回率和F1值方面都優(yōu)于其它參考模型,證明了ARMA-ALEE 模型在對網絡輿情動態(tài)情感演化分析上的優(yōu)越性。由于新提出的模型要依賴于分類效果較好的方面級情感分析模型,這也是今后需要進一步深入研究的地方。