易杰,曹騰飛,黃明峰,黃肖翰,張子震
1. 青海大學計算機技術(shù)與應用系,青海 西寧 810016;
2. 云上貴州大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司,貴州 貴陽 550081
隨著互聯(lián)網(wǎng)通信技術(shù)的快速發(fā)展,多樣的新媒體平臺(如微博、抖音、貼吧等平臺)將信息及時推送給用戶,使得社會發(fā)生的實時新聞能迅速傳播。據(jù)中國互聯(lián)網(wǎng)絡信息中心發(fā)布的第47次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》統(tǒng)計,截至2020年12月,我國網(wǎng)民規(guī)模達9.89億,其中學生占比最高[1],達到21%。新時代下高校學生作為互聯(lián)網(wǎng)用戶的主要群體,在網(wǎng)絡上的參與度以及活躍度比較高。當高校突發(fā)一些熱點事件時,由于高校學生思想活躍并且樂于表達自我看法,實時熱點問題會引發(fā)激烈的討論[2]。若輿情信息的價值取向是負面的,則極易帶偏高校學生的思想觀念,從而引發(fā)一系列高校輿情管理問題,高校輿情管理的重要性不言而喻[3]。
近些年,高校輿情事件頻頻發(fā)生,其中輿情信息的主題主要圍繞社會時事、校園安全、師風師德、學術(shù)造假等方面,例如研究生校內(nèi)身亡、高校實驗室爆炸、學生違紀違法等事件。在事情的真相還未正式公布時,網(wǎng)絡上各種評論的助推極易導致錯誤的輿情發(fā)展方向,引發(fā)一系列高校以及社會輿情管理問題[4]。高校輿情發(fā)展一般是階段性的,初期由個別大學生在網(wǎng)絡上發(fā)布自己對某個問題的想法,而后隨著時間的推移,逐漸引起大范圍的關(guān)注,引發(fā)更多的討論。一般情況下,網(wǎng)絡輿情的發(fā)展趨勢遵循新聞傳播學中的“沉默螺旋效應”,大多數(shù)人支持的意見會因為更多的人贊同而越來越流行;而少數(shù)人支持的觀點會逐漸減少直至最后消失[5]?;诖嗽恚糨浨榈陌l(fā)展趨勢能比較及時、準確地被預測,高校有關(guān)部門就能在短時間采取相應的應對措施,合理地解決問題,以達到對輿情發(fā)展進行管控的目的。因此,對高校輿情的發(fā)展趨勢進行預測,有助于新媒體時代下的大學校園完善管理體系,及時預測輿情發(fā)展趨勢并加以正確的引導[6],能極大地提升高校對突發(fā)輿情事件的處置水平[7-8]。
基于上述分析,對輿情熱度的預測分析顯得尤為重要,不僅關(guān)乎高校學生的思想健康發(fā)展,而且關(guān)乎整個社會的價值觀取向和穩(wěn)定性。由于輿情信息的發(fā)展一般會隨著時間變化,當獲取到輿情的時序數(shù)據(jù)后,需要對數(shù)據(jù)進行分析處理,找到數(shù)據(jù)的變化和發(fā)展趨勢,對未來輿情事態(tài)的發(fā)展做出預測,以便及時管控。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,在大數(shù)據(jù)和人工智能等技術(shù)的推動下,時序數(shù)據(jù)處理的有效性逐漸提高。因此,本文利用長短期記憶網(wǎng)絡(long short-term memory,LSTM)對時序數(shù)據(jù)處理的有效性,研究基于時間編碼的LSTM模型。LSTM對時序數(shù)據(jù)的處理具有極大的優(yōu)勢,但是其只考慮了數(shù)據(jù)相對的先后順序,不包含絕對的時間意義,如LSTM在自然語言處理任務上的應用[9]。對輸入數(shù)據(jù)加入時間編碼,即在使用LSTM處理數(shù)據(jù)時,同時考慮熱點話題發(fā)生的具體時間,以實現(xiàn)對高校輿情熱點的精準預測。與支持向量機(support vector machine,SVM)和循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)兩種模型的預測結(jié)果進行對比發(fā)現(xiàn),基于時間編碼的LSTM在熱度預測準確率上具有明顯優(yōu)勢。
高校輿情經(jīng)常引發(fā)全社會的廣泛關(guān)注,而輿情的正確引導對于高校管理以及社會的穩(wěn)定發(fā)展有著十分重要的意義。參考文獻[10]針對高校在輿情管理和引導工作中遇到的挑戰(zhàn)與問題,構(gòu)建以“大數(shù)據(jù)”為支撐、新媒體為載體、機制創(chuàng)新為保障的“三位一體”的輿情管理和引導的工作模式,營造了良好的校園輿論生態(tài)環(huán)境。該參考文獻考慮了高校輿情對學生意識形態(tài)管理的意義,并提出引導輿情向正確方向發(fā)展的策略,然而其在輿情發(fā)展趨勢預測方面的考慮不足,導致難以有效地引導輿情的發(fā)展[11-13]。在網(wǎng)絡輿情預測的研究方面,參考文獻[14]針對區(qū)間猶豫模糊集在描述決策信息時會導致決策信息重要性程度降低這一問題,構(gòu)建了一種基于概率區(qū)間猶豫模糊幾何算子的多屬性群決策模型,且通過網(wǎng)絡輿情預測系統(tǒng)的選擇實例驗證了所提決策模型是可行和有效的。秦濤等人[15]提出一種基于排序?qū)W習的輿情事件演化趨勢重要性評估算法。在模型訓練過程中,充分利用標注數(shù)據(jù)中的專家知識以及有標簽數(shù)據(jù)和無標簽數(shù)據(jù)的關(guān)聯(lián)關(guān)系,篩選出重要輿情事件并進行管控,提升了資源的利用效能。參考文獻[16]以網(wǎng)絡流文本為對象,通過分析網(wǎng)絡話題內(nèi)容焦點的遷移特性,提出了網(wǎng)絡話題內(nèi)容焦點的識別方法。上述方法由于模型訓練未考慮輿情事件的動態(tài)變化性,預測準確率不高,還需要進一步增強模型的適應性。
由于輿情熱度數(shù)據(jù)按照時間序列變化,劉定一等人[17]針對單一模型預測精度不高和社交媒體對輿情走勢影響較大的問題,提出了融合微博熱點分析和LSTM的輿情預測方法。然而特征集的數(shù)量較少,網(wǎng)絡輿情謠言識別的準確率還有待提高。笱程成等人[18]利用深度循環(huán)神經(jīng)網(wǎng)絡對社交消息的傳播過程進行建模,提出了SMOP模型。該模型由于優(yōu)化目標單一,未考慮通過聯(lián)合建模優(yōu)化來進一步提升預測準確率。彭丹蕾等人[19]針對如何高效挖掘處理大量評論數(shù)據(jù)并進行情感分析的問題,采用SVM和LSTM分別對從京東網(wǎng)站爬取的商品評論進行建模。由于情感分析涉及的學科跨度比較大,并且采集的數(shù)據(jù)集比較單一,該模型適應性不強。為了有效監(jiān)控和管理新型冠狀病毒肺炎疫情引起的網(wǎng)絡輿情,景楠等人[20]基于差分自回歸移動平均(autoregressive integrated moving average,ARIMA)模型以及LSTM預測和分析輿情數(shù)據(jù),對輿情模型進行參數(shù)估計、模型診斷和模型評價。由于未考慮各地區(qū)疫情發(fā)展的影響因素不同,該模型適應性不足。張?zhí)盏热薣21]針對無屬性社交網(wǎng)絡的節(jié)點分類問題,提出了一種基于圖嵌入與SVM的社交節(jié)點分類方法。由于采用靜態(tài)的社交網(wǎng)絡數(shù)據(jù)集進行模擬,該方法對動態(tài)社交網(wǎng)絡的適應性不足,應用范圍受到限制。針對方面情感,宋婷等人[22]提出基于方面情感分析的深度分層注意力網(wǎng)絡模型,利用改進的LSTM獲取句子內(nèi)部和句子間的情感特征。由于未包含跨領(lǐng)域的詞匯和網(wǎng)絡用語句子的方面情感分析,該模型的情感分類效果有待進一步提高。
根據(jù)以上分析,現(xiàn)有的時序數(shù)據(jù)處理模型存在算法預測精確度不夠高、特征集和數(shù)據(jù)集比較單一的問題,并且很少結(jié)合輿情數(shù)據(jù)動態(tài)更新預測值。本文在對高校輿情數(shù)據(jù)進行處理時,利用關(guān)鍵詞匹配全面考慮高校的相關(guān)信息,目的在于提高對高校輿情信息預測的準確率。結(jié)合時間編碼方法,對輿情熱度數(shù)據(jù)的絕對時間因素進行分析,可以解決L S T M處理時序數(shù)據(jù)時僅考慮數(shù)據(jù)先后關(guān)系的問題。同時利用實時輿情數(shù)據(jù)動態(tài)更新預測值,使得預測精確率進一步提升。本文提出基于時間編碼L STM的高校輿情熱點趨勢預測研究方法,動態(tài)調(diào)整評估參數(shù)。本文研究主要包括以下5個方面:一是獲取微博熱搜數(shù)據(jù)集合;二是通過降維、篩選、升維3種方法對數(shù)據(jù)集進行處理;三是將熱點話題的時間編碼加入數(shù)據(jù)集并進行歸一化處理;四是生成訓練集和測試集,利用訓練集訓練模型并生成預測模型,再利用測試集進行模型預測;五是對比分析預測值與真實值,最后評估各個模型的性能,驗證了基于時間編碼的L S T M在輿情熱點時序數(shù)據(jù)處理方面的優(yōu)越性。
RNN在時序數(shù)據(jù)處理過程中會保留之前所有輸入數(shù)據(jù)信息。一方面,隨著后序數(shù)據(jù)的輸入,先前的輸入對模型隱含層的影響會越來越小,即長距離的依賴問題;另一方面,一些不重要的信息將被RNN保留。為了克服上述困難,LSTM被提出,該模型具有保持長期記憶性的特點,在時序數(shù)據(jù)處理方面具有良好的性能,LSTM結(jié)構(gòu)如圖1所示。LSTM模型的構(gòu)建如下。
圖1 LSTM結(jié)構(gòu)
首先,對輸入數(shù)據(jù)xi-1和隱含狀態(tài)hi-1進行運算,得到LSTM的遺忘門,如式(1)所示:
在式(1)中,對輸入數(shù)據(jù)xi-1、隱含狀態(tài)hi-1與遺忘門的權(quán)重W1進行線性運算,b1表示引入的偏置項,再經(jīng)過sigmoid激活函數(shù)引入非線性元素,此時C?(0,)1。C越大,記憶的部分越大。將C與當前的長期記憶狀態(tài)ci-1相乘并輸出,即遺忘門的輸出表示對長期記憶狀態(tài)的記憶程度,如式(2)所示:
接下來計算LSTM的輸入門部分,圖1中si表示輸入門的sigmoid神經(jīng)網(wǎng)絡層,符號×表示點乘運算操作,激活函數(shù)tanh將輸入的新信息歸一化到(-1,1),通過點乘運算對信息進行縮放,決定保留哪些新信息,如式(3)、式(4)所示:
通過上述過程,LSTM模型可以完成對已有長期記憶元素的更新,如式(6)所示:
其中,ci將被用于下一層LSTM的計算。與RNN相比,LSTM在輸出時也進行了一定的改進。LSTM在輸出時綜合考慮了當前長期記憶和當前輸入數(shù)據(jù)的影響,如式(7)所示:
使用tanh函數(shù)激活當前長期記憶結(jié)果的值,得到LSTM的實際輸出,yi-1表示當前時刻的話題熱度。
在訓練模型時,需要將損失函數(shù)的值降至較低水平,以提高模型性能。損失函數(shù)是衡量神經(jīng)網(wǎng)絡性能的重要參考指標,通常損失函數(shù)在測試集上的結(jié)果越小,模型的性能越好。常用的損失函數(shù)有適用于回歸問題的均方誤差(mean square error,MSE)損失函數(shù)和適用于分類問題的交叉熵(cross entropy)損失函數(shù)等。對高校熱點輿情話題的預測屬于回歸問題,因此將MSE作為損失函數(shù),如式(9)所示:
時序數(shù)據(jù)通常具有隱含關(guān)系。通過神經(jīng)網(wǎng)絡的訓練,挖掘數(shù)據(jù)的潛在特征,從而實現(xiàn)對數(shù)據(jù)的預測,即神經(jīng)網(wǎng)絡目標是一個回歸任務。因此選擇MSE對損失函數(shù)進行優(yōu)化,提升模型性能。
除了M S E,還可將平均絕對誤差(mean absolute error,MAE)和平均絕對百分比誤差(mean absolute percentage error,MAPE)作為模型的評價指標。
MAE表示預測值與真實值之間的誤差平均絕對值,如式(10)所示:
MAE能更好地反映預測值誤差的實際情況(已經(jīng)經(jīng)過歸一化)。模型測試數(shù)據(jù)的MAE越大,預測誤差越大。MAPE表示預測值與真實值的平均差距百分比,如式(11)所示:
值得注意的是,一個較好的評估模型的MAPE值應該為0,其表示預測值與真實值之間沒有差別。
本研究使用的數(shù)據(jù)集來自新浪微博熱搜榜,由于微博是一個實時信息交流分享平臺,一旦輿情信息出現(xiàn),將在短時間內(nèi)迅速傳播,因此分析微博熱搜數(shù)據(jù)的熱度變化趨勢具有重要的研究意義。
具體的熱度數(shù)據(jù)采集過程如下,首先通過Python框架對頁面內(nèi)容進行解析,并定義需爬取的字段,接著從某個時刻開始,每間隔15 min對熱搜榜數(shù)據(jù)進行一次爬取,例如從0:00起,采集0:00、0:15、0:30等時間點的數(shù)據(jù)。如果熱點話題仍在熱搜榜上,就繼續(xù)采集并添加熱度值;否則,將新上榜的熱搜數(shù)據(jù)添加至表中,最后保存所收集的數(shù)據(jù),用于后續(xù)實驗分析。熱搜榜每次顯示50個熱點話題,按照其搜索熱度進行排名。
由于研究對象是包含時間序列關(guān)系的話題名和熱度值,因此將收集到的數(shù)據(jù)按照時間變化存儲,對于某時刻不在熱搜榜的話題,其在該時刻的熱度為空。最終用于實驗仿真的數(shù)據(jù)包含排名、關(guān)鍵詞、熱度、熱度標識、時間5個維度,共15 000余條數(shù)據(jù)。整理收集到的數(shù)據(jù),部分熱搜數(shù)據(jù)示例見表1。
表1 新浪微博部分熱搜數(shù)據(jù)示例
3.2.1 降維
本文針對話題熱度值進行預測,在獲得原始數(shù)據(jù)集后,首先對數(shù)據(jù)集進行降維處理,刪減與本文研究內(nèi)容無關(guān)的維度,去掉冗余變量,這有助于提高算法的準確率。一方面,微博熱搜榜的“爆”“沸”“熱”等熱度標識來源于實時熱度值高低,熱度標識與熱度值意義重復,關(guān)系冗余,因此將數(shù)據(jù)集的熱度標識維度刪除。另一方面,微博話題熱度序號只顯示熱度排名前50的話題,而熱搜榜在實時變化,某一時刻的熱度排名只與該時刻的話題熱度有關(guān),在對熱度進行預測時,該時刻的相對排名對于研究意義不大,因此將熱度排名維度刪除。通過對數(shù)據(jù)集的降維處理,可以節(jié)約高校輿情熱點趨勢預測方法的訓練時間。降維后的熱搜數(shù)據(jù)示例見表2。
表2 降維后的熱搜數(shù)據(jù)示例
3.2.2 升維
在收集輿情數(shù)據(jù)時,按照15 min的間隔進行收集。熱點話題在熱搜榜不斷地出現(xiàn)或消失,在存儲某一時刻的熱搜榜數(shù)據(jù)時,下一時刻該話題的熱度數(shù)據(jù)可能消失,新的話題可能出現(xiàn),因此在數(shù)據(jù)的整合和存儲方面,需要考慮熱搜話題變化帶來的數(shù)據(jù)維度不一致問題。
針對上述問題,對原數(shù)據(jù)集進行升維操作,在原始數(shù)據(jù)基礎(chǔ)上增加時間序列維度,按時間順序記錄每一數(shù)據(jù)爬取時刻的熱度值。若話題熱度不夠高,未進入熱搜榜或熱度已經(jīng)下降并離開熱搜榜,則該時刻的熱度值為空。升維后的熱搜數(shù)據(jù)示例見表3。
表3 升維后的熱搜數(shù)據(jù)示例
3.2.3 篩選
微博熱搜榜的話題包含娛樂、體育、民生、時政等多個話題類型,本文針對高校輿情類話題進行研究,因此需要對熱搜話題進行篩選。針對與高校輿情相關(guān)的話題,通過關(guān)鍵詞方式進行篩選。在獲得的數(shù)據(jù)集中,將“高?!薄按髮W”“學院”等與高校相關(guān)的話題關(guān)鍵詞表示為集合K={k1,k2,k3,…},若話題與集合無交集,則為無關(guān)話題,對無關(guān)的話題進行忽略處理。對輿情話題進行分詞處理,分詞前后的話題見表4。
表4 分詞前后的話題
接著將分詞后的輿情話題與高校關(guān)鍵詞集合K進行匹配與篩選,保留與高校輿情相關(guān)的熱點話題以及熱度值變化情況,去除與高校輿情無關(guān)的數(shù)據(jù)信息,篩選后的高校熱點數(shù)據(jù)見表5。
表5 篩選后的高校熱點數(shù)據(jù)
在對數(shù)據(jù)進行歸一化處理之前,首先加入時間編碼,具體過程是對收集數(shù)據(jù)的每個時刻進行編碼,例如從0:00開始收集數(shù)據(jù),0:15的時間編碼參數(shù)是0.25,0:30的時間編碼參數(shù)是0.5,0:45的時間編碼參數(shù)為0.75……具體的時間編碼參數(shù)設置過程是將每小時分為4個部分,每部分占比為25%,若當前時刻為H時M分,編碼參數(shù)設置為。對高校輿情數(shù)據(jù)進行時間編碼的優(yōu)勢是,若熱度持續(xù)時間大于或等于24 h,此時時間編碼大于或等于24,規(guī)定從0進行編碼。在時間編碼后,輿情數(shù)據(jù)之間的前后關(guān)系由于含有絕對時間的編碼參數(shù),輿情熱度會隨著時間發(fā)生變化,因此進一步結(jié)合不同時間段的輿情數(shù)據(jù)進行分析,可以提高輿情熱度預測的準確率。接著對數(shù)據(jù)進行歸一化操作,對以十萬甚至百萬為單位的熱度數(shù)據(jù)進行歸一化處理,能加速模型收斂,提高模型精度。熱度數(shù)據(jù)歸一化可以對每個熱點話題的時間變化序列數(shù)據(jù)進行歸一化,也可以針對所有熱度值進行歸一化。考慮到每個話題的熱度變化范圍不同,某些話題的峰值熱度可能仍低于其他話題的中等熱度,導致歸一化后的相對熱度表示誤差較大,因此采用整體歸一化的思路進行處理。數(shù)據(jù)歸一化表示為:
在式(12)中,x表示某一時刻的熱度值,xmin表示該話題的最小熱度值,xmax表示該話題的最大熱度值。通過熱度值的歸一化,有效地減小了熱度值范圍跨度。在后續(xù)神經(jīng)網(wǎng)絡訓練及預測時,數(shù)據(jù)不會因為微小擾動而產(chǎn)生巨大誤差,因此數(shù)據(jù)擬合與損失函數(shù)的收斂速度將進一步提高。
首先將數(shù)據(jù)集分為訓練集和測試集兩類,將數(shù)據(jù)集的70%作為訓練集,30%作為測試集。訓練時設置學習批次大小為128,使用隨機梯度下降法對模型進行優(yōu)化,學習率設置為0.01,損失函數(shù)使用MSE。為了進一步對比驗證時間編碼的優(yōu)勢,與不含時間編碼的LSTM進行對比。
實驗一共進行100輪訓練,使用梯度下降法反向傳播誤差,更新隱含層權(quán)重
經(jīng)過100輪訓練,損失函數(shù)已經(jīng)趨于零,說明模型性能基本達到最優(yōu)。RNN、SVM、LSTM和基于時間編碼的LSTM在訓練集上的預測效果分別如圖2、圖3、圖4、圖5所示。其中,SVM使用高斯核函數(shù),該核函數(shù)的參數(shù)gamma設置為0.1。
圖2 RNN訓練集預測效果
圖3 SVM訓練集預測效果
圖4 LSTM訓練集預測效果
圖5 基于時間編碼的LSTM訓練集預測效果
從圖2~圖5可以看出,基于時間編碼的LSTM的預測性能略優(yōu)于普通的LSTM,同時預測結(jié)果也比SVM、RNN更加準確,原因在于基于時間編碼的LSTM不僅對時間序列數(shù)據(jù)保持長期的記憶性,而且具有更新數(shù)據(jù)信息的能力。同時,加入時間編碼后,LSTM在輿情熱度值與絕對時間之間建立了相應的聯(lián)系,因此其在輿情趨勢預測方面具有較好的性能。
接著使用100輪訓練后LSTM、RNN、SVM和基于時間編碼的LSTM模型,在測試集上進行預測,依次對每個話題的數(shù)據(jù)集進行測試,預測數(shù)據(jù)與真實數(shù)據(jù)的誤差在較低水平。RNN、SVM、LSTM和基于時間編碼的LSTM在測試集上的預測效果分別如圖6、圖7、圖8、圖9所示。
圖6 RNN測試集預測效果
圖7 SVM測試集預測效果
圖8 LSTM測試集預測效果
圖9 基于時間編碼的LSTM測試集預測效果
對比4種模型在測試集上的預測效果,基于時間編碼的L STM性能最優(yōu)。SVM在熱度較低時的預測結(jié)果偏高,在熱度值最高點的預測結(jié)果偏低。由于熱度變化是有規(guī)律的,可以根據(jù)前序數(shù)據(jù)得到后序數(shù)據(jù),而SVM沒有考慮前序數(shù)據(jù)的變化特征,導致其回歸精度不夠高。出現(xiàn)高校輿情后,通過基于時間編碼的LSTM對輿情熱度趨勢進行預測,及時引導輿論發(fā)展的方向,將有利于高校對學生思想健康的管理,提升高校處理輿情事件的水平。
以某真實事件為例,對新浪微博中該事件的真實熱度數(shù)據(jù)每間隔15 min采集一次,并對收集到的數(shù)據(jù)進行整理保存。首先,對上述數(shù)據(jù)進行預處理歸一化,并加入時間編碼參數(shù),將前45 min的數(shù)據(jù)作為神經(jīng)網(wǎng)絡的輸入,預測得到下一時刻的輸出。由于輿情數(shù)據(jù)受多種因素的影響,單獨使用模型進行預測的效果不理想,故需要結(jié)合輿情實時的動態(tài)變化性對評估參數(shù)進行調(diào)整。在預測下一時刻的熱度值時,可以根據(jù)輿情變化做出相應的處理,在獲得真實數(shù)據(jù)后,結(jié)合真實熱度數(shù)據(jù)進行預測,即進行動態(tài)的校正與下一步預測,動態(tài)調(diào)整過程如圖10所示。
圖10 動態(tài)調(diào)整評估參數(shù)
結(jié)合動態(tài)調(diào)整策略,對真實事件持續(xù)處于熱搜榜的18.5 h(即74個時刻)進行預測,分別使用SVM、RNN、LSTM以及基于時間編碼的LSTM進行預測,結(jié)果分別如圖11、圖12、圖13、圖14所示。分析實驗結(jié)果可知,基于時間編碼的LSTM模型能得到事件在具體時刻的熱度,結(jié)合動態(tài)調(diào)整策略,其適應性得到提高。與其他3種算法相比,基于時間編碼的LSTM的預測準確率是最高的。當高校輿情熱點趨勢即將進入爆發(fā)期時,相關(guān)部門及時響應或調(diào)整策略,對輿情熱點發(fā)展趨勢進行管控,有助于高校完善輿情管理體系。
圖11 SVM真實集預測效果
圖12 RNN真實集預測效果
圖13 LSTM 真實集預測效果
圖14 基于時間編碼的LSTM真實集預測效果
隨著時間推進,相關(guān)部門可根據(jù)預測結(jié)果,提前為輿情的發(fā)展做出判斷和回應。然而,神經(jīng)網(wǎng)絡不能自動判斷預測停止時間。通過實驗和數(shù)據(jù)分析可以得出,當熱度數(shù)據(jù)預測值低于最低話題熱度值時,可認為話題熱度低于熱搜榜上榜要求,停止預測。
對基于時間編碼的LSTM、LSTM、RNN和SVM 4種模型在不同數(shù)據(jù)集上的MAPE和MAE進行對比,結(jié)果如圖15所示。從圖15可知,MAPE和MAE的數(shù)值越小,預測值與真實值的誤差越小,即預測結(jié)果越接近真實值。在4個模型中,基于時間編碼的LSTM的預測效果是比較準確的。從MAPE對比實驗結(jié)果分析:基于時間編碼的LSTM在訓練集和測試集上的預測效果明顯優(yōu)于其他3種模型。從MAE對比實驗結(jié)果分析,基于時間編碼的LSTM模型預測效果在訓練集、測試集和真實集上明顯優(yōu)于RNN和SVM。但受到真實事件的動態(tài)變化性以及不確定因素的影響,基于時間編碼的LSTM模型在部分預測集上的效果略差,后續(xù)研究需進一步提升模型的穩(wěn)定性。綜合比較,基于時間編碼的LSTM還是具有明顯優(yōu)勢的,在測試集上的預測效果優(yōu)于其他模型。因此,使用基于時間編碼的LSTM對高校輿情熱點趨勢進行預測具有較高的準確率,可以降低輿情帶來的不利影響。
圖15 模型預測效果
本文通過爬取新浪微博中高校的輿情熱點數(shù)據(jù),使用基于時間編碼的LSTM學習輿情數(shù)據(jù)熱度的時序變化情況,并對時序數(shù)據(jù)進行建模。將經(jīng)過多輪訓練和參數(shù)調(diào)優(yōu)的基于時間編碼LSTM的高校輿情熱點趨勢預測模型與RNN、SVM和LSTM 3種模型的預測結(jié)果進行對比分析,實驗結(jié)果表明,基于時間編碼的LSTM在訓練集、測試集、真實集上的預測結(jié)果誤差較小,具有良好的實時預測效果。本文可為相關(guān)部門預測熱點事件的輿情趨勢變化提供一定的參考,從而及時做出相應的決策。未來研究將從熱點問題的內(nèi)容與評論入手,進一步研究基于時間編碼的LSTM模型的穩(wěn)定性,建立更完善的輿情預測模型,挖掘更深層次的輿情趨勢的發(fā)展規(guī)律。