劉忠寶 秦 權 趙文娟
(1. 云計算與物聯(lián)網(wǎng)技術福建省高等學校重點實驗室(泉州信息工程學院) 泉州 362000;2.北京語言大學語言智能研究院 北京 100083;3.中北大學軟件學院 太原 030051)
自2019年12月底新冠肺炎疫情爆發(fā)以來,以微博為代表的社交媒體在傳播疫情信息、宣傳防控措施等方面發(fā)揮了重要作用,并成為央視新聞、人民日報等官方媒體發(fā)布疫情信息的重要媒介。隨著疫情的不斷發(fā)展,相關微博新聞和評論的數(shù)量持續(xù)增長,眾多網(wǎng)民對于疫情的情緒反應強烈,導致正常的生活受到明顯影響。因此,筆者以新冠肺炎疫情相關的微博新聞及其評論作為研究對象,在建立面向疫情的疫情事件畫像以及面向網(wǎng)民的情緒畫像的基礎上,深入分析疫情期間出現(xiàn)的重點事件對網(wǎng)民情緒的影響,為各級政府準確掌握網(wǎng)絡輿論情況,科學高效地做好防控宣傳和輿情引導工作提供有力支撐。
疫情事件畫像和網(wǎng)民情緒畫像是本文研究的重點,前者主要用到事件抽取方法,后者主要用到文本情感分析方法。本節(jié)對上述方法的研究進展進行梳理。
1.1事件抽取方法目前,事件抽取的主要研究方法包括模式匹配、機器學習以及深度學習的方法三類。
基于模式匹配的方法一般通過手工構建各種模式匹配算法用于事件抽取。J. T.Kim等引入WordNet詞典,利用短語結構和語義框架,構造了一個并行化的事件匹配模型PALKA[1],該模型一定程度上解決了語料規(guī)模較大時手動創(chuàng)建模式費時費力的問題。李章超[2]、許君寧[3]等通過構建模式匹配原則對非結構化文本中的事件抽取問題進行了研究并取得了較好的效果?;谀J狡ヅ涞姆椒ㄔ谔囟I域表現(xiàn)優(yōu)異,但算法的可移植性差,需要大量的人工規(guī)則,且需要領域專家的指導。
機器學習無需領域知識且可以減少人工干預,已經(jīng)成為事件抽取的主要研究方法。劉振等通過事件觸發(fā)詞與事件特征之間的約束規(guī)則,引入WordNet對觸發(fā)詞進行聚類,并引入條件隨機場識別事件組成元素[4]。趙妍妍[5]、黃念娥[6]等分別引入最大熵分類器和CRF模型抽取事件?;跈C器學習的方法在一定程度上減少了領域專家的依賴,但需要大規(guī)模的標準語料,否則在模型訓練上容易出現(xiàn)數(shù)據(jù)稀疏問題,且現(xiàn)階段的語料規(guī)模難以滿足應用需求。
基于深度學習的方法將語料轉化為特征向量,并通過不同的神經(jīng)網(wǎng)絡模型學習篇章級及跨篇章級的語義信息以提高事件抽取的性能。T.Nguyen等提出一種基于Skip-gram的卷積神經(jīng)網(wǎng)絡模型,該模型能夠高效地提取非連續(xù)短語的特征,因而能夠高效地完成事件抽取任務[7]。徐飛[8]、 Liu[9]等分別引入基于條件隨機場的雙向長短期記憶網(wǎng)絡和注意力機制來學習文本的隱藏特征,進而提高事件抽取效率。
在微博事件抽取研究中,仇培元利用條件隨機場對交通事件的微博進行語義標注,引入支持變量機計算事件要素之間的關聯(lián)強度,該方法在微博交通事件抽取中召回率達到了90%[10]。周鵬[11]、唐曉波[12]分別利用關鍵詞抽取算法和狄利克雷過程事件混合模型對微博事件進行抽取并取得了較好的效果。
1.2文本情感分析常用文本情感分析方法包括基于情感詞典的方法、基于機器學習的方法以及基于深度學習的方法。
基于情感詞典的方法主要是通過識別詞典中的情感詞對文本進行分類。Liu等在融入依存句法特征的基礎上,利用K-means聚類算法構建情感詞典對在線產(chǎn)品評論進行情感分析[13]。Yang[14]、Turney[15]、趙常煜[16]基于傳統(tǒng)情感詞典,分別引入隱狄利克雷分配(Latent Dirichlet Allocation, LDA)模型、點互信息(Pointwise Mutual Information, PMI)算法對情感詞典擴展、文本情感分析等進行研究?;谇楦性~典的方法對特定領域情感分析表現(xiàn)優(yōu)異,但該方法很少考慮文本的上下文信息,而且由于網(wǎng)絡新詞的不斷出現(xiàn),該方法無法及時更新情感詞典。
基于機器學習的方法利用支持向量機(Support Vector Machine, SVM)、樸素貝葉斯(Na?ve Bayes, NB)、最大熵(Maximum Entropy, ME)等機器學習算法進行文本情感分析。Pang等人工標記電影評論中出現(xiàn)的情感特征詞,比較分析SVM、NB、ME等算法在電影評論中進行情感分析效果,實驗結果表明SVM分類效果最佳[17]。Wikarsa[18]等利用NB算法對文本進行細粒度的情感分析?;跈C器學習的方法基于文本的上下文關系,需要大量的人工標注語料,該方式耗時耗力,且存在標注不一致等問題。
目前,利用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)以及長短記憶神網(wǎng)絡(Long Short-Term Memory, LSTM)等深度學習模型已成為文本情感分析領域的熱門研究方向。Poria等基于深度卷積神經(jīng)網(wǎng)絡提出一種從短文本中提取情感特征的方法,該方法利用文本、視覺和音頻的組合特征來訓練基于多核學習的分類器。與現(xiàn)有方法相比,該方法的情感識別準確率提升了14%[19]。吳鵬[20]、涂曼姝[21]等將卷積神經(jīng)網(wǎng)絡應用于文本情感分析,其正確率均達到93%以上。
在微博情感分析研究中,張海濤等利用微博數(shù)據(jù),以復雜網(wǎng)絡理論為基礎,基于評論詞語之間的共現(xiàn)關系,構建子事件網(wǎng)絡,以動態(tài)地跟蹤網(wǎng)民意見以及情緒波動[22]。張柳[23]、曾子明[24]等分別引入多尺度卷積神經(jīng)網(wǎng)絡和Bi-LSTM模型對微博評論文本進行情感分析。在疫情背景下微博情感分析研究中,安璐等基于微博用戶轉發(fā)關系構建疫情相關者的情感網(wǎng)絡圖譜,并根據(jù)輿情話題分析相關者的情感演化趨勢[25]。周紅磊等依據(jù)態(tài)勢感知理論構建面向疫情的話題-情感演化模型,探尋疫情話題背后的網(wǎng)民情感變化情況[26]。
2.1數(shù)據(jù)來源爬取2019年12月01日到2020年4月30日之間與新冠肺炎疫情相關的微博新聞26 478條以及對應評論30萬條,利用哈工大語言技術平臺(Language Technology Platform,LTP)對語料進行分句、分詞以及詞性標注處理。通過去除新聞文本中含有的URL鏈接、標點符號、特殊字符以及少于10個字符的新聞文本,得到新聞語料集;通過去除評論中的英文、數(shù)字以及英文符號,得到評論語料集。本文借鑒國家金融與發(fā)展實驗室將疫情演化分為爆發(fā)高峰期、全面蔓延期、控制恢復期等三個階段[27],同時按照上述三個階段分析疫情事件對網(wǎng)民情緒的影響,其中2019年12月01日至2020年1月27日為爆發(fā)高峰期、2020年1月27日至2020年3月1日為全面蔓延期、2020年3月1日至2020年4月30日為控制恢復期。
2.2研究方法
2.2.1 研究框架 圖1給出了微博環(huán)境下疫情事件對網(wǎng)民情緒的研究框架。該框架包括疫情事件畫像、網(wǎng)民情緒畫像以及疫情事件對網(wǎng)民情緒的影響分析三部分。在疫情事件畫像中,首先依據(jù)OpenKG發(fā)布的新冠肺炎熱點事件圖譜,將新聞語料集劃分為捐資、防控、英雄和臨床四類事件主題[28],并在此基礎上人工篩選出包含四類事件主題的觸發(fā)詞,接著根據(jù)觸發(fā)詞對新聞語料集使用條件隨機場(Conditional Random Fields, CRF)[29]模型進行疫情事件抽取,同時使用該模型識別疫情事件的組成元素。在網(wǎng)民情緒畫像中,首先,根據(jù)大連理工大學情感詞匯本體庫DUTIR[30]對網(wǎng)民情緒進行分類;接著,根據(jù)疫情事件的觸發(fā)詞以及組成元素對評論語料集進行劃分,得到疫情事件所對應的評論文本;然后,對評論文本進行情緒強度計算,并使用雙向長短期記憶網(wǎng)絡(Bidirectional Long Short Term Memory, Bi-LSTM)模型[31]對評論文本進行情緒分析;最后,得到不同疫情事件下網(wǎng)民的情緒畫像。在疫情事件對網(wǎng)絡情緒的影響分析中,使用基于自注意力機制的雙向長短期記憶網(wǎng)絡Att-BiLSTM模型對疫情事件與網(wǎng)民情緒進行關聯(lián)分析,得到疫情事件影響下網(wǎng)民的情緒分布。
圖1 研究框架
2.2.2 疫情事件畫像 依據(jù)OpenKG發(fā)布的新冠肺炎熱點事件圖譜,將新聞語料集劃分為包含捐資、防控、英雄和臨床四類主題。捐資主題包括各地對疫區(qū)進行捐款捐物的新聞。本文結合上述各類主題下的新冠肺炎新聞的語句結構,人工篩選各類主題下疫情事件的觸發(fā)詞,利用CRF模型抽取疫情事件及其組成元素。以疫情事件為例,給出CRF模型的工作流程。首先,用預先定義好的標記規(guī)則對新聞語料集進行人工標注;然后,將標注好的語料輸入模型;最后,學習疫情事件標簽之間的約束規(guī)則,進而得到疫情事件抽取結果。
2.2.3 網(wǎng)民情緒畫像 根據(jù)大連理工大學情感詞匯本體庫DUTIR,本文將網(wǎng)民情緒分為“樂觀、美好、憤怒、悲哀、畏懼、厭惡、驚嚇”七類,并引入情緒強度計算完成以上七類的網(wǎng)民評論情緒的標注。在引入DUTIR和修飾詞詞典的基礎上,對與疫情相關的評論語料進行情緒強度計算,DUTIR將情感分為7大類,20小類,其中包含27 466個情感詞,情感詞的情緒強度值分為1、3、5、7、9五檔,9表示情感強度最大,1表示情感強度最小,表1和表2分別列出了部分情感詞和情感強度。情緒強度計算需要考慮否定詞和程度副詞共同出現(xiàn)時的情緒影響。情感詞的情緒強度計算如式(1)所示。
Ei=(-1)οiαiρim
(1)
其中,Ei表示組合后的情緒強度,oi表示組合中否定詞的個數(shù),αi表示程度副詞的情緒強度,ρi表示情感詞的情緒強度,m表示不同組合的權重值。
網(wǎng)民情緒畫像的基本流程是:首先,輸入與疫情相關的評論語料集;接著,對輸入語料進行向量化表示;然后,利用BiLSTM模型從正、反兩個方向提取輸入語料的語義特征;最后,得到網(wǎng)民對疫情事件的情緒分布。
表1 部分情感詞
表2 部分情感詞的情感強度
2.2.4 影響分析 本文采用基于自注意力機制的雙向長短期記憶網(wǎng)絡Att-BiLSTM[31]模型進行疫情事件對網(wǎng)絡情緒的影響分析。注意力機制通過對信息進行加權,得到信息的重要程度,以捕獲更多的有用信息。Att-BiLSTM模型在BiLSTM模型的基礎上增加了注意力機制層,該層對BiLSTM的輸出進行加權計算。該過程首先將BiLSTM模型不同時刻的輸出映射到(-1, 1)區(qū)間;接著,與權重參數(shù)相乘,經(jīng)softmax函數(shù)映射到(0, 1)區(qū)間后得到注意力分布向量;最后,將該分布向量分別乘以BiLSTM模型不同時刻的輸出即可得到分析結果。該模型融合了注意力機制和BiLSTM模型的優(yōu)勢,突出了對分析結果有利的語義特征,提升了模型的分析能力。圖2給出了研究框架。首先,將疫情事件經(jīng)Word2Vec向量化表示后輸入模型;接著,利用Bi-LSTM模型挖掘疫情事件中的語義特征;然后,引入自注意力機制對語義特征賦予不同權重,以突出部分重要的語義特征;最后,經(jīng)Softmax激活函數(shù)處理后,得到疫情事件影響下的網(wǎng)民情緒分布y。
圖2 關聯(lián)分析模型圖
3.1新聞語料集標注疫情事件抽取包括觸發(fā)詞識別和事件元素抽取。根據(jù)新聞主題,給出如表3所示的疫情事件觸發(fā)詞表和表4所示的觸發(fā)詞標注集。
表3 疫情事件觸發(fā)詞表
表4 觸發(fā)詞標注集
在抽取疫情事件元素時,根據(jù)主題語料集的特點,將疫情事件元素分為時間、地點、人物。采用“BIESO”標注方式對主題語料集中的疫情事件進行事件元素標注。疫情事件元素標注集如表5所示。
表5 疫情事件元素標注集
3.2評價指標利用準確率P(Precision)、召回率R(Recall)、F值(F-value)等評價指標對實驗結果進行評價。準確率指正確識別疫情事件數(shù)與已識別疫情事件數(shù)的比值,或正確識別網(wǎng)民情緒數(shù)與已識別網(wǎng)民情緒數(shù)的比值,用于衡量所用方法的查準率。召回率指正確識別疫情事件數(shù)與所有正確識別疫情事件數(shù)的比值,或正確識別網(wǎng)民情緒數(shù)與所有正確識別網(wǎng)民情緒數(shù)的比值,用于衡量所用方法的查全率。F值綜合了準確率和召回率兩大評估指標,用于衡量所用方法的整體性能。上述指標的計算公式如下:
(2)
(3)
(4)
其中,A、B、C在不同畫像中的含義不同。在疫情事件畫像中,A、B、C分別表示正確識別、錯誤識別、無法識別的疫情事件數(shù);在網(wǎng)民情緒畫像中,A、B、C分別表示正確識別、錯誤識別、無法識別的網(wǎng)民情緒數(shù);在影響分析中,A、B、C表示正確識別、錯誤識別、無法識別的疫情事件對網(wǎng)民情緒分布。
3.3實驗參數(shù)設置目前比較流行的CRF模型處理工具有CRF++、Flexcrf、GRMM等。選用CRF++-0.58作為建模工具用以進行疫情事件抽取。Bi-LSTM模型用于網(wǎng)民情緒識別,隨機選取30%的實驗語料集作為參數(shù)設置語料集,將該語料集的70%用于模型訓練,剩下的30%用于參數(shù)驗證。利用網(wǎng)格搜索法來確定該模型的參數(shù)。batch_size在網(wǎng)格[4, 8, 16, 32, 64, 128]中搜索選取,epoch在網(wǎng)格[10, 20, 30, 40, 50]中搜索選取,dropout在網(wǎng)格[0.1, 0.3, 0.5, 0.7]中搜索選取,learning_rate在網(wǎng)格[0.0001, 0.001, 0.01]中搜索選取,num_nodes在網(wǎng)格[32, 64, 128, 256]中搜索選取,max_length在網(wǎng)格[10, 50, 100, 150, 200]中搜索選取,其中batch_size表示訓練一次輸入的評論數(shù),epoch表示全部評論的訓練次數(shù),dropout表示解決神經(jīng)網(wǎng)絡過擬合問題的參數(shù)值,learning_rate表示學習率,num_nodes表示隱層神經(jīng)單元個數(shù),max_length表示時間步長。Bi-LSTM模型的參數(shù)設置如表6所示。
表6 Bi-LSTM參數(shù)設置
3.4實驗設計
3.4.1 疫情事件畫像實驗結果 利用CRF模型抽取疫情事件及其組成元素,本文將標注后的新聞語料集按照8:2的比例分為訓練集和測試集。實驗結果如表7和表8所示。
表7 不同主題下疫情事件抽取實驗結果
表8 疫情事件元素抽取實驗結果
由表7可以看出,CRF模型在疫情事件抽取的召回率較低,其主要原因是中文不同的字詞在上下文中表達的含義不同,部分“假的”事件觸發(fā)詞無法通過語義進行消除。四類主題疫情事件下的準確率、召回率、F值均達到80%以上,其中英雄事件由于語料限制,模型學習到的約束規(guī)則較少,模型準確率相比于其他三類疫情事件較低。由表8可以看出該模型在抽取時間、地點、人物等疫情事件元素時表現(xiàn)較為良好,準確率、召回率和F值都在70%以上,其中時間的F值較高,達到了80.8%,其原因是在疫情事件元素中,時間元素的句法結構單一,且人工標注準確率較高,因此,該模型的時間元素識別效果較優(yōu)。由于疫情事件中含有的人物語料較少,模型識別效果較低。實驗結果表明,CRF模型能夠較好地完成疫情事件畫像任務。
3.4.2 網(wǎng)民情緒畫像實驗結果 將評論語料集按照8:2的比例分為訓練語料集和測試語料集,經(jīng)過訓練后得到的實驗結果如表9所示。
由表9可以看出,捐資、防控、臨床以及英雄四種主題中的網(wǎng)民評論中對“美好”的情緒識別中,F(xiàn)值均達到了90%以上,主要原因是在疫情防控過程中,政府及企業(yè)對疫情防控大力支持,網(wǎng)民評論整體多為積極。而該模型的召回率較低,主要原因是網(wǎng)民表達情緒的方式多樣化,評論語料集中含有大量噪聲,增加了模型識別情感特征的難度。BiLSTM模型在網(wǎng)民評論的情緒識別任務中,各主題下的情緒識別效果良好,這表明該模型能夠充分挖掘評論語料集中網(wǎng)民的情緒分布,能夠較好地完成網(wǎng)民情緒畫像任務。
3.4.3 影響分析實驗結果 為了驗證本文所提Att-BiLSTM模型的有效性,本文設置了三組對比實驗分別是:RNN、LSTM、BiLSTM。以上方法在四種主題疫情事件的實驗結果如表10所示。
表9 評論語料集實驗結果
表10 影響分析實驗結果
由表10可以看出,RNN、LSTM相較于BiLSTM,其F值最高僅達到了74%,主要原因是RNN與LSTM無法學習疫情事件之間的關聯(lián)關系,因而在網(wǎng)民情緒的影響分析的實驗中效果一般;BiLSTM可以聯(lián)系疫情事件的上下文中對網(wǎng)民情緒影響的情感特征,因此實驗效果較好,在“英雄”主題的事件的F值達到了78%。本文所提方法在疫情事件對網(wǎng)民情緒的影響分析中表現(xiàn)最好,其準確率、召回率、F值均達到了83%以上,其中對“英雄”主題事件的F值達到了86%,這是因為在“英雄”主題所包含的事件中,“去世”、“犧牲”等相較與其他詞具有鮮明的情緒特征。根據(jù)疫情的不同發(fā)展階段,圍繞防控、捐資、英雄、臨床四種主題,分析疫情事件對網(wǎng)民情緒的影響。實驗結果如表11-表14所示。
表11 英雄主題網(wǎng)民情緒分布表
由表11可以看出,在抗擊新冠肺炎疫情過程中,不斷涌現(xiàn)出如鐘南山、李蘭娟等醫(yī)療工作者日夜奮戰(zhàn)在救援一線、公務人員在工作崗位上為抗擊疫情勞累致死等事件,因此,網(wǎng)民“美好”的情緒占比較大。
表12 防控主題網(wǎng)民情緒分布表
由表12可以看出,疫情防控中的情緒變化較為復雜,其中“美好”的情緒占比較大,隨著時間的推移,呈現(xiàn)先減后增的趨勢,這種變化的緣由是多方面的,如對小區(qū)實行封閉管理,經(jīng)過長時間的居家封禁,網(wǎng)民的正向情緒有所減少,但隨著疫情趨于平穩(wěn),網(wǎng)民情緒變緩,心中充滿希望。國家出臺的一系列有效的防控措施,疫情大幅減緩,網(wǎng)民的恐懼也隨之減少。受疫情影響,學生推遲開學、各種大型考試延遲等,在一定程度上也使得網(wǎng)民感到失落。
表13 臨床主題網(wǎng)民情緒分布表
由表13可以看出,在12月1日至1月27日時間段,臨床治療還未見成效,使得網(wǎng)民感到恐懼、難過;隨著臨床研究取得進展,恐懼慢慢減少,同時,出于對醫(yī)護人員自身安危的擔憂,網(wǎng)民的“悲哀”的情緒仍占一定比重。隨著臨床的深入研究,治愈率升高,負向情緒尤其是“厭惡”的情緒占比減少。相比于其余兩個時間段,在1月28日至3月1日,“驚嚇”的情緒在大規(guī)模爆發(fā)階段的占比最大,表明網(wǎng)民對疫情增長速度之快的擔憂。但從總體上看,由于鐘南山和李蘭娟院士的研究團隊在臨床研究上取得顯著的治療效果,網(wǎng)民相信在政府部門領導幫助下能成功度過此次危機的情緒逐漸增加。
表14 捐資主題網(wǎng)民情緒分布表
由表14可以看出,自新冠肺炎疫情爆發(fā)以來,由于醫(yī)療物資供不應求,以及防控帶來的資源調度不便,導致網(wǎng)民產(chǎn)生“悲哀”“恐懼”等負向情緒。為了解決疫情重災區(qū)武漢市物資嚴重短缺的問題,全國人民團結一心,社會各界捐資捐物,正能量廣泛傳遞,網(wǎng)民表現(xiàn)出的“美好”的情緒不斷增加,“悲哀”和“恐懼”的情緒也隨之減少。隨著政府部門對物資的督查監(jiān)管力度不斷加大,物資分配不合理等情況大幅改善,網(wǎng)民的“厭惡”的情緒比例也隨之降低。由于捐贈物資日益增多,同時,醫(yī)療物資加快生產(chǎn),網(wǎng)民的擔憂、恐懼等情緒得到了一定緩和。
對上述實驗結果進行歸納可知:圍繞防控、捐資、英雄、臨床四種主題,網(wǎng)民在疫情演化的三個階段“美好”情緒均占比最高,特別是在控制恢復期的英雄主題、爆發(fā)高峰期的防控主題、全面蔓延期的臨床主題以及控制恢復期的捐資主題達到峰值,這表明我國在應對新冠疫情做法得力,得到廣大網(wǎng)民的認可,與此同時,疫情信息的發(fā)布和監(jiān)管也較為到位,避免虛假、不實信息對網(wǎng)民情緒的影響。作為一種強烈的心理刺激源,新冠肺炎疫情的爆發(fā)容易引起網(wǎng)民負向情緒。在疫情演化的三個階段“厭惡”情緒占比較高,并在全面蔓延期的英雄主題、爆發(fā)高峰期的防控主題、控制恢復期的臨床主題以及爆發(fā)高峰期的捐資主題達到峰值,這與疫情演化期間發(fā)生的一系列負面事件相關。在此情形下,網(wǎng)民心態(tài)要擺正,理性看待負面事件,就事論事,不發(fā)表太情緒化的言論,不轉發(fā)未經(jīng)證實的信息,通過合理合法的方式發(fā)泄負向情緒。在不同的主題中,網(wǎng)民負向情緒分布差異較大。英雄主題主要是“悲哀”情緒,并在控制恢復期達到峰值18.4%,這表明網(wǎng)民對抗疫英雄的崇敬與惋惜。網(wǎng)民應化悲痛為動力,在平時的工作和學習中踐行英雄們堅持不懈、埋頭苦干的精神,早日從“悲哀”情緒中走出來。防控主題主要是“悲哀”情緒,并在爆發(fā)高峰期達到峰值14.1%,這表明部分網(wǎng)民認為防控工作有待于進一步完善。網(wǎng)民應科學看待防疫工作的艱巨性和復雜性,給予防疫部門和廣大醫(yī)護工作者更多的理解和支持。臨床主題主要是“驚嚇”情緒,并在控制恢復期達到峰值17.7%,這表明網(wǎng)民出乎意料疫情發(fā)展速度之快。網(wǎng)民應不依賴自己的直覺,聽從專業(yè)人士的建議,避免強迫性的自我清潔,盡量讓生活正?;灰岓@嚇支配日常生活。捐資主題主要是“悲哀”情緒,并在爆發(fā)高峰期達到峰值10.3%,這體現(xiàn)了部分網(wǎng)民對疫情物資準備不足的憂慮。網(wǎng)民應充分認識到疫情的突發(fā)性給各級政府帶來的挑戰(zhàn),也應樹立戰(zhàn)勝疫情的信心和決心。
本文對微博環(huán)境下疫情事件對網(wǎng)民情緒的影響進行了分析,試圖為各級政府準確掌握網(wǎng)絡輿論情況,科學高效地做好防控宣傳和輿情引導工作提供有力支撐。首先從微博上爬取與新冠肺炎相關的新聞26 478條及評論30萬條,經(jīng)數(shù)據(jù)預處理,得到新聞語料集和評論語料集,利用CRF模型圍繞捐資、防控、臨床、英雄等四類主題抽取疫情事件及其組成元素。然后,在引入情感詞典和修飾詞詞典的基礎上,對情感強度進行計算,利用BiLSTM模型得到網(wǎng)民的情緒分布。最后,基于自注意力機制的BiLSTM模型得到疫情事件對網(wǎng)民情緒的影響程度。本研究亦存在一定不足,如本文用到的情感詞典尚不完善,勢必影響分析結果,在后續(xù)研究中著重探討情感詞典的完備性問題以及其他情感分析方法。