陳 妍,李博誠,張云秋
互聯(lián)網(wǎng)及網(wǎng)絡社交媒體的快速發(fā)展,大大降低了公眾發(fā)表網(wǎng)絡言論的門檻,越來越多的網(wǎng)絡用戶選擇在網(wǎng)絡社交平臺表達個人意見和情感傾向。微博作為其中的代表,因傳播速度快、社會影響力大而逐漸成為用戶信息傳播及信息獲取的重要渠道[1]。突發(fā)公共衛(wèi)生事件因關(guān)乎公眾切身利益,往往持續(xù)時間久,關(guān)注人數(shù)多,而且極易觸動公眾的敏感神經(jīng),當事件被爆出后,公眾因擔憂自身生命健康安全而產(chǎn)生強烈的恐慌、憤怒等消極情緒,在網(wǎng)絡用戶中影響巨大[2]。而這些通過網(wǎng)絡傳達出的情感易形成社會輿論,會影響事件的發(fā)展及相關(guān)個人或組織的決策,甚至形成新的突發(fā)事件[3]。
近年來,信息技術(shù)的發(fā)展,尤其是文本挖掘相關(guān)技術(shù)和方法的日漸成熟,為突發(fā)公共衛(wèi)生事件輿情的監(jiān)控及輿情規(guī)律的呈現(xiàn)提供了新的解決思路。這些技術(shù)和方法可以幫助相關(guān)決策人員深入挖掘網(wǎng)絡中用戶生成的大量碎片信息[4],刻畫事件的演化過程和公眾情感的波動情況,實時把控用戶情感狀況,減少不良輿論對社會的負面影響[5]。
在眾多對文本進行分析的方法中,主題模型(topic model)近些年逐漸成為研究熱點。主題模型是以非監(jiān)督學習的方式對文集的隱含語義結(jié)構(gòu)進行聚類的統(tǒng)計模型[6],因其在文本處理和分析方面的卓越性能和優(yōu)異表現(xiàn),被自然語言處理方面的研究者廣泛用于文本分析。如有學者使用LDA 模型對“立頓毒茶包”事件進行了輿情演化分析[7];還有學者對公眾針對共享單車政策修訂的意見反饋采納情況進行了研究[8];有學者提出一種由LDA 和支持向量機模型衍生而來的主題模型進行產(chǎn)品評論文本特征的提取,并進行主題聚類[9];還有學者提出一種面向產(chǎn)品評價信息文本進行文本特征提取的PMI-TFIDF模型,并與傳統(tǒng)的點互信息法進行了比較分析[10]。
目前,已有相關(guān)研究對主題和情感的協(xié)同分析進行了探討。國內(nèi)有學者通過將文本情感與用戶畫像信息納入到圖模型,實現(xiàn)了基于微博的主題和情感的同步分析[11];有學者提出短文本情感主題模型SSTM,認為情感是依存于主題的[12];有學者根據(jù)微博評論的特點,提出了一種基于主題-情緒挖掘模型的情感分類方法[13];還有學者使用機器學習和情感計算對微博文本進行主題和情感綜合分析[14]。國外有學者基于推特數(shù)據(jù)集,通過對主題和情感的綜合分析提升在線零售業(yè)服務[15]。
綜上所述,現(xiàn)有主題分析研究未能考慮在時間線上某一時間片內(nèi)的文本會受到前后文本的影響,導致呈現(xiàn)出的主題存在一定的偏移。同時,用戶情感也具有一定的動態(tài)性,用戶在短期內(nèi)的情感波動往往與某一具體的熱點討論話題有關(guān),單獨進行情感分析而忽略其所依附的主題,會降低情感的指向性。鑒于此,本文基于新浪微博平臺,通過動態(tài)主題模型提出綜合用戶討論主題和情感變化的SA-DTM 分析模型,以更好地探究突發(fā)公共衛(wèi)生事件網(wǎng)絡輿情演化規(guī)律,為應急管理與決策服務。
本文提出的SA-DTM 分析模型框架如圖1 所示,主要包括動態(tài)主題分析、情感分析和主題-情感可視化分析3 部分。
圖1 SA-DTM 分析模型框架
2.2.1 LDA 主題模型
LDA 主題模型是一種基于詞袋思想的無監(jiān)督貝葉斯模型。該主題模型認為,一篇文檔是由一組單詞所構(gòu)成的“詞袋”結(jié)構(gòu),而其中的詞沒有先后順序。Beta 分布是二項式的共軛概率分布,而LDA模型中所使用的狄利克雷(Dirichlet)分布則是多項式分布的共軛概率分布。通常情況下,在LDA 模型中生成一篇文檔的方式可以通過以下幾步來實現(xiàn):從Dirichlet 分布α中抽取出第i個文檔的主題分布θi;從主題的多項式分布規(guī)律θi中抽取生成屬于第i個文檔中第j個詞的特定主題zi,j;從Dirichlet分布β中抽取生成屬于主題zi,j的詞語分布模型?zi,j;從詞語的多項式分布?zi,j中采樣,并最終抽取生成我們想要得到的詞語ωi,j。
2.2.2 動態(tài)主題模型
動態(tài)主題模型是一種以LDA 為理論基礎(chǔ)的主題模型,能夠接受按照時間線排列好的語料信息,輸出在時間線上的不同時期文檔在主題上的變化,從而顯示在時間線上的某個時間片中人們主要討論和關(guān)注的主題,其中主題是由關(guān)鍵詞及其權(quán)重的組合表示的,在每個時間片上的主題數(shù)均為K個。
LDA 模型是以α和β為超參數(shù)初始化的Dirichlet分布函數(shù),而在本文的動態(tài)主題模型中計算權(quán)重值ω=Vt/Vt-1,其中Vt和Vt-1 分別代表當前時間片和前一個時間片的文檔中單詞的個數(shù),當前時間片的超參數(shù)α和β等于前一個時間片的α和β乘上權(quán)重ω。而在第一個時間片中初始化這兩個超參數(shù)時,通常情況下把這兩個參數(shù)初始化為0.01 和50/K,隨后的時間片則按照一定的規(guī)律進行計算[16]。
通過分析可知,區(qū)別于傳統(tǒng)的LDA 主題模型在整個主題生成過程中保持超參數(shù)不變,動態(tài)主題模型的超參數(shù)在生成過程中不斷調(diào)整與變化,并且充分考慮了上下文及前后時間片對主題聚類的影響,因此它更適合應用于持續(xù)時間長、事件變化多的突發(fā)公共衛(wèi)生事件。
情感分析也稱意見挖掘,是指自動、高效地對文本內(nèi)容的情感傾向進行判斷,發(fā)現(xiàn)用戶對某個事件的態(tài)度和意見的過程。現(xiàn)階段有很多文本挖掘工具都支持情感分析功能,其中ROST-CM6 是目前較為成熟的文本挖掘工具,可對文本進行積極、中性和消極3 方面的情感分析。
本文在LDAVis 的基礎(chǔ)上對氣泡圖進行了優(yōu)化,使其可以綜合反映用戶討論的熱點話題與情感之間的關(guān)系。具體內(nèi)容如下:氣泡圖中氣泡的大小表示話題的熱度,氣泡越大代表該主題下的評論越多;氣泡的顏色代表主題的情感極性,其中藍色代表積極情感,橙色代表消極情感,顏色越深其情感強度越大。
以新浪微博平臺“非洲豬瘟”事件為例,對本文所提出的分析模型進行實證分析。利用Gooseeker網(wǎng)絡爬蟲工具,以“豬瘟”為關(guān)鍵詞在新浪微博平臺檢索到2018 年8 月1 日—2019 年3 月31 日的全部數(shù)據(jù)共20 182 條。由于網(wǎng)絡社交媒體的開放性,所爬取的評論中涉及一些空白、網(wǎng)頁鏈接、@其他用戶的無用信息,通過關(guān)鍵詞篩選和人工檢查的方式對數(shù)據(jù)進行清洗,得到17 422 條評論數(shù)據(jù)。
首先對評論進行時間片劃分。本文將所有評論按時間跨度中的8 個自然月均分為8 個片,并基于Python調(diào)用jieba分詞模塊對評論數(shù)據(jù)集進行分詞。為提高分詞結(jié)果,本文將哈工大停用詞表加入了停用詞詞典,將搜狗詞典的疾病預防專業(yè)詞庫填入用戶詞典。使用Gensim 模塊進行語料庫生成,生成步驟如下:首先,去除低頻詞以提高主題識別結(jié)果的代表性,本研究將閾值設為5,即刪除頻次小于5 的詞匯;其次,使用Doc2vec 將格式中的元素轉(zhuǎn)化為Bow 格式的向量;最后,通過困惑度曲線與實驗觀察調(diào)整,最終設定主題數(shù)為9,超參數(shù)α使用默認參數(shù)0.1,運行模型中的time 模式。
本文將時間片內(nèi)主題詞權(quán)重最大的主題認定為該時間片內(nèi)的主題,最終得出主題聚類結(jié)果。在事件暴發(fā)初期(2018 年8-11 月),人們關(guān)注的多是疫情的傳播、控制及發(fā)源地;同年9 月,關(guān)注焦點是通過科普有關(guān)豬瘟的知識盡可能阻止謠言的傳播。另外,從關(guān)鍵詞可以看出,豬瘟疫情也引發(fā)了對部分走私相關(guān)案件的討論;從2019 年1月份的主題關(guān)鍵詞可以看出在寧夏發(fā)生了豬瘟疫情,而從“磚家”這個關(guān)鍵詞則可以看出人們對專家發(fā)表的種種聲明的不信任和質(zhì)疑。2019 年2 月,食品檢疫部門在三全水餃中檢查出豬瘟病毒核酸呈陽性,這一事件引起了強烈關(guān)注。在這一時間片中,用戶評論呈現(xiàn)爆發(fā)性增長,用戶分別對三全等食品企業(yè),以及我國的食品檢疫有關(guān)部門產(chǎn)生了極大的質(zhì)疑與不信任;而且從部分關(guān)鍵詞能看出用戶對這一事件的震驚和恐懼。2019年3 月,因為出現(xiàn)了多起對豬瘟檢疫結(jié)果隱瞞和造假的案件,這一話題成為了互聯(lián)網(wǎng)用戶關(guān)注的主要話題。
通過對特定主題下的評論進行情感分析,可以確保用戶所表達的情感與主題相關(guān),以更好地探究用戶所表達情感的原因,進而更好地對網(wǎng)絡輿情進行合理引導。本文將一個時間片內(nèi)包含至少一個主題關(guān)鍵詞的評論視為該主題下的評論。將所有評論分到所對應的主題下并導入ROST-CM6 軟件,所得結(jié)果如圖2 所示。
圖2 情感分析結(jié)果
本文結(jié)合LDAvis 進行了可視化改進,結(jié)果如圖3 所示。
圖3 主題-情感可視化分析
通過圖2 我們可以發(fā)現(xiàn),在事件前期,用戶對事件的關(guān)注度較低并且對豬瘟事件的嚴峻性認識不足,故情緒相對平和;但是隨著之后豬瘟疫情再一次大規(guī)模暴發(fā),全國多處都出現(xiàn)了豬瘟疫情的報道,用戶逐漸感到厭煩和焦躁,從2018 年11 月開始,負面情緒逐漸高漲,2019 年2 月由于“三全”事件的報道,負面情緒達到了頂峰,消極評論占比近50%。
根據(jù)ROST-CM6 所計算出的評論情感強度,得到關(guān)于主題-情感演化分析的結(jié)果(圖3)。可以看出主題1、主題3、主題9 這3 個主題氣泡最大,熱度最高,而且主題9 的負向情感強度最強烈,與之相反,主題2 的正向情感最為強烈。通過事件發(fā)展的整個過程可以看出,總共有兩次事件發(fā)展高潮,一是疫情剛剛發(fā)生的2018 年8 月,二是“三全”事件發(fā)生的2019 年2 月,表現(xiàn)為高熱度和高情感強度的雙高潮。2018 年10-12 月為事件發(fā)展較為平緩的時期。在“三全”事件爆發(fā)的半個月之后,網(wǎng)絡用戶的情緒逐漸平息。
通過上述情感與主題的演化分析,我們發(fā)現(xiàn)此類事件中與民眾生活相關(guān)的話題是輿情討論的熱點。有關(guān)部門在處理此類事件時也應將民生問題放在首位,將此類事件解決在萌芽階段,避免產(chǎn)生“聚集性”負面情緒,暴發(fā)負面輿情。通過分析發(fā)現(xiàn),“豬瘟”這一突發(fā)事件的整個發(fā)展過程大概經(jīng)歷了如下幾個階段:最初,疫情開始逐漸蔓延傳播,人們多關(guān)注豬瘟的傳播路徑和暴發(fā)地點,情感強度較弱,呈現(xiàn)輕微的消極表現(xiàn);隨后,事件熱度慢慢降低,人們更關(guān)注一些豬瘟的謠言和暴發(fā)原因等邊緣話題;但是之后與食品安全息息相關(guān)的“三全水餃”事件突然暴發(fā),使得用戶情緒的消極程度達到整個過程的最高點;最后,事件的熱度在半個月后逐漸冷卻,人們的關(guān)注點又慢慢轉(zhuǎn)移到邊緣話題。
突發(fā)公共衛(wèi)生事件與其他突發(fā)事件不同,具有影響范圍廣泛、與日常生活更貼近、發(fā)展迅速、易對人體健康造成威脅等特點。因此,在此類事件發(fā)生后,尤其在互聯(lián)網(wǎng)和智能手機如此普及的今天,有關(guān)部門在有限時間內(nèi)迅速做出反應,完成安撫群眾、科普相關(guān)知識、控制謠言的散布等一系列行動,對最大限度地緩解群眾的恐慌、減少事件的負面影響有重要作用。
本文針對突發(fā)公共衛(wèi)生事件持續(xù)時間長、討論話題多變的特點,利用動態(tài)主題模型,充分考慮了上下時間片對主題聚類的影響,以及互聯(lián)網(wǎng)用戶所表達情感與主題的相關(guān)性,構(gòu)建了SA-DTM 模型。同時我們在LDAVis 的基礎(chǔ)上對氣泡圖進行了優(yōu)化,使其可以綜合反映用戶討論的熱點話題與情感之間的關(guān)系。此外,通過建立的綜合用戶評論主題和用戶情感的網(wǎng)絡輿情分析模型進行了實證分析,結(jié)果表明該模型可以準確地呈現(xiàn)用戶所討論的熱點話題及對該話題所表達的情感傾向。今后的研究中將重點解決DTM 模型的超參數(shù)優(yōu)化,并進一步對情感粒度進行細化,以求真實準確地還原用戶情感。