楊秀璋 武帥 夏換 于小民
摘要:針對“新冠肺炎疫情”熱點新聞和話題,提出一種基于主題挖掘和情感分析的輿情分析方法。通過Python抓取2020年1月20日至3月22日期間共計1389篇人民網(wǎng)的疫情新聞,利用數(shù)據(jù)預(yù)處理、特征詞提取、詞云可視化展現(xiàn)與“新冠肺炎疫情”相關(guān)的熱點主題,再采用共詞分析、LDA模型、知識圖譜和情感分析算法挖掘輿情演化趨勢。實驗結(jié)果表明,此次肺炎疫情的情感呈現(xiàn)積極狀態(tài),熱點主題包括疫情、防控、醫(yī)院、工作、服務(wù)等。該方法能有效挖掘輿情事件的主題,具有一定的應(yīng)用前景和使用價值。
關(guān)鍵詞:主題挖掘;情感分析;新冠肺炎疫情;知識圖譜
中圖分類號:TP391 文獻標識碼:A 文章編號:1006-8228(2020)08-31-06
0 引言
2019年12月,湖北省武漢市開始出現(xiàn)多起不明原因引發(fā)的肺炎病例,后證實是由一種新型冠狀病毒(2019-novel coronavirus,2019-nCoV)感染所致,以下簡稱新冠肺炎[1-2]。2020年2月ll日,世界衛(wèi)生組織宣布將新冠肺炎命名為“COVID-19”[2]。
新冠肺炎疫情的不斷擴散,給全國社會經(jīng)濟發(fā)展帶來了巨大挑戰(zhàn),同時以網(wǎng)絡(luò)平臺為主的新聞報道及社交論壇引發(fā)了社會的廣泛關(guān)注。隨著感染人數(shù)和疑似人數(shù)不斷增加,互聯(lián)網(wǎng)中相關(guān)的熱點新聞及話題呈爆炸式增長。如何利用計算機方法和數(shù)據(jù)分析算法準確地識別熱點新聞和疫情主題,分析群眾的情感動態(tài),挖掘民眾關(guān)注的話題,已成為數(shù)據(jù)分析人員的重要研究議題[4]。本文提出一種基于主題挖掘和情感分析的“新冠肺炎疫情”輿情分析方法。 近些年,國內(nèi)外學者致力于輿情分析研究,并提出了相關(guān)分析方法。趙雪等[5]使用詞共現(xiàn)網(wǎng)絡(luò)的方法對中國鄉(xiāng)村之聲官方微博信息進行輿情分析,識別出熱點話題主要為農(nóng)業(yè)經(jīng)濟信息和農(nóng)民民生。李建新[6]通過構(gòu)建BPOAS-MSW模型,建立系統(tǒng)的言論模式。何夢嬌等[7]借助SVM模型對交通輿情主題進行分類,基于Apriori算法分析關(guān)鍵詞隱含的交通規(guī)則,再利用共現(xiàn)網(wǎng)絡(luò)分析交通問題與時間的變化規(guī)律。王心瑤等[8]通過內(nèi)容分析法對微博信息進行歸類、情感值計算以及轉(zhuǎn)發(fā)路徑分析。謝修娟等[9]提出一種基于密度的K-Means初始聚類中心算法,解決初始聚類中心選取到孤立點易導致聚類結(jié)果局部最優(yōu)的不足。武帥等[10]運用數(shù)據(jù)可視化及情感分析的方法對巴黎圣母院火災(zāi)事件的輿情信息進行分析。張翼鵬等[11]提出一種改進的細菌覓食算法,將網(wǎng)頁相關(guān)數(shù)值作為測量網(wǎng)頁熱度的度量,從而建立熱度評價模型,得到了更好的聚類效果。陳興蜀等[13]對“新冠肺炎疫情”相關(guān)的話題展開輿情分析,可視化地展現(xiàn)本次疫情事件中網(wǎng)絡(luò)輿情的時空演化過程。林永明[13]踟提出了一種輿情文本的動態(tài)主題情感模型,能夠有效刻畫公眾所關(guān)注的話題及其情感變化,且效果顯著。
針對“新型肺炎疫情”熱點新聞和輿情話題的主題及情感難以辨別的問題,本文提出了一種結(jié)合主題挖掘和情感分析的輿情分析方法。本文的實驗數(shù)據(jù)集為2020年1月20日至3月22日期間在人民網(wǎng)發(fā)布的疫情相關(guān)新聞,共計1389篇。利用數(shù)據(jù)預(yù)處理、特征提取、詞云可視化技術(shù)挖掘目標數(shù)據(jù)的熱點主題,再采用共詞分析、LDA主題模型、知識圖譜和情感分析算法對目標數(shù)據(jù)進行分析,挖掘輿情主題演化趨勢。最終得出該時間段的疫情相關(guān)新聞數(shù)據(jù)的總體情感趨向,各時間段的核心主題,以及隨時間變遷的主題演化過程和知識圖譜。
1 研究方法
1.1 算法總體流程
本文旨在分析“新冠肺炎疫情”的熱點主題和情感態(tài)勢,其算法的總體流程如圖l所示。
(1)通過Python和Selenium技術(shù)自定義爬蟲抓取人民網(wǎng)“新冠肺炎疫情”相關(guān)的新聞,包括新聞標題、新聞內(nèi)容、發(fā)布時間、新聞來源等信息。
(2)對所抓取的語料進行數(shù)據(jù)預(yù)處理,包括中文分詞、停用詞過濾、特征提取、數(shù)據(jù)清洗等,再將預(yù)處理之后文本存入數(shù)據(jù)庫中。
(3)輿情分析包括三個核心模塊,計量分析涉及時間分布分析、空間分布分析、詞頻統(tǒng)計;主題挖掘涉及LDA主題模型分析、共詞分析、知識圖譜構(gòu)建;情感分析涉及情感詞提取、貝葉斯模型和情感時間分布分析,最終得出實驗結(jié)果。
1.2 數(shù)據(jù)采集及預(yù)處理
本文采集人民網(wǎng)關(guān)于“新冠肺炎疫情”相關(guān)的新聞1389篇,時間跨度為2020年1月20日至3月22日,從武漢市封城前到全國疫情基本控制共計9周的新聞數(shù)據(jù),詳細信息如表1所示。其中,八方支援專題125篇,各地動態(tài)專題500篇,抗疫英雄專題127篇,權(quán)威解讀專題50篇,人民網(wǎng)評專題87篇,實況武漢專題200篇,一線守護專題200篇,疫情快訊專題100篇。
新聞數(shù)據(jù)采集完成之后,緊接著實施數(shù)據(jù)預(yù)處理操作。首先進行缺失值處理、重復值刪除;再通過Python調(diào)用Jieba庫進行中文分詞,并導入關(guān)鍵詞和停用詞字典完成停用詞過濾和數(shù)據(jù)清洗;最后進行情感詞提取、TF-IDF計算、共詞分析等處理。通過數(shù)據(jù)預(yù)處理,實驗?zāi)艿玫劫|(zhì)量更高、數(shù)據(jù)更完整的文本,從而為后續(xù)的實驗提供有效支撐。
1.3 主題挖掘
主題挖掘(Topic Mining)旨在從海量文本信息中識別出關(guān)鍵詞、核心主題、情感分數(shù)等,進而實施文本挖掘、輿情分析和情感計算,其是數(shù)據(jù)挖掘、輿情分析領(lǐng)域的重要知識點[14]。主題模型通過計算概率來挖掘文本主題,常見的算法包括LSA和LDA,廣泛應(yīng)用于自然語言處理、引文文獻挖掘、情感傾向分析、社交網(wǎng)絡(luò)分析等領(lǐng)域[15]。
LDA(Latent Dirichlet Allocation)'16]是一種無監(jiān)督學習的主題概率生成模型,也被稱作三層貝葉斯概率模型,其是在pLSA模型的基礎(chǔ)上增加貝葉斯架構(gòu)模塊所形成的。
1.4 情感分析
情感分析是輿情研究中極為重要的部分,旨在從文本內(nèi)容中識別、抽取、分析及推理帶有情感色彩的主觀性文本。首先通過Jieba庫進行中文分詞和數(shù)據(jù)預(yù)處理操作,調(diào)用自定義情感詞典進行特征提取,并計算每個情感詞出現(xiàn)的頻數(shù)。接著采用已分好類的正面文本pos.txt和負面文本neg.txt進行模型訓練,并利用SnowNLP庫進行情感分析,其核心算法是貝葉斯模型。最后按照時間順序加權(quán)平均每天的情感分數(shù),采用PyEcharts庫繪制情感時間分布圖。
2 實證分析
2.1 計量分析
本文從時間維度和空間維度分析新冠肺炎疫情的影響。采用Python從人民網(wǎng)“眾志成城,抗擊疫情”專題抓取了全國新冠肺炎的病例數(shù)據(jù)(如圖2),詳細展示了截止2020年3月22日全國累計確診病例、疑似病例、累計治愈病例和累計死亡病例的情況。
圖3為2020年3月22日全國各地區(qū)新冠肺炎累計確診病例的可視化地圖。由圖可知,全國疫情最嚴重的的省份為湖北,疫情較嚴重的省份包括廣東、河南、浙江、湖南等,疫情較輕的省份包括青海、新疆、寧夏、吉林等,疫情最輕的省份為西藏。
2.2 主題挖掘
(1)詞云主題演化分析
詞云旨在凸顯文本中出現(xiàn)頻率較高的關(guān)鍵詞,在視覺上直觀呈現(xiàn)。本文采用WordCloud對“新冠肺炎疫情”新聞進行詞云主題演化分析,以周為時間單位繪制圖4所示的“疫情”新聞主題演化圖。
由圖4可知,各時間段的核心主題詞均包括“疫情”,隨著時間的推移,“防控”也逐漸成為熱點話題。在前三周2020年1月20日至2月9日期間,新聞報道主要以疫情的蔓延情況為主,包括“疫情”、“感染”、“防控”、“病例”、“確診”、“新增”等主題詞,從側(cè)面說明該段時間為“疫情”的擴散期,初期還未能做到有效控制。在中間三周2020年2月10日至3月1日期間,新聞報道已由之前的“疫情”蔓延情況開始向“疫情”救治轉(zhuǎn)變,“防控”也成為重要的熱點話題,“醫(yī)院”、“醫(yī)療”、“支援”、“物資”、“武漢”、“社區(qū)”、“企業(yè)”等主題詞也清晰地呈現(xiàn),體現(xiàn)了我們國家“一方有難,八方支援”的精神,“眾志成城,共抗疫情”的決心,從側(cè)面說明這段時期主要為“疫情”控制階段。在后三周2020年3月2日至3月22日期間,新聞報道逐漸開始向“疫情”穩(wěn)定控制進行轉(zhuǎn)變,企業(yè)復工、社區(qū)服務(wù)、黨員活動等主題漸現(xiàn),涉及的主題詞包括“社區(qū)”、“工作”、“企業(yè)”、“復工”、“黨員”、“黨建”“復產(chǎn)”等,從側(cè)面推測“疫情”得到穩(wěn)定控制,人民的日常生活逐漸向正常恢復。
(2) LDA-模型i題聚類
在基于LDA模型的主題聚類實驗中,采用TFIDF技術(shù)計算特征詞的權(quán)重。該技術(shù)采用統(tǒng)計方法,根據(jù)特征詞在文本中出現(xiàn)的次數(shù)和在整個語料中出現(xiàn)的文檔頻率,來計算一個特征詞在整個語料中的重要程度。其優(yōu)點是能夠過濾掉一些常見的卻無關(guān)緊要的詞語,同時保留影響整個文本的重要特征詞。計算方法如下。
本文通過LDA模型主題挖掘?qū)嶒?,發(fā)現(xiàn)其主題數(shù)設(shè)置為3效果最佳。接著調(diào)用LDA模型訓練得到每個模型內(nèi)的主題詞及對應(yīng)權(quán)重,最終聚類生成的效果圖如圖5所示,分別對應(yīng)新型肺炎及疫情擴散、疫情防控及八方支援、企業(yè)復工及社區(qū)服務(wù)三個主題。
(3)共現(xiàn)知識圖譜分析
針對“新冠肺炎疫情”新聞主題關(guān)鍵詞的分析,本文提出一種基于共現(xiàn)矩陣和知識圖譜的分析方法,構(gòu)建各主題詞的關(guān)聯(lián)關(guān)系,從而更好地挖掘本次疫情的主題演化關(guān)系。采用Gephi構(gòu)建“新冠肺炎疫情”新聞的關(guān)鍵詞共現(xiàn)知識圖譜如圖6所示,共構(gòu)建了319個核心主題關(guān)鍵詞和1753條關(guān)系,其平均路徑長度為2.257,最低共現(xiàn)權(quán)重為9,網(wǎng)絡(luò)直徑為5。通過知識圖譜將“新冠肺炎疫情”新聞相關(guān)的主題聚焦在一起,居于中心位置的是“疫情”和“防控”,其他的主題詞逐漸向邊緣分布擴散。圖中左邊紫色區(qū)域為疫情防控相關(guān)的主題詞及關(guān)系,右邊中心綠色區(qū)域為醫(yī)院治療相關(guān)的主題詞及關(guān)系,右邊藍色區(qū)域為肺炎病例相關(guān)的主題詞及關(guān)系,右上紅色區(qū)域為湖北省各市縣相關(guān)的主題詞及關(guān)系。其中“肺炎”和“確診”、“疫情”和“黨員”、“疫情”和“武漢”、“肺炎”和“防控”、“醫(yī)院”和“患者”、“肺炎”和“冠狀病毒”、“企業(yè)”和“復工”、“防控”和“黨建”等關(guān)鍵詞共現(xiàn)明顯,其連線較粗。
2.3 情感分析
本文通過自定義情感詞典提取疫情文本的情感特征詞,表2展示了排名前15的正面情感特征詞和負面情感特征詞。其中,正面情感特征詞出現(xiàn)的頻率及TFIDF值更高,“新冠肺炎疫情”新聞的整體情緒呈現(xiàn)積極態(tài)勢。正面情感特征詞包括“落實”、“健康”、“有效”、“重要”、“穩(wěn)定”等,負面情感特征詞包括“嚴重”、“緊缺”、“重大”、“貧困”、“緊張”、“嚴峻”等。
接著采用SnowNLP庫和貝葉斯模型進行情感時間分布分析。當結(jié)果為正數(shù)時,情感表現(xiàn)為積極正面,值越高則情感積極性越高;當結(jié)果為負數(shù)時,情感表現(xiàn)為消極負面,值越低則情感消極性越高。
圖7為人民網(wǎng)“新冠肺炎疫情”新聞的情感時間分布結(jié)果,時間跨度為2020年1月20日至3月22日。該時段,新聞及群眾的態(tài)度趨于正面,共有55天情感分數(shù)呈積極狀態(tài),有8天情感分數(shù)呈消極狀態(tài)。新聞的整體情緒符合國家“一方有難,八方支援”的精神,體現(xiàn)中華民族“眾志成城,共抗疫情”的決心。
3 結(jié)束語
針對“新型肺炎疫情”熱點新聞和輿情話題的主題及情感難以辨別的問題,本文提出了一種結(jié)合主題挖掘和情感分析的輿情分析方法。首先采用Python和Selenium抓取人民網(wǎng)2020年1月20日至3月22日期間共計1389篇“新冠肺炎疫情”相關(guān)的新聞,接著利用數(shù)據(jù)預(yù)處理、特征詞提取、詞云可視化展現(xiàn)與“新冠肺炎疫情”相關(guān)的熱點主題,再采用共詞分析、LDA模型、知識圖譜和情感分析算法挖掘輿情演化趨勢。
實驗結(jié)果表明,本文提出的方法能有效地識別出疫情新聞的主題關(guān)鍵詞,挖掘疫情的主題演化規(guī)律,形成以“疫情”和“防控”為中心,其他關(guān)鍵詞擴散的共現(xiàn)知識圖譜。同時,此次疫情的情感呈現(xiàn)積極狀態(tài),九個時間段涉及疫情、防控、醫(yī)院、工作、服務(wù)等熱點主題。本文的方法能有效挖掘輿情事件的主題,歸納熱點新聞的演化規(guī)律和共現(xiàn)知識圖譜,為未來的災(zāi)害應(yīng)對、突發(fā)事件和輿情分析提供思路。
參考文獻(References):