邱澤國 賀百艷
(哈爾濱商業(yè)大學,黑龍江哈爾濱 150028)
隨著近幾年互聯(lián)網(wǎng)和信息技術(shù)的飛速發(fā)展,微博微信等社交平臺已經(jīng)成為人們獲取新聞信息的重要來源。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,截至2020年3月,我國網(wǎng)民規(guī)模為9.04億,較2019年底新增網(wǎng)民7508萬,互聯(lián)網(wǎng)普及率達64.5%,手機網(wǎng)民規(guī)模為8.97億,網(wǎng)民使用手機上網(wǎng)的比例達99.3%[1],越來越多的人通過網(wǎng)絡(luò)獲取新聞等熱點事件。如新浪微博、微信等已經(jīng)成為人們社交生活中不可或缺的一部分。在社交平臺上,用戶可以通過點贊、評論、轉(zhuǎn)發(fā)等形式參與到發(fā)生的熱點事件中,不受約束的與眾多用戶互動溝通。由于社交平臺具有開放性、便捷性和匿名性等特點,導致新聞信息在社交網(wǎng)絡(luò)中的傳播廣度、傳播深度和傳播速度都有著驚人的潛力,輿論會在短時間內(nèi)發(fā)酵達到最后形成網(wǎng)絡(luò)輿情,引起社會大眾的廣泛關(guān)注。因此,十分有必要動態(tài)跟蹤網(wǎng)民對輿情事件話題討論內(nèi)容以及情感的變化,了解網(wǎng)民對于輿情事件的主觀看法和情感傾向性,對于整體把握輿情事件的發(fā)展方向,引導和控制輿情有重要的意義。
關(guān)于微博話題發(fā)現(xiàn),學者們的研究主通過計算機領(lǐng)域,改進經(jīng)典聚類算法來提高主題發(fā)現(xiàn)的有效性。Chen等人設(shè)計開發(fā)了一個增量聚類框架來檢測識別新的主題,并利用文本的內(nèi)容和時間特征來及時發(fā)現(xiàn)熱門主題[2];Stilo等人基于時間序列的相似性,提出了一種在微博中用于詞聚類的新方法[3];Hu等人從用戶評論中挖掘用戶的觀點看法[4];李亞星等人改進了Single-Pass算法,提出一種基于實時共現(xiàn)網(wǎng)絡(luò)的微博話題發(fā)現(xiàn)模型[5];宋莉娜等人提出了SOM聚類方法用于微博的話題發(fā)現(xiàn),研究表明該方法可以有效改善傳統(tǒng)文本聚類不準確的缺點,從而有效的發(fā)現(xiàn)微博話題[6]。
情感分析,又被稱為觀點挖掘,是一種分析、處理、歸納和推理具有情感色彩的主觀文本的過程[7]。情感分析主要包括機器學習和基于情感詞典兩種方法。分析研究用戶發(fā)布的觀點看法在很多領(lǐng)域有著非常重要的作用,對于用戶情感的挖掘研究具有廣泛的應(yīng)用價值,目前對此國內(nèi)外已有諸多學者開展了研究。在國外,對于網(wǎng)民情感態(tài)度的研究主要集中于Twitter、Facebook等社交平臺上,Bollen等人對發(fā)布在Twitter平臺上的推文進行情感分析,并以日為單位計算時間軸上的情緒向量,進而對網(wǎng)民的情感態(tài)度進行分析與預(yù)測[8]。由于基于中文環(huán)境的微博與基于英文環(huán)境的Twitter在語言表達習慣上存在著很大的差異,因此用于微博文本的情感分析工具與Twitter平臺上的情感分析相比有很大不同。劉智等人從集成學習的角度出發(fā),設(shè)計了一種基于樣本空間動態(tài)劃分的機制,在此機制上構(gòu)建了微博文本情感分類器,通過實驗實現(xiàn)了大規(guī)模評論集的情感分析以及用戶觀點挖掘[9]。史偉等人提出了一種基于KBANN的情感分析方法來解決沒有情感關(guān)鍵詞存在的文本,通過構(gòu)建隱性知識來推測文本的情感狀態(tài)[10]。
眾多研究學者為微博話題發(fā)現(xiàn)和輿情文本情感分析注入了新的研究方法和思想理念。而基于多源數(shù)據(jù)挖掘與融合來研究輿情文本情感與輿情演化規(guī)律的研究很少。故本文從多源數(shù)據(jù)角度出發(fā),利用文本情感分析技術(shù),對不同數(shù)據(jù)源中的網(wǎng)絡(luò)輿情情感狀況進行分析,實現(xiàn)對網(wǎng)民情感的挖掘,為網(wǎng)絡(luò)輿情的引導和控制提供有益借鑒。
在中文語言環(huán)境中,輿情案例的數(shù)據(jù)源一般都來自新浪微博。它是一個為大眾提供信息交流共享和娛樂休閑的平臺。據(jù)央視財經(jīng)統(tǒng)計,截止 2020年第三季度,微博的月活躍用戶數(shù)達5.11億。因此,以新浪微博為數(shù)據(jù)源進行的研究具有一定的代表性。
在明確研究對象和數(shù)據(jù)來源后,要對輿情案例的相關(guān)數(shù)據(jù)進行采集。根據(jù)新浪微博平臺的數(shù)據(jù)開放程度和網(wǎng)頁結(jié)構(gòu)特點,采用Python軟件通過網(wǎng)絡(luò)爬蟲的方式獲取文本數(shù)據(jù),并且有針對性的編寫Python腳本抓取微博文本數(shù)據(jù)。
利用新浪微博的高級搜索功能,選定時間范圍為2019年3月1日到2019年8月30日,以“經(jīng)貿(mào)磋商”為搜索關(guān)鍵詞,編寫Python爬蟲程序進行數(shù)據(jù)采集,采集的主要字段包括:用戶名、發(fā)布內(nèi)容、發(fā)布時間。共采集到17436條微博文本數(shù)據(jù)。
由于微博平臺具有大眾化,不受任何的時空限制,靈活度較高的特點,用戶在發(fā)表博文的過程中,不會受到文字格式的約束,因此文本內(nèi)容中往往包含大量噪聲數(shù)據(jù),如網(wǎng)址HTML標簽、話題標簽、無用的表情符號等。這些噪聲數(shù)據(jù)對文本的分詞和詞頻統(tǒng)計都會造成影響,所以在數(shù)據(jù)預(yù)處理階段要對這些無意義的信息進行清洗。
使用正則表達式對文本內(nèi)容數(shù)據(jù)進行清洗,刪除重復的文本數(shù)據(jù),刪除@、數(shù)字、無用網(wǎng)址、表情等無關(guān)內(nèi)容,提取文本內(nèi)容,再將清洗后的數(shù)據(jù)進行分詞處理,利用python中的JIEBA分詞工具包,對文本內(nèi)容逐條進行分詞,去除停用詞、標點符號等無意義的詞。對處理好的數(shù)據(jù)進行高頻詞統(tǒng)計并繪制詞云圖,其結(jié)果如表1和圖1所示。
表1 微博文本詞頻Top10
由高頻詞可以看出,網(wǎng)民支持國家做出的決定,紛紛為國家加油打氣,表示中國絕不會被此事件嚇倒,此事件的發(fā)生會讓國家變得越來越強大,不畏懼對方提出的挑戰(zhàn),表現(xiàn)出了網(wǎng)民的愛國主義情懷。
情感詞典包含基礎(chǔ)詞典和基于特定事件情境下的情感詞典。利用大連理工大學開發(fā)的情感詞典作為基礎(chǔ)詞典,但在針對某一特定事件的研究,只利用基礎(chǔ)詞典中的情感詞往往不夠準確,因此在研究特定事件中網(wǎng)民的情感態(tài)度時,需要加入有關(guān)于該事件情境下的高頻詞匯。因此,通過人工篩選,對比大連理工大學情感詞典本體庫對情感詞的打分情況,構(gòu)建經(jīng)貿(mào)磋商事件情境下的特定情感詞典。最終統(tǒng)計得到情感詞包括“中國”、“中美”、“經(jīng)貿(mào)磋商”等在大部分文本中都出現(xiàn)的詞語,權(quán)重較高,因此需要去除這些詞語。利用大連理工大學情感詞典本體庫進行對比,如詞庫中某個詞為積極情感詞,而計算后為消極情感詞,則對其分數(shù)進行校正。若校正之后大于0,則歸入積極情感詞典中,若校正后仍然小于 0,則繼續(xù)留在消極情感詞典中。將校正后的分數(shù)作為該詞的最終情感分數(shù)。表2中序號1~10為排名前十的積極情感詞,序號11~20為排名前十的消極情感詞。
表2 積極情感詞Top10(1~10)與消極情感詞Top10(11~20)
基于中文文本情感詞典,計算17436條微博文本數(shù)據(jù)的情感得分。情感得分取值范圍為[-1,1],若情感得分大于0則判定該文本情感為積極傾向,情感得分小于0則判定該文本情感為消極傾向,情感得分等于0則判定該文本情感為中性。根據(jù)計算結(jié)果,最終得到13526條積極情感微博,占比為77.6%;消極情感微博3298條,占比為18.9%,中性情感微博612條,占比為3.5%,圖2為微博情感極性分布結(jié)果。
圖2 微博情感極性分布結(jié)果
圖3為微博積極情感強度時序圖,可以從圖中看出2019年5月~2019年8月期間網(wǎng)民對經(jīng)貿(mào)磋商結(jié)果的情感強度高于2019年2月~2019年5月期間的情感強度。且網(wǎng)民的積極情感強度在2019年5月15日達到峰值,當天積極情感博文為2669條。次高峰發(fā)生于2019年5月23日,博文數(shù)量為2352條。
圖3 微博積極情感強度時序圖
圖4為微博消極情感強度時序圖,整體的變化趨勢與積極情感強度時序圖呈現(xiàn)的效果一致,同樣在2019年5月15日消極情感強度到達低谷,當天發(fā)文數(shù)量為1130條。次谷值同上也發(fā)生在2019年5月23日,發(fā)文數(shù)量為1091條。但消極情感強度的分值低于積極情感強度分值,大約為積極情感強度分值的一半,經(jīng)分析得到在經(jīng)貿(mào)磋商期間,微博上網(wǎng)民表現(xiàn)出的積極情感占多數(shù),并且積極情感強度要遠大于消極情感強度。
圖4 微博消極情感強度時序圖
通過上述分析可以發(fā)現(xiàn)在微博平臺上網(wǎng)民的積極情感占多數(shù)。由整個事件可以看出,隨著事件的發(fā)展在主要時間節(jié)點上網(wǎng)民的情感狀態(tài)會產(chǎn)生波動,由于兩國之間存在著文化差異,導致雙方的觀點立場不同,造成情感傾向的主要原因也會不盡相同。
通過對情感分析之后的文本進行主題聚類分析,挖掘每種情感下的子主題。通過構(gòu)建 LDA主題模型,將有關(guān)“經(jīng)貿(mào)磋商”的文本進行聚類和主題提取。LDA主題模型是通過給出每個主題下的高頻詞來確定當前的主題內(nèi)容,利用每個主題的主題詞還原網(wǎng)民討論的熱點話題。由于LDA主題模型沒有明確的主題個數(shù),因此要經(jīng)過不斷調(diào)試與對比分析才能得出最優(yōu)的主題數(shù)量。經(jīng)過調(diào)試最終確定積情感為5個討論主題。表3為LDA主題模型提取的各個主題關(guān)鍵詞。
表3 微博各主題關(guān)鍵詞
從微博積極情感主題1可以看出,國民表示支持華為、華為加油等,為民族企業(yè)加油打氣。主題2反映了鼓勵大眾進行創(chuàng)新,不畏懼挑戰(zhàn)。主題3反映了中國不斷優(yōu)化對外貿(mào)易環(huán)境,營造了良好的對外貿(mào)易氛圍,塑造了大國形象。主題4反映了中國可以克服自身不足,擺脫對其他國家的技術(shù)依賴,在世界經(jīng)濟體系中更加自信自強。主題5反映了中國的產(chǎn)業(yè)結(jié)構(gòu)因此會做出調(diào)整,使得企業(yè)可以快速發(fā)展。
對爬取到的數(shù)據(jù)分析發(fā)現(xiàn),原創(chuàng)微博的占比為39.7%,轉(zhuǎn)發(fā)占比為60.3%。其中39.7%的網(wǎng)民利用微博平臺,發(fā)表原創(chuàng)信息表達對此事件的看法和意見。對網(wǎng)民的情感分析可以發(fā)現(xiàn),大部分網(wǎng)民能夠理性看待該事件發(fā)生的前因后果,60.3%的網(wǎng)民通過轉(zhuǎn)發(fā)官方微博的方式表達自己對該事件的態(tài)度,將該事件話題傳播的范圍擴大,并引導其他網(wǎng)民支持自己國家所做的決定,進一步提高了該事件的積極影響力和傳播效果。
通過對網(wǎng)民的情感分析可以得到,網(wǎng)民對于事件的情感變化會受到主流媒體報道、周圍用戶和新聞內(nèi)容的影響,因此相關(guān)部門和政府應(yīng)該充分利用主流媒體,把控好網(wǎng)民情感變化的節(jié)點,有針對地對網(wǎng)絡(luò)輿情進行引導管控。輿情信息爆發(fā)快、蔓延廣、消散期后輿情信息不斷,相關(guān)管理部門要加強對突發(fā)事件網(wǎng)絡(luò)輿情的信息管理。在事件輿情突發(fā)期,把握輿論信息導向,引導網(wǎng)民參與正向的、積極的輿論討論中;在蔓延期應(yīng)發(fā)揮意見領(lǐng)袖作用,主流媒體應(yīng)及時發(fā)布信息資訊,避免輿情傳播的過程中謠言的產(chǎn)生;在消散期應(yīng)重視各大網(wǎng)站的信息推送,保證推送信息的準確性,避免出現(xiàn)衍生輿情。