周義棋,田向亮,鐘茂華
(1.清華大學(xué) 工程物理系,北京 100084;2.清華大學(xué) 公共安全研究院,北京 100084)
北京時(shí)間2019年4月16日凌晨,法國(guó)巴黎標(biāo)志性建筑巴黎圣母院突發(fā)大火。大火造成巴黎圣母院塔尖倒塌,建筑毀損嚴(yán)重。社交媒體的流行,迅速讓世界各個(gè)角落的人們目睹了這場(chǎng)災(zāi)難。得知消息后,人們很快通過微信、論壇、微博等社交媒體發(fā)送大量與巴黎圣母院大火事件相關(guān)的信息、照片和視頻。
隨著網(wǎng)絡(luò)技術(shù)的推廣,網(wǎng)絡(luò)輿情分析越來越多地被應(yīng)用于各類突發(fā)事件。網(wǎng)絡(luò)輿情分析有助于掌握民眾情感動(dòng)態(tài),為政府及官方媒體引導(dǎo)輿論走向提供參考。在自然災(zāi)害研究方面,劉雯等[1]將情感分析和時(shí)序分析引入到災(zāi)害網(wǎng)絡(luò)輿情分析中,總結(jié)了網(wǎng)民情感波動(dòng)的因素,預(yù)測(cè)了不同情感的輿情走勢(shì);崔滿豐[2]通過我國(guó)網(wǎng)民對(duì)尼泊爾地震的關(guān)注度、觀點(diǎn)和態(tài)度,分析了中國(guó)網(wǎng)民對(duì)尼泊爾地震的情感發(fā)展變化和輿論走向。在事故災(zāi)難研究方面,張展[3]通過對(duì)網(wǎng)絡(luò)輿論的持續(xù)監(jiān)測(cè),對(duì)“7·23”動(dòng)車事故發(fā)生后各媒體發(fā)布信息的時(shí)間和數(shù)量變化進(jìn)行了探析;MA等[4]從輿論傳播來源和傳播規(guī)律兩方面研究了網(wǎng)絡(luò)輿論在大型火災(zāi)災(zāi)害中的作用。在公共衛(wèi)生事件研究方面,王心瑤等[5]采用百度指數(shù)和新浪微輿情系統(tǒng)對(duì)比分析了2013年和2017年H7N9事件網(wǎng)絡(luò)輿情的演變情況;盧文剛等[6]收集人民網(wǎng)輿情監(jiān)測(cè)系統(tǒng)公布的數(shù)據(jù),從發(fā)展趨勢(shì)、媒介分布、輿情走勢(shì)、地域分布、輿情話題分析了山東省非法疫苗事件。
目前,網(wǎng)絡(luò)輿情分析的主要手段是通過網(wǎng)絡(luò)爬蟲等數(shù)據(jù)挖掘方法,從微博、微信、論壇等媒體平臺(tái)獲取輿論信息,采用量化分析、情感特征提取、關(guān)鍵詞聚類等方法對(duì)輿情信息進(jìn)行處理。李世豪等[7]通過Python爬蟲在微博上爬取中美貿(mào)易相關(guān)的輿情數(shù)據(jù),運(yùn)用量化研究方法對(duì)傳播內(nèi)容和用戶進(jìn)行了分析,研究表明民間輿論逐漸趨于理性與成熟;卞增惠等[8]使用新浪輿情通系統(tǒng)對(duì)南京市流感相關(guān)輿情進(jìn)行監(jiān)測(cè),采用描述流行病學(xué)方法對(duì)資料進(jìn)行分析,有效回應(yīng)了公眾意愿和訴求,引導(dǎo)了輿情平穩(wěn)發(fā)展;HAN等[9]以新浪微博為載體,研究了2018壽光水災(zāi)相關(guān)輿情信息的時(shí)空分布及其內(nèi)容,并探討了壽光水災(zāi)期間的公眾情緒;金占勇等[10]運(yùn)用全面數(shù)據(jù)分析法,以微博數(shù)據(jù)為主要樣本,對(duì)鹽城龍卷風(fēng)事件的網(wǎng)絡(luò)輿情傳播進(jìn)行了實(shí)證研究;孫帥等[11]以“北京發(fā)布”在“7·21”北京特大暴雨期間發(fā)布的相關(guān)微博為數(shù)據(jù)樣本,探討了政務(wù)微博如何引導(dǎo)突發(fā)事件網(wǎng)絡(luò)輿情走勢(shì)。此外,一些外國(guó)學(xué)者以Twitter、Facebook等為輿論載體,分析網(wǎng)絡(luò)輿情以掌握公眾的情緒。如CODY等[12]采集Twitter上含“氣候”一詞的推文,通過情感分析探討了公眾情緒隨氣候和自然災(zāi)害的變化情況;KARAMI等[13]提出了基于Twitter的輿情分析框架,用于了解災(zāi)害發(fā)生時(shí)的公眾情緒,可為決策提供參考;DOAN等[14]和SHIBUYA等[15]分別搜集了Twitter和Facebook信息,分析了2011年日本地震和海嘯后公眾的情緒。
筆者以新浪微博為輿論載體,基于網(wǎng)絡(luò)爬蟲采集巴黎圣母院大火事件的輿情數(shù)據(jù),運(yùn)用量化分析和詞頻分析等方法,探討我國(guó)民眾對(duì)巴黎圣母院大火事件的輿論關(guān)注程度以及輿情信息的地域分布與情感走向。
微博是基于用戶關(guān)系的社交媒體平臺(tái),用戶可以通過PC、手機(jī)等多種移動(dòng)終端接入,以文字、圖片等多媒體形式,實(shí)現(xiàn)信息共享。新浪微博現(xiàn)已成為我國(guó)最受關(guān)注的社交媒體之一,根據(jù)新浪微博數(shù)據(jù)中心發(fā)布的《2018微博用戶發(fā)展報(bào)告》顯示,微博月活躍用戶達(dá)4.62億。熱點(diǎn)事件發(fā)生時(shí),微博發(fā)文數(shù)有著增長(zhǎng)快、數(shù)據(jù)量大的特點(diǎn)。爬取新浪微博的數(shù)據(jù)進(jìn)行分析,其結(jié)果具有一定的代表性。此外,微博提供了高級(jí)搜索功能,可以根據(jù)需要按照指定關(guān)鍵詞,在指定時(shí)間范圍內(nèi)對(duì)指定地區(qū)(指用戶資料中填寫的所在地)的微博用戶發(fā)送的博文進(jìn)行檢索,這為采集輿情信息提供了方便。
輿情信息采集的工具為“八爪魚”?!鞍俗︳~”是一款網(wǎng)絡(luò)爬蟲軟件,可以識(shí)別各種網(wǎng)頁元素,實(shí)現(xiàn)打開網(wǎng)頁、翻頁、頁面滾動(dòng)、采集元素文本等功能。簡(jiǎn)而言之,“八爪魚”可以模擬人的操作進(jìn)行網(wǎng)頁的瀏覽和批量保存指定的文本數(shù)據(jù),做到了眼見即可采,可以滿足一定時(shí)間范圍內(nèi)微博發(fā)文數(shù)據(jù)的采集。
筆者所采用的數(shù)據(jù)來源于關(guān)鍵詞“巴黎圣母院大火”微博高級(jí)搜索,采集輿情信息的時(shí)間范圍為2019年4月16日0時(shí)到2019年4月17日24時(shí),采集的信息內(nèi)容為用戶昵稱、發(fā)文內(nèi)容、發(fā)文時(shí)間等。最終獲取的數(shù)據(jù)為我國(guó)34個(gè)省級(jí)行政地區(qū)(包括臺(tái)灣、香港、澳門)以及海外/其他地區(qū)在每個(gè)小時(shí)內(nèi)的微博發(fā)文數(shù)量及其發(fā)文內(nèi)容。
筆者使用的分析方法主要為對(duì)發(fā)文數(shù)量進(jìn)行量化分析、對(duì)發(fā)文內(nèi)容進(jìn)行詞頻分析。對(duì)發(fā)文數(shù)量進(jìn)行量化分析的目的是獲取各個(gè)地區(qū)每小時(shí)內(nèi)微博上關(guān)于巴黎圣母院大火的所有發(fā)文數(shù)量,以便繪制出發(fā)文數(shù)量隨著時(shí)間變化的曲線及輿情信息的地域分布。但是在微博上,若某地區(qū)一個(gè)小時(shí)內(nèi)發(fā)文數(shù)量超過50頁內(nèi)容,超出的部分內(nèi)容將被隱藏而導(dǎo)致無法采集,這就需要對(duì)被隱藏的信息數(shù)量進(jìn)行一個(gè)估計(jì)。
為了方便描述,首先做以下定義:
(1)一小時(shí)內(nèi)微博信息總量Si等于各個(gè)地區(qū)該小時(shí)內(nèi)的信息總數(shù)量之和,如式(1)所示;某地區(qū)微博信息總量Sj等于該地區(qū)各個(gè)小時(shí)內(nèi)的信息總數(shù)量之和,如式(2)所示。
(1)
(2)
式中:i表示4月16日0時(shí)至4月17日24時(shí)這48小時(shí)內(nèi)的任意一個(gè)小時(shí);j表示我國(guó)34個(gè)省級(jí)行政地區(qū)(包括臺(tái)灣、香港和澳門)和海外/其他地區(qū)。
(2)一小時(shí)內(nèi)某地的有效采集時(shí)間tij,eff為該小時(shí)內(nèi)采集到的信息所處的時(shí)間區(qū)間長(zhǎng)度。一般情況下,tij,eff=60 min,若該地區(qū)一小時(shí)內(nèi)發(fā)文數(shù)量超過50頁內(nèi)容,則tij,eff可能小于60 min。
(3)一小時(shí)內(nèi)某地的有效采集數(shù)量Sij,eff是指在有效采集時(shí)間tij,eff內(nèi)采集到的信息數(shù)量。
(4)一小時(shí)內(nèi)某地的信息數(shù)量增長(zhǎng)速率為vij,如式(3)所示。筆者假設(shè)在一個(gè)小時(shí)內(nèi)vij保持不變。
(3)
(5)一個(gè)小時(shí)內(nèi)某地的總發(fā)文數(shù)量Sij:
Sij=60vij
(4)
以4月16日7時(shí)到8時(shí)北京的數(shù)據(jù)為例,在這一個(gè)小時(shí)內(nèi),北京用戶的發(fā)文數(shù)量超過50頁。在7:33—8:00期間,北京用戶發(fā)文數(shù)量達(dá)50頁,7:00—7:32之間的信息無法獲取。由于7時(shí)33分的信息也可能采集不全,取7:34-8:00為有效采集范圍,即t7-8,eff=26 min。在這26 min內(nèi),有效采集數(shù)量S7-8,eff=961,則對(duì)應(yīng)的信息數(shù)量增長(zhǎng)速率為:
(5)
那么,北京用戶在7時(shí)—8時(shí)的總發(fā)文數(shù)量估計(jì)為:
S7-8=36.96×60≈2 218
(6)
以此類推,可以計(jì)算出全國(guó)34個(gè)省級(jí)行政地區(qū)和海外/其他地區(qū)每小時(shí)內(nèi)微博發(fā)文數(shù)量,從而通過求和計(jì)算出每小時(shí)的總發(fā)文數(shù)量以及每個(gè)地區(qū)的總發(fā)文數(shù)量。
對(duì)發(fā)文內(nèi)容進(jìn)行詞頻分析的目的是在輿論內(nèi)容中提取出現(xiàn)頻率相對(duì)較大的詞匯,從而獲取輿論的關(guān)注點(diǎn)與感情傾向。利用Python的jieba庫對(duì)發(fā)文內(nèi)容進(jìn)行分詞,統(tǒng)計(jì)每個(gè)詞匯的出現(xiàn)頻次,并根據(jù)出現(xiàn)頻次從大到小對(duì)詞匯進(jìn)行排列。
根據(jù)采集所得數(shù)據(jù),經(jīng)過數(shù)量統(tǒng)計(jì)發(fā)現(xiàn),4月16日當(dāng)天,新浪微博關(guān)于巴黎圣母院大火總發(fā)文數(shù)量約為167 232條。4月17日,即大火發(fā)生后的第二天,微博發(fā)文總數(shù)量約為22 712條??梢妰H過一天,輿論熱度便大幅度降低。兩天內(nèi),微博平臺(tái)關(guān)于巴黎圣母院大火的發(fā)文數(shù)量隨著時(shí)間的變化關(guān)系如圖1所示。
圖1 微博輿情信息時(shí)間分布
巴黎圣母院大火發(fā)生于4月16日凌晨0點(diǎn)50分左右,微博上有關(guān)大火的首條博文是由海外博主“@Eventyra”在01:19時(shí)發(fā)送的博文:“惹巴黎圣母院著大火了…里面墻上那些畫啊”。而首條由官方認(rèn)證賬號(hào)發(fā)送的博文,是由“@俄羅斯衛(wèi)星通訊社”于01時(shí)25分發(fā)送的博文:“據(jù)法新社周一報(bào)道,在巴黎的主要景點(diǎn)之一——巴黎圣母院發(fā)生火災(zāi)”。由此可知,民眾網(wǎng)絡(luò)輿論信息的傳播可能早于官方信息。在大火發(fā)生后的一小時(shí)之內(nèi),便有1 849條有關(guān)大火的博文。而且此時(shí)處于凌晨,正是大多數(shù)人睡覺的時(shí)候,就已經(jīng)得到了不少的關(guān)注。這也預(yù)示著這將成為一件熱度極高的事件。
4月16日早上的7時(shí)至10時(shí),正值人們開始工作、學(xué)習(xí)的時(shí)間,人們看到消息后紛紛轉(zhuǎn)發(fā),這時(shí)達(dá)到發(fā)文和轉(zhuǎn)發(fā)的高峰期,每小時(shí)發(fā)文數(shù)迅速增長(zhǎng)。7時(shí)—12時(shí),每小時(shí)發(fā)文數(shù)便超過1萬條,其中8時(shí)和9時(shí)達(dá)到峰值,每小時(shí)發(fā)文數(shù)超過兩萬條,具體數(shù)值如表1所示。10時(shí)之后,每小時(shí)發(fā)文數(shù)便迅速下降。7時(shí)—15時(shí)期間,每小時(shí)發(fā)文數(shù)量超過5 000條,巴黎圣母院大火事件在這8小時(shí)里保持了最高的熱度。對(duì)比兩天數(shù)據(jù)可知,17日的輿情信息數(shù)據(jù)量遠(yuǎn)遠(yuǎn)不及16日,體現(xiàn)了網(wǎng)絡(luò)輿情傳播的即時(shí)性、高速爆發(fā)的特點(diǎn)。
表1 4月16日和4月17日有關(guān)大火的輿情信息統(tǒng)計(jì)表
將輿情信息按照地區(qū)進(jìn)行數(shù)量統(tǒng)計(jì),統(tǒng)計(jì)了我國(guó)34個(gè)省級(jí)行政地區(qū)(包括臺(tái)灣、香港、澳門)以及海外/其他地區(qū)的微博輿情信息數(shù)量情況,統(tǒng)計(jì)的范圍為4月16日與17日兩天的所有數(shù)據(jù),具體統(tǒng)計(jì)結(jié)果如表2所示。通過分析表2中數(shù)據(jù)可知,兩天內(nèi)發(fā)文數(shù)量最多的地區(qū)是北京,然后依次是廣東、江蘇、山東、浙江、上海等地,發(fā)文數(shù)量最少的地區(qū)是西藏。值得注意的是,大火發(fā)生后的兩天內(nèi),有3 069條來自海外微博用戶的發(fā)文,而這些海外用戶大多是華人華僑,可見中國(guó)人不管身處何處,都時(shí)刻關(guān)心世界上的大事,為巴黎圣母院突發(fā)大火感到震驚與惋惜。
表2 微博輿情信息地域分布統(tǒng)計(jì)表
注:“其他”表示該微博用戶沒有明確填寫用戶所在地
輿情信息地域分布情況如圖2所示,可以看出發(fā)文數(shù)量較多的為首都北京以及東部沿海、東南部沿海地區(qū),我國(guó)中部地區(qū)也有著不少的發(fā)文數(shù)量。綜合表2和圖2數(shù)據(jù)可以得出,微博關(guān)于巴黎圣母院大火事件的輿情信息最多的地區(qū)為北京和廣東,其余主要分布在我國(guó)東部、中部和東南部地區(qū),而我國(guó)西南部、西北部地區(qū)關(guān)于巴黎圣母院大火事件的輿情信息數(shù)量則比較少。
對(duì)微博用戶的發(fā)文內(nèi)容進(jìn)行詞頻分析,獲取出現(xiàn)頻率相對(duì)較大的一些詞語,出現(xiàn)頻次排前10的詞語如圖3所示。
圖3 詞頻分析柱狀圖
其中“巴黎圣母院”、“大火”、“法國(guó)”、“塔尖”等詞跟事件直接相關(guān),其高出現(xiàn)頻次亦在意料之中。此外,詞語“圓明園”的出現(xiàn)頻次相當(dāng)高,表明有不少人由巴黎圣母院大火想到一百多年前的火燒圓明園。兩個(gè)事件都是文物受到了毀損,文明受到了創(chuàng)傷,但兩把火燒出的是不一樣的痛。不少人將兩件事情放到一起進(jìn)行討論,這便是詞語“圓明園”出現(xiàn)頻率很高的原因。此外,在這10個(gè)詞當(dāng)中,讓人感到比較陌生的是“卡西莫多”,但它也是這次事件中的熱詞之一,原因來自于人們的嘆息“卡西莫多失去了心愛的姑娘,終究也失去了他心愛的鐘樓”。
在出現(xiàn)頻率較高的詞語當(dāng)中,前10位都是對(duì)事件的客觀描述,這些詞語不具有感情色彩。若列出更多的詞頻分析結(jié)果,從中篩選出具有感情色彩的詞語,便能從一定程度上把握民眾的感情傾向。出現(xiàn)頻率較高而且具有感情色彩的詞語如表3所示。
表3 具有感情色彩的詞語及其出現(xiàn)頻次
由此可知,人們對(duì)巴黎圣母院大火事件的感情傾向主要分為2類:
(1)心痛與惋惜。“惋惜”、“可惜”、“心痛”、“遺憾”等詞語的高頻率出現(xiàn),說明輿論對(duì)該事件的主流感情是心痛與惋惜。大多數(shù)人都對(duì)歷史文明受到損失感到悲痛。
(2)祈愿。通過表3中數(shù)據(jù)可以得知,“希望”一詞高頻率出現(xiàn)。根據(jù)“希望”這個(gè)詞語檢索微博用戶的發(fā)文內(nèi)容可發(fā)現(xiàn),大多數(shù)人“希望大火造成的損失小一點(diǎn)”,“希望人類文明不要再受到摧殘”。官方微博賬號(hào)“@圓明園遺址公園”更是發(fā)聲:“衷心祈愿文物都能夠遠(yuǎn)離災(zāi)難,代代傳承?!?/p>
除了表3中展示的詞語外,還有一些出現(xiàn)頻率較小的其他詞,比如“幸災(zāi)樂禍”出現(xiàn)的頻次為3 469?!靶覟?zāi)樂禍”這一詞語主要出現(xiàn)在人們對(duì)于該現(xiàn)象的批評(píng)與譴責(zé)的評(píng)論中,真正表達(dá)出幸災(zāi)樂禍態(tài)度的博文中不會(huì)包含該詞語。該現(xiàn)象表明仍然存在一些人在巴黎圣母院大火面前“拍手叫好”。甚至有人發(fā)文:“一百多年前你燒我園子,今天有人替我燒你院子”。同樣都是人類文明的瑰寶,同樣都是人類文明的損失,在巴黎圣母院大火面前,卻只是冷笑一聲,這樣的行為值得我們思考。
官方微博賬號(hào)“@圓明園遺址公園”對(duì)巴黎圣母院大火事件發(fā)聲的時(shí)間是4月16日17時(shí),通過對(duì)比官微發(fā)聲前后民眾的情感變化,可以分析官微在引導(dǎo)輿論走向上起到的作用。對(duì)官微發(fā)聲前后的微博內(nèi)容進(jìn)行詞頻分析,以便了解民眾的情感變化,結(jié)果如圖4所示(柱狀圖表示詞語的出現(xiàn)次數(shù),折線圖表示出現(xiàn)次數(shù)與對(duì)應(yīng)時(shí)間段內(nèi)發(fā)文總數(shù)量的比值)。
圖4 官微發(fā)聲前后民眾的情感變化
由圖4可知,在官微發(fā)聲之后,“可惜”和“心痛”兩詞的出現(xiàn)頻率相對(duì)而言略有減小,但程度不大,“惋惜”和“遺憾”兩詞的出現(xiàn)頻率幾乎不變。變化較為明顯的是“希望”和“幸災(zāi)樂禍”,相比于官微發(fā)聲之前,出現(xiàn)頻率幾乎增長(zhǎng)了一倍。
“希望”一詞出現(xiàn)頻率的增加,表明多數(shù)的人贊成官方微博“@圓明園遺址公園”的觀點(diǎn),祈愿文物都能遠(yuǎn)離災(zāi)難。而“幸災(zāi)樂禍”一詞出現(xiàn)頻率的增加,反映了批評(píng)幸災(zāi)樂禍行為的人增多。由此可知,官微“@圓明園遺址公園”發(fā)聲之后,民眾輿論中出現(xiàn)了更多的正向言論。以上分析說明官方微博能夠引導(dǎo)輿論的走向,在熱點(diǎn)事件當(dāng)中,各官方微博應(yīng)積極引導(dǎo)網(wǎng)絡(luò)輿情朝著正能量的方向發(fā)展。
(1)民眾對(duì)巴黎圣母院大火事件頗為關(guān)注,僅一天之內(nèi),微博發(fā)文數(shù)量便超過16萬條。4月16日8時(shí)—10時(shí)之間是巴黎圣母院大火事件熱度最高的時(shí)期,7時(shí)—15時(shí)之間的發(fā)文數(shù)量均超過5 000條/h,該事件以極高的熱度維持了大約8 h,體現(xiàn)了輿情信息在短時(shí)間內(nèi)的爆發(fā)性。
(2)微博關(guān)于巴黎圣母院大火的輿情信息主要分布在我國(guó)東部、中部、東南部地區(qū),其中北京、廣東用戶最多。此外,海外華人華僑也對(duì)巴黎圣母院大火事件有所關(guān)注。
(3)輿論的主流傾向是對(duì)人類文明的瑰寶遭到損失表示心痛與惋惜,衷心祈愿文物都能遠(yuǎn)離災(zāi)難。巴黎圣母院大火事件為我國(guó)文化遺產(chǎn)敲響了警鐘,我國(guó)必須始終保持高度警惕,增強(qiáng)憂患意識(shí),加大對(duì)文化遺產(chǎn)的保護(hù)力度。
(4)官方微博賬號(hào)能夠引導(dǎo)輿論的走向。在熱點(diǎn)事件當(dāng)中,官方微博的積極引導(dǎo),有助于民眾輿論朝著正能量的方向發(fā)展。