逯海玥,芮小平,李潤奎
(1.河海大學(xué)水文水資源學(xué)院,南京 211100;2.河海大學(xué)地球科學(xué)與工程學(xué)院,南京 211100;3.中國科學(xué)院大學(xué)資源與環(huán)境學(xué)院,北京 100049)
霧霾是一種由于空氣中存在的灰塵、水分、煙霧、水蒸氣而造成空氣水平能見度小于10 km的天氣現(xiàn)象[1-2],其產(chǎn)生根源于PM2.5,是空氣中動力學(xué)當(dāng)量直徑小于等于2.5 μm的顆粒物[3]。目前,霧霾較往年雖出現(xiàn)好轉(zhuǎn),但在北方地區(qū)仍時有發(fā)生,對社會生活、經(jīng)濟發(fā)展,尤其是對人們的身心健康產(chǎn)生了極其嚴重的威脅。有研究表明,在空氣污染物濃度尤其是PM2.5濃度過高的情況下,生活在這種污染空氣中的人們,會因此而產(chǎn)生急性的健康風(fēng)險,進而誘發(fā)心血管等疾病[4-5];此外,空氣污染不僅與人類的多種疾病有關(guān),還對人類的心理也有較為明顯的影響,Ho等[6]通過研究證實,即使是短期霧霾也會造成心理壓力,使人產(chǎn)生心理障礙,Gu 等[7]利用多種計量經(jīng)濟學(xué)方法分析空氣污染對于心理健康的影響,發(fā)現(xiàn)PM2.5濃度越高,人類的緊張、抑郁、無力、煩躁四種負面情緒會更突出。
互聯(lián)網(wǎng)時代,人們越來越傾向于在社交平臺上發(fā)表看法、表達情感、探索自己感興趣的新聞。微博作為一種社交平臺,具有內(nèi)容簡短、傳播迅速、實時性強等特點,在一定程度上改變了人們獲取、交流、表達信息的方式[8]。微博公開化的特點使得其具有多源用戶,以及多主題的內(nèi)容,各年齡階層、各社會性質(zhì)的人們都可以根據(jù)自己的需要發(fā)布不同主題的內(nèi)容,比如新聞、事件評論、情感表達等,因此微博數(shù)據(jù)是開展各種輿情研究的良好數(shù)據(jù)源[9]。當(dāng)霧霾污染嚴重時,人們會在微博平臺發(fā)布、轉(zhuǎn)發(fā)、評論相關(guān)微博,這些微博內(nèi)容包含了許多圍繞霧霾污染所產(chǎn)生的觀點信息,而不同城市受霧霾的影響程度不同,人們對霧霾的態(tài)度也因此而異,以北方受霧霾污染嚴重的典型城市為例,采集、分析微博數(shù)據(jù),挖掘其中蘊含的話題信息,旨在為城市網(wǎng)絡(luò)輿論引導(dǎo)、環(huán)保政策制定等提供理論指引。
當(dāng)前,中外有大量研究利用微博數(shù)據(jù)對霧霾發(fā)生時網(wǎng)民的關(guān)注點進行探討、分析。曾子明等[10]根據(jù)微博數(shù)據(jù)和以往的研究定義了微博影響力特征變量和用戶可信度,采用LDA(latent dirichlet allocation)主題模型,對2016年微博中與霧霾有關(guān)的謠言進行精準識別,降低了用戶的信息焦慮;Yang等[11]應(yīng)用框架理論對微博進行文本分析,發(fā)現(xiàn)中國官方媒體對于霧霾的關(guān)注點集中于政府關(guān)注、輿論勸阻管理、輿論影響因素、社會霧霾相關(guān)新聞及外部霧霾相關(guān)新聞5個層面;Zhang等[12]利用微博數(shù)據(jù),分析人們對霧霾感知的季節(jié)性差異,發(fā)現(xiàn)春夏秋冬人們的關(guān)注點分別側(cè)重于霧霾成因、積極情緒、防治措施及健康影響4個方面;Wang等[13]對微博內(nèi)容進行文本分析,以哈爾濱市微博數(shù)據(jù)為例,發(fā)現(xiàn)霧霾期間用戶的關(guān)注內(nèi)容分為三大類:情感表達與觀點闡述、信息提示、個體情境感知;Lin[14]對新加坡霧霾危機期間的微博數(shù)據(jù)進行網(wǎng)絡(luò)分析,發(fā)現(xiàn)當(dāng)環(huán)境危機發(fā)生時,傳統(tǒng)媒體和新媒體在報道相關(guān)新聞、應(yīng)對重大事件、向公眾發(fā)布信息等方面采取不同的方式。
目前現(xiàn)有研究大多是對同一地區(qū)進行相關(guān)分析,很少有研究涉及不同地區(qū)霧霾輿情關(guān)注點的空間差異性研究,基于此,考慮空間差異,將不同地區(qū)納入研究范圍,利用共詞網(wǎng)絡(luò)法首次探索霧霾情形下微博網(wǎng)民的輿情響應(yīng),及不同城市對霧霾關(guān)注程度的差異性。首先,抓取以“霧霾”為主的微博數(shù)據(jù),根據(jù)TF-IDF(term frequency-inverse document frequency)算法提取出每條微博的關(guān)鍵詞匯,利用微博關(guān)鍵詞的共現(xiàn)關(guān)系構(gòu)建共現(xiàn)三元組,進而構(gòu)建共詞網(wǎng)絡(luò),然后,通過社區(qū)探測算法挖掘出話題社區(qū),以此為基礎(chǔ),對比不同城市地區(qū)輿情話題的差異及差異程度,從輿情發(fā)展的角度為城市應(yīng)對霧霾提供差異化理論指引,如針對大眾情緒異?,F(xiàn)象,政府應(yīng)作出及時、恰當(dāng)?shù)那榫w引導(dǎo),避免不良行為的發(fā)生;對于霧霾所造成的負面影響,如健康威脅、交通影響,應(yīng)采取相應(yīng)措施減輕損害,提升生活幸福感;針對其他不同的關(guān)注點,采取相應(yīng)策略,促進城市可持續(xù)發(fā)展。
目前,話題挖掘方法主要分為三大類。第一類方法是文本聚類法,以聚類假設(shè)作為理論依據(jù),依據(jù)文本詞元素之間的相似度,選取某種相似性規(guī)則進行聚類。路榮等[15]對微博文本進行聚類識別出了新聞話題;又如楊波等[16]提出了基于詞向量和增量聚類的短文本聚類算法(improved single-pass algorithm based on word embedding, ISWE),聚類準確率明顯提高;再如何諾等[17]改進了K均值聚類算法,成功克服K均值初始聚類中心比較敏感的問題。聚類方法會出現(xiàn)數(shù)據(jù)稀疏、維度爆炸的現(xiàn)象,無法保證聚類結(jié)果與主題的相關(guān)性。
第二類方法是主題模型法,主要有三種:PLSA(probabilistic latent semantic analysis)、LDA(latent dirichlet allocation)和改進的LDA模型。PLSA主題提取的過程就是高維空間到低維空間的降維過程[18],但PLSA不能直觀理解主題信息。Blei等[19]提出了LDA主題模型,解決了此難題。LDA由文檔層、主題層及主題詞語層構(gòu)成,可用來生成文檔主題[20],但傳統(tǒng)LDA模型不適用于短文本,因此許多學(xué)者考慮多種特征,提出了基于LDA的改進模型,以更好地應(yīng)用于微博短文本的分析。如吳楠[21]提出LDA-SP(latent dirichlet allocation-single pass)混合模型,基于單通道算法(single-pass,SP)進行語義相似度聚類。微博等社交媒體中的數(shù)據(jù)種類豐富、長短不一,多數(shù)微博具有共性內(nèi)容,此種情況下,主題模型適應(yīng)性較差,無法全面地提取主題信息。
第三類方法是基于社區(qū)的共詞分析法,考慮社交媒體的網(wǎng)絡(luò)化特性,利用關(guān)鍵詞節(jié)點構(gòu)建共詞網(wǎng)絡(luò),含有相同關(guān)鍵詞越多的微博社區(qū)連接越緊密,所以共詞網(wǎng)絡(luò)可以表示成“網(wǎng)絡(luò)-社區(qū)、主題-節(jié)點、邊”的形式[22],話題提取取決于對包含不同詞匯的微博社區(qū)的劃分,且微博社區(qū)間的模塊度[23]決定了微博社區(qū)劃分的精確度,即同一微博社區(qū)內(nèi)部要含有盡可能多的相同關(guān)鍵詞,而不同微博社區(qū)間要含有盡可能少的相同關(guān)鍵詞。例如,丁晟春等[24]考慮微博在傳播過程中的微博特征和用戶行為,發(fā)現(xiàn)了魏則西事件的潛在主題;方興林[25]采用共詞分析法,得到微博上中國政務(wù)研究領(lǐng)域的熱點信息;李磊等[26]改進了傳統(tǒng)的共現(xiàn)分析法,結(jié)合社會網(wǎng)絡(luò)分析識別出社交媒體輿情信息中的主要話題;王艷東等[27]利用共詞網(wǎng)絡(luò)法在網(wǎng)絡(luò)輿情文本數(shù)據(jù)中挖掘話題社區(qū),探測出災(zāi)情發(fā)展階段及態(tài)勢。這類方法可自動識別話題數(shù)目,以網(wǎng)絡(luò)社區(qū)為話題基本單位,將現(xiàn)實社會網(wǎng)絡(luò)映射到虛擬網(wǎng)絡(luò)空間中,符合微博內(nèi)容具有小社團聚集性的特點,在話題挖掘領(lǐng)域具有很大的優(yōu)勢;因此選擇共詞分析法,進行霧霾情形下,不同城市中人們對霧霾關(guān)注點的差異以及差異程度的研究。
圍繞“霧霾”一詞采集微博數(shù)據(jù),對數(shù)據(jù)進行去噪、分詞、去停用詞等預(yù)處理操作,通過TI-IDF法提取關(guān)鍵詞、進而構(gòu)建關(guān)鍵詞共現(xiàn)三元組,再利用Gephi軟件構(gòu)建共詞網(wǎng)絡(luò),最后,通過Louvain社區(qū)發(fā)現(xiàn)法來探測霧霾事件下的話題社區(qū),結(jié)合節(jié)點Pagerank屬性分析不同區(qū)域?qū)F霾事件關(guān)注點的差異及差異程度。論文方法流程圖如圖1所示。
圖1 方法流程圖
關(guān)鍵詞是文本中起關(guān)鍵作用的、反映主題思想、可以代表中心概念的內(nèi)容,通常以詞語或詞組的方式呈現(xiàn)。其不僅要體現(xiàn)文本中的主題相關(guān)性,還需要將詞語的重要性反映出來[28],因此需要運用一定的關(guān)鍵詞抽取技術(shù)篩選出對構(gòu)建共詞網(wǎng)絡(luò)貢獻度大的關(guān)鍵特征詞。在關(guān)鍵詞提取技術(shù)中,比較經(jīng)典的一種關(guān)鍵詞提取方法為TF-IDF算法[29-30],TF-IDF是一種常用于信息檢索和文本挖掘領(lǐng)域的加權(quán)方法,主要思想是:若一個詞語在一篇文檔中出現(xiàn)的頻率高,同時在其他文檔中出現(xiàn)較少,則該詞語具有良好的區(qū)分類別的能力,可用于文本分類、提取核心詞(即關(guān)鍵詞)、計算文檔間的相似程度、檢索排序等[31],其所代表的權(quán)重表示某一文檔中一個詞語相對其他詞語而言的重要程度[32],TF-IDF算法中TF(term frequency)指詞頻,IDF(inverse document frequency)指逆向文檔頻率,TF-IDF實際上指TF×IDF,意味著一個詞語的重要程度與該詞語在文本中出現(xiàn)的次數(shù)成正比,與該詞語在整個文本集合中出現(xiàn)的頻率成反比,這種計算詞語重要程度的方式可以有效減少常用詞對關(guān)鍵詞產(chǎn)生的影響,提高了關(guān)鍵詞與其所在文章間的相關(guān)程度。TF值體現(xiàn)了詞語對某文本的重要性,IDF體現(xiàn)了詞語對文本集合的重要性,若詞語在文本中TF值高(在該文本中出現(xiàn)次數(shù)多),IDF值高(在其他文本中出現(xiàn)次數(shù)少),則說明該詞語能夠代表其所在文本的中心內(nèi)容。TF-IDF值具體計算公式為
(1)
共詞網(wǎng)絡(luò)的構(gòu)建取決于關(guān)鍵詞共現(xiàn)矩陣的形成,根據(jù)關(guān)鍵詞共現(xiàn)的頻率建立共現(xiàn)矩陣,是后續(xù)統(tǒng)計分析的基礎(chǔ)[33];共詞網(wǎng)絡(luò)是用以描述關(guān)鍵詞及共現(xiàn)關(guān)系的數(shù)學(xué)圖模型G=(V,E),其中V是一個非空集合,為關(guān)鍵詞構(gòu)成的節(jié)點(node),E也是一個非空集合,為關(guān)鍵詞間的共現(xiàn)關(guān)系組建的邊(edge),eij(G)為圖G中的節(jié)點Vi和節(jié)點Vj之間的共現(xiàn)邊,ωij為權(quán)重,是關(guān)鍵詞節(jié)點Vi和節(jié)點Vj之間的共現(xiàn)次數(shù)[34-35]。共詞網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 共詞網(wǎng)絡(luò)結(jié)構(gòu)示意圖
共詞分析最重要的一步即將構(gòu)建出來的共詞網(wǎng)絡(luò)可視化,直觀呈現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu),常用的共詞網(wǎng)絡(luò)分析工具有Gephi、NetDraw、Pajek、Ucinet等,選取Gephi將關(guān)鍵詞共詞網(wǎng)絡(luò)可視化。
共詞網(wǎng)絡(luò)的結(jié)構(gòu)通常不是雜亂無序,而會呈現(xiàn)一定的規(guī)律,一般來說,網(wǎng)絡(luò)中部分節(jié)點會聚集在一起成為小團體,團體連接越緊密,包含相同的關(guān)鍵詞越多,蘊含的話題會越相似[22]。這種小團體結(jié)構(gòu)也叫社區(qū),是常見于社會網(wǎng)絡(luò)中的一種介于宏觀與微觀之間的網(wǎng)絡(luò)結(jié)構(gòu)特征,在真實網(wǎng)絡(luò)中,同一個社區(qū)內(nèi)的節(jié)點往往具有相似功能或性質(zhì),比如引文網(wǎng)絡(luò)是具有論文引用關(guān)系的一些論文集,這些論文集傾向于研究相似的學(xué)科主題[36]。通過研究社區(qū)的結(jié)構(gòu),可以對網(wǎng)絡(luò)的結(jié)構(gòu)與功能間的關(guān)系具有更深刻的理解,因此對共詞網(wǎng)絡(luò)中話題的發(fā)現(xiàn)與描述就可以轉(zhuǎn)化為對話題社區(qū)的發(fā)現(xiàn),社區(qū)包含的詞語就代表了話題的內(nèi)容。目前,常見社區(qū)發(fā)現(xiàn)算法有譜二分法、Kernighan-Lin算法、層次聚類算法等[37],但這些算法僅適用于小規(guī)模網(wǎng)絡(luò),而不適用于節(jié)點較多的大型網(wǎng)絡(luò),Louvain算法[23]對大規(guī)模網(wǎng)絡(luò)具有適用性,因此本文研究使用此算法來進行共詞網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)。Louvain算法具有很好的社區(qū)劃分效果及效率,是社區(qū)發(fā)現(xiàn)算法中性能最好的算法之一[38],其基于模塊度[39]進行最優(yōu)化、啟發(fā)式計算,具有計算結(jié)果解釋性強、支持大規(guī)模網(wǎng)絡(luò)的特點,模塊度定義為
(2)
式(2)中:m為圖中邊的總數(shù);ki為所有指向節(jié)點i的連邊權(quán)重之和,kj為所有指向節(jié)點j的連邊權(quán)重之和;Ai,j為節(jié)點i,j之間的連邊權(quán)重;Ci和Cj分別表示節(jié)點i、j所屬社區(qū),當(dāng)i和j同屬一個社區(qū),δ=1,否則,不同屬一個社區(qū),δ=0。通過對模塊度不斷進行優(yōu)化,可以劃分出具有不同話題內(nèi)容的社區(qū),且各社區(qū)內(nèi)部具有盡可能多的相同關(guān)鍵詞,社區(qū)與社區(qū)之間具有盡可能少的相同關(guān)鍵詞[16],可以清晰區(qū)別出不同話題社區(qū)。
主要采用兩種數(shù)據(jù):空氣質(zhì)量數(shù)據(jù)和微博數(shù)據(jù)。城市空氣質(zhì)量數(shù)據(jù)來源于世界空氣質(zhì)量指數(shù)網(wǎng)站(https://aqicn.org/map/china/cn/),收集范圍包含中國受霧霾污染最嚴重的華北地區(qū)典型城市,包括北京市、天津市、石家莊市、太原市、呼和浩特市,以及霧霾相對嚴重的東北地區(qū)城市沈陽市、華東地區(qū)城市濟南市,數(shù)據(jù)收集時間為冬季,包括12月、1月、2月,此季節(jié)相對于其他季節(jié),霧霾最嚴重,相關(guān)微博數(shù)據(jù)較豐富,更具代表性及研究價值,數(shù)據(jù)內(nèi)容包括城市、日期、PM2.5、PM10、一氧化碳、二氧化氮和二氧化硫含量,由于PM2.5是霧霾污染產(chǎn)生的主要原因,現(xiàn)采用PM2.5含量來說明霧霾污染的程度;微博數(shù)據(jù)通過后裔采集器抓取,以“霧霾”“空氣”等為搜索關(guān)鍵詞,抓取7個城市2017年冬季的相關(guān)微博數(shù)據(jù),每條微博的抓取內(nèi)容包括用戶ID、微博博文、時間范圍、點贊數(shù)及評論數(shù)等,最終共搜集到34 373條相關(guān)微博數(shù)據(jù),其中,北京市數(shù)據(jù)11 790條、濟南市數(shù)據(jù)6 140條、沈陽市數(shù)據(jù)2 388條、石家莊市數(shù)據(jù)6 860條、太原市數(shù)據(jù)2 459條、天津市數(shù)據(jù)4 736條、呼和浩特市數(shù)據(jù)730條。
上述通過采集器獲取的微博原始內(nèi)容屬于非結(jié)構(gòu)化的數(shù)據(jù),存在許多噪聲,如重復(fù)數(shù)據(jù)、商業(yè)廣告、特殊符號等,計算機無法直接進行處理,為了提高話題挖掘的準確性和效率,需要進行數(shù)據(jù)清洗、文本分詞以及過濾停用詞的預(yù)處理操作。本文利用Python語言編程剔除表情符號、標簽、網(wǎng)頁鏈接等內(nèi)容以實現(xiàn)數(shù)據(jù)清洗,調(diào)用Python中的jieba庫對清洗過的數(shù)據(jù)分詞,然后,加載哈工大停用詞表過濾“我、的、了”等停用詞,最終將原始微博數(shù)據(jù)轉(zhuǎn)為由若干詞語組成的結(jié)構(gòu)化數(shù)據(jù),以便后續(xù)分析,數(shù)據(jù)預(yù)處理結(jié)果如表1所示。
表1 微博文本預(yù)處理示例
對于預(yù)處理后的微博文本,利用Python實現(xiàn)jieba庫中的TF-IDF算法,計算每個詞語的TF-IDF值也即該詞語的重要性值,經(jīng)排序得到排名靠前的若干詞語,即可得到每條微博的關(guān)鍵特征詞,本文設(shè)定提取每條微博TF-IDF權(quán)重最大的前70個關(guān)鍵詞,詞性范圍包括n(名詞)、nr(人名)、ns(地名)、f(方位詞)、a(形容詞)、v(動詞)、z(狀態(tài)詞),以便構(gòu)建出內(nèi)容清晰、規(guī)模適中的共詞網(wǎng)絡(luò);同樣,利用Python編程統(tǒng)計關(guān)鍵詞節(jié)點之間的關(guān)系頻數(shù)構(gòu)建共現(xiàn)矩陣,借助字典數(shù)據(jù)結(jié)構(gòu)將共現(xiàn)矩陣轉(zhuǎn)換為共現(xiàn)三元組,便于存儲,共現(xiàn)三元組示例如表2所示。
表2 關(guān)鍵詞共現(xiàn)三元組示例
Gephi軟件基于Java虛擬機,跨平臺、開源,可用于分析各種復(fù)雜網(wǎng)絡(luò)[40]。首先,將共現(xiàn)三元組導(dǎo)入Gephi軟件中,統(tǒng)計得到網(wǎng)絡(luò)的節(jié)點個數(shù)與邊條數(shù),計算節(jié)點重要性——Pagerank大小,并根據(jù)節(jié)點Pagerank值、邊與節(jié)點間的權(quán)重設(shè)置節(jié)點與邊的外觀;其次,為使網(wǎng)絡(luò)清晰可觀,根據(jù)邊拓撲中的度范圍系數(shù)對邊進行過濾,降低網(wǎng)絡(luò)復(fù)雜度,同時保留重要節(jié)點;最后,調(diào)整網(wǎng)絡(luò)布局,采用軟件內(nèi)置的力引導(dǎo)布局算法,將節(jié)點模擬為原子,利用原子間的引力和斥力做迭代運動,調(diào)整每個節(jié)點的位置,使網(wǎng)絡(luò)具有最平衡的結(jié)構(gòu),本文選擇社區(qū)探測效果最明顯的Fruchterman Reingold算法,分別得到7個城市包含子話題社區(qū)的共詞網(wǎng)絡(luò),如圖3所示。
圖3 包含子話題社區(qū)的共詞網(wǎng)絡(luò)
3.4.1 宏觀層面
運行Gephi軟件的統(tǒng)計分析模塊,得到各城市微博宏觀層面的網(wǎng)絡(luò)概況,如表3所示。各網(wǎng)絡(luò)參數(shù)定義如下。
表3 城市微博共詞網(wǎng)絡(luò)概況
平均度:表示圖中每個節(jié)點所連接邊的平均數(shù),衡量網(wǎng)絡(luò)節(jié)點的活躍度,值越小代表節(jié)點間連接越少。
圖密度:表示網(wǎng)絡(luò)節(jié)點間連接的疏密程度,值越大代表節(jié)點連接密集。
模塊化指數(shù):表示網(wǎng)絡(luò)的模塊化程度,值越大代表模塊化程度越高。
平均聚類系數(shù):表示節(jié)點抱團或聚類的總體跡象,值越大代表節(jié)點關(guān)聯(lián)越緊密;和平均路徑長度一起,反映網(wǎng)絡(luò)的小世界特性。
平均路徑長度:表示任意兩個節(jié)點之間距離的平均值,反映網(wǎng)絡(luò)中節(jié)點間的分離程度,值越小代表節(jié)點關(guān)聯(lián)越緊密。
綜合考慮各網(wǎng)絡(luò)參數(shù),對7個城市共詞網(wǎng)絡(luò)參數(shù)值進行比較,觀察得節(jié)點數(shù)與邊條數(shù)同向變化,將兩者合并為網(wǎng)絡(luò)規(guī)模,得如表4度量排序情況。
表4 城市共詞網(wǎng)絡(luò)度量排序表(降序)
分析表3及表4可知,7個城市的微博共詞網(wǎng)絡(luò)規(guī)模各異,但觀察發(fā)現(xiàn),規(guī)模大的網(wǎng)絡(luò)中,模塊化程度不一定高,節(jié)點間的聯(lián)系不一定緊密,因此,僅依靠網(wǎng)絡(luò)的宏觀概況難以看出網(wǎng)絡(luò)中各社區(qū)的細微差異,因此需結(jié)合社區(qū)內(nèi)部節(jié)點的屬性來深入分析不同城市共詞網(wǎng)絡(luò)在話題社區(qū)方面的差異。
3.4.2 微觀層面
共詞網(wǎng)絡(luò)圖中,節(jié)點顏色決定話題社區(qū)內(nèi)容,節(jié)點大小決定話題社區(qū)大小,結(jié)合圖3中不同顏色的節(jié)點內(nèi)容及Gephi中節(jié)點屬性可以得到表5所示的話題社區(qū)情況,進而定量分析在霧霾事件下,7個城市人民輿情關(guān)注點的差異。
表5 北京市共詞網(wǎng)絡(luò)話題社區(qū)示例
由于篇幅限制,沒有展示剩余話題社區(qū)詳情,利用同樣的分析方法可得到表6所示的話題社區(qū)簡表。
分析表6可知,霧霾發(fā)生時,按照對話題的關(guān)注程度,北京市關(guān)注話題依次為探討原因、霧霾治理、樂觀態(tài)度、直觀感受、旅行娛樂,濟南市關(guān)注話題依次為直觀感受、旅行娛樂、交通影響、風(fēng)景名勝、應(yīng)對措施,沈陽市關(guān)注話題依次為直觀感受、呼吁倡導(dǎo)、航班取消、樂觀態(tài)度、放假休息,石家莊市關(guān)注話題依次為直觀感受、負面情緒、霧霾治理、健康威脅、交通影響,太原市關(guān)注話題依次為直觀感受、霧霾治理、樂觀態(tài)度、交通管制、航班取消,天津市關(guān)注話題依次為直觀感受、專家解釋、健康威脅、呼吁倡導(dǎo)、日常生活,呼和浩特市關(guān)注話題依次為官方發(fā)聲、霧霾治理、政府整治、直觀感受。
表6 各市共詞網(wǎng)絡(luò)話題社區(qū)一覽表
同時,各市關(guān)注點有交叉部分,在對霧霾直觀感受方面,每個城市人民在霧霾發(fā)生時都會對此描述所見所想,但程度有深有淺,由深及淺依次為石家莊市、濟南市、沈陽市、太原市、天津市、北京市、呼和浩特市;在對霧霾治理的討論方面,有4個城市對其有所關(guān)注,按關(guān)注程度依次為北京市、太原市、呼和浩特市、石家莊市;呼吁倡導(dǎo)方面,按討論程度,沈陽市優(yōu)于天津市;旅行娛樂方面,北京市和濟南市關(guān)注程度相當(dāng);樂觀態(tài)度方面,按程度依次為北京市、太原市、沈陽市;在霧霾對交通影響的討論方面,按程度為濟南市、石家莊市;對于航班取消的關(guān)注,按程度為濟南市、太原市;在霧霾對健康造成威脅的關(guān)注上,依次為天津市、石家莊市。
除共同關(guān)注話題外,每個城市有其獨有的關(guān)注點,北京市人民側(cè)重于對造成霧霾的原因進行探討,濟南市人民會具體討論應(yīng)對霧霾的措施,沈陽市人民在霧霾天氣下較關(guān)注放假休息,石家莊市人民對霧霾的耐受性可能不如其他幾個城市,太原市人民對于交通管制給予更多的關(guān)注,天津市人民較關(guān)注專家對霧霾現(xiàn)象的解釋說明,而呼和浩特市較重視官方媒體所作出的回應(yīng)以及政府對霧霾污染進行整治,在7個城市中,呼和浩特市空氣質(zhì)量最好,在一定程度上得益于對霧霾的及時關(guān)注與積極應(yīng)對。
利用基于社區(qū)的共詞網(wǎng)絡(luò)法探究霧霾污染時,不同城市的人們在微博中關(guān)注點的差異性,以華北地區(qū)、華東地區(qū)、東北地區(qū)7個典型城市為研究地區(qū),得出如下結(jié)論。
(1)雖然每個城市對霧霾的關(guān)注點有細微差異,但發(fā)生霧霾污染時,各城市人民都會對其有及時感知,并會討論霧霾所帶來的各方面影響。
(2)出于對健康生活的需要,各城市人民對霧霾治理都有不同程度的關(guān)注,如霧霾治理、呼吁倡導(dǎo)、應(yīng)對措施等關(guān)注內(nèi)容。
(3)同時,多數(shù)城市對霧霾事件的態(tài)度以樂觀為主,少數(shù)城市會出現(xiàn)情緒異常,如石家莊市共詞網(wǎng)絡(luò)中的難受、無奈、抑郁等關(guān)鍵詞。
研究結(jié)果對城市健康發(fā)展可起到一定的理論指導(dǎo)作用,如針對大眾情緒異常,采取措施實現(xiàn)提前心理干預(yù),降低不良行為的發(fā)生概率;針對霧霾污染對身體健康造成的負面影響,增設(shè)相關(guān)醫(yī)療部門,調(diào)配醫(yī)療資源以滿足健康需求;針對霧霾天氣導(dǎo)致的道路交通安全問題,相關(guān)部門可加強安全提示、增加路面巡邏管控來減少交通事故的發(fā)生,為居民出行營造良好的交通安全環(huán)境;管理人員可根據(jù)不同霧霾輿情關(guān)注點,制定差異化應(yīng)對策略,實現(xiàn)對癥管理,提高管理效率。
利用關(guān)鍵詞間的共現(xiàn)關(guān)系構(gòu)建共詞網(wǎng)絡(luò),以Louvain社區(qū)探測算法發(fā)現(xiàn)話題社區(qū),以此為基礎(chǔ)單元研究關(guān)注點的差異性。其中,關(guān)鍵詞提取基于TF-IDF算法,會過濾掉某些重要詞語,影響話題社區(qū)探測的準確性;其次,本文話題挖掘基于靜態(tài)時間段,隨著時間發(fā)展,人們的關(guān)注點會發(fā)生變化,本文未在此方面做詳細研究,因此,改進關(guān)鍵詞提取算法以及霧霾輿情動態(tài)話題演化將是下一步研究的重點。