王軍,呂廣旭,盧加奇,王小英
(1.故宮博物院保衛(wèi)處,北京 100009;2.防災(zāi)科技學(xué)院,河北 三河 065201)
關(guān)鍵字:數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);聚類
微博作為輿情產(chǎn)生和爆發(fā)的主要陣地,錯(cuò)綜復(fù)雜的信息真假難以分辨,正不斷影響用戶情緒甚至于國(guó)家安全。境外勢(shì)力利用疫情熱點(diǎn)事件發(fā)動(dòng)“認(rèn)知戰(zhàn)”,引導(dǎo)輿論走向、破壞社會(huì)穩(wěn)定。信息化時(shí)代,網(wǎng)絡(luò)信息內(nèi)容同質(zhì)化加劇,虛假信息漫天飛舞、層出不窮,缺乏社會(huì)管控和自我約束。
突發(fā)事件發(fā)生后,媒體和廣大群眾都可在信息平臺(tái)第一時(shí)間發(fā)布和獲取信息,平臺(tái)成為熱點(diǎn)事件傳播的重要媒介。熱點(diǎn)事件在短時(shí)間收獲巨大流量的同時(shí),伴隨參差不齊的巨大信息流,同樣會(huì)傳播情緒,其中不乏負(fù)面情緒,持續(xù)發(fā)酵容易造成社會(huì)恐慌和混亂局面。通過大數(shù)據(jù)分析和可視化展示,挖掘重要信息并分析網(wǎng)民情緒變化情況,為政府機(jī)關(guān)部門如何引導(dǎo)輿論提供決策支持,對(duì)于維護(hù)網(wǎng)絡(luò)環(huán)境安全、加強(qiáng)輿論管理具有重大意義。
在分析網(wǎng)民情緒的過程中,許多學(xué)者對(duì)不同時(shí)期的流行案例進(jìn)行了分析和研究。2017年,周莉等人以“巴黎暴恐”事件為例,提出使用情緒評(píng)估理論模型對(duì)網(wǎng)絡(luò)情緒進(jìn)行量化分析,分析效果重點(diǎn)關(guān)注了文化差異表達(dá)出的差異。2018年,姜金貴等人對(duì)“紅黃藍(lán)虐童事件”進(jìn)行輿情分析,運(yùn)用Word2vec模型針以基于主題和情緒之間的聯(lián)系為主要抓手,對(duì)微博情緒走向和輿情演化方向進(jìn)行分析,更好對(duì)微博情緒進(jìn)行治理。2019年,丁曉蔚等人在輿情分析中加入社會(huì)心理學(xué)內(nèi)容,借助大數(shù)據(jù)利用時(shí)間序列更加客觀對(duì)熱點(diǎn)事件風(fēng)險(xiǎn)進(jìn)行評(píng)估和監(jiān)控。2020年,郭爽等人使用SIR 演化博弈模型研究網(wǎng)民情緒和政府工作之間的風(fēng)險(xiǎn)影響關(guān)系,極大幫助政府對(duì)于網(wǎng)絡(luò)輿情的管控。2022年,王月等人以酒店安全事件為角度,利用系統(tǒng)動(dòng)力學(xué)建模方法通過仿真模擬對(duì)真實(shí)事件下輿情提供指導(dǎo)意見。
在疫情背景下,不僅要共同對(duì)抗疫情,還要了解疫情下的民眾情緒變化。因此,更加有必要構(gòu)建相關(guān)的網(wǎng)民情緒分析模型,研究和了解疫情背景下社交平臺(tái)網(wǎng)民情緒變化情況,并及時(shí)有效動(dòng)態(tài)分析網(wǎng)民情緒意見并有效引導(dǎo)。本文建立疫情下特殊情感詞典,結(jié)合TextRank 算法關(guān)鍵詞提取算法,用SO-PMI 方法進(jìn)行多維情感分析,并使用聚類方法對(duì)疫情期間相關(guān)話題下的評(píng)論和信息進(jìn)行情感分類,生成動(dòng)態(tài)情感變化曲線。
本文數(shù)據(jù)集包括官方競(jìng)賽平臺(tái)(DataFountain)以及北京市政務(wù)數(shù)據(jù)資源網(wǎng)公開分享數(shù)據(jù),數(shù)據(jù)均為開源數(shù)據(jù)且進(jìn)行脫敏處理。對(duì)于其中數(shù)據(jù)進(jìn)行手動(dòng)標(biāo)注約20 萬條,采集對(duì)象包括官方媒體、熱門話題等。數(shù)據(jù)信息包含微博ID、評(píng)論時(shí)間、微博中文內(nèi)容、轉(zhuǎn)發(fā)次數(shù)、話題內(nèi)容等信息。
2.2.1 數(shù)據(jù)預(yù)處理
預(yù)處理的過程主要是通過使用Python 第三方庫(kù)進(jìn)行數(shù)據(jù)處理,對(duì)收集到的微博有關(guān)疫情數(shù)據(jù)中的冗余數(shù)據(jù)及錯(cuò)誤數(shù)據(jù)等信息進(jìn)行修復(fù)和刪除,其中微博正文有很多特殊字符和絕大多數(shù)表情是為文本內(nèi)容服務(wù)的,起到一個(gè)加強(qiáng)文本預(yù)期的作用,可以將其處理掉,來減少后序任務(wù)的復(fù)雜性。選取近6 個(gè)月的數(shù)據(jù),處理相關(guān)數(shù)據(jù)約43 萬條。
首先使用基于PageRank 算法進(jìn)一步優(yōu)化的TextRank 算法對(duì)目標(biāo)語句關(guān)鍵詞進(jìn)行提取。其主要方法是將獲得的評(píng)論內(nèi)容進(jìn)行分詞、去停用詞等預(yù)處理步驟拆分成若干詞匯,然后利用共現(xiàn)關(guān)系構(gòu)造詞匯網(wǎng)絡(luò)即如果任意兩點(diǎn)在長(zhǎng)度為的窗口中同時(shí)出現(xiàn),則認(rèn)為兩點(diǎn)間存在邊,不斷迭代至收斂,對(duì)詞權(quán)重排序可獲得關(guān)鍵詞順序。
公式(1)中(V)表示詞匯的權(quán)重,通過計(jì)算每個(gè)相鄰詞匯對(duì)目標(biāo)詞匯的影響程度來實(shí)現(xiàn)。表示為阻尼系數(shù),本文設(shè)置為0.85。
2.2.2 多維情感分析
由于情感的多樣性,需要對(duì)與疫情相關(guān)的新聞、評(píng)論進(jìn)行多維分析,對(duì)熱點(diǎn)事件涉及情感進(jìn)行詳細(xì)闡述。使用SOPMI(情感點(diǎn)互信息)方法對(duì)候選詞語情感方向進(jìn)行甄別,SO-PMI 方法源于PMI 算法,PMI 算法基本思路是計(jì)算兩個(gè)詞語在文本中同時(shí)出現(xiàn)的概率,若概率越大,其相關(guān)性越緊密,則關(guān)聯(lián)程度越高。
對(duì)于詞匯,計(jì)算其情感:
其中>0,選定詞語積極影響大于消極影響,具有正向情感,判定為積極詞;當(dāng)=0,將選定詞語認(rèn)定為中性詞;若<0,則選定詞語積極影響小于消極影響,判定為消極詞,具有一定負(fù)面情緒。
情感計(jì)算需要結(jié)合情感詞表,否定詞和程度詞三方面的內(nèi)容,本文采用Boson 情感詞典展現(xiàn)情感類型和強(qiáng)度,此外基于SO-PMI 算法,對(duì)原有詞典進(jìn)行補(bǔ)充,將發(fā)現(xiàn)新詞按強(qiáng)度值為1 拓展了原有詞典。在程度詞部分:本文根據(jù)程度大小將程度副詞分為五個(gè)等級(jí),并根據(jù)反映程度的大小設(shè)置權(quán)重,如表1所示。情感值計(jì)算需考慮情感詞之外,還需要考慮和否定詞與程度詞的組合情況來計(jì)算:
表1 程度詞權(quán)重設(shè)定
式(4)中:代表最終情感值結(jié)果;為是否定詞出現(xiàn)次數(shù);表示為情感詞對(duì)應(yīng)的情感值;是程度副詞程度值。
通過對(duì)時(shí)間跨度為6 個(gè)月的43 萬條數(shù)據(jù)進(jìn)行分析,使用聚類方法快速精準(zhǔn)判斷疫情事件熱門話題,為疫情防控和輿論引導(dǎo)提供決策方向。由于大量和疫情相關(guān)詞匯含有較為特殊的情緒,需要在原有詞匯情緒分類中生成疫情下特殊情緒詞典,結(jié)合特殊情緒詞典進(jìn)行多維情感值計(jì)算,使用聚類方法精準(zhǔn)判斷和預(yù)測(cè)疫情事件下熱點(diǎn)內(nèi)容及情緒情感劃分。若在文本句子中含有疫情下特殊詞典內(nèi)容,則在計(jì)算多維情感值基礎(chǔ)上重構(gòu)情感之,相應(yīng)方向情感值增加5%。文本中多次出現(xiàn)詞典內(nèi)容時(shí),需要進(jìn)行累加,積極情感為正向,消極情感為負(fù)向,公共安全事件下特殊情緒詞典如表2所示。
表2 公共安全事件下特殊情緒詞典
使用Agglomerative 層次聚類、K-means 算 法、DBSCAN 密度聚類等聚類方法對(duì)對(duì)情緒進(jìn)行分類,為了對(duì)比區(qū)分不同聚類數(shù)對(duì)于上述算法的影響,分別對(duì)其計(jì)算了輪廓系數(shù)(Silhouette Coefficient),CH 分?jǐn)?shù)(Calinski Harabasz Score)和戴維森堡丁指數(shù)(DBI,davies_bouldin_score)。
通過對(duì)Agglomerative 層次聚類、K-means 算法、DBSCAN 密度聚類三種方法進(jìn)行分析,實(shí)驗(yàn)結(jié)果如圖1所示。
圖1 不同聚類方法評(píng)價(jià)指數(shù)變化圖
可以從上圖看出,在層次聚類中:DBI 指數(shù)在聚類數(shù)設(shè)置為3或6時(shí)較低,CH值在2或3時(shí)較高,輪廓系數(shù)較為明顯,呈現(xiàn)先增加后減少的趨勢(shì),總之聚類數(shù)選3比較適宜。K-means聚類算法容易陷入局部最優(yōu)陷阱,有關(guān)疫情情感數(shù)據(jù)分布不均衡,對(duì)值選取影響較大。圖中分別取2,3,5 時(shí)的聚類效果中,可以看出取2 時(shí)分類效果較好。DBSCAN 算法是一種基于密度的聚類算法,它在聚類前不需要預(yù)先指定簇的個(gè)數(shù),所以最終簇的個(gè)數(shù)也不確定,它認(rèn)為樣本數(shù)據(jù)點(diǎn)的周圍的數(shù)據(jù)點(diǎn)同屬一類,即將緊密相連的樣本劃分為一類,就得到了一個(gè)簇。此類算法需要不斷的調(diào)整參數(shù)eps 以求得最好的效果,發(fā)現(xiàn)DBI 值呈明顯上升趨勢(shì),而CH 值和輪廓系數(shù)效果不明顯,所以DBSCAN 聚類算法參數(shù)eps 暫取0.01。
將上文中分析好的情感分析數(shù)據(jù)進(jìn)行匯總,統(tǒng)計(jì)了話題下的情感變化,制作情感變化曲線和匯總餅圖,如圖2所示,可以看到在本次疫情事件中網(wǎng)民情緒中“悲傷”和“恐懼”占絕大部分。
圖2 情感變化曲線展示
本文通過對(duì)微博等社交平臺(tái)數(shù)據(jù)進(jìn)行挖掘,對(duì)于微博環(huán)境下疫情事件對(duì)網(wǎng)民情緒的影響及熱點(diǎn)話題影響力進(jìn)行了分析。首先進(jìn)行微博平臺(tái)的數(shù)據(jù)挖掘,利用TextRank 算法進(jìn)行關(guān)鍵詞的提取,并使用SO-PMI 方法對(duì)候選詞語極性進(jìn)行判斷,建立微博疫情語境下特殊情緒詞典,進(jìn)行多維情感分析,最后使用多種聚類方法對(duì)情感及熱門話題進(jìn)行分類,并對(duì)疫情期間情感變化進(jìn)行分析。針對(duì)分析內(nèi)容可幫助相關(guān)部門利用社交平臺(tái)數(shù)據(jù)精準(zhǔn)判斷熱門話題,更好了解熱點(diǎn)事件下民眾情緒變化,做好輿情管理。除此之外,通過設(shè)定閾值提高發(fā)現(xiàn)虛假、暴力、誘導(dǎo)等內(nèi)容信息在民眾間的傳播程度能力,及時(shí)進(jìn)行疏導(dǎo)和管控。