◆孫丹丹 鄭瑞坤
(湖北工業(yè)大學(xué) 湖北 432200)
近年來(lái),網(wǎng)絡(luò)輿情的影響力不斷擴(kuò)大,特別是一些重大突發(fā)事件發(fā)生后,網(wǎng)絡(luò)輿情快速發(fā)酵,能夠形成強(qiáng)大的社會(huì)力量。因而,網(wǎng)絡(luò)輿情的有效引導(dǎo)與否,既事關(guān)現(xiàn)場(chǎng)應(yīng)急處置的成功,也關(guān)系到社會(huì)穩(wěn)定與和諧[1]。
對(duì)于網(wǎng)絡(luò)輿情的情感分析,早期研究多是通過(guò)情感詞典匹配的方法或是基于傳統(tǒng)機(jī)器學(xué)習(xí)算法[2]。情感詞典法有較強(qiáng)的通用性,實(shí)現(xiàn)簡(jiǎn)單,但情感詞典有較高的要求,需要專(zhuān)家花費(fèi)較大工作量構(gòu)建具有針對(duì)性的高質(zhì)量詞典。Tan[3]等通過(guò)情感詞典方法,構(gòu)建新聞文章的情感分析器,對(duì)新聞的標(biāo)題和內(nèi)容賦予不同權(quán)重來(lái)分析蘊(yùn)含的情感,進(jìn)而探究其對(duì)分析結(jié)果的影響效應(yīng)。而傳統(tǒng)機(jī)器學(xué)習(xí)算法需要人工構(gòu)造十分復(fù)雜的特征,利用樸素貝葉斯、支持向量機(jī)等分類(lèi)器實(shí)現(xiàn)有監(jiān)督學(xué)習(xí),再分析文本中蘊(yùn)含的情感[4]。Pang等[5]運(yùn)用了三種常見(jiàn)的機(jī)器學(xué)習(xí)算法來(lái)分析文本的情感傾向,對(duì)比研究結(jié)果發(fā)現(xiàn)支持向量機(jī)(SVM)的準(zhǔn)確率以及查全率均高于另外兩種算法。
目前,深度學(xué)習(xí)應(yīng)用更加廣泛,文本情感分析研究領(lǐng)域逐漸采用深度學(xué)習(xí)分析方法。深度學(xué)習(xí)通過(guò)模擬人腦神經(jīng)系統(tǒng)來(lái)構(gòu)造網(wǎng)絡(luò)模型對(duì)文本進(jìn)行學(xué)習(xí),從原始數(shù)據(jù)中自動(dòng)提取特征,無(wú)需手工設(shè)計(jì)特征,面對(duì)海量數(shù)據(jù)的處理,在建模、遷移、優(yōu)化等方面比機(jī)器學(xué)習(xí)的優(yōu)勢(shì)更為明顯。Kim[6]最早提出將CNN用于文本情感分析,在預(yù)訓(xùn)練的詞向量上使用不同大小卷積核的CNN提取特征,對(duì)句子級(jí)的分類(lèi)較機(jī)器學(xué)習(xí)有顯著優(yōu)勢(shì)。Mikolov等[7]在文本情感分析中使用RNN。相比CNN,RNN更擅于捕獲長(zhǎng)距離依賴(lài)。RNN每個(gè)節(jié)點(diǎn)都能利用到之前節(jié)點(diǎn)的信息,因此更適用于序列信息建模。然而隨著輸入不斷增多,RNN對(duì)早期輸入的感知能力下降,產(chǎn)生梯度彌散和爆炸。針對(duì)上述問(wèn)題進(jìn)一步研究,提出了RNN的變體長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[8]和循環(huán)門(mén)控單元(GRU)[9]等。田竹[10]將CNN與雙向GRU結(jié)合,在篇章級(jí)的文本中分析情感傾向,提高了模型的魯棒性。傳統(tǒng)深度學(xué)習(xí)模型賦予全部特征同等權(quán)重訓(xùn)練,不能區(qū)分不同特征對(duì)分類(lèi)的貢獻(xiàn)度,Attention機(jī)制通過(guò)聚焦重要特征從而很好地解決了這一問(wèn)題。Luong等[11]提出全局和局部?jī)煞NAttention機(jī)制,在英語(yǔ)到德語(yǔ)的翻譯上取得了很好的效果。Yang等[12]提出層次化Attention用于情感分析任務(wù),進(jìn)一步證明了Attention機(jī)制的有效性。以上CNN與RNN以及Attention機(jī)制相結(jié)合的混合模型雖然取得了很好的效果,但大多使用Word2Vector或GloVe[13]等靜態(tài)詞向量方法,一詞多義不能較好處理。
從上述文獻(xiàn)可以看出,目前對(duì)于網(wǎng)絡(luò)輿情情感分析模型一般使用靜態(tài)詞向量方法,如Word2Vector、GloVe等,但存在的一詞多義問(wèn)題無(wú)法較好地處理;此外,使用單一詞語(yǔ)層Attention機(jī)制對(duì)文本層次結(jié)構(gòu)的重要性未能充分考慮,不能充分利用句間關(guān)系。針對(duì)這些問(wèn)題,本文以“新冠疫情”為例,運(yùn)用BERT-DPCNN深度神經(jīng)網(wǎng)絡(luò)模型開(kāi)展網(wǎng)絡(luò)輿情情感分析,為如何更好實(shí)現(xiàn)網(wǎng)絡(luò)輿情監(jiān)督提供一定參考建議。
BERT是Google的Devlin[14]提出的預(yù)訓(xùn)練語(yǔ)言模型,把Transformer編碼器當(dāng)作基礎(chǔ)模塊來(lái)重疊,將文本中各個(gè)詞的原始詞向量作為輸入,將蘊(yùn)含了文本語(yǔ)義后的全部詞向量作為輸出。利用注意力機(jī)制以及注意力加權(quán)操作后,序列中的任何一個(gè)字,都包含了這個(gè)字前后的信息,即這句話(huà)中所有成分的信息,當(dāng)前這個(gè)字可以用其他所有字表達(dá)出來(lái)。
為了訓(xùn)練BERT模型,做了Masked LM和Next Sentence Prediction兩項(xiàng)任務(wù)。通過(guò)聯(lián)合訓(xùn)練這兩項(xiàng)任務(wù),得到的詞向量表示更加完整,進(jìn)而對(duì)輸入文本語(yǔ)義信息的刻畫(huà)也更加準(zhǔn)確。在BERT模型的具體應(yīng)用中,我們無(wú)需變動(dòng)BERT的核心架構(gòu),只需增加一個(gè)新的層即可。
BERT模型相對(duì)來(lái)說(shuō)更加有效,一方面在于上述兩項(xiàng)預(yù)訓(xùn)練任務(wù),另一方面在于多層雙向Transformer[15],其主要是通過(guò)自注意力編碼增長(zhǎng)序列和多頭注意力發(fā)現(xiàn)各個(gè)層級(jí)之間的相互關(guān)系。
DPCNN模型[16]利用加深網(wǎng)絡(luò)來(lái)提高準(zhǔn)確率,并且計(jì)算成本增長(zhǎng)幅度不大。DPCNN能夠?qū)㈦x散的文本結(jié)構(gòu)連續(xù)化,使其結(jié)構(gòu)轉(zhuǎn)換為下采樣層和卷積層的交替,從而使各層神經(jīng)網(wǎng)絡(luò)的計(jì)算量和數(shù)據(jù)量降低。DPCNN為了豐富詞嵌入的語(yǔ)義表示,使用雙層等長(zhǎng)卷積,在每次卷積以后,都會(huì)進(jìn)行最大池化,把序列長(zhǎng)度對(duì)半壓縮,則模型可以感知翻倍的文本長(zhǎng)度。隨著網(wǎng)絡(luò)的加深,模型能夠挖掘出文本中全局的語(yǔ)義信息和長(zhǎng)距離的關(guān)聯(lián)。因此對(duì)比淺層卷積神經(jīng)網(wǎng)絡(luò),DPCNN準(zhǔn)確率更高。
DPCNN在實(shí)際應(yīng)用中,模型詞向量多是region embedding,但其實(shí)際上是n-gram,無(wú)法充分分析出語(yǔ)義信息。此外模型將詞全部壓縮至低維語(yǔ)義空間,導(dǎo)致含義相近的詞也許會(huì)有同一詞向量。但是在模型調(diào)參時(shí),能夠解決這一問(wèn)題。相較于DPCNN自身的詞向量,BERT生成的詞向量效率更高,并且使用Transformer,可以挖掘出基于上下文且具有研究?jī)r(jià)值的信息以及更長(zhǎng)距離的依賴(lài),因此本文將BERT和DPCNN結(jié)合起來(lái)。
BERT-DPCNN模型先通過(guò)BERT將輸入語(yǔ)料里所有詞轉(zhuǎn)換為詞向量,接著連接各個(gè)詞向量,生成向量矩陣陣X,如式(1)所示:
⊕是詞向量連接計(jì)算,xi是第i個(gè)詞的詞向量。xi:i+j是xi,xi+1,…,xi+j共有j+1個(gè)詞向量。卷積過(guò)程采用的是等長(zhǎng)卷積來(lái)生成特征,卷積核W的大小為h,對(duì)于詞向量產(chǎn)生的特征C可用如下公式表示:
其中,b為偏差,f代表的是非線(xiàn)性變換函數(shù)。在進(jìn)行卷積操作后得到的特征為C=[C1C2…CN-M+J],最后再進(jìn)行最大池化。
“新冠”疫情在全球多數(shù)國(guó)家爆發(fā),人們的健康受到威脅,全球經(jīng)濟(jì)也遭受巨大損失。疫情暴發(fā)之后,出于疫情防控需要很多人居家隔離,于是激發(fā)更多的人選擇在微博、微信等網(wǎng)絡(luò)平臺(tái)表達(dá)自己的情感和觀(guān)點(diǎn)。由“新冠”疫情引發(fā)的網(wǎng)絡(luò)輿情作為非常態(tài)社會(huì)形態(tài)下輿情危機(jī)的典型事件,影響范圍廣且持續(xù)時(shí)間久,將其作為本文輿情分析對(duì)象意義重大。
模型應(yīng)用數(shù)據(jù)來(lái)自微博,其作為世界最大的中文社交網(wǎng)絡(luò)平臺(tái),是網(wǎng)絡(luò)輿情的重要傳播平臺(tái)。本文將“新冠疫情”、“抗疫”等當(dāng)作關(guān)鍵詞,通過(guò)Python爬取這一突發(fā)事件下的輿情文本信息。對(duì)爬取到的輿情文本進(jìn)行預(yù)處理后得到的數(shù)據(jù)有90335條,包含微博的發(fā)帖時(shí)間、發(fā)布內(nèi)容、轉(zhuǎn)發(fā)點(diǎn)贊數(shù)等。
對(duì)于模型結(jié)果的評(píng)價(jià),通常采用下面四個(gè)指標(biāo)。
對(duì)于二分類(lèi)問(wèn)題,ROC曲線(xiàn)也是重要的模型評(píng)價(jià)方法,ROC曲線(xiàn)下的面積AUC代表了預(yù)測(cè)的正例在負(fù)例前面的概率,是用來(lái)分析不同算法模型好壞的重要指標(biāo)。
此外,不僅要評(píng)估某個(gè)類(lèi)別的分類(lèi)情況,還要對(duì)全部類(lèi)別的情況進(jìn)行評(píng)估?;舅枷胧菍?duì)各類(lèi)別做平均,通常會(huì)用到以下方法:宏平均(Macro-Average)和微平均(Micro-Average)。
本文BERT-DPCNN模型應(yīng)用采用Windows 10系統(tǒng),深度學(xué)習(xí)模型是在Pytorch1.1框架下搭建的,編程語(yǔ)言為Python3.8,計(jì)算機(jī)顯存為10G,GPU型號(hào)為RTX3080。
BERT-DPCNN模型的輸入采用BERT預(yù)訓(xùn)練模型生成的768維的embedding向量,卷積層由250個(gè)尺寸為3的卷積核組成,batch_size是128,epochs是20,F(xiàn)ocal loss是2,初始學(xué)習(xí)率是0.00005,為防止過(guò)擬合,dropout參數(shù)設(shè)置為0.1。
為檢驗(yàn)本文應(yīng)用的BERT-DPCNN模型算法的效果,主要將不同的詞向量與多種神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,詞向量包括fastText詞向量與BERT詞向量,神經(jīng)網(wǎng)絡(luò)模型有RNN、CNN、RCNN、DPCNN、BERT-CNN、BERT-RNN、BERT-RCNN和BERT-DPCNN,具體實(shí)驗(yàn)結(jié)果如表1所示:
表1 深度學(xué)習(xí)模型的分類(lèi)性能
通過(guò)比較實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),
(1)未采用BERT詞向量的四個(gè)模型中,CNN模型對(duì)本文文本分類(lèi)的指標(biāo)結(jié)果均超過(guò)其他模型,準(zhǔn)確率達(dá)到84.96%。這說(shuō)明了文本分類(lèi)更加看重關(guān)鍵詞,相對(duì)來(lái)說(shuō)RNN看重上下文語(yǔ)義則效率更低一些,準(zhǔn)確率只有80.80%。DPCNN模型在本文文本應(yīng)用中表現(xiàn)較好,其準(zhǔn)確率略低于CNN達(dá)到84.49%。
(2)采用BERT詞向量的深度學(xué)習(xí)模型,在準(zhǔn)確率、召回率等評(píng)價(jià)指標(biāo)上均表現(xiàn)突出,有顯著提升。具體來(lái)看,BERT-RNN相較于RNN準(zhǔn)確率提高了6.12%,BERT-CNN相較于CNN提高了3.93%,BERT-RCNN相較于RCNN提高了7.27%,BERT_DPCNN相較于DPCNN提高了6.31%??梢?jiàn),采用BERT詞向量能夠有效地提高模型分類(lèi)的準(zhǔn)確性。
(3)對(duì)比全部模型應(yīng)用結(jié)果發(fā)現(xiàn),將BERT詞向量與DPCNN模型結(jié)合的BERT-DPCNN文本分類(lèi)模型具有明顯的優(yōu)勢(shì),其準(zhǔn)確率高達(dá)90.80%,Recall、F1等指標(biāo)結(jié)果也優(yōu)于其他模型。這主要是因?yàn)锽ERT-DPCNN文本分類(lèi)模型選擇BERT生成詞向量,可以挖掘到更底層的特征信息,存儲(chǔ)更加完整全面的文本情感信息,在文本分類(lèi)上也可以提供更多的依據(jù)。此外,DPCNN模型增加了用于文本分類(lèi)的網(wǎng)絡(luò)深度,以提取文本中遠(yuǎn)程關(guān)系的特征,同時(shí)引入了殘差結(jié)構(gòu),增加了多尺度信息。因此將BERT-DPCNN模型應(yīng)用到網(wǎng)絡(luò)輿情情感分析中具有十分重要的意義。
為了更直觀(guān)地體現(xiàn)BERT-DPCNN模型的優(yōu)勢(shì),本文對(duì)各個(gè)模型的分類(lèi)性能進(jìn)行了可視化,將BERT-DPCNN與前面分類(lèi)準(zhǔn)確率表現(xiàn)良好的BERT-RNN、BERT-CNN和BERT-RCNN進(jìn)行比較,得到混淆矩陣如圖1所示:
圖1 各模型實(shí)驗(yàn)結(jié)果的混淆矩陣
BERT-DPCNN模型在該類(lèi)別的預(yù)測(cè)中,Class1評(píng)論數(shù)有2115條,Class2評(píng)論數(shù)為8669條,Class3評(píng)論數(shù)為2743條。在Class1評(píng)論中,被正確分類(lèi)的有1895條,被誤分類(lèi)的有220條,準(zhǔn)確率為89.60%;在Class2評(píng)論中,被正確分類(lèi)的有7971條,被誤分類(lèi)的有698條,準(zhǔn)確率為91.95%;在Class3評(píng)論中,被正確分類(lèi)的有2417條,被誤分類(lèi)的有326條,準(zhǔn)確率為88.12%。同理可得,在BERT-RNN模型中,評(píng)論文本的分類(lèi)準(zhǔn)確率分別為85.82%、88.22%、83.67%;在BERTCNN模型中,評(píng)論文本的分類(lèi)準(zhǔn)確率分別為87.47%、90.28%、85.64%;在BERT-RCNN模型中,評(píng)論文本的分類(lèi)準(zhǔn)確率分別為86.34%、89.00%、84.18%。
具體來(lái)看,對(duì)比評(píng)論數(shù)最多的Class2分類(lèi)結(jié)果,BERT-DPCNN準(zhǔn)確率高達(dá)91.95%,比BERT-RNN高出3.73%,比BERT-CNN高出1.67%;對(duì)比評(píng)論數(shù)最少的Class1分類(lèi)結(jié)果,BERT-DPCNN準(zhǔn)確率高達(dá)89.60%,比BERT-RNN高出3.78%,比BERT-CNN高出2.13%??梢?jiàn),不論各類(lèi)別的評(píng)論數(shù)多少,本文采用的BERT-DPCNN模型對(duì)三個(gè)類(lèi)別的分類(lèi)準(zhǔn)確率均高于其他模型,能夠較為準(zhǔn)確地進(jìn)行情感分類(lèi)。
為了更準(zhǔn)確分析這四個(gè)模型的實(shí)際應(yīng)用情況,采用ROC曲線(xiàn)對(duì)各模型的應(yīng)用情況進(jìn)行分析,如圖2所示。
圖2 各模型實(shí)驗(yàn)的ROC曲線(xiàn)
從圖中可以看到各模型的Micro_Average和Macro_Average的ROC曲線(xiàn)情況。對(duì)比曲線(xiàn)下方面積即Micro_AUC和Macro_AUC發(fā)現(xiàn),四個(gè)模型的AUC均在0.90以上,表明都具有較高的準(zhǔn)確性。其中BERT-DPCNN模型的AUC達(dá)到0.93,高于其他模型,表明該模型在本文數(shù)據(jù)集上具有較高的分類(lèi)精度。具體結(jié)果見(jiàn)表2。
表2 各模型的AUC
綜合本文模型在準(zhǔn)確率、AUC等評(píng)價(jià)指標(biāo)上的表現(xiàn)分析可知,因BERT詞向量對(duì)更底層特征信息的挖掘和DPCNN模型對(duì)遠(yuǎn)程關(guān)系特征的提取,使得BERT-DPCNN模型具有較高的分類(lèi)性能和分類(lèi)精度。
隨著網(wǎng)絡(luò)輿情越發(fā)復(fù)雜以及輿情危機(jī)管控的迫切要求,對(duì)于應(yīng)用大數(shù)據(jù)技術(shù)分析網(wǎng)絡(luò)輿情的需求越來(lái)越高。現(xiàn)有的網(wǎng)絡(luò)輿情情感分析模型普遍使用分詞技術(shù)結(jié)合靜態(tài)詞向量模型生成文本的向量表示,不能很好地解決一詞多義問(wèn)題,且未能充分考慮文本層次結(jié)構(gòu)的重要性。本文以“新冠”疫情相關(guān)的微博文本作為研究樣本,應(yīng)用BERTDPCNN深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行網(wǎng)絡(luò)輿情情感分析,并對(duì)比了常用的神經(jīng)網(wǎng)絡(luò)模型。模型應(yīng)用結(jié)果表明,BERT-DPCNN模型能夠更加準(zhǔn)確地對(duì)輿情信息進(jìn)行情感分類(lèi),進(jìn)而更加有效的判斷“新冠”疫情暴發(fā)后廣大民眾的情緒走向,對(duì)有關(guān)部門(mén)把握輿論的正確導(dǎo)向和實(shí)施網(wǎng)絡(luò)輿情監(jiān)管具有較大的實(shí)用價(jià)值。
當(dāng)然,網(wǎng)絡(luò)輿情的數(shù)據(jù)集中還存在其他信息,并且模型僅在這一個(gè)實(shí)例中表現(xiàn)有效性。因此在未來(lái)的研究工作中,將會(huì)利用數(shù)據(jù)集中更多的信息以及大量的實(shí)例驗(yàn)證來(lái)進(jìn)一步提升模型的網(wǎng)絡(luò)輿情情感分類(lèi)性能,從而為政府輿情管控部門(mén)提供較好的決策參考。
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2022年8期