陳 旭 ,潘 峰 ,韓 益 亮 ,王 寧
(1.武警工程大學(xué) 密碼工程學(xué)院, 陜西 西安 710086;2.武警部隊(duì)密碼與信息安全保密重點(diǎn)實(shí)驗(yàn)室,陜西 西安710086;3.武警河北總隊(duì)張家口支隊(duì),河北 張家口 075000)
自2019 年底以來,新冠疫情在世界范圍內(nèi)迅速擴(kuò)散。 截至 2021 年 6 月,在世界范圍內(nèi),新冠疫情已經(jīng)累計(jì)造成380 萬人死亡[1]。 根據(jù)國際貨幣基金組織不完全統(tǒng)計(jì),新冠疫情將會(huì)造成全球經(jīng)濟(jì)損失達(dá) 21 萬億英鎊[2]。 盡管在政府的有力統(tǒng)籌和全國人民的共同努力下,新冠疫情在我國范圍內(nèi)已經(jīng)得到了有效控制,但是由于新冠病毒的高傳染性、高變異性,在經(jīng)濟(jì)全球化的背景下,單純依靠防控措施很難徹底杜絕新冠病毒傳播。 同時(shí),相關(guān)研究表明,新冠患者即使康復(fù)以后,身體仍會(huì)受到一定的不可逆轉(zhuǎn)的損傷。 因此,無論從國家發(fā)展角度,還是從個(gè)人健康角度,接種新冠疫苗刻不容緩。 以微博為代表的新媒體平臺(tái)成為了群眾發(fā)表觀點(diǎn)的主要方式。 通過微博及時(shí)有效地收集群眾針對(duì)接種新冠疫苗的評(píng)論,分析群眾接種疫苗的情感傾向性,對(duì)于政府有針對(duì)性地開展疫苗接種宣傳疏導(dǎo)工作具有重要意義。
文本情感分析,也稱為意見挖掘,旨在通過一定的模型分析自然語言文本中的主觀性來評(píng)估其嵌入的態(tài)度。 傳統(tǒng)的情感分析方法主要分為三大類:基于情感詞典的分析方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的分析方法以及基于深度學(xué)習(xí)的分析方法。 基于情感詞典的分析方法存在情感詞典的構(gòu)建和維護(hù)需要大量人力的問題;基于傳統(tǒng)機(jī)器學(xué)習(xí)的算法相比于基于情感詞典的方法,在性能上的提升并不明顯;基于深度學(xué)習(xí)的情感分析方法,由于其出色的效率和強(qiáng)大的實(shí)用性,逐漸成為文本情感分析領(lǐng)域的熱點(diǎn)。 在文本情感分析領(lǐng)域, 常見的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)等。 Kim 等人[3]在英文語料上,首次運(yùn)用 CNN 實(shí)現(xiàn)了文本情感分類任務(wù),但CNN 缺乏對(duì)文本提取特征的能力。Irsoy 等人[4]使用 RNN 在英文語料上建模進(jìn)行情感分析,RNN 引入了記憶單元使網(wǎng)絡(luò)具有了一定的記憶能力,但其存在訓(xùn)練中易出現(xiàn)梯度爆炸和彌散的問題。
在RNN 基礎(chǔ)上改進(jìn)的長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和門限循環(huán)單元(Gated Recurrent Unit,GRU),能夠較好地克服 RNN 的弊端。周瑛等人[5]通過在LSTM 模型后增加注意力(Attention)機(jī)制,提升了對(duì)中文微博較長文本的分類效率,但單向 LSTM 模型存在忽略下文信息的問題。 Tang 等人[6]在雙向LSTM 模型后增加注意力機(jī)制來解決文本級(jí)情感分析問題,但是將注意力機(jī)制與雙向LSTM模型串行不利于充分學(xué)習(xí)文本語義信息。 關(guān)鵬飛等人[7]通過將BiLSTM 與注意力機(jī)制并行直接作用于輸入的文本向量上,增強(qiáng)了注意力機(jī)制語義學(xué)習(xí)的能力,提高了文本情感分類的效率。Kumar 等人[8]將BiLSTM 模型與兩層注意力機(jī)制混搭,一定程度上提升了文本情感分類的效率。 Greff 等人[9]和 Jozefowicz等人[10]對(duì) LSTM 和 GRU 框架進(jìn)行了實(shí)驗(yàn)比較,發(fā)現(xiàn)在二者性能沒有本質(zhì)區(qū)別的情況下,GRU 比LSTM結(jié)構(gòu)相對(duì)簡單,計(jì)算復(fù)雜度較低。 因而眾多學(xué)者嘗試在 GRU 模型框架上進(jìn)行改進(jìn),或者將 GRU 模型與其他模型混合。 王偉等人[11]將注意力機(jī)制串聯(lián)作用于BiGRU 模型之后, 相比于在BiLSTM 模型上增加注意力機(jī)制減少了訓(xùn)練時(shí)間。黃磊等人[12]采用GRU模型與LSTM 模型混合的方式,提高了模型的召回率。此外,近年來 Bert 語言模型[13]的提出,不斷刷新自然語言領(lǐng)域深度學(xué)習(xí)模型的性能表現(xiàn)記錄,例如謝潤忠等人[14]將基于 Bert 的預(yù)訓(xùn)練模型與 BiGRU、Attention 機(jī)制融合建立了文本情感分類模型。 但是基于Bert 的預(yù)訓(xùn)練模型需要超大的訓(xùn)練數(shù)據(jù)以及極大的訓(xùn)練開銷,可復(fù)現(xiàn)性較差。
本文在文獻(xiàn)[7]的基礎(chǔ)上,選擇模型復(fù)雜度更低的 GRU 模型為基礎(chǔ),運(yùn)用 BiGRU 與注意力機(jī)制并行增強(qiáng)對(duì)文本上下文的學(xué)習(xí)能力。 實(shí)驗(yàn)證明,針對(duì)爬取并標(biāo)注的新冠疫苗接種意向方面的微博評(píng)論,該模型的情感分類效率有一定的提升。
利用深度學(xué)習(xí)模型進(jìn)行自然語言處理通常需要首先對(duì)文本進(jìn)行向量化表示。 傳統(tǒng)的one-hot 表示存在詞向量過于稀疏以及不包含語義信息的問題,Word2vec 模型的出現(xiàn)一定程度上解決了這一問題。 Word2vec 是 Google 研究團(tuán)隊(duì)[15-16]于 2013 年提出的一種有監(jiān)督的訓(xùn)練詞向量的模型,自提出以來得到了廣泛運(yùn)用。 其出發(fā)點(diǎn)是上下文相似的兩個(gè)詞,其詞義也相似。 它包含兩個(gè)子模型:CBOW 和 Skip-Gram。 CBOW 模型通過上下文詞匯預(yù)測(cè)當(dāng)前詞匯,Skip-Gram 模型通過當(dāng)前詞匯預(yù)測(cè)上下文詞匯。Word2vec 模型結(jié)構(gòu)如圖 1 所示。
圖1 Word2vec 模型結(jié)構(gòu)圖
Word2vec 訓(xùn)練得到的副產(chǎn)品是詞向量矩陣,而這正是自然語言處理領(lǐng)域?qū)⒄Z言向量化所需要的。理論上通過對(duì)大量語料進(jìn)行訓(xùn)練生成的詞向量矩陣,可以實(shí)現(xiàn)任意詞匯的向量化表示。 向量化表示后的結(jié)果作為深度學(xué)習(xí)的輸入,為深度學(xué)習(xí)訓(xùn)練打下基礎(chǔ)。
RNN 是用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),被廣泛應(yīng)用于自然語言處理中的情感分類任務(wù)。 在處理自然語言分類任務(wù)時(shí),RNN 是一個(gè)典型的多輸入、單輸出模型,假設(shè)輸入序列長度為6,其標(biāo)準(zhǔn)結(jié)構(gòu)如圖 2 所示。
圖2 RNN 標(biāo)準(zhǔn)結(jié)構(gòu)圖
其中序列(x1,x2,x3,x4,x5,x6)是 輸 入層 的輸入,序列(h1,h2,h3,h4,h5,h6)為 隱藏 層 的 循 環(huán)單元,y 為輸出層輸出的分類結(jié)果。 通常,在文本情感分析的多分類模型中,y 是由循環(huán)單元依照softmax(歸一化指數(shù))函數(shù)生成,即:
其中,V 為權(quán)重系數(shù)矩陣,c 為偏移向量。
傳統(tǒng)的RNN 算法雖然在處理序列問題時(shí)有很好的效果,但是在訓(xùn)練中存在嚴(yán)重的梯度消失和梯度爆炸問題,而其改進(jìn)算法LSTM 和GRU 很好地克服了這兩點(diǎn)問題。同時(shí),相比于 LSTM,GRU 將 LSTM的忘記門和輸出門合并成更新門,模型更加簡單,在訓(xùn)練時(shí)間更短的情況下模型效率與LSTM 基本一致,僅取決于針對(duì)問題的不同略有差異。 GRU 模型的具體結(jié)構(gòu)如圖3 所示。
圖3 GRU 模型結(jié)構(gòu)圖
其中,ht-1為上一時(shí)刻狀態(tài),ht為當(dāng)前時(shí)刻輸出狀態(tài)為隱藏狀態(tài)。 zt為更新門當(dāng)前狀態(tài),它決定了過去有多少信息保留以及未來有多少信息加進(jìn)來。 rt為重置門當(dāng)前狀態(tài),它決定了上一時(shí)刻狀態(tài)對(duì)隱藏狀態(tài)的影響。
其 中 ,Wh、Wz、Wr和 Uh、Uz、Ur均 為 要 學(xué) 習(xí) 的 權(quán) 重 ,bh、bz、br均為要學(xué)習(xí)的偏置。 單 向 GRU 存 在忽 視下文信息的問題,雙向GRU 則可以充分學(xué)習(xí)上下文信息。 雙向GRU 模型是由兩個(gè)信息傳遞相反的GRU 模型構(gòu)成的,其中第一層按時(shí)間順序傳遞信息,第二層按時(shí)間逆序傳遞信息。
近年來,注意力機(jī)制在深度學(xué)習(xí)各個(gè)領(lǐng)域日漸火熱,它起源于人類視覺特有的快速掃描重點(diǎn)目標(biāo)區(qū)域的大腦信號(hào)處理機(jī)制。 在自然語言領(lǐng)域引入注意力機(jī)制,有利于模型的快速收斂以及更好關(guān)注自然語言中信息價(jià)值更大的部分。 Bahdanau 等人[17]首次將注意力機(jī)制應(yīng)用到自然語言領(lǐng)域,自此注意力機(jī)制由于其良好的實(shí)用性在自然語言處理領(lǐng)域被廣泛采用。 注意力機(jī)制可以實(shí)現(xiàn)自動(dòng)從給定文本向量中學(xué)習(xí)權(quán)重分布,計(jì)算方法如式(6)、(7)所示:
其中,vt為學(xué)習(xí)所得的中間參數(shù),at表示第 t 個(gè)詞對(duì)當(dāng)前文本的重要程度,A、W 為權(quán)重矩陣,xt為輸入序列,b 為訓(xùn)練中的偏置向量。
本文模型采用雙向GRU 與注意力機(jī)制并行結(jié)合的方式,與文本向量串聯(lián)加強(qiáng)語義信息的學(xué)習(xí)。 模型結(jié)構(gòu)如圖4 所示。 首先將采集的關(guān)于新冠疫苗接種的評(píng)論文本輸入,而后采用Word2vec 進(jìn)行向量化表示,再將向量化的文本分別輸入BiGRU 與Attention機(jī)制進(jìn)行學(xué)習(xí),兩部分所得結(jié)果拼接后,通過softmax函數(shù)實(shí)現(xiàn)短文本情感的三分類。
圖4 模型結(jié)構(gòu)圖
微博作為新媒體社交軟件的主要代表之一,具有較大的普及性及關(guān)注度,能夠在熱點(diǎn)事件發(fā)生的第一時(shí)間推送消息、獲取網(wǎng)民評(píng)論,具有較高的輿情研究價(jià)值。 因而本文選擇微博作為語料源,利用八爪魚爬蟲軟件爬取 2021 年 1 月至 5 月網(wǎng)民關(guān)于新冠疫苗接種方面的評(píng)論。
針對(duì)爬取的數(shù)據(jù),首先利用八爪魚軟件進(jìn)行去重處理,而后利用 NLP 工具 HarvestText,實(shí)現(xiàn)去除微博文本中的雜質(zhì)“@”、去除表情符、將繁體字轉(zhuǎn)為簡體字等去雜步驟。
接著對(duì)其情感傾向性進(jìn)行標(biāo)注,常見的情感分類數(shù)有二分類、三分類以及多分類。 結(jié)合接種新冠疫苗的實(shí)際,有些群眾能夠?qū)⒔臃N疫苗上升到利國利己的角度,積極主動(dòng)參與;有些群眾擔(dān)心疫苗接種副作用,對(duì)接種疫苗十分抵觸,或者因身體原因不能接種;還有些群眾對(duì)接種新冠疫苗表示懷疑、猶豫不決,或者對(duì)新冠疫苗接種的禁忌不是特別清楚。 因而對(duì)數(shù)據(jù)標(biāo)注采用三分類更加合理。 根據(jù)文本中透露的接種疫苗情感傾向,分為積極、中立、消極,依次標(biāo)注為2、1、0。 其中積極情感包括已經(jīng)接種過疫苗、還未接種但是想要接種、想接種但是因疫苗缺乏接種不到等幾類,標(biāo)注為2;中立情感包括猶豫是否接種疫苗、不清楚身患某種疾病是否可以接種、接種一針后有副作用不知道能否繼續(xù)接種等,標(biāo)注為1;消極情感包括因覺得疫苗副作用大堅(jiān)決不接種、打完疫苗副作用大不愿繼續(xù)接種、被強(qiáng)制接種但是不想接種、因懷孕或者身患某種疾病不能接種等,標(biāo)注為0。 示例評(píng)論及標(biāo)注如表1 所示。
表1 評(píng)論文本標(biāo)注示例
去除與接種疫苗無關(guān)的評(píng)論,共得到標(biāo)注完畢的文本評(píng)論 12 000 條,其中積極情感評(píng)論8 333 條、中立情感評(píng)論1 992 條、消極情感評(píng)論1 675 條。 1 ~5月份爬取微博評(píng)論各類標(biāo)注數(shù)量如圖5 所示。 從爬取并標(biāo)注的數(shù)據(jù)可以看出,大多數(shù)群眾對(duì)于接種疫苗的意愿是積極的。
圖5 1~5 月份評(píng)論情感標(biāo)注
選取Word2vec 模型對(duì)標(biāo)注后的語料進(jìn)行向量化,為下一步輸入模型訓(xùn)練做好準(zhǔn)備。 采用中文維基百科語料作為Word2vec 模型的訓(xùn)練語料,利用NLP 工具HarvestText 去除語料中的表情符以及將繁體字轉(zhuǎn)為簡體字,使用 jieba 分詞模塊進(jìn)行分詞,分詞前去除停用詞,并將疫苗、新冠疫情等詞設(shè)置為常用詞。 對(duì)于分詞結(jié)果,選取出現(xiàn)頻率較高的高頻詞,統(tǒng)計(jì)結(jié)果如表 2 所示。
表2 高頻詞詞頻統(tǒng)計(jì)表
選擇 Word2vec 模型中的cbow 模型,設(shè)置向量維數(shù) size=300、最小詞頻 min_count=3,而后開始訓(xùn)練。將分詞后的12 000 條標(biāo)注語料輸入訓(xùn)練完畢的Word2vec 模型,得到語料的向量化表示結(jié)果,為后續(xù)模型訓(xùn)練做好準(zhǔn)備。 本文主要針對(duì)短文本進(jìn)行情感分類,對(duì)文本語句的最大長度選擇為32 個(gè)詞,不足 32 的補(bǔ) 0 處理。
從標(biāo)注好的12 000 條語料中隨機(jī)劃分2 400 條作為測(cè)試集,其余9 600 條作為訓(xùn)練集。 實(shí)驗(yàn)在 CPU為AMD Ryzen 5 3600 6-Core Processor、內(nèi)存為 16.0 GB的服務(wù)器上運(yùn)行,GRU 模型和Attention 機(jī)制的隱藏層設(shè)置為256,學(xué)習(xí)率為0.001,主要參數(shù)如表3 所示。
表3 主要實(shí)驗(yàn)參數(shù)
本文主要通過正確率以及訓(xùn)練時(shí)間與傳統(tǒng)情感分類模型對(duì)比來評(píng)價(jià)改進(jìn)模型。 在相同條件下,模型訓(xùn)練后的正確率越高,訓(xùn)練時(shí)間越短,模型效果越好。 在模型經(jīng)過訓(xùn)練集訓(xùn)練后,將測(cè)試集輸入測(cè)試,假設(shè)正確劃分測(cè)試集的個(gè)數(shù)為T,錯(cuò)誤劃分測(cè)試集的個(gè)數(shù)為F,則模型訓(xùn)練的正確率A 的計(jì)算公式為:
本文在文獻(xiàn)[7]的基礎(chǔ)上,考慮到 GRU 相比于LSTM,效果相似的同時(shí)復(fù)雜度有所降低,因而采用雙向 GRU 與 Attention 機(jī)制并行作為本文深度學(xué)習(xí)的核心架構(gòu)。 針對(duì)爬取并標(biāo)注的新冠疫苗接種傾向性分析方面的評(píng)論,經(jīng)過幾輪迭代,當(dāng)模型準(zhǔn)確率達(dá)到最高后,各模型實(shí)驗(yàn)結(jié)果如表4 所示。
表4 實(shí)驗(yàn)結(jié)果對(duì)比表
如表4 所示,將本文改進(jìn)的模型④分別與傳統(tǒng)模型①②③進(jìn)行對(duì)比。 在針對(duì)新冠疫苗接種傾向性分析時(shí),將模型④與模型①相比,本文改進(jìn)的模型準(zhǔn)確率有了較大的提升,運(yùn)行時(shí)間有了一定程度的降低,即改進(jìn)的模型效率有了明顯提高。 這說明針對(duì)本文標(biāo)注的實(shí)驗(yàn)數(shù)據(jù),BiGRU 與 Attention 并行的結(jié)構(gòu)比 BiLSTM 與 Attention 并行的結(jié)構(gòu)更有優(yōu)勢(shì),這主要是由于GRU 模型結(jié)構(gòu)比LSTM 結(jié)構(gòu)更加簡潔。 將模型④與模型②相比,模型④準(zhǔn)確率略高,運(yùn)行時(shí)間卻增加了,這說明引入Attention 機(jī)制與Bi-GRU 并行有助于增強(qiáng)文本信息學(xué)習(xí)能力,提高重點(diǎn)詞匯學(xué)習(xí)能力,但由于整體模型架構(gòu)相對(duì)復(fù)雜,有可能導(dǎo)致增加一定學(xué)習(xí)時(shí)間。將模型④與模型③相比,二者主要區(qū)別在于 Attention 機(jī)制與 BiGRU 是并行還是串行。 通過比較可以發(fā)現(xiàn),本文改進(jìn)的模型④在運(yùn)行時(shí)間上比模型③少,但準(zhǔn)確率也略有降低。 各模型整體性能上各有千秋,具體性能上的優(yōu)異還要取決于進(jìn)一步實(shí)驗(yàn)。
綜合上述實(shí)驗(yàn)可知,本文基于文獻(xiàn)[7]改進(jìn)的模型,相比于原模型,效率有了明顯提升;相比于BiGRU+Attention( 串 行 ), 運(yùn) 行 時(shí) 間 更 短 ; 相 比 于BiGRU 模型,準(zhǔn)確率更高。 因此針對(duì)新冠疫苗接種意愿傾向性分析,改進(jìn)的以 BiGRU 與 Attention 機(jī)制并聯(lián)的模型具有一定的價(jià)值。
本文對(duì)傳統(tǒng)運(yùn)用深度學(xué)習(xí)情感分類模型進(jìn)行改進(jìn),使用結(jié)構(gòu)更加簡潔的GRU 模型替代 LSTM 模型,并且運(yùn)用雙向GRU 模型提升上下文語義的學(xué)習(xí)能力,同時(shí)充分發(fā)揮 Attention 機(jī)制與 BiGRU 并行的優(yōu)勢(shì),提高文本中重點(diǎn)詞語的學(xué)習(xí)能力。 另一方面, 本文針對(duì)當(dāng)前新冠疫苗接種意愿的熱點(diǎn)話題, 在微博上進(jìn)行了網(wǎng)絡(luò)評(píng)論的爬取以及情感標(biāo)注,并用來驗(yàn)證改進(jìn)情感分類模型的效率。
從模型對(duì)比實(shí)驗(yàn)結(jié)果來看,相比于BiLSTM 與Attention 并行的傳統(tǒng)模型,本文改進(jìn)的模型運(yùn)行時(shí)間更短,對(duì)標(biāo)注數(shù)據(jù)情感分類準(zhǔn)確率更高,達(dá)到了預(yù)期的訓(xùn)練效果;相比于 BiGRU 模型、BiGRU 與Attention 串行模型,本文改進(jìn)的模型分別在運(yùn)行時(shí)間和準(zhǔn)確率方面有所提高。因而本文改進(jìn)的深度學(xué)習(xí)模型對(duì)新冠疫苗接種情感傾向性分析具有一定的價(jià)值。
但是本文的研究也存在一定的局限性:第一,本文實(shí)驗(yàn)針對(duì)的微博評(píng)論數(shù)據(jù)量有限,難以充分比較出與其他模型的優(yōu)勢(shì),在未來的研究中還需考察大量數(shù)據(jù)下模型的實(shí)驗(yàn)效果。 第二,本文模型忽略了微博評(píng)論中一級(jí)評(píng)論和二級(jí)評(píng)論的差異性。二級(jí)評(píng)論建立在一級(jí)評(píng)論的基礎(chǔ)上,針對(duì)不同的一級(jí)評(píng)論,相同的二級(jí)評(píng)論可能反映出不同的情感傾向。因而下一步研究中還需細(xì)化考慮一級(jí)評(píng)論對(duì)二級(jí)評(píng)論的影響。