翟 寧,韓國(guó)勝
(湘潭大學(xué) 數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,湖南 湘潭 411105)
突發(fā)性公共安全風(fēng)險(xiǎn)的爆發(fā)及其衍生事件對(duì)社會(huì)經(jīng)濟(jì)發(fā)展、國(guó)民身心健康乃至社會(huì)穩(wěn)定都會(huì)產(chǎn)生重大影響.病毒災(zāi)難作為一種公共衛(wèi)生事件,往往伴隨著周期性的疫情暴發(fā)特征,具有很強(qiáng)的隨機(jī)性和不確定性,對(duì)公眾的健康和生活構(gòu)成了嚴(yán)重威脅,更有可能引發(fā)大范圍的網(wǎng)絡(luò)輿情.自2019年底新冠疫情在我國(guó)首次暴發(fā)以來(lái),我國(guó)防控疫情的腳步一直沒(méi)有停歇,迄今為止,又陸續(xù)出現(xiàn)了幾次小規(guī)模疫情的暴發(fā)[1].目前,我國(guó)雖然已經(jīng)研發(fā)出可以預(yù)防新冠病毒的疫苗,但仍無(wú)法完全預(yù)防其他新冠病毒的變種病毒,威脅依然存在,這表明該病毒具有高度傳染性、突發(fā)性、異質(zhì)性和難以控制性[1].因此其在我國(guó)乃至國(guó)際公眾中均形成了較大的反響,影響極為深重.
疫情期間,網(wǎng)絡(luò)成為人們獲取及發(fā)布信息的首選,國(guó)內(nèi)主流社交媒體已經(jīng)成為公眾進(jìn)行信息交流的主要工具,吸引了包含普通大眾、官方機(jī)構(gòu)、網(wǎng)絡(luò)大V等多方群體的參與.由人民網(wǎng)數(shù)據(jù)中心對(duì)疫情輿情的監(jiān)控可知,僅僅2021年2月15日至16日期間,有關(guān)疫情的微博輿論數(shù)量就達(dá)到 144 023 條,對(duì)于重點(diǎn)熱門話題“今日湖北死亡人數(shù)”的閱讀量,達(dá)到了驚人的11.3億,公眾對(duì)疫情的發(fā)展趨勢(shì)與走向保持高度的關(guān)注[2].與此同時(shí),某些網(wǎng)民的無(wú)根據(jù)、不真實(shí)的消極言論往往會(huì)干擾公眾對(duì)疫情的判斷,甚至在社會(huì)上引起不必要的恐慌,造成社會(huì)不同程度的動(dòng)亂[3].通過(guò)研究微博、知乎等典型大眾社交媒體中的輿論話題,并挖掘其對(duì)應(yīng)的情感特點(diǎn),可以幫助政府、企業(yè)和其他有關(guān)組織及時(shí)出臺(tái)針對(duì)突發(fā)事件的對(duì)策,正確判斷公眾的情緒變化以及信息需求,然后做出快速和及時(shí)的反應(yīng),進(jìn)行有針對(duì)性的宣傳、溝通、情感慰藉和教育活動(dòng),從而減少公眾由于信息不足或不準(zhǔn)確造成的不必要恐慌,有效減少疫情災(zāi)害造成的意外損失,為社會(huì)安全和國(guó)家公共安全提供有力保障,進(jìn)一步推進(jìn)突發(fā)公共輿論事件的科學(xué)管理[4].因此,通過(guò)對(duì)疫情輿論情感進(jìn)行分類研究,可以為有關(guān)部門獲悉此類公共安全的輿論走向,并及時(shí)采取控制引導(dǎo)措施提供重要參考,有利于維持公共秩序和社會(huì)輿情的穩(wěn)定.
基于此,本文主要針對(duì)新冠病毒的突發(fā)性和異質(zhì)性, 應(yīng)用爬蟲技術(shù)對(duì)特定的微博評(píng)論內(nèi)容進(jìn)行爬取分析,并基于BERT的雙通道情感識(shí)別模型構(gòu)建疫情下微博網(wǎng)絡(luò)輿情情感分類系統(tǒng),挖掘疫情輿論下政府、公眾和媒體之間的關(guān)系,在極端公共衛(wèi)生事件下,為組織建設(shè)、平臺(tái)建議以及輿論引導(dǎo)等提供有力支持.
早期的自然語(yǔ)言處理中的情感分析通常采用機(jī)器學(xué)習(xí)的相關(guān)研究成果,利用有監(jiān)督的數(shù)據(jù)進(jìn)行學(xué)習(xí),對(duì)上下文信息提取,完成文本處理和分析.Pang等[5]在對(duì)電影影評(píng)進(jìn)行情感分類時(shí),開始使用SVM、最大熵和樸素貝葉斯等方法,并證明了SVM的分類效果比其他二者要好.Jain等[6]構(gòu)建了融合貝葉斯和決策樹的情感分類系統(tǒng),對(duì)社交平臺(tái)上的評(píng)論進(jìn)行分析,提高了分類準(zhǔn)確率.張?jiān)旅穂7]為了解決大量的文本數(shù)據(jù)會(huì)耗費(fèi)大量人工的問(wèn)題,提出了結(jié)合K近鄰算法與隨機(jī)森林,來(lái)實(shí)現(xiàn)文本的自動(dòng)分類.實(shí)驗(yàn)結(jié)果證明,與傳統(tǒng)的分類相比,該模型對(duì)文本的情感分類效果更佳.李開榮等[8]在考慮到前后向依賴的同時(shí),對(duì)隱馬爾可夫模型進(jìn)行改進(jìn),提高了文本分類的準(zhǔn)確性.一般情況下,運(yùn)用機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析能達(dá)到較好的效果,但是通常是依托大型語(yǔ)料庫(kù),在實(shí)際應(yīng)用中,往往難以達(dá)到滿意的效果.
隨著計(jì)算科學(xué)的進(jìn)一步發(fā)展,深度學(xué)習(xí)開始出現(xiàn),并逐漸在文本及情感分類領(lǐng)域發(fā)揮重要的作用[9].近幾年來(lái),深度學(xué)習(xí)領(lǐng)域的技術(shù)不斷創(chuàng)新發(fā)展,能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)特征的自動(dòng)抓取,在眾多的文本分類及預(yù)測(cè)任務(wù)中獲得了非常不錯(cuò)的效果.Liu等[10]將LSTM與時(shí)間卷積網(wǎng)絡(luò)組合,利用分層結(jié)構(gòu)從上下文提取信息.Denil等[11]構(gòu)建基于CNN模型的多層次結(jié)構(gòu),增強(qiáng)模型對(duì)文本中關(guān)鍵特征的識(shí)別能力.謝鐵等[12]通過(guò)深度遞歸神經(jīng)網(wǎng)絡(luò),對(duì)短文本進(jìn)行情感信息提取,進(jìn)行5種情感的分類,取得了較高的準(zhǔn)確率.Zhou等[13]結(jié)合了CNN和RNN,用CNN提取分布特征因素,RNN提取序列特征因素,用于文本的情感分類.李然[14]在對(duì)商品相關(guān)評(píng)論的數(shù)據(jù)集進(jìn)行情感分類時(shí),將深度學(xué)習(xí)引用到情感分類判別過(guò)程中,利用神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)了更好的分類性能.
隨著BERT模型的出現(xiàn),給情感分類領(lǐng)域帶來(lái)了新的發(fā)展機(jī)遇,BERT自注意力的優(yōu)點(diǎn)引起業(yè)界的廣泛關(guān)注,將其當(dāng)做 embedding層接入到其他主流模型成為處理文本任務(wù)的一種新趨勢(shì).BERT模型最早是由Jacob等[15]提出的,利用MLM及Next-Sentence技術(shù)進(jìn)行預(yù)訓(xùn)練,在11項(xiàng)文本任務(wù)上取得了state-of-the-art的成果;史振杰等[16]將BERT與CNN相結(jié)合,抽取文本語(yǔ)義信息,在京東某手機(jī)評(píng)論數(shù)據(jù)上進(jìn)行文本的分類任務(wù).劉思琴等[17]提出基于BERT預(yù)訓(xùn)練語(yǔ)言模型與BiLSTM及Attention機(jī)制相結(jié)合的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行文本情感分析,并將模型在sst數(shù)據(jù)集上加以驗(yàn)證.姚妮等[18],將BERT和BiGRU進(jìn)行結(jié)合,提出的情感分類模型,緩解了在線評(píng)論文本情感分類準(zhǔn)確性的問(wèn)題.本文就是在以上研究的基礎(chǔ)上,提出基于BERT模型的雙通道情感分類識(shí)別模型,進(jìn)一步提升對(duì)文本情感分類的準(zhǔn)確性.
基于 BERT 的雙通道文本情感分類模型(two channel emotion classification model based on BERT,TCECMB)主要分為4個(gè)層次:輸入層、文本表示層、特征抽取層、融合層及包含softmax在內(nèi)的模型輸出層.其中,特征抽取層由TextCNN和BiLSTM-BiAttention兩個(gè)特征抽取通道組成.其模型結(jié)構(gòu)如圖1所示.模型TCECMB利用BERT模型作為文本表示模型,來(lái)緩解中文文本中一詞多義的問(wèn)題.然后將文本表示同時(shí)輸入到通道一和通道二中,利用兩個(gè)通道中的模型來(lái)抓取多層次、多維度的語(yǔ)義信息.由于本文是利用字向量進(jìn)行建模,往往會(huì)造成前后文的語(yǔ)義割裂,基于此,在通道一中利用多層次TextCNN網(wǎng)絡(luò),緩解這一問(wèn)題.通過(guò)4個(gè)層級(jí)不同的卷積核,對(duì)不同層次的特征表達(dá)進(jìn)行提取,并將所得結(jié)果進(jìn)行拼接,然后輸入至全連接網(wǎng)絡(luò),從而提取最終語(yǔ)義特征.同時(shí),為了解決文本過(guò)長(zhǎng)導(dǎo)致的前后文信息提取困難的問(wèn)題,本文設(shè)計(jì)了通道二,將雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)與二層線性映射的自注意力模型進(jìn)行拼接,有效抓取前后文關(guān)鍵信息,提升模型訓(xùn)練效果.首先,將自左向右進(jìn)行信息提取的LSTM神經(jīng)元的隱藏層和自右向左進(jìn)行信息提取的LSTM神經(jīng)元的隱藏層進(jìn)行拼接,由此得到一個(gè)雙向的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò).然后,將BERT處理好的文本表示輸入到搭建好的BiLSTM網(wǎng)絡(luò)中,并通過(guò)一個(gè)兩層線性投射的注意力機(jī)制抓取關(guān)鍵特征,進(jìn)行加權(quán)輸出.最后,連接一個(gè)全連接層,來(lái)獲取降維后的語(yǔ)義信息.在輸出階段,將兩邊模型產(chǎn)生的包含語(yǔ)義信息的特征向量通過(guò)全連接的方式進(jìn)行拼接,將多維度文本特征有機(jī)地融合;接著,將拼接好的特征向量輸入至 softmax 層中,得到最終的文本的情感類別.
由于計(jì)算機(jī)無(wú)法直接識(shí)別文本內(nèi)容,我們將文本輸入模型之前,首先要做的就是將文本向量轉(zhuǎn)化成計(jì)算機(jī)能夠識(shí)別的編碼向量,這一過(guò)程就是文本表示的過(guò)程.近些年來(lái)在自然語(yǔ)言處理任務(wù)中比較常見的中文文本表示方式,如Word2Vec[19]、Doc2Vec[20]等,雖然已經(jīng)有充足的理論基礎(chǔ)和大量的應(yīng)用案例支持,但這些傳統(tǒng)的編碼模型在處理中文評(píng)論文本時(shí)通常存在一些局限性,如中文文本中會(huì)不可避免地出現(xiàn)一詞、一字多義等語(yǔ)言歧義問(wèn)題,傳統(tǒng)的文本表示模型很難兼顧這些問(wèn)題.為了改善這些問(wèn)題,在TCECMB模型中利用BERT模型對(duì)文本進(jìn)行預(yù)訓(xùn)練,充分考慮上下文信息的關(guān)聯(lián),從字向量層面來(lái)進(jìn)行.同時(shí),BERT 模型在執(zhí)行下游具體文本情感分類任務(wù)時(shí),可以根據(jù)不同任務(wù)特點(diǎn)對(duì)模型參數(shù)進(jìn)行適當(dāng)?shù)奈⒄{(diào),從而獲得全局不唯一的字向量編碼.
中文評(píng)論中往往存在大量的一詞多義問(wèn)題,對(duì)情感分類任務(wù)造成很大干擾.采用傳統(tǒng)的全局統(tǒng)一的詞向量或字向量的方法無(wú)疑會(huì)加劇這一問(wèn)題.為解決這一問(wèn)題,以往的方法是通過(guò)引入外部知識(shí),同時(shí)對(duì)多文本表達(dá)模型進(jìn)行多方位融合來(lái)改善一詞多義問(wèn)題,但這樣做往往又會(huì)帶來(lái)訓(xùn)練效率降低的弊端.因此,在本文提出的TCECMB模型中,選擇運(yùn)用BERT 模型作為文本表示工具.一方面,運(yùn)用BERT模型進(jìn)行訓(xùn)練,可以得到全局不唯一的字向量表達(dá).另一方面,基于字粒度層級(jí)的訓(xùn)練模式,也方便對(duì)模型進(jìn)行必要且合理的后續(xù)調(diào)節(jié).
在模型的輸入層,對(duì)輸入的中文文本做預(yù)處理,去除特殊符號(hào)及標(biāo)點(diǎn)等,不需要做分詞處理.對(duì)文本進(jìn)行Token Embedding、Segment Embedding以及Position Embedding,并在轉(zhuǎn)化好的編碼向量前插入標(biāo)簽[CLS] ,末尾插入[SEP],分別作為同一句子的開端與結(jié)尾,對(duì)句子進(jìn)行分割,這一流程具體如圖2 所示.然后將文本編碼向量輸入BERT 模型,模型利用文本的上下文信息,以及結(jié)合訓(xùn)練過(guò)程中不同的下游任務(wù)目標(biāo),將原始字向量調(diào)整為最終的輸出序列向量.
BERT 模型的結(jié)構(gòu)如圖3所示.E與T分別表示模型輸入與最終的文本表示,中間的Trm表示 Transformer 編碼器,BERT模型是由多層雙向Transformer 編碼器堆疊組合,并利用類似全連接網(wǎng)絡(luò)的輸入方式,完成對(duì)輸入文本的雙向建模.
Transformer 編碼器是由多頭注意力機(jī)制組成,能夠?qū)崿F(xiàn)并行運(yùn)算,其公式如下:
(1)
headi=Attention(QWiQ,KWiK,VWiV),
(2)
Multihead(Q,K,V)=concat(headi)WC
(3)
式中:Q、K、V分別表示輸入向量,將其分別進(jìn)行線性變換后,得到新的矩陣WiQ,WiK,WiV;d表示輸入信息的向量維度;WC表示Multihead的映射向量.
對(duì)于輸入的文字向量,Transformer編碼器采用位置編碼進(jìn)行序列表示,其表示原理如下:
PE(pos,2i)=sin(pos/100002i/dmodel),
(4)
PE(pos,2i+1)=cos(pos/100002i/dmodel).
(5)
式中:i表示位置向量的索引值;pos表示詞語(yǔ)在文本向量中的位置;dmodel表示文本表示向量的維度.
為了加速模型的收斂速率,Transformer 編碼器將殘差進(jìn)行了連接,并且進(jìn)行層歸一化,具體計(jì)算過(guò)程見公式:
L=LayerNorm(Y+W),
(6)
式中:Y代表輸入文本序列;W代表輸入序列X經(jīng)過(guò)多頭注意力函數(shù)處理后的特征;LayerNorm函數(shù)則表示對(duì)Y與W進(jìn)行層歸一化處理的過(guò)程.
2.3.1 通道一:TextCNN 提取關(guān)鍵詞特征BERT模型雖然具有強(qiáng)大的功能,但在對(duì)獲得的句向量進(jìn)行直接情感分類時(shí)還是存在局限性,這種局限主要體現(xiàn)在兩個(gè)方面:一是BERT模型對(duì)句向量處理中包含了人稱代詞、助詞等無(wú)關(guān)字符,使文本表示中存在大量噪聲;二是BERT 模型訓(xùn)練獲得的句向量維度過(guò)高,會(huì)降低下游任務(wù)的訓(xùn)練效率.針對(duì)以上提到的兩個(gè)問(wèn)題,本模型充分利用了 TextCNN 本身的特點(diǎn),抽取文本關(guān)鍵特征,并對(duì)特征進(jìn)行降維.
卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域取得了很好的成果,我們同樣可以借助其優(yōu)良的性能,對(duì)文本分類任務(wù)做一些改進(jìn).通常來(lái)說(shuō),TextCNN在結(jié)構(gòu)上與CNN并無(wú)差異,都是由輸入層、多重卷積層、池化層、全連接層和輸出層構(gòu)成,主要的區(qū)別在于由于TextCNN是處理文本任務(wù),由于文本形式的特殊性,其卷積方式是采用一維卷積,卷積核寬度與詞向量維度一致.TextCNN 的具體網(wǎng)絡(luò)結(jié)構(gòu)見圖 4.
在本模型中,首先將BERT模型處理好的文本表示向量B={H1,H2,...,Hn}作為輸入向量輸入到TextCNN卷積層中進(jìn)行卷積操作,設(shè)卷積核長(zhǎng)度為m(m=3,4,5,6),滑動(dòng)步長(zhǎng)為1,則文本表示向量可以分為{H1,m,H2,m+1,...,Hn-m+1,n},對(duì)各個(gè)分量進(jìn)行卷積操作后,得到局部特征映射ci, 其公式如式(7)所示.
ci=WTHi,i+m-1+b.
(7)
對(duì)每一個(gè)分量Hi,j進(jìn)行卷積后得到向量C={c1,c2,...,cn-m+1},并利用最大池化的方法對(duì)向量C進(jìn)行池化操作,降低特征維度,得到單個(gè)卷積核經(jīng)過(guò)卷積以及池化后的結(jié)果cmi,進(jìn)而得出q個(gè)卷積核卷積后的結(jié)果,如公式(8)~(9)所示.
(8)
(9)
本文提出的模型利用TextCNN中4個(gè)不同大小的卷積核,來(lái)獲取文本信息在不同抽取粒度下的局部信息特征;然后,將不同維度卷積核提取出來(lái)的信息分別進(jìn)行最大池化,降低特征維度;最后,將其最大池化后的向量進(jìn)行連接,合并為最終的輸出向量.
這一通道主要的作用是在BERT形成的文本表示的基礎(chǔ)上,利用TextCNN模型對(duì)關(guān)鍵詞做進(jìn)一步的抽取工作,從而減輕中文文本分類中的語(yǔ)義割裂問(wèn)題.
2.3.2 通道二:BiLSTM-Attention 提取上下文特征疫情評(píng)論文本主要由網(wǎng)民抒發(fā)的主觀感受構(gòu)成,口語(yǔ)化嚴(yán)重,且由于網(wǎng)絡(luò)時(shí)代的發(fā)展,出現(xiàn)大量不易直觀理解的網(wǎng)絡(luò)用語(yǔ),干擾情感分類的進(jìn)行.同時(shí),用戶在進(jìn)行抒發(fā)情感的評(píng)論時(shí),由于語(yǔ)言表達(dá)的多樣性,可能并不是直白地表明情感屬性,而是采用或委婉,或反語(yǔ)等多種表現(xiàn)方式.針對(duì)這種情況,仔細(xì)研究上下文中的細(xì)節(jié)和一些細(xì)粒度的信息就尤為重要.在考慮這些細(xì)節(jié)時(shí),可以通過(guò)判斷細(xì)節(jié)特征是否存在,以及出現(xiàn)的時(shí)序前后等信息,對(duì)文本評(píng)論情感進(jìn)行分類.在通道一中,我們雖然利用TextCNN網(wǎng)絡(luò)對(duì)文本信息進(jìn)行了進(jìn)一步的特征提取,但仍然無(wú)法彌補(bǔ)忽略了時(shí)序特征這一短板,因此,我們?yōu)槟P鸵肓硪粋€(gè)通道——含有注意力機(jī)制的BiLSTM,用以對(duì)上下文進(jìn)行建模.
LSTM 本質(zhì)上是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,在較長(zhǎng)的序列中也能很好地完成文本時(shí)序信息的處理.LSTM模型將獲取的歷史信息和當(dāng)前單元輸入信息進(jìn)行綜合的利用和考慮,從而得到能代表全局信息的狀態(tài)向量.逐詞輸入的詞向量輸入方式使得LSTM模型在獲取文本特征時(shí),文本表示結(jié)果往往是根據(jù)最后一個(gè)神經(jīng)元的狀態(tài),文本中后面出現(xiàn)的語(yǔ)義會(huì)對(duì)語(yǔ)義編碼產(chǎn)生更大權(quán)重的影響,從而導(dǎo)致某些文本評(píng)論的重要信息無(wú)法有效傳遞的問(wèn)題.為了緩解這一問(wèn)題,本模型采用的是雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),有效地利用評(píng)論文本前后的時(shí)序信息.BiLSTM與 LSTM 具有相同的神經(jīng)元組成,其差別在于二者的結(jié)構(gòu)組合.BiLSTM在LSTM的基礎(chǔ)上,增加了從后向前進(jìn)行信息提取的編碼,能夠?qū)崿F(xiàn)文本另一個(gè)方向上的信息抓取方式,從而更好地綜合利用前后向歷史信息,實(shí)現(xiàn)文本情感上更好的分類效果.BiLSTM結(jié)構(gòu)如圖 5 所示.
圖5中,h1,h2,...,hn為經(jīng)過(guò)BERT 模型進(jìn)行文本表示的向量,L表示自左向右進(jìn)行語(yǔ)義信息提取的LSTM網(wǎng)絡(luò),R表示自右向左進(jìn)行語(yǔ)義信息提取的LSTM網(wǎng)絡(luò);然后對(duì)R層與L層抓取出來(lái)的語(yǔ)義信息向量進(jìn)行融合拼接,用符號(hào)⊕表示.將已經(jīng)處理好的文本表示向量h1,h2,...,hn輸入到搭建好的BiLSTM層中,對(duì)h1,h2,...,hn評(píng)論文本進(jìn)行編碼,獲得BiLSTM兩個(gè)LSTM層中提取出的特征信息,將這些特征信息進(jìn)行拼接融合,獲得 BiLSTM 模型最終的語(yǔ)義提取結(jié)果,將hlt記為文本表示在第t時(shí)刻經(jīng)過(guò)L層網(wǎng)絡(luò)時(shí)的隱藏層狀態(tài),hrt記為文本表示在第t時(shí)刻經(jīng)過(guò)R層網(wǎng)絡(luò)時(shí)的隱藏層狀態(tài),則ht計(jì)算公式如式(10)所示.
ht=[hlt,hrt].
(10)
為了使模型能夠更加完善地提取文本中蘊(yùn)含的情感信息,在BiLSTM模型后添加了一層注意力機(jī)制,增加文本中的關(guān)鍵字詞對(duì)于情感分類的影響權(quán)重.所以,通道二的模型是一個(gè)帶有注意力機(jī)制的雙向時(shí)間序列模型結(jié)構(gòu),由輸入、時(shí)間序列分析以及注意力機(jī)制共同構(gòu)成.本模型采用的注意力機(jī)制是雙層線性注意力機(jī)制,更加全面地抓取信息.注意力機(jī)制的具體公式如下所示:
at=softmax(W2(W1ht)),
(11)
s=∑at·ht.
(12)
式中:ht是BiLSTM的輸出特征;W1將特征映射到另一個(gè)維度;W2將特征映射到一維,從而獲得了權(quán)重,在經(jīng)過(guò)softmax層將權(quán)重進(jìn)行了歸一化,最后將注意力機(jī)制中獲得的權(quán)重與上一層輸出做加權(quán)求和,得到最后的輸出結(jié)果,即含有注意力的疫情評(píng)論語(yǔ)義編碼s.通過(guò)注意力模型,使得BiLSTM通道增加了對(duì)關(guān)鍵信息的權(quán)重設(shè)置,極大地改善了由于BERT模型造成的無(wú)關(guān)信息干擾問(wèn)題,提高了情感識(shí)別的精度.
首先,模型對(duì)兩個(gè)通道的結(jié)果進(jìn)行處理,通過(guò)單層網(wǎng)絡(luò),將兩個(gè)通道的特征抽取結(jié)果進(jìn)行降維,將維度降到原來(lái)的一半,方便后續(xù)的任務(wù)執(zhí)行以及輸出結(jié)果所占比重的調(diào)節(jié),同時(shí),也可以達(dá)到提高訓(xùn)練效率的目的.然后,將兩個(gè)通道降維后的輸出結(jié)果向量進(jìn)行首尾相連的拼接操作,得到的新的向量恢復(fù)原有的正常輸出長(zhǎng)度.接著,對(duì)拼接后的向量進(jìn)行降維處理,以保證向量在之后的softmax 層中能夠正常運(yùn)行.最后,將降維后的向量輸入到 softmax 層,進(jìn)行疫情評(píng)論文本情感分類預(yù)測(cè).
實(shí)驗(yàn)使用數(shù)據(jù)是從微博網(wǎng)頁(yè)中爬取到的疫情相關(guān)的評(píng)論文本[21],共爬取了8 606條評(píng)論,并將其保存到Excel表格中.使用人工標(biāo)注的方法,對(duì)Excel表格里的8 000多條評(píng)論依次打上情感分類標(biāo)簽.本次分類分為積極情感與消極情感兩類,分別用[0,1]來(lái)表示.其中,積極情感的數(shù)據(jù)有4 423條,消極情感的數(shù)據(jù)有4 183條,數(shù)據(jù)結(jié)構(gòu)較為均衡.訓(xùn)練過(guò)程中,將70%的數(shù)據(jù)作為訓(xùn)練集,15%的數(shù)據(jù)作為測(cè)試集,15%的數(shù)據(jù)作為驗(yàn)證集.采用正則化的方法,去除文本中的特殊符號(hào)、標(biāo)點(diǎn)等干擾,并將預(yù)處理后的數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集.并對(duì)文本長(zhǎng)度進(jìn)行統(tǒng)計(jì),如圖6所示.由于90%以上的數(shù)據(jù)長(zhǎng)度集中在200字以下,本文選取的最大文本長(zhǎng)度為200.
實(shí)驗(yàn)基于 Linux 操作系統(tǒng),以Torch作為深度學(xué)習(xí)框架,以 Visual studio code作為主要開發(fā)工具;在GPU下運(yùn)行.本模型的實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置如表1所示.
表1 實(shí)驗(yàn)環(huán)境參數(shù)Tab.1 Experimental Environment Parameters
通道一中的TextCNN模型采用4種二維卷積核對(duì)語(yǔ)義特征進(jìn)行抓取,卷積核高度分別是 3、4、5、6,寬度都為文本最大長(zhǎng)度.每種卷積核的數(shù)量均為80,padding 設(shè)置為 same ,在卷積前對(duì)長(zhǎng)度不同的文本進(jìn)行補(bǔ)零操作,使得輸入具有與輸出相同的形狀,將步長(zhǎng)設(shè)為 1,使用Relu函數(shù)激活.而后使用最大池化層獲取每個(gè)卷積核中句子特征的最大值,將其降維至80*4=320,而后使用320維的特征進(jìn)行分類.
BERT 向量維度為768,BiLSTM 通道的隱藏層神經(jīng)元個(gè)數(shù)為 384.注意力層將384維度的特征降維至1變?yōu)闄?quán)重,激活函數(shù)為“Relu”.Dropout率統(tǒng)一使用的是0.3.本實(shí)驗(yàn)中,使用谷歌提供的基于維基百科中的中文語(yǔ)料庫(kù)訓(xùn)練好的模型參數(shù)作為BERT 預(yù)訓(xùn)練參數(shù)[15].對(duì)于具體的下游任務(wù),訓(xùn)練過(guò)程中對(duì)模型參數(shù)進(jìn)行微調(diào).優(yōu)化器使用的是Adam優(yōu)化器,學(xué)習(xí)率是1e-5.
模型采用 3 種常用的評(píng)估指標(biāo): Precision 準(zhǔn)確率、Recall 召回率以及二者的綜合評(píng)價(jià)指標(biāo)F1.3 種指標(biāo)的計(jì)算公式為:
(13)
(14)
(15)
式中:TP(True Positive)為真正例,也就是預(yù)測(cè)與樣本真正的標(biāo)簽相同,即預(yù)測(cè)正確的樣本個(gè)數(shù);FP(False Positive)為假正例,表示預(yù)測(cè)結(jié)果為指定標(biāo)簽,但實(shí)際情況,樣本為其他標(biāo)簽的樣本個(gè)數(shù);FN(False Negative)為假反例,表示預(yù)測(cè)結(jié)果為其他標(biāo)簽,但實(shí)際情況,樣本為指定標(biāo)簽的樣本個(gè)數(shù).
將人工標(biāo)注好的8 600多條評(píng)論依次輸入BERT-CNN,BERT-BiLSTM,BERT-BiLSTM-Attention等基線模型以及TCECMB模型.訓(xùn)練過(guò)程中,將70%的數(shù)據(jù)作為訓(xùn)練集,15%的數(shù)據(jù)作為測(cè)試集,15%的數(shù)據(jù)作為驗(yàn)證集.本次實(shí)驗(yàn)中,BERT-CNN,BERT-BiLSTM,BERT-BiLSTM-Attention以及TCECMB的實(shí)驗(yàn)結(jié)果如表2所示.
表2 模型實(shí)驗(yàn)結(jié)果Tab.2 Model experimental results
從表2中的實(shí)驗(yàn)結(jié)果可以看出:本模型在準(zhǔn)確率、召回率和F1值的結(jié)果要優(yōu)于基線模型結(jié)果,但由于數(shù)據(jù)數(shù)量有限等原因,結(jié)果差距不是特別明顯,但也說(shuō)明TCECMB模型相對(duì)于基線模型來(lái)說(shuō),在情感識(shí)別領(lǐng)域有一定的改善.
本文對(duì)于現(xiàn)有的經(jīng)典文本表示模型進(jìn)行分析,探討其結(jié)構(gòu)及優(yōu)缺點(diǎn),并對(duì)文本卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行分析,在原有的研究基礎(chǔ)上,對(duì)模型進(jìn)行了進(jìn)一步的改進(jìn),由于采用人工標(biāo)注方法劃分評(píng)論情感類別,本文應(yīng)用的評(píng)論數(shù)據(jù)有限,未在更大的數(shù)據(jù)集上對(duì)模型進(jìn)行驗(yàn)證.模型中存在較多的參數(shù),需要在實(shí)驗(yàn)中不斷調(diào)節(jié),耗時(shí)較多且對(duì)實(shí)驗(yàn)硬件設(shè)備要求高.在接下來(lái)的工作中,會(huì)通過(guò)改變注意力機(jī)制引用位置及類型等,嘗試取代TextCNN,來(lái)提高模型運(yùn)行效率.另外,本文在進(jìn)行特征拼接時(shí)運(yùn)用的是傳統(tǒng)的全連接層拼接,接下來(lái)可以嘗試運(yùn)用新的拼接方法,實(shí)現(xiàn)信息更好地融合傳遞.
湘潭大學(xué)自然科學(xué)學(xué)報(bào)2022年3期