游 蘭,曾 晗,韓凡宇,金 紅,3,崔海波,4,張家合
(1.湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,湖北 武漢 430062;2.湖北省軟件工程工程技術(shù)研究中心,湖北 武漢 430062;3.智慧政務(wù)與人工智能應(yīng)用湖北省工程研究中心,湖北 武漢 430062;4.湖北省教育信息化工程技術(shù)研究中心,湖北 武漢 430062)
情感識別是從機(jī)器角度感知、理解人類通過文本、圖像等介質(zhì)所表達(dá)的情感意圖,是人工智能的關(guān)鍵技術(shù)之一。當(dāng)前,社交網(wǎng)站是人們關(guān)注時(shí)事和分享個(gè)人觀點(diǎn)的重要平臺,每天會產(chǎn)生海量的非結(jié)構(gòu)化文本評論,這些評論通常帶有發(fā)表者的主觀情感意圖。社交評論的情感識別對于輿情管控[1]、商業(yè)營銷[2-3]、社會治理[4]等有極為重要的意義,是近年自然語言處理領(lǐng)域的研究熱點(diǎn)之一。
社交網(wǎng)絡(luò)文本具有情感語義豐富、文本長度不一等典型特征,如何從長短不一的文本中判斷情感極性是當(dāng)前情感識別系統(tǒng)迫切需要解決的關(guān)鍵問題[5]。傳統(tǒng)的Word2Vec[6]或GloVe[7]詞向量預(yù)訓(xùn)練模型在一定程度上能夠?qū)W習(xí)到詞語的上下文信息,但存在不同語境下同一詞語表達(dá)了相同語義的模型語義偏差。例如,“這臺車的性價(jià)比真高”和“這臺車的油耗真高”,其中“真高”在前者表達(dá)積極評論,在后者中表達(dá)消極評論,該方法難以識別。采用傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型 (Convolution Neural Network,CNN)[8]進(jìn)行文本分類任務(wù)時(shí),能夠有效提取詞語表示中的局部特征,但忽略了長距離上下文之間的語義關(guān)聯(lián)性。該文使用基于Transformer的雙向編碼表征模型(Bidirectional Encoder Representations from Transformers,BERT)[9],通過動態(tài)調(diào)整詞向量語義特征,并采用雙向門控循環(huán)單元 (Bidirectional Gated Recurrent Unit,BiGRU)[10]進(jìn)行語義編碼,以增強(qiáng)文本的語義表達(dá),從而挖掘網(wǎng)絡(luò)文本中更深層次的長距離上下文情感語義信息。
如今,多數(shù)模型采用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)[11-13]的方法對文本情感進(jìn)行預(yù)測,取得了較大進(jìn)展。然而多數(shù)模型均為單一模型,其具有隨機(jī)性。針對現(xiàn)有研究對文本的深層情感語義特征的提取不足以及泛化能力有限等問題,該文提出了基于BERT-BiGRU多模集成學(xué)習(xí)的深層情感語義識別模型。主要貢獻(xiàn)如下:
(1)采用BERT預(yù)訓(xùn)練模型代替以往傳統(tǒng)模型的詞嵌入層,獲得評論文本的隱含語義詞向量表示,再通過BiGRU提取上下文的深層語義特征,提高模型對評論文本情感語義的提取能力;
(2)通過數(shù)據(jù)擾動和投票策略的集成學(xué)習(xí),融合多個(gè)優(yōu)異且具有差異性的情感識別模型,得到一個(gè)穩(wěn)定且性能均衡的情感分類器,提高了模型的泛化能力;
(3)在公共數(shù)據(jù)集上進(jìn)行的多組對比實(shí)驗(yàn)表明,提出的基于BERT-BiGRU多模集成學(xué)習(xí)的深層情感語義識別方法情感分類效果更好。
情感識別相關(guān)研究已積累了不少的成果。早期,大多數(shù)情感識別基于語義規(guī)則的情感詞典或傳統(tǒng)機(jī)器學(xué)習(xí)方式,通過計(jì)算情感詞的權(quán)重得出情感傾向[14]。但情感識別的質(zhì)量高度依賴于情感詞典和判斷規(guī)則的構(gòu)建,且大多數(shù)情感詞典需要人工構(gòu)造。隨后,傳統(tǒng)機(jī)器學(xué)習(xí)方法被使用。Pang等人[15]使用SVM、樸素貝葉斯和最大熵等算法來分析電影評論情感傾向,實(shí)驗(yàn)表明文本特征與SVM算法組合的效果更佳。Hu等人[16]提取評論中的情感詞,根據(jù)句子中占主導(dǎo)的情感極性得到句子的情感傾向。傳統(tǒng)機(jī)器學(xué)習(xí)的準(zhǔn)確率較情感詞典的方法有所提升,但其需要借助高質(zhì)量的特征構(gòu)造和專業(yè)領(lǐng)域知識。
神經(jīng)網(wǎng)絡(luò)方法近年來在自然語言處理領(lǐng)域越來越受學(xué)者們的重視。性能表現(xiàn)較好的情感識別模型大多以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)、卷積神經(jīng)網(wǎng)絡(luò)或結(jié)合多個(gè)神經(jīng)網(wǎng)絡(luò)[17,18]為基礎(chǔ)構(gòu)建。如Kim等人[8]提出TextCNN模型,將訓(xùn)練好的詞向量送入CNN中實(shí)現(xiàn)文本情感分類;陳珂等人[19]將不同特征信息結(jié)合形成不同的網(wǎng)絡(luò)通道,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,學(xué)習(xí)到句子更多的隱藏特征信息,但卷積神經(jīng)網(wǎng)絡(luò)在長距離文本建模方面能力受限。Socher等人[20]提出利用遞歸神經(jīng)網(wǎng)絡(luò)來構(gòu)建情感樹,在二元化的句法樹結(jié)構(gòu)上進(jìn)行語義合成,提高了短文本情感識別的準(zhǔn)確率;Wang等人[21]利用長短期記憶(Long-Short Term Memory,LSTM)網(wǎng)絡(luò)預(yù)測文本情感極性。這些基于RNN及其變體LSTM模型能夠捕捉到較長距離的依賴關(guān)系,但仍然存在無法編碼從后到前的問題。針對該問題,Zhang等人[10]提出一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的分層多輸入輸出模型,該模型采用兩個(gè)GRU來獲取詞性和句子的詞向量表示,加快了多標(biāo)簽情感識別的計(jì)算效率。李磊等人[22]將對象信息與文本信息進(jìn)行融合,利用注意力機(jī)制強(qiáng)化的Bi-LSTM模型得到評論文本的情感分類結(jié)果。
上述文獻(xiàn)所使用的語言模型均為Word2Vec[6]或GloVe[7],它們均屬于靜態(tài)詞向量,集中于獲得詞語淺層特征表示,無法進(jìn)一步解決相同詞語在不同的場景下多義性的問題。Devlin等人[9]提出BERT預(yù)訓(xùn)練模型,使用深度雙向Transformer[23]模型,可以隨時(shí)根據(jù)上下文信息動態(tài)調(diào)整詞向量,解決了傳統(tǒng)語言模型存在的一詞多義問題。曹蕊等人[24]設(shè)計(jì)并研發(fā)了基于BERT-BiGRU多模集成的食品安全輿情分析系統(tǒng),該系統(tǒng)將情感分析后的結(jié)果在地圖可視化、熱力圖等多個(gè)模塊進(jìn)行可視化展示。
此外,訓(xùn)練好的情感分類模型想具有良好的適用性,則需要強(qiáng)大的泛化能力。在以往的模型中,Wan等人[25]基于樸素貝葉斯、SVM、C4.5決策樹和隨機(jī)森林等多種分類模型集成在一起,涵蓋不同的情感特征,克服了單成員模型處理結(jié)果的不足。Deriu等人[26]訓(xùn)練兩種不同結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)分類器,再將預(yù)測結(jié)果送入到隨機(jī)森林算法,其性能優(yōu)于其他情感分類方法。
在現(xiàn)有研究基礎(chǔ)上,針對傳統(tǒng)語言模型的一詞多義和特征抽取能力較弱的問題,該文提出BERT-BiGRU模型。首先,通過BERT預(yù)訓(xùn)練模型表達(dá)文本的隱含語義,再采用比雙向LSTM結(jié)構(gòu)更簡單、運(yùn)算速度更快的BiGRU模型,挖掘文本評論間的深層語義信息??紤]到單模型容易出現(xiàn)泛化能力不足的問題,采用交叉驗(yàn)證的方式訓(xùn)練數(shù)據(jù)集,然后以投票策略結(jié)合多個(gè)BERT預(yù)訓(xùn)練模型組成的基分類器,使集成模型獲得最佳的預(yù)測結(jié)果和泛化性能。
基于BERT-BiGRU多模集成學(xué)習(xí)深層情感語義的算法模型流程如圖1所示。第一步是對原始數(shù)據(jù)集進(jìn)行預(yù)處理,去除噪聲數(shù)據(jù);第二步是構(gòu)建單個(gè)情感識別模型,將BERT預(yù)訓(xùn)練語言模型與BiGRU拼接得到文本分類模型;第三步,為了增強(qiáng)情感識別模型的通用性,構(gòu)建集成情感識別模型。分別通過數(shù)據(jù)擾動的方式和基于BERT系列預(yù)訓(xùn)練模型得到多個(gè)情感基分類器,將步驟二的分類結(jié)果與集成模塊輸出的結(jié)果進(jìn)行投票決策。
圖1 算法流程
圖1中的BERT是由中文維基百科的數(shù)據(jù)進(jìn)行大規(guī)模訓(xùn)練得到的最終模型。BERT-wwm-ext相對于BERT使用的是中文維基百科數(shù)據(jù)和通用(百科、新聞、問答)數(shù)據(jù),同時(shí)增加了訓(xùn)練步數(shù)。BERT-BiLSTM使用BERT得到每條文本的特征向量,將其作為雙向LSTM的輸入,挖掘網(wǎng)絡(luò)文本中更深層次的長距離上下文情感語義信息。
該文使用了BERT系列的預(yù)訓(xùn)練語言模型獲取輸入文本的語義表示{d1,d2,…,dn},其中n表示模型的輸入最大長度。如果文本長度小于n,則將通過BERT模型得到的小于n的輸出文本語義表示進(jìn)行填充,填充多個(gè)m維零向量直至輸出序列長度為n;如果文本長度大于n,則只輸出前n長度的文本語義表示。
為了進(jìn)一步得到文本間的內(nèi)在聯(lián)系,將經(jīng)過BERT模型得到的語義表示作為BiGRU模型的輸入。通過正向GRU來獲取到所有過去時(shí)間序列中的完整上下文信息,再通過反向GRU獲取所有未來時(shí)間序列的完整上下文,計(jì)算公式如下:
(1)
(2)
BiGRU在正負(fù)向的隱藏層上對輸入表示dn進(jìn)行計(jì)算,得到dn隱藏狀態(tài)ht,將正負(fù)GRU采用拼接策略:
(3)
圖2 BERT-BiGRU模型結(jié)構(gòu)
得到BiGRU的隱藏狀態(tài),計(jì)算公式如下:
H={h1,h2,…,hd}
(4)
最后,使用全局平均池化來代替全連接層,得到一維的特征向量,送入softmax函數(shù)得到評論文本的情感類別,如公式(5)所示:
TEXTC=softmax(WtH+bt)
(5)
其中,Wt表示全局平均池化層的權(quán)重參數(shù),bt表示偏置值,最后得到BERT-BiGRU模型的輸出TEXT_C。模型結(jié)構(gòu)如圖2所示。
由機(jī)器學(xué)習(xí)算法的誤差分析[27]可知,要使訓(xùn)練后的模型保持良好的泛化能力,則需要降低模型的泛化誤差。如公式(6)所示,泛化誤差由偏差、方差和噪聲組成。
E(f;D)=bias2(χ)+var(χ)+ε2
(6)
其中,bias表示偏差,即期望輸出與真實(shí)輸出的差別。var表示方差,即相同樣本下,不同批次訓(xùn)練集產(chǎn)生的方差。ε表示噪音,刻畫學(xué)習(xí)問題本身的難度,屬于模型的固有誤差,該文不予考慮。
隨著模型復(fù)雜度的上升,偏差逐漸減小,方差增大,如圖3所示。為了尋求最優(yōu)平衡點(diǎn),本節(jié)采用數(shù)據(jù)擾動的方法,改變交叉驗(yàn)證中每一折的數(shù)據(jù)劃分方式,即K折交叉驗(yàn)證來控制偏差的大小。
首先,對訓(xùn)練集采用K折交叉驗(yàn)證的方式對原始數(shù)據(jù)集分組,將訓(xùn)練集劃分為互不相交的K份數(shù)據(jù),取其中一個(gè)子集作為驗(yàn)證集,剩余K-1份作為訓(xùn)練集,迭代K次。然后,取K組測試集預(yù)測結(jié)果的平均值作為分類器最終預(yù)測標(biāo)簽。
集成學(xué)習(xí)[28]的思想是構(gòu)建多個(gè)基分類器,將其組合成性能更優(yōu)的強(qiáng)分類器。該方法的優(yōu)點(diǎn)在于即使某個(gè)基分類器的結(jié)果出現(xiàn)錯(cuò)誤,其他的基分類器能夠及時(shí)改正。同時(shí)在構(gòu)建基分類器時(shí),需要注意每個(gè)基分類器之間要具有一定差異性。使得在各自方法上的結(jié)果達(dá)到最優(yōu),學(xué)習(xí)能力越強(qiáng),關(guān)聯(lián)性越低。
該文通過結(jié)合策略對基分類器的結(jié)果進(jìn)行融合,使通過集成學(xué)習(xí)后的模型預(yù)測效果達(dá)到最好。首先統(tǒng)計(jì)所有分類器的輸出類別,在生成情感識別的類別概率分布基礎(chǔ)上采用多數(shù)投票策略進(jìn)行決策。給定所有個(gè)體分類器的分類結(jié)果同樣的權(quán)重,各個(gè)基分類器均只能投一票,采用少數(shù)服從多數(shù)原則,最后得票數(shù)最高的類別將作為該條評論的最終預(yù)測結(jié)果。投票公式如下所示:
(7)
為了驗(yàn)證模型的通用性和有效性,使用公開的新冠疫情網(wǎng)民情緒識別數(shù)據(jù)集COV19,由CCF舉辦的2020科學(xué)防疫大數(shù)據(jù)公益挑戰(zhàn)賽權(quán)威發(fā)布,以及中科院譚松波博士收集整理的酒店評論語料ChnSentiCorp。實(shí)驗(yàn)結(jié)果對比則采用近年表現(xiàn)較好的情感識別模型,針對各自分類效果進(jìn)行指標(biāo)評測。
實(shí)驗(yàn)數(shù)據(jù)集一是疫情期間網(wǎng)民情緒識別數(shù)據(jù)集,包括新浪微博中與“新冠肺炎”相關(guān)的230個(gè)主題關(guān)鍵詞博文,共10萬條帶有積極、中性和消極三種情感極性的微博數(shù)據(jù)。數(shù)據(jù)集二是與酒店評論相關(guān)的語料,共1萬多條帶有積極和消極情感極性的評論數(shù)據(jù)。
該文去除了2個(gè)數(shù)據(jù)集中空數(shù)據(jù)、重復(fù)數(shù)據(jù)以及文字繁簡替換,清洗得到最后實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)具體情況如表1所示。
表1 實(shí)驗(yàn)使用數(shù)據(jù)統(tǒng)計(jì)
選取的最大文本長度標(biāo)準(zhǔn)為能夠覆蓋75%左右的文本內(nèi)容,不足最大長度的文本內(nèi)容使用零向量進(jìn)行填充,大于最大長度的文本內(nèi)容進(jìn)行截?cái)唷?/p>
采用的BERT詞向量預(yù)訓(xùn)練模型為中文版的BERT-Base和BERT-wwm-ext,均由12層transformers組成,其中每層transformer的隱藏層數(shù)為768,包含12個(gè)注意力頭,接入GRU單元數(shù)為128。學(xué)習(xí)率設(shè)置為2e-5,采用dropout策略,具體比率設(shè)置為0.15。
實(shí)驗(yàn)主要是對文本進(jìn)行積極、中性、消極三種情感的分類,采用的主要評價(jià)指標(biāo)有精準(zhǔn)率(Precision)、召回率(Recall)和F1值。精準(zhǔn)率(Precision)又稱為查準(zhǔn)率,是指預(yù)測結(jié)果屬于某一類的個(gè)體,實(shí)際屬于該類的比例。召回率(Recall)又稱為查全率,是指被正確預(yù)測為某個(gè)類別的個(gè)體數(shù)量與數(shù)據(jù)集中該類別個(gè)體總量的比例。F1值是綜合準(zhǔn)確率和召回率的調(diào)和平均數(shù),反映整體性能的評價(jià)指標(biāo)。
具體計(jì)算公式如下:
(8)
(9)
(10)
其中,TP(True Positive)是真正例,即預(yù)測為正樣本,實(shí)際也為正樣本;FP(False Positive)是假正例,即預(yù)測為正樣本,實(shí)際為負(fù)樣本;FN(False Negative)是假負(fù)例,即預(yù)測為負(fù)樣本,實(shí)際為正樣本。
3.4.1 單一情感識別模型的實(shí)驗(yàn)對比
該文采用兩組對比實(shí)驗(yàn),實(shí)驗(yàn)一是BERT-BiGRU與傳統(tǒng)深度學(xué)習(xí)模型的對比。
(1)TextCNN[8]。使用Word2Vec對輸入文本編碼,送入卷積神經(jīng)網(wǎng)絡(luò),利用多個(gè)不同大小的卷積核提取文本特征,最后通過全連接層進(jìn)行分類。
(2)BiGRU[23]。使用Word2Vec訓(xùn)練詞向量,送入雙向GRU,將前后的特征信息進(jìn)行關(guān)聯(lián),挖掘出各個(gè)情感特征之間的潛在聯(lián)系,獲得評論文本的情感傾向性。
(3)BiGRU-ATT[10]。在使用BiGRU抽取文本特征的基礎(chǔ)上,引用注意力機(jī)制,捕獲評論文本中的每個(gè)詞對情感語義貢獻(xiàn)程度大小,進(jìn)行加權(quán)計(jì)算。
(4)BERT[9]。使用深度雙向Transformer模型,獲取評論文本的上下文語義特征表示。
(5)BERT-BiGRU。首先,通過BERT預(yù)訓(xùn)練模型表達(dá)文本的隱含語義,再采用BiGRU模型挖掘文本評論間的深層語義信息,得到最終的情感識別結(jié)果。
表2 多個(gè)模型在COV19上的實(shí)驗(yàn)結(jié)果
表2展示了文中模型和對比模型在COV19數(shù)據(jù)集上的精準(zhǔn)率、召回率和F1值對比結(jié)果??梢钥闯?BERT模型的F1值達(dá)到0.717的分類準(zhǔn)確率,對比CNN模型的0.634、BiGRU模型的0.661,分別提升了8.3和5.6百分點(diǎn),驗(yàn)證了BERT預(yù)訓(xùn)練模型明顯優(yōu)于基于傳統(tǒng)的詞向量訓(xùn)練模型。其中,基于Word2Vec的詞向量模型各項(xiàng)指標(biāo)較低,主要是受中文表達(dá)一詞多義的影響。而BERT模型會根據(jù)上下文的含義動態(tài)變化詞向量,更能準(zhǔn)確反映出句子的語義信息??梢夿ERT模型比在BiGRU加入單個(gè)注意力機(jī)制的BiGRU-ATT模型提高了5.3百分點(diǎn)。在相同的Word2Vec詞向量模型下,BiGRU模型比CNN模型高了2.7百分點(diǎn),可以看出,使用BiGRU比CNN提取文本特征的效果更佳。故BERT后接入BiGRU的分類效果取得了最佳的分類效果,說明在BERT的輸出中加入BiGRU能夠提取句子中更深層次的情感特征,從而提升分類準(zhǔn)確性。
3.4.2 集成策略對實(shí)驗(yàn)的影響
為了驗(yàn)證集成思想在情感識別領(lǐng)域的通用性,實(shí)驗(yàn)二將BERT預(yù)訓(xùn)練模型接入不同的網(wǎng)絡(luò),利用其訓(xùn)練語料和訓(xùn)練步數(shù)的不同,使用不同的訓(xùn)練批次和訓(xùn)練方式來達(dá)到差異性效果。最后使用投票策略達(dá)到集成效果,實(shí)驗(yàn)分別在情感二分類和三分類的數(shù)據(jù)集上進(jìn)行。模型說明如下:
(1)BERT。使用BERT-base預(yù)訓(xùn)練模型提取文本特征,訓(xùn)練批次分別設(shè)為32和16,最大文本截取長度分別為128和140,經(jīng)過3輪訓(xùn)練分別得到模型1(M1)和模型2(M2)。
(2)預(yù)訓(xùn)練模型使用BERT-wwm-ext,訓(xùn)練批次為32,最大文本截取長度為128,訓(xùn)練得到模型3(M3)。
(3)BERT-BiLSTM。使用BERT-base預(yù)訓(xùn)練模型得到每條文本的特征,經(jīng)過雙向LSTM挖掘網(wǎng)絡(luò)文本中更深層次的長距離上下文情感語義信息。再進(jìn)行5折交叉驗(yàn)證,訓(xùn)練批次設(shè)為16,最大文本截取長度為140,訓(xùn)練得到模型4(M4)。
(4)BERT-BiLSTM。訓(xùn)練方法同(3),批次設(shè)為48,訓(xùn)練得到模型5(M5)。
(5)BERT-BiGRU。使用BERT-base預(yù)訓(xùn)練模型得到每條文本的特征,經(jīng)過BiGRU的輸出,進(jìn)行5折交叉驗(yàn)證,訓(xùn)練批次分別設(shè)為16、48和64,最大文本截取長度別設(shè)為140、140、128,訓(xùn)練得到模型6(M6)、模型7(M7)和模型8(M8)。
實(shí)驗(yàn)將各個(gè)基分類器在COV19數(shù)據(jù)集上單獨(dú)預(yù)測的分類效果進(jìn)行比較分析。考慮到相同的分類器對同一個(gè)數(shù)據(jù)集的結(jié)果可能存在差別,對各個(gè)模型重復(fù)運(yùn)行3次,取結(jié)果的平均值作為最后的評價(jià)指標(biāo)。
表3 基分類器在COV19上的實(shí)驗(yàn)結(jié)果
由表3可見,同樣的網(wǎng)絡(luò)結(jié)構(gòu),使用不同的超參數(shù)集進(jìn)行訓(xùn)練,所表現(xiàn)的分類結(jié)果在不同的評價(jià)指標(biāo)下各有優(yōu)勢。比如BERT模型之間的差距達(dá)到了0.01,而BERT-BiLSTM和BERT-BiGRU使用不同的超參數(shù),差異性在0.002~0.004之間。對比于傳統(tǒng)的數(shù)據(jù)集單次劃分,該文加入的5折交叉驗(yàn)證,多次劃分訓(xùn)練數(shù)據(jù)集使數(shù)據(jù)集間互不交叉,大幅度降低了隨機(jī)劃分?jǐn)?shù)據(jù)集帶來的偶然性,增強(qiáng)了模型的穩(wěn)定性。在多數(shù)評價(jià)指標(biāo)下,BERT-BiLSTM、BERT-BiGRU在批次48和最大文本截取長度140上分別達(dá)到了同類模型最優(yōu)。
為了更直觀地得到各個(gè)分類器之間的差異程度,借助協(xié)方差來度量模型間的線性相關(guān)程度,對模型的預(yù)測結(jié)果進(jìn)行歸一化處理,得到皮爾遜相關(guān)系數(shù)作為相關(guān)度指標(biāo),展示以上8種模型的相關(guān)度分析。
圖4 基于Pearson的模型預(yù)測結(jié)果相關(guān)度分析
由圖4可知,各個(gè)模型的皮爾遜相關(guān)系數(shù)均在0.825以上。圖中顏色越淺,代表模型之間的相關(guān)性越弱??梢缘弥?M1、M2和M3與其他模型的相關(guān)性較弱,這3種模型都是基于BERT預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練。以上做法是通過改變模型的訓(xùn)練參數(shù)生成有差異性的基分類器。而后5種模型是在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上融合了其他神經(jīng)網(wǎng)絡(luò)模型,主要是改變了模型的網(wǎng)絡(luò)結(jié)構(gòu)及訓(xùn)練參數(shù),使各個(gè)模型內(nèi)部的分類原理不同及提取特征的能力也各不相同。
綜上所述,依據(jù)集成學(xué)習(xí)的兩個(gè)前提條件,一是基分類器的分類效果要達(dá)到一定的優(yōu)越性,如果基分類器的分類錯(cuò)誤率過高將會導(dǎo)致集成學(xué)習(xí)的準(zhǔn)確率降低;二是基分類器之間要具有差異性,即預(yù)測結(jié)果需要多樣性,如果差異性過小,那集成結(jié)果基本無變化。因此,由表3和圖4得出,選取M2、M3、M5、M7作集成學(xué)習(xí)的基分類器,對測試集的預(yù)測結(jié)果使用多數(shù)投票法得到最終的分類結(jié)果,集成結(jié)果如表4所示。
表4 COV19的最終集成實(shí)驗(yàn)結(jié)果
集成后的F1值達(dá)到0.732,相比最優(yōu)的單模型BERT-BiGRU提升了0.3百分點(diǎn)。為了進(jìn)一步驗(yàn)證所提模型的泛化能力,將以上模型在ChnSenti語料上進(jìn)行測試,結(jié)果如表5所示。
表5 集成學(xué)習(xí)在ChnSenti上的實(shí)驗(yàn)結(jié)果
表5展示了4個(gè)單模型和集成后的模型在酒店語料上的分類效果。由表可見,BERT-BiGRU在F1評價(jià)指標(biāo)上都超越了其他三種模型,分別提高了1.4,2.8和0.8百分點(diǎn)。證明了BERT-BiGRU比其他模型能夠挖掘更深層次的語義特征,也驗(yàn)證了提出在BERT輸出表示后接入BiGRU模型的方法具有有效性和優(yōu)越性。各模型的F1值均在0.92以上,表明在二分類上各單模型表現(xiàn)均較為優(yōu)異,導(dǎo)致模型間的差異性不夠強(qiáng),集成后的F1值提升不夠明顯,僅比最佳模型BERT-BiGRU提高了0.1百分點(diǎn)。由此可見,所使用的集成學(xué)習(xí)方法的正確性,需要集成表現(xiàn)優(yōu)異且差距性較大的模型,才能獲得明顯的提升效果。
圍繞社交網(wǎng)絡(luò)文本的情感識別研究熱點(diǎn),提出了基于BERT-BiGRU多模集成學(xué)習(xí)的深層情感語義識別模型。首先,該模型采用BERT預(yù)訓(xùn)練模型代替以往傳統(tǒng)模型的詞嵌入層,獲得評論文本的隱含語義詞向量表示,再通過BiGRU提取上下文的深層語義特征,解決了傳統(tǒng)語言模型存在的不同語境下多義詞和深層情感語義抽取能力較弱的問題,實(shí)現(xiàn)了單模型下最優(yōu)的情感識別效果。為了提高模型的泛化能力,該模型在綜合分析模型的方差和偏差的基礎(chǔ)上,將集成學(xué)習(xí)的思想應(yīng)用到情感識別上,觀測不同模型在不同參數(shù)和數(shù)據(jù)集上的表現(xiàn),采用交叉驗(yàn)證的方式訓(xùn)練數(shù)據(jù)集,然后以投票策略結(jié)合多個(gè)BERT預(yù)訓(xùn)練模型組成的基分類器,使得它們具有互相糾錯(cuò)的能力,從而獲得更優(yōu)的集成結(jié)果。最后,通過在三分類和二分類語料上分別設(shè)計(jì)實(shí)驗(yàn),展示出BERT-BiGRU模型在多個(gè)評價(jià)指標(biāo)上優(yōu)于現(xiàn)有大多數(shù)情感識別模型。
在未來研究中,還需考慮使用更豐富數(shù)據(jù)來挖掘情感語義,比如表情符號,圖片或視頻語義來輔助挖掘深層情感語義。