(黎明職業(yè)大學(xué)信息與電子工程學(xué)院,福建 泉州 362000)
在即時(shí)通訊軟件的使用過程中,用戶會(huì)產(chǎn)生大量的對(duì)話信息,他們會(huì)在某個(gè)時(shí)段針對(duì)某個(gè)話題表達(dá)個(gè)人的想法和情緒。在一個(gè)多人多事務(wù)的即時(shí)通訊系統(tǒng)中[1],主話題可嵌入子話題,形成一棵話題樹,用戶在某個(gè)子話題樹中發(fā)表分組信息,具有邏輯上的連續(xù)性,從整體上可以反映出用戶對(duì)某個(gè)具體話題的意見和情緒[2]。管理員創(chuàng)建一個(gè)主話題,一般是為了完成一項(xiàng)核心任務(wù)和其他子任務(wù),任務(wù)組成員有時(shí)不方便直接在群組里表達(dá)意見或表露真實(shí)情緒,由于群內(nèi)成員眾多,發(fā)言內(nèi)容也比較繁雜,話題管理員不一定能發(fā)現(xiàn)用戶的真實(shí)情感,話題管理員如果能及時(shí)地發(fā)現(xiàn)任務(wù)組成員存在的不滿和看法,消除任務(wù)溝通存在的問題和風(fēng)險(xiǎn),將有助于任務(wù)的順利完成。
情感分析是自然語言處理(natural language processing,NLP)的熱點(diǎn)領(lǐng)域。情感分析即情感傾向性分類,指的是識(shí)別主觀性文本的傾向是肯定還是否定的,或者是正面還是負(fù)面的。NLP是一項(xiàng)研究人與機(jī)器間使用自然語言進(jìn)行信息交互的技術(shù)理論和方法,是一項(xiàng)融合計(jì)算機(jī)、語言學(xué)、數(shù)學(xué)等各個(gè)學(xué)科的方法[3]。傳統(tǒng)的情感分析是將詞句視為一個(gè)詞袋,并查閱“積極”和“消極”單詞的參照列表,以確定該句子的情緒。情感分析主要有基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法,國外對(duì)于機(jī)器學(xué)習(xí)方法的研究較多,國內(nèi)傾向于情感詞典方法的研究。自從深度學(xué)習(xí)在情感分析上取得較好的分類效果后,深度學(xué)習(xí)成為國內(nèi)外的主要研究方向[4]。本文使用深度學(xué)習(xí)技術(shù)對(duì)用戶發(fā)言進(jìn)行情感分析。近年來,預(yù)訓(xùn)練語言模型(pre-trained language models,PLM)在各種下游自然語言處理任務(wù)中表現(xiàn)出卓越的性能,受益于預(yù)訓(xùn)練階段的無監(jiān)督學(xué)習(xí)目標(biāo),預(yù)訓(xùn)練語言模型可以有效地捕獲文本中的語法和語義,并為下游 NLP 任務(wù)提供蘊(yùn)含豐富信息的語言表示[5]。預(yù)訓(xùn)練語言模型的思路是首先在大規(guī)模語料庫中預(yù)訓(xùn)練模型,然后在各種下游任務(wù)中對(duì)這些模型進(jìn)行微調(diào),以達(dá)到最先進(jìn)的結(jié)果。BERT(bidirectional encoder representation from transformers)[6]是Google 2018年推出的通用的基于Transformer用于深度雙向語言表征模型,在BERT發(fā)表時(shí)提出的11個(gè)NLP下游子任務(wù)中取得當(dāng)時(shí)最好的成績。由于 Transformer模型的表現(xiàn)十分優(yōu)異,幾乎所有的預(yù)訓(xùn)練語言模型都采用了Transformer作為骨干網(wǎng)絡(luò)。
鑒于BERT的優(yōu)良表現(xiàn),本文提出對(duì)即時(shí)通訊產(chǎn)生的分組文本進(jìn)行分析時(shí),采用BERT預(yù)訓(xùn)練模型的手段。由于即時(shí)通訊平臺(tái)收集到語料加標(biāo)注需要的人工成本較高,所以選取相對(duì)少量數(shù)據(jù)與基線語料相組合,作為微調(diào)(fine-tuning)輸入數(shù)據(jù)。
隨著深度學(xué)習(xí)的普遍應(yīng)用,有關(guān)NLP的特征提取器不斷發(fā)展,包括循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neutral network,RNN)、長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(long short term memory,LSTM)以及現(xiàn)階段主流模型Transformer及其衍生模型。Transformer在NLP領(lǐng)域已經(jīng)產(chǎn)生重要影響。相對(duì)于RNN得通過循環(huán)按順序串行處理句子出現(xiàn)的詞,Transformer可以并行處理句子中出現(xiàn)的每個(gè)詞,訓(xùn)練速度更快?;赥ransformer的BERT預(yù)訓(xùn)練模型產(chǎn)生后,在文本分類、機(jī)器翻譯、情感分析、問答等許多NLP領(lǐng)域都有優(yōu)異表現(xiàn)和應(yīng)用,其中BERT預(yù)訓(xùn)練模型采用的Transformer結(jié)構(gòu)起到關(guān)鍵作用。Transformer模型結(jié)構(gòu)如圖1所示。Transformer模型的優(yōu)異表現(xiàn)主要來自以下幾個(gè)關(guān)鍵設(shè)計(jì):
1)詞向量化是Transformer的核心之一,使用詞嵌入技術(shù)embedding,將句子中的每一個(gè)詞映射為一個(gè)向量,同時(shí)為了表示詞在句中的位置,則在詞向量中加入位置信息,即使用位置編碼,將位置矩陣PE加到前面的embedding矩陣,從而得到包含位置信息的句子矩陣。
2)編碼設(shè)計(jì)也很精巧,在得到句子矩陣后,將其傳給編碼器進(jìn)行編碼,在Transformer設(shè)計(jì)中編碼使用了自注意力機(jī)制(self-attention)。在自注意力層中詞向量與3個(gè)可訓(xùn)練的、維度相同的WQ、WK、WV矩陣相乘,分別得到Query、Key和Value3個(gè)向量。Query是查詢向量,Key和Value是鍵值對(duì),通過查詢找到相關(guān)性較大的Key,再以此作為權(quán)重與Value相乘輸出。自注意力結(jié)構(gòu)見圖2。圖2中的掩蓋(Mask)是消除對(duì)塊輸入進(jìn)行補(bǔ)全操作帶來的影響,一般是設(shè)置為極大的負(fù)數(shù),從而使得在softmax層上輸出概率為0,而相關(guān)性較高的輸出值就相對(duì)較高。再用歸一化函數(shù)值softmax乘以值向量Value得到Z矩陣,最后對(duì)Z矩陣進(jìn)行求和就得到了自注意力值。自注意力機(jī)制不是Transformer獨(dú)有的,相對(duì)于采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)設(shè)置超參數(shù)卷積窗的方式實(shí)現(xiàn)自注意力機(jī)制[7],它的引入不僅簡化了模型的復(fù)雜度,而且使得詞向量不僅包含單詞本身,還包含了與上下文關(guān)系,詞向量傳送給前饋神經(jīng)網(wǎng)絡(luò)繼續(xù)進(jìn)行編碼。自注意力計(jì)算公式如下:
圖1 Transformer模型結(jié)構(gòu)Fig.1 Transformer model structure
圖2 自注意力結(jié)構(gòu)圖Fig.2 Self-attention structure diagram
以BERT為代表的NLP領(lǐng)域預(yù)訓(xùn)練模型以及特征提取器Transformer取得了十分顯著的成效,有關(guān)預(yù)訓(xùn)練模型的有效性也受到深入研究。BERT預(yù)訓(xùn)練過程包括兩個(gè)步驟:
1)先隨機(jī)用字符[MASK]遮蓋15%的詞匯,讓模型根據(jù)上下文對(duì)被遮蓋詞匯進(jìn)行預(yù)測,初步訓(xùn)練模型參數(shù)。
2)把句子樣本分成相等的兩部分,一半是有上下文關(guān)系,一半是上下文沒有關(guān)系。將樣本數(shù)據(jù)輸入模型,通過判斷兩條句子是否是上下文來繼續(xù)訓(xùn)練模型參數(shù)。損失函數(shù)是兩部分的平均值。這兩步預(yù)訓(xùn)練結(jié)束后的Transformer 模型是通用的語言表征模型。
Google在使用了大量的數(shù)據(jù)和計(jì)算時(shí)間,訓(xùn)練并公開了幾種BERT預(yù)訓(xùn)練模型,其中包括中文版本,也是本文實(shí)驗(yàn)中預(yù)訓(xùn)練選擇的版本。該模型包括12層Transformer的編碼器、768個(gè)隱藏單元和12個(gè)注意力頭,含有110 M個(gè)參數(shù)[6]。BERT在提出之后又在NLP中文任務(wù)中持續(xù)改進(jìn),包括全字掩碼(whole word masking),解決了預(yù)訓(xùn)練過程中隨機(jī)掩蓋導(dǎo)致的部分掩蓋的弊端。Cui Yiming等[8]對(duì)中文文本也進(jìn)行了全字掩碼。
BERT預(yù)訓(xùn)練完成之后,需要在具體任務(wù)進(jìn)行微調(diào)。微調(diào)任務(wù)分為:基于句子對(duì)的分類任務(wù)和基于單個(gè)句子的分類任務(wù);情感分析屬于基于單個(gè)句子的分類任務(wù)。根據(jù)[CLS]標(biāo)志生成一組特征向量C,C通過一個(gè)softmax層或者二分類函數(shù)Sigmoid輸出分類結(jié)果。本文在該步驟中提出增加輸入數(shù)據(jù)的情感部分,讓模型學(xué)習(xí)不同領(lǐng)域的情感信息,以增強(qiáng)領(lǐng)域敏感度。
本文提出的模型訓(xùn)練方法是一個(gè)有監(jiān)督的訓(xùn)練過程,首先把獲得的語料數(shù)據(jù)按標(biāo)簽進(jìn)行分類后輸入到BERT中進(jìn)行特征提取,然后編碼嵌入更新生成詞向量,使用詞向量進(jìn)行深度學(xué)習(xí),訓(xùn)練得到模型,對(duì)模型進(jìn)行評(píng)估。然后再用得到的模型對(duì)目標(biāo)數(shù)據(jù)進(jìn)行測試,得到實(shí)際預(yù)測結(jié)果。實(shí)驗(yàn)流程如圖3所示。
圖3 模型訓(xùn)練及預(yù)測流程圖Fig.3 Model training and prediction flowchart
從BERT官網(wǎng)下載支持中文的預(yù)訓(xùn)練模型[9],再從GitHub獲取新浪微博情感分析標(biāo)記語料共10萬條,其中帶情感標(biāo)注的正負(fù)向評(píng)論各約5萬條[10],用數(shù)據(jù)分析工具Pandas查看數(shù)據(jù)序號(hào)、標(biāo)簽及微博內(nèi)容,其中標(biāo)簽值1 表示正向評(píng)論,0 表示負(fù)向評(píng)論。選取其中幾條內(nèi)容(表1),列出了微博的序號(hào)、標(biāo)簽和內(nèi)容,內(nèi)容中的文字包括表情符號(hào)、賬號(hào)(昵稱)、標(biāo)點(diǎn)符號(hào)等。
表1 含情感標(biāo)記的新浪微博部分語料
BERT要?jiǎng)澐钟?xùn)練集、驗(yàn)證集和測試集。將新浪微博情感分析標(biāo)記語料按99∶1比例分為訓(xùn)練集、驗(yàn)證集。測試集按長度不少于10個(gè)字符的規(guī)則,篩選出即時(shí)通訊數(shù)據(jù)庫中的數(shù)據(jù),共提取2 000條記錄,將這2 000條記錄人工標(biāo)注為0,1。
Google已經(jīng)針對(duì)中文完成了BERT的預(yù)訓(xùn)練模型,所以使用時(shí)運(yùn)行run_classsifier.py進(jìn)行模型分類任務(wù)的fine-tuning。執(zhí)行步驟如下:BERT代碼中的Processor類負(fù)責(zé)對(duì)輸入數(shù)據(jù)的處理,這里按照BERT既定的使用方法,繼承DataProcessor類并命名為WeiboProcessor,重載get_labels、get_train_examples,get_dev_examples和get_test_examples這幾個(gè)方法,其中g(shù)et_labels方法用于判斷情感二分類,簡單返回0和1。get_train_examples,get_dev_examples和get_test_examples方法分別用于訓(xùn)練、交叉驗(yàn)證和測試任務(wù)數(shù)據(jù)。接下來打開BERT下載文件中的bert_config.json,設(shè)置的運(yùn)行參數(shù)。最后執(zhí)行run_classsifier.py進(jìn)行模型的訓(xùn)練。
BERT經(jīng)過train訓(xùn)練集訓(xùn)練之后,模型基于dev驗(yàn)證集評(píng)估出正確率指標(biāo),結(jié)果顯示test集與dev集準(zhǔn)確率相比有5%的下降。在分析數(shù)據(jù)時(shí),發(fā)現(xiàn)源領(lǐng)域的情感分類數(shù)據(jù)對(duì)目標(biāo)領(lǐng)域的數(shù)據(jù)進(jìn)行分類存在困難。有些詞在微博和通訊聊天中存在不同的情感傾向,這類問題在許多文章中已經(jīng)都有分析[11],對(duì)于情感分類的詞有兩個(gè)維度:1) 詞對(duì)分類任務(wù)的重要性;2) 詞的情感傾向。有的詞在不同領(lǐng)域的情感傾向?qū)Ψ诸愐埠苤匾?,例如上述引用論文中提到單詞 good ,對(duì)電影領(lǐng)域和電子設(shè)備領(lǐng)域的分類重要性都很高,并且在兩個(gè)領(lǐng)域的情感傾向是一致的。而 unpredictable 這樣的單詞對(duì)電影領(lǐng)域和電子設(shè)備領(lǐng)域的情感分類都很重要,但是在這兩個(gè)領(lǐng)域的情感傾向不一樣(在電影領(lǐng)域表示給人驚喜,而在電子設(shè)備領(lǐng)域通常會(huì)指不可預(yù)期的故障)。在跨領(lǐng)域情感分類問題中,涉及樞軸(pivot)和非樞軸(non-pivot)概念,樞軸是指情感不隨領(lǐng)域變化的單詞,非樞軸是指情感隨領(lǐng)域變化的單詞。識(shí)別樞軸詞和非樞軸詞對(duì)跨領(lǐng)域情感分類有很大作用。從文獻(xiàn)[12]的實(shí)驗(yàn)數(shù)據(jù)可以看出,跨領(lǐng)域情感分類任務(wù)中學(xué)習(xí)構(gòu)建樞軸特征可以提升模型性能。
中文也存在類似問題,例如下列兩個(gè)句子:
電子產(chǎn)品領(lǐng)域:這個(gè)屏幕很好,很清晰。
餐飲領(lǐng)域:他們的服務(wù)不錯(cuò),很周到。
在這個(gè)例子中,“很好”是領(lǐng)域不變特征,即在不同領(lǐng)域的解釋都是正向的,而“清晰”和“周到”是特定領(lǐng)域特征。由于領(lǐng)域的差異可能造成在源域中訓(xùn)練的情感分類器用在目標(biāo)域性能下降。
從BERT預(yù)訓(xùn)練任務(wù)之一的下一句預(yù)測(next sentence prediction,NSP)任務(wù)得到啟發(fā),設(shè)計(jì)一種領(lǐng)域遷移的模型訓(xùn)練任務(wù)。不同于NSP之處在于,該任務(wù)是預(yù)訓(xùn)練模型已經(jīng)完成之后執(zhí)行,目的是抽取領(lǐng)域不變的特征,從而克服領(lǐng)域間的差異。完成分類之后將[CLS]向量通過softmax層輸出。任務(wù)中的文本分為源領(lǐng)域和目標(biāo)領(lǐng)域,源領(lǐng)域即預(yù)訓(xùn)練的領(lǐng)域,目標(biāo)領(lǐng)域是要遷移的領(lǐng)域。構(gòu)造三類句子對(duì):第一類全部是源領(lǐng)域句子,第二類是上下句分別是源領(lǐng)域句子和目標(biāo)領(lǐng)域句子,第三類全部是目標(biāo)領(lǐng)域句子。句子對(duì)的組合是隨機(jī)采樣的。由于目標(biāo)領(lǐng)域的語料數(shù)量較少,因此設(shè)置這三類數(shù)據(jù)集的比例為98∶1∶1。句子格式及標(biāo)記如下:
輸入1:
[CLS]這個(gè)太贊了,生活大爆炸第六季馬上要出啦[SEP]
[SEP]終于收工啦,腳丫子快凍掉了[SEP]。
標(biāo)記:same
輸入2:
[CLS]這個(gè)手機(jī)的屏幕很好,信號(hào)也很好[SEP]
[SEP]天氣太冷了,要多穿衣服[SEP]。
標(biāo)記:diff
上述例子中,[SEP]表示分句,[CLS]放在段落開頭,不表示明顯語義,只表示融合段落其他字詞語義信息的分類特征。標(biāo)記same表示是同一領(lǐng)域,diff表示上下句不是同一個(gè)領(lǐng)域。最后用條件概率表示,公式如下:
P=softmax(CWT),其中C是[CLS]向量,W是學(xué)習(xí)的權(quán)重矩陣,T表示詞向量。
為驗(yàn)證該模型的有效性,采用BERT基礎(chǔ)模型(BERT base model)和相同語料庫作為基線模型進(jìn)行對(duì)比,句子也是隨機(jī)采樣。不同之處在于,基線模型構(gòu)造兩類句子對(duì),上下句和不是上下句各占50%。
本文實(shí)驗(yàn)的硬件環(huán)境是Intel? CoreTMi7-7770的CPU和Titan 2080Ti 11GB RAM顯卡的工作站,軟件環(huán)境是操作系統(tǒng)Anaconda 1.9.12、Tensorflow 1.14.0、Python 3.6.8。
4.2.1 評(píng)估指標(biāo)
對(duì)二分類問題的建模后的模型評(píng)估指標(biāo)常用的包括:準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、綜合評(píng)價(jià)指標(biāo)F1值(F-measure)。準(zhǔn)確率是最常見的評(píng)價(jià)指標(biāo),指的是預(yù)測正確的樣本數(shù)占所有的樣本數(shù)的比例,在正負(fù)樣本均衡的情況下,準(zhǔn)確率越高分類器越好;綜合評(píng)價(jià)指標(biāo)F1值兼顧了精準(zhǔn)率和召回率,F(xiàn)1較高說明分類器比較有效。
指標(biāo)指標(biāo)公式中包括TP、TN、FP、FN4個(gè)參數(shù),其中涉及正例和反例的概念,分別為上述的正向評(píng)論數(shù)和負(fù)向評(píng)論數(shù)。TP為真正例,將正例預(yù)測為正例的數(shù)量;TN為真負(fù)例,將負(fù)例預(yù)測為負(fù)例的數(shù)量;FP為假正例,將負(fù)例預(yù)測為正例的數(shù)量;FN為假負(fù)例,將正例預(yù)測為負(fù)例的數(shù)量。指標(biāo)公式為
4.2.2 參數(shù)設(shè)置
微調(diào)參數(shù)大部分與預(yù)訓(xùn)練相同,如激活函數(shù)、dropout等都保持不變。超參數(shù)是根據(jù)類似模型或者實(shí)踐得出的經(jīng)驗(yàn)值,其中batch_size的值是每個(gè)批次訓(xùn)練的句子數(shù)。如果設(shè)置過小,會(huì)延長訓(xùn)練實(shí)踐;如果過大,則當(dāng)損失函數(shù)曲線較為平坦時(shí),導(dǎo)致訓(xùn)練結(jié)果無法得到最佳模型。此外還要考慮硬件條件等因素,硬件性能較為一般時(shí),batch_size不能設(shè)置過大。在參考了預(yù)訓(xùn)練模型和硬件條件,以及測試了幾個(gè)近似值之后,對(duì)超參數(shù)中的學(xué)習(xí)率、訓(xùn)練周期和batch_size參數(shù)設(shè)置如表2。
表2 微調(diào)參數(shù)設(shè)置
4.2.3 對(duì)比實(shí)驗(yàn)
實(shí)驗(yàn)選擇的數(shù)據(jù)集是上述劃分的dev驗(yàn)證集和test測試集, BERT基礎(chǔ)模型作為基線模型,該模型已經(jīng)具備注意力機(jī)制、掩碼等感知能力,相較于本文提出的BERT基礎(chǔ)模型加上領(lǐng)域遷移(transfer),基礎(chǔ)模型不具備對(duì)不同領(lǐng)域數(shù)據(jù)的感知能力。在前兩種BERT之外選擇Attention-based RNN作為參照,該網(wǎng)絡(luò)是在循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的前端輸入分詞后的文本,在分類輸出前采用Attention機(jī)制融合輸入各個(gè)詞對(duì)應(yīng)的隱狀態(tài)。
4.2.4 結(jié)果與分析
實(shí)驗(yàn)結(jié)果如表3所示,dev acc是驗(yàn)證集的正確率,test acc是測試集的正確率,一般情況下驗(yàn)證集的正確率要高于測試集的正確率,符合預(yù)期。從表3可以看出,在BERT預(yù)訓(xùn)練基礎(chǔ)上增加了跨領(lǐng)域模型遷移,實(shí)驗(yàn)取得更好的結(jié)果,第3組數(shù)據(jù)比第2組數(shù)據(jù)的測試集正確率提升了2.1%,比RNN模型的各項(xiàng)指標(biāo)都更具優(yōu)勢(shì)。由此可見本研究采用BERT+跨領(lǐng)域模型遷移的方案設(shè)計(jì)有助于模型優(yōu)化,提高預(yù)測的準(zhǔn)確率。采用Transformer結(jié)構(gòu)的BERT在改進(jìn)了數(shù)據(jù)的語義表達(dá)和訓(xùn)練參數(shù)之后,在無需增加模型復(fù)雜度的情況下,即可較大提升BERT的性能。
表3 實(shí)驗(yàn)結(jié)果對(duì)比
本文提出的多人多事務(wù)即時(shí)通訊系統(tǒng)的場景中,每個(gè)主話題對(duì)應(yīng)一項(xiàng)工作任務(wù),群內(nèi)成員眾多,發(fā)言內(nèi)容比較繁雜,為了方便群管理員發(fā)現(xiàn)成員在聊天文本中透露出的負(fù)面情緒,及時(shí)消除對(duì)任務(wù)不利的人員因素,提出一種解決分組信息的情感分析手段。在研究過程中發(fā)現(xiàn)跨領(lǐng)域?qū)η楦蟹治龅慕Y(jié)果影響較大。接下來在面向文本的跨領(lǐng)域情感分析問題中,采用基于BERT預(yù)訓(xùn)練語言模型的微調(diào)方法,提出一種跨領(lǐng)域模型遷移方法以進(jìn)一步提高模型情感預(yù)測的準(zhǔn)確率。結(jié)果表明相對(duì)于基線模型正確率提升了2.1%,相對(duì)于RNN模型,在測試集和驗(yàn)證集下的正確率和F1指標(biāo)都更具優(yōu)勢(shì)。從測試集的實(shí)驗(yàn)數(shù)據(jù)可以看出跨領(lǐng)域模型可以滿足應(yīng)用場景的需求。
后續(xù)將在跨領(lǐng)域分類問題上,繼續(xù)對(duì)領(lǐng)域自適應(yīng)問題進(jìn)行研究。即時(shí)通訊分組產(chǎn)生的信息不僅僅包括句子、段落等非結(jié)構(gòu)化數(shù)據(jù),還有結(jié)構(gòu)化數(shù)據(jù),如表格、圖片、視頻等,如何讓預(yù)訓(xùn)練語言模型接收結(jié)構(gòu)化數(shù)據(jù)是現(xiàn)在NLP領(lǐng)域研究的方向,還有待進(jìn)一步研究。目前來看,預(yù)訓(xùn)練模型加微調(diào)是NLP實(shí)踐的一個(gè)方向?,F(xiàn)在處理結(jié)構(gòu)化數(shù)據(jù)的預(yù)訓(xùn)練模型有VideoBERT[13]等,但VideoBERT只實(shí)現(xiàn)了BERT編碼器功能,僅能學(xué)習(xí)圖像和語言標(biāo)記序列的雙向聯(lián)合分布,必須另外訓(xùn)練一個(gè)視頻到文本的解碼器,從而導(dǎo)致預(yù)訓(xùn)練模型到微調(diào)之間的偏差。后續(xù)研究中將繼續(xù)完善對(duì)其他結(jié)構(gòu)類型數(shù)據(jù)的建模能力,在即時(shí)通訊應(yīng)用中提供更加有效的情感判斷。