張志武 薛娟 陳國(guó)蘭
DOI:10.3969/j.issn.1008-0821.2021.10.009
[中圖分類號(hào)]TP391;G203 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008—0821(2021)10—0075—08
隨著社交網(wǎng)絡(luò)和移動(dòng)互聯(lián)網(wǎng)對(duì)人們?nèi)粘I钣绊懙牟粩嗌钊耄藗兞?xí)慣于在線瀏覽事物評(píng)論信息和發(fā)表留言,而這些評(píng)論中往往包含有用戶的情感和觀點(diǎn)信息。大數(shù)據(jù)時(shí)代,這些互聯(lián)網(wǎng)觀點(diǎn)數(shù)據(jù)急劇增長(zhǎng),對(duì)它們的情感分析與數(shù)據(jù)挖掘引起越來(lái)越多的學(xué)者的關(guān)注。情感分析是通過(guò)分析評(píng)論語(yǔ)句或文檔中的情感詞語(yǔ)和表達(dá),來(lái)預(yù)測(cè)評(píng)論觀點(diǎn)的情感極性。傳統(tǒng)的基于詞典和基于機(jī)器學(xué)習(xí)的情感分析是假設(shè)不同情感極性類別的樣本是均衡分布的,而現(xiàn)實(shí)的網(wǎng)絡(luò)語(yǔ)料中,不同類別的語(yǔ)料樣本的數(shù)目有時(shí)相差很大。這種樣本分布的類別不平衡性往往導(dǎo)致傳統(tǒng)的機(jī)器學(xué)習(xí)方法的性能下降,甚至分類模型失效。隨著大數(shù)據(jù)的出現(xiàn),類別不平衡數(shù)據(jù)的情感分類又重新成為數(shù)據(jù)挖掘領(lǐng)域具有挑戰(zhàn)性的實(shí)際問(wèn)題。
類別不平衡問(wèn)題是機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典研究課題。通常的不平衡數(shù)據(jù)情感分析是先進(jìn)行采樣不平衡處理,然后利用機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行模型訓(xùn)練與預(yù)測(cè)分類。本文針對(duì)二類情感極性分類問(wèn)題,基于長(zhǎng)短期記憶(Long Shon Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò),提出一種LSTM深度學(xué)習(xí)框架下自適應(yīng)不平衡數(shù)據(jù)情感分析方法。針對(duì)低度不平衡數(shù)據(jù)集,先對(duì)少數(shù)類進(jìn)行過(guò)采樣,然后利用LSTM直接進(jìn)行深度學(xué)習(xí)訓(xùn)練,最后用訓(xùn)練好的模型進(jìn)行情感分類;針對(duì)高度不平衡數(shù)據(jù)集,先對(duì)多數(shù)類進(jìn)行多組欠采樣,并分別與少數(shù)類樣本組合成多組平衡的訓(xùn)練數(shù)據(jù)集,然后分別對(duì)每組訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個(gè)LSTM模型,在情感分類預(yù)測(cè)時(shí)通過(guò)集成學(xué)習(xí)獲得最終情感極性。本文的創(chuàng)新點(diǎn)在于利用LSTM深度網(wǎng)絡(luò)具備學(xué)習(xí)長(zhǎng)期依賴關(guān)系的特性,提高情感分析性能;同時(shí),針對(duì)訓(xùn)練數(shù)據(jù)集的不平衡程度,自適應(yīng)采用相應(yīng)的不平衡處理方法與集成學(xué)習(xí)模型。
1相關(guān)工作
1.1情感分類
傳統(tǒng)的情感分類研究主要以二類情感極性分類為主,即將情感數(shù)據(jù)極性分為積極情感和消極情感兩種類型,研究方法包括基于詞典的方法、基于機(jī)器學(xué)習(xí)的方法以及混合方法?;谠~典的方法以通用情感詞典和特定領(lǐng)域情感詞典為主要依據(jù),同時(shí)根據(jù)評(píng)論數(shù)據(jù)的句法結(jié)構(gòu)設(shè)計(jì)情感極性判斷規(guī)則。Hu M等提出將形容詞作為情感詞建立情感詞典,利用WordNet網(wǎng)絡(luò)中形容詞同義詞集和反義詞集來(lái)預(yù)測(cè)形容詞的情感極性,進(jìn)而判斷整個(gè)評(píng)論的情感極性。Pang B等率先運(yùn)用機(jī)器學(xué)習(xí)方法解決評(píng)論文檔的二元情感分類,并在電影評(píng)論情感分類問(wèn)題上對(duì)比了不同特征組合與不同機(jī)器學(xué)習(xí)方法的實(shí)驗(yàn)效果。Fang J等將評(píng)論中Unigrams特征詞的詞典信息融入語(yǔ)句特征向量中,然后使用支持向量機(jī)(SVM)分類器進(jìn)行語(yǔ)句級(jí)的情感分類。張志武提出基于譜聚類的跨領(lǐng)域遷移學(xué)習(xí),用于不完備數(shù)據(jù)的產(chǎn)品評(píng)論情感分析。隨著互聯(lián)網(wǎng)評(píng)論數(shù)據(jù)規(guī)模的與日俱增,基于大數(shù)據(jù)的深度學(xué)習(xí)技術(shù)被越來(lái)越多地應(yīng)用于情感分析領(lǐng)域。Kim Y應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型對(duì)語(yǔ)句級(jí)隋感分類問(wèn)題進(jìn)行研究。Irsoy O等將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)應(yīng)用于意見表達(dá)抽取任務(wù)的自然語(yǔ)言分析。Tang D等運(yùn)用門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)(Gate RecurrentUnit,GRU)進(jìn)行短文本情感分類。Zhu X等提出使用長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM序列模型來(lái)解決情感分類問(wèn)題,將評(píng)論語(yǔ)句建模成詞序列來(lái)捕捉其長(zhǎng)依賴關(guān)系。梁軍等在基于樹結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)上擴(kuò)展了LSTM模型,并利用詞語(yǔ)間的關(guān)聯(lián)性構(gòu)建情感極性轉(zhuǎn)移模型。吳鵬等在財(cái)經(jīng)微博文本情感分類中,基于認(rèn)知情感評(píng)價(jià)模型建立情感規(guī)則,并對(duì)文本進(jìn)行情感標(biāo)注,利用LSTM模型進(jìn)行深度學(xué)習(xí)訓(xùn)練,進(jìn)而實(shí)現(xiàn)海量微博數(shù)據(jù)的情感分類。Wu O等提出一種帶區(qū)分的標(biāo)簽標(biāo)注策略和詞語(yǔ)極性翻轉(zhuǎn)模型,利用兩級(jí)LSTM網(wǎng)絡(luò)構(gòu)建情感分類器。
1.2類別不平衡學(xué)習(xí)
常用的類別不平衡學(xué)習(xí)方法有樣本采樣、單類別分類、代價(jià)敏感學(xué)習(xí)、集成學(xué)習(xí)、主動(dòng)學(xué)習(xí)等方法。在樣本采樣方法中,增加少數(shù)類樣本的方法稱為過(guò)采樣,減少多數(shù)類樣本的方法稱為欠采樣,它們的目的都是使采樣后的不同類樣本的數(shù)據(jù)分布趨向均衡。針對(duì)類別不平衡的中文語(yǔ)料,王中卿等提出一種基于數(shù)據(jù)欠采樣和多分類器集成學(xué)習(xí)系統(tǒng)進(jìn)行中文情感分類。Li S等提出了基于聚類的分層欠采樣框架和平滑策略,解決真實(shí)情感分類的數(shù)據(jù)與特征分布不平衡問(wèn)題。Ghosh K等利用微博平臺(tái)研究了類不平衡問(wèn)題對(duì)情感分析的影響,對(duì)少數(shù)類進(jìn)行過(guò)采樣不平衡處理,并用支持向量機(jī)和樸素貝葉斯兩種分類器進(jìn)行情感分類。Yan Y等基于概念之間的關(guān)聯(lián)關(guān)系.提出一種兩階段的分類框架,以提高不平衡數(shù)據(jù)的分類準(zhǔn)確性。殷昊等通過(guò)欠采樣獲得多組平衡訓(xùn)練語(yǔ)料,對(duì)每組語(yǔ)料訓(xùn)練一個(gè)LSTM模型,最后融合多個(gè)LSTM模型進(jìn)行情緒分類預(yù)測(cè)。肖連杰等對(duì)不平衡數(shù)據(jù)集中的多數(shù)類進(jìn)行模糊C-均值聚類欠采樣,并與少數(shù)類樣本構(gòu)成平衡訓(xùn)練數(shù)據(jù),最后在類平衡的數(shù)據(jù)集上進(jìn)行集成學(xué)習(xí)和數(shù)據(jù)分類。陳志等針對(duì)不平衡文本數(shù)據(jù),在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,將類別標(biāo)簽權(quán)重引入到損失函數(shù)中,增強(qiáng)少數(shù)類對(duì)模型參數(shù)的代價(jià)敏感性,從而減小類不平衡對(duì)文本分類的影響。
2模型構(gòu)建
本文設(shè)計(jì)的深度學(xué)習(xí)框架下自適應(yīng)類別不平衡數(shù)據(jù)情感分析模型如圖1所示。首先,對(duì)網(wǎng)絡(luò)語(yǔ)料進(jìn)行必要的數(shù)據(jù)預(yù)處理,包括分詞、停用詞去除、詞語(yǔ)向量表示以及根據(jù)情感極性設(shè)置情感分類標(biāo)簽;其次,將每條評(píng)論詞匯向量轉(zhuǎn)化為相應(yīng)的矩陣,制作成適合于深度學(xué)習(xí)模型的數(shù)據(jù)集;再次,根據(jù)數(shù)據(jù)集中的類別不平衡程度,自適應(yīng)地選擇不同的采樣方法和深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,如果不平衡程度低,則對(duì)少數(shù)類樣本進(jìn)行過(guò)采樣,采樣至與多數(shù)類樣本數(shù)目相等,然后與多數(shù)類一起組成類別平衡的訓(xùn)練數(shù)據(jù)集,再進(jìn)行一次LSTM深度學(xué)習(xí)訓(xùn)練,如果不平衡程度高,則對(duì)多數(shù)類樣本進(jìn)行多組欠采樣,每次采樣至與少數(shù)類樣本數(shù)目相等,然后分別與少數(shù)類一起組成多組平衡的訓(xùn)練數(shù)據(jù)集,對(duì)每組數(shù)據(jù)集進(jìn)行LSTM深度學(xué)習(xí)訓(xùn)練;最后,進(jìn)行情感分類預(yù)測(cè),當(dāng)訓(xùn)練集的不平衡程度低時(shí),測(cè)試數(shù)據(jù)直接在訓(xùn)練好的LSTM模型上進(jìn)行分類預(yù)測(cè),當(dāng)訓(xùn)練集的不平衡程度高時(shí),先對(duì)多個(gè)LSTM模型的測(cè)試輸出進(jìn)行集成學(xué)習(xí),然后輸出最后的分類預(yù)測(cè)結(jié)果。
2.1情感語(yǔ)料數(shù)據(jù)處理
在進(jìn)行情感分析深度學(xué)習(xí)訓(xùn)練之前,需要對(duì)訓(xùn)練語(yǔ)料進(jìn)行一定的預(yù)處理。網(wǎng)絡(luò)評(píng)論情感語(yǔ)料首先經(jīng)過(guò)jieba中文分詞庫(kù)分詞,將對(duì)分類影響不大的停用詞和高頻詞剔除,提取語(yǔ)料文檔的情感詞匯。為了適應(yīng)機(jī)器學(xué)習(xí)算法,需要把數(shù)據(jù)輸入轉(zhuǎn)換成固定長(zhǎng)度的特征向量。Google公司的開源Word2Vec模型可以將詞匯從高維特征空間映射到一個(gè)嵌入的低維特征空間,同時(shí)保留詞向量間的空間位置關(guān)系。在訓(xùn)練學(xué)習(xí)中,采用Python的Gensim包中集成的Word2Vec進(jìn)行詞向量的訓(xùn)練,維度值固定為200維,因此每條評(píng)論數(shù)據(jù)最終都轉(zhuǎn)化為200維的向量。在設(shè)置二元情感分類標(biāo)簽時(shí),采用0nehot編碼向量作為標(biāo)簽向量,分別用[0,1]和[1,0]表示消極評(píng)論和積極評(píng)論。根據(jù)訓(xùn)練評(píng)論數(shù)據(jù)的情感極性,分別設(shè)置相應(yīng)的情感分類標(biāo)簽向量。
2.2自適應(yīng)不平衡采樣
網(wǎng)絡(luò)語(yǔ)料往往是情感類別不平衡的,而且不同的領(lǐng)域和平臺(tái)的不平衡程度差異較大。對(duì)這種語(yǔ)料直接采用傳統(tǒng)的機(jī)器學(xué)習(xí)情感分類方法進(jìn)行情感分析會(huì)造成分類結(jié)果向多數(shù)類偏倚。如果統(tǒng)一采用簡(jiǎn)單的過(guò)采樣不平衡處理有時(shí)會(huì)造成過(guò)擬合現(xiàn)象,而統(tǒng)一采用簡(jiǎn)單的欠采樣不平衡處理有時(shí)又會(huì)損失較多的樣本信息。因此,根據(jù)訓(xùn)練語(yǔ)料數(shù)據(jù)集中的類別不平衡程度,采取自適應(yīng)地選擇不同的采樣策略,并為后續(xù)階段的深度學(xué)習(xí)訓(xùn)練模型提供不同形式的平衡訓(xùn)練數(shù)據(jù)。
當(dāng)不平衡程度低(多數(shù)類樣本數(shù)量小于少數(shù)類樣本數(shù)量的3倍)時(shí),處理策略是對(duì)少數(shù)類樣本進(jìn)行過(guò)采樣,采樣至與多數(shù)類樣本數(shù)量相等,然后與多數(shù)類一起組成平衡的訓(xùn)練數(shù)據(jù)集,輸入到后續(xù)的LSTM深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練學(xué)習(xí)。最流行的過(guò)采樣方法是綜合少數(shù)類過(guò)采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE),它的工作方式是在特征空間中選擇較近的少數(shù)類樣本示例,在它們之間進(jìn)行插值,從而產(chǎn)生額外的新樣本。由于SMOTE對(duì)每個(gè)少數(shù)類樣本產(chǎn)生相同數(shù)目的新樣本,所以采用一種SMOTE變體方法——自適應(yīng)合成采樣(Adaptive Synthetic Sampling,ADASYN)方法,它利用樣本分布來(lái)自動(dòng)決定每個(gè)少數(shù)類樣本需要產(chǎn)生多少個(gè)合成樣本,近鄰的多數(shù)類樣本越多則產(chǎn)生的合成樣本越多。
當(dāng)不平衡程度高(多數(shù)類樣本數(shù)量大于等于少數(shù)類樣本數(shù)量的3倍)時(shí),處理策略則是對(duì)多數(shù)類樣本進(jìn)行多次有放回欠采樣,每次欠采樣的數(shù)量與少數(shù)類樣本數(shù)量相等,形成多個(gè)相互獨(dú)立的訓(xùn)練子集,然后分別與少數(shù)類一起組成多組平衡的訓(xùn)練數(shù)據(jù)集,分別輸入到后續(xù)的多個(gè)LSTM深度學(xué)習(xí)模型中進(jìn)行訓(xùn)練與集成學(xué)習(xí)。雖然每個(gè)子集的數(shù)量少于總體樣本數(shù),但集成后的總信息量損失并不多。
2.3 LSTM模型與訓(xùn)練
LSTM深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是標(biāo)準(zhǔn)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的變體,它是在RNN基礎(chǔ)上增加了3個(gè)控制信息流動(dòng)的門單元。LSTM神經(jīng)網(wǎng)絡(luò)通過(guò)門控制的方式,丟棄近距離不重要信息,同時(shí)增強(qiáng)長(zhǎng)距離重要信息,使得網(wǎng)絡(luò)中的記憶單元具備記憶功能,可以利用歷史信息學(xué)習(xí)長(zhǎng)期依賴關(guān)系,同時(shí)避免了反向傳播過(guò)程中的梯度消失和爆炸問(wèn)題。由于其性能優(yōu)越,在很多機(jī)器學(xué)習(xí)與人工智能應(yīng)用中得到廣泛運(yùn)用,因此,本文采用LSTM深度學(xué)習(xí)模型進(jìn)行情感分析訓(xùn)練與分類預(yù)測(cè)。
單個(gè)的LSTM網(wǎng)絡(luò)單元結(jié)構(gòu)如圖2所示,遺忘門ft決定節(jié)點(diǎn)有多少信息會(huì)被遺忘,輸入門it決定有多少信息可以流進(jìn)節(jié)點(diǎn),輸出門ot決定節(jié)點(diǎn)內(nèi)有多少信息被輸出。ct-1表示從前一個(gè)單元傳遞來(lái)的記憶信息,ht-1表示前一個(gè)單元的輸出,xt表示當(dāng)前的輸入向量,ct表示當(dāng)前單元的記憶,ht表示當(dāng)前單元的輸出。信息在LSTM神經(jīng)網(wǎng)絡(luò)單元內(nèi)部流動(dòng)經(jīng)歷3個(gè)階段:
1)遺忘門決定忘記信息。這個(gè)階段主要是對(duì)上一個(gè)節(jié)點(diǎn)單元傳過(guò)來(lái)的輸入ht-1進(jìn)行選擇性忘記,它是通過(guò)一個(gè)Sigmoid輸出層遺忘門實(shí)現(xiàn)的,它使單元狀態(tài)中的每一個(gè)輸出值介于0和1之間,越接近于0表示越應(yīng)該丟棄,越接近于1表示越應(yīng)該保留。遺忘門的作用是度量循環(huán)過(guò)程中每一個(gè)單元的相對(duì)重要程度,其計(jì)算公式如下:
2)輸入門選擇更新記憶信息。輸入門用于對(duì)單元狀態(tài)進(jìn)行更新。首先,將前一個(gè)單元的輸出ht-1和當(dāng)前單元的輸入xt信息傳遞到Sigmoid函數(shù)中去得到it,將其值調(diào)整到0~1之間來(lái)決定哪些信息需要更新;其次,還要將前一個(gè)單元的輸出ht-1和當(dāng)前單元的輸入xt信息傳遞到tanh函數(shù)中去,創(chuàng)建一個(gè)新的候選值向量得到gt,里面包含可添加到新的狀態(tài)單元的信息;最后,將前一單元傳遞的記憶信息ct-1與ft相乘用來(lái)表示遺忘信息,將it與gt相乘作為新的備選信息,用這兩部分之和一起對(duì)單元狀態(tài)進(jìn)行更新。這一過(guò)程計(jì)算公式如下:
3)輸出門選擇輸出信息。首先用Sigmoid層來(lái)決定要輸出的單元狀態(tài)的相關(guān)信息ot,然后用tanh函數(shù)處理單元狀態(tài),得到一個(gè)-1~1之間的值,最后將兩部分信息相乘,得到要輸出的部分ht,計(jì)算公式如下:
在實(shí)際訓(xùn)練學(xué)習(xí)過(guò)程中,搭建LSTM模型過(guò)程如下:
第一,訓(xùn)練詞向量,提取語(yǔ)料特征。利用Py-thon的Gensim包中集成的Word2Vec進(jìn)行詞向量訓(xùn)練,將詞語(yǔ)映射成200維向量,并做去停用詞、去除亂碼預(yù)處理。
第二,生成訓(xùn)練與測(cè)試數(shù)據(jù)集。根據(jù)不同平衡率的實(shí)驗(yàn)要求,從特征提取后的語(yǔ)料中選擇相應(yīng)的比例數(shù)據(jù)生成積極類和消極類訓(xùn)練數(shù)據(jù)集以及測(cè)試集的數(shù)據(jù)。
第三,定義LSTM的計(jì)算過(guò)程。用TensorFlow來(lái)實(shí)現(xiàn)LSTM,隱藏層網(wǎng)絡(luò)輸出維度為128,輸出層節(jié)點(diǎn)數(shù)為2,學(xué)習(xí)率設(shè)置為0.01,每批次傳入訓(xùn)練數(shù)據(jù)大小為16。定義損失函數(shù)Loss和優(yōu)化器Optimizer。
第四,將數(shù)據(jù)傳人定義模型的占位符,開始參數(shù)訓(xùn)練,設(shè)定迭代次數(shù)為20000次,訓(xùn)練結(jié)束后保存模型參數(shù)。
2.4集成學(xué)習(xí)
在類別不平衡程度較高的情況下,模型自適應(yīng)地采用將多數(shù)類樣本進(jìn)行多組欠采樣,并分別與少數(shù)類樣本構(gòu)成平衡的訓(xùn)練樣本集,然后進(jìn)行多組LSTM訓(xùn)練學(xué)習(xí),每組LSTM模型相當(dāng)于集成學(xué)習(xí)中一個(gè)弱分類器。由于基學(xué)習(xí)器采用的是LSTM深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器,這種不穩(wěn)定學(xué)習(xí)算法對(duì)訓(xùn)練集十分敏感,采用多組欠采樣方式實(shí)現(xiàn)數(shù)據(jù)樣本擾動(dòng)可以增強(qiáng)基學(xué)習(xí)器之間的多樣性,因此,集成學(xué)習(xí)采用Bagging法(又稱裝袋法),既能降低方差,又能提高訓(xùn)練穩(wěn)定性。多組LSTM基學(xué)習(xí)器還可以并行學(xué)習(xí)訓(xùn)練。
當(dāng)需要進(jìn)行分類預(yù)測(cè)時(shí),測(cè)試樣本先在每一個(gè)訓(xùn)練好的LSTM基學(xué)習(xí)器上分別進(jìn)行分類預(yù)測(cè),然后通過(guò)集成學(xué)習(xí)的投票法策略,對(duì)所有基學(xué)習(xí)器的分類結(jié)果進(jìn)行統(tǒng)計(jì),將出現(xiàn)次數(shù)最多的預(yù)測(cè)類別作為最終的分類結(jié)果。
3實(shí)驗(yàn)與結(jié)果分析
3.1實(shí)驗(yàn)數(shù)據(jù)集
本文選取搜狗實(shí)驗(yàn)室提供的網(wǎng)絡(luò)評(píng)論語(yǔ)料作為情感分析詞向量的實(shí)驗(yàn)語(yǔ)料(搜狗實(shí)驗(yàn)室網(wǎng)絡(luò)語(yǔ)料URL地址:http:∥www.sogou.com/labs/resource/list_yuliao.php)。語(yǔ)料庫(kù)中包含圖書評(píng)論、酒店評(píng)論、電子產(chǎn)品評(píng)論等,其中積極評(píng)論有10673條,消極評(píng)論有10428條,表1給出了語(yǔ)料集合的部分樣例。實(shí)驗(yàn)在原始語(yǔ)料庫(kù)上,分別針對(duì)實(shí)驗(yàn)研究的低度和高度兩種類別不平衡程度,選擇積極類評(píng)論與消極類評(píng)論的比例分別為3:1和7:1。
3.2買驗(yàn)結(jié)果
為了驗(yàn)證本文選擇的LSTM深度學(xué)習(xí)框架和不平衡處理方法的有效性,實(shí)驗(yàn)采用情感分類中常用的準(zhǔn)確率作為評(píng)價(jià)指標(biāo),由于本文研究的是不平衡數(shù)據(jù)的二類分類問(wèn)題,實(shí)驗(yàn)中還選取了不平衡數(shù)據(jù)二元分類常用的綜合指標(biāo)F1值作為評(píng)價(jià)指標(biāo)。具體實(shí)驗(yàn)分成了3種情形進(jìn)行對(duì)比和分析:
1)LSTM方法與典型的深度學(xué)習(xí)方法在不平衡數(shù)據(jù)上的情感分析對(duì)比實(shí)驗(yàn)。
2)LSTM框架下不平衡處理方法的對(duì)比實(shí)驗(yàn)。
3)LSTM情感分析有效性驗(yàn)證。
3.2.1深度學(xué)習(xí)類別不平衡情感分析方法對(duì)比
為了驗(yàn)證深度學(xué)習(xí)方法在類別不平衡數(shù)據(jù)上的情感分析性能,本文選取典型的深度學(xué)習(xí)方法:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和門控循環(huán)單元(Gate Recurrent Unit,GRU)神經(jīng)網(wǎng)絡(luò)與本文采用的LSTM方法進(jìn)行對(duì)比。為了體現(xiàn)對(duì)比實(shí)驗(yàn)的公平性,實(shí)驗(yàn)中所有方法采用統(tǒng)一的不平衡數(shù)據(jù)處理:當(dāng)不平衡程度低時(shí),對(duì)少數(shù)類樣本進(jìn)行隨機(jī)過(guò)采樣;當(dāng)不平衡程度高時(shí),對(duì)多數(shù)類樣本進(jìn)行多次有放回欠采樣。
表2給出了高低兩種不平衡率情況下的深度學(xué)習(xí)方法在準(zhǔn)確率與F1值評(píng)價(jià)指標(biāo)上的對(duì)比實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果看,在低不平衡率和高不平衡率兩種情況下,卷積神經(jīng)網(wǎng)絡(luò)CNN性能最差,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN性能較差,門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)GRU性能較好,長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)LSTM性能最好,GRU與LSTM在低度不平衡情況下性能比較接近。具體來(lái)看,最低的準(zhǔn)確率是CNN方法在高度不平衡情況下取得的,其值為0.7001,同時(shí)它的F1值也是最低,其值為0.4419;最高的準(zhǔn)確率是LSTM方法在高度不平衡情況下取得的,其值為0.9349,最高的F1值是LSTM方法在低度不平衡情況下取得的,其值為0.8556。相對(duì)其他的深度學(xué)習(xí)方法,LSTM在準(zhǔn)確率指標(biāo)上至少提升4.09%((0.9276-0.8897)/0.9276),在F1值指標(biāo)上至少提升9.29%((0.8221-0.7457)/0.8221)。
3.2.2 LSTM框架下不平衡處理方法對(duì)比
為了驗(yàn)證LSTM框架下情感分析在不同不平衡處理情況下的實(shí)驗(yàn)性能,本文設(shè)計(jì)了5種數(shù)據(jù)不平衡處理情況下的基于LSTM的情感分類方法:
1)完全訓(xùn)練+LSTM方法,未對(duì)不平衡訓(xùn)練集做平衡化處理,直接用全部數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),利用LSTM進(jìn)行深度學(xué)習(xí)訓(xùn)練和分類預(yù)測(cè)。
2)隨機(jī)過(guò)采樣+LSTM方法,對(duì)少數(shù)類樣本進(jìn)行隨機(jī)過(guò)采樣,并與多數(shù)類樣本組合成平衡的訓(xùn)練數(shù)據(jù),再利用LSTM進(jìn)行深度學(xué)習(xí)訓(xùn)練和分類預(yù)測(cè)。
3)隨機(jī)欠采樣+LSTM方法,對(duì)多數(shù)類樣本進(jìn)行隨機(jī)欠采樣,并與少數(shù)類樣本組合成平衡的訓(xùn)練數(shù)據(jù),再利用LSTM進(jìn)行深度學(xué)習(xí)訓(xùn)練和分類預(yù)測(cè)。
4)隨機(jī)欠采樣+多通道LSTM,這是文獻(xiàn)[18]的方法,對(duì)多數(shù)類樣本進(jìn)行多組隨機(jī)欠采樣,并與少數(shù)類樣本組合成多組平衡的訓(xùn)練數(shù)據(jù),分類器使用多通道LSTM神經(jīng)網(wǎng)絡(luò)。
5)自適應(yīng)采樣+LSTM方法,這是本文提出的方法,根據(jù)數(shù)據(jù)集不平衡程度自適應(yīng)選擇不同的采樣不平衡處理和訓(xùn)練預(yù)測(cè)框架。
圖3和圖4分別比較了低不平衡率和高不平衡率兩種情況下的不同方法在準(zhǔn)確率指標(biāo)上的對(duì)比實(shí)驗(yàn)結(jié)果,表3給出了這兩種情況下F1值指標(biāo)上的對(duì)比實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出:
1)所有經(jīng)過(guò)不平衡處理后的LSTM方法性能都優(yōu)于未經(jīng)不平衡處理完全訓(xùn)練的LSTM方法。
2)隨機(jī)欠采樣和隨機(jī)過(guò)采樣方法在不同平衡率下各有優(yōu)劣。
3)隨機(jī)采樣多通道LSTM方法在低不平衡率情況下,由于通道較少,性能優(yōu)勢(shì)不明顯。
4)自適應(yīng)采樣LSTM在不同平衡率下采用不同的采樣策略和學(xué)習(xí)策略,能保持很好的性能優(yōu)勢(shì),總體性能最優(yōu),相對(duì)未經(jīng)平衡化處理的完全訓(xùn)練LSTM方法準(zhǔn)確率至少提升22.82%((0.9526-0.7756)/0.7756),F(xiàn)1值至少提升96.64%((0.8426-0.4285)/0.4285),相對(duì)其他經(jīng)過(guò)平衡化處理的LSTM方法性能準(zhǔn)確率至少提升5.77%((0.9526-0.9006)/0.9006),F(xiàn)1值至少提升23.89%((0.8426-0.6801)/0.6801)。
3.2.3 LSTM情感分析有效性驗(yàn)證
為了驗(yàn)證LSTM深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練收斂性和有效性,在LSTM的迭代訓(xùn)練過(guò)程中統(tǒng)計(jì)了損失函數(shù)和預(yù)測(cè)準(zhǔn)確率。圖5給出了LSTM深度學(xué)習(xí)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中不同迭代次數(shù)下的損失值Loss和預(yù)測(cè)準(zhǔn)確率Accuracy的變化曲線。從損失值曲線和準(zhǔn)確率曲線可以看出,LSTM在迭代過(guò)程中,隨著迭代次數(shù)的不斷增加,損失函數(shù)值逐漸減少,而準(zhǔn)確率在不斷上升。準(zhǔn)確率隨迭代次數(shù)的變化趨勢(shì)是開始時(shí)準(zhǔn)確率增加較快,后期的增長(zhǎng)速率趨于平緩,逐漸趨向于1;損失函數(shù)值開始時(shí)減少速度快,后期減少速度放慢,并逐漸趨向于0。
3.3結(jié)果分析
1)典型深度學(xué)習(xí)方法在類別不平衡數(shù)據(jù)上的對(duì)比分析。
從對(duì)比實(shí)驗(yàn)結(jié)果來(lái)看,性能從低到高的方法依次是CNN、RNN、GRU和LSTM。而這4種方法的復(fù)雜程度也與這個(gè)順序一致。CNN是具有深度結(jié)構(gòu)的包含卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò),常用于視覺數(shù)據(jù)之類的空間特征數(shù)據(jù),如圖像識(shí)別。將情感分析的文本數(shù)據(jù)中的每個(gè)詞語(yǔ)表示成一個(gè)列向量,將一條評(píng)論文本看成是多個(gè)詞語(yǔ)列向量組成的二維數(shù)據(jù)時(shí),CNN方法可以進(jìn)行情感分析。傳統(tǒng)RNN是序列模型,常用于文本數(shù)據(jù)分析,RNN的單元數(shù)比較多,梯度被近期單元的梯度主導(dǎo),導(dǎo)致模型對(duì)長(zhǎng)期的依賴關(guān)系不敏感,因此會(huì)出現(xiàn)梯度消失和梯度爆炸問(wèn)題。而LSTM利用門機(jī)制解決了梯度消失問(wèn)題,與此同時(shí),LSTM利用細(xì)胞狀態(tài)保存長(zhǎng)期記憶,結(jié)合門機(jī)制對(duì)信息進(jìn)行過(guò)濾,實(shí)現(xiàn)了對(duì)長(zhǎng)期記憶的控制。GRU作為L(zhǎng)STM的一種變體,相對(duì)于LSTM而言參數(shù)更少、收斂更快,性能與LSTM接近,實(shí)驗(yàn)結(jié)果表明,LSTM性能略優(yōu)于GRU??傮w來(lái)看,帶門控單元的RNN比傳統(tǒng)的RNN性能表現(xiàn)更好。
2)LSTM框架下不平衡處理方法對(duì)比分析。
在LSTM深度學(xué)習(xí)框架下,所有經(jīng)過(guò)不平衡處理后的方法的性能均優(yōu)于未經(jīng)不平衡處理完全訓(xùn)練的LSTM方法,這是因?yàn)閿?shù)據(jù)分布不平衡影響了機(jī)器學(xué)習(xí)的性能.通常這種情況下機(jī)器學(xué)習(xí)會(huì)向多數(shù)類產(chǎn)生偏倚,經(jīng)過(guò)平衡化處理后,不平衡性的影響得到一定程度的糾正,因此性能得到提升。簡(jiǎn)單的隨機(jī)欠采樣和隨機(jī)過(guò)采樣方法在不同平衡率下各有優(yōu)劣,這說(shuō)明選擇機(jī)器學(xué)習(xí)方法時(shí)應(yīng)在采樣信息損失與數(shù)據(jù)分布影響之間進(jìn)行平衡。將隨機(jī)采樣方法與多通道LSTM方法結(jié)合,進(jìn)行不平衡數(shù)據(jù)情感分析,在低不平衡率情況下,由于產(chǎn)生通道較少,性能優(yōu)勢(shì)不明顯。針對(duì)數(shù)據(jù)的不平衡程度,在不同平衡率下采用不同的采樣策略和學(xué)習(xí)策略,自適應(yīng)采樣LSTM方法能保持很好的性能優(yōu)勢(shì),這表明機(jī)器學(xué)習(xí)對(duì)輸入數(shù)據(jù)的質(zhì)量與分布有較強(qiáng)的依賴性,機(jī)器學(xué)習(xí)的總體性能除了與方法模型有關(guān)外,還與輸入數(shù)據(jù)特性和數(shù)據(jù)預(yù)處理密切相關(guān)。
3)LSTM應(yīng)用于情感分析的有效性分析。
在LSTM深度學(xué)習(xí)的迭代優(yōu)化過(guò)程中,優(yōu)化器的優(yōu)化目標(biāo)是使預(yù)測(cè)值與真實(shí)值之間的損失最小,在不斷的迭代訓(xùn)練過(guò)程中,損失函數(shù)值逐漸減少,同時(shí)準(zhǔn)確率在不斷上升。實(shí)驗(yàn)驗(yàn)證結(jié)果顯示訓(xùn)練過(guò)程中預(yù)測(cè)準(zhǔn)確率一直上升,直至趨于平穩(wěn),偶有波動(dòng),說(shuō)明訓(xùn)練時(shí)也有過(guò)擬合情況,但LSTM的學(xué)習(xí)性能總體是很穩(wěn)定的。LSTM深度學(xué)習(xí)網(wǎng)絡(luò)由于采用門機(jī)制,解決了梯度消失問(wèn)題,同時(shí)也簡(jiǎn)化了調(diào)參的復(fù)雜度,門機(jī)制還具有特征過(guò)濾功能,豐富了自然語(yǔ)言處理中的向量的表示信息,在情感分析任務(wù)中是有效的方法模型。
4結(jié)語(yǔ)
本文針對(duì)不平衡數(shù)據(jù)的情感分析,在深度學(xué)習(xí)框架下,設(shè)計(jì)了一個(gè)自適應(yīng)的類別不平衡數(shù)據(jù)情感分析處理框架,分別對(duì)低不平衡率數(shù)據(jù)集進(jìn)行自適應(yīng)合成采樣或?qū)Ω卟黄胶饴蕯?shù)據(jù)集進(jìn)行有放回欠采樣,然后相應(yīng)地進(jìn)行一次LSTM深度學(xué)習(xí)訓(xùn)練或多組并行LSTM深度學(xué)習(xí)訓(xùn)練,以及單獨(dú)預(yù)測(cè)分類或集成學(xué)習(xí)預(yù)測(cè)分類。在真實(shí)的網(wǎng)絡(luò)語(yǔ)料上的實(shí)驗(yàn)表明,本文提出的方法能自適應(yīng)地處理不同程度的不平衡數(shù)據(jù),充分利用LSTM具備學(xué)習(xí)長(zhǎng)期依賴關(guān)系的特性,提高了不平衡數(shù)據(jù)情感分析性能。未來(lái)的改進(jìn)工作中,將探索不同的類別不平衡學(xué)習(xí)方法,優(yōu)化采樣技術(shù),將代價(jià)敏感學(xué)習(xí)技術(shù)與主動(dòng)學(xué)習(xí)技術(shù)融入不平衡數(shù)據(jù)情感分析中,以進(jìn)一步提升情感分類方法的性能。多類別不平衡情感數(shù)據(jù)分析和情感強(qiáng)度分析也是未來(lái)研究工作的主要方向。
(責(zé)任編輯:孫國(guó)雷)