張樂(lè)江, 黃宇涵, 李曉坤, 張偉華, 趙中英, 陳虹旭
(1 黑龍江恒訊科技有限公司國(guó)家博士后科研工作站, 哈爾濱150090; 2 山東科技大學(xué) 電子信息工程學(xué)院, 青島266590)
隨著Web2.0 技術(shù)的廣泛應(yīng)用,互聯(lián)網(wǎng)中存在著海量的文本數(shù)據(jù),其中與人們的日常生活最為相關(guān)的是各類(lèi)評(píng)論數(shù)據(jù),例如酒店評(píng)論數(shù)據(jù)、商品評(píng)論數(shù)據(jù)、熱門(mén)事件評(píng)論數(shù)據(jù)等。 這些數(shù)據(jù)具有內(nèi)容簡(jiǎn)短、觀點(diǎn)情感色彩強(qiáng)烈等特點(diǎn),同時(shí)也存在著情感特征不明顯的隱式情感表達(dá)的數(shù)據(jù)。 對(duì)這些評(píng)論數(shù)據(jù)進(jìn)行情感分析有助于評(píng)論閱讀者對(duì)酒店口碑、商品好壞、事件性質(zhì)等評(píng)論主體做出判斷和輿情分析,如果單純以人工的方式從海量的評(píng)論數(shù)量和內(nèi)容中到得評(píng)論文本的情感導(dǎo)向十分困難,利用自然語(yǔ)言處理領(lǐng)域中的相關(guān)技術(shù)如情感分析可以解決這類(lèi)問(wèn)題。 具體可以分為基于情感詞典(特征)的情感分析[1-4],基于機(jī)器學(xué)習(xí)方法的情感分析[5-11]和基于深度學(xué)習(xí)的情感分析[12-18]3 個(gè)方面的研究。 要解決這個(gè)問(wèn)題核心是構(gòu)建情感詞典。 目前常用的情感詞典 很 多, 比 如 知 網(wǎng) 詞 典HowNet[19]、 臺(tái) 灣 大 學(xué)NTUSD[20]、清華大學(xué)李軍中文褒貶義詞典[21]、否定詞詞典[22]。 隨著深度學(xué)習(xí)方向的發(fā)展,使用基于深度學(xué)習(xí)的方法進(jìn)行情感分析成為了當(dāng)前研究的熱點(diǎn),基于深度學(xué)習(xí)的句子級(jí)分布式表示算法,能夠通從詞語(yǔ)分布式表示復(fù)合得到句子或段落分布式表示,從而能夠?qū)⒕渥踊蚨温浞植际奖硎緫?yīng)用于文本情感分析任務(wù)。 卷積神經(jīng)網(wǎng)絡(luò)模型[14]、循環(huán)神經(jīng)網(wǎng)絡(luò)模型[15]和遞歸神經(jīng)網(wǎng)絡(luò)模型[23]開(kāi)始在情感分析中廣泛應(yīng)用。
針對(duì)不同情感特征的文本數(shù)據(jù),本文以具有顯式和隱式情感特征的中文評(píng)論數(shù)據(jù)作為研究對(duì)象,將具有不同情感特征的中文文本進(jìn)行向量化表示,并將其作為基于BLSTM、GRU 和BGRU 三種神經(jīng)網(wǎng)絡(luò)情感分析模型的輸入;通過(guò)模型設(shè)置和參數(shù)優(yōu)化實(shí)現(xiàn)情感分類(lèi)的預(yù)測(cè)和比較分析。
現(xiàn)有的文本情感分析技術(shù)可以分為三類(lèi):基于詞典(特征)的情感分析、基于機(jī)器學(xué)習(xí)方法的情感分析和基于深度學(xué)習(xí)的文本情感分析技術(shù)。 以上三類(lèi)技術(shù)已經(jīng)相對(duì)成熟,本文將從文本情感分析的3個(gè)方向進(jìn)行相關(guān)的工作。
(1)基于詞典(特征)的情感分析。 Chao 等人使用漢字中的偏旁部首作為單詞特征,并通過(guò)單字特征和雙字特征的點(diǎn)互信息比較,完成對(duì)文本的情感極性分類(lèi);El 等人構(gòu)造了一個(gè)動(dòng)態(tài)變化的單詞情感急性字典,通過(guò)引入新的數(shù)據(jù)對(duì)字典中各單詞表達(dá)的情感傾向進(jìn)行微調(diào);Yu 等人改進(jìn)文本中每個(gè)單詞的詞向量,使其在情感詞典中更接近語(yǔ)義上和情感上相似的詞,并遠(yuǎn)離在情感表達(dá)方面不相似的詞;Zhang 等人將情感詞典與模糊卡諾模型相結(jié)合,獲得用戶(hù)的有關(guān)產(chǎn)品的不同態(tài)度方面的細(xì)粒度的情緒分析。 基于詞典的情感分析的關(guān)鍵是如何構(gòu)建一個(gè)符合數(shù)據(jù)特點(diǎn)的情感詞典。
(2)基于機(jī)器學(xué)習(xí)方法的情感分析。 Alkubaisi等人使用混合樸素貝葉斯分類(lèi)器判斷推特中和股票相關(guān)的文本的情感極性。 Asghar 等人設(shè)計(jì)四個(gè)分類(lèi)器:俚語(yǔ)分類(lèi)器、表情符號(hào)分類(lèi)器、感知網(wǎng)絡(luò)分類(lèi)器和改進(jìn)的領(lǐng)域分類(lèi)器對(duì)推特文本進(jìn)行情感極性分類(lèi);Fang 等人針對(duì)傳統(tǒng)的機(jī)器學(xué)習(xí)方法不能很好地表達(dá)中文文本觀點(diǎn)的問(wèn)題,提出了一種語(yǔ)義模糊的多策略情感分析方法,對(duì)文本中的情感極性進(jìn)行判斷。 彭云等人從單詞的句法、語(yǔ)義、語(yǔ)境等昂面入手,學(xué)習(xí)單詞之間的語(yǔ)義關(guān)系,然后將這些關(guān)系作為先驗(yàn)知識(shí)嵌入到LDA 中,學(xué)習(xí)文本中單詞層面的情感表達(dá);Liu 等人基于潛在語(yǔ)義分析識(shí)別出文本中的特征,并使用感知器,根據(jù)得到的特征對(duì)文本進(jìn)行情感分析;Bang 等人設(shè)計(jì)出一種句子依存樹(shù)結(jié)構(gòu)來(lái)減輕詞義的歧義,并解決詞義的固有多義性,同時(shí),句子依存樹(shù)還可以對(duì)句子的情感極性進(jìn)行識(shí)別;He等人基于一個(gè)改進(jìn)的非參數(shù)貝葉斯模型來(lái)估計(jì)能夠完美解釋當(dāng)前時(shí)間片的最佳主題數(shù)量,并同時(shí)分析這些潛在的主題及其情感極性。 這類(lèi)方法是傳統(tǒng)的數(shù)據(jù)挖掘思想在情感分析領(lǐng)域的應(yīng)用,相關(guān)研究比較多。
(3)基于深度學(xué)習(xí)的文本情感分析技術(shù)。 Pham等人使用多層知識(shí)表示體系結(jié)構(gòu),表示文本中的不同情感級(jí)別,并將這些情感表示集成到神經(jīng)網(wǎng)絡(luò)中,完成對(duì)文本中各情感表達(dá)方面的情感評(píng)價(jià);Zhao 等人研究了對(duì)文本情感分析進(jìn)行建模的低層網(wǎng)絡(luò)結(jié)構(gòu),即卷積特征提取和長(zhǎng)短時(shí)記憶,通過(guò)使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的一個(gè)高級(jí)表示(嵌入空間)的形式完成對(duì)文本中表達(dá)的情感極性的判斷;Xu 等人使用兩種預(yù)訓(xùn)練嵌入(通用嵌入和領(lǐng)域特定嵌入)對(duì)文本中的單詞特征進(jìn)行擴(kuò)展,基于兩種嵌入方式設(shè)計(jì)雙嵌入層的CNN 模型,推理出文本的情感極性;Zhao等人設(shè)計(jì)關(guān)系嵌入和子樹(shù)嵌入對(duì)單詞特征進(jìn)行表示,并使用RNN 對(duì)兩種嵌入進(jìn)行建模,學(xué)習(xí)句法路徑中每個(gè)詞的情感搭配,最后通過(guò)得到的情感搭配完成情感分析工作;Cong 等人基于雙向LSTM 對(duì)文本中的情感極性進(jìn)行建模;Wang 等人提出了一種基于注意力的LSTM 模型進(jìn)行情緒分類(lèi)。 當(dāng)不同的情感表達(dá)作為輸入時(shí),注意機(jī)制可以將模型的注意力集中該情感中;Ma 等人設(shè)計(jì)了結(jié)合特征表示和單詞嵌入的組合策略來(lái)增強(qiáng)注意力機(jī)制,并設(shè)計(jì)基于特征的復(fù)合內(nèi)存網(wǎng)絡(luò),解決細(xì)粒度的情感識(shí)別問(wèn)題。隨著深度學(xué)習(xí)研究的發(fā)展,采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行情感的分析成為了研究人員關(guān)注的熱點(diǎn)之一。
本文基于深度學(xué)習(xí)的情感分析技術(shù),以深度神經(jīng)網(wǎng)絡(luò)中的BLSTM、GRU 和BGRU 三種模型為基礎(chǔ),構(gòu)建深度神經(jīng)網(wǎng)絡(luò)情感分析模型,并以顯式和隱式情感特征文本情感數(shù)據(jù)為對(duì)象,深入比較和分析模型在兩種情感特征文本情感分析方面的效果。
深度神經(jīng)網(wǎng)絡(luò)可以發(fā)現(xiàn)文本中單詞之間的關(guān)系和潛在的語(yǔ)義特征,使用神經(jīng)網(wǎng)絡(luò)對(duì)文本中的單詞特征進(jìn)行提取,動(dòng)態(tài)地學(xué)習(xí)輸入序列的特征,并保持一定的記憶能力,即前一時(shí)刻的記憶能力可以融入到當(dāng)前時(shí)刻的計(jì)算過(guò)程中,保留了單詞序列之間的聯(lián)系。
本文使用Word2vec 訓(xùn)練詞向量,并將其作為輸入,探究了基于BLSTM、GRU 和BGRU 三種神經(jīng)網(wǎng)絡(luò)的情感分析模型,并對(duì)這些模型的優(yōu)缺點(diǎn)進(jìn)行比較。 首先,對(duì)文本進(jìn)行預(yù)處理,即對(duì)文本進(jìn)行分詞和對(duì)停頓詞等無(wú)用詞匯進(jìn)行去除;其次,根據(jù)單詞表對(duì)單詞進(jìn)行索引化表示,并構(gòu)建映射矩陣,使用詞嵌入模型對(duì)單詞進(jìn)行向量化表示;最后,將得到的詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入序列,學(xué)習(xí)文中單詞表達(dá)出的情感特征,并經(jīng)過(guò)激活函數(shù)得出文本的情感分類(lèi)。
在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行文本情感分析時(shí),需要將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)變?yōu)榭晒┥窠?jīng)網(wǎng)絡(luò)計(jì)算的矩陣數(shù)據(jù)。 本文通過(guò)對(duì)文本進(jìn)行分詞、索引化轉(zhuǎn)換等步驟為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)備合適的輸入序列。
(1)分詞。 單詞分詞的精度對(duì)詞向量的生成有著直接的影響,同時(shí)也影響著文本情感分析的結(jié)果。中文文本單詞存在的交叉歧義和組合歧義的特點(diǎn),給分詞工作帶來(lái)的困難,本文使用jieba 分詞對(duì)中文文本進(jìn)行分詞,jieba 分詞使用大量語(yǔ)料對(duì)中文單詞進(jìn)行訓(xùn)練,結(jié)合字典樹(shù)對(duì)中文單詞進(jìn)行分類(lèi),從而達(dá)到分詞的效果。
另外,為了降低停頓詞、標(biāo)點(diǎn)符號(hào)等對(duì)情感分析無(wú)實(shí)際影響的單詞或字符對(duì)詞向量生成過(guò)程的干擾,在對(duì)文本進(jìn)行分詞時(shí),首先使用re.sub()函數(shù)去除停頓詞、標(biāo)點(diǎn)符號(hào)等無(wú)效字符,之后使用jieba 分詞器對(duì)文本進(jìn)行分詞,并將其轉(zhuǎn)化為list 的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)數(shù)據(jù)。
(2)索引化。 對(duì)文本進(jìn)行索引化,將文本中的句子轉(zhuǎn)換為一段數(shù)字索引序列,使得計(jì)算機(jī)可以識(shí)別文本數(shù)據(jù)。 但是本文使用的文本數(shù)據(jù)類(lèi)型為評(píng)論數(shù)據(jù),評(píng)論數(shù)據(jù)隨意性的特點(diǎn)導(dǎo)致文本數(shù)據(jù)長(zhǎng)度差別較大,索引序列預(yù)設(shè)的長(zhǎng)度過(guò)長(zhǎng)會(huì)增加數(shù)據(jù)冗余、浪費(fèi)計(jì)算機(jī)資源;過(guò)短會(huì)造成數(shù)據(jù)缺失,影響訓(xùn)練效果。 因此,本文對(duì)文本數(shù)據(jù)進(jìn)行分析,為文本索引化尋找合適的索引長(zhǎng)度。 基于本文使用的文本數(shù)據(jù),對(duì)數(shù)據(jù)中的語(yǔ)句長(zhǎng)度進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)出索引長(zhǎng)度涵蓋的樣本范圍,隨著索引長(zhǎng)度的變化而產(chǎn)生的變化情況,統(tǒng)計(jì)結(jié)果(部分)如表1 所示。 由表1 可知,當(dāng)索引長(zhǎng)度取值為236 時(shí),涵蓋的樣本數(shù)量最多,因此本文選取236 作為詞向量訓(xùn)練使用的索引長(zhǎng)度。
表1 索引長(zhǎng)度涵蓋樣本范圍隨索引長(zhǎng)度變化的變化Tab. 1 Index length covers the variation of sample range with index length
BLSTM(Bi-directional LongShort-Term Memory,BLSTM)由前向LSTM 和后向LSTM 組合而成,常常被用來(lái)建模上下文信息[24-26]。 BLSTM 針對(duì)LSTM無(wú)法從后向前對(duì)上下文信息進(jìn)行編碼的缺點(diǎn),通過(guò)雙向編碼的方式更好地捕捉文本中的上下文信息。
BLSTM 對(duì)每一個(gè)輸入序列進(jìn)行前向運(yùn)算和后向運(yùn)算,無(wú)論前向還是后向傳播,其計(jì)算過(guò)程都與LSTM 的過(guò)程相同。 即在前向LSTM 和后向LSTM中,對(duì)于輸入序列中的每一個(gè)單詞wt,輸入當(dāng)前t 時(shí)刻wt的詞向量xt、t - 1 時(shí)刻的隱藏狀態(tài)ht-1和記憶狀態(tài)ct-1,按照公式(1)~(6)得到當(dāng)前t 時(shí)刻的記憶狀態(tài)ct∈Rn和隱藏狀態(tài)ht:
其中,σ 表示損失函數(shù)。 當(dāng)BLSTM 用于情感分析時(shí),首先使用單向LSTM 按照上述公式分別從前和后對(duì)輸入序列進(jìn)行編碼,將得到的兩種編碼序列進(jìn)行拼接得到輸入的BLSTM 序列,最后使用激活函數(shù)對(duì)輸入序列的情感極性進(jìn)行判斷。
本文使用BLSTM 進(jìn)行情感分析模型的訓(xùn)練,結(jié)果如圖1 所示,BLSTM 模型有78,055,349 個(gè)參數(shù)。BLSTM 模型第二層為雙向結(jié)構(gòu)的LSTM 層,LSTM層的輸出結(jié)果進(jìn)入單向的LSTM 層以及激活函數(shù)層,通過(guò)激活函數(shù)得到最終的情感分析結(jié)果。
GRU 模型針對(duì)LSTM 復(fù)雜的記憶單元結(jié)構(gòu)進(jìn)行改進(jìn),GRU 模型在記憶單元的設(shè)計(jì)中將輸入門(mén)和遺忘門(mén)組合為更新門(mén),GRU 更新門(mén)的設(shè)計(jì)不但保留了文本中的上下文信息,同時(shí)簡(jiǎn)化了模型結(jié)構(gòu)[27-28]。
圖1 BLSTM 情感分析模型結(jié)構(gòu)Fag. 1 BLSTM Structure of emotion analysis model
GRU 使用一個(gè)門(mén)控回歸單元,使得每一個(gè)單元可以自動(dòng)捕獲不同時(shí)間和不同尺度的依賴(lài)關(guān)系。 同時(shí),GRU 中的參數(shù)按照公式(7)~(10)進(jìn)行參數(shù)更新:
其中,σ 表示損失函數(shù);rt表示GRU 中的重置門(mén);zt表示更新門(mén);h^t 表示中間隱藏層;⊙表示元素相乘。 使用GRU 進(jìn)行情感分析時(shí),更新門(mén)和重置門(mén)學(xué)習(xí)輸入序列中的文本特征,并通過(guò)編碼的方式對(duì)輸入序列中的文本特征進(jìn)行表示,使用激活函數(shù)完成對(duì)輸入序列的情感極性分類(lèi)。
本文使用的GRU 模型結(jié)構(gòu)訓(xùn)練結(jié)果如圖2 所示。 由圖2 可知,GRU 模型共使用了77,999,477個(gè)參數(shù)。 使用三層GRU 結(jié)構(gòu)搭建基于GRU 的情感分析模型,每層GRU 結(jié)構(gòu)的神經(jīng)元個(gè)數(shù)呈下降趨勢(shì)。
圖2 GRU 情感分析模型結(jié)構(gòu)Fag. 2 GRU Structure of emotion analysis model
GRU 在結(jié)構(gòu)上對(duì)LSTM 實(shí)現(xiàn)了優(yōu)化,但是GRU單向編碼的特點(diǎn)使其不能學(xué)習(xí)到更多的語(yǔ)義信息,因此,本文使用BGRU 模型對(duì)中文文本進(jìn)行情感分析。 與BLSTM 設(shè)計(jì)思路一致,BGRU 采用雙向編碼的形式學(xué)習(xí)輸入序列的上下文信息,并通過(guò)激活函數(shù)得到文本的情感分類(lèi)結(jié)果[29-30]。
前向GRU 從左至右讀取輸入序列并通過(guò)若干個(gè)GRU 單元獲取輸入序列的前向隱藏狀態(tài):(hl1,hl2,hl3,…,hln) 。 同樣地,后向GRU 從右至左獲取輸入序列的另一種隱藏狀態(tài): (hr1,hr2,hr3,…,hrn)。 其中, hln和hrn的更新策略同公式(7) ~(10),最后,BGRU 將得到的前向隱藏狀態(tài)hln和后向隱藏狀態(tài)hrn進(jìn)行串聯(lián)得到BGRU 的輸出隱藏狀態(tài):
本文使用的BGRU 模型結(jié)構(gòu)訓(xùn)練結(jié)果如圖3 所示。 由圖3 可知,BGRU 模型共有78,037,061 參數(shù), BGRU 模型將第二和第三層的GRU 結(jié)構(gòu)改為雙向GRU 結(jié)構(gòu),神經(jīng)元個(gè)數(shù)逐層下降。
圖3 BGRU-情感分析模型結(jié)構(gòu)Fig. 3 BGRU-Structure of emotion analysis model
本文利用公開(kāi)數(shù)據(jù)集對(duì)三種神經(jīng)網(wǎng)絡(luò)情感分析模型進(jìn)行實(shí)驗(yàn)和對(duì)比分析。
本文選用中科院計(jì)算所譚松波老師標(biāo)注的酒店評(píng)論語(yǔ)料庫(kù)作為三種神經(jīng)網(wǎng)絡(luò)情感分析模型訓(xùn)練和測(cè)試使用的數(shù)據(jù)集。 選用的酒店評(píng)論語(yǔ)料庫(kù)共有4 000 條語(yǔ)料,包含正向評(píng)論2 000 條和負(fù)向評(píng)論2 000 條。 語(yǔ)料庫(kù)樣本示例,如表2 所示。
本文使用Tensorflow 和Keras 作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練平臺(tái)。 Tensorflow 具有高度的靈活性和豐富的算法庫(kù)。 Keras 具有簡(jiǎn)潔易懂的API 和用途廣泛的模塊函數(shù)。 本文從keras.model 導(dǎo)入Sequential類(lèi),同時(shí)將model 設(shè)置為Sequential,之后使用add()函數(shù)為本文使用的BLSTM、GRU 和BGRU 三種神經(jīng)網(wǎng)絡(luò)添加網(wǎng)絡(luò)層。
本文基于如下分析對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù)進(jìn)行設(shè)置。
表2 酒店評(píng)論語(yǔ)料示例Tab. 2 Examples of Hotel Review corpus
(1)最佳batchsize 和epochs 個(gè)數(shù)。 batch size 指的是一個(gè)batch 中存在的樣本總數(shù),一個(gè)batch 表示的是將數(shù)據(jù)集均分成的子集中的一個(gè)子集,表示訓(xùn)練集顯示的神經(jīng)網(wǎng)絡(luò)運(yùn)行次數(shù)。 本文以20 步長(zhǎng)為單位,從10 ~100 的數(shù)據(jù)規(guī)模中評(píng)估不同batchsize對(duì)神經(jīng)網(wǎng)絡(luò)模型的影響,結(jié)果如圖4 所示。 當(dāng)batchsize 為100,epochs 為20 時(shí),模型的訓(xùn)練效果最佳。 因此,本文將batchsize 參數(shù)調(diào)整為100,epochs參數(shù)調(diào)整為20。
圖4 不同batch size 和epochs 對(duì)神經(jīng)網(wǎng)絡(luò)模型的影響Fig. 4 Influence of different batch size and epochs on neural network model
(2)優(yōu)化算法的選擇。 為幫助神經(jīng)網(wǎng)絡(luò)獲得更快的收斂速度,選取Adam 優(yōu)化器,結(jié)合AdaGrad+RMSProp 兩種優(yōu)化算法的優(yōu)點(diǎn),能訓(xùn)練較為復(fù)雜的神經(jīng)網(wǎng)絡(luò)。 Adam 優(yōu)化器實(shí)現(xiàn)簡(jiǎn)單、參數(shù)的更新不受梯度影響、步長(zhǎng)的更新具有較弱的波動(dòng)性,因此本文選用Adam 優(yōu)化器作為神經(jīng)網(wǎng)絡(luò)優(yōu)化算法。
(3)優(yōu)化學(xué)習(xí)率與動(dòng)量因子。 對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),當(dāng)一個(gè)batch 結(jié)束時(shí),學(xué)習(xí)率會(huì)控制神經(jīng)網(wǎng)絡(luò)權(quán)重的更新,動(dòng)量因子決定上一個(gè)batch 權(quán)重對(duì)當(dāng)前batch 權(quán)重的產(chǎn)生的影響程度。 為了選取最佳的優(yōu)化學(xué)習(xí)率和動(dòng)量因子,本文探究了不同優(yōu)化學(xué)習(xí)率和動(dòng)量因子對(duì)神經(jīng)網(wǎng)絡(luò)的影響,結(jié)果如圖5 所示。 由圖5 可知,學(xué)習(xí)速率在0.01、動(dòng)量因子在0.0~0.2 之間時(shí),模型效果最佳。
圖5 學(xué)習(xí)率和動(dòng)量因子對(duì)神經(jīng)網(wǎng)絡(luò)模型的影響Fig. 5 The influence of learning rate and momentum factor on neural network model
當(dāng)神經(jīng)網(wǎng)絡(luò)完成對(duì)輸入序列的編碼時(shí),需要使用激活函數(shù)判斷輸入序列的情感極性,情感極性取值為正向情感和負(fù)向情感。 本文選用目前較為流行的Sigmoid 函數(shù)作為本文神經(jīng)網(wǎng)絡(luò)判斷情感極性時(shí)使用的激活函數(shù)。
本文使用酒店評(píng)論語(yǔ)料庫(kù)對(duì)三種神經(jīng)網(wǎng)絡(luò)情感分析模型的性能進(jìn)行評(píng)價(jià),將2000 條正向評(píng)論的情感傾向標(biāo)記為1,表示好評(píng);2000 條負(fù)向評(píng)論的情感傾向標(biāo)記為0,表示差評(píng)。 從酒店評(píng)論語(yǔ)料庫(kù)中隨機(jī)選取90%的樣本數(shù)據(jù)作為訓(xùn)練集,余下10%的評(píng)論數(shù)據(jù)作為測(cè)試集,使用準(zhǔn)確率作為三種模型的評(píng)價(jià)指標(biāo)。
(1)三種神經(jīng)網(wǎng)絡(luò)情感分析模型結(jié)果比較。 表3 展示了三種神經(jīng)網(wǎng)絡(luò)情感分析模型在酒店評(píng)論語(yǔ)料中的表現(xiàn),其中Early Stopping 時(shí)刻表示模型是否需要運(yùn)行完所有的預(yù)設(shè)epochs(預(yù)設(shè)值為20),若為否,則輸出Early Stopping 時(shí)刻。 通過(guò)表3 所示結(jié)果可以得出,BLSTM 和GRU 在情感分析方面的表現(xiàn)相差不大,但是BLSTM 使用了20 個(gè)epoch 進(jìn)行訓(xùn)練,而GRU 在第10 個(gè)epoch 時(shí)已經(jīng)獲得較好的準(zhǔn)確率,GRU 簡(jiǎn)化了LSTM 中的結(jié)構(gòu),使得GRU 具有比BLSTM 模型更高的效率。 同時(shí),使用雙向結(jié)構(gòu)的BGRU 獲得了比GRU 更豐富的單詞上下文信息,因此,BGRU 模型具有比GRU 模型更好的情感傾向預(yù)測(cè)能力。
表3 三種神經(jīng)網(wǎng)絡(luò)情感分析模型結(jié)果比較Tab. 3 Comparison of the results of three neural network emotion analysis models
(2)訓(xùn)練集與測(cè)試集的比例對(duì)準(zhǔn)確率產(chǎn)生的影響。 為了驗(yàn)證訓(xùn)練集規(guī)模對(duì)模型預(yù)測(cè)能力的影響,本文使用9:1 的比例對(duì)實(shí)驗(yàn)所用酒店評(píng)論語(yǔ)料進(jìn)行訓(xùn)練集和數(shù)據(jù)集規(guī)模劃分的同時(shí),又使用8 ∶2、7 ∶3、6 ∶4、5 ∶5 的比例分別對(duì)酒店評(píng)論語(yǔ)料進(jìn)行劃分,驗(yàn)證在不同訓(xùn)練集和測(cè)試集規(guī)模的影響下,三種神經(jīng)網(wǎng)絡(luò)情感分析模型對(duì)情感傾向預(yù)測(cè)的準(zhǔn)確率的變化,結(jié)果如圖6 所示。 由圖6 所示結(jié)果得出,訓(xùn)練集數(shù)據(jù)規(guī)模的增加有助于模型學(xué)習(xí)到更多的單詞上下文信息,使得模型可以對(duì)樣本的情感傾向做出更準(zhǔn)確的判斷。
圖6 不同訓(xùn)練集與測(cè)試集比例下三種模型的準(zhǔn)確率變化Fig. 6 The change of accuracy of three models under different training and test set ratios
人類(lèi)的語(yǔ)言擁有復(fù)雜和多樣的特點(diǎn),從日常的情感表現(xiàn)方式上來(lái)說(shuō),大體將情感分析分為顯式以及隱式的情感分析。 在實(shí)際的生活中,通常會(huì)使用不同的修辭手法、說(shuō)反話(huà)、反問(wèn)、隱喻的方式來(lái)隱晦地表達(dá)情感,這樣的隱式情感文本往往沒(méi)有情感詞來(lái)為模型作為指導(dǎo),而且與語(yǔ)境有關(guān),很難統(tǒng)一判斷標(biāo)準(zhǔn),顯然會(huì)比顯式情感更加難以判斷。 使用基于深度神經(jīng)網(wǎng)絡(luò)BLSTM、GRU、BGRU 構(gòu)建的三種情感分析模型進(jìn)行隱式文本的訓(xùn)練,測(cè)試模型判斷隱式情感的準(zhǔn)確率。
模型訓(xùn)練和測(cè)試使用的隱式情感文本來(lái)自新浪微博、去哪網(wǎng)、攜程、大眾點(diǎn)評(píng)、京東、淘寶等,主題包括了生活、娛樂(lè)、節(jié)日等方面。 人工對(duì)這些評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理和情感傾向標(biāo)注后,得出評(píng)論數(shù)據(jù)中共有7785 條。 其中,正面隱式情感3828 條,負(fù)面隱式情感3957 條,隱式情感分析語(yǔ)料示例如表4 所示。
表4 隱式情感分析語(yǔ)料示例Tab. 4 Examples of implicit affective analysis corpus
與顯式情感特征數(shù)據(jù)中的實(shí)驗(yàn)設(shè)置類(lèi)似,使用Tensorflow 和Keras 作為BLSTM、GRU、BGRU 三種神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練平臺(tái)。 為了使顯式特征數(shù)據(jù)和隱式特征數(shù)據(jù)的實(shí)驗(yàn)結(jié)果具有對(duì)照性,在隱式特征數(shù)據(jù)的實(shí)驗(yàn)中使用和顯式情感特征數(shù)據(jù)實(shí)驗(yàn)階段相同的訓(xùn)練參數(shù),即:batchsize=100;epochs=20;學(xué)習(xí)速率= 0.01;動(dòng)量因子=(0.0,0.2];優(yōu)化器選用Adam 優(yōu)化器;激活函數(shù)選用Sigmoid 函數(shù)。
圖7 顯示了三種神經(jīng)網(wǎng)絡(luò)情感分析模型對(duì)主題評(píng)論文本的隱式情感分析的結(jié)果,同時(shí)加入三種模型在顯式情感特征數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果作為對(duì)照。 通過(guò)圖7 展示的結(jié)果得出,在隱式情感特征數(shù)據(jù)中,三種模型表現(xiàn)出相似的預(yù)測(cè)能力,證明對(duì)于隱式評(píng)論文本,BLSTM、GRU、BGRU 三種神經(jīng)網(wǎng)絡(luò)具有相似的單詞語(yǔ)義捕捉能力。 另外,將隱式和顯式情感特征數(shù)據(jù)的實(shí)驗(yàn)結(jié)果進(jìn)行比較,三種模型在顯式文本的預(yù)測(cè)精度都高于隱式文本,證明BLSTM、GRU、BGRU 三種神經(jīng)網(wǎng)絡(luò)對(duì)表達(dá)清晰的文本具有更好的提取能力。 三種模型在隱式和顯式情感特征數(shù)據(jù)中的差值分別為9.19%、10.08%、11.69%,證明在BLSTM、GRU、BGRU 三種神經(jīng)網(wǎng)絡(luò)中,BGRU 更適用于分析情感傾向明顯的評(píng)論文本。
圖7 在顯式和隱式特征數(shù)據(jù)中,三種神經(jīng)網(wǎng)絡(luò)情感分析模型的預(yù)測(cè)精確度Fig. 7 Prediction accuracy of three neural network emotion analysis models in explicit and implicit feature data
本文使用神經(jīng)網(wǎng)絡(luò)對(duì)中文文本中顯式情感特征和隱式情感特征進(jìn)行分析。 分別使用BLSTM、GRU、BGRU 三種神經(jīng)網(wǎng)絡(luò)對(duì)中文評(píng)論文本進(jìn)行情感極性的預(yù)測(cè),分析三種基于不同神經(jīng)網(wǎng)絡(luò)的情感分析模型之間的優(yōu)點(diǎn)和差異。 BLSTM 和BGRU 通過(guò)雙向編碼的形式獲取單詞豐富的上下文信息,GRU簡(jiǎn)化了BLSTM 中的結(jié)構(gòu)。 通過(guò)三種深度神經(jīng)網(wǎng)絡(luò)情感分析模型在顯式和隱式特征文本數(shù)據(jù)的對(duì)比實(shí)驗(yàn)分析發(fā)現(xiàn),基于神經(jīng)網(wǎng)絡(luò)的情感分析模型對(duì)于隱式評(píng)論文本的預(yù)測(cè)能力還有待提高,下一步工作將對(duì)隱式評(píng)論文本中的情感極性進(jìn)行更深入的研究。