劉 嬌,崔榮一,趙亞慧
(延邊大學(xué) 計算機科學(xué)與技術(shù)學(xué)院 智能信息處理研究室,吉林 延吉 133000)
情感分類屬于較為典型的二分類問題,即給含有情感色彩的文檔一個態(tài)度偏向,支持或者反對。西方語言對情感分類研究起步較早,具有豐富的情感詞典語料等資源,而中文情感資源相對匱乏。研究跨語言情感分類不僅是為了消除語言之間的應(yīng)用屏障,還可以將資源豐富型語言的研究資源應(yīng)用到資源匱乏型語言中去,幫助其他語言發(fā)展,跨越語言之間的鴻溝。本文提出的自聯(lián)想記憶模型可以減小資源不均衡對分類精度帶來的影響,適用于跨語言情感分類任務(wù)。
跨語言情感分類領(lǐng)域近年來顯現(xiàn)出許多優(yōu)秀的模型。文獻[1]提出混合自訓(xùn)練模型和協(xié)同訓(xùn)練模型,分別訓(xùn)練兩個語種的數(shù)據(jù),采用雙視圖來得到最終的分類結(jié)果,分類性能超過了自訓(xùn)練和協(xié)同訓(xùn)練中最好的結(jié)果,并在當(dāng)時取得了NLPCC跨語言情感分類評測任務(wù)(2013)的第一名。文獻[2]在解決跨語言模型的問題時采用遷移學(xué)習(xí)的方法,將源語言和目標(biāo)語言分別視作兩個領(lǐng)域,在此引入基于樣例遷移的監(jiān)測機制來避免發(fā)生負遷移情況,可以減少樣本數(shù)據(jù)中的噪音,提高分類性能。文獻[3]結(jié)合雙視圖與遷移學(xué)習(xí)兩種方法構(gòu)建模型。雙視圖中將英文視為標(biāo)準(zhǔn)的參考知識,并在英文空間中進行訓(xùn)練,通過對英文樣本的翻譯來得到中文視圖中的數(shù)據(jù)集,并引入知識驗證函數(shù)來過濾中文翻譯樣例中由于翻譯產(chǎn)生的可能存在的噪音。
深度學(xué)習(xí)模型在情感分類上的應(yīng)用研究也取得了不小的進展。文獻[4] 通過注意力機制來捕獲不同上下文信息對給定特征的重要性,將注意力機制與LSTM結(jié)合起來對句子進行語義建模。文獻[5]提出一個端到端的對抗記憶網(wǎng)絡(luò)去解決跨領(lǐng)域的情感分類。使用注意力機制來自動抓取特征,模型框架包括兩個參數(shù)共享的記憶網(wǎng)絡(luò)。其中,一個用于情感分類,一個用于主題分類,聯(lián)合訓(xùn)練的同時自動選擇特征以最小化情感分類的誤差。文獻[6]提出了使用降噪自編碼器或者長短時記憶遞歸網(wǎng)絡(luò)(LSTM)結(jié)合上下文情感模糊詞,以學(xué)習(xí)中英文雙語特征的信息表示。
在跨語言語義表示方面,融合和轉(zhuǎn)換語言空間的方法也是研究的重點。Gliozzo等[7]通過使用比較語料庫對英語和意大利語進行跨語言文本分類,對比較語料庫做潛在語義分析,建立一個由兩種語言的潛在語義構(gòu)成的低維投影空間,并將兩種語言構(gòu)成的詞—文檔矩陣都投影到該空間以后進行分類。Hanneman等[8]通過構(gòu)造基于句法的全文翻譯算法來提高分類的正確率。Faruqui等利用典型相關(guān)性分析[9-10]進行跨語言文本分析,即找出兩個語言空間下相關(guān)系數(shù)最大的向量,建立起跨語言橋梁。而本文以翻譯語料庫為基礎(chǔ)獲得評論語料在不同語種下的表示,利用不同語種的詞匯之間的共現(xiàn)程度和它們對應(yīng)詞嵌入的空間關(guān)系來構(gòu)造跨語言自聯(lián)想記憶關(guān)系。在合并的語言空間下,使用擴展的卷積神經(jīng)網(wǎng)絡(luò)模型進行跨語言情感分類任務(wù)。證明了在對跨語言評論語料進行情感正負面分類時,語義的融合方法比轉(zhuǎn)換方法更有效,即使在小規(guī)模數(shù)據(jù)集下也可以獲得較高的分類精度。
自聯(lián)想記憶是指模型能夠?qū)W習(xí)并回憶不同對象個體間的關(guān)系。比如,精通中英雙語的人通過中文文本可以聯(lián)想到同一語義的英文文本,任意給出一種語言的信息都可進行聯(lián)想以獲得該文本語義在融合語種模型空間中的完整表示。由文獻[11]中的分布假設(shè)推導(dǎo)可知單詞的關(guān)聯(lián)程度可以用基于語料庫的方法來獲得。在一個大規(guī)模語料庫中,每個文檔中字詞的分布都可以用向量來表示,詞與詞之間的關(guān)聯(lián)程度也可以用這個向量來計算。通常在平行語料庫中,如果分別屬于兩種語言的兩個詞出現(xiàn)在同一篇語義的文檔中,一般情況下我們可以確定這兩個詞匯具有高度的語義相關(guān)性。根據(jù)這個關(guān)系,對特定語言中的每一個詞匯,找出另一種語言中與該詞匯相關(guān)度最大的詞,可以得到一種語言關(guān)于另一種語言的共現(xiàn)詞匯表?;ハ喙铂F(xiàn)的兩個不同語種的詞不一定能互譯,但在語義上具有高度相關(guān)性[12],它們之間的關(guān)系已經(jīng)被證明適用于跨語種文檔檢索和相似度計算。
根據(jù)Word2Vec模型的計算原理可知[13],它計算詞向量時體現(xiàn)的是詞和它的局部上下文的共現(xiàn)關(guān)系。根據(jù)上下文窗口的滑動來迭代計算所有詞的向量表示,詞之間具有高度的可比性,詞之間的語義距離可以在向量的空間中衡量,這證明了詞之間可以直接用向量線性表示[14]。在不同的語言中,即使源語言文檔ds和目標(biāo)語言文檔dt存在互譯關(guān)系,文檔中的詞在各自語種的語料庫中分布相近,但不具有上下文關(guān)系。即ds和dt中的詞不能在同一個詞上下文窗口中計算得到。因此,它們只能遵循如“vFrance-v法國≈vItaly-v意大利”這樣的語義關(guān)系。本文結(jié)合詞的共現(xiàn)計算方法和詞嵌入向量的特點設(shè)計了共現(xiàn)詞對如式(1)所示。
Ls|t= {
=T-index(x) } (1)
其中:
(2)
式中Vs和Vt分別表示源語言和目標(biāo)語言下語料中的詞項序號集。vi和vj分別表示目標(biāo)語言中和源語言中序號為i、j的詞的詞向量,α代表經(jīng)驗參數(shù),mij表示這兩個詞共同在平行語料中的出現(xiàn)次數(shù)。
式(2)旨在找出兩種語言中統(tǒng)計關(guān)系最大的兩個詞。在平行語料中共同出現(xiàn)次數(shù)最多的詞i和詞j在跨語言語義中具有理應(yīng)有更強的關(guān)聯(lián)性,但詞j關(guān)聯(lián)度最高的候選詞可能不止一個。因此,公式中加入詞嵌入向量vi和vj的內(nèi)積結(jié)果來加強相關(guān)性的計算,且使共現(xiàn)詞對的結(jié)果具有唯一性。
自聯(lián)想記憶是指兩個同形態(tài)的數(shù)據(jù)相互之間存在聯(lián)系的形式或概念構(gòu)成知識存儲在記憶中的具體形態(tài)。依據(jù)這個概念提出將共現(xiàn)詞表作為兩種語言的數(shù)據(jù)之間的橋梁,將自聯(lián)想記憶方法應(yīng)用到神經(jīng)網(wǎng)絡(luò)中。自聯(lián)想記憶映射如式(3)、式(4)所示。
式(4)中,根據(jù)輸入的源語言向量可以聯(lián)想到目標(biāo)語言的相關(guān)向量。在跨語言任務(wù)中,只需要對不同的語言之間互相建立共現(xiàn)詞表,輸入任何語言的向量都可以聯(lián)想到任意其他語言。分類模型的底層輸入通常為詞向量,對給定某個語種文本中的每一個詞都生成一個詞向量。根據(jù)自聯(lián)想記憶關(guān)系,該詞在任一其他語言下都有語義對應(yīng)的詞,依據(jù)式(3)對輸入的源語言中每一個樣本數(shù)據(jù)進行擴展,如圖1所示。
圖1 基于自聯(lián)想記憶的語言擴展
在Word2Vec的計算下,每一個詞都被表示成為一個維數(shù)固定為k的向量。每篇文檔由它的詞生成的詞向量以出現(xiàn)次序排列成一個輸入矩陣,文本信息轉(zhuǎn)化為可計算的向量組合。圖右側(cè)第一個框為源語言文本的輸出詞向量,根據(jù)共現(xiàn)詞匯表找到每一個詞對應(yīng)的目標(biāo)語言下的語義關(guān)聯(lián)詞,在目標(biāo)語言空間中的同樣位置輸入獲得的關(guān)聯(lián)詞的詞向量。通過自聯(lián)想記憶關(guān)系,源語言中的文檔矩陣di|s可以映射到目標(biāo)語言中,其文檔表示為di|t,di|s是s語言空間中m行k列的矩陣,di|t是另一種t語言中同樣m行k列的矩陣。文本模型是將源語言空間中的矩陣拼接映射結(jié)果矩陣,如式(5)所示。
通過式(5)合并一篇文檔在不同語言下的矩陣表示后,可以在合并的空間中對同語義不同語種的文檔進行分類。
假設(shè)自聯(lián)想記憶關(guān)系產(chǎn)生的數(shù)據(jù)互相具有語義補充關(guān)系,因此自聯(lián)系記憶關(guān)系適用于融合不同語言的語義信息。在情感分類任務(wù)中,文本的情感傾向通常只由少數(shù)詞語決定,而卷積神經(jīng)網(wǎng)絡(luò)可用于提取顯著特征并忽略對分類器作用較小的信息[15]。因此本文提出基于自聯(lián)想記憶卷積神經(jīng)網(wǎng)絡(luò)MeCL-CNN (Auto-associative Memory Cross-Linguistic Convolutional Neural Network) 的跨語言情感分類方法。通過自聯(lián)想記憶映射方法,文本模型可以獲取任意語種文本作為輸入。根據(jù)輸入語種的語義映射向量作為記憶來幫助模型生成融合的語種空間,在合并的空間中進行卷積局部特征提取。
本文中卷積神經(jīng)網(wǎng)絡(luò)模型如圖2所示,其中擴展的模型一共包括9層,疊加了更深的卷積層和歸一化層(batch normlization)。輸入層是由詞嵌入向量拼接構(gòu)成的文本矩陣,卷積層中每一個卷積核窗口寬度k與詞向量寬度一致,卷積結(jié)果向量s的第i個值的計算,如式(6)所示。
其中,A代表輸入數(shù)據(jù),W表示與A計算內(nèi)積的卷積核權(quán)重參數(shù),b是偏置項。長度為2代表卷積核可以提取兩個詞組成的短語信息。同理,其他長度的卷積核也可表示對相應(yīng)詞數(shù)組成的短語特征的提取。卷積核的深度表示同一卷積層在相同卷積核尺寸下,卷積層由不同的特征提取規(guī)則集構(gòu)成。
歸一化層的計算過程,如式(7)~式(10)所示。
其中,μβ是對輸入的這一批數(shù)據(jù)的平均值,σβ2是輸入數(shù)據(jù)的方差,m為輸入數(shù)據(jù)的數(shù)量,通過式(7)~式(10)來歸一化數(shù)據(jù)的分布[16],使之具有固定的均值和方差,由于神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個參數(shù)化模型,不同的數(shù)據(jù)分布理應(yīng)在不同的參數(shù)模型下才能更好地擬合。對于評論類型長度的情感分類語料,當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分布差距較大時,模型的效果將大打折扣。此外,在網(wǎng)絡(luò)層數(shù)增加的過程中,較低層網(wǎng)絡(luò)參數(shù)的變化對高層網(wǎng)絡(luò)的影響將越來越大,而在式(9)的影響下,每層的輸入數(shù)據(jù)都轉(zhuǎn)變成均值0與方差為1的分布。因此,對數(shù)據(jù)的歸一化可以改善這個問題,但是在這個操作下,網(wǎng)絡(luò)的表達能力會變?nèi)?,因此采用?10)對歸一化后的數(shù)據(jù)進行縮放和平移。
圖2 擴展的TextCNN模型
激活層函數(shù)選擇ftanh和frelu, 如式(11~12)所示。
ftanh(x)的輸出區(qū)間為(-1,1),并且在輸入數(shù)據(jù)x絕對值非常大時函數(shù)值達到飽和,這使得它的作用接近生物神經(jīng)元,可抑制或刺激神經(jīng)元的信息傳遞。因它具有均值為0的特性,故收斂速度較快。relu函數(shù)的存在極大地解決了飽和函數(shù)所遇到的問題。即在函數(shù)值飽和到0或1時,網(wǎng)絡(luò)層導(dǎo)數(shù)接近0。因此,會影響梯度的反向傳遞。在高層網(wǎng)絡(luò)中適宜用relu函數(shù)來保證梯度的傳輸,緩解梯度消失的問題。
池化層采用Chunk-Max Pooling方法。其思想是把pooling層中每一個深度上的向量進行等長分段,將特征向量切割成若干段后,只保留每個子段中最顯著的特征值。在情感分類任務(wù)中,池化層可以有效地過濾噪音,增強分類器性能。
最后一層為分類結(jié)果輸出層,將全連接層與softmax層組合,可組成softmax回歸分類器。假設(shè)卷積層、激活層和池化層等可將向量從原始輸入映射到隱層特征空間中,則全連接層的作用是將隱層空間中的分布式特征向量表示映射到樣本標(biāo)簽上,從而完成分類任務(wù)。softmax函數(shù)如式(13)所示。
其中,zi代表前一層第i個單元的輸出,pi的值代表輸出層上第i個神經(jīng)元的輸出,即分類標(biāo)簽屬于第i類的概率。
模型中在全連接層添加了dropout機制。dropout的工作原理是在神經(jīng)網(wǎng)絡(luò)的傳遞過程中,以某個特定的概率隨機放棄一些單元。類似于特征選擇的作用,只保留一部分優(yōu)秀的特征傳遞下來,還可以降低隱含層單元之間的聯(lián)合適應(yīng)性。用生物學(xué)的角度來說,它使得復(fù)雜的整段神經(jīng)元的組合聯(lián)動變成比較小的神經(jīng)元片段之間的聯(lián)合適應(yīng)。在簡單的線性空間中,只學(xué)習(xí)一個空間的特征集合足以應(yīng)付當(dāng)前的輸入,但是在數(shù)據(jù)分布波動較大且通常存在于非線性不連續(xù)的空間中時,只適應(yīng)一個空間中的特征集合會造成過擬合的現(xiàn)象,模型對與當(dāng)前數(shù)據(jù)分布差別較大的輸入沒有識別能力,此時對局部空間的特征集合進行隨機采樣可以增強了模型的泛化能力。
本文實驗主要對NLPCC2013會議中提供的“跨語言情感分類”評測任務(wù)進行實驗。該語料源自Amazon網(wǎng)站的中英文產(chǎn)品評論數(shù)據(jù),訓(xùn)練數(shù)據(jù)中含有英文語料2 000條。含書籍、DVD和音樂三種商品的評論標(biāo)注語料,測試數(shù)據(jù)為同等規(guī)模的中文語料。該任務(wù)針對情感的正負類提供了一批用于計算情感分類的情感詞典,另有一大部分未標(biāo)注的中文語料,數(shù)量是訓(xùn)練數(shù)據(jù)的10倍,所有文檔都以XML格式進行存儲。為了獲得不同語言之間的關(guān)系,需要將所有標(biāo)注與未標(biāo)注的中文語料通過google翻譯成英文,通過翻譯語料庫來獲取如第2節(jié)所示的跨語言自聯(lián)想記憶關(guān)系。實驗需要采用英文語料訓(xùn)練本文所示模型AMCL-CNN,并對任務(wù)重提供的中文語料進行情感正負類。經(jīng)過多次實驗,訓(xùn)練過程中參數(shù)設(shè)置如下:
(1) 設(shè)置詞向量維度為200,卷積核組合為[2,3,4,5],卷積核深度為64;
(2) 設(shè)置L2正則方法且正則系數(shù)為0.05,深度學(xué)習(xí)模型容忍度為10;
(3) 選擇帶動量的隨機梯度下降法,隨機梯度步長為0.01,動量系數(shù)為0.5。
dropout率的經(jīng)驗值一般為0.5,但通過實驗可以發(fā)現(xiàn),在情感分類任務(wù)中,dropout率對分類的正確率影響非常大。
圖3 不同dropout的分類正確率
dropout正確率/%書籍DVD音樂Average0.581.7582.1381.2081.690.382.2083.7983.2883.090.283.1484.3884.3583.950.185.6286.6785.3285.870.0584.8485.0183.4684.43
為了更直觀地體現(xiàn)實驗結(jié)果的整體差別,對三種商品的評論分類的正確率計算宏平均。與上一個任務(wù)保持參數(shù)不變的情況下,不同的dropout參數(shù)對結(jié)果精度的影響較大,如圖3所示。dropout的經(jīng)驗值一般選取0.5,而從圖中可以看出,當(dāng)dropout的比例取0.5時,各項類別的情感分類效果都為最低。當(dāng)單元的保留比例增高時,分類精度也隨之增高,但是在dropout比例為0.1時達到了最高。因dropout的本質(zhì)是在神經(jīng)單元的信號傳輸過程中放棄一部分單元的工作能力,故將這些神經(jīng)單元看作特征。dropout自動完成了對輸入信號進行特征選擇的過程。從實驗結(jié)果的角度分析,情感分類的語料特點是需要上下文特征來協(xié)助分類,又因情感分類是二分類任務(wù),故不需要通過dropout來提高模型的復(fù)雜程度。這個實驗證明深度學(xué)習(xí)訓(xùn)練過程中,不同的數(shù)據(jù)分布和任務(wù)需要不一樣的超參數(shù)。
對跨語言情感分類研究做了對比實驗。實驗數(shù)據(jù)中沒有平行語料,采用機器翻譯獲得雙語語料,繼而根據(jù)式(2)計算詞嵌入向量之間的距離,與上一個實驗過程相同,采用基于CNN的自聯(lián)想記憶模型。實驗結(jié)果如表2所示。
表2 不同方法的分類正確率
文獻[1]中雙視圖與自訓(xùn)練協(xié)同訓(xùn)練相結(jié)合的方法在當(dāng)時取得了最好成績。它的不足在于分別訓(xùn)練源語言和目標(biāo)語言的分類模型時,沒有充分利用兩種語言之間的語義信息。文獻[2]和文獻[3]均基于遷移學(xué)習(xí)的方法來實現(xiàn)跨語言的過程繼而進行情感分類。其中文獻[3]取得的平均準(zhǔn)確率高達83.59%,但它存在的明顯問題是同一個模型在3個類別上的正確率差距太大。這是由于此模型中采用任務(wù)提供的未標(biāo)注數(shù)據(jù)來做機器翻譯的可信度認證,所以測試集的結(jié)果會在一定程度上依賴未標(biāo)注數(shù)據(jù)的翻譯質(zhì)量和數(shù)據(jù)分布。換言之,當(dāng)未標(biāo)注數(shù)據(jù)與測試數(shù)據(jù)分布相近,未標(biāo)注數(shù)據(jù)可以幫助模型提高分類精度。當(dāng)數(shù)據(jù)分布相差較大時,會產(chǎn)生負遷移的現(xiàn)象。同時,測試集中抽取的數(shù)據(jù)信息不具有代表性,分類性能下降。實驗表明,未標(biāo)注的數(shù)據(jù)分布對應(yīng)用于跨語言任務(wù)的遷移學(xué)習(xí)方法影響非常大。文獻[6]中提出的方法通過情感詞的上下文情感的模糊信息表示,判斷模糊限制句來表達特定語境下的語義和情感信息的融合。該方法以情感詞為中心,一方面可增強句子的情感表示,另一方面也受限于情感詞的分布。沒有充分利用語料本身的語義表達,所以分類效果有限。
相比之下,本文沒有用到情感詞典,僅用測評任務(wù)中給出的文本語料就取得了最高的準(zhǔn)確率。且對三個產(chǎn)品類的評論分類精度都比較高,未曾出現(xiàn)不平衡的現(xiàn)象。這是因為本模型可以從抽象層面上提取了不同語種的語義特征,特征之間的隱含聯(lián)系對分類的效果提高非常有幫助。且本模型的擴展度高,不僅適用于跨語言任務(wù),還適用于多語種特征任務(wù)。從實驗結(jié)果可以得知,基于聯(lián)想記憶模型的CNN分類模型對跨語言情感分類非常高效。
本文一方面分析了dropout大小對分類器性能的影響;另一方面對跨語言文本信息的提取方法與現(xiàn)有的方法進行了實驗結(jié)果對比,證明了dropout的選取可以有效提高普通的分類器對短文本語義的識別度。通過自聯(lián)想記憶關(guān)系對跨語言短文本語義進行融合,減少了在語言交換過程中語義的丟失,加強了短文本語義的完整表示程度。與其他學(xué)者提出的方法相比,本文設(shè)計的跨語言情感分類模型獲得了非常好的效果,驗證了本文所提出方法的有效性。
此次訓(xùn)練只針對了電商網(wǎng)站上的商品評論,下一步研究計劃將該應(yīng)用擴展到其他應(yīng)用環(huán)境中,進一步驗證算法的有效性。