徐琳宏,劉 鑫,閻 月,原 偉,林鴻飛
1.大連外國語大學(xué) 語言智能研究中心,遼寧 大連116044
2.錦州師范高等??茖W(xué)校,遼寧 錦州 121000
3.信息工程大學(xué) 洛陽校區(qū),河南 洛陽 471003
4.大連理工大學(xué) 計算機(jī)系,遼寧 大連 116024
情感分析通過對信息的處理、識別和統(tǒng)計,獲取其中蘊(yùn)含的情感及分布規(guī)律,數(shù)據(jù)主要來源于社交媒體中用戶評論,是一個多學(xué)科交叉的研究方向。隨著移動應(yīng)用和互聯(lián)網(wǎng)信息的不斷增加,分析龐大用戶群體的情感特征,提取其中有價值的信息成為一個研究熱點。情感分析的研究有助于了解民眾對時事熱點、政策規(guī)定和商貿(mào)產(chǎn)品等的真實態(tài)度和想法,能為政策的制定和調(diào)整提供依據(jù)。但目前情感分析的研究還是以英語為主,俄語情感分析方面無論是模型構(gòu)建還是數(shù)據(jù)儲備都處在不斷探索中。
在“一帶一路”倡議和合作共贏的大環(huán)境下,俄羅斯作為我國的全面戰(zhàn)略協(xié)作伙伴,是具有重要影響力的大國。同時俄語作為東斯拉夫語支的重要語種,在前蘇聯(lián)15個加盟共和國所在區(qū)域也是使用最廣泛的語言,其中俄羅斯聯(lián)邦、白俄羅斯、哈薩克斯坦和吉爾吉斯斯坦都把俄語作為官方語言。因此,解析俄語區(qū)民眾在社交媒體里表達(dá)的態(tài)度有助于探索與各國在經(jīng)濟(jì)等領(lǐng)域的合作模式,也對我國國際政策的順利開展有積極的推動作用。
社交媒體中蘊(yùn)含著大量的文本、語音和視頻信息,為情感分析的研究提供了大量真實的研究數(shù)據(jù)。目前俄羅斯的互聯(lián)網(wǎng)普及率達(dá)到83%,根據(jù)Deloitte[1]2020年發(fā)布的俄羅斯互聯(lián)網(wǎng)使用報告,YouTube、VKontakte、Instagram 和Odnoklassniki 是目前最為流行的四種社交媒體軟件,大約有77%的用戶周末在線時間超過3 小時,即使工作日也有68%的人使用社交媒體軟件。從用戶年齡角度分析,VKontakte的用戶主要集中在30歲以下的年輕人,而Odnoklassniki則以老年用戶為主。由此可見,在俄羅斯各個年齡段的人群均在長時間地使用社交媒體,由此產(chǎn)生的海量信息為俄語情感分析提供了便利,同時也是一個巨大的挑戰(zhàn)。
本文的主要目的是梳理俄語情感分析的傳統(tǒng)模型和最新成果,在此基礎(chǔ)上總結(jié)現(xiàn)有研究的相關(guān)資源、識別方法和應(yīng)用場景,為后續(xù)俄語情感分析的系統(tǒng)研究提供依據(jù),并發(fā)現(xiàn)進(jìn)一步探索的方向和研究熱點。
本文以“emotion+russian”和“sentiment+russian”以及“俄語”“俄文”和“俄漢”與“情感”和“情緒”兩組詞的交叉組合作為檢索詞分別在Web of Science(WoS)、DataBase Systems and Logic Programming(DBLP)和CNKI 中進(jìn)行檢索,獲取相關(guān)文獻(xiàn)190 篇。閱讀每篇文獻(xiàn)并提取其中與俄語情感分析相關(guān)的參考文獻(xiàn),最終篩選出與本文研究主題相關(guān)的73 篇文獻(xiàn),對俄語情感分析的已有研究進(jìn)行細(xì)致梳理和總結(jié)。
情感分析研究的一般研究框架如圖1所示,首先選擇研究領(lǐng)域,獲取相關(guān)語料,接著完成數(shù)據(jù)的預(yù)處理,在合理的標(biāo)注規(guī)范和標(biāo)注原則指導(dǎo)下完成情感標(biāo)注工作,然后對數(shù)據(jù)進(jìn)行識別或分析。識別工作多采用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型,借助詞典和形態(tài)分析工具等資源,以相關(guān)的評估指標(biāo)為指導(dǎo),旨在完成更大規(guī)模語料的自動識別。數(shù)據(jù)分析工作多是統(tǒng)計人工或自動方式標(biāo)注的數(shù)據(jù),發(fā)掘網(wǎng)絡(luò)中積極和消極情感的分布規(guī)律和傳播方式等。也有很多研究先通過機(jī)器自動識別大規(guī)模的情感數(shù)據(jù),再采用統(tǒng)計的方法分析數(shù)據(jù)的分布特征。本文將在后續(xù)的章節(jié)中按情感分析的研究框架逐一梳理俄語情感分析的研究工作。
圖1 情感分析研究框架Fig.1 Research framework of sentiment analysis
資源的使用貫穿于情感分析的每個階段,無論是語料預(yù)處理還是針對情感自動識別的特征提取,都需要用到情感詞典和各類相關(guān)工具。而數(shù)據(jù)集不但是開展分析工作的基礎(chǔ),也是研究結(jié)論可靠性和魯棒性的重要保障。與資源比較豐富的英語情感分析相比,俄語情感分析在規(guī)模和數(shù)量上相對比較匱乏,因此每個資源更顯得彌足珍貴,本章將介紹俄語的情感詞典和帶標(biāo)注數(shù)據(jù)集兩類資源。
表1 中列出了現(xiàn)有的俄語情感詞典資源,其中LinisCrowd和RuSentiLex是兩個規(guī)模較大、建設(shè)質(zhì)量較高、引用頻次較多的詞典。它們都是采用半自動的方法創(chuàng)建,即先采用模式匹配的方法從大規(guī)模語料中自動抽取候選詞列表,然后通過人工的篩選確定情感類別,例如RuSentiLex詞典就采用了35種負(fù)面模式和20種正面模式獲取候選情感詞。自動構(gòu)建詞典多是采用與種子詞計算相似度[13]、與帶標(biāo)注文檔計算PMI[14]或者利用圖傳播[12]的方法。一般來說,完全自動的方式構(gòu)建的詞典規(guī)模較大,但質(zhì)量相對較低。純手工創(chuàng)建的情感詞典雖然質(zhì)量較高,但考慮人工成本,詞典規(guī)模都不會太大,且大多局限于某個領(lǐng)域,例如Tutubalina2016 和Blinov2013語料分別來源于汽車和電影評論兩個領(lǐng)域,規(guī)模都在5 000詞左右。
表1 俄語情感詞典匯總Table 1 Russian sentiment lexicon
情感詞典的分類以三分類和二分類居多,三分類是將詞匯分為正面、負(fù)面和中性,而二分類則是去掉中性類別,五分類就是在此基礎(chǔ)上將正面和負(fù)面分別劃分為強(qiáng)和弱兩種。單分類的情感詞典只有Kamil2021 的辱罵語詞典,詞表中詞匯都是辱罵語。RuSentiLex詞典是四分類的,它是三分類的基礎(chǔ)上增加了一個亦正亦負(fù)的類別,就是說某些詞匯具有情感,但在不同語境下情感類別不同,從單一詞匯角度無法確定極性,這類詞匯在詞典中有291 個。其他詞典并沒有考慮詞匯在不同語境中情感的差異性,一個詞匯只能屬于單一類別,這樣會影響詞匯表達(dá)語義時的多樣性,因此,這將是未來俄語情感詞典構(gòu)建工作需要加強(qiáng)和改進(jìn)的方面。
情感詞典的數(shù)據(jù)來源主要集中在已有詞典、新聞和評論幾種語料。LinisCrowd、RuSentiLex、Chen2014 和Kamil2021 都利用了已有的詞典和WordNet 等電子資源。而評論類語料來源既包括餐館、酒店和銀行等實體對象,也包括電影、書籍、相機(jī)和汽車等產(chǎn)品。產(chǎn)品評論類的情感詞匯多與產(chǎn)品的不同方面有關(guān),主要應(yīng)用于方面級情感分析。語料大多源自相關(guān)的社交媒體平臺,如VKontakte、Twitter和LiveJournal等。此外,質(zhì)量較高的英語情感詞典LIWC也有相應(yīng)的俄語翻譯版本,未在表格中列出。從來源看,情感詞典在繼承已有知識的基礎(chǔ)上,語料來源比較廣泛,保證了詞匯的多樣性。未來可以考慮整合所有的情感詞典,同時還可以利用手工構(gòu)建的詞典進(jìn)一步評估自動詞典的質(zhì)量,構(gòu)建一個規(guī)模更大、詞匯更加豐富和準(zhǔn)確的高質(zhì)量俄語情感詞典。
表2中列出了俄語情感分析的相關(guān)數(shù)據(jù)集的規(guī)模、分類方法、數(shù)據(jù)來源和模態(tài)等信息。與詞典構(gòu)建不同,大部分?jǐn)?shù)據(jù)集是人工參與標(biāo)注和審核的,單純自動方式構(gòu)建的數(shù)據(jù)集只有7個,一般是根據(jù)用戶評分結(jié)果直接分類[27-28]或者根據(jù)語句中的表情符號分類[25],目前還沒有發(fā)現(xiàn)使用自動識別模型進(jìn)行標(biāo)注的數(shù)據(jù)集,這可能與俄語情感識別準(zhǔn)確率總體比較低,難以保證情感分類質(zhì)量有關(guān)。在所有的數(shù)據(jù)集中,RuSentiment 和LinisCrowd2016 的質(zhì)量相對較高,都是五分類的語料,RuTweetCorp 和RuReviews 規(guī)模相對較大,均是以自動方式構(gòu)建的。現(xiàn)有數(shù)據(jù)集以文本形式的語料為主,分為一般文本情感分析和方面級情感分析兩類。
表2中包含8個與評測相關(guān)的數(shù)據(jù)集。俄語情感分析的評測從2011 開始出現(xiàn),分別由俄羅斯信息檢索研討會(ROMIP)、SentiRuEval 和SemEval 發(fā)起。ROMIP是一個類似于TREC 的俄語競賽,關(guān)于情感分析的競賽項目集中在2011 和2012 年發(fā)布。SentiRuEval 和SemEval都是針對情感分析任務(wù)的競賽,前者專門面向俄語情感分析,辦了2015 年和2016 年兩屆。SemEval包含各個語種的情感分析任務(wù),每年都會舉辦,其中2016 年的任務(wù)5 是針對俄語情感分析的。上述三個競賽的語料均來源于用戶評論,ROMIP 評測語料是來自Imhonet和Yandex網(wǎng)站用戶關(guān)于電影、書籍、相機(jī)評論,訓(xùn)練集根據(jù)用戶評分自動分類,測試集經(jīng)過人工標(biāo)注。SentiRuEval 是Twitter 中關(guān)于電信和銀行的評論,2016年的數(shù)據(jù)是在2015 年的基礎(chǔ)上追加了部分?jǐn)?shù)據(jù),兩者有部分重合。SemEval 的任務(wù)5 是關(guān)于餐館評論的,除了正面、負(fù)面和中性的三分類,還有少部分語料標(biāo)注為“沖突”類。
表2 俄語情感數(shù)據(jù)集Table 2 Datasets of Russian sentiment analysis
SentiRuEval 和SemEval 都是對產(chǎn)品或餐館的某個方面進(jìn)行情感標(biāo)注,因此可以應(yīng)用于方面級情感分析的任務(wù),但是語料中大部分?jǐn)?shù)據(jù)都是一條數(shù)據(jù)對應(yīng)一個方面,所以也可以用于一般的文本情感分類任務(wù)。需要注意的是方面情感標(biāo)注中正面、負(fù)面和中性的數(shù)量是按方面計算,因為一個評論可以包含多個方面,因此每類標(biāo)注數(shù)量的總和會大于總評論數(shù)。從數(shù)據(jù)來源看,新聞和用戶觀點類的語料主要來自VK、Twitter、LiveJournal和Censor,而產(chǎn)品評論類的語料主要來源是電子商務(wù)類的網(wǎng)站,包括Imhonet、Yandex、banki.ru、TripAdvisor 和Restoclub 等。從發(fā)布時間看,文本類的情感標(biāo)注語料從2012年開始,前期主要以手工標(biāo)注為主,近幾年開始出現(xiàn)大規(guī)模的自動標(biāo)注語料。語料發(fā)布集中在2012—2013 和2016—2017 這兩個時間段內(nèi),這可能是因為俄語情感分析的研究工作在2016年以后逐步獲得更多研究者的關(guān)注。從各情感類別的數(shù)據(jù)分布看,大部分語料中性類數(shù)據(jù)較多,正面和負(fù)面數(shù)據(jù)相對較少,正面和負(fù)面語料的比例也差異較大,數(shù)據(jù)的不平衡性比較明顯,這也為俄語情感分析的自動識別提出了挑戰(zhàn)。
此外,數(shù)據(jù)集中還有兩個關(guān)于幽默的語料,Blinov Humor[26]和Pikabu2021[29]將文本分為幽默和非幽默兩類,適用于俄語的幽默識別研究。除了文本語料外,表2還包含三個多模態(tài)語料,Ruslana[34]、Ramas[35]和Xu2021[36]。它們的情感類別比較多,主要分為驚奇、幸福、憤怒、悲傷、恐懼和中性,Ramas 在Ruslana 的基礎(chǔ)上增加了“厭惡”類別,這兩個語料庫都是以視頻形式展現(xiàn),由專業(yè)演員演繹各類情感。Ramas除了視頻模態(tài),還采集了表演者的面部表情、語音、運動以及生理信號等信息。Xu2021則是以俄語情景劇《我是如何成為俄羅斯人的》的視頻為數(shù)據(jù)源,人工標(biāo)注完成。三個多模態(tài)語料中,Ramas 和Xu2021 都是會話式語料,數(shù)據(jù)包含多人的對話,上下句之間具有一定的情感連續(xù)性,而Ruslana是獨白式的語料,視頻中只出現(xiàn)一個人的自述,兩種類型的語料在多模態(tài)情感分析的模型選擇上差異較大,不同的應(yīng)用場景需要選擇不同類型的數(shù)據(jù)集。
俄語情感分析的研究分為幾種類型,一類是針對固定領(lǐng)域的標(biāo)注語料進(jìn)行統(tǒng)計,解析社交網(wǎng)絡(luò)數(shù)據(jù)的規(guī)律和特點,為相關(guān)政策的制定和調(diào)整提供依據(jù)。還有一類是從語言學(xué)的角度出發(fā),重點分析俄語中情感詞匯的表達(dá)方式。此外,更多的研究是先構(gòu)建自動識別模型,獲取大規(guī)模語料,然后在大規(guī)模語料上完成數(shù)據(jù)分析。成功構(gòu)建自動識別模型是后續(xù)研究順利進(jìn)行的基礎(chǔ),模型結(jié)果的準(zhǔn)確性也是研究結(jié)論正確與否的保障,因此這一章中側(cè)重綜述與俄語情感分析自動識別模型相關(guān)的工作,并補(bǔ)充部分俄語情感詞匯分析和數(shù)據(jù)分析的研究文章。梳理過程中參考了已有的綜述文獻(xiàn)[37-41],但與其他相關(guān)綜述不同的是本文以情感分析的流程為線索,分階段總結(jié)當(dāng)前俄語情感分析工作的特點,并且詳細(xì)列出了自動模型的分類方法和實驗結(jié)果等信息。
隨著互聯(lián)網(wǎng)的高速發(fā)展,數(shù)量龐大的社交媒體用戶每天產(chǎn)生海量文本,單純依靠人工標(biāo)注方式難以獲取大規(guī)模的用戶情感數(shù)據(jù),這就需要借助情感分析的自動識別模型。早期的情感分析方法有基于規(guī)則和機(jī)器學(xué)習(xí)兩種,基于規(guī)則的方法通常以情感詞典為基礎(chǔ),配合固定的情感表達(dá)模式,這種方法的準(zhǔn)確率取決于詞典的規(guī)模、質(zhì)量以及歸納的模式是否全面,很難應(yīng)對互聯(lián)網(wǎng)中層出不窮的新詞匯和表達(dá)方式。與基于規(guī)則的方法相比,機(jī)器學(xué)習(xí)的方法更節(jié)省人力資源,除了特征提取外多數(shù)工作依靠機(jī)器自動完成,其中特征提取和機(jī)器學(xué)習(xí)模型的配合是研究的重點。2016年后,隨著深度學(xué)習(xí)方法廣泛應(yīng)用,許多研究者發(fā)現(xiàn)在俄語情感分析工作中,選擇和搭配適當(dāng)?shù)纳顚由窠?jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練模型更為重要。表3從數(shù)據(jù)來源、模型方法和分類結(jié)果幾個方面對比和總結(jié)了俄語情感分析自動識別的工作。
表3中的數(shù)據(jù)大體按其發(fā)表的年份排列,其中編號1~19的相關(guān)研究針對一般情感分析,編號20~23的工作是關(guān)于方面級情感分析的。該表匯總了在特定數(shù)據(jù)集上的最好結(jié)果,為了兼顧分類結(jié)果的準(zhǔn)確率和召回率,本文以分類評估最常用的宏平均(F1)作為主要的測量指標(biāo),對于沒有提供F1值的部分研究,則給出其分類結(jié)果的準(zhǔn)確率(accuracy,Acc)。有些工作中結(jié)合了多個模型實現(xiàn)俄語情感分析,表3中只列出了對應(yīng)文獻(xiàn)中特定數(shù)據(jù)集上效果最佳的模型及其實驗結(jié)果。
從表3 中可以看出,2012 年到2016 年間,俄語情感自動識別模型以機(jī)器學(xué)習(xí)為主,效果較好的模型包括SVM、NB、LR 和MaxEnt,大多研究工作在對比多種機(jī)器學(xué)習(xí)算法之后,發(fā)現(xiàn)SVM 效果最好。機(jī)器學(xué)習(xí)模型分類的結(jié)果不僅依賴算法的選擇,更依賴特征的選擇,俄語情感分析中常用的特征包括詞匯級和語句級兩大類。詞匯級特征在語料預(yù)處理階段主要體現(xiàn)在詞干化和形態(tài)還原等,模型輸入層多以情感詞典為基礎(chǔ)[28,43],并通過同義詞和近義詞等方式進(jìn)行擴(kuò)充和分組。語句級的特征一般有Unigram、Bigram、Tf*idf[42]以及句法結(jié)構(gòu)[31,55]和語法關(guān)系[44-45]等。2016 年以后,俄語情感分析中開始引入多種深度學(xué)習(xí)模型,其中包括CNN、LSTM和GRU 等,大部分研究者采用單一的神經(jīng)網(wǎng)絡(luò)模型[18,27,49,51,54],少部分研究者則針對不同模型的優(yōu)點對其進(jìn)行組合和改進(jìn)[56]。
表3 俄語情感分析模型匯總Table 3 Summary of Russian sentiment analysis model
隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域的不斷應(yīng)用,基于語言模型的詞向量技術(shù)也在不斷發(fā)展。早期的研究者多數(shù)使用Word2Vec、GloVe 和FastText 等靜態(tài)詞向量,但由于同一單詞在不同的語境中對應(yīng)的詞向量不變,故而很難解決一詞多義問題。因此越來越多的研究者通過ELMo、GPT 和Bert 等預(yù)訓(xùn)練模型生成動態(tài)詞向量,充分提取單詞的上下文特征信息,根據(jù)不同的語境動態(tài)調(diào)整詞向量,較好地解決了一詞多義問題。RuBert[41]是Bert 模型在大規(guī)模俄文語料上訓(xùn)練之后得到的預(yù)訓(xùn)練模型,它受到了許多學(xué)者的青睞,并在很多研究中取得較好的結(jié)果。值得一提的是,還有一些學(xué)者試圖融合重構(gòu)基于特征提取的機(jī)器學(xué)習(xí)模型和基于詞向量的深度學(xué)習(xí)模型,例如將詞向量作為特征輸入到傳統(tǒng)機(jī)器學(xué)習(xí)模型中[50],或者將人工提取的特征加入到深度學(xué)習(xí)模型的各層架構(gòu)中[54]。
除了RuSentiment、RuTweetCorp、RuReviews、Linis-Crowd等常見語料庫之外,Kaggle、ROMIP和SentiRuEval等評測數(shù)據(jù)集也被眾多研究者所采用。部分研究工作涵蓋了多種數(shù)據(jù)集[29,46,51-53],大部分工作的實驗結(jié)論僅針某個單一的數(shù)據(jù)集。在各常用語料庫上,目前表現(xiàn)最好的模型及其分類結(jié)果依次為:在RuSentiment 上采用預(yù)訓(xùn)練模型ELMo 與CNN[47]模型結(jié)合,最終獲得78.5%的F1值;在RuTweetCorp上采用雙向GRU(BiGRU)模型[51]獲得90.9%的F1 值;在RuReviews 上采用CNN 模型獲得75.5%[27]的F1 值。而在各種評測數(shù)據(jù)集上的研究現(xiàn)狀如下:RuBert 在SentiRuEval 的電信數(shù)據(jù)和銀行數(shù)據(jù)中分別獲得69.1%和79.5%的F1 值;Loukachevitch 等[28]將SVM 和最大熵模型分別應(yīng)用在ROMIP2011 和2012數(shù)據(jù)集上,并完成二分類、三分類和五分類實驗。觀察表3中的三分類結(jié)果可以發(fā)現(xiàn),其研究成果在2011年和2012 年的相機(jī)類評論數(shù)據(jù)集上表現(xiàn)差異較大,F(xiàn)1 值從62.3%下降為48.0%,可見即使在同一領(lǐng)域的數(shù)據(jù)中,模型的波動也較大。俄語情感分析領(lǐng)域的深度學(xué)習(xí)模型相對都比較簡單,以RuSentiment 數(shù)據(jù)集上效果最好CNN模型為例,首先將詞向量嵌入到三個卷積中,每個卷積具有相同數(shù)量的過濾器和不同的內(nèi)核大小,經(jīng)ReLU 激活后進(jìn)行連接,最后通過softmax 激活,獲取最終結(jié)果[47]。具體模型如圖2所示。
圖2 Shallow-and-wide卷積神經(jīng)網(wǎng)絡(luò)Fig.2 Shallow-and-wide CNN
從評測的總體結(jié)果看,二分類任務(wù)結(jié)果較高,接近90%,三分類任務(wù)一般在75%左右,五分類任務(wù)的結(jié)果最差,接近50%[19,28]。除了上述旨在提高自動分類結(jié)果的研究外,還有一些研究分析不同外在因素對分類結(jié)果的影響,如Rubtsova[58]研究不同年份數(shù)據(jù)的自動分類性能差異,Araslanov 等[59]基于NB 和LR 算法評估俄語短文本預(yù)處理對分類結(jié)果的影響。
在俄語情感分析中,以SVM、NB 等為代表的傳統(tǒng)機(jī)器學(xué)習(xí)模型具有較完美的數(shù)學(xué)理論解釋,面向海量數(shù)據(jù)時模型的訓(xùn)練時長相對較短。深度學(xué)習(xí)則更偏重經(jīng)驗主義驅(qū)動,其多數(shù)模型的可解釋性研究進(jìn)展較為緩慢。然而,近年來越來越多的實驗表明,深度學(xué)習(xí)模型在進(jìn)行訓(xùn)練學(xué)習(xí)時,能保留更多對于數(shù)據(jù)的擬合度、攜帶更多的語義信息,其性能優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型。
在深度學(xué)習(xí)模型中,主體由卷積層構(gòu)成的CNN 模型結(jié)構(gòu)相對簡單,模型訓(xùn)練時并行運算能力更強(qiáng),對識別目標(biāo)任務(wù)的結(jié)構(gòu)具有一定的優(yōu)勢。以GRU 和LSTM為代表的RNN 模型訓(xùn)練時間相對較長,但由于其記憶功能對序列識別建模具備優(yōu)勢,因此更為廣泛地應(yīng)用于多種NLP 任務(wù)。與上述深度學(xué)習(xí)模型相比,以ELMo、GPT 和BERT 等為代表的預(yù)訓(xùn)練模型提供了更好的模型初始化,通常具有更好的泛化性能,并能加速對目標(biāo)任務(wù)的收斂。
從近年來的研究結(jié)果來看,在情感分析任務(wù)中深度學(xué)習(xí)模型并未能全面超越傳統(tǒng)模型。例如,在Matheus2016 數(shù)據(jù)集上采用SVM 方法可取得61.0%的F1 值,其與CNN-BiLSTM 模型的結(jié)果相差不大。在多模態(tài)這一情感分析的最新研究領(lǐng)域中,目前針對俄語相關(guān)語料的自動識別研究很少,尚處于起步階段。
綜上所述,在基于規(guī)則的情感分析方法之后,俄語情感自動識別模型的發(fā)展具有較為鮮明的時代特征,可以劃分為傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩個階段,雖然分類算法的選擇對模型的自動識別效果很重要,但語料的預(yù)處理方法、特征提取和預(yù)訓(xùn)練模型的微調(diào)也會對識別準(zhǔn)確率產(chǎn)生較大影響,一個好的研究方案應(yīng)該綜合考慮上述多個方面。另外,俄語情感識別的結(jié)果普遍較低,當(dāng)數(shù)據(jù)集的規(guī)模較大時,三分類的宏平均基本在75%左右,這與實際應(yīng)用的需求還有一定差距,尚有較大的提升空間。此外,模型的穩(wěn)定性也是自動情感分類算法未能大范圍推廣的重要原因,自動識別算法的魯棒性和泛化性還有待進(jìn)一步提高。
俄語情感的數(shù)據(jù)分析是在人工或者自動標(biāo)注語料的基礎(chǔ)上,分析數(shù)據(jù)中情感表達(dá)的特點,進(jìn)而發(fā)掘公眾對新聞事件的觀點,探索用戶評論中蘊(yùn)含的情感以及情緒的分布和傳播規(guī)律等。按分析對象的粒度可以分為詞匯級和語句級,國內(nèi)有很多學(xué)者研究了俄語詞匯的情感表達(dá),如研究俄語中帶有情感意義的成語[60]、俄語情感類心理動詞[61]、俄語情感態(tài)度動詞以及俄語情感詞匯的表達(dá)手段[62-63】等。國內(nèi)以語句為單位的相關(guān)研究不多,原偉等[64]在構(gòu)建并分析俄漢可比語料庫的基礎(chǔ)上,發(fā)現(xiàn)俄文評論趨向使用長評論、形容詞和動詞表達(dá)情感,而中文網(wǎng)評趨向使用短評論、名詞和動詞表達(dá)情感,俄文新聞評論中存在冗余消極評價的現(xiàn)象等。朱姍姍等[5]為考察俄語情感詞匯的表達(dá)手段,人工標(biāo)注了8 031條用戶評論,構(gòu)建了包括6 321條詞匯的俄語情感詞典,并在此基礎(chǔ)上分析了俄語情感表達(dá)的手段。
除了文本模態(tài)的詞匯外,語音等多模態(tài)情感詞匯的研究很早就已經(jīng)開展,它們多以Ruslana語料庫為基礎(chǔ),探索俄語情感表達(dá)中的聲學(xué)特征[65],分析情感狀態(tài)對俄語擦音和塞擦音特征的影響[66],探查持續(xù)時間、能量、共振峰和動態(tài)范圍對俄語情緒表達(dá)的影響[67],討論加入表達(dá)者的信息是否有助于語音情感識別[68]。
在國外,以情感自動或手工創(chuàng)建的俄語情感語料為基礎(chǔ),統(tǒng)計和分析數(shù)據(jù)的研究很多,文獻(xiàn)[40]中按數(shù)據(jù)來源的類型劃分,詳細(xì)梳理了此類相關(guān)的研究,這里不再贅述,本文在此補(bǔ)充部分未提及的俄語情感數(shù)據(jù)分析相關(guān)的研究。Litvinova等[69]研究欺騙檢測的問題,分析俄語真假文本在統(tǒng)計上是否有顯著差異,發(fā)現(xiàn)男性和女性說謊的方式不同,且應(yīng)為不同性別、年齡和心理特征的人設(shè)計不同的模型。Bodrunova等[70]分析俄語可解性與情感的關(guān)系,用統(tǒng)計學(xué)的方法探究自動識別模型(LDA、WNTM 和BTM)和人工標(biāo)注在可解性方面的差異,發(fā)現(xiàn)可解釋的話題越多,負(fù)面情緒就越重。Alvarez等[71]研究Facebook廣告文本中的情感,發(fā)現(xiàn)與負(fù)面廣告比,大多數(shù)的廣告都有積極情緒,且廣告中的情感在2016美國總統(tǒng)大選前后波動比較明顯。
本文以情感分析研究工作的具體流程為線索,詳細(xì)梳理了俄語情感分析的資源、自動識別模型和數(shù)據(jù)分析三個方面的工作,總結(jié)了以往研究中的常用方法和當(dāng)前的主流模型?,F(xiàn)有的俄語情感分析資源包括情感詞典和情感語料兩種類型,在此基礎(chǔ)上總結(jié)了主流的自動情感識別模型,機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型。主要的研究結(jié)論有以下幾點:
(1)資源建設(shè)方面,俄語情感分析的資源建設(shè)目前已經(jīng)初具規(guī)模,為情感分析的后續(xù)研究工作提供了保障。情感詞典中詞匯的數(shù)量已經(jīng)能涵蓋大部分俄語的常用情感詞匯,現(xiàn)有的數(shù)據(jù)集中也包含了一些大規(guī)模、高質(zhì)量的語料庫,但數(shù)據(jù)來源有限,還需要進(jìn)一步拓展,同時對各類資源的整合工作也需要加強(qiáng)。
(2)自動識別方面,主流的模型分為傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩種,整體識別的效率和準(zhǔn)確率還有待提高。機(jī)器學(xué)習(xí)模型以SVM 算法為主,選擇的特征有NGram、詞法和句法等。深度學(xué)習(xí)模型選擇算法主要有CNN、RNN和RuBert等。在幾個大規(guī)模數(shù)據(jù)集中,三分類的宏平均最好結(jié)果基本在75%左右。
(3)數(shù)據(jù)分析及應(yīng)用方面,目前大部分的數(shù)據(jù)分析工作是以大規(guī)模自動識別的語料為基礎(chǔ)的,應(yīng)用范圍從宏觀的熱點話題監(jiān)控和輿情分析到微觀的產(chǎn)品和服務(wù)的創(chuàng)新和改進(jìn),在多個領(lǐng)域都有廣泛的應(yīng)用價值。然而自動識別模型的分類效果難以像人工一樣準(zhǔn)確,因此對研究結(jié)論的有效性會產(chǎn)生一定影響。
俄語情感分析的研究工作雖然已經(jīng)取得了一定的進(jìn)展,但是與比較成熟的英文情感分析的綜述[72]和研究工作[73]相比,整體研究水平還處于初級階段,存在著很多的不足之處,主要體現(xiàn)在以下幾個方面:
(1)從俄語自身的特點出發(fā)構(gòu)建的模型較少。當(dāng)前的很多自動識別工作是簡單地參考英文情感分析模型,沒有考慮俄語自身的特性,導(dǎo)致識別的準(zhǔn)確率普遍較低。俄語作為一種高度屈折的語言,情感表達(dá)的方式有很多獨有的特點,未來可以將這些特性添加到模型中,提高識別的效果。
(2)資源共享性有待加強(qiáng),語料來源需要不斷拓寬。雖然現(xiàn)有俄語情感分析的詞典和數(shù)據(jù)資源較多,但部分資源不能公開獲取,例如大規(guī)模的語料資源RuSentiment,因為社交平臺的信息授權(quán)問題不能繼續(xù)提供下載。此外,方面級語料資源多來自電影、餐館、銀行和相機(jī)等領(lǐng)域,范圍較窄,還需不斷收集不同領(lǐng)域的數(shù)據(jù),拓寬研究范圍。
(3)利用資源豐富的其他語種語料庫的遷移工作比較少。英語等語種的情感分析的研究資源比較豐富,可以考慮采用遷移學(xué)習(xí)等手段,利用其他語種的現(xiàn)有資源,不斷擴(kuò)展俄語情感分析的研究方法和資源。
(4)俄語情感分析工作基本上都是文本模態(tài),語音和圖像等多模態(tài)的研究工作還處于起步階段。情感表達(dá)是一個多層次、多角度的展現(xiàn)過程,單純依賴文本表達(dá)必然會損失很多情感信息,因此多種模態(tài)信息的互補(bǔ)以及與俄語語音等多個學(xué)科的交叉將是未來一個重要研究領(lǐng)域。