趙軍民,李 芳
(1.河南城建學院 計算機與數(shù)據(jù)科學學院,河南 平頂山 467036;2.景德鎮(zhèn)陶瓷大學,江西 景德鎮(zhèn) 333403)
基于現(xiàn)代漢語詞典的情感詞語識別研究
趙軍民1,李 芳2
(1.河南城建學院 計算機與數(shù)據(jù)科學學院,河南 平頂山 467036;2.景德鎮(zhèn)陶瓷大學,江西 景德鎮(zhèn) 333403)
基于《現(xiàn)代漢語詞典》對詞語的釋義,提出了一種新的情感詞語識別方法。該方法結(jié)合多特征線性融合和多次循環(huán)策略,利用現(xiàn)有的情感詞典識別并構(gòu)建適用于跨領域的通用情感詞典。首先基于已有情感詞典資源構(gòu)建候選的通用情感詞表,然后使用多特征線性融合的方法計算候選通用情感詞表在《現(xiàn)代漢語詞典》中的情感傾向性,并利用多次循環(huán)的策略獲得最終的通用情感詞表。實驗結(jié)果表明,本文提出的情感詞語識別方法是有效的,在Precision、Recall及F-measure等方面都取得了較好的效果。
多特征線性融合;情感詞典;情感詞語;情感傾向
Abstract: Based on the interpretation of the words in "Modern Chinese Dictionary", a new recognition method for emotion words is proposed. This method combines the multiple characteristic linear fusion and the multiple cycle strategy to identify and construct universal dictionary of emotion words which is suitable for the cross domain by using the existing dictionary. First, based on the existing resources of dictionary to build a candidate's general vocabulary, and then use the multi-feature linear fusion method to calculate the emotional orientation of the candidate emotion words in Modern Chinese Dictionary, and use the strategy of multiple loops to obtain the final universal emotion words. The experimental results show that the method of identifying emotion words is effective and has achieved good results in Precision, Recall and F-measure.Keywords: multi-feature linear fusion; dictionary of feelings and emotions words; emotion words; emotional tendency
詞語是有情感傾向的,語言學界把這種情感傾向稱之為詞語的感情色彩[1-2],即詞語本身所附帶的表達貶義或褒義態(tài)度的色彩。在漢語詞匯集中,很多詞匯具有這種情感傾向,具備很強的主觀感情色彩。根據(jù)情感傾向的穩(wěn)定性,可以把情感詞語分為通用情感詞語和語境情感詞語兩類:通用情感詞語情感傾向在語用和語義上都非常穩(wěn)定,感情色彩單一且不依賴于具體語言環(huán)境;語境情感詞語情感傾向在不同的語用環(huán)境中會表現(xiàn)出不同的感情色彩。詞語情感傾向識別的對象是那些具有情感傾向的名詞、形容詞、動詞、副詞以及成語和一些習慣用語,其任務是從文本中抽取出這些情感詞語。隨著微博、微信及其它網(wǎng)絡上評論文本的不斷增長,迫切需要計算機對這些評論文本進行情感傾向分析,使得情感分析研究成果具有廣泛的應用。如:用戶評論分析,幫助人們在購買物品之前進行了解;輿情監(jiān)控,對網(wǎng)絡上的輿論信息進行收集、反饋;信息預測,根據(jù)對網(wǎng)絡上的新聞、帖子的分析,對某一事件的未來發(fā)展狀況進行預測。
研究者對情感詞語進行了大量研究,主要的研究方法可以分為兩類:基于情感詞典的方法和基于語料庫統(tǒng)計的方法?;谇楦性~典的方法以詞語之間的語義相似度來識別情感詞語,該類方法以已知情感極性的詞語為種子集,之后利用詞典(如:Hownet[3])計算被識別詞語與種子詞語之間語義的相似性,并以此作為判斷詞語情感極性的依據(jù)。朱嫣嵐等[4]提出了基于Hownet的語義相似度計算方法來計算詞匯語義傾向性,該方法就屬于基于情感詞典的情感詞語識別方法?;谡Z料庫統(tǒng)計的方法主要根據(jù)統(tǒng)計特征或語義關聯(lián)特征抽取情感詞語?;谡Z料庫統(tǒng)計的方法又可分為無監(jiān)督機器學習(unsupervised learning)的方法和基于人工標注語料庫學習(artificially label corpus learning)的方法。無監(jiān)督機器學習方法利用語料庫中的連詞信息和詞語間的共現(xiàn)信息來識別帶有情感傾向的詞語。Hatzivassilolou和Mckeown[5]等人以連接信息(如:and,but,or等)作為約束條件,采用對數(shù)線性回歸模型(log-linear regression models)來判斷具有關聯(lián)的形容詞的情感傾向性是否相同?;谌斯俗⒄Z料庫方法先對語料庫進行情感傾向性標注,然后利用詞語間的搭配信息、共現(xiàn)信息或語義信息,來判斷詞語的情感傾向性。Wiebe[6]在對語料庫進行標注的基礎上,根據(jù)詞語間的搭配關系研究文本中情感詞語的傾向性。
本文根據(jù)詞語的情感傾向性是否在不同語境發(fā)生變化,將情感詞語分為通用情感詞語和語境情感詞語。在《現(xiàn)代漢語詞典》豐富的帶有情感傾向性釋義的詞語釋義信息基礎上,利用特征線性融合方法計算詞語釋義的情感傾向性,并采用多次循環(huán)的策略,從已有的情感詞典中抽取通用情感詞語,進而構(gòu)建了一個跨領域的通用情感詞典。
詞語的釋義一定程度上決定著詞語的感情傾向性,例如“驕傲”一詞,有兩種不同的感情傾向性,當解釋為“自豪”時是褒義詞,感情傾向性為正面的,當解釋為“自滿”時則是貶義詞,感情傾向性為反面的。而“高雅”只有“高尚,不粗俗”一種釋義,只表現(xiàn)為褒義色彩,沒有貶義感情傾向。因此,可以借助于漢語詞典對詞語的解釋來確定詞語的情感傾向性。
1.1 《現(xiàn)代漢語詞典》詞語釋義的標準和特點
《現(xiàn)代漢語詞典》[7]最新版本(第六版)共收1.3萬多個單字,條目6.9萬多條?!冬F(xiàn)代漢語詞典》對詞語進行解釋時既通俗易懂,又追求準確性、簡潔性和完整性[8]。準確性要求對詞語解釋時使用含義明確的詞語表達詞義,不能存在歧義。簡潔性要求對詞語解釋時要言簡意賅,用詞簡練,用字較少,追求通俗易懂;完整性則要求對詞語的解釋要全面,例如“好”在第六版《現(xiàn)代漢語詞典》中共有17種不同釋義。另外,《現(xiàn)代漢語詞典》在對詞語進行解釋時有如下兩個特點:一是釋義句子中常使用常見、簡單的否定詞,且這些否定詞多數(shù)情況下只修飾距離其右邊最近的情感詞,例如“敷衍”一詞的釋義是“做事不負責或待人不懇切,只做表面上的應付”;二是釋義句子中含有“但”、“但是”、“只是”等轉(zhuǎn)折連詞,使得連詞前后釋義的情感傾向性相反,但要表達的含義卻在連詞后面的分句上,后面分句決定著其情感傾向,例如“內(nèi)秀”一詞的釋義是“看上去粗魯、拙笨,但實際上聰明、細心”。正是《現(xiàn)代漢語詞典》中對詞語解釋遵循的標準和具有的特點,為詞語情感傾向性的計算帶來了一定的方便,也為《現(xiàn)代漢語詞典》用于識別通用情感詞語提供了理論基礎。
1.2詞語情感傾向計算
根據(jù)情感詞語的情感傾向是否因語境不同而變化,可以把情感詞語分為通用情感詞語和語境情感詞語兩類。通用情感詞語所有釋義的情感傾向一致,不會因不同的語言環(huán)境而發(fā)生變化,如“美麗、高尚、卑鄙”等詞語。語境情感詞語則相反,詞語在不同的語言環(huán)境中可能呈現(xiàn)出不同的情感傾向,如“驕傲”一詞在不同的語境中呈現(xiàn)截然相反的褒義和貶義。根據(jù)詞語在《現(xiàn)代漢語詞典》的釋義,將通用情感詞語和語境情感詞語從候選情感詞語中區(qū)分出來,進而構(gòu)建一個通用情感詞典。
本文采用情感詞語、轉(zhuǎn)折連詞、否定詞等詞語釋義的特征,利用多特征線性融合[9]的方法基于《現(xiàn)代漢語詞典》計算詞語釋義的情感傾向性。計算時,首先對詞語釋義進行分詞,對包含轉(zhuǎn)折連詞釋義,特征融合時為避免因前后分句情感傾向相互抵消,而造成的情感傾向性的不準確,用轉(zhuǎn)折詞后面的分句代替整個釋義句子,然后計算詞語釋義中的情感詞語、否定詞的特征值,進而利用多特征線性融合方法求得詞語釋義的情感傾向。
其計算公式為:
(1)
式中:p表示該詞為褒義詞,pi表示第i個褒義情感詞的特征值,p的取值為1;d表示該詞為貶義詞,dj表示第j個貶義情感詞的特征值,d的取值為-1。nega表示否定詞特征,如果情感詞語右邊沒有否定詞的存在,釋義的情感傾向與前面情感詞語的情感傾向一致,此時nega=1。否則,情感詞語右邊存在否定詞,釋義的情感傾向就會發(fā)生變化,此時nega=-1。m表示褒義詞的數(shù)量,n表示貶義詞的數(shù)量。SO表示利用線性融合方法求得的詞語釋義的情感傾向,SO>0表示該釋義有褒義傾向,SO<0表示該釋義有貶義傾向,SO=0表示該釋義沒有情感傾向。
1.3通用情感詞語識別
為提高通用情感詞語識別準確率,本文采用了多次循環(huán)、逐步篩選的策略,利用HowNet情感詞語集等現(xiàn)有的情感詞典作為本文的候選情感詞表A,即A為現(xiàn)有情感詞典的并集,并假設候選情感詞表A中所有詞語均為通用情感詞語,利用多特征線性融合方法計算A表中所有詞語的情感傾向性,同時構(gòu)建新的通用情感詞表B,B初始狀態(tài)為空集,如果情感詞表A和情感詞表B不同,說明候選情感詞表A中非通用情感詞語被過濾。然后,用B代替A,重新計算情感詞表A詞語的情感傾向,直到候選的情感詞表A和新生成的通用情感詞表B相同為止。至此,新生成的B表為通用情感詞。
具體實現(xiàn)步驟為:
Step1:利用現(xiàn)有的情感詞典構(gòu)建本文的候選情感詞表A,同時構(gòu)建空的通用情感詞表B,B=Φ;
Step2:對于候選情感詞表A每個詞,利用本文方法計算其所有釋義的情感傾向性,同時將所有釋義都相同詞語作為通用情感詞語加入表B中;
Step3:比較候選情感詞表A與通用情感詞表B,如果相同,執(zhí)行Step4;否則,用B代替A,跳轉(zhuǎn)至Step2繼續(xù)執(zhí)行;
Step4:將新生成的通用情感詞表B作為最終結(jié)果,構(gòu)建本文的通用情感詞典。
算法流程如圖1所示。
圖1 通用情感詞語識別流程
2.1實驗數(shù)據(jù)
為了測試本文提出的通用情感詞語識別方法的可行性,分別利用臺灣大學(NTUSO)、同濟大學、知網(wǎng)(HowNet)、香港中文大學(CUHK)4個已有的情感詞語庫進行試驗?;凇冬F(xiàn)代漢語詞典》提取出在《現(xiàn)代漢語詞典》中出現(xiàn)過的詞語作為候選情感詞表。同時,為了構(gòu)建更加廣泛的通用情感詞典,將以上4個現(xiàn)有的情感詞典進行綜合,剔除未在《現(xiàn)代漢語詞典》中出現(xiàn)的詞語條目,構(gòu)建了一個更為全面的情感詞典,該詞典共包含情感詞語條目9 549個,其中有褒義色彩的4 830個,有貶義色彩的4 719個。
具體的候選詞表信息如表1所示。
表1 不同候選情感詞表情況
2.2詞語釋義情感傾向性分析
利用以上實驗數(shù)據(jù),分別對5種不同的情感詞典進行試驗,利用本文提出的方法分別在5種不同情感詞典中通用情感詞語的計算結(jié)果見圖2。準確率(Precision)、召回率(Recall)和它們的幾何平均值F度量(F-measure)是常用的算法評估指標。其計算公式為[10]:
Precision = 正確地識別為通用情感詞語數(shù)目/候選通用情感詞語數(shù)目:
召回率的計算公式為:Recall =正確地識別為通用情感詞語數(shù)目/通用情感詞語數(shù)目;
F度量的計算公式為:F-measure = 2*Precision*Recall / (Precision + Recall),F(xiàn)度量是Precision和Recall的幾何平均值,其值越大說明算法性能越優(yōu)。
本實驗采用pooling評測方法,即隨機抽取N個數(shù)據(jù)構(gòu)成評測池(N取值為2 000),并根據(jù)給出的標準答案對實驗結(jié)果進行自動評價。
圖2 基于不同情感詞表的precision、recall、F-measure指標比較
由圖2可以看出:基于多特征融合的情感傾向性識別方法在5個情感詞表上得到的F值都超過了0.65,符合F-measure參數(shù)要求,說明本文提出的方法是有效的。其中,NTUSD詞表得到的準確率為0.59,在5個詞表中最低,這與詞典中的噪音有很大關系。由于同濟大學褒貶義情感詞典的詞語數(shù)目少,影響了實驗效果,導致召回率為5個情感詞表中最低。
本文方法綜合了現(xiàn)有的4個情感詞語詞典,由于詞表詞語數(shù)目大大增加,致使準確率有所降低,但僅比最高的同濟大學褒貶義情感詞典低了0.06,但召回率和F值卻有較大提高,在5個情感詞表中最高,分別達到0.87和0.77。因此,本文提出的基于現(xiàn)有情感詞典構(gòu)建情感詞表是可行的,為構(gòu)建更加全面的通用情感詞語奠定了基礎。
2.3通用情感詞語識別效果分析
從實驗結(jié)果看,詞語釋義的傾向性識別存在錯誤。經(jīng)分析,錯誤原因不是因為本文的方法有問題,而是有些情感詞語的釋義中不包含具有感情色彩的詞語,即缺少情感詞語特征,這樣利用多特征融合的方法得出的SO=0,即詞語釋義的情感傾向性趨于中性。另外,候選情感詞表就是錯誤的,也就是候選情感詞表中的詞不是有情感傾向的詞語。為此,本文采用多次循環(huán)、逐步篩選的策略,以提高多特征融合的情感詞語識別方法的準確率。
利用包含9 549個情感詞語條目的綜合情感詞表進行實驗時,Precision、Recall、F-measure及每次循環(huán)后詞表中詞條數(shù)目的變化情況見圖3。其中,GPN表示某次循環(huán)后生成的候選情感詞語詞表中的詞語數(shù),VPN表示某次循環(huán)前后候選情感詞語詞表中不同詞語的數(shù)目。
圖3 循環(huán)過程中詞表及釋義傾向性結(jié)果的變化情況
從圖3可以看出:第1次循環(huán)后篩選出的候選情感詞語詞表GPN包含近7 000個詞語,經(jīng)8次循環(huán)后趨于穩(wěn)定。對于Precision指數(shù),每次循環(huán)后該指數(shù)都在不斷提高,第8次后比最開始提高了近15%。這也說明本文采用的多次循環(huán)、逐步篩選的策略是可行的,能夠有效提高情感詞語識別的準確率。最終,利用基于多特征融合的情感傾向性識別方法,構(gòu)建了包含4 429個詞語的通用情感詞語詞典,其中2 886個褒義詞,1 543個貶義詞。
根據(jù)《現(xiàn)代漢語詞典》中詞語釋義的特點,利用情感詞語、轉(zhuǎn)折連詞、否定詞等詞語釋義等特征,提出了基于多特征線性融合的情感傾向性識別方法。該方法綜合了現(xiàn)有的HowNet、NTUSD、CUHK及同濟大學的褒貶義情感詞典,并根據(jù)是否在《現(xiàn)代漢語詞典》出現(xiàn),構(gòu)建了包含9 549個條目的候選通用情感詞語。采用多次循環(huán)、逐步篩選的策略結(jié)合《現(xiàn)代漢語詞典》計算詞語釋義的情感傾向性,進而構(gòu)建了跨領域通用情感詞語詞典。采用pooling評測方法進行了實驗,經(jīng)測試本文提出的方法在Precision、Recall及F-measure等方面都取得了較好效果,并最終構(gòu)建了更為全面的通用情感詞語詞典,為情感詞語識別進一步研究提供了基礎。
[1] 符淮青. 現(xiàn)代漢語詞匯[M] 北京:北京大學出版社,1985.
[2] 劉叔新. 漢語描述詞匯學[M] 北京:商務印書館,1990.
[3] 董振東,董強.知網(wǎng)和漢語研究[J].當代語言學,2001(1):33-44.
[4] 朱嫣嵐,閔錦,周雅倩等. 基于 HowNet 的詞匯語義傾向計算[J].中文信息學報,2006,20(1):14-20.
[5] Vasileios Hatzivassiloglou, Kathleen R. McKeown. Predicting the Semantic Orientation of Adjectives[C]. Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL, 1997:174-181.
[6] Wiebe J, Bruce R, Bell M, et al. A corpus study of evaluative and speculative language[C]. Proceedings of the Second SIGdial Workshop on Discourse and Dialogue-Volume 16. Association for Computational Linguistics, 2001:1-10.
[7] 中國社會科學院語言研究所詞典編輯室. 現(xiàn)代漢語詞典(第6版)[M] 北京:商務印書館,2012.
[8] 孟杰.《現(xiàn)代漢語詞典》與《現(xiàn)代漢語規(guī)范詞典》感情色彩詞語研究[D]. 濟南:山東師范大學,2008.
[9] 徐東亮, 董開坤,等. 于文本挖掘的聚類算法研究[J].微計算機信息,2011,27(2):168-169.
[10] LI L, WANG P, HUANG D, et al. Mining English-Chinese Named Entity Pairs from Comparable Corpora[J].ACM Transactions on Asian Language Information Processing (TALIP),2011,10(4):19.
ResearchonemotionwordsrecognitionbasedonModernChineseDictionary
ZHAO Jun-min1, LI Fang2
(1.DepartmentofComputerandDataScience,HenanUniversityofUrbanConstruction,Pingdingshan467036,China; 2.JingdezhenCeramicInstitute,Jingdezhen333403,China)
2017-06-15
國家語委“十二五”科研規(guī)劃重點項目(ZDI125-23)
趙軍民(1978—),男,河南平頂山人,博士,副教授。
1674-7046(2017)04-0080-06
10.14140/j.cnki.hncjxb.2017.04.015
TP391
A