姜伶伶,何中市,張航
(重慶大學(xué)計(jì)算機(jī)學(xué)院,重慶 400044)
互聯(lián)網(wǎng)時(shí)代的快速發(fā)展,尤其是Web2.0的蓬勃發(fā)展,加強(qiáng)了網(wǎng)站與用戶之間的互動,為人們獲取信息、發(fā)表意見和交流情感提供了新的渠道。自然語言處理領(lǐng)域中的一個(gè)重要的研究分支是文本情感分析,在微博盛行的今天,大量的學(xué)者致力于微博文本情感分析的研究。
微博文本情感分析的質(zhì)量取決于情感詞典的質(zhì)量,好的情感詞典需要包含最新的情感詞語,因此必須保證情感詞典的實(shí)時(shí)更新。在構(gòu)建情感詞典時(shí),情感詞典[1-2]的自動擴(kuò)充有著巨大的研究意義。
在微博情感分析中,微博情感詞典的構(gòu)建具有重要的研究意義和使用價(jià)值。在情感詞典的自動擴(kuò)充中,對候選情感詞的傾向性判斷是重點(diǎn)也是難點(diǎn)。在計(jì)算情感詞的傾向性時(shí),目前通用的兩種方法分別是基于語義相似度的計(jì)算方法[3]與基于統(tǒng)計(jì)的計(jì)算方法[4]。文獻(xiàn)[5]將HowNet和NTUSD兩種詞典進(jìn)行合并從而構(gòu)建了一個(gè)帶有情感傾向性程度的情感詞典。文獻(xiàn)[6]在構(gòu)建情感詞典時(shí)考慮了上下文相關(guān)性。文獻(xiàn)[7]提出了一種在HowNet的基礎(chǔ)上使用PMI計(jì)算詞語極性擴(kuò)展詞典的方法。文獻(xiàn)[8]提出了一種拉普拉斯平滑的SO-PMI算法計(jì)算候選情感詞與種子詞的互信息?;贖owNet的語義相似度計(jì)算方法[9]以及基于SO-PMI的情感傾向性計(jì)算方法[10]首先選取若干正面種子詞和若干負(fù)面種子詞,基于HowNet的語義相似度計(jì)算方法[9]需要計(jì)算上述選取的正、負(fù)面種子詞與待分類詞語的相似度,基于SO-PMI的情感傾向性計(jì)算方法[10]需要計(jì)算上述選取的正、負(fù)面種子詞與待分類詞語的互信息。中文微博中存在大量的新詞無法在HowNet中找到義原,從而也無法計(jì)算詞語與義原的相似度。因此基于HowNet的語義相似度計(jì)算方法不適用于中文微博的候選情感詞傾向性判斷。
基于SO-PMI的方法[11]需要計(jì)算候選情感詞與正、負(fù)種子詞的互信息,由于微博是短文本,因此微博中候選情感詞與正、負(fù)種子詞的共現(xiàn)頻次為0的概率較大,在出現(xiàn)零概率問題時(shí)無法計(jì)算候選情感詞與正、負(fù)種子詞間的互信息,從而無法判斷候選情感詞的極性。針對這一問題,本文在已有情感詞典資源的基礎(chǔ)上,提出了一種基于Good-Turing平滑SO-PMI算法的微博情感詞典構(gòu)建方法。
Good-Turing基本思想:通過用高頻計(jì)數(shù)的N元語法重新估計(jì)0計(jì)數(shù)或者低頻計(jì)數(shù)的N元語法發(fā)生的概率。對于任何發(fā)生r次數(shù)的N元語法,都假設(shè)它發(fā)生了r*次。
式中:
Nr是訓(xùn)練語料中正好發(fā)生r次的N元組的個(gè)數(shù);
Nr+1是訓(xùn)練語料中正好發(fā)生r+1次的N元組的個(gè)數(shù)。
即,發(fā)生r次的N元組的調(diào)整由發(fā)生r次的N元組與發(fā)生r+1次的N元組兩個(gè)類別共同決定,統(tǒng)計(jì)數(shù)為r*詞的N元組。
通常用點(diǎn)互信息(PMI)這個(gè)指標(biāo)來衡量兩個(gè)事物之間的相關(guān)性,兩個(gè)事物同時(shí)出現(xiàn)的概率越大,其相關(guān)性越大。
兩個(gè)詞語word1與word2的PMI值計(jì)算公式為:
p(w ord1word2)表示兩個(gè)詞語word1與word2共同出現(xiàn)的概率,可轉(zhuǎn)化為word1與word2共同出現(xiàn)的文檔數(shù)與總文檔數(shù)的比值,如式:
p(w ord1)與p(w ord2)分別表示兩個(gè)詞語單獨(dú)出現(xiàn)的概率,可轉(zhuǎn)化為word1和word2出現(xiàn)的文檔數(shù)與總文檔數(shù)的比值,如式:
式(3)~(5)中:
count(w ord1,word2)為詞word1與詞word2共同出現(xiàn)的文檔數(shù);
count(w ord1)為詞word1出現(xiàn)的文檔數(shù);
count(w ord2)為詞word2出現(xiàn)的文檔數(shù);
q為總文檔數(shù)。
word1與word2共現(xiàn)的概率越大,兩者關(guān)聯(lián)度越大,反之,關(guān)聯(lián)度越小。
其值可以轉(zhuǎn)化為以下3種狀態(tài):
p(w ord1word2)>0,兩個(gè)詞語是相關(guān)的;
p(w ord1word2)=0,兩個(gè)詞語是統(tǒng)計(jì)獨(dú)立的,不相關(guān)也不互斥;
p(w ord1word2)<0,兩個(gè)詞語是互斥的。
情感傾向點(diǎn)互信息算法(SO-PMI)是將PMI方法引入計(jì)算詞語的情感傾向中。SO-PMI算法的基本思想是:分別選取一組正向種子詞Pwords和一組負(fù)向種子詞Nwords。每個(gè)種子詞必須具有明顯的傾向性。計(jì)算候選情感詞word跟Pwords的點(diǎn)間互信息與word跟Nwords的點(diǎn)間互信息的差值,根據(jù)該差值判斷詞語word的情感傾向。計(jì)算公式如式(6)所示。
將0作為閾值,得到以下三種情況:
SO-PMI(word)>0,為正面傾向,即 word是褒義詞;
SO-PMI(word)=0,為中性傾向,即 word是中性詞;
SO-PMI(word)<0,為負(fù)面傾向,即 word是貶義詞。
情感詞典是詞的集合,包含一組情感詞以及對應(yīng)的情感傾向性程度值。目前常用的公共情感詞典有知網(wǎng)(HowNet)發(fā)布的情感詞典、大連理工大學(xué)情感本體、臺灣大學(xué)自然語言處理實(shí)驗(yàn)室提供的簡體中文情感詞典(National Taiwan University Sentiment Dictionary,NTUSD)、《學(xué)生褒貶義詞典》等,這些公共的情感詞典是情感分類研究的重要基礎(chǔ)。但已有的公共情感詞典對中文微博中涌現(xiàn)出的大量網(wǎng)絡(luò)新詞覆蓋率較低,已經(jīng)無法滿足我們的需求,因此,本文提出一種基于Good-Turing平滑的SO-PMI算法用于微博情感詞典的構(gòu)建。
本文首先將現(xiàn)有情感詞典《大連理工大學(xué)情感本體》和《知網(wǎng)》進(jìn)行合并,并去除重復(fù)的情感詞得到微博技術(shù)情感詞典,如表1所示。
表1 微博基礎(chǔ)情感詞典
表1中,HowNet為知網(wǎng)情感詞典,Dalian為大連理工大學(xué)情感本體,Base為整理后組成的微博基礎(chǔ)情感詞典。
候選微博情感詞指微博中可能含有情感傾向的詞語,主要以名詞、動詞、形容詞、副詞的形式存在。首先,使用ICTCLAS對COAE2014任務(wù)四的測評語料中隨機(jī)抽取的200條微博進(jìn)行切詞處理,提取詞性為noun、verb、adjective、adverb的詞;人工篩選出帶有情感的待入選候選微博情感詞;然后過濾掉微博基礎(chǔ)情感詞典Base中已有的正、負(fù)極情感詞;則剩下的詞即為候選微博情感詞,將該類詞存入dic_w,記為dic_w={C1,C2,…,Cn}。
使用基于SO-PMI的方法判斷候選情感詞傾向性時(shí),需要計(jì)算候選情感詞與正、負(fù)種子詞的互信息,因此需要選取正、負(fù)情感種子詞。由于微博屬于短文本,詞頻較高的情感詞文檔頻率不一定高。若種子詞在微博文檔中出現(xiàn)的頻率很低會導(dǎo)致微博候選情感詞與種子詞共現(xiàn)的頻次較低,此時(shí)出現(xiàn)零概率事件,無法計(jì)算候選情感詞的互信息。因此,本文提出選取文檔頻次較高的情感詞作為種子詞。
當(dāng)微博候選情感詞和種子詞在整個(gè)語料中共現(xiàn)的頻次為0時(shí),根據(jù)公式(2)無法計(jì)算候選情感詞和種子詞的互信息,此時(shí)無法對候選情感詞的傾向性進(jìn)行判斷?;诖藛栴},本文對SO-PMI算法進(jìn)行了如下改進(jìn):
選取m個(gè)正面情感種子詞,正面情感種子詞集為P={ p1,p2,…,pm},m個(gè)負(fù)面情感種子詞,負(fù)面情感種子詞 集 為R={r1,r2,…,rm} ,對 候 選 微 博 情 感 詞dic_w={c1,c1,…,cn}中的每個(gè)詞ci(i =1,2,…,n ),其與正面情感種子詞pj( j=1,2,…,m )的互信息為:
式中:
p(ci,pj)為詞ci與pj在訓(xùn)練語料中共現(xiàn)的概率;
p(ci)為詞ci在訓(xùn)練語料中出現(xiàn)的概率;
p(pj)為詞pj在訓(xùn)練語料中出現(xiàn)的概率。
在實(shí)際計(jì)算過程中,上述概率值可用頻率進(jìn)行估計(jì),即:
式(8)~(10)中:
count(ci,pj)為詞ci與pj在訓(xùn)練語料中共現(xiàn)的微博條數(shù);
count(ci)為詞ci在訓(xùn)練語料中出現(xiàn)的微博條數(shù);
count(pi)為詞pj在訓(xùn)練語料中出現(xiàn)的微博條數(shù);
q 為訓(xùn)練語料集中總的微博條數(shù)。
將式(8)~(10)代入式(2)后得到式(11):
由于在實(shí)際計(jì)算過程中,count( )ci,pj的值可能為0,此時(shí) PMI( )
ci,pj無意義,本文對式(8)引入Good-Turing平滑技術(shù):
式中:
count*(ci,pj)為count(ci,pj)的Good-Turing平 滑計(jì)數(shù)
將其代入式(1)得:
式中:
是訓(xùn)練語料中正好發(fā)生count(ci,pj)次的N元組的個(gè)數(shù);
是訓(xùn)練語料中正好發(fā)生count(ci,pj)+1次
的N元組的個(gè)數(shù)。
則式(11)可改進(jìn)為:
同理,可計(jì)算詞ci(i =1,2,…,n)與負(fù)面情感種子詞rj( j=1,2,…,m )的互信息,則詞ci的SO-PMI值計(jì)算公式如下:
將式(15)化簡后得:
式中:
在封閉的語料庫中,出現(xiàn)正、負(fù)面種子情感詞的微博條數(shù)是固定的,因此αj可以看作常數(shù),在訓(xùn)練語料中,如果:
則詞ci可視為中性詞,為便于計(jì)算,將αj賦值為1,改進(jìn)后的SO-PMI計(jì)算公式為:
最終,候選微博情感詞的情感傾向可以通過式(19)進(jìn)行判斷:
SO-PMI(ci)>0,ci為正面情感詞,將其加入微博正面情感詞典;
SO-PMI(ci)=0,ci為中性詞;
SO-PMI(ci)<0,ci為負(fù)面情感詞,將其加入微博負(fù)面情感詞典;
從而組成微博領(lǐng)域情感詞典。
實(shí)驗(yàn)選取COAE2014任務(wù)四的測評語料,共40000條微博(含干擾數(shù)據(jù)),隨機(jī)選取數(shù)據(jù)對其進(jìn)行人工標(biāo)注,得到正向、負(fù)向情感微博各3000條用于實(shí)驗(yàn)。首先對測評語料進(jìn)行數(shù)據(jù)預(yù)處理,如分詞、去除非法字符、數(shù)據(jù)格式規(guī)范化處理。使用3.2節(jié)中的方法從隨機(jī)抽取出的200條微博中提取出400個(gè)待入選候選微博情感詞,過濾掉微博基礎(chǔ)情感詞典已有的詞169個(gè),得到候選微博情感詞共231個(gè);然后選取TF-IDF值最高的正、負(fù)面情感種子詞各25個(gè),針對231個(gè)候選微博情感詞使用公式(19)計(jì)算其極性如表2所示。
表2 候選微博情感詞極性
最后,組成微博領(lǐng)域情感詞典如表3所示。
表3 微博領(lǐng)域情感詞典
本文用準(zhǔn)確率(Precision)、召回率(Recall)和 F1值(F1Score)作為評價(jià)分類結(jié)果的指標(biāo),準(zhǔn)確率和召回率計(jì)算公式如下。
實(shí)驗(yàn)在上述構(gòu)建的微博領(lǐng)域情感詞典的基礎(chǔ)上,采用基于規(guī)則的方法[12]對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行情感傾向性判斷,首先按照3.1小節(jié)中的方法得到微博基礎(chǔ)情感詞典Co,再通過3.2/3.3小節(jié)中的方法構(gòu)建微博領(lǐng)域情感詞典,同時(shí)將本文提出的算法與文獻(xiàn)[8]中提出的拉普拉斯平滑算法進(jìn)行對比。
準(zhǔn)確率計(jì)算所有“正確檢索的(T P )”占所有“實(shí)際被檢索到的(T P+FP )”的比例。
召回率計(jì)算所有“正確被檢索的(T P )”占所有“應(yīng)該檢索到的(T P+FN )”的比例。
F1值被定義為準(zhǔn)確率和召回率的調(diào)和平均數(shù),它認(rèn)為召回率和準(zhǔn)確率同等重要:
表4中,PosP、PosR、PosF1分別為正面準(zhǔn)確率、召回率和F1值,NegP、NegR、NegF1分別為負(fù)面準(zhǔn)確率、召回率和F1值。從實(shí)驗(yàn)結(jié)果可以看出,本文提出的方法相對于另兩種方法,針對正、負(fù)面情感微博都有較高的準(zhǔn)確率和召回率,證實(shí)了本文提出的方法在判別微博情感傾向上的可行性。
表4 微博傾向性分析結(jié)果
本文基于平滑SO-PMI算法對微博基礎(chǔ)情感詞典進(jìn)行擴(kuò)展,針對微博候選情感詞和種子詞共現(xiàn)頻次為0時(shí)無法計(jì)算其互信息的問題,引入Good-Turing平滑技術(shù)。以COAE2014任務(wù)四的測評語料作為實(shí)驗(yàn)數(shù)據(jù),采用改進(jìn)后的SO-PMI算法構(gòu)建了微博領(lǐng)域情感詞典,利用此微博領(lǐng)域情感詞典對微博進(jìn)行情感傾向性分析。實(shí)驗(yàn)結(jié)果表面,本文提出的方法取得了較好的效果。
由于在分詞過程中,采用現(xiàn)有的ICTCLAS分詞系統(tǒng),導(dǎo)致部分網(wǎng)絡(luò)詞匯沒有被正確切分,因此對微博候選情感詞的提取率不高?;谝?guī)則的方法依賴于使用的情感詞典,這造成一定的局限性。因此使用基于規(guī)則和機(jī)器學(xué)習(xí)融合的方法進(jìn)行情感傾向性的判斷將是下一步研究工作的重點(diǎn)。
參考文獻(xiàn):
[1]陳曉東.基于情感詞典的中文微博情感傾向分析研究[D].華中科技大學(xué),2012.
[2]陳國蘭.基于情感詞典與語義規(guī)則的微博情感分析[J].情報(bào)探索,2016(2):1-6.
[3]金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報(bào),2005,45(2):291-297.
[4]張彬.文本情感傾向性分析與研究[D].河南工業(yè)大學(xué),2011.
[5]楊超.基于情感詞典擴(kuò)展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析[D].東北大學(xué),2009.
[6]Lu Y,Castellanos M,Dayal U,et al.Automatic Construction of a Context-Aware Sentiment Lexicon:an Optimization Approach[C].International Conference on World Wide Web,WWW 2011,Hyderabad,India,March 28-April.DBLP,2011:347-356.
[7]王振宇,吳澤衡,胡方濤.基于HowNet和PMI的詞語情感極性計(jì)算[J].計(jì)算機(jī)工程,2012,38(15):187-189.
[8]杜銳,朱艷輝,田海龍,等.基于平滑SO-PMI算法的微博情感詞典構(gòu)建方法研究[J].湖南工業(yè)大學(xué)學(xué)報(bào),2015(5):77-81.
[9]朱嫣嵐,閔錦,周雅倩,等.基于 HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20.
[10]Wiebe J,Riloff E.Creating Subjective and Objective Sentence Classifiers from Unannotated Texts[M].Computational Linguistics and Intelligent Text Processing.Springer Berlin Heidelberg,2005:486-497.
[11]Yang A M,Lin J H,Zhou Y M,et al.Research on Building a Chinese Sentiment Lexicon Based on SO-PMI[J].Applied Mechanics&Materials,2013,263-266:1688-1693.
[12]Raaijmakers S,Kraaij W.A Shallow Approach to Subjectivity Classification[C].International Conference on Weblogs and Social Media,Icwsm 2008,Seattle,Washington,Usa,March 30-April.DBLP,2008.