潘正高,張 磊
1.宿州學(xué)院信息工程學(xué)院,安徽宿州,234000;2.宿州學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室,安徽宿州,234000 3.宿州市第二中學(xué),安徽宿州,234000
隨著Web2.0技術(shù)在互聯(lián)網(wǎng)上的廣泛應(yīng)用,網(wǎng)絡(luò)上出現(xiàn)了大量的評(píng)論信息,這些信息大多以文本的形式出現(xiàn)。通過文本情感分析技術(shù)可以從網(wǎng)絡(luò)評(píng)論信息中自動(dòng)地分析評(píng)論者的立場(chǎng)、觀點(diǎn),為政府、企業(yè)決策提供重要的參考信息。
文本情感分析主要包括情感評(píng)價(jià)信息的抽取和情感傾向性分類,其中,情感傾向性分類可以轉(zhuǎn)化為文本分類問題。本文在充分考慮網(wǎng)絡(luò)在線評(píng)論的情感詞語之間存在一些固定的搭配規(guī)則,提出了一種基于模式匹配和統(tǒng)計(jì)學(xué)習(xí)相結(jié)合的文本情感分類方法。
文本情感分析按照研究對(duì)象的粒度可以分為詞語級(jí)、句子級(jí)及篇章級(jí)的情感分析[1]。其中,詞語的粒度最小,是文本情感分析的基礎(chǔ)。詞語的情感分析主要有基于詞典和基于語料庫兩類方法。
基于詞典的方法是利用語義詞典中的語義關(guān)系,計(jì)算詞語w與語義詞典中種子情感詞語的情感傾向相似度來確定w的情感傾向。常用的語義詞典有HowNet[2]、WordNet[3]、SentiwordNet[4]等。設(shè)語義詞典的情感種子集為Seed_Set={WP,WN},其中的WP和WN分別表示褒義和貶義種子詞集合,則詞語w的情感傾向性可以定義為:
(1)
其中wpi∈WP,wnj∈WN,sim(w1,w2)表示兩個(gè)詞的語義相似度,M表示種子集中褒義詞的個(gè)數(shù),L表示種子集中貶義詞的個(gè)數(shù)。
基于語料庫的方法是通過統(tǒng)計(jì)詞語w和種子情感詞的共現(xiàn)信息來計(jì)算w的情感傾向度的。該類方法以Turney提出的逐點(diǎn)互信息 (Point-wise Mutual Information,PMI)方法[5]最具代表性。該方法將兩個(gè)詞的逐點(diǎn)互信息PMI定義為:
(2)
其中P(wi)代表詞語wi在語料中出現(xiàn)的概率,P(w1,w2)表示詞w1、w2同時(shí)出現(xiàn)在語料中的概率。
B.Pang[7]采用機(jī)器學(xué)習(xí)的方法,使用Unigram、Bigram、part of speech information以及它們的位置作為特征,對(duì)電影評(píng)論進(jìn)行正、反兩類情感傾向性分析。Qiang Ye[8]等采用基于信息檢索的逐點(diǎn)互信息(PMI)方法對(duì)中文評(píng)論文檔中的情感詞進(jìn)行統(tǒng)計(jì)識(shí)別,將文檔中情感詞的平均語義傾向性作為文檔的整體語義傾向性。
基于機(jī)器學(xué)習(xí)的文本情感分類方法一般需要先提取情感文本的特征來構(gòu)建特征向量空間,再使用機(jī)器學(xué)習(xí)算法完成文本情感分類。情感文本的特征提取將在后面詳細(xì)介紹,本節(jié)只討論最大熵模型、貝葉斯分類器、支持向量機(jī)等幾個(gè)常用于文本情感分類的機(jī)器學(xué)習(xí)方法。
最大熵方法(Maximum Entropy, ME)的主要思想是在只掌握關(guān)于未知分布的部分知識(shí)時(shí),應(yīng)該選取符合這些知識(shí)且熵值最大的概率分布。ME用于文本情感分類時(shí),從訓(xùn)練集中選擇“特征詞-類別”作為特征集,將文檔d的類別指定為c,以使得式(3)最大。
(3)
其中Z(d)是歸一化因子:
(4)
Fi,c(d,c)是值為0或1的二值特征函數(shù),表示是否包含某特征;λi,c是特征函數(shù)的權(quán)重,其值可以通過IIS(Improved Iterative Scaling)算法在訓(xùn)練集上學(xué)習(xí)得到。
貝葉斯(Naive Bayes,NB)理論是建立在特征互相獨(dú)立前提下的,通過貝葉斯公式(5)計(jì)算文檔di屬于類別cj(j=1,2)的條件概率,其中j=1,2,分別表示文本的褒、貶情感傾向。
(5)
其中P(di)是選擇文檔di的概率,對(duì)分類無影響。P(cj)表示一篇文檔屬于cj的概率,P(di|cj)可以通過條件概率求得。通過訓(xùn)練已標(biāo)注的語料,計(jì)算文檔di中的每個(gè)特征詞fj在每一個(gè)類的值P(fj|cj),則:
(6)
支持向量機(jī)(Support Vector Machine, SVM)是一種常用于分類問題的基于風(fēng)險(xiǎn)最小化原理的機(jī)器學(xué)習(xí)方法?;赟VM的情感分類,就是要在訓(xùn)練樣本中求一個(gè)能夠把樣本點(diǎn)分開的線性函數(shù)f(x)=w·x+b,在yi[w·x+b]≥±1約束下間隔最大,其優(yōu)化問題為:
(7)
s.t.yi[
研究結(jié)果表明[9],SVM和NB方法在文本分類時(shí)表現(xiàn)出較好的性能。
傳統(tǒng)的基于機(jī)器學(xué)習(xí)的情感分類方法按詞語的統(tǒng)計(jì)信息進(jìn)行特征選擇,沒有考慮文本的情感特征,容易出現(xiàn)特征維度災(zāi)難和數(shù)據(jù)稀疏問題,分類性能很難進(jìn)一步提高[10]。事實(shí)上,評(píng)論文本中包含了豐富的情感信息,分析評(píng)論文本的結(jié)構(gòu),提取蘊(yùn)含情感類別的信息作為特征,會(huì)提高文本情感分類的效果。
通過情感語料庫的分析發(fā)現(xiàn),基于主題的情感文本中名詞、動(dòng)詞、形容詞、副詞構(gòu)成一些固定的搭配規(guī)則。王素格的研究表明,情感分析應(yīng)主要考察形容詞、副詞,其他類型的詞語只在上下文中體現(xiàn)情感傾向性[11]?;谖墨I(xiàn)[12]研究的基礎(chǔ)上,考慮網(wǎng)絡(luò)在線評(píng)論篇幅較小,筆者將詞語搭配模式的窗口長度設(shè)置為3,并歸納出如表1所示的8種模式。其中a表示形容詞,d表示副詞,v表示動(dòng)詞,n表示名詞,fd表示否定詞。
表1 8種詞語搭配模式
評(píng)論文本中詞語的情感傾向性要以種子情感詞為基礎(chǔ),而不同的評(píng)論主題存在不同的種子情感詞集。本文依據(jù)Hownet基礎(chǔ)情感詞表,對(duì)酒店領(lǐng)域網(wǎng)絡(luò)在線評(píng)論語料進(jìn)行高頻情感詞語統(tǒng)計(jì),人工選擇其中的462個(gè)基準(zhǔn)詞語構(gòu)建酒店領(lǐng)域評(píng)論基礎(chǔ)情感詞典(Hotel Review Sentiment Library, HRSL)。其中正向情感詞語244個(gè),負(fù)向詞語218個(gè)。
對(duì)于情感基準(zhǔn)詞以外的詞語,其語義情感傾向性計(jì)算采用劉群等提出方法[13],如式(8):
(8)
其中α是一個(gè)可調(diào)節(jié)參數(shù),Dis(w1,w2)是詞語w1、w2在義原層次樹中的距離,由義原層次樹的深度和密度決定,是一個(gè)常量。
在確定詞語之間相似度計(jì)算方法的基礎(chǔ)上,可以用本文前面介紹的(1)式來得到任意一個(gè)詞語w的語義傾向性度量值。
與情感詞語相同,匹配成功后的模式也需要計(jì)算特征的傾向值??紤]到程度副詞、否定詞對(duì)情感傾向性的影響情況不同,需要對(duì)表1中的8個(gè)模式分別進(jìn)行情感傾向性計(jì)算。因?yàn)槟J絇1、P2中的名詞不改變情感極性,可以直接將形容詞的極性作為模式的情感極性。模式P3、P7和P8需要考慮程度副詞對(duì)情感強(qiáng)度的影響,筆者按照程度的強(qiáng)弱將它們劃分為“強(qiáng)”、“中”、“弱”三類,如“極其,非?!?、“稍微,比較”、“有點(diǎn),少許”,將每個(gè)等級(jí)依次設(shè)置為2、1、0.5。模式P4中的動(dòng)詞若帶情感色彩,如“喜愛”、“討厭”等,則按照模式P3方式來處理;若不帶情感色彩,則按照模式P1方式來處理。模式P5、P6中的否定詞則會(huì)改變后面形容詞、動(dòng)詞的傾向性。
Web評(píng)論文本中普遍存在表1所示的各種情感詞語搭配模式,以這些情感模式為特征,結(jié)合傳統(tǒng)的機(jī)器學(xué)習(xí)算法,筆者提出了基于模式匹配和統(tǒng)計(jì)學(xué)習(xí)的文本情感分類方法,其工作流程如圖1所示。
圖1 PS方法流程圖
首先對(duì)訓(xùn)練評(píng)論文本進(jìn)行情感傾向人工標(biāo)注;從已經(jīng)標(biāo)注情感的文本中提取形容詞、動(dòng)詞、副詞、否定詞、轉(zhuǎn)折連詞等情感相關(guān)詞語構(gòu)成情感詞庫;再提取在訓(xùn)練集中對(duì)情感分類貢獻(xiàn)度大的情感詞語組合構(gòu)成模式庫。測(cè)試集中的文本經(jīng)分詞后,按照匹配、生成情感模式特征,計(jì)算匹配成功的模式的情感傾向值,得到模式特征序列,最后使用機(jī)器學(xué)習(xí)方法得到文本情感傾向。
本文選擇譚松波[14]提供的酒店類網(wǎng)絡(luò)評(píng)論語料,該數(shù)據(jù)集包括已經(jīng)標(biāo)注情感標(biāo)簽的正負(fù)評(píng)論各2 000篇,是第三屆中文傾向性分析評(píng)測(cè)使用的評(píng)測(cè)語料之一。實(shí)驗(yàn)隨機(jī)選取正負(fù)各1 300篇作為訓(xùn)練集,剩下的正負(fù)各700篇作為測(cè)試集。
本文采用兩種方法來提取特征:1)N-gram的特征選擇方法,即從文本中無序地選擇詞語,分別按照Unigram、Bigram、Trigram三種方式提取特征;2)再用本文介紹的模式匹配(Pattern Matching, PM)結(jié)合N-gram的方法提取特征。分類器采用SVM進(jìn)行對(duì)比分類實(shí)驗(yàn)。實(shí)驗(yàn)在Matlab7.1下進(jìn)行,使用SVM toolbox工具包,核函數(shù)選擇Sigmoid函數(shù),設(shè)置a=1,b=1。
采用準(zhǔn)確率和召回率評(píng)價(jià)分類的性能,用PP、RP表示正向準(zhǔn)確率、召回率,用PN、RN表示反向準(zhǔn)確率、召回率。實(shí)驗(yàn)結(jié)果如表2、表3所示。
表2 N-gram的分類性能
表3 PM+N-gram的分類性能
從表2和表3的分類結(jié)果中可以看出:1)N-gram的分類方法的準(zhǔn)確率、召回率都很差,這與網(wǎng)絡(luò)評(píng)論文本語言使用不規(guī)范,表達(dá)風(fēng)格多樣化有關(guān)。2)采用Bigram方法作為特征項(xiàng)分類要比其他兩種分類效果好,說明評(píng)論語料中2個(gè)詞語構(gòu)成的情感詞概率較大。3)PM+N-gram方法在準(zhǔn)確率、召回率兩個(gè)方面都比N-gram方法分類效果更好,其中,最好的準(zhǔn)確率達(dá)82.25%,說明本文總結(jié)的8種詞語搭配情感模式作為特征在情感分類中是有效的。
上述實(shí)驗(yàn)結(jié)果說明,文本情感分類時(shí)提取文本中的情感詞語搭配模式特征,可以明顯地提高分類的性能。
本文在分析網(wǎng)絡(luò)評(píng)論文本中的情感詞語之間存在的固定搭配模式的基礎(chǔ)上,提出基于模式匹配和統(tǒng)計(jì)學(xué)習(xí)相結(jié)合的文本情感分類方法。該方法將N-gram與8種情感詞語搭配模式相結(jié)合,從評(píng)論文本提取特征,再利用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)文本情感分類。實(shí)驗(yàn)結(jié)果顯示,本文提出的這種文本情感分類方法,與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,明顯提高了情感分類的效果。
參考文獻(xiàn):
[1]昝紅英,左維松,張坤麗,等.規(guī)則和統(tǒng)計(jì)相結(jié)合的情感分類研究[J].計(jì)算機(jī)工程與科學(xué),2011,33(5):146-150
[2]董振東,董強(qiáng).HowNet[EB/OL].[2012-10-22].http://www.keenage.com/html/c_index.html
[3]Fellbaum C.WordNet:An Electronic Lexical Database[M].Boston,America:MIT Press,1998:1-445
[4]Esuli A,Sebastiani F.SentiwordNet:A Publicly available lexical resource for Opinion mining[C]//In Proceedings of the 5th Conference on Language Resources and Evaluation.Genoa,Italy:European Language Resources Association,2006:417-422
[5]Turney P D.Thumbs up Or Thumbs Down? Semantic Orientation Applied to Unsupervised Classfication of Reviews[C]//Proceedings of 40th Annual Meeting of the Association for Computational Linguistics.Philadelphia:ACL,2002:417-424
[6]梅家駒,竺一鳴,高蘊(yùn)琦,等.同義詞辭林[M].2版,上海:上海辭書出版社,1996:1-607
[7]Pang B,Lee L,Vaithyananthan S.Thumbs up Sentiment classification using machine learning techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Philadelphia,2002:79-86
[8]YE Qiang,Shi Wen,LI Yijun.Sentiment Classification for Movie Reviews in Chinese by Improved Semantic Oriented Approach[C]//Proceedings of the 39th Annual Hawaii International Conference on System Sciences:Vol.3,2006:53-57
[9]白鴿,左萬利,趙乾坤.使用機(jī)器學(xué)習(xí)對(duì)漢語評(píng)論進(jìn)行情感分類[J].吉林大學(xué)學(xué)報(bào):理學(xué)版,2009,47(6):1260-1263
[10]萬源.基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D].武漢:武漢理工大學(xué)理學(xué)院,2012:56-75
[11]王素格.基于Web的評(píng)論文本情感分類問題[D].上海:上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,2008:20-36
[12]王素格,楊軍玲,張武.自動(dòng)獲取漢語詞語搭配[J].中文信息學(xué)報(bào),2006,20(6):31-37
[13]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[C].北京:第三屆漢語詞匯語義學(xué)研討會(huì),2002:76-80
[14]譚松波.中文情感文本語料[EB/OL].[2012-05-18].http://www.searchforum.org.cn/tansongbo/corpus-senti.htm