杜思奇 李紅蓮 呂學(xué)強
1(北京信息科技大學(xué)信息與通信工程學(xué)院 北京 100101)2(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室 北京 100101)
?
漢語組塊分析在情感分類中的應(yīng)用研究
杜思奇1李紅蓮1呂學(xué)強2
1(北京信息科技大學(xué)信息與通信工程學(xué)院北京 100101)2(北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室北京 100101)
網(wǎng)絡(luò)產(chǎn)品評論的情感分析對網(wǎng)絡(luò)用戶的日常購買行為有著重要的決策作用,因此,如何利用細(xì)粒化的處理方法提高情感分析的準(zhǔn)確率,成為了一個熱門的研究話題。針對該問題提出一種基于漢語組塊分析的情感識別方法,首先依靠漢語組塊分析對汽車評論語料進行細(xì)粒化的處理并提取情感標(biāo)簽,再結(jié)合情感詞本體和支持向量機模型對情感標(biāo)簽進行分類,從而實現(xiàn)情感傾向性的判別。實驗表明,采用漢語組塊分析的情感分類方法相比其他的分類算法平均準(zhǔn)確率提高了4%。因此,基于漢語組塊分析的情感分類可以降低分類器的輸入特征維數(shù),并有效提高分類器的分類性能。
漢語組塊分析情感標(biāo)簽情感詞本體情感分類
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,電子商務(wù)受到了廣泛的關(guān)注,網(wǎng)絡(luò)用戶在線購買行為的擴大使各大電商的評價系統(tǒng)、口碑網(wǎng)站以及網(wǎng)絡(luò)論壇中保存的用戶在線評論的數(shù)量達到了驚人的數(shù)字。分析消費者網(wǎng)絡(luò)購物的模式可以發(fā)現(xiàn),在線評論對消費者的購買行為起著重要的決策作用[1]。在線評論的語言表達風(fēng)格自由,隱藏著用戶體驗和個人情感信息。這些在線評論中的情感信息對于產(chǎn)品制造商和網(wǎng)絡(luò)銷售方改進產(chǎn)品質(zhì)量和服務(wù)起著至關(guān)重要的作用。
然而,隨著電子商務(wù)的不斷普及,在線評論的數(shù)量也在不斷地增長,依靠人工來分析每一條用戶評論顯然是不合適的。如何利用自動化或半自動化的方法挖掘出潛藏在用戶評論中的情感信息已經(jīng)成為了學(xué)術(shù)界和企業(yè)共同關(guān)注的問題,情感分析也應(yīng)運而生[2]。
目前對于情感分析的方法主要分為基于情感詞典和基于機器學(xué)習(xí)的方法。其中基于情感詞典的情感分析方法主要是利用人工構(gòu)建的情感詞庫并結(jié)合規(guī)則來制定閾值,從而實現(xiàn)情感分類。王曉東等[3]構(gòu)建了情感詞本體并利用詞類信息對用戶評論進行情感傾向性計算。董麗麗等[4]擴展了HowNet(知網(wǎng))的情感詞集合并利用SBV算法對筆記本電腦的情感傾向性進行分析。馮秀珍等[5]利用詞類和詞性的相似度并根據(jù)閾值來實現(xiàn)情感分類。
基于機器學(xué)習(xí)的情感分析方法主要是提取評論文本中的情感特征,利用數(shù)據(jù)挖掘中的分類算法實現(xiàn)情感分析,常用的分類算法主要有支持向量機(SVM)和樸素貝葉斯算法。楊經(jīng)等[6]利用SVM并結(jié)合選定的基準(zhǔn)情感詞實現(xiàn)了文本情感分類。王剛等[7]將SVM和集成學(xué)習(xí)理論相結(jié)合實現(xiàn)了對電影評論的情感分類。鐘將等[8]利用矩陣投影并結(jié)合SVM實現(xiàn)了對汽車類產(chǎn)品的情感傾向性計算。鐘將等[9]利用樸素貝葉斯算法并結(jié)合WordNet實現(xiàn)了對服務(wù)行業(yè)評論的褒貶極性分析。
基于情感詞典的方法雖然對評論文本情感分類準(zhǔn)確,但需要人工構(gòu)建完備的情感詞集合?;跈C器學(xué)習(xí)的方法在面對高維數(shù)據(jù)帶來的“高維災(zāi)難”時效果不佳。由于傳統(tǒng)的特征選擇算法[10]在選擇特征時對于降低輸入特征的維度表現(xiàn)不佳,直接影響了機器學(xué)習(xí)模型的分類準(zhǔn)確率。
本文從降低分類器輸入特征的維度、提高分類準(zhǔn)確率出發(fā),提出了一種利用漢語組塊分析對評論語料進行細(xì)?;幚恚瑥亩@得情感標(biāo)簽,并結(jié)合情感詞本體與機器學(xué)習(xí)模型進行情感傾向性分析的方法,采用如圖1所示的流程對評論文本進行情感分類。實驗結(jié)果表明,這種情感分析方法能夠取得較好的分類效果。
圖1 基于漢語組塊分析的情感分析流程示意圖
1.1漢語組塊分析概述
句法分析是自然語言處理研究領(lǐng)域的一個重點和難點,它的基本任務(wù)是識別出漢語句子中的不同句子成分或依存關(guān)系。以獲取句子局部信息為目的的句法分析稱為淺層句法分析,漢語組塊分析就是一種淺層句法分析。
漢語組塊分析借助語言學(xué)中的語塊理論[11],對輸入的漢語句子進行漢語解析,從而構(gòu)成了從詞法分析過渡到句法分析的一座橋梁。本文利用漢語組塊分析對評論文本進行處理,從而提取出用戶評論中的情感標(biāo)簽。
漢語組塊分析對經(jīng)過漢語分析和詞性標(biāo)注的漢語詞語序列處理后主要產(chǎn)生兩部分信息:1)詞界塊:將輸入的詞語序列中的相同句法成分劃分在同一個漢語塊中,這樣詞語序列就形成了連續(xù)的詞界塊序列;2)漢語塊成分標(biāo)記:類似于詞性標(biāo)注,給每一個漢語塊標(biāo)記一個句法信息標(biāo)記。
通過上面的分析可知,要進行漢語組塊分析前,首先需要定義使用的漢語塊成分標(biāo)記。本文所使用的漢語塊成分標(biāo)記如表1所示。
表1 漢語組塊成分標(biāo)記說明
通過漢語組塊分析對評論文本進行漢語塊成分標(biāo)注處理,可以依靠漢語塊信息抽取出用戶評論中的情感標(biāo)簽,從而進行細(xì)?;那楦蟹治?。
1.2基于支持向量機的漢語組塊分析
目前主要利用機器學(xué)習(xí)算法來進行詞界塊的識別和漢語塊的標(biāo)記。主要的機器學(xué)習(xí)算法有最大熵模型、Adaboost算法、條件隨機場模型、隱馬爾可夫模型以及錯誤學(xué)習(xí)算法[12]等。本文利用臺灣大學(xué)資訊工程系提供的LIBSVM工具箱[13]來進行漢語組塊分析。
對漢語評論文本進行組塊分析,實際上就是對分析后的漢語文本輸出一組漢語塊序列,舉例如下:
假設(shè)輸入的漢語評論文本為:性價比很低,中級車中算差的。利用中國科學(xué)院計算技術(shù)研究所提供的中文分詞軟件對該漢語評論文本進行二級分詞和詞性標(biāo)注后輸出:性價比/n 很/d 低/a,/w 中級車/n 中/f 算/v 差/a 的/u。/w。
對經(jīng)過漢語分詞和詞性標(biāo)注等預(yù)處理操作的文本進行漢語組塊分析后得到如下漢語塊序列:性價比/n [ ap 很/d 低/a ],/w [ sp 中級車/n 中/f ] [ ap 算/v 差/a 的/u ]。/w。
在上面的例子中,名詞“性價比” 是用戶評論的對象,其中副詞“很”和形容詞“低”以及動詞“算/v”、形容詞“差”和助詞“的/u”分別構(gòu)成了兩個形容詞塊“[ ap 很/d 低/a ]”和“[ ap 算/v 差/a 的/u ]”。另外,應(yīng)當(dāng)注意到名詞“中級車/n”和方位詞“中/f”構(gòu)成了空間詞塊“[ sp 中級車/n 中/f ]”。通過漢語組塊分析可以很清楚地發(fā)現(xiàn)該用戶所描述的對象是“性價比”,并使用了兩個具有情感信息的形容詞塊“[ ap 很/d 低/a ]”和“[ ap 算/v 差/a 的/u ]” 來描述所購買的汽車的性價比。
通過上述分析,可以發(fā)現(xiàn)漢語組塊分析的任務(wù)可以歸結(jié)為一個多分類任務(wù)。支持向量機作為一種有監(jiān)督的分類學(xué)習(xí)模型,需要提供一組實例來訓(xùn)練模型。本文在考慮了上下文關(guān)系后,選擇了詞特征、詞性特征以及漢語塊特征作為支持向量機的分類依據(jù)。這樣分類模型x可以由以下12個特征來表示:
x=T(ωi-2,ti-2,ci-2,ωi-1,ti-1,ci-1,ωi,ti,ωi+1,ti+1,ωi+1,ti+2)
(1)
上述三類特征可以做如下解釋:
(1) 詞特征: ωi-2、ωi-1、ωi、ωi+1、ωi+2;
(2) 詞性特征:ti-2、ti-1、ti、ti+1、ti+2;
(3) 漢語塊特征:ci-2、ci-1。
漢語組塊的流程可以如圖2所示。
圖2 漢語組塊分析流程圖
為了進行漢語組塊分析,本文選擇了一些上下文特征,例如:上下文中的詞、詞性和漢語塊??紤]到在線評論文本中的評論句長度,本文采用{-5,5}為上下文窗口獲得的中心詞附近的語言學(xué)特征較為合適。
由于在數(shù)據(jù)分類中經(jīng)常遇到線性不可分的問題,對于這些問題可以利用核技巧理論將輸入向量通過高維函數(shù)映射到高維空間。一般而言,如果選擇的映射函數(shù)合適,絕大多數(shù)的低維不可分問題都可以在高維空間可分。在漢語組塊分析的任務(wù)中,本文選擇了多項式核函數(shù)。
據(jù)統(tǒng)計,在實驗語料中絕大多數(shù)的產(chǎn)品屬性和評價詞可以通過就近匹配的方式抽取出來,所以通過這種匹配式的位置信息,可以在漢語組塊分析后進一步抽取出與評論實體較近的產(chǎn)品評價。
1.3情感標(biāo)簽抽取
對評論文本進行細(xì)?;那楦蟹治銮埃紫纫槿〕鲈u論中所隱藏的情感標(biāo)簽。一般而言,評論主要由評價對象以及含有褒貶傾向性的情感詞組成。因此,情感標(biāo)簽可以由如下所示的二元組組成:
emotion_label=
(2)
二元組中,s表示用戶評論的對象,o表示用戶評價對象所使用的情感詞。
由于本文所用的評論語料是在線汽車類商品的評論語料,所以用戶評論的對象s可以由如表2所示的8個汽車類產(chǎn)品的公有特征組成。
表2 汽車類產(chǎn)品公有特征
由于實際語料并不是很規(guī)范,還有一些關(guān)于這8個特征的其他描述方式。本文通過對漢語組塊分析后的結(jié)果,進行評價實體抽取。將不同描述方式映射為如表2所示的8個特征,映射方式如表3所示。
表3 評論實體映射關(guān)系表
這樣,通過上述的映射關(guān)系表,就可以對語料的規(guī)范化進行處理,統(tǒng)一評論文本中的關(guān)于評論實體的說法,方便后續(xù)的處理。
通過上面的敘述,用戶評論對象可以表示為:
s={s1,s2,…,s8}
(3)
用戶評論情感詞o是指用戶對于某一產(chǎn)品特征進行評論時,所使用的具有褒貶傾向性的描述詞匯。
通過對在線評論文本漢語組塊后,分析組塊結(jié)果發(fā)現(xiàn),可以描述產(chǎn)品特征的情感詞匯主要由形容詞類以及動詞類信息構(gòu)成。形容詞類信息主要包括形容詞塊以及漢語塊外的自由形容詞,動詞類信息主要由動詞塊以及漢語塊外的動詞類信息構(gòu)成。
因此,對于用戶評論的褒貶信息組要抽取上述的形容詞類信息以及動詞類信息。
由于有些在線評論可能會包含多個評論實體,本文為了便于分析定義了小句的概念。小句可以描述為由漢語塊外的逗號、分號、句號、問號、感嘆號等點號分割的漢語句子序列片段。通過逐一分析組成評論的每一個小句就可以提取出該評論內(nèi)的評論實體和評價詞。
經(jīng)過漢語組塊分析后,每一條評論文本可以構(gòu)成類似“大眾/nr 的/u 油耗/n [ ap 偏/d 高/a ],/w 同時/c 動力/n 弱/a。/w”的漢語塊序列。根據(jù)該句子中出現(xiàn)的點號(,/w)可以將該漢語塊序列切分為兩個小句片段:s1=大眾/nr 的/u 油耗/n [ ap 偏/d 高/a ],/w和s2=同時/c 動力/n 弱/a。/w。根據(jù)上述對于情感標(biāo)簽的分析,分別對小句片段s1和s2提取評論對象和情感詞o。
對于小句序列s1,它的情感標(biāo)簽由產(chǎn)品特征“油耗/n”以及構(gòu)成情感傾向性的形容詞塊“[ap偏/d高]”構(gòu)成;小句序列s2的情感標(biāo)簽由產(chǎn)品特征“動力/n”以及含有情感褒貶信息的漢語塊外的自由形容詞“弱/a”構(gòu)成。
這樣,構(gòu)成該評論的情感標(biāo)簽可以描述為:
emotion_label*=<油耗/n,[ap偏/d 高/a ];動力/n,弱/a>
基于上面的分析,對經(jīng)過漢語組塊分析后的評論文本逐一提取產(chǎn)品特征和情感詞,就可以由情感標(biāo)簽來描述每一條評論。這樣就由粗粒度的句子級情感分析縮小到了細(xì)粒度的情感標(biāo)簽級的情感傾向性識別。
經(jīng)過上述分析,可以對評論語料中的情感信息進行抽取。由于部分抽取出的信息是非情感的,但是抽取后情感信息總體抽取準(zhǔn)確率達到了77.62%,表明通過漢語組塊分析后對評論信息進行抽取是可行的。
在對評論文本進行漢語組塊分析,以及情感標(biāo)簽提取的基礎(chǔ)上,本文結(jié)合情感詞匯本體和機器學(xué)習(xí)算法進行評論文本的細(xì)粒度情感分析。
2.1情感詞本體的選擇與擴展
使用情感詞匯本體來進行情感分類,可以獲得情感詞的情感分類、情感強度以及情感極性等情感詞特征。這些特征可以作為基于機器學(xué)習(xí)的情感分類的實例特征。
本文所使用的情感詞匯本體是由大連理工大學(xué)提供的[14],該情感詞匯本體共收錄了27 476個詞,這些情感詞被分為7個情感大類和21個情感小類。其中,情感大類包括:樂(happy)、好(like)、怒(anger)、哀(sad)、懼(fear)、惡(disgust)和驚(surprise)。情感小類由:安心(PE)、快樂(PA)、喜愛(PB)、相信(PG)、贊揚(PH)、尊敬(PD)、憤怒(NA)、內(nèi)疚(NH)、失望(NJ)、悲傷(NB)、恐懼(NI)、害羞(NG)、懷疑(NL)、嫉妒(NK)、貶責(zé)(NN)、憎惡(ND)、煩悶(NE)、驚奇(PC)等組成。
由于本文所進行的是對在線評論的多分類,因此7個情感大類結(jié)合情感傾向性可以分為:
(1) 積極(positive):樂(happy)、好(like);
(2) 消極(negative):怒(anger)、哀(sad)、懼(fear)、惡(fear);
(3) 中立(neutral):驚(surprise)。
由于網(wǎng)絡(luò)在線評論中存在大量的衍生情感詞匯、網(wǎng)絡(luò)新詞以及隱含情感詞,僅僅依靠現(xiàn)有的情感詞匯本體遠(yuǎn)遠(yuǎn)不能覆蓋在線評論文本中的情感詞,所以還需要對現(xiàn)有的情感詞匯本體進行擴展。對于未登錄的情感詞的擴充,需要以情感詞匯本體中的情感詞為基準(zhǔn)詞匯,通過點間互信息(PMI)來計算未登錄的情感詞與基準(zhǔn)情感詞之間的共現(xiàn)程度,從而達到擴展情感詞匯本體的目的。本文以情感詞匯本體中的情感詞作為基準(zhǔn)情感詞,以漢語組塊分析后提取出的情感詞信息作為擴展信息。PMI的計算公式如下所示:
(4)
PMI的數(shù)值共有三種狀態(tài):
(1)PMI(word1,word2)>0:未登錄情感詞與基準(zhǔn)情感詞相關(guān);
(2)PMI(word1,word2)=0:未登錄情感詞與基準(zhǔn)情感詞統(tǒng)計獨立;
(3)PMI(word1,word2)<0:未登錄情感詞與基準(zhǔn)情感詞不相關(guān)。
本文選擇與未登錄情感詞最相關(guān)的基準(zhǔn)情感詞,將該基準(zhǔn)詞的情感分類、情感強度和情感極性作為該未登錄詞的屬性,從而實現(xiàn)對情感詞匯本體的擴展。
另外還有一些比較特殊的未登錄情感詞,這些詞匯由已知的情感詞匯和程度副詞構(gòu)成,例如:不滿意(滿意是已知的基準(zhǔn)情感詞匯)。根據(jù)對否定副詞的情感強烈程度,可以將相應(yīng)的情感小類的標(biāo)簽賦給這些加了否定前綴的情感詞,如表4所示。
表4 程度副詞實例
通過上面的分析就可以對原有的情感詞匯本體進行擴展,從而構(gòu)建出利于分析汽車評論情感傾向性的情感詞匯本體。
2.2基于機器學(xué)習(xí)的情感傾向性分析
本文利用SVM對汽車評論文本進行情感傾向性分類研究。通過漢語組塊分析和情感標(biāo)簽抽取,實現(xiàn)了提取評論文本中的細(xì)粒度特征。傳統(tǒng)的基于機器學(xué)習(xí)的情感分類方法利用詞特征作為特征實例,這時往往由于輸入數(shù)據(jù)的維度過大從而削弱了機器學(xué)習(xí)模型的泛化能力。
通過擴展情感詞匯本體,可以查詢到情感標(biāo)簽中某一情感詞的情感分類(c)、情感強度(h)以及情感極性(p)。本文將情感標(biāo)簽和這三個通過本體查詢到的擴展信息作為SVM的特征向量,如果情感標(biāo)簽中只含有一個評論對象(單一評論對象),那么特征向量可以表示為:
x1=T1(s1,c1,h1,p1)
(5)
對上述四個特征的解釋如下:
(1) 產(chǎn)品特征s1:情感標(biāo)簽中的產(chǎn)品特征。由于本文分析的是汽車類產(chǎn)品,所以該特征為汽車類產(chǎn)品的8個公有特征之一。
(2) 情感分類特征c1:在情感詞匯本體中查詢到的情感標(biāo)簽中情感詞的類別。由于本文使用的情感詞匯本體是大連理工大學(xué)構(gòu)建的情感詞本體,所以該特征為21個小類中的一個。
(3) 情感強度特征h1:在情感詞匯本體中查詢到的情感標(biāo)簽中情感詞的情感強度,情感強度分為{1,3,5,7,9}五檔,9表示強情感度最大,1表示情感強度最小。
(4) 情感極性特征p1:在情感詞匯本體中查詢到的情感標(biāo)簽中情感詞的情感極性,情感極性由{0,1,2}表示,0表示中性,1表示褒義,2表示貶義。
如果一條在線評論中包含多個產(chǎn)品特征,那么該情感標(biāo)簽就由多個單一評論對象的情感標(biāo)簽組成,該情感標(biāo)簽的特征向量可以表示為:
x=T(x1,x2,…,xn)
(6)
通過抽取情感標(biāo)簽,并結(jié)合情感詞匯本體和機器學(xué)習(xí)模型,就可以將依靠本體查詢到的擴展信息作為SVM的分類依據(jù),從而避免了直接將詞特征作為分類依據(jù),降低了“高維災(zāi)難”對分類模型泛化能力的影響。另外,SVM的核函數(shù)采用了徑向基函數(shù)。
為了驗證本文所采用的情感分析的方法的有效性,本文利用汽車之家(http://www.autohome.com/cn)所提供的汽車類產(chǎn)品的評論語料作為實驗對象。該評論語料共包含2000條正面評價、2000條中性評價和2000條負(fù)面評價。
本文所用的實驗環(huán)境:計算機CPU為Intel CORE i5,內(nèi)存4 GB,操作系統(tǒng)為Windows 8.1,采用Visual studio 2010。其中情感分類實驗利用了新西蘭懷卡托大學(xué)機器學(xué)習(xí)小組提供的懷卡托智能分析環(huán)境(http://www.cs.waikato.ac.nz/ml/index.html)。
為了提高情感分類實驗的有效性和可靠性,實驗采用了4倍交叉驗證法,即將實驗數(shù)據(jù)劃分為4個相等的數(shù)據(jù)集。每一個數(shù)據(jù)集中包含500條好評、500條中評以及500條差評。每一次實驗時利用3個數(shù)據(jù)集來訓(xùn)練分類模型,用剩下的1個數(shù)據(jù)集來測試,每個數(shù)據(jù)集輪流測試一遍,整體的實驗流程如圖3所示。
圖3 實驗流程
本文利用宏平均準(zhǔn)確率(MP)、宏平均召回率(MR)和整體平均正確率(P)來進行評價。本文首先和文獻[11]進行對比,實驗結(jié)果如表5所示。
表5 對比實驗1
文獻[11]所采用的SVM分類方法是利用詞特征和詞性特征作為訓(xùn)練實例;本文所采用的方法是利用漢語組塊分析提取評論文本中的情感標(biāo)簽,進而進行細(xì)?;那楦蟹诸悓嶒?。文獻[11]的平均準(zhǔn)確率為79.43%,本文的平均準(zhǔn)確率為84.53%。實驗1的結(jié)果表明,通過漢語組塊分析來進行細(xì)粒的情感分析,對于降低SVM的輸入特征的維度從而提高分類的準(zhǔn)確率是有效的。
另外,本文和文獻[5]進行對比實驗,文獻[5]由于采用了基于規(guī)則和加權(quán)的方法來實現(xiàn)情感分析,所以不能利用上述評判機器學(xué)習(xí)的方法來評價文獻[5]。本文利用四折后的平均準(zhǔn)確率和文獻[5]的平均準(zhǔn)確率比較,結(jié)果如表6所示。
表6 對比實驗2
文獻[5]采用基于規(guī)則的詞法分析的方法來進行情感分類,本文采用淺層句法分析的方法來進行細(xì)粒化的情感傾向性分類。對比實驗2表明,利用句法分析可以有效識別句子中的成分,從而提取情感標(biāo)簽,相比基于規(guī)則的方法不會受到預(yù)先定義的規(guī)則的局限性。
通過對比實驗1和對比實驗2可知,本文所采用的方法由于基于規(guī)則的方法,相比傳統(tǒng)的利用機器學(xué)習(xí)實現(xiàn)的情感分類算法有一定的提高,表明利用細(xì)粒度的情感分析能夠準(zhǔn)確識別用戶評論中的情感傾向性。
本文引入漢語組塊分析,對評論文本進行細(xì)?;幚?,并提取情感標(biāo)簽,在情感分類中利用情感詞本體和機器學(xué)習(xí)相結(jié)合的方法進行情感傾向性判別。相比其他方法,本文方法的準(zhǔn)確率有一定的提高,同時保持了較高的召回率,說明進行細(xì)粒的情感分析對于提高分類器的性能是可靠的。將來,我們還將結(jié)合漢語組塊分析在人工智能方面進行更深入的研究。
[1] 嚴(yán)建援,張麗,張蕾.電子商務(wù)中在線評論內(nèi)容對評論有用性影響的實證研究[J].情報科學(xué),2012,30(5):713-716,719.
[2] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010,21(8):1834-1848.
[3] 王曉東,王娟,張征.基于情感詞匯本體的主觀性句子傾向性計算[J].計算機應(yīng)用,2012,32(6):1678-1681,1684.
[4] 董麗麗,趙繁榮,張翔.基于領(lǐng)域本體、情感詞典的商品評論傾向性分析[J].計算機應(yīng)用與軟件,2014,31(12):104-108,194.
[5] 馮秀珍,郝鵬.基于詞性分析的產(chǎn)品評價信息挖掘[J].計算機工程與設(shè)計,2013,34(1):283-288.
[6] 楊經(jīng),林世平.基于SVM的文本詞句情感分析[J].計算機應(yīng)用與軟件,2011,28(9):225-228.
[7] 王剛,楊善林.基于RS-SVM的網(wǎng)絡(luò)商品評論情感分析研究[J].計算機科學(xué),2013,40(11A):274-277.
[8] 鐘將,楊思源,孫啟干.基于文本分類的商品評價情感分析[J].計算機應(yīng)用,2014,34(8):2317-2321.
[9] 鐘將,鄧時滔. 基于多特征融合的漢語情感分類研究[J].計算機應(yīng)用研究,2012,29(1):98-100.
[10] 劉志明,劉魯.基于機器學(xué)習(xí)的中文微博情感分類實證研究[J].計算機工程與應(yīng)用,2012,48(1):1-4.
[11] 薛小芳,施春宏.語塊的性質(zhì)及漢語語塊系統(tǒng)的層級關(guān)系[J].當(dāng)代修辭學(xué),2013(3):32-46.
[12] 王天航,史樹敏,龍從軍,等. 基于錯誤驅(qū)動學(xué)習(xí)策略的藏語句法功能組塊邊界識別[J].中文信息學(xué)報,2014,28(5):170-175,191.
[13] LIN C. Libsvm——A libraty for supporter vector machines[OL].[2015-05-08]. http://www.csie.ntu.edu.tw/~cjlin/.
[14] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報學(xué)報,2008,27(2):180-185.
[15] 周杰,林琛,李弼程.基于機器學(xué)習(xí)的網(wǎng)絡(luò)新聞評論情感分類研究[J].計算機應(yīng)用,2010,30(4):1011-1014.
[16] 夏夢南,杜永萍,左本欣.基于依存分析與特征組合的微博情感分析[J].山東大學(xué)學(xué)報:理學(xué)版,2014,49(11):22-30.
[17] 李綱,劉廣興,毛進,等. 一種基于句法分析的情感標(biāo)簽抽取方法[J].圖書情報工作,2014,58(14):12-20.
[18] 歐陽純萍,陽小華,雷龍艷,等.多策略中文微博細(xì)粒度情緒分析研究[J].北京大學(xué)學(xué)報:自然科學(xué)版,2014,50(1):67-72.
[19] 賀飛艷,何炎祥,劉楠,等.面向微博短文本的細(xì)粒度情感特征抽取方法[J]. 北京大學(xué)學(xué)報:自然科學(xué)版,2014,50(1):48-54.
[20] Liu B. Sentiment analysis and opinion mining[M]. USA: Morgan & Claypool,2012:1-167.
[21] Guojon B. Text mining for opinion target detection[C]// Proceedings of the 2011 European Intelligence and Security Informatics Conference. Piscataway: IEEE Press,2011:322-326.
[22] Pak A,Paroubek P. Twitter as a corpus for sentiment analysis and opinion mining[C]//Proceedings of the 2010 International Conference on Language Resources and Evaluation. Paris: European Language Resources Association,2010:17-23.
[23] Somprasetspi G, Lalitrojwong P. Mining feature-opinion in online customer reviews for opinion summarization[J].Journal of Universal Computer Science,2010,16(6):938-955.
ON APPLYING CHINESE CHUNK PARSING IN SENTIMENT CLASSIFICATION
Du Siqi1Li Honglian1Lü Xueqiang2
1(SchoolofInformationandCommunicationEngineering,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)2(BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)
The sentiment analysis of online product reviews plays an important role in decision-making of Internet users’ daily purchase behaviour, therefore, the way to well use fine-grained processing method in improving the accuracy of sentiment analysis becomes a hot research topic. Aiming at this issue, the paper proposes a Chinese chunk parsing-based emotion recognition method. First, it relies on Chinese chunk parsing to make fine-grained processing on car reviews corpus and extracts the emotion labels as well. Then, it combines sentiment words ontology and support vector machine model to classify emotion labels so as to implement the discrimination of emotional orientation. It is demonstrated by experiment that compared with other classification algorithms, the sentiment classification method using Chinese chunk parsing improves the average accuracy by 4%. Therefore the sentiment classification based on Chinese chunk parsing can reduce the input feature dimensions and effectively improve the performance of classifier.
Chinese chunk parsingEmotion labelSentiment words ontologySentiment classification
2015-06-30。國家自然科學(xué)基金項目(61271304);北京市教委科技發(fā)展計劃重點項目暨北京市自然科學(xué)基金B(yǎng)類重點項目(KZ201311232037)。杜思奇,碩士生,主研領(lǐng)域:自然語言處理。李紅蓮,副教授。呂學(xué)強,教授。
TP391.1
A
10.3969/j.issn.1000-386x.2016.10.037