韋 航,王永恒
(湖南大學(xué)信息科學(xué)與工程學(xué)院,長沙410082)
基于主題的中文微博情感分析
韋 航,王永恒
(湖南大學(xué)信息科學(xué)與工程學(xué)院,長沙410082)
傳統(tǒng)的微博情感分析一般忽略結(jié)構(gòu)化的語義信息,使得分類準(zhǔn)確率不高,同時(shí)還忽略情感表達(dá)的具體對(duì)象,以與主題無關(guān)的形式進(jìn)行情感分析,容易造成錯(cuò)誤的分析結(jié)果。為此,采用對(duì)語法樹進(jìn)行剪枝的方法實(shí)現(xiàn)基于主題的情感分析,使用支持向量機(jī)中的卷積樹核函數(shù)獲取語法樹結(jié)構(gòu)化特征,通過建立本體和句法路徑庫對(duì)語法樹進(jìn)行基于主題的剪枝,去除無關(guān)評(píng)價(jià)的干擾。實(shí)驗(yàn)結(jié)果表明,該方法在2個(gè)不同主題的數(shù)據(jù)集上準(zhǔn)確率分別達(dá)到86.6%和86.0%。
中文微博;情感分析;語法樹;樹核函數(shù);剪枝策略;支持向量機(jī)
微博是一種通過關(guān)注機(jī)制分享簡(jiǎn)短實(shí)時(shí)信息的廣播式社交平臺(tái),是Web2.0時(shí)代最流行的應(yīng)用之一,用戶可以通過網(wǎng)頁、移動(dòng)終端等各種客戶端,發(fā)表最多140字的文字信息并實(shí)現(xiàn)與他人共享。微博自問世以來,吸引了大量用戶在微博上記錄生活、討論熱點(diǎn)話題、表達(dá)和分享觀點(diǎn),已成為挖掘人們觀點(diǎn)與情感的重要資源[1],為用戶滿意度調(diào)查、輿情監(jiān)測(cè)、社會(huì)學(xué)研究等應(yīng)用提供有效的數(shù)據(jù)支持。微博上信息繁多且增長速度很快,僅靠人工瀏覽的方法難以應(yīng)對(duì)海量信息的收集和處理工作。情感分析技術(shù)能夠自動(dòng)將文本中表達(dá)的情感傾向進(jìn)行正負(fù)面的分類,很大程度上解決微博上信息雜亂的現(xiàn)象,方便用戶快速準(zhǔn)確定位所需信息。微博文本與傳統(tǒng)文本相比,具有篇幅較短、存在錯(cuò)別字和語法錯(cuò)誤等噪聲、存在大量網(wǎng)絡(luò)詞匯和口語詞匯等特點(diǎn)[2],給情感分析任務(wù)提出了新的挑戰(zhàn)。
現(xiàn)有的微博情感分類方法通常以一種主題無關(guān)的方式操作,但是微博文本存在主題發(fā)散性[3],即一條微博可能涉及對(duì)多個(gè)有關(guān)或無關(guān)實(shí)體的評(píng)價(jià),而現(xiàn)有的方法將所有情感特征當(dāng)成是針對(duì)單一主題的評(píng)價(jià),容易造成錯(cuò)誤。基于此,本文提出一種基于主題的中文微博情感分析方法,對(duì)微博句子進(jìn)行語法分析得到語法樹,根據(jù)語料庫中頻繁出現(xiàn)的名詞構(gòu)建領(lǐng)域本體,并通過該本體識(shí)別句子中與主題無關(guān)的實(shí)體,基于句法路徑的情感評(píng)價(jià)單元識(shí)別方法,找出與主題無關(guān)的評(píng)價(jià)單元,將其從語法樹中剪除,從而去除無關(guān)實(shí)體及其評(píng)價(jià)詞對(duì)分類的干擾。最后,采用基于復(fù)合核函數(shù)的支持向量機(jī)分類器,將剪枝后的語法樹特征與平面特征單字(unigram)結(jié)合,共同作為分類特征。
2.1 主題無關(guān)的情感分析
主題無關(guān)的情感分析指的是對(duì)指定文本給出情感極性,而不關(guān)心該情感極性所描述的對(duì)象[3]。目前的微博情感分析方法大多是主題無關(guān)的,主要分為基于情感詞典和基于機(jī)器學(xué)習(xí)2種方法。
基于情感詞典的方法需要利用包含正面情感詞和負(fù)面情感詞的情感詞典,通過統(tǒng)計(jì)文本中正負(fù)面情感詞的數(shù)量來判斷傾向性。文獻(xiàn)[4]使用了3種不同的計(jì)分策略進(jìn)行微博分類,包括正負(fù)面情感詞差值法、詞頻-反向文檔頻率(Term Frequency Inverse Document Frequency,TF-IDF)和潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)。文獻(xiàn)[5]應(yīng)用點(diǎn)互信息量對(duì)已有的情感詞典進(jìn)行擴(kuò)展,構(gòu)建面向中文微博的情感詞典,并對(duì)否定詞、程度副詞、感嘆句、反問句以及表情符號(hào)做相應(yīng)分析處理,用加權(quán)和的方式取得整條微博的情感分值。由于情感詞典法無法解決未登錄詞的問題,微博中又含有大量網(wǎng)絡(luò)詞匯、口語詞等不存在于現(xiàn)有情感詞典中的情感詞語,單純使用情感詞典進(jìn)行分類效果不佳,易造成低召回率的問題。
基于機(jī)器學(xué)習(xí)的分類將情感分析問題當(dāng)成一個(gè)特殊的文本分類問題,使用大量已標(biāo)注的文本對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,再使用訓(xùn)練好的分類模型對(duì)未知極性的文本進(jìn)行分類。文獻(xiàn)[6]首次提出用機(jī)器學(xué)習(xí)方法進(jìn)行文本分類,提取unigram、二元(bigram)、詞性標(biāo)注以及詞的位置作為分類特征,選用樸素貝葉斯(Na?ve Bayesian)、最大熵(Maximum Entropy)、支持向量機(jī)(Support Vector Machine,SVM)3種模型作為分類模型。文獻(xiàn)[7]利用微博中特有的標(biāo)簽和表情符號(hào)作為情感標(biāo)簽抽取訓(xùn)練樣本,訓(xùn)練一種類似KNN的分類器進(jìn)行細(xì)粒度的情感分類。文獻(xiàn)[2]除了考慮微博本身的內(nèi)容特征,還考慮了當(dāng)前微博與其他微博之間的關(guān)系、微博發(fā)布者與其好友之間的相互影響等上下文特征,將2種特征結(jié)合起來共同作為分類特征。文獻(xiàn)[8-9]將情感詞典法與機(jī)器學(xué)習(xí)法相結(jié)合,用情感詞典法抽取文本作為分類器的訓(xùn)練集,無需人工標(biāo)注訓(xùn)練集。
2.2 主題相關(guān)的情感分析
主題相關(guān)的情感分析考慮文本中針對(duì)某一主題的情感傾向,而非文本的整體情感傾向。已有的方法主要是基于規(guī)則的方法和基于特征的方法。
在基于規(guī)則的方法中,文獻(xiàn)[10]將最靠近主題詞的情感詞作為針對(duì)該主題的有效情感指示詞,文獻(xiàn)[11]則將句子中所有的情感詞按照與主題詞的距離遠(yuǎn)近進(jìn)行加權(quán)和,得到針對(duì)該主題的情感分值。文獻(xiàn)[12]通過語法分析找出情感詞與主題詞之間的關(guān)系,并將這些關(guān)系與人工制定的規(guī)則進(jìn)行匹配以判斷其極性,但是這種方法需要人工制定規(guī)則,不能處理新出現(xiàn)的未涵蓋情況。
在基于特征的方法中,文獻(xiàn)[13]選取了7種基于主題的特征,通過淺層語法分析得到文中的這些特征,但該方法需要人工制定特征提取規(guī)則,且這些特征是符合英文語法規(guī)則的,不能直接用在中文領(lǐng)域;文獻(xiàn)[3]則進(jìn)行了主題相關(guān)句子的篩選,去掉與主題無關(guān)的句子,但篩選方法不夠準(zhǔn)確,且不能處理句子中包含多個(gè)實(shí)體的情況。
大多數(shù)機(jī)器學(xué)習(xí)情感分類方法采用的是一種bag-of-features特征表示方法,抽取文中一系列平面特征,將文本表示為特征向量形式,不考慮特征的出現(xiàn)順序以及特征之間的關(guān)系,這些平面特征通常包括詞的n-gram及其出現(xiàn)頻率、詞性、情感詞、否定詞等。然而,平面特征忽略了句子的語義信息以及詞語之間的結(jié)構(gòu)化關(guān)系,也無法捕獲遠(yuǎn)距離的情感信息。
為了克服平面特征存在的問題,通過句子的語法樹獲取文本的結(jié)構(gòu)化特征。語法樹是句子結(jié)構(gòu)的圖形表示,它代表了句子的推導(dǎo)結(jié)果,有利于理解句子語法結(jié)構(gòu)的層次。例如句子“這臺(tái)相機(jī)很好用”可表示為如圖1所示的樹形結(jié)構(gòu)。
圖1 語法樹結(jié)構(gòu)
3.1 卷積樹核函數(shù)
語法樹能夠捕獲句子的結(jié)構(gòu)化語義信息,將語法樹作為特征交由支持樹核函數(shù)的SVM進(jìn)行訓(xùn)練,就能得到一個(gè)自動(dòng)獲取語法樹中結(jié)構(gòu)化信息的分類系統(tǒng)。采用卷積樹核函數(shù)(Convolution Tree Kernel,CTK)來獲取結(jié)構(gòu)化特征,它通過計(jì)算2棵樹之間相同子樹的數(shù)目來衡量其相似度[14-15],即2棵語法樹T1和T2的相似度KC(T1,T2)按下式計(jì)算:
其中,N1和N2分別表示T1和T2的節(jié)點(diǎn)集;Δ(n1, n2)為以n1和n2為根節(jié)點(diǎn)的子樹中相同子樹的數(shù)量,由以下遞歸方法計(jì)算:
(1)若n1和n2的產(chǎn)生式不同,則Δ(n1,n2)=0,否則轉(zhuǎn)(2);
(2)若n1和n2都是葉子節(jié)點(diǎn)的前一個(gè)節(jié)點(diǎn)(即詞性標(biāo)注),則Δ(n1,n2)=λ,否則轉(zhuǎn)(3);
(3)遞歸計(jì)算:
其中,nc(n1)表示n1的子節(jié)點(diǎn)個(gè)數(shù);ch(n,j)表示節(jié)點(diǎn)n的第j個(gè)子節(jié)點(diǎn);λ(0<λ≤1)是用于防止子樹的相似度過度依賴于子樹大小的衰減因子。
3.2 復(fù)合型核函數(shù)
微博文本由于存在字?jǐn)?shù)限制,包含的信息量較少,缺少上下文信息,需要更多的特征來進(jìn)行情感分類。卷積樹核函數(shù)能夠有效抽取結(jié)構(gòu)化特征,平面特征則需要基本核函數(shù)獲取,包括線性核函數(shù)、多項(xiàng)式核函數(shù)等。多個(gè)核函數(shù)之和仍是有效的核函數(shù),并能兼顧各個(gè)單核的優(yōu)點(diǎn),因此,將卷積樹核函數(shù)與基本核函數(shù)復(fù)合,能夠同時(shí)獲取結(jié)構(gòu)特征和平面特征。復(fù)合核可表示為λK1+τK2。其中,K1表示卷積樹核;K2表示基本核,通過調(diào)整λ和τ的值,可以獲取卷積樹核和基本核各自的貢獻(xiàn)度。
平面特征方面,文獻(xiàn)[6]發(fā)現(xiàn)unigram能取得最佳效果,所以也采用unigram特征。為了對(duì)特征空間進(jìn)行降維去噪,采用CHI方檢測(cè)對(duì)特征進(jìn)行篩選。CHI方檢測(cè)通過測(cè)量特征與類別之間的依賴性進(jìn)行特征的選?。?6],CHI越大表示相關(guān)性越大,計(jì)算公式如下:
其中,A表示含有特征t的ci類樣本數(shù);B表示含t的非ci類樣本數(shù);C表示不含t的ci類樣本數(shù);D表示不含t的非ci類樣本數(shù);N表示樣本總數(shù)。將unigram特征按照CHI值降序排序,取前n個(gè)特征作為分類特征,去掉剩下的CHI較小的特征。
語法樹能夠提供豐富的結(jié)構(gòu)化信息,但是一棵完整的語法樹含有較多噪音,分類的開銷也較大,故需要進(jìn)行剪枝操作。文獻(xiàn)[14]分別基于形容詞和情感詞進(jìn)行語法樹剪枝,通過滑動(dòng)窗口大小確定剪枝范圍;文獻(xiàn)[15]對(duì)依存樹進(jìn)行基于情感詞的剪枝,去掉與情感詞之間的依存關(guān)系出現(xiàn)不頻繁或?qū)Ψ诸悷o益的節(jié)點(diǎn)。本文研究基于主題的情感分析,提出一種基于主題的語法樹剪枝策略,將與主題無關(guān)的信息從語法樹中去掉。
4.1 領(lǐng)域本體的構(gòu)建
本體是共享概念模型明確的形式化規(guī)范說明[17],可以用來捕獲領(lǐng)域知識(shí),對(duì)領(lǐng)域中的概念以及概念之間的關(guān)系進(jìn)行建模。
形式概念分析(Formal Concept Analysis,F(xiàn)CA)是一種數(shù)學(xué)數(shù)據(jù)分析理論,常用于知識(shí)表示和信息管理[18],能夠從一系列實(shí)體及其屬性中建立本體模型。FCA的基本構(gòu)件是概念,由2個(gè)集合來描述:外延(extension)和內(nèi)涵(intension),其中,外延指屬于這個(gè)概念的對(duì)象的集合;內(nèi)涵指這些對(duì)象所共有的屬性集。文獻(xiàn)[18]采用FCA方法人工構(gòu)建領(lǐng)域本體,針對(duì)產(chǎn)品的某一屬性進(jìn)行評(píng)分。本文采取一種半自動(dòng)的FCA方法構(gòu)建領(lǐng)域本體:
(1)統(tǒng)計(jì)與主題詞共同出現(xiàn)的名詞,按照其出現(xiàn)頻率排序;
(2)從頻繁出現(xiàn)的名詞集合中選取實(shí)體和屬性,分別加入實(shí)體集和屬性集;
(3)由實(shí)體集抽取出概念,實(shí)體集作為概念的外延,屬性集中的概念共有屬性作為概念的內(nèi)涵,某些實(shí)體的特有屬性單獨(dú)取出作為特有屬性集,與該實(shí)體相連。
步驟(2)、步驟(3)需手動(dòng)完成。圖2給出了一個(gè)手機(jī)領(lǐng)域本體,其中“手機(jī)”為概念,上方為其內(nèi)涵,即手機(jī)具有“屏幕”、“軟件”、“硬件”等屬性,下方為其外延,如χ、y等具體品牌的手機(jī)。其中,“WP8系統(tǒng)”等屬性屬于χ所特有的屬性,作為χ的特有屬性集與其相關(guān)聯(lián)。值得注意的是,在商品或服務(wù)領(lǐng)域,同一個(gè)概念外延中的各個(gè)實(shí)體,是存在競(jìng)爭(zhēng)關(guān)系的實(shí)體,如χ與y、z等。
圖2 手機(jī)領(lǐng)域本體示例
4.2 情感評(píng)價(jià)單元識(shí)別
在一條微博消息句子中,可能含有多個(gè)評(píng)價(jià)對(duì)象和評(píng)價(jià)詞語,情感評(píng)價(jià)單元識(shí)別就是將評(píng)價(jià)詞語及其所修飾的評(píng)價(jià)對(duì)象作為一個(gè)評(píng)價(jià)單元抽取出來。文獻(xiàn)[19]提出基于句法路徑的情感評(píng)價(jià)單元識(shí)別方法,其基于一個(gè)假設(shè):評(píng)價(jià)詞語與其修飾的評(píng)價(jià)對(duì)象之間的句法路徑是具有一定規(guī)律的、可總結(jié)的。采取類似方法識(shí)別評(píng)價(jià)單元,為下一步基于主題的剪枝提供依據(jù)。
評(píng)價(jià)對(duì)象與評(píng)價(jià)詞語之間的句法路徑,指的是在語法樹上鏈接評(píng)價(jià)對(duì)象與評(píng)價(jià)詞語兩節(jié)點(diǎn)之間的句法結(jié)構(gòu),如圖1所示的語法樹中,“相機(jī)”為一個(gè)評(píng)價(jià)對(duì)象,“好用”為一個(gè)評(píng)價(jià)詞語,兩節(jié)點(diǎn)之間的句法路徑(箭頭所示)為:NN→NP→NP→IP→VP→VP→VA。在較大規(guī)模語料庫中進(jìn)行統(tǒng)計(jì),能夠發(fā)現(xiàn)句法路徑存在一定的規(guī)律,正確的句法路徑出現(xiàn)頻率應(yīng)較多,而錯(cuò)誤的句法路徑出現(xiàn)較少。
評(píng)價(jià)對(duì)象一般為名詞,通過詞性標(biāo)注可以獲取,而評(píng)價(jià)詞語可以通過情感詞典獲取。獲取評(píng)價(jià)對(duì)象與評(píng)價(jià)詞之間的句法路徑之后,可進(jìn)行一步泛化處理,使得只存在細(xì)小差別的句法路徑合并為一個(gè)具有代表性的句法路徑,方法是將句法路徑中連續(xù)的相同成分合并,如上面的句法路徑NN→NP→NP→IP→VP→VP→VA泛化為NN→NP→IP→VP→VA。將句法路徑按照出現(xiàn)頻率排序之后,根據(jù)事先定義的閾值thP,選擇前thP個(gè)句法路徑構(gòu)成句法路徑庫,去掉出現(xiàn)頻率不高的句法路徑。
4.3 基于主題的語法樹剪枝策略
構(gòu)建了領(lǐng)域本體和句法路徑庫之后,就可以進(jìn)行基于主題的語法樹剪枝,基本思路是,一個(gè)微博句子中可能含有對(duì)多個(gè)對(duì)象的評(píng)價(jià),有些對(duì)象與主題無關(guān),則將這樣的無關(guān)對(duì)象及其評(píng)價(jià)詞從語法樹中剪除,從而實(shí)現(xiàn)針對(duì)主題的情感分析。
剪枝的具體流程如下:
(1)通過詞性標(biāo)注和查詢情感詞典,獲取句子中的名詞集合和情感詞集合;
(2)查詢領(lǐng)域本體,在名詞集合中識(shí)別不存在本體中、與主題詞無關(guān)的實(shí)體加入待修剪名詞集合;對(duì)于存在于本體中,但與主題詞存在競(jìng)爭(zhēng)關(guān)系的實(shí)體,也加入待修剪集合,且如果該實(shí)體之后存在該實(shí)體的屬性,也需要將其加入待修剪集合;
(3)針對(duì)待修剪集合中的實(shí)體,獲取語法樹上這些實(shí)體與情感詞之間的句法路徑,通過匹配句法路徑庫,識(shí)別對(duì)其進(jìn)行修飾的情感詞;
(4)根據(jù)第(3)步中識(shí)別出的主題無關(guān)評(píng)價(jià)單元中評(píng)價(jià)對(duì)象和評(píng)價(jià)詞在語法樹上對(duì)應(yīng)的節(jié)點(diǎn)位置,找出其共同父節(jié)點(diǎn),將父節(jié)點(diǎn)下方含有該評(píng)價(jià)詞和評(píng)價(jià)對(duì)象的子樹剪除,若剪枝后該父節(jié)點(diǎn)下沒有任何子樹,則將該父節(jié)點(diǎn)也剪除。
下面列出2個(gè)句子的剪枝過程加以說明。設(shè)a為感興趣的主題詞。句子1:a還不錯(cuò),差評(píng)是給b的。該句子中的評(píng)價(jià)對(duì)象為{a,b};評(píng)價(jià)詞語為{不錯(cuò),差評(píng)}。查詢本體發(fā)現(xiàn)b是與主題無關(guān)的實(shí)體,加入待修剪集合。句子的語法樹結(jié)構(gòu)如圖3所示,b與“不錯(cuò)”之間的句法路徑為NN→NP→VP→IP→CP→IP→VP→VA,與“差評(píng)”之間的句法路徑為NN→NP→VP→IP→NP→NN。
圖3 句子1的語法樹剪枝示例
搜索句法路徑庫發(fā)現(xiàn)第1個(gè)句法路徑不存在庫中,而第2個(gè)句法路徑存在庫中,則可判斷“差評(píng)”是b的有效評(píng)價(jià)詞。在語法樹中找到這2個(gè)節(jié)點(diǎn)的共同父節(jié)點(diǎn)“IP”,將以該父節(jié)點(diǎn)為根節(jié)點(diǎn)的子樹中含有b和“差評(píng)”的子樹剪除,此時(shí)該父節(jié)點(diǎn)下已無子樹,則將該節(jié)點(diǎn)也剪除。
句子2:早知道就不買c了,流量消耗特別快,還比不上d呢。評(píng)價(jià)對(duì)象為{c,流量消耗,d},評(píng)價(jià)詞為{快},查詢領(lǐng)域本體發(fā)現(xiàn)c是與d存在競(jìng)爭(zhēng)關(guān)系的實(shí)體,“流量消耗”屬于手機(jī)的共有屬性且出現(xiàn)在c之后,則將其當(dāng)成c的屬性,待修剪集合為{c,流量消耗}。通過匹配句法路徑庫發(fā)現(xiàn)“快”是對(duì)“流量消耗”的評(píng)價(jià)詞,故將這部分剪除,如圖4所示。
圖4 句子2的語法樹剪枝示例
5.1 情感評(píng)價(jià)句法路徑庫構(gòu)建
根據(jù)4.2節(jié)介紹的句法路徑庫構(gòu)造方法構(gòu)建情感評(píng)價(jià)句法路徑庫。采用NLPIR漢語分詞系統(tǒng)進(jìn)行微博分詞和詞性標(biāo)注,用Stanford Parser進(jìn)行語法分析,采用的情感詞典是臺(tái)灣大學(xué)NTUSD中文通用情感詞典,包含2 810個(gè)正面詞和8 276個(gè)負(fù)面詞,同時(shí)為了處理微博中包含大量網(wǎng)絡(luò)詞匯的問題,加入了常用的網(wǎng)絡(luò)情感詞語,如表1所示。
表1 常用網(wǎng)絡(luò)情感詞語
對(duì)含有36 042條騰訊微博消息的語料庫進(jìn)行句法路徑統(tǒng)計(jì),該語料庫涵蓋汽車、手機(jī)、購物網(wǎng)站等多個(gè)領(lǐng)域。表2列出出現(xiàn)最為頻繁的5條句法路徑及其出現(xiàn)次數(shù)。
表2 出現(xiàn)最頻繁的5種句法路徑
5.2 微博情感分析實(shí)驗(yàn)數(shù)據(jù)集
分類實(shí)驗(yàn)中使用的數(shù)據(jù)來自騰訊微博。選取了2個(gè)關(guān)鍵詞作為情感分類的主題:{e,f}。根據(jù)主題詞,分別從騰訊微博上獲取包含該主題詞的微博消息。經(jīng)過人工標(biāo)注,分別得到正面情感和負(fù)面情感2類微博,數(shù)據(jù)集信息如表3所示。
表3 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息
5.3 微博情感分析實(shí)驗(yàn)結(jié)果
本文使用SVM-light-TK作為分類工具,在SVM-light的基礎(chǔ)上加入了對(duì)卷積樹核函數(shù)的支持。給出一條微博示例,說明復(fù)合特征的輸入格式,分為類別標(biāo)簽、語法樹特征(包含開始標(biāo)志“|BT|”、結(jié)束標(biāo)志“|ET|”)和平面特征3個(gè)部分。其內(nèi)容為“××的f網(wǎng)站怎么打不開了?其他的就能打開,oo!”;分句為“句子1:××的f網(wǎng)站怎么打不開了?”,“句子2:其他的就能打開,oo!”;復(fù)合特征輸入格式為“-1|BT|(ROOT(CP(IP(FLR(IJ××))(NP(NN f)(NN網(wǎng)站))(VP(ADVP(AD怎么))(VP(VV打)(VP(ADVP(AD不))(VP(VV開))))))(SP了)))|BT|(ROOT(IP(NP(DNP(DP(DT其他))(DEG的)))(VP(VP(ADVP(AD就))(VP(VV能)(VP(VV打開))))(PU,)(VP(VA oo)))))|ET|56:1.0 235:1.0 244:1.0 258:1.0 500:1.0 536:1.0 549:1.0 721:1.0 728:1.0 841:1.0 944:1.0 947:1.0 965:1.0 1058:0.0”。
對(duì)4種情感分類方法進(jìn)行了分類效果的比較,分別是:(1)只采用unigram平面特征,并用CHI檢測(cè)進(jìn)行特征篩選,分類時(shí)選用線性核函數(shù);(2)只采用語法樹特征;(3)采用復(fù)合核函數(shù),將語法樹和unigram相結(jié)合;(4)將語法樹進(jìn)行基于主題的剪枝之后,再使用復(fù)合核函數(shù)分類。SVM-light-TK中提供了可以對(duì)樹核函數(shù)在復(fù)合核函數(shù)中的貢獻(xiàn)進(jìn)行調(diào)整的參數(shù)r,復(fù)合核函數(shù)K表示為:
其中,r的默認(rèn)值為1,并對(duì)應(yīng)于λK1+τK2式中的參數(shù)λ(樹核函數(shù)K1的貢獻(xiàn)參數(shù)),則通過調(diào)整r值可以調(diào)整復(fù)合核函數(shù)中樹核函數(shù)的貢獻(xiàn)程度,實(shí)驗(yàn)中調(diào)整r的值(即λ的值),而參數(shù)τ(基本核函數(shù)K2的貢獻(xiàn)參數(shù))則固定為1。針對(duì)2個(gè)主題詞進(jìn)行實(shí)驗(yàn),評(píng)價(jià)指標(biāo)為查準(zhǔn)率、召回率、F值和準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表4所示,表中涉及復(fù)合核函數(shù)的部分,僅列出在r取不同值的情況下,獲得的最佳分類效果。
表4 微博情感分類結(jié)果%
通過觀察表4中的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):(1)如果僅使用語法樹特征進(jìn)行分類,分類的總體效果與平面特征相比有較大程度的下降,這是由于語法樹特征僅能捕捉語義特征,而忽略了平面特征對(duì)分類的貢獻(xiàn);(2)采用復(fù)合核函數(shù)的方式將平面特征與語法樹特征相結(jié)合,彌補(bǔ)了上述問題,分類效果有了較大提高,說明復(fù)合核函數(shù)能夠利用結(jié)構(gòu)化的語義特征和平面特征兩者的優(yōu)勢(shì),提升分類性能;(3)采用基于主題的剪枝方法對(duì)語法樹進(jìn)行剪枝之后,分類的效果得到進(jìn)一步的提升,這說明本文提出的基于主題的剪枝策略能夠在一定程度上去掉無關(guān)評(píng)價(jià)單元的干擾,對(duì)分類起到積極作用。
實(shí)驗(yàn)中,復(fù)合核函數(shù)中樹核函數(shù)貢獻(xiàn)參數(shù)r的取值也會(huì)對(duì)分類效果產(chǎn)生一定的影響,圖5顯示了r的不同取值對(duì)分類準(zhǔn)確率的影響。
圖5 樹核函數(shù)貢獻(xiàn)參數(shù)r對(duì)分類準(zhǔn)確率的影響
通過觀察發(fā)現(xiàn),針對(duì)不同的數(shù)據(jù)集,取得最佳分類準(zhǔn)確率時(shí)r的取值有所不同,其中e主題樣本在r=0.2時(shí)準(zhǔn)確率取得最大值,而f主題樣本在r= 0.05時(shí)準(zhǔn)確率取得最大值。表4列出的是該最佳分類結(jié)果,在實(shí)際應(yīng)用中可以把r設(shè)置在0.05~ 0.20之間。
現(xiàn)有的微博情感分類方法大多采用主題無關(guān)的方式進(jìn)行,當(dāng)句子中含有多個(gè)評(píng)價(jià)實(shí)體時(shí)容易出現(xiàn)錯(cuò)誤。本文采用基于卷積樹核函數(shù)的方法,從句子的語法樹中抽取結(jié)構(gòu)化的語義特征,與平面特征相結(jié)合,共同作為分類特征;特別地,對(duì)句子中出現(xiàn)多個(gè)評(píng)價(jià)單元的情況,應(yīng)用領(lǐng)域本體和統(tǒng)計(jì)句法路徑方法,識(shí)別出與主題詞無關(guān)的評(píng)價(jià)單元,并將其從語法樹中剪除,以排除無關(guān)評(píng)價(jià)單元對(duì)分類的干擾,從而實(shí)現(xiàn)了基于主題的微博情感分類。實(shí)驗(yàn)結(jié)果表明,結(jié)構(gòu)化語義特征與平面特征結(jié)合,能明顯提升分類效果,而采用基于主題的剪枝策略對(duì)語法樹進(jìn)行剪枝,分類效果得到了進(jìn)一步的提升。
由于本文的評(píng)價(jià)單元識(shí)別過程依賴情感詞典,對(duì)于不含有情感詞語的句子無法進(jìn)行剪枝,現(xiàn)有的情感詞典涵蓋范圍有限,微博上又常出現(xiàn)新詞,并且剪枝方法對(duì)于一些較為復(fù)雜的句子,如比較句、轉(zhuǎn)折句等處理得不夠理想,還存在一定的局限性,因此,在今后的工作中將進(jìn)一步研究網(wǎng)絡(luò)新詞發(fā)現(xiàn)、情感表達(dá)識(shí)別等問題,并改進(jìn)對(duì)復(fù)雜句子的處理方法。
[1] Alexander P,Patrick P.Twitter as a Corpus for Sentiment Analysis and Opinion Mining[C]// Proceedings of the 7th International Conference on Language Resources and Evaluation.Valletta,Malta:ELRA Press,2010:1320-1326.
[2] Fotis A,George P,Konstantinos T,et al.Content Vs. Context for Sentiment Analysis:A Comparative Analysis over Microblogs[C]//Proceedings of the 23rd ACM Conference on Hypertext and Social Media.New York,USA:ACM Press,2012:187-196.
[3] 謝麗星,周 明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽?。跩].中文信息學(xué)報(bào),2012,26(1):73-83.
[4] Jinan F,Osama M,Sabah M,et al.Opinion M ining over Twitterspace:Classifying Tweets Programmatically Using the R Approach[C]//Proceedings of the 7 th International Conference on Digital Information Management.Washington D.C.,USA:IEEE Press,2012:313-319.
[5] 陳曉東.基于情感詞典的中文微博情感傾向分析研究[D].武漢:華中科技大學(xué),2012.
[6] Pang B,Lee L,Shivakumar V.Thumbs up?Sentiment Classification Using Machine Learning Techniques[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.New York,USA:ACM Press,2002:79-86.
[7] Dmitry D,Oren T,Ari R.Enhanced Sentiment Learning Using Twitter Hashtags and Smileys[C]//Proceedings of the 23rd International Conference on Computational Linguistics.Berlin,Germ any:Springer,2010:241-249.
[8] Songbo T,Yuefen W,Xueqi C.Combining Learn-based and Lexicon-based Techniques for Sentiment Detection Without Using Labeled Exam ples[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development Information Retrieval. Singapore:[s.n.],2008:743-744.
[9] Zhang Lei,Ghosh R,Dekhil M,et al.Combining Lexicon-based and Learning-based Methods for Twitter Sentiment Analysis,HPL-2011-89[R].HP Laboratories,2011.
[10] Minqing H,Bing L.Mining and Summarizing Customer Review s[C]//Proceedings of the 10th ACM SIGKDD International Conference on Know ledge Discovery and Data Mining.Seattle.New York,USA:ACM Press,2004:168-177.
[11] Ding Xiaowen,Liu Bing.The Utility of Linguistic Rules in Opinion Mining[C]//Proceedings of the 30 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2007:811-812.
[12] Tetsuya N,Jeonghee Y.Sentiment Analysis:Capturing Favorability Using Natural Language Processing[C]// Proceedings of the 2nd International Conference on Know ledge Capture.New York,USA:ACM Press,2003:70-77.
[13] Jiang Long,Yu Mo,Zhou Ming.Target-dependent Twitter Sentiment Classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Portland,USA:[s.n.],2011:151-160.
[14] Zhang Wei,Li Peifeng,Zhu Qiaom ing.Sentiment Classification Based on Syntax Tree Pruning and Tree Kernel[C]//Proceedings of the 7th Web Information System s and Applications Conference.Washington D.C.,USA:IEEE Press,2010:101-105.
[15] Li Peifeng,Zhu Qiaom ing,Zhang Wei.A Dependency Tree Based Approach for Sentence-level Sentiment Classification[C]//Proceedings of the 12th ACIS International Conference on Software Engineering,Artificial Intelligence,NetW orking and Parallel/ Distributed Computing.Washington D.C.,USA:IEEE Press,2011:166-171.
[16] 劉志明,劉 魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(1):1-4.
[17] 黃美麗,劉宗田.基于形式概念分析的領(lǐng)域本體構(gòu)建方法研究[J].計(jì)算機(jī)科學(xué),2006,33(1):210-212.
[18] Efstratios K,Christos B,Theologos D.Ontology-based Sentiment Analysis of Twitter Posts[J].Expert System with Applications,2013,40(10):4065-4074.
[19] 趙妍妍,秦 兵,車萬翔,等.基于句法路徑的情感評(píng)價(jià)單元識(shí)別[J].軟件學(xué)報(bào),2011,22(5):887-898.
編輯顧逸斐
Sentiment Analysis of Chinese Micro-b log Based on ToPic
WEIHang,WANG Yongheng
(School of Information Science and Engineering,Hunan University,Changsha 410082,China)
Micro-blog attracts a large number of users to publish and share opinions on it,making it an important data resource for opinion mining and sentiment analysis.The traditional methods always ignore structured semantic information,which leads to the low accuracy.They also tend to ignore the topic of the sentimental expressions and adopt the topic-independent strategy,which results in somemistakes.This paper proposes amethod of pruning the syntax tree to implement the topic-dependent sentiment analysis.It uses the convolution kernel of Support Vector Machine(SVM)to obtain the structured information from syntax tree,and adopts the topic-dependent syntax pruning according to the domain ontology and syntactic paths library,then eliminates the inference of irrelevant appraisal expressions.Experimental results on two corpus with different topics show that the accuracy can reach 86.6%and 86.0%.
Chinese micro-blog;sentiment analysis;syntax tree;tree kernel function;pruning strategy;Support Vector Machine(SVM)
韋 航,王永恒.基于主題的中文微博情感分析[J].計(jì)算機(jī)工程,2015,41(9):238-244.
英文引用格式:Wei Hang,Wang Yongheng.Sentiment Analysis of Chinese Micro-blog Based on Topic[J].Computer Engineering,2015,41(9):238-244.
1000-3428(2015)09-0238-07
A
TP393
10.3969/j.issn.1000-3428.2015.09.044
國家自然科學(xué)基金資助項(xiàng)目(61371116);湖南省自然科學(xué)基金資助項(xiàng)目(13JJ3046)。
韋 航(1990-),女,碩士研究生,主研方向:文本分析,數(shù)據(jù)挖掘;王永恒,講師、博士。
2014-07-30
2014-10-14 E-m ail:756877026@qq.com