陳岳峰,苗奪謙,李文,張志飛
(1.同濟(jì)大學(xué)計算機(jī)科學(xué)與技術(shù)系,上海 201804;2.同濟(jì)大學(xué)嵌入式系統(tǒng)與服務(wù)計算教育部重點實驗室,上海 200092)
基于概念的詞匯情感傾向識別方法
陳岳峰1,2,苗奪謙1,2,李文1,2,張志飛1,2
(1.同濟(jì)大學(xué)計算機(jī)科學(xué)與技術(shù)系,上海 201804;2.同濟(jì)大學(xué)嵌入式系統(tǒng)與服務(wù)計算教育部重點實驗室,上海 200092)
詞匯的語義傾向是文本傾向性分析的基礎(chǔ)課題.現(xiàn)有的詞匯語義傾向計算通常是以詞匯為基準(zhǔn),而詞是包括了多種不同情感傾向概念的粒度范疇,影響分析的精度和效率.據(jù)此,提出在更細(xì)的粒度下,利用HowNet工具中的“概念”進(jìn)行傾向性分析,設(shè)計了基于概念的語義傾向計算方法.該方法使用聚類的概念,利用K-MEDOIDS算法尋找基準(zhǔn)概念.實驗結(jié)果表明,基于概念的方法較傳統(tǒng)基于詞匯的方法準(zhǔn)確率更高.
文本傾向性分析;HowNet;概念;聚類;K-MEDOIDS
近年來,文本的傾向性分析愈發(fā)受到人們的關(guān)注.文本傾向性分析是指通過挖掘和分析文本中的立場、觀點、看法、情緒、好惡等主觀信息,對文本的情感傾向做出類別判斷.文本傾向性分析可包含3個粒度:詞匯級別、句子級別以及文檔級別.詞匯的傾向性分析是后2種粒度的基礎(chǔ).一般的詞匯語義傾向計算都是基于詞匯的.國外學(xué)者Hatzivassiloglou和 McKeown[1]、Turney[2-3]以及 Jaap Kamps[4]等的研究具有很大的啟發(fā)意義.文獻(xiàn)[1]根據(jù)連詞的起承轉(zhuǎn)合關(guān)系,判斷2個詞是同義詞或是反義詞,從而得到形容詞的極性,但此研究并沒有涉及傾向度的度量;文獻(xiàn)[2]利用詞匯與程度強(qiáng)烈的褒義詞(如excellent)的互信息,減去它與程度強(qiáng)烈的貶義詞(如bad)的互信息,來計算詞匯的傾向度;文獻(xiàn)[3]利用搜索引擎的NEAR關(guān)鍵字進(jìn)行類似的研究.在國內(nèi),劉挺[5]、王素格[6]對文本傾向性分析做了全面性的研究.此外,朱嫣嵐[7]、楊昱昺[8]以及熊德平[9]等利用HowNet進(jìn)行了傾向性分析的研究,這些研究都是基于詞匯與詞匯之間的某種關(guān)聯(lián).但是文獻(xiàn)[7]采用目標(biāo)詞與基準(zhǔn)詞之間的相似度差值的方法,實驗結(jié)果的準(zhǔn)確率并不是特別高.同時,HowNet中的概念是可以脫離詞匯而獨立存在的,進(jìn)而就能剝離出更純粹的褒貶義概念(而不是使用混合有多種概念的褒貶義詞)來進(jìn)行實驗.
為了提高傾向性分析的精度和效率,在前人的成果和HowNet工具的基礎(chǔ)上,提出了一種基于概念的詞匯語義傾向度分析方法.該方法將HowNet當(dāng)中存在的褒貶義概念進(jìn)行聚類分析,將聚類中心作為基準(zhǔn)概念進(jìn)行詞匯的語義傾向計算.
HowNet創(chuàng)始人董振東提到,HowNet是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫.關(guān)系是詞匯語義的靈魂,只有通過“關(guān)系”才可能教會計算機(jī)懂得或在某種程度上懂得“語義”,也只有通過“關(guān)系”才可能教會計算機(jī)對語義進(jìn)行運算.
在此要特別提到HowNet中2個主要的概念:“概念”與“義原”.“概念”是對詞匯語義的一種描述,又稱為義項.每一個詞可以表達(dá)為幾個概念.“概念”是用一種“知識表示語言”來描述的,這種“知識表示語言”所用的“詞匯”叫做“義原”.“義原”是用于描述一個“概念”的最小意義單位.除了義原,HowNet中還用了一些符號(如!、#、%等)來對概念的語義進(jìn)行描述.
現(xiàn)今國內(nèi)利用HowNet的語義傾向度識別方法通常都是基于相似度的,因此先介紹基于HowNet的相似度度量方法.劉群[10]提出了2個層面的相似度度量——概念與概念間的相似度和詞匯與詞匯之間的相似度.
對概念S1、S2,它們的相似度可表示為
式中:βi(1≤i≤4)是可調(diào)節(jié)的參數(shù),且有:β1+ β2+β3+ β4=1,β1≥ β2≥ β3≥ β4,Sim1(S1,S2)、Sim2(S1,S2)、Sim3(S1,S2)、Sim4(S1,S2)分別表示第一獨立義原描述式、其他獨立義原描述式、關(guān)系義原描述式和符號義原描述式.
而對于2個漢語詞語W1和W2,如果W1有n個義項(概念):S11,S12,…,S1n,W2有m個義項(概念):S21,S22,…,S2m,則W1和W2的相似度為各個概念的相似度之最大值:
文獻(xiàn)[7]根據(jù)若干對褒貶義基準(zhǔn)詞,利用How-Net的相似度分析進(jìn)行詞匯的傾向計算,在思路上同樣是沿用了Turney的方法:設(shè)共有k對基準(zhǔn)詞,每對基準(zhǔn)詞包括一個褒義詞和一個貶義詞.褒義基準(zhǔn)詞表示為key_p,貶義基準(zhǔn)詞表示為key_n,單詞w的語義傾向值用orientation(w)表示,則
式中:Similarity(key,w)即是利用式(1)來計算.式中的傾向度以0作為默認(rèn)的閾值,大于0即為褒義,小于0即為貶義.
文獻(xiàn)[7]提出的方法的實驗效果并不十分理想,因此本文作了如下思考:在HowNet的定義中,詞匯包含了若干概念,對于一個基準(zhǔn)褒貶義詞,它可能包含了具有褒貶義傾向的概念,也可能包含不具褒貶義傾向的中性概念,舉例如表1所示.基于詞匯的語義傾向計算,實際是希望利用基準(zhǔn)詞具有褒貶義傾向的概念來進(jìn)行計算的,更確切地說,是希望利用褒義詞包含的褒義概念,以及貶義詞包含的貶義概念來進(jìn)行計算,如圖1所示.圖1中,左右兩邊各是褒義基準(zhǔn)詞和貶義基準(zhǔn)詞,求候選詞的語義傾向正如虛線箭頭所示,是2組詞與候選詞的相似度之差,但當(dāng)褒/貶義基準(zhǔn)詞中包含了貶/褒義概念和中性概念時,就會造成效率的損失(不必要的求取相似度)以及對實驗效果的負(fù)面作用.
表1 帶有不同傾向概念的褒貶義詞舉例Table 1 Examples of sentimental words containing concepts of different orientation
圖1 基于詞匯的詞匯語義傾向計算Fig.1 Orientation computing based on words
于是設(shè)想:當(dāng)基準(zhǔn)詞與候選詞進(jìn)行相似度計算時,這樣的中性概念或者反義概念(即褒/貶義詞中的貶/褒義概念),會不會對語義傾向的計算產(chǎn)生負(fù)面的效果,并使得實驗不得不進(jìn)行許多無意義的、冗余的相似度計算,能否有一種更純粹的使用褒義和貶義概念,避開無意義甚至對實驗結(jié)果有反作用的概念的方法呢?
在HowNet這種基于世界知識的工具出現(xiàn)之前,是不能做到的,因為概念的出現(xiàn)必須以詞匯為載體.但在HowNet出現(xiàn)后,概念可以脫離詞匯而獨立存在,使這樣的方法變得切實可行.
此外還需要解決一個問題,即如何沿襲前人的研究思路,尋找若干對基準(zhǔn)概念.概念之間的相似度給定之后,可以將相似度看作是距離的反比,利用聚類的方法尋找出若干個聚合,再從每個聚合中找出聚類中心的方法來獲取基準(zhǔn)概念.
因此,問題轉(zhuǎn)化為下2個子問題:1)如何利用聚類算法尋找基準(zhǔn)概念;2)如何利用基準(zhǔn)概念進(jìn)行詞匯語義傾向度分析.
對以上2個問題的解決方案分別在2.2和2.3章節(jié)進(jìn)行詳細(xì)的介紹.大體思路如圖2所示,先使用聚類算法在褒義概念空間和貶義概念空間中各找出n個聚類中心(如白色圖標(biāo)所示),再通過這些聚類中心來對候選詞的語義傾向進(jìn)行計算(如虛線箭頭所示).
圖2 基于概念的詞匯語義傾向計算Fig.2 Orientation computing based on concepts
聚類分析指的是將一種模式的集合(通常表示為向量或者多維空間中的點),基于相似性分成多個組別的過程[11].常用的聚類算法如 K-MEANS 算法、KMEDOIDS算法、CURE算法、DBSCAN算法等.
概念是一個分布在未知高維度空間中的點,無法用一系列的屬性來表征一個概念.由于K-MEANS算法在每次迭代中都需要構(gòu)造新的聚類中心,這個聚類中心是嚴(yán)格意義上類內(nèi)各樣本距離最小的點,有可能是之前未出現(xiàn)過的點,然而在概念空間中是無法構(gòu)造出之前未出現(xiàn)過的點,因此類似K-MEANS的算法不適用.相反,K-MEDOIDS算法的聚類中心是聚類中與每一個類內(nèi)樣本點的相似度總和最高的點,是從已有樣本點中選取出來的,因此是適用的.
另一方面,雖然類似于DBSCAN算法這樣的基于密度的聚類算法也能夠使用,但存在一個明顯的缺陷就是很難控制聚類的數(shù)量.
綜上,借鑒K-MEDOIDS的思路,設(shè)計一個基于K-MEDOIDS算法的基準(zhǔn)概念獲取方法.
一般的K-MEDOIDS算法過程如下(算法1):
輸入:原始數(shù)據(jù)集以及所求的聚類個數(shù)k;
輸出:k個聚類;
1)初始化:隨機(jī)選定n數(shù)據(jù)點中的k個作為中心點(medoids);
2)將每一個數(shù)據(jù)點聚合到最近的中心點;
3)For each中心點m
For each非中心點o
交換m和o,計算類內(nèi)總的距離消耗;
4)選擇消耗最低的點作為該聚類的新中心點;
5)重復(fù)2)~4)直至中心點不再改變.
根據(jù)HowNet的特點,利用算法1提出了基于K-MEDOIDS算法的基準(zhǔn)概念獲取方法(算法2):
輸入:
輸出:
1)初始化:隨機(jī)選定concept_pos中的n個作為中心點(medoids);
2)根據(jù)相似度,將每一個概念聚合到與其相似度最大的中心點;
3)For each中心點m
For each非中心點o
交換m和o,計算中心點與類內(nèi)非中心點的相似度總和;
4)選擇相似度總和最高的那個點作為該聚類的新中心點;
5)重復(fù)2)~4)直至中心點不再改變;
6)輸出各聚類中心點作為基準(zhǔn)褒義概念ref_concept_pos;
7)將concept_pos替換為concept_neg(即全體貶義概念),重復(fù)1)~6),輸出基準(zhǔn)貶義概念ref_concept_neg.
在獲得基準(zhǔn)概念對之后,接下來的工作是如何利用它們進(jìn)行詞匯的語義傾向度分析.本文沿襲了前人的研究思路,提出了2個公式:
對于一個詞匯W和一個概念S,如果W有n個義項(概念):S1,S2,…,Sn,它們之間的相似度是
當(dāng) concept_p1,concept_p2,…,concept_pn為褒義基準(zhǔn)概念,concept_n1,concept_n2,…,concept_nm為貶義基準(zhǔn)概念時,對于一個詞匯W,它的語義傾向度計算公式為
為實驗方便且易于比較,本文僅考慮中文,不考慮其他語言.且需要兩大類數(shù)據(jù)源,一是褒貶義詞表,二是褒貶義概念表.
實驗中使用的褒貶義詞表是HowNet免費對外提供的4份褒貶義詞表,如表2所示.其中前2份表組成貶義詞組,共計4 559個詞;后2份表組成褒義詞組,共計4 739個詞.
表2 褒貶義詞表Table 2 List of sentimental words
在HowNet概念中有一欄專門的屬性S_C,指明該概念的中文語義傾向(相應(yīng)還有屬性S_E,指明英文的語義傾向,在此先不作考慮).它共有4種值:MinusFeeling、MinusSentiment、PlusFeeling、PlusSentiment.此外對中性的概念該屬性為空.故將S_C值為前2個值的概念全部作為貶義概念,共計355個概念,將S_C值為后2個值的概念全部作為褒義概念,共計305個概念.
實驗利用算法2和式(2)進(jìn)行,根據(jù)不同的基準(zhǔn)概念對數(shù)進(jìn)行實驗并作比較.
需要注意的是,由于K-MEDOIDS的初始中心點是隨機(jī)的,對于不同的基準(zhǔn)概念對數(shù),本文采用10次實驗求取平均數(shù)作為最后的結(jié)果.
在評價部分,實驗不僅根據(jù)總體準(zhǔn)確率來評價實驗效果,還將比較褒義詞和貶義詞的準(zhǔn)確率,如果兩者自身的準(zhǔn)確率越高,彼此的差距越小,就說明實驗效果越好.
3.3.1 使用基準(zhǔn)詞方法的性能
為與基于詞匯的語義傾向度分析方法進(jìn)行比較,先對文獻(xiàn)[7]中提到的40對基準(zhǔn)詞進(jìn)行統(tǒng)計,發(fā)現(xiàn)褒義基準(zhǔn)詞中包含99組概念,貶義基準(zhǔn)詞中包含127組概念,故實驗1將基準(zhǔn)概念對數(shù)設(shè)置在90~140(這樣的話比較次數(shù)相當(dāng),時間消耗差不多),并與基于詞匯的語義傾向度分析方法的準(zhǔn)確度進(jìn)行比較,結(jié)果如表3所示.
表3 實驗結(jié)果Table 3 Results of experiments %
對于總體準(zhǔn)確率,運用基準(zhǔn)詞的方式獲得了73.9%的準(zhǔn)確率,而使用基準(zhǔn)概念的方式下最好結(jié)果達(dá)到了81.9%,比傳統(tǒng)方式高出了8%.基于概念的語義傾向度分析方法效果明顯好于基于詞匯的方法.
出現(xiàn)上述結(jié)果有2個主要的原因:
1)基于概念的語義傾向度分析方法使用的都是帶有褒貶含義的概念,針對性更強(qiáng),對傾向度分析的作用更大、更直接.
2)在HowNet知識庫中,一個褒義詞可能不僅包含褒義概念,還包含貶義概念和無褒貶含義的概念,在進(jìn)行傾向性分析的時候,僅它的褒義概念會起正面作用,而貶義概念和無褒貶含義的概念則有可能會有反作用或是沒有作用;同樣的問題也存在于一些貶義詞中.使用基于概念的語義傾向度分析方法,可以消除反作用,同時避免不必要的時間損耗.對于褒義詞和貶義詞各自的準(zhǔn)確率,不管何種方式褒義詞準(zhǔn)確率明顯高于相應(yīng)的貶義詞準(zhǔn)確率,基于相似度的方法似乎很難避免褒、貶義詞準(zhǔn)確率偏斜現(xiàn)象的出現(xiàn).但是相對基于詞匯的方法貶義詞僅有57.7%準(zhǔn)確率,基于概念的方法在準(zhǔn)確率上有明顯的改進(jìn),在一定程度上糾正了準(zhǔn)確率偏斜現(xiàn)象.
此外,與基于詞匯的語義傾向度分析方法相比,基于概念的語義傾向度分析方法還體現(xiàn)出2個優(yōu)點:其一是自動化程度高,在利用聚類算法尋找基準(zhǔn)概念的過程中,基準(zhǔn)概念是從HowNet所提供的所有褒貶義概念中自動地選取,而非人為指定基準(zhǔn)詞,在認(rèn)同HowNet是一種通用工具的情況下,尋找基準(zhǔn)概念的過程可認(rèn)為是一種只需指定若干參數(shù)即可自動化的過程;其二是分析速度更快,在所使用的概念數(shù)大致相同,且認(rèn)為每次HowNet計算2個詞相似度的時間復(fù)雜度相同的情況下,基于概念的語義傾向度分析方法減少了分析詞匯、提取概念的過程,因此分析的速度更快.
3.3.2 基準(zhǔn)概念數(shù)變化趨勢分析
根據(jù)表3,基準(zhǔn)概念方法的準(zhǔn)確率隨著基準(zhǔn)概念數(shù)的增加而逐漸提高.下面對產(chǎn)生這一現(xiàn)象的原因進(jìn)行深入的分析.
對使用改進(jìn)的K-MEDOIDS聚類方法得到的整個概念空間的聚類結(jié)果進(jìn)行統(tǒng)計,得到概念空間的稀疏向量,記為centroids(n),其中n表示基準(zhǔn)概念數(shù),即聚類中心個數(shù).為了減少K-MEDOIDS方法中隨機(jī)初始化帶來的影響,每次聚類重復(fù)m次,在本實驗中m設(shè)為10.centroids(n)中每一維向量,即候選概念的權(quán)值按如下方式確定:首先將向量centroids(n)每一維初始化為0,對于每次的聚類結(jié)果,在每個聚類中心所代表候選概念上的權(quán)值增加1/m,重復(fù)m次實驗.通過上述方式得到的向量centroids(n)中每一維的權(quán)值區(qū)間為[0,1],該向量表征了整個空間中每個概念選為基準(zhǔn)的概率.
按上述方法統(tǒng)計之后,對相鄰2個聚類個數(shù)的聚類中心結(jié)果分別進(jìn)行如下分析:首先計算兩者的相似度,在此使用余弦相似度的計算方法;其次統(tǒng)計在centroids(n)中出現(xiàn)頻數(shù)較centroids(n-10)增長最多的10個概念,以及它們在centroids(n)之前的出現(xiàn)次數(shù).統(tǒng)計結(jié)果如表4所示,其中△Pcur表示當(dāng)前出現(xiàn)頻數(shù)增長最多的10個概念的平均增加值,Ppre為這10個概念在之前的幾個維度出現(xiàn)的平均次數(shù).例如,△Pcur=0.46,即表示出現(xiàn)頻數(shù)增長最多的10個概念在該維度平均多出現(xiàn)了0.46次,而Ppre=0.16,即表示這10個概念在之前幾個維度中分別只出現(xiàn)0.16次.
從表4中可以看出,相鄰基準(zhǔn)概念數(shù)的相似度非常高,都達(dá)到了90%.這說明隨著基準(zhǔn)概念數(shù)的增加,每組基準(zhǔn)概念除了保持與前一組基準(zhǔn)概念的大致相似之外,都會穩(wěn)定地引入一些之前出現(xiàn)不多的概念,擴(kuò)展了基準(zhǔn)概念的空間,從而一定程度上提高了準(zhǔn)確率.
表4 聚類中心統(tǒng)計Table 4 Statistics on centroids
本文提出了一種概念粒度層次下的語義傾向度分析方法,一定程度上克服了現(xiàn)有方法中使用詞匯作為基準(zhǔn)影響性能的弊端.所提方法從HowNet知識庫中抽取出概念,并使用K-MEDOIDS聚類算法尋找基準(zhǔn)概念,與基于詞匯的語義傾向分析方法相比,其自動化程度更高、分類的速度更快、準(zhǔn)確度更高.但針對K-MEDOIDS聚類算法中初始點的選定存在隨機(jī)性的問題,下一步的研究嘗試使用人工干預(yù)的方式,基于可獲取的先驗知識進(jìn)行初始基準(zhǔn)概念的選取.
[1]HATZIVASSILOGLOU V,MCKEOWN K.Predicting the semantic orientation of adjectives[C]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL.New Brunswick,Canada,1997:174-181.
[2]TURNEY P.Thumbs up or thumbs down?semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40 th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,USA,2002:417-424.
[3]TURNEY P,LITTMAN M.Measuring praise and criticism:inference of semantic orientation from association[J].ACM Transactions on nformation Systems,2003,21(4):315-346.
[4]JAAP K,MAARTEN M,ROBERT J M,De RIJKE M.U-sing WordNet to measure semantic orientations of adjectives[C]//Proceedings of the Fourth International Conference on Language Resources and Evaluation.Lisbon, Portugal,2004,IV:1115-1118.
[5]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010,21(8):1834-1848.
ZHAO Yanyan,QIN Bing,LIU Ting.Sentiment analysis[J].Journal of Software,2010,21(8):1834-1848.
[6]王素格.基于Web的評論文本情感分類問題研究[D].上海:上海大學(xué),2008:21-24.
WANG Suge.Research on problems for sentiment classification of review texts based on web[D].Shanghai:Shanghai University,2008:21-24.
[7]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J]. 中文信息學(xué)報,2006,20(1):14-20.
ZHU Yanlan,MIN Jin,ZHOU Yaqian,et al.Semantic orientation computing based on HowNet[J].Journal of Chinese Information Processing,2006,20(1):14-20.
[8]楊昱昺,吳賢偉.改進(jìn)的基于知網(wǎng)詞匯語義褒貶傾向性計算[J]. 計算機(jī)工程與應(yīng)用,2009,45(21):91-93.
YANG Yubing,WU Xianwei.Improved lexical semantic tendentiousness recognition computing[J].Computer Engineering and Applications,2009,45(21):91-93.
[9]熊德平,程菊明,田勝利.基于HowNet的句子褒貶傾向性計算[C]//中國人工智能學(xué)會第12屆全國學(xué)術(shù)年會,哈爾濱,2007:910-913.
XIONG Deping,CHENG Juming,TIAN Shengli.Sentence orientation research based on HowNet[C]//Proceedings of the 12th Annual Meeting of Chinese Association for Artificial Intelligence.Harbin,2007:910-913.
[10]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度的計算[C]//第3屆漢語詞匯語義學(xué)研討會.臺北,中國,2002:59-76.
LIU Qun,LI Sujian.Word similarity computing based on How-net[C]//The 3rd Chinese Lexical Semantics Workshop.Taipei,China,2002:59-76.
[11]JAIN K,MURTY M N,F(xiàn)LYNN P J.Data clustering:a review[J].ACM Computing Surveys,1999,31(3):264-323.
陳岳峰,男,1986年生,碩士研究生,主要研究方向為文本傾向性分析、文本信息處理、數(shù)據(jù)挖掘.苗奪謙,男,1964年生,教授,博士生導(dǎo)師.中國計算機(jī)學(xué)會理事,中國人工智能學(xué)會理事,上海市計算機(jī)學(xué)會理事等.已主持完成多項國家級、省部級自然科學(xué)基金與科技攻關(guān)項目,并參與完成“973”計劃項目1項,“863”計劃項目2項等,曾獲國家教委科技進(jìn)步三等獎、山西省科技進(jìn)步二等獎、教育部科技進(jìn)步一等獎、上海市技術(shù)發(fā)明一等獎、重慶市自然科學(xué)一等獎等.主要研究方向為智能信息處理、粗糙集、粒計算、網(wǎng)絡(luò)智能、數(shù)據(jù)挖掘等.發(fā)表學(xué)術(shù)論文140余篇,其中被SCI和EI檢索70余篇,出版教材及學(xué)術(shù)著作6部,授權(quán)專利9項.
李文,女,1980年生,博士研究生,主要研究方向為文本信息處理、粗糙集、粒計算.
Semantic orientation computing based on concepts
CHEN Yuefeng1,2,MIAO Duoqian1,2,LI Wen1,2,ZHANG Zhifei1,2
(1.Department of Computer Science and Technology,Tongji University,Shanghai 201804,China;2.The Key Laboratory of Embedded System and Service Computing,Ministry of Education,Tongji University,Shanghai 200092,China)
The semantic orientation of words is the foundation of sentiment analysis.Current methods to compute semantic orientation of words are mostly based on reference words,while words belonging to the granularity category,including various sentiment orientation concepts,affect the analytical precision and efficiency.In this paper,a new method of semantic orientation computing was proposed based on the reference concepts using the HowNet tool to analyze the tendency.The clustering algorithm K-Mediods was used to search for the reference concepts.The experimental results show that the concept-based method outperforms the word-based method.
sentiment analysis;HowNet;concept;clustering;K-Medoids
TP391
A
1673-4785(2011)06-0489-06
10.3969/j.issn.1673-4785.2011.06.003
2011-03-15.
國家自然科學(xué)基金資助項目(60970061,61075056,61103067);上海市重點學(xué)科建設(shè)資助項目(B004);中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目.
陳岳峰.E-mail:dennislyve@gmail.com.