張華平,李恒訓(xùn),李清敏
(1. 北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京100081; 2. 北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程研究中心,北京 100081;3. 公安部第一研究所 信安部,北京 100048; 4. 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所,北京 100040)
情感詞發(fā)現(xiàn)與極性權(quán)重自動(dòng)計(jì)算算法研究
張華平1,2,李恒訓(xùn)3,李清敏4
(1. 北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京100081; 2. 北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程研究中心,北京 100081;3. 公安部第一研究所 信安部,北京 100048; 4. 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所,北京 100040)
隨著互聯(lián)網(wǎng)電子商務(wù)和各種社交網(wǎng)絡(luò)應(yīng)用的快速發(fā)展,產(chǎn)生了大量的用戶評(píng)價(jià)信息。為滿足快速整理這些評(píng)價(jià)信息的需求,情感傾向性分析應(yīng)運(yùn)而生。情感詞典是各類情感傾向性識(shí)別算法的基礎(chǔ),收集一部全面且權(quán)重合理的情感詞典,往往可以簡(jiǎn)單快速而有效地解決情感分析問(wèn)題。但情感詞典規(guī)模有限,而網(wǎng)絡(luò)上新的情感詞層出不窮,語(yǔ)言使用不規(guī)范,人工整理耗時(shí)耗力。已有的情感詞收集方法較復(fù)雜,且領(lǐng)域性強(qiáng),收集的情感詞可擴(kuò)展性差。本文提出一種自動(dòng)挖掘潛在情感詞并計(jì)算其極性權(quán)重的算法,該算法與應(yīng)用領(lǐng)域無(wú)關(guān),具有良好的擴(kuò)展性。該方法利用共現(xiàn)特性,基于樸素貝葉斯公式能檢測(cè)出未知的情感詞,并根據(jù)其情感權(quán)重值的大小判斷其情感極性,可有效地?cái)U(kuò)展情感詞典,將已有的情感詞典進(jìn)一步量化。在理論研究的基礎(chǔ)上,本文分別針對(duì)京東、豆瓣及大眾點(diǎn)評(píng)網(wǎng)三組評(píng)論語(yǔ)料做了實(shí)驗(yàn),其結(jié)果的準(zhǔn)確率都基本在90%以上,驗(yàn)證了該方法的有效性和實(shí)用性,為情感傾向性分析提供了知識(shí)庫(kù)基礎(chǔ)。
情感詞;情感權(quán)重;情感程度判別;情感詞典
隨著Web 2.0的迅速發(fā)展,互聯(lián)網(wǎng)上涌現(xiàn)出大量用戶參與及評(píng)論信息。人們通過(guò)微博、論壇等社會(huì)媒介發(fā)表大量對(duì)事件、產(chǎn)品等有價(jià)值的評(píng)論。評(píng)論信息不僅表達(dá)人們的情感色彩及情感傾向性,也為潛在用戶提供了參考價(jià)值,收集評(píng)論信息可以了解大眾輿論對(duì)某一事件或產(chǎn)品的看法,用以支持決策;同時(shí),還可以為生產(chǎn)商提供反饋,通過(guò)主觀色彩的評(píng)論信息了解用戶評(píng)價(jià),把握用戶的需求,改善產(chǎn)品與服務(wù)。但由于越來(lái)越多的用戶在互聯(lián)網(wǎng)上分享觀點(diǎn)與評(píng)論,信息迅速膨脹,人工方式難以及時(shí)處理這些海量數(shù)據(jù),為滿足快速獲取和整理評(píng)價(jià)信息的需求,情感傾向性分析技術(shù)應(yīng)運(yùn)而生[1]。
按照文本處理的規(guī)模不同,情感傾向性分析的研究工作可分為詞語(yǔ)級(jí)、句子級(jí)[2]、篇章級(jí)及海量文本等幾個(gè)研究層次。本文研究工作主要針對(duì)未知情感詞計(jì)算其情感權(quán)重,判斷其情感極性,不斷擴(kuò)展情感詞典,屬于詞語(yǔ)級(jí)情感傾向性分析研究的范疇,是情感傾向性分析技術(shù)的基礎(chǔ)性研究工作。典型的有樸素貝葉斯(na?ve Bayes,NB)[3-4]、支持向量機(jī)(support vector machine,SVM)[5-6]和最大信息熵(maximum entropy,ME)[7]等方法。但由于用戶產(chǎn)生內(nèi)容以短句為主,特征少,機(jī)器學(xué)習(xí)方法的分類效果不理想,而句子情感往往是由句子中的幾個(gè)情感詞決定。此外,網(wǎng)絡(luò)新詞層出不窮,舊詞新用等,所以利用情感詞典進(jìn)行情感傾向性分析往往是分析用戶產(chǎn)生內(nèi)容情感分析簡(jiǎn)單且有效的方法。因此,如何自動(dòng)構(gòu)建情感詞典并自動(dòng)計(jì)算情感詞的情感權(quán)重是解決情感傾向性分析問(wèn)題的首要前提。
同時(shí),在大數(shù)據(jù)時(shí)代下,語(yǔ)料規(guī)模大,人工標(biāo)注情感極性及強(qiáng)度不太可能;隨著新型互聯(lián)網(wǎng)應(yīng)用的出現(xiàn),網(wǎng)絡(luò)用語(yǔ)、新語(yǔ)層出不窮,如何利用大數(shù)據(jù)自動(dòng)識(shí)別挖掘出這類表達(dá)情感的詞語(yǔ)更具挑戰(zhàn)性。目前,針對(duì)此情感精細(xì)判別和程度判別還沒有合適的算法。面對(duì)上述問(wèn)題與挑戰(zhàn),為解決如何自動(dòng)計(jì)算情感詞的情感權(quán)重,以及判斷情感傾向性來(lái)擴(kuò)展情感詞典,本文提出一個(gè)情感詞的自動(dòng)發(fā)現(xiàn)及情感極性判別算法。該方法基于貝葉斯原理和大數(shù)據(jù)挖掘,能夠挖掘未知情感詞,并根據(jù)其情感權(quán)重值的大小判斷其情感極性及情感傾向性程度,可有效擴(kuò)展情感詞典,豐富情感詞典的精細(xì)化使用。另外,本方法與應(yīng)用領(lǐng)域無(wú)關(guān),具有良好的擴(kuò)展性。
在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)本身有著不可忽視的價(jià)值,如何利用已知數(shù)據(jù)挖掘其潛在價(jià)值已引起國(guó)內(nèi)外學(xué)者的廣泛關(guān)注和研究?;ヂ?lián)網(wǎng)電子商務(wù)及各種社交網(wǎng)絡(luò)直接產(chǎn)生用戶參與信息,迫切需要利用大數(shù)據(jù)挖掘其價(jià)值。隨著情感傾向性分析技術(shù)的發(fā)展,本文利用大數(shù)據(jù)的原理,基于讓數(shù)據(jù)本身創(chuàng)造價(jià)值的特點(diǎn),解決情感傾向性分析技術(shù)中情感詞的自動(dòng)挖掘問(wèn)題。
2.1 已有工作
目前,對(duì)于詞的情感傾向性分析有兩種研究方法: 基于詞典的方法及基于語(yǔ)料的方法。
基于詞典的方法主要通過(guò)詞語(yǔ)知識(shí)庫(kù)或種子情感詞擴(kuò)展生成情感詞典,中文以HowNet、朱嫣嵐[8]等研究成果為依據(jù),利用HowNet的語(yǔ)義相似度計(jì)算新詞與種子詞的相似程度,從而判斷新詞的情感傾向性。這些方法的缺點(diǎn)是過(guò)于依賴種子情感詞及其數(shù)量。英文情感傾向性判斷是在WordNet和General Inquire的基礎(chǔ)上進(jìn)行的。Hu 和 Liu[9]對(duì)評(píng)論進(jìn)行詞性標(biāo)記(POS),給定幾個(gè)有極性的種子形容詞,利用WordNet不斷查找它們的同義詞和反義詞以擴(kuò)大情感詞典。該方法比較簡(jiǎn)單,但是只考慮了形容詞(未考慮詞典的更新、新型術(shù)語(yǔ)、網(wǎng)絡(luò)新語(yǔ))。Baccianella等人[10]基于WordNet構(gòu)建了認(rèn)可度最高的SentiWordNet。Hamouda等人[11]基于機(jī)器學(xué)習(xí)方法,構(gòu)建了MLBL(machine learning based senti-word lexicon),取得了較SentiWordNet更高的微平均值[12]。
基于語(yǔ)料的方法主要是利用詞之間的共現(xiàn)模式來(lái)確定其情感傾向性。Turney等人[13]利用候選情感詞與基準(zhǔn)情感詞的點(diǎn)互信息(PMI)進(jìn)行詞匯的情感傾向判斷。這種方法領(lǐng)域針對(duì)性較強(qiáng)。Qiu[14]等人針對(duì)產(chǎn)品評(píng)論的情感詞擴(kuò)展方法,利用詞性標(biāo)注及句法依賴關(guān)系發(fā)現(xiàn)詞與詞間的搭配關(guān)系與語(yǔ)義關(guān)系進(jìn)行情感詞典的擴(kuò)展。該方法需要大量的人工標(biāo)注語(yǔ)料。
此外,情感詞不同的情感強(qiáng)度對(duì)不同的潛在用戶產(chǎn)生的影響也會(huì)不同。以往的情感強(qiáng)度往往規(guī)定為正情感詞為+1,負(fù)情感詞為-1。目前針對(duì)情感強(qiáng)度的研究工作,大連理工大學(xué)信息檢索研究室在林鴻飛教授的指導(dǎo)下整理和標(biāo)注了一個(gè)中文本體資源。該資源從不同角度描述一個(gè)中文詞匯或者短語(yǔ),包括詞語(yǔ)詞性種類、情感類別、情感強(qiáng)度及極性等信息,最終將情感共分為七大類21小類。該項(xiàng)工作是在Ekman的六大類情感分類體系的基礎(chǔ)上構(gòu)建的。但該研究是人工整理標(biāo)注的結(jié)果,其情感強(qiáng)度不是自動(dòng)計(jì)算得出的。
3.1 算法依據(jù)
本文從貝葉斯原理出發(fā),根據(jù)已知數(shù)據(jù)的總體情感信息和樣本情感信息,通過(guò)自動(dòng)機(jī)器學(xué)習(xí),挖掘數(shù)據(jù)中潛在的情感詞,從而實(shí)現(xiàn)情感詞的自動(dòng)挖掘及情感傾向性程度判別。下面,對(duì)貝葉斯定理進(jìn)行簡(jiǎn)單描述。
貝葉斯定理也稱貝葉斯推理,根據(jù)不確定性信息做出推理和決策需要對(duì)各種結(jié)論的概率做出估計(jì)。簡(jiǎn)單來(lái)說(shuō),貝葉斯原理是根據(jù)已知的總體信息、樣本信息及先驗(yàn)概率,轉(zhuǎn)換為求后驗(yàn)概率的過(guò)程。貝葉斯公式表示如式(1)所示。
3.2 算法原理
情感詞典是解決情感分析問(wèn)題的前提,情感詞典的規(guī)模及質(zhì)量影響情感傾向性分析的準(zhǔn)確率,如何自動(dòng)識(shí)別挖掘情感詞,擴(kuò)展情感詞典尤為重要。本文采用貝葉斯原理,將情感詞的識(shí)別定義為二元分類問(wèn)題,即一個(gè)候選情感詞是否為情感詞,從而從語(yǔ)料中自動(dòng)挖掘潛在情感詞。
現(xiàn)給定語(yǔ)料及一部情感詞典,有正情感詞S正和負(fù)情感詞S負(fù)之分。假設(shè)Ci表示一個(gè)字,C1..Ci..Cn表示一個(gè)候選情感詞,S*表示已知情感詞,有正情感詞S正和負(fù)情感詞S負(fù)之分,Freq表示語(yǔ)料中出現(xiàn)的頻率。對(duì)于一個(gè)未知情感的候選情感詞C1..Ci..Cn,判斷其是否為情感詞及情感傾向性程度的推導(dǎo)過(guò)程如下。
由貝葉斯公式得式(2)。
由式(2)可計(jì)算情感詞S*中每個(gè)組成字Ci的概率P(Ci|S*),由于情感詞有正情感詞S正和負(fù)情感詞S負(fù)之分,所以每個(gè)組成字都會(huì)有正情感和負(fù)情感之分。
由式(3)可計(jì)算語(yǔ)料中情感詞的分布。其中,N表示語(yǔ)料中詞的集合,Wi表示語(yǔ)料中的任意詞。P(S*)表示情感詞S*的概率。
用S#表示候選情感詞的情感權(quán)重值。P(S*|C1..Ci..Cn)表示候選情感詞C1..Ci..Cn是情感詞的概率。由于是對(duì)一個(gè)未知詞C1..Ci..Cn計(jì)算其情感權(quán)重,所以無(wú)論其是正情感詞還是負(fù)情感詞,P(C1..Ci..Cn)是定值,可忽略不計(jì)。其次,由于P(C1..Ci..Cn|S*)是未知的,不可計(jì)算,假設(shè)它們每個(gè)字是情感字的概率是條件獨(dú)立的,則可以表示成以下形式,如式(4)所示。
利用式(2)和式(3)計(jì)算得出P(Ci/S*)及P(S*),并代入式(4),就可計(jì)算出候選情感詞的情感權(quán)重。為了更好地表示結(jié)果,對(duì)其取log,表示如式(5)。
(5)
其中,S表示候選情感詞的情感傾向值,S大于0表示其是正情感詞,S小于0表示其是負(fù)情感詞。
存在一種特殊情況: 若詞C1…Ci…Cn中的某個(gè)字Ci在語(yǔ)料中的情感詞中未出現(xiàn),則P(Ci|S*)為0,所以此時(shí)要進(jìn)行數(shù)據(jù)平滑,表示如式(7)。
δ取較小的數(shù)值,本文取為中文漢字總數(shù)的倒數(shù)。式(7)表示給任意一個(gè)字Ci的詞頻加一個(gè)很小的值,避免詞頻為0整體為0的現(xiàn)象,從而影響實(shí)驗(yàn)分析的準(zhǔn)確性,以及某些候選情感詞的選擇。
通過(guò)式(7)推導(dǎo),可計(jì)算出每個(gè)候選情感詞的情感權(quán)重,且為準(zhǔn)確數(shù)值,這與以往假定的正情感詞為+1,負(fù)情感詞為-1不同。此外,不同語(yǔ)料,情感詞不同,情感權(quán)重也不同,該算法實(shí)現(xiàn)了跨領(lǐng)域挖掘相關(guān)情感詞,也符合大數(shù)據(jù)時(shí)代下數(shù)據(jù)本身價(jià)值的再利用。
根據(jù)計(jì)算得出的情感傾向值,按其值大小進(jìn)行排序可得到情感傾向性程度排序表。通過(guò)排序表可明確表示情感傾向性程度,值越大,情感傾向性程度也會(huì)越大,即情感強(qiáng)度越強(qiáng)。
3.3 算法過(guò)程
根據(jù)上述模型,通過(guò)計(jì)算語(yǔ)料中情感字的分布,挖掘潛在情感詞并對(duì)其極性做判別。情感詞典構(gòu)建系統(tǒng)框圖如圖1所示。
圖1 情感詞典構(gòu)建系統(tǒng)框圖
本文通過(guò)對(duì)語(yǔ)料進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練,分別計(jì)算語(yǔ)料正、負(fù)情感字的概率;依據(jù)計(jì)算出的字的情感概率計(jì)算候選情感詞的情感權(quán)重,判別其情感傾向性以得到情感詞,加入情感詞典,實(shí)現(xiàn)情感詞的自動(dòng)發(fā)現(xiàn)及情感極性判別。
結(jié)合上述模型,本文進(jìn)行三組實(shí)驗(yàn)驗(yàn)證上述方法的有效性。
4.1 實(shí)驗(yàn)設(shè)計(jì)
本文分別針對(duì)三組不同領(lǐng)域的數(shù)據(jù)做了情感詞的自動(dòng)發(fā)現(xiàn)及情感極性判別的實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)信息如下。
(1) 京東THINKPAD的評(píng)論數(shù)據(jù),大小為16 MB,共包含4 000條正面評(píng)論信息和4 000條負(fù)面評(píng)論信息。本文只根據(jù)評(píng)論數(shù)據(jù)挖掘潛在未知情感詞,所以語(yǔ)料的正、負(fù)面信息對(duì)本實(shí)驗(yàn)沒有影響。
(2) 豆瓣700部電視劇的評(píng)論數(shù)據(jù),大小為65 MB,其中每部電視劇都包含一定的評(píng)論信息,并以文本的形式進(jìn)行存儲(chǔ)。
—大眾點(diǎn)評(píng)網(wǎng)的餐飲業(yè)評(píng)論數(shù)據(jù),大小為407M,內(nèi)容包括用戶ID、店家ID、評(píng)論內(nèi)容及時(shí)間等信息。在本文的實(shí)驗(yàn)過(guò)程中僅對(duì)評(píng)論內(nèi)容作分析,其余部分不做處理。
上述三組數(shù)據(jù)沒有對(duì)其進(jìn)行任何人工的標(biāo)注,通過(guò)實(shí)驗(yàn)從上述三組生語(yǔ)料中挖掘潛在情感詞,并計(jì)算該方法的準(zhǔn)確性。
此外,本文實(shí)驗(yàn)過(guò)程中采用的情感詞典以臺(tái)灣大學(xué)的情感詞典NTUSD為依據(jù),共包含2 810個(gè)正面詞語(yǔ)和8 276個(gè)負(fù)面詞語(yǔ)。
以上評(píng)論數(shù)據(jù)和情感詞典都可通過(guò)數(shù)據(jù)堂獲得。
由于本實(shí)驗(yàn)是針對(duì)生語(yǔ)料進(jìn)行情感詞的挖掘,為驗(yàn)證該方法的準(zhǔn)確性,我們采取如下措施: 根據(jù)上述模型與方法,計(jì)算出現(xiàn)在語(yǔ)料中已知情感詞的情感權(quán)重,這些情感詞的情感傾向性在情感詞典中是給定的。然后,根據(jù)計(jì)算出的情感傾向性,結(jié)合已知的情感傾向性來(lái)判斷正確性。
4.2 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)一: 封閉實(shí)驗(yàn)
本文選取詞性為形容詞、名詞、動(dòng)詞的未知情感詞為候選情感詞,三組實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果正確率如表1所示。
表1 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)二: 平滑后的封閉實(shí)驗(yàn)
在進(jìn)行數(shù)據(jù)平滑之后,本文分別對(duì)上述三組實(shí)驗(yàn)數(shù)據(jù)重新做了一組候選情感詞極性是形容詞的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
表2 平滑后的實(shí)驗(yàn)結(jié)果
從表2可以看出,在進(jìn)行數(shù)據(jù)平滑之后,實(shí)驗(yàn)結(jié)果的正確率有了明顯的提高。
在這里,我們選擇形容詞為實(shí)驗(yàn)的候選情感詞,是因?yàn)樵诒磉_(dá)情感或?qū)δ骋皇录目捶〞r(shí),形容詞是主要的表達(dá)情感的詞匯。所以,本文只選擇了形容詞進(jìn)行上述實(shí)驗(yàn),同時(shí)其結(jié)果也是有代表性的。
4.3 實(shí)驗(yàn)三: 開放實(shí)驗(yàn)
在取得良好的實(shí)驗(yàn)結(jié)果后,我們發(fā)現(xiàn)上述實(shí)驗(yàn)是針對(duì)整批語(yǔ)料進(jìn)行的,訓(xùn)練集和測(cè)試集并未分開,所以實(shí)驗(yàn)結(jié)果可能擬合很好,從而帶來(lái)較高的正確率,因此該實(shí)驗(yàn)結(jié)果不具有很強(qiáng)的說(shuō)服力。為此,本文接下來(lái)的工作是將豆瓣語(yǔ)料分成了訓(xùn)練集和測(cè)試集兩部分重新進(jìn)行上述實(shí)驗(yàn),同樣選擇最具有代表性的形容詞為候選情感詞進(jìn)行實(shí)驗(yàn),驗(yàn)證實(shí)驗(yàn)效果。實(shí)驗(yàn)結(jié)果如表3所示。
表3 豆瓣實(shí)驗(yàn)結(jié)果
對(duì)比前兩組實(shí)驗(yàn)結(jié)果,由表3可以看出,正確率稍有回落,但是幅度不大,正確率仍在90%以上。以上結(jié)果都足以說(shuō)明該方法的有效性。
為驗(yàn)證實(shí)驗(yàn)結(jié)果的正確率,本文還采取了另一種實(shí)驗(yàn)思路: 由于計(jì)算結(jié)果中含有情感權(quán)重值,能夠判斷候選詞的正、負(fù)極性,因此可對(duì)實(shí)驗(yàn)結(jié)果人工標(biāo)注正、負(fù)極性,判斷實(shí)驗(yàn)計(jì)算結(jié)果是否與人工標(biāo)注的一致,從而計(jì)算該實(shí)驗(yàn)的正確率。表4給出了本文計(jì)算出的部分候選情感詞。
表4 部分候選情感詞
由表4可看出,每個(gè)計(jì)算出的候選情感詞,都有一個(gè)情感權(quán)重,情感權(quán)重值的大小代表其本身在這批語(yǔ)料中的情感強(qiáng)度。情感權(quán)重值有正有負(fù),值大于0表示其是正面候選情感詞,小于0表示其是負(fù)面候選情感詞。那么,根據(jù)計(jì)算出的情感權(quán)重值判斷該詞的極性,再與人工標(biāo)注的情感極性做對(duì)比,從而判斷出該實(shí)驗(yàn)結(jié)果的正確率。
本文對(duì)計(jì)算出的候選情感詞按其情感權(quán)重值的大小進(jìn)行排序,從中計(jì)算出正、負(fù)情感詞top10、top100、top300、top500的正確率,具體結(jié)果表示如表5所示。
表5 正確率統(tǒng)計(jì)情況
上述結(jié)果具體如圖2所示。
由圖2可以看出,無(wú)論正面候選情感詞還是負(fù)面候選情感詞,其正確率隨著候選詞數(shù)目的增加都趨近于92%~93%,這表明其整體的正確率都基本在90%以上,充分證明了該方法的有效性。
圖 2 候選情感詞正確率
本文基于貝葉斯原理及大數(shù)據(jù)挖掘,通過(guò)計(jì)算語(yǔ)料中正、負(fù)情感字的概率,得出候選情感詞的情感權(quán)重,并判別其情感傾向性以得到情感詞。通過(guò)本方法能夠挖掘未知的情感詞,準(zhǔn)確率能夠達(dá)到90%以上,實(shí)現(xiàn)情感詞的自動(dòng)發(fā)現(xiàn)與極性判別,避免人工整理情感詞典的工作,節(jié)省人力、物力,大大擴(kuò)展了情感詞典;且本方法與應(yīng)用領(lǐng)域無(wú)關(guān),具有很好的擴(kuò)展性,奠定了情感分析工作的基礎(chǔ)。但由于本方法沒有考慮上下文語(yǔ)境的影響,所以接下來(lái)的工作重點(diǎn)將對(duì)情感詞進(jìn)行外部條件的限制,利用其位置信息、上下文信息進(jìn)行情感判斷,以彌補(bǔ)上述工作的不足,取得更好的效果。
[1] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010,21(8): 1834-1848.
[2] Zhang Jianfeng, Xia Yunqing, Yao Jianmin. A review towards microtext processing [J]. Journal of Chinese Information Processing, 2012, 26(4): 21-27.
[3] Yang Aimin, Zhou Yongmei, Lin Jianghao. A method of Chinese texts sentiment classification based on Bayesian algorithm [J]. Applied Mechanics and Materials, 2013, (263/266): 2185-2190.
[4] Lin Jianghao, Yang Aimin, Zhou Yongmei, et al. Classification of microblog sentiment based on na?ve Bayesian [J].Computer Engineering and Science, 2012, 34(9): 86-90.
[5] Ren Yong, Kaji N, Yoshinaga N, et al. Sentiment classification in resource-scarce languages by using label propagation[C]//Proceedings of the 25th Pacific Asia Conference on Language, Information and Computation (PACLIC 25), Singapore, 2011: 420-429.
[6] Escalante H J, Montes-Y-Gómez M, Solorio T. A weighted profile intersection measure for profile-based authorship attribution[C]// Proceedings of the 10th Mexican International Conference on Artificial Intelligence (MICAI ’11). Berlin, Heidelberg: Springer-Verlag, 2011: 232-243.
[7] Jung J J. Maximum entropy-based named entity recognition method for multiple social networking services [J]. Journal of Internet Technology, 2012, 13(6): 931-937.
[8] 朱嫣嵐,閡錦,周雅倩等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1): 14-20.
[9] Hu M, Liu B. Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD international conference on Knowledge discovery and data mining, ACM, Seattle, WA, USA. 2004:168-177.
[10] Baccianella S, Esuli A, Sebastiani F. SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining[C]//Proceedings of the 7th Conference on International Language Resources and Evaluation (LREC ’10), Valletta, Malta, 2010: 2200-2204.
[11] Hamouda A, Marei M, Rohaim M. Building machine learning based senti-word lexicon for sentiment analysis [J]. Journal of Advances in Information Techno-logy, 2011, 2(4): 199-203.
[12] 陽(yáng)愛民,林江豪,周詠梅.中文文本情感詞典構(gòu)建方法[J].計(jì)算機(jī)科學(xué)與探索,2013,7(11): 1033-1039.
[13] J Turney Peter.Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of review[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002: 417-424.
[14] Qiu G, Liu B, Bu J, et al. Opinion word expansion and target extraction through double propagation[J]. Computational Linguistics, 2011(37): 9-27.
ResearchonAutomaticEmotionalWordDetectionandPolarityWeightingAlgorithm
ZHANG Huaping1,2, LI Hengxun3, LI Qingmin4
(1. Department of Computer, Beijing Institute of Technology, Beijing 100081, China; 2. Beijing Engineering Research Center of Massive Language Information Processing and Cloud Computing Application, Beijing 100081,China; 3. First Reaearch Institute of the Ministry of Public Security of PRC, Beijing 100048, China; 4. Electronic Information Institute of Science and Technology, Ministry of Industry and Information Technology, Beijing 100040, China)
Rapid development of Internet commerce and various social networking applications leads to a large number of user comment information. To meet the requirement of fast processing these information, sentiment and its polarity analysis arises at the moment. Emotion dictionary is the basis for all kinds of recognition algorithms of emotional polarity. To build a comprehensive emotional dictionary with rational weight, this paper proposes an automatic emotion weight (AEW) algorithm to mine the potential emotional words and estimate the emotion weight, with the advantage of domain independence and good scalability. The method uses special type of co-occurrence, which is based on Bayesian theory, to recognize unknown emotion words, judge the sentiment polarity according to the value of its emotion weight. We verify the theoretical research by three empirical analysis of data form JD.com, douban.com and dianping.com, achieving a precision about 90%.
sentiment lexicon; polarity weight; emotional orientation degree; emotion dictionary
張華平(1978—),副研究員,博士,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)搜索與挖掘、自然語(yǔ)言處理、社交網(wǎng)絡(luò)等。
李恒訓(xùn)(1985—),碩士,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)搜索與挖掘、自然語(yǔ)言處理。
李清敏(1988—),碩士,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)搜索與挖掘、自然語(yǔ)言處理等。
1003-0077(2017)03-0048-07
2014-09-25定稿日期: 2015-03-18
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)(2013CB329601)
TP391
: A