杜 慧,徐學(xué)可,伍大勇 ,劉 悅,余智華,程學(xué)旗
(1. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué),北京 100190)
基于情感詞向量的微博情感分類
杜 慧1,2,徐學(xué)可1,伍大勇1,劉 悅1,余智華1,程學(xué)旗1
(1. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所,中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 2. 中國(guó)科學(xué)院大學(xué),北京 100190)
該文提出了一種基于情感詞向量的情感分類方法。詞向量采用連續(xù)實(shí)數(shù)域上的固定維數(shù)向量來(lái)表示詞匯,能夠表達(dá)詞匯豐富的語(yǔ)義信息。詞向量的學(xué)習(xí)方法,如word2vec,能從大規(guī)模語(yǔ)料中通過上下文信息挖掘出潛藏的詞語(yǔ)間語(yǔ)義關(guān)聯(lián)。本文在從語(yǔ)料中學(xué)習(xí)得到的蘊(yùn)含語(yǔ)義信息的詞向量基礎(chǔ)上,對(duì)其進(jìn)行情感調(diào)整,得到同時(shí)考慮語(yǔ)義和情感傾向的詞向量。對(duì)于一篇輸入文本,基于情感詞向量建立文本的特征表示,采用機(jī)器學(xué)習(xí)的方法對(duì)文本進(jìn)行情感分類。該方法與基于詞、N-gram及原始word2vec詞向量構(gòu)建文本表示的方法相比,情感分類準(zhǔn)確率更高、性能和穩(wěn)定性更好。
情感分析;情感分類;詞向量;機(jī)器學(xué)習(xí)
Web2.0蓬勃發(fā)展,用戶不僅從互聯(lián)網(wǎng)中獲得海量信息,更是Web信息的創(chuàng)造與參與者。用戶通過各種平臺(tái)如微博等對(duì)社會(huì)熱點(diǎn)、關(guān)注的商品、服務(wù)等發(fā)表帶有個(gè)人情感的言論。關(guān)于社會(huì)熱點(diǎn)的Web觀點(diǎn)信息代表了當(dāng)前社會(huì)的輿論風(fēng)向,商品的評(píng)論信息對(duì)企業(yè)有著巨大的商業(yè)價(jià)值。因此,對(duì)Web數(shù)據(jù)進(jìn)行語(yǔ)義情感分析有重要意義。
情感分類是情感分析中最為基礎(chǔ)的研究任務(wù),目標(biāo)是判斷給定文本的情感極性如正面、負(fù)面,按照情感極性進(jìn)行分類。情感分類與文本分類任務(wù)有相似性,傳統(tǒng)的情感分類方法多是受文本分類的啟發(fā)。Pang[1]嘗試了N-gram等多種特征和特征組合,對(duì)貝葉斯、SVM和最大熵分類器的情感分類效果進(jìn)行對(duì)比。
情感分類有其特殊性,選取適用于情感分類的特征是非常重要的。傳統(tǒng)分類方法使用詞或N-gram來(lái)構(gòu)建特征空間,得到的特征向量維度大且稀疏。這種特征向量容易導(dǎo)致維數(shù)災(zāi)難,且分類效率低。此外,這些傳統(tǒng)方法無(wú)法考慮特征間的語(yǔ)義相關(guān)性。比如正類標(biāo)注文本中僅有詞“高興”,若待分類文本中出現(xiàn)的詞為“開心”,是無(wú)法進(jìn)行正確的類別判斷的。本文基于詞向量技術(shù)將文本投射到低維稠密的語(yǔ)義空間,空間維度小、分類效率高,同時(shí)可以利用大規(guī)模未標(biāo)注語(yǔ)料挖掘詞匯豐富的語(yǔ)義信息,將詞匯的語(yǔ)義相似性引入到分類中,從而提高情感分類性能。原始的詞向量學(xué)習(xí)方法的目標(biāo)是使得具有相似上下文信息的詞語(yǔ)的詞向量也較為相似,但在學(xué)習(xí)的過程中并未考慮到情感傾向,具有相似上下文信息的詞語(yǔ)在情感傾向上很有可能是有差別甚至是相反的。本文對(duì)詞向量進(jìn)行情感調(diào)整,獲得同時(shí)考慮語(yǔ)義和情感傾向的情感詞向量。對(duì)于一篇輸入文本,基于情感詞向量建立文本特征向量,采用機(jī)器學(xué)習(xí)的方法進(jìn)行情感分類。按照詞權(quán)重對(duì)情感詞向量加權(quán)求和,是一種簡(jiǎn)單有效的文本表達(dá)特征構(gòu)造方式。上述文本向量的建立過程考慮了詞在文本中的重要程度,但卻沒有考慮句子的結(jié)構(gòu)信息。卷積神經(jīng)網(wǎng)絡(luò)具有結(jié)構(gòu)化特征抽取、參數(shù)共享等特點(diǎn),能夠捕獲句子中詞語(yǔ)間的次序信息。本文進(jìn)一步采用卷積神經(jīng)網(wǎng)絡(luò)[2]學(xué)習(xí)得到文本的另外一種特征表示形式,在此基礎(chǔ)上進(jìn)行情感分類。實(shí)驗(yàn)表明與基于詞、n-gram及原始詞向量構(gòu)建文本表達(dá)的情感分類方法相比,本文方法性能更好。
情感分類已有不少的研究成果,詞語(yǔ)情感判別是情感分類的基礎(chǔ)性研究任務(wù)。Turney[3]選取情感種子詞,通過計(jì)算文本關(guān)鍵詞與種子詞的點(diǎn)互信息來(lái)判斷詞語(yǔ)的情感極性。點(diǎn)互信息發(fā)現(xiàn)詞語(yǔ)間的關(guān)聯(lián)關(guān)系是建立在語(yǔ)料中詞語(yǔ)共現(xiàn)的基礎(chǔ)上的,但實(shí)際上情感候選詞與相同極性的情感種子詞共現(xiàn)的情況較少,但該方法為后續(xù)的研究提供了不錯(cuò)的思路。朱嫣嵐等[4]利用HowNet提供的語(yǔ)義計(jì)算功能,計(jì)算詞語(yǔ)與情感基準(zhǔn)詞的相似度,從而得到詞語(yǔ)的語(yǔ)義傾向性。
語(yǔ)句和篇章級(jí)的情感分類可直接通過統(tǒng)計(jì)文本中出現(xiàn)的情感詞的數(shù)量進(jìn)行判斷,但這依賴于情感詞典的可靠性。情感分類與文本分類任務(wù)類似,Pang[1]沿用文本分類中常見的特征(如詞、n-gram),首次使用機(jī)器學(xué)習(xí)的方法進(jìn)行篇章級(jí)情感分類。機(jī)器學(xué)習(xí)的關(guān)鍵在于選取適用于情感分類的文本特征,后續(xù)很多研究集中于特征的選取工作。Kim[5]在n-gram的基礎(chǔ)上,又引入了位置和評(píng)價(jià)詞特征來(lái)進(jìn)行句子的情感分類。唐慧豐等人[6]對(duì)文本進(jìn)行分詞并標(biāo)注詞性,采用包括互信息、信息增益、CHI 統(tǒng)計(jì)量、文本頻率四種特征,以中心向量、K近鄰、Winnow、樸素貝葉斯和支持向量機(jī)作為不同分類方法。大量的研究表明機(jī)器學(xué)習(xí)方法在情感分類問題中能夠取得較好的效果,但學(xué)習(xí)過程中用到的特征多數(shù)來(lái)源于傳統(tǒng)的文本分類。
詞向量學(xué)習(xí)是本文的另外一個(gè)相關(guān)研究領(lǐng)域。本文中提到的詞向量(word embedding)特指詞語(yǔ)的分布式表達(dá),將詞作為低維實(shí)數(shù)向量。詞向量作為N維實(shí)數(shù)空間中的點(diǎn),點(diǎn)與點(diǎn)之間的關(guān)系反映了詞語(yǔ)間潛在的語(yǔ)義關(guān)聯(lián)。神經(jīng)網(wǎng)絡(luò)對(duì)結(jié)構(gòu)信息的良好感知能力,帶來(lái)了詞向量學(xué)習(xí)[7-10]及其應(yīng)用的發(fā)展[11],為情感分析研究開闊了思路[2,12]。
Google的word2vec[8-10]是優(yōu)秀的開源詞向量工具,它通過神經(jīng)網(wǎng)絡(luò)模型,使用詞的上下文詞生成當(dāng)前詞(或者使用當(dāng)前詞生成它的上下文詞),極大化語(yǔ)言生成概率得到詞的向量表示。本文借助word2vec,選用基于負(fù)采樣的CBOW神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練得到詞向量,本章簡(jiǎn)要介紹該模型。
圖1 CBOW神經(jīng)網(wǎng)絡(luò)模型
其中
相當(dāng)于對(duì)于上下文context(w)而言,在極大化中心詞的概率的同時(shí),極小化負(fù)樣本詞的概率。
對(duì)CBOW神經(jīng)網(wǎng)絡(luò)模型采用隨機(jī)負(fù)采樣,能夠大幅度提高性能并改善詞向量的質(zhì)量。詞向量在語(yǔ)義上有了很大的進(jìn)步,但并沒有考慮情感傾向信息。本文將CBOW模型訓(xùn)練得到的詞向量作為初始詞向量,對(duì)其進(jìn)行情感調(diào)整,得到同時(shí)考慮了語(yǔ)義和情感傾向的詞向量。基于調(diào)整后的詞向量,對(duì)于一篇輸入文本,按照詞權(quán)重對(duì)情感詞向量加權(quán)求和,得到文本的向量表示,采用機(jī)器學(xué)習(xí)方法,將上述文本特征表示作為情感分類訓(xùn)練和分類的輸入,判斷文本的情感極性。同時(shí)為了更好地考慮文本的結(jié)構(gòu)信息,將文本情感詞向量連接得到文本的矩陣表示,采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本的表示學(xué)習(xí),進(jìn)而進(jìn)行情感分類器訓(xùn)練。
4.1 詞向量的情感調(diào)整
圖2 本文經(jīng)過情感調(diào)整的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
采用基于負(fù)采樣的方法對(duì)模型進(jìn)行構(gòu)建,對(duì)于context(w),詞w的情感標(biāo)簽為正樣本,其余情感標(biāo)簽皆為負(fù)樣本。每個(gè)情感標(biāo)簽Si對(duì)應(yīng)一個(gè)輔助向量θSi,極大化公式為:
相當(dāng)于在極大化預(yù)測(cè)中心詞w的情感標(biāo)簽的概率的同時(shí)極小化其他情感極性的概率,本文模型的優(yōu)化目標(biāo)為極大化,即
其中,
為模型求解方便,我們記式(5)右面部分為
采用梯度上升的方法,給出關(guān)于θSi和Xw的梯度公式,即
于是θSi的更新公式為
式中,η為參數(shù)。同樣的,對(duì)Xw求偏導(dǎo),
我們以語(yǔ)料中的情感種子詞w及其上下文context(w)構(gòu)建訓(xùn)練樣本(context(w),S(w)),對(duì)每個(gè)訓(xùn)練樣本,參數(shù)更新的步驟如下:
步驟2,對(duì)于θSi=θS1:θSK循環(huán),每一次循環(huán)計(jì)算:
4.2 情感分類
本文在經(jīng)過情感調(diào)整后的詞向量的基礎(chǔ)上,采用機(jī)器學(xué)習(xí)方法進(jìn)行文本的情感分類。對(duì)于一篇輸入文本,按照詞權(quán)重對(duì)情感詞向量加權(quán)求和,得到文本的特征表示,采用機(jī)器學(xué)習(xí)的方法(logistic回歸、SVM)進(jìn)行分類。同時(shí)為了考慮文本的結(jié)構(gòu)信息,將文本情感詞向量連接構(gòu)成文本的矩陣表示,采用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到文本融合了結(jié)構(gòu)信息的特征向量,進(jìn)而進(jìn)行情感分類。
利用情感詞向量加權(quán)和構(gòu)建文本特征表示的情感分類,對(duì)于一篇中文文本i,計(jì)算詞語(yǔ)在文本中的權(quán)重。采用常用的TF-IDF權(quán)重,計(jì)算詞語(yǔ)j在文本i中的權(quán)重,即
然后使用sigmoid函數(shù)作為假設(shè)函數(shù)來(lái)預(yù)測(cè)文檔極性,即
圖3 卷積神經(jīng)網(wǎng)絡(luò)分類模型結(jié)構(gòu)圖
由Google的word2vec訓(xùn)練(采用CBOW神經(jīng)網(wǎng)絡(luò)模型,向量長(zhǎng)度取100,其他采用默認(rèn)參數(shù))得到的詞向量作為調(diào)整前的初始詞向量,初始詞向量作為初始值,按照本文算法進(jìn)行情感調(diào)整后,得到同時(shí)考慮了語(yǔ)義與情感特征的情感詞向量。采用COAE(中文情感傾向性評(píng)測(cè))2014任務(wù)三[13]發(fā)布的一千萬(wàn)條微博作為背景語(yǔ)料, 用于詞向量學(xué)習(xí)。將知網(wǎng)情感詞典[14]、大連理工大學(xué)的情感本體知識(shí)庫(kù)[15]、清華中文褒貶義詞典[16]和我們整理補(bǔ)充的網(wǎng)絡(luò)常用情感詞合并作為實(shí)驗(yàn)使用的情感詞來(lái)源??紤]到個(gè)別詞情感極性標(biāo)注不一致及網(wǎng)絡(luò)環(huán)境情感表達(dá)的特殊性,我們?nèi)斯?biāo)注了這個(gè)情感詞集中詞頻前10 000的詞,其中正負(fù)情感詞的個(gè)數(shù)分別為 4 502 和5 498。在這個(gè)標(biāo)注集中按照詞頻從高到低,分別選取正、負(fù)情感詞各1 000個(gè)作為種子詞,剩余的情感詞作為測(cè)試情感詞。另外,本文不考慮情感中性詞。
為驗(yàn)證本文對(duì)詞向量的情感調(diào)整是有效的,5.1節(jié)實(shí)驗(yàn)中通過調(diào)整后的詞向量與情感種子詞的相似性來(lái)確定詞的情感極性,并對(duì)情感調(diào)整的有效性進(jìn)行驗(yàn)證。5.2節(jié)實(shí)驗(yàn)中對(duì)本文基于情感詞向量的情感分類效果進(jìn)行驗(yàn)證。
5.1 詞向量情感調(diào)整實(shí)驗(yàn)
初始詞向量?jī)H僅反映上下文結(jié)構(gòu)的相似性,一個(gè)詞與另外一個(gè)詞相似度高,并不意味著兩個(gè)詞的情感傾向是一致的。例如,以下兩句中“給力”和“糟糕”兩詞所出現(xiàn)的上下文一致,但表達(dá)的情感卻相反:
這部電影超給力!
這部電影太糟糕!
表1和表2分別列出了與詞“上漲”和“下跌”的基于初始詞向量與本文調(diào)整得到的情感詞向量最為相似的十個(gè)詞?!跋碌薄按蠓碌薄按蟮薄跋麓臁迸c“上漲”“大幅上漲”的情感傾向相反,但是基于初始詞向量的相似度卻很高。經(jīng)過本文的情感調(diào)整后,情感詞向量的相似度不僅僅反映上下文結(jié)構(gòu)的相似性,同時(shí)反映了情感極性是否一致。具有相似向量的詞更有可能具有相同情感極性,因此通過本文調(diào)整后的詞向量與種子詞的相似性來(lái)判斷詞語(yǔ)的情感極性是合理的。
表1 初始詞向量和本文調(diào)整詞向量與詞“上漲”的相似度top10的詞
表2 初始詞向量和本文調(diào)整詞向量與詞“下跌”的相似度top10的詞
為了定量分析本文情感調(diào)整的有效性,我們利用詞向量判斷詞的情感極性,對(duì)給定的詞w,分別計(jì)算該詞跟正面、負(fù)面種子詞向量的平均相似度,兩值相減作為詞w的情感得分,若該分值大于0,則表示詞w為正面情感詞,否則為負(fù)面,其絕對(duì)值越大,表明情感傾向性越強(qiáng)烈。具體公式如式(19)所示。
其中,相似度通過向量間的余弦距離計(jì)算。
為驗(yàn)證有效性,將利用本文算法(SSWE)與基于初始word2vec的詞向量方法及經(jīng)典情感詞抽取方法(PMI、LP)進(jìn)行了對(duì)比。
對(duì)比算法一word2vec: 利用初始詞向量計(jì)算得到詞語(yǔ)的情感極性
對(duì)比方法二PMI[3]: 與本文方法類似,給定詞w,分別計(jì)算該詞與正面、負(fù)面種子詞的平均逐點(diǎn)互信息,以此判斷詞w的情感極性。
對(duì)比方法三LP(labelpropagation): 標(biāo)簽擴(kuò)散,根據(jù)逐點(diǎn)互信息建立詞帶權(quán)圖,采用標(biāo)簽擴(kuò)散算法[17]計(jì)算圖上各詞的情感得分。
采用式(19)判斷測(cè)試情感詞的情感極性,并采用準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。
實(shí)驗(yàn)結(jié)果見表3。表中可以看出,基于word2vec的初始詞向量的情感極性的判斷是有缺陷的,較傳統(tǒng)的情感極性判別方法PMI和LP準(zhǔn)確率有所降低,這也驗(yàn)證了未考慮情感傾向信息的詞向量雖然在語(yǔ)義上有很大的優(yōu)勢(shì),但用于情感分析時(shí)存在不足。本文(SSWE)對(duì)詞向量的情感調(diào)整是非常有效的,對(duì)詞語(yǔ)的情感極性判斷準(zhǔn)確率較word2vec提高了8%,同時(shí)較PMI和LP也有一定的提高。上述結(jié)果表明,本文對(duì)詞向量的情感調(diào)整是有效的,對(duì)蘊(yùn)含了語(yǔ)義特征的詞向量補(bǔ)充了情感信息。
表3 詞語(yǔ)的情感極性判斷準(zhǔn)確率對(duì)比
5.2 情感分類實(shí)驗(yàn)
實(shí)驗(yàn)數(shù)據(jù)及設(shè)置將從新浪微博上采集并標(biāo)注了正面、負(fù)面情感極性的約4萬(wàn)條微博作為分類實(shí)驗(yàn)語(yǔ)料,將該語(yǔ)料按50%∶50%隨機(jī)切分,分別作為訓(xùn)練集和測(cè)試集。
實(shí)驗(yàn)?zāi)繕?biāo)與評(píng)價(jià)指標(biāo)在5.1節(jié)實(shí)驗(yàn)中本文算法(SSWE)得到的情感詞向量的基礎(chǔ)上,采用4.2節(jié)方法建立文本的特征表示,使用logistic回歸、SVM和CNN進(jìn)行情感分類。
本節(jié)實(shí)驗(yàn)?zāi)康脑谟隍?yàn)證情感詞向量算法在情感分類中應(yīng)用的效果,對(duì)比方法根據(jù)特征表示構(gòu)建不同,包括如下幾方面。
(1) 基于初始詞向量構(gòu)建文本的特征表示(word2vec),包括加權(quán)和方法(用于logistic回歸和SVM)和CNN方法。
(2) 以n-gram作為特征空間,n取小于或等于3的正整數(shù)(n-gram),用于logistic回歸和SVM。
(3) 以詞作為特征空間(word),用于logistic回歸和SVM。
對(duì)于給定的類別(正面或者負(fù)面),評(píng)價(jià)指標(biāo)采用準(zhǔn)確率、召回率和F1值,其中:
(1) 準(zhǔn)確率,表示正確分類到該類的文本占分類到該類的文本的比例,如式(20)所示。
(2) 召回率,表示正確分類到該類的文本占該類文本的比例,如式(21)所示。
(3) F1值,如式(22)所示。
(22)
對(duì)于總體性能,采用總體正確率指標(biāo),計(jì)算方法如式(23)所示。
結(jié)果分析實(shí)驗(yàn)對(duì)比結(jié)果見表4。整體上看,三種機(jī)器學(xué)習(xí)方法的分類效果相差不大?;诔跏荚~向量構(gòu)造文本特征空間用于情感分類(word2vec)效果并沒有比傳統(tǒng)的n-gram或者詞特征空間有所提高,反而效果較n-gram方法有一定的降低,這與5.1節(jié)的實(shí)驗(yàn)結(jié)果是一致的: 未考慮情感傾向信息的詞向量用于情感分析存在不足。本文在SSWE算法得到的情感詞向量的基礎(chǔ)上構(gòu)建文本特征表示用于情感分類, 相對(duì)各種基準(zhǔn)方法性能有了顯著提升。具體而言,SSWE效果較word2vec
表4 情感分類結(jié)果對(duì)比
總體準(zhǔn)確率和F1值均有較高的提升,這驗(yàn)證了SSWE對(duì)詞向量的情感調(diào)整對(duì)情感分類是有效的。此外,與常用的文本構(gòu)建特征n-gram和詞相比,SSWE總體性能指標(biāo)(總體準(zhǔn)確率、兩類F1值)均有很大的提高,且正、負(fù)類分類效果更均衡。訓(xùn)練樣本中正、負(fù)類的不均衡性造成了各算法對(duì)負(fù)類的分類效果較差,而SSWE能夠從大量未標(biāo)注的語(yǔ)料中學(xué)習(xí)外部知識(shí),從而緩解訓(xùn)練語(yǔ)料的不均衡性,從而使得SSWE的正、負(fù)類分類效果差別較小,各項(xiàng)指標(biāo)比較均勻。特別的,SSWE所構(gòu)建的文本特征空間維度較小,計(jì)算復(fù)雜度低,分類效率高。
本文提出的方法是對(duì)詞向量在情感領(lǐng)域的擴(kuò)展和應(yīng)用。對(duì)CBOW神經(jīng)網(wǎng)絡(luò)模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行情感改造后,將原始的包含語(yǔ)義的詞向量作為初始詞向量,訓(xùn)練得到同時(shí)考慮語(yǔ)義和情感傾向的詞向量,用于文本的情感分類。本文方法避免了原始詞向量語(yǔ)義近似但情感差距較大的缺陷,又能夠從大量未標(biāo)注的語(yǔ)料中學(xué)習(xí)詞的語(yǔ)義信息,因此取得了較好的情感分類效果。算法對(duì)詞向量的情感改進(jìn)未來(lái)可以考慮用于其他的情感分析問題中,并且詞向量的學(xué)習(xí)與情感調(diào)整的過程可以考慮采用卷積神經(jīng)網(wǎng)絡(luò)等復(fù)雜結(jié)構(gòu)進(jìn)行,進(jìn)一步提升情感詞向量的學(xué)習(xí)效果。
[1] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan. Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language(EMNLP),2002,V(10): 79-86.
[2] Aliaksei Severyn, Alessandro Moschitti. Twitter sentiment analysis with deep convolutional neural networks[C]//Proceedings of the SIGIR, 2015.
[3] Peter D.Turney. Thumbs up or thumbs down semantic orientate-on applied to unsupervised classificationof reviews[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002: 417-424.
[4] 朱嫣嵐, 閔錦, 周雅倩,等. 基于 HowNet 的詞匯語(yǔ)義傾向計(jì)算[J]. 中文信息學(xué)報(bào), 2006, 20(1): 14-20.
[5] Soo-Min Kim, Eduard Hovy. Automatic identification of pro and con reasons in online reviews[C]//Proceedings of the COLING/ACL, 2006:483-490.
[6] 唐慧豐, 譚松波, 程學(xué)旗. 基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J]. 中文信息學(xué)報(bào),2007, 21(6): 88-94.
[7] Yoshua Bengio, Rejean Ducharme, Pascal Vincent, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, V(3): 1137-1155.
[8] Tomas Mikolov.word2vec project[DB/OL]. http://code.google.com/p/word2vec/.
[9] Tomas Mikolov, Ilya Sutskever, Kai Chen, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of NIPS, 2013: 3111-3119.
[10] Tomas Mikolov, Kai Chen, Greg Corrado,et al. Efficient estimation of word representations in vector space[C]//Proceedings of Workshop at ICLR, 2013.
[11] 楊陽(yáng), 劉龍飛, 魏現(xiàn)輝,等. 基于詞向量的情感新詞發(fā)現(xiàn)[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版), 2014, 11(49): 51-58.
[12] 梁軍, 柴玉梅, 原慧斌,等. 基于深度學(xué)習(xí)的微博情感分析[J]. 中文信息學(xué)報(bào),2014,28(5): 155-161.
[13] http://www.liip.cn/CCIR2014/pc.html[OL].
[14] HowNet. HowNet’s Home Page[DB/OL]. http://www.keenage.com.
[15] 徐琳宏, 林鴻飛, 潘宇,等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2): 180-185.
[16] http://nlp.csai.tsinghua.edu.cn/site2/index.php/zh/resources/13-v10[OL].
[17] Zhu Xiaojin, Ghahramani Zoubin. Learning from labeled and unlabeled data with label propagation[R]. Technical Report CMU-CALD-02-107, Carnegie Mellon University, 2002.
ASentimentClassificationMethodBasedonSentiment-SpecificWordEmbedding
DU Hui1,2, XU Xueke1, WU Dayong1, LIU Yue1, YU Zhihua1, CHENG Xueqi1
(1. CAS Key Laboratory of Newtwork Data Science and Technology, Institute of Computing Technology, Chinese Academy Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100190, China)
We present a method for sentiment classification based on sentiment-specific word embedding (SSWE). Word embedding is the distributed vector representation of a word with fixed length in real topological space. Algorithms for learning word embedding, like word2vec, obtain this representation from large un-annotated corpus, without considering sentiment information. We make sentiment improvement for the initial word embedding and get the sentiment-specific word embedding that contains both syntactic and sentiment information.Then text representations are built based on sentiment-specific word embeddings. Sentiment polarities of texts are obtained through machine learning approaches. Experiments show that the presented algorithm performs better than sentiment classification method based on texts modeling by word, N-gram and word embeddings from word2vec.
sentiment analysis; sentiment classification; word embedding; machine learning
杜慧(1986—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、文本傾向性分析。
徐學(xué)可(1983—),博士,助理研究員,主要研究領(lǐng)域?yàn)閃eb觀點(diǎn)檢索與挖掘、文本分類及自然語(yǔ)言處理。
伍大勇(1977—),博士,高級(jí)工程師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、實(shí)體識(shí)別與屬性抽取。
1003-0077(2017)03-0170-07
2015-09-20定稿日期: 2015-11-18
國(guó)家973計(jì)劃(2014CB340406,2013CB329602);國(guó)家863計(jì)劃(2014AA015204);國(guó)家自然科學(xué)基金(61232010)
TP391
: A