摘 要:針對(duì)現(xiàn)有情感分類算法中存在的問題,本文提出了一種基于word2vec和自訓(xùn)練的無監(jiān)督情感分類方法。該方法首先利用word2vec和詞性標(biāo)簽構(gòu)建領(lǐng)域情感詞典,并在此基礎(chǔ)上融合否定詞和程度副詞來計(jì)算評(píng)論的情感傾向值;其次,選取情感傾向強(qiáng)烈的評(píng)論作為已標(biāo)注訓(xùn)練集,剩余部分作為待分類數(shù)據(jù)集;最后,采用機(jī)器學(xué)習(xí)方法生成分類器進(jìn)行自訓(xùn)練學(xué)習(xí),直到迭代結(jié)束。采用手機(jī)評(píng)論作為實(shí)驗(yàn)數(shù)據(jù),結(jié)果證實(shí)了該方法的有效性。
關(guān)鍵詞:情感分析;自訓(xùn)練;word2vec;機(jī)器學(xué)習(xí)
在大數(shù)據(jù)時(shí)代,各大電商網(wǎng)站以及論壇涌現(xiàn)出大量帶情感的商品評(píng)論。近幾年,人們愈發(fā)地意識(shí)到對(duì)商品評(píng)論進(jìn)行深度地分析和挖掘能夠獲取較大的價(jià)值。對(duì)于消費(fèi)者而言,他們可以從中了解到特定商品的性能及其質(zhì)量能否滿足自我需要,從而決定是否進(jìn)行購(gòu)買;對(duì)于商家而言,他們可以從商品評(píng)論中獲取用戶對(duì)該產(chǎn)品的關(guān)注點(diǎn)及其感情色彩,并用于改進(jìn)產(chǎn)品質(zhì)量和提升產(chǎn)品競(jìng)爭(zhēng)力。然而產(chǎn)品評(píng)論具有及時(shí)性,數(shù)量大,非結(jié)構(gòu)化以及內(nèi)容復(fù)雜等特點(diǎn),利用人工閱讀的方式無法獲取完整及正確的信息。因此,迫切需要利用計(jì)算機(jī)技術(shù)來自動(dòng)地實(shí)現(xiàn)用戶評(píng)論情感分類。
1 研究現(xiàn)狀
目前,對(duì)于情感分類的研究主要集中在有監(jiān)督、無監(jiān)督和半監(jiān)督方法上。無監(jiān)督分類方法主要是利用已有的情感詞典或者固定句法模式來判斷評(píng)論的情感傾向。Turney等人[1]利用詞語的詞性標(biāo)簽來抽取出可能含有觀點(diǎn)的固定句法模式,并利用這些模式來解決情感傾向判斷問題。Ohaha等人[2]利用SentiWordNet情感詞典來識(shí)別用戶評(píng)論中的情感傾向。黃仁等人[3]利用google的開源工具word2vec來計(jì)算詞語之間的語義相似度從而構(gòu)建出情感詞典,并對(duì)測(cè)試語料進(jìn)行分類,實(shí)驗(yàn)結(jié)果證實(shí)了該算法的可行性。雖然無監(jiān)督的方法便于實(shí)現(xiàn)且具有較好的移植性,但是其準(zhǔn)確率卻有待提升。
有監(jiān)督分類方法主要是利用訓(xùn)練樣本來生成分類器,從而對(duì)待分類評(píng)論進(jìn)行分類。為了便于處理通常先采用向量空間模型將評(píng)論文本表示成向量,隨后采用分類算法訓(xùn)練出分類模型,并利用分類模型將評(píng)論分為褒貶義兩類。Pang等人[4]將影評(píng)作為實(shí)驗(yàn)語料,采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法識(shí)別其情感色彩。通過選取不同的詞語作為特征項(xiàng),采用不同的分類算法來進(jìn)行多次實(shí)驗(yàn),證明了該方法的有效性。徐琳宏等人[5]將情感傾向較強(qiáng)烈的詞語作為特征項(xiàng),支持向量機(jī)作為分類器來對(duì)文本進(jìn)行識(shí)別。雖然有監(jiān)督的方法準(zhǔn)確性較高,但是存在大量樣本數(shù)據(jù)難以獲取,訓(xùn)練出的分類模型難以直接應(yīng)用于其他領(lǐng)域等問題。
因此,現(xiàn)目前越來越多的研究者轉(zhuǎn)向利用半監(jiān)督的方法來解決情感分析問題。半監(jiān)督方法是利用大量未標(biāo)記樣本和少量已標(biāo)記樣本數(shù)據(jù)來實(shí)現(xiàn)。Shoushan Li等人[6]針對(duì)非平衡情感分析問題提出了一種基于協(xié)同訓(xùn)練的半監(jiān)督算法。
本文提出一種基于word2vec和自訓(xùn)練的無監(jiān)督情感分類方法。該算法首先利用Word2vec和詞性標(biāo)簽來構(gòu)建出本領(lǐng)域的情感詞典;隨后利用領(lǐng)域詞典對(duì)計(jì)算出每條評(píng)論的情感傾向值,并以此為依據(jù)抽取出部分情感傾向程度強(qiáng)烈的評(píng)論作為已標(biāo)注訓(xùn)練集;最后選取支持向量機(jī)作為分類算法進(jìn)行自訓(xùn)練學(xué)習(xí)從而識(shí)別出評(píng)論的情感傾向。
2 算法框架
該算法框架主要分為兩個(gè)部分:一是基于Word2vec和詞性標(biāo)簽的情感傾向值計(jì)算;二是自訓(xùn)練學(xué)習(xí)。
2.1 情感傾向值計(jì)算
利用Word2vec和詞性抽取出具有情感色彩的詞語,并采用Xsimilarity工具包對(duì)其進(jìn)行褒貶義分類從而構(gòu)建出領(lǐng)域情感詞典,隨后結(jié)合評(píng)論中的否定詞和程度副詞來進(jìn)行評(píng)論的情感傾向值計(jì)算。具體步驟如下:
(1)利用Ansj分詞工具對(duì)評(píng)論語料進(jìn)行分詞和詞性標(biāo)注,抽取出詞性標(biāo)簽為/an和/a的詞語。并利用Xsimilarity工具包計(jì)算每個(gè)詞語的情感傾向值,將情感傾向值大于0的歸為褒義詞,情感傾向值小于0的歸為貶義詞。從而得到褒義詞集合和貶義詞集合。
(2)利用Google的開源工具word2vec對(duì)語料進(jìn)行訓(xùn)練,獲取詞向量集合。遍歷詞向量集合,判斷詞語word是否存在于步驟(1)得到的集合中,若存在,則不進(jìn)行處理;不存在,則計(jì)算詞語與詞向量集合中其他詞語的相似度,找出相似度大于閾值的詞語sim_word,并查看該詞語是否存在于步驟(1)得到的集合中,若存在,則將word標(biāo)記為與sim_word相同的傾向,并加入相應(yīng)的集合中,從而構(gòu)建出最終的領(lǐng)域情感詞典。
(3)構(gòu)建常用的否定詞詞表以及程度副詞詞表。對(duì)程度副詞詞表按照其強(qiáng)烈程度分為四個(gè)等級(jí),并賦予相應(yīng)的權(quán)重,從高到低權(quán)值依次為3.0、2.0、1.2、0.5。
(4)對(duì)評(píng)論中的每個(gè)詞語進(jìn)行分析和計(jì)算。若存在于領(lǐng)域詞典中的褒義詞集合,則該詞語的情感傾向值設(shè)為1;若存在于貶義詞集合,則為-1。若該詞語前2個(gè)詞語中存在有否定詞則將其情感傾向值取反,反之不變。若該詞語去前后兩個(gè)詞語中存在程度副詞,則將其情感傾向值乘以該程度副詞對(duì)應(yīng)的權(quán)值。
(5)將評(píng)論中每個(gè)詞語的情感傾向值相加求和則得到該條評(píng)論最終的情感傾向值。情感傾向值大于0則說明該條評(píng)論為褒義;反之小于0則說明該條評(píng)論為貶義。
2.2 自訓(xùn)練學(xué)習(xí)
選取部分情感傾向程度強(qiáng)烈的褒貶義評(píng)論作為訓(xùn)練數(shù)據(jù),采用機(jī)器學(xué)習(xí)方法生成分類器,進(jìn)行自訓(xùn)練學(xué)習(xí),直到得到剩余所有評(píng)論的褒貶義分類結(jié)果。具體步驟如下:
(1)評(píng)論的情感傾向值的絕對(duì)值代表了其情感強(qiáng)烈程度,絕對(duì)值越大說明情感越強(qiáng)烈。因此,按照情感傾向值的絕對(duì)值分別對(duì)褒貶義句子進(jìn)行降序排序,選取前N條褒義評(píng)論和前N條貶義評(píng)論結(jié)合在一起作為已標(biāo)注的訓(xùn)練數(shù)據(jù),剩余的評(píng)論作為待分類評(píng)論。本實(shí)驗(yàn)中N為600。
(2)將Unigram作為分類特征,TF-IDF(Term Frequency-Inverse Document Frequency)作為特征項(xiàng)權(quán)重,支持向量機(jī)為分類算法對(duì)上述步驟中得到的已標(biāo)注的訓(xùn)練集合進(jìn)行訓(xùn)練并生成分類器。隨后利用該分類器對(duì)待分類評(píng)論進(jìn)行處理,得到分類結(jié)果及其分類置信度。
(3)若已標(biāo)注的訓(xùn)練評(píng)論數(shù)為待分類的評(píng)論數(shù)的9倍以下,則按分類置信度分別對(duì)褒義和貶義結(jié)果進(jìn)行降序排序,分別選取前M條褒義評(píng)論和前M條貶義評(píng)論用于擴(kuò)展已標(biāo)注訓(xùn)練集,同時(shí)將其從待分類評(píng)論中剔除,隨后轉(zhuǎn)入上述步驟(2);反之則迭代停止,并直接將分類結(jié)果作為最終結(jié)果。本實(shí)驗(yàn)中將M設(shè)為待分類評(píng)論數(shù)量的5%。
3 實(shí)驗(yàn)結(jié)果與分析
本文采用從網(wǎng)絡(luò)下載的某手機(jī)評(píng)論作為實(shí)驗(yàn)數(shù)據(jù),選取評(píng)論挖掘領(lǐng)域常用的查準(zhǔn)率、查全率和整體準(zhǔn)確值作為算法評(píng)估指標(biāo)。對(duì)本文提出的基于word2vec和自訓(xùn)練的無監(jiān)督情感分類算法進(jìn)行實(shí)驗(yàn),其中褒義評(píng)論的查準(zhǔn)率為70.00%、查全率76.30%;貶義句子的查準(zhǔn)率72.69%、查全率65.88%;算法的整體準(zhǔn)確率71.20%。采用相同的語料,用王永等人[7]的方法進(jìn)行實(shí)驗(yàn),褒義評(píng)論的查準(zhǔn)率為72.03%、查全率55.74%;貶義句子的查準(zhǔn)率62.61%、查全率77.40%;算法的整體準(zhǔn)確率66.33%。通過對(duì)比可以發(fā)現(xiàn),本文算法整體上具有更好的性能。
4 結(jié)語
針對(duì)中文領(lǐng)域的用戶評(píng)論情感分析問題,本文提出了一種基于word2vec和自訓(xùn)練的無監(jiān)督情感分類方法。該方法首先利用word2vec工具和詞性標(biāo)簽的無監(jiān)督方法計(jì)算評(píng)論的情感傾向值,并抽取部分評(píng)論作為已標(biāo)注數(shù)據(jù)集,隨后在此基礎(chǔ)上訓(xùn)練出分類器并進(jìn)行自訓(xùn)練學(xué)習(xí)直到迭代結(jié)束。本文提出的算法能夠避免去獲取大量的已標(biāo)注訓(xùn)練集,且實(shí)驗(yàn)結(jié)果對(duì)比證明了該算法的有效性。該研究有助于豐富評(píng)論挖掘領(lǐng)域的研究成果,且為后續(xù)研究奠定一定的基礎(chǔ)。
參考文獻(xiàn):
[1]Turney P D.Thumbs up or thumbs down?:semantic orientation applied to unsupervised classification of reviews[C].Meeting on Association for Computational Linguistics.2002.
[2]Bruno Ohana,Brendan Tierney,Sentiment Classification of Reviews Using SentiWordNet[C].9th.IT & T Conference,2009.
[3]黃仁,張衛(wèi).基于word2vec的互聯(lián)網(wǎng)商品評(píng)論情感傾向研究[J].計(jì)算機(jī)科學(xué),2016,43(s1):387-389.
[4]Pang B,Lee L,Vaithyanathan S.Thumbs up? Sentiment classification using machine learning techniques[C].Proceedings of ACL-02 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA,USA:Association for Computational Linguistics,2002:79-86.
[5]徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):96-100.
[6]Li S,Wang Z,Zhou G,et al.Semi-Supervised Learning for Imbalanced Sentiment Classification[J].Journal of the Royal Statistical Society,2008,172(2):530-530.
[7]王永,陶婭芝,張勤.中文網(wǎng)絡(luò)評(píng)論中的產(chǎn)品特征情感傾向提取算法研究[J].重慶郵電大學(xué)學(xué)報(bào)自然科學(xué)版,2017(1).
作者簡(jiǎn)介:陶婭芝(1991-),女,重慶人,碩士,研究方向:知識(shí)發(fā)現(xiàn)、評(píng)論挖掘。