蘇秀芝 左國(guó)才 張玨
摘要:隨著電子商務(wù)的迅猛發(fā)展,越來越多的人們喜歡在網(wǎng)上購(gòu)買商品,商品評(píng)論數(shù)據(jù)也急劇增加,這些評(píng)論中含有用戶對(duì)商品的情感傾向,海量的評(píng)論加重了人工管理。本文對(duì)商品評(píng)論內(nèi)容進(jìn)行情感分析,有效幫助商家了解消費(fèi)者對(duì)商品的認(rèn)可程度,從而提高商品與服務(wù)質(zhì)量。本文通過對(duì)Word2vec計(jì)算文本詞向量,最后應(yīng)用Keras 下的 LSTM對(duì)商品評(píng)論文本進(jìn)行情感分類,實(shí)驗(yàn)驗(yàn)證了該方法在互聯(lián)網(wǎng)商品評(píng)論中的有效性和準(zhǔn)確性,取得了較好的實(shí)驗(yàn)結(jié)果。
關(guān)鍵詞:Word2vec;情感分析;深度學(xué)習(xí)
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)02-0080-01
0 引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的人熱衷于在網(wǎng)上購(gòu)買商品。為了切實(shí)提高顧客滿意程度,電商提供客戶對(duì)購(gòu)買的商品進(jìn)行評(píng)價(jià)的窗口。分析顧客評(píng)價(jià)的情感傾向,一方面可以為潛在消費(fèi)者提供借鑒和參考,另一方面能幫助廠商和電家來不斷完善商品、提高服務(wù)。
1 相關(guān)工作
1.1 情感分析
目前,主要的情感分析研究方法分兩類。一類是基于情感詞典,另一類是基于機(jī)器學(xué)習(xí)。
詞典是文本情感分析的核心,通過構(gòu)造情感詞典、程度副詞詞典等來實(shí)現(xiàn)文本情感傾向分析。張成功[1]等提出構(gòu)建全面、高效的極性詞典進(jìn)行文本情感傾向性分析。楊立月[2]等提出構(gòu)建開源情感詞典、網(wǎng)絡(luò)情感詞典、微博情感詞典等。
基于機(jī)器學(xué)習(xí)的短文本情感分析方法是指選取情感詞作為特征詞,將文本向量化,利用logistic Regression,最大熵,樸素貝葉斯等方法進(jìn)行文本情感分析。隨著深度學(xué)習(xí)算法的廣泛應(yīng)用, 越來越多的研究者應(yīng)用深度學(xué)習(xí)進(jìn)行情感分析。金志剛等人[3]提出基于卷積神經(jīng)網(wǎng)絡(luò)的多維特征微博情感分析新機(jī)制,利用詞向量計(jì)算文本的語義特征,結(jié)合基于表情字符的情感特征,利用卷積神經(jīng)網(wǎng)絡(luò)挖掘特征集合與情感標(biāo)簽間的深層次關(guān)聯(lián),訓(xùn)練情感分類器。
1.2 Word2vec
Word2vec是詞向量計(jì)算的工具,采用的模型有CBOW和Skip-Gram兩種。CBOW采用給定上下文信息來預(yù)測(cè)一個(gè)詞的戰(zhàn)術(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò),數(shù)學(xué)表示為:
P(Wt|Wt-k,Wt-k-1,...,Wt+k+1,Wt+k)? ? ? ? ? ? ? ? ? ? (1)
Skip-grams采用給定一個(gè)詞來預(yù)測(cè)上下文的戰(zhàn)術(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。數(shù)學(xué)表示為:
P(Wt-k,Wt-k-1,...,Wt+k+1,Wt+k|Wt)? ? ? ? ? ? ? ? ? ? (2)
其中,Wt為語料詞典中的一個(gè)詞,k為窗口大小。
Skip-Gram語義準(zhǔn)確率比CBOW模型高,Skip-Gram模型計(jì)算復(fù)雜度高,模型訓(xùn)練耗時(shí)較長(zhǎng)。
2 實(shí)驗(yàn)
本實(shí)驗(yàn)中,數(shù)據(jù)集是網(wǎng)上下載的商品評(píng)論。該數(shù)據(jù)集擁有1000個(gè)短文本,每個(gè)短文本帶有一個(gè)人工標(biāo)注的標(biāo)簽。
實(shí)驗(yàn)步驟如下:
(1)應(yīng)用jieba對(duì)中文文本進(jìn)行分詞,去掉停用詞。
(2)利用pandas將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,比例為9:1。
(3)構(gòu)建并規(guī)范word2vec模型:
model=Word2Vec(sentences,size=300,window=8,min_count =1,sample=1e-3,workers=2)
(4)網(wǎng)絡(luò)構(gòu)建:
model = Sequential()
model.add(Embedding(voc_size, 128,input_length=MAX_ SENTENCE_LENGTH))
model.add(LSTM(64, dropout=0.25, recurrent_dropout=0.25))
model.add(Dense(1))
model.add(Activation("sigmoid"))
model.compile(loss="binary_crossentropy", optimizer= "adam",metrics=["accuracy"])
(5)網(wǎng)絡(luò)訓(xùn)練:
model.fit(dx_train,dy_train,batch_size=32,epochs=5,validation_data=(dx_test,dy_test))
網(wǎng)絡(luò)訓(xùn)練結(jié)果如表1所示。
由此可見,經(jīng)過5 個(gè)epoch后,在驗(yàn)證集上的正確率已經(jīng)達(dá)到了89%。
(6)網(wǎng)絡(luò)訓(xùn)練:
用已訓(xùn)練好的 LSTM 去預(yù)測(cè)已經(jīng)劃分好的測(cè)試集的數(shù)據(jù),正向極性準(zhǔn)確率為85%,負(fù)向極性準(zhǔn)確率為86%。
3 結(jié)語
本文通過對(duì)Word2vec計(jì)算文本詞向量,最后應(yīng)用Keras下的 LSTM對(duì)商品評(píng)論文本進(jìn)行情感分類,實(shí)驗(yàn)驗(yàn)證了該方法在互聯(lián)網(wǎng)商品評(píng)論中的有效性和準(zhǔn)確性。
參考文獻(xiàn)
[1] 張成功,劉培玉,朱振方,方明.一種基于極性詞典的情感分析方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2012(03):47-50.
[2] 楊立月,王移芝.微博情感分析的情感詞典構(gòu)造及分析方法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019(02):13-18.
[3] 李婷婷,姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計(jì)算機(jī)應(yīng)用研究,2015(04):978-981.
[4] 金志剛,胡博宏.張瑞基于深度學(xué)習(xí)的多維特征微博情感分析[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2018(5):1135-1140.
Research on Emotional Analysis of Short Text Based on Deep Learning Framework
SU Xiu-zhi,ZUO Guo-cai,ZHANG Jue
(Hunan Software Vocational Institute,Xiangtan Hunan? 411100)
Abstract:With the rapid development of e-commerce, more and more people like to buy goods on the Internet, and the data of commodity reviews have increased dramatically. These reviews contain users'emotional tendencies towards commodities, and a large number of comments have aggravated the manual management. This paper makes an emotional analysis of the content of commodity reviews to help businessmen effectively understand the degree of consumer recognition of commodities, thereby improving the quality of commodities and services. This paper calculates the text word vector by Word2vec, and finally uses LSTM under Keras to classify the emotion of the comment text. The experiment verifies the validity and accuracy of this method in Internet comment, and achieves good experimental results.
Key words:Word2vec;sentiment analysis;deep learning