石 琳 徐瑞龍
(江蘇科技大學(xué)計(jì)算機(jī)學(xué)院 鎮(zhèn)江 212003)
隨著電子商務(wù)的發(fā)展,網(wǎng)上購(gòu)物已經(jīng)逐漸成為人們主要的消費(fèi)方式,隨之催生了大量物流產(chǎn)業(yè),而物流服務(wù)的好壞直接影響了客戶(hù)對(duì)網(wǎng)購(gòu)的滿(mǎn)意度。因此對(duì)物流評(píng)論數(shù)據(jù)進(jìn)行挖掘分析,不僅可以幫助商家更好地了解物流情況,選擇合適的合作廠家,還可以為物流業(yè)改進(jìn)服務(wù)提供參考。因此,對(duì)物流評(píng)論進(jìn)行情感分析具有重要的研究意義和實(shí)用價(jià)值。
目前用于文本情感分析的方法主要有:1)基于情感詞典的文本情感分析法;2)基于機(jī)器學(xué)習(xí)的文本情感分析方法?;谇楦性~典[1]的情感分類(lèi)方法是指提前建立好詞典,以情感詞典作為判斷情感傾向的依據(jù),通過(guò)計(jì)算得分判斷最終極性。但是情感詞典的質(zhì)量和覆蓋度直接影響其分類(lèi)結(jié)果,同時(shí)構(gòu)造情感詞典的和判斷規(guī)則又會(huì)耗費(fèi)大量的人力,所以推廣能力較差。然而,基于機(jī)器學(xué)習(xí)的分類(lèi)方法的性能主要取決于數(shù)據(jù)集的標(biāo)注質(zhì)量,但是數(shù)據(jù)的標(biāo)注需要投入大量的人工成本[2]。
隨著深度學(xué)習(xí)的興起,深度神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理領(lǐng)域也獲得了革命性的突破。在中文文本情感傾向方面,周詠梅等[3]提出了一種基于HowNet和SentiWordNet的漢語(yǔ)情感詞典構(gòu)建方法,將單詞的情感強(qiáng)度分解為多個(gè)語(yǔ)義單元,自動(dòng)計(jì)算出單詞的情感強(qiáng)度,并采用詞典校對(duì)技術(shù)優(yōu)化了單詞的情感強(qiáng)度值。陽(yáng)愛(ài)民等[4]根據(jù)Turney的思想,結(jié)合種子詞和其他詞語(yǔ)在搜索引擎中的回饋值,并通過(guò)計(jì)算詞語(yǔ)SO-PMI值,判斷詞語(yǔ)情感極性。楊力月等[5]在傳統(tǒng)情感詞典的基礎(chǔ)上通過(guò)優(yōu)化語(yǔ)氣詞權(quán)重計(jì)算方法和詞典的構(gòu)造方法,改進(jìn)了情感詞典中的微博情感詞典。首先利用開(kāi)源情感詞典、網(wǎng)絡(luò)情感詞典等構(gòu)造出基礎(chǔ)情感詞典,然后在此詞典的基礎(chǔ)上結(jié)合中文語(yǔ)法規(guī)則,利用句間和句型關(guān)系計(jì)算句子的情感傾向,以此提高微博文本情感分類(lèi)的準(zhǔn)確性。張成功等[6]提出了一種以極性詞典為基礎(chǔ)改進(jìn)的情感分析算法。主要做法是構(gòu)建一個(gè)相對(duì)完備、高效的詞典,其中包含了基礎(chǔ)情感詞典、領(lǐng)域詞典、修飾詞典和網(wǎng)格詞典等,把情感傾向詞和情感修飾詞放在一起構(gòu)建成極性短語(yǔ),利用構(gòu)建好的詞典進(jìn)行情感傾向分析。楊超等[7]基于現(xiàn)有的詞典,提出了一種新的情感詞典并開(kāi)發(fā)了一個(gè)自動(dòng)輿情分析系統(tǒng)。
2003年,Ducharme等[8]利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量來(lái)表示文本。詞向量不僅能夠有效地得到語(yǔ)義信息[9],而且還解決了數(shù)據(jù)稀疏性問(wèn)題。利用詞向量描述文本,并且結(jié)合深度學(xué)習(xí)模型如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等進(jìn)行分類(lèi)可以得到比傳統(tǒng)機(jī)器學(xué)習(xí)方法更好的效果。Sahar Sohan?gir[10]認(rèn)為大數(shù)據(jù)對(duì)于研究至關(guān)重要,而使用深度學(xué)習(xí)最大的優(yōu)勢(shì)就是分析大數(shù)據(jù),這也使得深度學(xué)習(xí)成為研究大數(shù)據(jù)的工具。深度學(xué)習(xí)可以提取其中隱藏的信息,所以該文通過(guò)應(yīng)用多種神經(jīng)網(wǎng)絡(luò)模型例如長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、Doc2vec和CNN模型對(duì)股票市場(chǎng)觀點(diǎn)進(jìn)行情感分析,結(jié)果表明深度學(xué)習(xí)方法可以有效地應(yīng)用于金融情感分析。Kim等[11]通過(guò)改進(jìn)的一維卷積神經(jīng)網(wǎng)絡(luò)得到句子的特征,并在進(jìn)行情感分析研究中,不斷調(diào)整參數(shù)和加入詞向量,在不同數(shù)據(jù)集上測(cè)試分類(lèi)性能。文獻(xiàn)[12]利用LSTM把評(píng)論語(yǔ)句轉(zhuǎn)化成詞語(yǔ)序列進(jìn)行情感分析。
論文利用Word2vec模型進(jìn)行詞向量轉(zhuǎn)換,結(jié)合物流關(guān)鍵詞庫(kù)進(jìn)行改進(jìn)TF-IDF優(yōu)化加權(quán),最后把加權(quán)后的詞向量輸入LSTM進(jìn)行訓(xùn)練,自動(dòng)提取評(píng)價(jià)中隱含的特征,完成對(duì)物流評(píng)價(jià)的準(zhǔn)確預(yù)測(cè)。
TF-IDF是一種加權(quán)技術(shù)。它主要采用一種統(tǒng)計(jì)的方法,根據(jù)關(guān)鍵的詞語(yǔ)在某個(gè)文檔中出現(xiàn)的頻率和在所有語(yǔ)料庫(kù)中出現(xiàn)的頻率來(lái)計(jì)算該詞語(yǔ)在整個(gè)語(yǔ)料中的重要程度。詞語(yǔ)的重要性會(huì)因?yàn)樵谖谋局谐霈F(xiàn)次數(shù)多而變高,同時(shí)也會(huì)因?yàn)樵谡麄€(gè)語(yǔ)料庫(kù)中出現(xiàn)次數(shù)過(guò)多而降低[13]。
TF意思是詞頻(Term Frequency),IDF意思是逆向文件頻率(Inverse Document Frequency)。所以在一篇文章中如果某個(gè)詞出現(xiàn)的頻率(TF)很高,并且在其他文章中(IDF)很少出現(xiàn),則說(shuō)明這個(gè)詞具有較好的類(lèi)別能力。[14]
計(jì)算公式:
Word2vec是Google在2013年開(kāi)源的一款將文本表示為數(shù)值向量的工具,主要的模型有CBOW和Skip-Gram兩種[15]。Word2vec通過(guò)訓(xùn)練,把一些文本內(nèi)容轉(zhuǎn)換為機(jī)器能夠理解地K維向量進(jìn)行空間向量運(yùn)算,而且向量空間上的相似度恰好可以表示文本語(yǔ)義上的相似度。[16]
本文采用的是Skip-Gram模型,Skip-Gram是依據(jù)已有的內(nèi)容來(lái)預(yù)測(cè)上下文的,本模型有輸入層、投影層、輸出層三層,如圖1所示。
圖1 Skip-Gram模型
Skip-Gram模型的訓(xùn)練目的就是如何讓式(2)中的值盡可能地變大:
式中,c>0表示的是窗口的大小,T是訓(xùn)練文本的大小。基本的Skip-gram模型計(jì)算條件概率如式(3)。
其中,vw和分別是詞w的輸入和輸出向量。
長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)是由RNN擴(kuò)展而來(lái),主要是在RNN中添加了一個(gè)可以判別信息是否有用的cell,通過(guò)設(shè)計(jì)其結(jié)構(gòu)來(lái)刪除或者增加信息。
LSTM實(shí)際上也是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),所以它也包含鏈狀結(jié)構(gòu)。然而與循環(huán)神經(jīng)網(wǎng)絡(luò)重復(fù)模塊不同的是,它包含四層神經(jīng)網(wǎng)絡(luò)層,每個(gè)網(wǎng)絡(luò)層之間用著特殊的方式相互作用,并不是單個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)層[17]。網(wǎng)絡(luò)示意圖如圖2所示。
圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)
首先,LSTM要確定我們從細(xì)胞狀態(tài)中拋棄什么信息。這個(gè)是由一個(gè)稱(chēng)為“遺忘門(mén)”的Sigmoid層控制的[18]。第一步是先獲取上一層輸出的ht-1和當(dāng)層的xt,使用Sigmoid函數(shù)計(jì)算得到一個(gè)0-1的數(shù)[19]。其中,0代表“完全舍棄”,1代表“完全保留”。其計(jì)算公式為
其中,代表的是Sigmoid函數(shù),wf代表的是遺忘門(mén)的權(quán)重,bf代表的是遺忘門(mén)的偏置。
輸入門(mén)主要是決定記憶單元中要存放哪些信息。它包括兩部分,第一部分是輸入門(mén)的Sigmoid層斷定需要變更的信息[20];第二部分是經(jīng)過(guò)Tanh層構(gòu)造一個(gè)新候選向量,計(jì)算公式如下:
其中,σ為Sigmoid函數(shù),wi表示的是更新門(mén)權(quán)重,bi表示的是更新門(mén)偏置,tanh雙曲正切函數(shù),wc更新候選值,bc更新候選值偏置,Ct候選值。
最終用舊狀態(tài)乘以ft,決定要丟掉的部分,和新的候選信息相加合成了細(xì)胞狀態(tài)的更新,計(jì)算公式如下:
其中,Ct表示新?tīng)顟B(tài)。最后,將該輸出結(jié)果與Sigmoid函數(shù)的輸出值做乘積處理,以此獲取最后的分類(lèi)結(jié)果。具體計(jì)算公式如下:
其中,wo更新輸出值的權(quán)重,bc更新輸出值偏置,ht最終確定輸出的那部分[21]。
由于傳統(tǒng)的TFIDF方法單純以“詞頻”衡量一個(gè)詞的重要性,不夠全面,有時(shí)重要的詞可能出現(xiàn)次數(shù)并不多。于是我們調(diào)整TFIDF對(duì)特征項(xiàng)的權(quán)重計(jì)算,結(jié)合物流關(guān)鍵詞庫(kù)進(jìn)行優(yōu)化權(quán)重計(jì)算。
首先,利用正則表達(dá)式進(jìn)行特征匹配,對(duì)于匹配的詞加入特征權(quán)值的計(jì)算。改進(jìn)后的計(jì)算公式如下:
其中,Wk是結(jié)合物流關(guān)鍵詞庫(kù)匹配到的關(guān)鍵詞的權(quán)重。
1)Word2vec詞向量庫(kù)的構(gòu)建
首先使用天貓某品牌服裝有關(guān)物流評(píng)價(jià)數(shù)據(jù)作為基礎(chǔ)語(yǔ)料進(jìn)行模型訓(xùn)練。其中包含了訓(xùn)練樣本和測(cè)試樣本,神經(jīng)網(wǎng)絡(luò)隱藏層的神經(jīng)元個(gè)數(shù)即詞向量維數(shù)設(shè)置為200,利用negative sampling負(fù)采樣提高訓(xùn)練速度改善詞向量的質(zhì)量。
2)文本的向量表示
上文通過(guò)Word2vec把分詞后的評(píng)論已經(jīng)變成低維的數(shù)值向量,這讓原本難以處理的高緯度高稀疏的數(shù)據(jù)變成容易讀取的矩陣數(shù)據(jù)表示。同時(shí)也節(jié)省了人工進(jìn)行特征選取的巨大工作量。但是因?yàn)閃ord2vec無(wú)法量化關(guān)鍵詞語(yǔ)對(duì)評(píng)論的重要性,所以我們采用改進(jìn)后的TF-IDF進(jìn)行權(quán)重計(jì)算。
3)物流評(píng)價(jià)模型的構(gòu)造
由于購(gòu)物評(píng)價(jià)大部分是短文本,并且文本中會(huì)有數(shù)字、語(yǔ)氣詞等,所以在進(jìn)行文本分類(lèi)前首先進(jìn)行文本預(yù)處理,去除一些沒(méi)有實(shí)際意義的詞語(yǔ)。然后將預(yù)處理后的文本作為輸入,通過(guò)Word2vec把文本轉(zhuǎn)換成詞向量,再通過(guò)改進(jìn)的TF-IDF將優(yōu)化權(quán)重,最后經(jīng)過(guò)LSTM網(wǎng)絡(luò)進(jìn)行分類(lèi)預(yù)測(cè)。具體流程如圖3所示。
圖3 物流模型構(gòu)造流程
論文實(shí)驗(yàn)環(huán)境為Windows10操作系統(tǒng),采用Python編程語(yǔ)言,利用Python中的Keras庫(kù)進(jìn)行搭建LSTM。實(shí)驗(yàn)中使用的硬件環(huán)境是聯(lián)想筆記本,具 體 配 置 為Intel(R)Core(TM)i5-6200U@2.30GHz,8G內(nèi)存。
論文研究實(shí)驗(yàn)軟件環(huán)境主要是基于Keras與Theano搭建的深度學(xué)習(xí)平臺(tái),具體實(shí)驗(yàn)參數(shù)如表1所示。
表1 實(shí)驗(yàn)參數(shù)
論文采用Word2vec將評(píng)論進(jìn)行詞向量訓(xùn)練,接著利用改進(jìn)的TF-IDF進(jìn)行加權(quán)優(yōu)化,最后通過(guò)LSTM進(jìn)行預(yù)測(cè)得到結(jié)果并和其他單個(gè)模型及結(jié)合進(jìn)行比較。
表2 不同模型實(shí)驗(yàn)結(jié)果對(duì)比
從表2中可以看出,對(duì)權(quán)值進(jìn)行優(yōu)化后的TF-IDF要比一般TF-IDF預(yù)測(cè)效果好。因?yàn)閃ord2vec無(wú)法量化權(quán)重,所以把TF-IDF與Word2vec結(jié)合進(jìn)行預(yù)測(cè),要比兩個(gè)模型獨(dú)立預(yù)測(cè)效果要好。LSTM作為深度神經(jīng)網(wǎng)絡(luò),通過(guò)Word2vec生成詞向量并且用TF-IDF量化權(quán)重最后利用LSTM進(jìn)行預(yù)測(cè),準(zhǔn)確度在原有的基礎(chǔ)上得到了6%的提高。
本文的工作是利用Word2vec表示了高維的詞向量,克服了傳統(tǒng)情感詞典方法的局限性。利用改進(jìn)的TF-IDF對(duì)物流好差評(píng)關(guān)鍵詞進(jìn)行了加權(quán)。和傳統(tǒng)的機(jī)器學(xué)習(xí)方法不同的是,基于LSTM模型可以不用人為的特征提取,減少了訓(xùn)練的時(shí)間。為商家對(duì)店鋪進(jìn)行及時(shí)的物流分析和改進(jìn)服務(wù)提供了有效的幫助。