殷淑娥,田 偉,王建芳
(蘭州商學院隴橋?qū)W院 工學系,甘肅 蘭州 730101)
據(jù)報告顯示,2012年中國網(wǎng)絡(luò)零售超過1.2萬億元人民幣,僅次于美國,成為世界第二大網(wǎng)購市場。值得注意的是,2003年到2011年的八年間,中國網(wǎng)絡(luò)零售市場以120%的年平均增長速度大大超越其他國家。由此可見電子商務將是未來的主要商業(yè)模式。但是由于我國電子商務起步較晚,發(fā)展又過快,很多問題沒有得到有效的解決,從而制約了電子商務的發(fā)展。如何有效的解決這些問題,讓電子商務健康快速的發(fā)展,成為了各商家關(guān)注的焦點。我們可以從消費者網(wǎng)上購物的最后一個環(huán)節(jié)購后評價入手,促進問題的解決。所謂的售后評價就是消費者購買商品后,會通過自己的親身體驗,對購買行為進行檢驗和反省,然后寫入到評語中。這就使得購后評價對其他消費者的購買動向有一定的參考價值。對于企業(yè)而言,要想提高企業(yè)的競爭力,最大限度地占領(lǐng)市場,就必須及時了解客戶的想法,滿足客戶的需求,及時改進自己的產(chǎn)品和服務,購后評價同時也為商家提供了一個及時了解消費者意見和建議的有效途徑。
購后評價的數(shù)量大,如果用人工來進行分選,難度和工作量可想而知,如果我們可以用計算機來自動實現(xiàn)分類功能,然后再根據(jù)實際需要,對其中的某一類評價通過人工來進行處理,這樣不僅能提高效率,而且可以降低工作量,當前一些電子商務網(wǎng)站已經(jīng)具有簡單處理售后評價的能力:1.按照用戶的選擇對評論進行分類。如圖1根據(jù)用戶的選擇,分成了好評,中評,差評和追加評論四類。2.根據(jù)用戶的評價進行分類,如圖2對用戶評價的相關(guān)關(guān)鍵詞進行了截取。這兩種方法雖然有一定的作用但不夠準確,有些人雖然選擇了好評,但是在實際的評論中卻表現(xiàn)出了一些不滿情緒,如圖3消費者在評價時雖然選擇了“好評”,但是在實際的評價中卻表現(xiàn)出了極大的不滿情緒,如果商家只是使用以上兩種方法對購后評價進行分析,勢必會影響結(jié)果,對問題的解決起不到很好的效果。因此,當前我們需要一種更為有效的方法,對每一條售后評價做出合理的分類,只有這樣才能真正幫助商家及時發(fā)現(xiàn)存在的問題,采取相應的措施,提高顧客忠誠度,產(chǎn)生更大的效益。
圖1 根據(jù)用戶選擇進行分類
圖2 根據(jù)用戶評價進行分類
圖3 用戶評價
將售后評價的內(nèi)容在網(wǎng)頁中提取出來以后,不論采用什么方法進行情感分析,都需要對評論內(nèi)容進行預處理,主要包括中文分詞和停用詞過濾。
中文分詞(Chinese Word Segmentation),又稱為切詞,是指把一漢字序列通過一定的方法切分成一個個有著單獨意義的詞條。它是中文文本挖掘的重點與難點。NLPIR漢語分詞系統(tǒng)(又名ICTCLAS2013),主要功能包括中文分詞;詞性標注;命名實體識別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提取,可以在分詞系統(tǒng)的官方網(wǎng)站(http://ictclas.nlpir.org/)下載到。由于使用方便,受到了很多專家學者的認可。如對圖4中的評論,用NLPIR漢語分詞系統(tǒng)進行分析,就可以得到圖5中的結(jié)果?;诟鞣矫娴木C合考慮,本文采用NLPIR進行中文分詞。
圖4 客戶評價
圖5 分詞結(jié)果
自然語言中的句子都是由名詞、動詞、形容詞、助詞、介詞、冠詞和連詞共同構(gòu)成。但是一篇文本的主要內(nèi)容信息是通過名詞、動詞等實詞體現(xiàn)出來的,虛詞和一些高頻詞對劃分類別沒有什么實際的作用。這些不能反映文本類別的詞語我們稱為停用詞。在選擇表示文本的特征詞條時,就必須把停用詞過濾掉。否則,不但會導致分類器難以區(qū)分文本的類別,還會增大分類系統(tǒng)的負荷。
本文首先利用NLPIR漢語分詞系統(tǒng)的詞性標注功能,盡量把售后評價文本中無意義詞條過濾掉,從而降低詞語的維數(shù);然后利用針對中文售后評價特點的停用詞表,過濾掉文本中的停用詞,最終完成售后評價文本的預處理。另外,還要把售后評價中經(jīng)常出現(xiàn)的一些網(wǎng)絡(luò)詞語及表情符號加到停用詞表。停用詞過濾流程如圖6:
圖6 停用詞過濾流程
支持向量機(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應用到函數(shù)擬合等其他機器學習問題中。支持向量機方法是建立在統(tǒng)計學習理論的VC維理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度,Accuracy)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力(或稱泛化能力)。
我們用一個二維空間里,僅有兩類樣本的分類問題舉例說明SVM的分類思想。如圖7所示
圖7 二維平面兩樣本示例
C1用○表示,C2用□表示,是要進行相互區(qū)分的兩種類別,它們在二維平面中的樣本如圖7所示。中間的那條直線就是分類函數(shù),通過它將兩類樣本徹底分開。一般來說,如果樣本能夠被一個線性函數(shù)完全正確的分開,我們就稱此數(shù)據(jù)是線性可分的,否則就是非線性可分的。在圖7中我們可以看到有多條直線存在于此二維平面之上,但是我們要找的直線,不但要能夠正確的將兩類樣本進行分割,還要使分類間隔達到最大。由于線性函數(shù)在一維平面中是一個點,在二維平面中是一條線,在三維平面中是一個面,依此類推,所以我們也把它稱為超平面。超平面是對兩類分類的劃分,那么對于大于兩類的多類文本如何來進行分類呢?那就需要對每個類都要構(gòu)造一個超平面,將這一個類與其余的類分開,有多少個類就構(gòu)造多少個超平面,最后測試的時候看哪個超平面最適合測試文本。
目前比較有效的SVM實現(xiàn)方法包括 Joachims的SVM-light系統(tǒng)、Platt的序列最小優(yōu)化算法(Sequential Minimal Optimization,SMO)和臺灣大學的LibSVM軟件包。
1.語料的準備。實驗采用數(shù)據(jù)集是從淘寶網(wǎng)上下載的1120個售后評價語料,內(nèi)容涵蓋五種產(chǎn)品類別,分別是兒童服裝、玩具、數(shù)碼產(chǎn)品、食品、圖書。抽取其中的856個文本作為訓練集,剩余264作為測試集。
2.文本預處理。采用文章中提到的文本預處理技術(shù),對上一步選用的語料進行中文分詞和停用詞過濾。
3.特征的選擇。首先選取文檔頻率(DF)、信息增益(IG)、互信息(MI)和 CHI統(tǒng)計四種方法按值降序排列后排在前面40%的特征項。通過改變 DF、IG、MI和 CHI四種方法的選取范圍來測試算法的可擴展性。
4.向量化表示。
5.用SVM分類器進行訓練和測試。
6.對實驗結(jié)果進行評估。
實驗采用數(shù)據(jù)集是從淘寶網(wǎng)上下載的1120個售后評價語料,內(nèi)容涵蓋五種產(chǎn)品類別,分別是兒童服裝、玩具、數(shù)碼產(chǎn)品、食品、圖書。數(shù)據(jù)集中的樣本情況如表1所示:
表1 樣本情況
文本情感分析評價沿用了文本主題分類的評價指標,即準確率(Precision)、召回率(Recall)、F均值。
1.準確率 =(正確識別的個體總數(shù) /識別出的個體總數(shù))×100%
2.召回率 =(正確識別的個體總數(shù) /測試集中存在的個體總數(shù))×100%
3.F值 =(準確率*2*召回率 /(正確率 +召回率))×100%(F值即為正確率和召回率的調(diào)和平均值)
最后利用SVM分類器進行訓練和測試得到情感分析結(jié)果如表2
表2 實驗結(jié)果
從表2中可以看到對數(shù)碼產(chǎn)品、食品、玩具和兒童服裝的數(shù)據(jù)集分析結(jié)果較好,其中,對兒童服裝的分析效果最好,高達89.62%,這主要是因為購買了兒童服裝的家長在購前都做了大量的調(diào)查,對衣服的質(zhì)量都已心中有數(shù),另外兒童服裝的好壞主要在衣料方面,所以比較直觀,因此評論的情感語義傾向比較明顯,而且字數(shù)少,相對較簡單,如“不錯,孩子很喜歡!”或“不錯”等。而對圖書的評論分析效果不甚理想,只有79.26%。通過觀察發(fā)現(xiàn)主要原因是因為圖書的評價一般都比較長,用戶除了對書的內(nèi)容進行評論外,還會與別的圖書進行比較,往往一段評價中有表揚也有批評,這使得分析精度較低。如圖8的評論,有褒義詞也有貶義詞,由于貶義詞較多就判斷成是負面評論了。但是,我們可以看出,用戶還是滿意的。因此,在今后的研究中,我們還需要對句子之間的關(guān)系做深入的分析。
圖8 購后評價
在本文中由于樣本選擇等原因,實驗還需要進一步的完善,但從中我們還是能看出Svm技術(shù)在電子商務售后評價情感傾向分析中具有一定的優(yōu)勢,通過分析,找到了存在的問題,在今后的研究中還需要對樣本的選擇,詞意的分析等方面進行加強。