董敏+王琨
摘 要:隨著Web3.0的迅速發(fā)展,人們無論在生活上還是工作中,對電子商務(wù)的依賴性都不斷的增強。因此用戶在電子商務(wù)平臺中對商品的選擇上,很大程度上依賴于該商品的用戶評價。對于商家來說,在投資產(chǎn)品時也依賴于用戶對該商品的評價等級,因此如何建立電子商務(wù)平臺中產(chǎn)品的用戶評價分析模型,為用戶和商家提供可靠的決策依據(jù)有著重要的作用。本文主要是基于語義分析的模型,采取VSM來得到用戶評價總體情感傾向。
關(guān)鍵詞:電子商務(wù);語義分析;情感分析;VSM
一、引言
對于電子商務(wù)平臺中產(chǎn)品的用戶等級分析,通常都是采用對本文情感分析技術(shù)要進行實現(xiàn)。文本的情感分析可以稱作為情感的傾向性計算,主要是對用戶的產(chǎn)品、服務(wù)、組織機構(gòu)和事件等進行實時性評價分析。當前對于文本的情感分析是一門較為新興的技術(shù)領(lǐng)域,其目的是利用機器人來對互聯(lián)網(wǎng)的文本信息進行采集后的數(shù)據(jù),通過情感分析來對用戶發(fā)表信息時的情感心態(tài)。在電子商務(wù)領(lǐng)域則是體現(xiàn)在對用戶關(guān)注的產(chǎn)品的情感等級的分析,從而對產(chǎn)品操作得到可信的據(jù)測性依據(jù)。
二、電子商務(wù)產(chǎn)品用戶評價情感分析現(xiàn)狀
本文的情感分析技術(shù)早在上世紀90年代就有許多研究人員開始進行初步的嘗試研究,并根據(jù)市場的實際需求建立起相關(guān)的產(chǎn)品和應(yīng)用。
哈爾濱工業(yè)大學(xué)對互聯(lián)網(wǎng)情感分析現(xiàn)狀和動態(tài)進行調(diào)研、挖掘和探究,提出現(xiàn)有的情感分析中存在的問題,通過對這些問題的闡述和探討,提出在情感分析領(lǐng)域未來的主要研究方向和目標。同濟大學(xué)也以新浪微博的平臺,對動車事故網(wǎng)友發(fā)表的微博和評論進行用戶情感分析,他們提出了微博中的六種情感類別,并據(jù)此建立了情感分析模型,研究微博文本的影響力和計算網(wǎng)友情感的技術(shù)和方法,對該事故之后的公共的情感進行了分析和探討。清華大學(xué)的謝麗星等多人研究了基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征提出的方法。他們通過SVM的監(jiān)督學(xué)習(xí)實驗,對主題的識別和文本的情感傾向分析取得了不錯的效果。
目前對于電子商務(wù)平臺的文本情感分析,還沒有出現(xiàn)較為系統(tǒng)的研究成果,不過根據(jù)市場的需要,也出現(xiàn)一些比價平臺,通過對多個主流電子商務(wù)平臺的各項數(shù)據(jù)采集,特別是對于價格、用戶評價,特別是對與好評和差評信息進行動態(tài)采集,形成一個多個電子商務(wù)平臺的價格對比,以引導(dǎo)用戶選擇高性價比的產(chǎn)品。比如,國內(nèi)的慢慢買、盒子比價網(wǎng)、瑯瑯比價網(wǎng)等,提供國內(nèi)外多個電子商務(wù)平臺的商品信息的價格和用戶評價的對比。
三、電子商務(wù)產(chǎn)品用戶評價分析算法研究
1.用戶評價信息的獲取
對于用戶評價信息的獲取,主要利用網(wǎng)絡(luò)爬蟲來進行采集。因此可以設(shè)計一個基于電子商務(wù)平臺的主題網(wǎng)絡(luò)爬蟲的設(shè)計。由于一般的電子商務(wù)平臺的商品評價頁面都是動態(tài)呈現(xiàn)的,因此如何解決對用戶評價的數(shù)據(jù)更新是設(shè)計該主題網(wǎng)絡(luò)爬蟲的技術(shù)關(guān)鍵。
對于動態(tài)網(wǎng)站的數(shù)據(jù)采集,可以建立索引空間,采用哈希表的形式將用戶評價信息建立動態(tài)索引,利用哈希查找算法,提高采集中查找的效率,從而實現(xiàn)對動態(tài)用戶評價信息的采集。
由于目前各類型電子商務(wù)平臺眾多,如果需要多全平臺的產(chǎn)品用戶評價信息進行采集,就需要較大的存儲空間和處理器,因此可以利用云計算平臺來建立云爬蟲,利用云計算的高計算、大存儲和高帶寬網(wǎng)絡(luò)的優(yōu)點實現(xiàn)大數(shù)據(jù)的用戶評價信息的采集,也為后續(xù)的情感分析提供龐大的數(shù)據(jù)集。
2.用戶評價信息的特征詞處理技術(shù)分析
特征詞的提出主要分為:文本切詞、文本去重和特征詞提取三個步驟。
文本切詞:將一段詞語獨立切分為多個獨立的詞語,這是文本特征詞處理的基礎(chǔ)技術(shù)。當前分詞算法有字符串匹配算法、基于理解的算法和基于自動學(xué)習(xí)的算法等。
字符串匹配算法是最為常見的算法之一,其特點是實現(xiàn)簡單,詞語的匹配精度性較高。可以建立和維護字符串庫,實現(xiàn)不斷的自我更新和自我學(xué)習(xí)。具體的匹配過程是,對文本進行逐一分解后,通過對出現(xiàn)在字符串中的本文塊,則匹配成功。為了提高匹配的準確性,可以使用正向最大匹配、逆向最大匹配和雙向最大匹配等方法。
文本去重:對于本文切詞后,會存在許多重復(fù)的詞語,這就需要進行對切詞后的重復(fù)短語進行去重處理。這里主要是研究使用布隆過濾器(Bloom Filter)來進行對文本的去重處理。布隆過濾器是上世紀70年代Howard Bloom提出來的一種二進制向量數(shù)據(jù)結(jié)構(gòu),它可以很好的利用空間和時間效率,來驗證一個元素在集合中是否重復(fù)出現(xiàn)。
Bloom Filter的去重原理是:位數(shù)組K個獨立HASH函數(shù)。將HASH函數(shù)對應(yīng)的值的位數(shù)組置1,查找時如果發(fā)現(xiàn)所有HASH函數(shù)對應(yīng)位都是1說明存在,很明顯這個過程并不保證查找的結(jié)果是100%正確的。同時也不支持刪除一個已經(jīng)插入的關(guān)鍵字,因為該關(guān)鍵字對應(yīng)的位會牽動到其他的關(guān)鍵字。所以一個簡單的改進就是counting Bloom filter,用一個counter數(shù)組代替位數(shù)組,就可以支持刪除了。
特征詞提?。何谋镜奶卣髟~提出主要是選取文本中的特征項,當前的提取方法比較多,最為常見的是文檔詞頻提取法,也稱作為DF。DF是指在整個文本詞語集中,包含了所指定的某個或多個特征項,其計算公式為:
在計算公式中,DF(t)是指所包含的特征項t的詞頻率,通過使用文檔詞頻提取法可以對每個特征項在整個文本出現(xiàn)的頻率進行統(tǒng)計,再根據(jù)設(shè)定的特征項設(shè)定的閾值,去掉一些小于閾值的特征項,進而從采集的文本中提取出所需的特征值。在電子商務(wù)平臺中的用戶評價信息,主要是對用戶評價信息分詞后,提取出用戶用于產(chǎn)品的評價特征項,對產(chǎn)品的優(yōu)良、好壞進行特征項的分析。
3.基于VSM技術(shù)的用戶評價信息的情感分析
對于電子商務(wù)平臺中用戶評價信息,經(jīng)過采集、切詞、特征值的提取和去重操作后,就剩下對處理后短語進行情感分析,也就是信息相似度的計算。對于目前來說信息相似度技術(shù)較為成熟的就是向量空間模型技術(shù)(VSM),該中技術(shù)就是把兩個文本短語簡化為向量運算,通過計算向量之間的相似度來衡量文本短語之間的相似度。
本文研究的電子商務(wù)平臺用戶評價研究的VSM情感分析過程如下:
(1)預(yù)處理,先對采集的用戶評價文本進行中英文切詞,并過濾所有停用詞。
(2)對用戶評價文本中的分詞短語的關(guān)鍵詞進行選擇與加權(quán),對用戶評價文本中若干個關(guān)鍵詞進行頻度的計算。
(3)通過把兩個處理后的短語建立向量空間模型、求出向量空間中的余弦值。對于建立向量空間模型的方法就是把短語簡化為關(guān)鍵詞的權(quán)重為分量的N維向量來進行表示。對于D1和D2兩個文本來說,要求的之間的相似度Sim(D1,D2),其余弦公式為:■,其中W1k和W2k分別表示D1和D2兩個短語第k(1<=k<=n)個關(guān)鍵字的權(quán)值。
(4)如果所求的兩個用戶評價文本的余弦值大于所設(shè)定的閾值,那么就說明這兩個短語是相似的,否則說明該個短語與評價信息并不相似。
經(jīng)過對所有切詞后的短語進行相似度計算后,得出的余弦值與事先設(shè)定好的閾值進行比較后,作為用戶評價情感傾向度分析的評價標準,通過把所有評價中的文本短語進行計算后,就可以判斷用戶評價對于商品的情感,也就可以作為對該商品的評價等級。對于設(shè)置的閾值可以在分析過程中,通過對詞語出現(xiàn)的頻度來不斷的進行調(diào)整,實現(xiàn)自我學(xué)習(xí)的能力,從而進一步的提高用戶評價情感傾向度分析的準確性。
四、總結(jié)
綜上所述,對于電子商務(wù)平臺的用戶評價信息的分析中,主要是采取了SVM方法進行分析,通過信息的采集、特征項的提取和情感的分析等來對產(chǎn)品的評價進行分析,為用戶和商家提供決策上的有效依據(jù)。但是由于目前電子商務(wù)平臺的迅速的發(fā)展,各類電子商務(wù)信息量巨大,如何提高對用戶評價的采集效率,切詞的合理性和對用戶評價信息情感分析的準確度方面,還需要進一步提高研究的深度和廣度。
因此下一步的研究方向是如何把本文研究的分析平臺和當前主流的云計算平臺相結(jié)合,依托云計算平臺的高計算能力、高可靠性和高存儲性等眾多優(yōu)點。進一步的提高分析平臺的工作效率和對用戶評價的情感傾向度的分析能力。
參考文獻:
[1]張冬雯,崔志超,許云峰.電子商務(wù)產(chǎn)品評論多級情感分析的研究構(gòu)架[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2013-09.
[2]楊彪.面向電子商務(wù)的評論文本情感分析研究[D].重慶交通大學(xué),2014-04.
[3]田金靈.B2C電子商務(wù)中情感因素與顧客滿意及購買行為的關(guān)系[J].湖南工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報,2013-08.
[4]嚴建援,張麗,張蕾.電子商務(wù)中在線評論內(nèi)容對評論有用性影響的實證研究[J].情報科學(xué),2012-05.
[5]游貴榮,吳為,錢沄濤.電子商務(wù)中垃圾評論檢測的特征提取方法[J].現(xiàn)代圖書情報技術(shù),2014-10.