高航,孫嘉恒,李霖,倪瑞
( 寧波財經(jīng)學(xué)院財富管理學(xué)院,浙江 寧波 315000)
消費者對商品的評價是其真實意愿的反饋,是成為電商平臺決策的重要參考依據(jù)。電商平臺可以根據(jù)用戶評論來進行建模來對產(chǎn)品和商家的推薦和合作以獲取超額利潤[1]。
文本情感分析指對情感文本進行的數(shù)據(jù)分析,挖掘其中蘊含的情感傾向,對情感態(tài)度進行劃分[2]。文本情感分析在輿論分析、用戶畫像和推薦系統(tǒng)中有很大的研究意義。文本情感分析的過程包括原始數(shù)據(jù)的獲取,數(shù)據(jù)的預(yù)處理、特征提取、分類器以及情感類別的輸出[3]。
基于情感詞典的方法,是指根據(jù)不同情感詞典所提供的情感詞的情感極性,來實現(xiàn)情感的極性劃分,該方法的一般首先是文本輸入, 接著載入詞典。如果詞語在情感詞典中,則根據(jù)不同類型的詞語和情感傾向,進行相應(yīng)權(quán)重的處理。褒義詞權(quán)重為正數(shù),貶義詞權(quán)重為負數(shù),否定詞權(quán)重取相反數(shù),程度副詞則與對應(yīng)的修飾詞相乘,最終匯總輸出的情感分[4]。
本文利用Python對亞馬遜平臺的吹風(fēng)機數(shù)據(jù)進行爬蟲,得到的數(shù)據(jù)量10207條,數(shù)據(jù)結(jié)構(gòu)包括商家和產(chǎn)品序列號、商品名稱、用戶評級、用戶具體評論。
為了更好的利用文件數(shù)據(jù)給的信息,本文將首先考慮是否能從評級的角度來篩選出商家和產(chǎn)品。在Stata中使用detail命令展示關(guān)于評級分布的更多細節(jié):
結(jié)論:從上述統(tǒng)計來看,用戶評級分布多集中在4-5之間,產(chǎn)品的區(qū)分程度不太顯著,且評級分布基本呈現(xiàn)左偏尖峰的性質(zhì),基本排除了單單從評級角度來選擇商家和產(chǎn)品不太可能,我們需要在評語中建立更加科學(xué)的數(shù)學(xué)模型。
表1 電商平臺的評價等級的細節(jié)
3.3.1 對產(chǎn)品和商家的數(shù)據(jù)預(yù)處理
一些信息只有個別幾個,少量的好評將會增大偶然性以影響模型的穩(wěn)健性,故本文將刪除所有數(shù)據(jù)量在100條以下的內(nèi)容。文本經(jīng)過粗預(yù)處理后剩余樣本5000余條,相比于原始數(shù)據(jù)的10207條則更加精簡。
3.3.2 對評論的預(yù)處理
把這些不經(jīng)過預(yù)處理的數(shù)據(jù)進行分析會增加很大工作量,甚至影響實驗結(jié)果的準(zhǔn)確性。首先需要對原始數(shù)據(jù)進行去重復(fù)和刪除無關(guān)信息等預(yù)處理。
為了使評論的數(shù)據(jù)防止被一般噪聲干擾,我們必須使用一種特殊的算法來提取關(guān)鍵字,使數(shù)據(jù)分析的效率增加。
3.4.1 TF-IDF算法中模型中的符號及其含義
ni,j詞條在文檔中出現(xiàn)的次數(shù),TFi,j詞條在文檔中出現(xiàn)的頻率,IDF表示逆文件率,IDF越大越有區(qū)分度,β表示經(jīng)驗常數(shù),這里取1。
相乘降序并排列:
在詞性中,名詞動詞可能更容易抓住文章的關(guān)鍵,詞語位置文本的標(biāo)題一般是其中心思想,末段可能是對全文的總結(jié),因此需要對其中的詞語增加權(quán)重。每段內(nèi)容的首句可能是文本的統(tǒng)領(lǐng),所以出現(xiàn)在每段第一句中詞語的權(quán)重也應(yīng)該適當(dāng)重視。詞語位置的權(quán)重設(shè)置如表下所示。
對詞性和出現(xiàn)位置進行設(shè)置:
表2 變量的標(biāo)識及其權(quán)重設(shè)置
一個詞的跨段情況表明它是描述部分還是整體[5]。段落越多,這個詞就越重要,也就越具有中心性。因此,全局關(guān)鍵才是目標(biāo)。然而,在普通的TFIDF算法中,由于其使用頻率高,局部關(guān)鍵字往往成為整個文檔的關(guān)鍵字,降低了關(guān)鍵字提取的準(zhǔn)確性,本文利用下式來衡量詞語的跨度權(quán)重以體現(xiàn)全局關(guān)鍵性:
最終使用多因素的TFI-IDF綜合分數(shù)如下:
表3 使用過TF-IDF算法的詞頻統(tǒng)計(示例)
表4 展示了最佳商家和產(chǎn)品(前5位)
本文首先根據(jù)評級的不同對評語進行分組,接著使用WordArt對不同分組的產(chǎn)品進行詞云可視化,可以明顯看出不同評級中不同的“重心”不同,例如評級比較低的產(chǎn)品其“DIFFICUT”會比較突出,積極評價中比較強調(diào)其功能效果如“DARYER”這樣的詞匯,中性評價則強調(diào)“USE”“ONE”等這樣與產(chǎn)品功能完全無關(guān)的東西。這種可視化的描述也說明了可以在評語上進行建模來選擇最優(yōu)的產(chǎn)品與商家。
圖1 對亞馬遜評論的消極、積極、中性詞云的可視化(示意)
步驟1:數(shù)據(jù)預(yù)處理并使用多因素TFIDF方法對評論提取關(guān)鍵字并查找關(guān)鍵字的情感值
步驟2:讀取評論數(shù)據(jù),對評論進行分詞形成向量詞組
步驟3:檢測句子并把詞語歸類,貶義詞為負,褒義詞為正
步驟4:在情感詞前查找程度副詞,強烈的系數(shù)大輕微的系數(shù)小
步驟5:在情感詞前查找否定詞,找完全否定詞,若數(shù)量為奇數(shù),乘以-l,若為偶數(shù),乘以1
步驟6:計算完一條評論所有分句的情感值并進行記錄,并將結(jié)果與步驟1的進行匯總得出結(jié)果并排序,計算情感值分數(shù)公式如下:
sentiscore表示情感值分數(shù),分數(shù)越高平臺最先推薦w表示極性指數(shù),用于衡量情感的強烈程度位于[0,1],k消極詞為-1,中性詞為0,積極詞為+1,ε表示為擾動項。
通過本文的模型分析可得編號為B0009XH6TG和47684938的商家和產(chǎn)品情感值最高,平臺在推薦商品時應(yīng)優(yōu)先選擇該商品以獲得更好的人氣。
本文采用簡單詞典方法能夠在字典范圍內(nèi)有效識別情感值,對于模型經(jīng)濟解釋也更加易理解。在提取關(guān)鍵字選擇了多因素的TF-IDF方法也極大的利用了數(shù)據(jù)的全部內(nèi)容。
電商上存在許多干擾信息,目前尚且沒有成型的過濾技術(shù)?;诓煌闹黝}, 如挖掘和金融方面,其語言規(guī)則,詞庫判斷標(biāo)準(zhǔn)都存在不同,需要對情感分析效果進一步提升。