魏 娟
(南京信息工程大學管理工程學院,江蘇 南京 210044)
隨著網上購物的普及和Web 2.0 的發(fā)展,購物平臺和社交網站產生了大量的用戶生成內容,這些海量內容包含了用戶心理和行為數據,以及對產品或服務的使用體驗。 大數據驅動的智能制造科學與方法體系正在形成,數據驅動的研究方法在效率和客觀性方面有其獨特的優(yōu)勢,對海量在線評論的智能分析引起了諸多領域研究人員的關注。 通過文本挖掘,提取用戶需求、用戶滿意度、情感傾向、評論生成意愿、產品設計改進思路等。 賈丹萍等以手機產品評論為例,結合感性工學理論和情感分析,有效地獲取用戶感性需求;在線評論中蘊含消費者對產品的關注點,馮坤等使用LDA 模型提取在線評論中的主題,以此作為顧客滿意度的影響因素;陸蔚華等從用戶在線評論數據中提取出用戶需求,將其與產品特征相對應,基于數據驅動的產品智能優(yōu)化設計方法,通過聚類算法和多目標遺傳算法來優(yōu)化產品設計。 通過情感分析可以計算用戶對產品屬性的關注度和滿意度,同樣可以挖掘出用戶不滿意的產品特征,楊程等基于評論大數據提出了產品設計改進方法。 因此,從海量評論數據中提取出用戶關心的產品特征和屬性顯得尤為重要。 本研究使用TextRank 算法提取出用戶關心的產品屬性,并根據專業(yè)領域的相關知識對產品屬性進行分類;采用基于情感詞典匹配的方法,獲取用戶在產品屬性層面的情感傾向,并對情感得分較低的評論內容再次分析,挖掘哪些因素導致了消費者的不滿意,為消費者購買決策和企業(yè)產品設計改進提供決策支持。
大多數B2C 電子商務網站的產品評論包括評論者、評論內容、會員星級以及評論時間等,使用Python 獲取相應產品的評論數據。 高質量數據是文本挖掘和數據分析的前提,因此,必須對數據進行預處理,包括數據清洗、文本去重、去停用詞、分詞以及詞性標注。 使用Python 對文本進行簡單的符號處理,對比兩行數據是否完全相同;引入停用詞字典,匹配評論內容中的停用詞進行刪除;數據清洗和去重之后,采用Jieba 分詞工具進行分詞和詞性標注。
產品屬性在評論中一般體現(xiàn)為名詞或名詞短語。 完全機器的產品屬性提取方法,只考慮詞頻等信息,可能會出現(xiàn)許多無意義的名詞或名詞短語,不能精確篩選出產品自身的屬性。 Jieba 分詞提取關鍵字有兩種方式——TF-IDF 算法和 TextRank 算法。 TF-IDF 算法是通過詞頻提取關鍵詞,缺陷是過濾的停用詞有限,而且需要人工處理標點符號和數字。 TextRank 算法是一種基于圖排序算法,來源于谷歌的PageRank 算法,利用局部詞匯之間的關系(共現(xiàn)窗口)對后續(xù)關鍵詞進行排序,直接從文本本身提取,TextRank 算法提取關鍵詞的步驟如圖1所示。
圖1 TextRank 提取關鍵詞的步驟
本文使用Jieba 分詞進行分詞和詞性標注,通過TextRank 算法進行詞頻統(tǒng)計,提取出名詞以及名詞短語集合,并計算權重,人工識別產品屬性并進行分類。
W
為1;②搜索句子,將情感詞典與句子中的詞語匹配,查找句子中出現(xiàn)的第一個情感詞,記錄對應的權值W
;③匹配否定詞詞典,搜索情感詞前出現(xiàn)的否定詞,假設否定詞的個數為n
,賦予否定權值為(-1);④搜索情感詞的程度副詞,匹配程度副詞詞典對應的權重W
;⑤按計算公式(1),計算情感得分并用score 記錄;⑥搜索下一個情感詞,重復以上步驟,進行求和運算,得到最終句子的情感分值。W
代表初始權重,W
代表程度副詞的權重值,W
代表情感值的權重值,n
代表否定詞的個數,k
代表句子中共有k
個情感詞。本研究通過八爪魚數據采集軟件,對京東商城筆記本電腦的商品評論數據進行簡易采集,選擇四款價格相近的筆記本電腦進行評論內容以及產品屬性的比較,筆記本電腦的型號及評論數分別為華碩飛行堡壘(990 條)、聯(lián)想拯救者 Y7000(1217 條)、惠普暗影精靈4(993 條)以及戴爾G3(991 條),采集的內容包括會員、評價星級、評論內容、評論時間等,并將其保存為.xlsx 文件。
數據預處理包括數據清洗、分詞和詞性標注。首先,清洗數據,處理噪聲數據、填補缺失值以及糾正數據中的不一致。 用Python 語言清洗數據中的標點符號,并進行文本去重,分別剩余798 條、991條、854 條和833 條評論內容。 其次,利用停用詞字典匹配的方法去除停用詞。 最后,使用Jieba 分詞工具,將商品評論數據導入Python 中,對數據進行分詞和詞性標注。
對預處理后的評論數據進行詞頻統(tǒng)計。 由于產品屬性往往是名詞或名詞短語,因此,統(tǒng)計評論數據中出現(xiàn)的所有名詞,并計算相應詞頻,得到部分名詞的權重排序,如表1 所示。
表1 名詞權重排序(部分)
對四款筆記本電腦分別提取權重排名前100 的名詞,對這些名詞進行人工識別。 同時依據筆記本電腦領域的專有名詞,篩選出產品屬性,并對這些屬性進行分類,結果如表2 所示。
表2 產品屬性分類
構建專業(yè)領域的情感詞典,計算四款筆記本電腦評論語句的情感得分。 對比發(fā)現(xiàn),大部分評論語句的情感得分在120 以下,因此,剔除離群點,以免歪曲大多數消費者的真實評論。 將情感得分的最高值設置為120,然后,計算出每款電腦的平均情感得分。 四款筆記本電腦的平均情感得分依次為:19.97073(惠普暗影精靈4)、15.73094(聯(lián)想拯救者Y7000)、13.70823(戴爾G3)和13.20322(華碩飛行堡壘)。 由此可以看出,消費者對惠普暗影精靈4 的情感得分要明顯高于另外三款,聯(lián)想拯救者Y7000排在第二位,略高于剩余兩款。 在同等價位下,消費者對惠普暗影精靈4 更為滿意。
將各款電腦的情感得分按降序排列,分別繪制出變化趨勢圖,如圖2 所示。
圖2 情感得分變化趨勢圖
從圖2 可以看出,情感得分變化趨勢在30 分左右從陡峭趨于平緩。 因此,為了深入對比四款產品情感得分的分布狀況,將分值劃分為30 分以上、20~30分、10~20 分、0~10 分以及 0 分以下,并繪制條形圖,如圖3 所示。 其中,條形圖中的數字代表四款產品評論的情感得分對應五個等級的數量,例如:148 表示聯(lián)想拯救者Y7000 相關評論的情感得分在30 分以上的評論數、138 表示該款產品評論的情感得分在20~30 分之間的數量,以此類推。
圖3 四款筆記本電腦情感得分對比圖
依據情感詞之和計算每一條評論的情感得分,其中,消極情感詞可能被積極情感詞所中和,再加上電商平臺會對差評進行過濾,因此,負向情感得分(0 分以下)的評論相對較少。 采用主觀劃分的方法,將評論劃分為兩大類:積極評論(10 分及以上)和消極評論(10 分以下)。 從圖3 可以看出,華碩飛行堡壘和戴爾G3 的情感得分分布較為一致, 10 分以下的評論占評論總數的45%;相對其他產品,聯(lián)想拯救者Y7000 的0 分以下的評論占比最大,且30分以上的評論占比也較高,消費者對該產品的評價不一致,好壞互現(xiàn);惠普暗影精靈4 的評論情感得分主要集中在10~30 分,且差評較少。 綜上所述,消費者對惠普暗影精靈4 的積極評價最多,認可度最高。
為了詳細對比四款產品的特征屬性,依據已構建的產品屬性類別表,繪制出各產品評論中提及這些屬性的評論數量對比圖,如圖4 所示。
圖4 各屬性的評論數量對比圖
從圖4 可以看出,消費者關注的產品屬性排序為:性能、質量和配置、服務、外觀、性價比和便攜性。①性能。 評論中提及次數最多的是筆記本電腦的性能,選擇的四款產品都是游戲本,消費群體主要集中在追求高性能的辦公族或游戲黨,運行速度、處理器、開機速度等性能指標是消費者最關注的屬性。②質量和配置。 性能、質量和配置會影響消費者的使用體驗,運行噪聲、做工質量、散熱情況、護眼屏幕設計、鍵盤鼠標等質量和配置也是消費者較為關心的產品屬性。 ③服務。 與線下實體店不同,線上購買無法體驗實物,遇到各種問題也難及時解決,所以物流、售后、客服態(tài)度等服務也是消費者關心的重要環(huán)節(jié)。 ④外觀設計。 在性能、質量和配置相差不大的情況下,外觀設計能吸引消費者的目光。 相對傳統(tǒng)游戲本,聯(lián)想拯救者Y7000 比較輕薄,惠普暗影精靈4 窄邊框設計出眾,華碩飛行堡壘的金屬拉絲處理形成視覺沖擊感。 ⑤性價比和便攜性。 本研究中性價比和便攜性是提及次數較少的兩類屬性,這與已有研究結果存在差異。 原因如下:首先,隨著消費水平的不斷提高,消費者不再過分追求性價比,而是更加關注筆記本電腦的性能、質量等產品屬性;其次,選擇的四款產品是游戲本,其主要特征是高性能、厚尺寸和大重量,游戲本一般是放置在家中,不需要外出攜帶,所以消費者對便攜性的關注相對較少。
可以依據各屬性的評論情感得分深入比較消費者對四款筆記本電腦的青睞程度,如圖5 所示。
圖5 各屬性的情感得分對比圖
從圖5 可以看出,除了便攜性,惠普暗影精靈4和聯(lián)想拯救者Y7000 全部領先其他兩款電腦;雖然惠普暗影精靈4 中的評論中提及性價比和服務的數量較少,但是這款產品在兩類屬性的情感得分表現(xiàn)尤其突出;聯(lián)想拯救者Y7000 在質量、性能、外觀、配置上領先其他產品,但存在部分極端評論(情感得分在0 分以下),導致聯(lián)想拯救者Y7000 的平均情感得分低于惠普暗影精靈4。
由評論中提及屬性的數量可知,消費者較為關注的是筆記本電腦的性能、配置和質量等屬性,在這幾個方面表現(xiàn)最好的是聯(lián)想拯救者Y7000。 但是,不同的消費者有不同的需求,追求性能、配置和質量的消費者可以考慮購入聯(lián)想拯救者Y7000,而追求性價比、售后服務的消費者可以考慮購入暗影精靈4,在便攜性上表現(xiàn)最好的是戴爾G3。 相對其他三款產品,華碩飛行堡壘的表現(xiàn)不是太突出。
筆記本電腦行業(yè)競爭日益激烈,生產廠商想在市場取得一席之地,必須時刻關注消費者的需求和意見。 綜上所述,消費者比較關注性能、質量和配置三類產品屬性。 因此,提取這三類屬性的評論內容,對其中的負面評價進行詳細分析,有助于給商家優(yōu)化產品提供些許建議。
為了保證產品屬性情感得分計算的準確性,本研究提取了包含產品屬性的評論分句,對產品特征詞及描述詞進行記錄和識別,從負面評論中篩選評論分句。 而負面評論也會包含正向情感詞,所以評論分句的產品屬性情感得分不能完全真實地反映產品的缺陷。 基于情感詞典匹配的方法運行速度慢,提取出的分句多,用來判斷哪些產品屬性需要改進不夠準確。 因此,這里采用Python 中的snowNLP 工具重新計算負面評論分句的情感得分,計算結果如表3 所示。 提取出分值小于0.5 的分句,然后篩選出特征詞,進行觀察和分析。 具體分析結果如下:①戴爾G3。 質量方面:風扇、溫度、噪聲和散熱等質量屬性提及較多,表現(xiàn)為“風扇聲音大”“溫度過高”和“散熱不好”等;性能方面:主要集中在開機、系統(tǒng)等幾個屬性詞的描述,主要是因為戴爾G3 預裝的win10 系統(tǒng),有一些用戶使用不習慣;配置方面:主要涉及鼠標、鍵盤等產品屬性,因為沒有贈送鼠標和電腦包,鍵盤沒有鍵盤燈。 ②華碩飛行堡壘。 質量方面:消極評論同樣集中在溫度、散熱這幾個屬性詞的描述上,主要為“散熱效果不好”“溫度過高”,但是相對戴爾G3,風扇聲音不大;性能方面:該款產品沒有發(fā)現(xiàn)過多問題,同樣是預裝的win10 系統(tǒng)使用感不佳。 ③惠普暗影精靈4。 存在游戲本共有的問題:散熱不好、運行時溫度過高。 ④聯(lián)想拯救者Y7000。 這款電腦沒有過多的短板,散熱、噪聲問題在負面評論中也沒有被過多提及。
表3 評論內容分句情感得分(部分)
通過挖掘負面評論中涉及的主要產品屬性,綜合消費者的需求和意見,生產廠商可以從以下方面對產品設計進行優(yōu)化:游戲本共有的問題是散熱不好、風扇聲音大以及運行溫度高,而這正是消費者較為關心的質量問題。 因此,建議生產廠商在提高筆記本性能的同時,對其散熱和風扇噪聲問題進行改進。
在線評論不僅反映了消費者的使用體驗,還隱含了他們對產品的期待與需求。 從產品在線評論中可以提取出用戶最為關心的產品屬性特征,計算產品屬性的情感得分,挖掘產品的優(yōu)缺點,一方面,可以根據消費者需求進行個性化推薦,另一方面,能夠給生產廠商提供產品設計優(yōu)化的建議。
本研究收集京東商城四款筆記本電腦的在線評論,利用TextRank 算法對文本中的名詞及名詞短語進行統(tǒng)計,挑選排名前100 的名詞,并參考相關專業(yè)知識,將筆記本電腦的產品屬性分為七類:質量、性能、配置、性價比、服務、便攜性以及外觀。 運用基于詞典匹配的方法和snowNLP 工具對評論內容和產品屬性進行情感分析,結論如下:
第一,平均情感得分從高到低依次為:惠普暗影精靈4>聯(lián)想拯救者Y7000>戴爾G3>華碩飛行堡壘。 遍歷評論內容,統(tǒng)計包含各類產品屬性的評論數量,挖掘出消費者關心的產品屬性分別為性能、質量和配置、服務、外觀、性價比和便攜性。
第二,根據消費者的不同需求進行個性化推薦,在對比的四款產品中,關注質量、性能和配置的,建議購買聯(lián)想拯救者Y7000;偏愛性價比和服務的,則建議購買惠普暗影精靈4;注重筆記本電腦的便攜性的,則推薦購買戴爾G3。
第三,通過識別負面評論中的產品屬性,發(fā)現(xiàn)游戲本普遍存在過分追求性能,而導致風扇聲音大、散熱效果不好的問題。 游戲本的消費群體不再過分關注性價比,因此,生產廠商在提高產品性能的同時,可以適當增加成本,用于優(yōu)化產品的散熱和降低噪聲。
本研究在實證分析過程中仍存在需要改進的地方,具體概括為:①每條評論的效用值不同,計算產品屬性的情感得分時應該考慮每條評論的效用值;②文本去重的方法不夠嚴謹,沒有完全過濾掉一些重復度較高而且無意義的評論;③每個分句可能涉及不止一個屬性,以分句的情感得分作為某個產品屬性評價值的方法不夠嚴謹。