馮 勇,韓曉龍,付陳平,王嶸冰,徐紅艷
(遼寧大學 信息學院,沈陽 110036)(*通信作者電子郵箱wrb@lnu.edu.cn)
隨著互聯(lián)網技術的高速發(fā)展與廣泛應用,電子商務已成為人們日常生活中不可或缺的商品交易模式。在影響商品銷售的諸多因素中,信任關系和品牌概念起到至關重要的作用。信任是構建用戶間伙伴關系的基石,口碑營銷、病毒營銷等新型營銷模式就是基于信任關系的銷售。品牌是商品的標志,企業(yè)通過關系營銷、數(shù)據(jù)庫營銷、整合營銷等營銷手段提升用戶對品牌的認可度,進而增強用戶黏度,促進商品銷售。這兩個關鍵因素的融合可以使用戶在種類繁多的電子商務環(huán)境中迅速找到合適的商品,提高用戶的購買效率。為此,本文從用戶信任和品牌認可兩個方面著手,對傳統(tǒng)個性化推薦方法進行改進,實現(xiàn)電子商務精準營銷。
近年來,眾多學者通過研究用戶信任關系與個性化商品推薦的關聯(lián),或是通過分析用戶評分信息來提高推薦的準確率,但卻忽視了商品自身最主要的品牌因素對推薦準確率的影響。李良等[1]將信任融合到協(xié)同過濾推薦方法中,提出將用戶評分信任和偏好信任結合,但該方法在計算信任時忽略了用戶間的交互關系。王海艷等[2]通過建立可信聯(lián)盟的方法來提高推薦服務的精確度,考慮了信任計算中的直接信任和間接信任;但并沒有充分考慮信任的非對稱性,結果偏離現(xiàn)實信任關系。在用戶評分上,Liu等[3]將用戶評分相似性和用戶評論進行綜合考慮,這種思想在一定程度上提高了推薦的準確率,卻增加了算法時間復雜度。McAuley等[4]利用hidden factors as topics將評分和評論信息相結合構建特征向量,但這并不能同時對商品和用戶兩個角度進行充分考慮。FPCA(Fixed Point Continuation with Approximate SVD)算法[5]和LmaFit算法[6]等通過補全用戶評分矩陣來提高推薦算法的準確度;但這些算法大多聚焦于用戶的評分信息,而忽視了用戶的評論、購買足跡等因素,這些因素能夠更細致地描述用戶的輪廓,對用戶的消費決策產生重要影響。
本文在改進推薦算法中用戶信任度計算方式的同時,引入了品牌認可度因素,將品牌認可度與用戶信任度融合,提出一種集成用戶信任度和品牌認可度的商品推薦方法(Commodity Recommendation Method Integrating User Trust and Brand recognition, TBCRMI)。該方法由品牌認可度、用戶活躍度和用戶信任度三個核心計算環(huán)節(jié)構成,其中:品牌認可度充分考慮了用戶購買商品時的品牌選擇行為;用戶活躍度分析了用戶的評價行為,突出活躍用戶;用戶信任度結合了現(xiàn)實世界中信任的雙向關系,定義了新的信任度計算方式。
為提升個性化商品推薦的成功率,促進電子商務的開展,本文結合商品營銷中的核心要素:信任關系和品牌理念,給出一種集成用戶信任度和品牌認可度的個性化商品推薦方法,其架構如圖1所示。架構圖的核心環(huán)節(jié)包括:品牌認可度計算、用戶活躍度計算和用戶信任度計算。
圖1 TBCRMI 方法架構Fig.1 Architecture of TBCRMI
設用戶集合U={u1,u2,…,un},品牌集合B={b1,b2,…,bm},根據(jù)用戶行為數(shù)據(jù)集和信息交互數(shù)據(jù)集,先分析用戶的商品購買記錄和評價行為記錄,計算得到用戶品牌認可度和活躍度,然后按品牌構建用戶向量。設存在bj∈B,ui∈U,用戶向量表示為:
ui(Bcoi, j,Uaci, j)
其中:Bcoi, j表示用戶ui對品牌bj的認可度;Uaci, j表示用戶ui在品牌bj上的活躍度。
在形成用戶信任關系環(huán)節(jié),采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法對用戶進行聚類,用戶間的距離計算使用歐氏距離。聚類算法如下。
輸入U為包含n個用戶的數(shù)據(jù)集;ε為半徑參數(shù);MinPts為鄰域密度閾值。
輸出 基于密度的用戶的集合C。
標記U中所有的用戶為unvisited;
do
{隨機選擇一個unvisited對象ui;
標記ui為visited;
ifui的ε-鄰域至少有MinPts個對象
{創(chuàng)建新簇C,并把ui添到C;
令N為uiε-鄰域中對象集合;
把它添加到N;
輸出C;}
Else標記ui為噪聲}
whileU中沒有標記為unvisited的對象
根據(jù)聚類結果,得到關于品牌bi的用戶關系矩陣URbi:
其中:數(shù)據(jù)元素dij是用戶i和用戶j間的距離。
在用戶信任度計算環(huán)節(jié),根據(jù)用戶間信息交流數(shù)據(jù),計算得到用戶信任關系矩陣T如下:
其中:數(shù)據(jù)元素Trij為用戶ui對用戶uj的信任度。
在面向目標用戶選取近鄰關系環(huán)節(jié),將用戶聚類矩陣與用戶信任矩陣融合。設用戶ui為目標用戶,在矩陣URbi中第i行表示用戶ui相對其他用戶的距離;同樣在矩陣T中第i行表示用戶ui對其他用戶的信任度。合并得到推薦用戶列表URn表示如下:
最后采用Top-K方法選取目標用戶的K個最近鄰,再依據(jù)目標用戶約束生成商品推薦列表。為了確定α和β的合理取值,本文針對不同的α、β取值進行多次實驗并計算相應的準確率P和召回率R。α、β的測試用例與計算結果如表1所示。從表1中可以看出當α=0.5,β=0.5時推薦效果最佳。
本文算法的時間復雜度主要取決于以下兩個過程:1)分析用戶行為數(shù)據(jù)與用戶交互數(shù)據(jù)過程中遍歷所有記錄的時間;2)對用戶進行聚類時使用的DBSCAN算法的時間復雜度。由于分析用戶品牌商品的購買記錄、用戶評價行為記錄和用戶交流信息的過程是并行執(zhí)行的,所以遍歷n個用戶的n條記錄所產生的時間復雜度為O(n2);而采用DBSCAN算法對用戶聚類時的基本時間復雜度是O(n×找出ε-鄰域中的用戶所需要的時間),n是用戶的個數(shù),在最壞情況下其時間復雜度是O(n2)。綜合以上分析,本文的時間復雜度為O(n2)。
表1 測試用例及結果Tab. 1 Test cases and results
本文所提出的集成用戶信任度和品牌認可度的個性化商品推薦方法包含三個核心環(huán)節(jié):品牌認可度計算、用戶活躍度計算和用戶信任度計算。
Halim[11]的研究發(fā)現(xiàn),一個能給消費者帶來深刻印象的品牌總能贏得消費者特別的注意力,超值的品牌更可能贏得消費者的認可。在現(xiàn)實生活中,如果用戶在體驗過某個品牌的商品后對其并不滿意,那么再向該用戶推薦這個品牌的其他商品時,用戶接受的可能性很小。因此,在個性化商品推薦中融合品牌認可度因素,可以提升推薦的準確性。
定義1 品牌認可度。是指相對一種品牌,用戶對其熟悉度和忠誠度的表達。假如在同類商品中用戶對某品牌的商品購買的次數(shù)明顯高于該品牌下所有用戶的平均購買次數(shù),且高于用戶自身對同類商品的平均購買次數(shù),那就說明該用戶對此品牌商品比較偏愛,有較高的認可度。
用戶的品牌認可度由式(1)計算得到:
(1)
高活躍度用戶對品牌商品的評論存在正、負兩面,正面評論可以增加品牌的影響力進而吸引更多用戶,而負面評論卻可以促進企業(yè)或商城對商品的持續(xù)改進。相對于普通用戶,高活躍度用戶瀏覽推薦商品的次數(shù)頻繁,在瀏覽過程中發(fā)現(xiàn)自己感興趣商品的概率隨之提高,從而提升了商品購買概率。
定義2 用戶活躍度。是指根據(jù)用戶對推薦列表中商品瀏覽次數(shù)和商品體驗評價情況而反映出的用戶在社會網絡中的活躍程度。
用戶活躍度采用式(2)計算得到:
(2)
使用式(2)可以對用戶在社交網絡中的綜合活躍度進行計算。當針對單一品牌商品進行推薦時,也可使用式(2)針對用戶對某一品牌商品的瀏覽量、評論次數(shù)和字數(shù)等,計算用戶在單一品牌上的用戶活躍度。
在日常生活,尤其是電子商務中,信任表現(xiàn)出越來越重要的作用,是開展商品交易、交換的基礎,成為電子商務網絡中用戶與用戶間溝通的橋梁。推薦系統(tǒng)中融入信任關系,在一定程度上解決了數(shù)據(jù)稀疏問題,提高了推薦的準確性。
定義3 用戶信任度。是指電商網絡中用戶之間通過直接、間接聯(lián)系表現(xiàn)出相對信任的程度,具有不對稱性、雙向性、傳遞性等特點?,F(xiàn)實生活中,信任是人與人之間的一種相互關系,是雙向且不對稱的,所以用圖論來描述社交網絡中用戶的信任關系恰到好處,因此在社交網絡中,用戶關系可用有向帶權圖G(U,E,X)表示。其中:U是網絡中的節(jié)點集合,表示所有的用戶;E是網絡中節(jié)點之間的有向邊,表示用戶間的交流關系,箭頭指向消息的接收方;X是節(jié)點間連線的權值,表示用戶之間單向信息交流的數(shù)量[12]。用戶間信息交流如圖2所示。
圖2 用戶間信息交流示意圖Fig.2 Schematic diagram of information exchange among users
因為用戶間的信息交流是雙向且不對稱的,所以在計算信任度時不僅考慮信任的雙向性,同時還要體現(xiàn)信任的不對稱性。以圖2中D節(jié)點為例,在計算D節(jié)點相對于其他節(jié)點的信任度時,要以D為中心向外擴散,選擇由D向外指的權值(D→H→I)。擴散范圍依據(jù)六度分離理論確定,對于因社交網絡不能覆蓋或缺少關鍵中間聯(lián)系人而造成的超出六度分離理論的用戶予以保留,但并不作為關系節(jié)點參與計算[12]。
用戶間信任度由式(3)計算:
(3)
其中:D是根節(jié)點;U表示與D有信任關系的其他節(jié)點;i表示由根節(jié)點D到目標節(jié)點n條路徑的第i條;j表示該條路徑中由根節(jié)點D到目標節(jié)點的m層中的第j層(層表示由根節(jié)點向外,所有直接聯(lián)系的節(jié)點為第一層,隔一個節(jié)點間接聯(lián)系的為第二層,以此類推);X(Sj-1,Sj)表示節(jié)點Sj-1與節(jié)點Sj之間的權值;Xj_total表示第j層與根節(jié)點D相關聯(lián)的節(jié)點的權值之和,圖2中用戶間節(jié)點的權值是信任度計算公式的核心參數(shù)。
為了驗證信任關系和品牌概念融合的方法對推薦算法的影響,本文選擇基于用戶的協(xié)同過濾算法(UserCF)[1]、融合用戶信任的協(xié)同過濾推薦算法 (SPTUserCF)[1]、合并用戶信任的協(xié)同過濾算法 (MTUserCF)[17]作為對比算法,采用準確率、召回率和F1值等指標與TBCRMI方法進行對比分析。
本文實驗用到的環(huán)境配置如下:操作系統(tǒng)Linux Ubuntu 14.04,CPU i5-4590 3.30 GHz,內存8 GB或以上,可用硬盤空間50 GB以上,給虛擬機分配24 GB空間。算法采用Java 語言編寫。
本文實驗處理的兩個數(shù)據(jù)集:Amazon Food(642 MB)和Unlocked Mobile phone(141 MB),由于數(shù)據(jù)量很大,為提高數(shù)據(jù)處理速度和實驗運行速度,實驗平臺采用Hadoop2.6.0完全分布式集群,共添加3個節(jié)點。
算法中的半徑參數(shù)ε根據(jù)用戶距離計算得出[19],本文為0.695,鄰域密度閾值MinPts取值為3[19]。
為驗證本文方法的有效性,將TBCRMI與其他推薦算法進行對比,實驗所用數(shù)據(jù)集為Amazon Food(簡稱數(shù)據(jù)集1)和Unlocked Mobile phone(簡稱數(shù)據(jù)集2)。兩個數(shù)據(jù)集均是下載于聚數(shù)力網站的公共數(shù)據(jù)集:Amazon Food是食品評論數(shù)據(jù)集,包括用戶、評論內容、評論食品、食品評分等9項共計50多萬條數(shù)據(jù);Unlocked Mobile phone是無鎖手機評論數(shù)據(jù)集,包括用戶、無鎖移動手機的價格、用戶評分、評論等8項共計40多萬條數(shù)據(jù)。具體使用的數(shù)據(jù)信息見表2,這兩個數(shù)據(jù)集的下載地址均為: http://www.dataju.cn/Dataju/web/dataDescriptionAndDataset。
表2 數(shù)據(jù)集信息表Tab. 2 Dataset information
本文所給的改進方法主要目的是提高推薦質量,所以在指標選擇上選取了準確率、召回率以及F1值等常用的推薦算法評價指標來進行對比分析。
1)準確率P。推薦列表中用戶喜歡的物品所占的比例,準確率計算如式(4)所示:
(4)
2)召回率R。測試集中有多少用戶喜歡的物品出現(xiàn)在推薦列表中,召回率計算如式(5)所示:
(5)
其中:Lu表示通過訓練集得出的推薦列表;Tu表示測試集上用戶的實際行為列表。
3)F1值。是信息檢索領域常用的一個評價標準,其計算公式為:
F1=2PR/(P+R)
(6)
圖3 Amazon Food數(shù)據(jù)集中不同K值的各指標對比Fig.3 Indexes comparison of different K on dataset Amazon Food
在選擇品牌效應進行推薦的情況下,推薦列表中商品的數(shù)目K會對推薦結果產生影響。將商品數(shù)目K作為變量,在兩種數(shù)據(jù)集中對多種品牌綜合推薦效果和單一品牌推薦效果進行多角度驗證。
3.3.1 多種品牌綜合推薦效果
在Top-K的推薦方法中,隨著商品推薦數(shù)目的不同會產生不同的推薦效果。將商品推薦數(shù)目K作為自變量,分析不同的推薦算法在相同的數(shù)據(jù)集下產生的推薦效率。
針對多種不同品牌商品向用戶進行綜合推薦時,TBCRMI方法和其他算法在準確率、召回率和F1值的對比結果如圖3所示。
圖3顯示的是在Amazon Food數(shù)據(jù)集下,針對不同數(shù)目的推薦商品所對應的準確率、召回率和F1。從圖3的實驗結果對比可以看出:TBCRMI擁有最高的推薦準確率,并且明顯高于其他方法。此外還可以看出隨著推薦商品數(shù)目的增加準確率會降低,在K值從1增加到10的過程中:SPTUserCF準確率下降46.43%,MTUserCF準確率下降50%,UserCF準確率下降53.57%,TBCRMI準確率下降41.56%,可以看出本文方法在準確率保持方面取得較好效果。當K=4時,TBCRMI的推薦準確率比對比算法中效果最好的SPTUserCF還要提升18.75%;召回率方面隨著推薦商品數(shù)目的增加而上升,K=4時,TBCRMI的召回率較SPTUserCF算法提升3.57%;在F1方面,K=4時,TBCRMI比SPTUserCF提升10.14%。
圖4顯示了在Unlocked Mobile phone數(shù)據(jù)集下,針對不同數(shù)目的商品進行推薦時的準確率、召回率和F1。從實驗結果可以看出TBCRMI的推薦效果最好,在準確率下降趨勢方面,SPTUserCF準確率下降46.62%,MTUserCF準確率下降39.94%,UserCF準確率下降40.81%,TBCRMI準確率下降30.36%,依然取得最好的效果。在此次實驗中,MTUserCF是所選擇的對比算法中效果最好的,但與本文提出的TBCRMI算法相比,在K=4時,TBCRMI的準確率比MTUserCF高29.86%,召回率比其高40.66%,F(xiàn)1值比其高36.45%。
圖4 Unlocked Mobile phone數(shù)據(jù)集中不同K值的各指標對比Fig.4 Indexes comparison of different K on dataset Unlocked Mobile phone
3.3.2 單一品牌推薦效果
圖5是在Amazon Food數(shù)據(jù)集下,針對用戶進行單一品牌商品推薦時的推薦準確率。從圖5可以看出:TBCRMI在準確率上取得了比較大的優(yōu)勢,當商品數(shù)目K=4時,三種品牌平均準確率分別較SPTUserCF、MTUserCF和UserCF提升了64.59%、69.9%和82.88%。
圖5 Amazon Food數(shù)據(jù)集中單一品牌不同算法準確率對比Fig.5 Accuracy comparison of different algorithms to single brand on dataset Amazon Food
圖6是在Unlocked Mobile phone數(shù)據(jù)集下,針對用戶進行單一品牌商品推薦時的推薦準確率。從圖6可以看出:TBCRMI在準確率上的優(yōu)勢依然很明顯,當商品數(shù)目K=4時,三種品牌平均準確率分別較SPTUserCF、MTUserCF和UserCF提升了52.23%、46.83%和63.85%。
圖6 Unlocked Mobile phone數(shù)據(jù)集中單一品牌不同算法準確率對比Fig.6 Accuracy comparison of different algorithms to single brand on dataset Unlocked Mobile phone
總體來看無論是多種品牌綜合推薦還是單一品牌推薦,TBCRMI都取得了比較突出的推薦效果,尤其是在單一品牌商品推薦方面,準確率有了較為明顯的提高。
本文在個性化商品推薦方法中引入了影響商品銷售的兩個關鍵因素:用戶信任度和品牌認可度,提出了一種集成用戶信任度和品牌認可度的商品推薦方法。該方法通過分析用戶歷史行為得到用戶品牌認可度和活躍度,并據(jù)此進行用戶聚類,融入用戶信任度得到近鄰關系進行推薦。所給方法充分利用了商品銷售中的品牌理念,并且通過對比實驗驗證了所給方法在商品推薦的準確率、召回率及F1值等多方面有所提升,尤其是在單一品牌商品推薦方面準確率提高明顯,效果顯著。