王召義,雷麗麗(.安徽商貿(mào)職業(yè)技術(shù)學(xué)院經(jīng)濟貿(mào)易系;2.安徽省蕪湖市小洲中心小學(xué);3.安徽師范大學(xué)教育科學(xué)學(xué)院,安徽蕪湖24002)
基于改進RFM模型的協(xié)同過濾推薦算法研究
王召義1,雷麗麗2,3
(1.安徽商貿(mào)職業(yè)技術(shù)學(xué)院經(jīng)濟貿(mào)易系;2.安徽省蕪湖市小洲中心小學(xué);3.安徽師范大學(xué)教育科學(xué)學(xué)院,安徽蕪湖241002)
為了提高協(xié)同過濾推薦技術(shù)的服務(wù)效率和質(zhì)量,給出了一種基于改進RFM模型的協(xié)同過濾推薦算法。該算法把利潤引入RFM模型中,用利潤代替購買金額,形成RFP模型,利用RFP來完善基于RFM的相似性計算,充分體現(xiàn)用戶價值對推薦結(jié)果的影響。實驗表明,該算法在提升推薦結(jié)果的覆蓋率和準確率方面都有著較好的優(yōu)勢。
協(xié)同過濾;RFM;電子商務(wù);RFP
電子商務(wù)在為用戶提供越來越多的信息和選擇的同時,也會使用戶在大量的商品信息中迷茫,無法順利搜索到自己需要的商品,為解決這一矛盾,電子商務(wù)推薦系統(tǒng)應(yīng)運而生[1]?;赗FM模型的協(xié)同過濾推薦系統(tǒng)主要是以用戶交易記錄中的R、F、M三個指標值為數(shù)據(jù)輸入源,進行智能推薦。RFM模型是通過一個用戶的近期購買行為、購買的總體頻率以及花了多少錢三項指標來描述該客戶的價值狀況,動態(tài)地展示了一個客戶的全部輪廓,為個性化服務(wù)提供了依據(jù)。其中,R(Re?cency,R)表示用戶在給定的時段內(nèi)多久前最后一次購買某商品;F(Frequency,F(xiàn))表示用戶在給定的時段內(nèi)總共購買某商品多少次;M(Monetary,M)表示用戶在給定的時段內(nèi)共花費多少金額購買某商品[2]。眾所周知,企業(yè)追求的是利潤最大化,關(guān)心的是客戶價值,而這種推薦系統(tǒng)卻沒有考慮到這些因素。因此,提出把利潤(Profit,P)引入到RFM模型中,以利潤代替購買金額,把用戶價值體現(xiàn)出來,有利于提高推薦準確率。
2.1協(xié)同過濾
協(xié)同過濾(Collaborative Filtering recommenda?tion,CF)推薦技術(shù)首先分析用戶興趣,其次計算用戶相似度及建立目標用戶的最近鄰居社區(qū),最后根據(jù)最近鄰居社區(qū)對某項目的評價,預(yù)測目標用戶對該項目的評價,從而判斷是否需要對目標用戶進行推薦[3]。它基于這樣的假設(shè):如果用戶對一些項目具有相近的評價結(jié)果,那么他們對其他項目的評價結(jié)果也必然是相近的[4]。
定義1已知數(shù)據(jù)源D=(U,I,R),其中U= (U1,U2,U3,…,Um)是用戶集合,I=(I1,I2,I3,…,In)是項目集合,R是用戶對項目的評分矩陣。那么,Rij表示用戶i對項目j的評分值。其中i=1,2,3,…,m、j=1,2,3,…,n。
定義2關(guān)于相似度的計算,現(xiàn)有的幾種基本方法:Pearson相關(guān)系數(shù)、Cosine相似度、Tanimoto系數(shù)等都是基于向量的,其實也就是計算兩個向量的距離,距離越近相似度越大。研究中選用Pear?son相關(guān)系數(shù)計算相似度,則用戶i和j之間的相似性sim(i,j)計算公式為:
其中,Ric表示用戶i對項目s的評分,Rjc表示用戶j對項目s的評分,-Ri和-Rj表示用戶i和j對所有項目的平均評分,H表示用戶i和j共同評分過的項目集合。
定義3設(shè)目標用戶u,對于?i∈U,將sim(u,i)最大的top-L位用戶i組成集合N,則稱集合N為目標用戶u的最近鄰居社區(qū)。
定義4如果集合N是目標用戶u的最近鄰居社區(qū),則目標用戶u對項目j的預(yù)測評分Puj為:
2.2基于RFM模型的協(xié)同過濾推薦算法
用戶對商品的評價信息是衡量用戶偏好的主要指標,也是協(xié)同過濾推薦的核心思想,具有一定的主觀性。然而,RFM模型中的三個指標(R、F、M)恰恰反映了用戶對商品的偏好,且RFM模型的各個指標值可以從電子商務(wù)網(wǎng)站歷史交易數(shù)據(jù)庫中獲取,所以RFM模型與協(xié)同過濾推薦便有了結(jié)合點——以RFM綜合值作為協(xié)同過濾的數(shù)據(jù)輸入。基于RFM模型的協(xié)同過濾推薦算法處理過程如圖1所示。
定義5設(shè)I為RFM綜合值,Ii,c和Ii,c表示用戶i和j購買商品c時生成的RFM綜合值,和分別表示用戶i和j在各自所有已購買的商品項上的平均加權(quán)RFM綜合值,H表示用戶i和j共同評分過的商品項目集合。依據(jù)定義2,用戶i和j基于RFM綜合值的相似性sim(i,j)計算公式為:
根據(jù)定義3和定義4,計算出最近鄰社區(qū)和預(yù)測目標客戶對未購買商品的偏好程度,并排列得到商品集合推薦給目標客戶。
2.3 RFP模型
基于RFM的CF算法,在推薦過程中可能會遇到這樣的情況:若是企業(yè)擁有若干個購買金額相差不多的用戶,但利潤卻相差很大,RFM模型就無法精準分辨誰才是企業(yè)的重要用戶;若是企業(yè)擁有若干個購買金額差別較大的用戶,但購買金額大的客戶利潤小于購買金額小的客戶利潤,RFM模型可能會造成錯誤的推薦結(jié)果[5]。而企業(yè)只愿為高價值用戶付出較多推薦成本,不愿為低價值用戶付出過多推薦成本。一言蔽之,企業(yè)追求的是利潤,不是純粹的高銷售額,所以在RFM模型中不應(yīng)該忽略利潤這一關(guān)鍵因素。
因此,建立RFP模型,關(guān)鍵是如何表達利潤P。在電子商務(wù)企業(yè)中,常以利潤率(Profit rate,Pr)的高低來判斷某商品是否具有推薦的意義。
定義6已知購買總金額M,商品利潤率Pr,則用戶給企業(yè)創(chuàng)造的利潤P為:P=M?Pr。
定義7 RFP模型包括R、F、P三個指標:R(Re?cency,R)表示用戶在給定的時段內(nèi)多久前最后一次購買某商品;F(Frequency,F(xiàn))表示用戶在給定的時段內(nèi)總共購買某商品多少次;P(Profit,P)表示用戶在給定的時段內(nèi)購買某商品給企業(yè)帶來的利潤。
綜上所述,基于RFP的CF算法研究基于以下假設(shè):1)最近有購買行為的用戶比最近沒有購買行為的用戶再次購買的幾率要高;2)購買頻率較高的用戶比購買頻率較低的用戶再次購買的幾率要高;3)創(chuàng)造利潤較高的用戶比創(chuàng)造利潤較低的用戶再次購買的幾率要高[6]。
3.1用戶購買偏好挖掘
設(shè)Prij為Pr矩陣中的元素。Prij表示用戶i購買商品j的利潤率,Prij值由企業(yè)根據(jù)成本進行確定。一般模式下有Pr1j=Pr2j=…=Prmj,即某一商品的利潤率是不變的。利潤率Pr矩陣如式(1)所示。
設(shè)Mij為M矩陣中的元素,Mij表示用戶i購買商品j所花費的金額,Mij值可以從用戶交易數(shù)據(jù)庫中直接獲得。購買金額M矩陣如式(2)所示。
設(shè)Pij為P矩陣中的元素,Pij表示用戶i購買商品j為企業(yè)創(chuàng)造的利潤。由定義6可知,對式(1)Pr矩陣和式(2)M矩陣進行點乘操作,即Pij=Prij?Mij,可以得到利潤P矩陣如式(3)所示。
對用戶交易記錄進行簡單統(tǒng)計即可獲取R、F、M值,但在計算用戶對商品的偏好程度時,需要對各類數(shù)據(jù)進行規(guī)范化處理,以保障計算得到的總體偏好更加精確,此處采用極差正規(guī)比變換方法進行數(shù)據(jù)規(guī)范化處理[7]。
對于收益性指標F、M和P,因其是正向影響,所以分別采用式(4)、式(5)和式(6)進行規(guī)范化處理。對于成本性指標R,因其是負向影響,所以采用式(7)進行規(guī)范化處理。
其中,F(xiàn)、M、R、P是原始值,F(xiàn)min、Mmin、Rmin、Pmin是原始值中的最小值,F(xiàn)max、Mmax、Rmax、Pmax是原始值中的最大值,F(xiàn)′、M′、R′、P′是預(yù)處理以后的值。
為了方便數(shù)據(jù)處理和數(shù)據(jù)減噪,對F′、R′、P′值進行加權(quán)求和操作,得到的綜合值記為Z,計算公式為:
其中:Zij表示用戶i對商品j的綜合值;R′ij,F(xiàn)′ij,P′ij分別表示用戶i對商品j的RFP值;Wf,Wp,Wr分別是RFP指標的權(quán)重系數(shù)。設(shè)定權(quán)重的方法一般是通過專家打分,之后用層次分析法計算出每個指標的權(quán)重,即Wf+Wp+Wr=1。
由定義1,可以建立用戶-商品項的Z矩陣,如式(9)所示。
3.2最近鄰居社區(qū)形成
協(xié)同過濾推薦技術(shù)的關(guān)鍵在于建立目標用戶的最近鄰居社區(qū),而建立最近鄰居社區(qū)的基礎(chǔ)是計算用戶之間的相似性[8-10]。
由定義5,設(shè)H是用戶Ci和Cj共同購買過的商品集合,則sim(Ci,Cj)的計算式為:
其中:Zci,s和Zcj,s分別表示用戶Ci和Cj對商品項s的綜合值;ci和cj分別表示用戶Ci和Cj對全部商品項的綜合值的平均值。
由定義3可知,對于目標用戶C,將sim(Ci,Cj)值由大到小排列的top-k位鄰居組成集合N={N1,N2,N3,…,Nk},即目標用戶C與用戶N1最相似,與N2相似度其次,依此類推,則稱集合N為目標用戶C的最近鄰居社區(qū)。
3.3智能推薦
智能推薦的主要工作是依據(jù)集合N向目標用戶C進行商品的自動化推薦[11,12]。依據(jù)定義4,設(shè)目標用戶為C,a是集合N中的元素,則目標用戶C對商品j的綜合指標的預(yù)測值PC,j可以通過集合N中各用戶的商品項綜合值得到,其計算式為:
把計算出的PC,j值進行降序操作,把前top-L位的商品推薦給目標用戶C。至此,基于RFP的CF算法的推薦工作結(jié)束。
4.1實驗數(shù)據(jù)
本實驗實證數(shù)據(jù)選自安徽省蕪湖市某從事堅果銷售的電子商務(wù)企業(yè)的用戶交易數(shù)據(jù)庫。主要用到的數(shù)據(jù)表為sales(商品交易數(shù)據(jù))、customer(用戶信息表)、produc(t商品信息表)、time(2014年2月至2014年6月商品銷售時間信息表),其中包含578名用戶在2014年2月至2014年6月期間購買60種商品的交易記錄86735條。根據(jù)以上數(shù)據(jù)統(tǒng)計出每位客戶的R、F、M值,依據(jù)利潤率計算出利潤。全部數(shù)據(jù)劃分為練習(xí)集和測試集,其中練習(xí)集為2014年2月至2014年4月的有效記錄64951條,約占75%,測試集為2014年5月和6月的有效記錄21784條,約占25%,即閥值r=0.75。
注:實驗選用的交易記錄均為有效交易,Pr值是電子商務(wù)企業(yè)提供的真實數(shù)據(jù),根據(jù)企業(yè)要求,不對外公開Pr值。
4.2度量標準
零售行業(yè)的商品一般分為兩類:用戶在購買時感興趣的商品和不感興趣的商品,而企業(yè)所使用的推薦方法可能向用戶推薦了他感興趣或者不感興趣的商品。因此,本文使用Mobasher給出的評價測度:包括覆蓋率(C)、準確率(P)以及F-測度(Fm)3個指標作為度量標準,設(shè)滿足推薦條件的產(chǎn)品集為A,用戶實際購買的產(chǎn)品數(shù)集D,正確推薦給用戶的產(chǎn)品數(shù)集B,且有B=A?D[13,14]。則有如下公式(12)-(14)。
根據(jù)式(12)(13),若要提高覆蓋率C,D不變時,A就要變大,而A變大會導(dǎo)致A?D也隨著變大,但是A的增幅要遠遠大于A?D的增幅,因此準確率P反而降低。因此,為了更好地評價推薦質(zhì)量,用Fm來綜合這兩個指標,一般而言,具有較好的Fm(即C和P都較好)的模型推薦質(zhì)量較好[15]。
4.3實驗結(jié)果及分析
實驗1:常見CF算法對比實驗
在以上實驗數(shù)據(jù)和度量標準的前提下,以基于RFM的CF算法和binary的RS model[16]為參照進行對比實驗。
令top-L的值分別為3,5,10,15,20,25,30等,觀察Fm值變化情況。表1為實驗過程計算得到的Fm值,圖2為三種推薦算法性能比較。
表1 三種推薦算法的Fm比較
通過表1和圖2可以看出,當r=0.75不變、top-L值逐漸變大時,基于RFP的CF算法的Fm值較好,但隨著推薦產(chǎn)品數(shù)量的增加,RS Model與RFP的Fm值逐漸接近,證明以利潤替代購買金額可以提高協(xié)同過濾推薦的滿意度和效率。由于企業(yè)的定價方式多為基于成本的定價方式,這樣企業(yè)更容易預(yù)估商品的利潤率,因此基于RFP的CF算法可以在電子商務(wù)銷售企業(yè)推廣應(yīng)用[17]。
實驗2:不同權(quán)重下基于RFP的CF算法對比實驗
RFP指標的權(quán)重需要對該電子商務(wù)公司相關(guān)人員進行調(diào)研,調(diào)查對象包括:總經(jīng)理3人,業(yè)務(wù)經(jīng)理3人,店長6人,前臺操作人員9人,客戶6人,共計27人,調(diào)查對象平均分為三組(A組、B組和C組),每組9人。用層次分析法對收集的數(shù)據(jù)進行計算,A組計算結(jié)果為Wf=0.255,Wp=0.509,Wr= 0.236;B組計算結(jié)果為Wf=0.355,Wp=0.413,Wr= 0.232;C組計算結(jié)果為Wf=0.405,Wp=0.375,Wr= 0.220。表2為實驗過程計算得到的Fm值,圖3為不同權(quán)重下基于RFP的CF算法性能比較。
表2 不同權(quán)重下的Fm比較
通過表2和圖3可以看出,A組的結(jié)果優(yōu)于B組的結(jié)果,B組的結(jié)果優(yōu)于C組的結(jié)果,證明在top-L值較小的情況下,權(quán)重Wp對推薦效果有著積極影響,但隨著top-L值的增大,三組的Fm值逐漸接近,即隨著推薦商品的增多,權(quán)重對推薦效果的影響逐漸變小。
電子商務(wù)企業(yè)在提供推薦服務(wù)時,不僅要考慮用戶的消費特點,也要考慮客戶價值在CF中的體現(xiàn)。正如以上所述,把利潤引入到傳統(tǒng)的RFM模型中,以利潤替代購買金額,更符合企業(yè)目標要求,也讓推薦結(jié)果更加符合實際情況,以RFP模型來修正基于RFM的CF算法具有一定的借鑒作用。
[1]劉平峰,聶規(guī)劃,陳冬林.電子商務(wù)推薦系統(tǒng)研究綜述[J].情報雜志,2007,26(9):46-50.
[2]趙曉煜,黃小原,曹忠鵬.基于顧客交易數(shù)據(jù)的協(xié)同過濾推薦方法[J].東北大學(xué)學(xué)報:自然科學(xué)版,2009(12):1792-1795.
[3]陳敏.個性化推薦系統(tǒng)研究[D].南京:南京郵電大學(xué),2012.
[4]Sarwar B,Karypis G,Konstan J,et al.Item-based collabora?tive filtering recommendation algorithms[C]//Proceeding of the10th International World Wide Web Conference.NewYork: ACM Press,2001:285-295.
[5]徐翔斌,王佳強,涂歡,等.基于改進RFM模型的電子商務(wù)客戶細分[J].計算機應(yīng)用,2012,32(5):1439-1442.
[6]趙曉煜,黃小原,孫福權(quán).基于RFM分析的促銷組合策略優(yōu)化模型[J].中國管理科學(xué),2005,13(1):60-64.
[7]趙曉煜,丁延玲.基于顧客交易數(shù)據(jù)的電子商務(wù)推薦方法研究[J].現(xiàn)代管理科學(xué),2006(3):93-94.
[8]郭偉光,章蕾.基于用戶模式聚類的協(xié)同過濾個性化推薦方法[J].情報雜志,2011,30(2):160-163.
[9]賀桂和.基于用戶偏好挖掘的電子商務(wù)協(xié)同過濾推薦算法研究[J].情報科學(xué),2013(12):38-42.
[10]王召義.基于電子商務(wù)網(wǎng)站的推薦服務(wù)使用接受研究[J].安徽商貿(mào)職業(yè)技術(shù)學(xué)院學(xué)報:社會科學(xué)版,2014(2):37-40.
[11]榮輝桂,火生旭,胡春華,等.基于用戶相似度的協(xié)同過濾推薦算法[J].通信學(xué)報,2014(2):16-24.
[12]Resnick P,Varian H R.Special issue of recomm ender sys?tems[J].Communications of the ACM,1997,40(3):56-58.
[13]MOBASHER B,DAI H,LUO T,et al.Discovery and evalu?ation of aggregate usage profiles for web personalization[J].Da?ta Mining and Knowledge Discovery,2002,6(1):61-82.
[14]鮑玉斌,王大玲,于戈.關(guān)聯(lián)規(guī)則和聚類分析在個性化推薦中的應(yīng)用[J].東北大學(xué)學(xué)報:自然科學(xué)版,2003,24(12):1149-1152.
[15]孫玲芳,張婧.基于RFM模型和協(xié)同過濾的電子商務(wù)推薦機制[J].江蘇科技大學(xué)學(xué)報:自然科學(xué)版,2010,24(3):285-289.
[16]KOREN Y,SILL J.OrdRec:an ordinal model for predict?ing personalized item rating distributions[C]//Proc.5th ACM Conference on Recommender Systems:acm press,2011:117-124.
[17]PHILLIPS R L.定價與收益優(yōu)化[M].北京:中國財政經(jīng)濟出版社,2008.
(責(zé)任編輯:趙建周)
Collaborative Filtering Recommendation Algorithm Based on Improved RFM Model
WANG Zhao-yi1,LEI Li-li2,3
(1.Department of Economics and Trade,Anhui Business College;2.Anhui province Wuhu city Xiaozhou Center Primary School; 3.School of Educational Science,Anhui Normal University,Wuhu 241002,China)
In order to improve the quality and service efficiency of the collaborative filtering technology,this pa?per presents collaborative filtering algorithm to modify RFM mode.This algorithm introduces the profit into RFM model instead of the purchase price.A new RFP model,which is using RFP to perfect the similarity calculation, is created to fully reflect the influence of the user value on filtering results.Experiments show that the algorithm has a better advantage in the aspects of improving the coverage and accuracy of filtering results.
collaborative filtering recommendation;RFM;electronic commerce;RFP
TP311
A
1673-2928(2015)02-0052-05
2014-12-21
王召義(1983-),男,安徽商貿(mào)職業(yè)技術(shù)學(xué)院講師,研究生,研究領(lǐng)域:電子商務(wù),推薦系統(tǒng)等。