張 柱,李 卿,方賢進(jìn)
(1.安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001;2.安徽理工大學(xué)國有資產(chǎn)管理處,安徽 淮南 232001)
隨著計(jì)算機(jī)網(wǎng)絡(luò)通信技術(shù)的發(fā)展,電子商務(wù)作為一種商務(wù)模式得到了迅速推廣,業(yè)已成為人們?nèi)粘Y徫锵M(fèi)的重要渠道。作為電子商務(wù)平臺(tái)的重要營銷手段,個(gè)性化推薦系統(tǒng)得到了廣泛的研究和應(yīng)用,并在提高電子商務(wù)網(wǎng)站的交叉銷售能力、提高客戶對(duì)電子商務(wù)網(wǎng)站的忠誠度等方面發(fā)揮了積極的作用[1]。然而,已有的推薦系統(tǒng)存在明顯不足,未能較好地承擔(dān)改善用戶體驗(yàn)的功能。如基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦中,規(guī)則無法自動(dòng)生成,且更新和維護(hù)工作量巨大[2];基于內(nèi)容過濾和協(xié)同過濾的個(gè)性化推薦受推薦對(duì)象特征提取能力的限制較為嚴(yán)重、冷啟動(dòng)問題[3-5]。
目前,學(xué)術(shù)界對(duì)個(gè)性化推薦的研究已取得了一定的成果。文獻(xiàn)[6]通過表明個(gè)人某一方向興趣的各類示例文本,經(jīng)過文本映射和文本結(jié)構(gòu)分析,獲得文本的邏輯表示,將段落作為識(shí)別用戶興趣的基本要素,改進(jìn)了用戶興趣模型的結(jié)構(gòu)分析。文獻(xiàn)[7]借助RRS 技術(shù)實(shí)現(xiàn)用戶興趣資源的整合,并使用本體構(gòu)建用戶興趣模型。文獻(xiàn)[8]在傳統(tǒng)VSM 向量中引入了興趣度因子,進(jìn)一步提出了主題興趣度的概念并對(duì)主題興趣度的提取方法進(jìn)行了詳細(xì)描述。文獻(xiàn)[9]將混合模糊理論運(yùn)用于個(gè)性化推薦系統(tǒng)中,開發(fā)了FTCPRS 推薦系統(tǒng),并在電信服務(wù)推薦中得到了應(yīng)用。文獻(xiàn)[10]將表示信任度的FRPRA 模型應(yīng)用到協(xié)同推薦系統(tǒng)中,并與傳統(tǒng)的KNN 算法進(jìn)行了比較。上述這些方法雖然在一定程度上緩解了推薦系統(tǒng)的不足,但均未考慮用戶興趣屬性之間的相關(guān)性。
文獻(xiàn)[11]將遺傳算法應(yīng)用到協(xié)同個(gè)性化推薦中,試圖通過啟發(fā)式特征術(shù)語的選擇,有效地與其它用戶分享信息選擇經(jīng)驗(yàn),優(yōu)化用戶模型,提高信息選擇的質(zhì)量。文獻(xiàn)[12]提出基于蟻群算法實(shí)現(xiàn)用戶聚類,以提高協(xié)同過濾推薦系統(tǒng)的最近鄰查詢速度。文獻(xiàn)[13]提出一種基于興趣相關(guān)性的本體用戶模型更新算法,用戶更新IS-A 關(guān)系下的用戶興趣值,取得了一定的效果。文獻(xiàn)[14]將瀏覽行為和用戶在頁面上的停留時(shí)間結(jié)合,提出了基于時(shí)間元興趣度度量方法。文獻(xiàn)[15]通過時(shí)間遺忘函數(shù)、黏度函數(shù)、用戶特征向量,對(duì)協(xié)同過濾算法尋找用戶的最近鄰居集合過程進(jìn)行了改進(jìn),體現(xiàn)了時(shí)間效應(yīng)、用戶偏好程度和用戶特征。以上對(duì)興趣模型和協(xié)同算法的改進(jìn)均未考慮用戶興趣屬性之間的聯(lián)動(dòng)性,即用戶的一種興趣發(fā)生變化時(shí)可能會(huì)引起對(duì)另外一種物品的興趣。
本文以淘寶電子商務(wù)平臺(tái)的分類為知識(shí),建立分類知識(shí)庫,提出一種考慮用戶興趣演化擴(kuò)散和商品屬性特征的混合個(gè)性化推薦系統(tǒng)UMARS。根據(jù)用戶購買記錄、瀏覽記錄及行為建立興趣模型,利用用戶興趣的空間擴(kuò)散來更新用戶模型,考慮用戶興趣隨時(shí)間的演化特性,同時(shí),采用商品屬性特征匹配的方法篩選推薦商品。實(shí)驗(yàn)證明這種方法能夠有效的表示用戶興趣之間的相互關(guān)系,提高個(gè)性化推薦的準(zhǔn)確率。
在UMARS 系統(tǒng)中,每個(gè)商品或服務(wù)都對(duì)應(yīng)到特定的分類中。本文以淘寶電子商務(wù)平臺(tái)中的商品分類為依據(jù)對(duì)商品進(jìn)行分類,建立全局本體樹。每個(gè)商品都被劃分在對(duì)應(yīng)的分類中,每個(gè)分類都是某個(gè)分類的子類,如{數(shù)碼:手機(jī):HTC:HTC one 802w},從右到左依次HTC one 802w 是HTC 的子類,HTC 是手機(jī)的子類,手機(jī)是數(shù)碼的子類,這種父子類別的關(guān)系構(gòu)成本體樹的上下層關(guān)系。全局知識(shí)本體樹中,分類的父子類別形成本體樹的父子節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)的描述形式為(N,v,W),其中N是節(jié)點(diǎn)的名稱,W為節(jié)點(diǎn)的特征屬性向量,v為節(jié)點(diǎn)的原始興趣值,其取值為父節(jié)點(diǎn)的原始興趣值進(jìn)行歸一化得到,如公式(1)所示。
式中:Io(sni)為子節(jié)點(diǎn)sni的原始興趣值,I'o(sni)為節(jié)點(diǎn)sni的父節(jié)點(diǎn)的原始興趣值,count(sni)表示本體樹中層次i的所有節(jié)點(diǎn)總數(shù)。
每個(gè)商品都有特征屬性,用于表明自身區(qū)別其他商品的特色。用戶在搜索商品時(shí)會(huì)給出所需商品的特點(diǎn)要求。因此,本體樹上的每個(gè)節(jié)點(diǎn)除具有具體的商品類別外,還擁有表征的屬性W={w1,w2,…,wn},用于區(qū)別同一父類的其他兄弟子類,子類擁有比父類更多的特征屬性。例如父類“手機(jī)數(shù)碼”擁有品牌、價(jià)格等屬性,而子類“手機(jī)”除了擁有父類的全部屬性以外,還擁有手機(jī)特色、手機(jī)配置等其他屬性,如圖1所示。提取本體樹中節(jié)點(diǎn)的特征屬性,建立特征向量,未列入特征向量的特征表示該分類不具有該屬性,對(duì)應(yīng)取值為0。
在UMARS 系統(tǒng)中,用戶模型的興趣由顯式興趣和隱式興趣組成,顯式興趣來自于用戶以前的購買記錄,隱式興趣主要來自于用戶的瀏覽、收藏等行為。當(dāng)用戶首次購買、瀏覽某商品后,獲得初始興趣點(diǎn)和興趣值,用戶的興趣會(huì)隨著時(shí)間的推移產(chǎn)生演化。
1)用戶興趣的表示。用戶興趣模型是一個(gè)本體樹,它是全局知識(shí)本體的一個(gè)子集。興趣模型中的每個(gè)節(jié)點(diǎn)表示用戶的一個(gè)興趣點(diǎn),描述為<N,I(N),W >,其中N表示節(jié)點(diǎn)名稱,即興趣點(diǎn)名稱,I(N)表示用戶在該興趣點(diǎn)的興趣值,W表示該興趣點(diǎn)的特征向量。I(N)通過公式(2)計(jì)算獲得。
式中:I'(N)為用戶節(jié)點(diǎn)N的興趣值,其初始值為Io(N),即用戶在節(jié)點(diǎn)N的原始興趣值,Is(N)表示用戶對(duì)節(jié)點(diǎn)N的隱式興趣值。α,β∈R且α+β=1。
用戶興趣主要來自于購買記錄和用戶的行為。當(dāng)用戶購買或?yàn)g覽商品時(shí),系統(tǒng)記錄該商品類別和商品特征,并在全局本體樹中查找對(duì)應(yīng)的節(jié)點(diǎn),作為用戶的興趣節(jié)點(diǎn),取出該興趣節(jié)點(diǎn)的特征屬性W,并作為用戶興趣節(jié)點(diǎn)的興趣特征向量的依據(jù)。
2)行為分析。用戶興趣的獲得還來自于用戶的行為,稱為隱式興趣。在分析用戶行為的同時(shí),根據(jù)用戶的不同行為來表達(dá)用戶興趣。定義用戶行為的集合及其對(duì)應(yīng)的權(quán)值,如表1所示。
表1 用戶行為分類及其權(quán)值
上述7 種用戶行為代表了用戶對(duì)產(chǎn)品可能產(chǎn)生興趣的不同,其權(quán)值表示興趣的差異。在進(jìn)行用戶行為分析時(shí),首先取得頁面產(chǎn)品的描述,然后利用產(chǎn)品標(biāo)識(shí)查找在全局本體樹中的位置,從而獲得興趣點(diǎn)N,接著通過公式(3)計(jì)算用戶在該興趣節(jié)點(diǎn)上的用戶行為度量f(N)。
用戶的行為度量可以衡量不同行為對(duì)用戶隱式興趣獲得的貢獻(xiàn),用戶的隱式興趣通過公式(4)計(jì)算得到。
式中:l(N)表示用戶行為目標(biāo)對(duì)象在用戶興趣模型本體樹中的節(jié)點(diǎn)層次;lmax(N)表示用戶興趣模型本體樹節(jié)點(diǎn)的最深層次;f(N)表示用戶行為度量。
用戶對(duì)商品的興趣會(huì)在商品的購買過程中遷移并最終確定,這種遷移稱之為用戶興趣的空間擴(kuò)散。例如,用戶A 在購買了手機(jī)之后,其感興趣的商品就會(huì)由手機(jī)類商品變遷到與手機(jī)相關(guān)的其他商品,如移動(dòng)電源、手機(jī)硅膠套等。也就是說,用戶興趣的空間擴(kuò)散是與當(dāng)前興趣相關(guān)的。表現(xiàn)在用戶興趣本體模型上,這種擴(kuò)散表現(xiàn)為與當(dāng)前興趣節(jié)點(diǎn)Ni相關(guān)的興趣節(jié)點(diǎn)集合。
由于用戶的興趣點(diǎn)之間是相關(guān)的,這種相關(guān)性在用戶興趣模型中表現(xiàn)為本體樹節(jié)點(diǎn)之間的結(jié)構(gòu)和語義關(guān)系(如節(jié)點(diǎn)距離、節(jié)點(diǎn)間的父子關(guān)系、節(jié)點(diǎn)之間的特征屬性相似關(guān)系等)的相關(guān)性,如圖2所示。已知用戶i對(duì)商品Mj具有興趣,由于用戶興趣之間存在相關(guān)性,并且當(dāng)前用戶的興趣因?yàn)榕d趣相關(guān)性擴(kuò)散,從而影響用戶對(duì)其他商品的興趣,這種興趣擴(kuò)散可以緩解用戶興趣模型的數(shù)據(jù)疏松問題,用戶興趣擴(kuò)散采用公式(5)~式(6)計(jì)算。
式中:fi(N,Mj)表示用戶i的已有興趣Mj對(duì)興趣N的影響;Ir(N)用戶在興趣節(jié)點(diǎn)N的關(guān)聯(lián)興趣值。
用戶在電子商務(wù)平臺(tái)上瀏覽商品時(shí),往往并沒有欲購買商品的明確目標(biāo),只是提出對(duì)商品功能、特點(diǎn)的要求。如用戶B 希望自己能購買一個(gè)屏幕較大,具有看電影、聽音樂、上網(wǎng)收發(fā)郵件、瀏覽新聞等功能的手持設(shè)備。此時(shí),本系統(tǒng)為精確定位用戶關(guān)注的商品,收集用戶所需要的商品的主要特征,利用用戶搜索的商品特征屬性進(jìn)行擴(kuò)散匹配,為用戶推薦最符合需求的商品。
利用用戶搜索時(shí)提交的商品特征屬性,匹配現(xiàn)有商品的特征,通過計(jì)算相似度定位感興趣的商品,確定商品的興趣值。設(shè)屬性集合B={b1,b2,…,bn}為用戶搜索的屬性集合,Ai={ai1,ai2,…,aim}為興趣節(jié)點(diǎn)Ni具有的特征屬性集合,可能感興趣的商品即興趣度通過公式(7)計(jì)算。
本系統(tǒng)中用戶i對(duì)興趣節(jié)點(diǎn)N的興趣值可用公式(8)計(jì)算得到。
式中:α1,α2,α3∈R,且α1+α2+α3=1。
人們對(duì)某件事物的興趣度大小隨著時(shí)間的推移而發(fā)生先快后慢的增長,因此人們采用時(shí)間函數(shù)來描述這種變化規(guī)律。林鴻飛等人采用了基于興趣聚類的方法來描述用戶興趣的更新和擴(kuò)散,未能考慮用戶興趣擴(kuò)散和時(shí)間的關(guān)系。時(shí)間窗是解決上述問題的一個(gè)較好的方法,用戶的長期興趣是相對(duì)較穩(wěn)定的興趣,隨時(shí)間的變化較慢,如何劃分長短期興趣是難以克服的問題。更多的研究者選擇采用Logistic 模型描述用戶興趣隨時(shí)間的變化規(guī)律,因?yàn)樵撃P湍軌蛎枋鲇脩襞d趣隨時(shí)間推移先快后慢的增長規(guī)律,最終趨于穩(wěn)定。本系統(tǒng)也采用Logistic 模型來描述時(shí)間對(duì)用戶興趣度的影響。
用戶對(duì)商品N 的興趣度隨時(shí)間推移的變化規(guī)律可采用公式(9)計(jì)算。
式中:α,β∈R且α+β=1,取α=β=0.5。
UMARS 系統(tǒng)包括用戶數(shù)據(jù)采集、用戶模型創(chuàng)建、用戶模型進(jìn)化和推薦模塊四部分組成。用戶數(shù)據(jù)采集模塊負(fù)責(zé)收集用戶的年齡、職業(yè)等基本信息、用戶在網(wǎng)站中的購買記錄以及行為數(shù)據(jù),并對(duì)收集到的用戶數(shù)據(jù)進(jìn)行必要的預(yù)處理;用戶模型創(chuàng)建模塊負(fù)責(zé)根據(jù)采集的用戶數(shù)據(jù),為首次登錄系統(tǒng)的用戶創(chuàng)建用戶興趣模型;用戶模型進(jìn)化模塊主要對(duì)已有用戶的興趣進(jìn)行時(shí)間更新、空間擴(kuò)展和基于商品屬性的興趣擴(kuò)展;推薦模塊主要綜合運(yùn)用用戶模型的相似度計(jì)算以及商品屬性匹配度計(jì)算,為用戶推薦精準(zhǔn)的感興趣商品。系統(tǒng)架構(gòu)如圖3所示。
在UMARS 系統(tǒng)中,基于相似用戶推薦是通過用戶模型相似度計(jì)算獲得與當(dāng)前用戶具有相同或相似興趣的若干個(gè)用戶,采用TopN算法進(jìn)行過濾,然后將相似用戶感興趣的商品推薦給當(dāng)前用戶。用戶模型的相似度計(jì)算采用了余弦相似度計(jì)算方法。
式中:Iik(N)、Ijk(N)表示用戶i和j對(duì)興趣項(xiàng)目k的興趣度值。
基于商品屬性內(nèi)容推薦,是根據(jù)用戶查詢的內(nèi)容,通過和商品庫中商品的屬性進(jìn)行相似性計(jì)算,接著采用TopN方法進(jìn)行過濾,最后將得到的屬性相似的商品推薦給當(dāng)前用戶。屬性相似性計(jì)算方法如公式(11)所示。
式中:B為當(dāng)前用戶搜索的商品屬性向量,Ai為商品庫中第i個(gè)商品的屬性向量。
通過淘寶網(wǎng)平臺(tái)開放的API 獲取商品分類和屬性條目以及用戶數(shù)據(jù),選取了2142 名用戶交易記錄,每名用戶實(shí)際發(fā)生交易均超過10 次,共36726條記錄,時(shí)間跨度超過5 個(gè)月。采用熵權(quán)法計(jì)算[16]得到用戶七種瀏覽行為的權(quán)值,如表2所示。
表2 熵權(quán)法計(jì)算行為權(quán)值
UMARS 系統(tǒng)根據(jù)用戶的購買記錄、瀏覽行為等計(jì)算用戶興趣度,并利用用戶模型的相似度計(jì)算和屬性相似度計(jì)算,通過TopN方法為用戶提供可供其選擇的商品集,如果用戶選擇并瀏覽該商品集中的商品,則表示系統(tǒng)推薦是準(zhǔn)確的。于是本文采用用戶實(shí)際點(diǎn)擊商品數(shù)占推薦商品個(gè)數(shù)的比例,即利用推薦命中率PR[17]來檢驗(yàn)UMARS 系統(tǒng)推薦的準(zhǔn)確性,如公式(12)所示。
式中:i為第i次推薦,ClickNumi代表客戶在第i次推薦中點(diǎn)擊所推薦商品的數(shù)量,RecItemsi表示第i次推薦的商品集中商品的數(shù)量。n為對(duì)當(dāng)前用戶推薦的次數(shù)。
首先,根據(jù)用戶的購買記錄和瀏覽行為得到用戶的興趣本體樹,采用基于相似用戶的協(xié)同推薦和基于商品屬性內(nèi)容匹配的混合推薦方法得到TopN的推薦商品集,然后統(tǒng)計(jì)用戶的推薦命中率,得到如圖4所示的推薦命中率曲線。其中MT 為文獻(xiàn)用戶顯意識(shí)下的多重態(tài)度個(gè)性化推薦算法,US 為基于用戶模型和屬性擴(kuò)散的混合個(gè)性化推薦。
本系統(tǒng)利用商品的類屬和商品的屬性進(jìn)行推薦,同時(shí),將用戶興趣隨時(shí)間和空間的演化運(yùn)用到推薦當(dāng)中,命中率呈現(xiàn)較為快速的增長。但隨著商品的增多,命中率呈現(xiàn)下降趨勢,當(dāng)商品數(shù)量超過500后增長趨勢下降較為明顯。這是因?yàn)殡S著商品數(shù)量的增多,商品的屬性數(shù)量增速明顯,符合屬性的商品數(shù)量隨之增多,從而導(dǎo)致命中率增速下降。
本文以淘寶電子商務(wù)平臺(tái)為依托,提出基于用戶模型和商品屬性擴(kuò)散的混合個(gè)性化推薦系統(tǒng),通過將用戶興趣進(jìn)行時(shí)間演化和空間擴(kuò)散的方法,簡化了推薦系統(tǒng)的實(shí)現(xiàn)。同時(shí),通過商品屬性匹配的技術(shù)更加精準(zhǔn)的為用戶提供推薦服務(wù)。最后實(shí)驗(yàn)驗(yàn)證了該方法在提高了推薦系統(tǒng)效率和推薦命中率等方面具有較為明顯的效果。
[1]余力,劉魯.電子商務(wù)個(gè)性化推薦研究[J].計(jì)算機(jī)集成制造系統(tǒng),2004,10(10):1 306-1 313.
[2]劉華.基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦系統(tǒng)研究與應(yīng)用[D].上海:華東師范大學(xué),2011.
[3]曾春,邢春曉,周立柱.基于內(nèi)容過濾的個(gè)性化搜索算法[J].軟件學(xué)報(bào),2003,14(5):999-1 004.
[4]莊景明,王明文,葉茂盛.基于內(nèi)容過濾的農(nóng)業(yè)信息推薦系統(tǒng)[J].計(jì)算機(jī)工程,2012,38(11):38-41.
[5]王茜,王均波.一種改進(jìn)的協(xié)同過濾推薦算法[J].計(jì)算機(jī)科學(xué),2010,37(6):226-228.
[6]林鴻飛,楊元生.用戶興趣模型的表示和更新機(jī)制[J].計(jì)算機(jī)研究與發(fā)展,2002,39(7):843-847.
[7]張智,董曉文.基于RSS 技術(shù)的用戶興趣模型構(gòu)建[J].暨南大學(xué)學(xué)報(bào):自然科學(xué)版,2013,34(3):286-291.
[8]劉鑫,張?jiān)埽顣猿?,?主題興趣度提取方法及其在用戶興趣模型中的應(yīng)用研究[J].微型電腦應(yīng)用,2011,27(3):38-41.
[9]Z ZHANG,H LIN,K LIU,et al.A hybrid fuzzy-based personalized recommender system for telecom products services[C]//Information Sciences,2013:117-129.
[10]M FANG,X ZHENG,D CHEN.A Personalized Recommender Algorithm based on Fuzzy Relation Reputation Model[C]//Service Sciences(IJCSS),2011 International Joint Conference,May 2011,Taipei,193-197.
[11]李寶林,蘭蕓,張翼英.基于動(dòng)態(tài)遺傳算法的用戶模型進(jìn)化研究[J].計(jì)算機(jī)工程與應(yīng)用,2006,14(5):200-203.
[12]吳月萍,王娜,馬良.基于蟻群算法的協(xié)同過濾推薦系統(tǒng)的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(10):73-76.
[13]F CENA,S LIKAVEC,F(xiàn) OSBORNE.Property-Based Interest Propagation in Ontology- Based User Model[C]//User Modeling,Adaptation,and Personalization.Springer-Verlag Berlin Heidelberg.2012:38-50.
[14]劉鑫,錢松榮.時(shí)間元興趣度度量方法和擴(kuò)展VSM用戶興趣模型研究[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(4):708-712.
[15]王茜,王均波.一種改進(jìn)的協(xié)同過濾推薦算法[J].計(jì)算機(jī)科學(xué),2010,37(6):226-228.
[16]王微微,夏秀峰,曉明.一種基于用戶行為的興趣度模型[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(8):148-151.
[17]夏秀峰,代沁,叢麗暉.用戶顯意識(shí)下的多重態(tài)度個(gè)性化推薦算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(16):144-146.