何煒俊,艾丹祥
(廣東工業(yè)大學(xué) 管理學(xué)院,廣州 510520)
E-mail :china072547@vip.qq.com
推薦系統(tǒng)(Recommender Systems,RS)通過分析用戶記錄(User Profile)和商品屬性(Item Attribute)的關(guān)系,達(dá)到過濾冗余內(nèi)容的目的,能有效應(yīng)對(duì)信息過載問題.眾所周知,基于近鄰的協(xié)同過濾(Neighborhood-based Collaborative Filtering,CF)是最常見的推薦技術(shù).該技術(shù)有兩種類型:基于用戶的方法(UserCF)和基于商品的方法(ItemCF).其核心都是根據(jù)歷史交易記錄尋找相似的用戶或商品.CF假設(shè):用戶興趣和商品屬性都是相對(duì)靜止的.比如,用戶過去喜歡什么,將來也喜歡什么;歌曲過去很流行,將來也很流行.該假設(shè)限制了以CF為基礎(chǔ)的推薦模型在現(xiàn)實(shí)生活的高效應(yīng)用:無法長期地準(zhǔn)確匹配用戶需求和商品屬性.
在此背景下,以多臂賭博機(jī)(Multi-armed Bandits,MAB)建模的互動(dòng)式推薦系統(tǒng)應(yīng)運(yùn)而生[1].MAB推薦具有以下幾個(gè)特點(diǎn):1)連續(xù)互動(dòng),即用戶對(duì)推薦結(jié)果產(chǎn)生反饋,而系統(tǒng)根據(jù)反饋信息實(shí)時(shí)改進(jìn)預(yù)測(cè)策略(比如,發(fā)現(xiàn)新興趣).此過程周而復(fù)始;2)隱式互動(dòng),即用戶很少會(huì)直接對(duì)商品評(píng)分,取而代之的是點(diǎn)擊、購買或訂閱等隱式行為;3)稀疏互動(dòng),即大多數(shù)用戶都不會(huì)頻繁地與系統(tǒng)進(jìn)行互動(dòng),因此推薦次數(shù)是有限的.MAB是強(qiáng)化學(xué)習(xí)的經(jīng)典范例,屬于開發(fā)-探索(Exploitation & Exploration,EE)策略.開發(fā)(Exploitation)是利用現(xiàn)有反饋信息,從已知商品中選擇期望收益最高的進(jìn)行推薦;探索(Exploration)是不依賴現(xiàn)有反饋信息,去發(fā)現(xiàn)期望收益更高的未知(新)商品.然而開發(fā)和探索是相互沖突的,過度的開發(fā)會(huì)陷入局部最優(yōu)解,過度的探索則會(huì)浪費(fèi)有限的推薦機(jī)會(huì).因此只有權(quán)衡開發(fā)和探索,才能獲得長期的最佳推薦效果.
現(xiàn)有的MAB推薦算法能有效地應(yīng)對(duì)在線場(chǎng)景下的動(dòng)態(tài)推薦問題.然而,這類研究大多以改進(jìn)推薦準(zhǔn)確性(Accuracy)為首要目標(biāo).“以預(yù)測(cè)精度為中心”的推薦模型往往會(huì)犧牲推薦結(jié)果的多樣性(Diversity)和新穎性(Novelty)[2],Adomavicius通過定量實(shí)驗(yàn)表明,過度地改進(jìn)預(yù)測(cè)精度會(huì)大幅度地降低推薦多樣性和新穎性[16].這種推薦系統(tǒng)從越來越狹窄的范圍內(nèi)挑選商品(如熱門商品),使推薦結(jié)果的信息效用降低,很難給用戶營造新鮮的體驗(yàn)感[3],甚至還會(huì)使用戶感到厭煩[4].相反,較高的多樣性和新穎性的推薦結(jié)果能有效地提升用戶的體驗(yàn)滿意度和忠誠度[5],增加商品銷售額和銷售種類[6],還能避免推薦系統(tǒng)產(chǎn)生過度專門化(Overspecialized)問題[7].因此,多樣性和新穎性同樣應(yīng)該作為有效推薦的目標(biāo)[8].
圖1 “用戶-系統(tǒng)”互動(dòng)式推薦過程Fig.1 Interactive recommendations of users and systems
針對(duì)上述問題,本文提出一種基于MAB的多目標(biāo)互動(dòng)式推薦系統(tǒng),旨在產(chǎn)生兼顧準(zhǔn)確性、多樣性和新穎性的商品推薦列表.該推薦系統(tǒng)的互動(dòng)推薦過程如圖1所示.首先,構(gòu)建考慮推薦準(zhǔn)確度、多樣度和新穎度的標(biāo)量函數(shù),以此挑選若干個(gè)加權(quán)期望收益較高的候選商品組成推薦列表,展示給目標(biāo)用戶.之后,用戶對(duì)推薦列表做出反饋(如點(diǎn)擊、購買或訂閱等),系統(tǒng)則根據(jù)反饋信息更新多目標(biāo)推薦模型,并為用戶產(chǎn)生新的推薦列表.“用戶-系統(tǒng)”的互動(dòng)式推薦過程不斷循環(huán),使系統(tǒng)能夠及時(shí)適應(yīng)用戶興趣和物品屬性的變化,提供兼顧準(zhǔn)確性、多樣性和新穎性的推薦服務(wù).
將多目標(biāo)決策分析(Multiple Objective Decision Making,MODM)方法應(yīng)用于推薦系統(tǒng)是有價(jià)值的,詳細(xì)表述參見文獻(xiàn)[9].厙向陽等提出一種多目標(biāo)的混合推薦系統(tǒng),并行混合了7種子推薦算法,再用遺傳算法挑選加權(quán)準(zhǔn)確度、多樣度和新穎度較優(yōu)的商品[10];Chai通過結(jié)合Pareto最優(yōu)法和Promethee多準(zhǔn)則決策法,提出一種多目標(biāo)免疫優(yōu)化推薦算法,旨在產(chǎn)生準(zhǔn)確、多樣和新穎的結(jié)果[11];Cai提出基于適應(yīng)性評(píng)估(GBFE)和分割知識(shí)挖掘(PBKM)策略的多目標(biāo)推薦算法(MaOEAs),旨在提升推薦精確率、召回率、覆蓋率、多樣度和新穎度[12];等等.
然而,上述研究成果構(gòu)建的多目標(biāo)推薦系統(tǒng)均不具有實(shí)時(shí)性,其模型和數(shù)據(jù)源都是離線的(在推薦之前建立),無法及時(shí)接收用戶的反饋,無法適應(yīng)用戶興趣和商品屬性的動(dòng)態(tài)變化.
基于MAB的推薦系統(tǒng)被廣泛應(yīng)用于現(xiàn)實(shí)生活中在線或上下文敏感的推薦平臺(tái),如電商Amazon、新聞Google News和流媒體YouTube等等.基于此,MAB推薦自然也受到眾多學(xué)者的關(guān)注.比如,成石等提出融合矩陣分解和MAB的推薦系統(tǒng),分析商品實(shí)際評(píng)分和預(yù)測(cè)評(píng)分的偏差,以矩陣分解技術(shù)求得用戶和商品的屬性,并對(duì)上述的屬性使用MAB完成推薦[13];王高智等提出基于內(nèi)容和協(xié)同過濾的MAB推薦系統(tǒng),綜合考慮內(nèi)容和用戶相似度,結(jié)合最近鄰算法,以用戶和近鄰用戶的反饋信息進(jìn)行MAB推薦[14];Wang等提出結(jié)合MAB的互動(dòng)式協(xié)同過濾推薦算法,先在離線情況下使用潛在狄利克雷(LDA)主題技術(shù)為商品聚類,然后在MAB推薦中使用粒子學(xué)習(xí)(Particle Learning)技術(shù)改進(jìn)商品相似度的計(jì)算方式,使在線推薦結(jié)果更準(zhǔn)確[15];等等.
然而上述MBA推薦系統(tǒng)也存在一些缺陷,包括:1) 只關(guān)注改進(jìn)推薦的準(zhǔn)確性指標(biāo)(如精確率、召回率和平均絕對(duì)誤差等),卻未提及其他重要推薦指標(biāo)(如多樣度和新穎度等);2) 在一次推薦中,一個(gè)MAB只能動(dòng)態(tài)推薦一個(gè)商品,也只能收集一個(gè)反饋信息.在現(xiàn)實(shí)中,用戶更愿意看到由多個(gè)推薦商品組成的推薦列表.在此背景下,Radlinski提出由多個(gè)MAB并列而成的排列多臂賭博機(jī)算法(Ranked bandits,RB)[16].
基于RB的推薦系統(tǒng)能夠同時(shí)推薦多個(gè)商品和接收多個(gè)反饋信息,尤其適合于網(wǎng)頁排序和推薦.Slivkins等發(fā)現(xiàn)在文本推薦中,用戶經(jīng)常找不到適合自己的答案,為此整合兩大MAB模型(Ranked bandits和Lipschitz Bandits)以提高推薦文本的準(zhǔn)確度[17].Louёdec等也發(fā)表了類似的研究成果,在一次推薦中,RB忽略了列表位置的相關(guān)性(不同位置賭博機(jī)挑選物品的過程是獨(dú)立的),據(jù)此提出Multiple-play Bandits(MPB)推薦算法以提升推薦列表的預(yù)測(cè)準(zhǔn)確性[18].當(dāng)前的RB推薦研究同樣存在過度追求預(yù)測(cè)精度而忽視了其他重要推薦指標(biāo)的不足.
綜上,本文立足于現(xiàn)有的MAB(包括RB)互動(dòng)式推薦研究,參考已有的多目標(biāo)離線推薦研究,提出一種多目標(biāo)的互動(dòng)式推薦系統(tǒng).
互動(dòng)式推薦模型的常見構(gòu)建方法是MAB算法.在MAB推薦模型中,賭博機(jī)的m個(gè)手臂依序?qū)?yīng)m個(gè)候選商品.區(qū)別于注重一次性收益最大化的離線推薦,MAB互動(dòng)式推薦注重長期推薦的累積收益最大化.在第t次推薦中,系統(tǒng)以某種策略為用戶挑選商品.該商品被推薦完之后,會(huì)獲得服從某種固定概率分布的收益值(Reward).收益值可以是用戶對(duì)所推薦商品的反饋,同時(shí)也是系統(tǒng)對(duì)該商品獲得的獎(jiǎng)勵(lì)/懲罰(將影響以后系統(tǒng)挑選該物品的概率).簡(jiǎn)單地,若用戶點(diǎn)擊該商品,則收益為1;若用戶沒有點(diǎn)擊,則收益值為0.由于用戶興趣和物品屬性會(huì)隨時(shí)間改變,使得每個(gè)候選商品的期望收益也是動(dòng)態(tài)變化的.系統(tǒng)需要優(yōu)化推薦策略,以使長期累積收益最大化(或遺憾最小化).
每個(gè)商品的期望收益都具備3個(gè)特征[19]:1)隨機(jī)性(Stochastic):每個(gè)商品的期望收益都是一個(gè)服從某種固定概率分布的隨機(jī)變量.不同商品的概率分布可以不同,分布形態(tài)和具體參數(shù)可以未知;2)對(duì)抗性(Adversarial):每種商品的期望收益可以動(dòng)態(tài)改變,但是所有商品的期望收益不能同時(shí)取零;3)馬爾科夫性(Markovian):商品的期望收益變化過程是一個(gè)馬爾科夫過程.
系統(tǒng)挑選商品時(shí),既要兼顧開發(fā),也要兼顧探索,既推薦已知商品,也勘探未知(新)商品.常見的權(quán)衡開發(fā)-探索策略包括[20]:隨機(jī)法、ε-Greedy、Softmax、Upper Confidence Bound(UCB)、BayesUCB、LogUCB、LinUSB 和Thompson Sampling(TS)等.本文使用ε-Greedy方法.
基于ε-Greedy的推薦策略如下:以ε的概率探索,隨機(jī)挑選商品;或以(1-ε)的概率開發(fā),挑選期望遺憾值最低的商品.在第t次推薦,假設(shè)最高收益值為rmax,商品i的期望收益為ri(t),則選取i的遺憾值為[rmax-ri(t)].系統(tǒng)的目標(biāo)是在推薦總次數(shù)T內(nèi),使累積遺憾值LT最低.
(1)
算法1展示了基于多臂賭博機(jī)的互動(dòng)式推薦算法.第t次推薦將承接第(t-1)次更新得到的MAB模型.圖2為其運(yùn)作過程.
基于MAB的推薦模型僅使用一臺(tái)賭博機(jī)A1,所以在一個(gè)推薦流程中,只可以推薦一個(gè)商品i(t),也只能收集一個(gè)商品的反饋信息.但在很多實(shí)際應(yīng)用中,系統(tǒng)常常需要為用戶展示由k個(gè)商品組成的推薦列表,并能收集多個(gè)商品的反饋信息,由此發(fā)展出由多個(gè)MAB排列組成的排列(多臂)賭博機(jī)算法:在商品列表P={p1,p2,…,pk}中,賭博機(jī)Aj挑選位置為j(1≤j≤k)的推薦商品pj.
算法1.基于多臂賭博機(jī)的互動(dòng)式推薦算法
輸入:一種模型A1;目標(biāo)用戶u;候選商品Im
輸出:?jiǎn)蝹€(gè)推薦商品i(t)
1.重復(fù)推薦t=1,2,…,T
2. 基于ε-Greedy的推薦策略挑選商品i(t)
3. 為u展示推薦i(t),并記錄反饋:
4. 若u點(diǎn)擊i(t),令rt=1;否則,令rt=0
5. 更新模型:Update MAB(u(t),i(t),rt,A1)
6.返回步驟2,直到完成T次推薦
圖2 基于多臂賭博機(jī)的“用戶—系統(tǒng)”互動(dòng)式推薦流程Fig.2 Interactive recommendations between users and systems based on MAB
算法2展示了基于排列賭博機(jī)的互動(dòng)式推薦算法.類似地,第t次推薦將承接第(t-1)次更新得到的RB模型.圖3為其運(yùn)作過程.需要說明的是,在實(shí)際應(yīng)用中用戶大多以從前到后的順序?yàn)g覽商品列表,因此規(guī)定:當(dāng)u點(diǎn)擊列表位置為j的商品pj時(shí),獎(jiǎng)勵(lì)賭博機(jī)Aj,即rjt=1.此外,位置在j之前的賭博機(jī)(A1,A2,…,Aj-1)都沒有獎(jiǎng)勵(lì),即rgt=0(g 算法2.基于排列賭博機(jī)的互動(dòng)式推薦算法 輸入:k個(gè)賭博機(jī)A={A1,A2,…,Ak};目標(biāo)用戶u;候選商品Im 輸出:商品推薦列表P={p1,p2,…,pk} 1.重復(fù)推薦t=1,2,…,T 2. 重復(fù)j=1,2,…,k: #賭博機(jī)Aj依序挑選列表位置為j的商品; 3. 基于ε-Greedy的推薦策略挑選商品ij(t) 4. 當(dāng)j>1,#判斷當(dāng)前位置商品是否在靠前位置已經(jīng)被推薦了(避免同一商品被重復(fù)推薦) 5. 若ij(t)∈{i1(t),i2(t),…,ij-1(t)}, 6.pj←挑選遺憾值次之且未被推薦的商品 7. 否則,pj←ij(t) 8. 為u展示列表P={p1,p2,…,pk},并記錄反饋: 9. 若u點(diǎn)擊pj且pj==ij(t),令rjt=1;否則,令rjt=0 10. 更新模型:Update RB(u(t),ij(t),rjt,A) 11. 返回步驟2,直到完成T次推薦 上述MAB(包括RB)推薦模型挑選商品的策略只考慮了預(yù)測(cè)準(zhǔn)確性,即盡量使推薦商品被用戶點(diǎn)擊,而沒有考慮推薦多樣性和新穎性,下文將以此為基礎(chǔ),在推薦商品過程中同時(shí)考慮多個(gè)目標(biāo):準(zhǔn)確性、多樣性和新穎性. 圖3 基于排列賭博機(jī)的“用戶—系統(tǒng)”互動(dòng)式推薦流程Fig.3 Interactive recommendations between users and systems based on RB 本方法采用標(biāo)量函數(shù)(Scalarization Functions)將原多目標(biāo)規(guī)劃轉(zhuǎn)化為單目標(biāo)規(guī)劃問題.基于理想點(diǎn)法構(gòu)建標(biāo)量函數(shù),以挑選出加權(quán)遺憾值最低的商品.假設(shè)所有候選商品在樣本空間內(nèi),以遺憾值高低進(jìn)行排序是有意義的[21].本函數(shù)挑選的商品能夠達(dá)到帕累托最優(yōu),即不存在其他替代商品,能夠改善其中的一個(gè)目標(biāo)卻不犧牲任何其他目標(biāo). 標(biāo)量函數(shù)的構(gòu)建過程如下: 先計(jì)算Q個(gè)目標(biāo)的理想點(diǎn)(最高收益值): (2) 再計(jì)算每個(gè)商品ij的遺憾值(實(shí)際收益與最高收益的偏差),以歐氏距離法加權(quán)求和,得到標(biāo)量函數(shù): (3) (4) 算法3展示了Aj為列表位置j挑選推薦商品pj的策略. 算法3.挑選商品的策略(多目標(biāo)) 輸出:推薦商品pj 1.初始化:商品挑選函數(shù)SelectItem;商品遺憾數(shù)組ItemRegret[ ] 3. 重復(fù)i=1,2,…,m,#遍歷所有商品 5. OptimalItem←argmin(ItemRegret[]) 6. 返回 OptimalItem } 4.2.1 商品準(zhǔn)確度 在第t次推薦過程中,將以商品ij在之前(t-1)次推薦過程的平均點(diǎn)擊通過率(Click-Through Rate,CTR)作為其準(zhǔn)確度分?jǐn)?shù): (5) 其中,rd(ij)為第d次推薦中ij的實(shí)際收益值(若被點(diǎn)擊,取1;否則,取0).例如,在u的前10次推薦服務(wù)中,若ij被點(diǎn)擊2次,則再在第11次推薦中,ij的準(zhǔn)確度分?jǐn)?shù)為0.2. 4.2.2 商品多樣度 這里的商品多樣度分?jǐn)?shù)是指ij在集合S中的多樣度,記為div(ij|S),用于衡量ij和S所包含商品的差異性.多樣度的計(jì)算方法借鑒文獻(xiàn)[23]: (6) (7) 其中,S為第j個(gè)位置之前的推薦商品組成的新集合;dis(ij,il)為商品ij和il的余弦距離(aq和bq為ij和il的商品屬性值,如評(píng)分、流行度等).若S為空(如j=1時(shí)),則令div(ij|S)=1.例如,在A4挑選第4個(gè)位置的推薦商品時(shí),S為前3個(gè)位置商品組成的集合{i1,i2,i3},ij和i1、i2、i3的距離分別為0.90、0.91和0.92,因此div(ij|S)=0.91. 4.2.3 商品新穎度 借鑒文獻(xiàn)[23]的方法計(jì)算商品新穎度.對(duì)于ij,先計(jì)算其流行度pol(ij): (8) 其中,sel(ij)為之前的推薦過程中A挑選ij的次數(shù).例如,有5個(gè)商品,在前10次推薦中(單次推薦兩個(gè)商品),分別被挑選了8次、6次、2次、2次和2次.到了第11次,這5個(gè)商品的流行度分別為0.4、0.3、0.1、0.1和0.1. 對(duì)pol(ij)取對(duì)數(shù),則新穎度分?jǐn)?shù)為: nov(ij)=-log2pol(ij) (9) 值得注意的是,所有商品的準(zhǔn)確度、多樣度和新穎度分?jǐn)?shù)計(jì)算完成之后,都務(wù)必進(jìn)行標(biāo)準(zhǔn)化處理(本方法采用Z-Score標(biāo)準(zhǔn)化),再由分?jǐn)?shù)值構(gòu)成期望收益矩陣Sm*Q,其中m為商品數(shù),Q為目標(biāo)數(shù).例如,s11,s12,s13分別為第一個(gè)候選商品的準(zhǔn)確度、多樣度和新穎度分?jǐn)?shù). 從上述計(jì)算過程可知,一個(gè)商品如果在之前被賭博機(jī)挑選并被用戶點(diǎn)擊的次數(shù)多,則其后續(xù)的準(zhǔn)確度分?jǐn)?shù)會(huì)升高;然而,如果被過多的挑選,又會(huì)降低其新穎度分?jǐn)?shù).對(duì)于一些開始過時(shí)的熱門商品,容易被賭博機(jī)挑選卻不被用戶接受,就會(huì)出現(xiàn)準(zhǔn)確度和新穎度分?jǐn)?shù)同時(shí)下降的情形.另外,當(dāng)新商品與原列表中商品的差異性較大時(shí),則更容易被選中.這將有效避免推薦列表出現(xiàn)“千篇一律”的不良后果. 分析狀態(tài)空間模型(State Space Model)的線性系統(tǒng): (10) (11) (12) (13) 算法4.權(quán)重更新策略 值得注意的是,系統(tǒng)會(huì)為每個(gè)用戶存儲(chǔ)其獨(dú)有的權(quán)重向量(個(gè)性化的體現(xiàn)).對(duì)于一個(gè)特定用戶,隨著用戶與系統(tǒng)互動(dòng)次數(shù)的增多,推薦結(jié)果越來越能夠滿足其需求.對(duì)于新用戶,系統(tǒng)會(huì)更注重預(yù)測(cè)準(zhǔn)確度,旨在與用戶建立信任關(guān)系;而對(duì)于老用戶,系統(tǒng)會(huì)更注重多樣度和新穎度,旨在拓寬用戶視野,帶來新鮮和驚奇感,從而提升用戶體驗(yàn)滿意度和忠誠度. 算法5.基于多臂賭博機(jī)的多目標(biāo)互動(dòng)式推薦算法 輸出:商品推薦列表P={p1,p2,…,pk} 1.重復(fù)推薦t=1,2,…,T 2.計(jì)算商品期望收益SM*P#第4.2節(jié) 3. 依序用第j個(gè)賭博機(jī)Aj挑選列表位置為j的商品;重復(fù)j=1,2,…,k 5. 或以ε的概率探索:隨機(jī)選擇ij(t)} 6. 當(dāng)j>1, #避免同一商品被重復(fù)推薦 7. 若ij(t)∈{i1(t),i2(t),…,ij-1(t)}, 8.pj←挑選遺憾值次之且未被推薦的商品 9. 否則,pj←ij(t) 10. 為u展示列表P={p1,p2,…,pk},并記錄反饋: 11. 若u點(diǎn)擊pj且pj==ij(t),令rjt=1;否則,令rjt=0 14.返回步驟2,直到完成T次推薦 圖4 基于多臂賭博機(jī)的多目標(biāo)互動(dòng)式推薦流程Fig.4 Multi-objective interactive recommendations between users and systems based on MAB 為驗(yàn)證本研究所提出的互動(dòng)式推薦系統(tǒng)的有效性,將采用標(biāo)有時(shí)間戳的離線數(shù)據(jù)進(jìn)行在線模擬實(shí)驗(yàn). 本實(shí)驗(yàn)將在Hetrec2011-LastFM-2k數(shù)據(jù)集上進(jìn)行,該數(shù)據(jù)為來自英國網(wǎng)絡(luò)電臺(tái)和音樂社區(qū)網(wǎng)站的真實(shí)數(shù)據(jù),記錄用戶收聽音樂的信息,包含有1,892個(gè)用戶和17,632個(gè)商品(音樂家),其中“用戶-商品選擇關(guān)系”占比(非零元素比例)為0.05%. 為了提升推薦效率,需要選取互動(dòng)實(shí)驗(yàn)之前的部分歷史數(shù)據(jù)進(jìn)行預(yù)處理,為每個(gè)用戶存儲(chǔ)適當(dāng)大小的候選商品Im.采用基于用戶的協(xié)同過濾算法[20]進(jìn)行Top-N過濾,只有排名前100的商品才可進(jìn)入互動(dòng)式環(huán)節(jié). 模擬Last.FM網(wǎng)站中的用戶—系統(tǒng)互動(dòng)過程:在當(dāng)次推薦t,用戶點(diǎn)擊展示的音樂家,系統(tǒng)根據(jù)用戶反饋改進(jìn)下次推薦(t-1)的推薦模型(算法5).在預(yù)處理時(shí)間點(diǎn)后的數(shù)據(jù),只有427個(gè)用戶有超過40次的元組<用戶,音樂家>.為這里的427個(gè)用戶分別模擬40次互動(dòng)式推薦實(shí)驗(yàn). 將推薦實(shí)驗(yàn)獲得的含有多個(gè)商品的推薦列表作為評(píng)估對(duì)象,從準(zhǔn)確度、多樣度和新穎度3個(gè)方面構(gòu)建推薦效果的評(píng)估指標(biāo). 受限于實(shí)驗(yàn)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),在一個(gè)時(shí)間戳中,用戶只選擇推薦列表R中的一個(gè)商品.因此,在當(dāng)次推薦中,只要用戶點(diǎn)擊R,則視R為推薦成功.區(qū)別于離線推薦,在線推薦最常用的準(zhǔn)確度評(píng)估方法是點(diǎn)擊率,即平均CTR(R): (14) 其中,rd(R)為在第d次推薦中,用戶對(duì)R的反饋(點(diǎn)擊,取1;否則,取0). 列表多樣度div(R): (15) 其中,d(ij,il)為商品ij和il的距離,見式(6). 列表新穎度nov(R): (16) 其中,sel(i)為在過去,商品i被點(diǎn)擊的次數(shù). 將本方法模型和現(xiàn)有的部分經(jīng)典MAB推薦方法模型的推薦效果進(jìn)行對(duì)比: 1) 排列多臂賭博機(jī)模型(RB[16]):由多個(gè)MAB并列而成的列表推薦算法(算法2),該模型只關(guān)注推薦的準(zhǔn)確性. 2) 上邊界多臂賭博機(jī)模型(UCB[25]):從置信區(qū)間的角度權(quán)衡“開發(fā)-探索”,無需人為設(shè)定探索參數(shù).一個(gè)UCB只能推薦一個(gè)商品,因此參考RB的設(shè)計(jì)思路,并列多個(gè)UCB才能產(chǎn)生商品推薦列表.該模型只關(guān)注推薦得準(zhǔn)確性. 3) 本方法模型(MOMAB):探索參數(shù)ε取0.2時(shí)[26],能夠較好地權(quán)衡“開發(fā)-探索”沖突. 4) 固定權(quán)重模型:為了驗(yàn)證MOMAB模型權(quán)重更新策略的有效性,構(gòu)建固定權(quán)重的參照模型,即保持標(biāo)量函數(shù)中的權(quán)重一直不變(去除算法4),除此之外的其他操作與MOMAB模型完全相同.根據(jù)權(quán)重選取的不同,可分為: 本方法模型MOMAB與RB模型、UCB模型和固定權(quán)重模型的推薦效果評(píng)估對(duì)比如圖5、圖6、圖7所示. 圖5、圖6和圖7分別為在40次的“用戶-系統(tǒng)”互動(dòng)推薦中(T=40),各模型的推薦列表(商品數(shù)k=5)在準(zhǔn)確度、多樣度和新穎度指標(biāo)的表現(xiàn)情況.按照由優(yōu)到劣的順序,準(zhǔn)確度的表現(xiàn)為:UCB、MOMAB、RB、M2、M1、M3和M4;多樣度的表現(xiàn)為:M3、M4、MOMAB、M1、M2、RB和UCB;新穎度的表現(xiàn)為:M4、MOMAB、M3、M1、M2、RB和UCB. 針對(duì)許多現(xiàn)有推薦技術(shù)面臨的兩大挑戰(zhàn)(缺乏實(shí)時(shí)性;缺乏多樣性和新穎性),本文提出一種以多臂賭博機(jī)建模的多目標(biāo)互動(dòng)式推薦系統(tǒng).其主要?jiǎng)?chuàng)新點(diǎn)為:1)多目標(biāo)推薦.采用理想點(diǎn)法構(gòu)建多目標(biāo)規(guī)劃模型,并將其轉(zhuǎn)換成單目標(biāo)規(guī)劃問題,同時(shí)優(yōu)化推薦準(zhǔn)確性、多樣性和新穎性;2)具有實(shí)時(shí)性.實(shí)際應(yīng)用中,“用戶興趣是變化的”、“潮流是變化的”“商品是有生命周期的”、“季節(jié)效應(yīng)”等時(shí)間效應(yīng)因素,影響著用戶對(duì)推薦商品的體驗(yàn)滿意度.本方法參考卡爾曼濾波器,給出權(quán)重迭代策略,能根據(jù)用戶的反饋,優(yōu)化各目標(biāo)權(quán)重,實(shí)時(shí)調(diào)整推薦策略,適應(yīng)用戶不斷變化的需求(用戶獨(dú)一無二的反饋信息決定了推薦的個(gè)性化). 關(guān)于未來的研究方向:1)同時(shí)優(yōu)化更多的重要推薦指標(biāo),比如:覆蓋率、驚喜性和效用性.在現(xiàn)實(shí)中,合理又綜合地評(píng)估推薦系統(tǒng)優(yōu)劣是困難的.許多推薦目標(biāo)是對(duì)立沖突的,但又是至關(guān)重要的;2)考慮推薦列表不同位置的影響.顯然,在一個(gè)界面中,相對(duì)于靠后顯示的推薦商品,靠前顯示的往往更容易被用戶點(diǎn)擊.所以,靠前的位置可以適當(dāng)增加多樣性和新穎性的權(quán)重;3)更進(jìn)一步MAB的開發(fā)-探索沖突.如前所述,只有同時(shí)兼顧開發(fā)和探索的推薦方案,才能在強(qiáng)化學(xué)習(xí)過程中實(shí)現(xiàn)長期的累計(jì)收益最大化.本研究?jī)H嘗試了較為簡(jiǎn)單的ε-Greedy方法.事實(shí)上,還可以更多地嘗試更先進(jìn)的權(quán)衡EE方法(見第3節(jié)).4 基于多臂賭博機(jī)的多目標(biāo)互動(dòng)式推薦方法
4.1 多目標(biāo)函數(shù)
4.2 推薦指標(biāo)的計(jì)算方法
4.3 模型更新策略
4.4 算法描述
5 實(shí)驗(yàn)驗(yàn)證
5.1 數(shù)據(jù)集與評(píng)估指標(biāo)
5.2 對(duì)比模型
5.3 結(jié)果分析
6 結(jié)束語