劉珈麟 賀澤宇 李俊
摘 要:最近,強(qiáng)化學(xué)習(xí)序列推薦系統(tǒng)受到研究者們的廣泛關(guān)注,這得益于它能更好地聯(lián)合建模用戶(hù)感興趣的內(nèi)動(dòng)態(tài)和外傾向。然而,現(xiàn)有方法面臨同策略評(píng)估方法數(shù)據(jù)利用率低,導(dǎo)致模型依賴(lài)大量的專(zhuān)家標(biāo)注數(shù)據(jù),以及啟發(fā)式價(jià)值激勵(lì)函數(shù)設(shè)計(jì)依賴(lài)反復(fù)人工調(diào)試兩個(gè)主要挑戰(zhàn)。因此,提出了一種新穎的異策略模仿-強(qiáng)化學(xué)習(xí)的序列推薦算法COG4Rec,以提高數(shù)據(jù)利用效率和實(shí)現(xiàn)可學(xué)習(xí)的價(jià)值函數(shù)。首先,它通過(guò)異策略方式更新分布匹配目標(biāo)函數(shù),來(lái)避免同策略更新密集在線(xiàn)交互限制;其次,COG4Rec采用可學(xué)習(xí)的價(jià)值函數(shù)設(shè)計(jì),通過(guò)對(duì)數(shù)衰減狀態(tài)分布比,模仿用戶(hù)外傾向的價(jià)值激勵(lì)函數(shù);最后,為了避免模仿學(xué)習(xí)分布漂移問(wèn)題,COG4Rec通過(guò)累積衰減分布比,強(qiáng)化用戶(hù)行為記錄中高價(jià)值軌跡片段重組推薦策略。一系列基準(zhǔn)數(shù)據(jù)集上的性能對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)結(jié)果表明:COG4Rec比自回歸模型提升了17.60%,它比啟發(fā)式強(qiáng)化學(xué)習(xí)方法提升了3.25%。這證明了所提模型結(jié)構(gòu)和優(yōu)化算法的有效性。這也證明可學(xué)習(xí)的價(jià)值函數(shù)是可行的,并且異策略方式能有效提高數(shù)據(jù)利用效率。
關(guān)鍵詞:異策略評(píng)估; 模仿學(xué)習(xí); 逆強(qiáng)化學(xué)習(xí); 序列推薦
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A?文章編號(hào):1001-3695(2024)05-010-1349-07
doi:10.19734/j.issn.1001-3695.2023.10.0447
Off-policy imitation-reinforcement learning for sequential recommendation
Abstract:Recently, reinforcement learning sequence recommender systems have received widespread attention because they can better model the internal dynamics and external tendencies of user interests. However, existing methods face two major challenges: low utilization of same-strategy evaluation data causes the model to rely on a large amount of expert annotation data and heuristic value incentive functions rely on costly repeated manual debugging. This paper proposed a new hetero-strategic imitation-reinforcement learning method to improve data utilization efficiency and achieve a learnable value function. Firstly, it updated the distribution matching objective function through different strategies to avoid the intensive online interaction limitations of same-strategy updates. Secondly, COG4Rec adopted a learnable value function design and imitated the value incentive function of outdoor tendencies through the logarithmic decay state distribution ratio. Finally, in order to avoid the problem of imitation learning distribution drift, COG4Rec strengthened the recommendation strategy for recombining high-value trajectory segments in user behavior records through the cumulative attenuation distribution ratio. The results of performance comparison experiments and ablation experiments on a series of benchmark data sets show that COG4Rec is 17.60% better than the autoregressive model and 3.25% better than the heuristic reinforcement learning method. This proves the effectiveness of the proposed COG4Rec model structure and optimization algorithm. This also proves that the design of a learnable value function is feasible, and the heterogeneous strategy approach can effectively improve data utilization efficiency.
Key words:off-policy evaluation; imitation learning; inverse reinforcement learning; sequential recommendation
0 引言
推薦系統(tǒng)對(duì)探索如何感知用戶(hù)真實(shí)興趣和解決信息爆炸問(wèn)題具有重要意義[1]。在推薦任務(wù)中,用戶(hù)與系統(tǒng)的交互過(guò)程可以被表示為一個(gè)動(dòng)態(tài)序列,該序列包含了用戶(hù)的反饋信息。一個(gè)典型的應(yīng)用是電子商務(wù)[2],用戶(hù)在平臺(tái)的活動(dòng)促銷(xiāo)頁(yè)面瀏覽、點(diǎn)擊、添加購(gòu)物車(chē),直到促銷(xiāo)選項(xiàng)滿(mǎn)足其興趣傾向進(jìn)而購(gòu)買(mǎi)該推薦選項(xiàng)。序列推薦系統(tǒng)[3~5]基于序列化的交互反饋信息挖掘用戶(hù)的興趣傾向,來(lái)提供滿(mǎn)足用戶(hù)個(gè)性化需求的服務(wù),極大地改善了人們的平臺(tái)使用體驗(yàn),因而具有重要的潛在商業(yè)價(jià)值。
一般來(lái)說(shuō),序列推薦系統(tǒng)中存在短期互動(dòng)和長(zhǎng)期互動(dòng)兩種不同類(lèi)型的用戶(hù)-商品交互行為。短期互動(dòng)反映了用戶(hù)當(dāng)前的偏好,具有高度的動(dòng)態(tài)性(內(nèi)動(dòng)態(tài))[6],例如由最近點(diǎn)擊商品ID組成的交互序列;而長(zhǎng)期互動(dòng)反映了用戶(hù)在平臺(tái)交互歷史當(dāng)中的興趣傾向[7,8],特點(diǎn)是時(shí)變緩慢相對(duì)穩(wěn)定(外傾向),例如點(diǎn)擊、收藏、喜歡、購(gòu)買(mǎi)等多種類(lèi)型不同價(jià)值的反饋信號(hào)。近期研究工作指出,用戶(hù)興趣內(nèi)動(dòng)態(tài)方面的充分挖掘,短期來(lái)看有助于提升推薦的相關(guān)性,進(jìn)而刺激用戶(hù)的活躍度,但忽略用戶(hù)外傾向方面的關(guān)注會(huì)降低推薦多樣性,進(jìn)而減少用戶(hù)長(zhǎng)期對(duì)平臺(tái)的黏住度。因此,聯(lián)合建模內(nèi)動(dòng)態(tài)和外傾向?qū)?shí)現(xiàn)個(gè)性化推薦既重要,又面臨諸多挑戰(zhàn)[9~11]。
經(jīng)典序列推薦算法[6,12]有效提升了用戶(hù)內(nèi)動(dòng)態(tài)方面的挖掘。為了同時(shí)挖掘用戶(hù)的外傾向方面,最近的研究提出一系列基于強(qiáng)化學(xué)習(xí)的序列推薦算法[7,8,13,14],將外傾向定義為價(jià)值激勵(lì)的累積,并通過(guò)累積價(jià)值激勵(lì)函數(shù)最大化過(guò)程的同時(shí)學(xué)習(xí)用戶(hù)的外傾向反饋和序列內(nèi)動(dòng)態(tài)反饋(圖1)。雖然強(qiáng)化學(xué)習(xí)序列推薦算法有效地建立了聯(lián)合優(yōu)化的序列推薦模型,但作為推薦策略網(wǎng)絡(luò)優(yōu)化指導(dǎo)信號(hào)的價(jià)值激勵(lì)函數(shù)受任務(wù)驅(qū)動(dòng),需要反復(fù)工程調(diào)試才能平衡不同反饋信號(hào)的價(jià)值區(qū)分度需求和強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程的穩(wěn)定性需求。由于系統(tǒng)數(shù)據(jù)庫(kù)積累了豐富的用戶(hù)歷史行為記錄,逆強(qiáng)化學(xué)習(xí)方法[15~17]提供了一種新的推薦范式,通過(guò)數(shù)據(jù)驅(qū)動(dòng)價(jià)值激勵(lì)函數(shù)的學(xué)習(xí),與啟發(fā)式設(shè)計(jì)的思路[7,14]相比,降低了任務(wù)復(fù)雜度(圖2)。同時(shí),由于累積價(jià)值激勵(lì)函數(shù)最大化過(guò)程使得交互軌跡依照價(jià)值高低拆分成不同的軌跡片段,并重組成新的、更高價(jià)值的完整軌跡成為可能,故該類(lèi)方法不需要假設(shè)用于學(xué)習(xí)價(jià)值激勵(lì)函數(shù)和最大化累積價(jià)值的歷史數(shù)據(jù)是完備的(即歷史數(shù)據(jù)完備性)[17~19]。文獻(xiàn)[20]指出“完備”的含義包括數(shù)量大和質(zhì)量覆蓋高價(jià)值推薦模式兩個(gè)方面)。然而,基于逆強(qiáng)化學(xué)習(xí)的序列推薦算法通常需要密集的在線(xiàn)交互來(lái)評(píng)估當(dāng)前推薦策略的性能(即同策略評(píng)估)。由于欠優(yōu)化的待估策略與真實(shí)用戶(hù)的即時(shí)交互可能會(huì)導(dǎo)致直接的商業(yè)損失和潛在的用戶(hù)流失[8],所以同策略評(píng)估在序列推薦任務(wù)中的應(yīng)用存在較大限制。同時(shí),相比異策略評(píng)估(利用平臺(tái)數(shù)據(jù)庫(kù)中未知但較優(yōu)的專(zhuān)家策略采集的歷史行為記錄數(shù)據(jù)評(píng)估當(dāng)前推薦策略的更新方法),同策略評(píng)估方法數(shù)據(jù)利用效率較低[21]。
針對(duì)逆強(qiáng)化學(xué)習(xí)存在的問(wèn)題,提出了一種異策略模仿-強(qiáng)化學(xué)習(xí)的序列推薦算法COG4Rec。鑒于啟發(fā)式激勵(lì)函數(shù)形式通常未知,而平臺(tái)容易積累用戶(hù)-系統(tǒng)交互行為模式(該行為演示模式由已部署的系統(tǒng)采集,采集系統(tǒng)πE通常未知),已有研究工作[19]指出,模仿學(xué)習(xí)在平臺(tái)數(shù)據(jù)完備條件下收斂到反映用戶(hù)真實(shí)行為模式的推薦策略,而強(qiáng)化學(xué)習(xí)在數(shù)據(jù)采集隨機(jī)非完備情況下,可以有效提高外傾向的累計(jì)價(jià)值函數(shù)。受該研究啟發(fā),COG4Rec的核心思路是模仿真實(shí)用戶(hù)行為,并通過(guò)參數(shù)化可學(xué)習(xí)的模仿度(由對(duì)數(shù)衰減狀態(tài)分布比表示)作為隱式價(jià)值激勵(lì)函數(shù),避免了啟發(fā)式設(shè)計(jì)過(guò)程。鑒于模仿學(xué)習(xí)過(guò)程假定用戶(hù)行為積累數(shù)據(jù)涵蓋最優(yōu)行為策略(完備假設(shè))且獨(dú)立同分布,COG4Rec從被模仿行為軌跡中挖掘高價(jià)值的片段重組以強(qiáng)化長(zhǎng)時(shí)累計(jì)價(jià)值,在不損失內(nèi)動(dòng)態(tài)的建模條件下,累計(jì)價(jià)值反映了用戶(hù)的外傾向分布,該強(qiáng)化學(xué)習(xí)過(guò)程避免了模仿學(xué)習(xí)分布漂移問(wèn)題。COG4Rec是一種基于衰減狀態(tài)分布匹配的逆強(qiáng)化學(xué)習(xí)方法。a)該方法通過(guò)匹配衰減狀態(tài)分布挖掘用戶(hù)外傾向,并通過(guò)自注意力機(jī)制學(xué)習(xí)用戶(hù)序列的內(nèi)動(dòng)態(tài);b)Donsker-Varadhan展開(kāi)將同策略更新的分布匹配目標(biāo)函數(shù)轉(zhuǎn)換為異策略更新;c)COG4Rec的策略評(píng)價(jià)網(wǎng)絡(luò)Critic采用隨機(jī)混合集成[22],避免異策略評(píng)估的探索誤差[8]。COG4Rec的貢獻(xiàn)包括:提出了一種新的異策略模仿-強(qiáng)化學(xué)習(xí)序列推薦算法,避免強(qiáng)化學(xué)習(xí)啟發(fā)式價(jià)值激勵(lì)函數(shù)設(shè)計(jì)增加推薦任務(wù)復(fù)雜度的同時(shí),聯(lián)合挖掘用戶(hù)的外傾向和內(nèi)動(dòng)態(tài)以提高綜合推薦性能。在序列推薦基準(zhǔn)數(shù)據(jù)集上的總體性能對(duì)比和消融實(shí)驗(yàn)分析證明了COG4Rec模型結(jié)構(gòu)和優(yōu)化算法的有效性。在真實(shí)場(chǎng)景的基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與深度自回歸序列推薦模型相比,COG4Rec相對(duì)提升17.60%;與啟發(fā)式強(qiáng)化學(xué)習(xí)序列推薦模型相比,COG4Rec相對(duì)提升3.25%。
1 研究基礎(chǔ)和術(shù)語(yǔ)
1.1 術(shù)語(yǔ)
強(qiáng)化學(xué)習(xí)通常將序列推薦問(wèn)題定義為馬爾可夫決策過(guò)程(S,A,P,R,ρ0,γ),其中:
最大化累積獎(jiǎng)勵(lì)函數(shù)的過(guò)程是系統(tǒng)對(duì)用戶(hù)外傾向的挖掘,該過(guò)程彌補(bǔ)了深度序列模型僅挖掘內(nèi)動(dòng)態(tài)面的不足,故自適應(yīng)的獎(jiǎng)勵(lì)函數(shù)R直接影響強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的成功應(yīng)用。
1.2 研究基礎(chǔ)
序列推薦[3,23]作為推薦系統(tǒng)的重要研究分支,受到研究人員的廣泛關(guān)注,其研究思路經(jīng)歷了深度學(xué)習(xí)時(shí)代前的協(xié)同濾波、深度序列推薦模型和強(qiáng)化學(xué)習(xí)序列推薦三個(gè)階段。本節(jié)首先總結(jié)了強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)工作,兩者組成COG4Rec的研究基礎(chǔ),最后詳細(xì)闡述了不同階段的研究工作進(jìn)展。
1)逆強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)通過(guò)學(xué)習(xí)參數(shù)化的目標(biāo)策略πθ(a|s)來(lái)最大化累積獎(jiǎng)勵(lì),該目標(biāo)反映了用戶(hù)的長(zhǎng)時(shí)外傾向:
其中:軌跡τ=(s0,a0,s1,a1,…,s|τ|,a|τ|)根據(jù)目標(biāo)推薦策略πθ(a|s),與用戶(hù)及時(shí)在線(xiàn)交互采樣獲得。
逆強(qiáng)化學(xué)習(xí)的目標(biāo)是根據(jù)專(zhuān)家演示集D={τexp1,…,τexp|D|},學(xué)習(xí)一個(gè)最優(yōu)的價(jià)值激勵(lì)函數(shù)R*,使得
其中:價(jià)值激勵(lì)函數(shù)的一種實(shí)現(xiàn)方式是特征線(xiàn)性映射。
R(s)=wT(s)(3)
2)模仿學(xué)習(xí)
行為克?。?4]是模仿學(xué)習(xí)中較早提出的一類(lèi)方法。其思路是根據(jù)專(zhuān)家演示集,最小化推薦策略πθ(a|s)在專(zhuān)家演示集上的交叉熵,來(lái)使得推薦策略與專(zhuān)家行為策略相似:
分布匹配的思路是利用衰減因子γ優(yōu)化動(dòng)作-狀態(tài)分布比,避免了式(4)面臨的分布漂移問(wèn)題。推薦策略的衰減狀態(tài)分布dπθ(s,a)可定義為
其中:s0~p0(·),st~p(·|st-1,at-1),at~πθ(·|st)。
演示數(shù)據(jù)集Euclid Math OneDAp:={(st,at,st+1)k}Nk=1根據(jù)未知的專(zhuān)家策略πdata采集。衰減分布匹配方法(discounted stationary distribution ratio,DDR)[25]通過(guò)最小化dπθ和dD之間KL散度來(lái)學(xué)習(xí)πθ,該最小化過(guò)程可轉(zhuǎn)換為強(qiáng)化學(xué)習(xí)累積激勵(lì)最大化:
其中:式(6)的狀態(tài)分布比對(duì)應(yīng)強(qiáng)化學(xué)習(xí)的激勵(lì)函數(shù)為
值得指出的是,式(7)既可以利用同策略強(qiáng)化學(xué)習(xí),也可以通過(guò)異策略強(qiáng)化學(xué)習(xí)優(yōu)化,但考慮到推薦任務(wù)對(duì)用戶(hù)隱私的保護(hù)[8],COG4Rec采用異策略評(píng)估的方法。
3)序列推薦系統(tǒng)
傳統(tǒng)推薦算法假設(shè)相似的用戶(hù)具有相似的喜好傾向,提出了基于矩陣分解的協(xié)同濾波算法,代表工作有BPR[26]、NCF[27]、FPMC[28]。BPR提出一種貝葉斯個(gè)性化排序推薦方法(成對(duì)型排序損失函數(shù)),使用一個(gè)有偏估計(jì)的分解矩陣作為推薦系統(tǒng)。針對(duì)有偏估計(jì)矩陣分解的問(wèn)題,NCF首次提出使用深度神經(jīng)網(wǎng)絡(luò)估計(jì)用戶(hù)-商品協(xié)同矩陣。FPMC方法則針對(duì)矩陣分解方法無(wú)法建模用戶(hù)-商品交互過(guò)程的問(wèn)題,提出一種基于馬爾可夫鏈的協(xié)同過(guò)濾模型,將交互序列近似為一階馬爾可夫鏈,并在序列化增強(qiáng)的成對(duì)型排序損失上優(yōu)化。上述方法無(wú)法建模高階用戶(hù)-商品交互過(guò)程。
傳統(tǒng)推薦算法的缺點(diǎn)在于無(wú)法建模高階用戶(hù)-商品交互過(guò)程?;谏疃葘W(xué)習(xí)的推薦模型將用戶(hù)-商品交互過(guò)程建模為時(shí)序序列,模型的潛狀態(tài)向量通過(guò)模型學(xué)習(xí)可以挖掘用戶(hù)的高階動(dòng)態(tài)興趣傾向。GRURec[29]應(yīng)用序列化神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)下一時(shí)刻用戶(hù)的興趣傾向。為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消散問(wèn)題和計(jì)算效率問(wèn)題,Caser[12]使用卷積神經(jīng)網(wǎng)絡(luò)作為推薦骨干網(wǎng)絡(luò)。SASRec[6]受機(jī)器翻譯等序列化生成任務(wù)的啟發(fā),使用Transformer結(jié)構(gòu)作為推薦骨干網(wǎng)絡(luò)。由于序列推薦系統(tǒng)中存在多種用戶(hù)反饋信號(hào),不同類(lèi)型的反饋信號(hào)對(duì)系統(tǒng)具有不同的價(jià)值,深度模型的局限是沒(méi)有考慮不同反饋信號(hào)的價(jià)值。
基于強(qiáng)化學(xué)習(xí)的序列推薦旨在優(yōu)化不同反饋信號(hào)的累積獎(jiǎng)勵(lì)函數(shù)。已有工作可以分為:a)基于策略梯度的方法,考慮到推薦問(wèn)題對(duì)實(shí)時(shí)用戶(hù)交互的限制,off-policy REINFOCE[30]采用異策略估計(jì)的方法實(shí)現(xiàn)YouTube平臺(tái)的視頻推薦,針對(duì)異策略估計(jì)需要對(duì)采樣行為策略樣本矯正的問(wèn)題,該方法提出一種基于傾向性分?jǐn)?shù)的重估方法;b)基于價(jià)值函數(shù)的方法,SQN模型[7]利用動(dòng)作-狀態(tài)價(jià)值函數(shù)時(shí)序差分優(yōu)化[31]來(lái)學(xué)習(xí)累積價(jià)值獎(jiǎng)勵(lì)最大化,并通過(guò)聯(lián)合優(yōu)化交叉熵時(shí)序預(yù)測(cè)來(lái)學(xué)習(xí)用戶(hù)的動(dòng)態(tài)興趣變化趨勢(shì),VPQ[14]在SQN的基礎(chǔ)上利用重采樣方法降低時(shí)序差分學(xué)習(xí)的方差;c)基于動(dòng)作-評(píng)價(jià)結(jié)構(gòu)的方法,SAC[7]利用動(dòng)作-狀態(tài)價(jià)值函數(shù)作為樣本權(quán)重加權(quán)交叉熵時(shí)序預(yù)測(cè)?;趶?qiáng)化學(xué)習(xí)的序列推薦的激勵(lì)函數(shù)設(shè)計(jì)主要由任務(wù)導(dǎo)向,需要反復(fù)調(diào)試?;趶?qiáng)化學(xué)習(xí)的序列推薦系統(tǒng)需要依賴(lài)專(zhuān)家知識(shí)設(shè)計(jì)激勵(lì)函數(shù),作為累積獎(jiǎng)勵(lì)最大化過(guò)程的優(yōu)化信號(hào),而該設(shè)計(jì)任務(wù)驅(qū)動(dòng)需要大量調(diào)試才能使強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程穩(wěn)定。
受到上述研究工作啟發(fā),本文提出一種基于衰減狀態(tài)分布匹配博弈(min-max)的激勵(lì)函數(shù)優(yōu)化方法,并且通過(guò)Gumbel max算子保證激勵(lì)函數(shù)具有高區(qū)分度,從而避免了激勵(lì)函數(shù)的調(diào)試;同時(shí),推薦策略網(wǎng)絡(luò)試圖降低推薦策略和專(zhuān)家行為策略的衰減狀態(tài)分布比來(lái)優(yōu)化推薦策略,策略評(píng)價(jià)網(wǎng)絡(luò)試圖優(yōu)化隱激勵(lì)函數(shù)(式(9))的估計(jì)來(lái)最大化累積獎(jiǎng)勵(lì)函數(shù),從而捕捉到不同反饋信號(hào)代表的價(jià)值信息。
2 異策略模仿學(xué)習(xí)方法
針對(duì)上述逆強(qiáng)化學(xué)習(xí)序列推薦方法存在的問(wèn)題,本文提出了一種異策略模仿-強(qiáng)化學(xué)習(xí)的序列推薦算法COG4Rec(off-poliCy imitatiOn learninG):對(duì)于價(jià)值激勵(lì)函數(shù)設(shè)計(jì)的挑戰(zhàn),通過(guò)對(duì)數(shù)衰減狀態(tài)分布比模仿用戶(hù)外傾向的價(jià)值激勵(lì)函數(shù);對(duì)于同策略交互的挑戰(zhàn),通過(guò)Donsker-Varadhan展開(kāi)得到異策略更新的優(yōu)化目標(biāo)。同時(shí),因?yàn)橥扑]問(wèn)題缺乏公認(rèn)的基準(zhǔn)仿真器,COG4Rec提出了一種基于隨機(jī)混合集成[22]的策略評(píng)價(jià)網(wǎng)絡(luò),以隨機(jī)性增加多樣性。
2.1 問(wèn)題定義
序列推薦系統(tǒng)利用用戶(hù)-商品交互記錄來(lái)強(qiáng)化未來(lái)的推薦:給定用戶(hù)最近t個(gè)交互的商品序列(i1,i2,…,it)和用戶(hù)反饋類(lèi)型(如點(diǎn)擊和購(gòu)買(mǎi)),系統(tǒng)旨在利用平臺(tái)收集的歷史行為樣本作為專(zhuān)家演示集,將其表示為集合Euclid Math OneDAp,預(yù)測(cè)下一個(gè)候選的it+1,同時(shí)限制序列的最大長(zhǎng)度為n,即t<n,如果長(zhǎng)度短于n,采用右補(bǔ)齊的方式到最大長(zhǎng)度。
2.2 框架概述
如圖3所示,COG4Rec包含用于推薦的推薦策略網(wǎng)絡(luò)actor和用于評(píng)估推薦的策略評(píng)價(jià)網(wǎng)絡(luò)critic兩個(gè)主要部分。推薦策略網(wǎng)絡(luò)actor首先用可學(xué)習(xí)的位置感知編碼將推薦項(xiàng)目空間映射到編碼空間,進(jìn)而基于注意力機(jī)制編碼表示用戶(hù)狀態(tài)向量。策論評(píng)價(jià)網(wǎng)絡(luò)critic采用前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),基于actor推薦動(dòng)作和用戶(hù)狀態(tài)預(yù)測(cè)可能的累積獎(jiǎng)勵(lì),并使用多簇隨機(jī)混合集成彌補(bǔ)數(shù)據(jù)集Euclid Math OneDAp的多樣性不足。下一時(shí)刻的推薦候選項(xiàng)采用協(xié)同濾波的思路,通過(guò)actor注意力模塊輸出結(jié)果與用戶(hù)潛在狀態(tài)編碼向量的內(nèi)積得到。
2.3 模型結(jié)構(gòu)
為了實(shí)現(xiàn)式(8)提出的基于衰減狀態(tài)分布匹配的生成對(duì)抗學(xué)習(xí)過(guò)程,COG4Rec設(shè)計(jì)了一種基于actor-critic模型架構(gòu),如圖3所示。
2.3.1 推薦策略網(wǎng)絡(luò)actor
為了挖掘用戶(hù)的內(nèi)動(dòng)態(tài)傾向,推薦策略網(wǎng)絡(luò)actor采用了多頭自注意力模塊作為主干網(wǎng)絡(luò),本節(jié)依次介紹網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。
b)自注意力模塊。注意力機(jī)制計(jì)算的是取值按維度系數(shù)縮放的加權(quán)和,可定義為
其中:j∈{1,2,…}表示當(dāng)前交互序列的前j項(xiàng)。為了增加actor的網(wǎng)絡(luò)深度從而學(xué)習(xí)更高階的用戶(hù)表征向量,COG4Rec采用了殘差連接和層歸一化增強(qiáng),如圖3的self-attention所示。
c)預(yù)測(cè)層。為了預(yù)測(cè)用戶(hù)的候選推薦項(xiàng),actor在自注意力模塊的基礎(chǔ)上,利用用戶(hù)編碼共享的商品編碼空間進(jìn)行內(nèi)積矩陣因式分解[6],得到相關(guān)預(yù)測(cè)分?jǐn)?shù):
ri,t=S(b)tETi(15)
其中:ri,t表示商品i與當(dāng)前用戶(hù)狀態(tài)S(b)t的相關(guān)性,即成為下一個(gè)候選項(xiàng)的可能性。雖然共享用戶(hù)與商品編碼空間存在一致對(duì)稱(chēng)過(guò)擬合的風(fēng)險(xiǎn),但逐點(diǎn)前饋網(wǎng)絡(luò)(式(12)所示)引入的非線(xiàn)性能確保式(15)學(xué)習(xí)到非對(duì)稱(chēng)的商品編碼轉(zhuǎn)換。
值得注意的是,雖然策略評(píng)價(jià)網(wǎng)絡(luò)critic和推薦策略網(wǎng)絡(luò)actor均可完成預(yù)測(cè)層任務(wù),其中critic強(qiáng)調(diào)序列外傾向估值,actor關(guān)注序列內(nèi)動(dòng)態(tài)相關(guān)性,但是由于離線(xiàn)環(huán)境的限制,相關(guān)研究工作[7]指出,critic作為推薦預(yù)測(cè)端,會(huì)導(dǎo)致actor梯度估計(jì)方差上升。因此COG4Rec采用actor網(wǎng)絡(luò)進(jìn)行推薦預(yù)測(cè)。
2.3.2 策略評(píng)價(jià)網(wǎng)絡(luò)critic
為了挖掘用戶(hù)歷史交互的外傾向,COG4Rec采用策略評(píng)價(jià)網(wǎng)絡(luò)critic最小化推薦策略分布和用戶(hù)行為記錄分布的狀態(tài)分布匹配差異,來(lái)最大化代表外傾向的累積價(jià)值激勵(lì),網(wǎng)絡(luò)結(jié)構(gòu)如圖3 critic所示。具體來(lái)說(shuō),critic在逐點(diǎn)前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上采用了C簇隨機(jī)混合集成[22],以隨機(jī)性緩解專(zhuān)家演示樣本Euclid Math OneDAp多樣性不足的問(wèn)題,并通過(guò)集成方式,避免隨機(jī)混合引入的噪聲。具體來(lái)說(shuō),critic以當(dāng)前狀態(tài)編碼向量和推薦項(xiàng)目編碼向量作為輸入:
綜上所述,圖4給出了COG4Rec模型的推薦流程,首先初始化參數(shù)模型,進(jìn)而根據(jù)推薦結(jié)果是否得到正反饋(更新最大似然估計(jì))和是否得到高價(jià)值正反饋(更新衰減匹配分布)來(lái)更新模型參數(shù),并利用actor網(wǎng)絡(luò)通過(guò)貪心搜索的方式得到推薦列表,反復(fù)迭代得到完整的交互軌跡。
2.4 模型優(yōu)化
為了解決有效利用作為專(zhuān)家演示的歷史記錄數(shù)據(jù)Euclid Math OneDAp,并聯(lián)合挖掘用戶(hù)興趣的內(nèi)動(dòng)態(tài)方面和外傾向方面,COG4Rec采用衰減狀態(tài)分布匹配的生成對(duì)抗優(yōu)化過(guò)程:策略評(píng)價(jià)網(wǎng)絡(luò)critic最小化推薦策略分布和用戶(hù)行為記錄分布的狀態(tài)分布匹配差異,避免了強(qiáng)化學(xué)習(xí)啟發(fā)式設(shè)計(jì)價(jià)值激勵(lì)函數(shù)的過(guò)程;COG4Rec的推薦策略網(wǎng)絡(luò)actor最大化累積對(duì)數(shù)衰減狀態(tài)分布比,避免了模仿學(xué)習(xí)分布漂移的問(wèn)題。
2.4.1 外傾向?qū)W習(xí)
為了挖掘用戶(hù)歷史交互的外傾向,COG4Rec提出了一種基于衰減狀態(tài)分布比的優(yōu)化學(xué)習(xí)過(guò)程。具體來(lái)說(shuō),式(6)Donsker-Varadhan展開(kāi)得到:
其中:r(s,a)通過(guò)對(duì)式(6)進(jìn)行貝爾曼算子轉(zhuǎn)換得到
其中:策略評(píng)價(jià)網(wǎng)絡(luò)ν(s,a)作用相當(dāng)于狀態(tài)-動(dòng)作價(jià)值函數(shù),充分優(yōu)化學(xué)習(xí)后可近似對(duì)數(shù)衰減分布比(式(19)右側(cè)所示),貝爾曼算子定義為
其中:為簡(jiǎn)化表示,將t+1時(shí)刻狀態(tài)動(dòng)作表示為t′標(biāo)記,代入貝爾曼算子得到優(yōu)化目標(biāo)JDDR。
其中:因?yàn)樗p狀態(tài)分布(式(19)所示)的引入使同策略的采樣(式(18)第二項(xiàng))化簡(jiǎn)為利用專(zhuān)家演示集進(jìn)行的采樣(式(21)第二項(xiàng)),故式(21)是異策略的。
2.4.2 內(nèi)動(dòng)態(tài)學(xué)習(xí)
為了挖掘用戶(hù)當(dāng)前序列的內(nèi)動(dòng)態(tài)傾向,COG4Rec采用最大似然估計(jì)(maximum likelihood estimation,MLE)作為內(nèi)動(dòng)態(tài)的學(xué)習(xí)目標(biāo),如下:
該目標(biāo)基于當(dāng)前交互歷史,自回歸地優(yōu)化下一時(shí)刻的預(yù)測(cè),因此,能夠使得模型向著挖掘內(nèi)動(dòng)態(tài)方向更新參數(shù)。
算法1 優(yōu)化算法
2.4.3 整體優(yōu)化目標(biāo)
如算法1所示,用戶(hù)內(nèi)動(dòng)態(tài)和外傾向的整體優(yōu)化如下:
其中:推薦策略網(wǎng)絡(luò)actor通過(guò)最大化衰減狀態(tài)分布比來(lái)逼近專(zhuān)家策略; 策略評(píng)價(jià)網(wǎng)絡(luò)critic通過(guò)最小化衰減狀態(tài)分布比來(lái)評(píng)估生成的策略。策略評(píng)價(jià)網(wǎng)絡(luò)critic收斂的解析最優(yōu)解可以表示為(對(duì)式(21)兩側(cè)求導(dǎo)等于0可得)
值得指出的是,式(24)為同策略逆強(qiáng)化學(xué)習(xí)方法GAIL[15]及GCL[16]的顯式優(yōu)化目標(biāo),直接估計(jì)式(23)的分布比需要大量同策略交互,故GAIL[15]和GCL[16]的策略更新數(shù)據(jù)利用率較異策略更新方法有所下降。
3 實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證COG4Rec的有效性,實(shí)驗(yàn)工作在兩個(gè)基準(zhǔn)序列推薦數(shù)據(jù)集(Yoochoose和Retailrocket)上進(jìn)行了廣泛的對(duì)比研究。首先,對(duì)COG4Rec與代表性的推薦系統(tǒng)基線(xiàn)方法比較了top-k推薦性能,以進(jìn)行總體性能對(duì)比;然后,在Retailrocket數(shù)據(jù)集上,對(duì)COG4Rec進(jìn)行詳細(xì)的消融實(shí)驗(yàn)分析,以證明該算法關(guān)鍵設(shè)計(jì)對(duì)系統(tǒng)性能提升的貢獻(xiàn)。
a)實(shí)驗(yàn)設(shè)置?;鶞?zhǔn)序列推薦數(shù)據(jù)集Yoochoose和Retailrocket分別包含點(diǎn)擊和購(gòu)買(mǎi)兩類(lèi)交互反饋。為了保持不同推薦模型對(duì)比的一致性,實(shí)驗(yàn)中遵照文獻(xiàn)[7]的預(yù)處理過(guò)程,刪除了Yoochoose和Retailrocket中互動(dòng)次數(shù)少于三次的序列,得到的數(shù)據(jù)集統(tǒng)計(jì)結(jié)果如表1所示。實(shí)驗(yàn)用于衡量推薦性能的兩個(gè)指標(biāo)是:表征top-k排序性能(k∈{5,10,20})的歸一化折損累計(jì)增益NG;反映召回性能的命中率HR[7]。
b)對(duì)比基線(xiàn)。選擇了具有代表性的序列推薦算法:(a)深度自回歸序列推薦系統(tǒng)GRURec[29]、Caser[12]、SASRec[6],其自回歸網(wǎng)絡(luò)結(jié)構(gòu)(GRU、CNN、Transformer)能有效地學(xué)習(xí)用戶(hù)內(nèi)動(dòng)態(tài)特性,其表現(xiàn)性能優(yōu)于一階馬爾可夫協(xié)同分解[28];(b)基于強(qiáng)化學(xué)習(xí)的序列推薦模型,基于狀態(tài)-動(dòng)作價(jià)值函數(shù)的VPQ[14]和SSQN[7]、基于“actor-critic”神經(jīng)網(wǎng)絡(luò)架構(gòu)的SSAC[7]和兩種離線(xiàn)強(qiáng)化學(xué)習(xí)方法作為骨干網(wǎng)絡(luò)的CQL[32]和UWAC[33]。
c)實(shí)現(xiàn)細(xì)節(jié)。兩個(gè)數(shù)據(jù)集采用的輸入序列長(zhǎng)度均為10個(gè)當(dāng)前時(shí)刻的近期交互,并使用數(shù)據(jù)集交互商品數(shù)作為右補(bǔ)齊的掩碼向量,編碼向量均采用64維,批量輸入(batch size)大小為128,實(shí)驗(yàn)統(tǒng)一采用與VPQ相同的激勵(lì)函數(shù)設(shè)置方法(購(gòu)買(mǎi)價(jià)值為1,點(diǎn)擊價(jià)值為0.2)。CQL超參數(shù)α設(shè)為0.5,VPQ的λ=20,UWAC的λ=1.6。VPQ、SSQN、SSAC和COG4Rec從actor網(wǎng)絡(luò)預(yù)測(cè)下一時(shí)刻推薦,CQL和UWAC的推薦策略采用maxaQ(s,a)的貪心搜索得到。COG4Rec采用了單頭兩層自注意力模塊,實(shí)現(xiàn)過(guò)程參考SASRec結(jié)構(gòu)(SASRec代碼地址:https://github.com/kang205/SASRec)。推薦策略網(wǎng)絡(luò)actor的學(xué)習(xí)率為1E-4,策略評(píng)價(jià)網(wǎng)絡(luò)critic的學(xué)習(xí)率為1E-3,通過(guò)Adam執(zhí)行模型反向傳播優(yōu)化。actor網(wǎng)絡(luò)在自注意力模塊之后通過(guò)兩層前饋神經(jīng)網(wǎng)絡(luò)(為了節(jié)省計(jì)算資源,實(shí)驗(yàn)中采用兩層前饋神經(jīng)網(wǎng)絡(luò)作為非線(xiàn)性映射)映射用戶(hù)狀態(tài)編碼和商品編碼(隱藏層64維),并通過(guò)內(nèi)積函數(shù)式(24)預(yù)測(cè)相關(guān)分?jǐn)?shù)r。策略評(píng)價(jià)網(wǎng)絡(luò)critic的折扣系數(shù)設(shè)為0.95,兩層前饋神經(jīng)網(wǎng)絡(luò)(隱藏層64維,非線(xiàn)性函數(shù)為ReLU)映射后,通過(guò)15簇(C=15)隨機(jī)混合得到評(píng)價(jià)分?jǐn)?shù)v,actor和critic同步更新。
3.1 總體性能對(duì)比
表2、3分別列出了Retailrocket和Yoochoose的性能比較,其中:最優(yōu)結(jié)果粗體表示,次優(yōu)結(jié)果下畫(huà)線(xiàn)表示,“*”表示雙邊t檢驗(yàn),p<0.05。a)與傳統(tǒng)序列推薦模型GRU4Rec、Caser和SASRec相比,COG4Rec的提升歸功于衰減狀態(tài)分布優(yōu)化的同時(shí)建模了用戶(hù)的累計(jì)外傾向,而傳統(tǒng)模型則僅依賴(lài)用戶(hù)序列行為內(nèi)動(dòng)態(tài),使得策略網(wǎng)絡(luò)缺失長(zhǎng)時(shí)累計(jì)價(jià)值反饋的監(jiān)督引導(dǎo),因此只反映了序列動(dòng)態(tài)轉(zhuǎn)移的用戶(hù)興趣傾向。由于深度自回歸模型存在梯度消散的問(wèn)題,故模型本身無(wú)法有效建模長(zhǎng)時(shí)興趣。b)與SSQN和SSAC相比,SSQN和SSAC的特點(diǎn)是均采用深度Q學(xué)習(xí),Q學(xué)習(xí)依靠與環(huán)境交互來(lái)糾正異策略估計(jì)的偏差,而離線(xiàn)學(xué)習(xí)要求導(dǎo)致評(píng)估偏差會(huì)在當(dāng)前任務(wù)中累積,從而阻礙這兩種方法有效學(xué)習(xí)用戶(hù)的外傾向,而COG4Rec將異策略估計(jì)偏差(表現(xiàn)為KL散度)作為critic網(wǎng)絡(luò)優(yōu)化的學(xué)習(xí)目標(biāo)。c)基于強(qiáng)化學(xué)習(xí)的序列推薦模型VPQ、CQL和UWAC通過(guò)Q函數(shù)的不確定性來(lái)估計(jì)預(yù)測(cè)方差,并使用乘性加權(quán)(VPQ、UWAC)或減性歸一化(CQL)的方法來(lái)消除不確定性,而不確定性由啟發(fā)式設(shè)計(jì)得到,因而缺乏自適應(yīng)性。式(8)的收斂點(diǎn)等價(jià)于對(duì)數(shù)分布比形式的激勵(lì)函數(shù)式(9),因此actor最大化累積激勵(lì)的過(guò)程式(11)避免了啟發(fā)式設(shè)計(jì),COG4Rec更具適應(yīng)性。
綜上所述,COG4Rec通過(guò)異策略衰減狀態(tài)分布匹配學(xué)習(xí)的方式解決強(qiáng)化學(xué)習(xí)策略評(píng)估的及時(shí)交互挑戰(zhàn),提高了數(shù)據(jù)使用效率,并通過(guò)收斂到對(duì)數(shù)分布比形式的價(jià)值激勵(lì)函數(shù)來(lái)避免啟發(fā)式設(shè)計(jì)激勵(lì)函數(shù)形式的挑戰(zhàn)。
3.2 消融實(shí)驗(yàn)分析
為了驗(yàn)證COG4Rec關(guān)鍵設(shè)計(jì)的有效性,本文在Retailrocket數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)(表4給出k=20的結(jié)果,其他k值具備類(lèi)似的統(tǒng)計(jì)趨勢(shì))。表4第一行(“val-only”)表示僅基于 IDDR(r,v) 優(yōu)化actor和critic兩個(gè)網(wǎng)絡(luò),該策略強(qiáng)調(diào)對(duì)用戶(hù)外傾向的捕捉,與僅依靠 IMLE(r) 優(yōu)化actor網(wǎng)絡(luò)去掉critic網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果(“rel-only”)相比,它的性能有所下降,這是因?yàn)闋顟B(tài)-動(dòng)作價(jià)值函數(shù)時(shí)序差分學(xué)習(xí)無(wú)法通過(guò)在線(xiàn)交互矯正異策略方差較大的問(wèn)題,如前所述基于隱私安全性的考慮,欠優(yōu)化的推薦系統(tǒng)與用戶(hù)的在線(xiàn)互動(dòng)受到限制。用戶(hù)外傾向IDDR(r,v)和內(nèi)動(dòng)態(tài)IMLE(r)聯(lián)合優(yōu)化的預(yù)測(cè)結(jié)果(“val+rel-rem”)效果更好,證明了COG4Rec優(yōu)化目標(biāo)(式(15))的有效性。引入隨機(jī)混合集成的聯(lián)合優(yōu)化預(yù)測(cè)結(jié)果(“val+rel+rem”)進(jìn)一步分散了數(shù)據(jù)樣本,從而實(shí)現(xiàn)了最佳性能。
綜上所述,進(jìn)一步的消融實(shí)驗(yàn)驗(yàn)證了衰減狀態(tài)分布匹配的聯(lián)合優(yōu)化目標(biāo)(式(13)所示)和隨機(jī)混合集成方法(式(24)所示)對(duì)提升COG4Rec推薦性能的重要性。
4 結(jié)束語(yǔ)
本文提出了一種基于異策略衰減狀態(tài)分布匹配的新型序列推薦算法COG4Rec,在收斂到對(duì)數(shù)分布比形式的價(jià)值激勵(lì)函數(shù)的同時(shí),保證了累積用戶(hù)反饋激勵(lì)最大化。此外,COG4Rec采用異策略更新的方式迭代推薦策略,因而提高了數(shù)據(jù)使用效率。值得指出的是,COG4Rec使用的隨機(jī)混合集成是增加演示數(shù)據(jù)多樣性的初步折中方案,而基于用戶(hù)模型因果建模的模仿學(xué)習(xí)則是未來(lái)進(jìn)一步值得探索的方向。
參考文獻(xiàn):
[1]Zangerle E, Bauer C. Evaluating recommender systems: survey and framework[J]. ACM Computing Surveys, 2022,55(8): 1-38.
[2]Zhao Xiangyu, Zhang Liang, Ding Zhuye, et al. Recommendations with negative feedback via pairwise deep reinforcement learning[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 1040-1048.
[3]Fang Hui, Guo Guibing, Zhang Danning, et al. Deep learning-based sequential recommender systems:concepts, algorithms, and evaluations[M]//Bakaev M, Frasincar F, Ko I Y. Web Engineering. Cham: Springer, 2019: 574-577.
[4]張杰, 陳可佳. 關(guān)聯(lián)項(xiàng)目增強(qiáng)的多興趣序列推薦方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(2): 456-462. (Zhang Jie, Chen Kejia. Item associations aware multi-interest sequential recommendation method[J]. Application Research of Computers, 2023,40(2): 456-462.)
[5]歐道源, 梁京章, 吳麗娟. 基于高斯分布建模的序列推薦算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2023,40(4): 1108-1112. (Ou Daoyuan, Liang Jingzhang, Wu Lijuan. Algorithm of sequential recommendation based on Gaussian distribution modeling[J]. Application Research of Computers, 2023,40(4): 1108-1112.)
[6]Kang W C, Mcauley J. Self-attentive sequential recommendation[C]//Proc of IEEE International Conference on Data Mining. Pisca-taway, NJ: IEEE Press, 2018: 197-206.
[7]Xin Xin, Karatzoglou A, Arapakis I, et al. Self-supervised reinforcement learning for recommender systems[C]//Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2020: 931-940.
[8]Xiao Teng, Wang Donglin. A general offline reinforcement learning framework for interactive recommendation[C]//Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 4512-4520.
[9]Xu Chengfeng, Zhao Pengpeng, Liu Yanchi, et al. Recurrent convolutional neural network for sequential recommendation[C]//Proc of the World Wide Web Conference. New York:ACM Press, 2019: 3398-3404.
[10]Duan Jiasheng, Zhang Pengfei, Qiu Ruihong, et al. Long short-term enhanced memory for sequential recommendation[J]. World Wide Web, 2023,26(2): 561-583.
[11]Xu Chengfeng, Feng Jian, Zhao Pengpeng, et al. Long-and short-term self-attention network for sequential recommendation[J]. Neurocomputing, 2021,423: 580-589.
[12]Tang Jiaxi, Wang Ke. Personalized top-n sequential recommendation via convolutional sequence embedding[C]//Proc of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 565-573.
[13]Bai Xueying, Guan Jian, Wang Hongning. A model-based reinforcement learning with adversarial training for online recommendation[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 10735-10746.
[14]Gao Chengqian, Xu Ke, Zhou Kuangqi, et al. Value penalized Q-learning for recommender systems[C]//Proc of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2022: 2008-2012.
[15]Ho J, Ermon S. Generative adversarial imitation learning[C]//Proc of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 4572-4580.
[16]Finn C, Levine S, Abbeel P. Guided cost learning: deep inverse optimal control via policy optimization[C]//Proc of the 33rd International Conference on Machine Learning.[S.l.]: JMLR.org, 2016: 49-58.
[17]Fu J, Luo K, Levine S. Learning robust rewards with adverserial inverse reinforcement learning[EB/OL]. (2018-02-23). https://openreview.net/forum? id=rkHywl-A-.
[18]Kumar A, Hong J, Singh A, et al. When should we prefer offline reinforcement learning over behavioral cloning?[EB/OL]. (2022-04-12). https://browse.arxiv.org/abs/2204.05618.
[19]Rashidinejad P, Zhu Banghua, Ma Cong, et al. Bridging offline reinforcement learning and imitation learning: a tale of pessimism[J]. IEEE Trans on Information Theory, 2022,68(12): 8156-8196.
[20]Jing Mingxuan, Ma Xiaojian, Huang Wenbing, et al. Reinforcement learning from imperfect demonstrations under soft expert guidance[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 5109-5116.
[21]Kostrikov I, Agrawal K K, Dwibedi D, et al. Discriminator-actor-critic: addressing sample inefficiency and reward bias in adversarial imitation learning[EB/OL]. (2018-10-15). https://browse.arxiv.org/abs/1809.02925.
[22]Agarwal R, Schuurmans D, Norouzi M. An optimistic perspective on offline reinforcement learning[C]//Proc of the 37th International Conference on Machine Learning. [S.l.]: PMLR, 2020: 104-114.
[23]Zhang Shuai, Yao Lina, Sun Aixin, et al. Deep learning based recommender system: a survey and new perspectives[J]. ACM Computing Surveys, 2019, 52(1): article No. 5.
[24]Atkeson C G, Schaal S. Robot learning from demonstration[C]//Proc of the 14th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann Publishers Inc., 1997: 12-20.
[25]Nachum O,Chow Y,Dai Bo,et al. Dualdice: behavior-agnostic estimation of discounted stationary distribution corrections[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc.,2019:article No.208.
[26]Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C]//Proc of the 25th Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia: AUAI Press, 2009: 452-461.
[27]He Xiangnan, Liao Lizi, Zhang Hanwang, et al. Neural collaborative filtering[C]//Proc of the 26th International Conference on World Wide Web. Republic and Canton of Geneva, CHE: International World Wide Web Conferences Steering Committee. 2017: 173-182.
[28]Rendle S,F(xiàn)reudenthaler C,Schmidt-Thieme L. Factorizing personalized Markov chains for next-basket recommendation[C]//Proc of the 19th International Conference on World Wide Web. New York: ACM Press, 2010: 811-820.
[29]Hidasi B, Karatzoglou A, Baltrunas L, et al. Session-based recommendations with recurrent neural networks[EB/OL]. (2016-03-29). https://arXiv.org/abs/1511.06939.
[30]Chen Minmin, Beutel A, Covington P, et al. Top-k off-policy correction for a REINFORCE recommender system[C]//Proc of the 12th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2019: 456-465.
[31]Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015,518(7540): 529-533.
[32]Kumar A, Zhou A, Tucker G, et al. Conservative Q-learning for offline reinforcement learning[C]//Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: article No. 100.
[33]Wu Yue, Zhai Shuangfei, Srivastava N, et al. Uncertainty weighted actor-critic for offline reinforcement learning[EB/OL]. (2021-05-17). https://arxiv.org/abs/2105.08140.