• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    異策略模仿-強(qiáng)化學(xué)習(xí)序列推薦算法

    2024-06-01 23:56:36劉珈麟賀澤宇李俊

    劉珈麟 賀澤宇 李俊

    摘 要:最近,強(qiáng)化學(xué)習(xí)序列推薦系統(tǒng)受到研究者們的廣泛關(guān)注,這得益于它能更好地聯(lián)合建模用戶(hù)感興趣的內(nèi)動(dòng)態(tài)和外傾向。然而,現(xiàn)有方法面臨同策略評(píng)估方法數(shù)據(jù)利用率低,導(dǎo)致模型依賴(lài)大量的專(zhuān)家標(biāo)注數(shù)據(jù),以及啟發(fā)式價(jià)值激勵(lì)函數(shù)設(shè)計(jì)依賴(lài)反復(fù)人工調(diào)試兩個(gè)主要挑戰(zhàn)。因此,提出了一種新穎的異策略模仿-強(qiáng)化學(xué)習(xí)的序列推薦算法COG4Rec,以提高數(shù)據(jù)利用效率和實(shí)現(xiàn)可學(xué)習(xí)的價(jià)值函數(shù)。首先,它通過(guò)異策略方式更新分布匹配目標(biāo)函數(shù),來(lái)避免同策略更新密集在線(xiàn)交互限制;其次,COG4Rec采用可學(xué)習(xí)的價(jià)值函數(shù)設(shè)計(jì),通過(guò)對(duì)數(shù)衰減狀態(tài)分布比,模仿用戶(hù)外傾向的價(jià)值激勵(lì)函數(shù);最后,為了避免模仿學(xué)習(xí)分布漂移問(wèn)題,COG4Rec通過(guò)累積衰減分布比,強(qiáng)化用戶(hù)行為記錄中高價(jià)值軌跡片段重組推薦策略。一系列基準(zhǔn)數(shù)據(jù)集上的性能對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)結(jié)果表明:COG4Rec比自回歸模型提升了17.60%,它比啟發(fā)式強(qiáng)化學(xué)習(xí)方法提升了3.25%。這證明了所提模型結(jié)構(gòu)和優(yōu)化算法的有效性。這也證明可學(xué)習(xí)的價(jià)值函數(shù)是可行的,并且異策略方式能有效提高數(shù)據(jù)利用效率。

    關(guān)鍵詞:異策略評(píng)估; 模仿學(xué)習(xí); 逆強(qiáng)化學(xué)習(xí); 序列推薦

    中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A?文章編號(hào):1001-3695(2024)05-010-1349-07

    doi:10.19734/j.issn.1001-3695.2023.10.0447

    Off-policy imitation-reinforcement learning for sequential recommendation

    Abstract:Recently, reinforcement learning sequence recommender systems have received widespread attention because they can better model the internal dynamics and external tendencies of user interests. However, existing methods face two major challenges: low utilization of same-strategy evaluation data causes the model to rely on a large amount of expert annotation data and heuristic value incentive functions rely on costly repeated manual debugging. This paper proposed a new hetero-strategic imitation-reinforcement learning method to improve data utilization efficiency and achieve a learnable value function. Firstly, it updated the distribution matching objective function through different strategies to avoid the intensive online interaction limitations of same-strategy updates. Secondly, COG4Rec adopted a learnable value function design and imitated the value incentive function of outdoor tendencies through the logarithmic decay state distribution ratio. Finally, in order to avoid the problem of imitation learning distribution drift, COG4Rec strengthened the recommendation strategy for recombining high-value trajectory segments in user behavior records through the cumulative attenuation distribution ratio. The results of performance comparison experiments and ablation experiments on a series of benchmark data sets show that COG4Rec is 17.60% better than the autoregressive model and 3.25% better than the heuristic reinforcement learning method. This proves the effectiveness of the proposed COG4Rec model structure and optimization algorithm. This also proves that the design of a learnable value function is feasible, and the heterogeneous strategy approach can effectively improve data utilization efficiency.

    Key words:off-policy evaluation; imitation learning; inverse reinforcement learning; sequential recommendation

    0 引言

    推薦系統(tǒng)對(duì)探索如何感知用戶(hù)真實(shí)興趣和解決信息爆炸問(wèn)題具有重要意義[1]。在推薦任務(wù)中,用戶(hù)與系統(tǒng)的交互過(guò)程可以被表示為一個(gè)動(dòng)態(tài)序列,該序列包含了用戶(hù)的反饋信息。一個(gè)典型的應(yīng)用是電子商務(wù)[2],用戶(hù)在平臺(tái)的活動(dòng)促銷(xiāo)頁(yè)面瀏覽、點(diǎn)擊、添加購(gòu)物車(chē),直到促銷(xiāo)選項(xiàng)滿(mǎn)足其興趣傾向進(jìn)而購(gòu)買(mǎi)該推薦選項(xiàng)。序列推薦系統(tǒng)[3~5]基于序列化的交互反饋信息挖掘用戶(hù)的興趣傾向,來(lái)提供滿(mǎn)足用戶(hù)個(gè)性化需求的服務(wù),極大地改善了人們的平臺(tái)使用體驗(yàn),因而具有重要的潛在商業(yè)價(jià)值。

    一般來(lái)說(shuō),序列推薦系統(tǒng)中存在短期互動(dòng)和長(zhǎng)期互動(dòng)兩種不同類(lèi)型的用戶(hù)-商品交互行為。短期互動(dòng)反映了用戶(hù)當(dāng)前的偏好,具有高度的動(dòng)態(tài)性(內(nèi)動(dòng)態(tài))[6],例如由最近點(diǎn)擊商品ID組成的交互序列;而長(zhǎng)期互動(dòng)反映了用戶(hù)在平臺(tái)交互歷史當(dāng)中的興趣傾向[7,8],特點(diǎn)是時(shí)變緩慢相對(duì)穩(wěn)定(外傾向),例如點(diǎn)擊、收藏、喜歡、購(gòu)買(mǎi)等多種類(lèi)型不同價(jià)值的反饋信號(hào)。近期研究工作指出,用戶(hù)興趣內(nèi)動(dòng)態(tài)方面的充分挖掘,短期來(lái)看有助于提升推薦的相關(guān)性,進(jìn)而刺激用戶(hù)的活躍度,但忽略用戶(hù)外傾向方面的關(guān)注會(huì)降低推薦多樣性,進(jìn)而減少用戶(hù)長(zhǎng)期對(duì)平臺(tái)的黏住度。因此,聯(lián)合建模內(nèi)動(dòng)態(tài)和外傾向?qū)?shí)現(xiàn)個(gè)性化推薦既重要,又面臨諸多挑戰(zhàn)[9~11]。

    經(jīng)典序列推薦算法[6,12]有效提升了用戶(hù)內(nèi)動(dòng)態(tài)方面的挖掘。為了同時(shí)挖掘用戶(hù)的外傾向方面,最近的研究提出一系列基于強(qiáng)化學(xué)習(xí)的序列推薦算法[7,8,13,14],將外傾向定義為價(jià)值激勵(lì)的累積,并通過(guò)累積價(jià)值激勵(lì)函數(shù)最大化過(guò)程的同時(shí)學(xué)習(xí)用戶(hù)的外傾向反饋和序列內(nèi)動(dòng)態(tài)反饋(圖1)。雖然強(qiáng)化學(xué)習(xí)序列推薦算法有效地建立了聯(lián)合優(yōu)化的序列推薦模型,但作為推薦策略網(wǎng)絡(luò)優(yōu)化指導(dǎo)信號(hào)的價(jià)值激勵(lì)函數(shù)受任務(wù)驅(qū)動(dòng),需要反復(fù)工程調(diào)試才能平衡不同反饋信號(hào)的價(jià)值區(qū)分度需求和強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程的穩(wěn)定性需求。由于系統(tǒng)數(shù)據(jù)庫(kù)積累了豐富的用戶(hù)歷史行為記錄,逆強(qiáng)化學(xué)習(xí)方法[15~17]提供了一種新的推薦范式,通過(guò)數(shù)據(jù)驅(qū)動(dòng)價(jià)值激勵(lì)函數(shù)的學(xué)習(xí),與啟發(fā)式設(shè)計(jì)的思路[7,14]相比,降低了任務(wù)復(fù)雜度(圖2)。同時(shí),由于累積價(jià)值激勵(lì)函數(shù)最大化過(guò)程使得交互軌跡依照價(jià)值高低拆分成不同的軌跡片段,并重組成新的、更高價(jià)值的完整軌跡成為可能,故該類(lèi)方法不需要假設(shè)用于學(xué)習(xí)價(jià)值激勵(lì)函數(shù)和最大化累積價(jià)值的歷史數(shù)據(jù)是完備的(即歷史數(shù)據(jù)完備性)[17~19]。文獻(xiàn)[20]指出“完備”的含義包括數(shù)量大和質(zhì)量覆蓋高價(jià)值推薦模式兩個(gè)方面)。然而,基于逆強(qiáng)化學(xué)習(xí)的序列推薦算法通常需要密集的在線(xiàn)交互來(lái)評(píng)估當(dāng)前推薦策略的性能(即同策略評(píng)估)。由于欠優(yōu)化的待估策略與真實(shí)用戶(hù)的即時(shí)交互可能會(huì)導(dǎo)致直接的商業(yè)損失和潛在的用戶(hù)流失[8],所以同策略評(píng)估在序列推薦任務(wù)中的應(yīng)用存在較大限制。同時(shí),相比異策略評(píng)估(利用平臺(tái)數(shù)據(jù)庫(kù)中未知但較優(yōu)的專(zhuān)家策略采集的歷史行為記錄數(shù)據(jù)評(píng)估當(dāng)前推薦策略的更新方法),同策略評(píng)估方法數(shù)據(jù)利用效率較低[21]。

    針對(duì)逆強(qiáng)化學(xué)習(xí)存在的問(wèn)題,提出了一種異策略模仿-強(qiáng)化學(xué)習(xí)的序列推薦算法COG4Rec。鑒于啟發(fā)式激勵(lì)函數(shù)形式通常未知,而平臺(tái)容易積累用戶(hù)-系統(tǒng)交互行為模式(該行為演示模式由已部署的系統(tǒng)采集,采集系統(tǒng)πE通常未知),已有研究工作[19]指出,模仿學(xué)習(xí)在平臺(tái)數(shù)據(jù)完備條件下收斂到反映用戶(hù)真實(shí)行為模式的推薦策略,而強(qiáng)化學(xué)習(xí)在數(shù)據(jù)采集隨機(jī)非完備情況下,可以有效提高外傾向的累計(jì)價(jià)值函數(shù)。受該研究啟發(fā),COG4Rec的核心思路是模仿真實(shí)用戶(hù)行為,并通過(guò)參數(shù)化可學(xué)習(xí)的模仿度(由對(duì)數(shù)衰減狀態(tài)分布比表示)作為隱式價(jià)值激勵(lì)函數(shù),避免了啟發(fā)式設(shè)計(jì)過(guò)程。鑒于模仿學(xué)習(xí)過(guò)程假定用戶(hù)行為積累數(shù)據(jù)涵蓋最優(yōu)行為策略(完備假設(shè))且獨(dú)立同分布,COG4Rec從被模仿行為軌跡中挖掘高價(jià)值的片段重組以強(qiáng)化長(zhǎng)時(shí)累計(jì)價(jià)值,在不損失內(nèi)動(dòng)態(tài)的建模條件下,累計(jì)價(jià)值反映了用戶(hù)的外傾向分布,該強(qiáng)化學(xué)習(xí)過(guò)程避免了模仿學(xué)習(xí)分布漂移問(wèn)題。COG4Rec是一種基于衰減狀態(tài)分布匹配的逆強(qiáng)化學(xué)習(xí)方法。a)該方法通過(guò)匹配衰減狀態(tài)分布挖掘用戶(hù)外傾向,并通過(guò)自注意力機(jī)制學(xué)習(xí)用戶(hù)序列的內(nèi)動(dòng)態(tài);b)Donsker-Varadhan展開(kāi)將同策略更新的分布匹配目標(biāo)函數(shù)轉(zhuǎn)換為異策略更新;c)COG4Rec的策略評(píng)價(jià)網(wǎng)絡(luò)Critic采用隨機(jī)混合集成[22],避免異策略評(píng)估的探索誤差[8]。COG4Rec的貢獻(xiàn)包括:提出了一種新的異策略模仿-強(qiáng)化學(xué)習(xí)序列推薦算法,避免強(qiáng)化學(xué)習(xí)啟發(fā)式價(jià)值激勵(lì)函數(shù)設(shè)計(jì)增加推薦任務(wù)復(fù)雜度的同時(shí),聯(lián)合挖掘用戶(hù)的外傾向和內(nèi)動(dòng)態(tài)以提高綜合推薦性能。在序列推薦基準(zhǔn)數(shù)據(jù)集上的總體性能對(duì)比和消融實(shí)驗(yàn)分析證明了COG4Rec模型結(jié)構(gòu)和優(yōu)化算法的有效性。在真實(shí)場(chǎng)景的基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與深度自回歸序列推薦模型相比,COG4Rec相對(duì)提升17.60%;與啟發(fā)式強(qiáng)化學(xué)習(xí)序列推薦模型相比,COG4Rec相對(duì)提升3.25%。

    1 研究基礎(chǔ)和術(shù)語(yǔ)

    1.1 術(shù)語(yǔ)

    強(qiáng)化學(xué)習(xí)通常將序列推薦問(wèn)題定義為馬爾可夫決策過(guò)程(S,A,P,R,ρ0,γ),其中:

    最大化累積獎(jiǎng)勵(lì)函數(shù)的過(guò)程是系統(tǒng)對(duì)用戶(hù)外傾向的挖掘,該過(guò)程彌補(bǔ)了深度序列模型僅挖掘內(nèi)動(dòng)態(tài)面的不足,故自適應(yīng)的獎(jiǎng)勵(lì)函數(shù)R直接影響強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的成功應(yīng)用。

    1.2 研究基礎(chǔ)

    序列推薦[3,23]作為推薦系統(tǒng)的重要研究分支,受到研究人員的廣泛關(guān)注,其研究思路經(jīng)歷了深度學(xué)習(xí)時(shí)代前的協(xié)同濾波、深度序列推薦模型和強(qiáng)化學(xué)習(xí)序列推薦三個(gè)階段。本節(jié)首先總結(jié)了強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)工作,兩者組成COG4Rec的研究基礎(chǔ),最后詳細(xì)闡述了不同階段的研究工作進(jìn)展。

    1)逆強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)通過(guò)學(xué)習(xí)參數(shù)化的目標(biāo)策略πθ(a|s)來(lái)最大化累積獎(jiǎng)勵(lì),該目標(biāo)反映了用戶(hù)的長(zhǎng)時(shí)外傾向:

    其中:軌跡τ=(s0,a0,s1,a1,…,s|τ|,a|τ|)根據(jù)目標(biāo)推薦策略πθ(a|s),與用戶(hù)及時(shí)在線(xiàn)交互采樣獲得。

    逆強(qiáng)化學(xué)習(xí)的目標(biāo)是根據(jù)專(zhuān)家演示集D={τexp1,…,τexp|D|},學(xué)習(xí)一個(gè)最優(yōu)的價(jià)值激勵(lì)函數(shù)R*,使得

    其中:價(jià)值激勵(lì)函數(shù)的一種實(shí)現(xiàn)方式是特征線(xiàn)性映射。

    R(s)=wT(s)(3)

    2)模仿學(xué)習(xí)

    行為克?。?4]是模仿學(xué)習(xí)中較早提出的一類(lèi)方法。其思路是根據(jù)專(zhuān)家演示集,最小化推薦策略πθ(a|s)在專(zhuān)家演示集上的交叉熵,來(lái)使得推薦策略與專(zhuān)家行為策略相似:

    分布匹配的思路是利用衰減因子γ優(yōu)化動(dòng)作-狀態(tài)分布比,避免了式(4)面臨的分布漂移問(wèn)題。推薦策略的衰減狀態(tài)分布dπθ(s,a)可定義為

    其中:s0~p0(·),st~p(·|st-1,at-1),at~πθ(·|st)。

    演示數(shù)據(jù)集Euclid Math OneDAp:={(st,at,st+1)k}Nk=1根據(jù)未知的專(zhuān)家策略πdata采集。衰減分布匹配方法(discounted stationary distribution ratio,DDR)[25]通過(guò)最小化dπθ和dD之間KL散度來(lái)學(xué)習(xí)πθ,該最小化過(guò)程可轉(zhuǎn)換為強(qiáng)化學(xué)習(xí)累積激勵(lì)最大化:

    其中:式(6)的狀態(tài)分布比對(duì)應(yīng)強(qiáng)化學(xué)習(xí)的激勵(lì)函數(shù)為

    值得指出的是,式(7)既可以利用同策略強(qiáng)化學(xué)習(xí),也可以通過(guò)異策略強(qiáng)化學(xué)習(xí)優(yōu)化,但考慮到推薦任務(wù)對(duì)用戶(hù)隱私的保護(hù)[8],COG4Rec采用異策略評(píng)估的方法。

    3)序列推薦系統(tǒng)

    傳統(tǒng)推薦算法假設(shè)相似的用戶(hù)具有相似的喜好傾向,提出了基于矩陣分解的協(xié)同濾波算法,代表工作有BPR[26]、NCF[27]、FPMC[28]。BPR提出一種貝葉斯個(gè)性化排序推薦方法(成對(duì)型排序損失函數(shù)),使用一個(gè)有偏估計(jì)的分解矩陣作為推薦系統(tǒng)。針對(duì)有偏估計(jì)矩陣分解的問(wèn)題,NCF首次提出使用深度神經(jīng)網(wǎng)絡(luò)估計(jì)用戶(hù)-商品協(xié)同矩陣。FPMC方法則針對(duì)矩陣分解方法無(wú)法建模用戶(hù)-商品交互過(guò)程的問(wèn)題,提出一種基于馬爾可夫鏈的協(xié)同過(guò)濾模型,將交互序列近似為一階馬爾可夫鏈,并在序列化增強(qiáng)的成對(duì)型排序損失上優(yōu)化。上述方法無(wú)法建模高階用戶(hù)-商品交互過(guò)程。

    傳統(tǒng)推薦算法的缺點(diǎn)在于無(wú)法建模高階用戶(hù)-商品交互過(guò)程?;谏疃葘W(xué)習(xí)的推薦模型將用戶(hù)-商品交互過(guò)程建模為時(shí)序序列,模型的潛狀態(tài)向量通過(guò)模型學(xué)習(xí)可以挖掘用戶(hù)的高階動(dòng)態(tài)興趣傾向。GRURec[29]應(yīng)用序列化神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)下一時(shí)刻用戶(hù)的興趣傾向。為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消散問(wèn)題和計(jì)算效率問(wèn)題,Caser[12]使用卷積神經(jīng)網(wǎng)絡(luò)作為推薦骨干網(wǎng)絡(luò)。SASRec[6]受機(jī)器翻譯等序列化生成任務(wù)的啟發(fā),使用Transformer結(jié)構(gòu)作為推薦骨干網(wǎng)絡(luò)。由于序列推薦系統(tǒng)中存在多種用戶(hù)反饋信號(hào),不同類(lèi)型的反饋信號(hào)對(duì)系統(tǒng)具有不同的價(jià)值,深度模型的局限是沒(méi)有考慮不同反饋信號(hào)的價(jià)值。

    基于強(qiáng)化學(xué)習(xí)的序列推薦旨在優(yōu)化不同反饋信號(hào)的累積獎(jiǎng)勵(lì)函數(shù)。已有工作可以分為:a)基于策略梯度的方法,考慮到推薦問(wèn)題對(duì)實(shí)時(shí)用戶(hù)交互的限制,off-policy REINFOCE[30]采用異策略估計(jì)的方法實(shí)現(xiàn)YouTube平臺(tái)的視頻推薦,針對(duì)異策略估計(jì)需要對(duì)采樣行為策略樣本矯正的問(wèn)題,該方法提出一種基于傾向性分?jǐn)?shù)的重估方法;b)基于價(jià)值函數(shù)的方法,SQN模型[7]利用動(dòng)作-狀態(tài)價(jià)值函數(shù)時(shí)序差分優(yōu)化[31]來(lái)學(xué)習(xí)累積價(jià)值獎(jiǎng)勵(lì)最大化,并通過(guò)聯(lián)合優(yōu)化交叉熵時(shí)序預(yù)測(cè)來(lái)學(xué)習(xí)用戶(hù)的動(dòng)態(tài)興趣變化趨勢(shì),VPQ[14]在SQN的基礎(chǔ)上利用重采樣方法降低時(shí)序差分學(xué)習(xí)的方差;c)基于動(dòng)作-評(píng)價(jià)結(jié)構(gòu)的方法,SAC[7]利用動(dòng)作-狀態(tài)價(jià)值函數(shù)作為樣本權(quán)重加權(quán)交叉熵時(shí)序預(yù)測(cè)?;趶?qiáng)化學(xué)習(xí)的序列推薦的激勵(lì)函數(shù)設(shè)計(jì)主要由任務(wù)導(dǎo)向,需要反復(fù)調(diào)試?;趶?qiáng)化學(xué)習(xí)的序列推薦系統(tǒng)需要依賴(lài)專(zhuān)家知識(shí)設(shè)計(jì)激勵(lì)函數(shù),作為累積獎(jiǎng)勵(lì)最大化過(guò)程的優(yōu)化信號(hào),而該設(shè)計(jì)任務(wù)驅(qū)動(dòng)需要大量調(diào)試才能使強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程穩(wěn)定。

    受到上述研究工作啟發(fā),本文提出一種基于衰減狀態(tài)分布匹配博弈(min-max)的激勵(lì)函數(shù)優(yōu)化方法,并且通過(guò)Gumbel max算子保證激勵(lì)函數(shù)具有高區(qū)分度,從而避免了激勵(lì)函數(shù)的調(diào)試;同時(shí),推薦策略網(wǎng)絡(luò)試圖降低推薦策略和專(zhuān)家行為策略的衰減狀態(tài)分布比來(lái)優(yōu)化推薦策略,策略評(píng)價(jià)網(wǎng)絡(luò)試圖優(yōu)化隱激勵(lì)函數(shù)(式(9))的估計(jì)來(lái)最大化累積獎(jiǎng)勵(lì)函數(shù),從而捕捉到不同反饋信號(hào)代表的價(jià)值信息。

    2 異策略模仿學(xué)習(xí)方法

    針對(duì)上述逆強(qiáng)化學(xué)習(xí)序列推薦方法存在的問(wèn)題,本文提出了一種異策略模仿-強(qiáng)化學(xué)習(xí)的序列推薦算法COG4Rec(off-poliCy imitatiOn learninG):對(duì)于價(jià)值激勵(lì)函數(shù)設(shè)計(jì)的挑戰(zhàn),通過(guò)對(duì)數(shù)衰減狀態(tài)分布比模仿用戶(hù)外傾向的價(jià)值激勵(lì)函數(shù);對(duì)于同策略交互的挑戰(zhàn),通過(guò)Donsker-Varadhan展開(kāi)得到異策略更新的優(yōu)化目標(biāo)。同時(shí),因?yàn)橥扑]問(wèn)題缺乏公認(rèn)的基準(zhǔn)仿真器,COG4Rec提出了一種基于隨機(jī)混合集成[22]的策略評(píng)價(jià)網(wǎng)絡(luò),以隨機(jī)性增加多樣性。

    2.1 問(wèn)題定義

    序列推薦系統(tǒng)利用用戶(hù)-商品交互記錄來(lái)強(qiáng)化未來(lái)的推薦:給定用戶(hù)最近t個(gè)交互的商品序列(i1,i2,…,it)和用戶(hù)反饋類(lèi)型(如點(diǎn)擊和購(gòu)買(mǎi)),系統(tǒng)旨在利用平臺(tái)收集的歷史行為樣本作為專(zhuān)家演示集,將其表示為集合Euclid Math OneDAp,預(yù)測(cè)下一個(gè)候選的it+1,同時(shí)限制序列的最大長(zhǎng)度為n,即t<n,如果長(zhǎng)度短于n,采用右補(bǔ)齊的方式到最大長(zhǎng)度。

    2.2 框架概述

    如圖3所示,COG4Rec包含用于推薦的推薦策略網(wǎng)絡(luò)actor和用于評(píng)估推薦的策略評(píng)價(jià)網(wǎng)絡(luò)critic兩個(gè)主要部分。推薦策略網(wǎng)絡(luò)actor首先用可學(xué)習(xí)的位置感知編碼將推薦項(xiàng)目空間映射到編碼空間,進(jìn)而基于注意力機(jī)制編碼表示用戶(hù)狀態(tài)向量。策論評(píng)價(jià)網(wǎng)絡(luò)critic采用前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),基于actor推薦動(dòng)作和用戶(hù)狀態(tài)預(yù)測(cè)可能的累積獎(jiǎng)勵(lì),并使用多簇隨機(jī)混合集成彌補(bǔ)數(shù)據(jù)集Euclid Math OneDAp的多樣性不足。下一時(shí)刻的推薦候選項(xiàng)采用協(xié)同濾波的思路,通過(guò)actor注意力模塊輸出結(jié)果與用戶(hù)潛在狀態(tài)編碼向量的內(nèi)積得到。

    2.3 模型結(jié)構(gòu)

    為了實(shí)現(xiàn)式(8)提出的基于衰減狀態(tài)分布匹配的生成對(duì)抗學(xué)習(xí)過(guò)程,COG4Rec設(shè)計(jì)了一種基于actor-critic模型架構(gòu),如圖3所示。

    2.3.1 推薦策略網(wǎng)絡(luò)actor

    為了挖掘用戶(hù)的內(nèi)動(dòng)態(tài)傾向,推薦策略網(wǎng)絡(luò)actor采用了多頭自注意力模塊作為主干網(wǎng)絡(luò),本節(jié)依次介紹網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。

    b)自注意力模塊。注意力機(jī)制計(jì)算的是取值按維度系數(shù)縮放的加權(quán)和,可定義為

    其中:j∈{1,2,…}表示當(dāng)前交互序列的前j項(xiàng)。為了增加actor的網(wǎng)絡(luò)深度從而學(xué)習(xí)更高階的用戶(hù)表征向量,COG4Rec采用了殘差連接和層歸一化增強(qiáng),如圖3的self-attention所示。

    c)預(yù)測(cè)層。為了預(yù)測(cè)用戶(hù)的候選推薦項(xiàng),actor在自注意力模塊的基礎(chǔ)上,利用用戶(hù)編碼共享的商品編碼空間進(jìn)行內(nèi)積矩陣因式分解[6],得到相關(guān)預(yù)測(cè)分?jǐn)?shù):

    ri,t=S(b)tETi(15)

    其中:ri,t表示商品i與當(dāng)前用戶(hù)狀態(tài)S(b)t的相關(guān)性,即成為下一個(gè)候選項(xiàng)的可能性。雖然共享用戶(hù)與商品編碼空間存在一致對(duì)稱(chēng)過(guò)擬合的風(fēng)險(xiǎn),但逐點(diǎn)前饋網(wǎng)絡(luò)(式(12)所示)引入的非線(xiàn)性能確保式(15)學(xué)習(xí)到非對(duì)稱(chēng)的商品編碼轉(zhuǎn)換。

    值得注意的是,雖然策略評(píng)價(jià)網(wǎng)絡(luò)critic和推薦策略網(wǎng)絡(luò)actor均可完成預(yù)測(cè)層任務(wù),其中critic強(qiáng)調(diào)序列外傾向估值,actor關(guān)注序列內(nèi)動(dòng)態(tài)相關(guān)性,但是由于離線(xiàn)環(huán)境的限制,相關(guān)研究工作[7]指出,critic作為推薦預(yù)測(cè)端,會(huì)導(dǎo)致actor梯度估計(jì)方差上升。因此COG4Rec采用actor網(wǎng)絡(luò)進(jìn)行推薦預(yù)測(cè)。

    2.3.2 策略評(píng)價(jià)網(wǎng)絡(luò)critic

    為了挖掘用戶(hù)歷史交互的外傾向,COG4Rec采用策略評(píng)價(jià)網(wǎng)絡(luò)critic最小化推薦策略分布和用戶(hù)行為記錄分布的狀態(tài)分布匹配差異,來(lái)最大化代表外傾向的累積價(jià)值激勵(lì),網(wǎng)絡(luò)結(jié)構(gòu)如圖3 critic所示。具體來(lái)說(shuō),critic在逐點(diǎn)前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上采用了C簇隨機(jī)混合集成[22],以隨機(jī)性緩解專(zhuān)家演示樣本Euclid Math OneDAp多樣性不足的問(wèn)題,并通過(guò)集成方式,避免隨機(jī)混合引入的噪聲。具體來(lái)說(shuō),critic以當(dāng)前狀態(tài)編碼向量和推薦項(xiàng)目編碼向量作為輸入:

    綜上所述,圖4給出了COG4Rec模型的推薦流程,首先初始化參數(shù)模型,進(jìn)而根據(jù)推薦結(jié)果是否得到正反饋(更新最大似然估計(jì))和是否得到高價(jià)值正反饋(更新衰減匹配分布)來(lái)更新模型參數(shù),并利用actor網(wǎng)絡(luò)通過(guò)貪心搜索的方式得到推薦列表,反復(fù)迭代得到完整的交互軌跡。

    2.4 模型優(yōu)化

    為了解決有效利用作為專(zhuān)家演示的歷史記錄數(shù)據(jù)Euclid Math OneDAp,并聯(lián)合挖掘用戶(hù)興趣的內(nèi)動(dòng)態(tài)方面和外傾向方面,COG4Rec采用衰減狀態(tài)分布匹配的生成對(duì)抗優(yōu)化過(guò)程:策略評(píng)價(jià)網(wǎng)絡(luò)critic最小化推薦策略分布和用戶(hù)行為記錄分布的狀態(tài)分布匹配差異,避免了強(qiáng)化學(xué)習(xí)啟發(fā)式設(shè)計(jì)價(jià)值激勵(lì)函數(shù)的過(guò)程;COG4Rec的推薦策略網(wǎng)絡(luò)actor最大化累積對(duì)數(shù)衰減狀態(tài)分布比,避免了模仿學(xué)習(xí)分布漂移的問(wèn)題。

    2.4.1 外傾向?qū)W習(xí)

    為了挖掘用戶(hù)歷史交互的外傾向,COG4Rec提出了一種基于衰減狀態(tài)分布比的優(yōu)化學(xué)習(xí)過(guò)程。具體來(lái)說(shuō),式(6)Donsker-Varadhan展開(kāi)得到:

    其中:r(s,a)通過(guò)對(duì)式(6)進(jìn)行貝爾曼算子轉(zhuǎn)換得到

    其中:策略評(píng)價(jià)網(wǎng)絡(luò)ν(s,a)作用相當(dāng)于狀態(tài)-動(dòng)作價(jià)值函數(shù),充分優(yōu)化學(xué)習(xí)后可近似對(duì)數(shù)衰減分布比(式(19)右側(cè)所示),貝爾曼算子定義為

    其中:為簡(jiǎn)化表示,將t+1時(shí)刻狀態(tài)動(dòng)作表示為t′標(biāo)記,代入貝爾曼算子得到優(yōu)化目標(biāo)JDDR。

    其中:因?yàn)樗p狀態(tài)分布(式(19)所示)的引入使同策略的采樣(式(18)第二項(xiàng))化簡(jiǎn)為利用專(zhuān)家演示集進(jìn)行的采樣(式(21)第二項(xiàng)),故式(21)是異策略的。

    2.4.2 內(nèi)動(dòng)態(tài)學(xué)習(xí)

    為了挖掘用戶(hù)當(dāng)前序列的內(nèi)動(dòng)態(tài)傾向,COG4Rec采用最大似然估計(jì)(maximum likelihood estimation,MLE)作為內(nèi)動(dòng)態(tài)的學(xué)習(xí)目標(biāo),如下:

    該目標(biāo)基于當(dāng)前交互歷史,自回歸地優(yōu)化下一時(shí)刻的預(yù)測(cè),因此,能夠使得模型向著挖掘內(nèi)動(dòng)態(tài)方向更新參數(shù)。

    算法1 優(yōu)化算法

    2.4.3 整體優(yōu)化目標(biāo)

    如算法1所示,用戶(hù)內(nèi)動(dòng)態(tài)和外傾向的整體優(yōu)化如下:

    其中:推薦策略網(wǎng)絡(luò)actor通過(guò)最大化衰減狀態(tài)分布比來(lái)逼近專(zhuān)家策略; 策略評(píng)價(jià)網(wǎng)絡(luò)critic通過(guò)最小化衰減狀態(tài)分布比來(lái)評(píng)估生成的策略。策略評(píng)價(jià)網(wǎng)絡(luò)critic收斂的解析最優(yōu)解可以表示為(對(duì)式(21)兩側(cè)求導(dǎo)等于0可得)

    值得指出的是,式(24)為同策略逆強(qiáng)化學(xué)習(xí)方法GAIL[15]及GCL[16]的顯式優(yōu)化目標(biāo),直接估計(jì)式(23)的分布比需要大量同策略交互,故GAIL[15]和GCL[16]的策略更新數(shù)據(jù)利用率較異策略更新方法有所下降。

    3 實(shí)驗(yàn)結(jié)果及分析

    為了驗(yàn)證COG4Rec的有效性,實(shí)驗(yàn)工作在兩個(gè)基準(zhǔn)序列推薦數(shù)據(jù)集(Yoochoose和Retailrocket)上進(jìn)行了廣泛的對(duì)比研究。首先,對(duì)COG4Rec與代表性的推薦系統(tǒng)基線(xiàn)方法比較了top-k推薦性能,以進(jìn)行總體性能對(duì)比;然后,在Retailrocket數(shù)據(jù)集上,對(duì)COG4Rec進(jìn)行詳細(xì)的消融實(shí)驗(yàn)分析,以證明該算法關(guān)鍵設(shè)計(jì)對(duì)系統(tǒng)性能提升的貢獻(xiàn)。

    a)實(shí)驗(yàn)設(shè)置?;鶞?zhǔn)序列推薦數(shù)據(jù)集Yoochoose和Retailrocket分別包含點(diǎn)擊和購(gòu)買(mǎi)兩類(lèi)交互反饋。為了保持不同推薦模型對(duì)比的一致性,實(shí)驗(yàn)中遵照文獻(xiàn)[7]的預(yù)處理過(guò)程,刪除了Yoochoose和Retailrocket中互動(dòng)次數(shù)少于三次的序列,得到的數(shù)據(jù)集統(tǒng)計(jì)結(jié)果如表1所示。實(shí)驗(yàn)用于衡量推薦性能的兩個(gè)指標(biāo)是:表征top-k排序性能(k∈{5,10,20})的歸一化折損累計(jì)增益NG;反映召回性能的命中率HR[7]。

    b)對(duì)比基線(xiàn)。選擇了具有代表性的序列推薦算法:(a)深度自回歸序列推薦系統(tǒng)GRURec[29]、Caser[12]、SASRec[6],其自回歸網(wǎng)絡(luò)結(jié)構(gòu)(GRU、CNN、Transformer)能有效地學(xué)習(xí)用戶(hù)內(nèi)動(dòng)態(tài)特性,其表現(xiàn)性能優(yōu)于一階馬爾可夫協(xié)同分解[28];(b)基于強(qiáng)化學(xué)習(xí)的序列推薦模型,基于狀態(tài)-動(dòng)作價(jià)值函數(shù)的VPQ[14]和SSQN[7]、基于“actor-critic”神經(jīng)網(wǎng)絡(luò)架構(gòu)的SSAC[7]和兩種離線(xiàn)強(qiáng)化學(xué)習(xí)方法作為骨干網(wǎng)絡(luò)的CQL[32]和UWAC[33]。

    c)實(shí)現(xiàn)細(xì)節(jié)。兩個(gè)數(shù)據(jù)集采用的輸入序列長(zhǎng)度均為10個(gè)當(dāng)前時(shí)刻的近期交互,并使用數(shù)據(jù)集交互商品數(shù)作為右補(bǔ)齊的掩碼向量,編碼向量均采用64維,批量輸入(batch size)大小為128,實(shí)驗(yàn)統(tǒng)一采用與VPQ相同的激勵(lì)函數(shù)設(shè)置方法(購(gòu)買(mǎi)價(jià)值為1,點(diǎn)擊價(jià)值為0.2)。CQL超參數(shù)α設(shè)為0.5,VPQ的λ=20,UWAC的λ=1.6。VPQ、SSQN、SSAC和COG4Rec從actor網(wǎng)絡(luò)預(yù)測(cè)下一時(shí)刻推薦,CQL和UWAC的推薦策略采用maxaQ(s,a)的貪心搜索得到。COG4Rec采用了單頭兩層自注意力模塊,實(shí)現(xiàn)過(guò)程參考SASRec結(jié)構(gòu)(SASRec代碼地址:https://github.com/kang205/SASRec)。推薦策略網(wǎng)絡(luò)actor的學(xué)習(xí)率為1E-4,策略評(píng)價(jià)網(wǎng)絡(luò)critic的學(xué)習(xí)率為1E-3,通過(guò)Adam執(zhí)行模型反向傳播優(yōu)化。actor網(wǎng)絡(luò)在自注意力模塊之后通過(guò)兩層前饋神經(jīng)網(wǎng)絡(luò)(為了節(jié)省計(jì)算資源,實(shí)驗(yàn)中采用兩層前饋神經(jīng)網(wǎng)絡(luò)作為非線(xiàn)性映射)映射用戶(hù)狀態(tài)編碼和商品編碼(隱藏層64維),并通過(guò)內(nèi)積函數(shù)式(24)預(yù)測(cè)相關(guān)分?jǐn)?shù)r。策略評(píng)價(jià)網(wǎng)絡(luò)critic的折扣系數(shù)設(shè)為0.95,兩層前饋神經(jīng)網(wǎng)絡(luò)(隱藏層64維,非線(xiàn)性函數(shù)為ReLU)映射后,通過(guò)15簇(C=15)隨機(jī)混合得到評(píng)價(jià)分?jǐn)?shù)v,actor和critic同步更新。

    3.1 總體性能對(duì)比

    表2、3分別列出了Retailrocket和Yoochoose的性能比較,其中:最優(yōu)結(jié)果粗體表示,次優(yōu)結(jié)果下畫(huà)線(xiàn)表示,“*”表示雙邊t檢驗(yàn),p<0.05。a)與傳統(tǒng)序列推薦模型GRU4Rec、Caser和SASRec相比,COG4Rec的提升歸功于衰減狀態(tài)分布優(yōu)化的同時(shí)建模了用戶(hù)的累計(jì)外傾向,而傳統(tǒng)模型則僅依賴(lài)用戶(hù)序列行為內(nèi)動(dòng)態(tài),使得策略網(wǎng)絡(luò)缺失長(zhǎng)時(shí)累計(jì)價(jià)值反饋的監(jiān)督引導(dǎo),因此只反映了序列動(dòng)態(tài)轉(zhuǎn)移的用戶(hù)興趣傾向。由于深度自回歸模型存在梯度消散的問(wèn)題,故模型本身無(wú)法有效建模長(zhǎng)時(shí)興趣。b)與SSQN和SSAC相比,SSQN和SSAC的特點(diǎn)是均采用深度Q學(xué)習(xí),Q學(xué)習(xí)依靠與環(huán)境交互來(lái)糾正異策略估計(jì)的偏差,而離線(xiàn)學(xué)習(xí)要求導(dǎo)致評(píng)估偏差會(huì)在當(dāng)前任務(wù)中累積,從而阻礙這兩種方法有效學(xué)習(xí)用戶(hù)的外傾向,而COG4Rec將異策略估計(jì)偏差(表現(xiàn)為KL散度)作為critic網(wǎng)絡(luò)優(yōu)化的學(xué)習(xí)目標(biāo)。c)基于強(qiáng)化學(xué)習(xí)的序列推薦模型VPQ、CQL和UWAC通過(guò)Q函數(shù)的不確定性來(lái)估計(jì)預(yù)測(cè)方差,并使用乘性加權(quán)(VPQ、UWAC)或減性歸一化(CQL)的方法來(lái)消除不確定性,而不確定性由啟發(fā)式設(shè)計(jì)得到,因而缺乏自適應(yīng)性。式(8)的收斂點(diǎn)等價(jià)于對(duì)數(shù)分布比形式的激勵(lì)函數(shù)式(9),因此actor最大化累積激勵(lì)的過(guò)程式(11)避免了啟發(fā)式設(shè)計(jì),COG4Rec更具適應(yīng)性。

    綜上所述,COG4Rec通過(guò)異策略衰減狀態(tài)分布匹配學(xué)習(xí)的方式解決強(qiáng)化學(xué)習(xí)策略評(píng)估的及時(shí)交互挑戰(zhàn),提高了數(shù)據(jù)使用效率,并通過(guò)收斂到對(duì)數(shù)分布比形式的價(jià)值激勵(lì)函數(shù)來(lái)避免啟發(fā)式設(shè)計(jì)激勵(lì)函數(shù)形式的挑戰(zhàn)。

    3.2 消融實(shí)驗(yàn)分析

    為了驗(yàn)證COG4Rec關(guān)鍵設(shè)計(jì)的有效性,本文在Retailrocket數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)(表4給出k=20的結(jié)果,其他k值具備類(lèi)似的統(tǒng)計(jì)趨勢(shì))。表4第一行(“val-only”)表示僅基于 IDDR(r,v) 優(yōu)化actor和critic兩個(gè)網(wǎng)絡(luò),該策略強(qiáng)調(diào)對(duì)用戶(hù)外傾向的捕捉,與僅依靠 IMLE(r) 優(yōu)化actor網(wǎng)絡(luò)去掉critic網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果(“rel-only”)相比,它的性能有所下降,這是因?yàn)闋顟B(tài)-動(dòng)作價(jià)值函數(shù)時(shí)序差分學(xué)習(xí)無(wú)法通過(guò)在線(xiàn)交互矯正異策略方差較大的問(wèn)題,如前所述基于隱私安全性的考慮,欠優(yōu)化的推薦系統(tǒng)與用戶(hù)的在線(xiàn)互動(dòng)受到限制。用戶(hù)外傾向IDDR(r,v)和內(nèi)動(dòng)態(tài)IMLE(r)聯(lián)合優(yōu)化的預(yù)測(cè)結(jié)果(“val+rel-rem”)效果更好,證明了COG4Rec優(yōu)化目標(biāo)(式(15))的有效性。引入隨機(jī)混合集成的聯(lián)合優(yōu)化預(yù)測(cè)結(jié)果(“val+rel+rem”)進(jìn)一步分散了數(shù)據(jù)樣本,從而實(shí)現(xiàn)了最佳性能。

    綜上所述,進(jìn)一步的消融實(shí)驗(yàn)驗(yàn)證了衰減狀態(tài)分布匹配的聯(lián)合優(yōu)化目標(biāo)(式(13)所示)和隨機(jī)混合集成方法(式(24)所示)對(duì)提升COG4Rec推薦性能的重要性。

    4 結(jié)束語(yǔ)

    本文提出了一種基于異策略衰減狀態(tài)分布匹配的新型序列推薦算法COG4Rec,在收斂到對(duì)數(shù)分布比形式的價(jià)值激勵(lì)函數(shù)的同時(shí),保證了累積用戶(hù)反饋激勵(lì)最大化。此外,COG4Rec采用異策略更新的方式迭代推薦策略,因而提高了數(shù)據(jù)使用效率。值得指出的是,COG4Rec使用的隨機(jī)混合集成是增加演示數(shù)據(jù)多樣性的初步折中方案,而基于用戶(hù)模型因果建模的模仿學(xué)習(xí)則是未來(lái)進(jìn)一步值得探索的方向。

    參考文獻(xiàn):

    [1]Zangerle E, Bauer C. Evaluating recommender systems: survey and framework[J]. ACM Computing Surveys, 2022,55(8): 1-38.

    [2]Zhao Xiangyu, Zhang Liang, Ding Zhuye, et al. Recommendations with negative feedback via pairwise deep reinforcement learning[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 1040-1048.

    [3]Fang Hui, Guo Guibing, Zhang Danning, et al. Deep learning-based sequential recommender systems:concepts, algorithms, and evaluations[M]//Bakaev M, Frasincar F, Ko I Y. Web Engineering. Cham: Springer, 2019: 574-577.

    [4]張杰, 陳可佳. 關(guān)聯(lián)項(xiàng)目增強(qiáng)的多興趣序列推薦方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(2): 456-462. (Zhang Jie, Chen Kejia. Item associations aware multi-interest sequential recommendation method[J]. Application Research of Computers, 2023,40(2): 456-462.)

    [5]歐道源, 梁京章, 吳麗娟. 基于高斯分布建模的序列推薦算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2023,40(4): 1108-1112. (Ou Daoyuan, Liang Jingzhang, Wu Lijuan. Algorithm of sequential recommendation based on Gaussian distribution modeling[J]. Application Research of Computers, 2023,40(4): 1108-1112.)

    [6]Kang W C, Mcauley J. Self-attentive sequential recommendation[C]//Proc of IEEE International Conference on Data Mining. Pisca-taway, NJ: IEEE Press, 2018: 197-206.

    [7]Xin Xin, Karatzoglou A, Arapakis I, et al. Self-supervised reinforcement learning for recommender systems[C]//Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2020: 931-940.

    [8]Xiao Teng, Wang Donglin. A general offline reinforcement learning framework for interactive recommendation[C]//Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 4512-4520.

    [9]Xu Chengfeng, Zhao Pengpeng, Liu Yanchi, et al. Recurrent convolutional neural network for sequential recommendation[C]//Proc of the World Wide Web Conference. New York:ACM Press, 2019: 3398-3404.

    [10]Duan Jiasheng, Zhang Pengfei, Qiu Ruihong, et al. Long short-term enhanced memory for sequential recommendation[J]. World Wide Web, 2023,26(2): 561-583.

    [11]Xu Chengfeng, Feng Jian, Zhao Pengpeng, et al. Long-and short-term self-attention network for sequential recommendation[J]. Neurocomputing, 2021,423: 580-589.

    [12]Tang Jiaxi, Wang Ke. Personalized top-n sequential recommendation via convolutional sequence embedding[C]//Proc of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 565-573.

    [13]Bai Xueying, Guan Jian, Wang Hongning. A model-based reinforcement learning with adversarial training for online recommendation[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 10735-10746.

    [14]Gao Chengqian, Xu Ke, Zhou Kuangqi, et al. Value penalized Q-learning for recommender systems[C]//Proc of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2022: 2008-2012.

    [15]Ho J, Ermon S. Generative adversarial imitation learning[C]//Proc of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 4572-4580.

    [16]Finn C, Levine S, Abbeel P. Guided cost learning: deep inverse optimal control via policy optimization[C]//Proc of the 33rd International Conference on Machine Learning.[S.l.]: JMLR.org, 2016: 49-58.

    [17]Fu J, Luo K, Levine S. Learning robust rewards with adverserial inverse reinforcement learning[EB/OL]. (2018-02-23). https://openreview.net/forum? id=rkHywl-A-.

    [18]Kumar A, Hong J, Singh A, et al. When should we prefer offline reinforcement learning over behavioral cloning?[EB/OL]. (2022-04-12). https://browse.arxiv.org/abs/2204.05618.

    [19]Rashidinejad P, Zhu Banghua, Ma Cong, et al. Bridging offline reinforcement learning and imitation learning: a tale of pessimism[J]. IEEE Trans on Information Theory, 2022,68(12): 8156-8196.

    [20]Jing Mingxuan, Ma Xiaojian, Huang Wenbing, et al. Reinforcement learning from imperfect demonstrations under soft expert guidance[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 5109-5116.

    [21]Kostrikov I, Agrawal K K, Dwibedi D, et al. Discriminator-actor-critic: addressing sample inefficiency and reward bias in adversarial imitation learning[EB/OL]. (2018-10-15). https://browse.arxiv.org/abs/1809.02925.

    [22]Agarwal R, Schuurmans D, Norouzi M. An optimistic perspective on offline reinforcement learning[C]//Proc of the 37th International Conference on Machine Learning. [S.l.]: PMLR, 2020: 104-114.

    [23]Zhang Shuai, Yao Lina, Sun Aixin, et al. Deep learning based recommender system: a survey and new perspectives[J]. ACM Computing Surveys, 2019, 52(1): article No. 5.

    [24]Atkeson C G, Schaal S. Robot learning from demonstration[C]//Proc of the 14th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann Publishers Inc., 1997: 12-20.

    [25]Nachum O,Chow Y,Dai Bo,et al. Dualdice: behavior-agnostic estimation of discounted stationary distribution corrections[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc.,2019:article No.208.

    [26]Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C]//Proc of the 25th Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia: AUAI Press, 2009: 452-461.

    [27]He Xiangnan, Liao Lizi, Zhang Hanwang, et al. Neural collaborative filtering[C]//Proc of the 26th International Conference on World Wide Web. Republic and Canton of Geneva, CHE: International World Wide Web Conferences Steering Committee. 2017: 173-182.

    [28]Rendle S,F(xiàn)reudenthaler C,Schmidt-Thieme L. Factorizing personalized Markov chains for next-basket recommendation[C]//Proc of the 19th International Conference on World Wide Web. New York: ACM Press, 2010: 811-820.

    [29]Hidasi B, Karatzoglou A, Baltrunas L, et al. Session-based recommendations with recurrent neural networks[EB/OL]. (2016-03-29). https://arXiv.org/abs/1511.06939.

    [30]Chen Minmin, Beutel A, Covington P, et al. Top-k off-policy correction for a REINFORCE recommender system[C]//Proc of the 12th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2019: 456-465.

    [31]Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015,518(7540): 529-533.

    [32]Kumar A, Zhou A, Tucker G, et al. Conservative Q-learning for offline reinforcement learning[C]//Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: article No. 100.

    [33]Wu Yue, Zhai Shuangfei, Srivastava N, et al. Uncertainty weighted actor-critic for offline reinforcement learning[EB/OL]. (2021-05-17). https://arxiv.org/abs/2105.08140.

    日韩三级伦理在线观看| 国产日韩欧美亚洲二区| 在线观看免费日韩欧美大片 | 欧美精品高潮呻吟av久久| 免费黄频网站在线观看国产| 蜜桃在线观看..| 免费观看av网站的网址| 精品久久久久久电影网| 男男h啪啪无遮挡| 99热6这里只有精品| 伊人久久国产一区二区| 国产白丝娇喘喷水9色精品| 国产极品天堂在线| 国产日韩一区二区三区精品不卡 | 97精品久久久久久久久久精品| tube8黄色片| 久久女婷五月综合色啪小说| 一区二区av电影网| 毛片一级片免费看久久久久| 久久 成人 亚洲| 一级毛片我不卡| 亚洲精品中文字幕在线视频 | 亚洲av.av天堂| 在线观看免费高清a一片| 妹子高潮喷水视频| 在线播放无遮挡| 美女大奶头黄色视频| 免费不卡的大黄色大毛片视频在线观看| 久久韩国三级中文字幕| 老熟女久久久| 九九在线视频观看精品| 女人精品久久久久毛片| 国产精品久久久久成人av| 乱人伦中国视频| 久久久久国产网址| 欧美精品一区二区免费开放| 日本爱情动作片www.在线观看| a级毛色黄片| 国产欧美日韩精品一区二区| 日韩一本色道免费dvd| 亚洲一级一片aⅴ在线观看| av国产久精品久网站免费入址| 纯流量卡能插随身wifi吗| 久久久久久久久久成人| av福利片在线| 午夜福利视频精品| 国产91av在线免费观看| 性高湖久久久久久久久免费观看| 日韩制服骚丝袜av| av卡一久久| 99热这里只有精品一区| 国产黄片美女视频| 亚洲av男天堂| 中文乱码字字幕精品一区二区三区| 久久久a久久爽久久v久久| 黄色日韩在线| 一级毛片黄色毛片免费观看视频| 亚洲精华国产精华液的使用体验| 欧美日韩亚洲高清精品| 亚洲国产欧美日韩在线播放 | 国产一区二区在线观看av| 日本猛色少妇xxxxx猛交久久| 国产综合精华液| 中文字幕精品免费在线观看视频 | 日韩av免费高清视频| 中文字幕免费在线视频6| 免费黄色在线免费观看| 91精品国产国语对白视频| av女优亚洲男人天堂| 另类精品久久| 久久久国产欧美日韩av| 色5月婷婷丁香| 国产女主播在线喷水免费视频网站| 美女大奶头黄色视频| 精品久久久久久久久av| a级毛色黄片| 伦精品一区二区三区| 黄片无遮挡物在线观看| 91久久精品国产一区二区成人| 亚洲av不卡在线观看| 国产一区二区三区综合在线观看 | 国模一区二区三区四区视频| 中文字幕精品免费在线观看视频 | 日韩,欧美,国产一区二区三区| 美女脱内裤让男人舔精品视频| 一级毛片黄色毛片免费观看视频| 欧美日韩在线观看h| 日韩av免费高清视频| 狂野欧美激情性bbbbbb| 国产成人freesex在线| 精华霜和精华液先用哪个| 91在线精品国自产拍蜜月| 嘟嘟电影网在线观看| 精品人妻熟女毛片av久久网站| 在线观看免费日韩欧美大片 | 国产男人的电影天堂91| 十分钟在线观看高清视频www | 啦啦啦视频在线资源免费观看| 一二三四中文在线观看免费高清| 亚洲国产色片| 精品人妻一区二区三区麻豆| 欧美老熟妇乱子伦牲交| 日本-黄色视频高清免费观看| 边亲边吃奶的免费视频| 五月玫瑰六月丁香| 婷婷色综合www| 久久精品国产鲁丝片午夜精品| 女性生殖器流出的白浆| 日产精品乱码卡一卡2卡三| av又黄又爽大尺度在线免费看| 天美传媒精品一区二区| 男人和女人高潮做爰伦理| 亚洲精品中文字幕在线视频 | 老司机影院毛片| 免费人妻精品一区二区三区视频| 18禁裸乳无遮挡动漫免费视频| 欧美性感艳星| a 毛片基地| 青春草视频在线免费观看| 少妇被粗大的猛进出69影院 | 精品久久久久久久久av| 一级毛片我不卡| 妹子高潮喷水视频| 99热这里只有是精品在线观看| 简卡轻食公司| 激情五月婷婷亚洲| 日本欧美国产在线视频| 午夜精品国产一区二区电影| 中国美白少妇内射xxxbb| 成人毛片a级毛片在线播放| 日韩中字成人| 久久久久人妻精品一区果冻| 人妻人人澡人人爽人人| 人妻系列 视频| 极品少妇高潮喷水抽搐| 18+在线观看网站| 高清午夜精品一区二区三区| 午夜av观看不卡| 免费久久久久久久精品成人欧美视频 | 精品久久久久久电影网| 99热6这里只有精品| 日本黄色日本黄色录像| 国产精品国产三级国产av玫瑰| 精品一区二区三区视频在线| 不卡视频在线观看欧美| 亚洲av成人精品一二三区| 青青草视频在线视频观看| 免费av不卡在线播放| 伦精品一区二区三区| 成年美女黄网站色视频大全免费 | 亚洲性久久影院| 午夜福利网站1000一区二区三区| 桃花免费在线播放| 国产日韩欧美视频二区| 成人免费观看视频高清| 亚洲欧洲日产国产| 蜜桃久久精品国产亚洲av| 高清午夜精品一区二区三区| 视频中文字幕在线观看| 国产日韩欧美在线精品| 亚洲精品日韩av片在线观看| 国产精品久久久久久精品电影小说| 18+在线观看网站| 最黄视频免费看| 亚洲精品国产av成人精品| h视频一区二区三区| 亚洲精品日韩av片在线观看| 亚洲欧美中文字幕日韩二区| 久久精品熟女亚洲av麻豆精品| 欧美老熟妇乱子伦牲交| 黄色毛片三级朝国网站 | 99热这里只有是精品在线观看| 亚洲第一av免费看| 99精国产麻豆久久婷婷| 亚洲av成人精品一二三区| 91久久精品国产一区二区成人| 国产欧美日韩一区二区三区在线 | 国产精品麻豆人妻色哟哟久久| 亚洲,一卡二卡三卡| 国产精品一二三区在线看| 精品一区二区三卡| 亚洲av二区三区四区| 少妇人妻一区二区三区视频| 亚洲综合色惰| 激情五月婷婷亚洲| 丝袜脚勾引网站| 成年av动漫网址| 99re6热这里在线精品视频| 午夜日本视频在线| 精品久久国产蜜桃| 亚洲欧美中文字幕日韩二区| tube8黄色片| 久久国产精品大桥未久av | 欧美成人午夜免费资源| 狠狠精品人妻久久久久久综合| 久久精品熟女亚洲av麻豆精品| 全区人妻精品视频| av免费在线看不卡| av卡一久久| 免费黄网站久久成人精品| 国产探花极品一区二区| 少妇的逼好多水| 国产精品蜜桃在线观看| 天天躁夜夜躁狠狠久久av| 国产高清有码在线观看视频| 青春草视频在线免费观看| 日韩中字成人| 建设人人有责人人尽责人人享有的| 三级经典国产精品| 久久ye,这里只有精品| 99久久人妻综合| 久久久久久久久久久免费av| 午夜福利在线观看免费完整高清在| 97在线人人人人妻| 日韩熟女老妇一区二区性免费视频| 午夜日本视频在线| 丰满迷人的少妇在线观看| 嫩草影院入口| 十八禁高潮呻吟视频 | 国产精品福利在线免费观看| 亚洲精品乱久久久久久| av国产久精品久网站免费入址| 美女视频免费永久观看网站| 久久精品国产亚洲av涩爱| 国产女主播在线喷水免费视频网站| 少妇的逼好多水| 香蕉精品网在线| 国产成人精品福利久久| 国产真实伦视频高清在线观看| 国产精品一区二区在线不卡| 丰满少妇做爰视频| h视频一区二区三区| 美女脱内裤让男人舔精品视频| 国产精品三级大全| 国产日韩欧美视频二区| 欧美日本中文国产一区发布| 国产午夜精品久久久久久一区二区三区| 国产极品粉嫩免费观看在线 | 91在线精品国自产拍蜜月| 国产精品国产三级国产专区5o| 亚洲人成网站在线观看播放| av免费观看日本| 一二三四中文在线观看免费高清| 久久国内精品自在自线图片| 成年女人在线观看亚洲视频| 黄片无遮挡物在线观看| 国国产精品蜜臀av免费| 只有这里有精品99| 国产日韩一区二区三区精品不卡 | 午夜激情久久久久久久| 美女cb高潮喷水在线观看| 国产精品麻豆人妻色哟哟久久| 亚洲精品久久久久久婷婷小说| 亚洲av电影在线观看一区二区三区| 色视频www国产| h日本视频在线播放| 久久精品久久久久久噜噜老黄| 亚洲欧美日韩卡通动漫| 国产美女午夜福利| 亚洲无线观看免费| 国产精品福利在线免费观看| 嫩草影院入口| 亚洲国产精品国产精品| h日本视频在线播放| 搡女人真爽免费视频火全软件| 亚洲欧美中文字幕日韩二区| 日日摸夜夜添夜夜添av毛片| 美女主播在线视频| 91精品国产国语对白视频| 观看免费一级毛片| 国产亚洲5aaaaa淫片| 精品少妇内射三级| 男女无遮挡免费网站观看| 国产永久视频网站| 日韩成人av中文字幕在线观看| 久久精品国产a三级三级三级| 男女免费视频国产| 国产成人精品婷婷| 欧美精品亚洲一区二区| 九草在线视频观看| 又粗又硬又长又爽又黄的视频| 成人无遮挡网站| 免费看不卡的av| 久久女婷五月综合色啪小说| 日韩不卡一区二区三区视频在线| 91精品国产国语对白视频| 亚洲图色成人| 亚洲av中文av极速乱| 亚洲av男天堂| av国产久精品久网站免费入址| a级一级毛片免费在线观看| 又大又黄又爽视频免费| 中文字幕精品免费在线观看视频 | 亚洲av免费高清在线观看| 国产又色又爽无遮挡免| 中文欧美无线码| 18禁在线无遮挡免费观看视频| 亚洲精品一区蜜桃| 成人亚洲精品一区在线观看| 国产成人免费观看mmmm| 女的被弄到高潮叫床怎么办| 欧美精品一区二区免费开放| 日本黄色片子视频| 在线观看免费日韩欧美大片 | 午夜免费男女啪啪视频观看| 精品午夜福利在线看| av黄色大香蕉| 99久久精品热视频| 一级av片app| 最新的欧美精品一区二区| 男人和女人高潮做爰伦理| 欧美区成人在线视频| 亚洲精品久久午夜乱码| 国产在线视频一区二区| 啦啦啦中文免费视频观看日本| 青春草视频在线免费观看| 日韩大片免费观看网站| tube8黄色片| 亚洲国产精品专区欧美| 日日啪夜夜爽| 亚洲av.av天堂| 99久久人妻综合| 欧美日韩在线观看h| 男人爽女人下面视频在线观看| 免费人成在线观看视频色| 亚洲成人av在线免费| 久久久久久伊人网av| 99热6这里只有精品| 永久网站在线| 在线观看美女被高潮喷水网站| 国产精品蜜桃在线观看| 精品国产一区二区三区久久久樱花| 桃花免费在线播放| 中文字幕精品免费在线观看视频 | 99久久精品国产国产毛片| 国产精品一区二区三区四区免费观看| 最近中文字幕高清免费大全6| 色5月婷婷丁香| 91久久精品国产一区二区三区| 中文字幕久久专区| 久久人人爽人人爽人人片va| 国产高清三级在线| 国产男人的电影天堂91| 精品一品国产午夜福利视频| 丰满乱子伦码专区| av视频免费观看在线观看| 色哟哟·www| 黄色欧美视频在线观看| 有码 亚洲区| 久久婷婷青草| 大码成人一级视频| 黄色欧美视频在线观看| 色哟哟·www| 亚洲精品一区蜜桃| 黄片无遮挡物在线观看| 日日爽夜夜爽网站| 日韩中文字幕视频在线看片| 国产精品久久久久久av不卡| 日本91视频免费播放| 91午夜精品亚洲一区二区三区| 亚洲精品久久午夜乱码| 老女人水多毛片| 国产精品成人在线| 精品国产国语对白av| 九草在线视频观看| 大片免费播放器 马上看| 另类亚洲欧美激情| 精华霜和精华液先用哪个| 免费高清在线观看视频在线观看| 国产一区二区在线观看av| 国产片特级美女逼逼视频| 国产探花极品一区二区| 国产精品人妻久久久影院| 亚洲精品中文字幕在线视频 | 一级毛片黄色毛片免费观看视频| 欧美另类一区| 三上悠亚av全集在线观看 | 狂野欧美激情性bbbbbb| 免费观看在线日韩| av国产精品久久久久影院| 亚洲成人一二三区av| 国产综合精华液| 久热久热在线精品观看| 欧美日韩一区二区视频在线观看视频在线| 中文精品一卡2卡3卡4更新| av女优亚洲男人天堂| 人人妻人人看人人澡| 欧美bdsm另类| 中文乱码字字幕精品一区二区三区| 人妻制服诱惑在线中文字幕| 嫩草影院新地址| 九草在线视频观看| 午夜91福利影院| 夜夜看夜夜爽夜夜摸| 啦啦啦视频在线资源免费观看| 伊人久久国产一区二区| 中文字幕制服av| 欧美三级亚洲精品| 免费大片18禁| 啦啦啦啦在线视频资源| 人妻夜夜爽99麻豆av| 日韩免费高清中文字幕av| 80岁老熟妇乱子伦牲交| 亚洲av男天堂| 99热全是精品| 亚洲欧美一区二区三区黑人 | 久久毛片免费看一区二区三区| 狂野欧美激情性xxxx在线观看| 两个人免费观看高清视频 | .国产精品久久| 国产在视频线精品| 国产免费一级a男人的天堂| 熟女人妻精品中文字幕| 2022亚洲国产成人精品| 免费看日本二区| 69精品国产乱码久久久| 高清在线视频一区二区三区| 久久人人爽人人爽人人片va| 欧美老熟妇乱子伦牲交| 国产成人免费无遮挡视频| 免费大片黄手机在线观看| 美女内射精品一级片tv| 久久99一区二区三区| 国产片特级美女逼逼视频| 日韩一本色道免费dvd| 麻豆精品久久久久久蜜桃| 如日韩欧美国产精品一区二区三区 | av卡一久久| 插逼视频在线观看| 中文乱码字字幕精品一区二区三区| 国产精品福利在线免费观看| 国产日韩欧美在线精品| av线在线观看网站| 黄色配什么色好看| 狂野欧美激情性xxxx在线观看| 97在线人人人人妻| 国产免费福利视频在线观看| 精品一区在线观看国产| 麻豆乱淫一区二区| 国产伦在线观看视频一区| 如日韩欧美国产精品一区二区三区 | 国产欧美日韩一区二区三区在线 | 一本久久精品| 麻豆成人av视频| 一本色道久久久久久精品综合| 成人二区视频| 日本-黄色视频高清免费观看| 青青草视频在线视频观看| 亚洲不卡免费看| 高清黄色对白视频在线免费看 | 日韩熟女老妇一区二区性免费视频| 国产免费视频播放在线视频| 熟女电影av网| 在线免费观看不下载黄p国产| 国产 一区精品| 极品教师在线视频| 亚洲av男天堂| 欧美变态另类bdsm刘玥| 校园人妻丝袜中文字幕| av福利片在线观看| 在线 av 中文字幕| 中文欧美无线码| 黑人巨大精品欧美一区二区蜜桃 | 国产熟女午夜一区二区三区 | 99视频精品全部免费 在线| 亚洲国产精品成人久久小说| 午夜福利网站1000一区二区三区| 国产免费一区二区三区四区乱码| 午夜老司机福利剧场| 如何舔出高潮| 伊人亚洲综合成人网| 免费观看性生交大片5| 国产成人免费无遮挡视频| 午夜视频国产福利| 久久久久久伊人网av| 国产精品国产三级国产专区5o| 交换朋友夫妻互换小说| 热re99久久国产66热| 亚洲,欧美,日韩| 日韩大片免费观看网站| 国产精品蜜桃在线观看| 亚洲精品久久久久久婷婷小说| 午夜福利视频精品| 国产日韩欧美亚洲二区| 纯流量卡能插随身wifi吗| 最新的欧美精品一区二区| 高清欧美精品videossex| 在线精品无人区一区二区三| 视频中文字幕在线观看| 国产高清不卡午夜福利| 男人和女人高潮做爰伦理| 国产亚洲5aaaaa淫片| 欧美成人午夜免费资源| 26uuu在线亚洲综合色| 建设人人有责人人尽责人人享有的| 男人和女人高潮做爰伦理| 成人午夜精彩视频在线观看| av免费在线看不卡| 亚洲精品国产av蜜桃| 久久99一区二区三区| 在线观看免费高清a一片| 亚洲精品一二三| 国产男女内射视频| 少妇精品久久久久久久| 搡女人真爽免费视频火全软件| 亚洲国产欧美日韩在线播放 | 午夜激情久久久久久久| 午夜免费观看性视频| 99热国产这里只有精品6| 人妻少妇偷人精品九色| 黑丝袜美女国产一区| 日日摸夜夜添夜夜爱| .国产精品久久| 国产精品99久久99久久久不卡 | 天美传媒精品一区二区| 午夜福利在线观看免费完整高清在| 国产精品国产三级国产专区5o| 草草在线视频免费看| 日韩一区二区视频免费看| 国产av国产精品国产| 亚洲国产精品一区二区三区在线| 丰满饥渴人妻一区二区三| 一区在线观看完整版| 亚洲av成人精品一区久久| 国产精品三级大全| 内射极品少妇av片p| 插阴视频在线观看视频| 国产精品偷伦视频观看了| 中文字幕人妻熟人妻熟丝袜美| 黑人猛操日本美女一级片| 性高湖久久久久久久久免费观看| 国产精品久久久久成人av| 免费高清在线观看视频在线观看| 精品人妻一区二区三区麻豆| 久久ye,这里只有精品| av福利片在线观看| 狂野欧美激情性bbbbbb| 99久久精品热视频| 日韩在线高清观看一区二区三区| 99久久综合免费| 91午夜精品亚洲一区二区三区| 国产精品久久久久久久久免| 一级毛片 在线播放| 亚洲国产精品999| 热re99久久国产66热| 亚洲激情五月婷婷啪啪| 欧美成人午夜免费资源| 国产亚洲最大av| 亚洲av二区三区四区| 51国产日韩欧美| 最新中文字幕久久久久| av视频免费观看在线观看| 好男人视频免费观看在线| 久久久午夜欧美精品| 乱人伦中国视频| 成人影院久久| 国产精品久久久久久久电影| 国产精品久久久久久精品古装| 97超视频在线观看视频| 国产在线视频一区二区| 欧美日韩av久久| 搡女人真爽免费视频火全软件| 亚洲人成网站在线观看播放| 亚洲国产最新在线播放| 黄片无遮挡物在线观看| 高清毛片免费看| 精品国产乱码久久久久久小说| 国产精品伦人一区二区| 99久久精品热视频| 大又大粗又爽又黄少妇毛片口| 精品一区在线观看国产| 亚洲久久久国产精品| 国精品久久久久久国模美| 精品国产一区二区三区久久久樱花| 国内精品宾馆在线| 久久久午夜欧美精品| 久久久国产欧美日韩av| 久久精品久久精品一区二区三区| 国产熟女欧美一区二区| 97精品久久久久久久久久精品| 久久99精品国语久久久| 日本欧美视频一区| 国产日韩一区二区三区精品不卡 | 国产黄频视频在线观看| 日本欧美视频一区| 在线观看免费高清a一片| 2022亚洲国产成人精品| 少妇精品久久久久久久| 啦啦啦视频在线资源免费观看| 日韩av在线免费看完整版不卡| av黄色大香蕉| 嫩草影院新地址| 成人毛片60女人毛片免费| 老熟女久久久| 在线观看美女被高潮喷水网站| 天天操日日干夜夜撸| 九九爱精品视频在线观看| 亚洲欧洲国产日韩| 一级av片app| 男的添女的下面高潮视频| 少妇人妻久久综合中文| 久久久久久人妻| 久久久久精品久久久久真实原创| 少妇精品久久久久久久| 一级a做视频免费观看| 国产午夜精品一二区理论片| 久久人人爽av亚洲精品天堂| 国产白丝娇喘喷水9色精品| 婷婷色综合www| 久久国产乱子免费精品| 精品一品国产午夜福利视频| 一区二区三区乱码不卡18| 日本av免费视频播放| 免费人成在线观看视频色| 一级毛片我不卡|