• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合序列模式評(píng)分的策略梯度推薦算法

    2022-03-18 06:16:06丁家滿賈連印游進(jìn)國(guó)
    關(guān)鍵詞:梯度函數(shù)算法

    官 蕊 丁家滿 賈連印 游進(jìn)國(guó) 姜 瑛

    (昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500)(云南省人工智能重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650500)

    0 引 言

    交互式推薦系統(tǒng)(IRS)在大多數(shù)個(gè)性化服務(wù)中起著關(guān)鍵作用[1]。不同于傳統(tǒng)推薦方法將推薦過程定義為靜態(tài)過程[2],IRS連續(xù)向用戶推薦商品并獲得他們的反饋,從這種交互過程中學(xué)習(xí)推薦策略。IRS方法分為兩類:基于多臂賭博機(jī)(MAB)推薦和基于強(qiáng)化學(xué)習(xí)(RL)推薦。其中,基于MAB推薦嘗試將交互推薦建模為MAB問題。Koren等[3]和Zeng等[4]采用線性模型來估計(jì)各臂的置信上限(UCB)。此外,一些研究者嘗試將MAB與矩陣分解技術(shù)相結(jié)合進(jìn)行推薦[5]。這一類推薦方法無法實(shí)時(shí)適應(yīng)用戶偏好的改變,雖然實(shí)現(xiàn)最大化用戶的當(dāng)前收益,但其忽略了用戶的長(zhǎng)期收益。

    強(qiáng)化學(xué)習(xí)在需要?jiǎng)討B(tài)交互和長(zhǎng)期規(guī)劃(例如Atari游戲、棋類博弈和自動(dòng)駕駛等)的多種場(chǎng)景中應(yīng)用取得了顯著成功[6]。近幾年,眾多學(xué)者應(yīng)用強(qiáng)化學(xué)習(xí)解決推薦問題,顯示出其處理IRS交互性的潛力?;赗L的推薦方法將推薦過程定義為馬爾可夫決策過程(MDP),對(duì)用戶狀態(tài)進(jìn)行建模,以最大化長(zhǎng)期推薦獎(jiǎng)勵(lì)[7],這一類方法包括:基于值(Value-based)的方法(例如,Q-Learning)和基于策略(Policy-based)的方法(例如,策略梯度),構(gòu)成了解決RL問題的經(jīng)典方法[8]。Taghipour等[9]提出將網(wǎng)頁信息與Q-Learning算法結(jié)合解決網(wǎng)頁推薦問題。有研究者在Q-Learning中引入值函數(shù)估計(jì)和記憶庫(kù)機(jī)制,提出Deep Q Network(DQN)方法[10]。Zhao等[11]將正面和負(fù)面反饋均融入DQN框架,提出了將目標(biāo)項(xiàng)目與競(jìng)爭(zhēng)者項(xiàng)目之間Q值差異最大化,以引導(dǎo)推薦過程的方向和目標(biāo)的統(tǒng)一。由于Q-Learning算法和DQN算法都是Value-based的學(xué)習(xí)方法,通過對(duì)Bellman方程進(jìn)行迭代最終收斂到最優(yōu)價(jià)值函數(shù),這種方法計(jì)算量大,而且在一些特殊的場(chǎng)景下Q值難以計(jì)算[12]。作為一種Policy-based學(xué)習(xí)方法,策略梯度(policy gradient)則不存在這一問題,這種方法可以直接對(duì)策略進(jìn)行學(xué)習(xí)。Chen等[13]提出了一個(gè)基于層次聚類樹的策略梯度推薦框架,通過尋找從樹根到葉子的路徑選取推薦項(xiàng)目。Chen等[14]提出將離線策略梯度修正的方法用于動(dòng)作空間數(shù)以百萬計(jì)的Youtube在線推薦系統(tǒng),解決了因只能從之前記錄反饋而產(chǎn)生推薦的數(shù)據(jù)偏差問題。

    上述推薦算法均獲得了良好的推薦效果,但在挖掘數(shù)據(jù)特性方面有待改進(jìn)。為此,本文提出一種融合序列模式評(píng)分的策略梯度推薦算法(Sequence Pattern Rating Recommendation,SPRR),首先分析評(píng)分?jǐn)?shù)據(jù)的序列模式,設(shè)計(jì)融合序列模式評(píng)分的獎(jiǎng)勵(lì)作為交互式推薦的反饋信息;其次針對(duì)策略梯度方差大的問題,通過對(duì)累計(jì)獎(jiǎng)勵(lì)回報(bào)設(shè)計(jì)標(biāo)準(zhǔn)化操作來降低策略梯度的方差,學(xué)習(xí)更優(yōu)的推薦策略,解決電影推薦問題。

    1 問題定義

    利用強(qiáng)化學(xué)習(xí)解決推薦問題,通?;隈R爾可夫決策過程原理建立推薦過程模型。馬爾可夫決策過程由狀態(tài)集S、動(dòng)作集A、獎(jiǎng)勵(lì)函數(shù)R、狀態(tài)轉(zhuǎn)移函數(shù)T和策略函數(shù)π組成,利用五元組表示。其中,狀態(tài)集S定義為用戶和推薦系統(tǒng)的歷史交互記錄,其包含推薦項(xiàng)目、獎(jiǎng)勵(lì)回報(bào)和統(tǒng)計(jì)信息。在時(shí)間步t,將狀態(tài)st定義為二元組[item, reward],其中item和reward為推薦項(xiàng)目和相應(yīng)用戶反饋的獎(jiǎng)勵(lì)回報(bào)信息。為了對(duì)用戶歷史交互記錄進(jìn)行編碼,受Lei等[15]提出的快速訓(xùn)練的簡(jiǎn)單遞歸單元SRU的啟發(fā),本文利用RNN模型來學(xué)習(xí)狀態(tài)的隱藏表示。動(dòng)作集A是智能體(Agent)可選的所有離散動(dòng)作集合。所有可選的動(dòng)作集合取決于當(dāng)前的狀態(tài)st,表示為A(st)。在時(shí)間步t,選擇一個(gè)推薦項(xiàng)目a推薦給用戶。

    獎(jiǎng)勵(lì)函數(shù)R(s,a)也稱為強(qiáng)化函數(shù),是一種即時(shí)獎(jiǎng)勵(lì)或懲罰。推薦系統(tǒng)根據(jù)當(dāng)前歷史交互記錄s向用戶推薦項(xiàng)目a之后,用戶反饋給推薦系統(tǒng)一個(gè)獎(jiǎng)勵(lì),表示用戶對(duì)該推薦項(xiàng)目的評(píng)價(jià)。狀態(tài)轉(zhuǎn)移函數(shù)T(s,a)是一個(gè)描述環(huán)境狀態(tài)轉(zhuǎn)移的函數(shù)。由于狀態(tài)是用戶的歷史交互記錄,一旦推薦一個(gè)新的項(xiàng)目給用戶,并受到用戶的反饋,用戶的狀態(tài)也就發(fā)生了相應(yīng)的變化。作為對(duì)時(shí)間步t選擇執(zhí)行動(dòng)作at的結(jié)果,該函數(shù)將環(huán)境狀態(tài)st轉(zhuǎn)移到st+1。策略函數(shù)π(a|s)描述了Agent的行為,它是從環(huán)境狀態(tài)到動(dòng)作的一種映射。策略函數(shù)定義為所有可選的候選動(dòng)作項(xiàng)目的概率分布。策略函數(shù)π(a|s)表示為:

    (1)

    式中:θ是策略參數(shù)。

    包含上述MDP元素的序列(episode)為一次推薦過程,包含用戶狀態(tài)、推薦動(dòng)作和用戶反饋的序列(s1,a1,r1,s2,a2,r2,…,sn,an,rn,sn+1)。在此序列中,推薦算法根據(jù)用戶狀態(tài)s1向用戶推薦項(xiàng)目a1,用戶反饋給推薦系統(tǒng)此次推薦的獎(jiǎng)勵(lì)回報(bào)r1,用戶狀態(tài)s1相應(yīng)的轉(zhuǎn)變?yōu)閟2,當(dāng)序列到達(dá)滿足預(yù)定義條件的狀態(tài)sn+1時(shí)結(jié)束。

    2 SPRR算法

    2.1 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

    獎(jiǎng)勵(lì)回報(bào)作為用戶對(duì)推薦Agent行為的反饋,是指導(dǎo)強(qiáng)化學(xué)習(xí)方向的關(guān)鍵。獎(jiǎng)勵(lì)函數(shù)設(shè)置的優(yōu)劣將直接影響算法的收斂速度和學(xué)習(xí)效果,因此在強(qiáng)化學(xué)習(xí)中至關(guān)重要。目前大多數(shù)基于RL推薦方法的獎(jiǎng)勵(lì)函數(shù)設(shè)置較單一,一般定義用戶評(píng)分、用戶點(diǎn)擊量和用戶購(gòu)買量等標(biāo)量信息作為反饋,未挖掘推薦過程中用戶反饋行為的評(píng)分序列模式。用戶評(píng)分歷史記錄中,除了反映用戶對(duì)推薦項(xiàng)目的滿意度外,在一定程度上也反映了用戶的評(píng)分偏好。若用戶的連續(xù)正面評(píng)分記錄越多,表示用戶對(duì)已推薦項(xiàng)目的滿意度越高,用戶對(duì)于后續(xù)推薦項(xiàng)目的評(píng)分為正面的概率越大;若用戶的連續(xù)負(fù)面評(píng)分記錄越多,表示用戶對(duì)已推薦項(xiàng)目的滿意度較低,用戶對(duì)于后續(xù)推薦項(xiàng)目的評(píng)分為負(fù)面的概率越大。

    受文獻(xiàn)[14]啟發(fā),本文在狀態(tài)st下推薦動(dòng)作at后,將用戶反饋的獎(jiǎng)勵(lì)定義為兩部分。一部分是經(jīng)驗(yàn)獎(jiǎng)勵(lì)回報(bào),定義為用戶對(duì)推薦項(xiàng)目at的評(píng)分;另一部分是序列模式獎(jiǎng)勵(lì)回報(bào),定義為在狀態(tài)st下推薦項(xiàng)目at之前,用戶的評(píng)分序列模式獎(jiǎng)勵(lì)。評(píng)分序列模式獎(jiǎng)勵(lì)定義為用戶的連續(xù)正面平均評(píng)分和連續(xù)負(fù)面平均評(píng)分之差,利用計(jì)算正負(fù)面平均評(píng)分的方式學(xué)習(xí)用戶的評(píng)分序列模式。獎(jiǎng)勵(lì)函數(shù)R(s,a)計(jì)算式為:

    R(s,a)=rij+α(rp-rn)

    (2)

    式中:rij是用戶i對(duì)推薦項(xiàng)目j的評(píng)分,若用戶i未對(duì)推薦項(xiàng)目j評(píng)分則為0;rp是用戶的連續(xù)正面平均評(píng)分,計(jì)算式為式(3);rn是用戶連續(xù)負(fù)面平均評(píng)分計(jì)算式為式(4);α為平衡參數(shù)用以權(quán)衡經(jīng)驗(yàn)獎(jiǎng)勵(lì)回報(bào)和序列模式獎(jiǎng)勵(lì)回報(bào)的比重。

    (3)

    (4)

    式中:pi為連續(xù)正面評(píng)分計(jì)數(shù);ni為連續(xù)負(fù)面評(píng)分計(jì)數(shù)。

    2.2 改進(jìn)的策略參數(shù)學(xué)習(xí)

    本文通過強(qiáng)化學(xué)習(xí)中策略梯度方法REINFORCE來學(xué)習(xí)策略參數(shù)θ。策略梯度方法是強(qiáng)化學(xué)習(xí)中的另一大分支。與Value-based的方法(Q-learning,Sarsa算法)類似,REINFORCE也需要同環(huán)境進(jìn)行交互,不同的是它輸出的不是動(dòng)作的價(jià)值,而是所有可選動(dòng)作的概率分布。SPRR算法的目標(biāo)是最大化期望累積折扣獎(jiǎng)勵(lì)J(πθ),表示為:

    J(πθ)=ΕL~πθ[G(L)]

    (5)

    式中:L={xa0,xa1,…,xaN}是推薦列表。G(L)定義為推薦列表的累積折扣獎(jiǎng)勵(lì),其計(jì)算式為:

    (6)

    假定一個(gè)完整推薦序列的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)回報(bào)的軌跡為τ=(s0,a0,r0,s1,a1,r1,…,sn,an,rn,sn+1),則期望累積折扣獎(jiǎng)勵(lì)J(πθ)的梯度▽?duì)菾(πθ)的計(jì)算式為:

    ▽?duì)菾(πθ)=Gt▽?duì)萳ogπθ(at|st;θ)

    (7)

    利用該梯度調(diào)整策略參數(shù),得到策略參數(shù)更新式為:

    θ=θ+η▽?duì)菾(πθ)

    (8)

    式中:η為學(xué)習(xí)率,用來控制策略參數(shù)θ更新的速率。式(7)中的▽?duì)萳ogπθ(at|st;θ)梯度項(xiàng)表示能夠提高推薦軌跡τ出現(xiàn)概率的方向,乘以累積折扣獎(jiǎng)勵(lì)之后,可以使得單個(gè)序列內(nèi)累積獎(jiǎng)勵(lì)回報(bào)最高的軌跡τ越“用力拉攏”概率密度。即若收集了很多累積獎(jiǎng)勵(lì)回報(bào)不同的推薦軌跡,通過上述訓(xùn)練過程會(huì)使得概率密度向累積獎(jiǎng)勵(lì)回報(bào)更高的方向移動(dòng),最大化高獎(jiǎng)勵(lì)回報(bào)推薦軌跡τ出現(xiàn)的概率。

    在某些序列中,由于每個(gè)序列的累積獎(jiǎng)勵(lì)回報(bào)都不為負(fù),那么所有梯度▽?duì)菾(πθ)的值也均為大于等于0的。此時(shí),在訓(xùn)練過程中收集的每個(gè)推薦軌跡,都會(huì)使概率密度向正的方向“拉攏”,很大程度減緩了學(xué)習(xí)速率,使得梯度▽?duì)菾(πθ)的方差很大。因此,本文對(duì)累計(jì)獎(jiǎng)勵(lì)回報(bào)使用標(biāo)準(zhǔn)化操作來降低梯度▽?duì)菾(πθ)的方差。

    (9)

    通過改進(jìn)的累積獎(jiǎng)勵(lì)回報(bào)使得算法能提高總獎(jiǎng)勵(lì)回報(bào)較大的推薦軌跡的出現(xiàn)概率,同時(shí)降低總獎(jiǎng)勵(lì)回報(bào)較小的推薦軌跡的出現(xiàn)概率,保證策略參數(shù)θ沿著有利于產(chǎn)生最高總獎(jiǎng)勵(lì)回報(bào)的動(dòng)作的方向移動(dòng),使好的動(dòng)作得到更高的獎(jiǎng)勵(lì)。

    本文提出的SPRR推薦算法的具體描述如下算法1。算法2取樣序列算法描述了算法1中獲取取樣序列的過程。

    算法1SPRR算法

    輸入:序列長(zhǎng)度N,候選推薦集合D,學(xué)習(xí)率η,折扣因子γ,獎(jiǎng)勵(lì)函數(shù)R。

    輸出:策略參數(shù)θ。

    1.forj=1 tondo

    2.隨機(jī)初始化策略參數(shù)θj;

    3.end for

    4.θ=(θ1,θ2,θ3,…,θn);

    5.repeat

    6.Δθ=0;

    7.(s0,a0,r1,…,sM-1,aM-1,rM)←

    SampleAnEpisode(θ,N,D,R);

    //算法2

    8.fort=0 toNdo

    //式(9)

    10.▽?duì)菾(πθ)=Gt▽?duì)萳ogπθ(at|st;θ);

    //式(7)

    11.end for

    12.end for

    13.θ=θ+η▽?duì)菾(πθ);

    //式(8)

    14.until converge;

    15.返回θ;

    算法2SampleAnEpisode Algorithm算法

    輸入:策略參數(shù)θ,序列長(zhǎng)度N,獎(jiǎng)勵(lì)函數(shù)R。

    輸出:推薦序列E。

    1.初始化s0=[0];

    2.fort=0 toNdo

    3.取樣動(dòng)作at∈A(st)~π(at|st;θ)

    //式(1)

    4.rt+1=R(st,at);

    //式(2)

    5.ift

    6.轉(zhuǎn)移st至st+1;

    7.添加(st,at,rt+1)至E的末端;

    8.end for

    9.返回E;

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 評(píng)分序列模式驗(yàn)證

    實(shí)驗(yàn)采用MovieLens(10M)和Netflix數(shù)據(jù)集。MovieLens(10M)數(shù)據(jù)集包含從MovieLens網(wǎng)站收集的1 000萬條用戶對(duì)電影的評(píng)分。Netflix數(shù)據(jù)集包含從Netflix比賽中收集的1億條評(píng)分。數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。

    表1 數(shù)據(jù)集的統(tǒng)計(jì)信息

    本文對(duì)電影推薦中的數(shù)據(jù)集MovieLens(10M)和Netflix進(jìn)行實(shí)證分析,來驗(yàn)證推薦過程中評(píng)分序列模式的存在。兩個(gè)數(shù)據(jù)集中均包含許多用戶會(huì)話,每個(gè)會(huì)話根據(jù)時(shí)間戳包含用戶對(duì)不同項(xiàng)目的評(píng)分且兩個(gè)數(shù)據(jù)集均為五級(jí)評(píng)分。假定3分及以上的評(píng)分為正面評(píng)分,其他評(píng)分為負(fù)面評(píng)分。假設(shè)用戶u對(duì)推薦項(xiàng)目i評(píng)分之前有b個(gè)連續(xù)正(負(fù))評(píng)分的評(píng)級(jí),將連續(xù)正(負(fù))計(jì)數(shù)定義為b。因此,每一推薦動(dòng)作可以與特定的連續(xù)正(負(fù))計(jì)數(shù)關(guān)聯(lián),設(shè)置b為1~5,計(jì)算具有相同計(jì)數(shù)b的平均評(píng)分。圖1-圖2給出了在兩個(gè)數(shù)據(jù)集下不同連續(xù)正(負(fù))計(jì)數(shù)下相應(yīng)的平均評(píng)分,可以觀察到用戶評(píng)分行為存在的序列模式,即對(duì)連續(xù)正計(jì)數(shù)較大的項(xiàng)目用戶,傾向于給出線性較高的評(píng)分;反之,連續(xù)負(fù)計(jì)數(shù)較大的項(xiàng)目用戶傾向于給出線性較低的評(píng)分。原因可能是用戶之前觀看的電影越讓其感興趣,用戶滿意度越高。因此,用戶傾向于對(duì)當(dāng)前推薦的電影給予較高的評(píng)價(jià)。若用戶之前觀看的電影越讓其不感興趣,用戶滿意度越低。因此,用戶傾向于對(duì)當(dāng)前推薦的電影給予較低的評(píng)價(jià)。

    圖1 MovieLens在不同連續(xù)計(jì)數(shù)下的平均評(píng)分

    圖2 Netflix在不同連續(xù)計(jì)數(shù)下的平均評(píng)分

    3.2 結(jié)果分析

    所有實(shí)驗(yàn)中,由于基于RL的方法的目標(biāo)是獲得最大的累積獎(jiǎng)勵(lì)回報(bào),因此本文使用測(cè)試集中用戶對(duì)推薦項(xiàng)目的平均獎(jiǎng)勵(lì)(Reward)作為一個(gè)評(píng)價(jià)指標(biāo)。平均獎(jiǎng)勵(lì)指的是測(cè)試集中的用戶對(duì)于算法推薦項(xiàng)目的評(píng)價(jià)。若平均獎(jiǎng)勵(lì)越大,說明用戶對(duì)于推薦項(xiàng)目越感興趣,整體滿意度越大;反之則說明用戶對(duì)于推薦項(xiàng)目越不感興趣,整體滿意度越小。此外,采用了準(zhǔn)確性(Precision@k)和歸一化折扣累積增益(NDCG@k)作為評(píng)價(jià)指標(biāo)。Precision評(píng)測(cè)推薦的準(zhǔn)確性,NDCG評(píng)測(cè)推薦列表的優(yōu)劣。算法目標(biāo)是將用戶感興趣的項(xiàng)目盡量靠前推薦。k分別取10、20和30驗(yàn)證算法效果。對(duì)于每個(gè)用戶,所有評(píng)分大于等于3.0的項(xiàng)目都被視為用戶感興趣的相關(guān)項(xiàng)目,而小于3.0評(píng)分的項(xiàng)目則被視為用戶不感興趣的項(xiàng)目。

    將兩個(gè)數(shù)據(jù)集分別分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集占80%,測(cè)試集占20%。在所有實(shí)驗(yàn)中,根據(jù)訓(xùn)練經(jīng)驗(yàn)分別設(shè)置學(xué)習(xí)率η和折扣因子γ為0.02和0.9,獎(jiǎng)勵(lì)函數(shù)中的平衡參數(shù)α為0、0.1和0.2進(jìn)行實(shí)驗(yàn)。當(dāng)α=0時(shí),此時(shí)獎(jiǎng)勵(lì)函數(shù)只考慮用戶評(píng)分進(jìn)行推薦。在每個(gè)推薦序列中,一旦一個(gè)推薦項(xiàng)被推薦給用戶后,該項(xiàng)目將會(huì)從候選推薦集中刪除,避免在一個(gè)推薦序列中重復(fù)推薦。將提出的SPRR算法同基于MAB的方法HLinearUCB和基于RL的方法DQN-R對(duì)比。表2列出了平衡參數(shù)取0.2時(shí),SPRR推薦算法和對(duì)比算法在平均獎(jiǎng)勵(lì)上的對(duì)比結(jié)果。

    表2 不同數(shù)據(jù)集的Reward值

    由表2可知,因基于RL的方法具有動(dòng)態(tài)交互和長(zhǎng)期規(guī)劃的能力,與基于MAB的方法比較時(shí),基于RL的方法DQN-R和SPRR均獲得了較高的平均獎(jiǎng)勵(lì)。在基于RL的方法中,本文提出的SPRR取得了最高的平均獎(jiǎng)勵(lì),在MovieLens和Netflix數(shù)據(jù)集上較DQN-R分別提高了24%和28%。分析可知,SPRR取得了較高的平均獎(jiǎng)勵(lì)主要有兩個(gè)原因:(1) 融合序列模式評(píng)分的獎(jiǎng)勵(lì)給SPRR方法加入了額外的用戶偏好信息;(2) 與傳統(tǒng)的基于RL決策方法不同,本文提出的改進(jìn)的策略參數(shù)更新方法,通過設(shè)計(jì)的基準(zhǔn)可以實(shí)現(xiàn)讓策略參數(shù)沿著有利于產(chǎn)生最高獎(jiǎng)勵(lì)回報(bào)的動(dòng)作的方向移動(dòng),可以使用戶可能感興趣的動(dòng)作得到更高的獎(jiǎng)勵(lì),學(xué)習(xí)到更好的推薦策略。

    表3列出了隨著平衡參數(shù)的增大即在算法中不斷增加序列模式獎(jiǎng)勵(lì)回報(bào)的比重,SPRR推薦算法在兩個(gè)數(shù)據(jù)集上的平均獎(jiǎng)勵(lì)的變化,用以驗(yàn)證評(píng)分序列模式對(duì)算法的影響。由表3可知,隨著平衡參數(shù)α的遞增,SPRR算法在兩個(gè)數(shù)據(jù)集上平均獎(jiǎng)勵(lì)均逐漸提高,在Netflix數(shù)據(jù)集上提高了近71%。表明融合序列模式評(píng)分的獎(jiǎng)勵(lì)具有提高SPRR推薦平均獎(jiǎng)勵(lì)的能力。平均獎(jiǎng)勵(lì)的提升,也說明用戶對(duì)于推薦項(xiàng)目滿意度越大。

    表3 兩個(gè)數(shù)據(jù)集下不同平衡參數(shù)的Reward值

    圖3和圖4是隨著平衡參數(shù)α的遞增在兩個(gè)數(shù)據(jù)集上SPRR算法準(zhǔn)確性。由圖3和圖4可知,隨著α遞增,一方面,k取10、20和30時(shí)的算法準(zhǔn)確性逐漸提高,當(dāng)k=30時(shí),算法準(zhǔn)確性最高;另一方面,在α取0.2時(shí),算法在k取10、20和30時(shí)的整體準(zhǔn)確性都達(dá)到最好的性能。

    圖3 MovieLens上的Precision@k值

    圖4 Netflix上的Precision@k值

    圖5和圖6是隨著平衡參數(shù)α的遞增在兩個(gè)數(shù)據(jù)集上的NDCG值。由圖5和圖6可知,隨著α遞增,本文算法在Netflix數(shù)據(jù)集上NDCG有較明顯的提升,推薦列表的質(zhì)量較高。在α=0.2和k=30時(shí),算法的NDCG取得最高值,實(shí)現(xiàn)盡可能將用戶感興趣的項(xiàng)目靠前推薦,提升用戶體驗(yàn)。分析可知,首先增加評(píng)分序列模式獎(jiǎng)勵(lì)的比重給算法增加了額外的用戶評(píng)分偏好信息,使得算法的推薦準(zhǔn)確性逐漸提高;其次本文通過獎(jiǎng)勵(lì)反饋信息不斷調(diào)整推薦策略,k值越大,使用戶興趣被策略參數(shù)更好地學(xué)習(xí),算法準(zhǔn)確性越高。

    圖5 MovieLens上的NDCG@k值

    圖6 Netflix上的NDCG@k值

    4 結(jié) 語

    本文提出一種融合序列模式評(píng)分的策略梯度推薦算法。一方面,將推薦過程建模為馬爾可夫決策過程,設(shè)計(jì)融合序列模式評(píng)分的獎(jiǎng)勵(lì)作為交互式推薦的反饋信息,幫助推薦;另一方面,通過對(duì)累計(jì)獎(jiǎng)勵(lì)回報(bào)設(shè)計(jì)標(biāo)準(zhǔn)化操作來降低策略梯度的方差,實(shí)現(xiàn)提高累積獎(jiǎng)勵(lì)較大的推薦軌跡的出現(xiàn)概率,同時(shí)降低累積獎(jiǎng)勵(lì)較小的推薦軌跡的出現(xiàn)概率,學(xué)習(xí)更優(yōu)的推薦策略,解決推薦問題。實(shí)驗(yàn)結(jié)果表明,SPRR推薦算法不僅有效,而且提高了推薦準(zhǔn)確性。在以后的工作中,將繼續(xù)挖掘影響推薦性能的因素,得到性能更優(yōu)的推薦模型。

    猜你喜歡
    梯度函數(shù)算法
    一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
    二次函數(shù)
    第3講 “函數(shù)”復(fù)習(xí)精講
    二次函數(shù)
    函數(shù)備考精講
    一種自適應(yīng)Dai-Liao共軛梯度法
    基于MapReduce的改進(jìn)Eclat算法
    Travellng thg World Full—time for Rree
    一類扭積形式的梯度近Ricci孤立子
    進(jìn)位加法的兩種算法
    侵犯人妻中文字幕一二三四区| 欧美国产日韩亚洲一区| 悠悠久久av| 99精品在免费线老司机午夜| 丰满人妻熟妇乱又伦精品不卡| 国产精品永久免费网站| 久久久国产成人精品二区| 99久久国产精品久久久| 无遮挡黄片免费观看| 一本精品99久久精品77| 成人18禁高潮啪啪吃奶动态图| 亚洲在线自拍视频| 欧美中文日本在线观看视频| 十分钟在线观看高清视频www| 色综合欧美亚洲国产小说| 黄色片一级片一级黄色片| 色综合欧美亚洲国产小说| 国产99久久九九免费精品| 国产精品野战在线观看| 国产成+人综合+亚洲专区| 精品少妇一区二区三区视频日本电影| 午夜免费鲁丝| 日本熟妇午夜| 好看av亚洲va欧美ⅴa在| 香蕉久久夜色| 精品少妇一区二区三区视频日本电影| 黄色 视频免费看| 身体一侧抽搐| 777久久人妻少妇嫩草av网站| 黄色成人免费大全| 国产激情偷乱视频一区二区| 欧美乱色亚洲激情| 日韩精品中文字幕看吧| 亚洲自偷自拍图片 自拍| 黑人操中国人逼视频| 欧美精品啪啪一区二区三区| 级片在线观看| 啦啦啦观看免费观看视频高清| 一本精品99久久精品77| 正在播放国产对白刺激| 波多野结衣巨乳人妻| 日韩精品中文字幕看吧| 老汉色∧v一级毛片| 精品久久久久久,| 黄色女人牲交| 久久人妻福利社区极品人妻图片| 欧美成人性av电影在线观看| 这个男人来自地球电影免费观看| 亚洲免费av在线视频| 欧美一级a爱片免费观看看 | 成人手机av| 最新在线观看一区二区三区| 精品国产乱子伦一区二区三区| 国产成+人综合+亚洲专区| 国产99白浆流出| 亚洲第一av免费看| 久久婷婷人人爽人人干人人爱| 亚洲性夜色夜夜综合| 91国产中文字幕| 国产日本99.免费观看| 亚洲国产精品久久男人天堂| 看黄色毛片网站| 欧美国产精品va在线观看不卡| av电影中文网址| 不卡av一区二区三区| 不卡一级毛片| 丁香欧美五月| 久久国产乱子伦精品免费另类| 中文字幕人成人乱码亚洲影| 亚洲精品在线观看二区| 亚洲自拍偷在线| 亚洲av成人不卡在线观看播放网| 国产精品久久久久久亚洲av鲁大| 午夜免费成人在线视频| 天天躁狠狠躁夜夜躁狠狠躁| 人人妻人人澡欧美一区二区| 久久国产乱子伦精品免费另类| 一级a爱片免费观看的视频| 欧美日本亚洲视频在线播放| 欧美日本亚洲视频在线播放| 巨乳人妻的诱惑在线观看| 久久亚洲精品不卡| 亚洲激情在线av| 久久精品影院6| 亚洲av电影在线进入| 一级片免费观看大全| 亚洲五月婷婷丁香| 一进一出抽搐动态| 欧美日本视频| 波多野结衣av一区二区av| 亚洲九九香蕉| 欧美一级毛片孕妇| 亚洲五月色婷婷综合| 久久精品国产亚洲av香蕉五月| 亚洲精品久久国产高清桃花| 看免费av毛片| 伊人久久大香线蕉亚洲五| 视频区欧美日本亚洲| 一个人观看的视频www高清免费观看 | 亚洲精品av麻豆狂野| 久久久久久九九精品二区国产 | 久9热在线精品视频| 国产又黄又爽又无遮挡在线| ponron亚洲| 淫秽高清视频在线观看| 国产97色在线日韩免费| 黄色成人免费大全| 欧美激情极品国产一区二区三区| 非洲黑人性xxxx精品又粗又长| 久久久久久久久中文| 99久久久亚洲精品蜜臀av| 黄色视频不卡| 在线看三级毛片| 中文字幕精品免费在线观看视频| 国产又色又爽无遮挡免费看| 青草久久国产| 在线国产一区二区在线| 久久亚洲精品不卡| 两性夫妻黄色片| 久久热在线av| 午夜影院日韩av| 两个人视频免费观看高清| www.精华液| 亚洲人成网站在线播放欧美日韩| 他把我摸到了高潮在线观看| 久久香蕉激情| 久久久久国产精品人妻aⅴ院| 两个人免费观看高清视频| 国产亚洲av嫩草精品影院| 精品国内亚洲2022精品成人| 97人妻精品一区二区三区麻豆 | 正在播放国产对白刺激| 此物有八面人人有两片| 亚洲九九香蕉| 日本在线视频免费播放| 精品电影一区二区在线| 制服丝袜大香蕉在线| 美女扒开内裤让男人捅视频| 少妇粗大呻吟视频| 69av精品久久久久久| 久久久久精品国产欧美久久久| 中文亚洲av片在线观看爽| 哪里可以看免费的av片| 免费在线观看成人毛片| 老司机在亚洲福利影院| 美女高潮到喷水免费观看| 成年免费大片在线观看| 夜夜看夜夜爽夜夜摸| 欧美激情极品国产一区二区三区| 老司机福利观看| 少妇 在线观看| 久久久久久久久久黄片| 夜夜夜夜夜久久久久| 国产精品电影一区二区三区| 好男人电影高清在线观看| 国产精品自产拍在线观看55亚洲| 伦理电影免费视频| 国产高清视频在线播放一区| 免费人成视频x8x8入口观看| 高潮久久久久久久久久久不卡| 久久欧美精品欧美久久欧美| a在线观看视频网站| 淫妇啪啪啪对白视频| 伊人久久大香线蕉亚洲五| а√天堂www在线а√下载| 精品久久久久久久久久久久久 | 久久精品91无色码中文字幕| 久久久久久久久中文| 18禁黄网站禁片免费观看直播| 久久久久久久精品吃奶| 免费在线观看黄色视频的| 亚洲男人的天堂狠狠| 成人18禁在线播放| 国产精品电影一区二区三区| 搡老熟女国产l中国老女人| 精品一区二区三区视频在线观看免费| 欧美+亚洲+日韩+国产| 男人舔女人下体高潮全视频| 一进一出好大好爽视频| 叶爱在线成人免费视频播放| 1024手机看黄色片| 精品欧美一区二区三区在线| 中文字幕av电影在线播放| 精品不卡国产一区二区三区| 午夜免费成人在线视频| 天堂动漫精品| 男女视频在线观看网站免费 | 最近最新免费中文字幕在线| 久久久久九九精品影院| 亚洲男人的天堂狠狠| 99国产精品99久久久久| 亚洲专区中文字幕在线| 国产精品日韩av在线免费观看| 国产精品一区二区三区四区久久 | 国产亚洲精品av在线| 久久久久亚洲av毛片大全| 国产精品,欧美在线| 久久精品91无色码中文字幕| 欧美中文日本在线观看视频| 制服人妻中文乱码| 无限看片的www在线观看| 久久欧美精品欧美久久欧美| 亚洲国产看品久久| av在线天堂中文字幕| 日韩一卡2卡3卡4卡2021年| 久99久视频精品免费| 欧美一级a爱片免费观看看 | 自线自在国产av| 亚洲精品色激情综合| 亚洲精品中文字幕一二三四区| 国内精品久久久久久久电影| 成人18禁高潮啪啪吃奶动态图| 亚洲一区中文字幕在线| 午夜福利高清视频| 男女做爰动态图高潮gif福利片| 91成年电影在线观看| 日韩大尺度精品在线看网址| 久久草成人影院| 丁香六月欧美| 精品国产乱子伦一区二区三区| 亚洲午夜精品一区,二区,三区| 神马国产精品三级电影在线观看 | 亚洲自拍偷在线| 成人免费观看视频高清| 一边摸一边抽搐一进一小说| 精品午夜福利视频在线观看一区| 亚洲av成人一区二区三| 国产高清视频在线播放一区| 91麻豆精品激情在线观看国产| 少妇裸体淫交视频免费看高清 | 亚洲国产欧洲综合997久久, | svipshipincom国产片| 国产麻豆成人av免费视频| 亚洲欧洲精品一区二区精品久久久| 老汉色∧v一级毛片| 51午夜福利影视在线观看| 亚洲欧美精品综合久久99| 一区二区三区高清视频在线| 精品国产乱码久久久久久男人| 日本在线视频免费播放| 亚洲美女黄片视频| 桃红色精品国产亚洲av| 色老头精品视频在线观看| 在线免费观看的www视频| 亚洲人成电影免费在线| 热re99久久国产66热| 亚洲人成网站在线播放欧美日韩| 男女做爰动态图高潮gif福利片| 日韩免费av在线播放| 中文资源天堂在线| 色综合婷婷激情| 国产成人精品久久二区二区免费| 精品少妇一区二区三区视频日本电影| 午夜福利在线在线| 美女高潮喷水抽搐中文字幕| 禁无遮挡网站| 一本精品99久久精品77| 亚洲成人久久性| 久热这里只有精品99| 一夜夜www| 亚洲人成电影免费在线| 中文字幕久久专区| 自线自在国产av| 在线天堂中文资源库| 在线观看免费午夜福利视频| 午夜久久久在线观看| 午夜日韩欧美国产| 一级黄色大片毛片| 精品电影一区二区在线| 免费在线观看完整版高清| 三级毛片av免费| 精品国产乱子伦一区二区三区| 天天躁夜夜躁狠狠躁躁| 99国产综合亚洲精品| aaaaa片日本免费| 一级毛片女人18水好多| 日日爽夜夜爽网站| 亚洲精品一卡2卡三卡4卡5卡| 在线观看一区二区三区| 91av网站免费观看| 99精品久久久久人妻精品| 成人三级做爰电影| 亚洲 欧美一区二区三区| 无遮挡黄片免费观看| 久久久久久久精品吃奶| 欧美一级毛片孕妇| 国产片内射在线| 麻豆久久精品国产亚洲av| 99热只有精品国产| 男人的好看免费观看在线视频 | 亚洲国产毛片av蜜桃av| 免费看美女性在线毛片视频| 在线观看日韩欧美| 色播在线永久视频| 自线自在国产av| 香蕉av资源在线| 国产精品美女特级片免费视频播放器 | 亚洲国产毛片av蜜桃av| 亚洲欧美日韩无卡精品| 亚洲第一青青草原| 免费高清视频大片| 免费看美女性在线毛片视频| 日韩有码中文字幕| 成熟少妇高潮喷水视频| 欧美精品亚洲一区二区| 91麻豆精品激情在线观看国产| 亚洲av第一区精品v没综合| 精品无人区乱码1区二区| 国产熟女xx| 亚洲片人在线观看| 亚洲七黄色美女视频| 国产激情久久老熟女| 国产精品国产高清国产av| 精华霜和精华液先用哪个| 久久精品国产亚洲av高清一级| 久久草成人影院| 91在线观看av| 国产蜜桃级精品一区二区三区| 69av精品久久久久久| 久久久国产成人精品二区| 少妇 在线观看| 国产精品久久久久久精品电影 | 69av精品久久久久久| 免费在线观看亚洲国产| 日本撒尿小便嘘嘘汇集6| 国内精品久久久久精免费| 久久久久久免费高清国产稀缺| 琪琪午夜伦伦电影理论片6080| 欧美成人性av电影在线观看| 老司机午夜十八禁免费视频| 国产精品亚洲美女久久久| 欧美又色又爽又黄视频| 国产成人精品无人区| 久久久久久国产a免费观看| 国产麻豆成人av免费视频| av电影中文网址| 国产爱豆传媒在线观看 | 麻豆久久精品国产亚洲av| 成在线人永久免费视频| 午夜精品久久久久久毛片777| 国产成人精品久久二区二区免费| 人人妻人人澡欧美一区二区| 久久久久久久午夜电影| 男女视频在线观看网站免费 | 在线观看免费日韩欧美大片| 欧美另类亚洲清纯唯美| 色哟哟哟哟哟哟| 欧美黄色片欧美黄色片| 夜夜爽天天搞| 99久久综合精品五月天人人| 亚洲国产日韩欧美精品在线观看 | 午夜成年电影在线免费观看| 国产亚洲精品av在线| 精品国产亚洲在线| 国产精品久久久久久精品电影 | 色尼玛亚洲综合影院| 无限看片的www在线观看| 免费在线观看完整版高清| 国产麻豆成人av免费视频| 亚洲国产欧美网| 丁香欧美五月| 国产色视频综合| av片东京热男人的天堂| 亚洲av五月六月丁香网| 男女床上黄色一级片免费看| 人人妻人人澡人人看| 亚洲午夜理论影院| 不卡av一区二区三区| 一区二区日韩欧美中文字幕| 国产精品久久视频播放| 精品无人区乱码1区二区| 曰老女人黄片| 男人舔女人下体高潮全视频| 欧美日韩亚洲综合一区二区三区_| 欧美色欧美亚洲另类二区| 国产精品98久久久久久宅男小说| 久久久久久久久久黄片| 久久性视频一级片| 国产高清videossex| 丝袜在线中文字幕| 亚洲欧美一区二区三区黑人| xxx96com| 国产av在哪里看| a级毛片a级免费在线| 精品无人区乱码1区二区| 午夜两性在线视频| 国产午夜精品久久久久久| 91麻豆av在线| 欧美日韩瑟瑟在线播放| 久久亚洲精品不卡| a在线观看视频网站| 国产精品亚洲美女久久久| 日韩 欧美 亚洲 中文字幕| 国产精品美女特级片免费视频播放器 | www日本黄色视频网| 欧美zozozo另类| 亚洲第一电影网av| 欧美又色又爽又黄视频| 国产精品 国内视频| 午夜免费鲁丝| av天堂在线播放| 99riav亚洲国产免费| 丰满人妻熟妇乱又伦精品不卡| 精品国产超薄肉色丝袜足j| 亚洲人成77777在线视频| 精品一区二区三区四区五区乱码| 亚洲欧洲精品一区二区精品久久久| 午夜福利成人在线免费观看| 91老司机精品| 999久久久精品免费观看国产| 99在线人妻在线中文字幕| 欧美色视频一区免费| 午夜日韩欧美国产| 国产精品香港三级国产av潘金莲| 成人午夜高清在线视频 | 欧美久久黑人一区二区| 黄网站色视频无遮挡免费观看| 久热这里只有精品99| 亚洲精品粉嫩美女一区| 国产成人影院久久av| 亚洲国产中文字幕在线视频| 一二三四在线观看免费中文在| 亚洲熟妇熟女久久| 国产单亲对白刺激| 精品不卡国产一区二区三区| 国产欧美日韩一区二区三| 午夜免费激情av| 欧美性长视频在线观看| 美女午夜性视频免费| 一个人观看的视频www高清免费观看 | av中文乱码字幕在线| 日韩av在线大香蕉| 亚洲人成网站高清观看| 午夜福利18| 久久久久国内视频| 首页视频小说图片口味搜索| 老司机靠b影院| 精品免费久久久久久久清纯| 成人欧美大片| 男女床上黄色一级片免费看| 首页视频小说图片口味搜索| 香蕉国产在线看| 正在播放国产对白刺激| 国内揄拍国产精品人妻在线 | 亚洲av片天天在线观看| 亚洲国产看品久久| 欧美日韩福利视频一区二区| 黑人巨大精品欧美一区二区mp4| 国产三级黄色录像| 成人三级做爰电影| 伊人久久大香线蕉亚洲五| 久久久精品欧美日韩精品| 91麻豆av在线| 欧美亚洲日本最大视频资源| 国产精品久久久久久人妻精品电影| 国内久久婷婷六月综合欲色啪| 亚洲中文日韩欧美视频| 男女下面进入的视频免费午夜 | 国产欧美日韩一区二区精品| 欧美绝顶高潮抽搐喷水| 日韩视频一区二区在线观看| 国产成人欧美在线观看| 亚洲电影在线观看av| 国产精品久久久久久人妻精品电影| 精品高清国产在线一区| 国产精品香港三级国产av潘金莲| 99在线视频只有这里精品首页| 777久久人妻少妇嫩草av网站| 变态另类丝袜制服| 性欧美人与动物交配| 国产精品一区二区精品视频观看| 国产黄色小视频在线观看| 亚洲在线自拍视频| 韩国精品一区二区三区| 一本久久中文字幕| 国产精品电影一区二区三区| 欧美黄色片欧美黄色片| 精品日产1卡2卡| 日韩成人在线观看一区二区三区| 午夜福利视频1000在线观看| 超碰成人久久| 免费看美女性在线毛片视频| 黄片播放在线免费| 国产亚洲精品第一综合不卡| 一本久久中文字幕| 在线观看舔阴道视频| 91麻豆精品激情在线观看国产| 欧美一级毛片孕妇| 国产成人系列免费观看| 欧美日韩一级在线毛片| 欧美国产精品va在线观看不卡| 日韩欧美免费精品| 亚洲欧美日韩高清在线视频| 国产三级在线视频| 亚洲成a人片在线一区二区| 一边摸一边做爽爽视频免费| 国产成人精品久久二区二区91| 亚洲va日本ⅴa欧美va伊人久久| 亚洲激情在线av| 久久草成人影院| 亚洲国产看品久久| 免费在线观看黄色视频的| 亚洲 欧美 日韩 在线 免费| 成人午夜高清在线视频 | 18禁黄网站禁片免费观看直播| 午夜精品久久久久久毛片777| 色综合婷婷激情| 91成人精品电影| av天堂在线播放| 亚洲av成人不卡在线观看播放网| 欧美乱妇无乱码| 一区二区三区高清视频在线| 精品国产一区二区三区四区第35| 午夜精品在线福利| 在线观看免费视频日本深夜| 欧美成人一区二区免费高清观看 | 亚洲国产看品久久| 欧美丝袜亚洲另类 | 老司机靠b影院| 久久亚洲真实| 精品不卡国产一区二区三区| 中文字幕另类日韩欧美亚洲嫩草| 校园春色视频在线观看| 欧美日本亚洲视频在线播放| 中文字幕精品亚洲无线码一区 | 久热这里只有精品99| 美女 人体艺术 gogo| 999久久久精品免费观看国产| 黄片大片在线免费观看| 白带黄色成豆腐渣| 淫秽高清视频在线观看| 99久久99久久久精品蜜桃| 欧美激情极品国产一区二区三区| 人妻久久中文字幕网| 午夜福利欧美成人| 97超级碰碰碰精品色视频在线观看| 欧美日韩黄片免| 女警被强在线播放| 欧美精品亚洲一区二区| 19禁男女啪啪无遮挡网站| 成人精品一区二区免费| 宅男免费午夜| 亚洲男人的天堂狠狠| 1024香蕉在线观看| 少妇的丰满在线观看| 久久久久久免费高清国产稀缺| 青草久久国产| 变态另类成人亚洲欧美熟女| 国产黄色小视频在线观看| 女性被躁到高潮视频| 国产一区二区三区在线臀色熟女| 国产激情久久老熟女| 欧美日本亚洲视频在线播放| 久99久视频精品免费| 99久久久亚洲精品蜜臀av| 大香蕉久久成人网| 国产精品1区2区在线观看.| 十八禁人妻一区二区| 亚洲色图av天堂| 国产一区二区三区在线臀色熟女| 亚洲人成网站高清观看| 亚洲激情在线av| 性欧美人与动物交配| 在线观看一区二区三区| 狂野欧美激情性xxxx| 国产野战对白在线观看| 首页视频小说图片口味搜索| 日本五十路高清| 婷婷丁香在线五月| 国产av在哪里看| 亚洲精品久久国产高清桃花| 亚洲一区二区三区色噜噜| 午夜免费激情av| 老汉色∧v一级毛片| 日韩高清综合在线| 国产精品一区二区精品视频观看| 18禁裸乳无遮挡免费网站照片 | 每晚都被弄得嗷嗷叫到高潮| 欧美日韩亚洲综合一区二区三区_| 无限看片的www在线观看| 天天添夜夜摸| 色综合欧美亚洲国产小说| 日本 av在线| www国产在线视频色| 国产蜜桃级精品一区二区三区| 午夜成年电影在线免费观看| 美女午夜性视频免费| 制服人妻中文乱码| 国产av一区二区精品久久| 可以免费在线观看a视频的电影网站| 国内揄拍国产精品人妻在线 | 日韩欧美在线二视频| 午夜福利一区二区在线看| 午夜福利成人在线免费观看| www日本黄色视频网| 国产精品 欧美亚洲| 午夜福利一区二区在线看| 久久国产精品人妻蜜桃| 精品国产美女av久久久久小说| 好男人在线观看高清免费视频 | 免费看美女性在线毛片视频| 成年版毛片免费区| 欧美性猛交╳xxx乱大交人| 国产aⅴ精品一区二区三区波| 国产私拍福利视频在线观看| 亚洲第一电影网av| 亚洲第一av免费看| 午夜激情福利司机影院| 在线观看66精品国产| 18美女黄网站色大片免费观看| 女人爽到高潮嗷嗷叫在线视频| 69av精品久久久久久| 在线观看66精品国产| 免费女性裸体啪啪无遮挡网站| 欧美精品啪啪一区二区三区|