• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于策略記憶的深度強(qiáng)化學(xué)習(xí)序列推薦算法研究

    2022-11-14 11:24:55陳卓姜偉豪杜軍威
    關(guān)鍵詞:強(qiáng)化學(xué)習(xí)推薦系統(tǒng)注意力機(jī)制

    陳卓 姜偉豪 杜軍威

    摘要:推薦系統(tǒng)旨在從用戶-項(xiàng)目的交互中進(jìn)行建模,為用戶推薦感興趣的內(nèi)容,從而提高用戶體驗(yàn).然而大多數(shù)用戶-項(xiàng)目的序列并不總是順序相關(guān)的,而是有更靈活的順序甚至存在噪聲.為解決這一問(wèn)題,提出一種基于策略記憶的深度強(qiáng)化學(xué)習(xí)序列推薦算法,該算法將用戶的歷史交互存入記憶網(wǎng)絡(luò),使用一個(gè)策略網(wǎng)絡(luò)將用戶當(dāng)前的行為模式更細(xì)致地劃分為短期偏好、長(zhǎng)期偏好以及全局偏好,并引入注意力機(jī)制,生成相應(yīng)的用戶記憶向量,利用深度強(qiáng)化學(xué)習(xí)算法識(shí)別對(duì)未來(lái)收益較大的項(xiàng)目.在用戶和項(xiàng)目的交互中不斷更新、強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的策略以提高推薦準(zhǔn)確性.在兩個(gè)公共數(shù)據(jù)集的實(shí)驗(yàn)中表明,本文所提出的算法與最先進(jìn)的基線算法相比,召回率指標(biāo)在2個(gè)數(shù)據(jù)集上分別提升了8.87%和11.20%.

    關(guān)鍵詞:推薦系統(tǒng);強(qiáng)化學(xué)習(xí);策略網(wǎng)絡(luò);注意力機(jī)制

    中圖分類號(hào):TP181文獻(xiàn)標(biāo)志碼:A

    Research on Deep Reinforcement Learning Sequential Recommendation Algorithm Based on Policy Memory

    CHEN Zhuo,JIANG Weihao,DU Junwei

    (School of Information Science and Technology,Qingdao University of Science and Technology7,Qingdao 266061,China)

    Abstract:The recommender system aims to build a model from the user-item interaction and recommend the content of interest to users,so as to improve the user experience. However,most user-item sequences are not always sequentially related but have more flexible sequences and even noise. In order to solve this problem,a deep reinforcement learning sequence recommender algorithm based on strategy memory is proposed. The algorithm stores the user's historical interaction in the memory network,and then uses a strategy network to divide the user's current behavior pattern into short-term preference,long-term preference,and global preference,and introduces the attention mechanism to generate the corresponding user memory vector. The deep reinforcement learning algorithm is used to identify the projects with great benefits in the future. The strategy of the reinforcement learning network is continuously updated in the interaction between users and items to improve the accuracy of the recommender. Experiments on two public data sets show that the proposed algorithm improves the recall index by 8.87% and 11.20%,respectively,compared with the most advanced baseline algorithm.

    Key words:recommender systems;reinforcement learning;policy network;attention mechanism

    隨著科學(xué)技術(shù)的發(fā)展,信息過(guò)載的問(wèn)題也越來(lái)越嚴(yán)重,推薦系統(tǒng)的成功應(yīng)用可以有效地緩解這一難題.然而,用戶興趣總是隨著時(shí)間的推移而產(chǎn)生變化,因此,序列推薦系統(tǒng)(Sequential Recommender Systems,SRS)[1]應(yīng)運(yùn)而生.序列推薦系統(tǒng)將用戶-項(xiàng)目交互視為一個(gè)動(dòng)態(tài)序列,捕捉用戶當(dāng)前和最近的偏好,以獲得更準(zhǔn)確的推薦,該系統(tǒng)在購(gòu)物以及影音網(wǎng)站等都有著很好的應(yīng)用.

    不同于基于內(nèi)容的協(xié)同過(guò)濾[2]以及基于矩陣分解[3]的傳統(tǒng)推薦系統(tǒng),序列推薦系統(tǒng)根據(jù)模型的復(fù)雜程度可以分為兩類,包括傳統(tǒng)的序列模型和神經(jīng)網(wǎng)絡(luò)模型.傳統(tǒng)的序列模型例如基于馬爾科夫鏈的模型對(duì)序列中的用戶-項(xiàng)目交互進(jìn)行建模,并計(jì)算相互之間的轉(zhuǎn)移概率,該方法只能捕獲短期依賴并且忽略用戶的總體興趣.神經(jīng)網(wǎng)絡(luò)模型例如基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型通過(guò)給定的用戶-項(xiàng)目交互序列來(lái)預(yù)測(cè)下一交互,但該方法假設(shè)任何相鄰交互都是有關(guān)系的并忽略多個(gè)項(xiàng)目的共同作用.

    大多數(shù)的序列推薦系統(tǒng)只專注于當(dāng)前收益,對(duì)于即時(shí)回報(bào)較小但有較大未來(lái)收益項(xiàng)目的識(shí)別度不高.比如用戶在觀看了有關(guān)游戲和天氣的短視頻后,可能不會(huì)再關(guān)注今天的天氣;但是看了喜歡的游戲之后,更傾向于觀看更多與游戲相關(guān)的視頻.深度強(qiáng)化學(xué)習(xí)可以統(tǒng)一優(yōu)化即時(shí)收益和長(zhǎng)期收益[4],將用戶的狀態(tài)進(jìn)行動(dòng)態(tài)建模,并學(xué)習(xí)到最優(yōu)推薦策略,以提高推薦準(zhǔn)確率.現(xiàn)有的深度強(qiáng)化學(xué)習(xí)狀態(tài)的表示是將用戶之前交互的項(xiàng)目按照一定的順序進(jìn)行建模,無(wú)法區(qū)分用戶交互序列中的不同行為模式,因而無(wú)法較為準(zhǔn)確地預(yù)測(cè)用戶的當(dāng)前興趣偏好.深度強(qiáng)化學(xué)習(xí)做預(yù)測(cè)時(shí),可選擇的動(dòng)作空間較大且數(shù)據(jù)較為稀疏,導(dǎo)致算法收斂困難.本文使用深度強(qiáng)化學(xué)習(xí)中的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,該算法不再計(jì)算每個(gè)項(xiàng)目的概率而是基于確定的策略,這更有利于處理連續(xù)動(dòng)作,并且提高了算法的收斂速度.

    本文提出了一種將用戶策略記憶與DDPG算法結(jié)合的方式來(lái)解決以上問(wèn)題.本文的貢獻(xiàn)可以總結(jié)為以下幾點(diǎn):

    1)使用記憶網(wǎng)絡(luò)存儲(chǔ)用戶歷史交互序列,并訓(xùn)練一個(gè)策略網(wǎng)絡(luò),通過(guò)用戶和其歷史交互對(duì)用戶當(dāng)前行為模式進(jìn)行劃分.引入注意力機(jī)制,根據(jù)策略網(wǎng)絡(luò)的輸出對(duì)記憶網(wǎng)絡(luò)使用不同的注意力表示方法并生成用戶當(dāng)前的記憶向量表示.

    2)提出結(jié)合策略記憶的深度強(qiáng)化學(xué)習(xí)推薦算法(Deep Reinforcement Recommendation with Policy Memory,DRRM),將用戶表示、用戶當(dāng)前偏好以及用戶記憶作為狀態(tài)輸入,利用DDPG算法預(yù)測(cè)用戶喜好,在交互中不斷更新推薦策略,該算法同時(shí)考慮了推薦項(xiàng)目對(duì)用戶的當(dāng)前收益及其對(duì)用戶的長(zhǎng)期影響.使用探索策略提高推薦多樣性.

    3)通過(guò)在兩個(gè)公共數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),驗(yàn)證了所提出算法的有效性,其效果明顯強(qiáng)于基線算法.

    1相關(guān)工作

    1.1序列推薦系統(tǒng)

    序列推薦系統(tǒng)是近年來(lái)的研究熱點(diǎn),通過(guò)對(duì)用戶的行為序列進(jìn)行建模,考慮用戶興趣的依賴性,為其推薦下一時(shí)刻所感興趣的項(xiàng)目.傳統(tǒng)的序列推薦算法有:Feng等人[5]提出了基于距離嵌入的個(gè)性化排序算法(Personalized Ranking Metric Embedding,PRME),將用戶序列建模為馬爾可夫鏈,并嵌入歐氏空間,基于距離計(jì)算項(xiàng)目相互之間的轉(zhuǎn)移概率.Liu等人[6]提出了基于上下文感知的序列推薦算法(Context-Aware Recurrent Neural Networks,CA- RNN),該算法使用特定輸入矩陣和轉(zhuǎn)移矩陣進(jìn)行推薦,但該算法不利于捕獲交互序列中高度相關(guān)的項(xiàng)目信息.Wang等人[7]提出的基于注意力機(jī)制的事務(wù)嵌入推薦算法(Attention-Based Transaction Embedding Model,ATEM)通過(guò)注意力機(jī)制來(lái)觀察和識(shí)別與下一個(gè)項(xiàng)目相關(guān)的上下文信息.Kang等人[8]提出的基于自注意力的序列推薦算法(Self-Attentive Sequential Recommendation,SASRec)將自注意力機(jī)制應(yīng)用于序列推薦系統(tǒng),用于捕獲序列的長(zhǎng)期語(yǔ)義,并在訓(xùn)練速度上有一定的提升.

    上述算法進(jìn)行序列推薦時(shí),總是假定相鄰兩交互是相關(guān)的,而對(duì)于具有靈活順序的長(zhǎng)序列的識(shí)別能力不強(qiáng).

    1.2基于記憶網(wǎng)絡(luò)的推薦算法

    由于需要長(zhǎng)期記憶來(lái)存儲(chǔ)問(wèn)答知識(shí)或聊天的語(yǔ)境信息,記憶網(wǎng)絡(luò)(Memory Networks,MN)[9]由Weston首次提出,以這種有效的方式來(lái)簡(jiǎn)單地讀寫此類信息,該模型最初被應(yīng)用于智能問(wèn)答領(lǐng)域.Chen等人[10]提出了一種基于用戶記憶網(wǎng)絡(luò)的推薦算法(Recommender system with User Memory networks,RUM),該算法首次將記憶網(wǎng)絡(luò)應(yīng)用于推薦系統(tǒng),通過(guò)對(duì)用戶交互項(xiàng)目的讀取、寫入等操作更好地利用用戶的歷史記錄;但該算法并沒(méi)有對(duì)用戶興趣進(jìn)行區(qū)分.Ebesu等人[11]提出了一種將用戶協(xié)同過(guò)濾與記憶網(wǎng)絡(luò)相結(jié)合的推薦系統(tǒng)(Collaborative Memory Networks,CMN),分別利用潛在因素的全局結(jié)構(gòu)以及鄰域的局部結(jié)構(gòu)進(jìn)行推薦.Ouyang等人[12]提出了一種基于記憶增強(qiáng)的深度神經(jīng)網(wǎng)絡(luò)推薦算法(Memory Augmented Deep Neural Networks,MADNN),該算法為每一個(gè)用戶都創(chuàng)建喜歡和不喜歡兩個(gè)外部記憶向量,以此來(lái)對(duì)用戶點(diǎn)擊率進(jìn)行預(yù)測(cè).

    上述基于記憶網(wǎng)絡(luò)的推薦算法僅能夠識(shí)別記憶向量對(duì)當(dāng)前交互的作用,無(wú)法識(shí)別未來(lái)收益較大的交互項(xiàng)目,并且沒(méi)有利用更深層的神經(jīng)網(wǎng)絡(luò)模型對(duì)用戶偏好進(jìn)行預(yù)測(cè).

    1.3基于深度強(qiáng)化學(xué)習(xí)的推薦算法

    近幾年來(lái),隨著強(qiáng)化學(xué)習(xí)的發(fā)展,與推薦系統(tǒng)的結(jié)合也越來(lái)越多.深度強(qiáng)化學(xué)習(xí)的目標(biāo)是智能體在與環(huán)境的不斷交互中學(xué)習(xí)到最佳策略,因此,有利于序列推薦的動(dòng)態(tài)建模.Wang等人[13]提出了基于遞歸神經(jīng)網(wǎng)絡(luò)的監(jiān)督強(qiáng)化學(xué)習(xí)算法(Supervised Reinforcement Learning with Recurrent Neural Network,SRL-RNN),該算法使用演員-評(píng)論家框架處理多種藥物、疾病以及個(gè)體之間的關(guān)系,以進(jìn)行個(gè)性化藥品推薦.Zhao等人[14]提出了一種基于多智能體強(qiáng)化學(xué)習(xí)的DeepChain算法,該算法使用多個(gè)智能體協(xié)同優(yōu)化,捕捉多場(chǎng)景中用戶行為順序相關(guān)性,以獲得整體的最大回報(bào).Zheng等人[15]將深度強(qiáng)化學(xué)習(xí)中的深度Q網(wǎng)絡(luò)(Deep Q Learning,DQN)與推薦系統(tǒng)相結(jié)合,提出了基于深度強(qiáng)化學(xué)習(xí)的新聞推薦框架(Deep Reinforcement Learning Framework for News Recommendation,DRN),該框架同時(shí)使用Dueling Bandit梯度下降方法來(lái)進(jìn)行有效的探索.Liu等人[16]利用DDPG算法提出了用于解決電影等推薦的深度強(qiáng)化學(xué)習(xí)推薦算法(Deep Reinforcement Learning based Recommendation,DRR).

    上述基于深度強(qiáng)化學(xué)習(xí)的推薦算法僅使用單一的方式對(duì)用戶當(dāng)前狀態(tài)進(jìn)行建模,對(duì)用戶興趣的劃分存在一定偏差,且無(wú)法對(duì)用戶歷史喜好的不同權(quán)重進(jìn)行建模.

    2DRRM模型

    2.1符號(hào)定義

    本文將深度強(qiáng)化學(xué)習(xí)應(yīng)用于序列推薦,推薦代理(Agent)根據(jù)時(shí)間順序?qū)τ脩艉晚?xiàng)目進(jìn)行交互,以獲得最大化的累計(jì)回報(bào).將此過(guò)程建模為一個(gè)馬爾可夫決策過(guò)程,其中包括狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)、衰減因子等四元組,具體定義如下:

    狀態(tài)S:由用戶及其之前交互項(xiàng)目的集合組合而成,交互過(guò)的項(xiàng)目按照時(shí)間順序依次排列,并將其輸入演員-評(píng)論家網(wǎng)絡(luò)中進(jìn)行預(yù)測(cè).

    動(dòng)作A:采用基于策略的DDPG算法,每次交互時(shí)根據(jù)策略網(wǎng)絡(luò)生成一個(gè)確定的動(dòng)作A,該動(dòng)作表示用戶當(dāng)前的喜好,再與項(xiàng)目集進(jìn)行內(nèi)積得到為用戶推薦的項(xiàng)目.

    即時(shí)獎(jiǎng)勵(lì)R:推薦代理將一個(gè)項(xiàng)目推薦給用戶,根據(jù)用戶是否在當(dāng)前時(shí)刻與該項(xiàng)目進(jìn)行過(guò)交互,并給予一定的獎(jiǎng)賞或懲罰.

    衰減因子γ:γ∈[0,1],是衡量短期收益與累計(jì)收益的標(biāo)準(zhǔn),當(dāng)γ越接近于零,代表算法越重視推薦的短期回報(bào),反之則更加重視累計(jì)回報(bào).

    2.2模型框架

    DRRM模型框架如圖1所示,該模型分為3 部分.

    第1部分為圖中下半部,即用戶記憶網(wǎng)絡(luò)部分,該部分引入注意力機(jī)制用來(lái)區(qū)分用戶歷史交互項(xiàng)目的不同權(quán)重關(guān)系,從而學(xué)習(xí)用戶的興趣變化;根據(jù)不同的行為模式生成不同的用戶記憶向量,并將用戶的歷史記錄存入外部的記憶網(wǎng)絡(luò)中,為狀態(tài)的更新提供依據(jù).第2部分為策略網(wǎng)絡(luò)部分,該部分對(duì)用戶當(dāng)前行為模式進(jìn)行劃分.本文使用基于策略梯度算法的策略網(wǎng)絡(luò)對(duì)其進(jìn)行劃分(詳見(jiàn)2.2.2節(jié)),從而使記憶網(wǎng)絡(luò)選擇不同的注意力計(jì)算方式,得到用戶記憶向量,并結(jié)合用戶向量生成當(dāng)前狀態(tài)S.第3部分為DDPG網(wǎng)絡(luò)部分,該部分用戶預(yù)測(cè)動(dòng)作A.該網(wǎng)絡(luò)由演員和評(píng)論家兩個(gè)網(wǎng)絡(luò)組成,演員網(wǎng)絡(luò)通過(guò)輸入的狀態(tài)S,來(lái)輸出用戶當(dāng)前的喜好;評(píng)論家網(wǎng)絡(luò)通過(guò)該部分輸出來(lái)更新演員網(wǎng)絡(luò).該算法在與用戶的交互中不斷更新,以達(dá)到最優(yōu)策略的輸出.

    2.2.1記憶網(wǎng)絡(luò)模塊

    本文將用戶的歷史交互信息存儲(chǔ)在一個(gè)外部的組件——記憶網(wǎng)絡(luò)中,記憶網(wǎng)絡(luò)的具體構(gòu)建如下:

    偏好、長(zhǎng)期偏好和全局偏好.

    式中:n、j∈[1,t-2];wn為最近一次交互的項(xiàng)目向量與記憶網(wǎng)絡(luò)中每個(gè)向量的乘積,輸出為一個(gè)一維的數(shù)值;exp()表示以e為底的指數(shù)函數(shù);zn為第n個(gè)項(xiàng)目向量在此記憶網(wǎng)絡(luò)中的權(quán)重值.在得到權(quán)重值之后,計(jì)算當(dāng)前狀態(tài)下的權(quán)重向量.經(jīng)過(guò)注意力機(jī)制的權(quán)重向量的計(jì)算如式(2)所示.

    式中:At為所求的前t-2個(gè)項(xiàng)目的注意力向量,以此來(lái)表示該用戶的記憶向量.

    計(jì)算注意力權(quán)重,再通過(guò)式(2)計(jì)算用戶記憶向量.

    3)當(dāng)用戶行為與歷史交互無(wú)直接關(guān)系即為全局偏好時(shí),對(duì)使用用戶向量與該用戶的歷史交互向量進(jìn)行注意力權(quán)重的計(jì)算,并計(jì)算用戶的記憶向量.

    對(duì)于用戶記憶網(wǎng)絡(luò)的寫入操作,本文采用先入先出的策略進(jìn)行更新.將每個(gè)用戶的記憶網(wǎng)絡(luò)設(shè)置為固定的長(zhǎng)度,先將每個(gè)用戶的前兩次交互放入網(wǎng)絡(luò)中,從第3次交互開(kāi)始訓(xùn)練.若用戶的記憶數(shù)小于記憶網(wǎng)絡(luò)可存放的記憶個(gè)數(shù),則直接將最近一次交互寫人記憶網(wǎng)絡(luò),否則將最開(kāi)始的用戶交互記憶刪除并寫入最近交互.

    2.2.2基于策略梯度的策略網(wǎng)絡(luò)

    本文將訓(xùn)練一個(gè)策略網(wǎng)絡(luò)來(lái)對(duì)用戶當(dāng)前行為的3種模式進(jìn)行劃分,記憶網(wǎng)絡(luò)將根據(jù)該網(wǎng)絡(luò)的輸出結(jié)果選擇如2.2.1節(jié)所示的不同的注意力計(jì)算方式,生成用戶記憶向量.

    該策略網(wǎng)絡(luò)基于策略梯度(Policy Gradient)算法,通過(guò)用戶向量和用戶歷史交互向量的平均值作為輸入,計(jì)算得到用戶3種行為模式的概率πθ(at丨st)并輸出該交互的行為模式.在經(jīng)過(guò)記憶網(wǎng)絡(luò)以及DDPG網(wǎng)絡(luò)預(yù)測(cè)出的結(jié)果得到獎(jiǎng)勵(lì)值R(at),通過(guò)該獎(jiǎng)勵(lì)值計(jì)算策略網(wǎng)絡(luò)的損失,該損失函數(shù)如式(3)所示.

    Loss_p=-R(at)ln πθ(at丨st)(3)

    在得到損失函數(shù)后,使用梯度下降來(lái)優(yōu)化損失,更新網(wǎng)絡(luò)參數(shù).

    2.2.3基于DDPG算法的訓(xùn)練框架

    用戶當(dāng)前狀態(tài)的表示模型由用戶表示、用戶記憶網(wǎng)絡(luò)以及用戶當(dāng)前偏好3部分組成,以此來(lái)表示用戶與項(xiàng)目交互的序列關(guān)系.用戶u在t時(shí)刻的偏好即當(dāng)前狀態(tài)的表示如式(4)所示.

    使用DDPG算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,DDPG算法是演員-評(píng)論家網(wǎng)絡(luò)的一種,它輸出的是一個(gè)確定的動(dòng)作,結(jié)合DQN以及策略梯度算法的優(yōu)勢(shì),加速網(wǎng)絡(luò)的收斂,可以更好地解決連續(xù)動(dòng)作空間上的求解問(wèn)題.該算法由兩個(gè)網(wǎng)絡(luò)組成,即演員網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò).同時(shí),為了提高網(wǎng)絡(luò)的穩(wěn)定性和收斂性,設(shè)置兩個(gè)更新較慢的目標(biāo)網(wǎng)絡(luò)來(lái)提高兩個(gè)預(yù)測(cè)網(wǎng)絡(luò)的更新效率.兩個(gè)預(yù)測(cè)網(wǎng)絡(luò)的功能及其更新過(guò)程如下所述:

    演員網(wǎng)絡(luò)將輸入的用戶當(dāng)前狀態(tài)St經(jīng)過(guò)幾層神經(jīng)網(wǎng)絡(luò)后輸出一個(gè)確定的用戶喜好向量at.為了增加推薦的多樣性,防止算法得到局部最優(yōu)解,在訓(xùn)練過(guò)程中,使用高斯噪聲進(jìn)行探索,探索過(guò)程計(jì)算如式(5)所示.

    at~N(μ,σ2)×β(5)

    式中:μ為數(shù)學(xué)期望;σ2為方差;β為探索時(shí)的衰減系數(shù).使用經(jīng)過(guò)探索得到的喜好向量跟項(xiàng)目集合T相乘,將得到的值經(jīng)過(guò)sigmoid函數(shù)變換為每個(gè)項(xiàng)目的得分Gi,并將此得分進(jìn)行排序?yàn)橛脩敉扑]前n個(gè)項(xiàng)目.具體計(jì)算如式(6)所示.

    每輪預(yù)測(cè)都將向經(jīng)驗(yàn)回放池傳入B={St,A,R,St+1}四元組,其中St+1為下一時(shí)刻的狀態(tài).演員網(wǎng)絡(luò)更新的損失函數(shù)梯度如式(7)所示.

    式中:θa為演員網(wǎng)絡(luò)中的參數(shù);N為經(jīng)驗(yàn)回放池中的batch大??;Q(s,a,θa)為評(píng)論家網(wǎng)絡(luò)的輸出.

    評(píng)論家網(wǎng)絡(luò)用來(lái)評(píng)估演員網(wǎng)絡(luò),通過(guò)從經(jīng)驗(yàn)回放池中獲得一個(gè)batch的數(shù)據(jù),利用現(xiàn)實(shí)Q值和估計(jì)Q值的均方差來(lái)更新其網(wǎng)絡(luò)參數(shù).更新的損失函數(shù)如式(8)所示.

    式中:Q(si,ai,θc)為估計(jì)的Q值網(wǎng)絡(luò)得到的值.yi的計(jì)算如式(9)所示.

    yi=ri+γQ′(si+1,ai+1,θc′)(9)

    式中:γ為衰減因子,用于權(quán)衡即時(shí)收益與未來(lái)總收益之間的關(guān)系;Q′(si+1,ai+1,θc′)為使用現(xiàn)實(shí)Q網(wǎng)絡(luò)對(duì)下一步交互所計(jì)算的值;ri為當(dāng)前狀態(tài)的獎(jiǎng)勵(lì)值.獎(jiǎng)勵(lì)值R的計(jì)算如式(10)所示.

    若推薦的項(xiàng)目集合中存在用戶當(dāng)前的喜好項(xiàng)目則獎(jiǎng)勵(lì)值為1;若推薦的項(xiàng)目集合中沒(méi)有當(dāng)前喜好,但出現(xiàn)在用戶的交互序列中則獎(jiǎng)勵(lì)值為1/2;其他情況獎(jiǎng)勵(lì)值為-1.以此來(lái)區(qū)分不同動(dòng)作所獲得的回報(bào).

    3實(shí)驗(yàn)與結(jié)果分析

    3.1數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

    本文使用Amazon Instant Video 以及Amazon Automotive(http://jmcauley.ucsd.edu/data/amazon/)兩個(gè)公開(kāi)的數(shù)據(jù)集來(lái)進(jìn)行實(shí)驗(yàn)分析.為保證序列的長(zhǎng)度,將交互個(gè)數(shù)小于10個(gè)項(xiàng)目的用戶刪除,經(jīng)過(guò)預(yù)處理后的可用數(shù)據(jù)量如表1所示.兩個(gè)數(shù)據(jù)集都具有時(shí)間戳信息,因此,可對(duì)用戶序列按時(shí)間進(jìn)行排序并進(jìn)行序列推薦.使用每個(gè)用戶前80%的數(shù)據(jù)進(jìn)行訓(xùn)練,后20%進(jìn)行測(cè)試,以證明本文所提出觀點(diǎn)的有效性.

    為了研究超參數(shù)對(duì)模型性能的影響,首先對(duì)DDPG網(wǎng)絡(luò)使用不同學(xué)習(xí)率、batch_size進(jìn)行實(shí)驗(yàn).學(xué)習(xí)率和batch_size是兩個(gè)最重要的模型超參數(shù),合適的學(xué)習(xí)率和batch_size,不僅可以加速模型收斂,防止陷入局部最優(yōu),還可以提高模型的性能.在Amazon Instant Video數(shù)據(jù)集上進(jìn)行參數(shù)設(shè)置,不同學(xué)習(xí)率、batch_size的對(duì)比實(shí)驗(yàn)如表3所示.

    本文所使用的評(píng)價(jià)指標(biāo)[10]由精準(zhǔn)度(Precision)、召回率(Recall)、F1值(F1-score)以及HR值(Hit-ratio)組成,從多個(gè)方面評(píng)估模型的好壞.

    3.2實(shí)驗(yàn)環(huán)境

    本實(shí)驗(yàn)采用的軟硬件環(huán)境如表2所示,本算法所使用的Python版本為3.7.3,并基于Tensorflow深度學(xué)習(xí)框架實(shí)現(xiàn)本算法的深度強(qiáng)化學(xué)習(xí).

    3.3實(shí)驗(yàn)參數(shù)設(shè)定

    DRRM模型所使用的超參數(shù)有學(xué)習(xí)率batch_size以及衰減因子.

    從表3可以看出,當(dāng)學(xué)習(xí)率為0.001且batch_size為8時(shí),所得到的Precision以及F1-score指標(biāo)最高,模型達(dá)到最佳性能.

    衰減因子是深度強(qiáng)化學(xué)習(xí)中最重要的參數(shù)之一,是衡量當(dāng)前收益與未來(lái)總收益的標(biāo)準(zhǔn),通過(guò)設(shè)置不同的大小來(lái)表明當(dāng)前動(dòng)作對(duì)未來(lái)的影響.當(dāng)學(xué)習(xí)率和batch_size分別為0.001和8時(shí),進(jìn)行衰減因子的設(shè)定對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖2所示.

    3.4對(duì)比實(shí)驗(yàn)

    為了證明所提出的DRRM算法的有效性,本文從傳統(tǒng)的序列推薦模型、基于神經(jīng)網(wǎng)絡(luò)的模型、基于強(qiáng)化學(xué)習(xí)的模型以及記憶網(wǎng)絡(luò)模型4個(gè)方面,使用以下5種具有代表性的基線算法進(jìn)行對(duì)比實(shí)驗(yàn).

    貝葉斯個(gè)性化排序算法[17](Bayesian Personalized Ranking,BPR):該算法基于貝葉斯的個(gè)性化Top-N推薦方法,提出了一個(gè)通用的準(zhǔn)則BPR-Opt來(lái)優(yōu)化推薦排序.

    個(gè)性化馬爾科夫鏈算法[18](Factorizing Personalized Markov Chains,F(xiàn)PMC):該算法將矩陣分解和馬爾科夫鏈模型相結(jié)合來(lái)學(xué)習(xí)用戶對(duì)應(yīng)的轉(zhuǎn)移矩陣,并引入BPR算法來(lái)處理數(shù)據(jù)進(jìn)行序列推薦.

    動(dòng)態(tài)遞歸推薦算法[19](Dynamic Recurrent Basket Model,DREAM):該算法的主要思想為基于遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)用戶的動(dòng)態(tài)興趣表示,并捕捉用戶的全局序列特征.

    深度強(qiáng)化學(xué)習(xí)推薦算法[16](Recommendation Based on Deep Reinforcement Learning,DRR):該算法基于顯式用戶-項(xiàng)目交互的深度強(qiáng)化學(xué)習(xí)推薦系統(tǒng),僅使用用戶和項(xiàng)目的交互向量作為輸入項(xiàng),并使用DDPG算法進(jìn)行預(yù)測(cè).

    用戶記憶網(wǎng)絡(luò)推薦算法[10](Recommender with User Memory Networks,RUM):該模型的主要思想是在序列推薦算法中引入用戶記憶網(wǎng)絡(luò),存放用戶的歷史交互并進(jìn)行Top-N推薦.

    Amazon Instant Video和Amazon Automotive數(shù)據(jù)集模型性能比較如表4所示.相較于最優(yōu)基線算法,DRRM算法的精準(zhǔn)度在Amazon Instant Video數(shù)據(jù)集上有8.89%的提升,在Amazon Automotive數(shù)據(jù)集上略有下降;召回率在2個(gè)數(shù)據(jù)集上分別有8.87%和11.20%的提升;F1值在2個(gè)數(shù)據(jù)集上分別有18.10% 和7.23%的提升;HR在2個(gè)數(shù)據(jù)集上分別有8.89% 和1.07%的提升.由此證明了本文所提算法的有效性.

    3.5消融實(shí)驗(yàn)

    為了研究本文所提出的策略網(wǎng)絡(luò)以及基于優(yōu)先記憶模型在用戶記憶網(wǎng)絡(luò)和DRRM模型中的作用,在Amazon Instant Video數(shù)據(jù)集上進(jìn)行多組消融實(shí)驗(yàn),并使用精準(zhǔn)度以及召回率指標(biāo)進(jìn)行對(duì)比.

    具體實(shí)驗(yàn)設(shè)置如下:①將用于生成用戶行為模式的策略網(wǎng)絡(luò)去除,僅使用用戶最近交互對(duì)用戶的記憶向量表示進(jìn)行計(jì)算的DRRM_s模型;②將策略網(wǎng)絡(luò)去除,僅使用與用戶最近交互項(xiàng)目權(quán)重最高的記憶項(xiàng)目對(duì)用戶的記憶向量進(jìn)行計(jì)算的DRRM_1模型;③將策略網(wǎng)絡(luò)去除,僅使用用戶向量計(jì)算注意力權(quán)重并生成用戶記憶向量表示的DRRM_h模型.實(shí)驗(yàn)對(duì)比圖如圖3所示.

    由圖3可知,沒(méi)有加入策略網(wǎng)絡(luò)的3種單一記憶向量表示方法的精準(zhǔn)度與召回率均低于DRRM算法,從而說(shuō)明用戶策略網(wǎng)絡(luò)對(duì)用戶當(dāng)前行為模式的預(yù)測(cè)起著重要的作用.

    3.6用戶行為模式

    為了證明所提出的3種用戶行為模式,即短期偏好、長(zhǎng)期偏好以及全局偏好的可解釋性,使用Amazon Instant Video數(shù)據(jù)集的實(shí)例進(jìn)行實(shí)驗(yàn)驗(yàn)證. 如圖4~圖6所示,實(shí)驗(yàn)使用的記憶網(wǎng)絡(luò)內(nèi)存長(zhǎng)度為5,x軸和y軸均表示用戶的交互序列,每一個(gè)小格代表對(duì)應(yīng)兩個(gè)向量之間的相關(guān)度,顏色越深則說(shuō)明兩向量越相關(guān),對(duì)角線元素均為1.

    由圖4可知,在用戶的第6~9次交互時(shí),策略網(wǎng)絡(luò)預(yù)測(cè)為短期偏好,最近一次交互對(duì)當(dāng)前交互的影響最大,對(duì)應(yīng)的顏色也越深.對(duì)應(yīng)于Amazon Instant Video數(shù)據(jù)集中的實(shí)例是該用戶在看了一集某電視劇后又接連觀看了后面的3集.

    由圖5可知,在用戶的第8~11次交互時(shí),策略網(wǎng)絡(luò)預(yù)測(cè)為長(zhǎng)期偏好.用戶的第6次交互對(duì)其影響最大,對(duì)應(yīng)顏色也越深,即為用戶的長(zhǎng)期偏好.對(duì)應(yīng)于Amazon Instant Video數(shù)據(jù)集中的實(shí)例是該用戶當(dāng)看了一部之前沒(méi)看過(guò)的喜劇類型電影(第6次交互)后,又連續(xù)看了幾部該類型(第8~11次交互)但互相關(guān)聯(lián)不大的電影.

    由圖6可知,在用戶的第6~9次交互時(shí),策略網(wǎng)絡(luò)預(yù)測(cè)為全局偏好.其之前的幾次交互權(quán)重值相差不大且顏色近似,說(shuō)明此次交互為用戶的全局偏好. 對(duì)應(yīng)于Amazon Instant Video數(shù)據(jù)集中的實(shí)例是該用戶當(dāng)看了一部驚悚類型(第6次交互)的電影之后,又看了喜劇、愛(ài)情、傳記類型的電影.

    4結(jié)論

    本文研究了結(jié)合用戶策略記憶和深度強(qiáng)化學(xué)習(xí)的序列推薦算法,提出一個(gè)新的DRRM模型框架.該算法通過(guò)策略網(wǎng)絡(luò)對(duì)用戶與項(xiàng)目交互的行為模式進(jìn)行更加細(xì)致的劃分,以解決用戶-項(xiàng)目交互序列并不總是順序相關(guān)甚至存在噪聲的問(wèn)題.通過(guò)對(duì)衰減因子的設(shè)定,證明深度強(qiáng)化學(xué)習(xí)對(duì)DRRM的影響;在消融實(shí)驗(yàn)中,驗(yàn)證了用戶策略網(wǎng)絡(luò)以及注意力機(jī)制在記憶網(wǎng)絡(luò)中的重要性.通過(guò)在兩個(gè)數(shù)據(jù)集上對(duì)比先進(jìn)序列推薦模型的大量實(shí)驗(yàn),證明了本文所提算法的有效性.

    本文只是對(duì)數(shù)據(jù)集中的用戶和項(xiàng)目進(jìn)行矩陣分解得到相應(yīng)的向量,此外還有許多可以利用的信息比如用戶的身份信息、社交信息等,來(lái)更新用戶、項(xiàng)目表示,以提高模型的可解釋性.

    參考文獻(xiàn)

    [1] WANG S,HU L,WANG Y,et al. Sequential recommender systems:challenges,progress and prospects [C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Amsterdam:Elsevier,2019:6332-6338.

    [2] MOONEY R J,ROY L. Content-based book recommending using learning for text categorization [C]// Proceedings of the 5th ACM Conference on Digital Libraries. New York:ACM,2000:195-204.

    [3]劉勝宗,樊曉平,廖志芳,等.基于PMF進(jìn)行潛在特征因子分解的標(biāo)簽推薦[J].湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,42(10):107-113.

    LIU S Z,F(xiàn)AN X P,LIAO Z F,et al. A tag recommending algorithm with latent feature factor jointly factorizing based on PMF [J]. Journal of Hunan University (Natural Sciences),2015,42(10):107113. (In Chinese)

    [4]劉朝陽(yáng),穆朝絮,孫長(zhǎng)銀.深度強(qiáng)化學(xué)習(xí)算法與應(yīng)用研究現(xiàn)狀綜述[J].智能科學(xué)與技術(shù)學(xué)報(bào),2020,2(4):314-326.

    LIU Z Y,MU C X,SUN C Y. An overview on algorithms and applications of deep reinforcement learning[J]. Chinese Journal of Intelligent Science and Technology,2020,2(4):314-326. (In Chinese)

    [5] FENG S,LI X,ZENG Y,et al. Personalized ranking metric embedding for next new POI recommendation[C]//Proceedings of the 24th International Joint Conference on Artificial Intelligence. Amsterdam:Elsevier,2015:2069-2075.

    [6] LIU Q,WU S,WANG D Y,et al.Context-aware sequential recommendation[C]//Proceedings of the IEEE 16th International Conference on Data Mining. Stroudsburg:IEEE,2016:1053-1058.

    [7] WANG S,HU L,CAO L,et al. Attention-based transactional context embedding for next-item recommendation[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Menlo Park,CA:AAAI,2018:2532-2539.

    [8] KANG W C,MCAULEY J. Self-attentive sequential recommendation[C]//Proceedings of the 2018 IEEE International Conference on Data Mining(ICDM). Piscataway,NJ:IEEE,2018:197-206.

    [9] WESTON J. Memory networks for recommendation[C]//Proceedings of the 11th ACM Conference on Recommender Systems. New York:ACM,2017:4.

    [10] CHEN X,XU H T,ZHANG Y F,et al. Sequential recommendation with user memory networks[C]// Proceedings of the 11th ACM International Conference on Web Search and Data Mining. New York:ACM,2018:108-116.

    [11] EBESU T,SHEN B,F(xiàn)ANG Y. Collaborative memory network for recommendation systems[C]//Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. New York:ACM,2018:515-524.

    [12] OUYANG W T,ZHANG X W,REN S K,et al. Click-through rate prediction with the user memory network[C]//Proceedings of the 1st International Workshop on Deep Learning Practice for HighDimensional Sparse Data with KDD 2019. New York:ACM,2019:1-4.

    [13] WANG L,ZHANG W,HE X F,et al. Supervised reinforcement learning with recurrent neural network for dynamic treatment recommendation[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York:ACM,2019:2447-2456.

    [14] ZHAO X,XIA L,ZOU L,et al. Model-based reinforcement learning for whole-chain recommendations[C]//Proceedings of the 13th ACM International Conference on Web Search and Data Mining. New York:ACM,2019:4-8.

    [15] ZHENG G J,ZHANG F Z,ZHENG Z H,et al. DRN:a deep reinforcement learning framework for news recommendation[C]//Proceedings of the 2018 World Wide Web Conference. New York:ACM,2018:167-176.

    [16] LIU F,TANG R,LI X,et al. State representation modeling for deep reinforcement learning based recommendation [J]. Knowledge-Based Systems,2020,205(1):106170.

    [17] RENDLE S,F(xiàn)REUDENTHALER C,GANTNER Z,et al. BPR:bayesian personalized ranking from implicit feedback[C]//Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence. Montreal:AUAI Press,2009:452-461.

    [18] RENDLE S,F(xiàn)REUDENTHALER C,SCHMIDT-THIEME L. Factorizing personalized Markov chains for next-basket recommendation[C]// Proceedings of the 19th International Conference on World Wide Web. New York:ACM,2010:811-820.

    [19] YU F,LIU Q,WU S,et al. A dynamic recurrent model for next basket recommendation[C]//Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM,2016:729-732.

    猜你喜歡
    強(qiáng)化學(xué)習(xí)推薦系統(tǒng)注意力機(jī)制
    基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
    基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
    基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
    軟件工程(2017年11期)2018-01-05 08:06:09
    InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
    基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
    論“以讀促寫”在初中英語(yǔ)寫作教學(xué)中的應(yīng)用
    智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
    基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
    基于個(gè)性化的協(xié)同過(guò)濾圖書(shū)推薦算法研究
    個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
    国产一区二区三区av在线| 亚洲美女视频黄频| 久久99热这里只频精品6学生| 国产老妇伦熟女老妇高清| 如何舔出高潮| 黄色配什么色好看| 国产熟女午夜一区二区三区| 制服人妻中文乱码| 亚洲四区av| 日日啪夜夜爽| 日本免费在线观看一区| 精品久久蜜臀av无| 美女内射精品一级片tv| 极品少妇高潮喷水抽搐| 国产熟女欧美一区二区| 视频区图区小说| 在线观看美女被高潮喷水网站| 欧美xxxx性猛交bbbb| 男女无遮挡免费网站观看| 肉色欧美久久久久久久蜜桃| 在线观看三级黄色| 国产精品久久久久久精品电影小说| 18禁动态无遮挡网站| 久久av网站| 国产黄色免费在线视频| 久久午夜综合久久蜜桃| 亚洲国产精品成人久久小说| 99热全是精品| 美女国产视频在线观看| freevideosex欧美| 少妇被粗大猛烈的视频| 国产男女内射视频| 亚洲美女视频黄频| 国产一区二区在线观看av| 精品久久国产蜜桃| 人人妻人人添人人爽欧美一区卜| 美国免费a级毛片| 麻豆乱淫一区二区| 国产一级毛片在线| 欧美精品高潮呻吟av久久| 午夜免费男女啪啪视频观看| 国产精品.久久久| 边亲边吃奶的免费视频| 亚洲av成人精品一二三区| 欧美另类一区| 高清不卡的av网站| 久久久久网色| 国产无遮挡羞羞视频在线观看| 少妇精品久久久久久久| 亚洲精华国产精华液的使用体验| 精品国产露脸久久av麻豆| 大香蕉久久成人网| 少妇人妻久久综合中文| av电影中文网址| 国产乱人偷精品视频| 亚洲人成77777在线视频| 99热国产这里只有精品6| 免费观看性生交大片5| 丝袜在线中文字幕| 九九在线视频观看精品| 国产欧美另类精品又又久久亚洲欧美| 美女国产高潮福利片在线看| 日韩在线高清观看一区二区三区| 中文字幕人妻熟女乱码| 春色校园在线视频观看| 国产又爽黄色视频| 中文天堂在线官网| 伦理电影免费视频| 一区二区三区乱码不卡18| 欧美3d第一页| 赤兔流量卡办理| 99视频精品全部免费 在线| av播播在线观看一区| 男女高潮啪啪啪动态图| 欧美国产精品va在线观看不卡| 日日啪夜夜爽| 90打野战视频偷拍视频| 黄片无遮挡物在线观看| 久久久久人妻精品一区果冻| 一本久久精品| 天天躁夜夜躁狠狠躁躁| 在线精品无人区一区二区三| 久久久亚洲精品成人影院| 国产男人的电影天堂91| 日韩伦理黄色片| 亚洲情色 制服丝袜| 夜夜骑夜夜射夜夜干| 丰满饥渴人妻一区二区三| 男女无遮挡免费网站观看| 免费观看av网站的网址| 美女主播在线视频| 多毛熟女@视频| 国产在视频线精品| 亚洲图色成人| 亚洲av.av天堂| 91精品伊人久久大香线蕉| 韩国av在线不卡| 少妇精品久久久久久久| 国产免费现黄频在线看| 蜜臀久久99精品久久宅男| 国产精品免费大片| 色视频在线一区二区三区| 婷婷色综合www| 欧美 日韩 精品 国产| 日韩欧美一区视频在线观看| 人体艺术视频欧美日本| av免费观看日本| 激情五月婷婷亚洲| 亚洲综合精品二区| 亚洲国产成人一精品久久久| 97超碰精品成人国产| 精品国产露脸久久av麻豆| 哪个播放器可以免费观看大片| 亚洲欧洲日产国产| 美国免费a级毛片| 中文字幕亚洲精品专区| 久久这里有精品视频免费| 99精国产麻豆久久婷婷| 91aial.com中文字幕在线观看| 男女国产视频网站| 狂野欧美激情性bbbbbb| 18+在线观看网站| 国产精品无大码| 国精品久久久久久国模美| 高清在线视频一区二区三区| 午夜日本视频在线| 午夜福利视频精品| 国产淫语在线视频| 美女主播在线视频| av女优亚洲男人天堂| 国产成人午夜福利电影在线观看| 如日韩欧美国产精品一区二区三区| 国产亚洲最大av| 性色av一级| 捣出白浆h1v1| 日韩中文字幕视频在线看片| 丰满饥渴人妻一区二区三| 女人久久www免费人成看片| 日韩大片免费观看网站| 久久人人爽人人片av| 午夜福利乱码中文字幕| 你懂的网址亚洲精品在线观看| 少妇高潮的动态图| 亚洲,欧美精品.| 中文字幕另类日韩欧美亚洲嫩草| 日韩中字成人| 久久热在线av| a 毛片基地| 国产日韩欧美在线精品| 久久久久久久久久人人人人人人| 又大又黄又爽视频免费| 综合色丁香网| 亚洲精品成人av观看孕妇| 精品视频人人做人人爽| 大话2 男鬼变身卡| av免费在线看不卡| 18禁在线无遮挡免费观看视频| 黄色 视频免费看| 18禁国产床啪视频网站| 男女边摸边吃奶| 国产精品免费大片| 熟女人妻精品中文字幕| 精品视频人人做人人爽| 国产女主播在线喷水免费视频网站| 国产激情久久老熟女| 建设人人有责人人尽责人人享有的| 性高湖久久久久久久久免费观看| 黑人猛操日本美女一级片| 欧美日韩亚洲高清精品| 天堂中文最新版在线下载| av天堂久久9| 成年av动漫网址| 国产成人精品无人区| √禁漫天堂资源中文www| 亚洲av综合色区一区| 国产一区二区激情短视频 | 亚洲国产精品专区欧美| 九色亚洲精品在线播放| 久久国产精品大桥未久av| √禁漫天堂资源中文www| 欧美 日韩 精品 国产| 久久人妻熟女aⅴ| 欧美精品av麻豆av| 国产精品麻豆人妻色哟哟久久| 男女下面插进去视频免费观看 | 国产免费现黄频在线看| 亚洲av电影在线观看一区二区三区| 欧美亚洲日本最大视频资源| 狠狠婷婷综合久久久久久88av| 在线观看国产h片| 欧美成人午夜免费资源| 久久99蜜桃精品久久| 国语对白做爰xxxⅹ性视频网站| av视频免费观看在线观看| 婷婷色综合大香蕉| 最近2019中文字幕mv第一页| 久久鲁丝午夜福利片| 亚洲av男天堂| 青春草国产在线视频| 久久精品国产亚洲av涩爱| 成人亚洲精品一区在线观看| 97在线人人人人妻| 亚洲国产精品999| 一级片免费观看大全| 最黄视频免费看| 久久综合国产亚洲精品| 欧美精品亚洲一区二区| 精品国产一区二区三区四区第35| 永久网站在线| 又粗又硬又长又爽又黄的视频| 我要看黄色一级片免费的| 新久久久久国产一级毛片| 99精国产麻豆久久婷婷| 成人国产av品久久久| 欧美日韩亚洲高清精品| 夫妻性生交免费视频一级片| 国产精品秋霞免费鲁丝片| 精品卡一卡二卡四卡免费| 香蕉精品网在线| 欧美+日韩+精品| 黄色毛片三级朝国网站| 国产精品无大码| a级毛片在线看网站| 色吧在线观看| 9191精品国产免费久久| 日韩 亚洲 欧美在线| 日韩精品免费视频一区二区三区 | 亚洲国产欧美在线一区| 国产精品一区www在线观看| 久热这里只有精品99| 日本免费在线观看一区| 精品一区二区免费观看| 欧美 亚洲 国产 日韩一| 久久久精品免费免费高清| a级毛片在线看网站| 国产男女内射视频| 亚洲欧美中文字幕日韩二区| 韩国精品一区二区三区 | 午夜激情久久久久久久| 美女国产高潮福利片在线看| 两个人免费观看高清视频| 一级,二级,三级黄色视频| 久久影院123| 飞空精品影院首页| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 99国产精品免费福利视频| 亚洲国产精品一区二区三区在线| 国产成人精品婷婷| 亚洲五月色婷婷综合| 在线精品无人区一区二区三| 又大又黄又爽视频免费| 亚洲国产最新在线播放| tube8黄色片| 母亲3免费完整高清在线观看 | 最近最新中文字幕免费大全7| 亚洲av免费高清在线观看| 精品一品国产午夜福利视频| 亚洲精品乱久久久久久| av黄色大香蕉| 日韩伦理黄色片| 麻豆乱淫一区二区| 亚洲精品乱码久久久久久按摩| 国产在视频线精品| 大陆偷拍与自拍| 黄片播放在线免费| 国产免费又黄又爽又色| 最近最新中文字幕大全免费视频 | 高清不卡的av网站| 青春草国产在线视频| 久久av网站| 亚洲av成人精品一二三区| 我要看黄色一级片免费的| 一区二区日韩欧美中文字幕 | 黄色怎么调成土黄色| 久久人人97超碰香蕉20202| 亚洲欧美一区二区三区黑人 | 啦啦啦中文免费视频观看日本| 十八禁高潮呻吟视频| 日本黄大片高清| 国产精品欧美亚洲77777| 韩国高清视频一区二区三区| 看十八女毛片水多多多| 少妇的丰满在线观看| 少妇 在线观看| av有码第一页| 午夜激情久久久久久久| 欧美丝袜亚洲另类| 九九在线视频观看精品| 中国国产av一级| av在线老鸭窝| 黄片无遮挡物在线观看| 免费观看无遮挡的男女| 伦精品一区二区三区| 欧美国产精品一级二级三级| 久久这里有精品视频免费| 成人国语在线视频| av在线app专区| 日韩精品有码人妻一区| 成人二区视频| 日本av免费视频播放| 亚洲欧美中文字幕日韩二区| 边亲边吃奶的免费视频| 国产亚洲精品久久久com| 看免费成人av毛片| 国产国拍精品亚洲av在线观看| av国产久精品久网站免费入址| 免费不卡的大黄色大毛片视频在线观看| 在现免费观看毛片| 男人添女人高潮全过程视频| 亚洲精品自拍成人| 色视频在线一区二区三区| 日韩制服丝袜自拍偷拍| 亚洲成人av在线免费| 欧美少妇被猛烈插入视频| 中文字幕免费在线视频6| 欧美日韩一区二区视频在线观看视频在线| 多毛熟女@视频| 高清毛片免费看| 欧美精品一区二区大全| av国产精品久久久久影院| 国产高清三级在线| 男女边摸边吃奶| 看免费av毛片| 午夜视频国产福利| 国产 一区精品| 一区二区三区四区激情视频| 午夜免费观看性视频| 精品国产乱码久久久久久小说| 国语对白做爰xxxⅹ性视频网站| a级片在线免费高清观看视频| 最近最新中文字幕免费大全7| 999精品在线视频| 国产福利在线免费观看视频| 免费大片18禁| 一区二区日韩欧美中文字幕 | 一区二区三区四区激情视频| 秋霞伦理黄片| av福利片在线| 丝袜脚勾引网站| 99国产综合亚洲精品| 亚洲欧洲精品一区二区精品久久久 | 黄色怎么调成土黄色| 久久精品国产鲁丝片午夜精品| 亚洲av中文av极速乱| 久久国产亚洲av麻豆专区| 精品国产一区二区三区四区第35| 美女主播在线视频| a级毛片黄视频| 岛国毛片在线播放| 久久人人爽人人爽人人片va| 999精品在线视频| 男女免费视频国产| 久久青草综合色| 国产免费一区二区三区四区乱码| 午夜免费观看性视频| 草草在线视频免费看| 国产日韩欧美视频二区| 国产毛片在线视频| 国产精品一国产av| 国产精品久久久久久av不卡| 99热这里只有是精品在线观看| 国产高清不卡午夜福利| 久久久国产一区二区| 一级爰片在线观看| 国产亚洲欧美精品永久| tube8黄色片| 少妇的丰满在线观看| 少妇精品久久久久久久| 2018国产大陆天天弄谢| 日韩制服丝袜自拍偷拍| 色吧在线观看| 久久狼人影院| 国产视频首页在线观看| 80岁老熟妇乱子伦牲交| 国产高清国产精品国产三级| 99re6热这里在线精品视频| 国产精品一区二区在线不卡| 亚洲国产看品久久| 亚洲伊人久久精品综合| 美女xxoo啪啪120秒动态图| 黄片播放在线免费| 国产色婷婷99| 亚洲熟女精品中文字幕| 国产精品嫩草影院av在线观看| kizo精华| 只有这里有精品99| 咕卡用的链子| 97超碰精品成人国产| 99久久中文字幕三级久久日本| 欧美成人午夜精品| 午夜福利在线观看免费完整高清在| 久久99热这里只频精品6学生| 日韩在线高清观看一区二区三区| 免费人妻精品一区二区三区视频| 又黄又粗又硬又大视频| 久热这里只有精品99| 亚洲av男天堂| 韩国精品一区二区三区 | av卡一久久| 精品一区二区三卡| 如日韩欧美国产精品一区二区三区| 久久国内精品自在自线图片| 亚洲在久久综合| 亚洲精品乱久久久久久| 91成人精品电影| 草草在线视频免费看| 内地一区二区视频在线| 纵有疾风起免费观看全集完整版| 成人无遮挡网站| 久久鲁丝午夜福利片| 丰满迷人的少妇在线观看| 日本91视频免费播放| 久久久久精品久久久久真实原创| 最近2019中文字幕mv第一页| 精品国产一区二区三区久久久樱花| 91精品国产国语对白视频| 深夜精品福利| 亚洲成国产人片在线观看| 如何舔出高潮| 男女边摸边吃奶| 热99国产精品久久久久久7| 免费高清在线观看日韩| av在线播放精品| 欧美激情 高清一区二区三区| 国产精品欧美亚洲77777| 极品少妇高潮喷水抽搐| 久久精品国产自在天天线| 成人二区视频| 久久99精品国语久久久| 亚洲五月色婷婷综合| 久久久亚洲精品成人影院| 99久国产av精品国产电影| 国产成人精品在线电影| 国产av国产精品国产| 国产毛片在线视频| 国产高清国产精品国产三级| 久久精品aⅴ一区二区三区四区 | 男人操女人黄网站| 九色亚洲精品在线播放| 亚洲欧美精品自产自拍| 久久 成人 亚洲| videos熟女内射| 国产精品偷伦视频观看了| 久久久久精品性色| 成人亚洲精品一区在线观看| 黄色怎么调成土黄色| 亚洲三级黄色毛片| www.色视频.com| 高清毛片免费看| 欧美日韩精品成人综合77777| 国产精品国产三级国产专区5o| 满18在线观看网站| 一区二区三区乱码不卡18| videosex国产| 午夜免费鲁丝| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 久久久亚洲精品成人影院| 色婷婷久久久亚洲欧美| 90打野战视频偷拍视频| 日日摸夜夜添夜夜爱| 久久精品国产亚洲av涩爱| 久久热在线av| 久久久欧美国产精品| 啦啦啦在线观看免费高清www| 国产亚洲av片在线观看秒播厂| 亚洲国产av影院在线观看| 国产爽快片一区二区三区| 国产一区二区在线观看日韩| 亚洲,欧美,日韩| 欧美日韩视频精品一区| 色婷婷久久久亚洲欧美| 一级毛片黄色毛片免费观看视频| 丝袜美足系列| 国产一区二区激情短视频 | 国产精品国产三级国产av玫瑰| 国产在线一区二区三区精| 26uuu在线亚洲综合色| 亚洲精品456在线播放app| 中文欧美无线码| 国产精品国产三级国产专区5o| 国产黄色免费在线视频| 一二三四在线观看免费中文在 | 中文字幕最新亚洲高清| 精品视频人人做人人爽| 日韩中文字幕视频在线看片| 极品少妇高潮喷水抽搐| 观看av在线不卡| 性色av一级| 亚洲精品久久久久久婷婷小说| 大片电影免费在线观看免费| tube8黄色片| 亚洲成国产人片在线观看| 国产高清三级在线| 国产精品国产三级国产av玫瑰| 97在线人人人人妻| 色婷婷av一区二区三区视频| 99久久人妻综合| 一区二区av电影网| 99久久人妻综合| 少妇人妻久久综合中文| 精品亚洲乱码少妇综合久久| 日本vs欧美在线观看视频| 国产精品久久久久久精品古装| 91国产中文字幕| 成人国产av品久久久| 久久久久久久久久久免费av| 国产免费视频播放在线视频| 国产白丝娇喘喷水9色精品| 嫩草影院入口| 国产av码专区亚洲av| 亚洲欧美清纯卡通| 精品熟女少妇av免费看| av不卡在线播放| 国产在线视频一区二区| 色视频在线一区二区三区| 国产毛片在线视频| 国产片内射在线| 亚洲三级黄色毛片| 五月玫瑰六月丁香| 亚洲伊人色综图| 波多野结衣一区麻豆| 成人二区视频| 日韩精品有码人妻一区| 高清毛片免费看| av片东京热男人的天堂| 晚上一个人看的免费电影| 精品一区二区三区四区五区乱码 | 男人舔女人的私密视频| 欧美bdsm另类| 亚洲av在线观看美女高潮| 亚洲av成人精品一二三区| 男人舔女人的私密视频| 美女国产视频在线观看| 国产日韩欧美亚洲二区| 美女国产视频在线观看| 国产免费又黄又爽又色| 桃花免费在线播放| 欧美精品高潮呻吟av久久| av又黄又爽大尺度在线免费看| 巨乳人妻的诱惑在线观看| 亚洲av成人精品一二三区| 丁香六月天网| xxx大片免费视频| 男女无遮挡免费网站观看| 一区在线观看完整版| av女优亚洲男人天堂| 国产av码专区亚洲av| 日韩欧美精品免费久久| 亚洲成人av在线免费| 亚洲婷婷狠狠爱综合网| 久久精品人人爽人人爽视色| 卡戴珊不雅视频在线播放| 性高湖久久久久久久久免费观看| 中文字幕av电影在线播放| 国产一区二区激情短视频 | 极品少妇高潮喷水抽搐| 日韩大片免费观看网站| 纯流量卡能插随身wifi吗| 国产精品秋霞免费鲁丝片| 中文字幕亚洲精品专区| 精品国产一区二区久久| 极品少妇高潮喷水抽搐| 亚洲国产欧美在线一区| 精品视频人人做人人爽| 国产男人的电影天堂91| 日韩一区二区视频免费看| 国产精品三级大全| 蜜桃在线观看..| 国产日韩一区二区三区精品不卡| 尾随美女入室| 人人妻人人添人人爽欧美一区卜| 精品少妇黑人巨大在线播放| 黄色毛片三级朝国网站| 成人亚洲精品一区在线观看| 性色avwww在线观看| 女人久久www免费人成看片| 精品国产国语对白av| 大陆偷拍与自拍| 成年人午夜在线观看视频| 国产免费福利视频在线观看| 亚洲国产精品成人久久小说| 久久99一区二区三区| 国产黄色视频一区二区在线观看| 国产av码专区亚洲av| 夜夜骑夜夜射夜夜干| 国产精品久久久久久久电影| 亚洲欧美清纯卡通| 久久99一区二区三区| 国产精品嫩草影院av在线观看| 免费观看在线日韩| 老司机亚洲免费影院| av有码第一页| 日韩免费高清中文字幕av| 边亲边吃奶的免费视频| 韩国av在线不卡| 婷婷色综合大香蕉| 新久久久久国产一级毛片| 欧美精品国产亚洲| 熟女av电影| 中文字幕av电影在线播放| 九九在线视频观看精品| 女性被躁到高潮视频| 亚洲精品乱码久久久久久按摩| 性色av一级| 伊人亚洲综合成人网| a级毛色黄片| 纵有疾风起免费观看全集完整版| 老司机亚洲免费影院| 纵有疾风起免费观看全集完整版| 最近的中文字幕免费完整| 婷婷色麻豆天堂久久| 中文字幕亚洲精品专区| 精品一区二区三区四区五区乱码 | 午夜激情av网站| 久久99蜜桃精品久久|