• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于近端策略優(yōu)化與對抗學習的對話生成*

    2020-10-10 02:39:50游進國丁家滿
    計算機工程與科學 2020年9期
    關(guān)鍵詞:單詞策略模型

    蔡 鉞,游進國,2,丁家滿

    (1.昆明理工大學信息工程與自動化學院,云南 昆明 650500;2.云南省計算機技術(shù)應(yīng)用重點實驗室,云南 昆明 650500)

    1 引言

    對話系統(tǒng)分為特定領(lǐng)域的對話系統(tǒng)與開放領(lǐng)域的對話系統(tǒng)[1],前者用于完成特定的任務(wù),后者用于無固定主題的閑聊和娛樂。目前,開放領(lǐng)域?qū)υ捪到y(tǒng)得到了較快的發(fā)展并且在工業(yè)界也得到了較好的應(yīng)用,比如微軟小冰、小愛同學等聊天機器人已經(jīng)慢慢地融入了我們的生活。開放領(lǐng)域?qū)υ捪到y(tǒng)的實現(xiàn)可以分為檢索式方法和生成式方法,檢索式方法通過查詢對話語料庫選擇最佳回復,生成式方法通過學習輸入的對話與生成回復之間的對應(yīng)關(guān)系,使系統(tǒng)可以通過輸入的對話自動生成有意義的回復。對話生成的研究也就是開放領(lǐng)域?qū)υ捪到y(tǒng)中生成式方法的研究。

    序列到序列Seq2Seq(Sequence-to-Sequence)[2]模型首先在機器翻譯領(lǐng)域[3]取得了很大的成功,之后被用于對話生成[4]。它通常由2個循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)組成,可以端對端地訓練對話生成。Bahdanau等[5]將注意力機制引入Seq2Seq模型之后,改進了查詢-響應(yīng)之間的相關(guān)性,使對話生成的質(zhì)量進一步提高。但是,在開放領(lǐng)域的對話生成方向沒有好的評估方法來判斷生成對話的好壞,僅僅使用極大似然估計MLE(Maximum Likelihood Estimation)作為損失函數(shù)訓練Seq2Seq模型時,容易出現(xiàn)對話回復中部分單詞生成正確,總體對話卻很差的情況,并且會出現(xiàn)“安全響應(yīng)(Safe Response)[6]”的問題,即容易產(chǎn)生“我不知道”等沒有信息的對話。盡管如此,使用MLE訓練帶有注意力機制的Seq2Seq模型還是目前對話生成最常用的方法。

    之后的工作中,研究人員對極大似然估計算法提出了很多的改進[7,8],比如引入強化學習RL(Reinforcement Learning)的概念,從連貫性、信息流和輕松回復等多個方面自定義評估方法來判斷對話生成的好壞,從而得到對話的獎勵,進而使用策略梯度(Policy Gradient)[9]的方法將得到的獎勵用于指導對話的生成。但是,自定義的評估方法只能針對性地解決部分問題,依舊不能整體地判斷對話的好壞。

    對抗生成網(wǎng)絡(luò)GAN(Generative Adversarial Nets)[10]可以使用判別模型來評估整個對話的好壞,從而解決模型評估的問題。它最初設(shè)計用于輸出可微分值,可以較好地捕獲連續(xù)分布。但是,離散語言的生成對它來說是具有挑戰(zhàn)性的,因為GAN在生成模型生成詞匯時選擇概率最大的一個詞匯作為輸出,在生成模型的參數(shù)進行微小更新的情況下,輸出的詞匯可能不會發(fā)生改變,導致它在對話生成時會面臨反向傳播不可微分的情況,生成模型與判別模型不能作為一個整體進行訓練。

    Adver-REGS(Adversarial Reward for Every Generation Step)[11]模型采用了seqGAN(sequence Generative Adversarial Nets)[12]的思想,利用策略梯度的方法來解決GAN訓練對話生成時導致的反向傳播不可微分的問題,將GAN應(yīng)用到了對話生成的領(lǐng)域,大大地提高了對話生成的質(zhì)量。在對抗訓練的過程中,判別模型只能得到完整對話的獎勵,為了得到好的對話中間狀態(tài)的獎勵,需要使用蒙特卡羅采樣MC-Search(Monte Carlo Search)[13]的方法,這是一個非常耗時的過程。但是,策略梯度的方法對每次獎勵的利用率很低,這就導致了使用策略梯度訓練GAN的效率很低,并且使用策略梯度訓練時還存在樣本方差大、模型訓練困難并且容易收斂到局部最優(yōu)解的問題,影響了對話生成的質(zhì)量。

    近端策略優(yōu)化PPO(Proximal Policy Optimization)[14]算法是一種異策略(Off Policy)的RL方法。PPO算法已經(jīng)在視頻游戲與無人駕駛等方面得到了較好的應(yīng)用,但未見用于對話的生成。由于目前對話生成的方法會面臨判別模型返回獎勵利用率低、模型訓練困難、容易收斂到局部最優(yōu)解等問題,而PPO算法不僅可以解決一般策略梯度方法數(shù)據(jù)樣本利用率低與魯棒性差的問題,而且對比于異策略學習方法信賴域策略優(yōu)化(Trust Region Policy Optimization)[15]也具有更好的樣本復雜度。因此,本文提出使用PPO算法來訓練GAN。

    本文提出對話生成算法PPO_GAN,使用PPO算法來訓練GAN。首先,處理了GAN在對話生成時導致的反向傳播不可微分的情況,利用判別模型返回的獎勵來指導生成模型生成對話,解決了僅使用極大似然估計訓練對話生成時面臨的對話質(zhì)量評估的問題。其次,相比于Adver-REGS模型,本文算法不僅通過優(yōu)化帶有懲罰項的代理目標函數(shù)來得到生成模型參數(shù)更新的方向和步長,保證了生成模型的訓練是單調(diào)非減的,而且通過生成模型自適應(yīng)的多次迭代,提高了判別模型返回獎勵的利用率。

    2 PPO_GAN對話生成算法

    本文模型使用GAN的結(jié)構(gòu),包含一個生成模型和一個判別模型,生成模型的目標是生成更接近人類的對話,判別模型的目標是盡可能地區(qū)分真實的對話和生成模型生成的對話。為了在對抗訓練之前,使生成模型具有一定生成對話的能力,判別模型具有一定分辨對話的能力,本文對生成模型和判別模型進行了預訓練。在對抗訓練的過程中,通過PPO算法使判別模型得到的獎勵能重復地被用于指導生成模型的訓練,同時為了得到對話中間狀態(tài)的獎勵,使用了MC-Search的方法,并且為了防止在對抗訓練的過程中出現(xiàn)獎勵中斷的問題,使用了強迫指導[16]的方法。在經(jīng)過對抗訓練之后,生成模型可以生成足夠真實的對話使判別模型無法分辨。

    Figure 1 Diagram of generate model structure 圖1 生成模型結(jié)構(gòu)圖

    本文將生成模型用G表示,判別模型用D表示。輸入對話用h表示,h={h1,h2,…,hm},其中,ht表示輸入對話的第t個單詞。真實的對話回復用x表示,x={x1,x2,…,xn},其中,xt表示真實回復的第t個單詞,x1:t表示真實回復的第1到第t個單詞。生成模型生成的對話回復用c表示,c={c1,c2,…,cw},其中,ct表示生成回復的第t個單詞,c1:t表示生成回復的第1到第t個單詞。使用(x,h)表示真實的對話,(c,h)表示生成模型生成的對話。S1表示所有真實的對話集合,S2表示所有生成的對話集合。判別模型得到的獎勵用R表示。

    2.1 預訓練生成模型

    生成模型的目標是最大化每個輸出是真實回復的概率,使用MLE作為損失函數(shù)預訓練生成模型,如式(1)所示:

    (1)

    其中,θ表示生成模型的參數(shù),pθ(xt|x1:t-1,h)表示在給定輸入對話h和真實回復單詞(x1,…,xt-1)的情況下,產(chǎn)生的下一個單詞是真實回復單詞的概率。

    如圖1中解碼器部分的虛線所示,訓練過程中和測試過程中解碼器的輸入是不一樣的,因為在訓練的過程中知道真實的對話回復x,所以在解碼的過程中可以將前一步真實的回復單詞xt-1作為輸入。但是,在測試時不知道真實的回復,只能將前一步的輸出ct-1作為輸入。如果前一步的輸出很差就會影響到接下來生成的回復,也就是會造成“暴露偏差(Exposure Bias )[17]”的問題,影響對話生成的質(zhì)量。

    2.2 預訓練判別模型

    判別模型的結(jié)構(gòu)如圖2所示,是一個層次神經(jīng)網(wǎng)絡(luò)[18]的結(jié)構(gòu)。首先,使用一個RNN將對話的輸入h進行編碼,另一個RNN將真實的回復x或者生成的回復c進行編碼,將RNN最后一個時刻的隱藏狀態(tài)作為句子的編碼向量,得到句子層面的信息;然后,將句子的編碼作為下一層RNN的輸入向量,第2層RNN的隱藏狀態(tài)就包含了整個對話層面的信息;最后,加入一個二分類的softmax層進行分類。

    Figure 2 Diagram of discriminant model structure圖2 判別模型結(jié)構(gòu)圖

    使用交叉熵作為損失函數(shù)預訓練判別模型,如式(2)所示:

    (2)

    2.3 對抗訓練

    由于GAN在處理離散數(shù)據(jù)時,判別模型得到的微分值不可以通過反向傳播傳到生成模型,因此不能直接整體地訓練生成模型和判別模型,而是將對話的生成看作是一個RL的問題,由判別模型得到獎勵來指導生成模型生成對話。

    2.3.1 生成對話的獎勵

    判別模型只能得到一個完整句子的獎勵,直接使用判別模型計算獎勵時,生成回復中的每個單詞都會得到相同的獎勵。但是,對話回復中可能部分單詞的生成是好的,部分單詞的生成是差的,因此需要采用MC-Search的方法計算每個單詞對應(yīng)的獎勵。

    使用MC-Search生成對話的過程如圖3所示。在已知前t個單詞c1:t的情況下,繼續(xù)從模型分布中完成整句話的生成,一共生成N句話,c1~cN。在計算獎勵時,這N句話獎勵的平均值即為第t個單詞的獎勵。重復此過程,直到得到所有單詞的獎勵。由此可見,獎勵計算的過程是非常耗時的。

    Figure 3 Using MC-Search to generate dialogue圖3 使用MC-Search生成對話

    在使用判別模型計算獎勵時,將生成的對話作為判別模型的輸入,判別模型判斷生成的回復為真實回復的概率即為獎勵的值,獎勵的值越大表示生成模型生成的對話的質(zhì)量越高。單詞獎勵的計算如式(3)所示:

    (3)

    2.3.2 使用PPO算法訓練生成模型

    將對話的生成看作一個RL的問題。RL的目的就是在狀態(tài)s下通過策略π得到要執(zhí)行的動作a,使執(zhí)行動作a可以獲得最大的期望獎勵。其中,策略π就是生成模型,狀態(tài)s就是給定輸入的對話和已經(jīng)生成的序列{c1,…,ct-1},要執(zhí)行的動作a就是將要產(chǎn)生的下一個單詞ct,動作a的獎勵是通過判別模型得到的。

    使用PPO算法訓練生成模型的過程如圖4所示。首先,將對話輸入生成模型生成對話的回復;其次,將對話的輸入與生成的回復輸入判別模型得到獎勵;最后,使用判別模型得到的獎勵指導生成模型更新參數(shù),提高生成模型生成對話的質(zhì)量。其中,為得到每個單詞的獎勵使用了MC-Search的方法。

    Figure 4 Adversarial training generation model圖4 對抗訓練生成模型

    PPO算法是一個異策略的RL算法,用于生成模型迭代訓練的策略π和用于生成回復得到獎勵的策略πold是不同的,使用MC-Search得到的獎勵可以被重復用于生成模型的迭代訓練,從而提高模型訓練的效率。在使用異策略的RL算法時,當策略π和策略πold產(chǎn)生的單詞差距很大時,會導致策略πold得到的獎勵不再適用于指導策略π的訓練,PPO算法增加了限制條件以確保策略π和策略πold產(chǎn)生的單詞差距在一定的范圍內(nèi)。

    使用PPO算法訓練生成模型的損失函數(shù)如式(4)所示:

    clip(mt(θ),1-ε,1+ε)Rt)

    (4)

    其中,

    (5)

    Rt=R(ct,h)

    (6)

    式(4)中,θ表示生成模型的參數(shù),即策略π的參數(shù);mt(θ)是生成模型的一個代理目標函數(shù),表示在訓練第t個單詞時模型參數(shù)的變化率;Rt表示第t個單詞的獎勵;clip(mt(θ),1-ε,1+ε)保證了模型參數(shù)的變化率在(1-ε,1+ε)之間,當mt(θ)的值小于1-ε時就為1-ε,當mt(θ)的值大于1+ε時就為1+ε。函數(shù)在mt(θ)Rt與clip(mt(θ,1-ε,1+ε))之間取較小的值,這樣確保了得到高的獎勵時,mt(θ)的值增大但是不會超過1+ε,得到低的獎勵時,mt(θ)的值減少但是不會小于1-ε。這樣就可以使生成模型自適應(yīng)地多次迭代訓練。式(5)中,pθ(ct|c1:t-1,h)是指在給定輸入的對話h和已生成的單詞(c1,…,ct-1)的情況下,下一個生成的單詞為ct的概率;θ為策略π的參數(shù);即為正在迭代的生成模型的參數(shù);θold為策略πold的參數(shù),即為上一次對抗訓練的生成模型的參數(shù);(c1,…,ct)是由策略πold生成的。式(6)中,R(ct,h)是指使用策略πold生成單詞ct的獎勵。

    在使用PPO算法訓練GAN的對話生成模型時,mt(θ)是生成模型的一個代理目標函數(shù),通過增加正則項保證了模型參數(shù)的變化率在一定的范圍內(nèi),這樣mt(θ)可以近似生成模型的目標函數(shù)pθ(ct|c1:t-1,h),通過優(yōu)化帶有正則項的代理目標函數(shù)mt(θ)來得到生成模型參數(shù)更新的方向和步長。同時,由于mt(θ)是生成模型目標函數(shù)的一個下界,這樣就保證了生成模型參數(shù)的更新是單調(diào)非減的,可以更好地訓練模型。

    2.3.3 使用強迫指導訓練生成模型

    在對抗訓練的過程中,可能出現(xiàn)判別模型訓練得足夠好而生成模型訓練不夠的情況。在這種情況下,判別模型可以輕易地分辨出生成模型生成的回復,而生成模型不能生成足夠真實的回復來“欺騙”判別模型,會導致判別模型總是給出低的獎勵,而生成模型不知道得到高的獎勵的迭代方向。強迫指導可用于避免這種情況的發(fā)生,強迫指導的訓練方法與預訓練生成模型時相同,使用數(shù)據(jù)集中的真實對話,將MLE作為損失函數(shù)訓練生成模型。這樣可以保證生成模型在對抗訓練的過程中能有真實的數(shù)據(jù)集指導訓練。

    2.4 算法描述

    算法1PPO_GAN

    輸入:訓練時真實的對話數(shù)據(jù)集(x,h),測試時真實的對話x。

    輸出:測試時生成的回復c。

    步驟1Gθ←L(θ);//預訓練生成模型Gθ

    步驟2(c,h)←Gθ;/*使用生成模型Gθ生成對話(c,h)*/

    步驟4θold←θ;//保存生成模型參數(shù)θold

    步驟5repeat:

    步驟6forD-stepsdo

    步驟7(c,h)←Gθold;/*使用生成模型Gθold生成對話(c,h)*/

    步驟9endfor

    步驟10forG-stepsdo

    步驟11(c,h)←Gθold;

    步驟12fort=1towdo

    步驟13functionR(ct,h);/*計算生成單詞ct的獎勵*/

    步驟14endfor

    步驟15forPPO-stepsdo

    步驟16Gθ←Lppo(θ);/*通過最大化損失Lppo(θ)訓練生成模型Gθ*/

    步驟17endfor

    步驟18forTeacher-stepsdo

    步驟19Gθ←L(θ);/*通過最大化損失L(θ)訓練生成模型*/

    步驟20endfor

    步驟21θold←θ;

    步驟22endfor

    步驟23 untilPPO_GAN converges

    3 實驗

    3.1 實驗環(huán)境

    本文實驗采用Python 3.5.2編寫代碼,并使用了TensorFlow工具。實驗操作系統(tǒng)采用Windows 7,實驗硬件環(huán)境:Intel Core i5處理器,CPU四核 3.30 GHz。內(nèi)存為8 GB。

    本文使用的數(shù)據(jù)集為一個英文電影字幕的數(shù)據(jù)集OpenSubtitles[19]。去除數(shù)據(jù)集中對話長度小于5個單詞和大于50個單詞的對話,處理之后的數(shù)據(jù)集大約150 MB,一共包括約270萬對單輪對話,將其中的1萬對單輪對話劃分為測試數(shù)據(jù)集。本文對數(shù)據(jù)進行了分塊處理,將數(shù)據(jù)集根據(jù)對話的長度分為了4個部分,這樣減少了訓練過程中RNN傳播的長度,提高了模型訓練的效率。

    在生成模型部分,Seq2Seq模型的編碼和解碼都是由門控循環(huán)單元GRU(Gated Recurrent Unit)[20]構(gòu)成的,并且在編碼和解碼之間添加了注意力機制。GRU緩解了RNN梯度消失的問題,在訓練的過程中為了得到更好的效果,使用了Adam[21]優(yōu)化器代替隨機梯度下降,以自適應(yīng)每個參數(shù)的學習率,也使用了小批量訓練的方法來平衡訓練的精確度和速度,以及使用梯度裁剪的方法來防止梯度爆炸。在測試的過程中,本文使用了集束搜索,考慮每一步的前k個回復,以得到更佳的結(jié)果,增添了對話的多樣性,改善了產(chǎn)生無聊回復的問題。

    在判別模型部分,層次神經(jīng)網(wǎng)絡(luò)中的3個RNN都是使用2層的長短期記憶LSTM(Long Short-Term Memory)[22]網(wǎng)絡(luò)構(gòu)成的,同樣緩解了RNN梯度消失的問題。在訓練過程中,同樣也使用了小批量訓練、Adam優(yōu)化器以及梯度裁剪的方法。

    3.2 對比基線方法

    本文使用的對比基線方法為開放領(lǐng)域?qū)υ捝傻慕?jīng)典算法——極大似然估計以及使用策略梯度訓練GAN的Adver-REGS算法。極大似然估計是開放領(lǐng)域單輪對話生成最常用的算法。Adver-REGS算法將GAN引入到了開放領(lǐng)域的對話生成,并取得了較好的效果。

    3.3 實驗評估指標

    本文對模型訓練的效率和對話生成的質(zhì)量都進行了評估。通過模型訓練時損失的收斂速度評估模型訓練的效率,并且通過困惑度、無聊響應(yīng)出現(xiàn)的頻率以及對話生成的示例評估對話生成的質(zhì)量。

    困惑度(Perplexity)[23]是常常被用于評估生成對話語言質(zhì)量的評估指標,它可以用來衡量一句話出現(xiàn)的概率。生成對話的文法結(jié)構(gòu)越正確,語言質(zhì)量越高,困惑度的值就越小,則模型訓練得越好。困惑度如式(7)所示:

    (7)

    其中,w表示生成的對話回復中的單詞個數(shù),pθ(ct|c1:t-1)表示生成模型在已知生成的單詞(c1,…,ct-1)的情況下,下一個生成的單詞為ct的概率。

    安全響應(yīng)的問題是影響對話質(zhì)量的一個重要因素,生成模型傾向于生成語言質(zhì)量高,但是沒有信息的對話。當這類對話生成過多的時候,會讓對話的有趣性、對話的意義以及對話的質(zhì)量都有所下降。為了評估安全響應(yīng)的問題,本文計算了生成無聊對話的頻率,將“i don’t know”“i’m sorry.”定義為無聊回復,無聊回復的頻率越高,代表安全響應(yīng)的問題越嚴重。

    3.4 實驗超參數(shù)設(shè)置

    在對抗訓練的過程中,超參數(shù)的選取對模型的訓練是非常重要的。本文將詞匯量的大小設(shè)置為35 000。GRU設(shè)置為2層,每層擁有512個神經(jīng)元。LSTM設(shè)置為2層,每層擁有512個神經(jīng)元。生成模型的批量大小設(shè)置為128,判別模型的批量大小設(shè)置為256。MC-Search中N的值取5。集束搜索的k值設(shè)為5。

    實驗1極大似然估計算法訓練對話生成。在帶有注意力機制的Seq2Seq模型中采用極大似然估計算法迭代訓練了52 500次。

    實驗2對比Adver-REGS模型。生成模型的預訓練迭代了50 000次,判別模型的預訓練迭代了30 000次。GAN對抗訓練的次數(shù)為1 250次,其中,本文依照Adver-REGS[9]模型中的設(shè)置,G-steps=1,D-steps=5,Teacher-steps=1。

    實驗3本文提出的PPO_GAN模型。生成模型與判別模型的預訓練迭代次數(shù)同實驗2。GAN對抗訓練次數(shù)為415次,其中,G-steps=1,D-steps=5。將PPO-steps設(shè)置為3,即每次對抗訓練的過程中MC-Search得到的獎勵重復被利用3次,當PPO-steps的值過小時,判別模型的獎勵利用率較低,當PPO-steps的值過大時,由生成模型迭代閾值的控制,生成模型多次迭代之后梯度的變化率將會減小,而且判別模型得到獎勵的指導意義將會變小??刂粕赡P偷荻鹊拈撝郸旁O(shè)為0.2,即通過策略π和πold策略產(chǎn)生下一個單詞為ct的概率的比值控制在0.8~1.2,保證了判別模型得到的獎勵具有指導意義。使用PPO算法對抗訓練一次時參數(shù)會得到較大的更新,為此將Teacher-steps設(shè)置為3。

    3.5 實驗結(jié)果與分析

    3.5.1 訓練效率

    不同算法在訓練的過程中生成損失的下降曲線如圖5所示。圖5a是極大似然估計算法、Adver-REGS算法和PPO_GAN算法預訓練過程中的損失下降曲線,從圖5a中可以看出,這個階段一共迭代訓練了50 000次。圖5b是極大似然估計算法、Adver-REGS算法和PPO_GAN算法對抗訓練過程中的損失下降曲線,是在前50 000次訓練的基礎(chǔ)上繼續(xù)訓練的,從圖5b中可以看出,這個階段一共迭代訓練了2 500次。在圖5b中,對抗訓練的損失曲線為強迫指導得到的損失,即將真實的對話作為輸入時模型的損失。因為本文主要關(guān)注的是模型是否擬合了真實的對話,而不是關(guān)注它是否擬合生成模型生成的對話。但事實是,在對抗訓練生成的過程中,將真實的對話作為輸入或者將模型生成的對話作為輸入時,對抗生成網(wǎng)絡(luò)生成模型的損失都有下降,即模型不僅擬合了真實的對話,而且擬合了生成模型生成的對話。

    Figure 5 Convergence effect diagrams of different generation models圖5 不同生成模型的收斂效果圖

    由于在對抗訓練的過程中,生成模型的訓練需要判別模型得到的獎勵的指導,所以對抗訓練所需的時間比直接使用極大似然估計作為損失函數(shù)訓練生成模型時所需的時間長。Adver-REGS算法對抗訓練的過程中G-steps設(shè)為1,Teacher-steps設(shè)為1,D-steps設(shè)為5,所以每更新2次生成模型之后更新5次判別模型,然后采用MC-Search的方法計算1次獎勵。而PPO_GAN算法對抗訓練的過程中,PPO-steps設(shè)為3,Teacher-steps設(shè)為3,D-steps設(shè)為5,所以每更新6次生成模型之后更新5次判別模型,然后采用MC-Search的方法計算1次獎勵。這樣,PPO_GAN算法對抗訓練的過程中生成模型生成的樣本得到了重復的利用,同時使判別模型通過樣本得到的獎勵也得到了重復的利用,又由于計算獎勵的過程是一個耗時的過程,這樣就節(jié)省了大量生成獎勵的時間,所以PPO_GAN算法在對抗訓練時期平均每次訓練的時間開銷是遠小于Adver-REGS算法的,提高了算法收斂的速度。

    由于GAN中的生成模型使用的是極大似然估計的結(jié)構(gòu),在極大似然估計訓練的過程中和GAN預訓練的過程中,都是使用極大似然估計作為損失函數(shù)訓練的模型,所以圖5a中它們的損失下降曲線接近重合。從圖5b中可以看出,在50 000次迭代訓練之后,使用極大似然估計訓練的損失值趨于穩(wěn)定,Adver-REGS算法和PPO_GAN算法開始了對抗訓練,模型的損失值又得到了大幅度的下降。在對抗訓練的過程中,PPO_GAN算法損失的收斂速度明顯快于Adver-REGS算法的,并且PPO_GAN算法最后收斂到了一個更低的損失值。本文分析原因是PPO_GAN算法在對抗訓練的過程中,其生成模型訓練的是帶有正則項的代理目標函數(shù),它是生成模型原目標函數(shù)的一個下界,因此生成模型可以單調(diào)非減地訓練,這樣就保證了模型收斂的速度以及模型收斂的效果;同時,在訓練的過程中還改善了生成模型容易收斂到局部最優(yōu)解的問題,以及增加了樣本的復雜度使模型更容易收斂到低的損失值。

    3.5.2 對話生成質(zhì)量的分析

    本文從不同方面分析了對話生成的質(zhì)量。通過困惑度比較了生成的對話接近人類語言的程度,通過產(chǎn)生無聊對話的頻率比較了對話回復有趣性與包含的信息量,并且通過隨機輸入對話得到了對話生成的示例,并對生成的示例進行了分析。

    表1中列出了不同模型的困惑度,它通過生成模型訓練的最終損失值計算得到,與生成模型的損失呈正相關(guān)。困惑度的值越低,表示這句話在人類的語言中出現(xiàn)的可能性越大,越接近人類語言的語法。從表1可以看出,對比于極大似然估計算法,PPO_GAN模型的困惑度下降了1.434 1,性能提升了13%。對比于Adver-REGS算法,PPO_GAN算法的困惑度下降了0.325 4,性能提升了3%。結(jié)果表明,PPO_GAN生成的對話在文法結(jié)構(gòu)以及與人類語言的接近程度上是優(yōu)于其他模型的。分析困惑度下降的原因,首先,對抗生成網(wǎng)絡(luò)的結(jié)構(gòu)中擁有判別模型可以指導生成模型的訓練,相比于直接使用極大似然估計算法訓練生成模型,訓練時容易找到正確的迭代方向,因此困惑度下降。其次,在使用PPO算法訓練GAN的情況下,由于進一步限制了模型單調(diào)非減的訓練,改善了模型容易收斂到局部最優(yōu)解的問題,因此困惑度得到了進一步的降低。

    Table 1 Perplexities of different algorithms表1 不同算法的困惑度

    在測試數(shù)據(jù)集上隨機采樣12 800對對話,統(tǒng)計其中無聊對話產(chǎn)生的頻率,結(jié)果如表2所示。由表2可以看出,對比于極大似然估計算法,PPO_GAN算法中無聊對話產(chǎn)生的頻率下降了0.242 9,性能提升了63%。對比于Adver-REGS算法,PPO_GAN算法中無聊對話產(chǎn)生的頻率下降了0.067 2,性能提升了32%。PPO_GAN算法的無聊對話出現(xiàn)的頻率明顯下降。

    結(jié)果表明,PPO_GAN算法在很大程度上改善了安全響應(yīng)的問題,不會產(chǎn)生過多沒有信息的對話,使算法生成的對話在多樣性和有趣性方面都有改善。本文分析產(chǎn)生無聊對話的頻率下降的原因是,首先,在加入GAN的結(jié)構(gòu)之后,通過判別模型的指導,改善了Seq2Seq模型僅僅使用MLE作為損失函數(shù)訓練時,容易擬合高頻回復的情況。其次,在使用PPO模型訓練GAN結(jié)構(gòu)的時候,通過增加樣本的復雜度提高了生成對話的多樣性,更重要的是通過控制模型的訓練,使模型更好地擬合了真實的對話。

    Table 2 Frequencies of boring dialog表2 產(chǎn)生無聊對話的頻率

    在對話生成領(lǐng)域,對話的評估是困難的,目前沒有一個好的評估指標能從整體上評估對話的好壞,最好的方式是通過人類主觀來評估。表3~表5展示了與不同算法的隨機對話得到的部分示例,其中表3對話示例1的輸入為:we should finish the paper quickly。表4對話示例2的輸入為:your dress is so beautiful。表5對話示例3的輸入為:buy me a bottle of water。可以看出,PPO_GAN算法得到的回復一般擁有較好的文法結(jié)構(gòu),更重要的是,PPO_GAN算法得到的回復擁有更多的信息量,與對話的輸入也有更強的上下文相關(guān)性,明顯減少了無意義對話以及無關(guān)對話出現(xiàn)的情況。

    Table 3 Sample generation dialog 1表3 生成對話示例1

    Table 4 Sample generation dialog 2表4 生成對話示例2

    Table 5 Sample generation dialog 3表5 生成對話示例3

    實驗結(jié)果表明,PPO_GAN算法在多個方面改善了對話生成的質(zhì)量。本文分析對話生成質(zhì)量得到改善的原因,首先,Seq2Seq模型存在沒有好的評估指標指導模型訓練的問題;其次,在使用策略梯度算法訓練GAN的時候,存在樣本方差大、模型訓練困難而且容易收斂到局部最優(yōu)解的問題。PPO_GAN算法使用GAN的判別模型得到的獎勵指導生成模型生成對話,同時通過優(yōu)化GAN對抗訓練的過程,提高了樣本的復雜度,并且使對抗訓練過程中的生成模型可以單調(diào)非減地訓練,改善了模型容易收斂到局部最優(yōu)解的問題。PPO_GAN算法可以更好收斂,從而可以更好地擬合輸入對話與生成回復之間的對應(yīng)關(guān)系,改善了對話生成的質(zhì)量。

    3.6 討論

    本文通過比較不同算法損失函數(shù)的下降曲線比較了算法的效率,可以看出,本文算法的收斂速度有明顯的提升,訓練效率也得到了很大的提高;同時,通過比較困惑度、無聊對話產(chǎn)生的頻率以及分析生成對話的示例,比較了對話生成的質(zhì)量,可以看出,本文算法的困惑度明顯降低,無聊對話產(chǎn)生的頻率明顯下降,并且生成對話的示例在包含的信息量和上下文相關(guān)性方面都得到了明顯的改善。

    本文算法性能提升的原因是,首先,由于PPO算法是一個異策略的強化學習方法,通過增加正則項保證了模型參數(shù)的變化率在一定的范圍內(nèi),從而可以使生成模型自適應(yīng)地多次迭代,讓生成模型生成的樣本以及判別模型得到的獎勵都得到了重復的利用,這是模型訓練效率提高的原因之一。其次,在使用PPO算法訓練GAN時,訓練的是生成模型的代理目標函數(shù),它是生成模型目標函數(shù)的一個下界,這樣就保證了生成模型的訓練是單調(diào)非減的,從而使模型易于訓練,這是模型訓練效率提高的另一個原因。同時,由于生成模型的訓練是單調(diào)非減的,可以改善模型收斂到局部最優(yōu)解的問題,可以更好地訓練模型,從而得到更好的收斂效果,更好地擬合真實的對話,這是改善對話生成質(zhì)量的主要原因。最后,由于在訓練的過程中提高了樣本的復雜性,因此提高了生成對話的多樣性,這是改善對話質(zhì)量的另一個原因。

    4 結(jié)束語

    本文提出了一種使用PPO算法訓練GAN來生成對話的方法。將GAN對抗訓練的過程看作一個強化學習的問題,使用PPO算法迭代訓練GAN的生成模型與判別模型。在訓練的過程中,通過PPO算法重復地利用了判別模型得到的獎勵,改善了模型收斂到局部最優(yōu)解的問題,以及提高了樣本的復雜度。

    目前,BERT模型[24]和XLNet模型[25]等相繼被提出,從改進Seq2Seq模型的角度來改善對話生成的質(zhì)量成為了熱門的研究點。然而本文從改進對話訓練方式的角度,利用GAN的結(jié)構(gòu),結(jié)合RL方向的研究進展,提出了基于PPO的對話生成算法PPO_GAN。實驗結(jié)果表明,在模型訓練的效率上,PPO_GAN算法得到了明顯的提高。在對話生成的質(zhì)量上,不僅降低了算法的困惑度和無聊對話產(chǎn)生的頻率,而且改善了對話之間的上下文相關(guān)性,并且得到的回復中包含了更多的信息量。

    在模型訓練上,PPO_GAN算法改善了GAN訓練時獎勵利用率低的問題,但是沒有提高計算獎勵的效率。在對話生成的質(zhì)量上,PPO_GAN算法生成的對話與人類的對話之間還存在差距。在接下來的工作中,將繼續(xù)研究在不影響?yīng)剟钫_性的情況下提高獎勵計算效率的方法,以及研究多頭自注意力機制對GAN中生成模型的影響。

    猜你喜歡
    單詞策略模型
    一半模型
    重要模型『一線三等角』
    重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
    例談未知角三角函數(shù)值的求解策略
    單詞連一連
    我說你做講策略
    看圖填單詞
    高中數(shù)學復習的具體策略
    看完這些單詞的翻譯,整個人都不好了
    3D打印中的模型分割與打包
    欧美黄色淫秽网站| 一进一出抽搐gif免费好疼| 久久欧美精品欧美久久欧美| 88av欧美| 桃红色精品国产亚洲av| 伦理电影免费视频| 夜夜看夜夜爽夜夜摸| av欧美777| 亚洲av第一区精品v没综合| 一进一出抽搐动态| 中文字幕久久专区| 12—13女人毛片做爰片一| 久久精品aⅴ一区二区三区四区| 黄片小视频在线播放| 亚洲欧美一区二区三区黑人| 精品一区二区三区四区五区乱码| 欧美最黄视频在线播放免费| 男人舔女人的私密视频| 免费高清视频大片| 大香蕉久久成人网| 亚洲欧美日韩高清在线视频| 一级a爱视频在线免费观看| 亚洲国产看品久久| 啪啪无遮挡十八禁网站| 国产久久久一区二区三区| 岛国在线观看网站| 欧美黑人精品巨大| 这个男人来自地球电影免费观看| 高清在线国产一区| 日韩中文字幕欧美一区二区| 他把我摸到了高潮在线观看| 国产精品久久久久久人妻精品电影| 很黄的视频免费| 我的亚洲天堂| www国产在线视频色| 男男h啪啪无遮挡| 国产午夜福利久久久久久| 免费av毛片视频| 欧美黑人巨大hd| 国产亚洲欧美精品永久| 又紧又爽又黄一区二区| 免费在线观看完整版高清| 中亚洲国语对白在线视频| 老司机福利观看| 女性被躁到高潮视频| 在线视频色国产色| 欧美在线一区亚洲| 91大片在线观看| 精品少妇一区二区三区视频日本电影| 国产在线观看jvid| 人成视频在线观看免费观看| www.熟女人妻精品国产| 久久精品91蜜桃| 精品乱码久久久久久99久播| 久久久国产成人免费| 怎么达到女性高潮| 嫩草影视91久久| 午夜福利免费观看在线| 亚洲成国产人片在线观看| 色综合婷婷激情| 中文亚洲av片在线观看爽| 欧洲精品卡2卡3卡4卡5卡区| aaaaa片日本免费| 夜夜夜夜夜久久久久| 50天的宝宝边吃奶边哭怎么回事| 久久国产精品人妻蜜桃| 欧美日本视频| 日本黄色视频三级网站网址| 亚洲 国产 在线| 亚洲自拍偷在线| 日韩欧美免费精品| 国产激情久久老熟女| 亚洲va日本ⅴa欧美va伊人久久| 亚洲精品中文字幕在线视频| 亚洲精品国产精品久久久不卡| 午夜福利在线观看吧| 在线播放国产精品三级| 欧美亚洲日本最大视频资源| 国产欧美日韩精品亚洲av| 国产真实乱freesex| 中文字幕久久专区| 国产野战对白在线观看| 免费观看人在逋| 99久久综合精品五月天人人| 婷婷亚洲欧美| 草草在线视频免费看| 久久天躁狠狠躁夜夜2o2o| 国产人伦9x9x在线观看| 熟女电影av网| 亚洲av日韩精品久久久久久密| 国产精华一区二区三区| 精品一区二区三区av网在线观看| 黄色成人免费大全| 啦啦啦 在线观看视频| 国产真实乱freesex| 精品高清国产在线一区| 久久久久亚洲av毛片大全| 亚洲av日韩精品久久久久久密| 精品久久久久久久末码| 欧美一级毛片孕妇| 一级毛片高清免费大全| 一边摸一边做爽爽视频免费| 在线观看免费视频日本深夜| 欧美日本亚洲视频在线播放| 欧美黑人欧美精品刺激| 免费女性裸体啪啪无遮挡网站| 在线观看午夜福利视频| 久久这里只有精品19| 可以免费在线观看a视频的电影网站| 亚洲欧洲精品一区二区精品久久久| 一级毛片精品| 一级a爱视频在线免费观看| 亚洲国产精品sss在线观看| 狠狠狠狠99中文字幕| 亚洲avbb在线观看| 国产99白浆流出| 天堂√8在线中文| 无人区码免费观看不卡| 欧美精品啪啪一区二区三区| 久久中文看片网| 制服诱惑二区| 色综合婷婷激情| 巨乳人妻的诱惑在线观看| 最近最新免费中文字幕在线| 久久 成人 亚洲| 国产精品影院久久| 搡老妇女老女人老熟妇| 亚洲天堂国产精品一区在线| ponron亚洲| 久久久精品欧美日韩精品| 性欧美人与动物交配| 色老头精品视频在线观看| 国产欧美日韩一区二区三| 国产亚洲av嫩草精品影院| 可以在线观看毛片的网站| 女人高潮潮喷娇喘18禁视频| 丝袜人妻中文字幕| 两个人看的免费小视频| 国产野战对白在线观看| 给我免费播放毛片高清在线观看| 黄色a级毛片大全视频| 久久精品人妻少妇| 人成视频在线观看免费观看| 免费一级毛片在线播放高清视频| 国产又爽黄色视频| 俺也久久电影网| 国产激情欧美一区二区| 国产在线观看jvid| 一级作爱视频免费观看| 在线十欧美十亚洲十日本专区| 亚洲第一av免费看| 亚洲色图 男人天堂 中文字幕| 日本一本二区三区精品| 村上凉子中文字幕在线| 午夜福利视频1000在线观看| 亚洲va日本ⅴa欧美va伊人久久| 天天躁狠狠躁夜夜躁狠狠躁| 给我免费播放毛片高清在线观看| av电影中文网址| 亚洲精品久久成人aⅴ小说| 青草久久国产| 亚洲自偷自拍图片 自拍| 国产免费av片在线观看野外av| 丝袜人妻中文字幕| 国产精品亚洲美女久久久| 久热这里只有精品99| 午夜精品在线福利| 亚洲一区中文字幕在线| x7x7x7水蜜桃| 成人国产综合亚洲| 欧美性猛交黑人性爽| 91麻豆av在线| 18禁观看日本| 久久精品成人免费网站| 亚洲专区字幕在线| 国产91精品成人一区二区三区| 一本久久中文字幕| 欧美乱色亚洲激情| 久久天堂一区二区三区四区| 中文字幕精品亚洲无线码一区 | 日韩中文字幕欧美一区二区| 99精品欧美一区二区三区四区| 日韩有码中文字幕| 亚洲av五月六月丁香网| av有码第一页| 国产精品永久免费网站| 国产男靠女视频免费网站| 最近最新免费中文字幕在线| 国产伦在线观看视频一区| 婷婷六月久久综合丁香| 国产成人一区二区三区免费视频网站| 亚洲最大成人中文| 亚洲av电影在线进入| 亚洲男人的天堂狠狠| 最新美女视频免费是黄的| 波多野结衣高清无吗| 啪啪无遮挡十八禁网站| 国产亚洲精品av在线| 久久婷婷人人爽人人干人人爱| 高清毛片免费观看视频网站| 欧美性长视频在线观看| 久久久国产精品麻豆| www.精华液| 999久久久国产精品视频| 狠狠狠狠99中文字幕| 男女那种视频在线观看| 男人舔女人下体高潮全视频| 日韩一卡2卡3卡4卡2021年| 免费无遮挡裸体视频| 亚洲精品美女久久久久99蜜臀| 亚洲人成电影免费在线| 国语自产精品视频在线第100页| 久久精品夜夜夜夜夜久久蜜豆 | 一本一本综合久久| 老熟妇乱子伦视频在线观看| 亚洲av日韩精品久久久久久密| 亚洲成国产人片在线观看| 亚洲熟女毛片儿| 露出奶头的视频| 欧美中文综合在线视频| 欧美av亚洲av综合av国产av| 在线观看免费午夜福利视频| 色婷婷久久久亚洲欧美| 日韩三级视频一区二区三区| 久久久久精品国产欧美久久久| 动漫黄色视频在线观看| 国产伦人伦偷精品视频| 高潮久久久久久久久久久不卡| 午夜视频精品福利| 一区二区三区精品91| 熟妇人妻久久中文字幕3abv| 露出奶头的视频| 久久午夜综合久久蜜桃| 亚洲国产毛片av蜜桃av| 久久久精品国产亚洲av高清涩受| 黑人巨大精品欧美一区二区mp4| 国产一区二区激情短视频| 老司机福利观看| 18禁观看日本| 制服诱惑二区| 亚洲av五月六月丁香网| 午夜亚洲福利在线播放| 黑人操中国人逼视频| 欧美激情 高清一区二区三区| 人人妻人人澡人人看| 成年版毛片免费区| 中文字幕另类日韩欧美亚洲嫩草| 国产激情欧美一区二区| 亚洲av美国av| 在线播放国产精品三级| 男人舔女人下体高潮全视频| 欧美中文日本在线观看视频| 久久精品人妻少妇| 麻豆国产av国片精品| 亚洲午夜精品一区,二区,三区| 亚洲男人天堂网一区| 久久久国产成人精品二区| 色哟哟哟哟哟哟| cao死你这个sao货| 欧美国产精品va在线观看不卡| 亚洲第一青青草原| 精品久久久久久成人av| 亚洲欧美日韩无卡精品| 国产视频内射| 日本免费一区二区三区高清不卡| 久久精品成人免费网站| 国语自产精品视频在线第100页| 亚洲熟妇熟女久久| 亚洲成a人片在线一区二区| av免费在线观看网站| 99在线人妻在线中文字幕| 日本 av在线| 视频在线观看一区二区三区| 国内精品久久久久精免费| 波多野结衣av一区二区av| 久久久久国内视频| 亚洲人成网站高清观看| 2021天堂中文幕一二区在线观 | 欧洲精品卡2卡3卡4卡5卡区| 久久国产精品影院| 91成年电影在线观看| 亚洲avbb在线观看| 少妇粗大呻吟视频| 亚洲aⅴ乱码一区二区在线播放 | 午夜免费鲁丝| 午夜福利18| 男人的好看免费观看在线视频 | 少妇 在线观看| 天堂√8在线中文| 人妻久久中文字幕网| 日韩欧美 国产精品| 琪琪午夜伦伦电影理论片6080| 精品一区二区三区四区五区乱码| 亚洲午夜精品一区,二区,三区| 久久精品国产清高在天天线| 国产真实乱freesex| 国产亚洲精品综合一区在线观看 | 丰满的人妻完整版| bbb黄色大片| 欧美精品亚洲一区二区| 亚洲久久久国产精品| 亚洲免费av在线视频| 婷婷亚洲欧美| 91麻豆精品激情在线观看国产| 禁无遮挡网站| 午夜激情av网站| 国产伦人伦偷精品视频| 国产精品亚洲美女久久久| 亚洲无线在线观看| 中文字幕久久专区| 欧美黑人欧美精品刺激| 亚洲在线自拍视频| 亚洲,欧美精品.| 亚洲第一电影网av| 日韩欧美一区视频在线观看| 欧美另类亚洲清纯唯美| 在线观看一区二区三区| 欧美日韩亚洲国产一区二区在线观看| av中文乱码字幕在线| 亚洲人成电影免费在线| 午夜福利高清视频| 久久午夜亚洲精品久久| 麻豆久久精品国产亚洲av| 丝袜人妻中文字幕| 午夜两性在线视频| 18禁裸乳无遮挡免费网站照片 | 久久久久久久久久黄片| 亚洲人成网站高清观看| 亚洲久久久国产精品| 性欧美人与动物交配| 亚洲精品在线观看二区| 桃色一区二区三区在线观看| 久久国产乱子伦精品免费另类| 一级作爱视频免费观看| 日本免费一区二区三区高清不卡| 禁无遮挡网站| 亚洲 欧美 日韩 在线 免费| 久久性视频一级片| 丝袜在线中文字幕| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美日韩黄片免| 国产成人影院久久av| 久久国产精品影院| 一区二区三区精品91| 一边摸一边做爽爽视频免费| 在线观看免费日韩欧美大片| 亚洲精品国产区一区二| 在线观看日韩欧美| 999久久久国产精品视频| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美亚洲日本最大视频资源| 久9热在线精品视频| 国产99白浆流出| 大香蕉久久成人网| 国产成人欧美| 日韩有码中文字幕| 婷婷精品国产亚洲av在线| 黄色片一级片一级黄色片| 国产高清视频在线播放一区| 在线观看日韩欧美| 天天躁夜夜躁狠狠躁躁| 中文字幕人妻熟女乱码| 日韩免费av在线播放| 两性夫妻黄色片| 亚洲中文字幕一区二区三区有码在线看 | 国产极品粉嫩免费观看在线| 国产亚洲av嫩草精品影院| 免费观看精品视频网站| 成人国产一区最新在线观看| 一进一出抽搐动态| 男女午夜视频在线观看| 婷婷丁香在线五月| 两个人免费观看高清视频| 久久伊人香网站| 久久亚洲精品不卡| 国产又黄又爽又无遮挡在线| 国产成年人精品一区二区| 亚洲人成网站高清观看| 国产一区二区在线av高清观看| 人人澡人人妻人| 国产精品免费一区二区三区在线| 正在播放国产对白刺激| 亚洲熟妇中文字幕五十中出| 一区二区三区国产精品乱码| 亚洲无线在线观看| 成人永久免费在线观看视频| av视频在线观看入口| 色老头精品视频在线观看| 男女视频在线观看网站免费 | ponron亚洲| 国产麻豆成人av免费视频| 此物有八面人人有两片| www国产在线视频色| 国产真人三级小视频在线观看| e午夜精品久久久久久久| 精品人妻1区二区| 亚洲免费av在线视频| 国产精品久久久av美女十八| 欧美另类亚洲清纯唯美| 国产精品免费一区二区三区在线| 最新美女视频免费是黄的| 国产精品二区激情视频| 国产99久久九九免费精品| 亚洲av日韩精品久久久久久密| 日日夜夜操网爽| 欧美日韩中文字幕国产精品一区二区三区| 精品久久久久久久人妻蜜臀av| 亚洲精品粉嫩美女一区| 国产亚洲精品综合一区在线观看 | 国产国语露脸激情在线看| 欧美+亚洲+日韩+国产| 午夜激情福利司机影院| 精品久久久久久,| 精品久久蜜臀av无| 他把我摸到了高潮在线观看| 免费观看精品视频网站| 亚洲性夜色夜夜综合| 成人永久免费在线观看视频| 欧美黑人巨大hd| 国产亚洲精品久久久久久毛片| 亚洲精华国产精华精| 亚洲五月色婷婷综合| 国产色视频综合| 亚洲专区中文字幕在线| 国产97色在线日韩免费| 亚洲片人在线观看| 欧美一级a爱片免费观看看 | 亚洲成人久久爱视频| 午夜福利在线在线| 亚洲欧美精品综合久久99| 国内揄拍国产精品人妻在线 | 国产av在哪里看| 两人在一起打扑克的视频| 97人妻精品一区二区三区麻豆 | 久久久久久人人人人人| 女警被强在线播放| 亚洲成人精品中文字幕电影| 欧美另类亚洲清纯唯美| 美女高潮喷水抽搐中文字幕| 一区二区三区国产精品乱码| 欧美激情高清一区二区三区| 777久久人妻少妇嫩草av网站| 午夜福利在线观看吧| 999久久久精品免费观看国产| 99久久无色码亚洲精品果冻| 777久久人妻少妇嫩草av网站| 欧美日韩乱码在线| 女同久久另类99精品国产91| 十八禁人妻一区二区| 亚洲va日本ⅴa欧美va伊人久久| 黄频高清免费视频| 国产精品98久久久久久宅男小说| 免费看十八禁软件| 亚洲全国av大片| 亚洲免费av在线视频| 一区福利在线观看| 亚洲欧美日韩高清在线视频| 欧美性猛交╳xxx乱大交人| 亚洲一区二区三区不卡视频| 久久天躁狠狠躁夜夜2o2o| 999精品在线视频| 中文字幕精品亚洲无线码一区 | 欧美日韩一级在线毛片| 女人高潮潮喷娇喘18禁视频| 久久伊人香网站| 亚洲av成人av| 女人爽到高潮嗷嗷叫在线视频| 欧美激情高清一区二区三区| 亚洲五月色婷婷综合| 国产熟女午夜一区二区三区| 无遮挡黄片免费观看| 黄色丝袜av网址大全| 国产av不卡久久| 一本综合久久免费| 又大又爽又粗| 亚洲av成人不卡在线观看播放网| 久久久久国产一级毛片高清牌| 久久精品夜夜夜夜夜久久蜜豆 | 久久精品国产综合久久久| а√天堂www在线а√下载| 国产精品亚洲一级av第二区| 18禁黄网站禁片午夜丰满| 亚洲第一av免费看| 91老司机精品| 极品教师在线免费播放| 亚洲五月色婷婷综合| 国产精品美女特级片免费视频播放器 | 亚洲国产中文字幕在线视频| 岛国视频午夜一区免费看| 亚洲午夜理论影院| 亚洲五月天丁香| 亚洲电影在线观看av| 国产成人一区二区三区免费视频网站| 免费看a级黄色片| 成人18禁在线播放| 久久香蕉国产精品| 丁香欧美五月| 久久久久精品国产欧美久久久| 中文字幕人妻丝袜一区二区| 国产熟女xx| 欧美黑人巨大hd| 老司机靠b影院| 最新在线观看一区二区三区| 18禁国产床啪视频网站| netflix在线观看网站| 母亲3免费完整高清在线观看| 国产亚洲精品久久久久久毛片| 香蕉国产在线看| av天堂在线播放| 国产亚洲欧美精品永久| 亚洲成人国产一区在线观看| 亚洲av成人一区二区三| 久久久久国内视频| 国产男靠女视频免费网站| 色尼玛亚洲综合影院| 黄色视频不卡| 女性被躁到高潮视频| 后天国语完整版免费观看| 国产三级在线视频| 久久热在线av| 制服丝袜大香蕉在线| 中文亚洲av片在线观看爽| 欧美色欧美亚洲另类二区| 国产欧美日韩一区二区三| 午夜日韩欧美国产| 大型av网站在线播放| 一区二区三区高清视频在线| 成人国语在线视频| 亚洲久久久国产精品| 亚洲自偷自拍图片 自拍| 青草久久国产| 国产在线观看jvid| 脱女人内裤的视频| 色播亚洲综合网| 18禁观看日本| 亚洲第一电影网av| 成在线人永久免费视频| 亚洲中文字幕日韩| www国产在线视频色| 天堂动漫精品| 成人国产综合亚洲| 国产成人av教育| 中文字幕人成人乱码亚洲影| 高潮久久久久久久久久久不卡| 91成年电影在线观看| 日本成人三级电影网站| 免费在线观看亚洲国产| 宅男免费午夜| 亚洲一区二区三区不卡视频| 香蕉国产在线看| 啦啦啦免费观看视频1| 国产精品电影一区二区三区| 免费人成视频x8x8入口观看| 精品电影一区二区在线| 国产成人啪精品午夜网站| 90打野战视频偷拍视频| 午夜两性在线视频| 可以免费在线观看a视频的电影网站| 精品国产美女av久久久久小说| 国产精品电影一区二区三区| 一级片免费观看大全| 天天躁夜夜躁狠狠躁躁| 正在播放国产对白刺激| 香蕉丝袜av| 国产午夜福利久久久久久| 精品欧美一区二区三区在线| 在线天堂中文资源库| 国语自产精品视频在线第100页| 麻豆国产av国片精品| 国内揄拍国产精品人妻在线 | 国产欧美日韩一区二区三| 久久久久免费精品人妻一区二区 | 一本精品99久久精品77| 亚洲精品美女久久久久99蜜臀| 国产精品二区激情视频| 久久久久国产一级毛片高清牌| 午夜免费成人在线视频| 国产亚洲欧美98| 国产又色又爽无遮挡免费看| 精品第一国产精品| 亚洲中文av在线| 又黄又粗又硬又大视频| 99国产精品一区二区蜜桃av| 午夜激情av网站| 男人的好看免费观看在线视频 | 欧美亚洲日本最大视频资源| 亚洲av电影不卡..在线观看| videosex国产| 久久精品91蜜桃| 成人亚洲精品av一区二区| 视频区欧美日本亚洲| 白带黄色成豆腐渣| 久久久久九九精品影院| 亚洲专区中文字幕在线| 老司机午夜十八禁免费视频| 99国产极品粉嫩在线观看| 女人被狂操c到高潮| 亚洲国产精品999在线| 成人国语在线视频| 中文字幕人成人乱码亚洲影| 成人一区二区视频在线观看| 欧美日韩亚洲综合一区二区三区_| 一本大道久久a久久精品| 性色av乱码一区二区三区2| www日本在线高清视频| 色播亚洲综合网| 精品福利观看| 午夜免费激情av| 成人特级黄色片久久久久久久| 在线观看免费日韩欧美大片| 欧美日韩黄片免| 亚洲一卡2卡3卡4卡5卡精品中文| 一区二区三区高清视频在线| 国产97色在线日韩免费| 国产主播在线观看一区二区|