• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于DQN的開放域多輪對話策略學習

    2018-08-17 08:39:06宋皓宇張偉男
    中文信息學報 2018年7期
    關(guān)鍵詞:單輪編碼器神經(jīng)網(wǎng)絡(luò)

    宋皓宇,張偉男,劉 挺

    (哈爾濱工業(yè)大學 社會計算與信息檢索研究中心,黑龍江 哈爾濱 150001)

    0 引言

    隨著社會媒體的發(fā)展,微博和Twitter等社交媒體上積累了大量的短文本,這些短文本可以近似作為對話語料來訓練基于深度神經(jīng)網(wǎng)絡(luò)的對話生成模型[1]?;谏疃壬窠?jīng)網(wǎng)絡(luò)的對話生成模型能夠有效對輸入產(chǎn)生回復,展現(xiàn)出巨大的研究潛力[2-4]。這些模型中得到廣泛應用的是seq2seq模型。seq2seq模型基于編碼器—解碼器結(jié)構(gòu),應用于對話生成任務(wù)時,輸入通過編碼器編碼為一個特征向量,再由解碼器根據(jù)特征向量解碼得到回復。這一模型基于最大似然估計(maximum likelihood estimate,MLE)最大化回復的生成概率[5]。Shang L等將該模型應用于單輪對話生成,取得了很好的效果[6]。

    實際的對話過程在大多數(shù)情況下都是多輪交互的過程,而非一問一答的單輪對話。seq2seq模型基于MLE的生成方式難以有效建模多輪對話的過程[7]。現(xiàn)有的關(guān)于多輪對話相關(guān)工作大多數(shù)基于填槽(slot filling)的方式進行[8-10],這類工作的目標是完成特定任務(wù);而在開放域多輪對話最近的研究工作中,端到端的方式逐漸成為主流: 基于大量的多輪對話訓練數(shù)據(jù),通過考慮最近的對話歷史信息,使得生成的回復能夠照應上文信息[11-13]。

    盡管相關(guān)工作強調(diào)了歷史對話信息,但是考慮對話歷史而得到的回復并不一定有利于對話過程的持續(xù)進行。此外,對話生成任務(wù)中以seq2seq模型為代表的端到端生成方式基于MLE,每次得到的回復都是生成概率最大的句子。這就導致了那些經(jīng)常出現(xiàn)但是沒有實際意義的萬能回復,比如中文里的“哈哈哈哈”以及英文里的“I don’t know”,非常容易被選中[2-3,14]。一旦出現(xiàn)輸入與回復相同的情況,那么模擬的多輪對話就會陷入死循環(huán);有很高生成概率的萬能回復則很可能把模擬的多輪對話帶入這樣的死循環(huán)中。表1展示了這樣兩類問題。

    表1 中文微博數(shù)據(jù)集上不同方法的多輪模擬對話結(jié)果對比

    開放域多輪對話的一個重要目標就是盡可能聊得更久。開放域多輪對話中每一輪回復的選擇,不僅需要考慮是否能夠有效回復當前輸入,更需要考慮是否有利于對話過程的持續(xù)進行。更好地建模多輪對話過程,引導現(xiàn)有的seq2seq模型有效進行多輪多話,需要從多輪對話過程的整體角度引入一種對話策略。

    本文借助強化學習算法的全局視角,在開放域的多輪對話過程中引入了深度強化學習方法DQN[15]來進行對話策略學習,通過這個對話策略指導多輪對話過程中每一輪的回復選擇。與MLE方式不同,強化學習的總體目標是最大化未來的累積獎勵[16]。DQN方法估計的是每一個回復句子能夠為給定的輸入帶來多少的未來獎勵,對話的策略就是選擇能夠帶來最大未來獎勵的那個句子。如前所述,生成概率較低的句子并不意味著句子的質(zhì)量差,很有可能只是因為這些句子出現(xiàn)頻率沒有萬能回復那么高,相反,這些句子可能引入新的信息并更加有利于多輪對話的持續(xù)進行。因此,通過DQN方法進行對話策略學習能夠有效挖掘seq2seq模型進行多輪對話的潛力。如表1所示,基于同樣的輸入,右側(cè)根據(jù)DQN方法得到的對話策略進行的多輪對話質(zhì)量明顯更高。

    本文的創(chuàng)新之處在于,將DQN應用于對話策略的學習過程中,使用獨立的深度神經(jīng)網(wǎng)絡(luò)對每一句候選回復的未來收益進行評估,從而得到一個有利于多輪對話持續(xù)進行的對話策略。通過強化學習方法,DQN得到的深度神經(jīng)網(wǎng)絡(luò)就代表了多輪對話的策略,使得對話策略的學習獨立于回復生成模型本身,在已有的回復生成模型不做任何改變的前提下,就能夠通過DQN得到對話策略。實驗結(jié)果表明,通過DQN方法得到的多輪對話策略有效提高了多輪對話的多樣性、平均輪數(shù)和對話質(zhì)量。

    得到一個更好的多輪對話策略對于人機對話系統(tǒng)有著很多積極的意義。首先,人機對話系統(tǒng)的一種常見的訓練方式就是通過用戶模擬器(user simulator)來不斷的進行模擬對話,生成式的用戶模擬器需要能夠有效地模擬多輪對話,因此更好的多輪對話策略能夠優(yōu)化用戶模擬器的回復效果,有利于訓練出質(zhì)量更高的對話模型。其次,在開放域?qū)υ捪到y(tǒng)中引入多輪對話策略能夠有效提高回復整體上的多樣性,使得回復內(nèi)容更加豐富,并且能夠引入更多的信息,將其應用到開放域的閑聊機器人中,對于提升用戶的使用體驗也有著積極作用。

    1 相關(guān)工作

    隨著Sutskever等[5]提出序列到序列的學習方法,seq2seq模型在最近幾年開始廣泛應用于對話生成研究領(lǐng)域[2,4,6]。深度強化學習是利用深度神經(jīng)網(wǎng)絡(luò)對強化學習方法做出的改進。Mnih等[15]首先使用深度強化學習算法DQN在Atari游戲上取得突破性成功,其核心思想在于引入了經(jīng)驗回放(experience replay)機制。隨后,Hasselt等[17],Schaul等[18],Wang等[19]分別從不同的角度對DQN算法進行了改進。

    與此同時,在對話系統(tǒng)的相關(guān)任務(wù)中引入深度強化學習方法也獲得了越來越多研究者的關(guān)注。Guo H將DQN算法應用到了seq2seq模型每個詞語的解碼過程中,從詞語解碼的級別上對模型做出了改進[20]。Li等[7]使用了深度強化學習的策略梯度(policy gradient)算法,在seq2seq的訓練過程中利用深度強化學習算法提供的梯度改變模型原有的訓練進程,從而達到優(yōu)化模型的目的。Su等[10]結(jié)合強化學習和在線學習(online learning)的方式,通過與用戶的實時交互,提高了任務(wù)型系統(tǒng)對話的性能。

    開放域多輪對話方面,Lowe等[11]利用ubuntu數(shù)據(jù)集進行了多輪對話的嘗試,雖然利用了多輪對話數(shù)據(jù)集的優(yōu)勢,但是沒有建模多輪對話的上下文信息。Pascual等[12]考慮到了歷史對話信息對于生成當前回復的影響,提出了一種能夠感知歷史信息的神經(jīng)網(wǎng)絡(luò)回復生成方法。Serban等[13]在電影臺詞數(shù)據(jù)集上進行實驗,同樣考慮了上文對于當前回復生成的影響。開放域多輪對話系統(tǒng)的一個重要目標就是盡可能地使對話過程持續(xù)下去,然而這些工作都沒有從如何回復才更有利于對話過程繼續(xù)的角度考慮問題。Li等[7]針對這一問題,利用深度強化學習策略梯度的方法建模了多輪對話過程,改進了seq2seq模型的訓練過程。

    在深度神經(jīng)網(wǎng)絡(luò)的相關(guān)優(yōu)化方面,Graves等[21]在神經(jīng)網(wǎng)絡(luò)解碼過程中使用了束搜索(beam search)方法,用于平衡解碼過程中的搜索質(zhì)量與搜索開銷;Bahdanau等[22]提出了注意力模型,在深度神經(jīng)網(wǎng)絡(luò)中引入了一種動態(tài)賦權(quán)的機制;Srivastava等[23]提出了dropout機制,用于防止深度神經(jīng)網(wǎng)絡(luò)訓練時的過擬合。

    與本文比較接近的工作是Li等[7],本文關(guān)于多輪對話過程的強化學習建模方式以及實驗結(jié)果評價指標也參考自這篇論文。雖然都是使用深度強化學習方法,但是本文與Li等[7]的區(qū)別也是顯著的: 首先,本文的目標是學習多輪對話的策略,而文獻[7]的目標是進行對話生成。本文工作的核心是進行多輪對話的策略學習,使用的強化學習方法DQN沒有涉及回復生成模型的訓練過程,而是從已經(jīng)訓練好的回復生成模型中選擇出最有利于多輪對話的回復;而文獻[7]使用的是策略梯度方法,是在seq2seq模型的基礎(chǔ)上改變回傳前的梯度計算方式,從而引導回復生成模型的訓練方向。其次,基于Q-learning的強化學習算法DQN和基于策略梯度的強化學習算法在原理和應用方式上完全不同,細節(jié)此處不再贅述。此外,本文使用了獨立的深度神經(jīng)網(wǎng)絡(luò)來對回復的收益進行估計,最終學習得到的深度神經(jīng)網(wǎng)絡(luò)就代表了多輪對話的策略。

    本文實驗的總體結(jié)構(gòu)如圖1所示,從圖中可以看出,DQN的學習過程是獨立于對話生成模型的,因此通過DQN進行對話策略的學習并不會改變基礎(chǔ)的回復生成模型;也正是因為本文使用了獨立的深度網(wǎng)絡(luò),所以對話策略的學習過程并不依賴于回復生成模型的梯度,即使應用場景改變,回復生成模型自身無法提供梯度,也不會影響本文對話策略學習方法的使用。

    圖1 本文實驗的整體結(jié)構(gòu)

    2 DQN用于對話策略學習

    DQN作為一種深度強化學習算法,基本結(jié)構(gòu)仍然是“環(huán)境—代理”(environment-agent)框架: 代理根據(jù)當前狀態(tài)s選擇一個動作a作用于環(huán)境,然后環(huán)境的狀態(tài)s發(fā)生改變并返回相應的獎勵r,代理的目標是最大化未來能夠獲得的所有獎勵之和,由此調(diào)整動作并構(gòu)成一個循環(huán)過程。關(guān)于強化學習模型的更多細節(jié)請參考文獻[16]。

    本文的目標是得到一個有利于多輪對話持續(xù)進行的對話策略。這個總體目標分解到每一輪的對話中可以等價為每一輪都選擇出能夠為整個對話過程帶來最大收益的句子。參考文獻[7],這里衡量回復帶來的收益可以從是否產(chǎn)生萬能回復、是否引入新的信息、是否與歷史信息一致等方面來衡量?;谶@些設(shè)定,就可以將對話策略的學習過程建模為典型的強化學習過程。

    DQN方法的核心在于一個深度價值網(wǎng)絡(luò)Q,網(wǎng)絡(luò)Q按照相應的算法迭代更新,目標是估計每個狀態(tài)s下選擇動作a的價值q(s,a)。這個價值q代表了當前狀態(tài)s下選擇動作a能夠帶來的未來折扣獎勵之和。更多細節(jié)和原理請參考強化學習有關(guān)Q-learning的部分。

    在多輪對話過程中,把當前的輸入語句記為x,輸入x通過回復生成模型以及束搜索得到了若干候選回復y0,y1,...,yn?;谧匀徽Z言的句子是變長和離散的,無法作為狀態(tài)s參與到網(wǎng)絡(luò)Q的計算中,因此通過一個自編碼器(autoencoder)將輸入映射為固定維度的特征向量c,使用這個特征向量表達當前狀態(tài)s。同樣,得到的回復也是句子,無法直接參與計算。但是回復與輸入不同的地方在于,一旦回復生成模型和輸入給定,那么這些候選項及其順序也是確定的: 本文中候選項的順序是按照生成概率從高到低的順序排列的。因此,表示回復并不需要對候選回復進行編碼,只需要保留相應的序號即可。那么,一個候選回復yi就有一個與之對應的動作ai,這個動作表示了這一輪選擇yi作為對輸入x的回復。每一輪的對話中,通過深度價值網(wǎng)絡(luò)Q對候選回復yi進行評估,得到q(si,aj)。對話的策略就是選擇q值最大的動作所對應的回復。

    2.1 基礎(chǔ)的回復生成模型

    本文參考文獻[5]中的seq2seq模型,訓練了對話生成模型。在訓練過程中加入了Bahdanau提出的注意力機制和Srivastava提出的dropout機制。

    seq2seq的解碼過程使用了束搜索的方法。束搜索在每一步中按照啟發(fā)式規(guī)則保留最優(yōu)的若干候選項,其他較差的結(jié)點則被剪掉。在對話系統(tǒng)中,由于對話過程的靈活性和多樣性,回復生成的搜索過程并沒有一個確定的“最優(yōu)解”。因此,在回復生成的解碼過程中應用束搜索方法,對于得到更加多樣的回復是有幫助的。

    2.2 多輪對話模擬

    所謂模擬對話,就是基于回復生成模型,通過兩個代理的彼此對話來模擬多輪交互的過程。兩個代理進行模擬對話的過程如下: 一開始,從測試集中隨機找到一句話輸入給第一個代理,這個代理通過編碼器網(wǎng)絡(luò)把這個輸入編碼成一個隱層向量,然后通過解碼器來生成回復。之后,第二個代理把前一個代理輸出的回復同對話歷史拼接,重新通過編碼器網(wǎng)絡(luò)編碼得到一個隱層向量,更新對話的狀態(tài),然后通過解碼器網(wǎng)絡(luò)生成回復,并回傳給第一個代理。這個過程不斷地重復,直到達到最大的模擬對話輪數(shù)。具體過程如圖2所示。

    圖2 模擬多輪對話過程

    2.3 自編碼器

    自編碼器(autoencoder)是一類無監(jiān)督的神經(jīng)網(wǎng)絡(luò)學習方法,其最大的特點是輸入值和目標值相等。自編碼器的目標是學習一種類似恒等映射的函數(shù),如式(1)所示。

    φw,b(x)≈x

    (1)

    即輸入數(shù)據(jù)到本身的一種映射函數(shù)。當自編碼器學習得到這樣一種恒等映射或者近似恒等映射的關(guān)系時,神經(jīng)網(wǎng)絡(luò)的隱層實際上就包含了數(shù)據(jù)的一種編碼信息。

    自編碼器通常由編碼器和解碼器兩部分組成。形式化地,編碼器和解碼器的作用可以定義為兩個函數(shù)φ和ψ,那么:

    則自編碼器的學習目標如式(4)所示。

    φ,ψ=argminφ,ψ‖X-ψ(φ(X))‖2

    (4)

    其中,式(2)和式(3)中的θ就是自編碼器得到的數(shù)據(jù)特征表示。

    用于對話表示學習的自編碼器需要處理變長的句子,并且由于句子數(shù)量巨大,所以需要學習的映射關(guān)系φ和ψ都會非常復雜,因此本文用到的自編碼器的編碼器和解碼器都由循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)成。由于自編碼器的學習過程是無監(jiān)督的,所以自編碼器在任意語料上都能夠?qū)W習得到該語料中句子的特征表示。

    自編碼器的輸入是已經(jīng)分詞的句子,每個詞由其詞向量表示,由循環(huán)神經(jīng)網(wǎng)絡(luò)依次讀入;輸入句子經(jīng)過編碼器的編碼,得到一個中間表示c,這個表示再送入解碼器中,解碼出預測值;網(wǎng)絡(luò)學習的目標由式(4)定義,網(wǎng)絡(luò)的目標值是和輸入句子完全相同的句子,目標值和預測值之間的誤差就是網(wǎng)絡(luò)參數(shù)調(diào)整的依據(jù)。

    句子的自編碼器雖然只能做到近似復原輸入,但是這并不影響中間特征在強化學習模型中的使用。因為這些特征向量只需要按照同樣的規(guī)則得到,處于同一個向量空間就可以滿足需要。

    2.4 DQN模型訓練

    先定義獎勵函數(shù)。獎勵函數(shù)的作用是引導對話向輪數(shù)更多、信息更豐富、萬能回復更少的方向進行。首先定義一個表示,如式(5)所示。

    (5)

    式(5)表達的含義是對于句子s2,在給定的seq2seq模型下生成句子s1的對數(shù)概率,并且該對數(shù)概率受到s1中詞數(shù)的Ns1的約束。參考文獻[7],根據(jù)多輪對話的總體目標共定義三個獎勵函數(shù):

    對于定義的萬能回復的集合S,懲罰動作a可能導致生成的萬能回復,如式(6)所示。

    (6)

    對于連續(xù)的兩個對話狀態(tài)hi和hi+1,懲罰對話狀態(tài)過于接近,獎勵對話狀態(tài)存在較大差別以引入新的信息,如式(7)所示。

    r2=-cos(hi,hi+1)

    (7)

    對于連續(xù)的多輪對話pi、qi和a,獎勵使得對話前后連貫的動作a,懲罰使對話不連貫的動作a,如式(8)所示。

    r3=logprob(a|pi,qi)+logprob(qi|a)

    (8)

    最終的獎勵值式(9)所示。

    r=0.45r1+0.2r2+0.35r3

    (9)

    三個系數(shù)在實驗過程中調(diào)整得到。

    DQN中深度神經(jīng)網(wǎng)絡(luò)的參數(shù)更新通過對式(10)進行隨機梯度下降來完成。其中sj表示狀態(tài),aj表示動作,Q表示通過以θ為參數(shù)的深度價值網(wǎng)絡(luò)對狀態(tài)—動作對進行估值,如式(10)所示。

    Loss=(yj-Q(sj,aj;θ))2

    (10)

    其中,價值的估計通過式(11)來完成,公式中的rj表示獎勵:

    (11)

    本文DQN算法參考文獻[15]的算法實現(xiàn),更多實現(xiàn)細節(jié)請參考原文。

    3 實驗

    3.1 訓練數(shù)據(jù)及其表示

    本文的實驗在中文微博語料上進行。該語料來源于新浪微博,每一對對話數(shù)據(jù)分別來自微博的正文和這條微博下面的評論,這樣一組博文—評論對就近似構(gòu)成了一組對話對。該數(shù)據(jù)集總共有約110萬組這樣的對話對,語言質(zhì)量較高,同時該語料也是文獻[6]所使用的數(shù)據(jù)集。本文通過word embedding的方式將每一個詞語都轉(zhuǎn)化為一個固定維度的向量,實驗中取300維,并通過所有詞語的向量共同表示原始的句子。使用的訓練詞向量的工具包是Google開源的Word2Vec,具有配置簡單、訓練高效等優(yōu)點。

    3.2 評價指標

    對于多輪對話的實驗結(jié)果,本文參考Li等[7]的方法,使用以下兩個客觀指標進行評價。

    (1) 平均對話輪數(shù)。對話輪數(shù)是指從輸入到對話結(jié)束總共持續(xù)的對話輪數(shù)。當對話過程出現(xiàn)了類似“哈哈哈”這類的事先定義的萬能回復或者對話進入一個死循環(huán)當中,那么就認為對話過程已經(jīng)結(jié)束。

    (2) 多樣性。多樣性通過統(tǒng)計模擬對話過程中出現(xiàn)的不重復的一元文法(unigram)和二元文法(bigram)所占的比例來衡量。unigram和bigram是語言模型中的概念,這一指標能夠表征總體生成結(jié)果的語言豐富程度。因為多輪對話并不存在一個標準答案,所以BLEU等傳統(tǒng)方法不適用于該任務(wù)的評價。同時,進行主觀評價是對話系統(tǒng)中常用的方式。本文還進行了主觀的對比評價: 給定相同的輸入,本文的DQN模型和基礎(chǔ)模型獨立進行單輪回復生成以及進行模擬對話,然后由與實驗無關(guān)的評價者主觀對比二者的質(zhì)量,結(jié)果分為DQN更好、DQN更差和平局三種情況。評價者不知道結(jié)果所對應的方法,只是給出二者對比的一種主觀評價。對于單輪對話,總共收到400組的對比打分;對于多輪對話,總共收到600組對比打分。

    3.3 回復生成及對話模擬

    中文微博語料的單輪回復生成結(jié)果如表2所示。左側(cè)是從測試集中隨機抽取的輸入,右側(cè)是對應于輸入產(chǎn)生的回復,每一行組成一個輸入—回復對。

    表2 單輪回復生成結(jié)果

    可以看到,就單輪回復的效果而言,seq2seq模型能生成質(zhì)量較高的回復語句。

    中文模擬對話結(jié)果如表3所示。表中的一列為一組模擬對話的結(jié)果,第一句輸入從測試集隨機抽取,其余句子都根據(jù)上一句話生成得到。

    表3 中文模擬對話的結(jié)果

    可以看到,seq2seq模型和預期的結(jié)果一樣,無法有效進行多輪對話。模擬對話很快就陷入了死循環(huán)中,并且容易產(chǎn)生萬能回復。

    從測試集句子中隨機抽取5 000條進行模擬對話,客觀指標評價結(jié)果如表4所示??梢钥闯?,平均對話輪數(shù)比較短,說明基礎(chǔ)的seq2seq模型難以有效進行多輪對話。

    表4 seq2seq模型模擬對話結(jié)果評價

    3.4 自編碼器

    就自編碼器而言,訓練的目標是輸出與輸入一致,或者輸出盡量接近輸入。我們從測試數(shù)據(jù)中隨機抽取2 000條句子送入自編碼器得到輸出,然后通過計算輸出對于輸入的F值的方式來衡量句子映射到自身的效果。評價時逐句計算輸出對于輸入的召回詞數(shù)以及輸入和輸出各自的詞數(shù),所有句子累加到一起得到總的召回值、預測值和標準答案詞數(shù)。實驗結(jié)果如表5所示。本文實驗中的自編碼器最終的F值為0.872,在很大程度上已經(jīng)能夠?qū)⑤斎刖渥佑成錇榫渥颖旧?;此外,自編碼器從輸入得到輸出的映射關(guān)系并不會被使用,本文用到的是從編碼器傳遞到解碼器的中間特征向量,這個向量實際上是對于輸入信息的編碼。因此即使F值無法達到理想情況下的1.0,也不會影響中間特征向量作為一種編碼被使用。

    表5 自編碼器的F值

    3.5 基于DQN的對話策略模型

    本文使用DQN模型在測試集上隨機抽取了5 000條句子進行模擬對話。相應的客觀評價結(jié)果與基礎(chǔ)的seq2seq模型對比如表6所示。

    表6 DQN和基礎(chǔ)模型客觀評價指標對比

    可以看到,客觀指標上DQN模型顯著優(yōu)于基礎(chǔ)模型,平均對話輪數(shù)更是增加了二輪。分析其原因,基礎(chǔ)模型對話容易進入死循環(huán),并且傾向于生成經(jīng)常出現(xiàn)的回復,而DQN模型通過獎勵函數(shù)的設(shè)置在一定程度上緩解了這些問題,所以DQN模型在對話輪數(shù)以及多樣性上的表現(xiàn)都要明顯比基礎(chǔ)模型好。

    主觀評價的結(jié)果如表7所示。主觀評價指標方面,單輪回復的質(zhì)量總體來說不相上下,DQN略占優(yōu)勢,平局的情況占了接近20%;多輪對話上DQN模型的優(yōu)勢明顯,平局的比例也下降到了不到10%??梢钥闯?,因為單輪對話基于相同的回復生成模型,所以總體上單輪回復質(zhì)量比較接近;而在多輪對話上,DQN模型則明顯優(yōu)于基礎(chǔ)模型。

    表7 DQN和基礎(chǔ)模型對話質(zhì)量人工對比評價/%

    部分單輪對話和多輪對話的效果對比如表8、表9所示。

    續(xù)表

    表8 DQN和基礎(chǔ)模型單輪對話對比

    表9 DQN和基礎(chǔ)模型多輪對話對比

    基礎(chǔ)模型在解碼過程中基于MLE,最終選擇的總是束搜索結(jié)果中生成概率最大那個句子。但是生成概率高并不意味著最有利于對話過程,如圖2所示,候選句子按照生成概率降序排列,因此基于MLE的選擇方式總是會選擇第一個候選句子。從圖中可以看到,生成概率較低的 “我覺得哈林唱得更好”作為回復明顯效果更好;但是因為其生成概率不如類似“哈哈哈”這種經(jīng)常出現(xiàn)的“萬能回復”的生成概率高,所以導致這個更優(yōu)的結(jié)果被MLE忽略。同時也可以看到,在多輪對話過程中,第一輪選擇的不同直接導致了后續(xù)回復生成的不同,從而進一步拉大多輪對話質(zhì)量的差距。

    與MLE的方式不同,本文的DQN模型每次選擇的是價值最大的動作,這一動作最有利于對話的持續(xù)進行,并能夠帶來更加豐富的信息。如果生成概率較低的候選回復在深度價值網(wǎng)絡(luò)中具有最大的價值,那么這個回復也會被選中,因此DQN模型更容易選擇出有利于對話過程持續(xù)進行的回復。

    記錄DQN和MLE每次選擇的動作,畫出表1中多輪對話2的動作選擇,如圖3所示,能夠更加直觀地說明DQN相較于MLE如何選擇潛在的更優(yōu)句子。動作1是選擇生成概率最高的句子,動作10是選擇生成概率最低的句子。值得注意的是,在第一輪中兩種方式選擇了不同的動作,那么在后續(xù)幾輪中,兩種方式各自進入了不同的狀態(tài),所以同一個動作也會對應不同的回復。

    從圖3可以明顯地看到,MLE每次選擇的動作都是1,因為這是生成概率最大的句子,所有動作構(gòu)成的路徑是一條直線;而DQN方法選擇動作構(gòu)成的路徑則更加“曲折”,每次選擇的是通過深度價值網(wǎng)絡(luò)估計得到的當前狀態(tài)下價值最大的動作,這個價值的最大則結(jié)合了獎勵函數(shù)的定義,使得這個動作有利于對話過程朝著輪數(shù)更多、包含的信息更豐富、更少的生成萬能回復的方向進行。圖4給出了隨機采樣的六組動作選擇路徑的對比。

    圖3 多輪對話過程中的動作選擇對比(表1多輪對話2)

    圖4 隨機采樣的六組動作選擇對比

    4 結(jié)論及后續(xù)工作

    本文的主要研究內(nèi)容針對開放的域多輪對話,關(guān)注之前工作中存在的沒有建模整個對話過程、多輪對話中容易產(chǎn)生大量萬能回復、很快陷入死循環(huán)等問題,引入了DQN方法進行對話策略學習。通過DQN對每一輪的候選回復的未來價值進行評估,選擇出了最有利于對話持續(xù)進行的句子作為回復,減少了萬能回復的產(chǎn)生,并增加了平均對話輪數(shù)。

    實驗結(jié)果表明,在單輪回復質(zhì)量幾乎持平的前提下,本文使用DQN方法得到的多輪對話策略能夠優(yōu)化多輪對話的質(zhì)量,最終各個評價指標上都明顯優(yōu)于基礎(chǔ)方法: 平均對話輪數(shù)提高了二輪,主觀評價獲勝比例高出了接近45%。

    本文的后續(xù)工作將著眼于將DQN用于seq2seq模型的訓練過程,使用深度價值網(wǎng)絡(luò)來估計訓練過程中的損失,使得訓練損失帶有更多的信息,從更細粒度上提高生成句子的質(zhì)量。此外,如何更加全面地評價對話結(jié)果也是一個值得研究的問題。

    猜你喜歡
    單輪編碼器神經(jīng)網(wǎng)絡(luò)
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    基于PLC的腳輪軸承自動裝配機及控制系統(tǒng)設(shè)計
    軸承(2019年6期)2019-07-22 01:58:14
    單輪裝置
    設(shè)計(2018年4期)2018-11-08 09:13:02
    基于FPGA的同步機軸角編碼器
    基于PRBS檢測的8B/IOB編碼器設(shè)計
    道路使用條件對路面結(jié)構(gòu)力學響應的影響
    公路與汽運(2016年6期)2016-12-12 13:45:52
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
    重型機械(2016年1期)2016-03-01 03:42:04
    JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
    電子器件(2015年5期)2015-12-29 08:42:24
    復數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應用
    基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
    激情视频va一区二区三区| 在线永久观看黄色视频| 日韩视频一区二区在线观看| 99香蕉大伊视频| 成人18禁高潮啪啪吃奶动态图| 女人爽到高潮嗷嗷叫在线视频| 999精品在线视频| 一a级毛片在线观看| 国产有黄有色有爽视频| 十分钟在线观看高清视频www| 亚洲精品av麻豆狂野| 国产亚洲精品久久久久久毛片 | 777米奇影视久久| 黑人操中国人逼视频| 国产高清视频在线播放一区| 精品人妻熟女毛片av久久网站| 最新的欧美精品一区二区| 亚洲精品国产一区二区精华液| 一本大道久久a久久精品| 亚洲精品在线观看二区| 国产精品.久久久| 最新的欧美精品一区二区| 国内久久婷婷六月综合欲色啪| 欧美日韩瑟瑟在线播放| 欧美黑人精品巨大| 久久天躁狠狠躁夜夜2o2o| 老司机午夜福利在线观看视频| 亚洲中文日韩欧美视频| 十八禁高潮呻吟视频| 亚洲av日韩精品久久久久久密| 中文字幕人妻熟女乱码| 日日爽夜夜爽网站| 免费看a级黄色片| tocl精华| 黄片大片在线免费观看| 99热只有精品国产| 丰满迷人的少妇在线观看| 丁香六月欧美| 99精品在免费线老司机午夜| 欧美精品av麻豆av| 欧美精品av麻豆av| 亚洲欧美日韩高清在线视频| 久久人人爽av亚洲精品天堂| 99国产精品99久久久久| 色婷婷久久久亚洲欧美| 亚洲欧美色中文字幕在线| 亚洲九九香蕉| 成熟少妇高潮喷水视频| 曰老女人黄片| 在线观看免费视频网站a站| 狠狠婷婷综合久久久久久88av| 久久这里只有精品19| 丝袜美足系列| 极品少妇高潮喷水抽搐| 亚洲av熟女| 老司机福利观看| 成人永久免费在线观看视频| av欧美777| 啪啪无遮挡十八禁网站| 亚洲在线自拍视频| www.自偷自拍.com| 久久人妻熟女aⅴ| 亚洲精品乱久久久久久| 国产精品一区二区精品视频观看| 国产免费av片在线观看野外av| av网站免费在线观看视频| 欧美另类亚洲清纯唯美| 国产亚洲精品久久久久久毛片 | 国产精品欧美亚洲77777| 9热在线视频观看99| 国产xxxxx性猛交| 欧美激情极品国产一区二区三区| 午夜免费观看网址| 在线观看免费高清a一片| 一区二区三区精品91| 亚洲色图 男人天堂 中文字幕| 亚洲成a人片在线一区二区| 亚洲精品乱久久久久久| 国产高清国产精品国产三级| 脱女人内裤的视频| 亚洲情色 制服丝袜| 色老头精品视频在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 男女免费视频国产| 欧美久久黑人一区二区| 天天躁夜夜躁狠狠躁躁| 成人亚洲精品一区在线观看| 成人国语在线视频| 99国产精品一区二区三区| 久久狼人影院| 久久久久国内视频| 国产精品秋霞免费鲁丝片| 久久精品亚洲av国产电影网| 露出奶头的视频| 一个人免费在线观看的高清视频| 一级,二级,三级黄色视频| 美女 人体艺术 gogo| 夜夜躁狠狠躁天天躁| 变态另类成人亚洲欧美熟女 | 成人国语在线视频| 黄色a级毛片大全视频| 老司机在亚洲福利影院| 国产精品影院久久| 亚洲视频免费观看视频| 国产午夜精品久久久久久| 中文字幕人妻丝袜制服| 亚洲精华国产精华精| 操出白浆在线播放| 国产精品久久电影中文字幕 | 纯流量卡能插随身wifi吗| 美女高潮喷水抽搐中文字幕| 精品国产一区二区久久| 老司机在亚洲福利影院| 亚洲熟妇熟女久久| av网站在线播放免费| 精品福利观看| 日韩熟女老妇一区二区性免费视频| 精品一区二区三区四区五区乱码| 美女国产高潮福利片在线看| 亚洲av成人av| 91麻豆av在线| 精品少妇一区二区三区视频日本电影| 国产三级黄色录像| 国产97色在线日韩免费| 亚洲精品一卡2卡三卡4卡5卡| 亚洲成人国产一区在线观看| 精品无人区乱码1区二区| 亚洲一区二区三区不卡视频| 国产精品国产av在线观看| 在线观看免费日韩欧美大片| 午夜91福利影院| 国产又爽黄色视频| 久久香蕉激情| 搡老熟女国产l中国老女人| 在线观看一区二区三区激情| 一级片免费观看大全| 搡老乐熟女国产| 国产高清视频在线播放一区| 国产亚洲精品久久久久5区| 一级片'在线观看视频| 一级a爱视频在线免费观看| 深夜精品福利| 少妇的丰满在线观看| 国产精品1区2区在线观看. | 久久人妻av系列| 欧美日韩亚洲高清精品| 亚洲一码二码三码区别大吗| 免费在线观看日本一区| 女人高潮潮喷娇喘18禁视频| 免费看十八禁软件| 看片在线看免费视频| 午夜福利视频在线观看免费| 一区在线观看完整版| 搡老熟女国产l中国老女人| 日本五十路高清| 国产真人三级小视频在线观看| 天天躁日日躁夜夜躁夜夜| 亚洲五月色婷婷综合| 国产欧美日韩一区二区三区在线| 亚洲人成伊人成综合网2020| 婷婷丁香在线五月| 天天躁日日躁夜夜躁夜夜| 国产高清视频在线播放一区| 国产精品香港三级国产av潘金莲| 亚洲av电影在线进入| 男人的好看免费观看在线视频 | 免费在线观看黄色视频的| 亚洲av成人一区二区三| 久久中文看片网| 99精品久久久久人妻精品| 午夜91福利影院| avwww免费| 青草久久国产| 免费日韩欧美在线观看| 国产午夜精品久久久久久| 精品欧美一区二区三区在线| 一进一出抽搐gif免费好疼 | 久久久国产一区二区| 999久久久精品免费观看国产| 国产精品一区二区在线观看99| 欧美日韩亚洲国产一区二区在线观看 | 嫩草影视91久久| 亚洲精品中文字幕一二三四区| 久久ye,这里只有精品| 91字幕亚洲| а√天堂www在线а√下载 | 久久99一区二区三区| 丰满人妻熟妇乱又伦精品不卡| 亚洲国产欧美日韩在线播放| 欧美激情 高清一区二区三区| 亚洲中文av在线| 王馨瑶露胸无遮挡在线观看| 日韩免费高清中文字幕av| 久久久久久人人人人人| 国产精品国产av在线观看| 免费观看人在逋| 99香蕉大伊视频| 黑人欧美特级aaaaaa片| av不卡在线播放| 国产深夜福利视频在线观看| 亚洲成人国产一区在线观看| 亚洲aⅴ乱码一区二区在线播放 | 人妻丰满熟妇av一区二区三区 | 久久香蕉激情| 亚洲五月色婷婷综合| 91成年电影在线观看| 多毛熟女@视频| 日韩免费av在线播放| 男女免费视频国产| 久久国产亚洲av麻豆专区| 久久国产精品男人的天堂亚洲| 中文欧美无线码| 国产精品久久久久成人av| 亚洲,欧美精品.| 日本撒尿小便嘘嘘汇集6| 女同久久另类99精品国产91| 香蕉丝袜av| xxx96com| 成年动漫av网址| 国产欧美日韩综合在线一区二区| 亚洲成人免费电影在线观看| 啪啪无遮挡十八禁网站| 中文字幕精品免费在线观看视频| 亚洲中文av在线| 多毛熟女@视频| 国产在线一区二区三区精| 在线观看午夜福利视频| 美国免费a级毛片| 美女高潮喷水抽搐中文字幕| 成人18禁在线播放| 精品国产一区二区三区四区第35| 一夜夜www| 香蕉国产在线看| 99在线人妻在线中文字幕 | 久久精品国产99精品国产亚洲性色 | 老熟妇乱子伦视频在线观看| 国产一区在线观看成人免费| 人成视频在线观看免费观看| 在线看a的网站| 亚洲精品国产一区二区精华液| 在线播放国产精品三级| 欧美日韩亚洲国产一区二区在线观看 | 中文字幕av电影在线播放| 岛国在线观看网站| 黑人巨大精品欧美一区二区mp4| 岛国在线观看网站| 精品国产亚洲在线| 亚洲片人在线观看| 深夜精品福利| 国产av又大| 午夜免费鲁丝| 国产在视频线精品| 身体一侧抽搐| tube8黄色片| 一区二区日韩欧美中文字幕| 大香蕉久久成人网| 亚洲精品av麻豆狂野| 女人高潮潮喷娇喘18禁视频| 国产又色又爽无遮挡免费看| 69av精品久久久久久| 黄色片一级片一级黄色片| 亚洲精品国产一区二区精华液| 窝窝影院91人妻| 热re99久久精品国产66热6| 天堂动漫精品| 久久久久视频综合| 欧美亚洲日本最大视频资源| 人妻一区二区av| 亚洲人成伊人成综合网2020| 国产99久久九九免费精品| 久久人人97超碰香蕉20202| 性色av乱码一区二区三区2| 熟女少妇亚洲综合色aaa.| 午夜免费鲁丝| 激情视频va一区二区三区| 国产成人免费无遮挡视频| 亚洲国产欧美日韩在线播放| 美女午夜性视频免费| av视频免费观看在线观看| 久久久久国内视频| 夜夜夜夜夜久久久久| 水蜜桃什么品种好| 男女床上黄色一级片免费看| 亚洲成a人片在线一区二区| 午夜福利影视在线免费观看| 91成人精品电影| 免费人成视频x8x8入口观看| 亚洲人成电影观看| 男女高潮啪啪啪动态图| 亚洲专区字幕在线| 婷婷精品国产亚洲av在线 | 在线播放国产精品三级| 久久精品亚洲熟妇少妇任你| 人人妻,人人澡人人爽秒播| 国产成人精品在线电影| 操出白浆在线播放| 亚洲国产欧美网| 十八禁高潮呻吟视频| 男女之事视频高清在线观看| 久久这里只有精品19| 又黄又粗又硬又大视频| 亚洲国产精品sss在线观看 | 一个人免费在线观看的高清视频| 大码成人一级视频| 在线观看一区二区三区激情| 亚洲成国产人片在线观看| 丝瓜视频免费看黄片| 欧美乱妇无乱码| 变态另类成人亚洲欧美熟女 | 免费高清在线观看日韩| 亚洲av片天天在线观看| 19禁男女啪啪无遮挡网站| 丰满迷人的少妇在线观看| 日韩欧美一区视频在线观看| 亚洲国产中文字幕在线视频| 亚洲国产毛片av蜜桃av| 精品久久蜜臀av无| 天天影视国产精品| 大码成人一级视频| 日韩 欧美 亚洲 中文字幕| 亚洲成国产人片在线观看| 国产在线一区二区三区精| 操出白浆在线播放| 男人舔女人的私密视频| 操出白浆在线播放| 成人国产一区最新在线观看| 女警被强在线播放| 自线自在国产av| 中文字幕人妻熟女乱码| 国产欧美日韩一区二区三区在线| 18禁黄网站禁片午夜丰满| 欧美 日韩 精品 国产| 成年人黄色毛片网站| 一级黄色大片毛片| 国产成人影院久久av| 欧美日韩av久久| 精品免费久久久久久久清纯 | 18禁裸乳无遮挡免费网站照片 | 亚洲七黄色美女视频| 91九色精品人成在线观看| 亚洲中文av在线| 窝窝影院91人妻| 99在线人妻在线中文字幕 | 中文字幕另类日韩欧美亚洲嫩草| 香蕉久久夜色| 一夜夜www| 中文字幕精品免费在线观看视频| 51午夜福利影视在线观看| 女人爽到高潮嗷嗷叫在线视频| 免费高清在线观看日韩| av电影中文网址| 成在线人永久免费视频| 高清欧美精品videossex| 叶爱在线成人免费视频播放| 美国免费a级毛片| 99国产综合亚洲精品| 午夜91福利影院| 国产男女超爽视频在线观看| 香蕉久久夜色| 久久精品国产亚洲av高清一级| av不卡在线播放| 天堂中文最新版在线下载| 国产免费男女视频| 天天操日日干夜夜撸| 老司机亚洲免费影院| 在线看a的网站| 又黄又爽又免费观看的视频| av超薄肉色丝袜交足视频| 欧美精品亚洲一区二区| 这个男人来自地球电影免费观看| 精品一区二区三区视频在线观看免费 | 日韩欧美免费精品| 超碰成人久久| 电影成人av| 久热爱精品视频在线9| 中国美女看黄片| 一边摸一边做爽爽视频免费| 男人的好看免费观看在线视频 | 成年人免费黄色播放视频| 看免费av毛片| 五月开心婷婷网| 看黄色毛片网站| videosex国产| 天天躁日日躁夜夜躁夜夜| 久久中文字幕一级| 国产精品国产高清国产av | 婷婷成人精品国产| 操出白浆在线播放| 国产野战对白在线观看| 成熟少妇高潮喷水视频| 国产欧美日韩一区二区三| 高清在线国产一区| 日韩欧美三级三区| 国产99久久九九免费精品| 国产精品九九99| 免费一级毛片在线播放高清视频 | 亚洲av成人av| 亚洲成人手机| 日本a在线网址| 欧美不卡视频在线免费观看 | 黄片播放在线免费| 国产精品.久久久| 99久久99久久久精品蜜桃| 久久国产精品大桥未久av| 一本综合久久免费| а√天堂www在线а√下载 | 三级毛片av免费| 十八禁高潮呻吟视频| 亚洲成国产人片在线观看| 美女午夜性视频免费| 色婷婷av一区二区三区视频| 久久香蕉精品热| 精品国产乱码久久久久久男人| 午夜成年电影在线免费观看| 国产欧美日韩一区二区三区在线| 免费观看人在逋| 高清在线国产一区| 国产亚洲精品第一综合不卡| 制服诱惑二区| 久久精品亚洲熟妇少妇任你| 国产欧美日韩精品亚洲av| √禁漫天堂资源中文www| 亚洲精品在线观看二区| 如日韩欧美国产精品一区二区三区| 色婷婷久久久亚洲欧美| 一个人免费在线观看的高清视频| 国产精品一区二区免费欧美| 久久狼人影院| 国产97色在线日韩免费| 老熟妇仑乱视频hdxx| 黄片大片在线免费观看| 美女国产高潮福利片在线看| 国产精品自产拍在线观看55亚洲 | 精品国产一区二区三区四区第35| 亚洲avbb在线观看| 人人妻人人爽人人添夜夜欢视频| 看片在线看免费视频| 国产av精品麻豆| 757午夜福利合集在线观看| 精品福利永久在线观看| 久久久久久免费高清国产稀缺| 在线观看日韩欧美| 涩涩av久久男人的天堂| 多毛熟女@视频| 亚洲av美国av| 亚洲国产欧美网| 日本a在线网址| 一级a爱视频在线免费观看| 亚洲一区二区三区欧美精品| 三上悠亚av全集在线观看| 老司机午夜十八禁免费视频| 精品视频人人做人人爽| 99久久精品国产亚洲精品| av中文乱码字幕在线| 大码成人一级视频| 久久中文看片网| 窝窝影院91人妻| 欧美日韩亚洲综合一区二区三区_| 亚洲一区中文字幕在线| 香蕉国产在线看| 久久精品国产a三级三级三级| 久久久久国产一级毛片高清牌| 在线永久观看黄色视频| 久久青草综合色| 精品久久久久久久毛片微露脸| 香蕉久久夜色| 在线观看午夜福利视频| 亚洲全国av大片| 成人国语在线视频| 国产不卡av网站在线观看| 国产精品电影一区二区三区 | 亚洲精品成人av观看孕妇| 一级作爱视频免费观看| 国产在线观看jvid| av天堂久久9| 亚洲精品国产精品久久久不卡| 美国免费a级毛片| 电影成人av| 12—13女人毛片做爰片一| 最新在线观看一区二区三区| 国产不卡av网站在线观看| 黄色毛片三级朝国网站| 久久久国产精品麻豆| 久久国产亚洲av麻豆专区| 午夜福利欧美成人| 亚洲第一青青草原| √禁漫天堂资源中文www| 老熟女久久久| 免费在线观看黄色视频的| 妹子高潮喷水视频| 在线观看免费日韩欧美大片| 九色亚洲精品在线播放| 亚洲七黄色美女视频| 韩国av一区二区三区四区| 成人亚洲精品一区在线观看| 中文字幕av电影在线播放| 亚洲av成人av| 黄色a级毛片大全视频| 国产精品免费一区二区三区在线 | 一级毛片精品| 99在线人妻在线中文字幕 | 天堂√8在线中文| 黄色怎么调成土黄色| 男女床上黄色一级片免费看| 久久影院123| 丰满的人妻完整版| 午夜久久久在线观看| 精品一品国产午夜福利视频| 777米奇影视久久| 免费少妇av软件| 中出人妻视频一区二区| 91成人精品电影| 久久久国产成人精品二区 | 两个人免费观看高清视频| 欧洲精品卡2卡3卡4卡5卡区| 国产又爽黄色视频| 久久草成人影院| 日韩制服丝袜自拍偷拍| 69精品国产乱码久久久| 动漫黄色视频在线观看| 亚洲精品自拍成人| 欧美精品亚洲一区二区| 亚洲aⅴ乱码一区二区在线播放 | 欧美在线一区亚洲| a级毛片黄视频| 一夜夜www| 又黄又粗又硬又大视频| 免费观看人在逋| 又黄又粗又硬又大视频| 免费女性裸体啪啪无遮挡网站| 国产在视频线精品| 天堂中文最新版在线下载| av不卡在线播放| 天堂中文最新版在线下载| 欧美国产精品va在线观看不卡| 18禁美女被吸乳视频| 高清欧美精品videossex| 黄频高清免费视频| 色老头精品视频在线观看| 精品免费久久久久久久清纯 | 制服诱惑二区| 无遮挡黄片免费观看| 欧美国产精品一级二级三级| videosex国产| 亚洲欧美精品综合一区二区三区| 三级毛片av免费| 精品一品国产午夜福利视频| 国产精品电影一区二区三区 | 国产亚洲精品久久久久久毛片 | 国产一区有黄有色的免费视频| 黄色丝袜av网址大全| 90打野战视频偷拍视频| 亚洲专区国产一区二区| 亚洲人成伊人成综合网2020| 精品国产美女av久久久久小说| 亚洲成人手机| 久久天躁狠狠躁夜夜2o2o| 91字幕亚洲| 欧美国产精品一级二级三级| 成人亚洲精品一区在线观看| 一级a爱视频在线免费观看| 精品无人区乱码1区二区| 国产精品国产av在线观看| 亚洲国产欧美网| 国产黄色免费在线视频| 十八禁高潮呻吟视频| 久久人人爽av亚洲精品天堂| 高清黄色对白视频在线免费看| 精品电影一区二区在线| 正在播放国产对白刺激| 欧美日韩乱码在线| 久久久久久人人人人人| av一本久久久久| 日韩欧美免费精品| 每晚都被弄得嗷嗷叫到高潮| 国产精品久久电影中文字幕 | av国产精品久久久久影院| 久久亚洲真实| 乱人伦中国视频| 人人澡人人妻人| 最近最新中文字幕大全免费视频| 亚洲 国产 在线| 91大片在线观看| 国产亚洲精品久久久久5区| 国产高清视频在线播放一区| www.熟女人妻精品国产| 国产亚洲精品久久久久5区| 国产高清视频在线播放一区| 国产片内射在线| 午夜亚洲福利在线播放| 三上悠亚av全集在线观看| 久久ye,这里只有精品| 精品免费久久久久久久清纯 | 欧美一级毛片孕妇| 久久中文看片网| 亚洲国产欧美网| 最近最新中文字幕大全免费视频| 亚洲专区国产一区二区| 两性夫妻黄色片| 亚洲专区中文字幕在线| 色婷婷av一区二区三区视频| 国产又爽黄色视频| 欧美精品av麻豆av| 欧美日本中文国产一区发布| 天天躁日日躁夜夜躁夜夜| a级毛片在线看网站| 悠悠久久av| 女人精品久久久久毛片| 人妻 亚洲 视频| 国产激情欧美一区二区| 欧美激情高清一区二区三区| 成年版毛片免费区| 国产av又大| 无遮挡黄片免费观看| 久久ye,这里只有精品|