• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    PPO強化學(xué)習(xí)的多智能體對話策略學(xué)習(xí)方法

    2022-07-07 07:54:34魏鵬飛廖文雄
    小型微型計算機系統(tǒng) 2022年7期
    關(guān)鍵詞:模擬器智能用戶

    魏鵬飛,曾 碧,廖文雄

    (廣東工業(yè)大學(xué) 計算機學(xué)院,廣州510006)

    1 引 言

    目前市場上有許多智能語音助理,比如:蘋果的Siri、阿里的天貓精靈、小米的小愛同學(xué)和騰訊的小微[1].在這些精心設(shè)計的對話系統(tǒng)下,人們可以通過自然語言交互來完成任務(wù).深度學(xué)習(xí)的發(fā)展也激發(fā)了許多神經(jīng)任務(wù)對話系統(tǒng)的研究工作[2-4].

    任務(wù)對話系統(tǒng)由4個部分組成:自然語言理解(NLU)、對話狀態(tài)追蹤(DST)、對話策略學(xué)習(xí)(DPL)、自然語言生成(NLG)[5].其中,對話策略是根據(jù)當(dāng)前狀態(tài)來選擇下一步要執(zhí)行的動作,在任務(wù)對話系統(tǒng)中扮演著重要的角色.它的好壞直接影響著整個系統(tǒng)的性能,由于其具備馬爾科夫性,通常被描述為強化學(xué)習(xí)問題[6],將用戶作為環(huán)境的一部分進行建模,并通過與用戶的交互來學(xué)習(xí)策略.

    由于強化學(xué)習(xí)在訓(xùn)練過程中需要大量的交互,與真實的用戶交互時,需要耗費大量的時間和人工成本.一種可行的方法是利用人類的對話數(shù)據(jù)訓(xùn)練一個用戶模擬器,這使得系統(tǒng)代理可以通過與用戶模擬器交互來學(xué)習(xí)對話策略.該模擬器可以模擬脫機場景下的人類行為而無需額外的費用,經(jīng)過訓(xùn)練的系統(tǒng)可以進行部署,然后通過與真實的用戶交互進行微調(diào).但是,設(shè)計一種可靠的用戶模擬器并不是一件容易的事情,而且常常具有挑戰(zhàn)性:1)它等同于構(gòu)建了一個好的對話代理;2)真實用戶和數(shù)據(jù)模擬用戶之間始終存在一定的差異;3)不同的用戶模擬器如何影響系統(tǒng)性能,以及如何為不同的任務(wù)構(gòu)建適當(dāng)?shù)挠脩裟M器,這種相互關(guān)系使整個過程稱為“雞與蛋”問題;4)尚無較好的針對用戶模擬器的自動評估標(biāo)準(zhǔn).早期研究中,基于規(guī)則的用戶模擬器是借助于擁有專業(yè)化領(lǐng)域知識的專家來構(gòu)建獲得的[7].然而,隨著業(yè)務(wù)場景的多樣化和任務(wù)功能需求的復(fù)雜性不斷增長,建立一個完全基于規(guī)則的用戶模擬器,需要大量多領(lǐng)域的專業(yè)知識,這將是一件艱巨的工作.隨著機器學(xué)習(xí)的發(fā)展,在最近的研究工作中,一些研究人員提出了基于數(shù)據(jù)驅(qū)動的用戶模擬器[8,9],但是,它需要很多的手工標(biāo)注數(shù)據(jù).具體例子如表1所示,用戶在一次會話中完成了兩個領(lǐng)域任務(wù),首先請求系統(tǒng)預(yù)定一個2人的房間,從周二開始住4晚,然后請求系統(tǒng)推薦可參觀的博物館以及門票價格.其中,Dialogue acts是對應(yīng)于話語的標(biāo)注,包含領(lǐng)域、意圖和槽值對信息.

    表1 MultiWOZ語料庫中的一段對話及對話行為Table 1 A dialog session and dialog acts in MultiWOZ corpus

    為了解決缺少可靠的用戶模擬器來進行對話策略學(xué)習(xí)的挑戰(zhàn),本文提出了一種PPO強化學(xué)習(xí)的多智能體對話策略學(xué)習(xí)方法.其中用戶也被視為智能體而不是用戶模擬器.首先,在模仿學(xué)習(xí)的監(jiān)督訓(xùn)練下直接從對話語料庫中學(xué)習(xí),從而引導(dǎo)基本的系統(tǒng)智能體和用戶智能體的策略;然后,模擬兩個智能體之間的面向任務(wù)的交互對話,并且通過PPO的強化學(xué)習(xí)算法優(yōu)化其對話策略,來進一步提升系統(tǒng)性能;最后,在一個面向任務(wù)的多領(lǐng)域多意圖的對話語料庫MultiWOZ[10]上進行相關(guān)性能評估.本文的主要貢獻歸納為5點:

    1)提出了一種PPO強化學(xué)習(xí)的多智能體對話策略學(xué)習(xí)方法,該方法以端到端的方式同時優(yōu)化用戶智能體和系統(tǒng)智能體,避免顯式地構(gòu)建用戶模擬器;

    2)采用Actor-Critic(AC)架構(gòu)的PPO算法加速學(xué)習(xí)過程;

    3)設(shè)計了一種軟注意力狀態(tài)共享的用戶-系統(tǒng)混合值評價網(wǎng)絡(luò);

    4)通過實驗比較了各基線模型,驗證了本文方法的有效性和面對復(fù)雜任務(wù)中的可伸縮性;

    5)將學(xué)到的對話策略集成到ConvLab-2平臺上進行整體的效果評估,驗證本文方法所學(xué)習(xí)策略的合理性.

    2 相關(guān)工作

    2.1 深度強化學(xué)習(xí)算法

    強化學(xué)習(xí)強調(diào)智能體如何與環(huán)境進行互動,以獲取最大的累計收益.強化學(xué)習(xí)算法可分成基于值函數(shù)的算法和基于策略梯度的算法.經(jīng)典的值函數(shù)算法是Q-Learning算法[11].Mnih等人[12,13]首次把Q-Learning與深度神經(jīng)網(wǎng)絡(luò)(DNN)結(jié)合起來提出了深度Q網(wǎng)絡(luò)(DQN),其中DNN用來表示動作值函數(shù).Hasselt等人[14]使用Q網(wǎng)絡(luò)選擇行動,目標(biāo)網(wǎng)絡(luò)來估計值函數(shù),消除DQN對值函數(shù)的過高估計問題.Wang等人[15]提出了競爭式的網(wǎng)絡(luò)結(jié)構(gòu),分別學(xué)習(xí)狀態(tài)值函數(shù)和動作優(yōu)勢值函數(shù).經(jīng)典的策略梯度法是REINFORCE算法[16],使用蒙特卡洛來估計累積期望回報.為了減少回報的方差,引入了Actor-Critic模式,使用Actor來選擇動作,使用Critic對值函數(shù)進行估計.Schulman等人[17]進一步提出了PPO算法,簡化了TRPO[18]的求解過程,并采用泛化優(yōu)勢函數(shù)估計來平衡優(yōu)勢函數(shù)計算的方差和偏差.

    2.2 多智能體強化學(xué)習(xí)

    在多智能體強化學(xué)習(xí)中,每個智能體都擁有自己的策略πi(ai|si),其中,si∈S,ai∈A.根據(jù)策略同環(huán)境進行互動,并執(zhí)行相應(yīng)的動作(a1,…,aN),最后獲得狀態(tài)轉(zhuǎn)移s=(s1,…,sN)→s′=(s′1,…,s′N).與單智能體類似,每個智能體最大化自己的總折扣回報Ri=∑tγtri,t.Iqbal等人[19]采用了集中式的Critic對每個智能體進行價值估計,并引入了多頭注意力(Multi-head attention)機制學(xué)習(xí)共享信息.另外,由于多個智能體在訓(xùn)練過程中策略不斷變化,導(dǎo)致環(huán)境不再是穩(wěn)定的,為了解決此問題,Lowe等人[20]引入了分散執(zhí)行的集中訓(xùn)練(CTDE)架構(gòu),它允許策略使用額外的信息增強訓(xùn)練,但執(zhí)行時僅使用本地觀測到的信息.

    2.3 面向任務(wù)對話的用戶建模

    面向任務(wù)對話的系統(tǒng)策略的學(xué)習(xí)是一個強化學(xué)習(xí)問題,通常需要大量的對話樣本,而直接與真實的用戶交互學(xué)習(xí)是不切實際的.如何針對用戶進行建模也就成為了任務(wù)對話系統(tǒng)中急需解決的問題之一.根據(jù)以往的研究工作,用戶建模大致可分為3種方法:1)基于規(guī)則的用戶模擬器,其中Schatzmann等人[21]提出的基于議程的方式最受歡迎,手工制定規(guī)則并基于用戶目標(biāo)構(gòu)建類似堆棧的議程;2)基于數(shù)據(jù)驅(qū)動的用戶模擬器,Kreyssig等人[22]提出一種神經(jīng)用戶模擬器(NUS),從語料庫中學(xué)習(xí),并且會生成自然語言;3)基于世界模型的方法,微軟在此方面做了較多研究[23,24],構(gòu)建世界模型以模擬真實的用戶響應(yīng),但是這種方法仍需要少量的真實用戶的交互來促進世界模型的學(xué)習(xí).

    本文提出了一種PPO強化學(xué)習(xí)的多智能體對話策略學(xué)習(xí)算法.有關(guān)強化學(xué)習(xí)和任務(wù)對話策略學(xué)習(xí)更多的研究進展,可以閱讀文獻[25,26].

    3 PPO強化學(xué)習(xí)的多智能體對話策略學(xué)習(xí)方法

    圖1 多智能體對話策略學(xué)習(xí)架構(gòu)Fig.1 Architecture of multi-agent dialogue policy learning

    3.1 用戶智能體

    Action用戶動作aU是用戶智能體的策略μ根據(jù)當(dāng)前狀態(tài)sU所做出的決策,用于向系統(tǒng)智能體表達(dá)自己的約束和請求.

    3.2 系統(tǒng)智能體

    Action系統(tǒng)動作aS是系統(tǒng)智能體的策略π根據(jù)當(dāng)前狀態(tài)sS所做出的決策,用于向用戶智能體提供合適的回復(fù).

    3.3 用戶-系統(tǒng)混合值評價網(wǎng)絡(luò)

    如圖2所示,本文通過在編碼向量上使用sigmoid函數(shù)進而設(shè)計了一種軟注意力狀態(tài)共享的用戶-系統(tǒng)混合值評價網(wǎng)絡(luò),用于相關(guān)價值的評估,這種軟注意機制的設(shè)計參考了文獻[28].具體來說,首先將用戶智能體狀態(tài)sU和系統(tǒng)智能體狀態(tài)sS通過一個軟注意力層(Soft Attention Layer)進行計算,獲得各自的編碼信息向量hU、hS.公式如下:

    (1)

    (2)

    其中,σ為sigmoid函數(shù),f(·)為多層感知機,⊙為按元素乘法.前者表現(xiàn)為軟注意力權(quán)重,后者表現(xiàn)為非線性特征變換.

    圖2 用戶-系統(tǒng)混合值評價網(wǎng)絡(luò)Fig.2 User-system mixing value critic network

    然后,對hU、hS取Sum和Max操作得到兩者的融合信息向量hG.公式如下:

    (3)

    除了對兩個智能體的編碼特征進行加權(quán)平均之外,本文還對兩者應(yīng)用了最大池化函數(shù),重點提取關(guān)鍵特征.

    最后,將得到的用戶智能體編碼向量hU、系統(tǒng)智能體編碼向量hS和兩者之間的融合向量hG傳入特定任務(wù)層,獲得最終的價值VU、VS和VG.公式如下:

    VU=fU(hU)

    (4)

    VS=fS(hS)

    (5)

    VG=fG(hG)

    (6)

    3.4 對話策略學(xué)習(xí)

    在處理多域、復(fù)雜的對話任務(wù)時,策略的動作空間可能變得非常大,這使得對話策略幾乎不可能從零開始探索學(xué)習(xí).因此,本文通過以下兩個階段進行優(yōu)化:

    1)模仿學(xué)習(xí)-行為克隆,從人類真實對話數(shù)據(jù)的對話軌跡中抽取狀態(tài)-動作對,把狀態(tài)看作輸入特征、動作看作輸出標(biāo)記進行分類學(xué)習(xí),進而獲取最優(yōu)策略模型.本文使用邏輯回歸進行策略的預(yù)訓(xùn)練.另外,由于單個智能體在一個對話回合中只能產(chǎn)生少量的對話行為,為了減輕數(shù)據(jù)的偏差,對標(biāo)簽加入α權(quán)重,損失函數(shù)定義如下:

    L(X,Y;α)=-α·YTlogσ(X)-(I-Y)Tlog(I-σ(X))

    (7)

    其中,X為狀態(tài)向量,Y為動作向量.

    2)PPO強化學(xué)習(xí),PPO是目前非常主流的強化學(xué)習(xí)算法,并且是基于AC架構(gòu)的,包含兩個網(wǎng)絡(luò):Actor和Critic,因此,它需要分別優(yōu)化這兩組參數(shù).對于Critic來說,它的目標(biāo)是最小化時序差分(TD)的TD target目標(biāo)值rt+γV(st+1)和估計值V(st)之間的平方差,為Actor提供小方差的值函數(shù).另外,為了使學(xué)習(xí)的目標(biāo)值函數(shù)分段更新保持穩(wěn)定,本文引入了一個固定的目標(biāo)值網(wǎng)絡(luò)[14]延遲更新,同時也可以打亂數(shù)據(jù)的相關(guān)性.最終的Critic網(wǎng)絡(luò)的損失函數(shù)公式如下:

    (8)

    (9)

    (10)

    (11)

    (12)

    其中:

    δt=rt+γVθ(st+1)-Vθ(st)

    (13)

    最終的Actor網(wǎng)絡(luò)使用恒定的裁剪機制作為用戶策略和系統(tǒng)策略優(yōu)化的軟約束,公式如下:

    (14)

    (15)

    算法1. PPO多智能體對話策略學(xué)習(xí)

    1.數(shù)據(jù):對話行為標(biāo)記的對話語料D

    /* 模仿學(xué)習(xí)-行為克隆 */

    2.初始化:θU,θS

    3.公式(7)預(yù)訓(xùn)練策略μ和π

    /* 多智能體強化學(xué)習(xí) */

    4.foriteration=1,2,…Ndo

    5. 初始化:值網(wǎng)絡(luò)V=(VU,VS,VG)的參數(shù)θ和目標(biāo)網(wǎng)絡(luò)參數(shù)θ-←θ

    6.foractor=1,2,…Ndo

    7.repeat

    8. 根據(jù)μθold、πθold采樣動作aU、aS

    9. 執(zhí)行動作并記錄隨后的狀態(tài)s′U、s′S和立即獎勵rU、rS、rG

    10.utilT=1時,會話結(jié)束

    12.endfor

    13.formini_batch=1,2,…Ndo

    /* Critic更新 */

    14. 公式(11)更新混合值評價網(wǎng)絡(luò)θ

    15.C步之后,更新目標(biāo)網(wǎng)絡(luò)θ-←θ

    /* Actor更新*/

    17.endfor

    19.end

    4 實 驗

    4.1 數(shù)據(jù)集

    本文使用MultiWOZ,這是一個面向任務(wù)的多域多意圖的對話語料庫,包含7個域、13個意圖、10,483個對話和71,544個對話回合.單域和多域?qū)υ挼钠骄睾蠑?shù)分別為8.93和15.39.在數(shù)據(jù)收集過程中,要求每個用戶遵循預(yù)先設(shè)定的用戶目標(biāo),并在交互過程中允許用戶在會話中更改其目標(biāo),因此收集到的對話與現(xiàn)實世界中的對話更加接近.語料庫還提供了定義外部數(shù)據(jù)庫的所有實體屬性的本體.

    4.2 評估指標(biāo)

    面向任務(wù)的對話系統(tǒng)的評估主要包括對話成本和對話任務(wù)是否完成.本文通過計算對話回合數(shù)(dialogue turns)來反映對話成本,任務(wù)成功(task success)利用其它兩個指標(biāo)Inform F1和Matchrate.這兩個指標(biāo)都是在對話行為(dialogue acts)級別計算得到的.具體來講,Inform F1評估是否已經(jīng)告知了用戶所有請求的信息(例如:門票價格、酒店電話號碼).Match rate評估預(yù)定實體是否針對所有涉及的領(lǐng)域都符合用戶指定的約束條件(例如,城鎮(zhèn)北部的酒店).如果智能體未能在某個域中預(yù)定實體,則它將在該域上獲得0分,每個域的此指標(biāo)范圍為[0,1],所有涉及領(lǐng)域的平均值代表此會話得分.最后,只有告知了所有信息(Inform F1=1),并且預(yù)定實體也被正確約束(Match rate=1),整個對話任務(wù)才被認(rèn)為成功(task success=1).

    4.3 實驗設(shè)置

    在本文的實驗中,代碼編寫采用Facebook的PyTorch(1)https://pytorch.org/深度學(xué)習(xí)框架,版本為2.3.0,語言為Python.實驗環(huán)境采用了GoogleColab提供的GPU.本文使用驗證集進行模型選擇,實驗中超參數(shù)的設(shè)置和調(diào)整是根據(jù)實驗的精度和損失手動調(diào)整的.通過廣泛的超參數(shù)調(diào)優(yōu),實驗的超參數(shù)如表2所示.

    表2 實驗參數(shù)Table 2 Experimental parameters

    4.4 基準(zhǔn)模型

    為了更好的進行實驗比較分析,本文參考了文獻[27]設(shè)計了以下基準(zhǔn)模型進行比較:

    1)SL:采用模仿學(xué)習(xí)中的行為克隆方法直接訓(xùn)練用戶智能體和系統(tǒng)智能體,與本文的預(yù)訓(xùn)練階段一致.

    2)RL:在模仿學(xué)習(xí)的基礎(chǔ)上進行獨立的強化學(xué)習(xí).具體來說,通過固定一個智能體的策略,來學(xué)習(xí)另一個智能體的對話策略.

    4)IterDPL:文獻[29]首先從對話語料庫中學(xué)習(xí)基本的對話策略,然后通過深度強化學(xué)習(xí)迭代優(yōu)化其策略,從而進一步改進它們.其中,對話代理和用戶模擬器都設(shè)計有可以端到端訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型.

    5)MADPL:文獻[27]提出了一種面向任務(wù)的多智能體對話策略學(xué)習(xí)方法,并設(shè)計了一種角色感知的混合價值網(wǎng)絡(luò).

    4.5 實驗結(jié)果及分析

    實驗過程中,本文采用了1000個用戶目標(biāo)進行自動評估.表3展示了用戶目標(biāo)具體的領(lǐng)域分布情況,其中,Restaurant域最多,為455個.Police域最少,為22個.用戶目標(biāo)最多包含3個域,2個域的占比50%.由于多域的存在,每個域的用戶目標(biāo)的統(tǒng)計量會重復(fù)計算.當(dāng)對話啟動時,兩個智能體根據(jù)給定的用戶目標(biāo)彼此交互.

    表3 自動評估中用戶目標(biāo)的領(lǐng)域分布Table 3 Domain distribution of user goals in the automatic evaluation

    表4展示了在MultiWOZ數(shù)據(jù)集上的實驗結(jié)果,其中,用戶智能體和系統(tǒng)智能體的策略是根據(jù)一定的條件訓(xùn)練得到.具體來講,SL/SL是通過有監(jiān)督的模仿學(xué)習(xí)直接訓(xùn)練得到的,它的task success最差,只有50%,這表明單純的從訓(xùn)練數(shù)據(jù)

    表4 MultiWOZ數(shù)據(jù)集上的實驗結(jié)果Table 4 Experimental results on MultiWOZ dataset

    集上學(xué)習(xí)到的策略,難以很好的泛化到新的用戶目標(biāo)上.單個RL的策略(表4中2-4行)是通過固定一方智能體來訓(xùn)練另一方智能體的策略.它們的task success比SL/SL分別高出3.5%、18.4%、13.7%,這是由于強化學(xué)習(xí)的加入使得訓(xùn)練模型可以在復(fù)雜環(huán)境中互動得到策略性能的提升,也體現(xiàn)出了強化學(xué)習(xí)在此任務(wù)上的有效性.RL/SL的用戶智能體通過強化學(xué)習(xí)訓(xùn)練能更好的適應(yīng)系統(tǒng)智能體,Inform F1最高為78.22%.多RL的策略(表4中5-8行)比單個RL策略訓(xùn)練得到的性能要好.CRL通過使用相同的優(yōu)勢值對兩個智能體同時進行更新,它的task success為69.3%,比IterDPL高出4.7%,表明了CTDE架構(gòu)在多智能體訓(xùn)練任務(wù)上的有效性.MADPL的Match rate最高為90.98%,task success與CRL相當(dāng)為70.1%.相比于表中的其它模型,本文提出的模型在性能上得到的極大的提升,其task success達(dá)到了84.4%,比MADPL高出14.3%.另外,對話回合數(shù)為6.18,對話成本更低.我們將其原因歸結(jié)為:1)在模仿學(xué)習(xí)的基礎(chǔ)上對兩個智能體進一步進行強化學(xué)習(xí)的訓(xùn)練,縮短了一定的訓(xùn)練時間,更加高效;2)在一個動態(tài)的環(huán)境中,兩個智能體同時進行交替訓(xùn)練,能夠適應(yīng)復(fù)雜環(huán)境;3)基于軟注意力狀態(tài)共享的用戶-系統(tǒng)混合值評價網(wǎng)絡(luò)學(xué)習(xí)到的價值估計,能更好的引導(dǎo)策略梯度的更新;4)使用恒定的裁剪機制的PPO更新方法,樣本使用率更高,還能更好約束策略的更新范圍.

    4.6 消融分析

    1)w/o soft attention:Our model去除了軟注意力機制,采用與MADPL中相同的值評價網(wǎng)絡(luò),則公式(1)-公式(3)分別被替換為:hU=tanh(fU(sU))、hS=tanh(fS(sS))和hG=[hU;hS].

    2)w/o PPO:Our model去除PPO,采用與MADPL中相同的Advantage Actor Critic(A2C)算法,則公式(14)和公式(15)分別被替換為:Jπ(φ)=logπφ(aS|sS)[AS(sS)+AG(s)]和Jμ(ω)=logμω(aU|sU)[AU(sU)+AG(s)].

    表5展示了在MultiWOZ數(shù)據(jù)集上的消融實驗結(jié)果,我們發(fā)現(xiàn)以上兩種變體在task success上遠(yuǎn)遠(yuǎn)優(yōu)于MADPL模型.具體來講,w/o soft attention與MADPL采用相同的值評價網(wǎng)絡(luò),而強化學(xué)習(xí)策略采用具有恒定裁剪機制的PPO算法,實驗結(jié)果task success比MADPL高8.2%.w/o PPO與MADPL采用相同的強化學(xué)習(xí)策略A2C,而值評價網(wǎng)絡(luò)采用軟注意力機制,實驗結(jié)果task success比MADPL高10.4%.以上實驗結(jié)果表明本文模型能夠?qū)W到更優(yōu)的對話策略,驗證了本文方法的有效性.

    表5 MultiWOZ數(shù)據(jù)集上的消融實驗結(jié)果Table 5 Ablation experimental results on MultiWOZ dataset

    4.7 復(fù)雜任務(wù)的可伸縮性

    為了進一步分析本文提出的模型在復(fù)雜任務(wù)上的可伸縮性,我們做了一些實驗使用了采樣得到的1000個用戶目標(biāo).圖3展示了在不同類別或數(shù)量的領(lǐng)域中,兩個對話智能體交互的性能結(jié)果.就領(lǐng)域類別來講,在Restaurant、Hotel和Train域上,分別有7、10和6個可告知的槽位需要被跟蹤.CRL在Restaurant和Hotel域上有較低的Inform F1和Match rate,但是在Train域上有較高的Match rate和task success.在Hotel域上,本文的模型與IterDPL的3個評價指標(biāo)相當(dāng),稍低于MADPL.但是,在Restaurant和Train域上,本文的模型表現(xiàn)優(yōu)異,其中Match rate和task success都接近100%.而對于不同的領(lǐng)域數(shù)量來講,task success隨著領(lǐng)域數(shù)量的增加而大大降低.在單域目標(biāo)中,RL/RL、MADPL和Our model都有比較高的Match rate和task success,其性能指標(biāo)值接近100%.當(dāng)目標(biāo)中有3個域時,SL/RL的Match rate和task success最低,RL/SL的Inform F1較高,但Match rate較低,IterDPL的Match rate較高,但Inform F1較低.而本文提出的模型仍然可以保持較高的Inform F1、Match rate和task success.總的來講,所有的結(jié)果表明本文的模型在多域復(fù)雜的對話任務(wù)上具有良好的可伸縮性.

    圖3 根據(jù)對話中域的不同類別(左)或數(shù)量(右)執(zhí)行對話代理的性能Fig.3 Performance of the dialog agent according to the different class (left) or number (right) of domains in the dialog

    4.8 ConvLab-2上的效果分析

    ConvLab-2[30]是一個開放源代碼工具包,使研究人員能夠使用最新模型構(gòu)建面向任務(wù)的對話系統(tǒng),進行端到端的整體評估.為了進一步驗證本文方法的合理性,我們將本文模型與ConvLab-2平臺集成做了一些實驗,如表6所示.我們固定了NLU、DST和NLG的模型分別為BERTNLU、RuleDST和TemplateNLG,只變換策略模型進行評估.本文的模型比MLEPolicy、PGPolicy和GDPLPolicy在性能上都有較大提升.其中,比GDPLPolicy在Inform F1、Match rate和task success上分別高出2.76%、16.45%和10.6%.MLEPolicy是在已標(biāo)注的語料上通過模仿學(xué)習(xí)訓(xùn)練得到的,而PGPolicy和GDPLPolicy是通過強化學(xué)習(xí)訓(xùn)練得到的.但是,與RulePolicy相比,我們的模型及以上3種模型性能指標(biāo)都不理想.其中,RulePolicy是專家規(guī)則,比本文模型在Inform F1、Match rate和task success上分別高出了17.87%、47.95%、24.9%.這表明專家規(guī)則RulePolicy比目前所設(shè)計的策略學(xué)習(xí)方法更加有效.但是,在復(fù)雜任務(wù)上,它仍需要專家具備豐富的跨領(lǐng)域的知識,時間和人工成本較高.總的來講,本文提出的策略學(xué)習(xí)方法在ConvLab-2平臺上效果顯著,驗證其合理性.

    表6 與ConvLab-2集成的實驗結(jié)果Table 6 Experimental results integrated with ConvLab-2

    5 結(jié)束語

    本文提出了一種PPO強化學(xué)習(xí)的多智能體對話策略學(xué)習(xí)方法,該方法避免了顯式地構(gòu)建用戶模擬器,可以同時訓(xùn)練用戶策略和系統(tǒng)策略.首先利用對話行為標(biāo)注的對話語料進行有監(jiān)督的模仿學(xué)習(xí),獲得初始的對話策略.然后讓兩個智能體進行面向任務(wù)的對話,并通過PPO進一步優(yōu)化其策略.實驗表明,本文提出的模型在多域多意圖的MultiWOZ數(shù)據(jù)集上獲得了最好的效果,泛化能力強,并驗證了在復(fù)雜任務(wù)上的可伸縮性.

    在未來的工作中,我們將在更復(fù)雜的對話語料中應(yīng)用本文提出的方法.此外,由于獎勵稀疏問題,手工設(shè)計的獎勵可能并不適合.隨著系統(tǒng)處理跨多個領(lǐng)域的復(fù)雜任務(wù)的需求不斷增長,需要設(shè)計更復(fù)雜的獎勵功能,這給手動權(quán)衡這些不同的因素帶來了嚴(yán)峻的挑戰(zhàn).因此,能否自動地推斷出激勵人的行為和互動的獎勵,仍需進一步探索.

    猜你喜歡
    模擬器智能用戶
    了不起的安檢模擬器
    盲盒模擬器
    劃船模擬器
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    關(guān)注用戶
    商用汽車(2016年11期)2016-12-19 01:20:16
    關(guān)注用戶
    商用汽車(2016年6期)2016-06-29 09:18:54
    關(guān)注用戶
    商用汽車(2016年4期)2016-05-09 01:23:12
    国产精品久久久av美女十八| 后天国语完整版免费观看| 人人妻人人爽人人添夜夜欢视频| av免费在线观看网站| 欧美 亚洲 国产 日韩一| 久久午夜综合久久蜜桃| 非洲黑人性xxxx精品又粗又长| 国产精品精品国产色婷婷| 免费av毛片视频| 一级a爱片免费观看的视频| 妹子高潮喷水视频| 欧美 亚洲 国产 日韩一| netflix在线观看网站| 日韩大尺度精品在线看网址 | 91麻豆av在线| 可以在线观看的亚洲视频| 在线观看免费日韩欧美大片| cao死你这个sao货| 99国产综合亚洲精品| 午夜福利,免费看| 亚洲自拍偷在线| 国产av在哪里看| 一区二区三区激情视频| 国产亚洲av高清不卡| 波多野结衣巨乳人妻| 亚洲色图综合在线观看| 免费一级毛片在线播放高清视频 | 国产又色又爽无遮挡免费看| 亚洲精品国产区一区二| 亚洲精品在线美女| 国产乱人伦免费视频| 天天一区二区日本电影三级 | 99热只有精品国产| 他把我摸到了高潮在线观看| 一a级毛片在线观看| 少妇被粗大的猛进出69影院| 国产亚洲欧美精品永久| 99久久精品国产亚洲精品| 精品国产一区二区久久| 一进一出抽搐动态| 99久久国产精品久久久| 亚洲一卡2卡3卡4卡5卡精品中文| 久9热在线精品视频| 男人操女人黄网站| 久久性视频一级片| 国产av又大| 午夜福利视频1000在线观看 | 国产亚洲精品综合一区在线观看 | 19禁男女啪啪无遮挡网站| 久久中文看片网| 在线永久观看黄色视频| 久久国产乱子伦精品免费另类| 人人妻,人人澡人人爽秒播| 97人妻精品一区二区三区麻豆 | 日日夜夜操网爽| 丝袜美足系列| 熟妇人妻久久中文字幕3abv| 国语自产精品视频在线第100页| 免费在线观看视频国产中文字幕亚洲| 中文字幕最新亚洲高清| 久久午夜综合久久蜜桃| 精品卡一卡二卡四卡免费| av电影中文网址| 久久久久国产精品人妻aⅴ院| 欧美国产精品va在线观看不卡| 好看av亚洲va欧美ⅴa在| 天天一区二区日本电影三级 | 成人亚洲精品一区在线观看| 免费看美女性在线毛片视频| av视频在线观看入口| 这个男人来自地球电影免费观看| av网站免费在线观看视频| av网站免费在线观看视频| tocl精华| 国产麻豆69| 亚洲成国产人片在线观看| 国产激情久久老熟女| 国产高清videossex| 两个人看的免费小视频| 丁香六月欧美| 亚洲av成人一区二区三| 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲最大成人中文| 国产亚洲精品一区二区www| 成年版毛片免费区| 在线观看66精品国产| 纯流量卡能插随身wifi吗| 精品人妻1区二区| 两个人免费观看高清视频| 天堂√8在线中文| 亚洲精品中文字幕一二三四区| 免费搜索国产男女视频| 亚洲精品久久国产高清桃花| 69精品国产乱码久久久| 无人区码免费观看不卡| 女人精品久久久久毛片| 国产97色在线日韩免费| 国产激情久久老熟女| 人妻丰满熟妇av一区二区三区| 夜夜躁狠狠躁天天躁| 丝袜美足系列| 亚洲av五月六月丁香网| 亚洲熟女毛片儿| 天天躁夜夜躁狠狠躁躁| 国产在线观看jvid| 99精品欧美一区二区三区四区| 成人免费观看视频高清| 免费搜索国产男女视频| 国产精品美女特级片免费视频播放器 | 国产亚洲精品第一综合不卡| 涩涩av久久男人的天堂| 国产av一区二区精品久久| 亚洲,欧美精品.| 一级a爱片免费观看的视频| 18禁国产床啪视频网站| av有码第一页| 人成视频在线观看免费观看| 一边摸一边抽搐一进一小说| 国产极品粉嫩免费观看在线| 日本在线视频免费播放| 久久久久久久久中文| 午夜激情av网站| 纯流量卡能插随身wifi吗| 国产精品香港三级国产av潘金莲| 88av欧美| 久久中文字幕人妻熟女| 两性夫妻黄色片| 最新在线观看一区二区三区| 色av中文字幕| 亚洲一卡2卡3卡4卡5卡精品中文| 很黄的视频免费| 亚洲天堂国产精品一区在线| 亚洲中文日韩欧美视频| 又黄又爽又免费观看的视频| 国产午夜福利久久久久久| 国产精品久久久久久亚洲av鲁大| 久久中文看片网| 日本免费a在线| 午夜福利在线观看吧| 久久天躁狠狠躁夜夜2o2o| 国内精品久久久久久久电影| √禁漫天堂资源中文www| 丁香六月欧美| 国语自产精品视频在线第100页| 一进一出抽搐gif免费好疼| 女人高潮潮喷娇喘18禁视频| 欧美激情 高清一区二区三区| 午夜免费观看网址| 老汉色av国产亚洲站长工具| 91av网站免费观看| 久9热在线精品视频| 午夜成年电影在线免费观看| 中文字幕av电影在线播放| 手机成人av网站| 久久久久亚洲av毛片大全| 久久天堂一区二区三区四区| 少妇裸体淫交视频免费看高清 | 亚洲avbb在线观看| 国产亚洲精品av在线| 精品不卡国产一区二区三区| 欧美日本亚洲视频在线播放| 男女床上黄色一级片免费看| 一夜夜www| 大香蕉久久成人网| 日本一区二区免费在线视频| av天堂久久9| 不卡av一区二区三区| 此物有八面人人有两片| 婷婷六月久久综合丁香| 露出奶头的视频| 大香蕉久久成人网| 十分钟在线观看高清视频www| 欧美久久黑人一区二区| 无限看片的www在线观看| 成人特级黄色片久久久久久久| 成人特级黄色片久久久久久久| 亚洲少妇的诱惑av| 精品一品国产午夜福利视频| 国产一区二区三区综合在线观看| 丝袜美腿诱惑在线| 日韩大码丰满熟妇| 桃色一区二区三区在线观看| 亚洲国产精品久久男人天堂| 99精品在免费线老司机午夜| 亚洲精品一卡2卡三卡4卡5卡| 亚洲精品国产区一区二| 久久精品aⅴ一区二区三区四区| 一二三四社区在线视频社区8| 久久久久久久精品吃奶| 夜夜夜夜夜久久久久| 国产在线精品亚洲第一网站| 免费在线观看视频国产中文字幕亚洲| 国产亚洲精品久久久久久毛片| 最好的美女福利视频网| 精品一品国产午夜福利视频| 男女之事视频高清在线观看| 国产成人影院久久av| 国内精品久久久久久久电影| 国产成人啪精品午夜网站| 成人欧美大片| 午夜激情av网站| av天堂在线播放| 国产欧美日韩一区二区三| 欧美日韩乱码在线| 精品一区二区三区四区五区乱码| 最新美女视频免费是黄的| 国产亚洲精品综合一区在线观看 | 成人免费观看视频高清| 欧美成人一区二区免费高清观看 | 色av中文字幕| 色播在线永久视频| 999精品在线视频| 日韩欧美一区二区三区在线观看| 黄色视频,在线免费观看| 欧美人与性动交α欧美精品济南到| 欧美丝袜亚洲另类 | 纯流量卡能插随身wifi吗| 午夜福利18| 免费高清视频大片| 亚洲狠狠婷婷综合久久图片| 欧美成狂野欧美在线观看| 波多野结衣av一区二区av| 日韩 欧美 亚洲 中文字幕| 久久中文看片网| 欧美激情高清一区二区三区| 99在线视频只有这里精品首页| 国产成人啪精品午夜网站| 国产熟女xx| 亚洲av成人不卡在线观看播放网| 老汉色av国产亚洲站长工具| 亚洲五月天丁香| 操出白浆在线播放| 国产精品永久免费网站| 9191精品国产免费久久| 97人妻天天添夜夜摸| 在线观看www视频免费| 女人高潮潮喷娇喘18禁视频| 久久狼人影院| 99国产综合亚洲精品| 精品无人区乱码1区二区| 亚洲 欧美一区二区三区| 亚洲五月色婷婷综合| 日韩欧美一区视频在线观看| 久久人妻福利社区极品人妻图片| 久久性视频一级片| 老司机福利观看| 精品卡一卡二卡四卡免费| 日本免费一区二区三区高清不卡 | 成人三级做爰电影| 咕卡用的链子| 丝袜在线中文字幕| 久久天堂一区二区三区四区| av网站免费在线观看视频| 欧美乱妇无乱码| 欧美中文综合在线视频| 欧美乱码精品一区二区三区| 男人舔女人的私密视频| 久久久水蜜桃国产精品网| tocl精华| 日日爽夜夜爽网站| 国产精品综合久久久久久久免费 | 一个人免费在线观看的高清视频| 麻豆av在线久日| 日韩欧美在线二视频| 色婷婷久久久亚洲欧美| 丁香欧美五月| 性色av乱码一区二区三区2| 国产成人一区二区三区免费视频网站| 国产精品一区二区免费欧美| 成人国产综合亚洲| 欧美黑人精品巨大| 一级片免费观看大全| 亚洲avbb在线观看| 天天一区二区日本电影三级 | 99香蕉大伊视频| 性欧美人与动物交配| 国产精品香港三级国产av潘金莲| 色精品久久人妻99蜜桃| 女人被狂操c到高潮| 亚洲男人的天堂狠狠| 女人被狂操c到高潮| 啦啦啦韩国在线观看视频| 欧美不卡视频在线免费观看 | 可以免费在线观看a视频的电影网站| 国产精品野战在线观看| 亚洲 国产 在线| 极品教师在线免费播放| 成人国语在线视频| 9热在线视频观看99| 丁香欧美五月| 久久人妻熟女aⅴ| 午夜福利成人在线免费观看| 亚洲国产精品合色在线| 国产不卡一卡二| 国产亚洲精品久久久久5区| 在线av久久热| 91九色精品人成在线观看| 久久国产精品男人的天堂亚洲| 久久中文字幕人妻熟女| 性欧美人与动物交配| 777久久人妻少妇嫩草av网站| 啦啦啦免费观看视频1| 精品免费久久久久久久清纯| 欧美成人免费av一区二区三区| 超碰成人久久| 两个人免费观看高清视频| a在线观看视频网站| 亚洲欧美日韩高清在线视频| 亚洲电影在线观看av| 亚洲精品美女久久久久99蜜臀| 黄色片一级片一级黄色片| 脱女人内裤的视频| 午夜精品国产一区二区电影| 国产欧美日韩精品亚洲av| 18禁黄网站禁片午夜丰满| 在线观看舔阴道视频| 国产一区在线观看成人免费| 国产精品久久久久久人妻精品电影| www.熟女人妻精品国产| 亚洲国产高清在线一区二区三 | 亚洲av五月六月丁香网| 亚洲国产看品久久| 亚洲黑人精品在线| 丰满人妻熟妇乱又伦精品不卡| 亚洲av五月六月丁香网| 亚洲视频免费观看视频| 麻豆国产av国片精品| 窝窝影院91人妻| 国产男靠女视频免费网站| а√天堂www在线а√下载| 国产精品久久电影中文字幕| 精品国产超薄肉色丝袜足j| 91麻豆精品激情在线观看国产| 国产高清有码在线观看视频 | 身体一侧抽搐| 久久久久久久午夜电影| 国产97色在线日韩免费| 国产男靠女视频免费网站| av在线天堂中文字幕| 桃色一区二区三区在线观看| 欧美绝顶高潮抽搐喷水| 国产高清激情床上av| av福利片在线| 国产精品乱码一区二三区的特点 | 精品无人区乱码1区二区| 亚洲自偷自拍图片 自拍| 久久国产精品男人的天堂亚洲| 色精品久久人妻99蜜桃| 9色porny在线观看| 999精品在线视频| 欧美激情高清一区二区三区| www.熟女人妻精品国产| 国产精品综合久久久久久久免费 | 欧美日韩福利视频一区二区| 一区二区三区国产精品乱码| 午夜福利欧美成人| 久久久久国内视频| 黄色毛片三级朝国网站| 丁香欧美五月| 狠狠狠狠99中文字幕| 50天的宝宝边吃奶边哭怎么回事| 国产精品久久久久久亚洲av鲁大| 男女之事视频高清在线观看| 国产日韩一区二区三区精品不卡| 午夜精品国产一区二区电影| 一夜夜www| 午夜免费鲁丝| 午夜福利18| 欧美成人一区二区免费高清观看 | 亚洲专区国产一区二区| 老汉色av国产亚洲站长工具| 欧美中文日本在线观看视频| 亚洲国产高清在线一区二区三 | 亚洲视频免费观看视频| 久久香蕉激情| 老司机深夜福利视频在线观看| 男人舔女人下体高潮全视频| 久久久久国内视频| 国产成人精品久久二区二区免费| 成人三级黄色视频| 欧美乱妇无乱码| 欧美 亚洲 国产 日韩一| 在线免费观看的www视频| 极品人妻少妇av视频| 色婷婷久久久亚洲欧美| 深夜精品福利| 狂野欧美激情性xxxx| 黄网站色视频无遮挡免费观看| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲七黄色美女视频| 国产日韩一区二区三区精品不卡| 悠悠久久av| 亚洲av熟女| 亚洲色图综合在线观看| 国产在线观看jvid| 成人手机av| 女性被躁到高潮视频| 99在线人妻在线中文字幕| 精品日产1卡2卡| 日本免费一区二区三区高清不卡 | 国产熟女xx| 丰满的人妻完整版| 亚洲欧美激情综合另类| 亚洲中文字幕日韩| 久久人妻熟女aⅴ| 久久青草综合色| 精品一品国产午夜福利视频| 亚洲人成电影免费在线| 成人国产综合亚洲| 国产精品日韩av在线免费观看 | 国产男靠女视频免费网站| 久久精品成人免费网站| 91九色精品人成在线观看| 在线免费观看的www视频| 精品欧美一区二区三区在线| 国产成人欧美| 亚洲国产欧美一区二区综合| 看黄色毛片网站| 亚洲第一av免费看| tocl精华| 曰老女人黄片| 淫秽高清视频在线观看| 最新美女视频免费是黄的| 久久国产精品男人的天堂亚洲| 一区在线观看完整版| 欧美 亚洲 国产 日韩一| 在线天堂中文资源库| 免费久久久久久久精品成人欧美视频| 18禁观看日本| 大香蕉久久成人网| 老熟妇乱子伦视频在线观看| 国产精品自产拍在线观看55亚洲| 黑人欧美特级aaaaaa片| 啦啦啦免费观看视频1| 精品一区二区三区四区五区乱码| 女同久久另类99精品国产91| 国产伦人伦偷精品视频| 久久人人爽av亚洲精品天堂| 涩涩av久久男人的天堂| 在线观看免费日韩欧美大片| 久久精品亚洲精品国产色婷小说| 国产91精品成人一区二区三区| 午夜福利影视在线免费观看| 久热爱精品视频在线9| 香蕉丝袜av| 看片在线看免费视频| 男女做爰动态图高潮gif福利片 | 一级毛片高清免费大全| 午夜免费观看网址| 久久久久国产一级毛片高清牌| 黄色 视频免费看| a级毛片在线看网站| 国产成+人综合+亚洲专区| 女生性感内裤真人,穿戴方法视频| av天堂久久9| 99re在线观看精品视频| 亚洲欧美激情综合另类| 999久久久精品免费观看国产| 亚洲av熟女| 香蕉久久夜色| 19禁男女啪啪无遮挡网站| 9色porny在线观看| 中文字幕色久视频| 亚洲电影在线观看av| 大型av网站在线播放| 黑人操中国人逼视频| 亚洲精品粉嫩美女一区| 欧美大码av| 久久国产精品男人的天堂亚洲| 国产精品美女特级片免费视频播放器 | 国内久久婷婷六月综合欲色啪| 波多野结衣高清无吗| 亚洲成av人片免费观看| 久热爱精品视频在线9| 日日干狠狠操夜夜爽| 欧美乱色亚洲激情| 露出奶头的视频| 人妻丰满熟妇av一区二区三区| 免费av毛片视频| 熟女少妇亚洲综合色aaa.| 精品久久久久久,| aaaaa片日本免费| 午夜福利高清视频| 午夜精品在线福利| 亚洲熟女毛片儿| 亚洲黑人精品在线| 天天一区二区日本电影三级 | 亚洲精品av麻豆狂野| 国产一卡二卡三卡精品| 法律面前人人平等表现在哪些方面| 亚洲成人精品中文字幕电影| 欧美日韩一级在线毛片| 精品国产国语对白av| 国产私拍福利视频在线观看| 法律面前人人平等表现在哪些方面| 波多野结衣高清无吗| 在线观看免费午夜福利视频| 一本大道久久a久久精品| 亚洲视频免费观看视频| 日本在线视频免费播放| ponron亚洲| 国产成人精品无人区| 一本大道久久a久久精品| 俄罗斯特黄特色一大片| 午夜日韩欧美国产| 亚洲精品粉嫩美女一区| xxx96com| 精品人妻在线不人妻| 亚洲国产中文字幕在线视频| 亚洲少妇的诱惑av| 非洲黑人性xxxx精品又粗又长| 黄色 视频免费看| 久9热在线精品视频| 激情视频va一区二区三区| 高清毛片免费观看视频网站| 亚洲欧美精品综合一区二区三区| 亚洲欧美一区二区三区黑人| 熟妇人妻久久中文字幕3abv| 日韩视频一区二区在线观看| 精品高清国产在线一区| 99在线人妻在线中文字幕| 高潮久久久久久久久久久不卡| 黄片小视频在线播放| 日韩欧美国产在线观看| 欧美黑人精品巨大| 91麻豆av在线| 美女大奶头视频| www国产在线视频色| 国产精品久久久av美女十八| 狂野欧美激情性xxxx| 日韩成人在线观看一区二区三区| 国内精品久久久久久久电影| 伊人久久大香线蕉亚洲五| 18禁黄网站禁片午夜丰满| 日韩免费av在线播放| 久99久视频精品免费| 999久久久国产精品视频| 中文字幕人妻熟女乱码| 动漫黄色视频在线观看| 桃红色精品国产亚洲av| 成人特级黄色片久久久久久久| 久久久久国内视频| 国产精品亚洲一级av第二区| 欧美成人一区二区免费高清观看 | 成人av一区二区三区在线看| 制服诱惑二区| 亚洲电影在线观看av| 成年人黄色毛片网站| 一区二区三区激情视频| 高清毛片免费观看视频网站| 夜夜看夜夜爽夜夜摸| 两性夫妻黄色片| 亚洲精品中文字幕在线视频| 久久午夜亚洲精品久久| 色哟哟哟哟哟哟| 波多野结衣一区麻豆| 999精品在线视频| 日韩有码中文字幕| 国产精品久久久久久亚洲av鲁大| 亚洲人成电影免费在线| 精品一区二区三区视频在线观看免费| 色精品久久人妻99蜜桃| 久热爱精品视频在线9| 日韩大码丰满熟妇| 动漫黄色视频在线观看| 欧美色视频一区免费| 欧美一区二区精品小视频在线| 人人妻人人澡人人看| 99国产极品粉嫩在线观看| 亚洲免费av在线视频| 精品国产一区二区三区四区第35| 桃色一区二区三区在线观看| 美女大奶头视频| 一卡2卡三卡四卡精品乱码亚洲| 美女午夜性视频免费| 精品久久久久久成人av| 国产精品久久久人人做人人爽| 国产精品一区二区在线不卡| 日本精品一区二区三区蜜桃| 日日爽夜夜爽网站| 天天添夜夜摸| 国产免费男女视频| 啪啪无遮挡十八禁网站| 午夜两性在线视频| 国产熟女午夜一区二区三区| 国产精品综合久久久久久久免费 | 国产99久久九九免费精品| 久久久久久久午夜电影| 精品久久久精品久久久| 亚洲国产精品成人综合色| 欧美成人午夜精品| 国产熟女午夜一区二区三区| 伊人久久大香线蕉亚洲五| 日本撒尿小便嘘嘘汇集6| 国产精品久久久av美女十八| 法律面前人人平等表现在哪些方面| 国产精品久久久人人做人人爽| 国产片内射在线| 免费高清视频大片| 亚洲av片天天在线观看| 久久人妻熟女aⅴ| 国语自产精品视频在线第100页| 又大又爽又粗| ponron亚洲| 女人被狂操c到高潮| 国产真人三级小视频在线观看| 国产成人啪精品午夜网站| 欧美黄色片欧美黄色片| 免费一级毛片在线播放高清视频 | 国产成人免费无遮挡视频| 国产一区二区三区在线臀色熟女| 美国免费a级毛片| 电影成人av| 午夜视频精品福利| 欧美色欧美亚洲另类二区 |