• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    文本生成領(lǐng)域的深度強(qiáng)化學(xué)習(xí)研究進(jìn)展

    2020-06-08 14:39:14張德政崔家瑞
    工程科學(xué)學(xué)報 2020年4期
    關(guān)鍵詞:深度動作文本

    徐 聰,李 擎,張德政,陳 鵬,崔家瑞

    1) 北京科技大學(xué)自動化學(xué)院,北京 100083 2) 材料領(lǐng)域知識工程北京市重點(diǎn)實(shí)驗(yàn)室,北京 100083 3) 北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院,北京 100083

    由于深度學(xué)習(xí)的興盛,強(qiáng)化學(xué)習(xí)和自然語言處理技術(shù)都得到了巨大的發(fā)展,突破了各自在傳統(tǒng)方法上的瓶頸. 如今越來越多研究將強(qiáng)化學(xué)習(xí)的強(qiáng)大決策能力應(yīng)用于自然語言處理的各個任務(wù)之中,都取得了不錯的進(jìn)展. 本文首先簡要介紹深度強(qiáng)化學(xué)習(xí)和文本生成任務(wù),然后分別梳理三類深度強(qiáng)化學(xué)習(xí)方法在文本生成任務(wù)中的應(yīng)用以及各自的優(yōu)缺點(diǎn),最后對深度強(qiáng)化學(xué)習(xí)技術(shù)和自然語言處理任務(wù)相結(jié)合的前景與方向進(jìn)行總結(jié).

    1 簡介

    1.1 深度強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement learning)通常用來解決科學(xué)、工程甚至經(jīng)濟(jì)文化等眾多領(lǐng)域中的序列決策問題[1]. 強(qiáng)化學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的結(jié)合可以追溯到20世紀(jì)90年代,而直到近年來由于深度學(xué)習(xí)和大數(shù)據(jù)的驚人成就以及硬件計(jì)算能力的大幅提升,才使得強(qiáng)化學(xué)習(xí)迎來了一次復(fù)興,同時也使深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning, DRL)成為目前人工智能科學(xué)中最熱門的研究領(lǐng)域之一.

    谷歌的深度思維團(tuán)隊(duì)是深度強(qiáng)化學(xué)習(xí)的主要提出者和研究者,他們于2015年在《Nature》雜志上提出了深度Q網(wǎng)絡(luò)(Deep Q-network,DQN)[2],并讓其學(xué)習(xí)如何操作Atari視頻游戲,最終在49個游戲中取得了高于人類專業(yè)玩家的得分. 2016年,他們提出了蒙特卡羅樹搜索和深度強(qiáng)化學(xué)習(xí)相結(jié)合的算法?人工智能算法(AlphaGo),在與職業(yè)九段棋手李世石的對弈中以4∶1取得勝利,并將算法發(fā)表于同年的《Nature》雜志上[3]. 在此基礎(chǔ)上,深度思維團(tuán)隊(duì)用這套算法的改進(jìn)版本挑戰(zhàn)世界排名第一的中國棋手柯潔,以3∶0的巨大優(yōu)勢取勝.這意味著以深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)為代表的人工智能算法,已經(jīng)能夠在一些極其復(fù)雜的博弈環(huán)境中超越人類頂尖專家的水平.

    深度強(qiáng)化學(xué)習(xí)利用深度學(xué)習(xí)非線性模型的強(qiáng)大感知能力對復(fù)雜環(huán)境狀態(tài)進(jìn)行表征[4],利用強(qiáng)化學(xué)習(xí)的決策優(yōu)化能力針對不同環(huán)境狀態(tài)進(jìn)行動作選擇[5]. 將兩種算法結(jié)合構(gòu)成了基本的深度強(qiáng)化學(xué)習(xí)的框架,如圖1所示,這樣的過程也類似人類進(jìn)行認(rèn)知決策的過程,先通過眼睛感知周圍環(huán)境的狀態(tài),再通過大腦進(jìn)行動作選擇. 其后大部分的深度強(qiáng)化學(xué)習(xí)改進(jìn)算法也基本遵循這個框架原理[6].

    圖 1 深度強(qiáng)化學(xué)習(xí)的基本框架Fig.1 Framework of deep reinforcement learning

    1.2 自然語言處理中的文本生成任務(wù)

    自然語言處理(Natural language processing,NLP)是利用計(jì)算機(jī)技術(shù)對人類語言進(jìn)行自動分析和表征的方法及理論的總稱. 自然語言處理研究的目的是讓計(jì)算機(jī)能夠運(yùn)行各種層次的自然語言相關(guān)任務(wù),包括分詞、詞性標(biāo)注、機(jī)器翻譯、對話系統(tǒng). 近二十年來,自然語言問題都是利用機(jī)器學(xué)習(xí)方法基于高維且稀疏的特征來訓(xùn)練淺層模型.而隨著深度學(xué)習(xí)方法的發(fā)展,稠密矩陣表征(Dense vector representations)的方法使得很多自然語言處理任務(wù)取得了更加優(yōu)秀的結(jié)果[7]. 隨后詞向量的成功使用加速推動了深度學(xué)習(xí)在自然語言處理中的應(yīng)用[8],與以往淺層模型相比,深度學(xué)習(xí)能夠自動表征多層次的特征而不依賴先驗(yàn)知識進(jìn)行手工提取特征,這就避免了手工提取特征通常耗費(fèi)時間又不夠完整的缺點(diǎn). 深度學(xué)習(xí)和自然語言處理發(fā)展到現(xiàn)在,已經(jīng)能夠部分解決一些相對復(fù)雜的文本生成任務(wù),例如對話系統(tǒng)、機(jī)器翻譯、圖像描述和自動摘要等[6].

    對話系統(tǒng)通常也被叫作聊天機(jī)器人,或者基于自然語言的人機(jī)交互. 他們通常分為兩種:一種是面向特定任務(wù)的,目的是幫助用戶完成特定的任務(wù);一種是開放領(lǐng)域的,以聊天交流為主要目的[9].任務(wù)導(dǎo)向的對話系統(tǒng)(Task-oriented spoken dialogue systems)可以完成類似預(yù)定酒店、提供餐廳信息和獲取公交時間表等任務(wù). 這類系統(tǒng)通常依賴結(jié)構(gòu)化的本體或者數(shù)據(jù)庫,他們提供了系統(tǒng)交談所需要的領(lǐng)域知識;而開放領(lǐng)域?qū)υ挷皇且蕴峁┬畔槟康?,一般是以與用戶交流的情感體驗(yàn)為目標(biāo)[10].任務(wù)導(dǎo)向的對話系統(tǒng)通常使用的數(shù)據(jù)集有劍橋地區(qū)餐廳信息對話數(shù)據(jù)集[11]、舊金山餐廳信息對話數(shù)據(jù)集[12]、對話系統(tǒng)技術(shù)挑戰(zhàn)(Dialog system technology challenge, DSTC)[13]、斯坦福多輪多領(lǐng)域?qū)υ挃?shù)據(jù)集[14];開放領(lǐng)域數(shù)據(jù)集一般是電影對白(Opensubtitles)、推特(Twitter)、微博等社交聊天記錄、烏班圖(Ubuntu)對話集[15](表1).

    機(jī)器翻譯是計(jì)算機(jī)發(fā)展之初就企圖解決的問題之一,目的是實(shí)現(xiàn)機(jī)器自動將一種語言轉(zhuǎn)化為另一種語言. 早期方法是語言學(xué)家手動編寫翻譯規(guī)則實(shí)現(xiàn)機(jī)器翻譯,但是人工設(shè)計(jì)規(guī)則的代價非常大,對語言學(xué)家的翻譯功底要求非常高,并且規(guī)則很難覆蓋所有的語言現(xiàn)象. 之后國際商業(yè)機(jī)器公司(IBM)在上世紀(jì)九十年代提出了統(tǒng)計(jì)機(jī)器翻譯的方法[16],這種方法只需要人工設(shè)計(jì)基于詞、短語和句子的各種特征,提供足夠多的雙語語料,就能相對快速地構(gòu)建一套統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)(Statistical machine translation, SMT),大大減少了翻譯系統(tǒng)設(shè)計(jì)研發(fā)的難度,翻譯性能也超越了基于規(guī)則的方法[17]. 于是機(jī)器翻譯也從語言學(xué)家主導(dǎo)轉(zhuǎn)向計(jì)算機(jī)科學(xué)家主導(dǎo),在學(xué)術(shù)界和產(chǎn)業(yè)界中基于統(tǒng)計(jì)的方法也逐漸取代了基于規(guī)則的方法.隨著深度學(xué)習(xí)不斷在圖像和語音領(lǐng)域的各類任務(wù)中達(dá)到最先進(jìn)水平,機(jī)器翻譯的研究者也開始使用深度學(xué)習(xí)技術(shù)[18]. 2014年谷歌的Sutskever等提出了序列到序列(Sequence to sequence, Seq2Seq)方法[19],同年,蒙特利爾大學(xué)的Cho等提出了類似的編碼-解碼(Encoder-decoder)框架[20],之后幾乎所有的神經(jīng)機(jī)器翻譯(Neural machine translation, NMT)都是基于他們的模型進(jìn)行改進(jìn)實(shí)現(xiàn)的[21]. 直到注意力機(jī)制的出現(xiàn),才真正使得神經(jīng)機(jī)器翻譯在翻譯質(zhì)量上開始超越統(tǒng)計(jì)機(jī)器翻譯,逐步統(tǒng)治機(jī)器翻譯領(lǐng)域. 基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯僅用不到三年時間,已經(jīng)成為各類自然語言處理國際會議中主要的機(jī)器翻譯研究方法,同時也成為谷歌[22]、百度[23]、微軟等商用機(jī)器翻譯系統(tǒng)的核心方法. 機(jī)器翻譯文獻(xiàn)中一般使用的平行語料是世界機(jī)器翻譯大會(The conference on machine translation, WMT)數(shù)據(jù)集[24],其中包含英法、英德、英俄等對照翻譯語句.

    圖像生成描述任務(wù)是用一個或者多個句子描述圖片內(nèi)容,涉及機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域,需要讓模型能理解圖片內(nèi)容和圖像的語義信息,并且能生成人類可讀的正確描述.此類任務(wù)也可以看作和上述機(jī)器翻譯類似的過程,即翻譯一張圖片成為一段描述性文字[25]. 所以可以借鑒機(jī)器翻譯任務(wù)的很多方法和基礎(chǔ)框架,通常也是采用編碼-解碼器模型,編碼器編碼一張圖片而解碼器解碼生成一段文字. 生成圖像描述任務(wù)有很廣泛的應(yīng)用前景,例如基于文字的圖像檢索,為盲人用戶提供幫助[26],人類與機(jī)器人交互等場景. 論文中常用數(shù)據(jù)集為Flickr8k[27],lick30k[28],MSCOCO[29]等.

    上述文本生成任務(wù)中存在大量難以建模表征的決策問題,而使用監(jiān)督學(xué)習(xí)還不足以解決這樣復(fù)雜情景的決策任務(wù). 于是具有強(qiáng)大表征和決策能力的深度強(qiáng)化學(xué)習(xí)可以很好應(yīng)用于此類自然語言處理任務(wù)之中,近年來關(guān)于這方面的研究也涌現(xiàn)出很多優(yōu)秀的方法和思想,下面首先介紹深度強(qiáng)化學(xué)習(xí)的分類和主要算法,然后結(jié)合文本生成任務(wù),詳細(xì)分析各種算法的創(chuàng)新點(diǎn)和優(yōu)勢,以及如何利用深度強(qiáng)化學(xué)習(xí)提高各類文本生成任務(wù)的效果.

    表 1 對話數(shù)據(jù)集內(nèi)容概覽Table 1 Summary of dialogue datasets

    2 深度強(qiáng)化學(xué)習(xí)的分類

    深度強(qiáng)化學(xué)習(xí)是將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合起來,實(shí)現(xiàn)從感知到動作的端到端學(xué)習(xí)的全新方法. 在人工智能中,一般用代理(Agent)表示一個具備行為能力的物體,比如機(jī)器人、無人車、人等等. 那么強(qiáng)化學(xué)習(xí)就是一個代理隨著時間的推移不斷地與環(huán)境進(jìn)行交互學(xué)習(xí)的過程. 在t時刻,代理接受一個狀態(tài)st并且遵循策略π(at|st)從動作空間A中 選擇一個動作at作用于環(huán)境,接收環(huán)境反饋的獎賞rt,并且依據(jù)概率P(st+1|st,at)轉(zhuǎn)換到下一個狀態(tài)st+1. 強(qiáng)化學(xué)習(xí)的最終目的是通過調(diào)整自身策略來最大化累計(jì)獎賞,其中λ∈[0,1]表示折扣因子. 而值函數(shù)(Value function)是用來預(yù)測累計(jì)獎賞的期望大小,衡量某個狀態(tài)或者狀態(tài)-動作對的好壞. 假定初始狀態(tài)s0=s,依據(jù)策略π的狀態(tài)值函數(shù)為;同時假定初始動作為a0=a,則狀態(tài)?動作值函數(shù)為. 而根據(jù)或者可以得到最優(yōu)策略π?.

    深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的主要方式是利用深度神經(jīng)網(wǎng)絡(luò)近似任意一個強(qiáng)化學(xué)習(xí)的組成部分,包含值函數(shù)V(s;θ)或者Q(s,a;θ),策略π(a|s;θ)和模型(狀態(tài)轉(zhuǎn)移和獎勵),其中參數(shù)θ是深度神經(jīng)網(wǎng)絡(luò)的權(quán)重. 通常使用隨機(jī)梯度下降方法更新深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)參數(shù). 下面介紹一些重要的深度強(qiáng)化學(xué)習(xí)方法.

    2.1 基于值函數(shù)的方法

    基于值函數(shù)(Value-bBased)方法是利用深度神經(jīng)網(wǎng)絡(luò)近似強(qiáng)化學(xué)習(xí)中的值函數(shù)部分,其策略部分并不顯現(xiàn)出來而是隱含在值函數(shù)的分布之中,通過選擇最大值函數(shù)的動作獲得策略.

    Mnih等首次介紹了深度Q網(wǎng)絡(luò)[2]并且?guī)恿松疃葟?qiáng)化學(xué)習(xí)這一研究領(lǐng)域. 他們創(chuàng)造性的解決了利用非線性函數(shù)近似Q函數(shù)時容易導(dǎo)致算法不穩(wěn)定甚至無法收斂的問題. 其主要方法是使用經(jīng)驗(yàn)回放機(jī)制和目標(biāo)網(wǎng)絡(luò),也就是在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)近似Q函數(shù)時隨機(jī)抽取之前訓(xùn)練過程保存的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)參數(shù)更新,同時網(wǎng)絡(luò)的參數(shù)并不是立刻更新,而是通過目標(biāo)網(wǎng)絡(luò)進(jìn)行保存,Q網(wǎng)絡(luò)定期與目標(biāo)網(wǎng)絡(luò)進(jìn)行參數(shù)同步,具體訓(xùn)練流程如圖2.他們的工作開創(chuàng)性的實(shí)現(xiàn)了端到端的深度強(qiáng)化學(xué)習(xí)過程,整個學(xué)習(xí)過程基本不需要先驗(yàn)知識以及人工參與,并且在學(xué)習(xí)視頻游戲的任務(wù)中取得了很好的實(shí)驗(yàn)結(jié)果,大部分游戲的成績都超過了人類專家.

    圖 2 深度Q網(wǎng)絡(luò)的訓(xùn)練流程Fig.2 Training process of deep Q-network

    隨后有研究者發(fā)現(xiàn)標(biāo)準(zhǔn)的深度Q網(wǎng)絡(luò)存在過高估計(jì)的問題,其原因是深度Q網(wǎng)絡(luò)使用了同一個Q網(wǎng)絡(luò)進(jìn)行動作評估和動作選擇,導(dǎo)致了估計(jì)誤差的出現(xiàn). 于是Van Hasselt等[30]提出了使用Q網(wǎng)絡(luò)進(jìn)行動作選擇,而使用目標(biāo)網(wǎng)絡(luò)對動作進(jìn)行評估. Schaul等[31]認(rèn)為標(biāo)準(zhǔn)Q網(wǎng)絡(luò)使用經(jīng)驗(yàn)回放時是同等概率進(jìn)行采樣,沒有考慮歷史數(shù)據(jù)不同的重要程度,所以他們提出利用時序差分(Temporal-difference, TD)誤差來衡量歷史數(shù)據(jù)的重要性,重要的數(shù)據(jù)會被更多的采樣,以提高學(xué)習(xí)效率. Wang等[32]提出了一種競爭網(wǎng)絡(luò)結(jié)構(gòu),兩個網(wǎng)絡(luò)分別輸出狀態(tài)值函數(shù)和優(yōu)勢函數(shù),再把它們合并起來輸出動作-狀態(tài)值函數(shù),并通過實(shí)驗(yàn)證明相比深度Q網(wǎng)絡(luò)更快的收斂速度和更好的評估策略.

    2.2 基于策略的方法

    因?yàn)榛谥岛瘮?shù)結(jié)合的方式需要完全計(jì)算所有動作的值函數(shù),再貪婪地選擇值函數(shù)最大的動作,所以這種方法通常無法很好的應(yīng)用在具有高維度或者連續(xù)動作空間的問題之中. 而基于策略(Policy-based)結(jié)合的方式,直接用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)策略,網(wǎng)絡(luò)參數(shù)也就是策略的表征,因此可以直接在策略網(wǎng)絡(luò)上進(jìn)行優(yōu)化,輸出最終動作. 基于策略結(jié)合的方法對比基于值函數(shù)結(jié)合的方法,擁有更好的收斂性,能夠更有效地應(yīng)用在高維度或者連續(xù)動作空間中,并且可以學(xué)習(xí)到隨機(jī)策略. 然而由于沒有值函數(shù),基于策略的方法對于策略的評估較慢,必須在與環(huán)境交互的過程中進(jìn)行評價.

    Schulman等[33]提出了一種可以單調(diào)提升策略的迭代過程,并且通過對理論公式做近似,給出了可以并行的學(xué)習(xí)算法——信賴域策略優(yōu)化(Trust region policy optimization, TRPO). 作者還經(jīng)過分析后統(tǒng)一了標(biāo)準(zhǔn)的策略梯度和神經(jīng)網(wǎng)絡(luò)的策略梯度. 信賴域策略優(yōu)化算法用聯(lián)合梯度計(jì)算神經(jīng)網(wǎng)絡(luò)梯度的方向,最后在仿真機(jī)器人的多項(xiàng)任務(wù)中都取得了比較好的效果. 2017年Kandasamy等[34]針對神經(jīng)對話模型提出了批策略梯度(Batch policy gradient)方法,作者認(rèn)為采用離策略而非在策略的更新方式更適合序列到序列模型,能夠保證梯度的穩(wěn)定下降. 此外還提出批策略迭代方法,通過保存的動作和獎勵按批次進(jìn)行梯度計(jì)算更新目標(biāo)策略.

    2.3 值函數(shù)-策略方法

    基于值函數(shù)和策略結(jié)合的方法對應(yīng)于傳統(tǒng)強(qiáng)化學(xué)習(xí)中的動作者-評價者(Actor-critic)方法[35],它融合了只用評價者(Critic-only)方法變異性小和只用動作者(Actor-only)容易處理連續(xù)動作的優(yōu)點(diǎn). 這類算法利用網(wǎng)絡(luò)參數(shù)化的動作者網(wǎng)絡(luò)生成動作,利用評價者網(wǎng)絡(luò)為動作者網(wǎng)絡(luò)提供方差較小的梯度估計(jì)[36].

    Mnih等提出了一種異步的強(qiáng)化學(xué)習(xí)方法(Asynchronous advantage actor-critic, A3C)[37],多個并行的動作者利用不同的探索策略來穩(wěn)定訓(xùn)練過程,因此不需要經(jīng)驗(yàn)回放機(jī)制參與訓(xùn)練. 異步強(qiáng)化學(xué)習(xí)算法能夠比深度Q網(wǎng)絡(luò)、深度雙Q網(wǎng)絡(luò)、加入競爭機(jī)制的深度雙Q網(wǎng)絡(luò)等算法獲得更高的運(yùn)行效率并且能夠很好的應(yīng)用在連續(xù)控制問題中.Lillicrap等也同樣提出了一種改進(jìn)的動作者?評價者方法——深度確定性策略梯度(Deep deterministic policy gradient, DDPG)[38],該算法可以認(rèn)為是深度Q網(wǎng)絡(luò)在連續(xù)動作空間的版本,它利用Sliver提出的確定性策略梯度(Deterministic policy gradient)算法結(jié)合動作者-評價者方法解決了深度Q網(wǎng)絡(luò)不能在連續(xù)或者高維度動作空間中應(yīng)用的問題,通過實(shí)驗(yàn)證明了該算法能夠從低維度的觀測數(shù)據(jù)中學(xué)習(xí)到復(fù)雜的策略. Kulkarni等提出了無模型和基于模型兩種算法之外的另一種深度強(qiáng)化學(xué)習(xí)算法,稱為深度繼承表征(Deep successor representations,DSR)[39]. 深度繼承表征算法由一個獎勵預(yù)測網(wǎng)絡(luò)(Reward predictor)和一個繼承狀態(tài)映射網(wǎng)絡(luò)(Successor map)組成,它的優(yōu)點(diǎn)是對末端的獎勵變化很敏感,并且能夠提取子目標(biāo)從而突破一些瓶頸狀態(tài),目前也已經(jīng)應(yīng)用于文本生成任務(wù)之中,取得了較好的效果[40].

    3 深度強(qiáng)化學(xué)習(xí)在文本生成中的應(yīng)用

    隨著近兩年深度強(qiáng)化學(xué)習(xí)在決策和控制領(lǐng)域獲得成功,更多的研究者開始把深度強(qiáng)學(xué)習(xí)應(yīng)用在各種不同領(lǐng)域,例如視覺導(dǎo)航[41]、策略游戲[42]、細(xì)粒度圖像分類[43]、自動構(gòu)建神經(jīng)網(wǎng)絡(luò)[44]、網(wǎng)絡(luò)服務(wù)個性化[45]. 自然語言領(lǐng)域中也有不少研究者開始使用深度強(qiáng)化學(xué)習(xí)來改進(jìn)現(xiàn)有的網(wǎng)絡(luò)模型結(jié)構(gòu)或者是建模流程[46?47]. 在自然語言處理的文本生成領(lǐng)域中,如對話系統(tǒng)、機(jī)器翻譯、圖像生成描述和自動摘要等任務(wù)都有很多成功使用深度強(qiáng)化學(xué)習(xí)的文章發(fā)表.

    深度強(qiáng)化學(xué)習(xí)和文本生成任務(wù)的結(jié)合一般是把生成文本的過程看成是生成動作[48],模型需要根據(jù)一些環(huán)境信息學(xué)習(xí)文本生成的策略,環(huán)境信息在不同任務(wù)中是不一樣的,可以有不同的設(shè)計(jì)方式. 下面根據(jù)強(qiáng)化學(xué)習(xí)模型的類別介紹一些代表性工作.

    3.1 基于值函數(shù)

    這種方法一般是利用深度Q網(wǎng)絡(luò)及其改進(jìn)算法,將生成文本任務(wù)看作是序列決策任務(wù),狀態(tài)和動作都是自然語言的形式,例如人機(jī)對話、基于文本的游戲等.

    Narasimhan等[49]最早將深度Q網(wǎng)絡(luò)應(yīng)用在自然語言相關(guān)的任務(wù)中,他們在深度思維團(tuán)隊(duì)把深度強(qiáng)化學(xué)習(xí)應(yīng)用于視頻游戲任務(wù)的基礎(chǔ)上,把相同的算法框架移植到文本游戲當(dāng)中. 不同于視頻游戲中算法的狀態(tài)是游戲畫面,文本游戲的狀態(tài)是基于文字的,通常是一段比較長的介紹性文字,需要算法給出一個合適的動作使游戲進(jìn)入下一個狀態(tài). 作者通過循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks, RNN)[50]的一個變種長短期記憶網(wǎng)絡(luò)(Long short-term memory, LSTM)來讀取狀態(tài)信息并生成相應(yīng)的向量表示[51],將向量化的狀態(tài)表示輸入到多個多層神經(jīng)網(wǎng)絡(luò)中,每個網(wǎng)絡(luò)輸出的是動作指令中每個單詞的狀態(tài)值函數(shù),本工作中假設(shè)動作指令都是一個動詞和一個形容詞的形式. 然后選擇每個動作中對應(yīng)狀態(tài)值函數(shù)最大的單詞組合成動作指令,作用到游戲中,使游戲轉(zhuǎn)移到下一個狀態(tài). 網(wǎng)絡(luò)的訓(xùn)練方式也和傳統(tǒng)深度Q網(wǎng)絡(luò)相似,利用帶優(yōu)先次序的經(jīng)驗(yàn)回放機(jī)制穩(wěn)定網(wǎng)絡(luò)的訓(xùn)練過程. 最后作者用實(shí)驗(yàn)比較了隨機(jī)策略算法、長短期記憶網(wǎng)絡(luò)?深度Q網(wǎng)絡(luò)(LSTM?DQN)算法和利用傳統(tǒng)的詞袋模型BOW(Bag of words)或者二元詞袋BI(Bag of bigrams)文本表示方法結(jié)合深度Q網(wǎng)絡(luò)的算法,結(jié)果表明長短期記憶網(wǎng)絡(luò)?深度Q網(wǎng)絡(luò)在多個文本游戲中都取得較好得分.

    He等[52]不贊同Narasimhan把動作空間當(dāng)作是有限和已知的做法,他們認(rèn)為很多文本游戲中候選動作指令的詞匯量是巨大的并且未知的,候選動作集合是靈活可變的,對于這些情況一般深度Q網(wǎng)絡(luò)的做法是每次決策的時候把所有候選動作和狀態(tài)組合后輸入最大動作-深度Q網(wǎng)絡(luò)(Maxaction DQN)或者把每一種候選動作分別和狀態(tài)組合后輸入每個動作-深度Q網(wǎng)絡(luò)(Per-action DQN).作者給出了一種改進(jìn)算法深度強(qiáng)化相關(guān)性網(wǎng)絡(luò)(Deep reinforcement relevance network, DRRN),不同于以往的深度Q網(wǎng)絡(luò)算法把狀態(tài)和動作組合后輸入同一個網(wǎng)絡(luò)計(jì)算狀態(tài)值函數(shù),深度強(qiáng)化相關(guān)性網(wǎng)絡(luò)把表示狀態(tài)的向量和表示動作的向量分別輸入兩個深度網(wǎng)絡(luò),然后把兩個網(wǎng)絡(luò)的輸出通過點(diǎn)乘結(jié)合在一起作為狀態(tài)值函數(shù). 這樣算法就能夠從狀態(tài)和動作兩個方面分別進(jìn)行理解表征,然后計(jì)算狀態(tài)和動作之間的關(guān)聯(lián)程度作為網(wǎng)絡(luò)輸出,訓(xùn)練網(wǎng)絡(luò)使得長期獎勵最大化. 實(shí)驗(yàn)結(jié)果表明深度強(qiáng)化相關(guān)性網(wǎng)絡(luò)算法對于給定候選動作的游戲能夠比最大動作-深度Q網(wǎng)絡(luò)(Max-action DQN)和每個動作-深度Q網(wǎng)絡(luò)(Per-action DQN)獲得更多的長期獎勵.

    上述工作將深度強(qiáng)化學(xué)習(xí)應(yīng)用在文本游戲中,面對的并不是典型的自然語言任務(wù). 由于游戲中涉及的動作指令詞匯一般數(shù)量較少或者提前給定了有限個候選動作指令,而自然語言處理中的文本生成任務(wù)通常會面臨巨大的詞匯空間,也就是擁有巨大的動作空間,因此簡單移植標(biāo)準(zhǔn)深度Q網(wǎng)絡(luò)算法是行不通的. 針對上述問題Guo[53]提出了一種新的算法框架解決文本生成問題中動作空間過大的難題. 作者利用常規(guī)的編碼-解碼模型中的解碼器為深度Q網(wǎng)絡(luò)生成候選動作,這樣就大大減少了深度Q網(wǎng)絡(luò)需要計(jì)算的動作數(shù)量,從上萬的詞匯空間減小到數(shù)十個候選詞匯. 此算法用t時刻輸入詞匯和輸出詞匯作為t時刻的狀態(tài),用度量相似性的評價指標(biāo)雙語評估替換指標(biāo)(Bilingual evaluation understudy, BLEU)[54]作為獎勵. 同時作者還嘗試使用雙向長短期記憶網(wǎng)絡(luò)作為深度Q網(wǎng)絡(luò)的網(wǎng)絡(luò)模型. 最后本文選取了10000條句子進(jìn)行編碼再解碼的訓(xùn)練,讓基于深度Q網(wǎng)絡(luò)改進(jìn)的解碼器盡量生成和輸入編碼器一致的句子. 實(shí)驗(yàn)結(jié)果表明基于深度Q網(wǎng)絡(luò)改進(jìn)的解碼器生成的句子比長短期記憶網(wǎng)絡(luò)形式的解碼器生成的句子更加順暢,即平均平滑雙語評價替換指標(biāo)(Average smoothed BLEU)更高.

    3.2 基于策略

    基于策略的方法與文本生成任務(wù)結(jié)合的方式通常是利用深度網(wǎng)絡(luò)學(xué)習(xí)生成詞語的策略,即用網(wǎng)絡(luò)參數(shù)表征詞語選擇的策略,網(wǎng)絡(luò)直接輸出詞語的標(biāo)記(Token)而非詞語對應(yīng)的值函數(shù),跳過了計(jì)算值函數(shù)的步驟,從根本上解決詞匯空間過大的問題,這種方法也稱作策略梯度方法(Policy gradient method)或策略網(wǎng)絡(luò)(Policy network)[55].

    Ranzato等[56]指出之前的文本生成任務(wù)中,訓(xùn)練模型時給定了文本序列中前面的真實(shí)詞語和一些上下文信息,讓模型預(yù)測接下來的詞語,而測試模型的時候并沒有文本序列中的真實(shí)詞語,只能依據(jù)前面生成的預(yù)測詞語和上下文信息生成下一個詞語. 一旦前幾個詞語生成的錯誤較大,就會導(dǎo)致錯誤一直疊加,使整個文本序列產(chǎn)生較大偏差.神經(jīng)網(wǎng)絡(luò)生成模型中的這種問題被稱之為暴露誤差問題[57]. 于是作者提出使用強(qiáng)化學(xué)習(xí)算法直接優(yōu)化生成句子任務(wù)的評價指標(biāo),如雙語評估替換指標(biāo)或者基于召回率替換的主旨評價標(biāo)準(zhǔn)(Recalloriented understudy for gisting evaluation, ROUGE)[58].

    為了使用強(qiáng)化學(xué)習(xí)算法解決文本序列生成問題,作者把循環(huán)神經(jīng)網(wǎng)絡(luò)RNN結(jié)構(gòu)的文本生成模型看作一個代理,它與外部環(huán)境進(jìn)行交互,也就是把詞語和上下文信息作為環(huán)境的狀態(tài)輸入到代理中. 代理的參數(shù)表征策略,運(yùn)行策略就能夠進(jìn)行動作的選擇. 同時作者把測試時候用的雙語評估替換指標(biāo)和基于召回率替換的二元主旨評價指標(biāo)(ROUGE-2)作為訓(xùn)練模型時的獎勵,優(yōu)化目標(biāo)是最大化獎勵的期望. 本工作還提出一個提高模型訓(xùn)練效果的算法——混合增量式交叉熵強(qiáng)化學(xué)習(xí)(Mixed incremental cross-entropy reinforce),算法的前s步按照以前的文本生成模型進(jìn)行預(yù)訓(xùn)練,優(yōu)化目標(biāo)是最小化生成文本和真實(shí)文本之間的交叉熵,s步之后直接把前面s步訓(xùn)練過的循環(huán)神經(jīng)網(wǎng)絡(luò)模型作為深度強(qiáng)化學(xué)習(xí)的策略網(wǎng)絡(luò),優(yōu)化目標(biāo)是最大化生成文本的期望獎勵. 將混合增量式交叉熵強(qiáng)化學(xué)習(xí)算法應(yīng)用到自動摘要、機(jī)器翻譯和圖像生成描述任務(wù)中相較于以前的改進(jìn)方法在四元雙語評估替換指標(biāo)(BLEU-4)和基于召回率替換的二元主旨評價指標(biāo)(ROUGE-2)指標(biāo)上都有不同程度的提升.

    Rennie等[59]同樣針對自然語言任務(wù)中的深度生成模型存在暴露誤差問題,提出了一種自評價序列訓(xùn)練的強(qiáng)化學(xué)習(xí)算法(Self-critical sequence training, SCST). 在上述Ranzato的工作中,為了達(dá)到減小策略波動的目的,他們使用線性回歸預(yù)估出的參考獎勵對實(shí)際獎勵進(jìn)行歸一化操作,作者認(rèn)為這種做法是沒有必要的. 文章中提出了另外一種獲取參考獎勵方法,可以避免訓(xùn)練預(yù)測模型,具體做法是使用測試時的算法輸出文本序列計(jì)算獎勵,將此獎勵作為參考獎勵. 測試時期和訓(xùn)練時期算法的區(qū)別是,前者取每個循環(huán)神經(jīng)網(wǎng)絡(luò)單元輸出概率最大的詞語組成預(yù)測的文本序列,這種方式也稱為貪婪式解碼(Greedy decoding);后者是對每個循環(huán)神經(jīng)網(wǎng)絡(luò)單元產(chǎn)生的詞語做蒙特卡羅抽樣,抽樣所得詞語組成預(yù)測文本序列. 然后對兩個網(wǎng)絡(luò)的輸出文本序列分別計(jì)算獎勵,當(dāng)抽樣得到句子獲得的獎勵低于貪婪式解碼方法得到句子的獎勵時,通過策略梯度的調(diào)整降低這句話出現(xiàn)的概率,反之提高其出現(xiàn)的概率. 他們使用基于共識的圖像描述評價(Consensus-based image description evaluation, CIDEr)[60]指標(biāo)作為獎勵函數(shù),在微軟帶有上下問的常見物體數(shù)據(jù)集(Microsoft common objects in context, COCO)上進(jìn)行實(shí)驗(yàn),獲得了當(dāng)時排名第一的成績,并且發(fā)現(xiàn)優(yōu)化基于共識的圖像描述評價指標(biāo)能夠使其他度量指標(biāo)如雙語替換評價指標(biāo),基于召回率替換的主旨評價指標(biāo),基于單精度的加權(quán)調(diào)和平均數(shù)和單字召回率的評價指標(biāo)(METEOR)[61]都得到提高.

    Wang等[62]的工作主要解決自動摘要中的一致性、多樣性問題,他們提出了一種具有聯(lián)合注意力機(jī)制和偏置概率生成機(jī)制的卷積序列到序列的模型. 上述機(jī)制能夠?qū)⒅黝}信息整合到自動摘要模型中,使得上下文信息能夠幫助模型生成更一致、更多樣和包含更多信息的摘要文本. 同時作者利用上文Rennie等提出的自評價的序列訓(xùn)練強(qiáng)化學(xué)習(xí)算法,直接優(yōu)化摘要任務(wù)的評價指標(biāo)基于召回率替換的主旨評價標(biāo)準(zhǔn),不僅解決了召回率替換的主旨評價標(biāo)準(zhǔn)作為優(yōu)化目標(biāo)導(dǎo)致模型不可導(dǎo)的問題,還免去了暴露誤差的影響. 他們利用提出的模型在多個數(shù)據(jù)集上取得了當(dāng)前最好成績.Wu等[63]為了提高自動摘要任務(wù)中上下文的一致性,設(shè)計(jì)了能夠計(jì)算一致性的獎勵模型,并將此獎勵融合到提出的強(qiáng)化神經(jīng)抽取式總結(jié)模型(Reinforced neural extractive summarization, RNES)中. 此模型同樣利用策略梯度方法進(jìn)行訓(xùn)練,最終能夠提高生成的摘要中跨越多個句子的語義信息一致性.

    開放領(lǐng)域?qū)υ捜蝿?wù)相較于其他文本生成任務(wù)而言,不只關(guān)注于生成下一句文本序列,還需要關(guān)注生成的回復(fù)對整個對話發(fā)展的影響. Li等[64]提出了利用強(qiáng)化學(xué)習(xí)對傳統(tǒng)序列到序列模型進(jìn)行改進(jìn),同樣利用循環(huán)神經(jīng)網(wǎng)絡(luò)表征生成對話回復(fù)的策略,優(yōu)化目標(biāo)是最大化未來獎勵的期望. 作者根據(jù)開放領(lǐng)域?qū)υ捜蝿?wù)的特點(diǎn),設(shè)計(jì)了三個指標(biāo)函數(shù)共同組成獎勵,他們分別評價生成語句的信息豐富性、連貫性和讓對方回復(fù)的難易度. 通過上述方法,在一定程度上可以避免對話系統(tǒng)出現(xiàn)無意義的語句、重復(fù)性的語句和難以回答的語句.本文還借鑒阿爾法圍棋的訓(xùn)練方式,先通過監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練一個基礎(chǔ)序列到序列網(wǎng)絡(luò),再讓兩個訓(xùn)練好的基礎(chǔ)序列到序列模型互相對話,通過強(qiáng)化學(xué)習(xí)的策略梯度方法來更新參數(shù),以獲得一個比較大的期望獎勵值. 最終結(jié)果顯示文章采用的算法能產(chǎn)生更豐富、更多交互性、更能持續(xù)響應(yīng)的對話回復(fù). 這個工作也為未來實(shí)現(xiàn)長期全局的對話系統(tǒng)作了有益的嘗試.

    在基于任務(wù)的對話系統(tǒng)中,根據(jù)對話的主題將對話語料進(jìn)行分割和標(biāo)記是其關(guān)鍵任務(wù)之一.Takanobu等[65]提出利用策略網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)相結(jié)合的深度網(wǎng)絡(luò)完成此任務(wù). 由于缺乏標(biāo)注完善的訓(xùn)練語料,作者將此任務(wù)歸納為弱監(jiān)督學(xué)習(xí)和序列標(biāo)注問題. 他們利用先驗(yàn)知識對對話語料進(jìn)行粗粒度的標(biāo)注,產(chǎn)生包含噪聲的訓(xùn)練數(shù)據(jù).再用包含噪聲的標(biāo)注數(shù)據(jù)初步訓(xùn)練狀態(tài)表征網(wǎng)絡(luò)和策略網(wǎng)絡(luò). 策略網(wǎng)絡(luò)輸入的狀態(tài)是由狀態(tài)表征網(wǎng)絡(luò)生成的,輸出的動作是語料的主題標(biāo)簽. 也就是說噪聲數(shù)據(jù)經(jīng)過策略網(wǎng)絡(luò)之后能夠獲得一組新的主題標(biāo)簽. 將打上新標(biāo)簽的數(shù)據(jù)送入狀態(tài)表征網(wǎng)絡(luò)進(jìn)行有監(jiān)督地訓(xùn)練,更新對話語料的狀態(tài)表征. 新的狀態(tài)表征又經(jīng)過策略網(wǎng)絡(luò)輸出新的主題標(biāo)簽,再重復(fù)前面的過程,直到驗(yàn)證集的標(biāo)簽變化率小于設(shè)定值. 此時訓(xùn)練好地狀態(tài)表征網(wǎng)絡(luò)就可以進(jìn)行主題分割和標(biāo)記工作. 作者通過策略網(wǎng)絡(luò)巧妙地解決了此類任務(wù)沒有直接監(jiān)督信號的問題,讓強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)為監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)提供不斷更新的訓(xùn)練標(biāo)簽,監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)為強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)提供狀態(tài)輸入,聯(lián)合訓(xùn)練這兩個網(wǎng)絡(luò)最終實(shí)現(xiàn)弱監(jiān)督學(xué)習(xí)的過程. 他們同時在電商購物的對話數(shù)據(jù)集上驗(yàn)證了模型在主題分割、標(biāo)注和上下文理解任務(wù)上有很好的效果. 本文提出的基于策略網(wǎng)絡(luò)的弱監(jiān)督學(xué)習(xí)框架有很好的創(chuàng)新性和擴(kuò)張性,能夠應(yīng)用在其他缺乏完善標(biāo)簽數(shù)據(jù)的任務(wù)中.

    3.3 基于策略和值函數(shù)

    基于策略和值函數(shù)的方法,融合了上述兩種強(qiáng)化學(xué)習(xí)算法的優(yōu)點(diǎn),策略網(wǎng)絡(luò)利用策略梯度方法生成動作,值函數(shù)評價部分利用深度Q網(wǎng)絡(luò)一類的方法生成對動作的評價,通過評價得到的值函數(shù)來優(yōu)化策略網(wǎng)絡(luò). 基于策略的方法需要在一個回合結(jié)束的時候再進(jìn)行學(xué)習(xí),而由于獎勵的稀疏以及衰減,就造成了基于策略的方法學(xué)習(xí)效果不夠好. 這也解釋了為什么最初深度思維公司用的是深度Q網(wǎng)絡(luò)而不是用更直接的基于策略的方法來產(chǎn)生動作. 而動作者?評價者算法結(jié)合了基于值函數(shù)的方法后,可以使策略梯度實(shí)現(xiàn)單步更新.

    Bahdanau等[66]提出利用強(qiáng)化學(xué)習(xí)的動作者-評價者框架和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的生成模型相融合的方法,試圖改進(jìn)Ranzato提出的算法. 具體做法是把兩個典型的編碼-解碼器網(wǎng)絡(luò)分別作為動作者和評價者,動作者網(wǎng)絡(luò)接收文本序列X然后輸出預(yù)測樣本序列;評價者網(wǎng)絡(luò)接收真實(shí)的標(biāo)簽序列Y和動作者在t時刻生成的詞語yt,最后輸出狀態(tài)-動作值QT,再用QT去訓(xùn)練動作者網(wǎng)絡(luò),如圖3所示.

    圖 3 動作者?評價者框架的訓(xùn)練流程圖Fig.3 Training process of the actor?critic framework

    同時作者還采用了一些技巧來提升模型的性能,如采用類似深度Q網(wǎng)絡(luò)中的目標(biāo)網(wǎng)絡(luò)來達(dá)到穩(wěn)定訓(xùn)練的目的. 首先,增加一個參數(shù)更新較為滯后的動作者,通過這個動作者而非正在訓(xùn)練的行動者生成預(yù)測序列,這樣可以避免動作者和評價者相互循環(huán)反饋;其次,此模型不會只對完整的預(yù)測序列計(jì)算指標(biāo)得分作為獎勵,而是對每一步生成的不完整序列計(jì)算指標(biāo)得分,再做差分計(jì)算構(gòu)造及時獎勵,這樣獎勵就不只在所有詞語都生成完畢時才能獲得,使得評價者的訓(xùn)練信號不再稀疏. 作者將此模型應(yīng)用于拼寫糾正能夠獲得更低的拼寫錯誤率,而在機(jī)器翻譯任務(wù)中同樣比最大似然估計(jì)的訓(xùn)練方法獲得更高的雙語評估替換指標(biāo)的得分.

    Su等[67]將最新的動作者?評價者模型的改進(jìn)算法應(yīng)用于任務(wù)導(dǎo)向的對話系統(tǒng)中,并且提高了動作者?評價者算法的學(xué)習(xí)速度,解決了策略訓(xùn)練初期算法表現(xiàn)較差的問題. 作者把對話策略優(yōu)化問題看作是學(xué)習(xí)每輪如何選擇回復(fù)序列的任務(wù),任務(wù)目標(biāo)是最大化長期收益. 因?yàn)榛诓呗缘姆椒ū然谥档姆椒ㄓ懈鼜?qiáng)的收斂性,但是具有策略波動大、采樣效率低和易收斂到局部極小的問題,因此本文采用兩種策略方法和值方法結(jié)合的方法,分別是帶經(jīng)驗(yàn)回放的信賴域動作者?評價者模型(Trust region actor?critic with experience replay,TRACER)和帶經(jīng)驗(yàn)回放的不定期動作者?評價者模型(Episodic natural actor?critic with experience replay,eNACER). 前者利用重要性采樣比率調(diào)節(jié)經(jīng)驗(yàn)回放采樣所得歷史樣本的獎勵,消除它對于當(dāng)前策略的偏差;同時采用Wang等[68]提出的改進(jìn)信賴域策略優(yōu)化(Trust region policy optimization)方法使得更新后的策略不會偏離平均策略太多,從而保證了策略的穩(wěn)定更新,不會出現(xiàn)較大的策略波動. 后者為了解決策略梯度在陡峭方向上不能保證模型進(jìn)行更新的問題,采用Peters與Schaal[69]提出的自然動作者?評價者(Natural actor?critic, NAC)算法加上經(jīng)驗(yàn)回放機(jī)制,此方法使用了相容函數(shù)近似(Compatible function approximation)不需要精確的計(jì)算值函數(shù)只需要給出一個估計(jì)值. 作者在劍橋地區(qū)電話咨詢餐廳對話數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),通過對比高斯過程強(qiáng)化學(xué)習(xí)(Gaussian processes reinforcement learning, GPRL)[70],深度Q網(wǎng)絡(luò),帶經(jīng)驗(yàn)回放的信賴域動作者?評價者模型和帶經(jīng)驗(yàn)回放的不定期動作者?評價者模型等算法發(fā)現(xiàn)提出的算法有更好的效果.

    3.4 其他形式

    深度強(qiáng)化學(xué)習(xí)的框架具有一定的通用性,于是很多研究者把深度強(qiáng)化學(xué)習(xí)和不同的模型框架或者算法做融合,應(yīng)用于自然語言處理任務(wù)中,也取得了很好的效果. 生成對抗網(wǎng)絡(luò)(Generative adversarial networks,GANs)是近年最火熱的深度學(xué)習(xí)模型之一,它是由蒙特利爾大學(xué)的Goodfellow等[71]學(xué)者在2014年提出的. 生成對抗網(wǎng)絡(luò)是一種生成模型(Generative model),它利用一個判別器模型指導(dǎo)生成模型的訓(xùn)練,使得模型最終能夠生成接近真實(shí)的數(shù)據(jù). 經(jīng)過兩年的發(fā)展,生成對抗網(wǎng)絡(luò)及其改進(jìn)模型已經(jīng)可以很好的應(yīng)用于圖像生成任務(wù),但是在自然語言任務(wù)中的應(yīng)用還面臨著一些問題. 生成對抗網(wǎng)絡(luò)中的生成器和判別器模型都需要完全可微,才能進(jìn)行梯度訓(xùn)練,而自然語言任務(wù)中需要生成離散的標(biāo)記序列;另一個難點(diǎn)是生成對抗網(wǎng)絡(luò)的判別模型一般是對完整序列進(jìn)行評價,而自然語言任務(wù)中需要對已經(jīng)生成的部分序列和之后生成的完整序列的質(zhì)量都進(jìn)行評價.

    針對上面兩個問題,Yu等[72]提出了序列生成對抗網(wǎng)絡(luò)模型(SeqGANs),用深度強(qiáng)化學(xué)習(xí)中的策略梯度方法訓(xùn)練生成模型,解決離散標(biāo)記序列不能進(jìn)行梯度計(jì)算的問題;同時通過蒙特卡洛搜索利用一個展開策略對已經(jīng)生成的部分序列做采樣生成完整序列,即當(dāng)生成到t個詞時,假設(shè)完整序列有T個詞語,用蒙特卡洛搜索出后面的T?t個詞語的N條路徑,將搜索生成的T?t個詞語和已經(jīng)生成的t個詞語組成完整的N個輸出序列,再由判別器對這些序列進(jìn)行評價,將所有評價的平均值作為生成模型的獎勵,從而解決了部分生成序列的評價問題,訓(xùn)練過程如圖4所示.

    圖 4 序列生成對抗網(wǎng)絡(luò)模型結(jié)構(gòu)及其訓(xùn)練過程Fig.4 Structure and training process of the seqGANs model

    作者將序列生成對抗網(wǎng)絡(luò)模型應(yīng)用于生成文本任務(wù)如中文詩詞、奧巴馬政治演講,以及生成音樂任務(wù)中,得到的生成結(jié)果比極大似然估計(jì)方法要自然和準(zhǔn)確.

    Li等[57]利用對抗訓(xùn)練方法和強(qiáng)化學(xué)習(xí)方法來解決開放領(lǐng)域?qū)υ捝蓡栴},作者采用了和序列生成對抗網(wǎng)絡(luò)類似方法,用策略梯度訓(xùn)練生成器,用判別器對生成器的輸出序列進(jìn)行評價作為獎勵. 不同的是作者認(rèn)為對部分生成序列進(jìn)行評價時用蒙特卡羅搜索比較消耗時間,可以訓(xùn)練一個判別器對部分和完整序列都能進(jìn)行評價,訓(xùn)練數(shù)據(jù)是從正序列和負(fù)序列中隨機(jī)采樣的子序列,每次只從正、負(fù)序列的子序列中采樣一個樣本,確保早期生成的序列不會頻繁出現(xiàn)在判別器的訓(xùn)練集中,文中稱為每步生成的獎勵(Reward for every generation step, REGS)方法. 作者還發(fā)現(xiàn)在對抗訓(xùn)練的時候,生成器比較容易崩潰,這是由于生成器不會通過真實(shí)的目標(biāo)序列進(jìn)行訓(xùn)練,當(dāng)接受的獎勵很低時,只知道當(dāng)前生成的序列質(zhì)量糟糕,而不知道如何向正確的方向作調(diào)整. 于是作者在更新生成器的參數(shù)之后,加入了極大似然估計(jì)方法用真實(shí)序列值重新更新參數(shù),類似于有老師指導(dǎo)模型訓(xùn)練的方向,因此稱為教師指導(dǎo). 文章中訓(xùn)練了一個可以區(qū)分機(jī)器生成語句和人類生成語句的模型替代人工評估,最后對比了極大似然估計(jì)方法、最大互信息方法、序列到序列模型以及作者提出的對抗?強(qiáng)化學(xué)習(xí)模型和對抗?每步生成獎勵模型,結(jié)果顯示雖然序列到序列模型生成的回復(fù)語句最像人類的回復(fù),但是通常其意思含糊或者與上下文不相關(guān),而作者提出的兩個模型的回復(fù)語句在這兩個方面都能夠取得較好的表現(xiàn).

    上面兩個工作都是把深度強(qiáng)化學(xué)習(xí)和生成對抗模型相結(jié)合,而Pfau與Vinyals[73]認(rèn)為生成對抗網(wǎng)絡(luò)和動作者?評價者方法有很多相似之處,這篇論文主要工作是從不同的角度來說明了生成對抗網(wǎng)絡(luò)和動作者?評價者模型的異同點(diǎn),從而鼓勵研究生成對抗網(wǎng)絡(luò)和動作者?評價者模型的學(xué)者合作研發(fā)出通用、穩(wěn)定、可擴(kuò)展的算法,或者從各自的研究中獲取靈感.

    在亞馬遜的構(gòu)建社交機(jī)器人的比賽中,Serban等[74]通過深度強(qiáng)化學(xué)習(xí)算法結(jié)合對話系統(tǒng)開發(fā)的MILABOT聊天機(jī)器人獲得最終比賽勝利. 他們利用深度強(qiáng)化學(xué)習(xí)對若干個對話系統(tǒng)進(jìn)行整合,該聊天機(jī)器人在與真實(shí)用戶的互動中進(jìn)行訓(xùn)練,讓強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)如何從自身包含的一系列模型中選擇合適的生成語句作為回復(fù). 真實(shí)用戶使用A/B測試對該系統(tǒng)進(jìn)行評估,結(jié)果顯示其性能大大優(yōu)于其他參賽系統(tǒng). 由于其所有模塊都是可學(xué)習(xí)的,額外的數(shù)據(jù)能夠幫助該系統(tǒng)繼續(xù)提升性能.

    He等[75]利用強(qiáng)化學(xué)習(xí)中價值網(wǎng)絡(luò)具有評估長期獎勵的能力,解決機(jī)器翻譯模型解碼時只關(guān)注局部最優(yōu)的問題,使翻譯的句子整體上達(dá)到更好的效果. 作者提出的翻譯模型不僅考慮了生成詞語的條件概率,還結(jié)合了生成詞語對未來句子的長期獎勵,通過實(shí)驗(yàn)證明了此方法較集束搜索解碼的翻譯模型能夠獲得更高的雙語評估替換指標(biāo)得分.

    4 總結(jié)與展望

    本文對深度強(qiáng)化學(xué)習(xí)及其在文本生成任務(wù)中的應(yīng)用現(xiàn)狀進(jìn)行了較為全面的總結(jié),對相關(guān)的研究工作進(jìn)行了分類和解析. 隨著深度強(qiáng)化學(xué)習(xí)和自然語言處理的迅速發(fā)展,越來越多的新方法和新應(yīng)用出現(xiàn),可以預(yù)見強(qiáng)化學(xué)習(xí)和文本生成以及其他自然語言處理任務(wù)的結(jié)合形式會更加豐富.目前深度強(qiáng)化學(xué)習(xí)主要還是用來解決自然語言處理中普遍出現(xiàn)的不可導(dǎo)問題,或者是利用深度強(qiáng)化學(xué)習(xí)的框架幫助改進(jìn)網(wǎng)絡(luò)訓(xùn)練流程,從而提升最終效果,未來可以從下面幾個方向開展研究工作:

    (1)提升深度強(qiáng)化學(xué)習(xí)算法的性能. 深度強(qiáng)化學(xué)習(xí)算法本身還有不少問題亟待解決,例如其訓(xùn)練過程較為艱難、穩(wěn)定性不夠好、獎勵函數(shù)的設(shè)計(jì)依賴經(jīng)驗(yàn)等,都需要研究者對其進(jìn)一步改進(jìn)[76].同時研究者也可以關(guān)注于如何提高算法的收斂性、精度、速度和魯棒性,簡化模型結(jié)構(gòu),增加數(shù)據(jù)使用效率等方面.

    (2)更多傳統(tǒng)強(qiáng)化學(xué)習(xí)算法和深度學(xué)習(xí)結(jié)合可以更好的解決自然語言領(lǐng)域的問題. 傳統(tǒng)強(qiáng)化學(xué)習(xí)算法的研究已經(jīng)歷了20年的時間,其中很多算法都有各自的優(yōu)勢,例如逆強(qiáng)化學(xué)習(xí)、繼承學(xué)習(xí)等,借助深度學(xué)習(xí)的力量可以在自然語言處理的多種任務(wù)中發(fā)揮新的作用. 例如Casanueva等[77]借鑒封建強(qiáng)化學(xué)習(xí)Feudal RL[78]的方法,把基于任務(wù)的對話管理分解為兩步,每個子策略通過深度繼承學(xué)習(xí)進(jìn)行學(xué)習(xí).

    (3)從自然語言處理的任務(wù)中抽象出更多的決策問題. 不同的自然語言任務(wù)中都包含需要決策的環(huán)節(jié),例如對話機(jī)器人與人進(jìn)行交互、問答系統(tǒng)從知識庫抽取知識、利用人的反饋改進(jìn)圖像生成的描述或者是機(jī)器翻譯的輸出等,深度強(qiáng)化學(xué)習(xí)強(qiáng)大的決策能力能夠幫助自然語言處理任務(wù)做出較優(yōu)的選擇,這是監(jiān)督學(xué)習(xí)無法做到的,例如深度路徑強(qiáng)化學(xué)習(xí)算法模型[79]利用強(qiáng)化學(xué)習(xí)解決知識圖譜中的關(guān)系補(bǔ)全問題;Buck等[80]將問答任務(wù)歸納到創(chuàng)新的強(qiáng)化學(xué)習(xí)框架中,提高了回答的效果.

    (4)深度強(qiáng)化學(xué)習(xí)與新的學(xué)習(xí)算法結(jié)合. 深度強(qiáng)化學(xué)習(xí)是一個靈活的框架,可以與很多新算法融合,例如結(jié)合生成對抗網(wǎng)絡(luò)、記憶網(wǎng)絡(luò)、注意力機(jī)制等,這也能夠?yàn)榻鉀Q自然語言處理中的問題提供更多創(chuàng)新的方法和思路,例如Feng等[81]提出基于強(qiáng)化學(xué)習(xí)的框架從噪聲數(shù)據(jù)中抽取關(guān)系,解決了遠(yuǎn)距離監(jiān)督學(xué)習(xí)的問題;Zhang等[82]利用強(qiáng)化學(xué)習(xí)算法自動地學(xué)習(xí)句子的最優(yōu)結(jié)構(gòu)化表示,并用于句子分類任務(wù)中.

    猜你喜歡
    深度動作文本
    深度理解一元一次方程
    在808DA上文本顯示的改善
    深度觀察
    深度觀察
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    深度觀察
    動作描寫要具體
    畫動作
    動作描寫不可少
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    av卡一久久| a级毛片黄视频| 亚洲四区av| 啦啦啦视频在线资源免费观看| 亚洲,一卡二卡三卡| 午夜91福利影院| 国产成人免费无遮挡视频| 国产成人免费无遮挡视频| 校园人妻丝袜中文字幕| 久久午夜综合久久蜜桃| 黄色怎么调成土黄色| 91精品国产国语对白视频| 国产99久久九九免费精品| 亚洲欧洲精品一区二区精品久久久 | 婷婷色麻豆天堂久久| 亚洲,欧美精品.| 日日啪夜夜爽| 男人爽女人下面视频在线观看| 欧美日韩视频高清一区二区三区二| 亚洲免费av在线视频| 又大又爽又粗| 美女脱内裤让男人舔精品视频| 午夜免费男女啪啪视频观看| 18禁观看日本| 亚洲精品成人av观看孕妇| 丝袜美足系列| 中文字幕最新亚洲高清| 99久久精品国产亚洲精品| 亚洲精品久久久久久婷婷小说| 午夜福利在线免费观看网站| 51午夜福利影视在线观看| 亚洲精品日韩在线中文字幕| 久久精品亚洲av国产电影网| 久久久久久人妻| 亚洲国产精品成人久久小说| 丰满饥渴人妻一区二区三| 97在线人人人人妻| 国产精品麻豆人妻色哟哟久久| 精品人妻在线不人妻| 精品人妻在线不人妻| 精品人妻熟女毛片av久久网站| 国产精品国产av在线观看| 天天躁夜夜躁狠狠躁躁| 国产日韩欧美亚洲二区| 亚洲精品久久成人aⅴ小说| 久久久久久久久久久免费av| 色94色欧美一区二区| 成年美女黄网站色视频大全免费| 亚洲一区二区三区欧美精品| 国产精品无大码| 99精品久久久久人妻精品| 成人国语在线视频| 丰满乱子伦码专区| 91精品国产国语对白视频| 老司机影院成人| 久久久久久免费高清国产稀缺| 男人舔女人的私密视频| 搡老岳熟女国产| 欧美人与善性xxx| 欧美日韩亚洲综合一区二区三区_| 婷婷色麻豆天堂久久| 最新在线观看一区二区三区 | 激情五月婷婷亚洲| 午夜日韩欧美国产| 少妇人妻精品综合一区二区| 中文字幕亚洲精品专区| 欧美精品高潮呻吟av久久| 久久av网站| 亚洲人成77777在线视频| 国产福利在线免费观看视频| 国产熟女午夜一区二区三区| 七月丁香在线播放| 久久人人爽av亚洲精品天堂| 一本大道久久a久久精品| 麻豆精品久久久久久蜜桃| 精品亚洲成a人片在线观看| 欧美老熟妇乱子伦牲交| 亚洲精品自拍成人| 日本av手机在线免费观看| 晚上一个人看的免费电影| www.av在线官网国产| 亚洲av成人精品一二三区| 热re99久久国产66热| av线在线观看网站| 色网站视频免费| 男女之事视频高清在线观看 | 成年动漫av网址| 久久亚洲国产成人精品v| 国产成人精品在线电影| 男的添女的下面高潮视频| 国产熟女午夜一区二区三区| 国产男人的电影天堂91| 人人澡人人妻人| 久久久久网色| 久久久久久人妻| 亚洲精华国产精华液的使用体验| 在线天堂最新版资源| 波多野结衣一区麻豆| 在线观看国产h片| 啦啦啦啦在线视频资源| 欧美日韩综合久久久久久| 女人精品久久久久毛片| 欧美日韩精品网址| 欧美变态另类bdsm刘玥| 亚洲精品,欧美精品| 久久精品久久精品一区二区三区| 纯流量卡能插随身wifi吗| 久久精品人人爽人人爽视色| 亚洲国产中文字幕在线视频| 如何舔出高潮| 大话2 男鬼变身卡| 91老司机精品| 日日啪夜夜爽| 国产黄色免费在线视频| 国产高清国产精品国产三级| 悠悠久久av| 人人妻人人澡人人爽人人夜夜| 亚洲一级一片aⅴ在线观看| 久久久久网色| 国产精品二区激情视频| 成人国产av品久久久| 欧美xxⅹ黑人| 国产人伦9x9x在线观看| 18禁动态无遮挡网站| 欧美日韩综合久久久久久| 亚洲综合色网址| 韩国av在线不卡| 黄色视频不卡| 自拍欧美九色日韩亚洲蝌蚪91| 久热爱精品视频在线9| 亚洲国产精品999| av免费观看日本| 亚洲欧美一区二区三区久久| 亚洲人成网站在线观看播放| 又大又黄又爽视频免费| 美女国产高潮福利片在线看| 久久精品国产亚洲av涩爱| 人人妻人人澡人人看| 老司机深夜福利视频在线观看 | 在线观看人妻少妇| 免费高清在线观看视频在线观看| 丝袜美足系列| avwww免费| 日韩大码丰满熟妇| 天天躁日日躁夜夜躁夜夜| 美女午夜性视频免费| 国产极品天堂在线| 嫩草影院入口| 日韩电影二区| 亚洲一卡2卡3卡4卡5卡精品中文| 日本欧美国产在线视频| 黄色一级大片看看| svipshipincom国产片| 老司机靠b影院| 免费在线观看视频国产中文字幕亚洲 | 久久97久久精品| 日本91视频免费播放| 欧美精品人与动牲交sv欧美| 一区二区三区四区激情视频| avwww免费| 如日韩欧美国产精品一区二区三区| 在线观看免费高清a一片| 丝袜喷水一区| 午夜av观看不卡| 天堂8中文在线网| 久久精品久久久久久久性| 国产精品久久久人人做人人爽| 天天添夜夜摸| 中文欧美无线码| 国产精品欧美亚洲77777| 美国免费a级毛片| 中文字幕制服av| 国产在线视频一区二区| 国产精品偷伦视频观看了| 2018国产大陆天天弄谢| 一本大道久久a久久精品| 欧美成人精品欧美一级黄| 亚洲视频免费观看视频| 视频在线观看一区二区三区| 精品午夜福利在线看| 国产精品久久久久成人av| 新久久久久国产一级毛片| 国产在线免费精品| 91aial.com中文字幕在线观看| 免费久久久久久久精品成人欧美视频| 免费日韩欧美在线观看| av线在线观看网站| 久久久久久久久久久免费av| 国产精品亚洲av一区麻豆 | 久久女婷五月综合色啪小说| 看非洲黑人一级黄片| 成人漫画全彩无遮挡| 老司机在亚洲福利影院| videos熟女内射| 老司机影院毛片| 日本wwww免费看| 国产免费视频播放在线视频| 国产淫语在线视频| 精品久久久久久电影网| 亚洲三区欧美一区| 人体艺术视频欧美日本| 欧美日韩视频高清一区二区三区二| 无遮挡黄片免费观看| 只有这里有精品99| 亚洲精品日本国产第一区| 91精品三级在线观看| 大码成人一级视频| 亚洲图色成人| 国产精品偷伦视频观看了| 午夜福利影视在线免费观看| 19禁男女啪啪无遮挡网站| 美女扒开内裤让男人捅视频| 自线自在国产av| 久久久亚洲精品成人影院| av卡一久久| 国产精品国产av在线观看| 亚洲伊人久久精品综合| 啦啦啦啦在线视频资源| 国产精品久久久久久人妻精品电影 | 亚洲国产看品久久| 久久久精品国产亚洲av高清涩受| 免费看av在线观看网站| 久久天躁狠狠躁夜夜2o2o | 国产日韩欧美亚洲二区| 观看av在线不卡| 五月天丁香电影| 久久鲁丝午夜福利片| 国产男女内射视频| 精品亚洲成国产av| 视频区图区小说| 九色亚洲精品在线播放| 中文字幕人妻丝袜制服| 国精品久久久久久国模美| 亚洲精品久久成人aⅴ小说| 精品国产一区二区久久| 国产精品久久久久久精品古装| 51午夜福利影视在线观看| 国产99久久九九免费精品| 在线观看免费视频网站a站| 亚洲av成人精品一二三区| 亚洲欧美日韩另类电影网站| 亚洲精品aⅴ在线观看| 国产免费视频播放在线视频| 亚洲在久久综合| 美女扒开内裤让男人捅视频| 天天躁狠狠躁夜夜躁狠狠躁| 日韩不卡一区二区三区视频在线| 妹子高潮喷水视频| 国产极品天堂在线| av女优亚洲男人天堂| videosex国产| 久久久久久久精品精品| 另类亚洲欧美激情| 一级片'在线观看视频| 国产爽快片一区二区三区| 亚洲精品日韩在线中文字幕| 老司机在亚洲福利影院| 在线看a的网站| 一二三四中文在线观看免费高清| 国产探花极品一区二区| 丰满迷人的少妇在线观看| 免费少妇av软件| 亚洲欧洲国产日韩| 久久久久久久大尺度免费视频| 久久精品国产亚洲av高清一级| 国产av国产精品国产| 80岁老熟妇乱子伦牲交| 成人三级做爰电影| 国产精品久久久av美女十八| 色吧在线观看| 黑人巨大精品欧美一区二区蜜桃| 在线观看免费日韩欧美大片| 免费黄色在线免费观看| 国产精品 国内视频| 婷婷色综合www| www.av在线官网国产| 久久午夜综合久久蜜桃| 另类亚洲欧美激情| 久久久精品94久久精品| 精品视频人人做人人爽| 啦啦啦在线观看免费高清www| 午夜精品国产一区二区电影| 欧美日韩视频精品一区| 秋霞在线观看毛片| 天天躁夜夜躁狠狠久久av| 婷婷色综合www| 看十八女毛片水多多多| av国产精品久久久久影院| 亚洲精华国产精华液的使用体验| av一本久久久久| 午夜影院在线不卡| 爱豆传媒免费全集在线观看| 一个人免费看片子| 少妇人妻 视频| 欧美亚洲日本最大视频资源| 国产精品无大码| 久久久久国产精品人妻一区二区| 欧美在线一区亚洲| 亚洲精品国产av成人精品| 亚洲中文av在线| 久久热在线av| 赤兔流量卡办理| xxx大片免费视频| 国产乱人偷精品视频| 国产熟女午夜一区二区三区| 国产精品久久久久久久久免| 制服诱惑二区| 国产一级毛片在线| 亚洲色图 男人天堂 中文字幕| 亚洲五月色婷婷综合| 久久精品国产亚洲av高清一级| 国产成人精品无人区| 一本久久精品| 丝袜美腿诱惑在线| 夜夜骑夜夜射夜夜干| 人人妻人人澡人人爽人人夜夜| av国产精品久久久久影院| 亚洲国产精品999| 男女高潮啪啪啪动态图| 久久天堂一区二区三区四区| 国产亚洲最大av| 久久精品熟女亚洲av麻豆精品| 成人国语在线视频| 一级爰片在线观看| 精品久久蜜臀av无| 午夜福利视频在线观看免费| 99久久精品国产亚洲精品| 嫩草影视91久久| 婷婷色综合大香蕉| 国产精品蜜桃在线观看| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲国产成人一精品久久久| 中文欧美无线码| 国产精品一二三区在线看| 午夜日本视频在线| 亚洲欧美激情在线| 成人手机av| 亚洲精品成人av观看孕妇| 电影成人av| 9热在线视频观看99| 国产伦人伦偷精品视频| 亚洲四区av| 狠狠婷婷综合久久久久久88av| 99久久综合免费| 国产成人精品福利久久| 毛片一级片免费看久久久久| 久久国产精品大桥未久av| 国产免费视频播放在线视频| 午夜福利在线免费观看网站| 人妻人人澡人人爽人人| 精品免费久久久久久久清纯 | 男人添女人高潮全过程视频| 啦啦啦在线观看免费高清www| 午夜影院在线不卡| 亚洲精品国产一区二区精华液| 精品一区二区三卡| 男女边吃奶边做爰视频| 午夜福利一区二区在线看| 一边亲一边摸免费视频| 欧美黑人精品巨大| av天堂久久9| 18禁国产床啪视频网站| 日韩成人av中文字幕在线观看| 国产精品二区激情视频| 中文字幕av电影在线播放| 在线天堂中文资源库| 亚洲精品av麻豆狂野| 黄色视频不卡| 亚洲婷婷狠狠爱综合网| 成人亚洲欧美一区二区av| av卡一久久| 欧美最新免费一区二区三区| 国产在视频线精品| 51午夜福利影视在线观看| 不卡av一区二区三区| 久久精品国产亚洲av高清一级| 免费日韩欧美在线观看| 久久久亚洲精品成人影院| 少妇 在线观看| 日韩大码丰满熟妇| 亚洲精品国产区一区二| 国产国语露脸激情在线看| 亚洲专区中文字幕在线 | 久久婷婷青草| 搡老乐熟女国产| 国产毛片在线视频| 啦啦啦视频在线资源免费观看| 成人免费观看视频高清| 一区二区三区乱码不卡18| 免费观看人在逋| 国产精品熟女久久久久浪| 男女免费视频国产| 久久久久国产精品人妻一区二区| 黄片无遮挡物在线观看| 欧美日韩亚洲高清精品| 日本一区二区免费在线视频| 极品少妇高潮喷水抽搐| xxx大片免费视频| 精品视频人人做人人爽| 中国国产av一级| 亚洲成av片中文字幕在线观看| 啦啦啦中文免费视频观看日本| 美女高潮到喷水免费观看| 精品少妇内射三级| 精品免费久久久久久久清纯 | 少妇被粗大的猛进出69影院| 成人漫画全彩无遮挡| 十八禁网站网址无遮挡| 99久久99久久久精品蜜桃| 国产av码专区亚洲av| 我要看黄色一级片免费的| 男女免费视频国产| 精品少妇一区二区三区视频日本电影 | 亚洲欧洲日产国产| 亚洲男人天堂网一区| 亚洲 欧美一区二区三区| 性高湖久久久久久久久免费观看| 婷婷色综合www| 国产成人精品无人区| 国产精品免费视频内射| 91国产中文字幕| 飞空精品影院首页| 七月丁香在线播放| 精品一品国产午夜福利视频| 欧美久久黑人一区二区| 国产一区二区激情短视频 | 久久精品久久精品一区二区三区| 老司机影院毛片| 热99国产精品久久久久久7| 欧美在线一区亚洲| 亚洲精品在线美女| 久久久精品国产亚洲av高清涩受| 日本欧美视频一区| 欧美少妇被猛烈插入视频| 亚洲男人天堂网一区| 中文字幕av电影在线播放| 大陆偷拍与自拍| 国产老妇伦熟女老妇高清| 久久久亚洲精品成人影院| 韩国高清视频一区二区三区| 国产精品秋霞免费鲁丝片| 丁香六月天网| 国产精品 欧美亚洲| 亚洲第一青青草原| 热re99久久国产66热| 成年美女黄网站色视频大全免费| 侵犯人妻中文字幕一二三四区| 国产精品一国产av| 亚洲图色成人| 亚洲精品国产一区二区精华液| 一区福利在线观看| 成年女人毛片免费观看观看9 | 国产精品 国内视频| 欧美日韩国产mv在线观看视频| 日本黄色日本黄色录像| 国产精品一区二区在线不卡| 青春草视频在线免费观看| 国产成人免费观看mmmm| 久久人人97超碰香蕉20202| 日本色播在线视频| 亚洲三区欧美一区| 亚洲激情五月婷婷啪啪| 亚洲国产精品成人久久小说| 亚洲欧美精品自产自拍| 亚洲精品国产av成人精品| 国产男女超爽视频在线观看| 中文字幕av电影在线播放| 99国产精品免费福利视频| 搡老乐熟女国产| 人妻 亚洲 视频| 男女边吃奶边做爰视频| 精品一品国产午夜福利视频| 国产成人av激情在线播放| 人人妻人人澡人人爽人人夜夜| av卡一久久| 亚洲精品美女久久av网站| 嫩草影院入口| 国产av码专区亚洲av| 亚洲国产最新在线播放| 久久人妻熟女aⅴ| 亚洲欧美日韩另类电影网站| 少妇人妻 视频| 精品国产一区二区三区四区第35| 久久人人爽av亚洲精品天堂| 叶爱在线成人免费视频播放| 狂野欧美激情性bbbbbb| 操出白浆在线播放| 男女无遮挡免费网站观看| 我的亚洲天堂| av.在线天堂| 一级黄片播放器| 又大又黄又爽视频免费| 成年动漫av网址| 蜜桃国产av成人99| 国产精品亚洲av一区麻豆 | 亚洲成人手机| 伊人亚洲综合成人网| 欧美 日韩 精品 国产| 国产成人欧美在线观看 | 青草久久国产| 久久久国产欧美日韩av| 精品一区在线观看国产| 亚洲成色77777| 2021少妇久久久久久久久久久| av在线观看视频网站免费| 国产在线一区二区三区精| 一边亲一边摸免费视频| www.av在线官网国产| 老司机亚洲免费影院| 国产精品无大码| 免费黄频网站在线观看国产| 9色porny在线观看| 免费观看人在逋| 日韩中文字幕欧美一区二区 | 婷婷色综合www| 免费高清在线观看视频在线观看| 女人高潮潮喷娇喘18禁视频| 制服人妻中文乱码| 老司机影院毛片| 久久久久国产精品人妻一区二区| 日本wwww免费看| 考比视频在线观看| 99久久99久久久精品蜜桃| 日韩av在线免费看完整版不卡| 美女视频免费永久观看网站| av又黄又爽大尺度在线免费看| 欧美人与善性xxx| 国产精品久久久久成人av| 两性夫妻黄色片| 国产一区有黄有色的免费视频| 成人18禁高潮啪啪吃奶动态图| 99国产综合亚洲精品| 少妇人妻精品综合一区二区| 99精品久久久久人妻精品| 精品一区二区三卡| 中文字幕av电影在线播放| 交换朋友夫妻互换小说| 自线自在国产av| 黑人猛操日本美女一级片| 国产成人精品在线电影| 秋霞在线观看毛片| 成人国产av品久久久| 国产激情久久老熟女| 国产成人午夜福利电影在线观看| 国产日韩一区二区三区精品不卡| 午夜福利,免费看| 国产一区二区 视频在线| 中文字幕人妻丝袜一区二区 | 国产一区二区三区av在线| 亚洲精品国产区一区二| 久久久久精品久久久久真实原创| 人人妻,人人澡人人爽秒播 | 制服诱惑二区| 天天躁夜夜躁狠狠躁躁| 一级毛片 在线播放| 少妇精品久久久久久久| 亚洲国产中文字幕在线视频| 久久天堂一区二区三区四区| 国产成人av激情在线播放| 伦理电影大哥的女人| 国语对白做爰xxxⅹ性视频网站| 在线看a的网站| 在线免费观看不下载黄p国产| 大香蕉久久成人网| 亚洲av综合色区一区| 制服诱惑二区| 嫩草影视91久久| 可以免费在线观看a视频的电影网站 | 国产av精品麻豆| 在现免费观看毛片| 1024视频免费在线观看| 性色av一级| 日韩不卡一区二区三区视频在线| 精品亚洲成国产av| 亚洲国产中文字幕在线视频| 亚洲国产精品999| 午夜福利视频精品| 肉色欧美久久久久久久蜜桃| 日韩 亚洲 欧美在线| 国产精品无大码| 亚洲av在线观看美女高潮| 亚洲精品乱久久久久久| 欧美黑人精品巨大| 欧美日韩视频高清一区二区三区二| av有码第一页| 欧美国产精品va在线观看不卡| av在线观看视频网站免费| 在线观看一区二区三区激情| 久久国产亚洲av麻豆专区| 国产极品天堂在线| 亚洲第一av免费看| 中文字幕高清在线视频| 大香蕉久久成人网| 国产淫语在线视频| netflix在线观看网站| 国产精品一国产av| 午夜免费观看性视频| 天天躁日日躁夜夜躁夜夜| 免费观看a级毛片全部| 精品人妻在线不人妻| 亚洲欧美清纯卡通| 中文字幕人妻熟女乱码| 国产成人午夜福利电影在线观看| 免费在线观看视频国产中文字幕亚洲 | 久久鲁丝午夜福利片| 一级a爱视频在线免费观看| 国产精品亚洲av一区麻豆 | 国产老妇伦熟女老妇高清| 久久这里只有精品19| 中文字幕人妻丝袜一区二区 | 国产极品粉嫩免费观看在线| 国产不卡av网站在线观看| 不卡av一区二区三区| 精品国产一区二区久久| 国产精品二区激情视频|