• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度強(qiáng)化學(xué)習(xí)的攻防與安全性分析綜述

    2022-02-17 10:46:54陳晉音王雪柯蔡鴻斌紀(jì)守領(lǐng)
    自動化學(xué)報 2022年1期
    關(guān)鍵詞:擾動深度動作

    陳晉音 章 燕 王雪柯 蔡鴻斌 王 玨 紀(jì)守領(lǐng)

    自Mnih 等[1]將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合并提出第一個深度強(qiáng)化學(xué)習(xí)框架—深度Q 網(wǎng)絡(luò)(Deep Q network,DQN)[1?2]以來,深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning,DRL)方法就被人們視為邁向通用人工智能的必要路徑之一.隨后,各種強(qiáng)化學(xué)習(xí)的改進(jìn)算法不斷提出,例如:基于值函數(shù)的算法有雙重深度Q 網(wǎng)絡(luò)(DDQN)[1?3]、優(yōu)先經(jīng)驗(yàn)回放Q 網(wǎng)絡(luò)(Prioritized DQN)[4]、對偶深度Q 網(wǎng)絡(luò)(Dueling DQN)[5]等,基于策略的強(qiáng)化學(xué)習(xí)算法有異步/同步優(yōu)勢行動者評論者(A3C/A2C)[6]、信任域策略優(yōu)化(TRPO)[7]、K 因子信任域行動者評論者算法(ACKTR)[8]等.基于深度強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域也非常廣泛,例如:游戲博弈[9?10]、自動駕駛[11]、醫(yī)療健康[12]、金融交易[13]、機(jī)器人控制[14]、網(wǎng)絡(luò)安全[15]、計算機(jī)視覺[16?17]等.為加強(qiáng)深度強(qiáng)化學(xué)習(xí)在安全攸關(guān)領(lǐng)域的安全應(yīng)用,及早發(fā)現(xiàn)深度強(qiáng)化學(xué)習(xí)算法漏洞,防止惡意用戶利用這些漏洞進(jìn)行非法牟利行為.不同于傳統(tǒng)機(jī)器學(xué)習(xí)的單步預(yù)測任務(wù),深度強(qiáng)化學(xué)習(xí)系統(tǒng)利用多步?jīng)Q策完成特定任務(wù),且連續(xù)決策之間具有高度相關(guān)性.總體來說,深度強(qiáng)化學(xué)習(xí)系統(tǒng)的攻擊可針對強(qiáng)化學(xué)習(xí)算法的5 個主要環(huán)節(jié)展開惡意攻擊,包括:環(huán)境、觀測、獎勵、動作以及策略[18].

    Huang 等[19]最早于2017 年對深度強(qiáng)化學(xué)習(xí)系統(tǒng)存在的漏洞做出了相關(guān)研究.他將機(jī)器學(xué)習(xí)安全領(lǐng)域中面臨的對抗攻擊應(yīng)用到了深度強(qiáng)化學(xué)習(xí)模型中,通過在智能體的觀測狀態(tài)添加對抗擾動,令整個深度強(qiáng)化學(xué)習(xí)系統(tǒng)性能顯著下降.隨后,針對特定應(yīng)用,Chen 等[20]在自動尋路任務(wù)中通過在環(huán)境中添加“擋板狀”障礙物,使智能體無法抵達(dá)目的地.Tretschk 等[21]通過對抗變換網(wǎng)絡(luò)修改Pong智能體訓(xùn)練時維護(hù)的獎勵目標(biāo),使智能體的訓(xùn)練朝著游戲失敗的方向進(jìn)行.Ferdowsi 等[22]在第21 屆智能交通系統(tǒng)國際會議上提出了此類問題對自動駕駛應(yīng)用的影響.因此深度強(qiáng)化學(xué)習(xí)系統(tǒng)真正應(yīng)用到實(shí)際工業(yè)界之前,探究深度強(qiáng)化學(xué)習(xí)系統(tǒng)的脆弱點(diǎn)、提高其防御能力與魯棒性十分重要.

    為了提高深度學(xué)習(xí)模型的魯棒性,已有研究提出了較多DRL 防御方法,主要包括三個方向:對抗訓(xùn)練、魯棒學(xué)習(xí)、對抗檢測.例如:Behzadan 等[23]提出了使用對抗訓(xùn)練實(shí)現(xiàn)梯度攻擊的防御;Gu 等[24]采用DRL 訓(xùn)練對抗智能體,與目標(biāo)系統(tǒng)的智能體進(jìn)行零和博弈提升其魯棒性;Lin 等[25]借助預(yù)測幀模型,通過比較策略對預(yù)測幀與當(dāng)前輸出的KL 散度概率分布實(shí)現(xiàn)攻擊檢測.

    目前,深度強(qiáng)化學(xué)習(xí)領(lǐng)域的攻防研究還有很大發(fā)展空間,針對深度強(qiáng)化學(xué)習(xí)存在的易受對抗樣本攻擊等問題,深度強(qiáng)化學(xué)習(xí)模型的魯棒性優(yōu)化以及對抗防御方法也已成為重點(diǎn)關(guān)注對象,仍需不斷探索.同時由于深度強(qiáng)化學(xué)習(xí)在安全攸關(guān)領(lǐng)域的應(yīng)用,其存在的策略漏洞也成為了一大安全隱患.為了更好地探究深度強(qiáng)化學(xué)習(xí)系統(tǒng)的攻防研究現(xiàn)狀與未來發(fā)展方向,本文針對深度強(qiáng)化學(xué)習(xí)算法、攻擊與防御方法,以及安全性分析展開盡可能全面的綜述.

    論文接下去章節(jié)安排如下:第1 節(jié)介紹主要的深度強(qiáng)化學(xué)習(xí)算法;第2 節(jié)針對強(qiáng)化學(xué)習(xí)的5 個方面介紹攻擊方法;第3 節(jié)介紹相應(yīng)的防御方法;第4 節(jié)分析深度強(qiáng)化學(xué)習(xí)的安全性;第5 節(jié)相關(guān)應(yīng)用平臺及評估指標(biāo);最后,總結(jié)并列舉未來可能的研究方向.

    1 深度強(qiáng)化學(xué)習(xí)方法

    強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)是一種智能體通過利用與環(huán)境交互得到的經(jīng)驗(yàn)來優(yōu)化決策的過程[18].強(qiáng)化學(xué)習(xí)問題通??梢员唤轳R爾科夫決策過程(Markov decision process,MDP),可以由一個四元組表示MDP=(S,A,R,P),其中S表示決策過程中所能得到的狀態(tài)集合,A表示決策過程中的動作集合,R表示用于對狀態(tài)轉(zhuǎn)移做出的即刻獎勵,P則為狀態(tài)轉(zhuǎn)移概率.在任意時間步長t的開始,智能體觀察環(huán)境得到當(dāng)前狀態(tài)st,并且根據(jù)當(dāng)前的最優(yōu)策略π?做出動作at.在t的最后,智能體得到其獎勵rt及下一個觀測狀態(tài)st+1.MDP 的目標(biāo)就是找到最佳的動作序列以最大化長期的平均獎勵.深度強(qiáng)化學(xué)習(xí)則是在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上結(jié)合了深度學(xué)習(xí)強(qiáng)大的特征提取能力,避免了特征人工提取,實(shí)現(xiàn)了從原始圖像輸入到?jīng)Q策結(jié)果輸出的端到端學(xué)習(xí)系統(tǒng).

    常用的深度強(qiáng)化學(xué)習(xí)通常被分為兩類:基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)和基于策略梯度的深度強(qiáng)化學(xué)習(xí).前者主要通過深度神經(jīng)網(wǎng)絡(luò)逼近目標(biāo)動作價值函數(shù),表示到達(dá)某種狀態(tài)或執(zhí)行某種動作得到的累積回報,它傾向于選擇價值最大的狀態(tài)或動作,但是它們的訓(xùn)練過程往往不夠穩(wěn)定,而且不能處理動作空間連續(xù)的任務(wù);基于策略梯度的深度強(qiáng)化學(xué)習(xí)則是將策略參數(shù)化,利用深度神經(jīng)網(wǎng)絡(luò)逼近策略,同時沿著策略梯度的方向來尋求最優(yōu)策略.策略梯度算法在訓(xùn)練過程中更加穩(wěn)定,但是算法實(shí)現(xiàn)比較復(fù)雜且在通過采樣的方式進(jìn)行學(xué)習(xí)時會導(dǎo)致方差較大.下面我們對比兩類方法中具有代表性的算法,分別對其原理、貢獻(xiàn)與不足進(jìn)行闡述,如表1 所示.

    表1 經(jīng)典深度強(qiáng)化學(xué)習(xí)算法對比Table 1 Comparison of classic deep reinforcement learning algorithm

    1.1 基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)

    基于值函數(shù)的DRL 通過維護(hù)更新價值網(wǎng)絡(luò)參數(shù)來得到最優(yōu)策略,其最初的靈感來源于RL 中的Q學(xué)習(xí)[26].Q學(xué)習(xí)旨在通過貝爾曼方程,采用時序差分的方式進(jìn)行迭代更新狀態(tài)?動作價值函數(shù)Q,使Q函數(shù)逼近至真實(shí)值Q?,從而最終得到最優(yōu)策略:

    其中,Qπ(s,a) 表示在狀態(tài)s做出動作a后,遵循策略π的預(yù)期回報,Gt表示從步驟t到終止?fàn)顟B(tài)的累積回報.盡管已經(jīng)證明Q學(xué)習(xí)算法在解決一些順序的決策問題時具有較好的表現(xiàn),但是它仍然存在許多缺陷:1)在復(fù)雜場景下,狀態(tài)空間過大會導(dǎo)致Q表難以維護(hù);2)學(xué)習(xí)過程中,訓(xùn)練樣本的高度連續(xù)性打破了機(jī)器學(xué)習(xí)的獨(dú)立同分布要求;3)由于Q學(xué)習(xí)是一種在線學(xué)習(xí)方式,一些不常見的樣本在使用一次后就被放棄,導(dǎo)致樣本使用效率低.

    1.1.1 深度Q 網(wǎng)絡(luò)

    為了克服上述缺點(diǎn),Mnih 等[1]首次將Q學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)結(jié)合,提出深度強(qiáng)化學(xué)習(xí)Q 網(wǎng)絡(luò)(DQN),并且證明經(jīng)DQN 訓(xùn)練的智能體在Atrai 游戲上的技術(shù)水平能夠達(dá)到人類水準(zhǔn).

    DQN 采用深度卷積神經(jīng)網(wǎng)絡(luò)來逼近Q函數(shù),解決了狀態(tài)空間過大難以維護(hù)和特征提取的問題.同時,采用經(jīng)驗(yàn)回放機(jī)制學(xué)習(xí)使訓(xùn)練數(shù)據(jù)成為獨(dú)立同分布,降低了數(shù)據(jù)間的關(guān)聯(lián)性,而且通過重復(fù)利用提高了對樣本的利用率.此外,Mnih 等[2]在2015 年提出了目標(biāo)網(wǎng)絡(luò)機(jī)制,目標(biāo)網(wǎng)絡(luò)是在原有Qθ之外搭建一個結(jié)構(gòu)完全相同的網(wǎng)絡(luò)Qθ?,減輕了每次Q值變化對策略參數(shù)的影響,增加了策略訓(xùn)練的穩(wěn)定性.

    1.1.2 深度Q 網(wǎng)絡(luò)的改進(jìn)方法

    針對DQN 存在Q值估計偏差過大、訓(xùn)練不穩(wěn)定等問題,提出了一些改進(jìn)版的DQN 方法.Van 等[3]根據(jù)強(qiáng)化學(xué)習(xí)中的雙重Q學(xué)習(xí)構(gòu)建雙重深度Q 網(wǎng)絡(luò)(Double deep Q network,DDQN),通過評估網(wǎng)絡(luò)來選擇動作、目標(biāo)網(wǎng)絡(luò)進(jìn)行價值評估.針對DQN的經(jīng)驗(yàn)回放機(jī)制采用平均隨機(jī)采樣機(jī)制,存在稀有樣本利用率低的問題,Schaul 等[4]提出了優(yōu)先經(jīng)驗(yàn)回放機(jī)制,定義經(jīng)驗(yàn)優(yōu)先級,并優(yōu)先采用級別高的經(jīng)驗(yàn).Wang 等[5]提出了DQN 的對偶結(jié)構(gòu)(Dueling network),通過狀態(tài)價值函數(shù)V和相對價值函數(shù)A來評估Q值.為了減少隱藏信息的代價,Hausknecht 等[27]將DQN 卷積層后的第一個全連接層替換為循環(huán)的長短時記憶網(wǎng)絡(luò),提出深度循環(huán)Q 網(wǎng)絡(luò)(Deep recurrent Q network,DRQN).在此基礎(chǔ)上,Sorokin 等[28]加入注意力機(jī)制使得智能體在訓(xùn)練過程中關(guān)注圖像中的某一點(diǎn)進(jìn)行學(xué)習(xí),即:深度注意力機(jī)制循環(huán)Q 網(wǎng)絡(luò)(Deep attention recurrent Q network,DARQN).Plapper 等[29]用噪聲網(wǎng)絡(luò)來替代原先的ε-貪婪探索策略.通過將參數(shù)化的自適應(yīng)噪聲加入到的DQN網(wǎng)絡(luò)權(quán)重中,驅(qū)動智能體探索、簡化訓(xùn)練難度.針對使用經(jīng)驗(yàn)回放機(jī)制產(chǎn)生參數(shù)滯后而導(dǎo)致的表征漂移等問題,Kapturowski 等[30]提出了循環(huán)回放分布式深度Q 網(wǎng)絡(luò)(Recurrent replay distributed DQN,R2D2).R2D2 使用全零狀態(tài)初始化網(wǎng)絡(luò)與回放完整軌跡兩種方法來比較訓(xùn)練LSTM[31]的差異,提出狀態(tài)存儲和“Burn-in”方法來訓(xùn)練隨機(jī)采樣的循環(huán)神經(jīng)網(wǎng)絡(luò).更進(jìn)一步,Le Paine 等[32]提出演示循環(huán)回放分布式深度Q 網(wǎng)絡(luò)(Recurrent replay distributed DQN from demonstrations,R2D3).除了經(jīng)驗(yàn)回放,R2D3 設(shè)計了一個專家演示回放緩沖區(qū),學(xué)習(xí)者通過調(diào)整演示和經(jīng)驗(yàn)之間的比率有效解決了初始條件高度可變的部分觀察環(huán)境中的獎勵稀疏任務(wù).

    1.2 基于策略梯度的深度強(qiáng)化學(xué)習(xí)

    由于基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)在處理連續(xù)動作空間的場景時需要對動作進(jìn)行離散化處理,也就需要為眾多動作分配Q值,給實(shí)際應(yīng)用帶來困難,并且DQN 得到的策略無法處理隨機(jī)策略問題,基于策略梯度的深度強(qiáng)化學(xué)習(xí)方法[33]應(yīng)運(yùn)而生,包括:異步優(yōu)勢行動者?評論者(Asynchronous advantage actor critic,A3C)[6]、確定性策略梯度(Deterministic policy gradient,PGD)[34]和信任域策略優(yōu)化(Trust region policy optimization,TRPO)[7]以及一些改進(jìn)方法.

    基于策略梯度的深度強(qiáng)化學(xué)習(xí)通過深度神經(jīng)網(wǎng)絡(luò)對策略進(jìn)行參數(shù)化建模:πθ(s,a)=p(a|s,θ),即對應(yīng)每個狀態(tài)采取不同動作的概率.在學(xué)習(xí)過程中,通過策略梯度直接在策略空間中搜索最優(yōu)策略.

    1.2.1 策略梯度

    策略梯度算法的主要思想是將策略π參數(shù)化為πθ,表示對應(yīng)的狀態(tài)動作分布概率,然后計算出關(guān)于動作的策略梯度,沿著梯度方向來調(diào)整動作,最終找到最優(yōu)策略.策略梯度的定義為:

    策略梯度算法中,根據(jù)策略的定義不同,又可以分別隨機(jī)性策略與確定性策略.隨機(jī)性策略是指在當(dāng)前狀態(tài)下,滿足策略參數(shù)θ時的某個概率分布,其對應(yīng)的動作可能是多個.而確定性策略則是指對應(yīng)于每個狀態(tài)都輸出唯一的動作.策略梯度常用于解決深度強(qiáng)化學(xué)習(xí)的連續(xù)控制問題,常見的策略梯度算法包括:REINFORCE 算法[35]、自然策略梯度算法(Natural policy gradient,Natural PG)[36]以及行動者?評論者算法(Actor-critic,AC)[37]等.

    1.2.2 異步優(yōu)勢行動者?評論者

    基于經(jīng)驗(yàn)回放的DRL 算法將智能體與環(huán)境的交互數(shù)據(jù)存儲在經(jīng)驗(yàn)回放池中,訓(xùn)練時進(jìn)行批量采樣,減少了在線強(qiáng)化學(xué)習(xí)的數(shù)據(jù)相關(guān)性,通常只適用于離線策略強(qiáng)化學(xué)習(xí)中.針對上述問題,Mnih 等[6]結(jié)合異步強(qiáng)化學(xué)習(xí)思想提出了異步優(yōu)勢行動者?評論者方法.

    A3C 通過創(chuàng)建多個子線程,每個線程中智能體并行地與環(huán)境交互,實(shí)現(xiàn)異步學(xué)習(xí),替代了經(jīng)驗(yàn)回放機(jī)制,解決了在線策略的數(shù)據(jù)相關(guān)性的問題.A3C在執(zhí)行過程中采用異步更新網(wǎng)絡(luò)參數(shù)的方式,各線程單獨(dú)對環(huán)境采樣并計算梯度,用各自得到的梯度通過累加異步更新到全局模型中,最后將全局模型參數(shù)拷貝到各個線程網(wǎng)絡(luò)中.但是A3C 的異步更新方式會使得各個線程會以不同的策略去對環(huán)境進(jìn)行采樣.對此,Mnih 等[6]提出了同步的優(yōu)勢行動者-評論者(Advantage actor critic,A2C)方法.

    相比于A3C 異步更新全局模型的方式,A2C中的各線程會將各自的采樣計算得到的梯度先進(jìn)行匯總,再用匯總結(jié)果更新全局模型參數(shù).不僅解決了在線策略數(shù)據(jù)更新的相關(guān)性問題,同時使智能體在同一策略下進(jìn)行交互學(xué)習(xí).

    1.2.3 確定性策略梯度

    由于在連續(xù)動作空間中選取確定動作十分困難,為此Silver 等[34]提出了確定性策略理論,并證明了確定性策略梯度的存在.Lillicrap 等在此基礎(chǔ)上結(jié)合了AC 框架以及DQN 中的機(jī)制,提出了深度確定性策略梯度算法(Deep deterministic policy gradient,DDPG)[38].

    DDPG 使用參數(shù)為θπ的策略網(wǎng)絡(luò)和參數(shù)為θQ的動作價值網(wǎng)絡(luò)分別作為AC 框架中的行動者和執(zhí)行者,同時使用經(jīng)驗(yàn)回放機(jī)制進(jìn)行批處理學(xué)習(xí),使用目標(biāo)網(wǎng)絡(luò)機(jī)制來提高學(xué)習(xí)過程的穩(wěn)定性.

    1.2.4 信賴域策略優(yōu)化

    為了找到合適的步長使得策略一直向回報增加的方向更新,Schulman 等[7]提出了信任域策略優(yōu)化方法,通過KL 散度來限制策略更新前后的分布差異,令更新步長處于信任域中,使策略的更新會朝著增加回報的方向前進(jìn).

    理論上,TRPO 能保證更新后的策略比先前策略性能更好,在有限的策略空間中,最終能達(dá)到局部或全局最優(yōu)解.在現(xiàn)實(shí)場景中,TRPO 也被證明擁有較好的魯棒性與實(shí)用性.但是由于TRPO 算法實(shí)現(xiàn)十分復(fù)雜,且計算代價過大,Schulman 等[39]隨后又提出了改進(jìn)版本,即近端策略優(yōu)化(Proximal policy optimization,PPO)算法.PPO 提升了采樣的復(fù)雜度而簡化了計算,同時使用了無約束優(yōu)化,在保持性能同時降低了算法復(fù)雜度.Wu 等[8]結(jié)合行動者評論者算法提出了Kronecker 因子信任域行動者評論者算法(Actor critic using kroneckerfactored trust region,ACKTR),利用Kronecker 因子減少算法所需的計算量.

    2 深度強(qiáng)化學(xué)習(xí)的攻擊方法

    隨著DRL 的推廣應(yīng)用,通過攻擊方法研究發(fā)現(xiàn)DRL 的安全漏洞也引起廣泛關(guān)注.為了系統(tǒng)分析各種不同的攻擊方法,本文根據(jù)強(qiáng)化學(xué)習(xí)MDP中的關(guān)鍵環(huán)節(jié)對攻擊方法進(jìn)行歸類,即:觀測攻擊、獎勵攻擊、動作攻擊、環(huán)境攻擊以及策略攻擊,其攻擊方法主要在Atari 游戲場景以及自動導(dǎo)航的地圖等場景上實(shí)現(xiàn),各個環(huán)節(jié)攻擊的展示如圖1 所示.

    如圖1 所示,首先,觀測攻擊指攻擊者在智能體所接收到的觀測圖像上添加擾動,使智能體做出攻擊者預(yù)期的動作,通常在智能體的圖像傳感器上添加噪聲來實(shí)現(xiàn).不同于觀測攻擊,環(huán)境攻擊是直接修改智能體的訓(xùn)練環(huán)境,主要通過對環(huán)境動態(tài)模型的修改以及在環(huán)境中加入阻礙物(并非在智能體的傳感器上添加噪聲)的方式來實(shí)現(xiàn)攻擊.其次,獎勵攻擊指修改環(huán)境反饋的獎勵信號,既可以是通過修改獎勵值的符號,也可以使用對抗獎勵函數(shù)取代原有的獎勵函數(shù)來實(shí)現(xiàn)攻擊.再次,策略攻擊是指使用對抗智能體來生成目標(biāo)智能體理解能力之外的狀態(tài)和行為,繼而導(dǎo)致目標(biāo)智能體進(jìn)入一種混亂狀態(tài).而動作攻擊則是指修改動作輸出,這種攻擊方式可以通過修改訓(xùn)練數(shù)據(jù)中的動作空間來實(shí)現(xiàn).

    圖1 對DRL 系統(tǒng)的不同類型攻擊Fig.1 Different types of attacks on DRL system

    本文對DRL 攻擊方法和代表性技術(shù)進(jìn)行了綜述與對比,相關(guān)方法及其原理簡述整理在表2 中.同時也對攻擊成功率進(jìn)行統(tǒng)計,目前攻擊效果統(tǒng)計中,獎勵值分析占主流,極少論文提到攻擊成功率,其中部分論文中的攻擊成功率通過曲線圖來展示動態(tài)結(jié)果,只有兩篇論文中的攻擊方法給出了具體的成功率數(shù)值,相關(guān)攻擊模型及方法和對應(yīng)成功率統(tǒng)計在表3 中.

    表2 深度強(qiáng)化學(xué)習(xí)的攻擊方法Table 2 Attack methods toward deep reinforcement learning

    表3 深度強(qiáng)化學(xué)習(xí)的攻擊和攻擊成功率Table 3 Attack success rate toward deep reinforcement learning

    2.1 基于觀測的攻擊

    2.1.1 FGSM 攻擊

    Huang 等[19]最先對通過深度強(qiáng)化學(xué)習(xí)得到的策略進(jìn)行攻擊,使用機(jī)器學(xué)習(xí)領(lǐng)域常用的快速梯度符號(Fast gradient sign method,FGSM)[40]算法制造對抗擾動并將擾動直接添加到智能體的觀測值上,以此對深度學(xué)習(xí)智能體進(jìn)行攻擊.FGSM 的主要思想是在深度學(xué)習(xí)模型梯度變化最大的方向添加擾動,導(dǎo)致模型輸出錯誤結(jié)果,其數(shù)學(xué)表達(dá)式如下:

    其中,J表示損失函數(shù),θ表示模型參數(shù),x表示模型輸入,y樣本類標(biāo)(此處指最優(yōu)動作項(xiàng)),?J(·,·,·)表示計算損失函數(shù)對當(dāng)前模型參數(shù)的梯度,sign 表示符號函數(shù),ε表示擾動閾值.

    實(shí)驗(yàn)證明,這種方法在白盒與黑盒設(shè)置下均有效.Huang 等[19]首次嘗試并驗(yàn)證了由DQN、TRPO以及A3C 這些算法得到的智能體容易受到對抗性擾動的攻擊,且對抗樣本在不同強(qiáng)化學(xué)習(xí)算法得到的模型之間、在相同算法下得到的不同模型之間具有較好的遷移性.但是他的攻擊方式依然遵循著機(jī)器學(xué)習(xí)模型在時間上的獨(dú)立性,而沒有考慮到強(qiáng)化學(xué)習(xí)問題在連續(xù)時間上高度的相關(guān)性.

    2.1.2 策略誘導(dǎo)攻擊

    Behzadan 等[41]認(rèn)為由于深度強(qiáng)化學(xué)習(xí)系統(tǒng)在學(xué)習(xí)的過程中依賴于智能體與環(huán)境的交互,使得學(xué)習(xí)過程容易受到可觀察環(huán)境變化的影響.因此他們使用基于深度學(xué)習(xí)分類器的攻擊,對DQN 模型的觀測進(jìn)行了對抗擾動.

    在攻擊設(shè)置中,敵手知道目標(biāo)模型的輸入類型及獎勵函數(shù),可以根據(jù)目標(biāo)模型的輸入類型建立一個DQN 副本,通過副本及獎勵函數(shù)制造對抗樣本,使目標(biāo)DQN 的訓(xùn)練朝向選擇除最優(yōu)動作at之外的動作a′t進(jìn)行學(xué)習(xí).這種攻擊方式可以視為對深度學(xué)習(xí)模型中的分類器黑盒攻擊的擴(kuò)展.但是這種攻擊依然局限于傳統(tǒng)機(jī)器學(xué)習(xí)在時間步上獨(dú)立計算對抗樣本的形式.

    2.1.3 戰(zhàn)略時間攻擊

    Lin 等[42]認(rèn)為,考慮部分強(qiáng)化學(xué)習(xí)問題中的獎勵信號是稀疏的,對手沒有必要在每個時間步都對智能體發(fā)起攻擊.因此他們提出了一種新穎攻擊方式:通過戰(zhàn)略性地選擇一些時間步進(jìn)行攻擊,以減少目標(biāo)智能體的預(yù)期累積回報.提出了動作偏好函數(shù)來衡量當(dāng)前狀態(tài)下策略對動作的偏好程度,當(dāng)偏好程度超過設(shè)定的閾值時就制造擾動進(jìn)行攻擊.

    實(shí)驗(yàn)驗(yàn)證了攻擊效果,戰(zhàn)略時間攻擊可以使用較少的攻擊次數(shù)達(dá)到與Huang[19]相同的效果.戰(zhàn)略時間攻擊相比于在所有觀測值上都添加擾動的方式更不易被察覺,更具有實(shí)用性.

    2.1.4 迷惑攻擊

    Lin 等[42]提出了迷惑攻擊,其目的是從某一時刻下的狀態(tài)st開始施加擾動來迷惑智能體,從未觀察智能體在H步后得到的狀態(tài)sg.迷惑攻擊需要知道目標(biāo)智能體在每一步會選擇的動作,以及生成式預(yù)測模型獲得目標(biāo)智能體此后可能選擇的路徑,在這兩個前提下,攻擊者制造對抗樣本來迷惑智能體,使得智能體去往攻擊者設(shè)定的預(yù)期狀態(tài)sg.實(shí)驗(yàn)使用由Carlini 等[43]提出的對抗樣本生成算法.結(jié)果證明,在沒有隨機(jī)動態(tài)變化的游戲場景下,40步以內(nèi)的迷惑攻擊成功率能達(dá)到70%.

    這種使智能體做出攻擊者所需動作的攻擊方式,為面向強(qiáng)化學(xué)習(xí)系統(tǒng)的多樣性攻擊提供了新的思路.

    2.1.5 基于值函數(shù)的對抗攻擊

    Kos 等[44]提出了一種值函數(shù)指導(dǎo)的攻擊方法,其主要思想是借助值函數(shù)模塊評估當(dāng)前狀態(tài)價值的高低,以此來選擇是否進(jìn)行攻擊.當(dāng)值函數(shù)對當(dāng)前狀態(tài)價值做出的估計高于設(shè)定閾值,則對當(dāng)前狀態(tài)添加FGSM 擾動,反之則不進(jìn)行擾動,以此達(dá)到減少攻擊成功所需要注入的對抗樣本次數(shù).實(shí)驗(yàn)證明,在這種攻擊方式下,攻擊者只需要在一小部分幀內(nèi)注入擾動就可以達(dá)成目的,并且效果比在沒有值函數(shù)引導(dǎo)下以相似頻率注入擾動要更加好.

    該方法與Lin 等[42]的戰(zhàn)略時間攻擊想法類似,都追求以更少的攻擊次數(shù)來實(shí)現(xiàn)較好的攻擊效果.這類攻擊方法考慮到了強(qiáng)化學(xué)習(xí)場景下一些關(guān)鍵決策時間步對整體的影響,具有一定的指導(dǎo)意義.但是這種方法不能應(yīng)用在一些單純依靠策略梯度的場景.

    2.1.6 嗅探攻擊

    Inkawhich 等[45]提出了嗅探攻擊方法,攻擊者無法訪問目標(biāo)智能體的學(xué)習(xí)參數(shù)及其與之交互的環(huán)境,只能監(jiān)測到目標(biāo)智能體接收到的觀測值,以及它反饋給環(huán)境的動作、獎勵信號.基于該假設(shè),給定4 種威脅場景S、SA、SR、SRA,分別對應(yīng)于只監(jiān)測狀態(tài)信號、監(jiān)測狀態(tài)及動作信號、監(jiān)測狀態(tài)與獎勵信號、同時監(jiān)測三者.在這些場景中,攻擊者訓(xùn)練并得到代理模型,以代理模型為基礎(chǔ)制造對抗樣本.

    在一些策略部署在服務(wù)器端的場景下,相比于目前大部分需要訪問目標(biāo)智能體學(xué)習(xí)參數(shù)的攻擊方法,嗅探攻擊的可行性更高.

    2.1.7 基于模仿學(xué)習(xí)的攻擊

    Behzadan 等[46]提出使用模仿學(xué)習(xí)來提取目標(biāo)模型進(jìn)而使用對抗樣本的遷移性對目標(biāo)模型進(jìn)行攻擊.模仿學(xué)習(xí)是一種從專家決策樣本中快速學(xué)習(xí)專家策略的技術(shù).實(shí)驗(yàn)證明了對經(jīng)模仿學(xué)習(xí)得到的策略有效的對抗樣本,對于原目標(biāo)模型依然適用.

    這種攻擊方式在思想上與策略誘導(dǎo)攻擊方式十分類似,都是在等效模型的基礎(chǔ)上使用對抗樣本的遷移性進(jìn)行攻擊.不同的是該攻擊使用模仿學(xué)習(xí)加快了等效模型建立的速度,為黑盒設(shè)置下對深度強(qiáng)化學(xué)習(xí)模型的攻擊提供了新方案.

    2.1.8 CopyCAT 算法

    Hussenot 等[47]提出了CopyCAT 算法,這一算法可以引導(dǎo)目標(biāo)智能體遵循攻擊者設(shè)定的策略.不同于其他針對狀態(tài)進(jìn)行的攻擊,CopyCAT 算法嘗試攻擊的是智能體從觀測環(huán)境到生成狀態(tài)這一感知過程.該算法的實(shí)施分為三個階段:1)收集目標(biāo)智能體與環(huán)境交互的數(shù)據(jù);2)根據(jù)收集的數(shù)據(jù),采用優(yōu)化算法為所有的觀測感知過程生成掩碼;3)在目標(biāo)智能體測試階段,根據(jù)攻擊者預(yù)先設(shè)定的策略為智能體添加掩碼,更改目標(biāo)智能體動作所遵循的策略.

    該攻擊方式并不是簡單地為了降低目標(biāo)智能體地性能表現(xiàn),而是為了使智能體的行為能遵循攻擊者所設(shè)定的策略,這種預(yù)先設(shè)計的策略既可以是使智能體性能惡化的策略,又可以是使智能體性能提升的策略.而且由于掩碼是在攻擊前預(yù)先計算得到的,因此這種攻擊方式可以被視為一種實(shí)時攻擊.相比與FGSM 等需要在攻擊過程中耗費(fèi)計算資源的攻擊方式,CopyCAT 更適合應(yīng)用于對深度強(qiáng)化學(xué)習(xí)系統(tǒng)的攻擊.

    2.2 基于獎勵的攻擊

    2.2.1 基于對抗變換網(wǎng)絡(luò)的對抗攻擊

    Tretschk 等[21]將新型的對抗攻擊技術(shù),即對抗變換網(wǎng)絡(luò)整合到了策略網(wǎng)絡(luò)結(jié)構(gòu)中,通過一系列的攻擊使得目標(biāo)策略網(wǎng)絡(luò)在訓(xùn)練時優(yōu)化對抗性獎勵而不再是優(yōu)化原始獎勵.對優(yōu)化的獎勵前后變化如下圖2 所示,其中綠色區(qū)域表示獎勵為1 的區(qū)域,暗紅色區(qū)域表示獎勵為0 的區(qū)域.原始獎勵r0在球沒有擊中對手的墊子時給予獎勵,對抗獎勵在球擊中對手墊子中心點(diǎn)時給予獎勵.

    圖2 獎勵可視化Fig.2 Reward visualization

    通過實(shí)驗(yàn)證明,對狀態(tài)觀測添加一系列的擾動,可以對目標(biāo)策略網(wǎng)絡(luò)施加任意的對抗獎勵,使目標(biāo)策略發(fā)生變化.這種攻擊者存在的可能性令人們對持續(xù)學(xué)習(xí)型深度強(qiáng)化學(xué)習(xí)系統(tǒng)在工業(yè)領(lǐng)域中的應(yīng)用而感到憂慮.

    2.2.2 木馬攻擊

    Kiourti 等[48]首次提出了在深度強(qiáng)化學(xué)習(xí)系統(tǒng)的訓(xùn)練階段使用木馬攻擊.他們只在0.025%的訓(xùn)練數(shù)據(jù)中加入木馬觸發(fā)器,并在合理范圍內(nèi)對這些訓(xùn)練數(shù)據(jù)中對應(yīng)的獎勵值做出修改.如果目標(biāo)智能體對這些中毒樣本的狀態(tài)做出了攻擊者想要的動作,則給予該數(shù)據(jù)最大的獎勵值;如果沒做出攻擊者想要的動作,則給予該數(shù)據(jù)最小的獎勵值.

    在這種木馬攻擊下,目標(biāo)智能體在正常情況下的性能并沒有受到任何影響,但是一旦木馬觸發(fā)器被觸發(fā),智能體就會執(zhí)行攻擊者預(yù)設(shè)的行為.

    2.2.3 翻轉(zhuǎn)獎勵符號攻擊

    在深度強(qiáng)化學(xué)習(xí)系統(tǒng)訓(xùn)練過程中,訓(xùn)練樣本以(s,a,s′,r)的形式存放在經(jīng)驗(yàn)回放池中,其中s為當(dāng)前狀態(tài),a為智能體在此狀態(tài)下選擇的動作,s′為下一狀態(tài),r為獎勵值.在Han 等[49]預(yù)設(shè)的攻擊場景下,攻擊者可以翻轉(zhuǎn)經(jīng)驗(yàn)回放池中5%樣本的獎勵值符號,以此來最大化目標(biāo)智能體的損失函數(shù).

    實(shí)驗(yàn)結(jié)果證明,盡管這種攻擊方式可以在短時間內(nèi)最大化智能體的損失函數(shù),對其性能造成一定的影響,但是在長期訓(xùn)練后,智能體依然可以從中恢復(fù)過來.

    這種攻擊場景可以看做是獎勵值信道錯誤的一種極端情況,例如傳感器失靈或被人劫持,因此這種攻擊具有一定的實(shí)際意義.

    2.3 基于環(huán)境的攻擊

    2.3.1 路徑脆弱點(diǎn)攻擊

    針對基于DQN 的自動尋路系統(tǒng),Bai 等[50]提出一種在路徑脆弱點(diǎn)上添加障礙物的攻擊方法.他們首先利用DQN 尋找一副地圖的最優(yōu)路徑,在DQN的訓(xùn)練過程中,通過在路徑上相鄰點(diǎn)之間Q值的變化尋找路徑脆弱點(diǎn),之后借助相鄰脆弱點(diǎn)之間連線的角度來輔助計算對抗樣本點(diǎn).最后通過在環(huán)境中加入對抗點(diǎn)減緩智能體找到最優(yōu)路徑的時間.

    這種攻擊方法需要對智能體規(guī)劃路徑上的點(diǎn)進(jìn)行角度分析,所能應(yīng)用到的場景受到較大的限制.而且實(shí)驗(yàn)最后證明,隨著訓(xùn)練次數(shù)的增加,智能體依然可以收斂到最優(yōu)路徑.

    2.3.2 通用優(yōu)勢對抗樣本生成方法

    在A3C 路徑查找任務(wù)中,智能體在尋路過程中只能獲得周圍的部分環(huán)境信息,因此無法通過在全局地圖添加微小的擾動來達(dá)成攻擊效果.因此,Chen 等[20]針對基于A3C 的路徑查找任務(wù)提出了一種通用的優(yōu)勢對抗樣本生成方法,使用這種方法可以為給定的任意地圖生成優(yōu)勢對抗樣本.這種方法的核心思想是,在智能體訓(xùn)練過程中找到值函數(shù)上升最快的梯度帶,通過在梯度帶上添加“擋板狀”的障礙物來使目標(biāo)智能體無法到達(dá)目的地或者在最大程度上延長到達(dá)目的地所需要的時間.

    這種攻擊在不同規(guī)模的地圖上進(jìn)行測試,攻擊成功率均在91.91%以上,證明了這種攻擊在不同地圖上具有通用性.但是只針對基于A3C 算法訓(xùn)練的智能體進(jìn)行試驗(yàn),尚不足以證明在深度強(qiáng)化學(xué)習(xí)算法之間的通用性.

    2.3.3 對環(huán)境模型的攻擊

    環(huán)境動態(tài)模型的輸入是當(dāng)前狀態(tài)及智能體動作,輸出為下一狀態(tài).Xiao 等[51]提出了兩種對環(huán)境動態(tài)模型的攻擊,希望通過在動態(tài)模型上添加擾動使得智能體達(dá)到攻擊者指定的狀態(tài).他們提出了兩種攻擊方法:1)隨機(jī)動態(tài)模型搜素,通過隨機(jī)使用一種動態(tài)模型,觀察智能體是否會達(dá)到指定狀態(tài);2)在現(xiàn)有的動態(tài)模型上添加擾動,通過確定性策略梯度的方式不斷訓(xùn)練對抗動態(tài)模型,直到智能體能達(dá)到攻擊者指定的狀態(tài).

    2.4 動作空間擾動攻擊

    Lee 等[52]提出了兩種對DRL 算法動作空間的攻擊:第一種方法是一個最小化具有解耦約束的深度強(qiáng)化學(xué)習(xí)智能體的累積獎勵的優(yōu)化問題,稱為近視動作空間攻擊;第二種方法和第一種攻擊方法的目標(biāo)相同,但具有時間耦合約束,稱為具有前瞻性的動作空間攻擊.結(jié)果表明,具有時間耦合性約束的攻擊方法對深度強(qiáng)化學(xué)習(xí)智能體的性能具有更強(qiáng)的殺傷力,因?yàn)檫@個方法考慮到了智能體的動態(tài)因素.

    由于動作空間獨(dú)立于智能體策略之外,因此這種通過擾亂動作空間以減少智能體所獲得的累積回報的方法幾乎無法被防御.此類攻擊適合應(yīng)用于連續(xù)動作空間任務(wù),但是在面對經(jīng)過獨(dú)熱編碼的離散動作空間任務(wù)時難度較大.

    2.5 通過策略進(jìn)行攻擊

    Gleave 等[53]提出一種新的威脅算法,攻擊者控制著對抗性智能體在同一環(huán)境與合法智能體進(jìn)行對抗.在這種零和博弈場景下,敵人無法操縱合法智能體的觀察,但可以在合法智能體遵循自身策略的情形下創(chuàng)建自然觀察以作為對抗性輸入.這種自然觀察并沒有包含在合法智能體的訓(xùn)練樣本中,因此合法智能體在面對這些自然觀察時會顯得“手足無措”.

    實(shí)驗(yàn)中,對抗性對手智能體基于PPO 訓(xùn)練,受害者智能體基于LSTM 和MLP 訓(xùn)練.結(jié)果表明,敵人可以通過混淆受害者來贏得比賽,攻擊效果如圖3 所示.圖中第一行表示正常的對手與受害者的博弈過程,對手采用直接擊打受害者的方式進(jìn)行攻擊,而第二行中的對抗性對手在與受害者博弈過程中,采取倒在地上的方式作為攻擊手段.如果受害者躲過對手攻擊,則受害者獲勝,否則對手獲勝.對抗性對手在無法保持站立的情況下依然能使受害者陷入一種混亂狀態(tài).實(shí)驗(yàn)證明,對抗性對手的勝率在86%左右,而正常對手勝率僅為47%.

    圖3 對抗智能體攻擊效果Fig.3 Adversarial agent attack

    2.6 攻擊的適用性分析

    在本節(jié)中,針對基于不同深度強(qiáng)化算法的學(xué)習(xí)模型及攻擊場景,對上述攻擊方法的適用性進(jìn)行分析.

    1)觀測攻擊:針對環(huán)境觀測展開攻擊的方法中,基于FGSM[19]的強(qiáng)化學(xué)習(xí)攻擊方法具有較強(qiáng)的攻擊遷移能力,實(shí)驗(yàn)驗(yàn)證了其生成的對抗樣本可以攻擊不同的強(qiáng)化學(xué)習(xí)模型,均有較好的攻擊效果.策略誘導(dǎo)攻擊[41]、迷惑攻擊[42]和基于模仿學(xué)習(xí)的攻擊[46]均通過構(gòu)建等價模型生成對抗樣本,可用于攻擊基于不同算法的強(qiáng)化學(xué)習(xí)黑盒模型.而戰(zhàn)略時間攻擊通過戰(zhàn)略性地選擇特定時間點(diǎn)進(jìn)行攻擊,適用于處理離散動作空間算法的學(xué)習(xí)模型,如DQN[1?2]和A3C[6].基于值函數(shù)的對抗攻擊[44]通過借助值函數(shù)模塊評估當(dāng)前狀態(tài)價值的高低,從而決定是否進(jìn)行攻擊.因此這種方法不能應(yīng)用在一些單純依靠策略梯度的算法構(gòu)建的學(xué)習(xí)模型中.嗅探攻擊[45]和CopyCAT 算法[47]分別通過訓(xùn)練不同智能體模型來生成對抗樣本與使用掩碼讓智能體按照預(yù)先設(shè)定的策略行動來達(dá)到攻擊的效果,可攻擊不同強(qiáng)化學(xué)習(xí)算法得到的模型,具有一定的攻擊遷移性.

    2)獎勵攻擊:基于對抗變換網(wǎng)絡(luò)的攻擊[21]通過加入一個前饋的對抗變換網(wǎng)絡(luò)獲得對抗獎勵,可實(shí)現(xiàn)對強(qiáng)化學(xué)習(xí)的白盒攻擊.木馬攻擊[48]則在狀態(tài)訓(xùn)練數(shù)據(jù)中加入木馬觸發(fā)器,并在合理范圍內(nèi)修改其對應(yīng)的獎勵值,該方法同時適用于不同的算法得到的不同模型.翻轉(zhuǎn)獎勵符號攻擊[49]可以翻轉(zhuǎn)經(jīng)驗(yàn)回放池中部分樣本的獎勵值符號,所以適用于存在經(jīng)驗(yàn)回放機(jī)制的強(qiáng)化學(xué)習(xí)模型.

    3)環(huán)境攻擊:路徑脆弱點(diǎn)攻擊[50]和通用優(yōu)勢對抗樣本生成方法[20]都是在自動導(dǎo)航系統(tǒng)上進(jìn)行攻擊,而前者需要對智能體規(guī)劃路徑上的點(diǎn)進(jìn)行角度分析,所能應(yīng)用到的場景受到較大的限制;后者則只針對基于A3C 算法訓(xùn)練的智能體進(jìn)行實(shí)驗(yàn),尚不足以證明在深度強(qiáng)化學(xué)習(xí)算法之間的通用性.對環(huán)境模型的攻擊[51]方法是在環(huán)境的動態(tài)模型上增加擾動,可攻擊基于環(huán)境動態(tài)建模的強(qiáng)化學(xué)習(xí)模型.

    4)動作攻擊:動作空間擾動攻擊[52]適合應(yīng)用于連續(xù)動作空間任務(wù),但是在面對經(jīng)過獨(dú)熱編碼的離散動作空間任務(wù)時難度較大.

    5)策略攻擊:通過訓(xùn)練進(jìn)行攻擊[53]是指通過訓(xùn)練對抗性智能體與目標(biāo)智能體進(jìn)行對抗使目標(biāo)智能體失敗,目標(biāo)智能體可以通過不同強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到.

    3 深度強(qiáng)化學(xué)習(xí)的防御方法

    本節(jié)將詳細(xì)介紹深度強(qiáng)化學(xué)習(xí)系統(tǒng)為應(yīng)對各種不同的攻擊方法而提出的防御方法,可分為三大類:對抗訓(xùn)練、魯棒學(xué)習(xí)、對抗檢測.表4 對現(xiàn)有的主要防御方法做了歸納與比較.同時也對防御成功率進(jìn)行統(tǒng)計,目前防御效果統(tǒng)計中,獎勵值分析占主流,極少論文提到防御成功率,在調(diào)研過程中就發(fā)現(xiàn)一篇水印授權(quán)[54]的對抗檢測防御方法給出了對抗樣本檢測成功率指標(biāo),但并沒有給出具體數(shù)值,文中作者僅給出了檢測成功率曲線圖.

    表4 深度強(qiáng)化學(xué)習(xí)的防御方法Table 4 Defense methods of deep reinforcement learning

    3.1 對抗訓(xùn)練

    對抗訓(xùn)練是指將對抗樣本加入到訓(xùn)練樣本中對模型進(jìn)行訓(xùn)練,其主要目的是提高策略對正常樣本以外的泛化能力.但是對抗訓(xùn)練往往只能提高策略對參與訓(xùn)練的樣本的擬合能力.面對訓(xùn)練樣本之外的對抗樣本,策略的性能表現(xiàn)依然不盡人意.

    3.1.1 使用FGSM 與隨機(jī)噪聲進(jìn)行重訓(xùn)練

    Kos 等[44]使用對抗訓(xùn)練來提高深度強(qiáng)化學(xué)習(xí)系統(tǒng)的魯棒性.他們先使用普通樣本將智能體訓(xùn)練至專家水平,之后將FGSM 擾動與隨機(jī)噪聲添加至智能體的觀測狀態(tài)值上進(jìn)行重訓(xùn)練.Pattanaik 等[55]也采用了這種方法來提高智能體的魯棒性.

    實(shí)驗(yàn)證明,經(jīng)過FGSM 對抗訓(xùn)練后,智能體在面對FGSM 擾動時能保持與正常情況下相當(dāng)?shù)男阅?但是這種方法只能防御FGSM 與隨機(jī)擾動,在面對其他對抗擾動時依然無能為力.

    3.1.2 基于梯度帶的對抗訓(xùn)練

    Bai 等[50]針對自己的優(yōu)勢對抗樣本攻擊方法提出了一種在自動尋路地圖場景中基于梯度帶的對抗訓(xùn)練方法.該對抗訓(xùn)練方法不同于傳統(tǒng)的對抗訓(xùn)練,它只需要在一個優(yōu)勢對抗樣本上訓(xùn)練即可免疫幾乎所有對此地圖的優(yōu)勢對抗攻擊.

    該實(shí)驗(yàn)在基于A3C 的自動尋路任務(wù)下進(jìn)行.實(shí)驗(yàn)結(jié)果證明,在一個優(yōu)勢對抗樣本地圖上進(jìn)行基于梯度帶的對抗訓(xùn)練后,智能體在面對其他優(yōu)勢對抗樣本時防御精度能達(dá)到93.89%以上,而且該方法訓(xùn)練所需要的時間遠(yuǎn)少于傳統(tǒng)的對抗訓(xùn)練方法.

    3.1.3 非連續(xù)擾動下的對抗訓(xùn)練

    Behzadan 等[23]提出了非連續(xù)擾動下的對抗訓(xùn)練機(jī)制.與傳統(tǒng)對抗訓(xùn)練為所有訓(xùn)練樣本添加擾動不同,該方法以一定的概率P在訓(xùn)練樣本中添加FGSM 擾動.

    他們對DQN 與噪聲DQN 模型進(jìn)行了此非連續(xù)擾動的對抗訓(xùn)練.實(shí)驗(yàn)結(jié)果表明在P為0.2 和0.4 的情形下,DQN 與噪聲DQN 均能從擾動中恢復(fù)原有的性能.經(jīng)過此方法重訓(xùn)練得到的智能體在面對測試階段連續(xù)的FGSM 擾動時,性能表現(xiàn)與正常情況相當(dāng).

    3.1.4 基于敵對指導(dǎo)探索的對抗訓(xùn)練

    Behzadan 等[56]將ε 貪婪探索與玻爾茲曼探索結(jié)合,提出了敵對指導(dǎo)探索機(jī)制.這種探索機(jī)制能根據(jù)敵對狀態(tài)動作對的顯著性來調(diào)整對每個狀態(tài)抽樣的概率.提高非連續(xù)對抗擾動對抗訓(xùn)練的樣本利用率,同時也能使訓(xùn)練過程更加穩(wěn)定.

    這種方法是非連續(xù)擾動下對抗訓(xùn)練的改進(jìn),但是這種方法并沒有拓展所能防御的攻擊類型.

    3.2 魯棒學(xué)習(xí)

    魯棒學(xué)習(xí)是訓(xùn)練模型在面對來自訓(xùn)練階段或者測試階段時的攻擊方法時提高其自身魯棒性的學(xué)習(xí)機(jī)制.

    3.2.1 基于代理獎勵的魯棒學(xué)習(xí)

    由于在現(xiàn)實(shí)場景中,通常會因?yàn)閭鞲衅鞴收隙鴮?dǎo)致獎勵中帶有噪聲,因此Wang 等[58]提出使用獎勵混淆矩陣來定義一系列的無偏代理獎勵進(jìn)行學(xué)習(xí).使用該代理獎勵進(jìn)行訓(xùn)練能將模型從誤導(dǎo)獎勵中解救出來,并且訓(xùn)練的收斂速度比基準(zhǔn)強(qiáng)化學(xué)習(xí)算法更快.

    實(shí)驗(yàn)證明,使用代理獎勵值訓(xùn)練得到的智能體在獎勵噪聲場景下具有更好的表現(xiàn).這種代理獎勵具有很好的泛化性,可以輕易將其整合到各種強(qiáng)化學(xué)習(xí)算法中.

    3.2.2 魯棒對抗強(qiáng)化學(xué)習(xí)

    Pinto 等[58]將建模誤差以及訓(xùn)練及測試場景下的差異都看作是系統(tǒng)中的額外干擾,基于這種思想,他們提出了魯棒對抗強(qiáng)化學(xué)習(xí),核心是令一個智能體以扮演系統(tǒng)中的干擾因素,在目標(biāo)智能體的訓(xùn)練過程中施加壓力.他們將策略的學(xué)習(xí)公式化為零和極大極小值目標(biāo)函數(shù),目標(biāo)智能體在學(xué)習(xí)過程中一邊以完成原任務(wù)為目標(biāo),一邊使自己在面對對抗智能體的干擾時變得更加魯棒.

    在MuJoCo 物理仿真環(huán)境中,Pinto 等[58]證明經(jīng)過該方法訓(xùn)練得到的智能體在面對額外干擾時具有更好的魯棒性,考慮到了現(xiàn)實(shí)中可能存在的干擾,為深度強(qiáng)化學(xué)習(xí)系統(tǒng)從模擬環(huán)境走向現(xiàn)實(shí)環(huán)境提供了一份參考方案.

    3.2.3 其余基于博弈理論的魯棒訓(xùn)練

    Bravo 等[59]將受到攻擊或損壞的獎勵值信道問題建模了強(qiáng)化學(xué)習(xí)智能體與對手之間的零和博弈問題,并且提出了均衡原則,證明了在具有內(nèi)部平衡的二人零和博弈情況下,無論觀察結(jié)果受到的噪聲水平如何,訓(xùn)練的時間平均值都將收斂至納什均衡.

    Ogunmolu 等[60]將深度強(qiáng)化學(xué)習(xí)智能體與攻擊者在訓(xùn)練階段的對抗交互建模為迭代的最大最小動態(tài)博弈框架,通過控制訓(xùn)練過程來使兩者達(dá)到鞍點(diǎn)均衡.這種方法提高了模型訓(xùn)練的策略在對抗干擾下的魯棒性.

    由于傳統(tǒng)A3C 在正常環(huán)境中訓(xùn)練的智能體無法處理一些具有挑戰(zhàn)性的場景,因此Gu 等[24]提出了一種對抗A3C 學(xué)習(xí)框架.與Pinto 等[58]類似,對抗A3C 在學(xué)習(xí)過程中引入一個敵對智能體,以此模擬環(huán)境中可能存在的不穩(wěn)定因素.目標(biāo)智能體通過與該敵對智能體博弈訓(xùn)練,最終達(dá)到納什均衡.

    3.2.4 噪聲網(wǎng)絡(luò)

    Behzadan 等[61]對噪聲網(wǎng)絡(luò)的防御能力進(jìn)行了測試.在實(shí)驗(yàn)中,他們使用等價模型方法建立了目標(biāo)網(wǎng)絡(luò)的副本,以副本為基礎(chǔ)制造FGSM 對抗擾動.

    實(shí)驗(yàn)證明,在測試階段,經(jīng)過噪聲DQN 訓(xùn)練的智能體在面對此類黑盒攻擊時,其性能表現(xiàn)要比原始DQN 訓(xùn)練的智能體更加好;在訓(xùn)練階段,噪聲DQN 智能體的性能也會隨著攻擊時間的增長而惡化,但是其惡化速度也比原始DQN 慢.可以證明,使用噪聲網(wǎng)絡(luò)訓(xùn)練的智能體在面對對抗擾動時具有更好的彈性與魯棒性.Neklyudov 等[62]也使用了類似的高斯方差層來提高智能體的探索能力與魯棒性.

    3.3 對抗檢測

    對抗檢測指模型對正常樣本與對抗樣本加以甄別,并在不修改原始模型參數(shù)的情況下處理對抗樣本.

    3.3.1 基于元學(xué)習(xí)的對抗檢測

    Havens 等[63]介紹了一種元學(xué)習(xí)優(yōu)勢層次框架,它在只使用優(yōu)勢觀察的情況下,能夠有效地檢測并減輕基于狀態(tài)信息的對抗攻擊.核心思想是使用主智能體監(jiān)視子策略,通過衡量一定時間內(nèi)子策略的回報來決定是否繼續(xù)執(zhí)行當(dāng)前子策略.由于主智能體已經(jīng)對子策略制定了準(zhǔn)確的預(yù)期,因此一旦攻擊者使策略行為發(fā)生變化,主智能體就能察覺并轉(zhuǎn)換子策略.

    這種學(xué)習(xí)框架能在時域范圍內(nèi)檢測攻擊者帶來的預(yù)期之外的影響.相較于傳統(tǒng)深度強(qiáng)化學(xué)習(xí)系統(tǒng),提高了受攻擊場景下的回報下界.

    3.3.2 基于預(yù)測模型的對抗檢測

    Lin 等[25]提出了一種動作條件幀預(yù)測模型,通過比較目標(biāo)策略對預(yù)測幀與當(dāng)前幀的動作分布差異來判斷當(dāng)前幀是否為對抗樣本,如果當(dāng)前幀被判斷為對抗樣本,則智能體使用預(yù)測幀作為輸入并執(zhí)行動作.實(shí)驗(yàn)效果如圖4 所示,該圖描述了攻擊者對智能體πθ進(jìn)行連續(xù)攻擊的場景.在時間步t-1 和t,智能體接受惡意擾動輸入并輸出會導(dǎo)致性能下降動作分布.給定先前得觀測和動作,并結(jié)合視覺預(yù)測模型得到預(yù)測幀,并通過得到預(yù)測動作分布.比較πθ(xt)與兩個動作分布,如果兩個分布的距離大于閾值H,則將當(dāng)前幀視作對抗樣本.

    圖4 基于預(yù)測模型的對抗檢測Fig.4 Adversarial detection based on prediction model

    Lin 等[25]將此方法與Feature Squeezer[64]、AutoEncoder[65]以及Dropout[66]三類對抗檢測方法進(jìn)行比較.實(shí)驗(yàn)結(jié)果證明,他們提出的方法能夠以60%到100%的精度來檢測對抗攻擊,性能表現(xiàn)優(yōu)于其他三類方法.

    3.3.3 水印授權(quán)

    Behzadan 等[54]將Uchida 等[67]提出的水印技術(shù)加以修改并應(yīng)用到了深度強(qiáng)化學(xué)習(xí)系統(tǒng)中.其核心思想是為策略中對一些特定的狀態(tài)轉(zhuǎn)移序列加上唯一標(biāo)識符.同時保證在正常情況下,標(biāo)識符對策略的性能影響最小.一旦攻擊者對策略進(jìn)行篡改并除法水印,智能體就會中止活動.

    3.3.4 受威脅的馬爾科夫決策過程

    Gallego 等[68]提出了一種受威脅的馬爾科夫決策過程,將攻擊者對獎勵值產(chǎn)生過程的干擾行為考慮在內(nèi).同時提出了一種K 級思維方式來對這種新型馬爾科夫決策過程求解.實(shí)驗(yàn)中,攻擊者以1 級思維利用正常的Q學(xué)習(xí)算法降低目標(biāo)智能體對獎勵的獲取,目標(biāo)智能體則以2 級思維去估計攻擊者的行為并嘗試獲得正向獎勵.

    實(shí)驗(yàn)結(jié)果證明,以2 級思維模型訓(xùn)練的智能體在獎勵值干擾下累積回報不斷增加,最終實(shí)現(xiàn)正向的累積回報;而以傳統(tǒng)方式訓(xùn)練的智能體性能不斷惡化,最終收斂于最差的累積回報.

    3.3.5 在線認(rèn)證防御

    Lutjens 等[69]提出了一種在線認(rèn)證的防御機(jī)制,智能體能在執(zhí)行過程中保證狀態(tài)動作值的下界,以保證在輸入空間可能存在對抗擾動的情況下選擇最優(yōu)動作.防御過程中,智能體通過狀態(tài)觀測得到受擾動的狀態(tài)sadv,DQN 網(wǎng)絡(luò)輸出狀態(tài)動作價值Q(sadv,a).在線認(rèn)證節(jié)點(diǎn)在狀態(tài)空間中魯棒閾值±ε,并為每個離散動作計算狀態(tài)動作價值下限QL,智能體根據(jù)最大的動作價值選擇相對應(yīng)的動作a?.

    實(shí)驗(yàn)結(jié)果證明,將這種機(jī)制添加到DQN 后,智能體在面對傳感器噪聲、帶目標(biāo)的FGSM 擾動時能具有更好的魯棒性.這種在線認(rèn)證的防御方式易于集成,而且目前計算機(jī)視覺領(lǐng)域的魯棒性驗(yàn)證工具可以更好地計算狀態(tài)動作價值的置信下界.

    4 深度強(qiáng)化學(xué)習(xí)的安全性分析

    雖然目前已經(jīng)有了許多對深度強(qiáng)化學(xué)習(xí)系統(tǒng)的攻防方法,但是攻擊與防御方法的效果卻很難進(jìn)行評估.早期往往使用簡單的標(biāo)準(zhǔn)對攻擊效果進(jìn)行評估,例如Atari 游戲中得分的下降,但是這通常不足以表征攻擊方法的效果.其次防御方法缺乏泛化性,對當(dāng)前攻擊有效的防御方法在面對其他類型的攻擊時可能就失效了.此外,攻擊和防御方法都在快速的更新迭代,許多傳統(tǒng)的防御方法在面對新出現(xiàn)的攻擊方法時都被證明是無效的.例如,在深度學(xué)習(xí)中,混淆梯度策略的提出,證明了許多防御措施是無效的[70].由于防御方法泛化能力的不足,眾多研究者轉(zhuǎn)而著力研究策略的魯棒性及策略的安全邊界問題,以解決上述的不足.下面介紹模型安全性分析驗(yàn)證方面的一些研究.

    4.1 基于等價模型的方法

    由于DNN 網(wǎng)絡(luò)的復(fù)雜性,對學(xué)習(xí)到的策略網(wǎng)絡(luò)的魯棒性等屬性進(jìn)行直接驗(yàn)證是比較困難的.因此,比較直觀的想法就是使用等價模型來等效替代策略網(wǎng)絡(luò).這種方法對等價模型的要求較高,至少需要滿足以下兩個條件:1)等價模型的性能表現(xiàn)能與原來的策略在同一水平線上(或是稍弱一些);2)要求等價模型能夠很好地驗(yàn)證安全性、穩(wěn)定性和魯棒性等屬性.除此之外,還需要考慮到擴(kuò)展性以及算法復(fù)雜度等因素.下面對現(xiàn)有的等價模型方法進(jìn)行介紹.

    4.1.1 決策樹等價模型

    Bastani 等[71]提出使用決策樹策略來等價DNN 策略.他們訓(xùn)練的決策樹策略能夠表示復(fù)雜的策略.由于決策樹的非參數(shù)和高度結(jié)構(gòu)化性質(zhì),使用現(xiàn)有的技術(shù)可以對其進(jìn)行有效的驗(yàn)證.但是其中首要的難題就是決策樹策略難以訓(xùn)練.對此,他們提出了VIPER 方法,該方法在模仿學(xué)習(xí)算法的基礎(chǔ)上利用了Q函數(shù),將原來的DNN 策略作為專家策略,最終學(xué)習(xí)到一顆較小的決策樹(小于1 000個結(jié)點(diǎn)),整個流程如圖5 所示.圖5 表明,該方法將強(qiáng)化學(xué)習(xí)模型建模為MDP 過程,通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到相應(yīng)的策略并將其作為專家策略來訓(xùn)練生成決策樹模型,最后將決策樹學(xué)習(xí)生成的策略在該實(shí)驗(yàn)場景中驗(yàn)證其有效性.

    圖5 決策樹等價模型驗(yàn)證方法流程Fig.5 Process of decision tree equivalent model verification

    實(shí)驗(yàn)表明,根據(jù)使用DQN 與使用VIPER 提取的決策樹策略進(jìn)行強(qiáng)化學(xué)習(xí)任務(wù)得到相同回報值的結(jié)果,表明學(xué)習(xí)得到的決策樹在Atari 的Pong和cart-pole 場景下具有較好的表現(xiàn).并且Bastani 等[71]描述了如何手動檢查反例來驗(yàn)證決策樹策略的正確性、穩(wěn)定性和魯棒性,他們表示與傳統(tǒng)DNN策略相兼容的驗(yàn)證方法相比,決策樹等價模型具有更大的擴(kuò)展性.但是實(shí)驗(yàn)所證明的策略屬性還不夠全面,這是該方法需要在未來進(jìn)行拓展的方向.

    4.1.2 形式化驗(yàn)證技術(shù)

    Zhu 等[73]考慮了如何將傳統(tǒng)軟件系統(tǒng)開發(fā)的形式化驗(yàn)證技術(shù)用于強(qiáng)化學(xué)習(xí)的驗(yàn)證問題.該技術(shù)不是通過檢查和更改神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來加強(qiáng)安全性,而是使用黑盒的方法擬合策略,繼而得到一個更簡單、解釋性更強(qiáng)的合成程序.通過反例和句法引導(dǎo)的歸納綜合過程來解決神經(jīng)網(wǎng)絡(luò)驗(yàn)證問題,并使用一個驗(yàn)證過程來保證程序提出的狀態(tài)總是與原始規(guī)范和部署環(huán)境上下文的歸納不變量一致.這個不變量定義了一個歸納屬性,該屬性將轉(zhuǎn)換系統(tǒng)中可表達(dá)的所有可達(dá)(安全)和不可達(dá)(不安全)狀態(tài)分開.在此基礎(chǔ)之上開發(fā)了一個運(yùn)行監(jiān)控框架,該框架將合成的程序視為安全盾牌,每當(dāng)建議的操作可能會導(dǎo)致系統(tǒng)進(jìn)入不安全區(qū)域時,該框架會覆蓋此類操作.不安全區(qū)域需要根據(jù)相應(yīng)的環(huán)境給出,這里根據(jù)時間的消耗、能夠屏蔽的不安全狀態(tài)的數(shù)量以及達(dá)到穩(wěn)定狀態(tài)所需要的步數(shù)來對合成的確定性程序進(jìn)行評價.

    以上兩種方法都是模型本身出發(fā),尋找策略網(wǎng)絡(luò)的替代模型進(jìn)行可驗(yàn)證的安全性分析,方法具有可行性.但是我們也需要考慮到在生成等價模型過程中造成的損失.此外可以根據(jù)替代模型的優(yōu)勢,在驗(yàn)證某一屬性時,進(jìn)行模型的選擇.

    4.2 其他方法

    除了等價模型的方法外,眾多研究者還提出了其他的一些方法.碰撞避免是安全性研究的一個重要方面,如何有效的減少碰撞的發(fā)生,是強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用在自動駕駛汽車、機(jī)器人導(dǎo)航等領(lǐng)域時需要解決的問題.Gallego 等[68]在智能體運(yùn)行過程中對輸入狀態(tài)給定一個范圍計算Q值的安全下界,以在輸入空間由于可能的對手或噪音而導(dǎo)致的最壞情況下,識別并選取最佳操作,并據(jù)此提出了一種防御機(jī)制,所得到的策略(添加到訓(xùn)練好的DQN網(wǎng)絡(luò)上)提高了對對手和傳感器噪聲的魯棒性,通過調(diào)整魯棒性范圍計算碰撞次數(shù)的變化以及回報值的變化來衡量模型的性能以及魯棒性范圍的選取.這種方法是事先設(shè)定一個安全邊界并進(jìn)行實(shí)驗(yàn)驗(yàn)證,與從模型本身得出安全邊界有所不同.

    同樣是在碰撞避免方面的研究,Behzadan 等[73]提出了一種基于深度強(qiáng)化學(xué)習(xí)的新框架,用于在最壞情況下對碰撞避免機(jī)制的行為進(jìn)行基準(zhǔn)測試,即處理一個經(jīng)過訓(xùn)練以使系統(tǒng)進(jìn)入不安全狀態(tài)的最優(yōu)對手智能體.他們通過比較兩種碰撞避免機(jī)制在應(yīng)對故意碰撞嘗試時的可靠性,驗(yàn)證了該框架的有效性.基于碰撞次數(shù)以及回報值進(jìn)行評價,此外還對從開始到產(chǎn)生碰撞的時間進(jìn)行了測量,時間越長表明這種機(jī)制有更強(qiáng)的防碰撞能力.

    此外,為了以獨(dú)立于攻擊類型之外的方式評估智能體在測試階段面對對抗擾動的魯棒性與彈性,Behzadan 等[74]提出了衡量深度強(qiáng)化學(xué)習(xí)策略的彈性與魯棒性指標(biāo).首先定義對抗性后悔的概念,對抗性后悔是指未受干擾的主體在時間T 獲得的回報與受干擾的主體在時間T 獲得的回報的差值,那么彈性指的是造成最大對抗性后悔需要的最小的擾動狀態(tài)數(shù)量,魯棒性指的是給定最大擾動數(shù)量,可以達(dá)到的最大對抗性后悔.通過在Cart-Pole 環(huán)境中訓(xùn)練的DQN、A2C 和PPO2 智能體上的實(shí)驗(yàn)評估,DQN 在較少數(shù)量的擾動狀態(tài)數(shù)量下,引起了等量的對抗性后悔,表明其彈性較差,其次是PPO2策略,而A2C 策略的彈性是三者中最強(qiáng)的.對于最大為10 個擾動狀態(tài)的情況下,三者的魯棒性很接近,這是因?yàn)樵趶椥缘挠嬎阒腥〉米畲蟮膶剐院蠡诒容^合適的擾動狀態(tài)數(shù)為7.5,超越這個數(shù)量,三者的效果都不是很好,對于固定的最大為5 個擾動狀態(tài)的情況下,DQN 的對抗后悔值最大,表明其魯棒性最差,而A2C 的對抗后悔值較小,表明魯棒性最強(qiáng).

    盡管深度強(qiáng)化學(xué)習(xí)在實(shí)驗(yàn)室環(huán)境下取得了一個卓越的表現(xiàn),在沒有良好的安全性保證的情況下,深度強(qiáng)化學(xué)習(xí)在工業(yè)領(lǐng)域的落地應(yīng)用還是有待考慮.

    5 應(yīng)用平臺與安全性評估指標(biāo)

    在監(jiān)督學(xué)習(xí)中,有如ImageNet 數(shù)據(jù)集、LeNet 網(wǎng)絡(luò)模型作為基準(zhǔn),方便比較學(xué)者們的研究成果.在深度強(qiáng)化學(xué)習(xí)領(lǐng)域與之對應(yīng)的就是各式各樣的環(huán)境、算法的實(shí)現(xiàn).本節(jié)我們列舉部分常用的環(huán)境、算法庫和攻擊方法庫,給出了已有論文中在不同模型以及實(shí)驗(yàn)平臺下的攻擊防御安全性評估指標(biāo),攻防指標(biāo)整理在表6 和表7 中.本節(jié)提供的實(shí)驗(yàn)平臺算法是已有強(qiáng)化學(xué)習(xí)研究基礎(chǔ)平臺,也可作為之后研究的基準(zhǔn).

    表6 深度強(qiáng)化學(xué)習(xí)的攻擊指標(biāo)Table 6 Attack indicators of deep reinforcement learning

    表7 深度強(qiáng)化學(xué)習(xí)的防御指標(biāo)Table 7 Defense indicators of deep reinforcement learning

    5.1 深度強(qiáng)化學(xué)習(xí)的環(huán)境基準(zhǔn)

    OpenAI Gym[75]提供了多種環(huán)境,比如Atari、棋盤游戲等,并且它還提供了統(tǒng)一的環(huán)境接口,方便研究人員定制自己想要的環(huán)境.Johnson 等[76]是一個基于流行游戲Minercraft 的人工智能實(shí)驗(yàn)平臺,它提供了一系列具有連貫、復(fù)雜動態(tài)因素的3D環(huán)境以及豐富的目標(biāo)任務(wù).OpenSpiel[77]提供了從單智能體到多智能體的零和、合作等博弈場景以及一些分析學(xué)習(xí)動態(tài)和其他常見評估指標(biāo)的工具.James 等[78]旨在為機(jī)器人學(xué)習(xí)提供一系列具有挑戰(zhàn)的學(xué)習(xí)環(huán)境,它具有100 項(xiàng)完全獨(dú)特的手工設(shè)計任務(wù).MuJoCo[79]是一個物理模擬引擎,提供了一系列連續(xù)動作的模擬任務(wù)場景.目前常用的是OpenAI Gym 游戲平臺,已有的大部分實(shí)驗(yàn)成果都是在該平臺的游戲場景中通過訓(xùn)練、攻擊與防御等技術(shù)獲得的.

    5.2 深度強(qiáng)化學(xué)習(xí)的算法實(shí)現(xiàn)基準(zhǔn)

    OpenAI Baseline[80]提供了幾種當(dāng)下最流行的深度強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn),包括DQN、TRPG、PPO等.Rllab[81]提供了各種各樣的連續(xù)控制任務(wù)以及針對連續(xù)控制任務(wù)的深度強(qiáng)化學(xué)習(xí)算法基準(zhǔn).Dopamine[82]是用于快速實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法原型制作的研究框架,它旨在滿足用戶對小型、易處理代碼庫的需求.

    5.3 深度強(qiáng)化學(xué)習(xí)的攻擊基準(zhǔn)

    CleverHans[83]、Foolbox[84]都提供了制造對抗樣本和對抗訓(xùn)練的標(biāo)準(zhǔn)化實(shí)現(xiàn),可以用來量化和比較機(jī)器學(xué)習(xí)模型之間的魯棒性.但是這兩者只能用于對深度強(qiáng)化學(xué)習(xí)中的狀態(tài)進(jìn)行攻擊,并不能涵蓋獎勵、動作等強(qiáng)化學(xué)習(xí)特有的環(huán)節(jié).

    5.4 深度強(qiáng)化學(xué)習(xí)的安全性評估基準(zhǔn)

    安全性評估指標(biāo)通常用來評價攻擊或者防御方法的強(qiáng)弱,以評估模型的魯棒安全性.我們在表5中分別給出現(xiàn)有大部分論文中的攻擊和防御的安全性評估指標(biāo),分析其評價機(jī)制和評價目的.

    表5 深度強(qiáng)化學(xué)習(xí)的安全性評估指標(biāo)Table 5 Security evaluation indicators of deep reinforcement learning

    6 未來研究方向

    本文針對深度強(qiáng)化學(xué)習(xí)已提出的攻擊方法以及為抵御這些攻擊而提出的防御措施進(jìn)行了全面調(diào)查.我們還提供了可用于實(shí)驗(yàn)的環(huán)境、算法以及攻擊基準(zhǔn),同時對攻防指標(biāo)進(jìn)行整理總結(jié).本節(jié)我們針對深度強(qiáng)化學(xué)習(xí)的攻防方法及安全性分析,探討其在未來的研究發(fā)展方向,從不同角度分析之后可發(fā)展的研究內(nèi)容.

    6.1 攻擊方法

    已有的面向深度學(xué)習(xí)的攻擊方法中,迭代攻擊方法的性能相對較優(yōu),但是迭代方法計算代價太高,不能滿足DRL 系統(tǒng)實(shí)時預(yù)測的需求.針對DRL 的攻擊,未來可能從攻擊的實(shí)時性要求出發(fā),研究基于生成式對抗網(wǎng)絡(luò)的對抗樣本生成方法,經(jīng)過訓(xùn)練后可生成大量高效的攻擊;從攻擊的實(shí)操角度出發(fā),研究基于模仿學(xué)習(xí)構(gòu)建替代模型的方式來縮短攻擊準(zhǔn)備的時間,以解決DRL 系統(tǒng)的黑盒替代模型訓(xùn)練代價太大的問題;對于訓(xùn)練階段進(jìn)行的攻擊,研究DRL 訓(xùn)練過程的中毒攻擊技術(shù),通過在DRL 系統(tǒng)中的狀態(tài)、獎勵值或是環(huán)境模型中嵌入后門觸發(fā)器實(shí)現(xiàn)后門攻擊;針對攻擊的遷移性,研究攻擊方法在不同算法或者不同模型結(jié)構(gòu)上的遷移性,比較其攻擊成功率;針對DRL 的多智能體任務(wù),研究多智能體的協(xié)同合作過程中存在的策略漏洞,從而進(jìn)行策略攻擊;從攻擊的可解釋性出發(fā),研究不同的攻擊方法對策略網(wǎng)絡(luò)中神經(jīng)元的激活狀況的影響,尋找敏感神經(jīng)元和神經(jīng)通路來提高攻擊的效果.

    此外,與傳統(tǒng)DNN 模型類似,一些大型的如金融交易領(lǐng)域的DRL 系統(tǒng)通常會被部署到云平臺上.這些領(lǐng)域的環(huán)境模型與訓(xùn)練數(shù)據(jù)常常具有非常高的價值,攻擊者未來可以嘗試以訪問云平臺公用API的方式進(jìn)行模型與訓(xùn)練數(shù)據(jù)的竊取.

    6.2 防御方法

    深度學(xué)習(xí)主要通過修改模型輸入、目標(biāo)函數(shù)以及網(wǎng)絡(luò)結(jié)構(gòu)這三類方法來實(shí)現(xiàn)防御效果.但是,深度學(xué)習(xí)的大多數(shù)防御方法不能滿足DRL 的實(shí)際應(yīng)用場景中,尤其是在多智能體的任務(wù)場景中.針對DRL 的防御,之后的研究可能從數(shù)據(jù)安全的角度出發(fā),研究使用自編碼器對受擾動的獎勵、觀測信號進(jìn)行數(shù)據(jù)預(yù)處理,提高DRL 系統(tǒng)面對信號噪聲的魯棒性;從模型魯棒的角度出發(fā),構(gòu)建基于模型集成的強(qiáng)化學(xué)習(xí)環(huán)境動態(tài)建模方法,通過模型集合來提高模型魯棒性,生成穩(wěn)定有效的模型策略;從策略優(yōu)化的角度出發(fā),研究單個智能體甚至于多個智能體協(xié)同合作之間的策略漏洞,體現(xiàn)在模型策略網(wǎng)絡(luò)的訓(xùn)練過程,以優(yōu)化模型的策略.

    6.3 安全性分析

    DL 在攻防的分析上已經(jīng)提出了許多指標(biāo),如對抗類別平均置信度、平均結(jié)構(gòu)相似度、分類精確方差等.而對DRL 的攻擊與防御的實(shí)驗(yàn)結(jié)果主要還是以簡單的平均回合獎勵、獎勵值的收斂曲線來進(jìn)行評估.這樣單一、表面的指標(biāo)不能夠充分說明DRL 模型的魯棒性,未來還需要提出更深層的評估標(biāo)準(zhǔn),用以展現(xiàn)決策邊界、環(huán)境模型在防御前后的不同.

    目前在DL 領(lǐng)域,已經(jīng)有研究人員推出了一些模型測試評估平臺,這些平臺集成了目前對DL 模型的攻擊方法與防御方法,并以現(xiàn)有的模型安全指標(biāo)對模型進(jìn)行安全性分析.DRL 領(lǐng)域也可以結(jié)合本身的特點(diǎn),搭建相應(yīng)的攻防安全分析平臺,并添加DRL 特有的測試需求,如對系統(tǒng)的環(huán)境建模誤差進(jìn)行分析、針對不同的系統(tǒng)生成標(biāo)準(zhǔn)的連續(xù)測試場景等.

    猜你喜歡
    擾動深度動作
    Bernoulli泛函上典則酉對合的擾動
    深度理解一元一次方程
    (h)性質(zhì)及其擾動
    深度觀察
    深度觀察
    深度觀察
    動作描寫要具體
    畫動作
    動作描寫不可少
    小噪聲擾動的二維擴(kuò)散的極大似然估計
    欧美另类一区| 亚洲精品一区蜜桃| 国产在线视频一区二区| 久久99精品国语久久久| 2018国产大陆天天弄谢| 我要看黄色一级片免费的| 香蕉精品网在线| 亚洲欧美成人精品一区二区| 久久人妻熟女aⅴ| 日韩制服骚丝袜av| 成人无遮挡网站| 亚洲精品国产av蜜桃| 中文资源天堂在线| 亚洲真实伦在线观看| 精品久久国产蜜桃| 中文乱码字字幕精品一区二区三区| 久久久久久人妻| 欧美一级a爱片免费观看看| 赤兔流量卡办理| 伦理电影大哥的女人| 亚洲精品日韩在线中文字幕| 97在线视频观看| 日本欧美国产在线视频| 免费人成在线观看视频色| 免费av不卡在线播放| 99热国产这里只有精品6| 综合色丁香网| 午夜精品国产一区二区电影| 成人免费观看视频高清| 国内揄拍国产精品人妻在线| av国产久精品久网站免费入址| 中文字幕制服av| 成人美女网站在线观看视频| 91成人精品电影| 婷婷色av中文字幕| 日韩 亚洲 欧美在线| 热99国产精品久久久久久7| 在现免费观看毛片| 99热这里只有是精品在线观看| 亚洲图色成人| 在线观看免费视频网站a站| 亚洲无线观看免费| 国产精品一区二区在线观看99| 国产免费一级a男人的天堂| 国产黄频视频在线观看| 国产一区二区在线观看av| 一级a做视频免费观看| 在线观看美女被高潮喷水网站| 一区二区三区免费毛片| 简卡轻食公司| 97超碰精品成人国产| 午夜日本视频在线| 欧美精品一区二区大全| 国产精品三级大全| 热re99久久精品国产66热6| 在线播放无遮挡| 久久久午夜欧美精品| 亚洲精品国产成人久久av| 最近的中文字幕免费完整| 中文字幕久久专区| 22中文网久久字幕| 国产男女内射视频| 国产精品一二三区在线看| 日韩成人伦理影院| 日韩欧美 国产精品| 亚洲一级一片aⅴ在线观看| 一区二区三区乱码不卡18| 国产日韩欧美亚洲二区| 国产精品一区二区性色av| 中文精品一卡2卡3卡4更新| 亚洲四区av| 久久久国产欧美日韩av| 成人毛片a级毛片在线播放| 国产精品人妻久久久影院| 老司机影院成人| 日韩视频在线欧美| 免费人妻精品一区二区三区视频| 国产免费视频播放在线视频| 在线观看一区二区三区激情| 欧美精品人与动牲交sv欧美| 国产综合精华液| 热re99久久精品国产66热6| 欧美人与善性xxx| 亚洲熟女精品中文字幕| 少妇猛男粗大的猛烈进出视频| 黑人巨大精品欧美一区二区蜜桃 | 极品教师在线视频| 免费大片黄手机在线观看| 最黄视频免费看| av卡一久久| 亚洲av在线观看美女高潮| 亚洲成人av在线免费| 久久久久久伊人网av| 中文字幕精品免费在线观看视频 | 久久久久久久大尺度免费视频| 精品少妇黑人巨大在线播放| 国产一区二区在线观看av| 一本久久精品| 亚洲三级黄色毛片| 国产精品偷伦视频观看了| 日本爱情动作片www.在线观看| 午夜精品国产一区二区电影| 美女脱内裤让男人舔精品视频| 99热网站在线观看| 国产美女午夜福利| 亚洲无线观看免费| 久久久久久久久大av| 国内精品宾馆在线| 久热这里只有精品99| 亚洲av国产av综合av卡| 黄色毛片三级朝国网站 | 日韩av免费高清视频| 国产成人aa在线观看| kizo精华| 精华霜和精华液先用哪个| 精品少妇内射三级| 一级爰片在线观看| 国产黄频视频在线观看| 午夜老司机福利剧场| 老女人水多毛片| 成年美女黄网站色视频大全免费 | 少妇猛男粗大的猛烈进出视频| 国产爽快片一区二区三区| videos熟女内射| 人人妻人人爽人人添夜夜欢视频 | 一本色道久久久久久精品综合| 高清不卡的av网站| 亚洲三级黄色毛片| 亚洲熟女精品中文字幕| 大香蕉97超碰在线| 亚洲在久久综合| 日韩不卡一区二区三区视频在线| 老司机影院成人| 亚洲精华国产精华液的使用体验| 国产精品秋霞免费鲁丝片| 久久国内精品自在自线图片| 国产毛片在线视频| 色吧在线观看| 欧美xxxx性猛交bbbb| 欧美+日韩+精品| 草草在线视频免费看| 99久久精品国产国产毛片| 国产伦精品一区二区三区四那| 一区二区三区精品91| 亚洲色图综合在线观看| 男人添女人高潮全过程视频| av免费观看日本| 一区二区三区乱码不卡18| 在线观看免费视频网站a站| 亚洲欧美精品专区久久| 亚洲精品国产av成人精品| 99久久精品一区二区三区| 亚洲欧美精品专区久久| 王馨瑶露胸无遮挡在线观看| 日韩在线高清观看一区二区三区| 桃花免费在线播放| 啦啦啦啦在线视频资源| 天堂中文最新版在线下载| 91久久精品国产一区二区三区| 久热久热在线精品观看| 91久久精品电影网| 少妇裸体淫交视频免费看高清| 国产深夜福利视频在线观看| 日韩人妻高清精品专区| 大片免费播放器 马上看| 成人综合一区亚洲| 国产成人精品无人区| 亚洲欧洲国产日韩| 亚洲欧洲国产日韩| 亚洲国产欧美在线一区| 一级毛片电影观看| 一级毛片我不卡| 精品一品国产午夜福利视频| 日韩不卡一区二区三区视频在线| 一级黄片播放器| www.av在线官网国产| 亚州av有码| 人妻少妇偷人精品九色| 黄色日韩在线| 成人漫画全彩无遮挡| 成年av动漫网址| 边亲边吃奶的免费视频| 国产精品久久久久久av不卡| 国产精品人妻久久久久久| 久久精品久久久久久噜噜老黄| 热99国产精品久久久久久7| 国产精品不卡视频一区二区| 国产欧美另类精品又又久久亚洲欧美| 久久久久久久亚洲中文字幕| 欧美精品一区二区大全| 丰满少妇做爰视频| 十八禁网站网址无遮挡 | 熟女av电影| 精品久久久久久电影网| 亚洲精品456在线播放app| 免费观看av网站的网址| av国产精品久久久久影院| 午夜影院在线不卡| 国产精品秋霞免费鲁丝片| 欧美精品亚洲一区二区| 国产av码专区亚洲av| av一本久久久久| 黑人巨大精品欧美一区二区蜜桃 | 亚洲第一区二区三区不卡| 久久久久人妻精品一区果冻| 国产成人精品一,二区| 久久99蜜桃精品久久| 一本大道久久a久久精品| 日日摸夜夜添夜夜添av毛片| 久久人人爽人人爽人人片va| 久久精品国产a三级三级三级| 欧美精品人与动牲交sv欧美| 最近手机中文字幕大全| 欧美日本中文国产一区发布| 久久久精品94久久精品| 99久久人妻综合| 亚洲激情五月婷婷啪啪| 99久久综合免费| 久久毛片免费看一区二区三区| 亚洲美女视频黄频| 亚洲精品456在线播放app| 制服丝袜香蕉在线| 毛片一级片免费看久久久久| 在线观看一区二区三区激情| 国产 一区精品| 我要看黄色一级片免费的| 伦精品一区二区三区| 亚洲精品色激情综合| 极品教师在线视频| 亚洲精品自拍成人| 五月天丁香电影| 伊人久久精品亚洲午夜| 有码 亚洲区| 高清毛片免费看| 亚洲激情五月婷婷啪啪| 亚洲精品日本国产第一区| 亚洲中文av在线| 国产视频首页在线观看| 男女无遮挡免费网站观看| 26uuu在线亚洲综合色| 国产精品成人在线| 国产精品欧美亚洲77777| 久久精品国产a三级三级三级| 日日啪夜夜撸| 精品人妻熟女av久视频| 天堂中文最新版在线下载| 啦啦啦中文免费视频观看日本| h视频一区二区三区| 亚洲伊人久久精品综合| 国产精品蜜桃在线观看| 黄片无遮挡物在线观看| 韩国av在线不卡| 久久人妻熟女aⅴ| 高清不卡的av网站| 99国产精品免费福利视频| 最新的欧美精品一区二区| 国语对白做爰xxxⅹ性视频网站| 国产成人一区二区在线| 日产精品乱码卡一卡2卡三| 99热网站在线观看| 777米奇影视久久| 亚洲欧洲精品一区二区精品久久久 | 亚洲国产精品一区三区| 中文乱码字字幕精品一区二区三区| 欧美变态另类bdsm刘玥| 黄片无遮挡物在线观看| 少妇裸体淫交视频免费看高清| a 毛片基地| 日韩一区二区视频免费看| 日韩欧美 国产精品| 免费大片18禁| 自线自在国产av| 亚洲第一区二区三区不卡| 国产亚洲欧美精品永久| 久久人人爽人人片av| 国产一区二区三区综合在线观看 | 秋霞在线观看毛片| 人人妻人人澡人人看| 国模一区二区三区四区视频| 另类亚洲欧美激情| 汤姆久久久久久久影院中文字幕| 免费大片18禁| 亚洲国产精品国产精品| 色94色欧美一区二区| 成人影院久久| 又爽又黄a免费视频| 2022亚洲国产成人精品| av国产精品久久久久影院| 成人综合一区亚洲| 国产极品粉嫩免费观看在线 | 亚洲真实伦在线观看| 最近手机中文字幕大全| 国产精品国产av在线观看| 少妇人妻 视频| 少妇 在线观看| 最近中文字幕2019免费版| 国产精品三级大全| 自线自在国产av| 一级毛片黄色毛片免费观看视频| 国产男女内射视频| 国产无遮挡羞羞视频在线观看| 最近中文字幕2019免费版| av天堂久久9| 亚洲精品国产av蜜桃| 最近中文字幕2019免费版| 夫妻午夜视频| 亚洲人与动物交配视频| 黄色一级大片看看| 啦啦啦在线观看免费高清www| 国产视频内射| 夜夜看夜夜爽夜夜摸| 亚洲色图综合在线观看| 成人综合一区亚洲| 成人国产麻豆网| 欧美xxxx性猛交bbbb| 欧美高清成人免费视频www| 国产成人91sexporn| 少妇熟女欧美另类| 熟女电影av网| 青青草视频在线视频观看| 青春草视频在线免费观看| 成人黄色视频免费在线看| 国产淫片久久久久久久久| 亚洲中文av在线| 亚洲国产精品一区三区| 免费少妇av软件| 深夜a级毛片| 久久国内精品自在自线图片| 国产精品偷伦视频观看了| 成人18禁高潮啪啪吃奶动态图 | 国产成人aa在线观看| 黄色日韩在线| 美女xxoo啪啪120秒动态图| 十八禁高潮呻吟视频 | 麻豆乱淫一区二区| 高清午夜精品一区二区三区| 亚洲精品久久午夜乱码| 中文字幕久久专区| 亚洲欧洲国产日韩| 日韩一区二区三区影片| 国产熟女欧美一区二区| 9色porny在线观看| 日日啪夜夜爽| av在线观看视频网站免费| 人妻人人澡人人爽人人| 日本黄色日本黄色录像| 少妇的逼好多水| 亚洲美女搞黄在线观看| 一级,二级,三级黄色视频| 最近手机中文字幕大全| 九草在线视频观看| 狂野欧美激情性xxxx在线观看| 丁香六月天网| 国产真实伦视频高清在线观看| 亚洲国产色片| 精品酒店卫生间| 午夜久久久在线观看| 另类精品久久| 久久人妻熟女aⅴ| 高清不卡的av网站| 国产午夜精品一二区理论片| 精品久久久久久久久亚洲| 亚洲欧美中文字幕日韩二区| www.av在线官网国产| 又粗又硬又长又爽又黄的视频| 亚洲成人一二三区av| 天堂中文最新版在线下载| 色视频在线一区二区三区| 亚洲国产毛片av蜜桃av| 国产精品偷伦视频观看了| 99久国产av精品国产电影| 99国产精品免费福利视频| 一边亲一边摸免费视频| 伊人久久国产一区二区| av在线观看视频网站免费| 婷婷色综合www| 亚洲性久久影院| 欧美另类一区| 国产精品麻豆人妻色哟哟久久| 伊人亚洲综合成人网| 亚洲av电影在线观看一区二区三区| 国产日韩欧美在线精品| 一区二区av电影网| 日韩一区二区三区影片| 精品熟女少妇av免费看| 91精品伊人久久大香线蕉| 亚洲丝袜综合中文字幕| 久久精品久久久久久噜噜老黄| 亚洲国产色片| 免费大片黄手机在线观看| 日韩三级伦理在线观看| 久热久热在线精品观看| 国产女主播在线喷水免费视频网站| 18禁在线无遮挡免费观看视频| 熟女av电影| 少妇人妻久久综合中文| 人妻人人澡人人爽人人| 欧美激情国产日韩精品一区| 亚洲av男天堂| 欧美成人精品欧美一级黄| 两个人的视频大全免费| 亚洲国产最新在线播放| 不卡视频在线观看欧美| 亚洲内射少妇av| 久久精品国产a三级三级三级| 亚洲天堂av无毛| 国产日韩欧美视频二区| 高清黄色对白视频在线免费看 | 在线观看免费视频网站a站| 亚洲av男天堂| 另类精品久久| 亚洲真实伦在线观看| 日韩 亚洲 欧美在线| 制服丝袜香蕉在线| 婷婷色综合www| 性高湖久久久久久久久免费观看| 久久综合国产亚洲精品| 夜夜爽夜夜爽视频| 只有这里有精品99| 国产老妇伦熟女老妇高清| 亚洲av二区三区四区| 99九九线精品视频在线观看视频| 久久精品国产鲁丝片午夜精品| 久久久午夜欧美精品| 热99国产精品久久久久久7| 三级经典国产精品| 欧美性感艳星| 国产伦精品一区二区三区四那| 免费不卡的大黄色大毛片视频在线观看| 国产一级毛片在线| 欧美亚洲 丝袜 人妻 在线| 亚洲精品日本国产第一区| 最近中文字幕2019免费版| 啦啦啦视频在线资源免费观看| 亚洲无线观看免费| 日本猛色少妇xxxxx猛交久久| 久久久国产欧美日韩av| 精品国产一区二区久久| 国产精品一二三区在线看| 国内少妇人妻偷人精品xxx网站| 美女cb高潮喷水在线观看| av福利片在线观看| 精华霜和精华液先用哪个| 亚洲av综合色区一区| 午夜av观看不卡| 国产爽快片一区二区三区| 七月丁香在线播放| 两个人免费观看高清视频 | 伦理电影大哥的女人| 亚洲国产最新在线播放| 美女大奶头黄色视频| 性色av一级| 少妇丰满av| 久久久国产欧美日韩av| 精品一区在线观看国产| 免费大片黄手机在线观看| 一区二区三区乱码不卡18| 午夜福利网站1000一区二区三区| 色视频www国产| 又大又黄又爽视频免费| 丁香六月天网| 亚洲欧洲精品一区二区精品久久久 | 老熟女久久久| 国产男女内射视频| 久久这里有精品视频免费| 在线观看三级黄色| 观看免费一级毛片| 亚洲av成人精品一二三区| 亚洲精品成人av观看孕妇| 久久热精品热| 欧美日韩av久久| 国产免费福利视频在线观看| 只有这里有精品99| 欧美xxxx性猛交bbbb| 国产精品一区二区性色av| 我要看黄色一级片免费的| 国产精品.久久久| 18禁在线播放成人免费| 免费人成在线观看视频色| 精品久久国产蜜桃| 国产色爽女视频免费观看| 久久久久视频综合| av线在线观看网站| 99热国产这里只有精品6| 国产无遮挡羞羞视频在线观看| 亚洲av中文av极速乱| 人妻少妇偷人精品九色| 久久久久久久久久久久大奶| 下体分泌物呈黄色| 亚洲电影在线观看av| 国产黄片视频在线免费观看| 亚洲国产毛片av蜜桃av| 草草在线视频免费看| 晚上一个人看的免费电影| 日韩人妻高清精品专区| 精品久久久精品久久久| 人人妻人人澡人人爽人人夜夜| 一二三四中文在线观看免费高清| 亚洲人成网站在线观看播放| 2018国产大陆天天弄谢| 少妇精品久久久久久久| 最近最新中文字幕免费大全7| 极品少妇高潮喷水抽搐| 人人妻人人澡人人看| 国产无遮挡羞羞视频在线观看| 亚洲一区二区三区欧美精品| 2021少妇久久久久久久久久久| 成年人免费黄色播放视频 | 亚洲av福利一区| 乱码一卡2卡4卡精品| 亚洲伊人久久精品综合| 亚洲国产欧美日韩在线播放 | 老司机亚洲免费影院| 亚洲成人av在线免费| 热re99久久国产66热| 欧美最新免费一区二区三区| 黄色毛片三级朝国网站 | 日本猛色少妇xxxxx猛交久久| 男人添女人高潮全过程视频| 亚洲精品乱久久久久久| 久久久久久久久久久丰满| 成人黄色视频免费在线看| 日本黄色片子视频| 一区二区三区精品91| 国产中年淑女户外野战色| 亚洲一区二区三区欧美精品| 春色校园在线视频观看| 亚洲中文av在线| 黄色毛片三级朝国网站 | 亚洲自偷自拍三级| 成人美女网站在线观看视频| 日韩大片免费观看网站| 97在线人人人人妻| 日本色播在线视频| 91精品国产九色| 观看av在线不卡| 亚洲精品中文字幕在线视频 | 搡老乐熟女国产| h视频一区二区三区| 精品久久久久久久久av| 日韩精品免费视频一区二区三区 | 国产日韩欧美视频二区| 亚洲精品日韩在线中文字幕| 久久精品国产亚洲网站| 高清黄色对白视频在线免费看 | 中文资源天堂在线| 久久ye,这里只有精品| 美女中出高潮动态图| 中文精品一卡2卡3卡4更新| 国产乱人偷精品视频| 日日撸夜夜添| 国产成人精品一,二区| 欧美另类一区| 日韩欧美一区视频在线观看 | 国产日韩欧美亚洲二区| 免费不卡的大黄色大毛片视频在线观看| 高清在线视频一区二区三区| 一区在线观看完整版| 欧美日韩亚洲高清精品| 只有这里有精品99| 韩国高清视频一区二区三区| 免费高清在线观看视频在线观看| 久久人人爽人人片av| 国产成人精品久久久久久| 一本一本综合久久| 寂寞人妻少妇视频99o| 最后的刺客免费高清国语| 插逼视频在线观看| 亚洲成人手机| 三级经典国产精品| 亚洲高清免费不卡视频| 亚洲成色77777| 国产亚洲一区二区精品| 精品国产一区二区三区久久久樱花| 人妻系列 视频| 久久久久久伊人网av| 亚洲精品一二三| 99九九在线精品视频 | 亚洲精品中文字幕在线视频 | 乱人伦中国视频| 男女国产视频网站| 国产熟女欧美一区二区| 天堂俺去俺来也www色官网| 大码成人一级视频| 看免费成人av毛片| 免费黄色在线免费观看| 亚洲av成人精品一二三区| 熟女av电影| 高清欧美精品videossex| 国产一区二区三区av在线| 国产免费又黄又爽又色| 国产免费视频播放在线视频| 亚洲av欧美aⅴ国产| 黑人巨大精品欧美一区二区蜜桃 | 免费不卡的大黄色大毛片视频在线观看| 高清视频免费观看一区二区| 麻豆成人午夜福利视频| 搡女人真爽免费视频火全软件| 久久亚洲国产成人精品v| 日本欧美国产在线视频| 亚洲欧美成人综合另类久久久| 赤兔流量卡办理| 亚洲va在线va天堂va国产| 欧美精品一区二区免费开放| 日韩精品免费视频一区二区三区 | 极品人妻少妇av视频| 日韩成人伦理影院| 国内精品宾馆在线| 国产精品秋霞免费鲁丝片| 高清视频免费观看一区二区| 在线 av 中文字幕| 国产成人91sexporn| 欧美+日韩+精品| 国产黄色视频一区二区在线观看| 菩萨蛮人人尽说江南好唐韦庄|