• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向智能博弈的決策Transformer方法綜述

    2023-04-24 11:26:36羅俊仁張萬鵬蘇炯銘
    指揮與控制學報 2023年1期
    關(guān)鍵詞:離線決策建模

    羅俊仁 張萬鵬 蘇炯銘 王 堯 陳 璟

    1.國防科技大學智能科學學院 湖南 長沙 410073

    博弈一詞的英文單詞為Game,英文直譯為游戲,早年國內(nèi)譯為對策、賽局. 博弈問題的研究本質(zhì)是通過將除己方外其他參與方的行為策略考慮在內(nèi)制定己方對策過程. 未來軍事對抗具有環(huán)境高復雜、信息不完整、博弈強對抗、響應高實時、自主無人化等突出特征,無人集群自主協(xié)同、作戰(zhàn)仿真推演和智能任務規(guī)劃等挑戰(zhàn)課題都亟需智能博弈相關(guān)技術(shù)的支撐.協(xié)作與競爭是雙生體,廣泛存在于認知決策博弈領(lǐng)域. 博弈智能是認知智能的高階表現(xiàn)形式. 近年來,借助各類計算機博弈平臺,面向智能博弈(intelligent gaming)的相關(guān)人工智能技術(shù)得到迅猛發(fā)展. 智能博弈本質(zhì)是指協(xié)作、競爭或?qū)箞鼍跋?利用博弈理論分析問題、智能方法求解應對策略的過程. 人機對抗(human computer gaming)作為圖靈測試的典型范式,是測試人工智能(artificial intelligence,AI)技術(shù)程序的主要手段和基準[1],是智能博弈的重要表現(xiàn)形式. 智能博弈作為智能指揮與控制領(lǐng)域研究決策智能的基準挑戰(zhàn),是當前研究決策大模型的試驗場和果蠅. 當前圍繞智能博弈問題的求解,已然傳統(tǒng)的“知識與搜索”、“博弈學習”范式過渡到“模型與適應”范式,其中,包括面向小模型的“預訓練+微調(diào)”和面向大模型的“基石模型+情境學習”.

    圍繞人類認知能力的認知建模技術(shù)已然成為AI領(lǐng)域的前沿課題. 近年來,隨著AI 技術(shù)的發(fā)展和GPU 性能的逐年翻倍,AI 大模型/基石模型[2]在視覺與語言智能計算、智能博弈領(lǐng)域取得了快速發(fā)展. 基于大模型的AI 生成內(nèi)容(AI-generated context,AIGC)技術(shù)未來將成為一種基礎(chǔ)設施,AI 生成行動(AIgenerated action,AIGA)相關(guān)技術(shù)(行為生成、模型生成)為決策問題求解提供了可行方案. 伴隨著2022年年末ChatGPT 的出現(xiàn),各類基石的出現(xiàn)已然引發(fā)了AI 各賽道里的“軍備競賽”,但一般的語言能力無法完全匹配決策需要的推理能力,如何構(gòu)建“決策基石模型”已然成為當前AI 與智能決策領(lǐng)域的前沿問題.

    Transformer 作為一種利用注意力機制來完成序列到序列變換的表示學習模型,利用此類模型構(gòu)建智能博弈問題的決策策略求解方法是熱門研究方向.基于Transformer 的表示學習方法[3]和序列建模方法[4]及多模態(tài)融合學習方法[5]引發(fā)了各大領(lǐng)域(自然語言處理、計算機視覺、語音與視頻、智能博弈決策)的持續(xù)關(guān)注. LI 等[6]從表示學習、模型學習、序貫決策和通才智能體4 個角度對基于Transformer 的強化學習方法進行了綜述分析. HU 等[7]從架構(gòu)增強(特征表示、環(huán)境表示),軌跡優(yōu)化(條件行為克隆、經(jīng)典強化學習、預訓練、泛化性)和典型應用(機器人操控、文字游戲、導航、自動駕駛)共3 大類對基于Transformer 的強化學習方法進行了總結(jié)對比分析. 當前圍繞決策Transformer 的方法可分為3 大類:直接利用大語言模型類(百科、視頻、互聯(lián)網(wǎng)知識)、基于框架變換的表示及模型學習類(表示學習、環(huán)境學習)、基于決策問題重構(gòu)的條件生成類(序列建模、行為生成、世界模型生成).

    如何為規(guī)劃與決策領(lǐng)域的智能博弈問題設計新型求解框架仍充滿挑戰(zhàn). 本文圍繞智能博弈問題展開,梳理各類問題的博弈模型,創(chuàng)新性構(gòu)建智能博弈認知模型,探索性給出智能博弈問題的求解范式;重點梳理面向智能博弈問題求解的決策Transformer 方法.

    1 智能博弈與規(guī)劃決策

    1.1 智能博弈簡述

    伴隨著AI 近70年的發(fā)展,計算機博弈(computer games)作為博弈論與人工智能的橋梁,逐漸在人機對抗比賽中被一大批高水平AI 克服. 近年來,伴隨著AI 的第三次浪潮,智能博弈技術(shù)取得了飛速發(fā)展,博弈對抗場景從棋類、牌類、視頻類陸續(xù)過渡到仿真推演類,博弈對抗技術(shù)從單一學習方法、分布式學習方法向大規(guī)模、通用學習方法演進. 從2016年至2022年,AlphaX 系列智能體(AlphaGo[8]、AlphaZero[9]、AlphaHoldem[10]、Alphastar[11])的相關(guān)研究為各類型博弈問題的求解提供了新基準,智能博弈技術(shù)研究從計算機博弈擴展至軍事任務規(guī)劃與決策領(lǐng)域.智能博弈領(lǐng)域的一些標志性突破如圖1 所示.

    圖1 智能博弈標志性突破Fig.1 Remarkable breakthroughs of intelligent gaming

    1.2 軍事智能博弈

    從早前的空戰(zhàn)Alpha AI[12]至AlphaDogfight[13],美軍在軍事智能博弈領(lǐng)域展開了相當多的項目. 2016年,美國辛辛那提大學與空軍研究實驗室合作開發(fā)了一個叫“Alpha AI”的機器飛行員,控制虛擬環(huán)境中的無人作戰(zhàn)飛機完成飛行和打擊等空戰(zhàn)任務. 2018年,美空軍下一代自主無人戰(zhàn)斗機智能平臺Skyborg,計劃2023年末之前實現(xiàn)自主無人戰(zhàn)斗機的早期自主決策和作戰(zhàn)能力;2019年5月宣布啟動“空戰(zhàn)演進”(air combat evolution,ACE)項目,ACE 項目旨在以人機協(xié)同“Dogfight”為挑戰(zhàn)問題,進而開發(fā)可信、可擴展、人類水平、AI 驅(qū)動的空戰(zhàn)自主能力.

    此外,2018年美國國防部高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)發(fā)起“面向復雜軍事決策的非完美信息博弈序貫交互”項目,旨在自動化地利用呈指數(shù)增長的數(shù)據(jù)信息,將復雜系統(tǒng)的建模與推理相結(jié)合,從而輔助國防部快速認識、理解甚至是預測復雜國際和軍事環(huán)境中的重要事件;2020年,DARPA 通過其官網(wǎng)宣布為“打破游戲規(guī)則的人工智能探索”(Gamebreaker)項目,開發(fā)人工智能并將其應用于現(xiàn)有的即時策略??諔?zhàn)兵棋《指揮:現(xiàn)代作戰(zhàn)》之中,以打破復雜的模型所造成的不平衡,旨在推動人工智能嵌入兵棋系統(tǒng)融合. 2021年9月,由美國家安全創(chuàng)新網(wǎng)絡辦公室(National Security Innovation Network,NSIN)和美空軍研究實驗室(Air Force Research Laboratory,AFRL)合作舉辦的人工智能指揮決策公開挑戰(zhàn)賽落下帷幕,參賽選手們基于兵棋開發(fā)AI 方法,實現(xiàn)各類指揮決策作戰(zhàn)籌劃快速生成.

    1.3 智能規(guī)劃與決策

    近5年來,美軍在智能指揮決策技術(shù)領(lǐng)域進行了深入探索,個別項目得到實際應用,如表1 所示.2018年,美陸軍指揮控制軟件集成了行動方案(course of action,COA)分析決策支持工具,即聚焦作戰(zhàn)的仿真(OpSim)[14];2019年,美空軍為多源異構(gòu)無人自主平臺行動規(guī)劃設計了“情景式”體系結(jié)構(gòu),自主系統(tǒng)會根據(jù)可用資產(chǎn)進行推理,生成可推薦的“情景”計劃[15];自2020年起,美陸軍在會聚工程(Convergence)演習中,利用智能輔助決策系統(tǒng)——火力風暴(FireStorm)推薦戰(zhàn)術(shù)端的武器目標分配方案[16];2021年,蘭德公司圍繞空中自主攻擊計劃生成進行研究,美空軍發(fā)布了“今夜就戰(zhàn)”(fight tonight)項目[17],嘗試利用仿真環(huán)境與人類指導生成大量備選行動計劃,這是一項重大變革,旨在利用人工智能技術(shù)構(gòu)建、演練和評估空中作戰(zhàn)計劃. 2022年,美空軍開展研發(fā)“面向計劃、戰(zhàn)術(shù)、實驗和彈性的戰(zhàn)略混合引擎”權(quán)杖項目[18],旨在依托計算機生成作戰(zhàn)行動層面的作戰(zhàn)行動方案,利用高保真可信模擬器對篩選出的最佳方案進行驗證,并最終交由人工審查;第一階段注重開發(fā)能夠發(fā)現(xiàn)相關(guān)和可解釋的行動方案的非腳本且具目標導向的智能體,實現(xiàn)大規(guī)模軍事場景的快速探索.

    表1 軍事智能博弈相關(guān)項目情況Table 1 Related projects of military intelligent gaming

    2 智能博弈問題求解

    2.1 智能博弈問題模型

    智能博弈問題通??梢圆捎枚嘀悄荏w問題模型來建模. 根據(jù)智能體之間的關(guān)系,智能博弈問題可分為:協(xié)作式團隊博弈、競爭式零和博弈和混合式一般和博弈. 其中,協(xié)作式博弈追求最大化團隊收益、通過協(xié)同合作來實現(xiàn)目標;競爭式零和博弈追求最大化自身收益、通常采用納什均衡策略;混合式一般和博弈既有合作又有競爭,即組內(nèi)協(xié)作、組間對抗. 相關(guān)典型博弈場景如圖2 所示.

    圖2 智能博弈問題分類Fig.2 Classification of intelligent gaming problems

    2.1.1 協(xié)作式團隊博弈

    協(xié)作式團隊博弈中,智能體共享博弈目標,但由于自私性的存在,各智能體可以從不同的利益角度出發(fā)選擇行動,故協(xié)作式團隊博弈根據(jù)目標收益劃分方法不同,可區(qū)分為三大類[16].

    1)完全協(xié)作式博弈:完全協(xié)作式博弈可以用多智能體馬爾可夫決策過程建模,假設智能體是同質(zhì)的,收益是可交換的. 通常假設目標是共享一致的,即.

    2)團隊平均收益博弈:團隊平均收益博弈可以用網(wǎng)聯(lián)(networked)多智能體馬爾可夫決策過程建模,假設智能體有不同的收益函數(shù),但共享目標,即.

    3)隨機勢博弈:隨機勢博弈中假設智能體有不同的收益函數(shù),但所有智能體的共同利益可以采用一個勢函數(shù)進行描述. 這種類型的博弈通常有純策略納什均衡[17].

    2.1.2 競爭式零和博弈

    競爭式零和博弈中,智能體之間利益有沖突,行動表現(xiàn)出對抗性,可區(qū)分為3 大類.

    1)兩人零和與常和博弈:兩人零和(zero-sum)博弈主要是指兩個智能體的收益之和為零,即. 兩人常和(constant-sum)博弈主要是指兩個智能體的收益之和為固定的常數(shù)值,即,其中,c 為常數(shù).

    2)兩隊零和博弈:兩支隊伍目標相反,每支隊伍內(nèi)部目標一致共享,但兩支隊收益之和為零,

    3)調(diào)和(哈爾密頓)博弈:正如“石頭—剪刀—布”博弈,調(diào)和博弈,也稱哈密爾頓博弈,可以看作是一類廣義的零和博弈.

    2.1.3 混合式一般和博弈

    混合式一般和博弈是一類混合型場景,其中,既可能包含合作也可能包含競爭,每個智能體都是自利的,其收益可能與其他智能體有沖突,智能體之間在目標上沒有約束關(guān)系,這類模型的求解通常比較困難,當前大多數(shù)多智能體學習方法無法提供收斂性保證[18]. 當前圍繞著這類博弈模型的研究主要聚焦于納什均衡、相關(guān)均衡和斯坦伯格均衡的求解和基于元博弈的策略學習.

    2.2 智能博弈認知建模

    從認知的角度分析,當前圍繞智能博弈問題可建模成4 類,如圖3 所示.

    圖3 智能博弈認知建模模型Fig.3 Cognitive modeling models for intelligent gaming

    1)基于完全/有限理性考慮的運籌型博弈模型:主要采用基于確定性機理模型的博弈搜索與在線優(yōu)化方式提供智能.

    2)面向經(jīng)驗匱乏的不確定性博弈模型:主要采用基于海量多源數(shù)據(jù)的高效學習與未知經(jīng)驗/知識習得.

    3)挑戰(zhàn)直覺和靈感的探索型博弈模型:主要采用基于平行數(shù)字孿生環(huán)境或元宇宙的試錯(反饋)及遷移獲得智能.

    4)考量種群協(xié)同演化的群體交互型博弈模型:主要采用基于開放性群體多樣性交互的種群演化.

    2.3 智能博弈求解方案

    2.3.1 智能博弈問題可信任解

    圍繞博弈問題的求解方法主要區(qū)分為離線與在線(訓練與測試)兩個階段. 對于多方博弈問題,由于環(huán)境(對手)的非平穩(wěn)性、多解選擇等問題使得博弈問題求解表現(xiàn)出“離線耦合、在線解耦”的狀態(tài). 離線訓練主要采用仿真環(huán)境模擬與對手的交互,獲得離線采樣數(shù)據(jù),利用大規(guī)模計算方式得到藍圖策略或利用分布式強化學習方法得到預訓練模型;在線博弈過程中,由于僅能控制己方策略,應對策略的生成處于解耦合狀態(tài),需要采用適應對手的反制策略.

    從解概念的角度看,博弈問題的求解本質(zhì)是設計高效的樣本利用方法對問題的解空間進行探索,獲得問題的可信任解,其中包括應對約束的安全解、應對不確定性擾動的魯棒解、應對分布漂移考量泛化性的多樣解,應對突發(fā)及意外情景的適變解,以及可解釋解、公平解等.

    2.3.2 智能博弈策略訓練平臺

    圍繞如何將方法求解與分布式計算融合是學術(shù)界與工業(yè)界的共同聚焦點. 受Alphastar 啟發(fā),騰訊團隊設計了基于啟發(fā)式聯(lián)賽訓練的競爭式自對弈Tleague[24],上海交通大學團隊設計了基于策略評估的MALib[25],這兩類開源的分布式學習平臺為求解大規(guī)模博弈問題提供了可參考的通用解決方案. 隨著智能體個數(shù)的增加,多樣化的智能體種群表現(xiàn)出協(xié)同演化的性質(zhì). 從種群視角看,分布式學習為種群的智能演進提供了超實時支持.

    2.3.3 智能博弈問題求解范式

    1)基于知識與搜索

    從絕對理性假設出發(fā),充分利用專家知識、打分,設計啟發(fā)式,外部知識等方式引導博弈樹搜索,從早期的極小-極大搜索、蒙特卡洛樹搜索(Monte carlo tree search,MCTS)、信息集MCTS、分層任務網(wǎng)絡MCTS 等.

    2)基于博弈理論學習

    從交互的角度分析博弈多方策略之間的合作與競爭關(guān)系,通過構(gòu)建考慮對手的策略迭代式學習、策略優(yōu)化式學習等方法,利用模擬或在線交互場景樣本數(shù)據(jù)優(yōu)化策略.

    圍繞博弈問題的基準學習方法主要分為三大類:基于反事實后悔值最小化(counterfactual regret minimization,CFR)類方法[19],基于虛擬自對弈(fictitious self play,FSP)類方法[20],基于元博弈的策略空間響應預言機(policy space response oracle,PSRO)類方法[21].作為一類利用仿真器模擬的博弈策略學習方法,PSRO 類方法將經(jīng)驗博弈論分析(empirical game theoretic analysis,EGTA)方法[22]擴展成迭代式自動化方法,已然成為當前的研究基準方法范式,其本質(zhì)上是一類基于種群的增量迭代式訓練方法,其求解流程如圖4 所示[23]. 此外,基于優(yōu)先級的虛擬自對弈方法是當前工程實踐過程中經(jīng)常被采用的一種啟發(fā)式范式[8].

    圖4 策略空間響應預言機方法Fig.4 Policy space response oracle methods

    3)基于模型與適變

    由于真實博弈過程中,局中人策略通常處于非耦合狀態(tài),策略的學習展現(xiàn)出兩階段特點,訓練(離線)—測試(在線)各階段的聚焦點亦有所區(qū)別. 從“預訓練與微調(diào)”到“基石模型與情境學習”,基于模型與適變的求解范式為當前博弈問題的求解提供了全新范式. 如圖5 所示,離線訓練與學習和在線測試與適應框架.

    圖5 離線訓練與學習和在線測試與適應Fig.5 Offline training&learning and online test&adaptation

    3 決策Transformer 方法

    本章主要從智能博弈問題求解的第3 種范式切入,介紹決策Transformer 的兩種實現(xiàn)途徑,重點對比分析架構(gòu)增強類決策Transformer 和序列建模類決策Transformer 方法,分析面臨的挑戰(zhàn)并進行前沿展望.

    3.1 決策Transformer 基礎(chǔ)

    3.1.1 Transformer 模型

    Transformer 采用了“編碼-解碼”結(jié)構(gòu),利用詞嵌入與位置嵌入的方式將序列信息進行編碼用于網(wǎng)絡輸入,內(nèi)部利用多頭注意力網(wǎng)絡,其網(wǎng)絡架構(gòu)如圖6所示.

    圖6 Transformer 網(wǎng)絡架構(gòu)Fig.6 Network architecture for Transformer

    由于采用了一次性輸入一個序列的方式,僅用注意力而非卷積來做特征抽取,Transformer 的出現(xiàn)在自然語言處理領(lǐng)域率先引發(fā)了變革,而后擴展至計算機視覺、智能博弈等領(lǐng)域.

    3.1.2 典型博弈Transformer 方法

    文本類:由于Transformer 在自然語言領(lǐng)域取得了重大成就,一些研究嘗試在文本類游戲中運用Transformer. XU 等針對文字冒險類游戲,設計了基于Transformer 的深度強化學習方法[29]. ADHIKARI 等針對文字類游戲,設計了一種基于Transformer 的動態(tài)信念圖表示策略學習方法[30]. FURMAN 等針對文字游戲中的問答問題,設計了基于GPT-2 因果Transformer 的序列建模方法[31].

    棋牌類:NOEVER 等設計了掌握國際象棋玩法的生成語言模型[32];面向圍棋,CIOLINO 等設計了基于Transformer 的自然語言建模方法[33].

    視頻類:BAKE 等圍繞Minecraft 設計了基于視頻的預訓練模型,可以通過觀看未標注在線視頻來做動作[34]. WEI 等圍繞MPE 環(huán)境設計了基于RNN 與Transformer 的層次MADDPG 混合合作競爭策略學習方法[35]. REED 等提出具身智能通才智能體Gato,嵌入多類標記化信息,具有同樣權(quán)重的同樣網(wǎng)絡可以完成多類仿真控制、視覺與語言、機器人搭積木等任務[36].

    3.1.3 Transformer 架構(gòu)變換

    圍繞Transformer 的典型架構(gòu)變換方法[37]如圖7所示,與左側(cè)標準Transformer 架構(gòu)不一樣的是,中間TrXL-I 架構(gòu)將層正則化作為子模塊的輸入流,再加上剩余的連接,就有一個從輸出流到輸入的梯度路徑,無需任何轉(zhuǎn)換,右側(cè)GTrXL 架構(gòu),額外增加了一個門控層,以取代TrXL-I 的殘差連接.

    圖7 Transformer 變體網(wǎng)絡架構(gòu)Fig.7 Network architecture for Transformer variants

    3.1.4 離線強化學習與軌跡優(yōu)化

    利用離線強化學習方法獲得預訓練模型是一類樣本利用率高的策略學習方法. 與在線強化學習與異策強化學習方法不同,離線強化學習得到的離線策略可通過微調(diào)的方式用于在線與異策強化學習,如圖8所示. 當前主要的離線強化學習方法可分為策略約束類、重要性采樣類、正則化學習類、不確定性估計類、基于模型的方法、單步方法、模仿學習類和軌跡優(yōu)化類[38].

    圖8 三類強化學習方法Fig.8 Three kinds of reinforcement learning methods

    作為軌跡優(yōu)化類方法,采用同自然語言處理、計算機視覺領(lǐng)域一樣的架構(gòu),與顛倒強化學習(upsidedown reinforcement learning,UDRL)[39]采用監(jiān)督學習方法不同,在離線軌跡數(shù)據(jù)集上訓練序列模型,將過去狀態(tài)、動作和未來回報(state,action,return-to-go)作為數(shù)據(jù)模態(tài)相關(guān)神經(jīng)網(wǎng)絡的輸入,提取線性嵌入,添加位置時間步編碼;然后將編碼后的Tokens 輸入至因果Transformer 網(wǎng)絡中,使用因果自注意和掩碼自回歸的方式預測未來動作. 作為一類典型的生成式模型,與隱變量變分自編碼、擴散模型、能量模型不同,其主要采用基于Transformer 的自回歸序列模型,可利用離線帶標簽數(shù)據(jù)進行監(jiān)督式訓練與學習.

    3.2 架構(gòu)增強決策Transformer

    架構(gòu)增強決策Transformer 方法是面向決策基石模型的表示學習類方法.

    3.2.1 表示學習

    維基Transformer:REID 等提出利用大規(guī)?,F(xiàn)成的維基百科知識來輔助訓練離線強化學習[40].MINECLIP:FAN 等提出利用大規(guī)模的互聯(lián)網(wǎng)知識來構(gòu)建開放式具身智能體[41]. TOV-VICReg:GOULAO 等提出利用自監(jiān)督學習來預訓練視覺Transformer,可以捕捉連續(xù)幀之間的時序關(guān)系[42].Swin Transformer:MENG等提出利用Swin Transformer 的強化學習方法,嘗試將智能體在環(huán)境中的規(guī)劃輸入改成視圖輸入[43]. 視覺Transformer:TAO 等提出利用視覺Transformer 來處理圖像(像素)輸入和自監(jiān)督學習方法來訓練強化學習策略[44]. IRIS:MICHELI 等提出利用Transformer 來學習樣本效率高的世界模型[45].

    3.2.2 網(wǎng)絡組合

    DTQN:ESSLINGER 等利用Transformer 和自注意力來編碼智能體的歷史信息來求解部分可觀強化學習問題[46]. Updet:HU 等基于Transformer 的模型,通過使用自注意力機制確定的重要性權(quán)重,將策略分布與交織的觀測輸入解耦,生成靈活的策略[47].TransfQMix:GALLICI 等利用Transformer 來學習潛在圖結(jié)構(gòu),可以從包含智能體內(nèi)部和外部狀態(tài)的大圖中學習單調(diào)混合函數(shù),具備團隊規(guī)模擴展性[48].TransMix:KHAN 等提出基于Transformer 的值函數(shù)分解方法,學習多個智能體的聯(lián)合動作混合策略,具備可擴展性[49]. ATM:YANG 等提出智能體Transformer記憶網(wǎng)絡,可同時處理順序工作記憶和其他空間實體信息,通過動作語義歸納偏差將實體嵌入與動作一一綁定[50]. T3OMVP:YUAN 等引入Transformer 處理觀測序列來實現(xiàn)多車協(xié)同,無需策略解耦[51].

    3.2.3 模型擴展

    TrMRL:MELO 提出基于Transformer 的元強化學習方法,使用元強化學習智能體模擬記憶恢復機制,將最近的工作記憶聯(lián)系起來,通過Transformer 層遞歸地建立一個情景記憶[52]. AdA:DEEPMIND 的適變智能體組提出利用自主課程學習,基于模型的Transformer 強化學習、和蒸餾來實現(xiàn)強化學習基石模型[53].

    圍繞架構(gòu)增強決策Transformer 的3 類方法的相關(guān)特點如表2 所示.

    表2 架構(gòu)增強決策Transformer 各類方法及特點Table 2 Methods and features of decision Transformer with architecture enhancement

    3.3 序列建模決策Transformer

    序列建模決策Transformer 方法是面向決策基石模型的條件生成類方法.

    3.3.1 離線預訓練

    決策Transformer:CHEN 等通過將交互序列進行重構(gòu),構(gòu)造了第1 個基于軌跡優(yōu)化離線強化學習的決策Transformer(decision transofmer,DT)方法[4]. DT 是一種條件生成行為的方法,試圖將序貫決策問題建模成可用Transformer 來完成序列生成任務,從而避免了顯式?jīng)Q策過程建模問題和交互數(shù)據(jù)分布偏離導致的Q 值過估計問題. 軌跡Transformer:圍繞“軌跡優(yōu)化”類離線強化學習,與決策Transformer 類似,JANNER等提出軌跡Transformer(trajectory transformer,TT)方法[54]. TT 是一種條件生成模型的方法,由于沒有采用基于獎勵條件的學習方式,取而代之的是基于集束搜索(Beam Search)的規(guī)劃方法,對于長序列建模的準確率有所提高. 自助Transformer:由于離線數(shù)據(jù)集無法做到充分的分布覆蓋,WANG 等提出自啟動Transformer[55]. 該方法結(jié)合了自助(bootstrapping)的思想,利用學習到的模型來自我生成更多的離線數(shù)據(jù),以進一步提高序列模型的訓練. 雙向Transformer:由于無向模型通常被用來訓練根據(jù)左測條件信息預測下一個動作,而雙向模型可以同時預測左側(cè)和右側(cè). CARROLL 等提出利用雙向Transformer 的方法,可以通過微調(diào)更好的適應下游任務[56]. 廣義決策Transformer:由于DT 方法本質(zhì)上是在利用“事后信息匹配”(hindsight information matching,HIM)的方式來訓練策略,輸出符合未來狀態(tài)信息對應某種分布的最優(yōu)軌跡.FURUTA 等提出了廣義決策Transformer,可以求解任意HIM 問題,通過選擇不同的特征函數(shù)和反因果聚合網(wǎng)絡,可以將決策Transformer 變成該模型的一個特例[57]. 對比決策Transformer:在多任務學習中通過圍繞不同任務,分離輸入數(shù)據(jù)的表示可以提高性能.KONAN 等提出對比DT 方法,創(chuàng)建了一個子空間變換層,可以利用增強對比損失來訓練輸入嵌入的回報依賴變換[58]. 技能Transformer:由于利用信息統(tǒng)計形式的未來軌跡信息可以從離線軌跡數(shù)據(jù)中提取更多信息,SUDHAKARAN 等提出了技能Transformer 方法,采用事后重標注和技能發(fā)掘來發(fā)現(xiàn)多樣基元動作或技能,可以實現(xiàn)離線狀態(tài)邊際匹配(state-marginalmatching,SMM),發(fā)掘更便采樣的描述性動作[59]. 分離潛軌跡Transformer:如何在需要考慮安全因素的場景中做長線規(guī)劃,CORREIA 等提出了分離潛軌跡Transformer 方法,通過引入兩個獨立的Transformer結(jié)構(gòu)網(wǎng)絡來表征世界模型與策略模型,采用類似minmax 搜索的方式,規(guī)劃過程中搜索潛變量空間來最小化世界模型、最大化策略模型[60]. 安全Transformer:離線強化學習如何部署至現(xiàn)實世界應用中需要獲取一些滿足一定約束的策略. 當在線安全需求變化時,固定參數(shù)的預訓練模型可能無法滿足要求. ZHANG 等提出了安全Transformer 方法,利用代價相關(guān)的Token來限制動作空間,并采用后驗安全驗證來顯式地執(zhí)行約束,以最大剩余代價為條件,執(zhí)行兩階段自回歸來生成可行的候選方案,然后過濾掉不安全的、執(zhí)行具有最高預期回報的最佳操作[61]. Q 學習決策Transformer:由于離線數(shù)據(jù)集中可能包含次優(yōu)軌跡,可能導致學習算法的不穩(wěn)定性,YAMGATA 等提出了基于Q學習決策Transformer 方法,可以利用動態(tài)規(guī)劃結(jié)果對訓練數(shù)據(jù)中的“未來回報”進行重標注,然后用重新標注的數(shù)據(jù)對決策Transformer 進行訓練[62].

    3.3.2 在線適變

    在線微調(diào):由于決策Transformer 沒有在線自適應模塊,泛化性比較差. ZHENG 等提出了在線Transformer 方法,可以針對任務指定的環(huán)境,采用在線微調(diào),將離線預訓練與在線微調(diào)合成為一個統(tǒng)一的框架,利用序列層的熵正則化與自回歸建模目標來獲得樣本利率率高的探索與微調(diào)效果[63]. 在線提示:圍繞在線快速適應,利用架構(gòu)歸納偏差對應的少樣本學習能力,XU 等提出基于提示的決策Transformer 方法,利用Transformer 結(jié)構(gòu)的序列建模能力和提示框架實現(xiàn)離線強化學習的少樣本自適應,設計軌跡提示,包含幾個樣本的演示片段,并對特定于任務的信息進行編碼,以指導策略生[64]. 在線遷移:為了適應變化環(huán)境,將此前已經(jīng)掌握的知識應用至未見結(jié)構(gòu)屬性的環(huán)境中可以提高策略的彈性和效率. BOUSTATI 等提出在決策Transformer 中應用基于因果反事實推理的遷移學習方法,采用基于決策Transformer 架構(gòu)的蒸餾方法為適應新環(huán)境生成策略[65]. 超決策Transformer:為了適應新的任務,獲取“數(shù)據(jù)-參數(shù)”高效的泛化能力,XU 等提出了超決策Transformer 方法,利用超網(wǎng)絡設計自適應模塊,針對未知任務只需微調(diào)自適應模塊即可[66]. 情境適應:為了提高應對不同情境的適應性能力,LIN 等提出了情境Transformer,將情境向量序列與原本輸入進行級聯(lián)來引導條件策略生成,其次利用元強化學習方法來利用不同任務間的情境,提升應對未知任務的泛化能力[67].

    3.3.3 模型擴展

    多智能體協(xié)同:圍繞多智能體協(xié)同,MENG 等提出多智能體決策Transformer 方法,將多智能體離線預訓練建模成一個大型序列模型,可以同時利用離線與在線數(shù)據(jù)進行訓練[68]. WEN 等提出多智能體Transformer,利用編碼器-解碼器框架與多智能體優(yōu)勢函數(shù)值分解,將聯(lián)合策略搜索問題變換成序列決策問題,從而保證單調(diào)性能提升[69]. LIN 等提出的情境元Transformer,充分利用場景信息來提高泛化能力[67]. 多任務泛化:圍繞多類任務,瞄準提高泛化性,LEE 等提出多游戲決策Transformer 方法,基于多類任務場景專家級經(jīng)典回放數(shù)據(jù)進行離線學習,利用專家動作推理的方式持續(xù)生成高價值回報行為[70]. 為了提高TT 方法的泛化性,LIN 等提出基于開關(guān)(Switch)的軌跡Transformer. 利用稀疏激活模型來降低多任務離線模型學習中的計算成本,采用分布軌跡值估計器來提高稀疏獎勵場景下的策略性能[71]. 多模態(tài)協(xié)同:圍繞多種模態(tài)信息輸入,SHAFIULLAH 等提出行為Transformer模型,可以建模非標注的多模態(tài)演示數(shù)據(jù),利用多模態(tài)建模能力來預測動作[72]. 虛實遷移探索:圍繞如何將虛擬仿真器中學習到的優(yōu)化策略遷移應用于具體的實物中一直以來是值得探索的大挑戰(zhàn). SHANG 等提出基于“狀態(tài)-動作-獎勵”的StARformer 方法,引入類似馬可夫的歸納偏差來改進長程建模[73]. 圍繞自動駕駛,SUN 等提出控制Transformer,運用自監(jiān)督學習的方式訓練以控制為中心的目標,具備應對預訓練與微調(diào)之間分布偏移的韌性[74]. 圍繞真實世界機器人控制問題,BROHAN 等提出了RT-1 模型[75]. 當前,機器人操控、導航、任務分配和自動駕駛等探索虛實遷移(sim-to-real)問題的關(guān)鍵研究領(lǐng)域.

    圍繞序列建模決策Transformer 的3 類方法的相關(guān)特點如表3 所示.

    3.4 挑戰(zhàn)及展望

    3.4.1 面臨的挑戰(zhàn)

    環(huán)境模型:由于預訓練與微調(diào)所對應的場景不同,分布偏移導致直接利用離線學習策略可能輸出次優(yōu)動作. 如何應對隨機環(huán)境[76]、最優(yōu)偏差[77]、不確定[78]等都是當前面臨的挑戰(zhàn).

    博弈預訓練:當前多類方法均從是決策理論、優(yōu)化單方目標的角度設計的,多方(智能體)的連續(xù)(序貫)對抗場景均可采用基于交互的博弈理論建模,如何設計面向均衡解的離線博弈學習方法,考慮離線均衡搜尋[79]、離線博弈對抗數(shù)據(jù)分布[80]、分析離線博弈策略的可學習性[81]等仍是當前面臨的挑戰(zhàn).

    情境學習:從一般的小型預訓練模型到大型的基石模型,如何提高模型的適應性仍是當前面臨的挑戰(zhàn),利用情境學習方法[82],可以逐漸提高算法應對新場景新任務的能力.

    3.4.2 前沿發(fā)展

    Transformer 結(jié)構(gòu):隨著各類基礎(chǔ)模型的迭代更新,分布Transformer 結(jié)構(gòu)的重要性[83],改進Transformer 的結(jié)構(gòu)模型是值得研究的方向.

    人工智能生成基石模型:與判別式人工智能不同,生成式人工智能模型探索未知策略空間提供了方法途徑,條件生成建模[84]等生成式人工智能方向值得研究.

    多模態(tài)交互決策:多種模態(tài)信息流轉(zhuǎn)為交互式?jīng)Q策提出了挑戰(zhàn),如何利用好Transformer 等架構(gòu),輸入自然語言指令[85]和其他不同模態(tài)[86]信息值得探索. 此外,多種模態(tài)的基石模型可用作“即插即用”(plugand-play)模塊,輔助智能決策.

    4 結(jié)論

    博弈強對抗環(huán)境下,如何響應高動態(tài)性、不確定性、高復雜性對抗,給出自適應可信任應對策略,均是智能博弈問題求解的重要課題. 方法的集成本質(zhì)是為了提高問題求解的樣本效率、策略的泛化性、魯棒性、安全性、可信任性等,但如何自洽融合、模塊適配求解智能博弈問題仍是一個開放性問題. 人工智能算法與GPU 算力的完美結(jié)合為各研究領(lǐng)域帶了范式革命,基于云原生基礎(chǔ)設施的決策基石模型已然到來.

    本文介紹了智能博弈問題的3 類博弈模型、分析了4 類博弈認知模型、給出了智能博弈求解方案,著力設計了智能博弈問題求解的集成框架,深入分析了決策Transformer 方法. 可以為智能兵棋推演、智能戰(zhàn)略博弈、智能藍軍、智能決策輔助等項目提供綜合式策略集成學習解決方案. 決策基石模型的生成與服務化是一種可行方案,可為分布式對抗場景下的智能指揮決策提供支撐.

    猜你喜歡
    離線決策建模
    為可持續(xù)決策提供依據(jù)
    異步電機離線參數(shù)辨識方法
    防爆電機(2021年4期)2021-07-28 07:42:46
    呼吸閥離線檢驗工藝與評定探討
    聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
    淺談ATC離線基礎(chǔ)數(shù)據(jù)的準備
    決策為什么失誤了
    基于PSS/E的風電場建模與動態(tài)分析
    電子制作(2018年17期)2018-09-28 01:56:44
    不對稱半橋變換器的建模與仿真
    離線富集-HPLC法同時測定氨咖黃敏膠囊中5種合成色素
    中成藥(2018年2期)2018-05-09 07:20:09
    三元組輻射場的建模與仿真
    精品一品国产午夜福利视频| 人妻丰满熟妇av一区二区三区 | 老司机亚洲免费影院| 一区二区三区激情视频| 波多野结衣av一区二区av| 99精品欧美一区二区三区四区| 久久亚洲真实| av一本久久久久| 美国免费a级毛片| 久久人人97超碰香蕉20202| 男女床上黄色一级片免费看| 亚洲人成电影观看| 91老司机精品| 久久香蕉精品热| 亚洲片人在线观看| 久久天躁狠狠躁夜夜2o2o| 色综合欧美亚洲国产小说| 夜夜躁狠狠躁天天躁| 激情在线观看视频在线高清 | 国内久久婷婷六月综合欲色啪| 国产成+人综合+亚洲专区| 好男人电影高清在线观看| 捣出白浆h1v1| 人人妻人人澡人人看| 亚洲欧美日韩高清在线视频| 亚洲专区中文字幕在线| 老司机影院毛片| 超色免费av| av一本久久久久| 国产精品98久久久久久宅男小说| 人妻 亚洲 视频| 国产成人精品无人区| 久久久久久亚洲精品国产蜜桃av| 国产精品久久久久成人av| 999久久久国产精品视频| 三上悠亚av全集在线观看| 精品少妇久久久久久888优播| 9热在线视频观看99| 亚洲精品一卡2卡三卡4卡5卡| 精品高清国产在线一区| 看片在线看免费视频| 少妇 在线观看| 超碰97精品在线观看| 每晚都被弄得嗷嗷叫到高潮| 国产又色又爽无遮挡免费看| 巨乳人妻的诱惑在线观看| 男女午夜视频在线观看| 亚洲国产看品久久| 午夜影院日韩av| 亚洲国产欧美日韩在线播放| 天天躁狠狠躁夜夜躁狠狠躁| 免费在线观看完整版高清| 在线观看免费视频网站a站| 99精品欧美一区二区三区四区| 18禁美女被吸乳视频| 18禁美女被吸乳视频| 国产精品成人在线| 少妇的丰满在线观看| 高清在线国产一区| 亚洲av片天天在线观看| 欧美性长视频在线观看| 免费在线观看视频国产中文字幕亚洲| 久久精品亚洲熟妇少妇任你| 美女国产高潮福利片在线看| 少妇 在线观看| 人人妻,人人澡人人爽秒播| 久久精品国产亚洲av香蕉五月 | 老司机福利观看| 怎么达到女性高潮| 777久久人妻少妇嫩草av网站| 色在线成人网| 老鸭窝网址在线观看| 午夜久久久在线观看| 午夜激情av网站| 黄色女人牲交| 69精品国产乱码久久久| 精品国产国语对白av| 婷婷精品国产亚洲av在线 | 国产精品99久久99久久久不卡| 精品人妻在线不人妻| 免费看十八禁软件| 搡老乐熟女国产| 国产视频一区二区在线看| 亚洲精品一二三| 欧美日韩成人在线一区二区| 91老司机精品| 亚洲少妇的诱惑av| 亚洲一码二码三码区别大吗| 久久久久精品国产欧美久久久| 午夜激情av网站| 国产免费av片在线观看野外av| 久久久久国内视频| 人人妻人人添人人爽欧美一区卜| 久久久久久人人人人人| 女人久久www免费人成看片| 无人区码免费观看不卡| 王馨瑶露胸无遮挡在线观看| 免费少妇av软件| 男女下面插进去视频免费观看| 欧美成人免费av一区二区三区 | 国产精品自产拍在线观看55亚洲 | 国产欧美日韩一区二区三| 麻豆av在线久日| 搡老乐熟女国产| 亚洲三区欧美一区| 婷婷精品国产亚洲av在线 | 亚洲精品国产一区二区精华液| 美女福利国产在线| 一二三四在线观看免费中文在| ponron亚洲| 一a级毛片在线观看| 国产精品九九99| 热99re8久久精品国产| 亚洲av成人一区二区三| 午夜福利一区二区在线看| 国产精品偷伦视频观看了| 人妻丰满熟妇av一区二区三区 | 成年人黄色毛片网站| 亚洲精品av麻豆狂野| 黑人巨大精品欧美一区二区蜜桃| 99国产精品一区二区蜜桃av | 女性生殖器流出的白浆| 欧美日韩亚洲国产一区二区在线观看 | 在线国产一区二区在线| 亚洲成人免费av在线播放| 亚洲七黄色美女视频| 成人18禁在线播放| 天天躁夜夜躁狠狠躁躁| 最近最新中文字幕大全免费视频| 中文字幕最新亚洲高清| 亚洲少妇的诱惑av| 天天操日日干夜夜撸| 正在播放国产对白刺激| 成人国产一区最新在线观看| 交换朋友夫妻互换小说| 久久青草综合色| 婷婷精品国产亚洲av在线 | 不卡一级毛片| 狠狠狠狠99中文字幕| 男女高潮啪啪啪动态图| 99久久人妻综合| 久久久水蜜桃国产精品网| 欧美在线一区亚洲| 高清毛片免费观看视频网站 | 十八禁人妻一区二区| 美女扒开内裤让男人捅视频| 日日夜夜操网爽| 欧美日韩瑟瑟在线播放| 91字幕亚洲| 亚洲,欧美精品.| 亚洲精品中文字幕一二三四区| 久久精品成人免费网站| 欧美最黄视频在线播放免费 | 日韩有码中文字幕| xxx96com| 久热爱精品视频在线9| av在线播放免费不卡| 俄罗斯特黄特色一大片| 91国产中文字幕| 狂野欧美激情性xxxx| 免费在线观看日本一区| 国产精品久久久久成人av| av线在线观看网站| 99在线人妻在线中文字幕 | 天堂俺去俺来也www色官网| 日韩 欧美 亚洲 中文字幕| 老熟妇乱子伦视频在线观看| 久久精品亚洲熟妇少妇任你| 久久国产精品男人的天堂亚洲| 欧美日韩中文字幕国产精品一区二区三区 | 久久人妻熟女aⅴ| 99热网站在线观看| 黑人操中国人逼视频| 久久人人97超碰香蕉20202| 日韩熟女老妇一区二区性免费视频| 日韩大码丰满熟妇| 亚洲一区高清亚洲精品| 国产成人免费无遮挡视频| 超碰97精品在线观看| 久久精品国产清高在天天线| 日韩有码中文字幕| 麻豆成人av在线观看| 在线天堂中文资源库| 亚洲第一欧美日韩一区二区三区| 黄网站色视频无遮挡免费观看| 女性生殖器流出的白浆| 搡老乐熟女国产| 丝瓜视频免费看黄片| 高清黄色对白视频在线免费看| 久久热在线av| av在线播放免费不卡| 国产欧美日韩一区二区精品| 激情在线观看视频在线高清 | 好看av亚洲va欧美ⅴa在| 国产免费av片在线观看野外av| 99热国产这里只有精品6| 欧美精品啪啪一区二区三区| www.999成人在线观看| 少妇的丰满在线观看| 999久久久精品免费观看国产| 亚洲九九香蕉| 最近最新中文字幕大全电影3 | 欧美精品一区二区免费开放| 韩国av一区二区三区四区| 热99久久久久精品小说推荐| 在线av久久热| 亚洲全国av大片| 99国产精品一区二区蜜桃av | 国产有黄有色有爽视频| 欧美丝袜亚洲另类 | 欧美日韩成人在线一区二区| 又黄又爽又免费观看的视频| 亚洲熟妇熟女久久| 黄色丝袜av网址大全| av线在线观看网站| 国产欧美日韩一区二区精品| 在线观看免费视频日本深夜| 国产成人精品久久二区二区91| 看免费av毛片| 亚洲精品一二三| 最新在线观看一区二区三区| 12—13女人毛片做爰片一| а√天堂www在线а√下载 | av超薄肉色丝袜交足视频| 美女福利国产在线| 国产精品二区激情视频| 欧美中文综合在线视频| 无遮挡黄片免费观看| 久久九九热精品免费| 无限看片的www在线观看| 十八禁网站免费在线| 欧美另类亚洲清纯唯美| 久久久国产欧美日韩av| 亚洲人成电影免费在线| 日本黄色视频三级网站网址 | 黄网站色视频无遮挡免费观看| 日韩欧美免费精品| 啦啦啦视频在线资源免费观看| 两个人免费观看高清视频| 18禁黄网站禁片午夜丰满| 欧美精品亚洲一区二区| 久久精品国产亚洲av高清一级| xxxhd国产人妻xxx| 在线免费观看的www视频| 亚洲精品乱久久久久久| 国产精品影院久久| 黄片大片在线免费观看| 下体分泌物呈黄色| 精品免费久久久久久久清纯 | 高清黄色对白视频在线免费看| 免费一级毛片在线播放高清视频 | 在线观看一区二区三区激情| 一区在线观看完整版| 成年版毛片免费区| 亚洲七黄色美女视频| 少妇猛男粗大的猛烈进出视频| 热99久久久久精品小说推荐| 首页视频小说图片口味搜索| 国产深夜福利视频在线观看| 中文字幕人妻熟女乱码| 亚洲精品在线美女| 99riav亚洲国产免费| 两性午夜刺激爽爽歪歪视频在线观看 | 午夜福利免费观看在线| 免费观看精品视频网站| 美女高潮喷水抽搐中文字幕| 成人影院久久| avwww免费| 精品一区二区三区四区五区乱码| 欧美 日韩 精品 国产| 夜夜爽天天搞| 757午夜福利合集在线观看| 国产三级黄色录像| 夜夜躁狠狠躁天天躁| 久久精品aⅴ一区二区三区四区| 99热网站在线观看| 99久久人妻综合| 欧美成狂野欧美在线观看| 成年版毛片免费区| 国产成人精品无人区| 王馨瑶露胸无遮挡在线观看| 久久久久久久午夜电影 | 亚洲精品国产区一区二| 亚洲五月婷婷丁香| 亚洲专区国产一区二区| 狠狠婷婷综合久久久久久88av| 黄色怎么调成土黄色| 国产免费av片在线观看野外av| 18禁裸乳无遮挡动漫免费视频| 久久久久久久国产电影| 18禁裸乳无遮挡免费网站照片 | 99精国产麻豆久久婷婷| 男男h啪啪无遮挡| 欧美黄色片欧美黄色片| 欧美大码av| 国产又爽黄色视频| 99久久综合精品五月天人人| 国产精品久久久av美女十八| 最新在线观看一区二区三区| 极品少妇高潮喷水抽搐| 国产精品秋霞免费鲁丝片| 国产成人欧美| 成年人黄色毛片网站| 少妇 在线观看| 高清黄色对白视频在线免费看| 久久精品国产综合久久久| 男女床上黄色一级片免费看| 丰满人妻熟妇乱又伦精品不卡| 国产一区有黄有色的免费视频| 国产精品秋霞免费鲁丝片| 免费在线观看影片大全网站| 两性夫妻黄色片| 亚洲精品成人av观看孕妇| 国产成人精品无人区| 国产成+人综合+亚洲专区| 90打野战视频偷拍视频| 国产成人精品久久二区二区免费| 视频区欧美日本亚洲| 黄色怎么调成土黄色| 18禁国产床啪视频网站| 亚洲欧洲精品一区二区精品久久久| 一级a爱片免费观看的视频| 精品无人区乱码1区二区| 女人被躁到高潮嗷嗷叫费观| 香蕉国产在线看| 国产精品亚洲一级av第二区| 十八禁人妻一区二区| 国产精品98久久久久久宅男小说| 亚洲国产欧美一区二区综合| 欧美日韩精品网址| av超薄肉色丝袜交足视频| 国产精品国产高清国产av | 丰满饥渴人妻一区二区三| 中国美女看黄片| 精品福利观看| a级毛片在线看网站| 亚洲一区中文字幕在线| 亚洲黑人精品在线| 亚洲欧美精品综合一区二区三区| 啪啪无遮挡十八禁网站| 九色亚洲精品在线播放| 久久精品91无色码中文字幕| 又紧又爽又黄一区二区| a在线观看视频网站| 在线观看66精品国产| 一级片免费观看大全| 欧美精品啪啪一区二区三区| 人成视频在线观看免费观看| 国产精品1区2区在线观看. | 女性被躁到高潮视频| 亚洲九九香蕉| 99国产精品一区二区三区| 中文字幕人妻丝袜制服| 久久精品亚洲熟妇少妇任你| 免费人成视频x8x8入口观看| 黄色成人免费大全| 在线观看午夜福利视频| 成人特级黄色片久久久久久久| 视频在线观看一区二区三区| 一区二区三区激情视频| 麻豆国产av国片精品| 精品一区二区三区视频在线观看免费 | 欧美日韩亚洲综合一区二区三区_| 男男h啪啪无遮挡| 成人免费观看视频高清| 99久久99久久久精品蜜桃| 午夜福利在线免费观看网站| 91在线观看av| 日韩欧美免费精品| 成年人午夜在线观看视频| 高清黄色对白视频在线免费看| 欧美国产精品va在线观看不卡| 日韩欧美免费精品| 成年人午夜在线观看视频| 国产成人精品久久二区二区91| 在线十欧美十亚洲十日本专区| 久久精品国产亚洲av高清一级| 国产精品乱码一区二三区的特点 | 国产精品一区二区在线观看99| 在线国产一区二区在线| 中文字幕人妻丝袜制服| 国产精品国产高清国产av | 老司机靠b影院| 久久久国产成人免费| 久久久久久人人人人人| 老司机午夜十八禁免费视频| 国产野战对白在线观看| 一级片'在线观看视频| 欧美在线黄色| √禁漫天堂资源中文www| 少妇被粗大的猛进出69影院| 最近最新中文字幕大全电影3 | 国产成人啪精品午夜网站| 久久亚洲精品不卡| 久久热在线av| 亚洲精品国产精品久久久不卡| 免费一级毛片在线播放高清视频 | 亚洲熟妇中文字幕五十中出 | ponron亚洲| 国产精品秋霞免费鲁丝片| 午夜免费成人在线视频| 自拍欧美九色日韩亚洲蝌蚪91| 日韩精品免费视频一区二区三区| av天堂久久9| 欧美激情 高清一区二区三区| 淫妇啪啪啪对白视频| 欧美日本中文国产一区发布| 成人精品一区二区免费| 黄频高清免费视频| 欧美日韩av久久| 国产黄色免费在线视频| 每晚都被弄得嗷嗷叫到高潮| 精品久久久久久电影网| 日本欧美视频一区| 美女扒开内裤让男人捅视频| 久久精品国产清高在天天线| 国产精品电影一区二区三区 | 欧美精品亚洲一区二区| 青草久久国产| 18禁观看日本| 久久久久久亚洲精品国产蜜桃av| 在线观看免费视频网站a站| 欧美精品av麻豆av| 国产欧美亚洲国产| 真人做人爱边吃奶动态| 欧美日韩乱码在线| 国产精品98久久久久久宅男小说| 成年人黄色毛片网站| 三上悠亚av全集在线观看| 色婷婷av一区二区三区视频| 国产淫语在线视频| 久久人人爽av亚洲精品天堂| 国产三级黄色录像| 免费在线观看视频国产中文字幕亚洲| netflix在线观看网站| 精品人妻在线不人妻| 精品第一国产精品| 国产免费现黄频在线看| 亚洲va日本ⅴa欧美va伊人久久| 久久亚洲真实| 亚洲精品国产区一区二| 日本vs欧美在线观看视频| 久久久国产欧美日韩av| 丰满人妻熟妇乱又伦精品不卡| 欧美黄色片欧美黄色片| 在线国产一区二区在线| 满18在线观看网站| 在线观看免费视频日本深夜| 在线观看免费午夜福利视频| 亚洲国产精品sss在线观看 | 夜夜躁狠狠躁天天躁| 视频区欧美日本亚洲| 无限看片的www在线观看| 一级片免费观看大全| 欧美精品高潮呻吟av久久| www.精华液| 深夜精品福利| 丝袜美足系列| 久久99一区二区三区| 一级黄色大片毛片| 操出白浆在线播放| 国产在线观看jvid| 国产高清国产精品国产三级| 19禁男女啪啪无遮挡网站| 亚洲午夜理论影院| 精品福利永久在线观看| 久久久精品区二区三区| 极品人妻少妇av视频| 国产在线观看jvid| 久久热在线av| 大陆偷拍与自拍| 757午夜福利合集在线观看| 亚洲一区二区三区欧美精品| 久久久久久久国产电影| 精品午夜福利视频在线观看一区| 在线免费观看的www视频| 成人精品一区二区免费| 免费人成视频x8x8入口观看| 国产成人欧美| 精品久久蜜臀av无| 人人妻人人爽人人添夜夜欢视频| 王馨瑶露胸无遮挡在线观看| 日韩人妻精品一区2区三区| 身体一侧抽搐| 国产欧美日韩综合在线一区二区| 欧美在线黄色| 黄色怎么调成土黄色| 俄罗斯特黄特色一大片| 亚洲五月色婷婷综合| 99热国产这里只有精品6| 丁香欧美五月| 淫妇啪啪啪对白视频| 国产av精品麻豆| 下体分泌物呈黄色| 欧美日韩一级在线毛片| 精品一区二区三卡| 免费在线观看日本一区| 日本a在线网址| 黄网站色视频无遮挡免费观看| 午夜老司机福利片| 久热这里只有精品99| 窝窝影院91人妻| 欧美激情高清一区二区三区| 亚洲熟女毛片儿| 女警被强在线播放| 精品一品国产午夜福利视频| 啦啦啦在线免费观看视频4| 亚洲七黄色美女视频| 999久久久精品免费观看国产| e午夜精品久久久久久久| 国产精品久久久人人做人人爽| 亚洲 欧美一区二区三区| 国产亚洲精品久久久久5区| 亚洲精品成人av观看孕妇| 三级毛片av免费| 午夜福利欧美成人| 亚洲色图综合在线观看| 男女免费视频国产| 久久婷婷成人综合色麻豆| 狂野欧美激情性xxxx| 亚洲男人天堂网一区| 搡老熟女国产l中国老女人| 午夜福利在线观看吧| 嫩草影视91久久| 欧美成人免费av一区二区三区 | www.熟女人妻精品国产| 一个人免费在线观看的高清视频| 亚洲专区国产一区二区| 久久这里只有精品19| 少妇被粗大的猛进出69影院| 亚洲av片天天在线观看| 国产黄色免费在线视频| 女人高潮潮喷娇喘18禁视频| 伦理电影免费视频| 免费高清在线观看日韩| 亚洲成人免费电影在线观看| 色婷婷av一区二区三区视频| 欧美老熟妇乱子伦牲交| 韩国av一区二区三区四区| 日韩大码丰满熟妇| 午夜影院日韩av| 欧美久久黑人一区二区| 精品国产乱码久久久久久男人| 激情视频va一区二区三区| 成人国语在线视频| 天堂动漫精品| 欧美激情久久久久久爽电影 | 男人的好看免费观看在线视频 | 中文字幕另类日韩欧美亚洲嫩草| 天堂俺去俺来也www色官网| 成人国语在线视频| 91精品三级在线观看| 亚洲自偷自拍图片 自拍| tocl精华| 波多野结衣av一区二区av| 50天的宝宝边吃奶边哭怎么回事| 亚洲av日韩在线播放| 黑人巨大精品欧美一区二区mp4| 后天国语完整版免费观看| 999久久久国产精品视频| 操美女的视频在线观看| 亚洲欧美激情在线| 免费在线观看完整版高清| 91大片在线观看| 91成年电影在线观看| 成年版毛片免费区| 一区在线观看完整版| 国产野战对白在线观看| 国产精品永久免费网站| 99re6热这里在线精品视频| 免费观看精品视频网站| 久久中文字幕人妻熟女| 亚洲色图av天堂| 最新的欧美精品一区二区| 久久久久久人人人人人| 最新在线观看一区二区三区| 国产真人三级小视频在线观看| 国产成人啪精品午夜网站| 国产精品免费一区二区三区在线 | 女性被躁到高潮视频| 久久久久国内视频| 悠悠久久av| x7x7x7水蜜桃| 精品一区二区三卡| 搡老乐熟女国产| av有码第一页| 午夜福利影视在线免费观看| 99国产精品一区二区蜜桃av | 在线观看免费日韩欧美大片| 纯流量卡能插随身wifi吗| 操出白浆在线播放| 亚洲少妇的诱惑av| 法律面前人人平等表现在哪些方面| 国产精品免费一区二区三区在线 | 十八禁高潮呻吟视频| 欧美成人免费av一区二区三区 | 午夜精品在线福利| 亚洲国产精品sss在线观看 | 欧美日韩瑟瑟在线播放| 操出白浆在线播放| 久久中文看片网| www日本在线高清视频| 国产精品秋霞免费鲁丝片| 午夜福利,免费看| a级毛片黄视频| 免费在线观看亚洲国产| 国产精品二区激情视频| 精品福利观看| 首页视频小说图片口味搜索| 久久香蕉国产精品| 日韩中文字幕欧美一区二区| 久久久国产一区二区| 国产男女超爽视频在线观看| 久久久久久免费高清国产稀缺| 亚洲国产中文字幕在线视频|