• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于分層強化學(xué)習(xí)的多智能體博弈策略生成方法

    2024-09-19 00:00:00暢鑫李艷斌劉東輝
    無線電工程 2024年6期
    關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò)

    摘 要:典型基于深度強化學(xué)習(xí)的多智能體對抗策略生成方法采用“分總” 框架,各智能體基于部分可觀測信息生成策略并進行決策,缺乏從整體角度生成對抗策略的能力,大大限制了決策能力。為了解決該問題,基于分層強化學(xué)習(xí)提出改進的多智能體博弈策略生成方法?;诜謱訌娀瘜W(xué)習(xí)構(gòu)建觀測信息到整體價值的決策映射,以最大化整體價值作為目標(biāo)構(gòu)建優(yōu)化問題,并推導(dǎo)了策略優(yōu)化過程,為后續(xù)框架結(jié)構(gòu)和方法實現(xiàn)的設(shè)計提供了理論依據(jù);基于決策映射與優(yōu)化問題構(gòu)建,采用神經(jīng)網(wǎng)絡(luò)設(shè)計了模型框架,詳細(xì)闡述了頂層策略控制模型和個體策略執(zhí)行模型;基于策略優(yōu)化方法,給出詳細(xì)訓(xùn)練流程和算法流程;采用星際爭霸多智能體對抗(StarCraft Multi-Agent Challenge,SMAC)環(huán)境,與典型多智能體方法進行性能對比。實驗結(jié)果表明,該方法能夠有效生成對抗策略,控制異構(gòu)多智能體戰(zhàn)勝預(yù)設(shè)對手策略,相比典型多智能體強化學(xué)習(xí)方法性能提升明顯。

    關(guān)鍵詞:分層強化學(xué)習(xí);多智能體博弈;深度神經(jīng)網(wǎng)絡(luò)

    中圖分類號:TN929. 5 文獻標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

    文章編號:1003-3106(2024)06-1361-07

    0 引言

    策略生成技術(shù)是指通過計算或?qū)W習(xí),生成用于指導(dǎo)決策策略的方法和技術(shù)。隨著人工智能技術(shù)的不斷發(fā)展,策略生成技術(shù)被廣泛應(yīng)用于解決各種復(fù)雜的問題。策略通常是一個映射,將環(huán)境的狀態(tài)映射到可能的行動或決策,以最大化某種目標(biāo)函數(shù)(如累積獎勵、成功率等)。相比于利用并且依靠專家經(jīng)驗和領(lǐng)域知識的策略生成方法,基于海量數(shù)據(jù)的智能決策降低了知識門檻,并且過程更加客觀,避免主觀因素影響[1],特別是在零和對抗場景中[2-3]。因此,當(dāng)前智能博弈策略生成技術(shù)已經(jīng)廣泛應(yīng)用于無人機協(xié)同對抗[4]、通信智能抗干擾[5]和智能協(xié)同欺騙[6]等電磁頻譜作戰(zhàn)任務(wù)中。

    當(dāng)前,主流策略生成技術(shù)采用深度強化學(xué)習(xí)方法[7],根據(jù)方法結(jié)構(gòu)和應(yīng)對受控體數(shù)量,可以分為集中式方法和分布式方法。集中式方法統(tǒng)一匯集觀測信息并完成所有受控實體的動作映射。特別是基于Deep QNetwork (DQN)方法的集中式方法在電磁頻譜規(guī)劃等場景中獲得良好表現(xiàn)[8-10],得益于結(jié)構(gòu)良好的可擴展和改進性,能夠適應(yīng)多種狀態(tài)形式的觀測數(shù)據(jù),如圖形化的頻譜瀑布圖[11]、長短時高維數(shù)據(jù)[12]等。但是,隨著受控數(shù)量的增加,集中式方法神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量將成指數(shù)上升,使得參數(shù)優(yōu)化效率變慢,策略生成性能變差,并且資源需求量大幅增加。

    針對該缺點,“集中式訓(xùn)練,分布式執(zhí)行”成為解決當(dāng)前問題的主流理念。分布式方法分別構(gòu)建對應(yīng)受控個體的觀測到動作的映射網(wǎng)絡(luò),再構(gòu)建擬合網(wǎng)絡(luò)用于擬合個體動作價值到整體價值的映射。將整體“大網(wǎng)絡(luò)”拆分成多個“小網(wǎng)絡(luò)”,避免了維度爆炸。但是,該方法的難點在于由個體動作價值擬合整體價值。作為經(jīng)典方法Value-Decomposition Net-works(VDN)直接將個體動作價值相加得到對整體價值。但是,并非所有個體都具有相同權(quán)重的動作價值。特別是在異構(gòu)博弈對抗環(huán)境中,由于受控個體能力不同,權(quán)重必然不同。文獻[13]中,“QMIX”多智能體強化學(xué)習(xí)方法采用超神經(jīng)網(wǎng)絡(luò)的方法對于整體價值進行了估計,使得個體動作價值到整體價值的映射具有非線性特性,有利于對整體價值的估計。文獻[14]中,“Qtran”方法在此改進思路上進一步延伸,通過構(gòu)建等價函數(shù)、改進值分解等方法,提高了方法的適應(yīng)性,獲得更優(yōu)的效果。但是,該思路在全局信息的利用上存在缺點。個體只采用部分可觀察信息決策,協(xié)同能力是在訓(xùn)練過程中由整體價值分解得到的,以損失反饋的形式對各個體策略施加影響。在執(zhí)行過程中,難以實時利用全局信息或者由各實體觀測信息整合得到融合信息,影響決策性能。

    針對該缺點,以分層強化學(xué)習(xí)為核心的博弈策略生成方法成為研究重點[15]。該思路通過構(gòu)建頂層控制單元和個體執(zhí)行單元形成層級支配控制。頂層控制單元匯總個體信息并產(chǎn)生控制信息,控制個體基于部分可觀測信息決策。相比于典型多智能體深度強化學(xué)習(xí)方法,分層強化學(xué)習(xí)通過任務(wù)分配和組合形成整體策略。智能體在訓(xùn)練過程中能夠避免智能體策略同時更新,使得單一個體對于體系內(nèi)其他個體的策略擬合效率更高。文獻[16]在通信抗干擾領(lǐng)域中采用了該思想。首先,頂層控制模塊識別出當(dāng)前通信干擾樣式,再針對性調(diào)用抗干擾樣式。但是個體策略的抗干擾樣式需要提前人為設(shè)計。文獻[17]頂層控制單元和個體執(zhí)行單元均采用神經(jīng)網(wǎng)絡(luò),個體策略也由數(shù)據(jù)訓(xùn)練得到。上述2 種方法主要解決單一受控個體面對多任務(wù)情況下的策略生成問題,針對異構(gòu)多智能體問題需要對策略生成框架改造。

    基于分層強化學(xué)習(xí),本文提出改進的多智能體博弈策略生成方法。首先,基于深度神經(jīng)網(wǎng)絡(luò),構(gòu)造融合觀測信息的頂層策略控制模型,完成控制信息的生成。在結(jié)構(gòu)上,具有根據(jù)全局信息產(chǎn)生控制信息的能力。在訓(xùn)練過程中,能夠引導(dǎo)個體決策模型的生成。然后,將個體的部分觀察信息和控制信息映射為個體動作價值。最后,融合個體動作價值形成全局價值,并利用獎賞函數(shù)對整個神經(jīng)網(wǎng)絡(luò)參數(shù)進行優(yōu)化,達到博弈策略優(yōu)化的目的。

    后續(xù)研究思路如下。首先,基于分層強化學(xué)習(xí)構(gòu)建觀測信息到整體價值的決策映射,以最大化整體價值作為目標(biāo)構(gòu)建優(yōu)化問題,并推導(dǎo)了策略優(yōu)化過程,為后續(xù)框架結(jié)構(gòu)和方法實現(xiàn)的設(shè)計提供了理論依據(jù);然后,基于決策映射與優(yōu)化問題構(gòu)建,采用神經(jīng)網(wǎng)絡(luò)設(shè)計了模型框架,詳細(xì)闡述了頂層策略控制模型和個體策略執(zhí)行模型;再次,基于策略優(yōu)化方法,給出詳細(xì)訓(xùn)練流程和算法流程;最后,采用典型星際爭霸多智能體對抗(StarCraft Multi-Agent Chal-lenge,SMAC)環(huán)境,與典型多智能體方法進行性能對比,驗證方法性能,并總結(jié)全文。

    1 策略生成原理

    博弈對抗策略的實質(zhì)是完成觀測信息到動作空間的影射,影射過程即為策略,而利用該過程得到動作即為決策?;谏疃壬窠?jīng)網(wǎng)絡(luò)的策略生成方法中的策略具象化是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)。本文網(wǎng)絡(luò)結(jié)構(gòu)具體分為策略控制網(wǎng)絡(luò)和策略執(zhí)行網(wǎng)絡(luò)。在網(wǎng)絡(luò)結(jié)構(gòu)確定的情況下,對網(wǎng)絡(luò)參數(shù)進行優(yōu)化即對策略優(yōu)化?;诖死砟?,本節(jié)詳細(xì)推導(dǎo)策略映射、優(yōu)化問題構(gòu)建和策略優(yōu)化方法。

    1. 1 決策映射與優(yōu)化問題構(gòu)建

    通過全局信息生成控制信息,并以控制信息對各智能體的策略形成過程施加影響,提高各智能體之間的協(xié)同能力。對于策略控制網(wǎng)絡(luò)模型f0 用于完成融合信息o0 到控制信息I 的映射:

    I = f0,θ0(o0 ), (1)

    式中:I = {In},n∈[1,N]表示擬合得到的控制信息,In 表示對應(yīng)N 個受控智能體;o0 表示各個智能體整合得到的全局信息,是多維矩陣形式[o1 ,…,on,…,oN],on 表示各智能體的觀測空間,即部分可觀測空間,n∈[1,N];θ0 表示深度神經(jīng)策略控制網(wǎng)絡(luò)參數(shù)。

    在控制信息的影響下,能夠降低智能體對其他智能體策略估計的難度,降低了個體策略生成的難度。對于策略執(zhí)行網(wǎng)絡(luò)fn 用于實現(xiàn)控制信息I 和部分可觀測空間on 到離散動作價值Qn 的影射。為了協(xié)同能力的提升,各個智能體均均等的拿到所有控制信息。

    Qn = fn,θn(I,on ), (2)

    式中:Qn 表示第n 個智能體離散動作價值的集合{qa1 ,qa2 ,…,qam },θn 表示深度神經(jīng)策略執(zhí)行網(wǎng)絡(luò)參數(shù)。θ0 和θn 構(gòu)成整個模型的網(wǎng)絡(luò)參數(shù)θ。

    從Qn 中選擇最大值所對應(yīng)的離散動作am′[18]:

    am′ = argmax m Qn , (3)

    式中:m∈[1,M],M 為離散動作數(shù)量。

    1. 2 策略優(yōu)化方法

    面對多智能體策略生成問題,整體價值最大化是策略生成與優(yōu)化的目標(biāo)。多智能體整體價值Qtotal 表示各個智能體價值的累加[19]:

    Qtotal = ΣNn = 1Qn,am′ , (4)

    式中:Qn,am′ 為第n 個智能體對應(yīng)的最大離散動作價值。

    在各智能體動作在博弈環(huán)境中與對手策略交互之后,獲得的全局獎賞值為r。采用時序差分方法對離散動作價值進行更新:

    Qtotal(O,a)← Qtotal(O,a)+ α[r + max a′∈A Qtotal(O′,a′)- Qtotal(O,a)],(5)

    式中:α 表示折扣系數(shù),Qtotal(O,a)表示在當(dāng)前t 時刻觀測空間O 和各智能體所選動作對應(yīng)的整體價值,max a′∈A Qtotal(O′,a′)表示在后續(xù)t+1 時刻觀測空間O′下各智能體對應(yīng)的離散動作價值中的最大值求和得到整體價值。

    用于網(wǎng)絡(luò)參數(shù)θ 更新的目標(biāo)損失函數(shù)L 定義為:

    進行K 次決策后,將每次差值求取平均值得到目標(biāo)損失函數(shù)。通過最小化目標(biāo)損失函數(shù)更新網(wǎng)絡(luò)參數(shù)θ。

    2 框架結(jié)構(gòu)

    本節(jié)給出基于分層強化學(xué)習(xí)的模型框架,并逐層詳細(xì)闡述控制模型。

    2. 1 基于分層強化學(xué)習(xí)的模型框架

    基于策略生成原理,基于分層強化學(xué)習(xí)的模型框架如圖1 所示。

    根據(jù)模型框架的結(jié)構(gòu),其計算過程可以闡述如下:

    首先,頂層控制模型產(chǎn)生控制信息。全局信息由個體部分可觀察信息組成,頂層策略控制模型基于全局信息產(chǎn)生控制信息,對應(yīng)式(1)。

    然后,個體策略執(zhí)行模型產(chǎn)生個體動作價值。執(zhí)行模型依據(jù)個體信息給出對應(yīng)離散動作的動作價值,使得框架可以根據(jù)動作價值的最大值選擇需要執(zhí)行的動作,對應(yīng)式(2)和式(3)。

    最后,根據(jù)個體動作價值形成整體價值。對執(zhí)行模型產(chǎn)生的所有個體的最大動作價值進行累加,形成整體價值,對應(yīng)式(4)。通過對整體價值的迭代優(yōu)化實現(xiàn)策略優(yōu)化,對應(yīng)式(5)和式(6)。

    2. 2 頂層策略控制模型

    頂層策略控制模型采用深度神經(jīng)網(wǎng)絡(luò),包含輸入層、隱藏層和輸出層三部分。為了不失一般性并且突出本框架能力,觀測信息和離散動作空間結(jié)構(gòu)采用一維矩陣,頂層策略控制模型中各層均采用全連接神經(jīng)網(wǎng)絡(luò),并采用ReLU 作為激活函數(shù)。特別需要說明,本文核心在于闡述并驗證改進方法的優(yōu)秀性能,弱化了特征工程,如觀測信息為高維數(shù)據(jù)矩陣等形式,可針對實際工程需求的特異性采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、長短期記憶(Long Short Term Memory,LSTM )網(wǎng)絡(luò)和Transform 等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對本框架進一步改造。頂層策略控制模型如圖2 所示。

    全局信息由個體觀測信息拼接組成,形成一維矩陣。全局信息矩陣維度為N×odim,其中odim 為個體觀測信息維度。輸入層的維度與全局信息維度一致。隱藏層用于將全局信息映射為原始控制信息。輸出層用于將原始控制信息按照控制信息維度要求進行特征提取,用于控制個體策略執(zhí)行模型??刂菩畔橐痪S矩陣,維度為N×Idim,其中Idim 為對應(yīng)各個體的控制信息維度。

    2. 3 個體策略執(zhí)行模型

    個體策略執(zhí)行模型的構(gòu)建邏輯與頂層策略控制模型一致,均采用全連接神經(jīng)網(wǎng)絡(luò),并采用ReLU 作為激活函數(shù),同樣包含輸入層、隱藏層和輸出層三部分。個體策略執(zhí)行模型如圖3 所示。

    該模型輸入分為兩部分,分別是控制信息和融合標(biāo)志位的個體信息。融合標(biāo)志位的個體信息由個體標(biāo)志位n 和部分可觀測信息on 構(gòu)成。加入個體標(biāo)志位目的是明確區(qū)分當(dāng)前單體,有助于從控制信息中明確自己對應(yīng)的信息特征??刂菩畔⒑蛡€體信息經(jīng)過輸入層后,隱藏層提取輸入信息中包含的特征,用于支撐輸出層生成對應(yīng)離散動作的動作價值,維度為M。

    3 方法實現(xiàn)

    本節(jié)基于訓(xùn)練流程和算法流程詳細(xì)描述了方法實現(xiàn)。

    3. 1 訓(xùn)練流程

    訓(xùn)練流程采用環(huán)形結(jié)構(gòu),不斷迭代優(yōu)化博弈策略。除了優(yōu)化過程,還不斷對策略性能進行評估,并保存最優(yōu)參數(shù)作為最優(yōu)博弈策略。具體而言,環(huán)形訓(xùn)練流程包括5 個階段,分別為決策、交互、訓(xùn)練、評估和更新,如圖4 所示。

    在決策階段,基于分層強化學(xué)習(xí)的模型,輸入觀測信息,得到動作價值,并選擇最大動作價值對應(yīng)的離散動作。

    在交互階段,在博弈環(huán)境中,利用得到的離散動作與對手策略進行交互。通過交互獲得下一步觀測信息和當(dāng)前獎賞,構(gòu)建包含當(dāng)前觀測數(shù)據(jù)、執(zhí)行動作、當(dāng)前獎賞和動作執(zhí)行后得到的下一步觀測信息,將上述4 個元素保存為經(jīng)驗,并存儲在內(nèi)存空間中,命名為經(jīng)驗池R。

    在訓(xùn)練階段,隨機從經(jīng)驗池中抽取多條經(jīng)驗數(shù)據(jù),采用目標(biāo)損失函數(shù)計算損失誤差,并且采用累加求和的方法估計誤差,使得參數(shù)尋優(yōu)的過程相對穩(wěn)定。

    在評估階段,將對當(dāng)前得到的策略參數(shù)進行蒙特卡洛測試驗證。通過與對手策略進行多輪對抗,得到平均總獎賞。除此之外,如果當(dāng)前訓(xùn)練得到的策略參數(shù)所對應(yīng)的平均總獎賞優(yōu)于歷史最優(yōu)參數(shù),可以將當(dāng)前參數(shù)保留,作為最優(yōu)策略。

    在更新階段,將訓(xùn)練階段得到的策略參數(shù)裝載于基于分層強化學(xué)習(xí)的模型框架,用于在下一次迭代過程中進行決策并與環(huán)境進行交互。

    3. 2 算法流程

    基于訓(xùn)練流程,本文提出了如算法1 所示的基于分層強化學(xué)習(xí)的多智能體博弈策略生成訓(xùn)練算法。

    4 實驗結(jié)果與分析

    實驗結(jié)果與分析由實驗場景、實驗過程、參數(shù)設(shè)置和結(jié)果分析四部分組成。

    4. 1 實驗場景

    本文采用OpenAI 和暴雪公司基于“星際爭霸2”構(gòu)造的SMAC 環(huán)境中名為“3Z2S”的場景開展實驗[20]。SMAC 是一個用于研究多智能體強化學(xué)習(xí)的環(huán)境。這個環(huán)境基于即時戰(zhàn)略游戲“星際爭霸2”提供了一個多智能體競技場,可以用來評估和比較不同的多智能體強化學(xué)習(xí)算法。SMAC 環(huán)境提供了豐富的地圖和任務(wù),涵蓋了多種不同的游戲場景和挑戰(zhàn),旨在推動多智能體強化學(xué)習(xí)技術(shù)的發(fā)展,并且為研究人員提供一個標(biāo)準(zhǔn)化的評測平臺。在“3Z2S”場景中,本文方法與基線策略方法分別控制5 個異構(gòu)Agent 對抗,在對抗中SMAC 環(huán)境將給出對應(yīng)獎賞值并自動評判是否獲勝。

    除此之外,本實驗在Windows 10 操作系統(tǒng)開展,采用的主要設(shè)備為處理器、內(nèi)存和圖像處理器。處理器規(guī)格為Intel(R)Core(TM)i710700K,機帶內(nèi)存容量為80 GB,圖像處理器為RTX 2070 SUPER。

    4. 2 實驗過程

    本文實驗過程與經(jīng)典多智能體強化學(xué)習(xí)方法驗證實驗的過程保持一致[13-14]。

    在實驗中,共設(shè)置了106 步的訓(xùn)練周期,每5 000 步為一個周期,分為訓(xùn)練階段和評估階段。在訓(xùn)練階段,共進行了5 000 步訓(xùn)練,期間進行了神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化更新。每當(dāng)完成了5 000 步的訓(xùn)練,即進行一次性能評估。在性能評估階段,與基線策略進行了24 回合的對抗。

    在評估指標(biāo)方面,使用了勝率和平均獎賞。對于勝率,統(tǒng)計了與“3Z2S”場景的基線策略進行對抗獲勝的次數(shù),然后除以總回合數(shù)24,得到了勝率。而對于平均獎賞,則是累加了24 回合對抗中SMAC給出的獎賞,再除以總回合數(shù)24,得到了平均獎賞。

    除此之外,在實驗過程中,將QMIX 和VDN 方法作為對照組,在“3Z2S”場景中分別計算了它們的勝率和平均獎賞。以驗證本方法在性能方面的表現(xiàn),并與已有的方法進行比較。

    4. 3 參數(shù)設(shè)置

    方法參數(shù)分為2 類:一類為在策略優(yōu)化過程的學(xué)習(xí)參數(shù);另一類為構(gòu)成模型的深度神經(jīng)網(wǎng)絡(luò)參數(shù)。學(xué)習(xí)參數(shù)包括獎賞折扣參數(shù)、學(xué)習(xí)率和批量大小,分別設(shè)置為0. 99、5×10-4 和32。模型的深度神經(jīng)網(wǎng)絡(luò)參數(shù)如表1 所示。

    4. 4 結(jié)果分析

    勝率曲線如圖5 所示。通過圖中對比可以直觀發(fā)現(xiàn),在初始階段,本方法可獲得高于QMIX 和VDN 的勝率。二者較慢的原因是由于全局信息間接反饋,并且初始階段數(shù)據(jù)量較少,個體策略無法穩(wěn)定生成,從而其他個體也無法有效通過估計其他個體的策略生成協(xié)同策略。除此之外,本文方法相比于2 種典型方法能夠更快達到勝率穩(wěn)態(tài),更高效地形成博弈對抗策略。

    平均獎賞曲線如圖6 所示。通過圖中曲線對比可以看出,平均獎賞曲線圖與勝率曲線圖的趨勢近似,本文方法在效率上明顯超過典型方法。

    為了客觀評估本方法,給出與2 種典型方法的指標(biāo)評估,指標(biāo)包括勝率均值、勝率方差、勝率最大值、平均獎賞均值、平均獎賞方差和平均獎賞最大值。評估結(jié)果如表2 所示。

    對于勝率,本文方法能夠獲得最大勝率均值。雖然勝率方差低于VDN 方法,但是能夠獲得最大勝率。對于平均獎賞,對比均值和方差,本文方法的均值最高并且方差最低,充分說明了本文方法的穩(wěn)定性。除此之外,在勝率和平均獎賞上,本文方法的最大值均為三者之中最高,有效地說明了本文方法的高效性。

    5 結(jié)束語

    針對典型多智能體深度強化學(xué)習(xí)方法對于全局信息利用不重復(fù)導(dǎo)致個體策略生成慢的問題,本文提出了一種基于分層強化學(xué)習(xí)的多智能體博弈策略生成方法,通過構(gòu)建頂層策略控制模型,完成全局信息的提取和控制信息的映射,從而實現(xiàn)層次化分解策略。個體策略執(zhí)行模型在控制信息的引導(dǎo)下,完成部分可觀測信息到動作價值函數(shù)映射。將典型方法被動優(yōu)化群體值函數(shù)的擬合參數(shù)轉(zhuǎn)化為主動將群體策略分解為個體策略,便于快速生成協(xié)同策略的目標(biāo)。實驗驗證表明,本文所提方法在于基線策略對抗勝率達到100% ,相較典型方法VDN 和QMIX,本文方法勝率最高且方差較低。本文所提方法結(jié)構(gòu)簡潔、可解釋性強,能夠針多受控體有效、高效地生成并優(yōu)化博弈策略。本方法采用個體離散動作價值相累加的方法估計整體價值。雖然結(jié)構(gòu)簡單且計算復(fù)雜度低,但是對于各智能體的特性能力缺少較多關(guān)注,限制了整體能力。然而,利用超神經(jīng)網(wǎng)絡(luò)估計整體價值的計算復(fù)雜度高,并且給策略生成效率帶來了挑戰(zhàn)。在后續(xù)研究中,重點應(yīng)放在從個體價值相整體價值的估計上,給出能夠平衡計算復(fù)雜度和策略效果的估計方法。

    參考文獻

    [1] FENG S,SUN H W,YAN X T,et al. Dense ReinforcementLearning for Safety Validation of Autonomous Vehicles[J]. Nature,2023,615:620-627.

    [2] MNIH V,KAVUKCUOGLU K,SILVER D,et al. Humanlevel Control Through Deep Reinforcement Learning[J].Nature,2015,518:529-533.

    [3] VINYALS O,BABUSCHKIN I,CZARNECKI W M,et al.Grandmaster Level in StarCraft II Using Multiagent Reinforcement Learning[J]. Nature,2019,575:350-354.

    [4] 暢鑫,李艷斌,趙研,等. 基于MA2IDDPG 算法的異構(gòu)多無人機協(xié)同突防方法[J]. 河北工業(yè)科技,2022,39(4):328-334.

    [5] CHANG X,LI Y B,ZHAO Y,et al. An Improved Antijamming Method Based on Deep Reinforcement Learningand Feature Engineering [J]. IEEE Access,2022,10:69992-70000.

    [6] CHANG X,LI Y B,ZHAO Y,et al. A MultiplejammerDeceptive Jamming Method Based on Particle Swarm Optimization Against Threechannel SAR GMTI [J]. IEEEAccess,2021,9:138385-138393.

    [7] MNIH V,KAVUKCUOGLU K,SILVER D,et al. PlayingAtari with Deep Reinforcement Learning [EB / OL ].(2013-12-19)[2024-01-06]. https:∥arxiv. org / abs /1312. 5602.

    [8] HASSELT H V,GUEZ A,SILVER D. Deep ReinforcementLearning with Double Qlearning[C]∥Proceedings of theThirtieth AAAI Conference on Artificial Intelligence. Phoenix:AAAI,2016:2094-2100.

    [9] SCHAUL T,QUAN J,ANTONOGLOU I,et al. PrioritizedExperience Replay[EB / OL]. (2015 - 11 - 18 )[2024 -01-06]. https:∥arxiv. org / abs / 1511. 05952.

    [10] WANG Z Y,SCHAUL T,HESSEL M,et al. DuelingNetwork Architectures for Deep Reinforcement Learning[C]∥ Proceedings of the 33rd International Conferenceon International Conference on Machine Learning. NewYork:JMLR,2016:1995-2003.

    [11] LIU X,XU Y H,JIA L L,et al. Antijamming Communications Using Spectrum Waterfall:A Deep ReinforcementLearning Approach [J]. IEEE Communications Letters,2018,22(5):998-1001.

    [12] NAPARSTEK O,COHEN K. Deep Multiuser Reinforcement Learning for Distributed Dynamic Spectrum Access[J]. IEEE Transactions on Wireless Communications,2019,18(1):310-323.

    [13] RASHID T,SAMVELYAN M,WITT C S D,et al. Monotonic Value Function Factorisation for Deep MultiagentReinforcement Learning[J]. Journal of Machine LearningResearch,2020,21(1):7234-7284.

    [14] SON K,KIM D,KANG W J,et al. Learning to Factorizewith Transformation for Cooperative Multiagent Reinforcement Learning [EB / OL]. (2019 - 05 - 14)[2024 -01-06]. http:∥arxiv. org / abs / 1905. 05408.

    [15] SHI W S,LI J L,WU H Q,et al. Dronecell TrajectoryPlanning and Resource Allocation for Highly Mobile Networks:A Hierarchical DRL Approach[J]. IEEE Internetof Things Journal,2020,8(12):9800-9813.

    [16] LIU S Y,XU Y F,CHEN X Q,et al. Patternaware Intelligent Antijamming Communication:A Sequential DeepReinforcement Learning Approach [J ]. IEEE Access,2019,7:169204-169216.

    [17] KULKARNI T D,NARASIMHAN K R,SAEEDI A,et al.Hierarchical Deep Reinforcement Learning:IntegratingTemporal Abstraction and Intrinsic Motivation[C]∥Proceedings of the 30th International Conference on NeuralInformation Processing Systems. Barcelona:Curran Associates Inc. ,2016:3682-3690.

    [18] NOCEDAL J,WRIGHT S J. Numerical Optimization[M].New York:Springer,2006.

    [19] SUTTON R S,BARTO A G. Reinforcement Learning:AnIntroduction[M]. Cambridge:MIT Press,1998.

    [20] SAMVELYAN M,RASHID T,WITT C S D,et al. TheStarCraft Multiagent Challenge. [EB / OL]. (2019 - 02 -11)[2024-01-06]. http:∥arxiv. org / abs / 1902. 04043.

    作者簡介

    暢 鑫 男,(1990—),博士,高級工程師。

    劉東輝 女,(1990—),博士,講師。主要研究方向:復(fù)雜系統(tǒng)管理、策略優(yōu)化等。

    基金項目:中國博士后科學(xué)基金(2021M693002);國家自然科學(xué)基金(71991485,71991481,71991480)

    猜你喜歡
    深度神經(jīng)網(wǎng)絡(luò)
    基于多注意力多尺度特征融合的圖像描述生成算法
    基于深度卷積神經(jīng)網(wǎng)絡(luò)的交通流量預(yù)測數(shù)學(xué)模型設(shè)計
    基于改進SIFT特征和神經(jīng)網(wǎng)絡(luò)結(jié)合的場景識別
    軟件工程(2019年5期)2019-07-03 02:31:14
    基于Kaldi的語音識別算法
    深度神經(jīng)網(wǎng)絡(luò)在船舶自動舵中的應(yīng)用
    基于深度神經(jīng)網(wǎng)絡(luò)的低延遲聲源分離方法
    基于大數(shù)據(jù)網(wǎng)絡(luò)的運動損傷評估模型研究
    試論基于深度神經(jīng)網(wǎng)絡(luò)的汽車車型識別問題
    深度神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀
    基于深度神經(jīng)網(wǎng)絡(luò)的身份識別研究
    亚洲,一卡二卡三卡| 捣出白浆h1v1| 好男人电影高清在线观看| 少妇粗大呻吟视频| 亚洲精品日本国产第一区| 亚洲精品乱久久久久久| 91国产中文字幕| 如日韩欧美国产精品一区二区三区| 免费看十八禁软件| 免费看av在线观看网站| 最新的欧美精品一区二区| 久久国产精品影院| netflix在线观看网站| 亚洲精品av麻豆狂野| 国产免费一区二区三区四区乱码| 美国免费a级毛片| 亚洲色图综合在线观看| 午夜91福利影院| 欧美国产精品va在线观看不卡| 成人国产一区最新在线观看 | 麻豆国产av国片精品| 国产精品一区二区在线不卡| 精品国产超薄肉色丝袜足j| 国产精品久久久人人做人人爽| 丝袜美腿诱惑在线| 99热国产这里只有精品6| 校园人妻丝袜中文字幕| 18禁观看日本| 国产精品.久久久| 嫁个100分男人电影在线观看 | 黄色视频不卡| 国产国语露脸激情在线看| 一级毛片女人18水好多 | 国产成人91sexporn| 日日爽夜夜爽网站| 97在线人人人人妻| 亚洲精品美女久久av网站| 精品少妇黑人巨大在线播放| 国产激情久久老熟女| 国产福利在线免费观看视频| cao死你这个sao货| 1024视频免费在线观看| 亚洲美女黄色视频免费看| 69精品国产乱码久久久| 一本色道久久久久久精品综合| 黑人猛操日本美女一级片| 丰满人妻熟妇乱又伦精品不卡| 久久影院123| 国产一区二区 视频在线| netflix在线观看网站| 高清欧美精品videossex| 老司机在亚洲福利影院| 亚洲精品在线美女| 亚洲国产精品成人久久小说| 50天的宝宝边吃奶边哭怎么回事| 成人18禁高潮啪啪吃奶动态图| 99热国产这里只有精品6| 久久久精品国产亚洲av高清涩受| 日韩一卡2卡3卡4卡2021年| 精品一区二区三区四区五区乱码 | 亚洲av成人精品一二三区| 久久国产精品人妻蜜桃| 妹子高潮喷水视频| 岛国毛片在线播放| 菩萨蛮人人尽说江南好唐韦庄| 黄片播放在线免费| 老司机靠b影院| 99re6热这里在线精品视频| 欧美日韩成人在线一区二区| 我的亚洲天堂| 中文字幕制服av| 久久亚洲国产成人精品v| 母亲3免费完整高清在线观看| 久久久久视频综合| 国产精品一区二区精品视频观看| 热99久久久久精品小说推荐| 国产色视频综合| 中国国产av一级| 97精品久久久久久久久久精品| 两个人免费观看高清视频| 大型av网站在线播放| av又黄又爽大尺度在线免费看| 一本久久精品| 搡老岳熟女国产| 成年美女黄网站色视频大全免费| 男女高潮啪啪啪动态图| 欧美国产精品va在线观看不卡| 欧美 日韩 精品 国产| 1024香蕉在线观看| 满18在线观看网站| 久久久精品94久久精品| 女人被躁到高潮嗷嗷叫费观| 丝袜脚勾引网站| 国产高清视频在线播放一区 | 婷婷色综合大香蕉| 一本大道久久a久久精品| av在线老鸭窝| 这个男人来自地球电影免费观看| 黄色毛片三级朝国网站| 美女中出高潮动态图| 电影成人av| www.熟女人妻精品国产| 女人被躁到高潮嗷嗷叫费观| videosex国产| 熟女少妇亚洲综合色aaa.| 男人爽女人下面视频在线观看| 国产主播在线观看一区二区 | 成人国产一区最新在线观看 | 又紧又爽又黄一区二区| 岛国毛片在线播放| 久久久国产一区二区| 午夜激情av网站| 宅男免费午夜| 色婷婷av一区二区三区视频| 狂野欧美激情性bbbbbb| 美女高潮到喷水免费观看| 菩萨蛮人人尽说江南好唐韦庄| 我要看黄色一级片免费的| 美女中出高潮动态图| 这个男人来自地球电影免费观看| 国产av国产精品国产| 老熟女久久久| 一级,二级,三级黄色视频| 两个人看的免费小视频| 国产在线一区二区三区精| 免费女性裸体啪啪无遮挡网站| 久久久国产一区二区| 国产精品国产三级国产专区5o| 在线精品无人区一区二区三| 狂野欧美激情性xxxx| 欧美日韩av久久| 欧美激情 高清一区二区三区| 久9热在线精品视频| 热re99久久国产66热| 国产亚洲精品第一综合不卡| 大香蕉久久成人网| 日日爽夜夜爽网站| 日本91视频免费播放| 欧美精品人与动牲交sv欧美| 欧美精品av麻豆av| 亚洲伊人色综图| 亚洲一码二码三码区别大吗| 亚洲 欧美一区二区三区| 十八禁高潮呻吟视频| 久久99一区二区三区| 欧美精品av麻豆av| 男女午夜视频在线观看| 十八禁人妻一区二区| 一区二区三区四区激情视频| 午夜影院在线不卡| 1024视频免费在线观看| 亚洲五月婷婷丁香| 性色av乱码一区二区三区2| 大码成人一级视频| www.熟女人妻精品国产| 这个男人来自地球电影免费观看| 国产麻豆69| 久久午夜综合久久蜜桃| 亚洲成人手机| 99热全是精品| 另类精品久久| 久久久久久久大尺度免费视频| 黄色 视频免费看| tube8黄色片| 国产高清不卡午夜福利| 男女边摸边吃奶| √禁漫天堂资源中文www| 精品高清国产在线一区| 男女午夜视频在线观看| 日韩大码丰满熟妇| 美国免费a级毛片| av视频免费观看在线观看| 制服诱惑二区| 欧美 亚洲 国产 日韩一| 人妻 亚洲 视频| 午夜av观看不卡| 亚洲国产欧美网| 欧美97在线视频| 中文欧美无线码| 精品少妇内射三级| 国产真人三级小视频在线观看| 国产精品成人在线| 女性被躁到高潮视频| 尾随美女入室| 成年女人毛片免费观看观看9 | 欧美老熟妇乱子伦牲交| 中文字幕色久视频| 老司机靠b影院| 性色av乱码一区二区三区2| 成人18禁高潮啪啪吃奶动态图| 人人妻,人人澡人人爽秒播 | 老司机亚洲免费影院| 日韩 欧美 亚洲 中文字幕| 中文欧美无线码| av电影中文网址| 久久亚洲国产成人精品v| 老司机午夜十八禁免费视频| 国产亚洲av高清不卡| 啦啦啦 在线观看视频| 国产精品亚洲av一区麻豆| 亚洲熟女毛片儿| 色94色欧美一区二区| www.精华液| 999久久久国产精品视频| 纵有疾风起免费观看全集完整版| 久久青草综合色| 欧美精品高潮呻吟av久久| 这个男人来自地球电影免费观看| av不卡在线播放| 亚洲精品一二三| 精品国产一区二区久久| 久久人人爽人人片av| 在线天堂中文资源库| 国产一区亚洲一区在线观看| 欧美日韩黄片免| 51午夜福利影视在线观看| 黄色怎么调成土黄色| 欧美精品高潮呻吟av久久| 后天国语完整版免费观看| 午夜福利影视在线免费观看| 国产欧美亚洲国产| 久久ye,这里只有精品| 午夜免费成人在线视频| 成人黄色视频免费在线看| 亚洲精品国产av成人精品| 欧美激情 高清一区二区三区| 建设人人有责人人尽责人人享有的| 高清视频免费观看一区二区| 日韩av免费高清视频| 午夜视频精品福利| 麻豆av在线久日| 国产免费一区二区三区四区乱码| www.999成人在线观看| 自拍欧美九色日韩亚洲蝌蚪91| 女人被躁到高潮嗷嗷叫费观| 欧美亚洲 丝袜 人妻 在线| 日韩免费高清中文字幕av| 国产精品二区激情视频| 777米奇影视久久| 国产欧美日韩一区二区三区在线| 伊人亚洲综合成人网| 丁香六月欧美| 中文字幕人妻丝袜一区二区| 欧美国产精品一级二级三级| 午夜影院在线不卡| 亚洲伊人久久精品综合| 国产一级毛片在线| 亚洲五月婷婷丁香| 一级黄色大片毛片| 肉色欧美久久久久久久蜜桃| 亚洲成人手机| 19禁男女啪啪无遮挡网站| 黑人猛操日本美女一级片| 精品人妻1区二区| 久久性视频一级片| 狂野欧美激情性bbbbbb| 国产福利在线免费观看视频| 婷婷色综合www| 亚洲精品美女久久久久99蜜臀 | 人人妻人人爽人人添夜夜欢视频| 免费av中文字幕在线| av在线app专区| 欧美精品一区二区免费开放| 777久久人妻少妇嫩草av网站| 久久女婷五月综合色啪小说| 亚洲,一卡二卡三卡| 国产精品国产av在线观看| 日韩一卡2卡3卡4卡2021年| 免费看av在线观看网站| 老鸭窝网址在线观看| netflix在线观看网站| 中文字幕人妻丝袜一区二区| 丰满迷人的少妇在线观看| 久久久国产欧美日韩av| 别揉我奶头~嗯~啊~动态视频 | 国产又色又爽无遮挡免| 国产男人的电影天堂91| 天天躁狠狠躁夜夜躁狠狠躁| 最黄视频免费看| 亚洲欧美日韩另类电影网站| 永久免费av网站大全| 王馨瑶露胸无遮挡在线观看| 国产精品99久久99久久久不卡| 熟女av电影| 成人免费观看视频高清| 男人操女人黄网站| 我的亚洲天堂| 另类精品久久| 亚洲精品一二三| 免费看十八禁软件| 精品熟女少妇八av免费久了| 亚洲国产欧美在线一区| 黄色a级毛片大全视频| 王馨瑶露胸无遮挡在线观看| 又黄又粗又硬又大视频| 极品少妇高潮喷水抽搐| a级片在线免费高清观看视频| 人成视频在线观看免费观看| 国产精品免费大片| 黄网站色视频无遮挡免费观看| 欧美激情极品国产一区二区三区| 一级毛片 在线播放| 又黄又粗又硬又大视频| 男女午夜视频在线观看| 亚洲av日韩精品久久久久久密 | 亚洲成国产人片在线观看| 精品久久久精品久久久| 天天影视国产精品| av网站免费在线观看视频| 国产成人欧美在线观看 | 日本五十路高清| 国产成人精品久久久久久| 爱豆传媒免费全集在线观看| 日韩 亚洲 欧美在线| 90打野战视频偷拍视频| 99久久综合免费| 久久精品国产亚洲av涩爱| 欧美日韩亚洲国产一区二区在线观看 | av电影中文网址| 性高湖久久久久久久久免费观看| 日日摸夜夜添夜夜爱| 国产成人一区二区在线| 两个人看的免费小视频| 深夜精品福利| 高潮久久久久久久久久久不卡| 久久久欧美国产精品| 成人三级做爰电影| 国产真人三级小视频在线观看| 国产97色在线日韩免费| 嫩草影视91久久| 美女主播在线视频| 国产精品一二三区在线看| 久久免费观看电影| 精品福利观看| 亚洲精品自拍成人| 午夜两性在线视频| 最新的欧美精品一区二区| 午夜激情av网站| 男女下面插进去视频免费观看| 我要看黄色一级片免费的| 欧美日韩综合久久久久久| 啦啦啦视频在线资源免费观看| 欧美人与善性xxx| 成人影院久久| 久久av网站| 精品第一国产精品| 亚洲国产精品999| 中国国产av一级| 国产欧美日韩一区二区三 | 黑人欧美特级aaaaaa片| 欧美人与善性xxx| 黑人欧美特级aaaaaa片| 在线精品无人区一区二区三| 国产99久久九九免费精品| 亚洲,欧美,日韩| 久久热在线av| 欧美黑人欧美精品刺激| 亚洲av电影在线观看一区二区三区| av欧美777| 一边亲一边摸免费视频| 亚洲欧美色中文字幕在线| 一本—道久久a久久精品蜜桃钙片| av线在线观看网站| 操美女的视频在线观看| 国产欧美日韩一区二区三区在线| 日韩一本色道免费dvd| 精品第一国产精品| 桃花免费在线播放| 一本综合久久免费| 亚洲成人国产一区在线观看 | 超碰成人久久| 久久久久精品人妻al黑| 成人国语在线视频| 美女视频免费永久观看网站| 亚洲七黄色美女视频| 久久精品久久精品一区二区三区| 国产xxxxx性猛交| 精品熟女少妇八av免费久了| 亚洲欧美精品综合一区二区三区| 成年人免费黄色播放视频| 国产麻豆69| 欧美 亚洲 国产 日韩一| 黑人巨大精品欧美一区二区蜜桃| 天堂中文最新版在线下载| 免费av中文字幕在线| 亚洲av综合色区一区| 成年美女黄网站色视频大全免费| 多毛熟女@视频| 亚洲国产精品国产精品| 久久久久久久久久久久大奶| 一级毛片电影观看| 欧美亚洲日本最大视频资源| 天天操日日干夜夜撸| 亚洲,一卡二卡三卡| 男人添女人高潮全过程视频| svipshipincom国产片| 久久久欧美国产精品| 成人18禁高潮啪啪吃奶动态图| 久久av网站| 精品少妇久久久久久888优播| 亚洲国产日韩一区二区| 精品国产国语对白av| 久久人妻福利社区极品人妻图片 | 一级,二级,三级黄色视频| 麻豆乱淫一区二区| 国产一区二区三区av在线| 欧美日韩黄片免| av福利片在线| 男女午夜视频在线观看| 2018国产大陆天天弄谢| 赤兔流量卡办理| 久久热在线av| 女性生殖器流出的白浆| 无限看片的www在线观看| 在线看a的网站| 欧美精品亚洲一区二区| 国产成人影院久久av| 久久久久国产精品人妻一区二区| 国产精品二区激情视频| 国产精品香港三级国产av潘金莲 | 免费久久久久久久精品成人欧美视频| 亚洲精品国产av成人精品| 亚洲av在线观看美女高潮| 精品国产乱码久久久久久男人| 多毛熟女@视频| 极品少妇高潮喷水抽搐| 欧美人与性动交α欧美精品济南到| 咕卡用的链子| 无遮挡黄片免费观看| 国产福利在线免费观看视频| 欧美另类一区| 亚洲国产毛片av蜜桃av| 最近最新中文字幕大全免费视频 | www.自偷自拍.com| cao死你这个sao货| 久久精品久久精品一区二区三区| 欧美精品高潮呻吟av久久| 香蕉国产在线看| 女性被躁到高潮视频| 日韩av在线免费看完整版不卡| 日韩一区二区三区影片| 亚洲一卡2卡3卡4卡5卡精品中文| 国产日韩欧美亚洲二区| 国产成人啪精品午夜网站| 蜜桃在线观看..| 色视频在线一区二区三区| 五月开心婷婷网| 亚洲欧美清纯卡通| 视频在线观看一区二区三区| 久久久久久久大尺度免费视频| 国产麻豆69| 搡老岳熟女国产| 激情五月婷婷亚洲| 欧美激情极品国产一区二区三区| 国产野战对白在线观看| 777米奇影视久久| 热99久久久久精品小说推荐| 亚洲精品av麻豆狂野| 丝袜美腿诱惑在线| 亚洲专区国产一区二区| 99香蕉大伊视频| 女人高潮潮喷娇喘18禁视频| 自拍欧美九色日韩亚洲蝌蚪91| 午夜免费男女啪啪视频观看| 免费在线观看日本一区| 亚洲九九香蕉| 午夜激情av网站| 欧美成狂野欧美在线观看| 中文字幕亚洲精品专区| 十分钟在线观看高清视频www| 在线观看免费视频网站a站| 两个人看的免费小视频| 视频区欧美日本亚洲| 免费日韩欧美在线观看| 这个男人来自地球电影免费观看| 18禁观看日本| 又粗又硬又长又爽又黄的视频| 久久毛片免费看一区二区三区| 脱女人内裤的视频| 黄频高清免费视频| 麻豆乱淫一区二区| 黄色片一级片一级黄色片| 搡老岳熟女国产| 成人影院久久| 国产精品一区二区在线观看99| 亚洲精品日本国产第一区| 18在线观看网站| 好男人电影高清在线观看| 中文精品一卡2卡3卡4更新| 久久亚洲国产成人精品v| 男男h啪啪无遮挡| 性色av乱码一区二区三区2| 99热全是精品| 精品久久久久久电影网| 久久久精品免费免费高清| av国产精品久久久久影院| 中文字幕另类日韩欧美亚洲嫩草| 麻豆乱淫一区二区| 日韩制服骚丝袜av| 精品一品国产午夜福利视频| 一区二区三区四区激情视频| 亚洲av日韩在线播放| 精品国产超薄肉色丝袜足j| 99久久精品国产亚洲精品| 国产精品香港三级国产av潘金莲 | 国产高清不卡午夜福利| 国产精品免费视频内射| 黄色片一级片一级黄色片| 久久狼人影院| 一区二区三区四区激情视频| 久久99一区二区三区| 国产无遮挡羞羞视频在线观看| 亚洲伊人久久精品综合| 国产精品国产av在线观看| 少妇猛男粗大的猛烈进出视频| 欧美xxⅹ黑人| 午夜两性在线视频| 女人精品久久久久毛片| 1024香蕉在线观看| 咕卡用的链子| 亚洲五月婷婷丁香| 在线观看人妻少妇| 国产精品一区二区免费欧美 | 老司机午夜十八禁免费视频| 国产午夜精品一二区理论片| 中文字幕高清在线视频| 亚洲激情五月婷婷啪啪| 中文字幕人妻丝袜一区二区| 日韩免费高清中文字幕av| 国产精品国产三级专区第一集| 久久精品国产a三级三级三级| 欧美另类一区| 免费高清在线观看日韩| 又紧又爽又黄一区二区| 99久久精品国产亚洲精品| 蜜桃在线观看..| 亚洲欧美一区二区三区久久| 亚洲人成电影观看| 国产亚洲av片在线观看秒播厂| 亚洲精品国产色婷婷电影| 国产成人精品在线电影| 亚洲精品第二区| 国产成人一区二区三区免费视频网站 | 午夜福利免费观看在线| 国产精品一区二区精品视频观看| 精品国产一区二区久久| 免费看不卡的av| 亚洲国产欧美网| 丝袜人妻中文字幕| 91成人精品电影| 91老司机精品| 久久人妻熟女aⅴ| 国产成人欧美| 日本猛色少妇xxxxx猛交久久| 久久鲁丝午夜福利片| 老司机亚洲免费影院| 99香蕉大伊视频| av欧美777| 国产免费视频播放在线视频| 老鸭窝网址在线观看| 亚洲av成人不卡在线观看播放网 | 秋霞在线观看毛片| 少妇人妻久久综合中文| 免费看不卡的av| 最近手机中文字幕大全| 欧美黄色片欧美黄色片| 精品一区二区三区四区五区乱码 | 成年人免费黄色播放视频| 色视频在线一区二区三区| 国产高清不卡午夜福利| 老司机在亚洲福利影院| 欧美亚洲 丝袜 人妻 在线| 精品国产超薄肉色丝袜足j| 国产麻豆69| 国产成人系列免费观看| xxx大片免费视频| 亚洲成人国产一区在线观看 | 亚洲人成77777在线视频| 丝袜脚勾引网站| 日本av免费视频播放| 韩国精品一区二区三区| 十分钟在线观看高清视频www| 一区福利在线观看| 亚洲国产精品一区三区| 美女高潮到喷水免费观看| 一区二区三区乱码不卡18| 亚洲黑人精品在线| 丝袜脚勾引网站| 中文字幕人妻熟女乱码| 亚洲专区中文字幕在线| 国产一区亚洲一区在线观看| 黄片小视频在线播放| 好男人视频免费观看在线| 久久免费观看电影| 伊人久久大香线蕉亚洲五| 国产一区亚洲一区在线观看| 国产av一区二区精品久久| 亚洲国产精品一区三区| videosex国产| 国产精品一区二区精品视频观看| 精品熟女少妇八av免费久了| 美女午夜性视频免费| 欧美精品av麻豆av| 亚洲,欧美精品.| 精品国产国语对白av| 老司机影院毛片| 色婷婷久久久亚洲欧美| 亚洲av国产av综合av卡| 在线亚洲精品国产二区图片欧美| 可以免费在线观看a视频的电影网站| 亚洲av美国av| 一本综合久久免费| 国产黄频视频在线观看| 亚洲国产精品国产精品| 国产人伦9x9x在线观看|