• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多智能體深度強(qiáng)化學(xué)習(xí)的分布式協(xié)同干擾功率分配算法

    2022-07-02 06:22:02宋佰霖史蘊(yùn)豪
    電子學(xué)報(bào) 2022年6期
    關(guān)鍵詞:壓制鏈路分布式

    饒 寧,許 華,蔣 磊,宋佰霖,史蘊(yùn)豪

    (空軍工程大學(xué)信息與導(dǎo)航學(xué)院,陜西西安 710077)

    1 引言

    電磁空間是繼陸、海、空、天的第五維戰(zhàn)場(chǎng). 在感知、決策、行動(dòng)、評(píng)估的閉環(huán)電磁頻譜作戰(zhàn)過程中,決策是確保電子對(duì)抗效能發(fā)揮的關(guān)鍵環(huán)節(jié),科學(xué)決策可最優(yōu)化資源的配置利用. 近年,智能決策已經(jīng)成為認(rèn)知電子戰(zhàn)的一個(gè)重要研究方向[1],遺傳算法、博弈論、分布式優(yōu)化等理論[2~4]被相繼用于干擾參數(shù)優(yōu)化、資源分配等領(lǐng)域,但這些方法都需要較多的先驗(yàn)參數(shù)信息. 強(qiáng)化學(xué)習(xí)作為不需要先驗(yàn)信息的機(jī)器學(xué)習(xí)方法,能以與未知環(huán)境交互的方式優(yōu)化策略,目前在通信干擾領(lǐng)域已有初步應(yīng)用,如文獻(xiàn)[5,6]通過建立多臂賭博機(jī)模型來學(xué)習(xí)最佳干擾樣式,文獻(xiàn)[7]將對(duì)無線網(wǎng)絡(luò)的干擾建模為增廣馬爾科夫決策過程,通過實(shí)驗(yàn)表明干擾方可通過與環(huán)境交互的方式學(xué)習(xí)到干擾成本、網(wǎng)絡(luò)吞吐量等重要信息.

    隨著計(jì)算機(jī)運(yùn)算和存儲(chǔ)能力的大幅提升,深度學(xué)習(xí)在人工智能領(lǐng)域獲得了巨大成功,其與強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)技術(shù)在無人駕駛、視頻游戲、云邊計(jì)算服務(wù)、機(jī)器人控制等領(lǐng)域也展現(xiàn)了驚人的自主決策能力[8~13]. 同時(shí),人工智能也不斷驅(qū)動(dòng)無線通信網(wǎng)絡(luò)的智能化發(fā)展[14]. 當(dāng)前利用深度強(qiáng)化學(xué)習(xí)解決高維空間的資源分配問題成為研究熱點(diǎn),主要研究成果可分為基于單智能體強(qiáng)化學(xué)習(xí)的方法[15~17]和基于多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning,MARL)的方法[18~22]. 在單智能體強(qiáng)化學(xué)習(xí)的方法中,智能體將所有設(shè)備或用戶的狀態(tài)和動(dòng)作信息集中在一起,構(gòu)成一個(gè)整體的狀態(tài)和動(dòng)作空間,通過集中式控制完成用戶調(diào)度[15]、信道管理[16]和功率分配[17]等任務(wù),但這種集中控制的調(diào)度方法不可避免地帶來決策維度高、通信開銷大、系統(tǒng)擴(kuò)展性差等問題[23],一般適用于決策維度較低的場(chǎng)景. 在基于MARL 的方法中,每個(gè)設(shè)備或用戶均是一個(gè)智能體,通過各智能體協(xié)同決策的方式完成任務(wù),可減小神經(jīng)網(wǎng)絡(luò)的輸入和輸出維度[24]. 為進(jìn)一步提高決策效率,文獻(xiàn)[18]在頻率切換控制和功率分配的完全協(xié)作多智能體任務(wù)中采用集中式的策略梯度方法,各設(shè)備使用全局狀態(tài)信息進(jìn)行訓(xùn)練,得到了較好的協(xié)作策略;文獻(xiàn)[19]和文獻(xiàn)[20]采用分布式深度Q網(wǎng)絡(luò),先通過中心節(jié)點(diǎn)集中訓(xùn)練,而后將模型參數(shù)分發(fā)給各基站,提高了業(yè)務(wù)需求量較大情況下的用戶滿意度和系統(tǒng)穩(wěn)定性;文獻(xiàn)[21]在分布式深度Q 網(wǎng)絡(luò)中采用競(jìng)爭(zhēng)雙Q 網(wǎng)絡(luò)結(jié)構(gòu),各用戶設(shè)備依靠信息傳遞獲得的全局狀態(tài)信息進(jìn)行隨機(jī)博弈;文獻(xiàn)[22]假設(shè)不同地區(qū)的通信鏈路屬性大致相同,使每個(gè)智能體可共享一個(gè)策略網(wǎng)絡(luò),通過集中決策的方式提高了多用戶無線蜂窩網(wǎng)絡(luò)的總傳輸速率. 綜上所述,現(xiàn)有關(guān)于通信干擾領(lǐng)域的決策研究相對(duì)較少且大部分在信號(hào)體制層級(jí)[5~7],而未來電子戰(zhàn)的體系對(duì)抗模式亟需開展協(xié)同干擾資源分配的相關(guān)研究.

    本文面向?qū)菇M網(wǎng)通信場(chǎng)景下多干擾設(shè)備協(xié)同干擾中的干擾功率分配問題,提出了一種基于多智能體深度強(qiáng)化學(xué)習(xí)的分布式干擾功率分配機(jī)制(Multi-Agent Distributive Jamming Power Allocation,MADJPA),通過建立多干擾設(shè)備對(duì)多通信目標(biāo)協(xié)同干擾的干擾資源分配模型,搭建多干擾設(shè)備集中訓(xùn)練與分布執(zhí)行的決策網(wǎng)絡(luò)訓(xùn)練架構(gòu),并融合強(qiáng)化學(xué)習(xí)方法和最大策略熵理論設(shè)計(jì)干擾功率智能分配算法,在滿足不同干擾壓制系數(shù)的整體干擾壓制條件下,優(yōu)化了干擾資源利用,提高了學(xué)習(xí)最優(yōu)分配策略的收斂速度.

    本文的主要貢獻(xiàn)如下.

    (1)為了適應(yīng)對(duì)多通信鏈路的多干擾設(shè)備協(xié)同干擾任務(wù),將協(xié)同干擾功率分配問題轉(zhuǎn)化為完全協(xié)作的多智能體任務(wù),建立了戰(zhàn)場(chǎng)條件下非完全信息決策的部分馬爾科夫決策過程(Partially Observable Markov Decision Processes,POMDP),在所設(shè)計(jì)的POMDP 獎(jiǎng)勵(lì)函數(shù)中,綜合考慮了整體干擾壓制任務(wù)的實(shí)現(xiàn)以及干擾功率利用的最優(yōu)化問題,可以在不同干擾壓制系數(shù)條件下自適應(yīng)地調(diào)整合理的干擾功率分配方案.

    (2)為了降低多干擾設(shè)備協(xié)同決策的維度,并緩解多干擾設(shè)備條件下決策網(wǎng)絡(luò)訓(xùn)練環(huán)境的不穩(wěn)定性,構(gòu)建了適用于戰(zhàn)場(chǎng)通信對(duì)抗場(chǎng)景的集中訓(xùn)練與分布執(zhí)行的決策網(wǎng)絡(luò)架構(gòu). 基于此架構(gòu),單個(gè)干擾設(shè)備在決策時(shí)不需要其他干擾設(shè)備的信息,只依靠本地信息即可完成干擾設(shè)備之間的協(xié)同決策,減少了干擾設(shè)備之間由信息交換帶來的通信時(shí)延和通信開銷,更契合戰(zhàn)場(chǎng)環(huán)境對(duì)決策時(shí)效性的要求.

    (3)設(shè)計(jì)基于多智能體深度強(qiáng)化學(xué)習(xí)的分布式干擾功率分配算法,為了加快各干擾設(shè)備對(duì)全局最優(yōu)協(xié)同策略的學(xué)習(xí),在強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)中引入干擾策略熵項(xiàng),使算法在優(yōu)化過程中同時(shí)最大化累積干擾獎(jiǎng)勵(lì)和最大化干擾策略熵,并結(jié)合梯度下降自適應(yīng)調(diào)整干擾策略的熵系數(shù),適時(shí)地控制各智能體在未知環(huán)境中的探索能力,進(jìn)一步提升算法收斂速度,在干擾壓制系數(shù)較大的情況下可更精細(xì)地分配各干擾設(shè)備的干擾功率.

    2 對(duì)抗模型

    本文以戰(zhàn)場(chǎng)對(duì)抗環(huán)境下干擾方對(duì)敵方前突飛機(jī)遂行壓制干擾任務(wù)為例,如圖1 所示. 當(dāng)敵方飛機(jī)發(fā)現(xiàn)其所使用的通信鏈路被干擾后,可切換至區(qū)域內(nèi)其他基站的通信鏈路繼續(xù)通信. 干擾方通過指揮控制端對(duì)目標(biāo)頻譜進(jìn)行偵察,指控端內(nèi)部的智能引擎根據(jù)偵察情報(bào)完成干擾任務(wù)分配,下發(fā)至各干擾設(shè)備. 假設(shè)干擾方有N臺(tái)干擾設(shè)備,干擾設(shè)備的集合為Ns={1,2,…,N},干擾設(shè)備均采用攔阻干擾樣式. 敵方飛機(jī)可根據(jù)實(shí)際情況和自身通聯(lián)狀態(tài)與不同基站進(jìn)行通信,受干擾后可重新選擇通信鏈路,Ms={1,2,…,M}表示所有基站的通信鏈路集合,假設(shè)各鏈路信道為互不干擾、相互獨(dú)立的等帶寬正交信道.

    圖1 對(duì)抗模型示意圖

    假設(shè)干擾方通過通信偵察和情報(bào)分析綜合掌握了各鏈路的中心頻率,獲得了各鏈路的相對(duì)重要性指數(shù):

    為盡可能破壞敵通聯(lián)情況,形成對(duì)區(qū)域內(nèi)的完全壓制干擾,干擾方應(yīng)在當(dāng)前干擾資源條件下合理分配各干擾設(shè)備的干擾任務(wù),通過各設(shè)備協(xié)同合作的方式對(duì)偵察到的所有通信鏈路都進(jìn)行壓制干擾,即達(dá)到對(duì)整體通信網(wǎng)的完全壓制效果.

    假設(shè)每部干擾設(shè)備可同時(shí)干擾U個(gè)目標(biāo),對(duì)不同目標(biāo)的干擾功率需滿足頻分原則,即

    其中,Pmax為干擾設(shè)備的最大輻射功率.

    設(shè)t時(shí)刻鏈路i的基站發(fā)射信號(hào)功率為Pi,信道增益為Gi,用和分別表示干擾設(shè)備j分配至該鏈路的干擾信號(hào)功率以及相應(yīng)的干擾信道增益. 考慮到一條鏈路可能受到不同干擾設(shè)備的干擾,鏈路i中飛機(jī)接收電臺(tái)處的干信比(Jamming Signal Ratio,JSR)可表示為

    其中,σ2表示環(huán)境噪聲功率;Li和Lj分別表示地空通信鏈路和干擾鏈路的傳輸損耗. 為便于分析不考慮信號(hào)的帶外損失,假設(shè)路徑損耗為自由空間傳播損耗[25],損耗可表示為

    其中,f為鏈路中心頻率;d為信號(hào)傳播距離.

    為了定量描述通信干擾對(duì)通信接收機(jī)的影響程度,引入干擾壓制系數(shù). 當(dāng)每條鏈路的干信比均超過干擾壓制系數(shù)K,即滿足式(5)時(shí)視為實(shí)現(xiàn)整體完全壓制干擾.

    其中,Ki為鏈路i所對(duì)應(yīng)的干擾壓制系數(shù). 各通信鏈路的干擾壓制系數(shù)對(duì)于干擾方而言是未知的.

    結(jié)合各鏈路重要性指數(shù),針對(duì)干擾壓制系數(shù)未知時(shí),實(shí)現(xiàn)整體完全壓制干擾的干擾功率分配問題可轉(zhuǎn)為求解優(yōu)化問題,如下所示:

    3 基于MARL的分布式干擾功率分配算法

    3.1 POMDP

    式(6)、式(7)是非凸優(yōu)化的NP-Hard 難題,尤其當(dāng)同時(shí)存在離散空間和連續(xù)空間的待優(yōu)化參數(shù)時(shí)應(yīng)用傳統(tǒng)數(shù)學(xué)優(yōu)化方法難以求解. 本文采用深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)方法解決該問題. 不同于一般的監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí),DRL 作為不需要先驗(yàn)信息的機(jī)器學(xué)習(xí)方法,采用試錯(cuò)方式進(jìn)行策略優(yōu)化,即控制智能體不斷與環(huán)境交互,根據(jù)環(huán)境給出反饋修正策略,目的是使得累積獎(jiǎng)勵(lì)期望最大,這種學(xué)習(xí)方法能夠很好地處理本文研究的優(yōu)化問題.

    DRL 需要根據(jù)問題模型建立相應(yīng)的馬爾科夫決策過程,本文將多干擾設(shè)備的協(xié)同資源分配問題建模為完全協(xié)作的多智能體任務(wù)[26],考慮到戰(zhàn)場(chǎng)條件下該任務(wù)的非完全信息決策屬性,將其定義為POMDP,可用Γ=S,A,P,Ζ,O,r,N,γ表示,其中S為全局環(huán)境狀態(tài)空間,A為動(dòng)作空間,P為狀態(tài)轉(zhuǎn)移概率,Z為局部觀測(cè)空間,O為觀測(cè)函數(shù),r為獎(jiǎng)勵(lì)函數(shù),N為智能體數(shù)量,γ為折扣因子.POMDP過程可描述如下.

    根據(jù)本文所研究的多智能體協(xié)作任務(wù),將POMDP的元素具體定義如下.

    (1)動(dòng)作

    其中,sign(·)為符號(hào)函數(shù).

    所有干擾設(shè)備的聯(lián)合動(dòng)作可表示為

    其中,S為全局狀態(tài)空間.

    (3)獎(jiǎng)勵(lì)

    MARL 中獎(jiǎng)勵(lì)函數(shù)可引導(dǎo)算法的優(yōu)化方向,將獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)與實(shí)際優(yōu)化目標(biāo)聯(lián)系起來,算法性能可在獎(jiǎng)勵(lì)驅(qū)動(dòng)下得到提高. 本文定義的獎(jiǎng)勵(lì)函數(shù)包含對(duì)整體的完全壓制干擾獎(jiǎng)勵(lì)和干擾功率利用最優(yōu)化獎(jiǎng)勵(lì).

    定義對(duì)整體的完全壓制干擾獎(jiǎng)勵(lì)為

    在多干擾設(shè)備協(xié)同任務(wù)中,所有設(shè)備共享一個(gè)獎(jiǎng)勵(lì)值,利用該公共獎(jiǎng)勵(lì)值驅(qū)動(dòng)MARL 算法實(shí)現(xiàn)整體的完全壓制效果和最優(yōu)干擾資源利用之間的平衡.

    3.2 集中式訓(xùn)練、分布式執(zhí)行

    多智能體協(xié)同任務(wù)中,各智能體的策略與其他智能體的行為和合作關(guān)系相關(guān)聯(lián),相關(guān)的學(xué)習(xí)算法通??煞譃橐韵聨追N結(jié)構(gòu).

    一是集中式學(xué)習(xí). 將所有智能體的動(dòng)作和觀測(cè)進(jìn)行聯(lián)合,得到一個(gè)擴(kuò)張的動(dòng)作空間和觀測(cè)空間,利用神經(jīng)網(wǎng)絡(luò)將所有智能體的聯(lián)合觀測(cè)動(dòng)作映射到一個(gè)集中策略函數(shù)和集中價(jià)值函數(shù),然后直接使用傳統(tǒng)的單智能體強(qiáng)化學(xué)習(xí)方法,如圖2 所示. 每個(gè)設(shè)備將自身狀態(tài)上傳至集中網(wǎng)絡(luò),由集中策略網(wǎng)絡(luò)統(tǒng)一決策所有設(shè)備的策略. 此種學(xué)習(xí)方式會(huì)使得聯(lián)合觀測(cè)和狀態(tài)空間隨著智能體數(shù)量的增加而擴(kuò)大,如本文假設(shè)干擾設(shè)備數(shù)量為N,通信鏈路數(shù)為M,由POMDP 可知集中策略網(wǎng)絡(luò)輸入維度為2MN,輸出維度為MN. 隨著干擾設(shè)備數(shù)量N增多,集中策略網(wǎng)絡(luò)的維度增多,策略探索開銷變大[23].

    圖2 集中式學(xué)習(xí)

    二是獨(dú)立式學(xué)習(xí). 各智能體獨(dú)立維護(hù)自身策略函數(shù)和價(jià)值函數(shù),且各函數(shù)的輸入只依賴智能體各自觀測(cè)和動(dòng)作,各智能體基于自身策略網(wǎng)絡(luò)獨(dú)立決策并獨(dú)立訓(xùn)練自身網(wǎng)絡(luò). 此種學(xué)習(xí)方式中,策略網(wǎng)絡(luò)的輸入維度為2M,輸出維度為M,與智能體數(shù)量無關(guān). 但對(duì)于某個(gè)特定智能體而言,由于其他智能體學(xué)習(xí)過程中策略不斷變化,容易造成環(huán)境非平穩(wěn),訓(xùn)練難以收斂.

    三是值函數(shù)分解. 在獨(dú)立式學(xué)習(xí)的基礎(chǔ)上,將各智能體的值函數(shù)進(jìn)行加和,以值函數(shù)近似的方式求解全局值函數(shù),然后站在全局的角度去優(yōu)化更新每個(gè)智能體的值函數(shù). 此種學(xué)習(xí)方式能解決環(huán)境非平穩(wěn)性,但只適用于離散動(dòng)作空間,不適用于本文所研究的問題.

    本文將集中式學(xué)習(xí)與獨(dú)立式學(xué)習(xí)的優(yōu)勢(shì)相融合,采用集中式訓(xùn)練、分布式?jīng)Q策的結(jié)構(gòu),如圖3所示.

    圖3 集中式訓(xùn)練、分布式?jīng)Q策結(jié)構(gòu)

    “集中式訓(xùn)練”重點(diǎn)在于每個(gè)設(shè)備在訓(xùn)練時(shí)需將其他干擾設(shè)備的觀測(cè)和動(dòng)作(可視為全局狀態(tài)信息)輸入其評(píng)估網(wǎng)絡(luò),通過集中式地評(píng)估聯(lián)合動(dòng)作來增強(qiáng)各干擾設(shè)備的協(xié)調(diào)配合. 集中評(píng)估的方式可使得其他干擾設(shè)備策略相對(duì)已知,克服了策略變化造成的環(huán)境不平穩(wěn)[27].“分布式?jīng)Q策”意為各設(shè)備在決策干擾動(dòng)作時(shí)只需將各自的觀測(cè)輸入至各自的策略網(wǎng)絡(luò)中即可完成協(xié)同決策,不再需要中心控制器集中處理各干擾設(shè)備的聯(lián)合觀測(cè)信息. 此時(shí)智能體策略網(wǎng)絡(luò)的輸入維度為2M,輸出維度為M,相比于集中式學(xué)習(xí),決策維度降低了M(N-1),而由實(shí)際經(jīng)驗(yàn)看,決策維度太大是導(dǎo)致決策失敗的重要原因之一,降低決策維度可提升方法的可行性.

    3.3 MADJPA算法

    在集中式訓(xùn)練、分布式?jīng)Q策框架下,為了提高每個(gè)智能體在未知環(huán)境中的探索效率,本文采用同時(shí)最大累積獎(jiǎng)勵(lì)和策略熵[28]的優(yōu)化路線,在式(8)中加入策略熵項(xiàng),即

    策略熵即策略分布熵,當(dāng)策略熵較大時(shí)意味著策略的隨機(jī)性較強(qiáng),在未知環(huán)境中的探索能力較強(qiáng),而適度的探索可實(shí)現(xiàn)對(duì)環(huán)境模型的充分學(xué)習(xí),避免陷入局部最優(yōu).

    為平衡智能體在未知環(huán)境中的探索和對(duì)現(xiàn)有知識(shí)的利用,設(shè)置熵系數(shù)α的優(yōu)化目標(biāo)函數(shù)[24],以梯度下降方式更新其值,熵系數(shù)優(yōu)化目標(biāo)函數(shù)為

    初始階段,α值較大策略隨機(jī)性也較大,探索效率較高;隨著智能體對(duì)環(huán)境模型的不斷學(xué)習(xí),α自適應(yīng)減??;當(dāng)α下降至0 時(shí),式(16)中無熵項(xiàng),此時(shí)智能體的優(yōu)化目標(biāo)就變?yōu)閭鹘y(tǒng)的最大化累積獎(jiǎng)勵(lì).

    在遞歸求解最佳策略π*時(shí)采用的Q函數(shù)迭代式可表示為

    本文用神經(jīng)網(wǎng)絡(luò)擬合Q函數(shù)和策略函數(shù),并采用Kullback-Leibler(KL)散度約束來更新策略[29],即

    其中,DKL(?)表示KL 散度約束;Qπold(si,·)表示原策略下的Q函數(shù);Zπold(si)表示原策略的對(duì)數(shù)配分函數(shù).

    在各個(gè)智能體內(nèi)部進(jìn)行基于最大策略熵深度強(qiáng)化學(xué)習(xí)的策略優(yōu)化,據(jù)此本文提出了基于MARL 的分布式干擾功率分配算法(MADJPA),圖4 所示是MADJPA算法示意圖.

    圖4 MADJPA算法示意圖

    此外,為了避免評(píng)估網(wǎng)絡(luò)對(duì)動(dòng)作Q值的過高估計(jì),本文在評(píng)估網(wǎng)絡(luò)中采用孿生網(wǎng)絡(luò)結(jié)構(gòu)[31],即評(píng)估網(wǎng)絡(luò)內(nèi)部有兩個(gè)結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò),每次取兩者輸出較小的結(jié)果計(jì)算干擾動(dòng)作的目標(biāo)價(jià)值,故式(18)可改寫為

    利用孿生網(wǎng)絡(luò)的輸出計(jì)算聯(lián)合干擾動(dòng)作的目標(biāo)價(jià)值為

    并更新孿生評(píng)估網(wǎng)絡(luò)參數(shù)θi1和θi2,即

    緊接著更新策略網(wǎng)絡(luò)的參數(shù)?i,即

    當(dāng)訓(xùn)練完成后各干擾設(shè)備獲得分布式干擾策略,執(zhí)行任務(wù)分配時(shí)每個(gè)干擾設(shè)備僅依靠本地觀測(cè)可完成決策. 分布式策略如圖5所示.

    圖5 分布式策略

    算法偽代碼如算法1所示.

    算法1 MADJPA偽代碼輸入:干擾設(shè)備數(shù)量N,設(shè)備編號(hào)i ?{1,2,…,N};通信鏈路數(shù)M;干擾壓制系數(shù)Kj輸出:各設(shè)備干擾策略π*i,i ?{1,2,…,N}開始:步驟1:初始化每個(gè)干擾設(shè)備的策略網(wǎng)絡(luò)πi(zi,?i),以及孿生評(píng)估網(wǎng)絡(luò)Qi1(s,a1t,a2t,…,aN t ,θi1),Qi2(s,a1t,a2t,…,aN t ,θi2),網(wǎng)絡(luò)參數(shù)分別為?i,θi1,θi2;步驟2:初始化每個(gè)干擾設(shè)備的目標(biāo)孿生網(wǎng)絡(luò)Qˉi1(s,a1 t,a2 t ,θˉi2),網(wǎng)絡(luò)參數(shù)分別為θˉi1,θˉi2;步驟3:初始化共享經(jīng)驗(yàn)回放池CRB;步驟4:FOR each episode:初始化環(huán)境和狀態(tài);FOR each step t:t,…,aN t ,θˉi1),Qˉi2(s,a1 t,a2t,…,aN對(duì)每個(gè)干擾設(shè)備i:根據(jù)當(dāng)前的觀測(cè)zi t,利用策略網(wǎng)絡(luò)選擇干擾方案ait~πi(ait|zit,?i);得到各設(shè)備的聯(lián)合干擾方案,執(zhí)行當(dāng)前干擾方案ait得到下一觀測(cè)zi t+1和公共獎(jiǎng)勵(lì)rt;將所有干擾設(shè)備的經(jīng)驗(yàn)(st,a1t,a2t,…,ait,…,aN t ,st+1,rt)存入公共經(jīng)驗(yàn)回放池CRB:D ←D ∪{(st,a1t,a2 t,…,ai t,…,aN t ,st+1,rt)}當(dāng)CRB內(nèi)樣本數(shù)量大于τ時(shí),訓(xùn)練網(wǎng)絡(luò):從CRB中采樣小批次樣本B={…,(sk,a1k,a2k,…,aik,…,aNk,sk+1,rk),…}Length=batch_size對(duì)每個(gè)干擾設(shè)備i:計(jì)算干擾方案目標(biāo)價(jià)值y(r(a1k,a2k,…,aNk,sk),sk+1)=r(a1k,a2k,…,aNk,sk)+γ ■■■min j=1,2 Qˉij(sk,aˉ′)-α log π?(aˉ′|sk+1)■■■aˉ′~πi=1,2,…,N(·|sk+1,?i)利用梯度下降更新孿生評(píng)估網(wǎng)絡(luò)參數(shù)θi1和θi2,即Qθij(sk,a1k,a2k,…,aik,…,aN k )2?θij 1|B∑|(sk,a1k,a2k,…,aik,…,aNk,sk+1,rk)?B()-y()r(a1k,a2k,…,aik,…,aNk,sk),sk+1 for j=1,2 θij ←θij-?θijJQ(θij),for j=1,2利用梯度下降更新策略網(wǎng)絡(luò)參數(shù)?i,即??i 1 min Qθij(sk,aˉ?i(sk))-α log π?i(aˉ?i(sk)|sk)2|B ∑sk ?B()|aˉ?i(sk)~πi=1,2,…,N(·|sk,?i)?i ←?i-??iJπ(?i)柔性更新孿生目標(biāo)網(wǎng)絡(luò)參數(shù)θˉi1和θˉi2,即θˉij ←τ ?θˉij+(1-τ)?θij, for j=1,2 END FOR END For結(jié)束得到各設(shè)備策略網(wǎng)絡(luò)π*i,i ?{1,2,…,N}

    4 算法計(jì)算復(fù)雜度分析和收斂性證明

    4.1 計(jì)算復(fù)雜度

    4.2 算法收斂性證明

    對(duì)于本文算法的收斂性分析,給出下述定理.

    定理 在聯(lián)合策略集合Π中,當(dāng)動(dòng)作空間維度有限即|A| <∞,存在策略π?Π,可收斂至最佳聯(lián)合策略π*,且有Qπ*(st,at)≥Qπ(st,at),?π?Π.

    證明 將策略迭代優(yōu)化分為策略評(píng)估和策略改進(jìn)兩個(gè)階段,在策略評(píng)估中,定義帶熵獎(jiǎng)勵(lì)為

    將式(18)重寫為

    根據(jù)貝爾曼迭代公式有

    令πi表示第i次迭代時(shí)的策略,可知序列{Qπ1,Qπ2,…,Qπi}是單調(diào)遞增的,由于獎(jiǎng)勵(lì)和熵有界,故該序列可收斂于某個(gè)最佳策略π*.

    在策略改進(jìn)中,令式(19)中πnew(?|st)為

    對(duì)所有的π?Π,π≠π*易知Jπold(πnew(?|st)) ≤Jπold(πold(?|s)),同樣利用策略評(píng)估中的迭代證明,可得對(duì)所有的(st,at)均有Qπ*(st,at)≥Qπ(st,at). 可知Π中其他策略的Qπ低于收斂后的策略,因此π*為Π中最優(yōu).

    5 實(shí)驗(yàn)仿真與分析

    5.1 仿真參數(shù)設(shè)定

    仿真場(chǎng)景中,設(shè)干擾方指揮控制端下屬3個(gè)干擾設(shè)備,每個(gè)干擾設(shè)備可同時(shí)干擾2 個(gè)目標(biāo). 在敵任務(wù)區(qū)域內(nèi)有若干地面通信基站,為敵機(jī)提供5 條可用的通信鏈路,假設(shè)每條通信鏈路有相同的干擾壓制系數(shù). 表1是經(jīng)過通信偵察情報(bào)分析處理后獲得的各鏈路綜合情報(bào)信息. 為實(shí)現(xiàn)對(duì)敵機(jī)群任務(wù)空域內(nèi)的整體完全壓制干擾,在計(jì)算信號(hào)傳播路徑損耗時(shí),均以各基站中與飛機(jī)電臺(tái)最近的距離為通信信號(hào)的傳播距離,以干擾設(shè)備中與飛機(jī)電臺(tái)的最遠(yuǎn)距離作為干擾信號(hào)的傳播距離.

    表1 各通信鏈路信息

    實(shí)驗(yàn)及網(wǎng)絡(luò)模型參數(shù)如表2.

    表2 實(shí)驗(yàn)及網(wǎng)絡(luò)模型參數(shù)

    智能體的策略網(wǎng)絡(luò)、評(píng)估網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)的隱藏層均為3 層全連接網(wǎng)絡(luò),每層神經(jīng)元分別為256,128,64,網(wǎng)絡(luò)優(yōu)化器均采用Adam,且策略網(wǎng)絡(luò)的學(xué)習(xí)速率為0.000 1,評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的學(xué)習(xí)速率為0.000 3,激活函數(shù)為Relu,策略網(wǎng)絡(luò)輸出層為tanh.

    5.2 實(shí)驗(yàn)結(jié)果分析

    在相同實(shí)驗(yàn)條件下,將本文所提的分布式算法MADJPA與文獻(xiàn)[22]中的算法進(jìn)行比較,文獻(xiàn)[22]采用的是基于深度確定性策略梯度的集中式分配策略(Deep Deterministic Policy Gradient Centralized Alloca?tion,DDPGCA). 此外為定性分析最大策略熵對(duì)算法性能的影響,增加本文算法優(yōu)化函數(shù)中不含熵項(xiàng)的MADJPA-No Entropy 算法(記為MADJPA-NE)的消融對(duì)比.

    首先分析3 種算法對(duì)所有通信鏈路的整體完全壓制效果,考察各算法對(duì)協(xié)同策略的學(xué)習(xí)能力.

    圖6(a)和(b)是壓制系數(shù)為2 時(shí)3 種算法對(duì)所有通信鏈路的整體完全壓制效果. 從圖6(a)的學(xué)習(xí)曲線可以明顯看出分布式的MADJPA 和MADJPA-NE 算法學(xué)習(xí)速度均相對(duì)更快,在300~500回合左右整體完全壓制成功率有較大提升,其中MADJPA 最高整體壓制成功率可達(dá)85%以上,MADJPA-NE 由于只追求最大化累積獎(jiǎng)勵(lì)而未同時(shí)最大化策略熵,探索略有不足,容易陷入局部最優(yōu),最高整體完全壓制成功率不如MADJPA. 而集中式的DDPGCA 初始階段由于各設(shè)備的聯(lián)合干擾動(dòng)作空間較大,探索的時(shí)間較長(zhǎng),學(xué)習(xí)過程波動(dòng)性較大,加之DDPGCA 采用的深度確定性策略本身對(duì)未知干擾動(dòng)作探索效率不夠,最終整體完全壓制成功率在70%左右. 可見將各干擾設(shè)備的干擾動(dòng)作空間聯(lián)合起來集中決策,會(huì)增加決策的復(fù)雜度,無論是從收斂速度還是收斂后的效果看,都不如分布式策略,并且加入最大策略熵準(zhǔn)則后,分布式策略的整體性能可得到一定提升.

    圖6 整體完全壓制效果

    此外,圖6 中陰影部分表示根據(jù)500 次重復(fù)實(shí)驗(yàn)結(jié)果計(jì)算的波動(dòng)范圍,圖6(a)和(b)均表現(xiàn)出DDPGCA 整體振蕩幅度較大,而MADJPA 和MADJPA-NE 學(xué)習(xí)過程相對(duì)穩(wěn)定,波動(dòng)性較小,其原因在于DDPGCA 作為集中式策略,是在更高維的擴(kuò)張動(dòng)作空間進(jìn)行策略探索和優(yōu)化的,高維空間會(huì)增加決策困難度,而MADJPA 是分布式策略,其決策維度取決于單個(gè)設(shè)備的動(dòng)作空間,維度相對(duì)更小,學(xué)習(xí)效率更高.

    下面對(duì)比算法對(duì)各鏈路的壓制效果. 圖7是3種算法對(duì)各鏈路的壓制成功率曲線. 從圖7 可知,3 種算法均能優(yōu)先干擾重要性指數(shù)相對(duì)較高的鏈路5 和鏈路3,然而對(duì)于重要性指數(shù)較低的鏈路1 和鏈路2,DDPGCA的壓制率不高,相較而言,其他2 種算法能更好地協(xié)調(diào)各設(shè)備的干擾功率分配,各鏈路的壓制成功率均較DDPGCA 有所提升,表明分布式的MADJPA 算法更有利于協(xié)同策略的學(xué)習(xí). 此外,同樣由陰影部分可知分布式算法的學(xué)習(xí)過程更平穩(wěn).

    圖7 3種算法對(duì)各鏈路的壓制成功率曲線

    為考察各算法在實(shí)現(xiàn)整體完全壓制的同時(shí)能否盡量減少資源利用,對(duì)比了3 種算法對(duì)所有鏈路分配的總干擾功率,結(jié)果如圖8 所示. 當(dāng)3 個(gè)干擾設(shè)備額定最大功率和為81.2 dBm,3 種算法均能一定程度地減少資源利用,MADJPA 算法最終分配給各鏈路的干擾功率為80 dBm 左右,相比于全功率干擾節(jié)省了一定的干擾資源,同樣也比DDPGCA 算法更節(jié)省干擾功率.戰(zhàn)場(chǎng)環(huán)境下,在壓制敵方的前提下減小自身輻射功率可減輕對(duì)己方通信的影響,也可避免功率過大暴露自身位置.

    圖8 分配的總干擾功率對(duì)比

    最后對(duì)比了不同干擾壓制系數(shù)條件下各算法能達(dá)到的最高整體完全壓制成功率,如圖9 所示. 當(dāng)壓制系數(shù)變大時(shí),對(duì)相同目標(biāo)壓制干擾所需的資源更多,在有限資源條件下需要更合理更精細(xì)地協(xié)調(diào)各干擾設(shè)備的干擾功率分配. 圖9 中隨著壓制系數(shù)上升,3 種算法的整體完全壓制成功率都呈下降趨勢(shì). 其中壓制系數(shù)為2時(shí),MADJPA 整體完全壓制成功率比DDPGCA 高出12.5%;當(dāng)壓制系數(shù)為4 時(shí),相對(duì)地MADJPA 可高出16.8%. 在壓制系數(shù)較大的條件下,集中式算法分配各設(shè)備干擾資源的效率較低,原因在于以單智能體集中決策的形式造成了維度更高的干擾動(dòng)作空間,難以協(xié)調(diào)各干擾設(shè)備的任務(wù)調(diào)配,而分布式算法通過多智能體協(xié)作的方式降低了各設(shè)備決策維度,通過全局信息訓(xùn)練各設(shè)備策略網(wǎng)絡(luò)的方式可更好地調(diào)度各設(shè)備的干擾功率,分布式算法的協(xié)同資源分配能力相比于集中式算法表現(xiàn)較優(yōu).

    圖9 不同壓制系數(shù)的整體完全壓制成功率

    6 結(jié)論

    針對(duì)通信組網(wǎng)對(duì)抗中的協(xié)同干擾功率分配問題,本文基于多智能體深度強(qiáng)化學(xué)習(xí)提出了一種新的分布式干擾功率分配算法. 算法通過構(gòu)建完全協(xié)作的多智能體任務(wù),在集中訓(xùn)練、分布決策的框架中將各干擾設(shè)備分別作為一個(gè)智能體,在訓(xùn)練時(shí)共享全局信息,并利用最大策略熵準(zhǔn)則加速智能體間協(xié)同策略的學(xué)習(xí). 相較于集中式的分配算法,本文提出的分布式算法收斂速度更快,學(xué)習(xí)過程更穩(wěn)定,且干擾效率高于集中式算法.

    猜你喜歡
    壓制鏈路分布式
    家紡“全鏈路”升級(jí)
    天空地一體化網(wǎng)絡(luò)多中繼鏈路自適應(yīng)調(diào)度技術(shù)
    一種新型無人機(jī)數(shù)據(jù)鏈抗壓制干擾技術(shù)的研究
    空射誘餌在防空壓制電子戰(zhàn)中的應(yīng)用
    無人機(jī)(2018年1期)2018-07-05 09:51:02
    分布式光伏熱錢洶涌
    能源(2017年10期)2017-12-20 05:54:07
    分布式光伏:爆發(fā)還是徘徊
    能源(2017年5期)2017-07-06 09:25:54
    一種舊物品擠壓成型機(jī)
    科技資訊(2016年12期)2016-05-30 05:07:58
    基于DDS的分布式三維協(xié)同仿真研究
    對(duì)GPS接收機(jī)帶限高斯噪聲壓制干擾的干擾帶寬選擇分析
    基于3G的VPDN技術(shù)在高速公路備份鏈路中的應(yīng)用
    av国产精品久久久久影院| 久久国产精品人妻蜜桃| 黑人操中国人逼视频| 精品少妇一区二区三区视频日本电影| 国产xxxxx性猛交| 91成年电影在线观看| 如日韩欧美国产精品一区二区三区| 熟女少妇亚洲综合色aaa.| 美国免费a级毛片| 亚洲精品在线美女| 1024香蕉在线观看| 欧美在线一区亚洲| 久久久久国产一级毛片高清牌| 一级毛片精品| 999精品在线视频| 国产精品久久久人人做人人爽| 高清黄色对白视频在线免费看| av片东京热男人的天堂| 亚洲精品av麻豆狂野| 国产无遮挡羞羞视频在线观看| 在线观看免费视频网站a站| 一夜夜www| 色婷婷av一区二区三区视频| 一本久久精品| 国产日韩欧美在线精品| 国产精品久久久久久人妻精品电影 | 国产精品一区二区免费欧美| 国产精品久久久久久精品古装| 国产免费av片在线观看野外av| 国产成人精品无人区| 久久精品国产99精品国产亚洲性色 | 一区二区三区激情视频| 亚洲精品美女久久久久99蜜臀| 汤姆久久久久久久影院中文字幕| 亚洲欧洲精品一区二区精品久久久| 成年版毛片免费区| 久久中文看片网| 亚洲av国产av综合av卡| 天堂8中文在线网| 国产亚洲av高清不卡| h视频一区二区三区| 国产成人精品久久二区二区91| 成人国语在线视频| 老司机在亚洲福利影院| 亚洲成人国产一区在线观看| 亚洲熟女精品中文字幕| 人人妻人人添人人爽欧美一区卜| 亚洲精品在线美女| 美女高潮到喷水免费观看| 男人操女人黄网站| 亚洲中文日韩欧美视频| 色在线成人网| 男女免费视频国产| 制服人妻中文乱码| 狠狠精品人妻久久久久久综合| 日韩三级视频一区二区三区| 别揉我奶头~嗯~啊~动态视频| 久久人妻av系列| 成人特级黄色片久久久久久久 | 日本一区二区免费在线视频| 国产精品一区二区在线不卡| 国产1区2区3区精品| 国产精品免费视频内射| 国产xxxxx性猛交| 51午夜福利影视在线观看| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美一级毛片孕妇| 国产亚洲午夜精品一区二区久久| 国产aⅴ精品一区二区三区波| 午夜福利视频精品| 老司机靠b影院| 亚洲精品美女久久av网站| 欧美乱妇无乱码| 欧美久久黑人一区二区| 午夜精品国产一区二区电影| 少妇裸体淫交视频免费看高清 | 露出奶头的视频| 99久久国产精品久久久| 欧美性长视频在线观看| 考比视频在线观看| 久久精品亚洲av国产电影网| 日本av手机在线免费观看| 老司机在亚洲福利影院| 国产男靠女视频免费网站| 性高湖久久久久久久久免费观看| 可以免费在线观看a视频的电影网站| 国产亚洲精品一区二区www | 嫁个100分男人电影在线观看| 一级片'在线观看视频| 精品高清国产在线一区| 国产成人精品久久二区二区91| 纵有疾风起免费观看全集完整版| 老鸭窝网址在线观看| 欧美日韩一级在线毛片| 久久久久久久久免费视频了| 欧美 亚洲 国产 日韩一| 午夜精品国产一区二区电影| 国产av一区二区精品久久| 女人久久www免费人成看片| 日韩人妻精品一区2区三区| 日韩一卡2卡3卡4卡2021年| 久久国产精品人妻蜜桃| 欧美性长视频在线观看| 自线自在国产av| 高清视频免费观看一区二区| 高清黄色对白视频在线免费看| 亚洲伊人久久精品综合| 午夜免费鲁丝| 亚洲熟女毛片儿| 在线观看免费视频网站a站| 中文字幕另类日韩欧美亚洲嫩草| 免费在线观看黄色视频的| 国产aⅴ精品一区二区三区波| 久久精品亚洲熟妇少妇任你| 午夜免费成人在线视频| 精品一区二区三卡| 免费高清在线观看日韩| 一区在线观看完整版| 国产激情久久老熟女| 日日夜夜操网爽| 最新的欧美精品一区二区| 性少妇av在线| 成人影院久久| 王馨瑶露胸无遮挡在线观看| 国产精品免费视频内射| 免费黄频网站在线观看国产| 久久久水蜜桃国产精品网| 亚洲精华国产精华精| 国产成人免费观看mmmm| 国产日韩一区二区三区精品不卡| 亚洲自偷自拍图片 自拍| 久久久久久久国产电影| 亚洲精品一二三| 满18在线观看网站| 热99re8久久精品国产| 高潮久久久久久久久久久不卡| av免费在线观看网站| 免费黄频网站在线观看国产| 啪啪无遮挡十八禁网站| 精品少妇久久久久久888优播| 嫩草影视91久久| 黄频高清免费视频| 一级毛片女人18水好多| 精品亚洲成国产av| 老鸭窝网址在线观看| 精品一区二区三区av网在线观看 | 欧美日韩中文字幕国产精品一区二区三区 | 窝窝影院91人妻| 精品人妻1区二区| 叶爱在线成人免费视频播放| 最近最新中文字幕大全电影3 | 久久精品aⅴ一区二区三区四区| 一边摸一边抽搐一进一小说 | 91字幕亚洲| 国内毛片毛片毛片毛片毛片| 在线亚洲精品国产二区图片欧美| 捣出白浆h1v1| 熟女少妇亚洲综合色aaa.| 精品国产亚洲在线| 久久中文字幕一级| 91大片在线观看| 好男人电影高清在线观看| 狠狠婷婷综合久久久久久88av| www.精华液| 亚洲精品国产区一区二| 亚洲av第一区精品v没综合| 高清在线国产一区| 国产野战对白在线观看| 青草久久国产| 国产老妇伦熟女老妇高清| 亚洲精品一二三| 无人区码免费观看不卡 | 中文欧美无线码| 国产成人精品久久二区二区免费| 日韩欧美一区二区三区在线观看 | 亚洲精品国产一区二区精华液| 成人特级黄色片久久久久久久 | 黄色怎么调成土黄色| 国产在线一区二区三区精| 欧美在线一区亚洲| xxxhd国产人妻xxx| 免费在线观看影片大全网站| 日韩成人在线观看一区二区三区| 啦啦啦视频在线资源免费观看| 五月天丁香电影| 天天躁夜夜躁狠狠躁躁| 精品少妇黑人巨大在线播放| 汤姆久久久久久久影院中文字幕| 一级毛片电影观看| 精品福利观看| 一区二区日韩欧美中文字幕| 中国美女看黄片| 高清在线国产一区| 九色亚洲精品在线播放| avwww免费| 香蕉丝袜av| 免费不卡黄色视频| 99国产精品99久久久久| 99久久人妻综合| 俄罗斯特黄特色一大片| 色视频在线一区二区三区| 国产男靠女视频免费网站| 丝袜人妻中文字幕| 成人永久免费在线观看视频 | 丰满人妻熟妇乱又伦精品不卡| 91字幕亚洲| 日韩人妻精品一区2区三区| 少妇猛男粗大的猛烈进出视频| 亚洲国产看品久久| 99久久精品国产亚洲精品| 国产视频一区二区在线看| 精品久久久久久久毛片微露脸| 在线播放国产精品三级| 天堂俺去俺来也www色官网| 国产一卡二卡三卡精品| 亚洲五月婷婷丁香| 美女扒开内裤让男人捅视频| 超碰成人久久| 国产在线观看jvid| 黄频高清免费视频| 成年女人毛片免费观看观看9 | 怎么达到女性高潮| 欧美成人午夜精品| 一本一本久久a久久精品综合妖精| 亚洲黑人精品在线| 午夜久久久在线观看| 九色亚洲精品在线播放| 久久久欧美国产精品| 亚洲一区二区三区欧美精品| 久久热在线av| 丁香欧美五月| 国产精品秋霞免费鲁丝片| 少妇 在线观看| 日韩视频一区二区在线观看| 99精品在免费线老司机午夜| 久久精品熟女亚洲av麻豆精品| 国产熟女午夜一区二区三区| 黑人巨大精品欧美一区二区mp4| 久久中文字幕人妻熟女| 少妇猛男粗大的猛烈进出视频| 国产免费av片在线观看野外av| 99热网站在线观看| 久久久久久久大尺度免费视频| 夜夜爽天天搞| 免费在线观看视频国产中文字幕亚洲| 人人妻人人澡人人爽人人夜夜| 在线观看舔阴道视频| 考比视频在线观看| 夜夜夜夜夜久久久久| 妹子高潮喷水视频| 1024视频免费在线观看| 老司机亚洲免费影院| 在线天堂中文资源库| 国产男女内射视频| 精品人妻1区二区| 欧美精品一区二区免费开放| 少妇 在线观看| 国产有黄有色有爽视频| 亚洲av片天天在线观看| 久久久水蜜桃国产精品网| 久久久精品94久久精品| 天天影视国产精品| 国产精品亚洲av一区麻豆| 亚洲国产欧美日韩在线播放| 黄片大片在线免费观看| 少妇 在线观看| 国产伦人伦偷精品视频| 9色porny在线观看| 国产一卡二卡三卡精品| 高清在线国产一区| 久热这里只有精品99| 成人国语在线视频| 国产日韩欧美亚洲二区| 精品一区二区三区四区五区乱码| 大型黄色视频在线免费观看| 欧美日韩一级在线毛片| 悠悠久久av| 免费看十八禁软件| 亚洲午夜精品一区,二区,三区| 日韩视频一区二区在线观看| 色播在线永久视频| videosex国产| 免费一级毛片在线播放高清视频 | 搡老熟女国产l中国老女人| 精品少妇黑人巨大在线播放| 人人澡人人妻人| 亚洲国产看品久久| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲精品在线观看二区| 69精品国产乱码久久久| 999久久久精品免费观看国产| 久久亚洲真实| 国产精品久久久久久精品电影小说| 极品教师在线免费播放| 在线观看舔阴道视频| 19禁男女啪啪无遮挡网站| 久久人妻av系列| 欧美黑人精品巨大| 美女扒开内裤让男人捅视频| 精品视频人人做人人爽| 欧美另类亚洲清纯唯美| 久久精品熟女亚洲av麻豆精品| 夜夜夜夜夜久久久久| 久久人人97超碰香蕉20202| 国产色视频综合| 侵犯人妻中文字幕一二三四区| 狠狠狠狠99中文字幕| 咕卡用的链子| 极品教师在线免费播放| 国产成人精品久久二区二区免费| 久久久国产精品麻豆| 黄色怎么调成土黄色| 亚洲成人国产一区在线观看| 成人18禁高潮啪啪吃奶动态图| 欧美黑人精品巨大| 欧美国产精品一级二级三级| 午夜福利一区二区在线看| 欧美成人免费av一区二区三区 | 国产欧美日韩一区二区三| 欧美日韩亚洲国产一区二区在线观看 | 久久久精品区二区三区| 久久天躁狠狠躁夜夜2o2o| 五月天丁香电影| 少妇裸体淫交视频免费看高清 | 精品久久蜜臀av无| 亚洲欧美色中文字幕在线| 久久久精品国产亚洲av高清涩受| 老熟女久久久| 亚洲人成伊人成综合网2020| 亚洲伊人色综图| 国产极品粉嫩免费观看在线| 老熟妇仑乱视频hdxx| 日韩人妻精品一区2区三区| av一本久久久久| 亚洲国产中文字幕在线视频| 国产精品免费视频内射| 99re6热这里在线精品视频| 久久精品成人免费网站| 亚洲av片天天在线观看| 宅男免费午夜| 少妇的丰满在线观看| 动漫黄色视频在线观看| 天堂中文最新版在线下载| 国精品久久久久久国模美| 久久精品熟女亚洲av麻豆精品| 无人区码免费观看不卡 | 国产亚洲精品久久久久5区| 9色porny在线观看| 亚洲欧美色中文字幕在线| 如日韩欧美国产精品一区二区三区| 免费日韩欧美在线观看| 19禁男女啪啪无遮挡网站| 欧美国产精品一级二级三级| 乱人伦中国视频| 嫁个100分男人电影在线观看| 欧美国产精品va在线观看不卡| 精品人妻熟女毛片av久久网站| 亚洲精品国产一区二区精华液| www.自偷自拍.com| 高清毛片免费观看视频网站 | 性色av乱码一区二区三区2| 人人妻人人添人人爽欧美一区卜| 精品国产一区二区三区四区第35| 热99re8久久精品国产| 亚洲中文字幕日韩| 精品免费久久久久久久清纯 | 午夜激情av网站| 国产av精品麻豆| 久久99热这里只频精品6学生| 人人妻人人添人人爽欧美一区卜| 精品人妻1区二区| tocl精华| 国产精品99久久99久久久不卡| 久久av网站| 日本黄色日本黄色录像| 亚洲免费av在线视频| 超碰97精品在线观看| 国产精品.久久久| 高清av免费在线| 女性被躁到高潮视频| 精品国产国语对白av| 国产xxxxx性猛交| 别揉我奶头~嗯~啊~动态视频| 下体分泌物呈黄色| 99国产精品免费福利视频| 精品久久蜜臀av无| 在线亚洲精品国产二区图片欧美| 久久精品国产亚洲av高清一级| 中文字幕av电影在线播放| 国产亚洲精品第一综合不卡| 久久久久国内视频| 国产成人免费无遮挡视频| 国产主播在线观看一区二区| 日韩大片免费观看网站| 久久人人97超碰香蕉20202| 国产精品成人在线| 九色亚洲精品在线播放| 久久精品国产亚洲av高清一级| 热re99久久国产66热| 日日夜夜操网爽| 99re在线观看精品视频| 久久久精品国产亚洲av高清涩受| 亚洲五月色婷婷综合| 天堂中文最新版在线下载| 国产免费视频播放在线视频| 午夜福利乱码中文字幕| 女人精品久久久久毛片| 激情视频va一区二区三区| 色94色欧美一区二区| 亚洲欧洲精品一区二区精品久久久| 国产日韩欧美亚洲二区| 制服诱惑二区| 水蜜桃什么品种好| 免费高清在线观看日韩| 精品国产乱子伦一区二区三区| 日韩视频在线欧美| 国产成人一区二区三区免费视频网站| 成人特级黄色片久久久久久久 | 亚洲一卡2卡3卡4卡5卡精品中文| 一二三四在线观看免费中文在| 国产有黄有色有爽视频| h视频一区二区三区| 国产亚洲欧美精品永久| 91麻豆精品激情在线观看国产 | 高清在线国产一区| 国产欧美日韩精品亚洲av| 国产成人免费无遮挡视频| 国产av精品麻豆| 老司机亚洲免费影院| 电影成人av| 国产亚洲一区二区精品| 三级毛片av免费| 精品亚洲成国产av| 国产精品 欧美亚洲| 热99久久久久精品小说推荐| 国产av国产精品国产| 一个人免费在线观看的高清视频| 不卡av一区二区三区| av超薄肉色丝袜交足视频| 激情视频va一区二区三区| 99热国产这里只有精品6| 国产日韩欧美亚洲二区| 欧美中文综合在线视频| 99国产精品免费福利视频| 亚洲中文日韩欧美视频| 国产成人精品无人区| 日韩一区二区三区影片| 无人区码免费观看不卡 | 国产日韩一区二区三区精品不卡| 女人久久www免费人成看片| 美国免费a级毛片| 亚洲av欧美aⅴ国产| 日本黄色视频三级网站网址 | 99久久99久久久精品蜜桃| 日本a在线网址| 亚洲五月色婷婷综合| 久久久国产成人免费| 精品亚洲乱码少妇综合久久| 国产激情久久老熟女| 免费在线观看完整版高清| 中文字幕av电影在线播放| 久久人妻福利社区极品人妻图片| 亚洲专区国产一区二区| 日韩有码中文字幕| 在线观看一区二区三区激情| 亚洲欧洲精品一区二区精品久久久| 捣出白浆h1v1| 欧美 亚洲 国产 日韩一| 男女边摸边吃奶| 12—13女人毛片做爰片一| 成人国产av品久久久| 成人三级做爰电影| 人妻一区二区av| 啦啦啦视频在线资源免费观看| 中文字幕另类日韩欧美亚洲嫩草| 在线观看免费视频日本深夜| 国产国语露脸激情在线看| 欧美av亚洲av综合av国产av| 成人18禁高潮啪啪吃奶动态图| 女人久久www免费人成看片| 99国产精品一区二区三区| 久久天躁狠狠躁夜夜2o2o| 久热爱精品视频在线9| 交换朋友夫妻互换小说| av不卡在线播放| 亚洲一码二码三码区别大吗| 国产精品久久久久久精品古装| av片东京热男人的天堂| 久久毛片免费看一区二区三区| 亚洲 欧美一区二区三区| 肉色欧美久久久久久久蜜桃| 国产视频一区二区在线看| 视频区图区小说| 男女无遮挡免费网站观看| 国产精品一区二区免费欧美| 国产精品av久久久久免费| 亚洲色图av天堂| 亚洲熟女精品中文字幕| 亚洲欧美色中文字幕在线| 欧美精品av麻豆av| 成人亚洲精品一区在线观看| 97人妻天天添夜夜摸| 国产欧美日韩一区二区精品| 天天影视国产精品| 人人妻人人添人人爽欧美一区卜| 免费观看av网站的网址| 热re99久久精品国产66热6| 国产成人免费观看mmmm| 亚洲成人国产一区在线观看| 91九色精品人成在线观看| 日韩人妻精品一区2区三区| 亚洲国产成人一精品久久久| 大码成人一级视频| 91精品三级在线观看| 中文字幕精品免费在线观看视频| 国产精品成人在线| tube8黄色片| 久久ye,这里只有精品| 久久精品人人爽人人爽视色| 国产精品熟女久久久久浪| 欧美乱妇无乱码| 极品少妇高潮喷水抽搐| av一本久久久久| 国产精品一区二区在线观看99| 精品福利观看| 热99re8久久精品国产| 人妻 亚洲 视频| 少妇猛男粗大的猛烈进出视频| 男女下面插进去视频免费观看| 老司机靠b影院| 亚洲综合色网址| 欧美黑人欧美精品刺激| 高清欧美精品videossex| 国产黄频视频在线观看| 自线自在国产av| 黑人猛操日本美女一级片| 亚洲男人天堂网一区| 亚洲自偷自拍图片 自拍| 久久精品成人免费网站| av线在线观看网站| 黄色丝袜av网址大全| 天天添夜夜摸| 国产日韩欧美视频二区| 两人在一起打扑克的视频| 欧美老熟妇乱子伦牲交| 夜夜骑夜夜射夜夜干| 国产精品成人在线| 国产精品久久久av美女十八| 黄色a级毛片大全视频| 性色av乱码一区二区三区2| 老汉色∧v一级毛片| 久久这里只有精品19| 波多野结衣av一区二区av| 老司机福利观看| 久久久精品免费免费高清| 高清av免费在线| 欧美黑人精品巨大| 欧美国产精品一级二级三级| 精品少妇黑人巨大在线播放| 99九九在线精品视频| 久久99一区二区三区| 激情视频va一区二区三区| 三级毛片av免费| 亚洲国产毛片av蜜桃av| 亚洲综合色网址| 久久久欧美国产精品| 久久ye,这里只有精品| 人人妻人人爽人人添夜夜欢视频| 午夜日韩欧美国产| 国产成人精品无人区| 亚洲三区欧美一区| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲av成人不卡在线观看播放网| 成人三级做爰电影| 蜜桃在线观看..| 一级毛片女人18水好多| 午夜福利在线免费观看网站| 午夜91福利影院| 大陆偷拍与自拍| 亚洲专区字幕在线| 色精品久久人妻99蜜桃| 日韩一区二区三区影片| tocl精华| 乱人伦中国视频| 精品午夜福利视频在线观看一区 | 一边摸一边抽搐一进一小说 | 波多野结衣av一区二区av| 亚洲欧洲日产国产| 国产精品二区激情视频| 少妇猛男粗大的猛烈进出视频| 中文字幕人妻丝袜制服| 一级a爱视频在线免费观看| 国产色视频综合| 久久精品国产a三级三级三级| 日韩中文字幕视频在线看片| 热99久久久久精品小说推荐| 啦啦啦在线免费观看视频4| 久久人妻福利社区极品人妻图片| 水蜜桃什么品种好| 欧美日韩视频精品一区| 国产深夜福利视频在线观看| 大码成人一级视频| 亚洲,欧美精品.| 男男h啪啪无遮挡| 十八禁人妻一区二区| 久久久国产成人免费| 国产高清激情床上av| 日韩免费高清中文字幕av| 欧美日韩一级在线毛片| kizo精华| 久久久久网色| 日本vs欧美在线观看视频| 99国产精品免费福利视频| 激情在线观看视频在线高清 | 我要看黄色一级片免费的|