• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合動(dòng)態(tài)獎(jiǎng)勵(lì)策略的無人機(jī)編隊(duì)路徑規(guī)劃方法

    2024-11-22 00:00:00唐恒孫偉呂磊賀若飛吳建軍孫昌浩孫田野
    關(guān)鍵詞:無人機(jī)

    摘 要:針對未知?jiǎng)討B(tài)環(huán)境下無人機(jī)(unmanned aerial vehicle, UAV)編隊(duì)路徑規(guī)劃問題,提出融合動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)的多智能體雙延遲深度確定性策略梯度(multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dynamic formation reward function, MATD3-IDFRF)算法的UAV編隊(duì)智能決策方案。首先,針對無障礙物環(huán)境,拓展稀疏性獎(jiǎng)勵(lì)函數(shù)。然后,深入分析UAV編隊(duì)路徑規(guī)劃中重點(diǎn)關(guān)注的動(dòng)態(tài)編隊(duì)問題,即UAV編隊(duì)以穩(wěn)定的結(jié)構(gòu)飛行并根據(jù)周圍環(huán)境微調(diào)隊(duì)形,其本質(zhì)為每兩架UAV間距保持相對穩(wěn)定,同時(shí)也依據(jù)外界環(huán)境而微調(diào)。為此,設(shè)計(jì)基于每兩臺(tái)UAV之間最佳間距和當(dāng)前間距的獎(jiǎng)勵(lì)函數(shù),在此基礎(chǔ)上提出動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù),并結(jié)合多智能體雙延遲深度確定性(multi-agent twin delayed deep deterministic, MATD3)算法提出MATD3-IDFRF算法。最后,設(shè)計(jì)對比實(shí)驗(yàn),在復(fù)合障礙物環(huán)境中,所提動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)能將算法成功率提升6.8%,將收斂后的獎(jiǎng)勵(lì)平均值提升2.3%,將編隊(duì)變形率降低97%。

    關(guān)鍵詞: 強(qiáng)化學(xué)習(xí); 獎(jiǎng)勵(lì)函數(shù); 無人機(jī); 動(dòng)態(tài)編隊(duì); 路徑規(guī)劃

    中圖分類號(hào): TP 181 文獻(xiàn)標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.10.27

    UAV formation path planning approach incorporating dynamic reward strategy

    TANG Heng SUN Wei LYU Lei HE Ruofei WU Jianjun3, SUN Changhao4, SUN Tianye1

    (1. School of Aerospace Science and Technology, Xidian University, Xi’an 710118, China;

    2. The 365th Research Institute, Northwestern Polytechnical University, Xi’an 71007 China;

    3. Xi’an ASN UAV Technology Co. Ltd, Xi’an 710065, China; 4. Qian Xuesen Laboratory of Space

    Technology, China Academy of Space Technology, Beijing 100094, China)

    Abstract: For the unmanned aerial vehicle (UAV) formation path planning problem in unknown dynamic environment, an intelligent decision scheme for UAV formation based on multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dynamic formation reward function (MATD3-IDFRF) algorithm is proposed. Firstly, the sparsity reward function is extended for the obstacle-free environment. Then, the dynamic formation problem, which is the focus of attention in UAV formation path planning, is analyzed in depth. It is described as a UAV formation flying in a stable formation structure and a fine-tuning of the formation in time according to the surrounding environment. The essence of the analysis is that the spacing between each two UAVs remains relatively stable, while it is also fine-tuned by the external environment. A reward function based on the optimal distance and current distance between each pair of UAVs is designed, leading to the proposal of a dynamic formation reward function, and which is then combined with the multi-agent twin delayed deep deterministic (MATD3) algorithm to propose the MATD3-IDFRF algorithm. Finally, comparison experiments are designed, and the dynamic formation reward function presented in this paper can improve the algorithm success rate by 6.8%, while improving the converged reward average by 2.3% and reducing the formation deformation rate by 97% in the complex obstacle environment.

    Keywords: reinforcement learning (RL); reward function; unmanned aerial vehicle (UAV); dynamic formation; path planning

    0 引 言

    無人機(jī)是一種可以自主飛行或需外界操控的非載人飛行設(shè)備,隨著技術(shù)快速發(fā)展,無人機(jī)在許多領(lǐng)域發(fā)揮著重要作用13。單架無人機(jī)具備較高的操作性和便捷性,但是也存在著有效載荷能力受限、抗干擾能力弱等突出缺點(diǎn),難以滿足復(fù)雜任務(wù)要求。為彌補(bǔ)單架無人機(jī)在性能方面的不足,將多架無人機(jī)組成編隊(duì)執(zhí)行任務(wù)能夠顯著提高任務(wù)的成功率和抗突發(fā)事件的能力46。因此,近年來無人機(jī)編隊(duì)飛行備受關(guān)注,成為了一個(gè)多學(xué)科交叉的新研究領(lǐng)域。

    路徑規(guī)劃是無人機(jī)編隊(duì)飛行的關(guān)鍵技術(shù)之一,指綜合兼顧任務(wù)需求、多機(jī)協(xié)同關(guān)系、障礙規(guī)避等約束,為無人機(jī)編隊(duì)規(guī)劃出時(shí)間、空間和任務(wù)協(xié)同的飛行軌跡79。已有的無人機(jī)路徑規(guī)劃方法大致分為3類:傳統(tǒng)方法、啟發(fā)式方法和強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)方法。傳統(tǒng)的路徑規(guī)劃算法依賴于工作空間數(shù)學(xué)模型中的環(huán)境信息,如A*算法、D*算法、人工勢場法等。文獻(xiàn)[10]將無人機(jī)的姿態(tài)角信息和預(yù)測控制集成到A*算法中,實(shí)現(xiàn)隱身無人機(jī)在3D復(fù)雜環(huán)境中的實(shí)時(shí)航跡規(guī)劃。啟發(fā)式算法具有規(guī)劃速度快、易于協(xié)同以及全局探索能力很強(qiáng)等特點(diǎn),包括粒子群優(yōu)化算法、蟻群算法、灰狼算法等1113。傳統(tǒng)方法和啟發(fā)式方法都依賴于已知環(huán)境,所以僅能應(yīng)對提前獲取障礙信息的簡單環(huán)境,這使得這類算法應(yīng)用范圍受限。

    與傳統(tǒng)路徑規(guī)劃方法相比,基于RL的路徑規(guī)劃方法不依賴已知環(huán)境,而且具備較強(qiáng)的泛化能力和魯棒性1417。RL方法主要由智能體、環(huán)境、動(dòng)作、狀態(tài)和獎(jiǎng)勵(lì)5個(gè)部分組成。RL方法中,智能體具有自主決策能力,智能體通過與環(huán)境不斷進(jìn)行交互來優(yōu)化決策、進(jìn)行學(xué)習(xí),并學(xué)會(huì)在環(huán)境中采取最佳方法完成任務(wù)1820。在路徑規(guī)劃問題中,RL方法表現(xiàn)出一定程度的優(yōu)越性。周治國等21在深度Q網(wǎng)絡(luò)(deep Q network, DQN)基礎(chǔ)上提出一種基于閾值的DQN運(yùn)動(dòng)規(guī)劃算法,該算法使得智能體快速收斂到最優(yōu)路徑。Yan等22 提出一種改進(jìn)的決斗雙DQN算法,用于在有潛在威脅的動(dòng)態(tài)環(huán)境中進(jìn)行無人機(jī)路徑規(guī)劃。楊秀霞等23基于逆向RL提出一種融合專家演示軌跡的無人機(jī)路徑規(guī)劃算法,解決復(fù)雜任務(wù)中獎(jiǎng)勵(lì)函數(shù)設(shè)置困難的問題。在多智能體路徑規(guī)劃的問題上,近年來有不少學(xué)者利用RL進(jìn)行了研究。Qie等24基于多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法設(shè)計(jì)一套訓(xùn)練系統(tǒng),解決多無人機(jī)的目標(biāo)分配和路徑規(guī)劃問題。Li等16針對人群疏散路徑規(guī)劃問題,結(jié)合學(xué)習(xí)曲線對MADDPG算法的經(jīng)驗(yàn)池進(jìn)行改進(jìn),提高了人群疏散效率。Zhou等25基于多智能體雙延遲深度確定性(multi-agent twin delayed deep deterministic, MATD3)策略梯度算法對障礙物區(qū)域和無障礙物區(qū)域設(shè)計(jì)不同的隊(duì)形保持策略,解決機(jī)器人編隊(duì)的路徑規(guī)劃問題。

    無人機(jī)編隊(duì)控制根據(jù)編隊(duì)執(zhí)行任務(wù)的需求,在整個(gè)飛行過程中控制編隊(duì)隊(duì)形盡量保持不變2628。針對編隊(duì)控制問題,王錦錦等29通過一致性控制協(xié)議對多臺(tái)無人機(jī)快速組建編隊(duì)的問題進(jìn)行研究,但對于編隊(duì)的協(xié)同避障問題還需借助其他算法;Tang30提出一種基于模型預(yù)測的快速擴(kuò)展隨機(jī)樹(rapidly exploring random tree, RRT)算法實(shí)現(xiàn)編隊(duì)的避障,但沒有考慮編隊(duì)內(nèi)的碰撞問題;Liu等31將長機(jī)僚機(jī)法引入到編隊(duì)控制中,實(shí)現(xiàn)5臺(tái)無人機(jī)的編隊(duì)控制和路徑規(guī)劃問題,但是僅僅考慮了無障礙物的環(huán)境;Pan等32將分布式的編隊(duì)控制方法與基于模型的RL方法結(jié)合,解決一字型編隊(duì)在復(fù)雜環(huán)境中的避障問題,但是未考慮其他更復(fù)雜的編隊(duì)結(jié)構(gòu)。以上編隊(duì)控制方法,存在以下問題:① 現(xiàn)有方法一般將編隊(duì)控制問題分解為編隊(duì)保持和編隊(duì)調(diào)整,然后分別采用不同的方法進(jìn)行處理,這會(huì)使得算法復(fù)雜度過高,不利于算法快速收斂;② 現(xiàn)有方法非常依賴于先驗(yàn)環(huán)境,同時(shí)對環(huán)境和編隊(duì)的各自情況考慮得比較簡單,無法對環(huán)境中的突發(fā)威脅及時(shí)進(jìn)行規(guī)避。

    針對上述問題,本文借助RL的思想,深入分析無人機(jī)編隊(duì)路徑規(guī)劃問題,從獎(jiǎng)勵(lì)函數(shù)的角度來解決編隊(duì)保持和實(shí)時(shí)的編隊(duì)隊(duì)形調(diào)整,設(shè)計(jì)動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)。在此基礎(chǔ)上,結(jié)合MATD3算法提出一種融合動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)的MATD3算法(MATD3 algorithm incorporating dynamic formation reward function, MATD3-IDFRF)。本文的主要貢獻(xiàn)包括:

    (1) 在單架無人機(jī)路徑規(guī)劃的基礎(chǔ)上拓展稀疏性獎(jiǎng)勵(lì),針對無障礙物環(huán)境設(shè)計(jì)引導(dǎo)性獎(jiǎng)勵(lì),并針對復(fù)合障礙物環(huán)境改進(jìn)飛行角獎(jiǎng)勵(lì)函數(shù)和距離目的地獎(jiǎng)勵(lì)函數(shù);

    (2) 提出MATD3-IDFRF算法,通過設(shè)計(jì)的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)了無人機(jī)編隊(duì)結(jié)構(gòu)的穩(wěn)定性和隊(duì)形變換的自主性,提升無人機(jī)編隊(duì)在未知?jiǎng)討B(tài)環(huán)境下應(yīng)對突發(fā)威脅的能力;

    (3) 通過設(shè)計(jì)仿真實(shí)驗(yàn),對比各種算法的指標(biāo)結(jié)果,驗(yàn)證本文所提算法在無人機(jī)編隊(duì)路徑規(guī)劃方面的優(yōu)越性。

    1 問題描述與建模

    在本文的研究中,考慮兩種無人機(jī)的飛行場景,分別為無障礙物環(huán)境和復(fù)合障礙物環(huán)境。在無障礙物環(huán)境下,可以認(rèn)為在整個(gè)飛行場景中只有無人機(jī)(比如空曠的環(huán)境),因此不需要考慮避開障礙物等一系列情況,是理想的飛行場景。針對不同的飛行場景和所需要執(zhí)行的任務(wù),障礙物也有所區(qū)別,本文將障礙物分為兩個(gè)大類,即靜態(tài)障礙物和動(dòng)態(tài)障礙物,靜態(tài)障礙物模擬無人機(jī)飛行環(huán)境中的樓宇、樹林等場景,動(dòng)態(tài)障礙物模擬無人機(jī)飛行環(huán)境中可能遭遇的敵機(jī)、飛鳥等突發(fā)威脅。當(dāng)無人機(jī)的飛行場景中同時(shí)存在靜態(tài)障礙物和動(dòng)態(tài)障礙物時(shí),就可以將其看作復(fù)合障礙物環(huán)境。

    1.1 無人機(jī)編隊(duì)路徑規(guī)劃問題

    無人機(jī)編隊(duì)路徑規(guī)劃問題描述為在有限的區(qū)域內(nèi),多臺(tái)無人機(jī)從各自的起點(diǎn)出發(fā),組成特定的編隊(duì)隊(duì)形,避開若干障礙物,最終到達(dá)終點(diǎn)。在編隊(duì)運(yùn)動(dòng)過程中,對于以原有隊(duì)形無法避開的障礙物,要盡可能小地改變其原有隊(duì)形,如圖1所示。圖1中,3條藍(lán)色實(shí)線代表3臺(tái)無人機(jī)的飛行路線,由紅色實(shí)心點(diǎn)和紅色虛線組成的三角形代表無人機(jī)組成的編隊(duì),可以看出編隊(duì)隊(duì)形會(huì)發(fā)生一些微調(diào)。

    下面對無人機(jī)編隊(duì)路徑規(guī)劃問題進(jìn)行分解,如圖2所示。初期,零散的無人機(jī)從各自的起點(diǎn)開始移動(dòng),生成特定的編隊(duì)隊(duì)形;中期,無人機(jī)保持特定的編隊(duì)隊(duì)形,向終點(diǎn)進(jìn)行移動(dòng)。若碰到障礙物,則編隊(duì)隊(duì)形需要進(jìn)行微調(diào)以躲避障礙物,待躲避障礙物之后再恢復(fù)成初始隊(duì)形;末期,無人機(jī)編隊(duì)到達(dá)目的地附近,再打破編隊(duì)結(jié)構(gòu)抵達(dá)各自的目的地,完成編隊(duì)的路徑規(guī)劃。為此,無人機(jī)編隊(duì)的路徑規(guī)劃包含兩個(gè)突出問題,即不斷調(diào)整的編隊(duì)隊(duì)形和貫穿始終的路徑規(guī)劃。

    1.2 無人機(jī)運(yùn)動(dòng)學(xué)模型

    (1) 狀態(tài)空間

    本文考慮N架無人機(jī)的編隊(duì)路徑規(guī)劃。每架無人機(jī)的狀態(tài)包含兩個(gè)部分:第一部分為其自身的橫縱坐標(biāo)、飛行角、速度大小等;第二部分為無人機(jī)與其他無人機(jī)之間的距離。通過第二部分解決動(dòng)態(tài)編隊(duì)的問題,使得無人機(jī)編隊(duì)保持一定的隊(duì)形,并在遇到障礙物時(shí)將隊(duì)形進(jìn)行微調(diào)。以第i架無人機(jī)為例,定義無人機(jī)的狀態(tài)空間為

    si=[xi,yi,i,vi,di], i=1,2,…,N(1)

    式中:xi,yi,i,vi分別代表第i架無人機(jī)的橫坐標(biāo)、縱坐標(biāo)、航向角、速度大小;di是一個(gè)N-1維數(shù)組,數(shù)組中各元素表示第i架無人機(jī)與編隊(duì)中其他無人機(jī)的歐式距離。

    無人機(jī)的狀態(tài)滿足一些約束條件:

    xmin≤xi≤xmax

    ymin≤yi≤ymax

    0≤i≤2π

    0≤vi≤vimax(2)

    式中:xmin,xmax,ymin,ymax定義了無人機(jī)飛行環(huán)境的邊界,無人機(jī)的飛行角范圍為0°~360°;vimax表示第i架無人機(jī)的最大速度。

    (2) 動(dòng)作空間

    無人機(jī)的動(dòng)作空間也屬于RL問題的要素之一,本文所研究的無人機(jī)動(dòng)作空間包括無人機(jī)的角速度和加速度,用于改變無人機(jī)的飛行角和飛行速度。令ωi和ai作為無人機(jī)的控制量,分別表示為第i架無人機(jī)的角速度和加速度,動(dòng)作空間定義為

    Ai=[ωi,ai], i=1,2,…,N(3)

    -ωimax≤ωi≤ωimax

    -aimax≤ai≤aimax(4)

    式中:ωimax表示第i架無人機(jī)的最大角速度;aimax表示第i架無人機(jī)的最大加速度。

    (3) 運(yùn)動(dòng)學(xué)方程

    無人機(jī)編隊(duì)路徑規(guī)劃中各架無人機(jī)的運(yùn)動(dòng)學(xué)模型相同,其運(yùn)動(dòng)學(xué)方程可表示為

    i=vicos i

    i=visin i

    ·ii

    i=ai(5)

    假設(shè)第i架無人機(jī)在時(shí)刻t的狀態(tài)是[xti,ytiti,vti],經(jīng)過時(shí)間步長ΔT,下一時(shí)刻的狀態(tài)變?yōu)椋踴t+1i,yt+1i,t+1i,vt+1i],計(jì)算公式為

    xt+1i=xti+vti·ΔT·cos ti

    yt+1i=yti+vti·ΔT·sin ti

    t+1i=tii·ΔT

    vt+1i=vti+ai·ΔT(6)

    2 基于MATD3-IDFRF的無人機(jī)編隊(duì)路徑規(guī)劃決策設(shè)計(jì)

    2.1 MATD3算法

    MADDPG算法33是深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法在多智能體領(lǐng)域的拓展,但是沒有改變動(dòng)作值函數(shù)高估的問題。MATD3算法是目前業(yè)界最先進(jìn)的多智能體RL算法,其借鑒雙延遲深度確定性(twin delayed deep deterministic, TD3)策略梯度算法的雙Q學(xué)習(xí),結(jié)合MADDPG算法中的“集中式訓(xùn)練,分布式學(xué)習(xí)”的網(wǎng)絡(luò)框架,使其適用于環(huán)境不穩(wěn)定的情況。MATD3算法結(jié)構(gòu)如圖3和圖4所示。

    如圖3和圖4所示,每個(gè)智能體包含6個(gè)網(wǎng)絡(luò):當(dāng)前的策略網(wǎng)絡(luò)μ(0i,θi),目標(biāo)策略網(wǎng)絡(luò)μ(0i,θ′i),當(dāng)前的第1個(gè)評(píng)估網(wǎng)絡(luò)q(0,a;wi,1),第1個(gè)目標(biāo)評(píng)估網(wǎng)絡(luò)q(0,a;w′i,1),當(dāng)前的第2個(gè)評(píng)估網(wǎng)絡(luò)q(0,a;wi,2),第2個(gè)目標(biāo)評(píng)估網(wǎng)絡(luò)q(0,a;w′i,2)。策略網(wǎng)絡(luò)采用分布式執(zhí)行方式,輸入智能體自身的狀態(tài)信息,輸出其決策的動(dòng)作;兩個(gè)Critic網(wǎng)絡(luò)采用集中式訓(xùn)練方式,輸入所有智能體的狀態(tài)和動(dòng)作,輸出兩個(gè)近似于真值的Q值,然后選擇其中較小的目標(biāo)Q值指導(dǎo)策略網(wǎng)絡(luò)的參數(shù)更新。

    定義智能體i的目標(biāo)Q值為

    yi=ri+γminj=1,2 q(o,a;w′i,j)(7)

    式中:γ為折扣因子;o={o1,o2,…,oN}表示智能體的聯(lián)合觀測量,oi表示智能體i的觀測量;a={a1,a2,…,aN}表示智能體的聯(lián)合動(dòng)作,ai表示智能體i的動(dòng)作。與TD3算法類似,評(píng)估網(wǎng)絡(luò)的更新頻率要高于策略網(wǎng)絡(luò)。評(píng)估網(wǎng)絡(luò)依據(jù)最小化函數(shù)L(wi,j)進(jìn)行參數(shù)更新:

    L(wi,j)=1N∑Ni=1(yi-q(o,a;wi,j)) j=1,2,…(8)

    策略網(wǎng)絡(luò)采用梯度上升更新策略,其梯度計(jì)算公式為

    ΔθiL(θi)=1N∑Ni=1Δaq(o,a;wi,j)|a=μ(o;θi)Δμ(o)(9)

    對于上述提到的6個(gè)神經(jīng)網(wǎng)絡(luò)(包括3個(gè)主網(wǎng)絡(luò)和3個(gè)目標(biāo)網(wǎng)絡(luò)),3個(gè)主網(wǎng)絡(luò)參數(shù)每次進(jìn)行梯度下降時(shí)完全更新,3個(gè)目標(biāo)網(wǎng)絡(luò)參數(shù)則會(huì)選擇軟更新,即進(jìn)行微小更新,更新公式為

    θ′i=τθ′i+(1-τ)θ′i(10)

    w′i,1=τw′i,1+(1-τ)w′i,1

    w′i,2=τw′i,2+(1-τ)w′i,2(11)

    2.2 不考慮動(dòng)態(tài)編隊(duì)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

    根據(jù)第2.1節(jié)對無人機(jī)編隊(duì)路徑規(guī)劃問題的分析,將問題分解為動(dòng)態(tài)編隊(duì)和路徑規(guī)劃。本節(jié)不考慮無人機(jī)的動(dòng)態(tài)編隊(duì)問題,考慮各架無人機(jī)進(jìn)行各自的路徑規(guī)劃。

    2.2.1 無障礙物環(huán)境的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

    對于無障礙物環(huán)境,無人機(jī)執(zhí)行動(dòng)作只有一個(gè)目標(biāo),即每次狀態(tài)轉(zhuǎn)移都更靠近目標(biāo),盡可能使得無人機(jī)以直線抵達(dá)目的地。為了加快學(xué)習(xí)效率,本文結(jié)合了稀疏性獎(jiǎng)勵(lì)和引導(dǎo)性獎(jiǎng)勵(lì),各架無人機(jī)的獎(jiǎng)勵(lì)函數(shù)定義相同,以第i架無人機(jī)為例,在無障礙物環(huán)境中,其定義為

    Ri1r12r23r34r45r5(12)

    式中:a1,a2,a3,a4,a5為系數(shù),本文均取1;r1和r2為稀疏性獎(jiǎng)勵(lì);r3,r4,r5為引導(dǎo)性獎(jiǎng)勵(lì),各獎(jiǎng)勵(lì)定義如下。

    (1) 抵達(dá)目的地的正向獎(jiǎng)勵(lì)

    無人機(jī)的最終目標(biāo)是抵達(dá)目的地,所以如果無人機(jī)抵達(dá)目的地,將獲得一個(gè)正向的獎(jiǎng)勵(lì):

    r1=100, Δd≤d1;Δθ≤2.5

    50, Δd≤d1;2.5lt;Δθ≤5

    10, Δd≤d1;Δθgt;5

    0, Δdgt;d1;Δθgt;5(13)

    式中:Δd代表無人機(jī)與目的地之間的歐式距離;d1為距離閾值;Δθ為無人機(jī)飛行角度和無人機(jī)與目的地所成角度的差值。

    (2) 撞擊障礙物的負(fù)向獎(jiǎng)勵(lì)

    無人機(jī)在運(yùn)動(dòng)過程中如果撞擊障礙物,則設(shè)定一個(gè)負(fù)向的獎(jiǎng)勵(lì),本文設(shè)定為

    r2=-10(14)

    (3) 距離目的地遠(yuǎn)近程度的獎(jiǎng)勵(lì)函數(shù)

    由于目的地的坐標(biāo)和無人機(jī)的實(shí)時(shí)坐標(biāo)都已知,為了降低探索的盲目性,本文依據(jù)無人機(jī)距離目的地的遠(yuǎn)近程度設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù):

    r3=k·(dt1-dt)(15)

    式中:k為從距離度量到獎(jiǎng)勵(lì)度量的系數(shù),本文設(shè)定為1/200(無人機(jī)最大飛行速度的倒數(shù));dt1是上一時(shí)刻無人機(jī)與目的地的距離;dt是當(dāng)前時(shí)刻無人機(jī)與目的地的距離。

    (4) 與目的地相對角度的獎(jiǎng)勵(lì)函數(shù)

    無人機(jī)在時(shí)刻t的飛行角度可以通過計(jì)算得到,為進(jìn)一步降低探索的盲目性,根據(jù)無人機(jī)的飛行角度和無人機(jī)與目的地所成角度設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。無人機(jī)飛行角示意圖如圖5所示。

    圖5中,θ1為無人機(jī)與目的地所成角度,θ2為無人機(jī)在時(shí)刻t的飛行角度。當(dāng)角度差|θ2-θ1|小于5°時(shí),執(zhí)行動(dòng)作at,無人機(jī)獲得一個(gè)正向獎(jiǎng)勵(lì);當(dāng)角度差在5°和30°之間,無人機(jī)獲得的獎(jiǎng)勵(lì)值為0;如果角度差大于30°,認(rèn)為當(dāng)前動(dòng)作不利于無人機(jī)抵達(dá)目的地,獲得負(fù)獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)函數(shù)r4如下:

    r4= |θ1-θ2|lt;5°

    0, 5°≤|θ1-θ2|lt;30°

    - 其他(16)

    (5) 每走一步的負(fù)向獎(jiǎng)勵(lì)

    為了避免無人機(jī)進(jìn)行過多無用的探索,規(guī)定無人機(jī)每走一步就獲得一個(gè)負(fù)向獎(jiǎng)勵(lì),模擬無人機(jī)行駛過程中所消耗的能量。獎(jiǎng)勵(lì)函數(shù)r5如下:

    r5=-1(17)

    2.2.2 復(fù)合障礙物環(huán)境的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

    對于復(fù)合障礙物環(huán)境,無人機(jī)需要避開障礙物,所以無障礙環(huán)境下的部分獎(jiǎng)勵(lì)函數(shù)失效。在此基礎(chǔ)上,提出改進(jìn)的角度獎(jiǎng)勵(lì)函數(shù)r6和改進(jìn)的距離獎(jiǎng)勵(lì)函數(shù)r7。

    (1) 復(fù)合障礙物環(huán)境下的角度獎(jiǎng)勵(lì)函數(shù)

    對于復(fù)合障礙物環(huán)境,當(dāng)無人機(jī)與目的地連線中間存在障礙物時(shí),無人機(jī)的飛行方向和無人機(jī)與終點(diǎn)連線之間需要存在一定夾角。為此,提出第一個(gè)針對夾角的改進(jìn)獎(jiǎng)勵(lì)函數(shù)。對無人機(jī)、障礙物、目的地三者的位置關(guān)系進(jìn)行分類討論,其位置關(guān)系分為如下4種:無人機(jī)和障礙物分別位于目的地的左下方、左上方、右上方以及右下方。4種位置關(guān)系如圖6所示。

    首先說明本文所討論的無人機(jī)飛行角范圍為0°~360°。以圖6(a)為例,無人機(jī)通過機(jī)載雷達(dá)觀測到前方的障礙物,并且測得障礙物邊沿切線L1和L3的方向角。由于終點(diǎn)位置已知,可以計(jì)算角度θ1和θ2。在當(dāng)前位置時(shí),θ2小于θ1,則選擇L3切線下方為最佳的飛行方向,最佳的飛行角度θbest定義為

    θbestL3-θε(18)

    若θ1小于θ2,則最佳飛行角度θbest

    θbestL1ε(19)

    式中:θε為偏離切線方向的角度差,本文取2°。

    根據(jù)最佳飛行角與實(shí)際飛行角的偏離程度設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)r6,當(dāng)角度差小于5°時(shí)給予正向獎(jiǎng)勵(lì)2;當(dāng)角度差在5°和30°之間時(shí)給予獎(jiǎng)勵(lì)0,其他情況給予獎(jiǎng)勵(lì)-2?;诟倪M(jìn)的飛行角獎(jiǎng)勵(lì),使得無人機(jī)的飛行角更貼近最佳飛行角,有利于無人機(jī)更快地避開障礙物,抵達(dá)目的地。改進(jìn)的角度獎(jiǎng)勵(lì)函數(shù)r6設(shè)計(jì)如下:

    r6= |θactbest|≤5°

    0, 5°lt;|θactbest|≤30°

    - 其他(20)

    式中:θact表示實(shí)際飛行角度。

    (2) 復(fù)合障礙物環(huán)境下的距離獎(jiǎng)勵(lì)函數(shù)

    圖7展示了在無人機(jī)避障過程中,無人機(jī)可能短暫遠(yuǎn)離終點(diǎn),為了加快算法收斂速度,這種情況是可以容忍的,為此提出針對距離目的地遠(yuǎn)近程度的改進(jìn)獎(jiǎng)勵(lì)函數(shù)r7

    r7=k(dt1-dt), dt4,dt3,…,dt單調(diào)變化

    0, dt4,dt3,…,dt非單調(diào)變化(21)

    無人機(jī)在連續(xù)5個(gè)時(shí)刻都靠近終點(diǎn),則獲得一個(gè)正向獎(jiǎng)勵(lì);無人機(jī)在連續(xù)5個(gè)時(shí)刻都遠(yuǎn)離終點(diǎn),則獲得一個(gè)負(fù)向獎(jiǎng)勵(lì),以此增強(qiáng)算法的魯棒性,加快收斂速度。在具體算法實(shí)現(xiàn)過程中,會(huì)借助隊(duì)列這種數(shù)據(jù)結(jié)構(gòu)。隊(duì)列是一種先進(jìn)先出的線性結(jié)構(gòu),一端進(jìn)行入隊(duì),另外一端進(jìn)行出隊(duì),其基本結(jié)構(gòu)如圖8所示。在t時(shí)刻,元素dt入隊(duì),dt5出隊(duì),判斷元素dt,dt1,dt2,dt3,dt4是否是單調(diào)變化的,再通過計(jì)算得到獎(jiǎng)勵(lì)值。下一時(shí)刻再循環(huán)往復(fù),借助隊(duì)列這種一端入隊(duì)、一端出隊(duì)的結(jié)構(gòu)進(jìn)行數(shù)據(jù)存儲(chǔ),可以很好地對連續(xù)5個(gè)時(shí)刻的距離進(jìn)行更新,然后進(jìn)行獎(jiǎng)勵(lì)的計(jì)算,有助于降低算法的時(shí)間復(fù)雜度。

    對于多架無人機(jī)路徑規(guī)劃問題,考慮加入無人機(jī)間碰撞獎(jiǎng)勵(lì)r8,定義為無人機(jī)之間發(fā)生碰撞產(chǎn)生的負(fù)向獎(jiǎng)勵(lì),本文設(shè)置為-10。定義機(jī)間碰撞獎(jiǎng)勵(lì)函數(shù)r8如下:

    r8=-10, 無人機(jī)之間發(fā)生撞擊

    0, 其他情況(22)

    綜上,設(shè)計(jì)復(fù)合障礙物環(huán)境下各架無人機(jī)的獎(jiǎng)勵(lì)函數(shù)為

    Ri1r12r25r56r67r78r8(23)

    式中:α6,α7,α8為系數(shù),本文均取1。

    2.3 MATD3-IDFRF算法

    本文第2.2節(jié)研究了多無人機(jī)的路徑規(guī)劃問題,本節(jié)考慮多無人機(jī)飛行過程中的動(dòng)態(tài)編隊(duì)問題。本節(jié)中依據(jù)每兩架無人機(jī)之間最優(yōu)間距和當(dāng)前間距設(shè)計(jì)動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù),以保證每兩架無人機(jī)之間的間距保持相對穩(wěn)定,從而引導(dǎo)編隊(duì)保持在特定隊(duì)形。同時(shí),結(jié)合第2.2節(jié)中所定義的獎(jiǎng)勵(lì)函數(shù),使得無人機(jī)編隊(duì)在即將碰撞到障礙物時(shí)能夠進(jìn)行自主編隊(duì)變換。在此基礎(chǔ)上,將本節(jié)中設(shè)計(jì)的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)與MATD3算法進(jìn)行結(jié)合,提出MATD3-IDFRF。

    在進(jìn)行編隊(duì)飛行時(shí),會(huì)對編隊(duì)隊(duì)形進(jìn)行一定的設(shè)置,即將每兩架無人機(jī)之間的距離穩(wěn)定在一個(gè)合理的值附近。為此,以距離為突破口,設(shè)置一條關(guān)于無人機(jī)i和無人機(jī)j之間實(shí)際距離與最優(yōu)距離的獎(jiǎng)勵(lì)函數(shù):

    rd,ij=-100di(j)dopt,ij-1.1di(j)dopt,ij-0.9(24)

    式中:di(j)為無人機(jī)i和無人機(jī)j的實(shí)際距離;dopt,ij為無人機(jī)i和無人機(jī)j之間的最優(yōu)距離。該獎(jiǎng)勵(lì)函數(shù)的示意圖如圖9所示,可以看出獎(jiǎng)勵(lì)值與di(j)/dopt,ij呈二次函數(shù)關(guān)系。當(dāng)di(j)/dopt,ij為1時(shí),二次函數(shù)取得最大值1,即無人機(jī)i和無人機(jī)j的實(shí)際距離和最優(yōu)距離相等時(shí),獎(jiǎng)勵(lì)值最大為1;di(j)/dopt,ij與1偏離越遠(yuǎn),即無人機(jī)i和無人機(jī)j的實(shí)際距離與最優(yōu)距離偏離越遠(yuǎn),獎(jiǎng)勵(lì)值越小。

    對于無人機(jī)i的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì),考慮其與編隊(duì)中其他各架無人機(jī)的rd,ij,表達(dá)式為

    r9=∑Nj=1,j≠ird,ij(25)

    根據(jù)以上推導(dǎo)過程,考慮無人機(jī)動(dòng)態(tài)編隊(duì)時(shí),結(jié)合第2.2節(jié)中的內(nèi)容,在無障礙物環(huán)境中,無人機(jī)i的總獎(jiǎng)勵(lì)定義為

    Ri1r12r23r34r45r58r89r9(26)

    復(fù)合障礙物環(huán)境中,無人機(jī)i的總獎(jiǎng)勵(lì)為

    Ri1r12r25r56r67r78r89r9(27)

    式中:α9為系數(shù),取為1;其他變量的定義與第2.2節(jié)相同。

    2.4 訓(xùn)練算法設(shè)計(jì)流程

    基于MATD3-IDFRF算法的無人機(jī)編隊(duì)路徑規(guī)劃算法流程如算法1所示。

    算法 1 基于MATD3-IDFRF的無人機(jī)編隊(duì)路徑規(guī)劃算法

    輸入 回合數(shù)MaxEpisode,每回合最大時(shí)間步MaxStep,批樣本數(shù)m,獎(jiǎng)勵(lì)加權(quán)系數(shù)α,折扣因子γ,延遲更新頻率C,軟更新系數(shù)τ,高斯噪聲σ

    1. 隨機(jī)初始化各架無人機(jī)i的Critic網(wǎng)絡(luò)參數(shù)wi,1、wi,2,Actor網(wǎng)絡(luò)參數(shù)θi及對應(yīng)的目標(biāo)網(wǎng)絡(luò)參數(shù)

    2. For episode=1 to MaxEpisode do:

    3." 各架無人機(jī)獲取自身觀測狀態(tài)o1,1,o1,2,…,o1,N

    4." For t=1 to MaxStep do:

    5." For i=1 to N do:

    6." 對于每架無人機(jī)執(zhí)行動(dòng)作

    at,i=fclip(μ(ot,i;θ)+N),并通過獎(jiǎng)勵(lì)函數(shù)得到獎(jiǎng)勵(lì)值rt,i,根據(jù)式(6)得到無人機(jī)的下一時(shí)刻狀態(tài)o(t+1),i,判斷是否為本episode終止?fàn)顟B(tài)

    7." End for

    8." 對樣本數(shù)據(jù)

    {ot,1,ot,2,…,ot,N,at,1,at,2,…,at,N,rt,1,rt,2,…,rt,N,o(t+1),1,o(t+1),2,…,o(t+1),N}

    進(jìn)行經(jīng)驗(yàn)存儲(chǔ)。

    9." If StartTrain Do:

    10."" 從經(jīng)驗(yàn)池中隨機(jī)抽取m條樣本數(shù)據(jù)

    11."" For i=1 to N do:

    12."" 將m條樣本數(shù)據(jù)分別輸入Critic網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)得到兩組Q值,根據(jù)式(7)得到無人機(jī)i的目標(biāo)Q

    13."" 根據(jù)式(8)最小化函數(shù)L(wi,j)進(jìn)行Critic網(wǎng)絡(luò)的參數(shù)更新

    14."" 根據(jù)式(11)對Critic目標(biāo)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新

    15."" 每隔C步根據(jù)式(9)進(jìn)行梯度上升,更新Actor網(wǎng)絡(luò)參數(shù),根據(jù)式(10)進(jìn)行Actor目標(biāo)網(wǎng)絡(luò)的參數(shù)更新

    16."" End For

    17." End If

    18. End for

    19.End for

    3 仿真實(shí)驗(yàn)

    3.1 實(shí)驗(yàn)環(huán)境設(shè)計(jì)

    在實(shí)驗(yàn)環(huán)境設(shè)計(jì)中考慮兩個(gè)方面:第一個(gè)是無人機(jī)的飛行環(huán)境設(shè)計(jì);第二個(gè)是無人機(jī)編隊(duì)隊(duì)形設(shè)計(jì)。在飛行環(huán)境部分,設(shè)計(jì)了復(fù)合障礙物環(huán)境,如圖10所示。仿真中,設(shè)置無人機(jī)編隊(duì)包含5架無人機(jī),藍(lán)色實(shí)心點(diǎn)表示無人機(jī)各自的起點(diǎn),紅色叉號(hào)表示無人機(jī)各自的目的地;不帶箭頭的深灰色圓圈表示靜態(tài)障礙物,帶箭頭的深灰色圓圈表示動(dòng)態(tài)障礙物的初始位置,帶箭頭的淺灰色圓圈表示動(dòng)態(tài)障礙物的終止位置。

    在無人機(jī)編隊(duì)隊(duì)形設(shè)計(jì)中,本文選擇楔形隊(duì)形模式,如圖11所示,編隊(duì)的參數(shù)設(shè)置如表1所示。

    由以上所設(shè)定的無人機(jī)編隊(duì)隊(duì)形,可以計(jì)算得到各架無人機(jī)之間的最佳間距,從而確定第2.4節(jié)中設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)相關(guān)參數(shù)。

    本實(shí)驗(yàn)分別采用MADDPG算法、MATD3算法及本文所提出的MATD3-IDFRF算法對上述構(gòu)建的無人機(jī)編隊(duì)路徑規(guī)劃智能決策問題展開研究,3種算法均基于Actor-Critic框架和多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning, MARL)架構(gòu)。3種算法中每架無人機(jī)的Actor網(wǎng)絡(luò)結(jié)構(gòu)、輸入、輸出相同,Critic網(wǎng)絡(luò)輸入所有無人機(jī)的狀態(tài)和動(dòng)作,輸出對應(yīng)的Q值。各個(gè)網(wǎng)絡(luò)采用的超參數(shù)如表2所示。

    3.2 實(shí)驗(yàn)結(jié)果與分析

    根據(jù)第3.1節(jié)所創(chuàng)建的仿真環(huán)境和楔形編隊(duì),并基于第2.4節(jié)的算法流程進(jìn)行訓(xùn)練,分別從路徑圖、編隊(duì)變形率、每回合平均獎(jiǎng)勵(lì)、探索成功率、獎(jiǎng)勵(lì)函數(shù)收斂區(qū)間及獎(jiǎng)勵(lì)函數(shù)收斂后的平均獎(jiǎng)勵(lì)等指標(biāo)對比3種算法的優(yōu)劣。

    在復(fù)合障礙物環(huán)境中,MADDPG算法和MATD3算法依據(jù)的獎(jiǎng)勵(lì)函數(shù)見式(23),MATD3-IDFRF算法依據(jù)的獎(jiǎng)勵(lì)函數(shù)見式(27),算法收斂后無人機(jī)探索的路徑如圖12所示,指標(biāo)結(jié)果如圖13~圖15和表3所示。

    3.2.1 路徑圖

    圖12(a)和圖12(b)分別展示了MADDPG算法、MATD3算法的規(guī)劃路徑,圖12(c)~圖12(f)分別為MATD3-IDFRF算法中無人機(jī)在第0 s、15 s、30 s、58 s時(shí)刻的路徑。3種算法中各架無人機(jī)均能避開靜態(tài)、動(dòng)態(tài)障礙物、其他無人機(jī),成功抵達(dá)各自的目的地。

    MADDPG算法中存在一些多余的路徑,無人機(jī)經(jīng)過較多的繞飛徘徊再抵達(dá)目的地;MATD3算法中各架無人機(jī)路徑更短,繞飛徘徊的情況較少,但是各架無人機(jī)依舊孤立地完成各自的路徑規(guī)劃;MATD3-IDFRF算法中各架無人機(jī)由初始位置出發(fā),然后很快地組成編隊(duì)結(jié)構(gòu),在中途飛行過程中以整體編隊(duì)的結(jié)構(gòu)進(jìn)行避障和路徑規(guī)劃,在特定情況時(shí)對隊(duì)形結(jié)構(gòu)進(jìn)行微調(diào),在抵達(dá)目的地附近時(shí),無人機(jī)能夠打破編隊(duì)結(jié)構(gòu),抵達(dá)各自的目的地。

    3.2.2 編隊(duì)變形率

    設(shè)計(jì)動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)的目的是保證無人機(jī)編隊(duì)在復(fù)雜的飛行場景中保持編隊(duì)隊(duì)形,為此定義編隊(duì)變形率以衡量編隊(duì)隊(duì)形相較于原編隊(duì)隊(duì)形的變化情況,可表示為

    Deformation_rate=∑ni=1offseti(28)

    式中:offseti為無人機(jī)i的距離相對偏移量,定義如下:

    offseti=∑nj=1|di(j)-dopt,ij|dopt,ij(29)

    繪制3種算法所規(guī)劃的無人機(jī)編隊(duì)路徑的變形率曲線如圖13所示。初期,3種算法的編隊(duì)變形率都維持在較低水平;隨后,MATD3-IDFRF算法所指導(dǎo)的無人機(jī)編隊(duì)快速集結(jié)成特定編隊(duì),編隊(duì)變形率降低,而其他算法并未指導(dǎo)無人機(jī)編隊(duì)集結(jié),所以編隊(duì)變形率快速上升;運(yùn)動(dòng)中期,MATD3-IDFRF算法指導(dǎo)的無人機(jī)編隊(duì)始終保持特定編隊(duì)隊(duì)形,所以其編隊(duì)變形率近似為0;在運(yùn)動(dòng)末期,各架無人機(jī)抵達(dá)各自目的地,3種算法的編隊(duì)變形率又大致相同。由此可知,本文所提出的動(dòng)態(tài)編隊(duì)在復(fù)合障礙物環(huán)境中能夠幫助無人機(jī)編隊(duì)實(shí)現(xiàn)編隊(duì)結(jié)構(gòu)的穩(wěn)定性和隊(duì)形變換的自主性,增強(qiáng)了其抵抗突發(fā)威脅的能力。

    3.2.3 每回合的平均獎(jiǎng)勵(lì)變化

    在RL任務(wù)中,訓(xùn)練結(jié)果的評(píng)價(jià)指標(biāo)可用回合的平均獎(jiǎng)勵(lì)值來進(jìn)行評(píng)估?;睾系钠骄?jiǎng)勵(lì)值是智能體最近回合所得獎(jiǎng)勵(lì)的平均值,是智能體訓(xùn)練所得的獎(jiǎng)勵(lì)值隨回合變化的曲線,獎(jiǎng)勵(lì)值上升越快,獎(jiǎng)勵(lì)值收斂時(shí)越平穩(wěn),算法訓(xùn)練的效果越好。在本實(shí)驗(yàn)中,使用最近200回合的平均獎(jiǎng)勵(lì)作為最終的回合平均獎(jiǎng)勵(lì)值,并且考慮到MATD3-IDFRF算法與兩種對比算法使用的獎(jiǎng)勵(lì)函數(shù)并不同,使用歸一化的手段來消除不同獎(jiǎng)勵(lì)函數(shù)在數(shù)值上的差異,對3種算法獎(jiǎng)勵(lì)值的收斂效果進(jìn)行對比。在本實(shí)驗(yàn)中,將編隊(duì)中的5架無人機(jī)獎(jiǎng)勵(lì)取平均值,對3種算法歸一化后的獎(jiǎng)勵(lì)值隨訓(xùn)練回合數(shù)的滑動(dòng)均值曲線繪制在同一坐標(biāo)軸內(nèi),如圖14所示。

    根據(jù)圖14可知,經(jīng)過9 000回合的訓(xùn)練,3種算法最終都達(dá)到了收斂的結(jié)果,但是3種算法在性能表現(xiàn)上有所差異。經(jīng)過比較,MATD3-IDFRF算法的收斂速度最快,在大約4 000回合時(shí),無人機(jī)已經(jīng)找到了最優(yōu)決策,此后其平均獎(jiǎng)勵(lì)值快速收斂于穩(wěn)定區(qū)間,而其他方案收斂效率明顯更低。同時(shí),相較于兩種對比算法,MATD3-IDFRF算法在收斂后能夠保持較好的穩(wěn)定性能,表明本文所提出的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)能夠幫助無人機(jī)編隊(duì)輸出更穩(wěn)定的策略。

    3.2.4 對比指標(biāo)

    3種算法的對比指標(biāo)如表3所示。3種算法所規(guī)劃的無人機(jī)平均路徑大致相當(dāng),但是編隊(duì)變形率差異較大,MATD3-IDFRF算法的編隊(duì)變形率最小,其相較于MATD3算法降低了97%。在6 000回合之后,獎(jiǎng)勵(lì)函數(shù)趨于收斂,考慮到MATD3-IDFRF算法依據(jù)動(dòng)態(tài)編隊(duì)的獎(jiǎng)勵(lì)函數(shù),在復(fù)合障礙物環(huán)境中其對每輪的獎(jiǎng)勵(lì)會(huì)造成大約350的增益,因此需減去這部分的增益??梢钥闯?,MATD3-IDFRF算法收斂時(shí)的獎(jiǎng)勵(lì)平均值最大,其相較于MATD3算法提升了2.3%,且區(qū)間范圍最小,顯示本文所提出的改進(jìn)算法的優(yōu)勢,其可幫助無人機(jī)編隊(duì)更快、更穩(wěn)定地完成任務(wù)執(zhí)行。MATD3-IDFRF算法指導(dǎo)無人機(jī)編隊(duì)在第4 338回合獲得了最優(yōu)的路徑,而其他算法在整個(gè)訓(xùn)練過程中均未獲得最優(yōu)路徑。

    3.2.5 成功率

    無人機(jī)在每回合訓(xùn)練中有成功和失敗兩種情況,成功意味著無人機(jī)順利避開障礙物,在規(guī)定步數(shù)內(nèi)抵達(dá)目的地,失敗則是指無人機(jī)碰到障礙物或步數(shù)超過最大步數(shù)MaxStep。為了對比不同算法的收斂速度,定義第n回合的成功率指標(biāo)如下:

    success_rate(n)=En(30)

    式中:E表示前n回合成功數(shù)。圖15展示了3種算法的成功率曲線。由圖15可見,訓(xùn)練初期,3種算法的成功率均為0,表明無人機(jī)編隊(duì)未抵達(dá)終點(diǎn)。此后,MATD3-IDFRF算法的成功率率先大于0,表明無人機(jī)編隊(duì)首次抵達(dá)終點(diǎn)。在訓(xùn)練中期,3種算法的曲線快速上升,其中MATD3-IDFRF算法的曲線上升速度最快,表明其學(xué)習(xí)效率更高。在訓(xùn)練后期,3種算法的曲線都比較平滑,表明無人機(jī)編隊(duì)每次訓(xùn)練都能夠抵達(dá)終點(diǎn)。在訓(xùn)練結(jié)束之后,MATD3-IDFRF算法的成功率相較于MATD3算法提升了6.8%。在整個(gè)訓(xùn)練過程中,MATD3-IDFRF算法的成功率普遍大于另外兩種算法。

    以上各類指標(biāo)均反映出MATD3-IDFRF算法在指導(dǎo)無人機(jī)編隊(duì)進(jìn)行路徑規(guī)劃時(shí),引導(dǎo)其形成穩(wěn)定的編隊(duì)結(jié)構(gòu),當(dāng)編隊(duì)將要碰到障礙物或者抵達(dá)目的地時(shí)進(jìn)行隊(duì)形調(diào)整,同時(shí)能夠更高效、穩(wěn)定地尋求到最優(yōu)決策,顯示了本文所提出的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)的優(yōu)勢。

    接下來將本文提出的編隊(duì)方法與傳統(tǒng)編隊(duì)方法進(jìn)行對比,對比算法為孫田野等34提出的改進(jìn)Quatre(improved Quatre, IQuatre)算法多無人機(jī)編隊(duì)方法進(jìn)行航跡規(guī)劃,無人機(jī)的路徑如圖16所示。不難發(fā)現(xiàn),與本文所提出的編隊(duì)算法相比,這種方法在無人機(jī)編隊(duì)過程中路徑不夠平滑且無人機(jī)在飛行中不能夠一直保持很好的編隊(duì)效果,穩(wěn)定性較差,從而進(jìn)一步表明了本文所提算法在無人機(jī)編隊(duì)路徑規(guī)劃問題中的優(yōu)勢。

    3.3 測試結(jié)果對比

    為了測試算法的泛化能力,針對第3.1節(jié)中的復(fù)合障礙物環(huán)境下的3種算法重新設(shè)計(jì)實(shí)驗(yàn)環(huán)境。動(dòng)態(tài)障礙物分別從[3 000,2 500]m、[7 000,7 500]m移動(dòng)到[3 000,7 960]m、[7 000,2 300]m,移動(dòng)速度為分別為105 m/s和100 m/s。各無人機(jī)從起點(diǎn)出發(fā)抵達(dá)目的地,3種算法的測試結(jié)果如圖17所示。根據(jù)仿真結(jié)果,3種算法均能指導(dǎo)各架無人機(jī)成功抵達(dá)目的地。對比MADDPG算法和MATD3算法的路徑,后者要明顯優(yōu)于前者,各架無人機(jī)所規(guī)劃的路徑更短,說明MATD3算法在處理無人機(jī)編隊(duì)路徑規(guī)劃問題上更有效。對比MATD3算法和MATD3-IDFRF算法,MATD3-IDFRF算法中各架無人機(jī)從起點(diǎn)出發(fā),迅速向中間靠攏,形成穩(wěn)定的編隊(duì)結(jié)構(gòu),以編隊(duì)的形式向目的地方向移動(dòng),同時(shí)在編隊(duì)將碰到障礙物和編隊(duì)抵達(dá)目的地時(shí)能很好地進(jìn)行編隊(duì)調(diào)整,進(jìn)一步證明了本文所提出的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)的優(yōu)越性。

    4 結(jié) 論

    本文針對無人機(jī)編隊(duì)路徑規(guī)劃問題,建立無人機(jī)編隊(duì)的運(yùn)動(dòng)學(xué)模型,并提出基于MATD3-IDFRF算法的無人機(jī)編隊(duì)路徑規(guī)劃智能決策方案。首先,設(shè)計(jì)了不考慮動(dòng)態(tài)編隊(duì)的獎(jiǎng)勵(lì)函數(shù),即將無人機(jī)編隊(duì)路徑規(guī)劃分解為多個(gè)單無人機(jī)路徑規(guī)劃。同時(shí),為了發(fā)揮編隊(duì)的優(yōu)勢,提升編隊(duì)變換的自主性和編隊(duì)結(jié)構(gòu)的穩(wěn)定性,設(shè)計(jì)基于每兩架無人機(jī)之間當(dāng)前間距和最優(yōu)間距的獎(jiǎng)勵(lì)函數(shù),并在此基礎(chǔ)上提出MATD3-IDFRF算法。在實(shí)驗(yàn)部分,設(shè)計(jì)復(fù)合障礙物環(huán)境,通過對比所規(guī)劃的路徑、編隊(duì)變形率、每回合累計(jì)獎(jiǎng)勵(lì)、成功率、輸出最佳決策的時(shí)間等指標(biāo),驗(yàn)證本文提出的基于MATD3-IDFRF算法的智能決策方案的優(yōu)勢,顯示本文所提出的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)能有效提升編隊(duì)結(jié)構(gòu)的穩(wěn)定性和編隊(duì)變換的自主性,提升無人機(jī)編隊(duì)在未知?jiǎng)討B(tài)環(huán)境下應(yīng)對突發(fā)威脅的能力。

    參考文獻(xiàn)

    [1] 賈永楠, 田似營, 李擎. 無人機(jī)集群研究進(jìn)展綜述[J]. 航空學(xué)報(bào), 2020, 41(S1): 414.

    JIA Y N, TIAN S Y, LI Q. Recent development of unmanned aerial vehicle swarms[J]. Acta Aeronauticaet Astronautica Sinica, 2020, 41(S1): 414.

    [2] AL-HILO A, SAMIR M, ASSI C, et al. UAV-assisted content delivery in intelligent transportation systems-joint trajectory planning and cache management[J]. IEEE Trans.on Intelligent Transportation Systems, 2020, 22(8): 51555167.

    [3] ERDELJ M, NATALIZIO E, CHOWDHURY K R, et al. Help from the sky: leveraging UAVs for disaster management[J]. IEEE Pervasive Computing, 2017, 16(1): 2432.

    [4] 宗群, 王丹丹, 邵士凱, 等. 多無人機(jī)協(xié)同編隊(duì)飛行控制研究現(xiàn)狀及發(fā)展[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2017, 49(3): 114.

    ZONG Q, WANG D D, SHAO S K, et al. Research status and development of multi UAV coordinated formation flight control[J]. Journal of Harbin Institute of Technology, 2017, 49(3): 114.

    [5] SHAO X L, LIU H C, ZHANG W D, et al. Path driven formation-containment control of multiple UAVs: a path-following framework[J]. Aerospace Science and Technology, 2023, 135: 108168.

    [6] CHEN L, DUAN H B. Collision-free formation-containment control for a group of UAVs with unknown disturbances[J]. Aerospace Science and Technology, 202 126: 107618.

    [7] SHAO S K, PENG Y, HE C L, et al. Efficient path planning for UAV formation via comprehensively improved particle swarm optimization[J]. ISA Transactions, 2020, 97: 415430.

    [8] WU Y, GOU J Z, HU X T, et al. A new consensus theory-based method for formation control and obstacle avoidance of UAVs[J]. Aerospace Science and Technology, 2020, 107: 106332.

    [9] QU C Z, GAI W D, ZHONG M Y, et al. A novel reinforcement learning based grey wolf optimizer algorithm for unmanned aerial vehicles (UAVs) path planning[J]. Applied Soft Computing, 2020, 89: 106099.

    [10] ZHANG Z, WU J, DAI J Y, et al. A novel real-time penetration path planning algorithm for stealth UAV in 3D complex dynamic environment[J]. IEEE Access, 2020, 8: 122757122771.

    [11] 吳文海, 郭曉峰, 周思羽. 基于改進(jìn)約束差分進(jìn)化算法的動(dòng)態(tài)航跡規(guī)劃[J]. 控制與決策, 2020, 35(10): 23812390.

    WU W H, GUO X F, ZHOU S Y. Dynamic route planning based on improved constrained differential evolution algorithm[J]. Control and Decision, 2020, 35(10): 23812390.

    [12] YU X B, JIANG N J, WANG X M, et al. A hybrid algorithm based on grey wolf optimizer and differential evolution for UAV path planning[J]. Expert Systems with Applications, 2023, 215: 119327.

    [13] XU L, CAO X B, DU W B, et al. Cooperative path planning optimization for multiple UAVs with communication constraints[J]. Knowledge-Based Systems, 2023, 260: 110164.

    [14] SILVA J A G, SANTOS D H, NEGREIROS A P F, et al. High-level path planning for an autonomous sailboat robot using Q-Learning[J]. Sensors, 2020, 20(6): 1550.

    [15] 孫輝輝, 胡春鶴, 張軍國. 移動(dòng)機(jī)器人運(yùn)動(dòng)規(guī)劃中的深度強(qiáng)化學(xué)習(xí)方法[J]. 控制與決策, 202 36(6): 12811292.

    SUN H H, HU C H, ZHANG J G. Deep reinforcement learning for motion planning of mobile robots[J]. Control and Decision, 202 36(6): 12811292.

    [16] LI X J, LIU H, LI J Q, et al. Deep deterministic policy gradient algorithm for crowd-evacuation path planning[J]. Computers amp; Industrial Engineering, 202 161: 107621.

    [17] ZHANG S T, LI Y B, DONG Q. Autonomous navigation of UAV in multi-obstacle environments based on a deep reinforcement learning approach[J]. Applied Soft Computing, 202 115: 108194.

    [18] POLYDOROS A S, NALPANTIDIS L. Survey of model-based reinforcement learning: applications on robotics[J]. Journal of Intelligent amp; Robotic Systems, 2017, 86(2): 153173.

    [19] ZHANG F J, LI J, LI Z. A TD3-based multi-agent deep reinforcement learning method in mixed cooperation-competition environment[J]. Neurocomputing, 2020, 411: 206215.

    [20] SUI D, XU W P, ZHANG K. Study on the resolution of multi-aircraft flight conflicts based on an IDQN[J]. Chinese Journal of Aeronautics, 202 35(2): 195213.

    [21] 周治國, 余思雨, 于家寶, 等. 面向無人艇的T-DQN智能避障算法研究[J]. 自動(dòng)化學(xué)報(bào), 2023, 49(8): 16451655.

    ZHOU Z G, YU S Y, YU J B, et al. Research on T-DQN intelligent obstacle avoidance algorithm of unmanned surface vehicle[J]. Acta Automatica Sinica, 2023, 49(8): 16451655.

    [22] YAN C, XIANG X J, WANG C. Towards real-time path planning through deep reinforcement learning for a UAV in dynamic environments[J]. Journal of Intelligent amp; Robotic Systems, 2020, 98: 297309.

    [23] 楊秀霞, 王晨蕾, 張毅, 等. 基于逆向強(qiáng)化學(xué)習(xí)的無人機(jī)路徑規(guī)劃[J]. 電光與控制, 2023, 30(8): 17.

    YANG X X, WANG C L, ZHANG Y, et al. UAV path planning based on reverse reinforcement learning[J]. Electronics Optics amp; Control, 2023, 30(8): 17.

    [24] QIE H, SHI D X, SHEN T L, et al. Joint optimization of multi-UAV target assignment and path planning based on multi-agent reinforcement learning[J]. IEEE Access, 2019, 7: 146264146272.

    [25] ZHOU C H, LI J X, SHI Y J, et al. Research on multi-robot formation control based on MATD3 algorithm[J]. Applied Sciences, 2023, 13(3): 1874.

    [26] WU Y, GOU J Z, JI H L, et al. Hierarchical mission replanning for multiple UAV formations performing tasks in dynamic situation[J]. Computer Communications, 2023, 200: 132148.

    [27] PAN Z H, ZHANG C X, XIA Y Q, et al. An improved artificial potential field method for path planning and formation control of the multi-UAV systems[J]. IEEE Trans.on Circuits and Systems II: Express Briefs, 202 69(3): 11291133.

    [28] TAHIR A, BOLING J M, HAGHBAYAN M H, et al. Comparison of linear and nonlinear methods for distributed control of a hierarchical formation of UAVs[J]. IEEE Access, 2020, 8: 9566795680.

    [29] 王錦錦, 祁圣君, 鐘海, 等. 基于Dubins曲線的一致性編隊(duì)集結(jié)控制[J]. 計(jì)算機(jī)仿真, 202 38(7): 4044.

    WANG J J, QI S J, ZHONG H, et al. Consistent formation aggregation control based on dubins curve[J]. Computer Simulation, 202 38(7): 4044.

    [30] TANG J. Analysis and improvement of traffic alert and collision avoidance system[J]. IEEE Access, 2017, 5: 2141921429.

    [31] LIU H, PENG F C, MODARES H, et al. Heterogeneous formation control of multiple rotorcrafts with unknown dynamics by reinforcement learning[J]. Information Sciences, 202 558: 194207.

    [32] PAN C, PENG Z H, LIU L, et al. Data-driven distributed formation control of under-actuated unmanned surface vehicles with collision avoidance via model-based deep reinforcement learning[J]. Ocean Engineering, 2023, 267: 113166.

    [33] ZHANG Y, MOU Z Y, GAO F F, et al. UAV-enabled secure communications by multi-agent deep reinforcement learning[J]. IEEE Trans.on Vehicular Technology, 2020, 69(10): 1159911611.

    [34] 孫田野, 孫偉, 吳建軍. 改進(jìn)Quatre算法的無人機(jī)編隊(duì)快速集結(jié)方法[J]. 系統(tǒng)工程與電子技術(shù), 202 44(9): 28402848.

    SUN T Y, SUN W, WU J J. UAV formation rapid assembly method based on improved Quatre algorithm[J]. Systems Engineering and Electronics, 202 44(9): 28402848.

    作者簡介

    唐 恒(1998—),男,碩士研究生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、無人機(jī)編隊(duì)路徑規(guī)劃。

    孫 偉(1980—),男,教授,博士,主要研究方向?yàn)殚_放環(huán)境中不確定條件下的感知與行為的機(jī)器理解、復(fù)雜任務(wù)規(guī)劃與推理。

    呂 磊(1995—),男,博士研究生,主要研究方向?yàn)槎酂o人機(jī)協(xié)同控制、航跡規(guī)劃。

    賀若飛(1982—),男,副研究員,博士,主要研究方向?yàn)闊o人機(jī)系統(tǒng)工程與總體設(shè)計(jì)、智能無人機(jī)協(xié)同控制。

    吳建軍(1972—),男,副研究員,博士,主要研究方向?yàn)闊o人機(jī)系統(tǒng)飛控及總體設(shè)計(jì)。

    孫昌浩(1987—),男,高級(jí)工程師,博士,主要研究方向?yàn)椴┺膶W(xué)習(xí)、分布式協(xié)同決策理論與應(yīng)用。

    孫田野(1995—),男,博士研究生,主要研究方向?yàn)槎酂o人機(jī)系統(tǒng)與無人機(jī)路徑規(guī)劃。

    猜你喜歡
    無人機(jī)
    基于蟻群算法的一種無人機(jī)二維航跡規(guī)劃方法研究
    無人機(jī)動(dòng)態(tài)跟蹤展示系統(tǒng)設(shè)計(jì)
    無人機(jī)配送的障礙性因素分析
    無人機(jī)在海上人命救助中的應(yīng)用
    植保無人機(jī)操作規(guī)程及注意事項(xiàng)
    高職院校新開設(shè)無人機(jī)專業(yè)的探討
    人間(2016年26期)2016-11-03 17:52:40
    利用無人機(jī)進(jìn)行航測工作的方式方法
    一種適用于輸電線路跨線牽引無人機(jī)的飛行方案設(shè)計(jì)
    科技視界(2016年22期)2016-10-18 14:30:27
    淺析無人機(jī)技術(shù)在我國的發(fā)展前景
    99国产精品一区二区蜜桃av| 嫩草影院精品99| 嫩草影院精品99| 哪里可以看免费的av片| 免费高清视频大片| 久久久国产精品麻豆| 综合色av麻豆| 丰满人妻一区二区三区视频av | 97超级碰碰碰精品色视频在线观看| 国内精品久久久久久久电影| 成人18禁在线播放| 麻豆一二三区av精品| 国产精品99久久99久久久不卡| 大型黄色视频在线免费观看| 美女大奶头视频| 人妻夜夜爽99麻豆av| 国产野战对白在线观看| 久久精品夜夜夜夜夜久久蜜豆| 宅男免费午夜| www.999成人在线观看| 最近视频中文字幕2019在线8| 麻豆av在线久日| 一本一本综合久久| 国产单亲对白刺激| 日日摸夜夜添夜夜添小说| 亚洲自偷自拍图片 自拍| 白带黄色成豆腐渣| 老司机在亚洲福利影院| 此物有八面人人有两片| 99热只有精品国产| 深夜精品福利| 欧美午夜高清在线| 亚洲精品色激情综合| 免费电影在线观看免费观看| 久久香蕉国产精品| 90打野战视频偷拍视频| 日本a在线网址| 男女视频在线观看网站免费| 男女视频在线观看网站免费| a在线观看视频网站| 黄片大片在线免费观看| 后天国语完整版免费观看| 国产欧美日韩一区二区精品| 久久久国产成人免费| av女优亚洲男人天堂 | 亚洲欧美日韩东京热| 一本综合久久免费| 99久久99久久久精品蜜桃| 国产探花在线观看一区二区| 91麻豆av在线| 美女 人体艺术 gogo| 色精品久久人妻99蜜桃| 九九热线精品视视频播放| 久久精品aⅴ一区二区三区四区| 久久久国产欧美日韩av| 亚洲 欧美 日韩 在线 免费| 老熟妇乱子伦视频在线观看| 99视频精品全部免费 在线 | 亚洲黑人精品在线| 精品久久久久久久末码| 禁无遮挡网站| 亚洲欧美激情综合另类| 黑人操中国人逼视频| 国产高潮美女av| АⅤ资源中文在线天堂| 后天国语完整版免费观看| 亚洲欧美日韩高清在线视频| 好男人电影高清在线观看| 欧美性猛交黑人性爽| 亚洲人与动物交配视频| 欧美高清成人免费视频www| av天堂在线播放| 偷拍熟女少妇极品色| 国产97色在线日韩免费| 白带黄色成豆腐渣| 国产91精品成人一区二区三区| 这个男人来自地球电影免费观看| 精品国产乱子伦一区二区三区| 国产一区二区三区视频了| 五月玫瑰六月丁香| 给我免费播放毛片高清在线观看| 亚洲av中文字字幕乱码综合| 男人舔奶头视频| 亚洲av电影在线进入| x7x7x7水蜜桃| 日韩国内少妇激情av| 99re在线观看精品视频| 国产成人影院久久av| 男女那种视频在线观看| 国产三级中文精品| 亚洲欧美一区二区三区黑人| 亚洲欧洲精品一区二区精品久久久| 亚洲精品一卡2卡三卡4卡5卡| 久久婷婷人人爽人人干人人爱| 国模一区二区三区四区视频 | 网址你懂的国产日韩在线| 国产又色又爽无遮挡免费看| 免费搜索国产男女视频| 精品国产乱子伦一区二区三区| 亚洲国产高清在线一区二区三| 午夜福利在线在线| 国产一区二区在线观看日韩 | 亚洲国产精品合色在线| 三级国产精品欧美在线观看 | 精品久久蜜臀av无| 99国产精品99久久久久| av天堂中文字幕网| av中文乱码字幕在线| 国产精品一区二区三区四区久久| 69av精品久久久久久| 三级毛片av免费| 国产 一区 欧美 日韩| 国产毛片a区久久久久| 午夜福利在线观看免费完整高清在 | 国产成人精品久久二区二区91| 最近在线观看免费完整版| 蜜桃久久精品国产亚洲av| 小蜜桃在线观看免费完整版高清| 色哟哟哟哟哟哟| 国产主播在线观看一区二区| 国产精品女同一区二区软件 | 欧美色欧美亚洲另类二区| 色综合婷婷激情| 日本与韩国留学比较| 欧美激情在线99| 亚洲第一电影网av| 男人舔女人的私密视频| 成在线人永久免费视频| 亚洲第一电影网av| av中文乱码字幕在线| 国产成人精品久久二区二区91| 久久久久精品国产欧美久久久| 国产极品精品免费视频能看的| 色综合站精品国产| 欧美成人免费av一区二区三区| 黄色日韩在线| 午夜福利免费观看在线| 亚洲欧洲精品一区二区精品久久久| 我的老师免费观看完整版| 精品久久久久久久毛片微露脸| 女人被狂操c到高潮| 曰老女人黄片| 国产av不卡久久| e午夜精品久久久久久久| 亚洲最大成人中文| 亚洲精品色激情综合| 午夜激情欧美在线| 国产亚洲av高清不卡| 日韩三级视频一区二区三区| 欧美丝袜亚洲另类 | 一本久久中文字幕| 精品久久久久久久人妻蜜臀av| 亚洲美女黄片视频| 性色avwww在线观看| 啦啦啦韩国在线观看视频| 婷婷亚洲欧美| 国产精品久久久久久精品电影| 免费人成视频x8x8入口观看| av片东京热男人的天堂| 国产午夜福利久久久久久| 欧美一区二区国产精品久久精品| 午夜成年电影在线免费观看| av天堂在线播放| 欧美黑人巨大hd| 亚洲在线自拍视频| 日韩 欧美 亚洲 中文字幕| 这个男人来自地球电影免费观看| 人人妻人人看人人澡| 在线视频色国产色| 成人性生交大片免费视频hd| 一本综合久久免费| 亚洲18禁久久av| 久久久久性生活片| 亚洲 欧美 日韩 在线 免费| 国产高清有码在线观看视频| 国产欧美日韩精品一区二区| 男女做爰动态图高潮gif福利片| 亚洲色图 男人天堂 中文字幕| 国产亚洲精品一区二区www| 精品国产美女av久久久久小说| 久久久国产成人免费| 又黄又粗又硬又大视频| 亚洲激情在线av| 狂野欧美白嫩少妇大欣赏| 国内精品一区二区在线观看| 亚洲国产欧美人成| 成人18禁在线播放| 亚洲国产精品999在线| 午夜福利视频1000在线观看| 不卡av一区二区三区| 亚洲av免费在线观看| 桃色一区二区三区在线观看| 亚洲成人久久性| 亚洲av第一区精品v没综合| 一本精品99久久精品77| 欧美av亚洲av综合av国产av| 99精品久久久久人妻精品| 不卡av一区二区三区| 男女床上黄色一级片免费看| 欧美极品一区二区三区四区| 婷婷精品国产亚洲av在线| 日本免费a在线| 天堂影院成人在线观看| 日韩欧美精品v在线| 男人的好看免费观看在线视频| 看黄色毛片网站| 99久久精品热视频| 国内精品久久久久久久电影| 我的老师免费观看完整版| 日本a在线网址| 免费观看精品视频网站| 黄色女人牲交| 久久久国产成人精品二区| 熟女电影av网| 亚洲欧美一区二区三区黑人| 日韩欧美在线乱码| 长腿黑丝高跟| 中文在线观看免费www的网站| 久久欧美精品欧美久久欧美| 国产亚洲精品久久久com| 国产亚洲精品一区二区www| 黄片小视频在线播放| e午夜精品久久久久久久| 亚洲中文字幕日韩| 国产高清有码在线观看视频| 国产亚洲精品av在线| 国产精品免费一区二区三区在线| 国产v大片淫在线免费观看| 99久久久亚洲精品蜜臀av| 91在线精品国自产拍蜜月 | 天堂影院成人在线观看| 神马国产精品三级电影在线观看| 久久性视频一级片| 欧美激情久久久久久爽电影| av在线天堂中文字幕| 色视频www国产| 欧美日韩国产亚洲二区| 国产高潮美女av| 日韩欧美三级三区| 热99re8久久精品国产| 免费无遮挡裸体视频| 国产精品九九99| 成人18禁在线播放| 人人妻人人澡欧美一区二区| 亚洲欧美日韩高清专用| 亚洲欧美精品综合一区二区三区| 91在线精品国自产拍蜜月 | 国产乱人视频| а√天堂www在线а√下载| 怎么达到女性高潮| 久久久成人免费电影| 美女高潮的动态| 午夜福利在线观看免费完整高清在 | 亚洲真实伦在线观看| 18禁裸乳无遮挡免费网站照片| 搡老熟女国产l中国老女人| 中文字幕人妻丝袜一区二区| 制服人妻中文乱码| av国产免费在线观看| 在线观看日韩欧美| 身体一侧抽搐| 久久久久九九精品影院| 免费av不卡在线播放| 成在线人永久免费视频| 成人精品一区二区免费| 亚洲精品美女久久av网站| 欧洲精品卡2卡3卡4卡5卡区| 99国产极品粉嫩在线观看| 一本一本综合久久| 亚洲国产高清在线一区二区三| 亚洲av熟女| 看片在线看免费视频| 在线免费观看的www视频| 成熟少妇高潮喷水视频| 91av网一区二区| 成人性生交大片免费视频hd| 成年女人看的毛片在线观看| 日韩av在线大香蕉| 老司机深夜福利视频在线观看| 久久精品影院6| 久久伊人香网站| 国产三级在线视频| 中文字幕精品亚洲无线码一区| 中文亚洲av片在线观看爽| 18禁美女被吸乳视频| 人人妻人人看人人澡| 岛国视频午夜一区免费看| www.精华液| 久久久国产欧美日韩av| 夜夜夜夜夜久久久久| 悠悠久久av| 高清毛片免费观看视频网站| 久久国产精品影院| 亚洲av熟女| 搡老熟女国产l中国老女人| 麻豆国产97在线/欧美| 最近最新中文字幕大全电影3| 美女大奶头视频| 99热6这里只有精品| 国产午夜福利久久久久久| 亚洲五月天丁香| 特级一级黄色大片| 一个人免费在线观看电影 | 亚洲国产欧美一区二区综合| 老熟妇乱子伦视频在线观看| 亚洲aⅴ乱码一区二区在线播放| 久久久久免费精品人妻一区二区| 舔av片在线| 久久亚洲真实| 午夜视频精品福利| 国产av不卡久久| 色综合欧美亚洲国产小说| 两个人的视频大全免费| 观看美女的网站| 丰满人妻熟妇乱又伦精品不卡| 国产精品久久久久久久电影 | 久久久水蜜桃国产精品网| 熟女少妇亚洲综合色aaa.| 神马国产精品三级电影在线观看| 中国美女看黄片| 天堂av国产一区二区熟女人妻| 午夜福利在线在线| 久久中文字幕人妻熟女| svipshipincom国产片| 久久久久亚洲av毛片大全| 俺也久久电影网| 欧美激情久久久久久爽电影| or卡值多少钱| 怎么达到女性高潮| 热99在线观看视频| 成人鲁丝片一二三区免费| 亚洲一区二区三区色噜噜| 叶爱在线成人免费视频播放| 法律面前人人平等表现在哪些方面| 精品国产亚洲在线| 听说在线观看完整版免费高清| 中文字幕最新亚洲高清| 国产精品亚洲一级av第二区| 啦啦啦免费观看视频1| 久久九九热精品免费| 国产亚洲精品一区二区www| 无遮挡黄片免费观看| 一本一本综合久久| 亚洲自偷自拍图片 自拍| 成人三级黄色视频| 男人舔女人的私密视频| 男女之事视频高清在线观看| 99久久成人亚洲精品观看| 久久国产乱子伦精品免费另类| 在线观看日韩欧美| 亚洲中文字幕日韩| 亚洲av第一区精品v没综合| 在线播放国产精品三级| 99国产极品粉嫩在线观看| 久久久久九九精品影院| 国内精品一区二区在线观看| 欧美性猛交╳xxx乱大交人| 99热这里只有是精品50| 亚洲国产中文字幕在线视频| 精品一区二区三区视频在线观看免费| 岛国在线免费视频观看| xxx96com| av国产免费在线观看| 午夜激情福利司机影院| 国产视频一区二区在线看| 欧美激情在线99| 搞女人的毛片| 欧美一区二区国产精品久久精品| 亚洲在线观看片| 久久99热这里只有精品18| e午夜精品久久久久久久| 在线观看66精品国产| 亚洲七黄色美女视频| netflix在线观看网站| 久久香蕉国产精品| 真实男女啪啪啪动态图| 久久精品人妻少妇| 成人av在线播放网站| h日本视频在线播放| 一个人免费在线观看电影 | 99热只有精品国产| 国产av一区在线观看免费| 亚洲国产精品sss在线观看| 性色av乱码一区二区三区2| 深夜精品福利| 成熟少妇高潮喷水视频| 2021天堂中文幕一二区在线观| 国产一区二区三区在线臀色熟女| 舔av片在线| 成熟少妇高潮喷水视频| av在线蜜桃| 日本免费a在线| 国产av麻豆久久久久久久| 国产激情偷乱视频一区二区| 1000部很黄的大片| 国产精品av久久久久免费| 成人18禁在线播放| www.自偷自拍.com| 色精品久久人妻99蜜桃| 国产伦精品一区二区三区四那| 欧美在线黄色| 一级作爱视频免费观看| 曰老女人黄片| 精品久久久久久久毛片微露脸| 午夜久久久久精精品| 搡老岳熟女国产| 国产精品美女特级片免费视频播放器 | 欧美日本视频| 精品国产乱码久久久久久男人| 国产伦在线观看视频一区| 亚洲精品中文字幕一二三四区| 久久久久国产精品人妻aⅴ院| 99国产精品一区二区蜜桃av| 国产精品亚洲一级av第二区| 别揉我奶头~嗯~啊~动态视频| 97碰自拍视频| 亚洲欧美精品综合久久99| 久久精品夜夜夜夜夜久久蜜豆| 99久久成人亚洲精品观看| 88av欧美| 亚洲国产欧美网| 香蕉丝袜av| 亚洲欧美日韩东京热| 亚洲五月天丁香| 成年女人看的毛片在线观看| 午夜激情欧美在线| 欧美在线黄色| 国产 一区 欧美 日韩| 哪里可以看免费的av片| 国产亚洲精品一区二区www| 两个人视频免费观看高清| 网址你懂的国产日韩在线| 嫁个100分男人电影在线观看| 欧美日韩黄片免| 99久久国产精品久久久| 日韩成人在线观看一区二区三区| 日本在线视频免费播放| 哪里可以看免费的av片| 国产伦在线观看视频一区| 欧美在线一区亚洲| 精品国产亚洲在线| 国内精品久久久久久久电影| 男女下面进入的视频免费午夜| 欧美大码av| 国产午夜精品久久久久久| 久久久久免费精品人妻一区二区| 欧美黑人巨大hd| 国产午夜福利久久久久久| 黄色片一级片一级黄色片| 在线视频色国产色| 制服人妻中文乱码| 成人特级av手机在线观看| 好看av亚洲va欧美ⅴa在| 免费人成视频x8x8入口观看| 最新美女视频免费是黄的| 宅男免费午夜| 在线国产一区二区在线| 日本a在线网址| 精品不卡国产一区二区三区| av女优亚洲男人天堂 | 国产久久久一区二区三区| 亚洲av免费在线观看| 中文字幕高清在线视频| 日本a在线网址| 久久香蕉精品热| 国产精品美女特级片免费视频播放器 | 久久久久九九精品影院| www.自偷自拍.com| 亚洲国产中文字幕在线视频| 亚洲精品美女久久av网站| 国产午夜精品论理片| 母亲3免费完整高清在线观看| 成人特级黄色片久久久久久久| 日韩有码中文字幕| 亚洲国产精品999在线| 高清在线国产一区| 琪琪午夜伦伦电影理论片6080| 日韩国内少妇激情av| 这个男人来自地球电影免费观看| 又粗又爽又猛毛片免费看| 精品久久蜜臀av无| 深夜精品福利| 国产伦一二天堂av在线观看| a在线观看视频网站| 欧美+亚洲+日韩+国产| 精品日产1卡2卡| 91麻豆精品激情在线观看国产| 看片在线看免费视频| 欧美成人性av电影在线观看| 熟女电影av网| 国产日本99.免费观看| 亚洲国产看品久久| 99热这里只有是精品50| 国内毛片毛片毛片毛片毛片| 又紧又爽又黄一区二区| 熟女人妻精品中文字幕| avwww免费| 啦啦啦韩国在线观看视频| 国产黄色小视频在线观看| 亚洲中文字幕日韩| 色视频www国产| 他把我摸到了高潮在线观看| 国产激情偷乱视频一区二区| 色播亚洲综合网| 亚洲成人久久性| 中出人妻视频一区二区| 男女床上黄色一级片免费看| 熟妇人妻久久中文字幕3abv| 青草久久国产| av中文乱码字幕在线| 高清在线国产一区| 一个人免费在线观看的高清视频| 变态另类成人亚洲欧美熟女| 亚洲成人免费电影在线观看| 免费在线观看亚洲国产| 国产精品久久久久久精品电影| 99久久精品一区二区三区| 久久久久久久精品吃奶| 老熟妇仑乱视频hdxx| 亚洲一区高清亚洲精品| 一级a爱片免费观看的视频| 中出人妻视频一区二区| av国产免费在线观看| 美女高潮的动态| 2021天堂中文幕一二区在线观| 国产亚洲欧美98| 美女免费视频网站| 精品一区二区三区av网在线观看| 男女之事视频高清在线观看| 人妻夜夜爽99麻豆av| 亚洲第一欧美日韩一区二区三区| 国产精品,欧美在线| 国产熟女xx| 丝袜人妻中文字幕| 国产精品影院久久| 最新美女视频免费是黄的| 久久中文字幕人妻熟女| 亚洲精品在线美女| 亚洲第一欧美日韩一区二区三区| 免费高清视频大片| 手机成人av网站| 成人av在线播放网站| avwww免费| 一级毛片高清免费大全| 精品久久久久久久末码| 国产av在哪里看| 观看免费一级毛片| 免费大片18禁| 亚洲电影在线观看av| 国产单亲对白刺激| 哪里可以看免费的av片| 欧美日韩精品网址| 狂野欧美白嫩少妇大欣赏| 久久99热这里只有精品18| netflix在线观看网站| 久久久久九九精品影院| 亚洲国产精品999在线| 一级毛片女人18水好多| 国产高清有码在线观看视频| 午夜福利高清视频| 黄色丝袜av网址大全| 久久久精品欧美日韩精品| 亚洲中文字幕日韩| 久久久久国产一级毛片高清牌| АⅤ资源中文在线天堂| 手机成人av网站| 午夜激情欧美在线| 国产精品免费一区二区三区在线| 欧美绝顶高潮抽搐喷水| 亚洲欧美日韩高清专用| 日本 av在线| 久久精品国产综合久久久| 久久性视频一级片| 日韩 欧美 亚洲 中文字幕| 99国产精品99久久久久| 高清毛片免费观看视频网站| 91av网一区二区| 国产伦精品一区二区三区四那| 欧美xxxx黑人xx丫x性爽| 久久人人精品亚洲av| 中文字幕久久专区| 亚洲五月天丁香| 国产野战对白在线观看| 国内精品久久久久精免费| 啪啪无遮挡十八禁网站| 国产男靠女视频免费网站| 国产高清三级在线| 日韩欧美免费精品| 欧美一区二区精品小视频在线| 欧美国产日韩亚洲一区| 我要搜黄色片| 国产精品综合久久久久久久免费| 久久久久精品国产欧美久久久| 欧美日韩乱码在线| 999久久久国产精品视频| 日韩欧美国产在线观看| 18禁美女被吸乳视频| 伊人久久大香线蕉亚洲五| 久久午夜综合久久蜜桃| 两个人视频免费观看高清| 此物有八面人人有两片| 亚洲在线自拍视频| 啪啪无遮挡十八禁网站| 国产三级在线视频| 国产激情欧美一区二区| 亚洲精华国产精华精| 在线视频色国产色| 一级毛片高清免费大全| 免费观看的影片在线观看| 男女下面进入的视频免费午夜| 欧美日本视频| 一级作爱视频免费观看| 18禁国产床啪视频网站| 岛国在线观看网站| 热99re8久久精品国产|