• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    未知環(huán)境下基于突變定位SAC算法的移動機器人路徑規(guī)劃

    2025-02-28 00:00:00胡立坤韋春有
    計算機應用研究 2025年2期
    關(guān)鍵詞:移動機器人

    摘 要:針對缺乏完整環(huán)境信息的條件下移動機器人局部路徑規(guī)劃算法性能提升及深度強化學習智能體訓練速度慢的問題,提出了突變定位算法和改進的soft actor-critic (SAC)算法,并將兩者結(jié)合為突變定位SAC算法。突變定位算法能夠在缺乏完備環(huán)境信息的情況下計算子目標點位置,減少移動機器人規(guī)劃路徑的長度。同時,通過引入基于虛擬勢場的critic網(wǎng)絡改進損失函數(shù)和多階段訓練方法,提高SAC智能體的訓練速度。實驗結(jié)果表明,與DDPG、SAC、PER-SAC和HER-TD3相比,突變定位SAC算法在訓練時間上分別減少了46.68%、39.50%、20.18%和27.79%。此外,突變定位SAC算法在不同環(huán)境下規(guī)劃路徑的長度平均減少了13.71%、10.26%、10.90%和15.89%。

    關(guān)鍵詞: 移動機器人; 路徑規(guī)劃; 深度強化學習算法; SAC算法; 激光雷達; 未知環(huán)境

    中圖分類號: TP242 文獻標志碼: A 文章編號: 1001-3695(2025)02-018-0455-07

    doi: 10.19734/j.issn.1001-3695.2024.06.0233

    Mutation localization SAC based path planning algorithm for mobile robots under unknown environments

    Hu Likun, Wei Chunyou

    (School of Electrical Engineering, Guangxi University, Nanning 530000, China)

    Abstract:This study proposed a mutation localization algorithm and an improved SAC algorithm, and combined the two into a mutation localization SAC algorithm" for mobile robots under the condition of lack of complete environment information and the slow training speed of deep reinforcement learning agents. The mutation localization algorithm was able to compute the sub-target point locations in the absence of complete environment information and reduce the length of the planned path for mobile robots. Meanwhile, it improved the training speed of SAC agents by introducing the improved loss function and multi-stage trai-ning method of critic network based on virtual potential field. The experimental results show that the mutation localization SAC algorithm reduces 46.68%, 39.50%, 20.18%, and 27.79% in training time compared with the DDPG, SAC, PER-SAC, and HER-TD3, respectively. In addition, the mutation localization SAC algorithm reduces the length of the planned paths in different environments by 13.71%, 10.26%, 10.90% and 15.89% on average.

    Key words:mobile robot; path planning; deep reinforcement learning algorithm; SAC algorithm; LiDAR; unknown environment

    0 引言

    移動機器人可以替代人們從事繁重的體力勞動或者勝任人力難以完成的任務[1,對于減少人力負擔并提升產(chǎn)業(yè)自動化水平具有重要意義2。然而,移動機器人必須依靠合理的路徑規(guī)劃算法才能到達目標點的位置3。因此,路徑規(guī)劃算法的能力能顯著影響移動機器人的動態(tài)性能4。在移動機器人的應用場景中,移動機器人經(jīng)常需要在未知環(huán)境下規(guī)劃路徑。因此,研究移動機器人在未知環(huán)境下的路徑規(guī)劃算法十分有必要。單一的移動機器人的路徑規(guī)劃算法的種類主要包括基于圖搜索的路徑規(guī)劃算法[5、基于采樣的路徑規(guī)劃算法6、基于群智能的路徑規(guī)劃算法7、局部路徑規(guī)劃算法8和基于強化學習的路徑規(guī)劃算法9。移動機器人的路徑規(guī)劃算法還可以是多個路徑規(guī)劃算法結(jié)合的混合路徑規(guī)劃算法10。

    局部路徑規(guī)劃算法的路徑規(guī)劃過程關(guān)注環(huán)境的局部來滿足移動機器人的動態(tài)避障需求[11。局部路徑規(guī)劃算法具有實時性高的優(yōu)點,能適應環(huán)境的快速變化[12。然而,局部路徑規(guī)劃算法可能會由于缺乏全局信息導致無法在復雜環(huán)境中找到正確的路徑。常見的局部路徑規(guī)劃算法包括人工勢場算法和動態(tài)窗口算法。

    基于強化學習的路徑規(guī)劃算法的核心思想是讓移動機器人從環(huán)境中自主學習,并預測出可行路徑[13。基于強化學習的路徑規(guī)劃算法具有實時性高、適應性強和適用于復雜環(huán)境的優(yōu)點14。基于強化學習的路徑規(guī)劃算法的應用形式主要有柵格環(huán)境下輸出離散路徑的全局路徑規(guī)劃算法15和根據(jù)激光雷達的探測數(shù)據(jù)規(guī)劃連續(xù)路徑的局部路徑規(guī)劃算法[16兩種。根據(jù)激光雷達的探測數(shù)據(jù)規(guī)劃連續(xù)路徑的局部路徑規(guī)劃算法不需要在規(guī)劃路徑前對環(huán)境進行建模,適用于未知環(huán)境下移動機器人的路徑規(guī)劃。常見的強化學習包括SAC、DDPG算法。

    基于強化學習的移動機器人路徑規(guī)劃算法已有較多學者展開研究。文獻[17]將蟻群算法的信息素機制引入到Q學習智能體的探索過程中來提升智能體的訓練速度。然而,基于Q學習的路徑規(guī)劃算法只能應用于簡單的柵格環(huán)境。當環(huán)境較為復雜時,基于Q學習的路徑規(guī)劃算法容易出現(xiàn)維度爆炸問題。文獻[18]驗證了存在子目標點引導的深度Q網(wǎng)絡算法可以獲得更好的路徑規(guī)劃效果。然而,文獻[18]的子目標點的獲取需要詳細的全局信息。當環(huán)境的全局信息缺乏時,文獻[18]沒有給出如何獲得子目標點的方法。同樣,文獻[19]驗證了虛擬目標點的引導可以提高自適應Q學習路徑規(guī)劃算法的性能。然而,文獻[19]同樣無法給出全局信息缺乏的條件下虛擬目標點位置的確定方法。文獻[20] 提出的一種融合進化策略思想和安全獎勵函數(shù)的安全近端策略優(yōu)化算法可以提升移動機器人規(guī)劃道路的安全性。然而,安全近端策略優(yōu)化算法所規(guī)劃的路徑在節(jié)點處容易出現(xiàn)較大轉(zhuǎn)折,導致無法滿足移動機器人的運動學約束。DDPG 算法也是一種處理連續(xù)動作空間的深度強化學習算法。與SAC算法不同的是,DDPG算法的目標是最大化獎勵,而不是最大化獎勵與熵的和[21。文獻[22]采用免疫優(yōu)化算法對DDPG算法的經(jīng)驗緩沖池中的經(jīng)驗樣本進行優(yōu)化的方式可以提高智能體的訓練速度。然而,采用免疫優(yōu)化算法改進的DDPG算法無法為智能體提供全局信息,導致智能體規(guī)劃的路徑較長。文獻[23]設計合理的獎勵函數(shù),使用動態(tài)的狀態(tài)歸一化和優(yōu)先級經(jīng)驗技術(shù)來使用SAC算法規(guī)劃移動機器人的路徑。文獻[24]將PER機制結(jié)合到SAC算法中來為經(jīng)驗數(shù)據(jù)賦予權(quán)重。SAC智能體根據(jù)權(quán)重對經(jīng)驗池中的經(jīng)驗數(shù)據(jù)采樣。因此,PER-SAC算法可以更充分地利用優(yōu)良經(jīng)驗數(shù)據(jù)來提高智能體的訓練速度。類似的,文獻[25]通過HER算法提高TD3智能體的探索能力,緩解路徑規(guī)劃的稀疏獎勵的問題。

    基于深度強化學習的移動機器人的局部路徑規(guī)劃算法可以在未知環(huán)境下利用環(huán)境的局部信息規(guī)劃移動機器人的路徑。采用子目標點引導移動機器人的方法是提升局部路徑規(guī)劃算法性能的有效方式。然而,計算移動機器人的子目標點位置的過程往往需要完備的環(huán)境信息。先前的基于強化學習算法的移動機器人的路徑規(guī)劃算法的研究往往單獨作為缺乏全局信息的局部路徑規(guī)劃算法,或者必須獲得完整的環(huán)境信息才能獲得移動機器人的子目標點。此外,先前基于強化學習算法的移動機器人的路徑規(guī)劃算法存在訓練速度慢的問題。

    針對先前基于強化學習算法的移動機器人的路徑規(guī)劃算法所存在的問題,本文提出突變定位SAC算法用于移動機器人的路徑規(guī)劃,其具有以下特點:a)提出一種利用局部信息計算子目標點位置的突變定位算法。突變定位算法可以利用移動機器人攜帶的激光雷達裝置獲取的環(huán)境的局部信息來計算子目標點的位置。突變定位算法計算的子目標點和動作選擇器策略可以引導移動機器人以減少規(guī)劃路徑的長度。b)提出基于虛擬勢場的critic網(wǎng)絡的改進損失函數(shù)和多階段訓練方法來提高SAC智能體的訓練速度?;谔摂M勢場的critic網(wǎng)絡的改進損失函數(shù)提出利用虛擬勢場改進critic目標網(wǎng)絡輸出Q值的方法。多階段訓練方法可以提高具有未來代表性的經(jīng)驗數(shù)據(jù)的利用率。

    1 算法的基本原理

    本文提出的突變定位SAC算法主要涉及SAC算法和人工勢場算法。

    1.1 SAC算法的基本原理

    SAC算法是一種基于actor-critic網(wǎng)絡的深度強化學習算法[26。SAC算法通過期望獎勵和熵值的最大化來訓練算法的神經(jīng)網(wǎng)絡[27。SAC算法最大化獎勵和熵值的計算方式如下:

    π*std=argmaxπ∑tE(st,at)~ρπ[r(st,at)+αH(π(·|st))](1)

    其中:E(st,at)~ρπ是當前狀態(tài)的期望回報;r(st,at)是當前狀態(tài)的獎勵;H(π(·|st))是策略的熵;α是熵的系數(shù)。

    SAC算法采用經(jīng)驗回放機制訓練智能體[28。智能體與環(huán)境交互獲得的經(jīng)驗數(shù)據(jù)會被放入經(jīng)驗池中。在訓練過程中,智能體抽取經(jīng)驗池中的經(jīng)驗數(shù)據(jù)來進行訓練。SAC算法采用經(jīng)驗回放機制的目的是消除經(jīng)驗數(shù)據(jù)間的相關(guān)性來達到更好的訓練效果。SAC智能體的神經(jīng)網(wǎng)絡包含一個actor網(wǎng)絡、兩個critic網(wǎng)絡和兩個critic目標網(wǎng)絡。critic網(wǎng)絡用于評估智能體當前的動作。critic目標網(wǎng)絡用于評估當前的狀態(tài)。SAC算法的評估網(wǎng)絡利用TD誤差衡量算法來評估評估網(wǎng)絡對于樣本的獎勵期望的不確定性[29。TD誤差計算方式表示如下:

    δt=rt+γQ(st+1,at+1)-Q(st,at)(2)

    其中:δt是計算的TD誤差;γ是折扣因子;Q是評估網(wǎng)絡的狀態(tài)價值。圖1是傳統(tǒng)的SAC算法的結(jié)構(gòu)。

    1.2 人工勢場算法

    人工勢場算法是基于虛擬勢場的局部路徑規(guī)劃算法[30。人工勢場算法實時性高,能適用于移動機器人的動態(tài)避障31。在人工勢場算法的計算過程中,目標點被作為吸引勢場源;障礙物被作為排斥勢場源32。采用人工勢場算法規(guī)劃路徑的移動機器人在目標點產(chǎn)生的虛擬吸引力和障礙物產(chǎn)生的虛擬排斥力的共同作用下避開障礙物并抵達目標點。

    虛擬吸引力的方向由移動機器人指向目標點,大小與移動機器人和目標點的距離有關(guān)[33。吸引力勢場函數(shù)Uatt(qagent)以及吸引力函數(shù)Fatt(qagent)的計算方式如下:

    Uatt(qagent)=12Kaρ2(qagent,qgoal)(3)

    其中:Ka為吸引力增益系數(shù);qgoal為目標點的位置;qagent為移動機器人的位置;ρ(qagent,qgoal)為移動機器人到目標點的距離。

    虛擬排斥力的方向由移動機器人指向障礙物的反方向,大小與移動機器人和障礙物的距離有關(guān)[34。然而,移動機器人于某個障礙物的距離超過一個閾值時,移動機器人不受到這個障礙物產(chǎn)生的虛擬排斥力。斥力勢場函數(shù)Urep(qagent)以及斥力函數(shù)Frep(qagent)的計算方式如下:

    Urep(qagent)=12Kr(1ρ(qagent,qobs)-1ρd2 ρ(qagent,qobs)lt;ρd

    0ρ(qagent,qobs)≥ρd(5)

    其中: Kr為排斥力增益系數(shù);ρ(qagent,qobs)為移動機器人與障礙物的距離;ρd為距離閾值。

    圖2為采用人工勢場算法的移動機器人的受力示意圖。移動機器人所受的合力為吸引力和排斥力的矢量疊加:

    F(qagent)=Fatt(qagent)+Frep(qagent)(7)

    其中:F(qagent)是移動機器人所受到的合力。

    2 算法的改進

    為了解決現(xiàn)有路徑規(guī)劃算法在缺乏完整環(huán)境信息的環(huán)境下無法規(guī)劃子目標點的問題,本文提出利用環(huán)境的局部信息計算子目標點位置的突變定位算法。突變定位算法計算的子目標點可以和動作選擇器策略用于減少路徑的長度。此外,本文提出基于虛擬勢場的critic網(wǎng)絡的改進損失函數(shù)和多階段訓練方法用于提高智能體的訓練速度。

    2.1 總體結(jié)構(gòu)

    本文提出的突變定位SAC算法作為深度強化學習算法,需要定義智能體的狀態(tài)和獎勵,其結(jié)構(gòu)如圖3所示。

    突變定位SAC算法的動作取值為[-1,1]。智能體的動作值代表移動機器人的移動方向。

    突變定位SAC算法智能體的狀態(tài)為智能體所處的環(huán)境的信息表示為一個數(shù)組obs。狀態(tài)數(shù)組obs的表示方法如下:

    obs=[range,θagent,θdetal,dis](8)

    其中:range是激光雷達所獲取的一組探測數(shù)據(jù);θagent是智能體的移動方向;θdetal是智能體的移動方向與智能體和目標點連線方向的偏差角度;dis是智能體與目標點之間的距離。

    智能體的獎勵設置主要考慮以下幾個方面:a)移動機器人應該盡可能與障礙物保持距離;b)移動機器人應該盡量減少轉(zhuǎn)向;c)移動機器人應該盡量朝向目標點移動;d)移動機器人應該盡量減少自身到目標點的距離。因此,改進的SAC智能體的獎勵reward設置如下:

    reward=r1+r2+r3+r4(9)

    r11(min(range))2(10)

    r22v2a(11)

    r33Δangle2(12)

    r44dis(13)

    其中:α1是移動機器人到障礙物距離系數(shù);va是移動方向的變化值;α2是移動機器人的方向系數(shù);Δangle是移動機器人的移動方向與移動機器人和目標點連線方向的偏差角度;α3是移動機器人的運動偏差系數(shù);dis是移動機器人到目標點的距離;α4是移動機器人的距離系數(shù)。

    當智能體與障礙物發(fā)生碰撞或者到達目標點時,智能體停止規(guī)劃路徑。智能體根據(jù)激光雷達的探測數(shù)據(jù)判斷是否發(fā)生碰撞。當智能體獲取激光雷達的探測數(shù)據(jù)的最小值小于設定的閾值時,智能體被認為與障礙物發(fā)生碰撞。當智能體與目標點的直線距離小于設定的閾值時,智能體被認為到達目標點。

    2.2 突變定位算法

    現(xiàn)有的路徑規(guī)劃研究表明,采用子目標點引導的方式是提高局部路徑規(guī)劃算法的有效方式。然而,現(xiàn)有路徑規(guī)劃算法的子目標點的計算都基于獲得了完備環(huán)境信息的全局路徑規(guī)劃算法。在未知環(huán)境下,移動機器人無法提前獲知環(huán)境的完備信息。因此,先前的路徑規(guī)劃研究無法給出在未知環(huán)境下僅利用環(huán)境的局部信息計算子目標點位置的方法。

    本文提出一種在未知環(huán)境下計算子目標點位置的方法,稱為突變定位算法。移動機器人的子目標點可以引導移動機器人遠離陷阱區(qū)域以及減少移動路徑長度。

    圖4是本文提出的突變定位算法根據(jù)激光雷達的探測數(shù)據(jù)計算子目標點的示意圖。突變定位算法的步驟如下:

    a)當滿足智能體的目標點的連線處于智能體的激光雷達的輻射范圍之內(nèi)且智能體與目標點之間存在遮擋時,突變定位算法開始計算子目標點。智能體與目標點之間存在遮擋的定義為

    max(Ln,Ln+1)lt;Lg

    遮擋

    else不遮擋(14)

    其中:Ln和Ln+1分別為角度與移動機器人和目標點連線角度最接近的兩條相互靠近的激光雷達的射線的探測數(shù)據(jù);Lg是移動機器人到目標點的距離。

    b)如果智能體與目標點之間滿足遮擋條件,突變定位算法通過突變射線來確定子目標點的位置。當兩條臨近的激光雷達射線滿足式(15)時,至少其中一條射線滿足突變射線的定義。

    |Lk+1-Lk|Lkgt;D

    k=1,2,…,N-1(15)

    其中:D是設定的取值為正數(shù)的突變閾值;N是激光雷達射線數(shù)量的總數(shù);Lk和Lk+1分別為相鄰的兩條激光雷達射線所獲取的探測數(shù)據(jù)。

    c)如果兩條臨近激光雷達的射線滿足突變射線存在的條件,突變定位算法根據(jù)兩條激光雷達射線所獲取的探測數(shù)據(jù)的大小關(guān)系來確定突變射線對應的角度:

    θ=θk Lkgt;Lk+1

    θk+1Lklt;Lk+1 (16)

    其中:θk和θk+1是探測距離為Lk和Lk+1的激光射線對應的角度;θ是突變射線對應的角度。

    d)當環(huán)境中不止存在一條突變射線時,最終的突變射線取為射線角度與移動機器人與目標點連線的角度偏差最小的射線。

    e)突變定位算法根據(jù)突變射線確定子目標點的位置的方法如下:

    Xsubgoal

    Ysubgoal=Xagentcos(θ)

    Yagentsin(θ)1

    (1+D/2)min(Lk,Lk+1)(17)

    其中:Xsubgoal、Ysubgoal分別為子目標點位置的橫縱坐標;Xagent、Yagent分別為智能體當前位置的橫縱坐標。突變定位算法計算得到子目標點的位置后,智能體的目標點被設置為對應的子目標點。在智能體到達子目標點之前,智能體不會計算新的子目標點。

    當智能體到達子目標點后,智能體的目標點被重新設置為最終的目標點。當智能體還未到達最終目標點且再次出現(xiàn)符合突變定位算法計算子目標點的初始條件時,智能體再次計算子目標點來引導移動機器人到達最終目標點。相比于最終目標點,子目標點與移動機器人之間往往不存在障礙物。因此,移動機器人直接朝向?qū)哪繕它c移動可以減少移動路徑的長度。

    基于上述想法,本文提出了一種動作選擇器策略。圖5所示為本文提出的動作選擇器策略的結(jié)構(gòu)。動作選擇器策略選擇指導動作的前提是移動機器人與對應的目標點之間沒有出現(xiàn)遮擋。對應的目標點可以是子目標點或者最終目標點。

    當移動機器人與對應的目標點之間沒有遮擋且移動機器人所獲取的激光雷達的探測數(shù)據(jù)的最小值大于設定的閾值時,動作選擇器策略采用下面的方法計算指導動作的動作值:

    A=-1 θgoal≤-δmax

    θgoalmax-δmaxlt;θgoallt;δmax

    goal≥δmax(18)

    其中:A是取值為[-1,1]的指導動作;θgoal是移動機器人與對應的目標點連線的角度;δmax是移動機器人在一個時間步中的最大轉(zhuǎn)向角度。當移動機器人所獲取的激光雷達的探測數(shù)據(jù)的最小值小于設定的閾值時,本文采用SAC智能體產(chǎn)生移動機器人的行動來避免移動機器人與障礙物之間發(fā)生碰撞。

    2.3 基于虛擬勢場的critic網(wǎng)絡的改進損失函數(shù)

    深度強化學習算法的狀態(tài)動作對的評價機制的基礎(chǔ)是貝爾曼等式:

    Q(st,at)=r(st,at)+Est+1~pat+1~π[Q(st+1,at+1)](19)

    其中:Q(st,at)是狀態(tài)動作對(st,at)的Q值;r(st,at)是對應的獎勵;p是狀態(tài)轉(zhuǎn)移分布;π是神經(jīng)網(wǎng)絡的策略;Q(st+1,at+1)是狀態(tài)動作對(st+1,at+1)的Q值。SAC算法引入了自適應熵機制。SAC算法的目標是最大化獎勵和熵的和,而不是僅僅最大化獎勵。根據(jù)信息論的知識,策略的熵可以表示為

    其中:H(p)是策略的熵值;p(x)是概率函數(shù)。

    因此,SAC算法的狀態(tài)價值對的評估方程可以表示為

    Q(st,at)=r(st,at)+Est+1~pat+1~π[Q(st+1,at+1)-αlog(π(at+1|st+1))](21)

    其中:α是熵溫度系數(shù)。critic網(wǎng)絡的損失函數(shù)可以表示為

    LQ(θ)=E [(Qθ(st,at)-(r(st,at)+

    Est+1~pat+1~π[min Qθ′(st+1,at+1)-αlog(π(at+1|st+1))]))2](22)

    其中:LQ(θ)是critic網(wǎng)絡的損失函數(shù);Qθ(st,at)是critic網(wǎng)絡對應(st,at)的Q值;min Qθ′(st+1,at+1)是兩個critic目標網(wǎng)絡對應(st+1,at+1)的Q值的最小值。

    actor網(wǎng)絡的損失函數(shù)是基于critic網(wǎng)絡的評估函數(shù)。因此,critic網(wǎng)絡的評估效果決定了actor網(wǎng)絡的輸出效果。然而,critic網(wǎng)絡的損失函數(shù)依賴于critic目標網(wǎng)絡的評估效果。critic目標網(wǎng)絡的參數(shù)通過軟更新機制復制critic網(wǎng)絡的參數(shù)。在這種參數(shù)更新機制下,critic目標網(wǎng)絡的參數(shù)在訓練初期的不確定性會顯著影響critic網(wǎng)絡的訓練效果,進而影響actor網(wǎng)絡輸出動作的合理性。因此,本文希望找到一種明確且易獲取的Q值的修正值來提高critic目標網(wǎng)絡在訓練初期輸出的Q值的合理性,進而提高智能體的訓練速度。這樣的修正值應該隨著critic網(wǎng)絡的參數(shù)的更新逐漸減少來提升critic目標網(wǎng)絡的評估值比重。critic目標網(wǎng)絡對應的Q值的最小值可以增廣為

    min Qθ′(st+1,at+1)=min Qθ′(st+1,at+1)+fsum(23)

    其中: fsum是修正值。在神經(jīng)網(wǎng)絡的訓練初期,神經(jīng)網(wǎng)絡策略的不確定性較大。因此,策略的熵在神經(jīng)網(wǎng)絡的訓練初期較大。隨著神經(jīng)網(wǎng)絡參數(shù)的收斂,策略的熵隨之減少并趨于0。因此,策略的熵可以用來衡量狀態(tài)動作對的初始Q值的比重。

    在移動機器人的路徑規(guī)劃算法中,人工勢場算法將目標點作為吸引力勢場源且將障礙物作為排斥力勢場源的人工勢場算法。移動機器人沿著勢場降低的方向抵達目標點。因此,虛擬勢場可以作為訓練前期Q值的修正值。本文將吸引力勢場源作為正勢場,排斥力勢場源作為負勢場。當移動機器人所處狀態(tài)的總的勢場越大,狀態(tài)動作對的初始Q值就越大。

    因此,本文提出的基于虛擬勢場的critic網(wǎng)絡的改進損失函數(shù)可以表示為

    LQ(θ)=E [(Qθ(st,at)-(r(st,at)+Est+1~pat+1~π[min Qθ′(st+1,at+1)-log(π(at+1|st+1)(α+βexp(ite)fsum))]))2](24)

    fsum=12Kattdrg-12Krep(1/drg-1/min(range))2(25)

    其中:β是勢場系數(shù);Katt是吸引勢場系數(shù);Krep是排斥勢場系數(shù);drg是移動機器人到目標點的距離;ite是運行過程中的迭代數(shù);min(range)是激光雷達裝置探測到的移動機器人與障礙物的最短距離。

    2.4 多階段訓練

    SAC算法采用經(jīng)驗回放機制從經(jīng)驗池中隨機抽取一定數(shù)量的經(jīng)驗數(shù)據(jù)用于訓練critic網(wǎng)絡。處于經(jīng)驗池中的經(jīng)驗數(shù)據(jù)被抽取到的概率相同。然而,經(jīng)驗數(shù)據(jù)被置入經(jīng)驗池的過程存在時間上的差異。在經(jīng)驗回放機制下,越早被置入經(jīng)驗池的經(jīng)驗數(shù)據(jù)被抽出用于訓練的次數(shù)越多,且critic網(wǎng)絡對于相應狀態(tài)的評價越準確。對于路徑規(guī)劃問題,智能體在某一狀態(tài)下的過去狀態(tài)往往是起點附近的狀態(tài),未來的狀態(tài)往往是終點附近的狀態(tài)。

    根據(jù)式(13)可知,當前狀態(tài)動作對評估的準確性依賴于未來狀態(tài)動作對的評估準確性。矛盾在于:起點附近的狀態(tài)更早地被置入經(jīng)驗池中且對應的狀態(tài)評估更準確;然而,對于當前狀態(tài)動作對的評估更重要的未來狀態(tài)動作對的經(jīng)驗數(shù)據(jù),會由于智能體初期在起點附近的隨機探索,導致被置入經(jīng)驗池的時間卻更遲。因此,本文希望找到一種訓練方法來將更具未來代表性的經(jīng)驗數(shù)據(jù)更早地置入經(jīng)驗池中。為了解決上述矛盾,本文提出一種SAC算法的多階段訓練方法用于加快智能體的收斂速度。圖6是本文提出的多階段訓練方法的示意圖。

    在智能體訓練的初始階段,智能體的起點取自終點附近的綠色區(qū)域(見電子版)。經(jīng)過一定的訓練后,智能體的起點取自終點附近的藍色區(qū)域。以此類推,智能體的起點取至起始點之后不再變更。在本文提出的多階段訓練模式下,智能體所獲取的初期經(jīng)驗數(shù)據(jù)主要集中于終點附近。

    3 算例仿真

    本文采用的編程語言為Python。實驗運行于操作系統(tǒng)為Windows 10,運行內(nèi)存為16 GB,CPU型號為AMD R5 3600 (3.6 GHz),GPU型號為NVIDIA RTX 2070的計算機上。

    為了驗證突變定位SAC算法的在提高智能體的訓練速度方面的有效性,本文在同一訓練環(huán)境下對比了突變定位SAC、HER-TD3[25、PER-SAC[24、SAC[23和DDPG[21達到智能體收斂的條件時需要的迭代次數(shù)。為了驗證突變定位SAC算法在減少路徑長度方面的有效性,本文分別在不同的環(huán)境下對比了突變定位SAC、PER-SAC、SAC、DDPG和HER-TD3規(guī)劃的路徑。

    表1為本文涉及的突變定位SAC、PER-SAC、SAC、DDPG和HER-TD3的部分參數(shù)。

    3.1 訓練速度對比

    為了驗證突變定位SAC在提升智能體訓練速度上的有效性,將突變定位SAC和基礎(chǔ)SAC、PER-SAC、DDPG和HER-TD3在同一環(huán)境下進行訓練。值得注意的是,多階段訓練方法會改變迭代過程中起點的位置。為了達到對比的效果,突變定位SAC雖然采用多階段訓練方法獲取經(jīng)驗數(shù)據(jù),訓練曲線所對應的起點仍然與其他算法保持一致來驗證突變定位SAC算法的有效性。SAC是DDPG的改進算法。因此,SAC的訓練速度比DDPG快。此外,DDPG的目標是最大化獎勵,而不是最大化獎勵與熵的和。因此,DDPG在收斂后更容易出現(xiàn)不穩(wěn)定的現(xiàn)象。相較于SAC,PER-SAC和HER-TD3可以通過為經(jīng)驗數(shù)據(jù)賦予權(quán)重來提高重要經(jīng)驗數(shù)據(jù)的利用率。

    突變定位SAC是SAC的改進算法。本文提出基于虛擬勢場的critic網(wǎng)絡的改進損失函數(shù)和多階段訓練方法?;谔摂M勢場的critic網(wǎng)絡的改進損失函數(shù)可以利用虛擬勢場修正critic網(wǎng)絡在訓練初期輸出的Q值。多階段訓練方法可以提高具有未來代表性的經(jīng)驗數(shù)據(jù)的利用率。因此,相較于DDPG、SAC、PER-SAC和HER-TD3,突變定位SAC可以更有效地減少智能體的訓練時間。圖7是不同算法在同一訓練環(huán)境下的平均獎勵曲線。其中,DDPG收斂需要訓練497次;SAC收斂需要訓練438次;PER-SAC收斂需要訓練332次;HER-TD3收斂需要訓練367次;突變定位SAC收斂需要訓練265次。相比于DDPG、SAC、PER-SAC和HER-TD3,突變定位SAC收斂所需的訓練迭代數(shù)分別減少了46.68%、39.50%、20.18%和27.79%。

    綜上所述,本文提出的突變定位SAC可以有效減少智能體的訓練時間。

    3.2 規(guī)劃路徑對比

    為了驗證突變定位SAC在減少路徑長度方面的有效性,本文分別在不同環(huán)境下對比了DDPG、SAC、PER-SAC、HER-TD3、突變定位SAC所規(guī)劃的路徑。其中,環(huán)境1是智能體的訓練環(huán)境;環(huán)境2~4是比環(huán)境1復雜的新環(huán)境。

    DDPG、SAC、PER-SAC和HER-TD3僅根據(jù)訓練的智能體規(guī)劃路徑。因此,它們所規(guī)劃路徑的差異主要來自于智能體本身的訓練效果。突變定位SAC可以利用環(huán)境的局部信息計算子目標點。子目標點可以引導移動機器人繞開環(huán)境中的障礙物。此外,動作選擇器可以結(jié)合移動機器人的子目標點或目標點減少不必要的移動。因此,相比于DDPG、SAC、PER-SAC和HER-TD3,突變定位SAC規(guī)劃的路徑更短。

    圖8~11分別為以上算法在環(huán)境1~4中的路徑規(guī)劃。表2分別為它們在環(huán)境1~4中規(guī)劃的路徑長度。在環(huán)境1中,突變定位SAC所規(guī)劃路徑的長度相比于DDPG、SAC、PER-SAC和HER-TD3分別減少了6.88%、2.76%、3.30%和1.12%。在環(huán)境2中,分別減少了1.47%、4.95%、0.74%和22.35%。在環(huán)境3中,分別減少12.68%、4.45%、19.78%和11.62%。在環(huán)境4中,分別減33.91%、28.84%、19.78%和28.46%。因此,在四種不同的環(huán)境中,突變定位SAC所規(guī)劃路徑的長度相比于DDPG、SAC、PER-SAC和HER-TD3平均減少了13.71%、10.26%、10.90%和15.89%。綜上所述,突變定位SAC可以有效減少移動機器人的路徑長度。

    4 結(jié)束語

    針對移動機器人在未知環(huán)境下難以確定子目標點的位置和SAC算法訓練速度慢的問題,本文提出了基于突變定位SAC算法的未知環(huán)境下移動機器人的路徑規(guī)劃算法。該算法的路徑規(guī)劃解決了未知環(huán)境下無法確定子目標點的位置的問題和SAC智能體訓練速度慢的問題。突變定位SAC算法可以總結(jié)為:a)實驗結(jié)果表明,相比于DDPG、SAC、PER-SAC和HER-TD3,突變定位SAC的訓練速度更快且規(guī)劃路徑更短。b)突變定位SAC采用突變定位算法計算引導移動機器人移動的子目標點的位置;采用動作選擇器策略減少不必要的移動。因此,突變定位算法和動作選擇器策略可以縮短移動機器人的移動距離。c)本文提出基于虛擬勢場的critic網(wǎng)絡的改進損失函數(shù)和多階段訓練方法?;谔摂M勢場的critic網(wǎng)絡的改進損失函數(shù)和多階段訓練方法可以提高智能體的訓練速度。

    參考文獻:

    [1]程龍, 王欣, 吳迪, 等. 改進人工勢場法的洗浴機器人擦洗路徑規(guī)劃 [J]. 計算機應用研究, 2023, 40(9): 2760-2764. (Cheng Long, Wang Xin, Wu Di, et al. Scrubbing path planning of bathing robot based on improved artificial potential field method [J]. Application Research of Computers, 2023, 40(9): 2760-2764.)

    [2]Wenna W, Weili D, Changchun H, et al. A digital twin for 3D path planning of large-span curved-arm gantry robot[J]. Robotics and Computer-Integrated Manufacturing, 2022; 76: 102330.

    [3]劉榮華, 王欣, 吳迪, 等. 改進雙向動態(tài)JPS算法的移動機器人全局路徑規(guī)劃 [J]. 計算機應用研究, 2024, 41(4): 1117-1122. (Liu Ronghua, Wang Xin, Wu Di, et al. Improved bidirectional dynamic JPS algorithm for global path planning of mobile robot [J]. Application Research of Computers, 2024, 41(4): 1117-1122.)

    [4]Yi L, Wan A Y S, Le A V, et al. Complete coverage path planning for reconfigurable omni-directional mobile robots with varying width using GBNN [J]. Expert Systems with Applications, 2023,228: 120349.

    [5]劉宇庭, 郭世杰, 唐術(shù)鋒, 等. 改進A*與ROA-DWA融合的機器人路徑規(guī)劃 [J]. 浙江大學學報:工學版, 2024, 58(2): 360-369. (Liu Yuting, Guo Shijie, Tang Shufeng, et al. Path planning based on fusion of improved A* and ROA-DWA for robot [J]. Journal of Zhejiang University:Engineering Science, 2024, 58(2): 360-369.)

    [6]Wang Yan, Jiang Wensong, Luo Zai, et al. Path planning of a 6-DOF measuring robot with a direction guidance RRT method [J]. Expert Systems with Applications, 2024, 238: 122057.

    [7]孫鵬耀, 黃炎焱, 王凱生. 基于勢場增強煙花算法的二維全局路徑規(guī)劃 [J]. 兵工學報, 2024,45(10):3499-3518. (Sun Pengyao, Huang Yanyan, Wang Kaisheng. Two-dimensional global path planning based on potential field enhanced fireworks algorithm [J]. Acta Armamentarii, 2024,45(10):3499-3518.)

    [8]萬俊, 孫薇, 葛敏, 等. 基于含避障角人工勢場法的機器人路徑規(guī)劃 [J]. 農(nóng)業(yè)機械學報, 2024, 55(1): 409-418. (Wan Jun, Sun Wei, Ge Min, et al. Robot path planning based on artificial potential field method with obstacle avoidance angles [J]. Trans of the Chinese Society for Agricultural Machinery, 2024, 55(1): 409-418.)

    [9]周文娟, 張超群, 湯衛(wèi)東, 等. 一種新的基于強化學習改進SAR的無人機路徑規(guī)劃 [J]. 控制與決策, 2024, 39(4): 1203-1211. (Zhou Wenjuan, Zhang Chaoqun, Tang Weidong, et al. A novel modified search and rescue optimization algorithm based on reinforcement learning for UAV path planning [J]. Control and Decision, 2024, 39(4): 1203-1211.)

    [10]時維國, 寧寧, 宋存利, 等. 基于蟻群算法與人工勢場法的移動機器人路徑規(guī)劃 [J]. 農(nóng)業(yè)機械學報, 2023, 54(12): 407-416. (Shi Weiguo, Ning Ning, Song Cunli, et al. Path planning of mobile robots based on ant colony algorithm and artificial potential field algorithm [J]. Trans of the Chinese Society for Agricultural Machi-nery, 2023, 54(12): 407-416.)

    [11]劉澳霄, 周永錄, 劉宏杰. 基于改進人工勢場法的醫(yī)療配送機器人路徑規(guī)劃 [J]. 計算機應用研究, 2024, 41(3): 842-847. (Liu Aoxiao, Zhou Yonglu, Liu Hongjie. Path planning of medical delivery robot based on improved artificial potential field method [J]. Application Research of Computers, 2024, 41(3): 842-847.)

    [12]劉珂, 董洪昭, 張麗梅, 等. 基于改進人工勢場法的物流無人配送車路徑規(guī)劃 [J]. 計算機應用研究, 2022, 39(11): 3287-3291. (Liu Ke, Dong Hongzhao, Zhang Limei, et al. Path planning for logistics unmanned delivery vehicles based on improved artificial potential field method [J]. Application Research of Computers, 2022, 39(11): 3287-3291.)

    [13]Yu Y, Liu Y, Wang J, et al. Obstacle avoidance method based on double DQN for agricultural robots[J]. Computers and Electronics in Agriculture, 2023,204: 107546.

    [14]黃巖松, 姚錫凡, 景軒, 等. 基于深度Q網(wǎng)絡的多起點多終點AGV路徑規(guī)劃 [J]. 計算機集成制造系統(tǒng), 2023, 29(8): 2550-2562. (Huang Yansong, Yao Xifan, Jing Xuan, et al. DQN-based AGV path planning for situations with multi-starts and multi-targets [J]. Computer Integrated Manufacturing Systems, 2023, 29(8): 2550-2562.)

    [15]周治國, 余思雨, 于家寶, 等. 面向無人艇的T-DQN智能避障算法研究 [J]. 自動化學報, 2023, 49(8): 1645-1655. (Zhou Zhi-guo, Yu Siyu, Yu Jiabao, et al. Research on T-DQN intelligent obstacle avoidance algorithm of unmanned surface vehicle [J]. Acta Automatica Sinica, 2023, 49(8): 1645-1655.)

    [16]Wang Xia, Liu Jun, Nugent C, et al. Mobile agent path planning under uncertain environment using reinforcement learning and probabilistic model checking[J]. Knowledge-Based Systems, 2023, 264: 110355.

    [17]田曉航, 霍鑫, 周典樂, 等. 基于蟻群信息素輔助的Q學習路徑規(guī)劃算法 [J]. 控制與決策, 2023, 38(12): 3345-3353. (Tian Xiaohang, Huo Xin, Zhou Dianle, et al. Ant colony pheromone aided Q-learning path planning algorithm [J]. Control and Decision, 2023, 38(12): 3345-3353.)

    [18]耿璽鈞, 崔立堃, 熊高, 等. 子目標驅(qū)動DQN算法的無人車狹窄轉(zhuǎn)彎環(huán)境導航 [J]. 控制與決策, 2024, 39(11): 3637-3644. (Geng Xijun, Cui Likun, Xiong Gao, et al. Navigation in narrow turning environment of unmanned vehicle based on subgoal-driven DQN algorithm [J]. Control and Decision, 2024, 39(11): 3637-3644.)

    [19]李子怡, 胡祥濤, 張勇樂, 等. 基于虛擬目標制導的自適應Q學習路徑規(guī)劃算法 [J]. 計算機集成制造系統(tǒng), 2024, 30(2): 553-568. (Li Ziyi, Hu Xiangtao, Zhang Yongle, et al. Adaptive Q-lear-ning path planning algorithm based on virtual target guidance [J]. Computer Integrated Manufacturing Systems, 2024, 30(2): 553-568.)

    [20]別桐, 朱曉慶, 付煜, 等. 基于Safe-PPO算法的安全優(yōu)先路徑規(guī)劃方法 [J]. 北京航空航天大學學報, 2023, 49(8): 2108-2118. (Bie Tong, Zhu Xiaoqin, Fu Yu, et al. Safety priority path planning method based on Safe-PPO algorithm [J]. Journal of Beijing University of Aeronautics and Astronautics, 2023, 49(8): 2108-2118.)

    [21]張瀚, 解明揚, 張民, 等. 融合DDPG算法的移動機器人路徑規(guī)劃研究 [J]. 控制工程, 2021, 28(11): 2136-2142. (Zhang Han, Xie Mingyang, Zhang Min, et al. Path planning of mobile robot with fusion DDPG algorithm [J]. Control Engineering of China, 2021, 28(11): 2136-2142.)

    [22]Yan Chengliang, Chen Guangzhu, Li Yang, et al. Immune deep reinforcement learning-based path planning for mobile robot in unknown environment [J]. Applied Soft Computing, 2023, 145: 110601.

    [23]楊來義, 畢敬, 苑海濤. 基于SAC算法的移動機器人智能路徑規(guī)劃 [J]. 系統(tǒng)仿真學報, 2023, 35(8): 1726-1736. (Yang Laiyi, Bi Jing, Yuan Haitao. Intelligent path planning for mobile robots based on SAC algorithm [J]. Journal of System Simulation, 2023, 35(8): 1726-1736.)

    [24]崔立志, 鐘航, 董文娟. 基于改進優(yōu)先經(jīng)驗回放的SAC算法路徑規(guī)劃 [J]. 空間控制技術(shù)與應用, 2023, 49(5): 55-64. (Cui Li-zhi, Zhong Hang, Dong Wenjuan. Path planning using SAC algorithm based on improved prioritized experience replay [J]. Aerospace Control and Application, 2023, 49(5): 55-64.)

    [25]楊淑華, 謝曉波, 邴振凱,等. 基于HER-TD3算法的青皮核桃采摘機械臂路徑規(guī)劃 [J]. 農(nóng)業(yè)機械學報, 2024, 55(4): 113-123. (Yang Shuhua, Xie Xiaobo, Bing Zhenkai, et al. Path planning of green walnut picking robotic arm based on HER-TD3 algorithm [J]. Trans of the Chinese Society for Agricultural Machinery, 2024, 55(4): 113-123.)

    [26]Lin Chuan, Han Guangjie, Zhang Tongwei, et al. Smart underwater pollution detection based on graph-based multi-agent reinforcement learning towards AUV-based network ITS [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24(7): 7494-7505.

    [27]Chen Pengzhan, Pei Jiean, Lu Weiqing, et al. A deep reinforcement learning based method for real-time path planning and dynamic obstacle avoidance [J]. Neurocomputing, 2022, 497: 64-75.

    [28]錢立軍, 宣亮, 陳健, 等. 基于SAC算法的多交叉口交通信號控制研究 [J]. 天津大學學報:自然科學與工程技術(shù)版, 2024, 57(1): 105-111. (Qiang Lijun, Xuan Liang, Chen Jian, et al. Multi-intersection traffic signal control based on SAC algorithm [J]. Journal of Tianjin University:Science and Technology, 2024, 57(1): 105-111.)

    [29]Guo Haisen, Ren Zhigang, Lai Jialun, et al. Optimal navigation for AGVs: a soft actor-critic-based reinforcement learning approach with composite auxiliary rewards [J]. Engineering Applications of Artificial Intelligence, 2023, 124: 106613.

    [30]Das M S, Sanyal S, Mandal S. Navigation of multiple robots in forma-tive manner in an unknown environment using artificial potential field based path planning algorithm [J]. Ain Shams Engineering Journal, 2022, 13(5): 101675.

    [31]Tong Xiaolong, Yu Shanen, Liu Guangyu, et al. A hybrid formation path planning based on A* and multi-target improved artificial potential field algorithm in the 2D random environments [J]. Advanced Engineering Informatics, 2022, 54: 101755.

    [32]王慶祿, 吳馮國, 鄭成辰, 等. 基于優(yōu)化人工勢場法的無人機航跡規(guī)劃 [J]. 系統(tǒng)工程與電子技術(shù), 2023, 45(5): 1461-1468. (Wang Qinglu, Wu Fengguo, Zheng Chengchen, et al. UAV path planning based on optimized artificial potential field method [J]. Systems Engineering and Electronics, 2023, 45(5): 1461-1468.)

    [33]寧君, 馬昊冉, 李鐵山. 基于改進人工勢場法的船舶路徑規(guī)劃與跟蹤控制 [J]. 哈爾濱工程大學學報, 2022, 43(10): 1414-1423. (Ning Jun, Ma Haoran, Li Tieshan. Underactuated surface vessel path planning and following control based on an improved artificial potential field method [J]. Journal of Harbin Engineering University, 2022, 43(10): 1414-1423.)

    [34]辛鵬, 王艷輝, 劉曉立, 等. 優(yōu)化改進RRT和人工勢場法的路徑規(guī)劃算法 [J]. 計算機集成制造系統(tǒng), 2023, 29(9): 2899-2907. (Xin Peng, Wang Yanhui, Liu Xiaoli, et al. Path planning algorithm based on optimize and improve RRT and artificial potential field [J]. Computer Integrated Manufacturing Systems, 2023, 29(9): 2899-2907.)

    猜你喜歡
    移動機器人
    移動機器人自主動態(tài)避障方法
    移動機器人VSLAM和VISLAM技術(shù)綜述
    基于改進強化學習的移動機器人路徑規(guī)劃方法
    基于ROS與深度學習的移動機器人目標識別系統(tǒng)
    電子測試(2018年15期)2018-09-26 06:01:34
    基于Twincat的移動機器人制孔系統(tǒng)
    室內(nèi)環(huán)境下移動機器人三維視覺SLAM
    簡述輪式移動機器人控制系統(tǒng)中的傳感器
    未知環(huán)境中移動機器人的環(huán)境探索與地圖構(gòu)建
    極坐標系下移動機器人的點鎮(zhèn)定
    基于引導角的非完整移動機器人軌跡跟蹤控制
    亚洲av国产av综合av卡| 精品午夜福利视频在线观看一区 | 日韩欧美国产一区二区入口| 老司机深夜福利视频在线观看| 国产人伦9x9x在线观看| 久久久国产成人免费| 国产成人精品久久二区二区91| 蜜桃在线观看..| 国产真人三级小视频在线观看| 自线自在国产av| 在线观看66精品国产| 男男h啪啪无遮挡| 69精品国产乱码久久久| 免费观看人在逋| 国产伦理片在线播放av一区| 欧美激情极品国产一区二区三区| 精品国产一区二区三区久久久樱花| 大型av网站在线播放| 亚洲国产欧美网| 日本av免费视频播放| 高清黄色对白视频在线免费看| 一进一出好大好爽视频| 黄色 视频免费看| 777久久人妻少妇嫩草av网站| 啦啦啦中文免费视频观看日本| 99热网站在线观看| 丝袜人妻中文字幕| 国产精品一区二区在线观看99| 在线观看免费视频网站a站| 精品亚洲乱码少妇综合久久| 久久婷婷成人综合色麻豆| 精品少妇久久久久久888优播| 中亚洲国语对白在线视频| 岛国毛片在线播放| 国产不卡一卡二| 亚洲一区中文字幕在线| 9191精品国产免费久久| 国产精品一区二区免费欧美| 日韩一卡2卡3卡4卡2021年| 成人黄色视频免费在线看| 日本av手机在线免费观看| 夜夜夜夜夜久久久久| 青草久久国产| 中文字幕人妻丝袜制服| 国产精品国产av在线观看| 国产精品麻豆人妻色哟哟久久| 欧美+亚洲+日韩+国产| av不卡在线播放| 国产1区2区3区精品| 制服人妻中文乱码| 国产单亲对白刺激| 国产极品粉嫩免费观看在线| 国产黄频视频在线观看| 亚洲九九香蕉| 中文字幕人妻丝袜一区二区| 成年动漫av网址| 涩涩av久久男人的天堂| 久久久久久久大尺度免费视频| 黄色视频在线播放观看不卡| 热re99久久国产66热| 两个人看的免费小视频| 亚洲第一欧美日韩一区二区三区 | 久久中文字幕人妻熟女| 国产淫语在线视频| 成人国产一区最新在线观看| 麻豆乱淫一区二区| 久久精品亚洲熟妇少妇任你| 亚洲情色 制服丝袜| 精品午夜福利视频在线观看一区 | 免费在线观看黄色视频的| 国产黄色免费在线视频| 高清黄色对白视频在线免费看| 久久国产精品大桥未久av| 免费少妇av软件| 欧美在线黄色| 亚洲国产毛片av蜜桃av| 不卡一级毛片| 麻豆成人av在线观看| 日韩免费高清中文字幕av| 成人18禁高潮啪啪吃奶动态图| 欧美精品av麻豆av| 成人18禁在线播放| 欧美另类亚洲清纯唯美| 精品欧美一区二区三区在线| 女人精品久久久久毛片| 18禁黄网站禁片午夜丰满| 欧美人与性动交α欧美精品济南到| av超薄肉色丝袜交足视频| 一夜夜www| 少妇裸体淫交视频免费看高清 | 欧美性长视频在线观看| 怎么达到女性高潮| 日日爽夜夜爽网站| 欧美精品av麻豆av| 国产成人啪精品午夜网站| 在线av久久热| 久久久久久亚洲精品国产蜜桃av| 最黄视频免费看| 两性夫妻黄色片| 欧美日韩成人在线一区二区| 久久精品成人免费网站| 大香蕉久久成人网| 大香蕉久久成人网| 69精品国产乱码久久久| 国产精品偷伦视频观看了| 国产精品美女特级片免费视频播放器 | 精品一区二区三区视频在线观看免费 | av一本久久久久| 久久久久久亚洲精品国产蜜桃av| 精品久久久久久电影网| 免费在线观看黄色视频的| 国产麻豆69| 美女扒开内裤让男人捅视频| 亚洲精品国产一区二区精华液| 老司机午夜十八禁免费视频| 黄色片一级片一级黄色片| tocl精华| 国产欧美日韩一区二区精品| 最近最新免费中文字幕在线| 国产黄频视频在线观看| 如日韩欧美国产精品一区二区三区| 99香蕉大伊视频| 热99re8久久精品国产| 99九九在线精品视频| 免费一级毛片在线播放高清视频 | 国产精品 欧美亚洲| 50天的宝宝边吃奶边哭怎么回事| 脱女人内裤的视频| 9191精品国产免费久久| 香蕉久久夜色| 天天躁日日躁夜夜躁夜夜| 无限看片的www在线观看| 超碰成人久久| 老司机亚洲免费影院| 欧美精品亚洲一区二区| 天堂俺去俺来也www色官网| 老汉色∧v一级毛片| 久久久久久久大尺度免费视频| 欧美精品高潮呻吟av久久| 国产精品麻豆人妻色哟哟久久| 国产欧美日韩一区二区三| 亚洲成av片中文字幕在线观看| 国产亚洲欧美在线一区二区| 99精国产麻豆久久婷婷| 日韩欧美免费精品| 久久免费观看电影| 成年人黄色毛片网站| 后天国语完整版免费观看| 夜夜夜夜夜久久久久| 一级毛片电影观看| 9色porny在线观看| 真人做人爱边吃奶动态| 中文字幕精品免费在线观看视频| 亚洲午夜理论影院| 欧美日韩国产mv在线观看视频| 热99国产精品久久久久久7| 亚洲精品一卡2卡三卡4卡5卡| 丰满饥渴人妻一区二区三| 久久精品国产a三级三级三级| 国产又爽黄色视频| 亚洲精品久久成人aⅴ小说| 久久久久精品人妻al黑| 大香蕉久久网| 51午夜福利影视在线观看| 欧美亚洲 丝袜 人妻 在线| 99精品久久久久人妻精品| 亚洲精品乱久久久久久| 女人精品久久久久毛片| 亚洲avbb在线观看| av天堂久久9| 丝袜美足系列| 黄色视频在线播放观看不卡| 亚洲精品成人av观看孕妇| 变态另类成人亚洲欧美熟女 | 亚洲欧美日韩高清在线视频 | 亚洲av成人不卡在线观看播放网| 亚洲少妇的诱惑av| 午夜福利视频在线观看免费| 精品一区二区三卡| 97在线人人人人妻| av欧美777| 岛国毛片在线播放| 国产精品.久久久| 久久人妻福利社区极品人妻图片| 黑丝袜美女国产一区| cao死你这个sao货| 欧美成狂野欧美在线观看| 亚洲成a人片在线一区二区| 十分钟在线观看高清视频www| 18禁裸乳无遮挡动漫免费视频| 亚洲精品国产一区二区精华液| 国产一区二区 视频在线| 亚洲情色 制服丝袜| netflix在线观看网站| 美女福利国产在线| 两性午夜刺激爽爽歪歪视频在线观看 | 国产黄色免费在线视频| 成人黄色视频免费在线看| 精品一区二区三区四区五区乱码| 久久久久视频综合| 制服人妻中文乱码| 99国产精品99久久久久| 五月天丁香电影| 欧美日韩黄片免| 999久久久国产精品视频| 国产成人系列免费观看| 日韩 欧美 亚洲 中文字幕| 久久av网站| 国产精品 国内视频| 午夜老司机福利片| 精品久久久久久电影网| 可以免费在线观看a视频的电影网站| 搡老乐熟女国产| 99九九在线精品视频| 亚洲欧美激情在线| av线在线观看网站| 另类亚洲欧美激情| 90打野战视频偷拍视频| 一级片免费观看大全| 久久久久视频综合| 日本av手机在线免费观看| 国产成人免费观看mmmm| 国产欧美日韩一区二区精品| 黄色片一级片一级黄色片| 大片电影免费在线观看免费| 一级毛片女人18水好多| 国产成人精品久久二区二区免费| www日本在线高清视频| 建设人人有责人人尽责人人享有的| 老熟妇仑乱视频hdxx| 另类亚洲欧美激情| 五月开心婷婷网| av网站免费在线观看视频| 美女主播在线视频| 狂野欧美激情性xxxx| 一级毛片电影观看| netflix在线观看网站| 老司机靠b影院| 午夜福利欧美成人| 国产欧美亚洲国产| 露出奶头的视频| 交换朋友夫妻互换小说| 18禁黄网站禁片午夜丰满| 日韩一卡2卡3卡4卡2021年| 色尼玛亚洲综合影院| 亚洲精品av麻豆狂野| 曰老女人黄片| 老熟女久久久| 午夜福利一区二区在线看| 美女高潮到喷水免费观看| 久久中文字幕一级| 交换朋友夫妻互换小说| 成人国产av品久久久| 一本色道久久久久久精品综合| av国产精品久久久久影院| 在线观看66精品国产| 成年动漫av网址| 19禁男女啪啪无遮挡网站| 一区二区三区精品91| 777米奇影视久久| 女人爽到高潮嗷嗷叫在线视频| 精品国产超薄肉色丝袜足j| 国产av一区二区精品久久| 亚洲国产精品一区二区三区在线| 18在线观看网站| 欧美国产精品一级二级三级| 亚洲av片天天在线观看| 12—13女人毛片做爰片一| 亚洲,欧美精品.| 亚洲av第一区精品v没综合| 日韩一卡2卡3卡4卡2021年| 日日爽夜夜爽网站| 亚洲精品国产区一区二| 日韩精品免费视频一区二区三区| 亚洲一码二码三码区别大吗| 国产成人欧美在线观看 | 国产成人免费无遮挡视频| 亚洲欧美激情在线| 精品人妻在线不人妻| 欧美在线一区亚洲| 夜夜夜夜夜久久久久| 国产成人免费无遮挡视频| 不卡一级毛片| 久久中文看片网| 亚洲av国产av综合av卡| 男女高潮啪啪啪动态图| 午夜激情av网站| 啦啦啦免费观看视频1| 免费女性裸体啪啪无遮挡网站| 18禁裸乳无遮挡动漫免费视频| 黑人操中国人逼视频| 伊人久久大香线蕉亚洲五| 一二三四社区在线视频社区8| 大香蕉久久成人网| 正在播放国产对白刺激| 一级a爱视频在线免费观看| 天天影视国产精品| 国产精品av久久久久免费| 国产麻豆69| 91九色精品人成在线观看| 日韩欧美国产一区二区入口| 91精品三级在线观看| 国产成人影院久久av| 视频区图区小说| 母亲3免费完整高清在线观看| 欧美日本中文国产一区发布| 欧美日韩视频精品一区| 女人精品久久久久毛片| 午夜精品久久久久久毛片777| bbb黄色大片| 成人永久免费在线观看视频 | 最新的欧美精品一区二区| 久久久精品区二区三区| 久热这里只有精品99| 麻豆av在线久日| 国产av国产精品国产| 纯流量卡能插随身wifi吗| 亚洲精品久久成人aⅴ小说| 久久亚洲真实| 久久久久国产一级毛片高清牌| 又黄又粗又硬又大视频| 老司机靠b影院| www.999成人在线观看| 在线观看免费午夜福利视频| 国产精品一区二区免费欧美| 一级a爱视频在线免费观看| 欧美黑人精品巨大| 国产成人精品无人区| 两人在一起打扑克的视频| 午夜福利欧美成人| 亚洲精品美女久久久久99蜜臀| 国产精品成人在线| 久久青草综合色| 久久久久久久国产电影| 国产一区二区激情短视频| 久9热在线精品视频| 亚洲色图综合在线观看| 欧美 日韩 精品 国产| 国产在线视频一区二区| 中文字幕人妻熟女乱码| 精品高清国产在线一区| 无遮挡黄片免费观看| 精品国产乱码久久久久久男人| 十分钟在线观看高清视频www| 久久精品亚洲精品国产色婷小说| 日本五十路高清| 久久中文字幕一级| 免费久久久久久久精品成人欧美视频| 又紧又爽又黄一区二区| 国产不卡一卡二| 18在线观看网站| 日本av手机在线免费观看| 超碰97精品在线观看| 久久精品人人爽人人爽视色| 久久久国产成人免费| 美女福利国产在线| 欧美+亚洲+日韩+国产| 黄色视频,在线免费观看| 国产麻豆69| 9191精品国产免费久久| 在线观看人妻少妇| 亚洲av第一区精品v没综合| 操美女的视频在线观看| 午夜91福利影院| 亚洲第一av免费看| 久久精品国产亚洲av高清一级| 久久久久视频综合| 在线观看66精品国产| kizo精华| 一区在线观看完整版| 美女福利国产在线| 人人妻,人人澡人人爽秒播| 国产精品av久久久久免费| 久久久国产一区二区| 亚洲一区中文字幕在线| 日韩欧美一区视频在线观看| 99riav亚洲国产免费| 日日爽夜夜爽网站| 嫩草影视91久久| 亚洲av日韩在线播放| 久久热在线av| 午夜视频精品福利| 亚洲人成77777在线视频| 操美女的视频在线观看| 欧美精品啪啪一区二区三区| 人妻 亚洲 视频| 91国产中文字幕| 中文字幕av电影在线播放| 成人国产一区最新在线观看| 久久国产精品大桥未久av| 欧美另类亚洲清纯唯美| 成人av一区二区三区在线看| av有码第一页| 成人国语在线视频| 精品少妇一区二区三区视频日本电影| 人人妻人人爽人人添夜夜欢视频| 性少妇av在线| 亚洲成人免费电影在线观看| 美女高潮到喷水免费观看| 日韩大片免费观看网站| 一边摸一边抽搐一进一出视频| 久久中文看片网| 午夜老司机福利片| 久久精品亚洲熟妇少妇任你| 午夜福利,免费看| 免费不卡黄色视频| 曰老女人黄片| 岛国毛片在线播放| 亚洲伊人久久精品综合| 在线 av 中文字幕| 99国产精品免费福利视频| 国产区一区二久久| 亚洲一区中文字幕在线| 男女床上黄色一级片免费看| 色婷婷av一区二区三区视频| 国产老妇伦熟女老妇高清| 久久久欧美国产精品| 麻豆国产av国片精品| 欧美性长视频在线观看| 亚洲国产看品久久| 桃红色精品国产亚洲av| 精品卡一卡二卡四卡免费| 午夜福利乱码中文字幕| 99精品久久久久人妻精品| 一本综合久久免费| 亚洲视频免费观看视频| 国产国语露脸激情在线看| 欧美日韩av久久| 精品人妻熟女毛片av久久网站| 两人在一起打扑克的视频| 在线十欧美十亚洲十日本专区| 亚洲视频免费观看视频| 亚洲色图 男人天堂 中文字幕| 在线观看舔阴道视频| 91麻豆精品激情在线观看国产 | xxxhd国产人妻xxx| 丁香欧美五月| 亚洲色图 男人天堂 中文字幕| 国产亚洲精品一区二区www | 国产一卡二卡三卡精品| 三级毛片av免费| 黄色成人免费大全| 天堂动漫精品| av片东京热男人的天堂| 97人妻天天添夜夜摸| 国产伦理片在线播放av一区| 精品熟女少妇八av免费久了| 曰老女人黄片| 国产亚洲欧美在线一区二区| 亚洲精品国产一区二区精华液| 亚洲精华国产精华精| 后天国语完整版免费观看| av电影中文网址| 欧美黑人精品巨大| 麻豆国产av国片精品| 黄色视频在线播放观看不卡| 色尼玛亚洲综合影院| 丝袜在线中文字幕| 啪啪无遮挡十八禁网站| 美女福利国产在线| 一进一出好大好爽视频| 国产成人免费观看mmmm| 免费在线观看影片大全网站| 母亲3免费完整高清在线观看| 久久国产亚洲av麻豆专区| 日韩欧美一区二区三区在线观看 | 男女之事视频高清在线观看| 黄色怎么调成土黄色| 亚洲第一av免费看| 国产极品粉嫩免费观看在线| 国产亚洲av高清不卡| 免费观看av网站的网址| 国产精品一区二区在线不卡| 国产精品影院久久| 桃红色精品国产亚洲av| 欧美国产精品va在线观看不卡| 欧美日本中文国产一区发布| 欧美中文综合在线视频| 国产日韩欧美亚洲二区| 久久九九热精品免费| a级毛片黄视频| 国产男女超爽视频在线观看| 国产日韩一区二区三区精品不卡| 亚洲第一av免费看| 午夜老司机福利片| 超碰97精品在线观看| av网站免费在线观看视频| 国产亚洲精品一区二区www | 亚洲久久久国产精品| svipshipincom国产片| 精品亚洲成a人片在线观看| 欧美日韩视频精品一区| 黄色成人免费大全| 亚洲精品中文字幕一二三四区 | 国产午夜精品久久久久久| 亚洲精品国产色婷婷电影| 日韩视频在线欧美| 成人国语在线视频| 成人av一区二区三区在线看| 视频在线观看一区二区三区| 欧美人与性动交α欧美软件| videosex国产| 久久人人爽av亚洲精品天堂| 国产又色又爽无遮挡免费看| 亚洲国产av新网站| 欧美成人午夜精品| 亚洲国产欧美一区二区综合| 欧美国产精品va在线观看不卡| 免费观看人在逋| 黄色毛片三级朝国网站| 日本精品一区二区三区蜜桃| svipshipincom国产片| 国产日韩欧美在线精品| 国产成人免费观看mmmm| 午夜视频精品福利| 最新的欧美精品一区二区| 欧美日韩av久久| 日本a在线网址| 99精品在免费线老司机午夜| 他把我摸到了高潮在线观看 | 国产日韩欧美亚洲二区| 国产欧美日韩综合在线一区二区| 亚洲精品成人av观看孕妇| 国产成人精品久久二区二区91| 国产精品久久久久成人av| 欧美日韩中文字幕国产精品一区二区三区 | 成人国产一区最新在线观看| cao死你这个sao货| 搡老熟女国产l中国老女人| 高清视频免费观看一区二区| 伦理电影免费视频| 搡老岳熟女国产| 亚洲免费av在线视频| 午夜视频精品福利| 别揉我奶头~嗯~啊~动态视频| 黄网站色视频无遮挡免费观看| 亚洲精品自拍成人| 久热爱精品视频在线9| 久久久久久久精品吃奶| 亚洲av片天天在线观看| 啦啦啦 在线观看视频| 欧美大码av| 午夜福利一区二区在线看| 亚洲国产中文字幕在线视频| 亚洲第一av免费看| 国产成人免费观看mmmm| 纯流量卡能插随身wifi吗| 日本av免费视频播放| 精品一区二区三区视频在线观看免费 | 狠狠婷婷综合久久久久久88av| 成人精品一区二区免费| 亚洲成人国产一区在线观看| 欧美中文综合在线视频| 十八禁高潮呻吟视频| 国产极品粉嫩免费观看在线| 好男人电影高清在线观看| 国产成人av教育| 美女视频免费永久观看网站| 91国产中文字幕| 在线观看www视频免费| 亚洲色图 男人天堂 中文字幕| 精品国产亚洲在线| av超薄肉色丝袜交足视频| 精品福利观看| 老鸭窝网址在线观看| 曰老女人黄片| 母亲3免费完整高清在线观看| 黄色视频在线播放观看不卡| 电影成人av| 女同久久另类99精品国产91| 亚洲av国产av综合av卡| 国产精品亚洲一级av第二区| 国产色视频综合| 999精品在线视频| 欧美人与性动交α欧美精品济南到| 每晚都被弄得嗷嗷叫到高潮| 99香蕉大伊视频| 999久久久国产精品视频| 久久这里只有精品19| 亚洲少妇的诱惑av| 老司机午夜十八禁免费视频| 免费黄频网站在线观看国产| 首页视频小说图片口味搜索| 亚洲第一av免费看| 国产精品 欧美亚洲| 久久亚洲精品不卡| 色尼玛亚洲综合影院| 欧美激情 高清一区二区三区| 午夜免费鲁丝| 19禁男女啪啪无遮挡网站| 少妇猛男粗大的猛烈进出视频| 叶爱在线成人免费视频播放| 国产精品久久久久成人av| 久久亚洲真实| 麻豆乱淫一区二区| 国产精品成人在线| 午夜精品国产一区二区电影| 日韩一卡2卡3卡4卡2021年| 亚洲国产毛片av蜜桃av| 高清av免费在线| 99re在线观看精品视频| 成人18禁在线播放| 宅男免费午夜| 国精品久久久久久国模美| 俄罗斯特黄特色一大片| 无限看片的www在线观看| 亚洲精华国产精华精| 丰满饥渴人妻一区二区三| 在线观看免费午夜福利视频| 国产欧美日韩一区二区三区在线| 在线观看免费午夜福利视频| 韩国精品一区二区三区| 国产成人免费观看mmmm| 国产又色又爽无遮挡免费看| 成人18禁高潮啪啪吃奶动态图|