• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于軌跡引導(dǎo)的移動(dòng)機(jī)器人導(dǎo)航策略優(yōu)化算法

    2024-06-01 17:42:42李忠偉劉偉鵬羅偲

    李忠偉 劉偉鵬 羅偲

    摘 要:針對(duì)在雜亂、障礙物密集的復(fù)雜環(huán)境下移動(dòng)機(jī)器人使用深度強(qiáng)化學(xué)習(xí)進(jìn)行自主導(dǎo)航所面臨的探索困難,進(jìn)而導(dǎo)致學(xué)習(xí)效率低下的問題,提出了一種基于軌跡引導(dǎo)的導(dǎo)航策略優(yōu)化(TGNPO)算法。首先,使用模仿學(xué)習(xí)的方法為移動(dòng)機(jī)器人訓(xùn)練一個(gè)能夠同時(shí)提供專家示范行為與導(dǎo)航軌跡預(yù)測(cè)功能的專家策略,旨在全面指導(dǎo)深度強(qiáng)化學(xué)習(xí)訓(xùn)練;其次,將專家策略預(yù)測(cè)的導(dǎo)航軌跡與當(dāng)前時(shí)刻移動(dòng)機(jī)器人所感知的實(shí)時(shí)圖像進(jìn)行融合,并結(jié)合坐標(biāo)注意力機(jī)制提取對(duì)移動(dòng)機(jī)器人未來導(dǎo)航起引導(dǎo)作用的特征區(qū)域,提高導(dǎo)航模型的學(xué)習(xí)性能;最后,使用專家策略預(yù)測(cè)的導(dǎo)航軌跡對(duì)移動(dòng)機(jī)器人的策略軌跡進(jìn)行約束,降低導(dǎo)航過程中的無效探索和錯(cuò)誤決策。通過在仿真和物理平臺(tái)上部署所提算法,實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有的先進(jìn)方法,所提算法在導(dǎo)航的學(xué)習(xí)效率和軌跡平滑方面取得了顯著的優(yōu)勢(shì)。這充分證明了該算法能夠高效、安全地執(zhí)行機(jī)器人導(dǎo)航任務(wù)。

    關(guān)鍵詞:移動(dòng)機(jī)器人自主導(dǎo)航;軌跡預(yù)測(cè);軌跡-圖像融合;軌跡約束;深度強(qiáng)化學(xué)習(xí)

    中圖分類號(hào):TP242.6?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號(hào):1001-3695(2024)05-025-1456-06

    doi: 10.19734/j.issn.1001-3695.2023.09.0422

    Autonomous navigation? policy optimization algorithm for mobile robots based on trajectory guidance

    Abstract:Addressing the exploration challenges faced by mobile robots using deep reinforcement learning for autonomous navi-gation in cluttered, obstacle-dense complex environments, this paper proposed the trajectory-guided navigation policy optimization (TGNPO) algorithm. Firstly, it employed an imitation learning approach to train an expert policy? for a mobile robot, which could provide both expert demonstration behavior and navigation trajectory prediction and aimed to comprehensively guide the training of deep reinforcement learning. Secondly, it fused the predicted navigation trajectory from the expert policy with real-time images perceived by the mobile robot at the current moment. Combining the coordinate attention mechanism, it extracted feature regions which would guide the robots future navigation, thereby enhancing the learning performance of the navigation model. Finally, it utilized the navigation trajectory predicted by the expert policy to constrain the policy trajectory of the mobile robot, mitigating ineffective exploration and erroneous decision-making during navigation process By deploying the proposed algorithm on both simulation and physical platforms, experimental results demonstrated significant advantages in navigation learning efficiency and trajectory smoothness compared to existing state-of-the-art methods which fully proves the proposed algorithms capability to efficiently and safely execute robot navigation tasks.

    Key words:autonomous navigation of mobile robots; trajectory prediction; trajectory-image fusion; trajectory constraint; deep reinforcement learning

    0 引言

    在移動(dòng)機(jī)器人領(lǐng)域,自主導(dǎo)航被視為最為普遍的任務(wù)之一。特別是在雜亂、擁擠的環(huán)境下,機(jī)器人需要有效地解決避障、軌跡平滑以及避免次優(yōu)解等問題,這增加了自主導(dǎo)航過程的復(fù)雜性和挑戰(zhàn)性。

    當(dāng)面臨復(fù)雜環(huán)境時(shí),大多數(shù)傳統(tǒng)基于地圖的方法[1,2]的實(shí)現(xiàn)將變得困難。盡管已經(jīng)有一些研究[3,4]在導(dǎo)航過程中可以無須地圖信息,但是傳統(tǒng)方法在應(yīng)對(duì)復(fù)雜環(huán)境時(shí)緩慢的計(jì)算速度和對(duì)原始傳感器數(shù)據(jù)中的噪聲敏感性,降低了自主導(dǎo)航的效率。

    近年來,為了解決傳統(tǒng)算法在自主導(dǎo)航問題中的不足,已經(jīng)提出了許多基于學(xué)習(xí)的方法[5~7]。其中一種稱為模仿學(xué)習(xí)(imitation learning,IL)的方法[8~10]在移動(dòng)機(jī)器人導(dǎo)航任務(wù)中實(shí)現(xiàn)了快速推理。這些方法基于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表示能力,直接將原始高維感官數(shù)據(jù)(如RGB圖像和激光雷達(dá)點(diǎn)云)作為輸入,并輸出低級(jí)控制命令(如轉(zhuǎn)向和油門)。然而,雖然IL可以高效地從專家演示中提取導(dǎo)航知識(shí),但面臨一個(gè)常見問題是分布不匹配,即模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在實(shí)際執(zhí)行中的數(shù)據(jù)上可能表現(xiàn)不佳,這是因?yàn)橛?xùn)練數(shù)據(jù)和實(shí)際執(zhí)行數(shù)據(jù)之間存在差異。

    另一種基于深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)[11]的方法在移動(dòng)機(jī)器人自主導(dǎo)航領(lǐng)域得到廣泛應(yīng)用[12~14]。DRL方法使移動(dòng)機(jī)器人與環(huán)境互動(dòng)學(xué)習(xí),根據(jù)試錯(cuò)和獎(jiǎng)勵(lì)來改善其行為,其中一類被稱為無模型的深度強(qiáng)化學(xué)習(xí)(model-free DRL)[15~18]。盡管無模型的深度強(qiáng)化學(xué)習(xí)在某些情況下表現(xiàn)出色,但在復(fù)雜環(huán)境中,狀態(tài)空間可能變得極其龐大,包含大量不同的變量和可能的取值組合,這使得深度強(qiáng)化學(xué)習(xí)算法需要花費(fèi)大量時(shí)間和資源來探索這個(gè)龐大的狀態(tài)空間,以學(xué)習(xí)出適當(dāng)?shù)牟呗裕瑥亩鴮?dǎo)致學(xué)習(xí)效率低下。

    為了提高移動(dòng)機(jī)器人的學(xué)習(xí)效率,一些研究[19,20]提出模仿學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)相結(jié)合的方法。這些方法利用僅包含專家示范行為的專家策略來指導(dǎo)智能體(移動(dòng)機(jī)器人)學(xué)習(xí),通過衡量每一時(shí)刻專家策略與DRL策略之間的差距來決定采取哪種策略,雖然一定程度上可以降低智能體的自主探索率,但是可能導(dǎo)致專家策略對(duì)智能體的學(xué)習(xí)產(chǎn)生過多干預(yù)。

    針對(duì)上述問題,本文使用模仿學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)結(jié)合的框架,并受Cimurs等人[21]提出的從環(huán)境中獲得可能導(dǎo)航方向的興趣點(diǎn)(PoI)這一觀點(diǎn)的啟發(fā),提出了一種基于軌跡引導(dǎo)的移動(dòng)機(jī)器人導(dǎo)航策略優(yōu)化方法,下文敘述中DRL策略等同于導(dǎo)航策略。TGNPO中的專家策略考慮了專家示范行為和導(dǎo)航軌跡預(yù)測(cè)。專家策略的導(dǎo)航軌跡預(yù)測(cè)具備對(duì)導(dǎo)航中的關(guān)鍵特征區(qū)域的了解,將這些預(yù)測(cè)軌跡與機(jī)器人實(shí)時(shí)感知的圖像融合,可以幫助導(dǎo)航策略模型更快地識(shí)別并了解這些特征區(qū)域,提高自主探索時(shí)模型的學(xué)習(xí)性能。同時(shí),TGNPO中的軌跡約束的關(guān)鍵在于在自主探索和專家干預(yù)之間建立平衡。機(jī)器人首先有機(jī)會(huì)自主探索環(huán)境,這有助于了解環(huán)境和積累經(jīng)驗(yàn)。然而,當(dāng)自主探索的距離大于約束距離時(shí),專家干預(yù)將確保機(jī)器人不會(huì)遠(yuǎn)離安全范圍,從而降低了進(jìn)一步探索的風(fēng)險(xiǎn)。這種平衡有助于提高學(xué)習(xí)效率,因?yàn)樗试S機(jī)器人在探索和專家干預(yù)之間取得良好的折中。本文的主要貢獻(xiàn)如下:

    a)針對(duì)目前模仿學(xué)習(xí)中的專家策略都是只輸出專家示范行為,忽略專家軌跡對(duì)導(dǎo)航策略的影響這一問題,提出在每一時(shí)刻可以同時(shí)提供專家示范行為與導(dǎo)航軌跡預(yù)測(cè)功能的專家策略,更全面地指導(dǎo)移動(dòng)機(jī)器人導(dǎo)航策略優(yōu)化。

    b)提出一種新穎的軌跡-圖像融合的方法,以迅速識(shí)別圖像中對(duì)移動(dòng)機(jī)器人未來導(dǎo)航具有指導(dǎo)意義的特征區(qū)域,提高導(dǎo)航模型性能。

    c)提出一個(gè)新的基于軌跡約束的決策標(biāo)準(zhǔn),用于移動(dòng)機(jī)器人在特定時(shí)刻決定執(zhí)行專家示范行為還是DRL策略,以在不同情境下優(yōu)化決策。

    e)提出一種適用于連續(xù)環(huán)境的懲罰-獎(jiǎng)勵(lì)機(jī)制,以提升DRL策略在模仿專家示范行為的準(zhǔn)確性。

    1 問題構(gòu)建

    本文討論移動(dòng)機(jī)器人在連續(xù)空間中學(xué)習(xí)自主導(dǎo)航,并將深度強(qiáng)化學(xué)習(xí)問題定義為馬爾可夫決策過程(Markov decision process,MDP)中的策略搜索。MDP由狀態(tài)空間Euclid Math OneSAp、動(dòng)作空間Euclid Math OneAAp、轉(zhuǎn)移概率Euclid Math OnePAp、獎(jiǎng)勵(lì)函數(shù)Euclid Math OneRAp:Euclid Math OneSAp×Euclid Math OneAApEuclid ExtraaApEuclid ExtraaBp,以及折扣因子γ組成。假設(shè)移動(dòng)機(jī)器人處于狀態(tài)st,依據(jù)DRL策略π選擇動(dòng)作at,π:Euclid Math OneSApEuclid ExtraaApEuclid Math OneAAp;基于選擇的動(dòng)作,移動(dòng)機(jī)器人從環(huán)境中獲得獎(jiǎng)勵(lì)rt,依據(jù)轉(zhuǎn)移概率p(st+1|st,at)到達(dá)下一個(gè)狀態(tài)st+1;重復(fù)此過程形成一條導(dǎo)航路徑τ=(st,st+1,…,sT)。

    1.1 狀態(tài)空間

    移動(dòng)機(jī)器人自主導(dǎo)航的狀態(tài)空間由元組(sp,sl,sg,sd)組成。其中,sp為當(dāng)前時(shí)刻的RGB圖像數(shù)據(jù),sl為激光雷達(dá)數(shù)據(jù),sg 為導(dǎo)航目標(biāo)位置,sd為移動(dòng)機(jī)器人實(shí)時(shí)方向角。圖像數(shù)據(jù)捕捉視覺特征,激光雷達(dá)數(shù)據(jù)提供障礙物和距離信息,目標(biāo)點(diǎn)位置和方向角則有助于移動(dòng)機(jī)器人進(jìn)行導(dǎo)航和位置定位。這些多模態(tài)數(shù)據(jù)類型可以提供豐富的環(huán)境信息,從而增強(qiáng)移動(dòng)機(jī)器人的環(huán)境感知能力。

    1.2 動(dòng)作空間

    移動(dòng)機(jī)器人的動(dòng)作空間包括連續(xù)的線性速度v和角速度w。經(jīng)過一系列仿真測(cè)試,設(shè)置v∈[0,0.6]和w∈[-1,1]。動(dòng)作空間范圍的設(shè)定經(jīng)過系統(tǒng)的分析和綜合評(píng)估,旨在深入理解移動(dòng)機(jī)器人在復(fù)雜環(huán)境中的運(yùn)動(dòng)行為。

    1.3 獎(jiǎng)勵(lì)函數(shù)

    獎(jiǎng)勵(lì)函數(shù)對(duì)于指導(dǎo)移動(dòng)機(jī)器人在環(huán)境中學(xué)習(xí)和優(yōu)化導(dǎo)航策略具有重要影響。本文構(gòu)建了包含碰撞情況、導(dǎo)航目標(biāo)點(diǎn)、機(jī)器人方向角與偏航角在內(nèi)的多維狀態(tài)信息的獎(jiǎng)勵(lì)函數(shù),以引導(dǎo)機(jī)器人學(xué)習(xí)適應(yīng)性的自主導(dǎo)航策略。具體的計(jì)算公式為

    R(st)=Rg(st)+Rc(st)+Rh(st)+Rd(st)(1)

    其中:Rg(st)為移動(dòng)機(jī)器人到達(dá)目標(biāo)點(diǎn)的獎(jiǎng)勵(lì)函數(shù),其值為rgoal;Rc(st)為碰撞獎(jiǎng)勵(lì)函數(shù),值為rcollision;Rh(st)為關(guān)于方向角與偏航角的獎(jiǎng)勵(lì)函數(shù),如式(2)所示。

    其中:式(2)中的h為移動(dòng)機(jī)器人的方向角與偏航角之間的差值,用來表示移動(dòng)機(jī)器人當(dāng)前朝向與其期望朝向之間的偏差,其計(jì)算如式(3)所示;h0與h1為偏差閾值,在其范圍內(nèi),h越小,移動(dòng)機(jī)器人獲得的獎(jiǎng)勵(lì)越高。

    其中:a tan2(yg-y,xg-x)為反正切函數(shù),用來計(jì)算移動(dòng)機(jī)器人的方向角;yaw為偏航角;a tan2(yg-y,xg-x)-yaw 為方向角與偏航角差值,記為h*;(x,y)為移動(dòng)機(jī)器人當(dāng)前時(shí)刻的坐標(biāo);(xg,yg)為導(dǎo)航目標(biāo)點(diǎn)坐標(biāo)。

    式(1)中的Rd表示移動(dòng)機(jī)器人在當(dāng)前時(shí)刻相對(duì)于前一時(shí)刻與目標(biāo)點(diǎn)的距離的變化量,其計(jì)算公式如式(4)所示。

    Rd(st)=‖ct-cg‖-‖ct-1-cg‖(4)

    其中:ct為移動(dòng)機(jī)器人在t時(shí)刻的坐標(biāo),cg為導(dǎo)航的目標(biāo)點(diǎn)。

    2 軌跡引導(dǎo)策略優(yōu)化

    本文提出的TGPON算法框架如圖1所示,主要由四個(gè)模塊構(gòu)成,即專家策略模塊、軌跡-圖像融合模塊、DRL模塊、軌跡約束模塊。專家策略模塊在處理輸入時(shí)僅考慮了RGB圖像這一信息源。相比之下,DRL模塊具有更豐富的信息輸入,包括RGB圖像、激光雷達(dá)數(shù)據(jù)、導(dǎo)航目標(biāo)位置和方向角等多個(gè)數(shù)據(jù)維度。這種多維信息的融合使得DRL模塊具備更全面的環(huán)境感知和任務(wù)理解能力,有助于更智能地制定導(dǎo)航?jīng)Q策和學(xué)習(xí)適應(yīng)不同情況的策略。TGNPO通過軌跡-圖像融合的方法改進(jìn)DRL模塊的價(jià)值與策略網(wǎng)絡(luò),顯著提升了模型的學(xué)習(xí)性能,使模型更深入地理解環(huán)境。此外,該算法對(duì)移動(dòng)機(jī)器人在深度強(qiáng)化學(xué)習(xí)策略下生成的導(dǎo)航軌跡進(jìn)行了約束,以使機(jī)器人在處理復(fù)雜環(huán)境時(shí)表現(xiàn)得更加出色。算法流程如算法1所示。

    算法1 TGNPO算法

    2.1 專家策略模塊

    專家策略在自主導(dǎo)航中發(fā)揮了關(guān)鍵作用,其對(duì)DRL策略的學(xué)習(xí)過程進(jìn)行了指導(dǎo)。本文通過對(duì)以往專家策略的改進(jìn),使其在每一時(shí)刻不僅能夠輸出當(dāng)前的專家示范行為,還能夠預(yù)測(cè)未來I個(gè)時(shí)間步的專家導(dǎo)航軌跡。這樣的改進(jìn)使得專家策略成為一個(gè)更為強(qiáng)大和全面的引導(dǎo)器,能夠提供更長(zhǎng)遠(yuǎn)的指引信息,指導(dǎo)DRL策略在未來的一系列時(shí)間步中作出更優(yōu)的決策。

    專家策略模塊主要采用了監(jiān)督學(xué)習(xí)的方法,將專家數(shù)據(jù)(st,(aEt,wEt,…,wEt+I))中的st看作樣本輸入,此時(shí)的st僅為RGB圖像數(shù)據(jù)。(aEt,wEt,…,wEt+I)為標(biāo)簽,其中aEt為專家示范行為,(wEt,…,wEt+I)為未來I個(gè)時(shí)間步的專家導(dǎo)航軌跡,學(xué)習(xí)的目標(biāo)為

    其中:Euclid Math OneLAp(πEψ(s),(a,w))為損失函數(shù),采用適用于回歸任務(wù)的MSE。πEψ(s)為要學(xué)習(xí)的專家策略網(wǎng)絡(luò),采用一種計(jì)算量小、參數(shù)少、輕量級(jí)的神經(jīng)網(wǎng)絡(luò)架構(gòu)MobileNet-v3[22]。

    2.2 軌跡-圖像融合模塊

    移動(dòng)機(jī)器人當(dāng)前時(shí)刻所感知到的圖像中蘊(yùn)涵著未來導(dǎo)航軌跡的重要線索,而移動(dòng)機(jī)器人在自主導(dǎo)航中對(duì)位置信息極為敏感,準(zhǔn)確的定位對(duì)其至關(guān)重要。坐標(biāo)注意力機(jī)制(coordinate attention)[23]不僅能夠捕獲跨通道信息,還捕獲方向感知和位置信息,這有助于模型更準(zhǔn)確地定位和識(shí)別感興趣的對(duì)象。因此,本文提出將當(dāng)前時(shí)刻的未來I個(gè)時(shí)間步的專家導(dǎo)航軌跡與當(dāng)前時(shí)刻移動(dòng)機(jī)器人所感知的實(shí)時(shí)圖像狀態(tài)融合,結(jié)合坐標(biāo)注意力機(jī)制提取導(dǎo)航所需要關(guān)注的圖像中的重點(diǎn)區(qū)域。

    上述步驟實(shí)現(xiàn)了軌跡與圖像的初步融合,在F上引入坐標(biāo)注意力機(jī)制對(duì)其分配注意力權(quán)重,以便模型能夠重點(diǎn)關(guān)注對(duì)導(dǎo)航起引導(dǎo)作用的特征區(qū)域。

    對(duì)ZHN、ZWN進(jìn)行合并,然后使用1×1卷積變換函數(shù)F1對(duì)其進(jìn)行變換:

    f=δ(F1([ZHN,ZWN]))(11)

    上述方法將未來專家導(dǎo)航軌跡的特征表達(dá)FHM與FWM融合到圖像特征中,捕捉不同特征之間的關(guān)聯(lián),豐富了特征圖F的表達(dá)能力,自動(dòng)地突出那些在未來導(dǎo)航中起關(guān)鍵作用的特征區(qū)域,提高移動(dòng)機(jī)器人學(xué)習(xí)導(dǎo)航策略的效率。

    2.3 DRL模塊

    TGNPO算法框架可以與廣泛的深度強(qiáng)化學(xué)習(xí)算法協(xié)同工作,用于訓(xùn)練導(dǎo)航策略。本文選用了一種先進(jìn)的離線策略方法,即soft actor-critic(SAC)[25]算法,來作為DRL的訓(xùn)練框架。該方法利用兩個(gè)神經(jīng)網(wǎng)絡(luò),包括估計(jì)狀態(tài)-動(dòng)作價(jià)值的Q網(wǎng)絡(luò)Q,和策略網(wǎng)絡(luò)πθ,和θ都是參數(shù)。在每一輪訓(xùn)練迭代中,算法通過交替執(zhí)行策略評(píng)估和策略改進(jìn)來進(jìn)行訓(xùn)練。策略評(píng)估過程通過最小化熵正則化TD誤差的L2范數(shù)來更新估計(jì)的Q函數(shù):

    圖3展示了策略網(wǎng)絡(luò)的結(jié)構(gòu)示意圖,而價(jià)值網(wǎng)絡(luò)的結(jié)構(gòu)與其類似。該模塊首先對(duì)激光雷達(dá)數(shù)據(jù)、導(dǎo)航目標(biāo)點(diǎn)位置以及方向角進(jìn)行特征提取得到特征向量FM1;然后,從軌跡-圖像融合模塊得到F*并將其映射成特征向量FM2;最后,將FM1與FM2進(jìn)行堆疊得到特征向量F′,再經(jīng)過幾層MLP后得到DRL策略aπ。該模塊方法將不同傳感器獲取的信息進(jìn)行堆疊,可以融合多個(gè)數(shù)據(jù)源的信息,從而獲得更全面、多樣化的特征表示。這有助于提升DRL策略網(wǎng)絡(luò)的感知能力和決策質(zhì)量。

    2.4 軌跡約束模塊

    在復(fù)雜場(chǎng)景中,移動(dòng)機(jī)器人面臨巨大的探索空間,其中包含許多無效的行動(dòng)路徑,這給學(xué)習(xí)自主導(dǎo)航策略帶來了挑戰(zhàn)。TGNPO將未來專家導(dǎo)航軌跡與移動(dòng)機(jī)器人自主探索軌跡之間的距離作為約束標(biāo)準(zhǔn),在特定時(shí)間步通過模仿專家示范行為來引導(dǎo)移動(dòng)機(jī)器人在復(fù)雜場(chǎng)景中進(jìn)行探索學(xué)習(xí)。兩條軌跡間的角度距離突出了軌跡的方向特征,歐拉距離突出了軌跡的空間分布特征。因此,本文結(jié)合方向與空間兩個(gè)維度來計(jì)算距離d。

    本文將移動(dòng)機(jī)器人向前自主探索的步長(zhǎng)等于專家策略預(yù)測(cè)的導(dǎo)航軌跡時(shí)間步長(zhǎng)I。隨后,通過計(jì)算這I個(gè)時(shí)間步長(zhǎng)內(nèi)移動(dòng)機(jī)器人軌跡與專家軌跡的距離d,判斷是否超過了預(yù)設(shè)的距離閾值η,其計(jì)算公式如式(18)所示。

    其中:d_angle為兩條軌跡的角度距離;d_euler為兩條軌跡的歐拉距離;λ1與λ2分別為角度距離與歐拉距離的權(quán)重;tr_π為移動(dòng)機(jī)器人自主探索的軌跡;tr_e為未來專家導(dǎo)航軌跡。tr_π·tr_e為兩條軌跡的點(diǎn)積;‖tr_π‖×‖tr_e‖表示分別求兩條軌跡的范數(shù)再相乘。

    如果d<η,移動(dòng)機(jī)器人將在下一個(gè)時(shí)間步采取DRL策略;否則,將在下一個(gè)時(shí)間步長(zhǎng)引入專家策略進(jìn)行干預(yù),具體如圖4所示。圖5中,I=5并且d>η,在下一時(shí)刻專家將進(jìn)行干預(yù),移動(dòng)機(jī)器人執(zhí)行專家行為aE。

    在此情景下,本文的目標(biāo)是通過使用專家策略的指導(dǎo),讓移動(dòng)機(jī)器人在執(zhí)行任務(wù)時(shí)更加趨向于模仿專家的行為。為了實(shí)現(xiàn)這一目標(biāo), 本文借鑒Dey等人[26]提出構(gòu)造轉(zhuǎn)移元組(st,aπt,rpt,st+1)的方法,并且改進(jìn)文獻(xiàn)[27]中的非平滑的懲罰獎(jiǎng)勵(lì)函數(shù),如式(19)所示,提出了一種基于雙曲正切函數(shù)的連續(xù)平滑的懲罰獎(jiǎng)勵(lì)函數(shù),如式(20)所示。

    rpt=r-l(19)

    rpt=r-|r|·tanh(‖aE-aπ‖/σ2)(20)

    其中:r為正常的獎(jiǎng)勵(lì)值;l為懲罰常數(shù)項(xiàng)。式(20)中超參數(shù)σ用來控制模仿專家示范行為的精度,從而使移動(dòng)機(jī)器人在執(zhí)行任務(wù)時(shí)更加符合專家的行為模式。

    3 實(shí)驗(yàn)分析

    本章將通過對(duì)比實(shí)驗(yàn)來驗(yàn)證本文提出的TGNPO算法在導(dǎo)航性能方面的卓越表現(xiàn),同時(shí)旨在通過消融實(shí)驗(yàn)來找到最佳導(dǎo)航軌跡。

    在對(duì)比實(shí)驗(yàn)中,TGNPO與目前深度強(qiáng)化學(xué)習(xí)先進(jìn)的SAC[25]、JIRL[26]和SAC-Lag[28]算法進(jìn)行比較。在消融實(shí)驗(yàn)中,本文測(cè)試了軌跡-圖像融合模塊中的未來專家導(dǎo)航軌跡步長(zhǎng)I與軌跡約束模塊中的軌跡距離η這兩個(gè)超參數(shù)對(duì)導(dǎo)航策略優(yōu)化的影響。

    下述指標(biāo)用于評(píng)估TGNPO與其他方法之間的性能差異:

    a)平均回報(bào)(average return,AR):移動(dòng)機(jī)器人從起點(diǎn)到導(dǎo)航目標(biāo)點(diǎn)所獲的平均獎(jiǎng)勵(lì)總和。

    b)平均軌跡長(zhǎng)度(average trajectory length,ATL):移動(dòng)機(jī)器人從起點(diǎn)到目標(biāo)點(diǎn)的平均導(dǎo)航軌跡長(zhǎng)度。

    c)平均導(dǎo)航時(shí)間(average navigation time,ANT):移動(dòng)機(jī)器人從起點(diǎn)到目標(biāo)點(diǎn)的平均導(dǎo)航時(shí)間成本。

    d)平均完成率(average completion rate,ACR):移動(dòng)機(jī)器人從初始出發(fā)點(diǎn)到達(dá)碰撞點(diǎn)的距離與從初始出發(fā)點(diǎn)到導(dǎo)航目標(biāo)點(diǎn)的距離之比,ACR∈[0.97,0.99]。

    3.1 仿真對(duì)比實(shí)驗(yàn)環(huán)境

    本文在Gazebo仿真平臺(tái)中構(gòu)建了一個(gè)雜亂、障礙物密集的復(fù)雜環(huán)境,該環(huán)境劃分簡(jiǎn)單和復(fù)雜區(qū)域,如圖5所示。仿真移動(dòng)機(jī)器人為搭載激光雷達(dá)、深度相機(jī)和控制器插件的LIMO智能車,如圖6所示。深度相機(jī)拍攝的RGB圖像大小為96×64,數(shù)據(jù)隨后通過ROS(機(jī)器人操作系統(tǒng))進(jìn)行獲取、傳輸。通過在這個(gè)具有挑戰(zhàn)性的環(huán)境中進(jìn)行實(shí)驗(yàn),能夠更全面地評(píng)估所提出的基于軌跡引導(dǎo)的移動(dòng)機(jī)器人導(dǎo)航策略優(yōu)化方法在面對(duì)復(fù)雜情況時(shí)的性能和適應(yīng)能力。

    本文實(shí)驗(yàn)使用一臺(tái)配置有NVIDIA GTX 3090顯卡、128 GB RAM以及Intel Xeon Silver 4216 CPU的計(jì)算機(jī)上訓(xùn)練導(dǎo)航策略。為了保證結(jié)果的穩(wěn)定性和可靠性,所有實(shí)驗(yàn)使用了不同的隨機(jī)種子來重復(fù)實(shí)驗(yàn),共進(jìn)行了5次訓(xùn)練。在訓(xùn)練中,移動(dòng)機(jī)器人會(huì)在以下情況之一發(fā)生時(shí)終止訓(xùn)練:到達(dá)導(dǎo)航任務(wù)目標(biāo)、發(fā)生碰撞,或執(zhí)行了T個(gè)時(shí)間步。

    表1列出實(shí)驗(yàn)所用到的超參數(shù)的值。

    本文提出的TGNPO算法以及其他對(duì)比算法每次訓(xùn)練進(jìn)行500個(gè)迭代。如圖7(a)(b)所示,TGNPO在經(jīng)過200個(gè)迭代的訓(xùn)練后迅速達(dá)到了收斂狀態(tài),其學(xué)得的導(dǎo)航策略能夠生成獎(jiǎng)勵(lì)最高的導(dǎo)航軌跡。相比之下,JIRL與SAC-Lag算法也最終學(xué)得了導(dǎo)航策略,但所獲得的獎(jiǎng)勵(lì)相對(duì)較低。SAC算法在經(jīng)過320個(gè)迭代的訓(xùn)練后,獎(jiǎng)勵(lì)值和完成率保持了穩(wěn)定,沒有出現(xiàn)明顯的變化,這表明其陷入了局部困難,無法完成導(dǎo)航任務(wù)。

    實(shí)驗(yàn)采用SLAM(simultaneous localization and mapping) 算法來構(gòu)建仿真環(huán)境的占據(jù)柵格地圖,并將移動(dòng)機(jī)器人的導(dǎo)航軌跡在地圖上進(jìn)行了可視化展示。根據(jù)圖8的結(jié)果顯示,在簡(jiǎn)單區(qū)域中,所有算法都能找到可行的導(dǎo)航路徑。在復(fù)雜、擁擠的雜亂區(qū)域中,TGNPO算法學(xué)習(xí)到最安全的導(dǎo)航策略,使移動(dòng)機(jī)器人用最少的時(shí)間步到達(dá)導(dǎo)航目標(biāo)點(diǎn),并生成平滑、最高獎(jiǎng)勵(lì)的導(dǎo)航軌跡,部分導(dǎo)航拍攝的圖像狀態(tài)如圖9所示。與之相比,SAC-Lag和JIRL方法在面對(duì)障礙物時(shí),線速度與角速度曲線波動(dòng)較大,且未能作出更好的避障選擇,需要大量資源來探索其他成功率較低、風(fēng)險(xiǎn)較高的可行解決方案。

    表2顯示了不同方法下機(jī)器人導(dǎo)航任務(wù)的詳細(xì)比較結(jié)果。在整個(gè)地圖中,SAC方法因?yàn)閺?fù)雜的障礙物未能導(dǎo)航到目標(biāo)位置。在導(dǎo)航軌跡長(zhǎng)度方面, TGNPO算法在圖5所示的復(fù)雜環(huán)境區(qū)域表現(xiàn)更為出色,相對(duì)較短的導(dǎo)航軌跡表明了導(dǎo)航策略的高效性,而SAC-Lag或JIRL在同樣的環(huán)境中表現(xiàn)不佳。盡管SAC-Lag、JIRL和TGNPO最終都能夠完成導(dǎo)航任務(wù),但是可以發(fā)現(xiàn)TGNPO達(dá)到目標(biāo)花費(fèi)的時(shí)間顯明更少。這表明TGNPO在導(dǎo)航任務(wù)中具有更高的效率,移動(dòng)機(jī)器人能夠更快地到達(dá)目標(biāo)位置,從而提高了任務(wù)執(zhí)行的速度。

    3.2 現(xiàn)實(shí)場(chǎng)景對(duì)比實(shí)驗(yàn)

    實(shí)驗(yàn)設(shè)置了兩個(gè)現(xiàn)實(shí)場(chǎng)景來驗(yàn)證TGNPO的算法性能。實(shí)驗(yàn)采用搭載RPlidar A2激光雷達(dá)、ORBBEC@Dabai深度相機(jī)、Jetson Nano控制器與IMU的LIMO移動(dòng)機(jī)器人,如圖10所示。移動(dòng)機(jī)器人的車長(zhǎng)為322 mm,車寬為220 mm,軸距為200 mm,阿克曼最小轉(zhuǎn)彎半徑為0.4 m。實(shí)驗(yàn)基于ROS(開源機(jī)器人操作系統(tǒng))平臺(tái)進(jìn)行數(shù)據(jù)交互。

    在真實(shí)場(chǎng)景實(shí)驗(yàn)中將本文算法與JIRL、TGNPO算法進(jìn)行對(duì)比,部分實(shí)驗(yàn)屏幕截圖及其相應(yīng)的軌跡如圖11所示,TGNPO算法部分導(dǎo)航圖像如圖12所示。根據(jù)仿真實(shí)驗(yàn)的結(jié)果發(fā)現(xiàn),JIRL算法在實(shí)際環(huán)境中表現(xiàn)出一些局限性,在一些情境下沒有作出最優(yōu)的決策,盡管在一些危險(xiǎn)情況下可以進(jìn)行及時(shí)修正,但相比于TGNPO算法,它生成的軌跡更長(zhǎng),導(dǎo)致了更高的時(shí)間成本;相反,TGNPO算法在面對(duì)障礙物時(shí)能夠作出更加明智的決策,生成的導(dǎo)航軌跡更加安全、平滑。

    3.3 消融實(shí)驗(yàn)

    本文進(jìn)行了一系列的消融研究,旨在研究軌跡-圖像融合模塊I和軌跡約束模塊η對(duì)TGNPO導(dǎo)航策略的影響。TGNPO算法的參數(shù)在每次調(diào)整后都需要進(jìn)行300個(gè)迭代的訓(xùn)練。表3記錄了所有的測(cè)試數(shù)據(jù)??傮w來看,當(dāng)I=5,η=0.6導(dǎo)航策略的綜合效果最佳。雖然當(dāng)I=5,η=0.4時(shí),平均軌跡長(zhǎng)度最短且平均耗時(shí)最少,但專家策略干預(yù)度過高,這顯然會(huì)限制移動(dòng)機(jī)器人的探索性。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),當(dāng)I>5時(shí),導(dǎo)航效果相對(duì)次優(yōu),這是因?yàn)樵谝恍?fù)雜且障礙物密集的區(qū)域,過長(zhǎng)的軌跡信息無法完全反映在當(dāng)前圖像中,會(huì)對(duì)移動(dòng)機(jī)器人導(dǎo)航產(chǎn)生偏差引導(dǎo)。而當(dāng)I<5時(shí),由于圖像狀態(tài)中包含的軌跡指引信息不足,導(dǎo)致導(dǎo)航效果同樣次優(yōu)。當(dāng)η>0.6時(shí),機(jī)器人的自主探索權(quán)過大,導(dǎo)致其在一些無效區(qū)域進(jìn)行探索,進(jìn)而產(chǎn)生較長(zhǎng)的導(dǎo)航軌跡。相反,如果η越小,整個(gè)訓(xùn)練過程專家示范行為的控制比例越大,這將導(dǎo)致移動(dòng)機(jī)器人的導(dǎo)航軌跡更加趨近于專家導(dǎo)航軌跡。

    4 結(jié)束語

    本文討論了在雜亂、障礙物密集的復(fù)雜環(huán)境下移動(dòng)機(jī)器人自主導(dǎo)航的問題,提出了基于軌跡引導(dǎo)的移動(dòng)機(jī)器人導(dǎo)航策略優(yōu)化(TGNPO)算法。該算法以深度強(qiáng)化學(xué)習(xí)為基礎(chǔ)框架,同時(shí)引入了專家策略模塊、軌跡-圖像融合模塊以及軌跡約束模塊,以提高導(dǎo)航模型性能與移動(dòng)機(jī)器人的探索效率。實(shí)驗(yàn)結(jié)果表明,TGNPO相對(duì)其他對(duì)比方法顯著減少了導(dǎo)航策略的學(xué)習(xí)時(shí)間。同時(shí),該算法所學(xué)到的導(dǎo)航策略產(chǎn)生了平滑、安全且高獎(jiǎng)勵(lì)的導(dǎo)航軌跡,這意味著移動(dòng)機(jī)器人能夠更快速地適應(yīng)復(fù)雜環(huán)境,確保了導(dǎo)航的高效性。本文研究的是單目標(biāo)點(diǎn)導(dǎo)航問題,未來將深入研究移動(dòng)機(jī)器人在多目標(biāo)點(diǎn)導(dǎo)航任務(wù)中的應(yīng)用。

    參考文獻(xiàn):

    [1]Khan M S A,Hussian D,Ali Y,et al. Multi-sensor SLAM for efficient navigation of a mobile robot [C]// Proc of the 4th International Conference on Computing & Information Sciences. Piscataway,NJ:IEEE Press,2021: 1-5.

    [2]Matsui N,Jayarathne I,Kageyama H,et al. Local and global path planning for autonomous mobile robots using hierarchized maps [J]. Journal of Robotics and Mechatronics,2022,34(1): 86-100.

    [3]Missura M,Bennewitz M. Predictive collision avoidance for the dynamic window approach [C]// Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2019: 8620-8626.

    [4]Ali M A H,Shanono I H. Path planning methods for mobile robots: a systematic and bibliometric review [J]. ELEKTRIKA-Journal of Electrical Engineering,2020,19(3): 14-34.

    [5]Patel U,Kumar N K S,Sathyamoorthy A J,et al. DWA-RL: dynamically feasible deep reinforcement learning policy for robot navigation among mobile obstacles [C]// Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2021: 6057-6063.

    [6]Fan Tingxiang,Long Pinxin,Liu Wenxi,et al. Distributed multi-robot collision avoidance via deep reinforcement learning for navigation in complex scenarios [J]. The International Journal of Robotics Research,2020,39(7): 856-892.

    [7]Sartoretti G,Kerr J,Shi Yunfei,et al. Primal: pathfinding via reinforcement and imitation multi-agent learning [J]. IEEE Robotics and Automation Letters,2019,4(3): 2378-2385.

    [8]Codevilla F,Müller M,López A,et al. End-to-end driving via conditional imitation learning [C]//Proc of International conference on robotics and automation. Piscataway,NJ:IEEE Press,2018: 4693-4700.

    [9]Cai Peide,Wang Sukai,Sun Yuxiang,et al. Probabilistic end-to-end vehicle navigation in complex dynamic environments with multimodal sensor fusion [J]. IEEE Robotics and Automation Letters,2020,5(3): 4218-4224.

    [10]Pan Yunpeng,Cheng C A,Saigol K,et al. Imitation learning for agile autonomous driving [J]. The International Journal of Robotics Research,2020,39(2-3): 286-302.

    [11]Sutton R S,Barto A G. Reinforcement learning: an introduction [M]. [S.l.]:MIT Press,2018.

    [12]許宏鑫,吳志周,梁韻逸. 基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛汽車路徑規(guī)劃方法研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2023,40(11): 3211-3217. (Xu Hongxin,Wu Zhizhou,Liang Yunyi. Review of research on path planning methods for autonomous vehicles based on reinforcement learning [J]. Application Research of Computers,2023,40(11): 3211-3217.)

    [13]張目,唐俊,楊友波,等. 基于時(shí)空感知增強(qiáng)的深度Q網(wǎng)絡(luò)無人水面艇局部路徑規(guī)劃 [J]. 計(jì)算機(jī)應(yīng)用研究,2023,40(5): 1330-1334. (Zhang Mu,Tang Jun,Yang Youbo,et al. Deep Q-network-based local path planning for unmanned surface vehicles enhanced with spatiotemporal perception [J]. Application Research of Computers,2023,40(5): 1330-1334.)

    [14]賀雪梅,匡胤,楊志鵬,等. 基于深度強(qiáng)化學(xué)習(xí)的AGV智能導(dǎo)航系統(tǒng)設(shè)計(jì) [J]. 計(jì)算機(jī)應(yīng)用研究,2022,39(5): 1501-1504,1509. (He Xuemei,Kuang Yin,Yang Zhipeng,et al. Design of AGV intel-ligent navigation system based on deep reinforcement learning [J]. Application Research of Computers,2022,39(5):1501-1504,1509.)

    [15]Francis A,F(xiàn)aust A,Chiang H T L,et al. Long-range indoor navigation with PRM-RL [J]. IEEE Trans on Robotics,2020,36(4): 1115-1134.

    [16]Ruan Xiaogang,Lin Chenliang,Huang Jing,et al. Obstacle avoidance navigation method for robot based on deep reinforcement learning [C]//Proc of the 6th Information Technology and Mechatronics Engineering Conference. Piscataway,NJ:IEEE Press,2022: 1633-1637.

    [17]Andrychowicz O A I M,Baker B,Chociej M,et al. Learning dexterous in-hand manipulation [J]. The International Journal of Robotics Research,2020,39(1): 3-20.

    [18]Cai Peide,Wang Hengli,Huang Huaiyang,et al. Vision-based autonomous car racing using deep imitative reinforcement learning [J]. IEEE Robotics and Automation Letters,2021,6(4): 7262-7269.

    [19]Menda K,Driggs-Campbell K,Kochenderfer M J. EnsembleDAgger:a Bayesian approach to safe imitation learning [C]// Proc of International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press,2019:5041-5048.

    [20]Liu Haochen,Huang Zhiyu,Wu Jingda,et al. Improved deep reinforcement learning with expert demonstrations for urban autonomous driving [C]//Proc of IEEE Intelligent Vehicles Symposium. Pisca-taway,NJ:IEEE Press,2022: 921-928.

    [21]Cimurs R,Suh I H,Lee J H. Goal-driven autonomous exploration through deep reinforcement learning [J]. IEEE Robotics and Automation Letters,2021,7(2): 730-737.

    [22]Howard A,Sandler M,Chu G,et al. Searching for MobileNetV3 [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2019: 1314-1324.

    [23]Hou Qibin,Zhou Daquan,F(xiàn)eng Jiashi. Coordinate attention for ef-ficient mobile network design [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021: 13713-13722.

    [24]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2016: 770-778.

    [25]Haarnoja T,Zhou A,Hartikainen K,et al. Soft actor-critic algorithms and applications [EB/OL]. (2018).https://arxiv.org/abs/1812.05905.

    [26]Dey S,Pendurkar S,Sharon G,et al. A joint imitation-reinforcement learning framework for reduced baseline regret [C]// Proc of International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press,2021:3485-3491.

    [27]Hester T,Vecerik M,Pietquin O,et al. Deep Q-learning from demonstrations [C]// Proc of AAAI Conference on Artificial Intelligence. 2018.

    [28]Ha S,Xu Peng,Tan Zhenyu,et al. Learning to walk in the real world with minimal human effort[EB/OL]. (2020). https://arxiv.org/abs/2002.08550.

    免费av观看视频| 成人亚洲精品av一区二区| 麻豆国产97在线/欧美| 3wmmmm亚洲av在线观看| 天堂中文最新版在线下载 | 好男人视频免费观看在线| 国产精品一区二区三区四区久久| 黄片无遮挡物在线观看| 美女脱内裤让男人舔精品视频 | 在线国产一区二区在线| 亚洲精品456在线播放app| 欧美成人一区二区免费高清观看| 久久久久久国产a免费观看| 色吧在线观看| 久久精品夜夜夜夜夜久久蜜豆| 成年女人看的毛片在线观看| 亚洲人成网站在线播放欧美日韩| 女同久久另类99精品国产91| 久久久欧美国产精品| 在线播放无遮挡| 热99re8久久精品国产| 午夜老司机福利剧场| av免费在线看不卡| 免费av不卡在线播放| 亚洲精品色激情综合| 欧美日韩一区二区视频在线观看视频在线 | 国产精品嫩草影院av在线观看| 天天躁日日操中文字幕| 国产私拍福利视频在线观看| 国产精品无大码| 此物有八面人人有两片| 天天躁夜夜躁狠狠久久av| 22中文网久久字幕| 欧美最黄视频在线播放免费| 一区二区三区免费毛片| 精华霜和精华液先用哪个| 两性午夜刺激爽爽歪歪视频在线观看| 精品人妻熟女av久视频| 成年女人永久免费观看视频| 麻豆久久精品国产亚洲av| 国产探花在线观看一区二区| 国产精品伦人一区二区| 国产精品爽爽va在线观看网站| 我的老师免费观看完整版| 精品久久久久久久人妻蜜臀av| 精品欧美国产一区二区三| 99热只有精品国产| 99久久久亚洲精品蜜臀av| 国内精品久久久久精免费| 国产黄色视频一区二区在线观看 | 身体一侧抽搐| 国产一级毛片在线| 亚洲熟妇中文字幕五十中出| 插逼视频在线观看| 亚洲不卡免费看| 男女视频在线观看网站免费| 亚洲综合色惰| 欧美三级亚洲精品| 精品人妻一区二区三区麻豆| 国产成人影院久久av| 亚洲18禁久久av| 大型黄色视频在线免费观看| 日本欧美国产在线视频| 九九久久精品国产亚洲av麻豆| 国产成人午夜福利电影在线观看| 欧洲精品卡2卡3卡4卡5卡区| 久久久色成人| 美女cb高潮喷水在线观看| videossex国产| 听说在线观看完整版免费高清| 免费av毛片视频| 男女做爰动态图高潮gif福利片| 村上凉子中文字幕在线| 国产高潮美女av| 两个人的视频大全免费| 久久久久久九九精品二区国产| 亚洲电影在线观看av| 久久久欧美国产精品| 国产成人精品一,二区 | 黄色一级大片看看| 国产伦精品一区二区三区四那| 色尼玛亚洲综合影院| 欧美丝袜亚洲另类| 能在线免费看毛片的网站| 免费搜索国产男女视频| 中国美女看黄片| 成人av在线播放网站| 极品教师在线视频| 最近手机中文字幕大全| 一级二级三级毛片免费看| 国国产精品蜜臀av免费| 成人三级黄色视频| 91午夜精品亚洲一区二区三区| 人体艺术视频欧美日本| 一个人看的www免费观看视频| 熟妇人妻久久中文字幕3abv| 日韩一区二区视频免费看| 国产精品麻豆人妻色哟哟久久 | 免费av不卡在线播放| 联通29元200g的流量卡| 老女人水多毛片| 麻豆av噜噜一区二区三区| 国产片特级美女逼逼视频| 99久久精品国产国产毛片| 岛国在线免费视频观看| av在线天堂中文字幕| 国产亚洲91精品色在线| 日韩欧美精品v在线| 小说图片视频综合网站| 亚洲欧美日韩东京热| 在线国产一区二区在线| 少妇的逼水好多| 国产精品蜜桃在线观看 | 色尼玛亚洲综合影院| 啦啦啦观看免费观看视频高清| 欧美成人一区二区免费高清观看| 成人国产麻豆网| 2022亚洲国产成人精品| 少妇高潮的动态图| 在线播放国产精品三级| 亚洲aⅴ乱码一区二区在线播放| 淫秽高清视频在线观看| 少妇的逼好多水| 日韩精品青青久久久久久| av在线蜜桃| 中文字幕av在线有码专区| 天堂影院成人在线观看| 99久国产av精品| 成年av动漫网址| 秋霞在线观看毛片| 麻豆av噜噜一区二区三区| 亚洲国产精品成人久久小说 | 亚洲无线在线观看| 3wmmmm亚洲av在线观看| 国产伦一二天堂av在线观看| 亚洲av成人精品一区久久| 国产 一区 欧美 日韩| 亚洲在线观看片| 国产高清三级在线| 日本一本二区三区精品| 亚洲欧美日韩高清在线视频| 美女被艹到高潮喷水动态| 中文资源天堂在线| 国产又黄又爽又无遮挡在线| 午夜福利成人在线免费观看| 久久人人爽人人片av| 简卡轻食公司| 日韩亚洲欧美综合| 国产精华一区二区三区| 精品一区二区免费观看| 欧美日韩在线观看h| 少妇被粗大猛烈的视频| 久久精品国产清高在天天线| 日日撸夜夜添| 色吧在线观看| 久久久久久大精品| 偷拍熟女少妇极品色| 一区二区三区免费毛片| 一级毛片我不卡| 美女cb高潮喷水在线观看| 乱系列少妇在线播放| 一级av片app| 桃色一区二区三区在线观看| 欧美3d第一页| 熟女人妻精品中文字幕| 亚洲成a人片在线一区二区| 欧美色欧美亚洲另类二区| 国产中年淑女户外野战色| 好男人在线观看高清免费视频| 日韩高清综合在线| 最近视频中文字幕2019在线8| 久久久精品欧美日韩精品| 少妇裸体淫交视频免费看高清| 美女内射精品一级片tv| 夜夜爽天天搞| 一级毛片我不卡| 人妻少妇偷人精品九色| 麻豆av噜噜一区二区三区| 欧美高清性xxxxhd video| 男人狂女人下面高潮的视频| 久久久久性生活片| 国产真实乱freesex| 久久久色成人| 简卡轻食公司| 麻豆乱淫一区二区| 少妇熟女欧美另类| 欧美成人免费av一区二区三区| 国产综合懂色| 中文在线观看免费www的网站| 男女那种视频在线观看| 日韩在线高清观看一区二区三区| 国产白丝娇喘喷水9色精品| 三级经典国产精品| 内射极品少妇av片p| 真实男女啪啪啪动态图| 国内精品久久久久精免费| 美女高潮的动态| 午夜久久久久精精品| 99久久精品一区二区三区| 特级一级黄色大片| av.在线天堂| 久久热精品热| www日本黄色视频网| 美女黄网站色视频| 综合色av麻豆| 高清毛片免费观看视频网站| 在现免费观看毛片| 午夜激情欧美在线| 久久精品久久久久久久性| 中出人妻视频一区二区| 久久人人爽人人片av| 亚洲国产精品成人久久小说 | 国产日本99.免费观看| 亚洲图色成人| 天堂av国产一区二区熟女人妻| 黄色一级大片看看| 国产精品综合久久久久久久免费| 欧美日韩精品成人综合77777| 久久精品影院6| 久久6这里有精品| 亚洲国产精品成人久久小说 | 欧美最新免费一区二区三区| 成人毛片60女人毛片免费| av.在线天堂| 欧美一区二区精品小视频在线| 男的添女的下面高潮视频| 神马国产精品三级电影在线观看| 2021天堂中文幕一二区在线观| www日本黄色视频网| 日韩制服骚丝袜av| 深夜a级毛片| 亚洲欧洲日产国产| 性插视频无遮挡在线免费观看| 美女 人体艺术 gogo| 婷婷色av中文字幕| 观看免费一级毛片| 亚洲性久久影院| 三级国产精品欧美在线观看| 亚洲精品色激情综合| 好男人在线观看高清免费视频| 欧美成人免费av一区二区三区| 国产精品电影一区二区三区| 国内精品一区二区在线观看| 1000部很黄的大片| av国产免费在线观看| 国产国拍精品亚洲av在线观看| 免费观看人在逋| 日韩亚洲欧美综合| 内地一区二区视频在线| 91精品一卡2卡3卡4卡| av.在线天堂| 婷婷色综合大香蕉| 国产精品日韩av在线免费观看| 久久精品人妻少妇| 一区二区三区高清视频在线| 久久精品夜夜夜夜夜久久蜜豆| 精品久久久久久久久av| 一个人观看的视频www高清免费观看| 在现免费观看毛片| 色视频www国产| 精品久久久久久久久久免费视频| 日本熟妇午夜| ponron亚洲| 精品一区二区免费观看| 日韩强制内射视频| 99久久精品国产国产毛片| 麻豆乱淫一区二区| 如何舔出高潮| 啦啦啦韩国在线观看视频| 亚洲色图av天堂| 91午夜精品亚洲一区二区三区| 久久久久久久午夜电影| 久久午夜亚洲精品久久| 中文字幕制服av| 99久久精品一区二区三区| av天堂中文字幕网| 成人亚洲欧美一区二区av| 久久人人精品亚洲av| 九色成人免费人妻av| 六月丁香七月| 国产片特级美女逼逼视频| 又爽又黄a免费视频| 伊人久久精品亚洲午夜| 免费看a级黄色片| 国产一区二区在线av高清观看| 日韩高清综合在线| 女的被弄到高潮叫床怎么办| 日韩一区二区视频免费看| 天堂中文最新版在线下载 | 欧美丝袜亚洲另类| 可以在线观看毛片的网站| 波野结衣二区三区在线| 欧美日韩在线观看h| 色哟哟·www| av卡一久久| 成年免费大片在线观看| 国产又黄又爽又无遮挡在线| 国内精品一区二区在线观看| 日韩精品青青久久久久久| 国产精品久久久久久精品电影| 超碰av人人做人人爽久久| 亚洲国产色片| 天堂影院成人在线观看| 国产免费男女视频| 99久久久亚洲精品蜜臀av| 久久这里只有精品中国| 18禁在线播放成人免费| 久久久久网色| 亚洲图色成人| 欧美日韩国产亚洲二区| 色哟哟哟哟哟哟| www.色视频.com| а√天堂www在线а√下载| 1024手机看黄色片| 国内久久婷婷六月综合欲色啪| 国产成人一区二区在线| 日韩人妻高清精品专区| 亚州av有码| 久久午夜福利片| 国产视频内射| 亚洲丝袜综合中文字幕| 变态另类成人亚洲欧美熟女| www日本黄色视频网| 深爱激情五月婷婷| 简卡轻食公司| 亚洲欧美日韩高清在线视频| 日本黄大片高清| 国产一区二区在线av高清观看| 简卡轻食公司| 久久久精品大字幕| 熟女电影av网| 99在线人妻在线中文字幕| 一边摸一边抽搐一进一小说| 内地一区二区视频在线| 网址你懂的国产日韩在线| 国产高清激情床上av| 欧美成人a在线观看| 精品99又大又爽又粗少妇毛片| 久久鲁丝午夜福利片| 午夜a级毛片| 69av精品久久久久久| 亚洲av不卡在线观看| 少妇熟女aⅴ在线视频| 久久精品国产自在天天线| 超碰av人人做人人爽久久| 免费看日本二区| 国产精品一区二区三区四区免费观看| 哪个播放器可以免费观看大片| 美女xxoo啪啪120秒动态图| 蜜桃亚洲精品一区二区三区| 一个人看视频在线观看www免费| 亚洲av中文av极速乱| 久久久久久久午夜电影| 狂野欧美白嫩少妇大欣赏| 少妇的逼水好多| 神马国产精品三级电影在线观看| 综合色av麻豆| 国产精品一二三区在线看| 国产伦一二天堂av在线观看| 黄片wwwwww| 精品久久久久久久末码| 久久久a久久爽久久v久久| 亚洲av中文av极速乱| 欧美一区二区亚洲| 日本黄色片子视频| 三级经典国产精品| 亚州av有码| 免费观看的影片在线观看| 国产高清三级在线| 寂寞人妻少妇视频99o| 免费不卡的大黄色大毛片视频在线观看 | 久久精品国产亚洲网站| 内地一区二区视频在线| 欧美日韩综合久久久久久| 亚洲美女视频黄频| 久久韩国三级中文字幕| 国产乱人偷精品视频| 在线天堂最新版资源| 国产精品人妻久久久影院| 成人av在线播放网站| 尾随美女入室| 国产精品无大码| 亚洲欧美日韩卡通动漫| 欧洲精品卡2卡3卡4卡5卡区| 大香蕉久久网| 亚洲国产欧洲综合997久久,| 在线免费观看不下载黄p国产| 国产亚洲精品av在线| 亚洲自拍偷在线| 中国美女看黄片| 最近最新中文字幕大全电影3| 99视频精品全部免费 在线| 亚洲熟妇中文字幕五十中出| 亚洲成a人片在线一区二区| 美女脱内裤让男人舔精品视频 | 国产精品女同一区二区软件| 中文字幕久久专区| 26uuu在线亚洲综合色| 亚洲av免费高清在线观看| 国产伦理片在线播放av一区 | 国产国拍精品亚洲av在线观看| 精品一区二区三区视频在线| 欧美最黄视频在线播放免费| 亚洲一区二区三区色噜噜| 我要看日韩黄色一级片| 女的被弄到高潮叫床怎么办| 免费无遮挡裸体视频| 免费不卡的大黄色大毛片视频在线观看 | 人妻系列 视频| 国产精品.久久久| 亚洲av男天堂| 国产淫片久久久久久久久| 久久久欧美国产精品| 国产一区二区三区av在线 | 久久久久久久久久成人| 久久亚洲精品不卡| 精品一区二区三区视频在线| 欧美+日韩+精品| 97超视频在线观看视频| 国产精品一二三区在线看| 国产精品国产高清国产av| 日韩三级伦理在线观看| 成人二区视频| 欧美区成人在线视频| a级毛片a级免费在线| 99热这里只有精品一区| 欧美精品一区二区大全| 在线观看美女被高潮喷水网站| 99久久人妻综合| 人妻夜夜爽99麻豆av| 超碰av人人做人人爽久久| 亚洲人成网站在线播| 久久欧美精品欧美久久欧美| 一个人免费在线观看电影| 亚洲不卡免费看| 中文字幕av成人在线电影| 女人十人毛片免费观看3o分钟| 国产精品麻豆人妻色哟哟久久 | 男人的好看免费观看在线视频| 欧美变态另类bdsm刘玥| 免费观看a级毛片全部| 99riav亚洲国产免费| 日韩一区二区视频免费看| av免费观看日本| 日本一二三区视频观看| 国产精品野战在线观看| 婷婷六月久久综合丁香| 麻豆乱淫一区二区| 欧美区成人在线视频| av在线天堂中文字幕| 高清毛片免费看| 欧美日韩一区二区视频在线观看视频在线 | 一区二区三区四区激情视频 | 18禁黄网站禁片免费观看直播| 中国美女看黄片| 欧美成人a在线观看| or卡值多少钱| 日韩大尺度精品在线看网址| 日韩制服骚丝袜av| 国产亚洲欧美98| 国产成人精品久久久久久| 欧美xxxx黑人xx丫x性爽| 免费av观看视频| 黑人高潮一二区| 精品人妻一区二区三区麻豆| 哪个播放器可以免费观看大片| 精品欧美国产一区二区三| 少妇高潮的动态图| 久久久久久大精品| 丝袜喷水一区| 精品一区二区免费观看| 麻豆av噜噜一区二区三区| 亚洲中文字幕日韩| 99国产精品一区二区蜜桃av| 日韩欧美在线乱码| 国产黄a三级三级三级人| 老师上课跳d突然被开到最大视频| 日韩欧美精品v在线| 午夜激情福利司机影院| 亚洲电影在线观看av| 91久久精品国产一区二区成人| 国产亚洲精品av在线| 九色成人免费人妻av| 高清在线视频一区二区三区 | 国产成人精品一,二区 | 晚上一个人看的免费电影| 寂寞人妻少妇视频99o| 六月丁香七月| 成人av在线播放网站| 黄色一级大片看看| 欧美性猛交黑人性爽| 蜜桃亚洲精品一区二区三区| av在线亚洲专区| 国产精品一及| 日本撒尿小便嘘嘘汇集6| 亚洲中文字幕日韩| 青春草亚洲视频在线观看| 国产大屁股一区二区在线视频| 欧美又色又爽又黄视频| 综合色丁香网| 联通29元200g的流量卡| www日本黄色视频网| 夜夜夜夜夜久久久久| av.在线天堂| 搡老妇女老女人老熟妇| 青春草视频在线免费观看| 日韩制服骚丝袜av| 欧美3d第一页| 国产高潮美女av| 一区二区三区免费毛片| 91精品一卡2卡3卡4卡| 爱豆传媒免费全集在线观看| 嘟嘟电影网在线观看| 亚洲激情五月婷婷啪啪| 午夜福利视频1000在线观看| 人人妻人人澡人人爽人人夜夜 | 激情 狠狠 欧美| 国内精品久久久久精免费| 亚洲欧美成人综合另类久久久 | 女的被弄到高潮叫床怎么办| 国产一区二区三区av在线 | 黄色日韩在线| 亚洲av第一区精品v没综合| 国产av麻豆久久久久久久| 精品一区二区免费观看| 久久草成人影院| 日韩一本色道免费dvd| 插阴视频在线观看视频| 国产成人freesex在线| 麻豆国产97在线/欧美| 国产大屁股一区二区在线视频| eeuss影院久久| 国产亚洲欧美98| 国产精品综合久久久久久久免费| 在线观看午夜福利视频| 不卡视频在线观看欧美| 久久久精品94久久精品| 男女那种视频在线观看| 亚洲欧洲国产日韩| 日本撒尿小便嘘嘘汇集6| 12—13女人毛片做爰片一| 97热精品久久久久久| 亚洲欧美日韩东京热| 嫩草影院精品99| 日韩视频在线欧美| 久久精品国产清高在天天线| 美女高潮的动态| 91午夜精品亚洲一区二区三区| 国产成人影院久久av| 国产精品.久久久| 国产精品精品国产色婷婷| 成人欧美大片| 99热只有精品国产| 日本三级黄在线观看| 97人妻精品一区二区三区麻豆| 最近的中文字幕免费完整| 国产高潮美女av| 久久国内精品自在自线图片| 夫妻性生交免费视频一级片| 狠狠狠狠99中文字幕| 国产伦理片在线播放av一区 | 毛片女人毛片| 国产精品久久久久久久电影| 亚洲最大成人手机在线| 国产亚洲精品久久久久久毛片| 欧美xxxx黑人xx丫x性爽| 一个人看的www免费观看视频| 天天躁日日操中文字幕| 国产黄片美女视频| 深爱激情五月婷婷| 18+在线观看网站| 97在线视频观看| 亚洲av中文字字幕乱码综合| 国产一区二区在线av高清观看| 黄色欧美视频在线观看| 国产精品一区二区三区四区久久| 亚洲在线观看片| 国产av不卡久久| 国产探花在线观看一区二区| 少妇的逼好多水| 精品久久久久久久人妻蜜臀av| 久久久久久久午夜电影| 久久这里有精品视频免费| 亚洲av成人av| 99精品在免费线老司机午夜| 一边亲一边摸免费视频| 欧美最黄视频在线播放免费| 少妇的逼好多水| 亚洲人成网站在线观看播放| 久久久久久国产a免费观看| av专区在线播放| 亚洲国产欧美人成| 看黄色毛片网站| 听说在线观看完整版免费高清| 在线国产一区二区在线| 中国国产av一级| 久久亚洲国产成人精品v| 亚洲av一区综合| 人妻制服诱惑在线中文字幕| 国产精品久久久久久av不卡| 搞女人的毛片| 日韩av在线大香蕉| 小说图片视频综合网站| 国产成人影院久久av| 亚洲第一区二区三区不卡| 99久国产av精品国产电影| 久久久久久九九精品二区国产| 一进一出抽搐动态| 亚洲欧美精品专区久久| 国产69精品久久久久777片| 亚洲国产精品sss在线观看| 极品教师在线视频| 欧美日韩精品成人综合77777| 欧洲精品卡2卡3卡4卡5卡区| 99久久精品热视频|