• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于監(jiān)督式DDPG算法的小型ROV運(yùn)動(dòng)控制方法

    2025-07-27 00:00:00黃兆軍張彥佳左曉雯陳澤汛
    自動(dòng)化與信息工程 2025年3期
    關(guān)鍵詞:梯度神經(jīng)網(wǎng)絡(luò)控制器

    本文引用格式:,,,等.基于監(jiān)督式 DDPG 算法的小型ROV 運(yùn)動(dòng)控制方法[J].自動(dòng)化與信息工程,2025,46(3):23-29.HUANG Zhaojun, ZHANG Yanjia, ZUO Xiaowen, et al. Motion control method for small ROV based on super-vised DDPG algorithm[J]. Automation amp; Information Engineering,2025,46(3):23-29.

    關(guān)鍵詞:監(jiān)督式DDPG;小型ROV;運(yùn)動(dòng)控制;專家經(jīng)驗(yàn);強(qiáng)化學(xué)習(xí)中圖分類號(hào):TP242.3 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-2605(2025)03-0004-07DOI: 10.12475/aie.20250304 開放獲取

    Motion Control Method for Small ROV Based on Supervised DDPG Algorithm

    HUANG Zhaojun ZHANG Yanjia ZUO Xiaowen CHEN Zexun (Zhuhai City Polytechnic, Zhuhai 519090, China)

    Abstract:To adressthe issues of prolonged learning time and diffculty inconvergence when using the Deep Deterministic Policy Gradient (DDPG)algorithm formotioncontrolofremotelyoperatedtetheredunderwatervehicles (ROVs),this paper proposesasupervisedDDPG-basedmotioncontrolmethodforsmallROVs.During theinitialleamingphaseoftheDDPGalgorith, asupervisedleamingapproachisintroduced toaccelerateneural networkconvergenceandreduceleaingtimebyleveragingexpert experience.Simulationresults demonstrate that te supervised DDPGalgorithmachieves superiorcontrolperformancecomparedto the standard DDPG algorithm.

    Keywords: supervised DDPG; small ROV; motion control; expert experience; reinforcement learning

    0 引言

    無人遙控有纜水下機(jī)器人(remotelyoperatedvehicle,ROV)因在開發(fā)難度、研制周期、資金投入和產(chǎn)業(yè)化等方面具有優(yōu)勢(shì),成為水下機(jī)器人領(lǐng)域的研究重點(diǎn),并己廣泛應(yīng)用于海水養(yǎng)殖、海洋勘探、水下搜救和石油開發(fā)等領(lǐng)域。運(yùn)動(dòng)控制是ROV的核心技術(shù)之一,包括PID控制、模糊控制、滑膜變結(jié)構(gòu)控制和S面控制等方法。但這些方法均存在一定的局限性如PID控制在處理非線性復(fù)雜耦合系統(tǒng)時(shí)面臨挑戰(zhàn);

    模糊控制受限于規(guī)則庫的完備性和規(guī)則結(jié)構(gòu)的合理性,當(dāng)系統(tǒng)復(fù)雜度較高時(shí)易出現(xiàn)“規(guī)則爆炸”問題;滑膜變結(jié)構(gòu)控制和S面控制存在實(shí)現(xiàn)困難且易產(chǎn)生抖動(dòng)等問題[1],制約了ROV的產(chǎn)業(yè)化進(jìn)程。

    近年來,隨著人工智能技術(shù)的快速發(fā)展,智能控制算法逐漸應(yīng)用于ROV運(yùn)動(dòng)控制領(lǐng)域[2]。其中,深度確定性策略梯度(deep deterministic policy gradi- ent,DDPG)算法作為機(jī)器學(xué)習(xí)的一種深度強(qiáng)化學(xué)習(xí)算法,無需精確的數(shù)學(xué)模型,通過智能體與環(huán)境的交互即可實(shí)現(xiàn)控制策略的優(yōu)化,具有環(huán)境自適應(yīng)性,適用于連續(xù)、實(shí)時(shí)決策且不確定性較高的水下環(huán)境,成為當(dāng)前ROV運(yùn)動(dòng)控制領(lǐng)域的重要研究方向。但DDPG算法存在學(xué)習(xí)時(shí)間長(zhǎng)、虛實(shí)遷移效果差和收斂難等問題,導(dǎo)致其在ROV運(yùn)動(dòng)控制中的實(shí)際應(yīng)用效果并不理想目前多數(shù)研究仍停留在仿真實(shí)驗(yàn)階段。

    為此,本文對(duì)DDPG算法進(jìn)行改進(jìn),提出基于監(jiān)督式DDPG算法的小型ROV運(yùn)動(dòng)控制方法,旨在改善算法的收斂性和穩(wěn)定性。

    一 DDPG算法理論

    DDPG算法是一種為解決連續(xù)控制問題而提出的深度強(qiáng)化學(xué)習(xí)算法[3]。該算法采用Actor-Critic架構(gòu),結(jié)合策略神經(jīng)網(wǎng)絡(luò)和價(jià)值神經(jīng)網(wǎng)絡(luò),對(duì)輸入的高維數(shù)據(jù)進(jìn)行擬合處理和決策,實(shí)現(xiàn)端對(duì)端的策略優(yōu)化和控制,在連續(xù)狀態(tài)空間下,輸出一個(gè)確定的動(dòng)作[4]。

    DDPG算法可分為采樣、訓(xùn)練、參數(shù)更新3個(gè)流程[5],如圖1所示。

    圖1DDPG 算法流程

    采樣流程是智能體與環(huán)境交互以收集經(jīng)驗(yàn)數(shù)據(jù)的過程。Actor網(wǎng)絡(luò)根據(jù)智能體的初始狀態(tài) S 輸出一個(gè)連續(xù)動(dòng)作 A ,并作用于環(huán)境Env;環(huán)境變化影響智能體,使其轉(zhuǎn)移到下一個(gè)新狀態(tài) S ,并同步反饋一個(gè)獎(jiǎng)勵(lì)信號(hào) R ;將這一完整的交互經(jīng)驗(yàn)元組(當(dāng)前狀態(tài)S, 動(dòng)作 Ai ,獎(jiǎng)勵(lì) R, 新狀態(tài) S 終止標(biāo)志done)存儲(chǔ)到經(jīng)驗(yàn)池中,并將新狀態(tài) S 返回賦值為新的初始狀態(tài),持續(xù)循環(huán)上述流程,直到經(jīng)驗(yàn)池填滿,進(jìn)入訓(xùn)練流程。

    訓(xùn)練流程獨(dú)立于智能體與環(huán)境的實(shí)時(shí)交互,利用經(jīng)驗(yàn)池中存儲(chǔ)的歷史數(shù)據(jù)進(jìn)行離線學(xué)習(xí),更新網(wǎng)絡(luò)參數(shù)以優(yōu)化控制策略。首先,隨機(jī)從經(jīng)驗(yàn)池中提取規(guī)定數(shù)量(Batchsize)的經(jīng)驗(yàn)元組;然后,Critic網(wǎng)絡(luò)計(jì)算當(dāng)前狀態(tài) S 和執(zhí)行動(dòng)作 A 對(duì)應(yīng)的預(yù)測(cè)回報(bào)值 ,并基于平均誤差計(jì)算Actorloss損失;同時(shí),目標(biāo)Critic網(wǎng)絡(luò)基于新狀態(tài) S 和目標(biāo)動(dòng)作 A 計(jì)算目標(biāo)回報(bào)值 Q (考慮折扣因子 γ *和獎(jiǎng)勵(lì) R );最后,基于 和 Q 的均方差計(jì)算Criticloss損失。

    參數(shù)更新流程基于訓(xùn)練流程計(jì)算的Actor_loss損失和Criticloss損失來調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)。Critic網(wǎng)絡(luò)通過梯度下降法最小化Criticloss損失更新參數(shù)ω ;Actor網(wǎng)絡(luò)通過最大化Critic網(wǎng)絡(luò)評(píng)估的 值方向更新參數(shù)θ。但為了穩(wěn)定訓(xùn)練過程,防止劇烈波動(dòng),上述更新參數(shù)并非直接復(fù)制到相應(yīng)的網(wǎng)絡(luò)中,而是采用“軟更新”的方式間接進(jìn)行。即通過指數(shù)平滑的方式將Critic網(wǎng)絡(luò)參數(shù)和Actor網(wǎng)絡(luò)參數(shù)緩慢混合到對(duì)應(yīng)的目標(biāo)Critic網(wǎng)絡(luò)參數(shù) ω 和目標(biāo)Actor網(wǎng)絡(luò)參數(shù) θ 中,以確保目標(biāo)網(wǎng)絡(luò)參數(shù)的變化是漸進(jìn)且穩(wěn)定的,從而提升DDPG算法學(xué)習(xí)的穩(wěn)定性。

    DDPG算法是以累積獎(jiǎng)勵(lì)最大化為目標(biāo),使智能體在與環(huán)境的交互中不斷學(xué)習(xí)最優(yōu)策略的一種非監(jiān)督式機(jī)器學(xué)習(xí)算法。因缺乏監(jiān)督,該算法策略學(xué)習(xí)過程和動(dòng)作訓(xùn)練均是隨機(jī)的,導(dǎo)致學(xué)習(xí)時(shí)間較長(zhǎng)且神經(jīng)網(wǎng)絡(luò)難以收斂,造成大量數(shù)據(jù)浪費(fèi),存儲(chǔ)開銷增加,神經(jīng)網(wǎng)絡(luò)的泛化能力降低,實(shí)用性較差。

    2 監(jiān)督式DDPG算法

    為改善上述問題,本文在DDPG算法的基礎(chǔ)上引入監(jiān)督學(xué)習(xí)算法,提出一種監(jiān)督式DDPG算法。該算法通過監(jiān)督學(xué)習(xí)算法的專家經(jīng)驗(yàn)來指導(dǎo)ROV的策略學(xué)習(xí)凹,使最優(yōu)策略的探索和學(xué)習(xí)具有一定的方向性和目的性[8],從而縮短學(xué)習(xí)時(shí)間,加快神經(jīng)網(wǎng)絡(luò)收斂。監(jiān)督式DDPG算法的原理如圖2所示。

    圖2監(jiān)督式DDPG算法原理圖

    設(shè)DDPG算法對(duì)ROV的選擇動(dòng)作為 a?R ,則監(jiān)督式DDPG算法對(duì)ROV的選擇動(dòng)作為

    a=ka?R+(1-k)a?S

    式中: as 為監(jiān)督學(xué)習(xí)算法提供的指導(dǎo)動(dòng)作; k 為DDPG算法與監(jiān)督學(xué)習(xí)算法的融合度權(quán)重系數(shù),取值范圍為[0,1]。

    監(jiān)督式DDPG算法不修改DDPG算法的策略。但監(jiān)督學(xué)習(xí)算法的介入時(shí)長(zhǎng)和性能占比通常需要人為設(shè)定,這可能導(dǎo)致DDPG算法在已學(xué)習(xí)到比監(jiān)督學(xué)習(xí)算法更優(yōu)的策略時(shí),監(jiān)督學(xué)習(xí)算法產(chǎn)生阻礙作用[10-12].本文利用融合度權(quán)重系數(shù) k 分階段自動(dòng)調(diào)整監(jiān)督學(xué)習(xí)算法[,即隨著監(jiān)督式DDPG算法逐步逼近最優(yōu)策略,監(jiān)督學(xué)習(xí)算法逐步退出,以免影響DDPG算法的性能。

    1)當(dāng) k∈{0,1} 時(shí), k=0 ,表示監(jiān)督式DDPG算法在初始學(xué)習(xí)階段,智能體在監(jiān)督學(xué)習(xí)算法下進(jìn)行動(dòng)作選擇和訓(xùn)練; k=1 ,表示監(jiān)督式DDPG算法在訓(xùn)練階段后期,監(jiān)督學(xué)習(xí)算法完全退出,智能體在DDPG算法下進(jìn)行運(yùn)動(dòng)控制。

    2)當(dāng) k∈(0,1) 時(shí),表示監(jiān)督學(xué)習(xí)算法和DDPG算法同時(shí)存在,若DDPG算法沒有向最優(yōu)策略逼近,則 k 需選擇較小的值,使監(jiān)督學(xué)習(xí)算法占主導(dǎo)地位;隨著DDPG算法不斷向最優(yōu)策略逼近,需逐漸增加 k 值,使DDPG算法逐步占主導(dǎo)地位。

    2.1 監(jiān)督采樣

    監(jiān)督式DDPG 算法根據(jù) DDPG 算法選擇動(dòng)作 a?R 和監(jiān)督學(xué)習(xí)算法指導(dǎo)動(dòng)作 as 的誤差梯度進(jìn)行參數(shù)更新,即Actor網(wǎng)絡(luò)參數(shù)更新引入了DDPG算法和監(jiān)督學(xué)習(xí)算法的誤差,使策略神經(jīng)網(wǎng)絡(luò)向監(jiān)督學(xué)習(xí)算法的專家示范策略 πs 逼近。Actor網(wǎng)絡(luò)的參數(shù)更新公式為

    θ←θ+kΔθR+(1-k)Δθs

    式中: θ 為Actor網(wǎng)絡(luò)參數(shù), ΔθR 和 Δθs 分別為DDPG算法和監(jiān)督學(xué)習(xí)算法的網(wǎng)絡(luò)參數(shù)變化量。

    考慮到策略學(xué)習(xí)時(shí), Q 值是從采樣數(shù)據(jù)中泛化訓(xùn)練得到的,因此可以利用監(jiān)督學(xué)習(xí)算法得到的監(jiān)督數(shù)據(jù)來提升策略神經(jīng)網(wǎng)絡(luò)的收斂速度,從而加快DDPG算法的學(xué)習(xí)進(jìn)程。借助監(jiān)督數(shù)據(jù)對(duì)動(dòng)作加以指導(dǎo),這相當(dāng)于減小了包含最優(yōu)動(dòng)作的動(dòng)作集和需要處理的狀態(tài)數(shù)量,因此監(jiān)督式DDPG 算法可以更快地進(jìn)行 值估計(jì)和最優(yōu) Qmax(s,a) 逼近。

    在監(jiān)督式DDPG算法強(qiáng)化學(xué)習(xí)的過程中,采樣數(shù)據(jù)中包含監(jiān)督數(shù)據(jù)的概率較大,尤其在訓(xùn)練階段的前期,此時(shí)損失函數(shù)的計(jì)算公式為

    式中: λ 為監(jiān)督學(xué)習(xí)采樣數(shù)據(jù)占總采樣數(shù)據(jù)的比例, LR 為強(qiáng)化學(xué)習(xí)數(shù)據(jù)誤差, LS 為監(jiān)督學(xué)習(xí)數(shù)據(jù)誤差。

    在監(jiān)督式DDPG算法策略優(yōu)化的過程中,專家示范策略引導(dǎo)網(wǎng)絡(luò)參數(shù)加快收斂[13]。在向目標(biāo)值逼近的過程中,Critic 網(wǎng)絡(luò)的 、融合監(jiān)督學(xué)習(xí)后的 均比無監(jiān)督信號(hào)的 Q(s,a) 大,因此引入監(jiān)督學(xué)習(xí)后更容易逼近目標(biāo)值。

    通過Critic網(wǎng)絡(luò)和目標(biāo)Critic網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)參數(shù)更新時(shí),策略梯度變?yōu)?/p>

    因?yàn)? 值更大,所以更逼近目標(biāo)值,更新梯度也向正方向優(yōu)化,這使Critic網(wǎng)絡(luò)計(jì)算的 值更準(zhǔn)確:

    基于上述更新策略,Actor網(wǎng)絡(luò)在策略學(xué)習(xí)過程中更快地向最優(yōu)策略逼近,縮短了強(qiáng)化學(xué)習(xí)的時(shí)間。

    2.2 行為克隆

    在DDPG算法中,深度神經(jīng)網(wǎng)絡(luò)的隱藏層較多且神經(jīng)節(jié)點(diǎn)連接復(fù)雜,本文利用反向傳播(back propaga-tion,BP)算法進(jìn)行網(wǎng)絡(luò)參數(shù)更新。在訓(xùn)練樣本充足的情況下,以監(jiān)督學(xué)習(xí)算法的專家示范策略為指導(dǎo)標(biāo)簽來訓(xùn)練策略神經(jīng)網(wǎng)絡(luò),可實(shí)現(xiàn)專家示范策略的克隆[12]

    基于監(jiān)督學(xué)習(xí)算法的專家示范策略,將狀態(tài) s 的估計(jì)誤差 es 作為輸入,采用監(jiān)督回歸的方法引導(dǎo)策略神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)專家控制器輸出的控制軌跡:

    1,τ1,…,τn}

    每條專家控制軌跡樣本都基于同樣的狀態(tài)-動(dòng)作空間:

    τi={S1i,S2i,…,Sni}

    從專家控制軌跡樣本中隨機(jī)采樣,以每條控制軌

    跡所包含的狀態(tài)-動(dòng)作對(duì)作為監(jiān)督學(xué)習(xí)算法采樣的數(shù)據(jù)集,通過監(jiān)督學(xué)習(xí)從該數(shù)據(jù)集采樣并進(jìn)行訓(xùn)練:

    D={(s1.a1),(s2.a2),…,(sn.an)}

    為有效解決同一狀態(tài)下連續(xù)采樣導(dǎo)致的神經(jīng)網(wǎng)絡(luò)泛化能力下降的問題,在對(duì)監(jiān)督學(xué)習(xí)采樣數(shù)據(jù)集進(jìn)行回歸擬合時(shí),需采樣多條不同的控制軌跡樣本。以控制動(dòng)作為指導(dǎo)標(biāo)簽,狀態(tài)誤差為特征,通過DDPG神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸學(xué)習(xí)來擬合逼近最優(yōu)策略。需要注意的是,如果狀態(tài)空間的樣本數(shù)據(jù)較多,僅基于監(jiān)督學(xué)習(xí)算法更新網(wǎng)絡(luò)參數(shù)會(huì)帶來時(shí)間累積誤差,因此需要合理控制監(jiān)督學(xué)習(xí)算法的介入程度。

    2.3監(jiān)督式DDPG算法的Actor網(wǎng)絡(luò)參數(shù)更新

    DDPG算法是以Actor網(wǎng)絡(luò)最終的學(xué)習(xí)策略為最優(yōu)策略,基于梯度下降原理進(jìn)行網(wǎng)絡(luò)參數(shù)更新:

    式中: α 為梯度更新步長(zhǎng)。

    Critic網(wǎng)絡(luò)的 估計(jì)值基于動(dòng)作 a 求導(dǎo)數(shù)獲得梯度,并與Actor網(wǎng)絡(luò)對(duì)其他參數(shù)的導(dǎo)數(shù)相乘得到更新梯度。

    融合監(jiān)督學(xué)習(xí)算法后,通過調(diào)整損失函數(shù)使策略更新向?qū)<沂痉恫呗苑较虮平?,從而完成專家示范策略的克隆。在Critic網(wǎng)絡(luò)參數(shù)更新時(shí),引入邊界函數(shù),增加當(dāng)前狀態(tài) s 下Actor網(wǎng)絡(luò)的選擇動(dòng)作與專家示范策略下選擇動(dòng)作之間的差值,其損失函數(shù)也會(huì)同步增大。用 πs(s) 表示專家示范策略函數(shù),示教差距定義為

    以監(jiān)督學(xué)習(xí)數(shù)據(jù)為指導(dǎo)標(biāo)簽的DDPG神經(jīng)網(wǎng)絡(luò)參數(shù)更新可以表示為

    Δθs←αδ(as,aπ)?θπθ(s)

    式中: δ 為監(jiān)督學(xué)習(xí)算法下的TD-error,可用示教差距來計(jì)算:

    δ(as,aπ)=E(s)

    以監(jiān)督學(xué)習(xí)算法的每個(gè)采樣狀態(tài)誤差來計(jì)算損失函數(shù),使神經(jīng)網(wǎng)絡(luò)輸出向?qū)<沂痉恫呗苑较虮平?/p>

    與DDPG算法原有的損失函數(shù)合并后,監(jiān)督式DDPG神經(jīng)網(wǎng)絡(luò)的損失函數(shù)為

    采用最速梯度下降法對(duì)DDPG神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行啟發(fā)式更新,通過損失函數(shù)對(duì)誤差的負(fù)梯度進(jìn)行調(diào)整:

    Δθs=-α?θEθ(s)

    基于鏈?zhǔn)椒▌t將公式(15)展開,并將同一狀態(tài) s 下的專家示范動(dòng)作替換為采樣動(dòng)作,則監(jiān)督學(xué)習(xí)部分的神經(jīng)網(wǎng)絡(luò)參數(shù)梯度可表示為

    最終,監(jiān)督式DDPG 算法歸一化處理 Q 值梯度和監(jiān)督誤差梯度的合并值,從而得到包含監(jiān)督學(xué)習(xí)算法的目標(biāo)Actor網(wǎng)絡(luò)參數(shù)更新公式:

    式中: β 為權(quán)重系數(shù),可通過人為調(diào)整 β 值來調(diào)整DDPG算法和監(jiān)督學(xué)習(xí)算法的梯度比例。

    在融合應(yīng)用DDPG算法和監(jiān)督學(xué)習(xí)算法時(shí),需將DDPG控制器和監(jiān)督學(xué)習(xí)控制器串聯(lián)使用。兩種算法的控制策略均要求智能體與環(huán)境進(jìn)行交互,通過經(jīng)驗(yàn)回放機(jī)制存儲(chǔ)狀態(tài)信息和專家示范策略信息,在損失函數(shù)中引入監(jiān)督誤差,使參數(shù)更新過程中在探索更大獎(jiǎng)勵(lì)值的同時(shí)向?qū)<沂痉恫呗员平?/p>

    3監(jiān)督式DDPG控制器的設(shè)計(jì)

    基于本文提出的監(jiān)督式DDPG算法設(shè)計(jì)監(jiān)督式DDPG控制器,其框架如圖3所示。

    圖3監(jiān)督式DDPG控制器框架

    監(jiān)督式DDPG控制器的工作原理如下:在訓(xùn)練初期,利用預(yù)訓(xùn)練的監(jiān)督控制器提供專家示范策略,主導(dǎo)決策以確保策略安全探索;同時(shí),將DDPG控制器的Actor-Critic機(jī)制(Critic網(wǎng)絡(luò)評(píng)估動(dòng)作價(jià)值,Actor網(wǎng)絡(luò)生成初始策略)與監(jiān)督控制器提供的專家示范策略融合,通過調(diào)整融合度權(quán)重系數(shù)實(shí)現(xiàn)控制權(quán)從模仿到自主決策的平滑過渡。在此過程中,Actor網(wǎng)絡(luò)持續(xù)受到專家示范策略與獎(jiǎng)勵(lì)的雙重引導(dǎo),使DDPG控制器在保障安全性的前提下漸進(jìn)優(yōu)化策略,最終形成適應(yīng)復(fù)雜動(dòng)態(tài)環(huán)境的自主控制能力。

    DDPG算法采用在線探索和離線策略結(jié)合的方式進(jìn)行訓(xùn)練和學(xué)習(xí)。為了更好地發(fā)揮監(jiān)督學(xué)習(xí)算法的引導(dǎo)作用,設(shè)計(jì)了2個(gè)獨(dú)立的經(jīng)驗(yàn)池:一個(gè)用于存放DDPG算法的經(jīng)驗(yàn)數(shù)據(jù);另一個(gè)用于存放監(jiān)督學(xué)習(xí)算法的監(jiān)督示范經(jīng)驗(yàn)數(shù)據(jù)。在訓(xùn)練階段,從這2個(gè)經(jīng)驗(yàn)池中并行采樣,并利用監(jiān)督示范經(jīng)驗(yàn)數(shù)據(jù)引導(dǎo)DDPG神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方向。

    監(jiān)督式DDPG算法融合度權(quán)重系數(shù) k 按以下方式自動(dòng)調(diào)節(jié):

    1)訓(xùn)練初始階段( k=1 ),此時(shí)監(jiān)督控制器完全主導(dǎo)控制運(yùn)動(dòng)過程,每完成一個(gè)訓(xùn)練回合, k 減小為原來的 90% (即 k←k×0.9 ),直到 k=0.5 :2)當(dāng) k=0.5 時(shí),經(jīng)驗(yàn)池已填滿,DDPG神經(jīng)網(wǎng)絡(luò)開始更新網(wǎng)絡(luò)參數(shù),此時(shí)監(jiān)督學(xué)習(xí)算法和DDPG算法并行發(fā)揮作用,每完成一次網(wǎng)絡(luò)參數(shù)更新, k 值減小為原來的 90% (即 k←k×0.9 ),直到 k=0 監(jiān)督控制器完成引導(dǎo)使命,完全退出,DDPG控制器完全主導(dǎo)控制運(yùn)動(dòng)過程。

    4仿真試驗(yàn)與分析

    通過仿真試驗(yàn)驗(yàn)證本文提出的監(jiān)督式DDPG算法對(duì)小型ROV的控制效果。設(shè)定Actor網(wǎng)絡(luò)的更新速率和Critic網(wǎng)絡(luò)的學(xué)習(xí)速率均為0.002,折扣因子 γ =0.9 。為便于仿真,當(dāng)前網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)均采用軟更新的方式,更新速率為0.01,經(jīng)驗(yàn)池訓(xùn)練樣本的容量為2000個(gè),仿真步長(zhǎng)為0.01s,試驗(yàn)周期為600個(gè)回合,每回合步數(shù)為500步。

    以ROV偏航角姿態(tài)定位控制為例進(jìn)行仿真驗(yàn)證。設(shè)ROV的初始偏航角 ψ0=0° ,經(jīng)過訓(xùn)練后,ROV能夠在2節(jié)航速下維持 ψt=60° ;同時(shí),在定航運(yùn)行時(shí),在第 20~25s 期間引入幅度為 2° ,均值為0的隨機(jī)擾動(dòng)。DDPG算法和監(jiān)督式DDPG算法的獎(jiǎng)勵(lì)值變化趨勢(shì)對(duì)比如圖4所示,監(jiān)督式DDPG算法下的偏航角鎮(zhèn)定過程如圖5所示。

    圖4DDPG算法和監(jiān)督式DDPG算法獎(jiǎng)勵(lì)值變化趨勢(shì)對(duì)比
    圖5監(jiān)督式DDPG算法下的偏航角鎮(zhèn)定過程

    由圖4可知,監(jiān)督式DDPG算法能更快地學(xué)習(xí)到具有更大獎(jiǎng)勵(lì)值的動(dòng)作,且融合監(jiān)督學(xué)習(xí)算法后,穩(wěn)定后的獎(jiǎng)勵(lì)平均值由約300增加到400多,至少增加了 33% ,證明了監(jiān)督式DDPG算法的有效性。

    由圖5可知:不同學(xué)習(xí)次數(shù)的學(xué)習(xí)效果存在差異,學(xué)習(xí)次數(shù)越多,控制性能越優(yōu)異。在第300次學(xué)習(xí)后,監(jiān)督式DDPG算法對(duì)偏航角的控制性能基本上達(dá)到了預(yù)期要求;對(duì)比第50次學(xué)習(xí)和第600次學(xué)習(xí)的情況,偏航角超調(diào)量由 30% 下降到 3% ,鎮(zhèn)定耗時(shí)由15s縮短至4s,說明融合監(jiān)督學(xué)習(xí)算法后的DDPG算法學(xué)習(xí)效果有明顯提升。

    5結(jié)論

    本文在DDPG算法中引入監(jiān)督學(xué)習(xí)算法,提出了監(jiān)督式DDPG算法。從仿真試驗(yàn)結(jié)果可知,本文提出的監(jiān)督式DDPG算法與DDPG算法相比,控制效果有明顯提升。但將該算法應(yīng)用于小型ROV運(yùn)動(dòng)控制時(shí),仍然存在虛實(shí)遷移效果差的問題,后續(xù)仍需對(duì)該問題進(jìn)行深入研究。

    ? The author(s) 2024.This is an open access article under the CC BY-NC-ND 4.0 License (htps://creativecommons.org/licenses/ by-nc-nd/4.0/)

    參考文獻(xiàn)

    [1]李若霆.基于深度強(qiáng)化學(xué)習(xí)的視覺導(dǎo)航算法研究[D].太原:中北大學(xué),2023.

    [2]蔡軍,茍文耀,劉顏.基于actor-critic框架的在線積分強(qiáng)化學(xué)習(xí)算法研究[J].電子測(cè)量與儀器學(xué)報(bào),2023,37(3):194-201.

    [3]張嚴(yán)心,孔涵,殷辰堃,等.一類基于概率優(yōu)先經(jīng)驗(yàn)回放機(jī)制的分布式多智能體軟行動(dòng)-評(píng)論者算法[J北京工業(yè)大學(xué)學(xué)報(bào),2023,49(4):459-466.

    [4]陳愷豐,田博睿,李和清,等.基于DDPG算法的雙輪腿機(jī)器人運(yùn)動(dòng)控制研究[J]系統(tǒng)工程與電子技術(shù),2023,45(4):1144-1151.

    [5]李凌霄,王偉明,賀佳飛,等.基于DDPG的自主水下機(jī)器人角度控制研究[J].計(jì)算機(jī)仿真,2023,40(4):422-426;503.

    [6] 王鵑,張沖,龔家新,等.基于機(jī)器學(xué)習(xí)的模糊測(cè)試研究綜述[J].信息網(wǎng)安全,2023,23(8):1-16.

    [7]江鈴燚,鄭藝峰,陳澈,等.有監(jiān)督深度學(xué)習(xí)的優(yōu)化方法研究綜述[J].中國圖象圖形學(xué)報(bào),2023,2(4):963-983.

    [8] Uc-cetina V. Supervised reinforce learning using behaviormodels[C]//Sixth Intemational Conference on Learning andApplications(ICMLA 2007).IEEE,2007:336-341.

    [9] 楊輝,王禹,李中奇,等.專家監(jiān)督的SAC 強(qiáng)化學(xué)習(xí)重載列車運(yùn)行優(yōu)化控制[J].控制理論與應(yīng)用,2022.39(5):799-808.

    [10]蘇萌韜,曾碧.基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的多任務(wù)強(qiáng)化學(xué)習(xí)算法[J].機(jī)電工程技術(shù),2022,51(11):21-25.

    [11]曾紀(jì)鈞,梁哲恒.監(jiān)督式強(qiáng)化學(xué)習(xí)在路徑規(guī)劃中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2018,35(10):185-188.

    [12]王亦晨,劉雪梅.基于沖突搜索增強(qiáng)深度強(qiáng)化學(xué)習(xí)的多AGV路徑規(guī)劃方法[J].機(jī)電工程技術(shù),2024,53(8):23-27;88.

    [13] ARGALL B D, CHERNOVA S, VELOSO M, et al. A surveyofrobot learning from demonstration[J]. Robotics and Auto-nomous Systems,2009,57(5):469-483).

    [14] ROSENSTEIN MT,BARTO AG, SI J, et al. Supervisedactor-critic reinforcement learming[J].Learning and Appro-ximate Dynamic Programming:Scaling Up to the RealWORLD,2004:359-380.

    作者簡(jiǎn)介:

    黃兆軍,男,1982年生,碩士研究生,高級(jí)工程師,主要研究方向:智能控制。E-mail:hzj4735@126.com張彥佳,女,2003年生,專科,主要研究方向:電氣自動(dòng)化技術(shù)。

    左曉雯,女,2002年生,???,主要研究方向:電氣自動(dòng)化技術(shù)。

    陳澤汛,男,2002年生,專科,主要研究方向:電氣自動(dòng)化技術(shù)。

    猜你喜歡
    梯度神經(jīng)網(wǎng)絡(luò)控制器
    基于CiteSpace的神經(jīng)網(wǎng)絡(luò)模型可視化分析
    擠壓-切削制備可控厚度的雙層梯度結(jié)構(gòu)帶材的新工藝及機(jī)理
    錐度球頭刀四軸銑削TC4殘余應(yīng)力梯度分布反解
    核反應(yīng)堆堆芯功率的神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階PID復(fù)合控制器
    軟件定義廣域網(wǎng)中多控制器故障下的路徑可編程性恢復(fù)方法
    基于模糊推理和Jordan神經(jīng)網(wǎng)絡(luò)的磁懸浮球位置補(bǔ)償控制研究
    基于分?jǐn)?shù)階PID控制器的多模型神經(jīng)網(wǎng)絡(luò)控制策略
    不同施肥模式對(duì)甘南亞高山草甸植被群落和土壤的影響
    一類具有擴(kuò)散的時(shí)滯捕食系統(tǒng)的分岔控制
    地理梯度上森林生物多樣性與生態(tài)系統(tǒng)功能關(guān)系研究
    亚洲精品久久午夜乱码| 蜜臀久久99精品久久宅男| 交换朋友夫妻互换小说| 亚洲怡红院男人天堂| 最近中文字幕高清免费大全6| 国产淫片久久久久久久久| 国产91av在线免费观看| 亚洲中文av在线| 男女边摸边吃奶| 五月玫瑰六月丁香| 日本欧美国产在线视频| av在线app专区| 黄色配什么色好看| 亚洲成人中文字幕在线播放| 91在线精品国自产拍蜜月| 久久精品国产亚洲网站| 赤兔流量卡办理| 男女免费视频国产| 免费久久久久久久精品成人欧美视频 | 亚洲av欧美aⅴ国产| 色婷婷av一区二区三区视频| 一级毛片我不卡| 欧美 日韩 精品 国产| 赤兔流量卡办理| 美女脱内裤让男人舔精品视频| 99久久人妻综合| 大又大粗又爽又黄少妇毛片口| 国产69精品久久久久777片| 嘟嘟电影网在线观看| 韩国av在线不卡| 一个人看视频在线观看www免费| 国产精品一二三区在线看| 六月丁香七月| 国产淫片久久久久久久久| 狠狠精品人妻久久久久久综合| 在线观看一区二区三区激情| 在线精品无人区一区二区三 | 在线观看免费日韩欧美大片 | 国产精品不卡视频一区二区| 成人亚洲欧美一区二区av| 久久久久久九九精品二区国产| av免费观看日本| 十分钟在线观看高清视频www | 美女cb高潮喷水在线观看| 国产一级毛片在线| 中国国产av一级| 九色成人免费人妻av| 视频区图区小说| 黄片无遮挡物在线观看| 永久网站在线| 高清视频免费观看一区二区| 国产一级毛片在线| 亚洲va在线va天堂va国产| 久久精品国产亚洲网站| 日韩视频在线欧美| 色综合色国产| 国产白丝娇喘喷水9色精品| 99热这里只有精品一区| 51国产日韩欧美| 高清欧美精品videossex| 王馨瑶露胸无遮挡在线观看| 国产亚洲午夜精品一区二区久久| 亚州av有码| 搡女人真爽免费视频火全软件| 汤姆久久久久久久影院中文字幕| av网站免费在线观看视频| 亚洲av欧美aⅴ国产| 日本色播在线视频| 777米奇影视久久| 精品国产三级普通话版| 日韩不卡一区二区三区视频在线| 2022亚洲国产成人精品| 午夜福利在线观看免费完整高清在| 久久精品熟女亚洲av麻豆精品| 日本黄色片子视频| 亚洲高清免费不卡视频| 在线观看国产h片| 国产视频首页在线观看| 久久久成人免费电影| 永久免费av网站大全| 精品99又大又爽又粗少妇毛片| 身体一侧抽搐| 国产精品不卡视频一区二区| 亚洲av免费高清在线观看| 少妇裸体淫交视频免费看高清| 亚洲精品国产成人久久av| 亚洲精品久久久久久婷婷小说| 国产av精品麻豆| 九草在线视频观看| 老女人水多毛片| 国产精品蜜桃在线观看| 国产高清国产精品国产三级 | av天堂中文字幕网| www.av在线官网国产| a级一级毛片免费在线观看| 久久久久久久国产电影| 免费大片18禁| 我的老师免费观看完整版| 欧美3d第一页| 国产在视频线精品| 久久ye,这里只有精品| 久久久久人妻精品一区果冻| 高清av免费在线| 日韩av免费高清视频| 十分钟在线观看高清视频www | 纯流量卡能插随身wifi吗| 国产中年淑女户外野战色| 黄色视频在线播放观看不卡| 91久久精品国产一区二区成人| 久久人人爽av亚洲精品天堂 | 老女人水多毛片| 蜜桃亚洲精品一区二区三区| 久久99热6这里只有精品| 在线免费观看不下载黄p国产| 99热全是精品| 亚洲成人一二三区av| 99热6这里只有精品| 麻豆乱淫一区二区| 天堂俺去俺来也www色官网| 国产淫片久久久久久久久| 五月天丁香电影| 国产精品伦人一区二区| 亚洲国产精品国产精品| 国产精品久久久久久久久免| 国产亚洲一区二区精品| 欧美丝袜亚洲另类| 大香蕉97超碰在线| 国产高清有码在线观看视频| 成人18禁高潮啪啪吃奶动态图 | 国产极品天堂在线| 国产爱豆传媒在线观看| 爱豆传媒免费全集在线观看| 一区二区三区免费毛片| 免费黄网站久久成人精品| 尾随美女入室| 亚洲精品视频女| 大码成人一级视频| 午夜老司机福利剧场| 如何舔出高潮| 国产精品一区二区三区四区免费观看| 亚洲av国产av综合av卡| 多毛熟女@视频| 最近手机中文字幕大全| 中文字幕人妻熟人妻熟丝袜美| 十八禁网站网址无遮挡 | 亚洲av国产av综合av卡| 精品一区在线观看国产| 国产精品久久久久成人av| 亚洲精品456在线播放app| 久久久欧美国产精品| 国产免费福利视频在线观看| 亚洲av福利一区| 美女xxoo啪啪120秒动态图| 亚洲无线观看免费| 亚洲av免费高清在线观看| 国产免费一区二区三区四区乱码| 美女cb高潮喷水在线观看| 亚洲成人手机| 亚洲国产欧美人成| 舔av片在线| 国语对白做爰xxxⅹ性视频网站| 亚洲不卡免费看| 国产在线视频一区二区| 国内揄拍国产精品人妻在线| 中文精品一卡2卡3卡4更新| 狂野欧美白嫩少妇大欣赏| h视频一区二区三区| 我的老师免费观看完整版| 日韩三级伦理在线观看| 国产人妻一区二区三区在| 亚洲三级黄色毛片| 国产永久视频网站| 成人18禁高潮啪啪吃奶动态图 | av视频免费观看在线观看| 色网站视频免费| 少妇人妻久久综合中文| 能在线免费看毛片的网站| 亚洲av不卡在线观看| 色5月婷婷丁香| 日本黄色日本黄色录像| 哪个播放器可以免费观看大片| 91久久精品国产一区二区三区| 国产精品嫩草影院av在线观看| av在线app专区| 网址你懂的国产日韩在线| 男女下面进入的视频免费午夜| 美女xxoo啪啪120秒动态图| 中文字幕久久专区| 亚洲欧美一区二区三区黑人 | 色视频www国产| 日韩视频在线欧美| 中文字幕av成人在线电影| 18禁裸乳无遮挡动漫免费视频| 91精品伊人久久大香线蕉| 香蕉精品网在线| 国产成人一区二区在线| 在线观看免费日韩欧美大片 | 十八禁网站网址无遮挡 | 国产极品天堂在线| 欧美性感艳星| 免费看av在线观看网站| 久久av网站| 在线观看免费日韩欧美大片 | 国产精品人妻久久久久久| 永久免费av网站大全| 亚洲自偷自拍三级| 日韩亚洲欧美综合| 国产午夜精品一二区理论片| 国产女主播在线喷水免费视频网站| 成人国产av品久久久| 麻豆国产97在线/欧美| 毛片女人毛片| 国产色婷婷99| 99久久精品热视频| 女性被躁到高潮视频| 亚洲欧美日韩东京热| 美女主播在线视频| 人妻系列 视频| 亚洲无线观看免费| 国产 一区精品| 午夜激情久久久久久久| 高清欧美精品videossex| 妹子高潮喷水视频| 晚上一个人看的免费电影| 最近的中文字幕免费完整| 在线 av 中文字幕| 色婷婷久久久亚洲欧美| 欧美xxxx黑人xx丫x性爽| 国产精品欧美亚洲77777| 少妇人妻 视频| 熟女电影av网| 午夜福利高清视频| 你懂的网址亚洲精品在线观看| 亚洲精品自拍成人| 一区在线观看完整版| 一本色道久久久久久精品综合| 亚洲国产av新网站| 夫妻午夜视频| 一级毛片久久久久久久久女| 日韩免费高清中文字幕av| 建设人人有责人人尽责人人享有的 | 亚洲欧洲日产国产| 久久精品国产亚洲网站| 国产黄片美女视频| 日韩中文字幕视频在线看片 | 91久久精品电影网| 精品久久国产蜜桃| 97精品久久久久久久久久精品| kizo精华| av国产免费在线观看| 国产成人免费无遮挡视频| 老熟女久久久| 欧美日韩一区二区视频在线观看视频在线| 亚洲av福利一区| 免费在线观看成人毛片| 欧美+日韩+精品| 看非洲黑人一级黄片| 国产精品久久久久久av不卡| 青春草视频在线免费观看| 国内少妇人妻偷人精品xxx网站| 精品一区在线观看国产| 18禁动态无遮挡网站| 亚洲成人av在线免费| 国产一区亚洲一区在线观看| 美女高潮的动态| 十八禁网站网址无遮挡 | 久久久久人妻精品一区果冻| av在线老鸭窝| 日韩av不卡免费在线播放| 国产精品女同一区二区软件| 国产黄色视频一区二区在线观看| 日本免费在线观看一区| 国产精品爽爽va在线观看网站| 免费看日本二区| 欧美高清成人免费视频www| 七月丁香在线播放| 亚洲国产精品成人久久小说| 国产成人一区二区在线| 国产精品一及| 午夜精品国产一区二区电影| 交换朋友夫妻互换小说| 国产av国产精品国产| av线在线观看网站| 交换朋友夫妻互换小说| 校园人妻丝袜中文字幕| 精品99又大又爽又粗少妇毛片| 汤姆久久久久久久影院中文字幕| 97热精品久久久久久| 在线观看免费视频网站a站| 亚洲欧美精品专区久久| 91久久精品国产一区二区成人| tube8黄色片| 亚洲精品自拍成人| 91久久精品国产一区二区成人| av在线老鸭窝| freevideosex欧美| 欧美成人a在线观看| 99热这里只有是精品50| 亚洲欧美精品专区久久| 亚洲综合精品二区| 18+在线观看网站| 男女下面进入的视频免费午夜| 亚洲四区av| 欧美老熟妇乱子伦牲交| av卡一久久| 男女免费视频国产| 午夜福利网站1000一区二区三区| 欧美xxⅹ黑人| 七月丁香在线播放| 亚洲欧美日韩卡通动漫| 插阴视频在线观看视频| 亚洲高清免费不卡视频| 欧美 日韩 精品 国产| 熟女av电影| 精品国产露脸久久av麻豆| 亚洲真实伦在线观看| 毛片一级片免费看久久久久| 亚洲成人一二三区av| 国产亚洲av片在线观看秒播厂| a级一级毛片免费在线观看| 亚洲第一区二区三区不卡| 精品久久久久久电影网| 校园人妻丝袜中文字幕| 日韩一区二区三区影片| 成人午夜精彩视频在线观看| 永久免费av网站大全| 久久久国产一区二区| 一级毛片我不卡| 欧美高清性xxxxhd video| 免费大片黄手机在线观看| 免费观看a级毛片全部| 人人妻人人添人人爽欧美一区卜 | 男女免费视频国产| 九九久久精品国产亚洲av麻豆| 色婷婷久久久亚洲欧美| 人人妻人人爽人人添夜夜欢视频 | 国产亚洲5aaaaa淫片| 亚洲,一卡二卡三卡| 欧美+日韩+精品| 精品午夜福利在线看| 人妻系列 视频| 亚洲精品自拍成人| 日韩欧美精品免费久久| 欧美激情国产日韩精品一区| 亚州av有码| 精品亚洲成国产av| 欧美日韩在线观看h| 日韩欧美精品免费久久| 日韩成人伦理影院| av一本久久久久| 国产91av在线免费观看| 午夜福利在线在线| 美女内射精品一级片tv| 黑丝袜美女国产一区| 男女国产视频网站| 国产高清三级在线| 少妇人妻一区二区三区视频| 久热久热在线精品观看| 永久免费av网站大全| 高清不卡的av网站| 小蜜桃在线观看免费完整版高清| 日韩制服骚丝袜av| 秋霞在线观看毛片| 国产av码专区亚洲av| 激情五月婷婷亚洲| 精品人妻一区二区三区麻豆| 自拍偷自拍亚洲精品老妇| 欧美xxxx黑人xx丫x性爽| 人妻 亚洲 视频| 少妇人妻 视频| 熟女人妻精品中文字幕| 精品国产露脸久久av麻豆| 亚洲精品国产色婷婷电影| 国产久久久一区二区三区| 午夜日本视频在线| 99久国产av精品国产电影| 麻豆成人av视频| 国产精品国产三级国产av玫瑰| 建设人人有责人人尽责人人享有的 | 色网站视频免费| 狂野欧美激情性xxxx在线观看| 国产乱人偷精品视频| 亚洲精品,欧美精品| 性色avwww在线观看| 国产精品99久久久久久久久| 大码成人一级视频| 国产深夜福利视频在线观看| 亚洲av国产av综合av卡| 午夜老司机福利剧场| 中国美白少妇内射xxxbb| 十分钟在线观看高清视频www | 最近中文字幕高清免费大全6| 久久国产精品男人的天堂亚洲 | 亚洲精品色激情综合| 色视频www国产| 国产成人精品久久久久久| 天堂8中文在线网| tube8黄色片| 你懂的网址亚洲精品在线观看| 亚洲怡红院男人天堂| 国产精品伦人一区二区| 一区二区三区精品91| 久久精品国产亚洲网站| 天天躁夜夜躁狠狠久久av| 中文乱码字字幕精品一区二区三区| 欧美最新免费一区二区三区| 啦啦啦中文免费视频观看日本| 美女中出高潮动态图| 在线观看一区二区三区| 亚洲成人一二三区av| 欧美精品人与动牲交sv欧美| 精品久久久精品久久久| 人妻制服诱惑在线中文字幕| 国产精品精品国产色婷婷| 夜夜爽夜夜爽视频| 国产成人免费观看mmmm| 五月天丁香电影| 色5月婷婷丁香| 一边亲一边摸免费视频| 国产大屁股一区二区在线视频| 精品人妻视频免费看| 国产 精品1| 在线天堂最新版资源| 久久精品久久精品一区二区三区| 欧美老熟妇乱子伦牲交| 黑人猛操日本美女一级片| tube8黄色片| 日韩中字成人| 麻豆乱淫一区二区| 亚洲一区二区三区欧美精品| 婷婷色综合www| 女性生殖器流出的白浆| 久久影院123| 老女人水多毛片| 最新中文字幕久久久久| 久久久久性生活片| 天天躁夜夜躁狠狠久久av| 99久久精品国产国产毛片| 99国产精品免费福利视频| 国产精品免费大片| 国产色爽女视频免费观看| 成人黄色视频免费在线看| 国产美女午夜福利| 欧美日韩综合久久久久久| 午夜激情久久久久久久| 日韩三级伦理在线观看| 色哟哟·www| 在线免费观看不下载黄p国产| 久久久a久久爽久久v久久| 夫妻性生交免费视频一级片| 丰满人妻一区二区三区视频av| 青春草国产在线视频| 男女免费视频国产| 久久人人爽av亚洲精品天堂 | 久久精品国产亚洲av涩爱| av在线播放精品| 免费av不卡在线播放| 18禁裸乳无遮挡免费网站照片| 黄色配什么色好看| 好男人视频免费观看在线| 99精国产麻豆久久婷婷| 日本欧美国产在线视频| 亚洲av中文av极速乱| 久久精品国产亚洲网站| 这个男人来自地球电影免费观看 | 搡老乐熟女国产| 日日啪夜夜爽| 丰满人妻一区二区三区视频av| 亚洲欧美日韩无卡精品| 欧美成人一区二区免费高清观看| 肉色欧美久久久久久久蜜桃| 一二三四中文在线观看免费高清| 91精品一卡2卡3卡4卡| 嫩草影院新地址| 91狼人影院| 国产精品欧美亚洲77777| 精品人妻一区二区三区麻豆| 久久人人爽人人爽人人片va| 国产高清三级在线| 一区二区三区精品91| 一区二区三区四区激情视频| 97精品久久久久久久久久精品| 欧美人与善性xxx| 99久久中文字幕三级久久日本| videossex国产| 国产免费又黄又爽又色| 国产成人精品久久久久久| 国产亚洲欧美精品永久| 人妻少妇偷人精品九色| 日韩在线高清观看一区二区三区| 免费观看a级毛片全部| 午夜老司机福利剧场| 成人一区二区视频在线观看| 蜜臀久久99精品久久宅男| 国产av国产精品国产| 老女人水多毛片| 成人毛片60女人毛片免费| 久久ye,这里只有精品| 国产亚洲一区二区精品| 国产精品.久久久| 丰满人妻一区二区三区视频av| 中文乱码字字幕精品一区二区三区| av专区在线播放| 国产精品无大码| 18禁在线无遮挡免费观看视频| 午夜视频国产福利| 国产国拍精品亚洲av在线观看| 久久精品国产a三级三级三级| 高清午夜精品一区二区三区| 高清不卡的av网站| 欧美+日韩+精品| 成人特级av手机在线观看| 国产亚洲av片在线观看秒播厂| 精品国产乱码久久久久久小说| 天堂俺去俺来也www色官网| 日本-黄色视频高清免费观看| 嫩草影院入口| 色网站视频免费| 国产成人免费无遮挡视频| 中文资源天堂在线| 成人影院久久| 久久婷婷青草| 日韩中文字幕视频在线看片 | 国产在线视频一区二区| 久久6这里有精品| 国产在线视频一区二区| 久久久久久久精品精品| 久久久久久久久久成人| 大码成人一级视频| 国产在线视频一区二区| 国产亚洲最大av| .国产精品久久| 美女内射精品一级片tv| 看十八女毛片水多多多| 男人爽女人下面视频在线观看| 欧美xxⅹ黑人| 亚洲国产色片| 男的添女的下面高潮视频| 国产v大片淫在线免费观看| 最新中文字幕久久久久| 国产深夜福利视频在线观看| 99热网站在线观看| 精品99又大又爽又粗少妇毛片| av免费在线看不卡| 免费黄频网站在线观看国产| 色吧在线观看| 久久久久久人妻| 午夜激情久久久久久久| 久热这里只有精品99| 伦理电影免费视频| 精品人妻一区二区三区麻豆| 国产精品一及| 特大巨黑吊av在线直播| 制服丝袜香蕉在线| 亚洲一级一片aⅴ在线观看| 丝袜脚勾引网站| 你懂的网址亚洲精品在线观看| 丰满迷人的少妇在线观看| 久久精品熟女亚洲av麻豆精品| 七月丁香在线播放| 久久久久久久大尺度免费视频| 男女啪啪激烈高潮av片| 插阴视频在线观看视频| 少妇高潮的动态图| 少妇人妻一区二区三区视频| av.在线天堂| 久久影院123| 老女人水多毛片| 亚洲精品日韩av片在线观看| 日本欧美国产在线视频| 成人高潮视频无遮挡免费网站| 国产精品三级大全| 内地一区二区视频在线| 国产白丝娇喘喷水9色精品| 国产高清国产精品国产三级 | 国产精品国产三级国产专区5o| 国产在线视频一区二区| 一级片'在线观看视频| 极品教师在线视频| 亚洲美女视频黄频| 极品少妇高潮喷水抽搐| 亚洲熟女精品中文字幕| 日韩欧美精品免费久久| 国产人妻一区二区三区在| 亚洲一区二区三区欧美精品| 欧美xxxx黑人xx丫x性爽| 亚洲国产精品国产精品| 男女无遮挡免费网站观看| 日韩伦理黄色片| 成人无遮挡网站| 亚洲精品一二三| 亚洲精品日韩av片在线观看| 日韩强制内射视频| 国产 一区 欧美 日韩| 五月伊人婷婷丁香| 午夜激情福利司机影院| 久久人妻熟女aⅴ| 国产高清有码在线观看视频| 亚洲精华国产精华液的使用体验| 中国三级夫妇交换| 国产在线一区二区三区精| 国产国拍精品亚洲av在线观看| 亚洲欧洲日产国产| 日韩电影二区| 久久久久久久精品精品| 亚洲第一区二区三区不卡| 国产精品一二三区在线看| 日本vs欧美在线观看视频 | 男人添女人高潮全过程视频| 人人妻人人添人人爽欧美一区卜 | 丰满乱子伦码专区| 五月开心婷婷网| 国产精品久久久久久精品电影小说 | 欧美一区二区亚洲| 久久久久久久久久人人人人人人|