摘 要:遞歸神經(jīng)網(wǎng)絡(luò)能夠純粹從輸入輸出測量中學(xué)習(xí)未知非線性系統(tǒng)的動力學(xué)。本文中,我們將遞歸神經(jīng)網(wǎng)絡(luò)表示為一個具有非線性擾動的線性時(shí)不變系統(tǒng),通過引入約束參數(shù),可以保證初始增益穩(wěn)定性。我們應(yīng)用這種識別方法來學(xué)習(xí)在開放水域中四自由度船舶的運(yùn)動,結(jié)果表明,約束遞歸神經(jīng)網(wǎng)絡(luò)在測試集上的預(yù)測精度較低,但在非分布集上,在滿足約束條件的同時(shí)取得了可比性的結(jié)果。
關(guān)鍵詞:遞歸神經(jīng)網(wǎng);系統(tǒng)識別;線性矩陣不等式約束;深度學(xué)習(xí)
引言
傳統(tǒng)的系統(tǒng)識別通常依賴于領(lǐng)域?qū)I(yè)知識來獲得目標(biāo)系統(tǒng)的表示。相比之下,基于深度學(xué)習(xí)的方法已經(jīng)被證明可以高精度地預(yù)測未知非線性系統(tǒng)的系統(tǒng)狀態(tài)。與傳統(tǒng)建模技術(shù)推導(dǎo)出的微分方程模型相比,更能滿足識別系統(tǒng)的穩(wěn)定性要求[1]。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)可以處理輸入序列,預(yù)測未知系統(tǒng)在未來的系統(tǒng)狀態(tài),但通常缺乏穩(wěn)定性保證。RNN可以被建模為具有非線性擾動的線性定常系統(tǒng)。本文應(yīng)用一個RNN模型,保證初始增量穩(wěn)定性增益來識別具有多個輸入和多個輸出的開放水域的船舶真實(shí)運(yùn)動。
一、研究背景
深度遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對非線性系統(tǒng)識別任務(wù)顯示出較高的預(yù)測精度,如四旋翼或船舶運(yùn)動。與廣泛研究的經(jīng)典鑒定方法相比較,這些學(xué)習(xí)方法通常不能提供輸入—輸出行為的穩(wěn)健性保證。將神經(jīng)網(wǎng)絡(luò)中的非線性激活函數(shù)與線性的線性層分離,我們可以使用經(jīng)典的穩(wěn)健性控制工具來分析穩(wěn)定性。最近,F(xiàn)azlyab等人使用半深度網(wǎng)絡(luò)規(guī)劃計(jì)算深度神經(jīng)網(wǎng)絡(luò)的增益。對用于系統(tǒng)識別的序列到序列模型,引入了凸參數(shù)約束,以保證遞歸神經(jīng)網(wǎng)絡(luò)的初始增量增益穩(wěn)定性[2]。將該網(wǎng)絡(luò)結(jié)構(gòu)推廣到不需要參數(shù)約束的平衡網(wǎng)絡(luò),使用了一個遞歸神經(jīng)網(wǎng)絡(luò)控制一個部分未知的線性系統(tǒng),從而建立了閉環(huán)穩(wěn)定性保證,對循環(huán)均衡模型進(jìn)行了擴(kuò)展。在這項(xiàng)工作中,本文遵循了Fazlyab等人的方法顯示了初始增益穩(wěn)定性。與現(xiàn)有的方法相比,本文方法可以在具有多個輸入和輸出的擬真問題上評估識別模型。
二、模型結(jié)構(gòu)和穩(wěn)健性能
在航行過程中,船舶會遇到各種隨機(jī)的環(huán)境力量,對船舶產(chǎn)生復(fù)雜的影響,導(dǎo)致船舶出現(xiàn)三種旋轉(zhuǎn)運(yùn)動響應(yīng),即橫傾、縱傾和航向。同時(shí),船舶還會出現(xiàn)三種線性運(yùn)動響應(yīng),即涌動、搖擺和垂蕩,這些運(yùn)動響應(yīng)的復(fù)雜性使得對海況的估計(jì)變得尤為重要。為了更好地理解和預(yù)測海況,使用波浪浮標(biāo)類比方法是一個有效的手段[3]。這種方法能夠綜合考慮船舶的三種運(yùn)動響應(yīng),從而更準(zhǔn)確地估計(jì)海況。我們通常根據(jù)輸入和輸出的對應(yīng)數(shù)據(jù)對動態(tài)系統(tǒng)進(jìn)行描述。本文主要關(guān)注RNN的初始增量穩(wěn)定性增益問題,這是控制理論中用于衡量系統(tǒng)穩(wěn)健性的一個重要指標(biāo)。在進(jìn)行系統(tǒng)識別任務(wù)時(shí),我們需要關(guān)注最差的情況,同時(shí)考慮初始穩(wěn)定性增益和初始增量穩(wěn)定性增益。我們需要明確模型的結(jié)構(gòu),系統(tǒng)S通過一個與非線性ψ反饋與線性系統(tǒng)G互聯(lián),并且系統(tǒng)S映射一個輸入序列u。
(一)初始隱藏狀態(tài)x0
為了確保線性系統(tǒng)G的隱藏狀態(tài)得到有效的初始化,我們采納了馬哈杰林教授[3]的建議,選擇使用長期記憶(LSTM)網(wǎng)絡(luò)。這個初始化器LSTM是獨(dú)立于預(yù)測網(wǎng)絡(luò)進(jìn)行訓(xùn)練的,確保其能夠?yàn)轭A(yù)測網(wǎng)絡(luò)提供堅(jiān)實(shí)的基礎(chǔ)。在訓(xùn)練預(yù)測網(wǎng)絡(luò)S之前,我們需要滿足一些約束條件。這些約束通過模擬初始參數(shù)集θ0來滿足。這個初始參數(shù)集是通過求解半圓程序來獲得的,其中解對應(yīng)一個可行的參數(shù)集θ0。重要的是,我們知道存在一個可行的初始參數(shù)集θ0,使得均方誤差損失最小化。為了防止參數(shù)過于靠近約束邊界,我們采用勢壘函數(shù)作為正則化方法,這樣可以使參數(shù)分布更為合理和穩(wěn)定。這一系列的步驟都是為了確保預(yù)測網(wǎng)絡(luò)的訓(xùn)練能夠順利進(jìn)行,并獲得更好的預(yù)測性能。
(二)數(shù)值實(shí)驗(yàn)
為了進(jìn)行系統(tǒng)識別,我們首先需要生成相關(guān)的數(shù)據(jù)。為了確保數(shù)據(jù)的真實(shí)性和準(zhǔn)確性,我們選擇使用一個具有四自由度的巡邏艇模型。這個模型不僅考慮了船體的基本運(yùn)動,還擴(kuò)展到外部因素,如風(fēng)和波浪對其產(chǎn)生的影響。為了模擬真實(shí)的航行環(huán)境,我們進(jìn)一步將舵和螺旋槳建模為執(zhí)行器,并使用兩個混合螺距的方向來控制船體的導(dǎo)航。使得我們的模型能夠更準(zhǔn)確地模擬實(shí)際船舶的操作和響應(yīng)。輸入序列是通過一個開環(huán)控制器生成的,這個控制器能夠模擬船舶在不同情況下的動作,例如轉(zhuǎn)彎或保持圓形軌跡等。這些動作的執(zhí)行都是基于控制器的指令,確保了數(shù)據(jù)的多樣性和實(shí)際應(yīng)用性。除了考慮船體的輸入序列,我們還模擬了風(fēng)的強(qiáng)度和吹入攻角角度,并將這些數(shù)據(jù)一并輸入控制器中。這樣做的好處是能夠更全面地考慮船舶在實(shí)際航行中可能遇到的各種環(huán)境和條件,從而獲得更準(zhǔn)確和全面的系統(tǒng)識別數(shù)據(jù)。
(三)數(shù)據(jù)集D的采樣
數(shù)據(jù)集D由兩部分組成,96小時(shí)的常規(guī)樣本和29小時(shí)的特殊樣本。在采集數(shù)據(jù)時(shí),測量值會被每秒鐘精確地采樣一次,確保數(shù)據(jù)的實(shí)時(shí)性和準(zhǔn)確性。對于常規(guī)樣本,按照60%、10%和30%的比例將其分配給訓(xùn)練、驗(yàn)證和測試階段。這樣的分配有助于平衡數(shù)據(jù)的使用,并確保模型訓(xùn)練的穩(wěn)定性和準(zhǔn)確性。特殊樣本專門用于評估模型的表現(xiàn),涵蓋了更大的螺旋槳速度范圍和更頻繁的舵角變化。模型在面對這些特殊情況時(shí),必須展現(xiàn)良好的適應(yīng)性和穩(wěn)健性,這樣可以更全面地評估模型的性能,并確保其在各種實(shí)際應(yīng)用場景中都能表現(xiàn)出色。
三、模型訓(xùn)練
(一)觀測狀態(tài)空間及指令行動空間
為了構(gòu)建預(yù)測器的基線模型,我們采用一種純粹基于學(xué)習(xí)的策略,我們確保所有模型都使用相同的LSTM架構(gòu)作為初始隱藏狀態(tài),這種架構(gòu)在多步預(yù)測四軸飛行器的運(yùn)動時(shí)表現(xiàn)出色。通過這種方式,我們可以將該模型簡化為一個受約束的模型,同時(shí)加入初始穩(wěn)定性增益作為超參數(shù),從而更好地適應(yīng)不同的預(yù)測任務(wù)。
(二)獎勵結(jié)構(gòu)
在強(qiáng)化學(xué)習(xí)(RL)中,代理旨在優(yōu)化被稱為獎勵的數(shù)字信號,該信號由環(huán)境提供,作為對代理行為的響應(yīng)。獎勵作為代理人的反饋機(jī)制,告知其在特定
狀態(tài)下的表現(xiàn),并指導(dǎo)其未來的行動實(shí)現(xiàn)目標(biāo)[4]。在DRL中,代理神經(jīng)網(wǎng)絡(luò)接收環(huán)境的觀測結(jié)果作為輸入,并生成動作作為輸出。網(wǎng)絡(luò)的參數(shù)是根據(jù)從環(huán)境中獲得的獎勵通過算法進(jìn)行調(diào)整的。獎勵在DRL代理的學(xué)習(xí)過程中起著關(guān)鍵作用,因?yàn)樗鼑L試各種行動并觀察相應(yīng)的獎勵。積極的獎勵強(qiáng)化了代理人的決策過程,而消極的獎勵則阻止了代理節(jié)點(diǎn)重復(fù)某些行為。當(dāng)代理節(jié)點(diǎn)獲得經(jīng)驗(yàn)時(shí),它會確定哪些行動會產(chǎn)生最高的獎勵,并更新其策略以最大限度地提高未來的獎勵。因此,獎勵為DRL代理學(xué)習(xí)和增強(qiáng)其決策能力提供了至關(guān)重要的反饋信號。
(三)培訓(xùn)過程
在每一訓(xùn)練集中,船舶從原點(diǎn)(初始航路點(diǎn))開始,定向在正x方向(航向角ψ=0),在無量綱形式的浪涌方向(u)上的初始速度為1。船舶在搖擺和偏航運(yùn)動中沒有初始速度。目標(biāo)航路點(diǎn)是從起點(diǎn)8L到28L之間隨機(jī)選擇的,其中L是船在垂線之間的長度。方向在0到2π之間均勻選擇。一個訓(xùn)練集的時(shí)間跨度設(shè)定為160個時(shí)間步長。在目的地航路點(diǎn)上指定了0.5L的公差,如果船只能夠進(jìn)入該區(qū)域,則認(rèn)為該事件成功。建立另一個條件來確定代理節(jié)點(diǎn)是否仍然能夠到達(dá)目的地,或者事件是否為故障事件,并且船只是在附近徘徊。
(四)網(wǎng)絡(luò)的超參數(shù)
通過對節(jié)點(diǎn)、評價(jià)網(wǎng)絡(luò)和其他超參數(shù)的不同值進(jìn)行實(shí)驗(yàn)來調(diào)整代理。Actor網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò)都使用了兩個隱藏層,在隱藏層中由正弦函數(shù)激活。由于PPO是一種基于策略的算法,在一定數(shù)量的時(shí)期內(nèi)更新參與者和價(jià)值網(wǎng)絡(luò)之前,在每次迭代中收集50多集的數(shù)據(jù),給出了用于訓(xùn)練的最佳超參數(shù)集,顯示了訓(xùn)練期間每次迭代的平均回報(bào)圖。選擇60次迭代的策略是為了在擬合不足和擬合過度之間取得平衡。
四、結(jié)果
這里使用三步評估過程來評估PPO制劑的性能。首先,評估代理在不同情況下跟蹤航路點(diǎn)的能力,在每個象限中選擇目的地航路點(diǎn)。其次,引導(dǎo)代理遵循離散函數(shù)成為多個路點(diǎn)的復(fù)雜路徑。最后,將風(fēng)引入環(huán)境中,并在風(fēng)力的影響下對代理進(jìn)行測試。
(一)航點(diǎn)跟蹤
通過在(10L,10L)、(-10L,10L)、(10L、-10L)和(-10L、-10L)四個不同的象限中設(shè)定目的地航路點(diǎn),我們對PPO代理的性能進(jìn)行了深入分析。為了確保實(shí)驗(yàn)的公正性,我們將航向角為0、浪涌速度為1U的原點(diǎn)設(shè)定為船舶的起點(diǎn)。經(jīng)過充分的訓(xùn)練,我們發(fā)現(xiàn)模型在所有四個象限中都能夠順利到達(dá)目標(biāo)航路點(diǎn),這表明其性能穩(wěn)定且可靠。
(二)通過航路點(diǎn)跟蹤的路徑跟隨
由于該模型在四個象限中均能準(zhǔn)確跟蹤航路點(diǎn),因此具有應(yīng)對復(fù)雜導(dǎo)航路徑的能力。通過模擬各種形狀的模型軌跡,我們觀察到代理能夠輕松遵循橢圓路徑。長軸和短軸分別為28L和24L的橢圓被離散為15個路點(diǎn),“8”字形的路徑被離散為23個路點(diǎn)。起始位置為(x,y)=(14L,0),并沿著負(fù)y軸以ψ=-π/2的初始航向開始其航行。模型展示了從航向?yàn)棣?0的原點(diǎn)出發(fā),進(jìn)行八次精確轉(zhuǎn)彎的能力。每次轉(zhuǎn)彎后,船舶都會完成一個半徑為9L的航線轉(zhuǎn)舵,從而實(shí)現(xiàn)180°的完美轉(zhuǎn)向。這些復(fù)雜的導(dǎo)航操作進(jìn)一步證明了該模型在處理實(shí)際導(dǎo)航問題時(shí)的強(qiáng)大性能和可靠性。
(三)風(fēng)力作用下的性能
對風(fēng)力和力矩進(jìn)行建模和添加,所檢查的兩個具體案例顯示了每個案例都有不同的風(fēng)速和方向??梢杂^察到,即使在風(fēng)速是船舶運(yùn)行設(shè)計(jì)速度六倍的強(qiáng)風(fēng)情況下,代理節(jié)點(diǎn)也能夠使船舶遵循所需的軌跡。
五、與PD控制策略的比較
比較PPO代理與比例微分(PD)控制策略在路徑跟隨能力上的表現(xiàn),所需的航向角ψd是通過LOS獲得的目標(biāo)值,誤差e被定義為當(dāng)前航向角ψ與參考值ψd之間的差值。為了優(yōu)化跟蹤效果,我們調(diào)整了控制策略的增益參數(shù),以最小化跟蹤誤差。在實(shí)驗(yàn)中,所使用的比例增益和導(dǎo)數(shù)增益的值分別為kd=4.0和kp=2.0。觀察結(jié)果顯示,基于PPO控制策略的均方根(RMS)交叉軌跡誤差比PD控制策略的誤差小45.5%。這一顯著差異表明PPO代理在路徑跟隨方面具有更好的性能。類似地,在由20個半徑為6L的圓組成的連續(xù)“8”字形的情況下,交叉軌跡誤差的RMS被計(jì)算為小19.8%。這一結(jié)果表明,無論是在直線軌跡還是復(fù)雜軌跡的跟蹤中,PPO控制策略都展現(xiàn)出優(yōu)越的性能。我們還觀察了兩個策略在跟蹤舵角的變化情況。雖然PPO控制策略在交叉軌跡誤差方面表現(xiàn)優(yōu)異,但其計(jì)算工作量相對較大,可能是由于PPO算法在優(yōu)化過程中需要進(jìn)行更多的計(jì)算和迭代。因此,在實(shí)際應(yīng)用中,我們需要根據(jù)具體需求權(quán)衡PPO控制策略的計(jì)算復(fù)雜性和跟蹤性能之間的平衡。
結(jié)論
綜上,將一種基于DRL的控制策略RNN用于船舶通過航路點(diǎn)的路徑跟蹤。為了完成這項(xiàng)任務(wù),對PPO代理進(jìn)行了訓(xùn)練,并給予與航跡誤差、航向角誤差和到目標(biāo)航路點(diǎn)的距離相關(guān)的獎勵。PPO代理成功地展示了其在靜水中跟蹤目標(biāo)航路點(diǎn)的能力,以及通過航路點(diǎn)離散的復(fù)雜路徑,如橢圓和“8”字形機(jī)動。此外,它被發(fā)現(xiàn)與標(biāo)準(zhǔn)用于該任務(wù)的PD控制策略一樣有效地進(jìn)行軌跡跟蹤。與PD控制策略相比,在PPO控制策略的情況下的控制策略努力顯著更高,這可以通過DRL代理的更多超參數(shù)調(diào)節(jié)來改善。
今后應(yīng)改進(jìn)當(dāng)前DRL框架,包括避障和防撞,從而優(yōu)化和創(chuàng)建一個計(jì)算高效且允許實(shí)時(shí)實(shí)現(xiàn)的策略。將對多目標(biāo)控制策略結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)測試,以便更好地理解傳統(tǒng)和現(xiàn)代控制策略的微妙之處。未來的研究還將探索控制策略在其他環(huán)境干擾(如波浪和洋流)下的有效性。
參考文獻(xiàn):
[1]姜巖,王雪剛,侯先瑞,等.深度循環(huán)神經(jīng)網(wǎng)絡(luò)在船舶操縱運(yùn)動辨識中的對比研究[J].水動力學(xué)研究與進(jìn)展A輯,2023,38(02):187-194.
[2]陳壯.基于卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)河船舶檢測與識別研究[D].遼寧:大連理工大學(xué),2020.
[3]林晨,鐘志根.海事管理過程中智能視頻技術(shù)的運(yùn)用[J].中國水運(yùn)(上半月),2017,38(09):58-59.
[4]樊翔,程陳,侯先瑞,等.基于徑向基神經(jīng)網(wǎng)絡(luò)的船舶運(yùn)動智能預(yù)報(bào)[J].船舶設(shè)計(jì)通訊,2022(02):8-12.