張 尚, 楊 睿,2, 陳 震,2, 黎 明,2
一種基于PILCO算法的智能浮體運(yùn)動(dòng)控制方法
張 尚1, 楊 睿1,2, 陳 震1,2, 黎 明1,2
(1.中國海洋大學(xué) 工程學(xué)院, 山東 青島, 266100; 2.山東省海洋智能裝備技術(shù)工程研究中心, 山東 青島, 266100)
隨著人們對海洋探索的不斷深入, 開發(fā)一種自主性強(qiáng)、靈活度高、可重構(gòu)的智能浮體(ASV)至關(guān)重要。文中以四推進(jìn)器ASV為研究對象, 建立了其動(dòng)力學(xué)模型, 基于概率推理的學(xué)習(xí)控制算法設(shè)計(jì)了控制器, 并進(jìn)行了定點(diǎn)控制和軌跡跟蹤的仿真實(shí)驗(yàn)。仿真結(jié)果表明: ASV僅需進(jìn)行少量的實(shí)驗(yàn)即可獲得自主學(xué)習(xí)控制策略, 在有水流擾動(dòng)或采用近似動(dòng)力學(xué)模型時(shí), 能夠?qū)崿F(xiàn)對其的運(yùn)動(dòng)控制, 從而驗(yàn)證了文中算法的有效性。
智能浮體; 基于概率推理的學(xué)習(xí)控制; 定點(diǎn)控制; 軌跡跟蹤
隨著各國對海洋開發(fā)的重視, 針對海上安全保護(hù)、水文氣象信息采集及海面搜救等方面的需求大幅增加, 開發(fā)一種自主性強(qiáng)、靈活度高、可重構(gòu)的海面智能浮體(autonomous surface vehicle, ASV)平臺至關(guān)重要。如圖1所示, 多個(gè)浮體拼接成不同形狀以適應(yīng)不同作業(yè)場景, 可快速形成柔性運(yùn)輸通道、自動(dòng)浮橋搭建和形成作業(yè)平臺等, 也可以抵抗更大的干擾以提高系統(tǒng)穩(wěn)定性。為解決在運(yùn)河中運(yùn)輸貨物和廢棄物的問題, 2016年, 麻省理工學(xué)院智慧城市實(shí)驗(yàn)室啟動(dòng)了“Roboat”項(xiàng)目, 目標(biāo)是使多個(gè)浮體可以自主拼接成浮動(dòng)平臺, 以適應(yīng)阿姆斯特丹城市中復(fù)雜的航道, 完成河道運(yùn)輸任務(wù)[1]?!癛oboat”項(xiàng)目的應(yīng)用也使得對智能浮體的研究越來越深入。智能浮體的優(yōu)點(diǎn)是自主性強(qiáng), 運(yùn)動(dòng)靈活, 多浮體可拼接成不同形狀以完成不同的任務(wù)。智能浮體不僅需要具備較強(qiáng)的機(jī)動(dòng)性和靈活性, 也需要具備先進(jìn)的控制策略, 因此對單浮體運(yùn)動(dòng)控制的研究是完成可重構(gòu)目標(biāo)的基礎(chǔ)。
圖1 小型智能浮體集群
智能浮體因較強(qiáng)的機(jī)動(dòng)性和靈活性需要合理配置推進(jìn)器。Lu等[2]所使用的浮體采用一個(gè)推進(jìn)器用于驅(qū)動(dòng), 一個(gè)舵機(jī)實(shí)現(xiàn)轉(zhuǎn)向, 這也是目前較常見的方案, 缺點(diǎn)是浮體有較大的轉(zhuǎn)彎半徑, 也無法單獨(dú)對航向進(jìn)行調(diào)整, 靈活性較差。Woo等[3]設(shè)計(jì)的浮體安裝了2個(gè)推進(jìn)器, 且左右對稱, 通過分別控制推力的大小實(shí)現(xiàn)前進(jìn)和轉(zhuǎn)向, 雖然浮體航向可以靈活調(diào)整, 但無法完成橫蕩運(yùn)動(dòng)。Paulos等[4]使用的浮體采用了四推進(jìn)器方案, 推進(jìn)器呈“X”型分布, 浮體可實(shí)現(xiàn)縱蕩、橫蕩和艏搖運(yùn)動(dòng), 浮體的靈活性大大提高。Wang等[5]在浮體中使用了4個(gè)呈“+”型分布的推進(jìn)器, 該浮體機(jī)動(dòng)性強(qiáng), 推進(jìn)器效率更高。單浮體是一個(gè)多輸入、多輸出的非線性系統(tǒng), 多浮體拼接后動(dòng)力學(xué)模型也發(fā)生了變化, 推進(jìn)器數(shù)量隨著拼接浮體數(shù)量的增加而增多, 且浮體的工作環(huán)境復(fù)雜多變, 因此開發(fā)高性能控制器將面臨巨大的挑戰(zhàn)。Park等[1]利用四推進(jìn)器浮體, 提出了一種多浮體可重構(gòu)的反饋控制系統(tǒng), 每個(gè)浮體都可以鎖定到其他浮體, 形成相連的剛性體, 提高了對環(huán)境的適應(yīng)能力。Wang等[5]提出了非線性模型預(yù)測控制(nonlinear model predictive control, NMPC)方案, 在室內(nèi)水池中進(jìn)行了浮體運(yùn)動(dòng)控制的實(shí)驗(yàn)。隨著理論和技術(shù)的逐步發(fā)展, 特別是在強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)方面, 無人系統(tǒng)的發(fā)展得到了極大的提升。Mnih等[6]提出了一個(gè)深度學(xué)習(xí)模型, 可以直接從高維感知輸入中學(xué)習(xí)控制策略, 該方法具備通用性, 但只能學(xué)習(xí)短時(shí)間內(nèi)的經(jīng)驗(yàn), 無法學(xué)習(xí)長時(shí)間的控制策略, 且網(wǎng)絡(luò)不一定能夠收斂, 需要對深度網(wǎng)絡(luò)的參數(shù)不斷進(jìn)行優(yōu)化調(diào)整。Lu等[2]根據(jù)深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法提出了一種基于無模型強(qiáng)化學(xué)習(xí)控制器, 該控制器經(jīng)過反復(fù)的路徑跟蹤訓(xùn)練和實(shí)驗(yàn), 驗(yàn)證了該方法具備路徑跟蹤和自主學(xué)習(xí)能力。Deisenroth等[7]提出一種學(xué)習(xí)控制的概率推理(pr- obabilistic inference learning to control, PILCO)方法, 基于模型強(qiáng)化學(xué)習(xí)算法在連續(xù)狀態(tài)動(dòng)作域中實(shí)現(xiàn)了數(shù)據(jù)的高效利用, 可直接應(yīng)用于物理系統(tǒng)。Ramirez等[8]探討了基于PILCO算法學(xué)習(xí)控制欠驅(qū)動(dòng)自主水下航行器的能力, 通過少量的現(xiàn)場實(shí)驗(yàn)來優(yōu)化控制策略, 不足之處是未考慮給定模型與實(shí)際模型不一致的情況, 且仿真實(shí)驗(yàn)中未考慮水流擾動(dòng)對結(jié)果的影響。基于無模型強(qiáng)化學(xué)習(xí)方法不需要建立模型, 智能體的所有決策都是通過與環(huán)境交互得到的, 需要大量試錯(cuò), 數(shù)據(jù)的利用率低, 而且當(dāng)環(huán)境發(fā)生變化時(shí), 需要重新進(jìn)行學(xué)習(xí), 不具備泛化能力。而基于模型強(qiáng)化學(xué)習(xí)方法可以利用已有的數(shù)據(jù)學(xué)習(xí)系統(tǒng)模型, 利用學(xué)習(xí)到的模型預(yù)測其他未知狀態(tài)。相比無模型強(qiáng)化學(xué)習(xí), 基于模型強(qiáng)化學(xué)習(xí)具有較強(qiáng)的泛化能力[9]。
文中以四推進(jìn)器智能浮體的建模和控制器設(shè)計(jì)為核心展開研究, 將基于模型強(qiáng)化學(xué)習(xí)理論應(yīng)用于控制器設(shè)計(jì)中, 使浮體在有水流擾動(dòng)或采用近似動(dòng)力學(xué)模型的情況下, 通過少量實(shí)驗(yàn)快速學(xué)習(xí)控制策略, 并完成定點(diǎn)控制及軌跡跟蹤的目標(biāo), 可為海上大型浮體協(xié)同控制提供參考。
使用四推進(jìn)器的小型浮體進(jìn)行實(shí)驗(yàn)分析, 通過4個(gè)推進(jìn)器的配合能夠確保浮體的靈活性和穩(wěn)定性。對浮體建立大地坐標(biāo)系和運(yùn)動(dòng)坐標(biāo)系O-XYZ, 系統(tǒng)結(jié)構(gòu)如圖2所示。
圖2 智能浮體系統(tǒng)結(jié)構(gòu)圖
文中的智能浮體由4個(gè)推進(jìn)器(1~4)組成, 能夠完成縱蕩()、橫蕩()以及艏搖()運(yùn)動(dòng), 推進(jìn)器分別位于浮體4條邊的中點(diǎn)處, 呈“+”型分布, 如圖3所示, 箭頭指向表示推力正方向。
圖3 智能浮體推進(jìn)器分布
對于智能浮體水平方向的控制有下述關(guān)系
根據(jù)Fossen[10]所提出的流體中剛體動(dòng)力學(xué)公式, 建立浮體的動(dòng)力學(xué)模型為
運(yùn)動(dòng)坐標(biāo)系向大地坐標(biāo)系的變換矩陣
運(yùn)動(dòng)坐標(biāo)系下智能浮體線速度和角速度向量
智能浮體慣性矩陣
假定運(yùn)動(dòng)坐標(biāo)系原點(diǎn)與浮體重心重合, 則智能浮體的科里奧利項(xiàng)與向心項(xiàng)的斜對稱矩陣
考慮智能浮體的運(yùn)動(dòng)速度較小, 且相對于長、寬的中軸線對稱, 則智能浮體流體阻力矩陣
通常當(dāng)浮體的航行速度較慢時(shí), 可以將其的動(dòng)力學(xué)模型近似為一個(gè)線性模型
經(jīng)變形可得
PILCO算法是基于模型的策略搜索方法, 把模型誤差納入考慮范圍, 將模型不確定性視為時(shí)間上不相關(guān)的噪聲, 它解決模型偏差的方法不是集中于一個(gè)單獨(dú)的動(dòng)力學(xué)模型, 而是建立了概率動(dòng)力學(xué)模型[8]。PILCO算法的層次結(jié)構(gòu)如圖4所示。
圖4 PILCO算法層次結(jié)構(gòu)圖
PILCO算法的結(jié)構(gòu)可分為以下3層。
1) 底層: 學(xué)習(xí)一個(gè)狀態(tài)轉(zhuǎn)移的概率模型。
假定系統(tǒng)的動(dòng)力學(xué)模型表示為
PILCO算法的偽代碼表示如下:
2: loop;
3: 執(zhí)行控制策略;
4: 記錄收集的經(jīng)驗(yàn);
5: 學(xué)習(xí)概率動(dòng)力學(xué)模型;
6: loop;
9: 進(jìn)行策略優(yōu)化;
10: end loop;
11: end loop。
基于PILCO算法原理, 智能浮體的控制策略優(yōu)化分為以下2個(gè)階段。
1) 獲取初始控制策略
首先對給定模型加入隨機(jī)策略產(chǎn)生初始數(shù)據(jù), 并學(xué)習(xí)概率動(dòng)力學(xué)模型。文中被控對象是四推進(jìn)器的智能浮體, 在每一個(gè)控制周期產(chǎn)生的隨機(jī)控制策略定義為
2) 控制策略優(yōu)化
將初始控制策略應(yīng)用于實(shí)際智能浮體中, 將獲得的實(shí)際數(shù)據(jù)繼續(xù)訓(xùn)練概率動(dòng)力學(xué)模型, 并通過策略搜索方法優(yōu)化控制策略, 從而獲得更好的控制效果。
為加快控制策略網(wǎng)絡(luò)的學(xué)習(xí)速度, 滿足實(shí)時(shí)性應(yīng)用的要求, 控制策略網(wǎng)絡(luò)采用徑向基函數(shù)(radical basis function, RBF)神經(jīng)網(wǎng)絡(luò)。控制策略表示為
基于PILCO算法的控制器設(shè)計(jì)如圖5所示。概率動(dòng)力學(xué)模型為高斯模型, 給定模型為被控對象建立的動(dòng)力學(xué)模型, 在實(shí)際應(yīng)用中, 該模型與實(shí)際模型存在一定的誤差。
圖5 基于PILCO算法的控制器結(jié)構(gòu)框圖
由圖5可得, 初始狀態(tài)時(shí)=0, 對給定的動(dòng)力學(xué)模型輸入隨機(jī)控制策略產(chǎn)生初始隨機(jī)數(shù)據(jù), 經(jīng)過訓(xùn)練獲得初始高斯模型; 策略搜索算法使成本函數(shù)最小以產(chǎn)生控制策略; 然后將置為1, 生成的策略在實(shí)際機(jī)器人模型上進(jìn)行測試, 并獲得數(shù)據(jù)再次進(jìn)行策略優(yōu)化。
NMPC在工程上已有較成功的應(yīng)用, 該控制算法是經(jīng)典與現(xiàn)代控制的結(jié)合, 在處理多變量約束問題上是一種十分有效的方法[11]。NMPC的結(jié)構(gòu)框圖如圖6所示。
圖6 NMPC結(jié)構(gòu)框圖
對比圖5和圖6可知, NMPC與PILCO控制器的共同點(diǎn)是: 兩者均需要一個(gè)給定模型。NMPC控制器利用給定模型預(yù)測系統(tǒng)的未來響應(yīng); PILCO控制器利用給定模型獲取初始數(shù)據(jù), 并建立概率動(dòng)力學(xué)模型。
當(dāng)給定模型與實(shí)際模型一致時(shí), NMPC控制器的預(yù)測輸出與實(shí)際系統(tǒng)輸出相同, 通過在線優(yōu)化獲得較好的控制策略; PILCO控制器利用給定模型產(chǎn)生數(shù)據(jù)擬合一個(gè)概率動(dòng)力學(xué)模型, 加快控制策略的學(xué)習(xí), 并優(yōu)化控制策略。
PILCO控制器提高了數(shù)據(jù)的利用率, 通過離線學(xué)習(xí)能夠不斷優(yōu)化控制策略; 而經(jīng)典的NMPC控制器在求解多變量非線性系統(tǒng)是一種有效方法, 但對給定模型的精度有一定的要求, 且模型精度越高, 控制效果越好。為驗(yàn)證PILCO控制器在智能浮體運(yùn)動(dòng)控制上的有效性, 并展示PILCO控制器具備的學(xué)習(xí)能力, 設(shè)計(jì)仿真實(shí)驗(yàn)對比NMPC控制器與PILCO控制器在智能浮體運(yùn)動(dòng)控制上的控制效果。
智能浮體的模型參數(shù)如表1所示[5], 流體阻尼公式的參數(shù)如表2所示。
表1 浮體模型參數(shù)
表2 流體阻尼公式參數(shù)
仿真實(shí)驗(yàn)選用的電腦處理器為Intel Core i5- 3470 3.20 GHz, 內(nèi)存8 GB; MATLAB 2019b。
首先在算法結(jié)構(gòu)和訓(xùn)練過程上對比了PILCO算法與DDPG算法, 其次對浮體的運(yùn)動(dòng)控制設(shè)計(jì)了3組實(shí)驗(yàn), 對比了PILCO算法與NMPC算法的控制效果。
PILCO算法是一種基于模型強(qiáng)化學(xué)習(xí)算法, 可根據(jù)先驗(yàn)知識建立的動(dòng)力學(xué)模型大大提高數(shù)據(jù)的利用率及學(xué)習(xí)的速度。而DDPG算法是一種基于無模型強(qiáng)化學(xué)習(xí)算法, 可應(yīng)用于連續(xù)系統(tǒng)的控制中, 通過自學(xué)習(xí)對復(fù)雜控制任務(wù)具備較強(qiáng)的控制能力。但需要與環(huán)境不斷進(jìn)行交互與試錯(cuò), 學(xué)習(xí)速度慢且對數(shù)據(jù)的利用率低[12]。在相同硬件條件下, DDPG算法應(yīng)用在智能浮體的運(yùn)動(dòng)控制上, 與PILCO算法的結(jié)果對比如表3所示。
表3 PILCO算法與DDPG算法對比
DDPG算法存在學(xué)習(xí)速度慢, 數(shù)據(jù)利用率低等問題, 而PILCO算法的優(yōu)勢在于:
1) 根據(jù)先驗(yàn)知識對被控對象初步建立模型, 并從給定模型中產(chǎn)生訓(xùn)練數(shù)據(jù), 該方法大大提高了數(shù)據(jù)的利用率;
2) PILCO算法不直接對系統(tǒng)的動(dòng)力學(xué)建模, 而是引入一個(gè)差分變量, 與直接學(xué)習(xí)函數(shù)值相比, 學(xué)習(xí)差分更有優(yōu)勢, 因?yàn)橄噜徶芷趦?nèi), 狀態(tài)的變化較小, 學(xué)習(xí)差分近似于學(xué)習(xí)函數(shù)的梯度, 加快了學(xué)習(xí)的速度。
文中選擇PILCO算法設(shè)計(jì)強(qiáng)化學(xué)習(xí)控制器, 共設(shè)計(jì)了3組對比實(shí)驗(yàn), 分別是:
1) 當(dāng)給定的預(yù)測模型與真實(shí)系統(tǒng)模型一致, NMPC與PILCO控制器的定點(diǎn)控制與軌跡跟蹤仿真結(jié)果對比;
2) 在實(shí)驗(yàn)1的基礎(chǔ)上, 在環(huán)境中加入在和方向、大小均為0.3 m/s的水流, 驗(yàn)證在固定水流干擾下, 2種控制器的控制結(jié)果;
3) 考慮當(dāng)動(dòng)力學(xué)模型建立不準(zhǔn)確時(shí), 驗(yàn)證PILCO控制器具備學(xué)習(xí)控制的能力。
NMPC控制器設(shè)計(jì)采用MATLAB提供的非線性模型預(yù)測控制工具箱, 具體參數(shù)如表4所示, 其他參數(shù)均使用工具箱默認(rèn)設(shè)置。
表4 NMPC控制器參數(shù)
3.2.1 靜水環(huán)境
由圖7可知, 當(dāng)預(yù)測模型及給定模型與實(shí)際模型一致, NMPC與PILCO控制器均能較好地控制智能浮體到達(dá)目標(biāo)位置, 這表明了PILCO控制器在給定模型精確的情況下, 通過策略搜索獲得的初始策略能夠完成定點(diǎn)控制的目標(biāo), 且控制效果與NMPC控制器的結(jié)果接近。
圖7 給定模型與實(shí)際模型一致時(shí)仿真結(jié)果對比曲線
在無水流干擾時(shí), PILCO控制器在初始控制策略下具備一定的軌跡跟蹤能力。當(dāng)給定跟蹤目標(biāo)為正弦軌跡時(shí), NMPC控制器與PILCO控制器的仿真結(jié)果如圖8所示。
圖8 無水流干擾時(shí)跟蹤正弦軌跡曲線
由圖8可知, 在沒有水流干擾且給定目標(biāo)軌跡為正弦軌跡時(shí), NMPC控制器與PILCO控制器的控制誤差均較小, 控制效果接近, 均能夠完成軌跡跟蹤的目標(biāo)。通過在靜水環(huán)境中2組仿真實(shí)驗(yàn)可以得到: 當(dāng)給定模型與真實(shí)模型一致時(shí), PILCO控制器具備較好的控制性能, 可以完成定點(diǎn)控制和軌跡跟蹤的目標(biāo)。
3.2.2 水流擾動(dòng)環(huán)境
圖9 0.3 m/s水流擾動(dòng)下仿真結(jié)果對比曲線
由圖9分析可得, 當(dāng)浮體受到水流擾動(dòng)時(shí), 水流大小0.3 m/s, 根據(jù)流體阻尼公式計(jì)算可得, 水流對浮體產(chǎn)生的阻力最大達(dá)到4.32 N, 而推進(jìn)器在同一方向最大推力為10 N, 水流最大阻力占推進(jìn)器最大推力的43.2%。在給定模型中未考慮水流干擾模型, 通過仿真分析可得, NMPC控制器由于存在較大的環(huán)境擾動(dòng), 不能準(zhǔn)確到達(dá)目標(biāo)位置, 在,及航向角控制上均存在一定的穩(wěn)態(tài)誤差, 而PILCO控制器經(jīng)過對運(yùn)行數(shù)據(jù)的收集并學(xué)習(xí)后, 能夠克服環(huán)境擾動(dòng)到達(dá)目標(biāo)位置, 且穩(wěn)態(tài)誤差小于0.1 m, 運(yùn)動(dòng)路徑也接近起點(diǎn)至終點(diǎn)的直接路徑。
浮體跟蹤正方形軌跡比跟蹤正弦軌跡更有挑戰(zhàn), 分析圖10可得, 在有水流干擾情況下, 浮體共進(jìn)行了5次實(shí)驗(yàn)。第1次跟蹤目標(biāo)軌跡存在較大誤差, 通過對控制策略的優(yōu)化, 浮體的運(yùn)動(dòng)軌跡逐漸接近參考軌跡, 能夠完成跟蹤正方形軌跡的目標(biāo)。這表明PILCO控制器具備一定的學(xué)習(xí)控制能力, 能夠通過對控制策略的不斷優(yōu)化, 克服環(huán)境的擾動(dòng)并獲得更優(yōu)的運(yùn)動(dòng)軌跡。
圖10 跟蹤正方形軌跡學(xué)習(xí)結(jié)果
3.2.3 給定模型為近似模型
模型預(yù)測控制需要一個(gè)描述對象動(dòng)態(tài)行為的模型, 該模型的作用是預(yù)測系統(tǒng)未來的動(dòng)態(tài), 所以經(jīng)典NMPC控制器對給定模型有一定要求, 模型越精確控制效果越好。然而, 對智能浮體的精確建模存在一定的困難, 在該仿真實(shí)驗(yàn)中, 討論了當(dāng)動(dòng)力學(xué)模型簡化為線性模型時(shí), PILCO控制器的學(xué)習(xí)控制能力。
圖11 給定模型與實(shí)際模型不一致時(shí)仿真結(jié)果對比曲線
分析圖11可得, 如果內(nèi)部模型建立不準(zhǔn)確或者僅以一個(gè)線性模型做近似替代, NMPC控制器的控制將不能完成定點(diǎn)控制的任務(wù), 而PILCO控制器能夠完成定點(diǎn)控制的目標(biāo), 并獲得較好的控制效果, 表明了PILCO控制器不依賴被控對象的精確模型, 即便模型誤差較大, PILCO控制器也能夠在運(yùn)行過程中快速學(xué)習(xí)到控制策略。PILCO控制器學(xué)習(xí)過程代價(jià)函數(shù)的變化如圖12所示。
圖12 PILCO學(xué)習(xí)過程代價(jià)函數(shù)變化曲線
由圖12可得, 在給定模型與實(shí)際模型有較大差異的情況下, PILCO控制器能夠在運(yùn)行過程中不斷學(xué)習(xí), 代價(jià)函數(shù)值逐漸變小, 表明智能浮體的運(yùn)動(dòng)軌跡越接近目標(biāo)軌跡。經(jīng)過15次的訓(xùn)練后, PILCO控制器已經(jīng)達(dá)到一個(gè)較好的控制效果, 而NMPC控制器在預(yù)測模型存在較大誤差時(shí), 不能準(zhǔn)確到達(dá)目標(biāo)位置。
為提高智能浮體的靈活性, 使其具備一定學(xué)習(xí)控制的能力, 文中采用了一種基于PILCO算法的控制器設(shè)計(jì)方法, 研究了PILCO算法在控制過驅(qū)動(dòng)智能浮體的適用性, 并在MATLAB上進(jìn)行了仿真驗(yàn)證。采用的控制器把模型誤差納入考慮范圍, 建立了概率動(dòng)力學(xué)模型, 提高了浮體的自適應(yīng)性。針對水流擾動(dòng)、模型建立不準(zhǔn)確的情況, 提供一種解決浮體運(yùn)動(dòng)控制問題的新思路。對比PILCO控制器與NMPC控制器的控制結(jié)果可得: 在靜水和水流干擾情況下, PILCO控制器可以在少量的實(shí)驗(yàn)中使浮體學(xué)習(xí)到控制策略, 完成定點(diǎn)控制, 并且具備較好的軌跡跟蹤能力; 當(dāng)被控對象以簡單的線性系統(tǒng)代替非線性系統(tǒng)時(shí), 該控制器經(jīng)過一定次數(shù)的學(xué)習(xí), 能夠不斷優(yōu)化控制策略, 提高了控制器性能。下一步將對該控制器在真實(shí)浮體中進(jìn)行實(shí)物測試, 并進(jìn)行多浮體的協(xié)同控制研究。
[1] Park S, Kayacan E, Ratti C, et al.Coordinated Control of a Reconfigurable Multi-vessel Platform: Robust Control Approach[C]//2019 International Conference on Robotics and Automation(ICRA).Montreal, Canada: IEEE, 2019.
[2] Lu Y, Zhang G, Qiao L, et al.Adaptive Output-feedback Formation Control for Underactuated Surface Vessels[J].International Journal of Control, 2020, 93(3): 400-409.
[3] Woo J, Yu C, Kim N.Deep Reinforcement Learning-based Controller for Path Following of an Unmanned Surface Vehicle[J].Ocean Engineering, 2019, 183: 155-166.
[4] Paulos J, Eckenstein N, Tosun T, et al.Automated Self-assembly of Large Maritime Structures by a Team of Robotic Boats[J].IEEE Transactions on Automation Science and Engineering, 2015, 12(3): 958-968.
[5] Wang W, Mateos L A, Park S, et al.Design, Modeling, and Nonlinear Model Predictive Tracking Control of a Novel Autonomous Surface Vehicle[C]//2018 IEEE International Conference on Robotics and Automation(ICRA).Brisbane, Australia: IEEE, 2018: 6189-6196.
[6] Mnih V, Kavukcuoglu K, Silver D, et al.Playing Atari with Deep Reinforcement Learning[J].arXiv, (2013-12-19) [2021-09-01].https://arxiv.org/abs/1312.5602.
[7] Deisenroth M, Rasmussen C E.PILCO: A Model-based and Data-efficient Approach to Policy Search[C]// Proceedings of the 28th International Conference on Machine Learning(ICML-11).Bellevue, Washington, USA: ICML, 2011: 465-472.
[8] Ramirez W A, Leong Z Q, Nguyen H D, et al.Exploration of the Applicability of Probabilistic Inference for Learning Control in Underactuated Autonomous Underwater Vehicles[J].Autonomous Robots, 2020, 44(6): 1121-1134.
[9] 郭憲.深入淺出強(qiáng)化學(xué)習(xí): 原理入門[M].北京: 電子工業(yè)出版社, 2018.
[10] Fossen T I.Guidance and Control of Ocean Vehicles[M].New Jersey: John Wiley & Sons, 1994.
[11] 陳虹, 劉志遠(yuǎn), 解小華.非線性模型預(yù)測控制的現(xiàn)狀與問題[J].控制與決策, 2001, 16(4): 385-391.
Chen Hong, Liu Zhi-yuan, Xie Xiao-hua.Nonlinear Model Predictive Control: The State and Open Problems[J].Control and Decision, 2001, 16(4): 385-391.
[12] Lillicrap T P, Hunt J J, Pritzel A, et al.Continuous Control with Deep Reinforcement Learning[EB/OL].ArXiv, (2015 -09-01) [2021-09-01].https://www.researchgate.net/publ- ication/281670459_Continuous_control_with_deep_rein- forcement_learning.
Motion Control Method of Autonomous Surface Vehicle Based on the PILCO Algorithm
ZHANG Shang1, YANG Rui1,2, CHEN Zhen1,2, LI Ming1,2
(1.College of Engineering, Ocean University of China, Qingdao 266100, China; 2.Shandong Marine Intelligent Equipment Technology Engineering Research Center, Qingdao 266100, China)
A highly autonomous, flexible, and reconfigurable autonomous surface vehicle(ASV) must be developed to fulfill the needs for ocean exploration.In this study, an ASV composed of four thrusters is analyzed by establishing the dynamic model of the ASV, designing its controller based on the probabilistic inference learning to control(PILCO) algorithm, and conducting simulation experiments of fixed-point control and trajectory tracking.The simulation results show that the ASV model can autonomously learn the control strategy in a small number of experiments and realize motion control during a water flow disturbance or when using an approximate dynamic model, thereby verifying the effectiveness of the proposed algorithm.
autonomous surface vehicle(ASV); probabilistic inference learning to control(PILCO); fixed-point control; trajectory tracking
張尚, 楊睿, 陳震, 等.一種基于PILCO算法的智能浮體運(yùn)動(dòng)控制方法[J].水下無人系統(tǒng)學(xué)報(bào), 2021, 29(5): 541- 549.
U674.38; TP242.6;TP181
A
2096-3920(2021)05-0541-09
10.11993/j.issn.2096-3920.2021.05.005
2020-10-20;
2020-12-17.
國家自然科學(xué)基金項(xiàng)目資助(51709245); 國家重點(diǎn)研究發(fā)展計(jì)劃項(xiàng)目資助(2017YFC1405203).
張 尚(1996-), 男, 在讀碩士, 主要研究方向?yàn)楹I峡芍貥?gòu)智能浮體控制系統(tǒng)研究.
(責(zé)任編輯: 楊力軍)