◆李依霖
基于對(duì)機(jī)器人的狀態(tài)行為預(yù)測(cè)和行動(dòng)糾正的方法研究
◆李依霖
(吉林建筑科技學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院 吉林 130111 )
本研究為了實(shí)現(xiàn)對(duì)動(dòng)態(tài)機(jī)器人預(yù)測(cè)的必要性提出了對(duì)狀態(tài)行動(dòng)的預(yù)測(cè)。根據(jù)現(xiàn)已提出的在線(xiàn)支持向量回歸機(jī)實(shí)時(shí)性逐次預(yù)測(cè)的方法為基礎(chǔ),由于預(yù)測(cè)的定義中沒(méi)有提到狀態(tài)及行動(dòng)的概念,因此,本論文提出根據(jù)機(jī)器人的現(xiàn)狀態(tài)和行動(dòng)預(yù)測(cè)出新環(huán)境下的未來(lái)狀態(tài),然后通過(guò)現(xiàn)狀態(tài)和行動(dòng)預(yù)測(cè)值,實(shí)現(xiàn)狀態(tài)再定義的觀點(diǎn)。本文為了實(shí)現(xiàn)對(duì)狀態(tài)行動(dòng)預(yù)測(cè)的必要性,解釋說(shuō)明了關(guān)于在線(xiàn)的支持向量回歸機(jī)的改良方法,并說(shuō)明狀態(tài)反饋控制的方法對(duì)狀態(tài)行動(dòng)的預(yù)測(cè)。首先將預(yù)測(cè)每1單元時(shí)間下的狀態(tài)定義為逐一狀態(tài)預(yù)測(cè),在此基礎(chǔ)上進(jìn)行擴(kuò)展,在n單元時(shí)間下,預(yù)測(cè)狀態(tài)定義為長(zhǎng)期狀態(tài)預(yù)測(cè)。因此,預(yù)測(cè)值優(yōu)先度的行動(dòng)補(bǔ)正方法是預(yù)測(cè)機(jī)器人對(duì)狀態(tài)行動(dòng)中采用最適合行動(dòng)的補(bǔ)正方法。
在線(xiàn)的支持向量回歸機(jī);狀態(tài)行動(dòng)預(yù)測(cè);預(yù)測(cè)值的優(yōu)先度
在線(xiàn)支持向量回歸機(jī)的基本思想是避免批處理支持向量回歸機(jī)重復(fù)學(xué)習(xí)的缺點(diǎn),導(dǎo)入逐一學(xué)習(xí)的方法[1]。通過(guò)這種方法,不對(duì)最初的訓(xùn)練數(shù)據(jù)重復(fù)學(xué)習(xí),添加和刪除學(xué)習(xí)機(jī)中的要點(diǎn)。訓(xùn)練時(shí)逐次添加學(xué)習(xí)數(shù)據(jù),通過(guò)預(yù)測(cè)回歸系數(shù)將得到的學(xué)習(xí)數(shù)據(jù)范圍作為對(duì)象,當(dāng)學(xué)習(xí)結(jié)束時(shí)開(kāi)始進(jìn)行預(yù)測(cè)未來(lái)狀態(tài)。因?yàn)樵诰€(xiàn)支持向量回歸機(jī)能實(shí)現(xiàn)逐一學(xué)習(xí),但不能實(shí)現(xiàn)逐一預(yù)測(cè)[2]。針對(duì)這一問(wèn)題,我們考慮到利用在線(xiàn)支持向量回歸機(jī)進(jìn)行實(shí)時(shí)性的逐一預(yù)測(cè)的方法。通過(guò)已有的支持向量和新輸入的訓(xùn)練數(shù)據(jù),并利用逐次更新的參數(shù),構(gòu)成在下一時(shí)刻的輸入預(yù)測(cè)式,提出在線(xiàn)支持向量回歸機(jī)的逐次預(yù)測(cè)方法。
本研究是為預(yù)測(cè)長(zhǎng)期狀態(tài),在n樣本時(shí)間的狀態(tài)下進(jìn)行預(yù)測(cè)。本研究的目的是通過(guò)機(jī)器人現(xiàn)在的狀態(tài)和行動(dòng)預(yù)測(cè)到機(jī)器人下一個(gè)階段將要移動(dòng)的狀態(tài)。在每1單位時(shí)間內(nèi),根據(jù)現(xiàn)在的狀態(tài)采取的行動(dòng)進(jìn)行預(yù)測(cè),定義為逐次狀態(tài)預(yù)測(cè)。并在這種方法的基礎(chǔ)上擴(kuò)展預(yù)測(cè)狀態(tài)在第n樣本時(shí)間上進(jìn)行預(yù)測(cè)時(shí),應(yīng)該采用怎樣的方法來(lái)決定狀態(tài)和行動(dòng)的控制原則[3]。
通過(guò)離散時(shí)間的非線(xiàn)性狀態(tài)空間模型表示預(yù)測(cè)對(duì)象的模型的動(dòng)態(tài)的行動(dòng)。利用這個(gè)模型的組合行動(dòng)和狀態(tài)預(yù)測(cè)方法實(shí)現(xiàn)控制移動(dòng)到目標(biāo)狀態(tài),來(lái)預(yù)測(cè)出未來(lái)的狀態(tài)[3]。非線(xiàn)性狀態(tài)空間模型是通過(guò)機(jī)器人的現(xiàn)狀態(tài)和此時(shí)采取的行動(dòng),預(yù)測(cè)未來(lái)狀態(tài)的行為。在樣本時(shí)間上對(duì)每個(gè)在線(xiàn)的支持向量回歸機(jī)模塊給予時(shí)間的系數(shù)和行動(dòng),預(yù)測(cè)出每1樣本時(shí)間的狀態(tài),將其表示為得到的預(yù)測(cè)值。通過(guò)預(yù)測(cè)出的樣本狀態(tài)值,輸入公式產(chǎn)生為了決定行動(dòng)的狀態(tài)返回增值,并計(jì)算出預(yù)測(cè)出未來(lái)的行動(dòng)系數(shù)。如下式:
在任意樣本時(shí)間內(nèi),可以相互導(dǎo)出行動(dòng)和狀態(tài),并能預(yù)測(cè)出長(zhǎng)期的狀態(tài)[4-5]。根據(jù)定義逐次狀態(tài)預(yù)測(cè)的結(jié)構(gòu),實(shí)現(xiàn)狀態(tài)行動(dòng)對(duì)預(yù)測(cè)的擴(kuò)展。實(shí)現(xiàn)這個(gè)狀態(tài)下行動(dòng)對(duì)預(yù)測(cè)的擴(kuò)展,采用在線(xiàn)的支持向量回歸機(jī)作為預(yù)測(cè)器,預(yù)測(cè)狀態(tài)和行動(dòng)[6]。從現(xiàn)在的狀態(tài)和行動(dòng)預(yù)測(cè)出下一刻的狀態(tài)和行動(dòng),構(gòu)成預(yù)測(cè)系統(tǒng)。將在線(xiàn)支持向量回歸機(jī)的現(xiàn)狀態(tài)和行動(dòng),組合訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)對(duì)未來(lái)的內(nèi)部狀態(tài)進(jìn)行預(yù)測(cè)[7]。將在線(xiàn)支持向量回歸機(jī)作為線(xiàn)性二次調(diào)節(jié)器對(duì)下一時(shí)刻的狀態(tài)進(jìn)行預(yù)測(cè)時(shí),先定義狀態(tài)變量和,將非線(xiàn)性離散狀態(tài)空間模型作為預(yù)測(cè)對(duì)象的模型,用來(lái)描述通過(guò)現(xiàn)在的狀態(tài)和行動(dòng)預(yù)測(cè)出來(lái)的系數(shù)返回得到線(xiàn)性二次調(diào)節(jié)器的狀態(tài)返回增量。接下來(lái)實(shí)現(xiàn)對(duì)預(yù)測(cè)行動(dòng)進(jìn)行補(bǔ)正。利用狀態(tài)和行動(dòng)的組合實(shí)現(xiàn)機(jī)器人控制的方法,利用學(xué)習(xí)機(jī)通過(guò)機(jī)器人現(xiàn)在采取的行動(dòng)預(yù)測(cè)出未來(lái)將會(huì)產(chǎn)生的行動(dòng)反應(yīng),從而實(shí)現(xiàn)行動(dòng)補(bǔ)正的方法。如果未來(lái)將要采取的行動(dòng)是包含預(yù)測(cè)誤差的預(yù)測(cè)值,就將會(huì)生成重復(fù)行動(dòng)動(dòng)作,為了減少這類(lèi)影響,考慮到使用最合適的控制方法和狀態(tài)組合預(yù)測(cè),決定采用補(bǔ)正的行動(dòng)方法。
著重預(yù)測(cè)結(jié)果的變化,設(shè)計(jì)可以調(diào)整的動(dòng)態(tài)權(quán)重系數(shù)。
考慮利用這兩種方法,對(duì)過(guò)去的預(yù)測(cè)結(jié)果進(jìn)行檢討。與現(xiàn)在行動(dòng)的結(jié)果進(jìn)行比對(duì),設(shè)置存在下降程度時(shí)進(jìn)行行動(dòng)補(bǔ)正,導(dǎo)出預(yù)測(cè)值。
動(dòng)態(tài)環(huán)境下對(duì)機(jī)器人實(shí)施監(jiān)控控制,為了準(zhǔn)確預(yù)測(cè)未來(lái)的行動(dòng)和狀態(tài),要通過(guò)預(yù)測(cè)出的行動(dòng)結(jié)果進(jìn)行實(shí)時(shí)修改,令機(jī)器人實(shí)現(xiàn)“理想行動(dòng)”狀態(tài)[8]。本研究設(shè)定自動(dòng)式兩輪倒立擺的倒立姿勢(shì)維持控制,利用對(duì)狀態(tài)行動(dòng)的預(yù)測(cè),得到預(yù)測(cè)出的可能性擾動(dòng),在補(bǔ)正擾動(dòng)的基礎(chǔ)上產(chǎn)生必要的行動(dòng),通過(guò)狀態(tài)返回增量進(jìn)行最合適的控制。倒立擺的機(jī)體傾斜角度的變化越小,獲得的行動(dòng)越合適。通過(guò)狀態(tài)行動(dòng)對(duì)預(yù)測(cè)未來(lái)應(yīng)該采取的行動(dòng)組合,得到補(bǔ)正倒立擺的控制輸入值,使用這個(gè)預(yù)測(cè)值來(lái)補(bǔ)正行動(dòng),形成狀態(tài)行動(dòng)對(duì)預(yù)測(cè)“現(xiàn)時(shí)刻”到任意的+時(shí)刻的行動(dòng)預(yù)測(cè)結(jié)果的集合。利用預(yù)測(cè)結(jié)果與預(yù)測(cè)對(duì)象“現(xiàn)時(shí)刻”相對(duì)比較,產(chǎn)生預(yù)測(cè)誤差比例。設(shè)定補(bǔ)正時(shí)使用的參數(shù)值重要性,為了降低誤差影響,要著重確認(rèn)預(yù)測(cè)的開(kāi)始時(shí)間[9-10]。
通過(guò)逐一學(xué)習(xí)方法預(yù)測(cè)逐次狀態(tài)是組合進(jìn)一步學(xué)習(xí)的逐一狀態(tài)預(yù)測(cè)方法。但在逐次學(xué)習(xí)中數(shù)據(jù)的長(zhǎng)度固定的情況下,達(dá)不到預(yù)定數(shù)據(jù)組合學(xué)習(xí)就終止了,存在著預(yù)測(cè)不到數(shù)據(jù)的情況。數(shù)據(jù)組合的長(zhǎng)度設(shè)定為系數(shù)N,將N和前一時(shí)刻的N-1設(shè)為數(shù)據(jù)基點(diǎn)進(jìn)行學(xué)習(xí)和預(yù)測(cè)。也就是說(shuō),通過(guò)在線(xiàn)支持向量回歸機(jī)上更新學(xué)習(xí)第N-1次的學(xué)習(xí)數(shù)據(jù)時(shí)用的參數(shù),從每增加一個(gè)學(xué)習(xí)數(shù)據(jù)開(kāi)始預(yù)測(cè)下一步的組合學(xué)習(xí)。如圖1所示:
在第-1次的學(xué)習(xí)數(shù)據(jù)時(shí),重復(fù)的向量,偏差項(xiàng),作為學(xué)習(xí)數(shù)據(jù)的特征抽象化參數(shù)。本研究中著重學(xué)習(xí)第-1次的學(xué)習(xí)數(shù)據(jù)和第次的學(xué)習(xí)數(shù)據(jù),定義-1次參數(shù)的集合,權(quán)重向量為,偏差項(xiàng)為。利用這些系數(shù)在每1個(gè)單位時(shí)間下進(jìn)行狀態(tài)預(yù)測(cè),進(jìn)行組合批處理向量回歸機(jī)的進(jìn)一步學(xué)習(xí)。此時(shí),把第次得到的數(shù)據(jù)最小化,作為第次學(xué)習(xí)數(shù)據(jù)的行為狀態(tài)特征。將這個(gè)結(jié)果集合學(xué)習(xí)第-1次行動(dòng)狀態(tài),測(cè)得學(xué)習(xí)數(shù)據(jù)時(shí)的參數(shù)來(lái)實(shí)現(xiàn)增量學(xué)習(xí)。
本文討論了通過(guò)定義機(jī)器人的現(xiàn)狀態(tài)和行動(dòng)進(jìn)行為來(lái)狀態(tài)行動(dòng)的預(yù)測(cè)。首先,本文對(duì)提出的狀態(tài)和行動(dòng)的預(yù)測(cè)方法進(jìn)行說(shuō)明;然后,通過(guò)擴(kuò)展在線(xiàn)的支持向量回歸機(jī)的方法對(duì)狀態(tài)行動(dòng)進(jìn)行預(yù)測(cè);最后,定義狀態(tài)和行動(dòng)的預(yù)測(cè)式,利用現(xiàn)在的行動(dòng)擾動(dòng)系數(shù)修正未來(lái)狀態(tài)和行動(dòng)的方法。
[1]陳志賢. 面向復(fù)雜環(huán)境的服務(wù)機(jī)器人自主規(guī)劃方法研究[D].中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院),2019.
[2]錢(qián)慶文. 兩輪自平衡車(chē)擺機(jī)器人建模與控制方法的研究[D].哈爾濱理工大學(xué),2019.
[3]陳孟元. 移動(dòng)機(jī)器人仿生SLAM算法研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2019.
[4]黃利偉. 智能協(xié)同算法研究及應(yīng)用[D].電子科技大學(xué),2019.
[5]朱疆成. 空中機(jī)器人的層次化決策與控制系統(tǒng)研究[D].浙江大學(xué),2019.
[6]邱增帥. 面向室外環(huán)境的移動(dòng)機(jī)器人自主場(chǎng)景理解[D].大連理工大學(xué),2018.
[7]周振. 欠驅(qū)動(dòng)多機(jī)器人系統(tǒng)一致性及編隊(duì)控制研究[D].燕山大學(xué),2018.
[8]張啟彬. 基于不確定性分析的移動(dòng)機(jī)器人室內(nèi)定位與導(dǎo)航控制方法研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2018.
[9]黃辰. 基于智能優(yōu)化算法的移動(dòng)機(jī)器人路徑規(guī)劃與定位方法研究[D].大連交通大學(xué),2018.
[10]別東洋. 模塊化自重構(gòu)機(jī)器人分布式變形策略研究[D].哈爾濱工業(yè)大學(xué),2017.
2019年吉林建筑科技學(xué)院科研項(xiàng)目(??谱帧?019】016號(hào))