陳建平,王建彬,楊宜民
(1.肇慶學(xué)院計(jì)算機(jī)學(xué)院,廣東 肇慶526061;2.廣東工業(yè)大學(xué)自動(dòng)化學(xué)院,廣東 廣州510090)
全向移動(dòng)機(jī)器人具有全方位移動(dòng)的功能,可以在不改變位姿的情況下向任意方向運(yùn)動(dòng),憑借獨(dú)特的運(yùn)動(dòng)優(yōu)勢(shì),在國(guó)內(nèi)外中型組機(jī)器人大賽中,得到了大力的推廣和發(fā)展,但其復(fù)雜的輪系分布給機(jī)器人的控制帶來(lái)了難度[1].機(jī)器人受到堵轉(zhuǎn)、摩擦、打滑及各種擾動(dòng)因素的影響,導(dǎo)致機(jī)器人的運(yùn)動(dòng)能力變差而偏離目標(biāo)點(diǎn),控制精度不高[2].因此,大多數(shù)研究是從如何改善各個(gè)輪的驅(qū)動(dòng)控制環(huán)的動(dòng)態(tài)性能出發(fā),通過(guò)各種先進(jìn)的控制與補(bǔ)償技術(shù)提高對(duì)每個(gè)輪驅(qū)動(dòng)電機(jī)的控制精度,然而這種方法沒(méi)有考慮機(jī)器人整體的速度跟蹤誤差[3-7].
文獻(xiàn)[8]依據(jù)交叉耦合思想設(shè)計(jì)了2輪差動(dòng)機(jī)器人的速度補(bǔ)償控制器,但是難以應(yīng)用到相對(duì)復(fù)雜的全向移動(dòng)機(jī)器人運(yùn)動(dòng)控制中.文獻(xiàn)[9]為提高機(jī)器人靈巧手基關(guān)節(jié)的軌跡跟蹤精度,提出了包含同步誤差和位置誤差反饋?lái)?xiàng)及平滑魯棒非線性反饋補(bǔ)償項(xiàng)的交叉耦合同步控制策略,由于該方法需要復(fù)雜的計(jì)算求解,導(dǎo)致很難滿足全向移動(dòng)機(jī)器人運(yùn)動(dòng)控制的實(shí)時(shí)性要求.文獻(xiàn)[10]基于模糊控制與PD控制理論設(shè)計(jì)了一種速度補(bǔ)償控制器,對(duì)機(jī)器人4個(gè)輪子的速度進(jìn)行補(bǔ)償,由于控制規(guī)則要靠經(jīng)驗(yàn)確定,參數(shù)變化缺乏自適應(yīng)和自學(xué)習(xí)能力,控制過(guò)程中存在死區(qū),導(dǎo)致機(jī)器人在速度較大時(shí)控制偏差變大而得不到及時(shí)調(diào)整,甚至出現(xiàn)失控現(xiàn)象.
針對(duì)上述方法的不足,本文提出了一種基于大腦情感學(xué)習(xí)的4輪驅(qū)動(dòng)機(jī)器人速度補(bǔ)償控制方法.利用大腦情感學(xué)習(xí)能力強(qiáng)、計(jì)算簡(jiǎn)單的特點(diǎn)[11-12],對(duì)機(jī)器人整體的速度誤差設(shè)計(jì)合理的誤差補(bǔ)償器,在不改變機(jī)器人內(nèi)部控制結(jié)構(gòu)的情況下,為機(jī)器人4個(gè)輪子提供附加的補(bǔ)償控制量,進(jìn)而提高機(jī)器人整體的運(yùn)動(dòng)控制精度.
建立4輪全方位移動(dòng)機(jī)器人的輪系分布系統(tǒng),如圖1所示[13].由于所用比賽足球機(jī)器人的射門機(jī)構(gòu)的增加,導(dǎo)致4個(gè)全向輪不是對(duì)稱分布,而是前2輪夾角為120°,后2輪夾角為90°.
圖1 機(jī)器人運(yùn)動(dòng)學(xué)模型Fig.1 Kinetic model of the robot
根據(jù)圖1所示,建立機(jī)器人運(yùn)動(dòng)坐標(biāo)系,XOY為世界坐標(biāo)系,xoy為以機(jī)器人中心為原點(diǎn)的局部坐標(biāo)系,得到機(jī)器人運(yùn)動(dòng)學(xué)方程為
式中:θ為機(jī)器人的運(yùn)動(dòng)方向;vθ為機(jī)器人的角速度,逆時(shí)針?lè)较驗(yàn)檎?v1、v2、v3、v4分別為4 個(gè)車輪的線速度;δ1和δ2為各輪與x軸的夾角;L為車體中心到輪子中心的距離.
車輪的線速度和角速度之間的關(guān)系如式(2):
式中:R 為輪子半徑;ω1、ω2、ω3、ω4為輪子角速度,逆時(shí)針?lè)较驗(yàn)檎?
根據(jù)機(jī)器人足球比賽的實(shí)際需要,設(shè)計(jì)4輪驅(qū)動(dòng)足球機(jī)器人的速度補(bǔ)償控制系統(tǒng),其結(jié)構(gòu)框圖如圖2所示.
圖2 機(jī)器人的速度補(bǔ)償控制系統(tǒng)結(jié)構(gòu)Fig.2 Structure of velocity compensation controller for the robot
由圖2可知,將實(shí)際測(cè)得的機(jī)器人整體的實(shí)際速度與其參考速度進(jìn)行比較,經(jīng)過(guò)速度補(bǔ)償控制器處理后得到4個(gè)輪子關(guān)于機(jī)器人整體速度誤差的額外補(bǔ)償量.從而在不改變各輪子內(nèi)環(huán)控制結(jié)構(gòu)的前提下,實(shí)現(xiàn)了對(duì)機(jī)器人整體速度的有效補(bǔ)償,提高了系統(tǒng)運(yùn)動(dòng)控制的精度.
Moren等于2000年提出了基于神經(jīng)生理學(xué)的大腦情感學(xué)習(xí)(brain emotional learning,BEL)計(jì)算模型[11],該模型在不完全模仿杏仁核、眶額皮質(zhì)等生理結(jié)構(gòu)的基礎(chǔ)上,將大腦情感學(xué)習(xí)模型劃分為兩大組成部分,即分別對(duì)應(yīng)杏仁核和眶額皮質(zhì).大腦情感學(xué)習(xí)模型的基本工作原理及結(jié)構(gòu)如圖3所示.
圖3 大腦情感學(xué)習(xí)模型的基本結(jié)構(gòu)Fig.3 Structure of brain emotional learning model
由圖3可知,感官輸入信號(hào)SI的最大值通過(guò)丘腦傳遞給杏仁體,則有Ath=max(SI).
1)對(duì)于每一個(gè)刺激信號(hào),杏仁體內(nèi)均有一個(gè)對(duì)應(yīng)節(jié)點(diǎn)Ai來(lái)接收,該刺激信號(hào)包括感官輸入信號(hào)SI、獎(jiǎng)勵(lì)信號(hào)REW以及丘腦信號(hào)Ath,則杏仁體的輸出為
式中:m為刺激信號(hào)的數(shù)目,Vi為各節(jié)點(diǎn)的權(quán)值,其調(diào)節(jié)律為:
式中:α為學(xué)習(xí)率,它影響杏仁體的學(xué)習(xí)速度;ΔVi的單調(diào)性與SIi的符號(hào)保持一致.
2)對(duì)于刺激信號(hào),眶額皮質(zhì)內(nèi)也有節(jié)點(diǎn)接收,它的刺激信號(hào)為感官皮質(zhì)信號(hào)(即感官輸入信號(hào))和來(lái)自杏仁體的信號(hào),而對(duì)丘腦的信號(hào)不產(chǎn)生刺激.它的輸出為
式中:Wi為各節(jié)點(diǎn)的權(quán)值,它的調(diào)節(jié)律為
式中:β為學(xué)習(xí)率,且β>0,E'為不含丘腦信號(hào)刺激下的杏仁體的輸出,可表示為
由式(3)~(8)可以看出,ΔWi可取正值也可取負(fù)值,即眶額皮質(zhì)能抑制或增強(qiáng)杏仁體的學(xué)習(xí)過(guò)程,通過(guò)消除獎(jiǎng)勵(lì)信號(hào)REW與杏仁體輸出E'之間的差值,使杏仁體向著期望值學(xué)習(xí).
BEL模型與實(shí)際系統(tǒng)相結(jié)合,必須事先確定感官輸入信號(hào)SI和獎(jiǎng)勵(lì)信號(hào)REW的函數(shù)形式,分別稱之為感官輸入函數(shù)和情感暗示函數(shù),它們?yōu)橄到y(tǒng)的輸入與輸出、控制量以及跟蹤誤差等因素的函數(shù).因?yàn)锳-O組織中的可調(diào)權(quán)值較多,其節(jié)點(diǎn)個(gè)數(shù)通常設(shè)置為多個(gè),因此,感官輸入函數(shù)通常為向量形式.
由于全向移動(dòng)機(jī)器人的角速度可以單獨(dú)進(jìn)行規(guī)劃,此處只討論機(jī)器人的線速度補(bǔ)償控制器.又由于機(jī)器人在局部坐標(biāo)系的x和y方向上有相似的運(yùn)動(dòng)特性,因此本文以x方向上的線速度為例設(shè)計(jì)補(bǔ)償控制器.基于大腦情感學(xué)習(xí)的速度補(bǔ)償控制器結(jié)構(gòu)如圖4所示.
圖4 基于大腦情感學(xué)習(xí)的速度補(bǔ)償控制器Fig.4 Velocity compensation controller based on brain emotional learning
設(shè)x方向機(jī)器人的線速度誤差為e,為了便于與文獻(xiàn)[10]中的方法進(jìn)行比較,選取感官輸入函數(shù)為PID控制器的形式,則有感官輸入函數(shù)為
以刺激學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)REW為目標(biāo)函數(shù)的情感暗示函數(shù)為
則有BEL模型的輸出為
式中:k1、k2、k3、k4、r1、r2、r3分別為權(quán)重調(diào)節(jié)系數(shù),r1、r2、r3為對(duì)象誤差減小的期望.k1~k4的調(diào)節(jié)律為:
式中:SIi表示SI中的各個(gè)向量元素.
通常,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)需要利用系統(tǒng)的導(dǎo)數(shù)信息,按照梯度下降的思想進(jìn)行權(quán)值的更新迭代,易受到初始取值的影響,計(jì)算效率低;而由權(quán)值調(diào)節(jié)式(4)、(5)和(7)可知,本文設(shè)計(jì)的控制器在運(yùn)行時(shí),不需要具體的導(dǎo)數(shù)信息就能夠?qū)崿F(xiàn)各個(gè)權(quán)值系數(shù)的迭代更新,對(duì)初始值的選取不敏感,計(jì)算效率高,這也是該方法與神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的本質(zhì)區(qū)別.同時(shí),該控制器直接以誤差的PID控制函數(shù)形式作為獎(jiǎng)勵(lì)信號(hào)函數(shù),從而保證了控制系統(tǒng)的穩(wěn)定性.
為驗(yàn)證本文所提方法的有效性,進(jìn)行了機(jī)器人路徑跟蹤仿真實(shí)驗(yàn),令機(jī)器人跟蹤x方向的直線路徑.實(shí)驗(yàn)過(guò)程中,分別采用無(wú)速度補(bǔ)償控制(NVCC)、模糊 PD 速度補(bǔ)償控制(FUPD)[10]以及本文方法(BELVC)進(jìn)行仿真.
以實(shí)驗(yàn)室的“太極隊(duì)”中型組足球機(jī)器人作為研究對(duì)象進(jìn)行仿真實(shí)驗(yàn)研究,機(jī)器人輪子直流電機(jī)的具體性能參數(shù)設(shè)置情況詳見(jiàn)文獻(xiàn)[13].BEL控制器的基本參數(shù)初始值設(shè)定為k1=10、k2=0.5、k3=0.01、r1=1 300、r2=25 000、r3=10.
當(dāng)學(xué)習(xí)率α、β取不同的數(shù)值情況時(shí)(分別為方案1:α =0.001,β =0.02;方案 2:α =0.001,β =0.035;方案 3:α =0.005,β =0.015;方案 4:α=0.000 5,β =0.001),系統(tǒng)的階躍響應(yīng)如圖 5 所示.
圖5 不同學(xué)習(xí)率情況下的系統(tǒng)響應(yīng)Fig.5 System response in different learning rate situations
由圖5可知,當(dāng)BEL控制器的基本參數(shù)不變時(shí),權(quán)值學(xué)習(xí)率α、β的選取對(duì)控制器響應(yīng)結(jié)果的影響非常明顯.當(dāng)α的值恒定時(shí),β的值越大,系統(tǒng)響應(yīng)越快,但是系統(tǒng)的振蕩幅度越大,系統(tǒng)達(dá)到穩(wěn)定狀態(tài)的時(shí)間越長(zhǎng);當(dāng)α、β的取值同時(shí)減小時(shí),系統(tǒng)的振蕩幅度也減小,當(dāng)α、β的取值繼續(xù)減小時(shí),則系統(tǒng)達(dá)到穩(wěn)定狀態(tài)需要更長(zhǎng)的時(shí)間.
實(shí)驗(yàn)中,選取第1組學(xué)習(xí)率參數(shù)方案進(jìn)行控制,即取 α =0.001、β=0.02.為了更好地研究BEL 控制器的優(yōu)越性,當(dāng)t=2 s時(shí),在給定的輸入信號(hào)中加入擾動(dòng),所得到的機(jī)器人1號(hào)輪子(由于本實(shí)驗(yàn)室所用4輪機(jī)器人的4個(gè)電機(jī)參數(shù)相同,因此在進(jìn)行仿真時(shí)僅給出了1號(hào)輪子的仿真曲線,其他3個(gè)輪子與之相似,故作省略)的速度跟蹤曲線以及機(jī)器人整體的軌跡跟蹤結(jié)果分別如圖6~8所示.
圖6 1號(hào)電機(jī)無(wú)擾動(dòng)時(shí)的速度跟蹤曲線Fig.6 Velocity tracking curve of the No.1 motor without interference
圖7 1號(hào)電機(jī)有擾動(dòng)時(shí)的速度跟蹤曲線Fig.7 Velocity tracking curve of the No.1 motor with interference
圖8 機(jī)器人整體的軌跡跟蹤曲線Fig.8 Trajectory tracking curve of the robot
表1所示為采用不同控制方法時(shí),機(jī)器人軌跡跟蹤的最大偏差與平均偏差的對(duì)比統(tǒng)計(jì)情況.
表1 機(jī)器人軌跡跟蹤偏差比較Table 1 Comparison of trajectory tracking error m
由圖6~8可以看出,在機(jī)器人未采用速度交叉耦合補(bǔ)償時(shí),由于場(chǎng)地材料不同、4個(gè)輪子裝配上存在誤差、輪子與場(chǎng)地之間摩擦力不一致、4個(gè)驅(qū)動(dòng)電機(jī)存在機(jī)械差異等原因,使得機(jī)器人在加速過(guò)程中4個(gè)輪子的加速程度不一致,同時(shí)也使得4個(gè)輪子的轉(zhuǎn)速與其期望值之間存在較大偏差,機(jī)器人很難跟蹤預(yù)先期望的運(yùn)行軌跡;當(dāng)采用模糊PD控制方法時(shí),由于模糊規(guī)則建立的主觀性,參數(shù)變化缺乏自適應(yīng)和自學(xué)習(xí)能力,控制過(guò)程中容易出現(xiàn)控制死區(qū)的現(xiàn)象,導(dǎo)致機(jī)器人在速度較大時(shí)控制偏差變大而得不到及時(shí)調(diào)整,機(jī)器人4個(gè)輪子的轉(zhuǎn)速出現(xiàn)較大幅度的波動(dòng),跟蹤軌跡的精度變差,并且當(dāng)機(jī)器人的速度越大時(shí),軌跡跟蹤的偏差也越大,甚至?xí)霈F(xiàn)失控的現(xiàn)象;當(dāng)采用本文所設(shè)計(jì)的方法BELVC進(jìn)行控制時(shí),4個(gè)輪子速度跟蹤的波動(dòng)明顯減小,從而使得機(jī)器人的運(yùn)行軌跡更加接近期望軌跡.
由圖7可知,當(dāng)系統(tǒng)出現(xiàn)外界擾動(dòng)的情況下,BEL控制器的反應(yīng)比模糊PD控制器的反應(yīng)更快,輸出響應(yīng)曲線更平滑,系統(tǒng)更穩(wěn)定,減小了外界擾動(dòng)對(duì)系統(tǒng)的影響,從而使控制系統(tǒng)呈現(xiàn)出良好的魯棒性.同時(shí),由表1可知,在進(jìn)行軌跡跟蹤時(shí),采用本文設(shè)計(jì)方法BELVC的情況下,機(jī)器人軌跡跟蹤的最大偏差和平均偏差均小于其他2種方法.由此,進(jìn)一步驗(yàn)證了本文設(shè)計(jì)方法BELVC確實(shí)提高了機(jī)器人軌跡跟蹤的精度.
由于全向移動(dòng)機(jī)器人復(fù)雜的機(jī)械結(jié)構(gòu),其4個(gè)輪子之間存在著耦合關(guān)系,即使單個(gè)電機(jī)的控制參數(shù)達(dá)到最優(yōu),整個(gè)機(jī)器人的控制效果也未必理想.同時(shí),由于4個(gè)驅(qū)動(dòng)電機(jī)的參數(shù)不一致、負(fù)載的擾動(dòng)、各個(gè)輪子安裝時(shí)的機(jī)械差異等種種因素的影響,不可避免地將會(huì)導(dǎo)致機(jī)器人在運(yùn)動(dòng)過(guò)程中,其實(shí)際位姿和期望位姿之間存在偏差.引入本文的基于大腦情感學(xué)習(xí)的4輪驅(qū)動(dòng)機(jī)器人速度補(bǔ)償控制器以后,將機(jī)器人整體的速度誤差轉(zhuǎn)換為4個(gè)輪子轉(zhuǎn)速的額外補(bǔ)償量,在不改變機(jī)器人內(nèi)環(huán)電機(jī)轉(zhuǎn)速控制結(jié)構(gòu)的情況下,通過(guò)大腦情感學(xué)習(xí)模型內(nèi)部各節(jié)點(diǎn)權(quán)值的在線學(xué)習(xí),及時(shí)地調(diào)整4個(gè)輪子的轉(zhuǎn)速,有效地減小了機(jī)器人整體的速度誤差,進(jìn)一步提高了其軌跡跟蹤的精度,從而改善了機(jī)器人的運(yùn)動(dòng)性能.然而,本文中BEL控制器各相關(guān)參數(shù)的選取主要是在仿真環(huán)境下采用試湊法獲得的,有關(guān)算法的收斂性以及學(xué)習(xí)率取值的定量分析等問(wèn)題將在今后工作中做進(jìn)一步研究.
[1]EFENDI M S,MOHAMED R,SAZALI Y.Designing omnidirectional mobile robot with mecanum wheel[J].American Journal of Applied Sciences,2006,3(5):1831-1835.
[2]BAHAA I K,ALI H H,MUSTAFA M M.Modified vector field histogram with a neural network learning model for mobile robot path planning and obstacle avoidance[J].International Jouranl of Advancements in Computing Technology,2010,2(5):166-173.
[3]ALI H H,F(xiàn)ATIMA B I.Path lanning of mobile robot based on modification of vector field histogram using neuro-fuzzy algorithm[J].International Journal of Advancements in Computing Technology,2010,2(3):129-138.
[4]MARYAM R,MOHAMMAD H K,MOHAMMAD A N,et al.Designing the fuzzy controller in mobile robot navigation with the presence of unknown obstacles[J].International Journal of Intelligent Information Processing,2012,3(1):45-62.
[5]ALBERTO V,CARL T,BENGT L,et al.Modeling and optimization of energy consumption in cooperative multi-robot systems[J].IEEE Transactions on Automation Science and Engineering,2012,9(2):423-428.
[6]ELEFTHERIA S S,GEORGE S S,ANASTASIOS D P.Optimal robot speed trajectory by minimization of the actuator motor electromechanical losses[J].Journal of Intelligent and Robotic Systems,2002,33:187-207.
[7]熊蓉,張翮,褚健,等.四輪全方位移動(dòng)機(jī)器人的建模和最優(yōu)控制[J].控制理論與應(yīng)用,2006,23(1):96-98.XIONG Rong,ZHANG He,CHU Jian,et al.Modeling and optimal control of omni-directional mobile robots[J].Control Theory and Applications,2006,23(1):96-98.
[8]曹洋,徐心和.一種基于交叉耦合的速度控制器[J].東北大學(xué)學(xué)報(bào),2003,24(5):420-423.CAO Yang,XU Xinhe.Cross-coupling speed controller[J].Journal of Northeastern University,2003,24(5):420-423.
[9]蘭天,劉伊威,陳養(yǎng)彬,等.機(jī)器人靈巧手基關(guān)節(jié)交叉耦合同步控制[J].機(jī)器人,2010,32(2):150-156.LAN Tian,LIU Yiwei,CHEN Yangbin,et al.Synchronized cross-coupled control for base joint of dexterous robot hand[J].Robot,2010,32(2):150-156.
[10]匡建輝,楊宜民.基于模糊PD控制的四輪驅(qū)動(dòng)全向移動(dòng)機(jī)器人速度補(bǔ)償控制器研究[J].計(jì)算技術(shù)與自動(dòng)化,2011,30(1):21-25.KUANG Jianhui,YANG Yimin.Velocity compensate controller of four-wheel drive omni-directional mobile robots based on fuzzy-PD control method[J].Computing Technology and Automation,2011,30(1):21-25.
[11]LUCAS C,SHAHMIRZADI D,SHEIKHOLESLAMI N.Introducing BELBIC:brain emotional learning based intelligent controller[J].International Journal of Intelligent Automation and Soft Computing,2004,10(1):11-22.
[12]MEHRABIAN A R,LUCAS C.Emotional learning based intelligent robust adaptive controller for stable uncertain nonlinear systems[J].International Journal of Computational Intelligence,2005,2(4):1304-4508.
[13]CHEN J P,WANG J B,YANG Y M.A motion control method of four-wheel drive omni-directional mobile robots based on multi points preview control[J].Journal of Theoretical and Applied Information Technology,2012,45(1):278-284.