張活俊, 江勵(lì), 湯健華, 黃輝
(五邑大學(xué),廣東 江門529000)
拋光打磨是工件處理最基礎(chǔ)的一道工序,但惡劣的工作環(huán)境嚴(yán)重影響工人的健康[1]。新型拋光機(jī)器人的研發(fā)將有效改善拋光行業(yè)的發(fā)展前景,同時(shí)推廣在五金衛(wèi)浴、汽車裝配等行業(yè)的應(yīng)用。目前中小型拋光企業(yè)中的拋光設(shè)備以帶末端拋光裝置的工業(yè)機(jī)械臂和一體式拋光機(jī)器人為主。
六自由度工業(yè)機(jī)械臂具有靈活的工作空間,能以任意姿態(tài)在工件切線方向進(jìn)行拋光,對(duì)于中小型企業(yè)來說,成本較高,面對(duì)復(fù)雜曲面工件,還需要工人具備編程基礎(chǔ)。一體式拋光機(jī)器人的設(shè)計(jì)理念來自于傳統(tǒng)的多軸數(shù)控磨床。浙江大學(xué)的謝英太[2]設(shè)計(jì)出一款3P3R型焊接機(jī)器人,其手臂部分由正交坐標(biāo)系結(jié)構(gòu)分布的三自由度移動(dòng)關(guān)節(jié)組成,而手腕部分由BRB型歐拉機(jī)械手組成。河南農(nóng)業(yè)大學(xué)的焦有宙等[3]研發(fā)了3P3R型機(jī)械臂,其手腕構(gòu)型為RBR型,結(jié)合Kane方法和旋量理論實(shí)現(xiàn)對(duì)機(jī)器人的軌跡控制。北京航空航天大學(xué)的張棟等[4]在3P3R型拋光機(jī)械臂結(jié)合D-H法實(shí)現(xiàn)運(yùn)動(dòng)軌跡的規(guī)劃。一體式機(jī)器人結(jié)合數(shù)控磨床的精準(zhǔn)定位特點(diǎn),各移動(dòng)關(guān)節(jié)通過導(dǎo)軌控制位移,承載能力高,即末端負(fù)載工件對(duì)于位置控制的影響較小,同時(shí)歐拉手腕的三自由度旋轉(zhuǎn)使機(jī)器人具有靈活的工作空間。
一體式拋光機(jī)器人目前的研究方向多集中于軌跡的控制,這并不適用于對(duì)接觸時(shí)正壓力要求較高的場合,因此引入力傳感器將反饋信息融入控制策略。傳統(tǒng)的控制策略有阻抗控制和力/位置混合控制等2種方式[5]。然而該控制策略需要準(zhǔn)確的動(dòng)力學(xué)模型,以及考慮外界干擾、非線性因素,因而導(dǎo)致計(jì)算量龐大。隨著人工智能的研究熱潮,運(yùn)用強(qiáng)化學(xué)習(xí)應(yīng)用于控制策略的參數(shù)求取,為控制策略提供新的研究方向。德國慕尼黑大學(xué)的Freek Stulp等[6]將七自由度仿真機(jī)器人在無確定性模型的前提下控制機(jī)器人的末端執(zhí)行器,從經(jīng)驗(yàn)中學(xué)習(xí)適當(dāng)?shù)淖杩挂詫?shí)現(xiàn)可變阻抗控制。哈爾濱工業(yè)大學(xué)的李超等[7]提出一種學(xué)習(xí)變阻抗控制方法,使機(jī)器人高效自主地學(xué)習(xí)執(zhí)行力控制任務(wù),在較少次仿真實(shí)驗(yàn)結(jié)果中,不斷迭代學(xué)習(xí),獲得變阻抗參數(shù)以提高數(shù)據(jù)的利用率。
本文研發(fā)的五自由度拋光機(jī)器人在氣缸恒壓作用下具有穩(wěn)定拋光正壓力的作用,其次提出結(jié)合深度Q網(wǎng)絡(luò)的主動(dòng)力控制策略,根據(jù)工件輪廓自動(dòng)調(diào)整氣缸輸出壓力,從理論上分析達(dá)到穩(wěn)定拋光正壓力的要求。
拋光機(jī)器人系統(tǒng)由主體機(jī)構(gòu)和控制系統(tǒng)組成。如圖1所示,主體機(jī)構(gòu)結(jié)合一體式拋光機(jī)器人的直角坐標(biāo)系結(jié)構(gòu)分布特點(diǎn),P1、P3和P4分別為沿著Z1方向的伸縮機(jī)構(gòu)、Z3方向的升降機(jī)構(gòu)和Z4方向的平移機(jī)構(gòu)。其中升降機(jī)構(gòu)和平移機(jī)構(gòu)采用伺服電動(dòng)機(jī)帶動(dòng)絲桿傳動(dòng)實(shí)現(xiàn)精確的位置控制,同時(shí)在兩側(cè)對(duì)稱分布的導(dǎo)軌滑塊約束下運(yùn)動(dòng),符合高剛度的結(jié)構(gòu)設(shè)計(jì)要求。R2、R5分別為繞著Z2軸旋轉(zhuǎn)的旋轉(zhuǎn)機(jī)構(gòu)、繞著Z5軸旋轉(zhuǎn)的夾持機(jī)構(gòu)。旋轉(zhuǎn)機(jī)構(gòu)和夾持機(jī)構(gòu)模擬手腕轉(zhuǎn)動(dòng)方式實(shí)現(xiàn)歐拉角轉(zhuǎn)動(dòng)。機(jī)器人夾持工件沿著X軸方向拋光過程中,砂輪始終對(duì)工件在Y方向上運(yùn)動(dòng)起到約束作用。因此該機(jī)器人的五自由度結(jié)構(gòu)適用于復(fù)雜曲面的回轉(zhuǎn)體工件。
圖1 拋光機(jī)器人樣機(jī)圖與機(jī)構(gòu)簡圖
拋光機(jī)器人的控制系統(tǒng)如圖2所示,主要分為基于PLC控制伺服電動(dòng)機(jī)1、2的精確定位及電氣比例閥控制兩側(cè)氣缸2、3的恒壓輸出,同時(shí)兩側(cè)壓力傳感器1、2實(shí)時(shí)監(jiān)控拋光正壓力變化。
圖2 拋光機(jī)器人系統(tǒng)控制框圖
拋光恒力控制模型的關(guān)鍵在于建立起工件輪廓曲率變化θd與拋光正壓力F的對(duì)應(yīng)關(guān)系,其恒力控制模型如圖3所示。
依據(jù)拋光工件的運(yùn)動(dòng)可以分為3部分。第1部分對(duì)應(yīng)公式(1),控制兩側(cè)氣缸的推力F1、F2,以平衡拋光正壓力F和摩擦力Ff產(chǎn)生角度為θd的合力。第2部分對(duì)應(yīng)公式(2),建立力矩平衡方程,設(shè)定拋光平臺(tái)始終垂直于工件表面切線方向前提下,求解獲得最大正壓力的角加速度α。第3部分對(duì)應(yīng)公式(3),拋光平臺(tái)的轉(zhuǎn)角θd由工件輪廓曲率θ及其角加速度α疊加后更新。根據(jù)以上3種耦合運(yùn)動(dòng),我們可以建立起力學(xué)平衡方程:
圖3 恒力控制模型圖
上述公式聯(lián)立后在Matlab軟件中迭代求解,將拋光正壓力F作為求解的目標(biāo)值,配合角加速度α可求出拋光過程中拋光正壓力的變化。為驗(yàn)證恒力控制模型的正確性,建立圖4(a)所示的拋光機(jī)器人動(dòng)力學(xué)仿真模型。如圖4(b)所示,ADAMS仿真模型由于剛接觸產(chǎn)生碰撞導(dǎo)致正壓力有明顯下降趨勢(shì),隨后兩者的迭代結(jié)果同步穩(wěn)定上升,力學(xué)模型迭代比仿真模型延遲1.7 s逐漸下降并最終穩(wěn)定在設(shè)定值200 N的±1.5 N范圍內(nèi)。如圖4(c)所示,拋光平臺(tái)轉(zhuǎn)角仿真模型結(jié)果與力學(xué)迭代結(jié)果趨勢(shì)基本一致,均呈現(xiàn)先上升后下降的現(xiàn)象,而且轉(zhuǎn)動(dòng)角度的峰值相差不足0.6 °。因此證明該恒力控制模型對(duì)于拋光機(jī)器人的可行性。
圖4 恒力控制模型數(shù)據(jù)圖
傳統(tǒng)主動(dòng)控制方式下獲得的實(shí)驗(yàn)結(jié)果表明,對(duì)于該拋光機(jī)器人的拋光正壓力具有一定的穩(wěn)定作用,然而對(duì)于復(fù)雜曲面拋光件而言,被動(dòng)恒力控制無法適應(yīng)工件輪廓曲率變化,導(dǎo)致拋光過程中產(chǎn)生不可避免的碰撞。因此提出基于拋光力學(xué)模型推導(dǎo)出的恒力控制策略,該策略的算法核心是深度Q網(wǎng)絡(luò)(Deep Q Network)。
基于貪婪策略選擇對(duì)應(yīng)的動(dòng)作,即兩側(cè)氣缸的輸出壓力動(dòng)作F1、F2,經(jīng)過式(1)轉(zhuǎn)換獲得下一個(gè)時(shí)刻的狀態(tài)輸出即拋光正壓力F:
求解中間變量角加速度α。依據(jù)兩側(cè)氣缸輸出壓力F1、F2的差值,拋光平臺(tái)貼合工件輪廓旋轉(zhuǎn)的曲率變化角加速度經(jīng)過式(2)轉(zhuǎn)換得
求解下一時(shí)刻的狀態(tài)輸出拋光平臺(tái)轉(zhuǎn)角θd,可經(jīng)過公式(3)求得。至此基于恒力控制模型中力學(xué)分析的拋光環(huán)境模型搭建完成,將拋光正壓力F和拋光平臺(tái)轉(zhuǎn)角θd作為動(dòng)作空間變量即拋光環(huán)境模型的輸入,同時(shí)以兩側(cè)氣缸的輸出壓力動(dòng)作F1、F2作為狀態(tài)空間變量即拋光環(huán)境模型的輸出。接下來分析輸入的狀態(tài)空間和動(dòng)作空間如表1、表2所示。狀態(tài)空間的約束目的在于結(jié)束無意義的學(xué)習(xí),并進(jìn)入下一次迭代動(dòng)作空間的選擇取決于當(dāng)前狀態(tài)st和貪婪策略π。
深度Q學(xué)習(xí)的理念是拋光模型環(huán)境與基于Q表已知經(jīng)驗(yàn)的交互作用中邊學(xué)習(xí)邊提升策略,最終經(jīng)過有限次實(shí)驗(yàn)獲得最優(yōu)策略的過程。其中考慮到狀態(tài)空間的拋光正壓力、平臺(tái)轉(zhuǎn)角均為連續(xù)變量,采用Q學(xué)習(xí)建立的Q表過于龐大,將嚴(yán)重占用內(nèi)存空間,因此通過神經(jīng)網(wǎng)絡(luò)建立起狀態(tài)空間與動(dòng)作空間之間的映射關(guān)系。等間距采集200個(gè)工件的輪廓點(diǎn)進(jìn)行迭代學(xué)習(xí),該過程作為一次經(jīng)驗(yàn)軌跡。經(jīng)過多次拋光實(shí)驗(yàn),為由已知經(jīng)驗(yàn)構(gòu)建的Q表提供學(xué)習(xí)數(shù)據(jù)。
為了控制智能體對(duì)于拋光環(huán)境模型數(shù)據(jù)的學(xué)習(xí)程度,選取學(xué)習(xí)率α為0.3、0.6、0.7和1.0,對(duì)比迭代學(xué)習(xí)穩(wěn)定時(shí)運(yùn)行步長的穩(wěn)定性選取合適的學(xué)習(xí)率。如圖5(a)所示,學(xué)習(xí)率α為0.3時(shí)迭代步長的穩(wěn)定性優(yōu)于取值0.6;結(jié)合圖5(b)可知,學(xué)習(xí)率α為0.3時(shí)迭代步長最穩(wěn)定,基本維持在192步左右。
學(xué)習(xí)率取值過高意味著對(duì)于未來獎(jiǎng)勵(lì)的重視程度越高,因此未來獎(jiǎng)勵(lì)對(duì)于主動(dòng)力控制策略的影響越大,這將導(dǎo)致策略收斂的速度較慢且難以收斂;相反,若學(xué)習(xí)率取值過低,則對(duì)于已有經(jīng)驗(yàn)較為重視,雖然收斂速度快,但容易忽略更優(yōu)的策略,只獲得局部最優(yōu)解。本文選取學(xué)習(xí)率α為0.3。
表1 狀態(tài)空間的設(shè)置
表2 動(dòng)作空間的設(shè)置
圖5 學(xué)習(xí)率對(duì)學(xué)習(xí)效果的影響圖
主動(dòng)力控制策略的主要參數(shù)學(xué)習(xí)率α確定后,假設(shè)每一次基于控制策略調(diào)整拋光正壓力為一個(gè)迭代訓(xùn)練過程,每個(gè)迭代訓(xùn)練開始于初始化拋光接觸力F、拋光平臺(tái)轉(zhuǎn)角θ,結(jié)束于拋光正走行程結(jié)束條件。此外,設(shè)定進(jìn)入終止?fàn)顟B(tài)的3個(gè)條件:1)拋光工件、砂輪間拋光接觸力與設(shè)定值的偏差范圍±5 N;2)拋光平臺(tái)的轉(zhuǎn)動(dòng)角度范圍是±60°;3)每次訓(xùn)練的最大運(yùn)行時(shí)間步不得超過200步。進(jìn)行策略規(guī)劃的過程中運(yùn)行步數(shù)對(duì)應(yīng)拋光行程中工件輪廓的取樣點(diǎn),因此若在規(guī)劃達(dá)到規(guī)定運(yùn)行步數(shù)前進(jìn)入終止?fàn)顟B(tài),則該次規(guī)劃失敗,并重新進(jìn)入隨機(jī)初始狀態(tài)下的規(guī)劃?;诳刂撇呗韵碌玫綊伖庹龎毫、拋光平臺(tái)轉(zhuǎn)角θ和代價(jià)函數(shù)Cost三要素來評(píng)估該控制策略的性能。
如圖6所示,拋光正壓力F始終穩(wěn)定于設(shè)定值200 N。隨著工件輪廓先上升至203 N,后下降至190 N,并維持在5 N范圍內(nèi)變動(dòng)。其次,拋光平臺(tái)的轉(zhuǎn)動(dòng)角度需順應(yīng)輪廓的變化而自由轉(zhuǎn)動(dòng),因此旋轉(zhuǎn)關(guān)節(jié)R2的轉(zhuǎn)角連續(xù)性可體現(xiàn)策略控制的調(diào)整是否合理。圖7所示的轉(zhuǎn)角曲線滿足主動(dòng)力控制策略對(duì)于連續(xù)控制的要求,而且轉(zhuǎn)動(dòng)角度的范圍是-10°~6°之間,遠(yuǎn)小于±60°的約束條件。
圖6 主動(dòng)力控制策略下拋光正壓力曲線
圖7 主動(dòng)力控制策略下拋光平臺(tái)轉(zhuǎn)角曲線
主動(dòng)力控制策略采用的DQN算法是基于Q學(xué)習(xí),引入神經(jīng)網(wǎng)絡(luò)對(duì)動(dòng)作價(jià)值函數(shù)q(s,a)進(jìn)行參數(shù)化,獲得其逼近函數(shù)q(s,a,θ)。設(shè)定每次訓(xùn)練的迭代時(shí)間步為200步,等同于工件輪廓的采樣點(diǎn)數(shù),共執(zhí)行200次,訓(xùn)練因此獲得圖8中橫軸代表的40 000個(gè)運(yùn)行時(shí)間步??v軸代表的代價(jià)函數(shù)表示訓(xùn)練過程中基于動(dòng)作價(jià)值函數(shù)已學(xué)習(xí)到的經(jīng)驗(yàn)與逼近函數(shù)之間的均方差,其值越小代表訓(xùn)練結(jié)果越好。
圖8 主動(dòng)力控制策略下?lián)p失函數(shù)圖
拋光主動(dòng)力控制策略的目標(biāo)是從拋光起始點(diǎn)位置按照最優(yōu)控制策略到達(dá)拋光終止位置,在拋光過程中,拋光機(jī)器人兩端氣缸可以采用不同貫序來決定輸出推力,通過調(diào)整拋光機(jī)器人的當(dāng)前狀態(tài)就能實(shí)現(xiàn)該功能。
1)本文致力研發(fā)高剛度、自動(dòng)化控制的拋光機(jī)器人,為適應(yīng)中小型企業(yè)批量化產(chǎn)品的拋光要求,結(jié)合工件輪廓前提下提出跟蹤正壓力變化實(shí)現(xiàn)自動(dòng)化控制的拋光策略。2)根據(jù)拋光機(jī)理建立恒力控制模型,通過動(dòng)力學(xué)仿真和理論計(jì)算結(jié)果的對(duì)比分析,證明該恒力控制模型用于拋光機(jī)器人的可行性。3)主動(dòng)力控制策略中引入深度Q學(xué)習(xí)算法,基于已知工件輪廓在拋光實(shí)驗(yàn)中迭代學(xué)習(xí),有效解決復(fù)雜的動(dòng)力學(xué)建模問題,理論上初步驗(yàn)證該控制策略的可行性。