文章編號(hào):1671-3559(2024)02-0234-08DOI:10.13349/j.cnki.jdxbn.20231129.001
摘要: 針對(duì)在生產(chǎn)節(jié)拍固定的情況下搬運(yùn)機(jī)器人各關(guān)節(jié)的運(yùn)動(dòng)軌跡及時(shí)間分配問(wèn)題, 構(gòu)建基于深度強(qiáng)化學(xué)習(xí)與變形五次多項(xiàng)式相結(jié)合的搬運(yùn)機(jī)器人關(guān)節(jié)軌跡時(shí)間分配模型; 設(shè)計(jì)以節(jié)拍要求、 速度約束和加速度約束為目標(biāo)的獎(jiǎng)勵(lì)函數(shù), 搭建神經(jīng)網(wǎng)絡(luò), 利用MATLAB/Simulink軟件, 得到滿足生產(chǎn)節(jié)拍和運(yùn)動(dòng)學(xué)約束的時(shí)間序列, 并利用單臂四自由度搬運(yùn)機(jī)器人仿真實(shí)驗(yàn), 驗(yàn)證所構(gòu)建模型的可行性和有效性。 結(jié)果表明: 單臂四自由度搬運(yùn)機(jī)器人各關(guān)節(jié)的運(yùn)行時(shí)間均為5.89 s,其中平移關(guān)節(jié)1、3的最大速度分別為2 597.84、1 697.97 mm/s,最大加速度分別為19 532.11、31 302.61 mm/s2; 旋轉(zhuǎn)關(guān)節(jié)2、 4的速度大小相等且方向相反, 最大角速度均為137.53 (°)/s, 最大角加速度均為1 180.51 (°)/s2, 均未超過(guò)運(yùn)動(dòng)學(xué)約束; 所構(gòu)建的模型可以解決在指定生產(chǎn)節(jié)拍下搬運(yùn)機(jī)器人關(guān)節(jié)軌跡時(shí)間分配問(wèn)題, 實(shí)現(xiàn)搬運(yùn)機(jī)器人搬運(yùn)過(guò)程中各關(guān)節(jié)的運(yùn)動(dòng)均衡, 改善搬運(yùn)機(jī)器人運(yùn)行的穩(wěn)定性和有效性。
關(guān)鍵詞: 機(jī)器人技術(shù); 關(guān)節(jié)軌跡規(guī)劃; 深度強(qiáng)化學(xué)習(xí); 搬運(yùn)機(jī)器人; 生產(chǎn)節(jié)拍
中圖分類號(hào): TP241; TP38
文獻(xiàn)標(biāo)志碼: A
開放科學(xué)識(shí)別碼(OSID碼):
Joint Trajectory Planning of Transfer Robots Combining
Deep Reinforcement Learning and Deformed Quintic Polynomials
LI Yingjie, CHEN Naijian, YIN Xunrui, ZHENG Jiakun, ZHANG Shanlin, LI Yingjun
(School of Mechanical Engineering, University of Jinan, Jinan 250022, Shandong, China)
Abstract: Aiming at motion trajectories and time allocation of all joints of transfer robots under the condition of fixed production cycle time, a joint trajectory time allocation model of transfer robots based on deep reinforcement learning combining with deformed quintic polynomials was constructed. A reward function with the target of cycle time requirements, speed constraints, and acceleration constraints was designed, a neural network was built, and MATLAB/Simulink software was used to obtain time series meeting with the production cycle time and kinematic constraints. A single-arm four-degree-of-freedom transfer robot simulation experiment was used to verify feasibility and effectiveness of the constructed model. The results show that the running time of each joint of the single-arm four-degree-of-freedom transfer robot is 5.89 s, in which the maximum velocity of translation joint 1 and translation joint 3 are respectively 2597.84mm/sand1 697.97mm/s, and the maximum acceleration are respectively 19 532.11 mm/s2 and 31 302.61 mm/s2 respectively. The velocities of rotary joint 2 and rotary joint 4 are equal in magnitude and opposite in direction. Both of the maximum angular velocities are 137.53 (°)/s, and both of the maximum angular accelerations are 1 180.51(°)/s2. All of the above do not exceed kinematic constraints. The constructed model can solve the time allocation problem of transfer robot joint trajectory under
收稿日期: 2023-02-21""""""""" 網(wǎng)絡(luò)首發(fā)時(shí)間:2024-01-02T11:57:52
基金項(xiàng)目: 國(guó)家自然科學(xué)基金項(xiàng)目(51875250);山東省自然科學(xué)基金項(xiàng)目(ZR2022ME177);濟(jì)南市“新高校20條”扶持項(xiàng)目(202228116);
德州市現(xiàn)代產(chǎn)業(yè)領(lǐng)軍人才工程項(xiàng)目
第一作者簡(jiǎn)介: 李英杰(1997—),男,山東臨沂人。碩士研究生,研究方向?yàn)闄C(jī)器人技術(shù)及應(yīng)用。E-mail: 2512535455@qq.com。
通信作者簡(jiǎn)介: 陳乃建(1973—),男,山東臨沂人。教授,博士,碩士生導(dǎo)師,研究方向?yàn)闄C(jī)器人技術(shù)及應(yīng)用。E-mail: me_chennj@ujn.edu.cn。
網(wǎng)絡(luò)首發(fā)地址: https://link.cnki.net/urlid/37.1378.N.20231229.1530.002
specified production cycle time, achieve motion balance of all joints during transfer process of transfer robots, and improve stability and effectiveness of transfer robot operation.
Keywords: robot technology; joint track planning; deep reinforcement learning; transfer robot; production cycle time
隨著汽車工業(yè)的迅速發(fā)展,高速自動(dòng)化沖壓線的研究對(duì)促進(jìn)我國(guó)汽車工業(yè)的發(fā)展具有重大的意義。搬運(yùn)機(jī)器人作為一種工業(yè)機(jī)器人,是沖壓生產(chǎn)線上的關(guān)鍵設(shè)備,搬運(yùn)機(jī)器人的自動(dòng)化程度決定了沖壓線的生產(chǎn)效率。當(dāng)前搬運(yùn)機(jī)器人的關(guān)節(jié)軌跡規(guī)劃己成為研究熱點(diǎn)[1]。
對(duì)于搬運(yùn)機(jī)器人的關(guān)節(jié)軌跡規(guī)劃問(wèn)題, 目前一般先采用多項(xiàng)式插值算法對(duì)搬運(yùn)機(jī)器人的運(yùn)動(dòng)路徑進(jìn)行擬合, 再通過(guò)合適的智能算法對(duì)運(yùn)動(dòng)路徑進(jìn)行優(yōu)化。 郭鑫鑫等[2]針對(duì)六軸機(jī)器人關(guān)節(jié)空間的軌跡規(guī)劃問(wèn)題, 提出一種改進(jìn)螢火蟲算法, 改進(jìn)后的算法收斂速度和精度有明顯的提升。 王玉寶等[3]針對(duì)工業(yè)機(jī)器人在關(guān)節(jié)空間下的時(shí)間最優(yōu)軌跡規(guī)劃問(wèn)題, 提出一種改進(jìn)免疫克隆算法, 優(yōu)化了基本粒子群算法局部收斂的不足, 最后得到單位工作周期運(yùn)行時(shí)間最短的軌跡。 Yin等[4]針對(duì)工業(yè)機(jī)器人的能量最優(yōu)軌跡規(guī)劃問(wèn)題, 提出了一種基于機(jī)器學(xué)習(xí)的軌跡規(guī)劃方法, 使得機(jī)器人運(yùn)動(dòng)的能量最優(yōu)。 Wang等[5]采用一種改進(jìn)的人工勢(shì)場(chǎng)法對(duì)機(jī)器人進(jìn)行關(guān)節(jié)軌跡規(guī)劃, 使得機(jī)器人運(yùn)動(dòng)的沖擊最優(yōu)。 雖然上述關(guān)于工業(yè)機(jī)器人關(guān)節(jié)軌跡規(guī)劃算法發(fā)展較成熟, 但是大多算法針對(duì)的是最優(yōu)時(shí)間、 最優(yōu)能量、 最優(yōu)沖擊或者最優(yōu)時(shí)間-沖擊等問(wèn)題[6-9]。 在汽車覆蓋件的沖壓生產(chǎn)線中, 需要多臺(tái)工業(yè)機(jī)器人協(xié)同運(yùn)作[10], 按照最優(yōu)時(shí)間、 最優(yōu)能量等原則, 可能使搬運(yùn)機(jī)器人處于較長(zhǎng)的等待時(shí)間, 并且相關(guān)研究[11]表明, 生產(chǎn)線中較長(zhǎng)的等待時(shí)間會(huì)產(chǎn)生不必要的能耗, 因此應(yīng)根據(jù)生產(chǎn)節(jié)拍對(duì)搬運(yùn)機(jī)器人進(jìn)行關(guān)節(jié)軌跡規(guī)劃, 實(shí)現(xiàn)在生產(chǎn)節(jié)拍和運(yùn)動(dòng)學(xué)約束下的各關(guān)節(jié)運(yùn)行均衡,這對(duì)高速?zèng)_壓生產(chǎn)線具有重要意義。
隨著強(qiáng)化學(xué)習(xí)算法越來(lái)越廣泛地應(yīng)用于機(jī)器人, 搬運(yùn)機(jī)器人的關(guān)節(jié)軌跡規(guī)劃算法得到進(jìn)一步拓展。 為了對(duì)搬運(yùn)機(jī)器人關(guān)節(jié)軌跡進(jìn)行更簡(jiǎn)潔、 高效的規(guī)劃, 本文中構(gòu)建基于深度強(qiáng)化學(xué)習(xí)與變形五次多項(xiàng)式相結(jié)合的搬運(yùn)機(jī)器人關(guān)節(jié)軌跡時(shí)間分配模型(簡(jiǎn)稱本文模型), 對(duì)搬運(yùn)機(jī)器人的運(yùn)動(dòng)路徑在關(guān)節(jié)空間中進(jìn)行軌跡規(guī)劃, 并利用單臂四自由度搬運(yùn)機(jī)器人仿真實(shí)驗(yàn), 驗(yàn)證本文模型的可行性和有效性。
1" 搬運(yùn)機(jī)器人末端執(zhí)行器運(yùn)動(dòng)路徑
汽車覆蓋件的沖壓生產(chǎn)線是工業(yè)機(jī)器人的典型應(yīng)用,主要包括多臺(tái)沖壓機(jī),上、 下料機(jī)器人,以及多臺(tái)沖壓機(jī)間的物料搬運(yùn)機(jī)器人等,生產(chǎn)過(guò)程中要求各部分緊密配合。汽車覆蓋件的沖壓流水線如圖1所示。
搬運(yùn)機(jī)器人在沖壓機(jī)間的動(dòng)作包括在上位沖壓機(jī)內(nèi)的進(jìn)模、 吸料、 出模等取料動(dòng)作和下位沖壓機(jī)內(nèi)的進(jìn)模、 放料、 出模等放料動(dòng)作。搬運(yùn)機(jī)器人末端執(zhí)行器的運(yùn)動(dòng)軌跡如圖2所示。搬運(yùn)機(jī)器人末端執(zhí)行器運(yùn)動(dòng)路徑點(diǎn)為P1、 P2、 …、 P6,工作流程包括:工作開始,從初始位置P2下降至抓取位置P1;氣泵打開,抓取汽車覆蓋件;沿路徑P1—P2—P3—P4—P5—P6運(yùn)動(dòng);在指定放料位置P6將工件放下后原路返回初始位置P2,等待下一個(gè)工作周期的開始。結(jié)合搬運(yùn)機(jī)器人運(yùn)動(dòng)特性,將機(jī)器人的工作空間分為快速翻轉(zhuǎn)區(qū)、 工進(jìn)區(qū)、 抓取區(qū)、 放料區(qū),分別分配各關(guān)節(jié)的運(yùn)動(dòng)。
2" 搬運(yùn)機(jī)器人關(guān)節(jié)軌跡規(guī)劃
2.1" 2個(gè)關(guān)節(jié)位置點(diǎn)間的軌跡規(guī)劃
在笛卡兒坐標(biāo)系中設(shè)計(jì)搬運(yùn)機(jī)器人末端執(zhí)行器的運(yùn)動(dòng)路徑后,通過(guò)運(yùn)動(dòng)逆解可以得到各關(guān)節(jié)對(duì)應(yīng)的關(guān)節(jié)位置點(diǎn),每個(gè)關(guān)節(jié)位置點(diǎn)之間選用合適的多項(xiàng)式進(jìn)行擬合。
由機(jī)器人動(dòng)力學(xué)[12]可知,搬運(yùn)機(jī)器人的力矩與加速度的大小有直接關(guān)系,過(guò)大的加速度會(huì)導(dǎo)致關(guān)節(jié)力或力矩突然變化,從而引起搬運(yùn)機(jī)器人較大的振動(dòng)。各關(guān)節(jié)的加速度變化幅度越小,放置時(shí)越能夠抑制振動(dòng),減少汽車覆蓋件與沖壓模具之間的摩擦磨損,因此各關(guān)節(jié)位置點(diǎn)之間的軌跡規(guī)劃選用五次多項(xiàng)式,實(shí)現(xiàn)加速度連續(xù)變化。五次多項(xiàng)式的位移、速度和加速度曲線如圖3(a)所示。 由圖可知, 五次多項(xiàng)式的速度曲線只有加速、 減速階段,不存在勻速階段。為了進(jìn)一步減緩運(yùn)行中速度變化, 采用變形五次多項(xiàng)式進(jìn)行搬運(yùn)機(jī)器人軌跡規(guī)劃。 將五次多項(xiàng)式的速度曲線分為3段: 1)加速段,運(yùn)行時(shí)間為ta; 2)減速段, 運(yùn)行時(shí)間為tc; 3)中間段, 搬運(yùn)機(jī)器人沿最大速度勻速運(yùn)行, 運(yùn)行時(shí)間為tb。 變形五次多項(xiàng)式的位移、速度和加速度曲線如圖3(b)所示。從圖中可以看出,變形五次多項(xiàng)式的速度曲線存在勻速階段,在勻速過(guò)程中加速度為0,有效地減少了運(yùn)行沖擊,能夠保證速度和加速度的平滑,因此相鄰關(guān)節(jié)位置點(diǎn)之間采用變形五次多項(xiàng)式進(jìn)行連接。
2.2" 關(guān)節(jié)軌跡規(guī)劃中的時(shí)間參數(shù)
搬運(yùn)機(jī)器人通過(guò)運(yùn)動(dòng)學(xué)逆解可以求得各關(guān)節(jié)在每個(gè)運(yùn)動(dòng)路徑點(diǎn)對(duì)應(yīng)的關(guān)節(jié)位置,對(duì)于機(jī)器人關(guān)節(jié)j(1≤j≤L,L為機(jī)器人關(guān)節(jié)總個(gè)數(shù)),設(shè)p1、 p2、 …、 p6為運(yùn)動(dòng)路徑點(diǎn)P1、 P2、 …、 P6所對(duì)應(yīng)的關(guān)節(jié)位置點(diǎn), 搬運(yùn)機(jī)器人的作業(yè)時(shí)間軸如圖4所示。 關(guān)節(jié)j從關(guān)節(jié)位置點(diǎn)p1移動(dòng)到關(guān)節(jié)位置點(diǎn)p2所需時(shí)間為t1,2。 由于p1、 p2之間采用變形五次多項(xiàng)式連接, 因此t1,2包含加速時(shí)間t1a、 勻速時(shí)間t1b和減速時(shí)間t1c, 其中加速、 減速時(shí)間相等, 即2個(gè)關(guān)節(jié)位置點(diǎn)之間的運(yùn)行時(shí)間t1,2包含2個(gè)時(shí)間參數(shù)t1a 、 t1b。通過(guò)對(duì)t1a、 t1b分配不同的值,即可得到不同的軌跡曲線。
2.3" 變形五次多項(xiàng)式與深度強(qiáng)化學(xué)習(xí)結(jié)合
在生產(chǎn)節(jié)拍確定的情況下,為了得到各關(guān)節(jié)在不同關(guān)節(jié)位置點(diǎn)之間的運(yùn)行時(shí)間,利用深度強(qiáng)化學(xué)習(xí)算法,通過(guò)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)、 搭建神經(jīng)網(wǎng)絡(luò),確保時(shí)間參數(shù)滿足節(jié)拍要求和運(yùn)動(dòng)學(xué)約束。變形五次多項(xiàng)式與深度強(qiáng)化學(xué)習(xí)結(jié)合整體流程如圖5所示,步驟如下: 1)在笛卡兒坐標(biāo)中規(guī)劃末端執(zhí)行器的運(yùn)動(dòng)路徑點(diǎn); 2)通過(guò)逆運(yùn)動(dòng)學(xué),求解系列運(yùn)動(dòng)路徑點(diǎn)對(duì)應(yīng)的關(guān)節(jié)位置點(diǎn); 3)利用變形五次多項(xiàng)式擬合連接各關(guān)節(jié)位置點(diǎn); 4)利用合適的深度強(qiáng)化學(xué)習(xí)算法對(duì)變形五次多項(xiàng)式中的加速、 勻速時(shí)間參數(shù)進(jìn)行分配;
5)將得到的時(shí)間參數(shù)應(yīng)用于變形五次多項(xiàng)式,得到各關(guān)節(jié)的軌跡曲線、 速度曲線和加速度曲線。
3" 深度強(qiáng)化學(xué)習(xí)算法
深度學(xué)習(xí)(deep learning,DL)利用神經(jīng)網(wǎng)絡(luò)處理和分析數(shù)據(jù),在圖像處理、 語(yǔ)音識(shí)別等領(lǐng)域具有廣泛應(yīng)用。強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)則使智能體與環(huán)境相互作用,在試錯(cuò)中學(xué)習(xí)并制定最優(yōu)策略。深度強(qiáng)化學(xué)習(xí)結(jié)合這2種方法,既具有深度學(xué)習(xí)的感知能力,又具有強(qiáng)化學(xué)習(xí)的決策能力,并且在非線性處理方面表現(xiàn)出色,可處理各種未知環(huán)
境中的決策問(wèn)題,在自然科學(xué)、 社會(huì)科學(xué)等領(lǐng)域中具有廣泛應(yīng)用。
深度強(qiáng)化學(xué)習(xí)算法已有多種算法,例如深度Q網(wǎng)絡(luò)(deep Q network, DQN)算法、 深度確定性策略梯度[13](deep deterministic policy gradient,DDPG)算法、雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient, TD3)算法等。其中DQN算法的行動(dòng)空間是離散的,通常需要對(duì)整個(gè)空間進(jìn)行網(wǎng)格劃分或者二值化處理。雖然該方法可以有效地處理小型離散動(dòng)作空間問(wèn)題,但是對(duì)于較大的動(dòng)作空間,需要?jiǎng)澐值木W(wǎng)格過(guò)多,容易導(dǎo)致訓(xùn)練過(guò)程不穩(wěn)定、 難以收斂等問(wèn)題。DDPG算法的行動(dòng)空間是連續(xù)的,可以輸入實(shí)數(shù)數(shù)據(jù),并且以神經(jīng)網(wǎng)絡(luò)作為近似函數(shù),可以更好地處理高維連續(xù)動(dòng)作空間問(wèn)題。為了平衡探索和利用,DDPG算法使用一定的噪聲機(jī)制,因此具有一定的穩(wěn)健性和可靠性。DQN算法適用于處理小型、 離散動(dòng)作空間問(wèn)題,而DDPG算法通常用于解決較大的、 連續(xù)動(dòng)作空間問(wèn)題。由于本文中針對(duì)單臂四自由度搬運(yùn)機(jī)器人進(jìn)行仿真,需要在連續(xù)、 高維動(dòng)作空間中進(jìn)行操作,因此使用DDPG算法進(jìn)行訓(xùn)練。
3.1" DDPG算法原理
DDPG算法基于Actor-Critic框架,主要針對(duì)連續(xù)動(dòng)作設(shè)計(jì)2個(gè)模型。參照DQN算法的思想,每個(gè)模型都由現(xiàn)實(shí)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)組成。Actor網(wǎng)絡(luò)由Actor現(xiàn)實(shí)策略網(wǎng)絡(luò)和Actor目標(biāo)策略網(wǎng)絡(luò)組成;Critic網(wǎng)絡(luò)是近似值函數(shù)的神經(jīng)網(wǎng)絡(luò),分為Critic現(xiàn)實(shí)網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)。Actor網(wǎng)絡(luò)負(fù)責(zé)根據(jù)輸入的狀態(tài)生成確定的動(dòng)作;Critic網(wǎng)絡(luò)負(fù)責(zé)對(duì)Actor網(wǎng)絡(luò)生成的動(dòng)作進(jìn)行評(píng)估。Actor網(wǎng)絡(luò)與Critic網(wǎng)絡(luò)相互配合,通過(guò)反復(fù)迭代進(jìn)行學(xué)習(xí),每次迭代需要根據(jù)神經(jīng)網(wǎng)絡(luò)近似值函數(shù)更新策略。
3.2" 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)
本文中以沖壓生產(chǎn)線用單臂四自由度搬運(yùn)機(jī)器人為研究對(duì)象進(jìn)行獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),目的如下: 一方面,引導(dǎo)時(shí)間參數(shù)趨近生產(chǎn)節(jié)拍要求;另一方面,使得運(yùn)動(dòng)過(guò)程平穩(wěn),避免出現(xiàn)速度和加速度超過(guò)電機(jī)的極限的情況。
為了保持末端執(zhí)行器始終垂直向下,機(jī)器人2個(gè)旋轉(zhuǎn)關(guān)節(jié)的運(yùn)行速度大小相等且方向相反。為了簡(jiǎn)化計(jì)算流程,僅考慮2個(gè)移動(dòng)關(guān)節(jié)和1個(gè)旋轉(zhuǎn)關(guān)節(jié)的工作情況,步驟如下:
1)根據(jù)生產(chǎn)節(jié)拍的要求設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。如果當(dāng)前工作周期的運(yùn)行時(shí)間t超過(guò)節(jié)拍要求tmax,則只給予智能體懲罰值; 如果運(yùn)行時(shí)間t小于節(jié)拍要求tmax,則智能體得到時(shí)刻獎(jiǎng)勵(lì)值rt,即
rt=-t2, tgt;tmax ,
αt2, t≤tmax,(1)
式中: tmax為生產(chǎn)節(jié)拍要求的單位工作周期運(yùn)行時(shí)間; α為rt的權(quán)重參數(shù)。
2)根據(jù)關(guān)節(jié)的速度要求設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。如果當(dāng)前工作周期內(nèi)某關(guān)節(jié)的速度過(guò)大,超過(guò)最大允許運(yùn)行速度,會(huì)引起電機(jī)的超速停機(jī)機(jī)制,影響沖壓生產(chǎn)線的正常運(yùn)行。為了反映機(jī)器人在運(yùn)行過(guò)程中能夠順利工作,設(shè)計(jì)速度獎(jiǎng)勵(lì)函數(shù)rjv表達(dá)式為
rjv=-v2j,""" vjgt;vjmax ,
β(vj-vjmax)2,vj≤vjmax,(2)
式中:" vj為關(guān)節(jié)j當(dāng)前工作周期內(nèi)的最大運(yùn)行速度;" vjmax為關(guān)節(jié)j的最大允許速度; β為rjv的權(quán)重參數(shù)。
3)根據(jù)關(guān)節(jié)的加速度要求設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。如果在當(dāng)前工作周期內(nèi)機(jī)器人在加速、減速階段速度發(fā)生突變或者變化過(guò)大,則將帶給關(guān)節(jié)較大的沖擊,對(duì)電機(jī)產(chǎn)生一定的損傷。為了反映各關(guān)節(jié)在加速、減速過(guò)程中的平穩(wěn)運(yùn)行,設(shè)計(jì)加速度獎(jiǎng)勵(lì)函數(shù)rja表達(dá)式為
rja= -a2j,""" ajgt;ajmax,
γ(aj-ajmax)2,aj≤ajmax,(3)
式中: aj為關(guān)節(jié)j當(dāng)前工作周期內(nèi)的最大運(yùn)行加速度; ajmax為關(guān)節(jié)j的最大允許加速度; γ為rja的權(quán)重參數(shù)。
綜上,多目標(biāo)獎(jiǎng)勵(lì)函數(shù)為
r=rt+p∑3j=1rjv+q∑3j=1rja ,(4)
式中: r為搬運(yùn)機(jī)器人在當(dāng)前工作周期的獎(jiǎng)勵(lì)值; p、 q為r的權(quán)重參數(shù)。
實(shí)際生產(chǎn)節(jié)拍要求搬運(yùn)機(jī)器人每分鐘運(yùn)行10個(gè)工作周期,則單位工作周期的期望時(shí)間tmax=6 s;根據(jù)電機(jī)參數(shù)選擇各關(guān)節(jié)的最大允許速度vmax和最大允許加速度amax。
3.3" 神經(jīng)網(wǎng)絡(luò)搭建
DDPG算法的構(gòu)成包括Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),其中Actor網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
沖壓生產(chǎn)線用單臂四自由度搬運(yùn)機(jī)器人包括2個(gè)移動(dòng)關(guān)節(jié)和2個(gè)旋轉(zhuǎn)關(guān)節(jié)。 為了簡(jiǎn)化計(jì)算流程, 3.2節(jié)中僅考慮2個(gè)移動(dòng)關(guān)節(jié)和1個(gè)旋轉(zhuǎn)關(guān)節(jié), 因此搭建神經(jīng)網(wǎng)絡(luò)時(shí)同樣僅考慮3個(gè)關(guān)節(jié)。 其中
Actor網(wǎng)絡(luò)由4層神經(jīng)網(wǎng)絡(luò)構(gòu)成,輸入層設(shè)置為6個(gè)節(jié)點(diǎn),對(duì)應(yīng)6個(gè)狀態(tài)量,其中v1、 v2、 v3分別為在運(yùn)行過(guò)程中3個(gè)關(guān)節(jié)的速度, a1、 a2、 a3分別為3個(gè)關(guān)節(jié)的加速度;輸出層為動(dòng)作向量,為5個(gè)節(jié)點(diǎn),對(duì)應(yīng)5段路徑(見圖2)中軌跡運(yùn)行時(shí)間t;中間包含2個(gè)隱藏層,隱藏層1包含128個(gè)神經(jīng)元,隱藏層1與第1層為全連接;隱藏層2的輸入包含128個(gè)神經(jīng)元,與隱藏層1的連接方式為全連接。
Critic網(wǎng)絡(luò)部分采用相似的網(wǎng)絡(luò)結(jié)構(gòu), 但是與Actor網(wǎng)絡(luò)存在區(qū)別, 主要差異如下: 輸入層包含2個(gè)部分, 即搬運(yùn)機(jī)器人的狀態(tài)與當(dāng)前動(dòng)作值; 輸出層為1個(gè)神經(jīng)元, 代表相應(yīng)的動(dòng)作價(jià)值函數(shù)的輸出值Q值。
3.4" 本文模型構(gòu)建
針對(duì)沖壓生產(chǎn)線用單臂四自由度搬運(yùn)機(jī)器人的軌跡運(yùn)行時(shí)間問(wèn)題, 結(jié)合設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)和搭建的神經(jīng)網(wǎng)絡(luò), 結(jié)合深度強(qiáng)化學(xué)習(xí)與變形五次多項(xiàng)式, 構(gòu)建搬運(yùn)機(jī)器人關(guān)節(jié)軌跡時(shí)間分配模型, 如圖7所示。 本文模型主要由關(guān)節(jié)間的變形五次多項(xiàng)式模塊、 獎(jiǎng)勵(lì)函數(shù)模塊和智能體模塊組成。 智能體模塊通過(guò)接收、處理觀測(cè)值和獎(jiǎng)勵(lì)值,在獎(jiǎng)勵(lì)函數(shù)的引導(dǎo)下輸出合適的動(dòng)作值, 當(dāng)符合終止條件時(shí), 模型停止訓(xùn)練。
4" 仿真實(shí)驗(yàn)
4.1" 仿真設(shè)置
利用沖壓生產(chǎn)線對(duì)單臂四自由度搬運(yùn)機(jī)器人進(jìn)行仿真實(shí)驗(yàn),如圖8所示,包含2個(gè)移動(dòng)關(guān)節(jié)和2個(gè)轉(zhuǎn)動(dòng)關(guān)節(jié)。各關(guān)節(jié)電機(jī)的最大允許速度和加速度如表1所示。根據(jù)本文中設(shè)計(jì)的搬運(yùn)機(jī)器人末端執(zhí)行器的運(yùn)動(dòng)路徑,路徑點(diǎn)坐標(biāo)如表2所示。經(jīng)運(yùn)動(dòng)學(xué)逆解后,搬運(yùn)機(jī)器人運(yùn)動(dòng)路徑點(diǎn)對(duì)應(yīng)的關(guān)節(jié)位置點(diǎn)序列如表3所示。
仿真實(shí)驗(yàn)在Windows 10系統(tǒng)環(huán)境中進(jìn)行, 使用英偉達(dá)RTX 3080 Ti系列顯卡,中央處理器型號(hào)為英特爾酷睿TMi7-10700K,主頻為3.80 GHz,在MATLAB2020a軟件中利用Simulink實(shí)驗(yàn)平臺(tái),選取Agent模塊并在模塊化環(huán)境中進(jìn)行搬運(yùn)機(jī)器人關(guān)節(jié)軌跡規(guī)劃實(shí)驗(yàn), DDPG算法訓(xùn)練參數(shù)如表4所示。
4.2" 結(jié)果分析
在生產(chǎn)節(jié)拍要求的約束下, 基于深度強(qiáng)化學(xué)習(xí)與變形五次多項(xiàng)式相結(jié)合的搬運(yùn)機(jī)器人關(guān)節(jié)軌跡時(shí)間分配模型訓(xùn)練過(guò)程中
的獎(jiǎng)勵(lì)值如圖9所示。
由圖可知: 在訓(xùn)練開始初期, 獎(jiǎng)勵(lì)值增大、 減小的波動(dòng)較大且數(shù)值較小, 此時(shí)智能體從初始狀態(tài)開始進(jìn)行學(xué)習(xí), 僅進(jìn)行時(shí)間上的隨機(jī)分配, 完成動(dòng)作上的廣泛探索, 沒(méi)有針對(duì)特定要求而采取動(dòng)作; 在進(jìn)行到40次循環(huán)時(shí), 獎(jiǎng)勵(lì)值增大明顯, 且數(shù)值波動(dòng)幅度逐漸減小, 表明智能體進(jìn)行了較有效的探索, 滿足部分獎(jiǎng)勵(lì)函數(shù); 當(dāng)循環(huán)次數(shù)約為130時(shí), 獎(jiǎng)勵(lì)值又有較大增幅且明顯大于1 000; 當(dāng)循環(huán)次數(shù)約為170后, 獎(jiǎng)勵(lì)值滿足停止訓(xùn)練條件, 表明智能體學(xué)習(xí)到有效的時(shí)間分配策略并最大化長(zhǎng)期獎(jiǎng)勵(lì)值。
將本文模型在tmax=6 s時(shí)學(xué)習(xí)到的時(shí)間參數(shù)應(yīng)用于變形五次多項(xiàng)式。 仿真環(huán)境中搬運(yùn)機(jī)器人關(guān)節(jié)1、 3、 4的位移、 速度和加速度曲線如圖10所示。由圖可知:搬運(yùn)機(jī)器人各關(guān)節(jié)運(yùn)行時(shí)間均為5.89 s, 滿足生產(chǎn)節(jié)拍每分鐘運(yùn)行10個(gè)工作周期的要求;關(guān)節(jié)1、 3最大速度分別為2 597.84、 1 697.97 mm/s, 關(guān)節(jié)4最大角速度為1〗37.53 (°)/s, 關(guān)節(jié)1、 3最大加速度分別為19 532.11、 31 302.61 mm/s2,關(guān)節(jié)4最大角加速度為1 180.51 (°)/s2,均未超過(guò)運(yùn)動(dòng)學(xué)約束;各關(guān)節(jié)在位置點(diǎn)之間平滑過(guò)渡,經(jīng)過(guò)加速階段后,均存在時(shí)間不同的勻速階段,保證了搬運(yùn)機(jī)器人的平穩(wěn)運(yùn)行,減少了運(yùn)行期間的沖擊和汽車覆蓋件與沖壓模具間的摩擦磨損。
5" 結(jié)論
為了抑制搬運(yùn)機(jī)器人各關(guān)節(jié)在運(yùn)行過(guò)程中的沖擊,本文中基于變形五次多項(xiàng)式在關(guān)節(jié)空間進(jìn)行軌跡規(guī)劃,保證位移、 速度和加速度的變化平滑連續(xù);根據(jù)生產(chǎn)節(jié)拍、 速度和加速度的約束條件,設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),搭建神經(jīng)網(wǎng)絡(luò),利用MATLAB/Simulink軟件構(gòu)建了基于深度強(qiáng)化學(xué)習(xí)與變形五次多項(xiàng)式相結(jié)合的搬運(yùn)機(jī)器人關(guān)節(jié)軌跡時(shí)間分配模型,得到以下主要結(jié)論:
1)獎(jiǎng)勵(lì)值的變化曲線表明,根據(jù)實(shí)際情況設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)能夠加速本文模型的收斂,在經(jīng)過(guò)130次循環(huán)后,本文模型完成了關(guān)節(jié)軌跡之間的時(shí)間分配任務(wù)。在實(shí)際應(yīng)用中可以通過(guò)調(diào)整獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),獲得滿足不同生產(chǎn)節(jié)拍要求的時(shí)間參數(shù),使得搬運(yùn)機(jī)器人適應(yīng)不同工況,減少能量消耗。
2)搬運(yùn)機(jī)器人的運(yùn)行時(shí)間為5.89 s,滿足生產(chǎn)節(jié)拍每分鐘運(yùn)行10個(gè)工作周期的要求。平移關(guān)節(jié)1、 3的最大速度分別為2 597.84、 1 697.97 mm/s,最大加速度分別為19 532.11、 31 302.61 mm/s2,由于旋轉(zhuǎn)關(guān)節(jié)2、 4的速度大小相等,方向相反,因此旋轉(zhuǎn)關(guān)節(jié)2、 4的角速度均為137.53(°)/s,最大加速度均為1 180.51 (°)/s2,均未超過(guò)運(yùn)動(dòng)學(xué)約束,說(shuō)明本文模型能夠調(diào)整各段路徑下的運(yùn)行時(shí)間,得到滿足生產(chǎn)節(jié)拍的時(shí)間參數(shù),仿真實(shí)驗(yàn)結(jié)果驗(yàn)證了本文模型的可行性和有效性。
參考文獻(xiàn):
[1]" 董理, 楊東, 鹿建森.工業(yè)機(jī)器人軌跡規(guī)劃方法綜述[J]. 控制工程, 2022, 29(12): 2365.
[2]" 郭鑫鑫, 薄瑞峰, 賈竣臣, 等. 基于改進(jìn)螢火蟲算法的機(jī)械臂時(shí)間最優(yōu)軌跡規(guī)劃[J]. 機(jī)械設(shè)計(jì)與研究, 2021, 37(3): 55.
[3]" 王玉寶, 王詩(shī)宇, 李備備, 等. 一種改進(jìn)粒子群的工業(yè)機(jī)器人時(shí)間最優(yōu)軌跡規(guī)劃算法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2018, 39(8): 1878.
[4]" YIN S B, JI W, WANG L H. A machine learning based energy efficient trajectory planning approach for industrial robots[C]//Procedia CIRP: 52nd CIRP Conference on Manufacturing Systems (CMS), June 12-14, 2019, Ljubljana, Slovenia: Vol 81. Amsterdam: Elsevier, 2019: 429.
[5]" WANG W R, ZHU M C, WANG X M, et al. An improved arti-ficial potential field method of trajectory planning and obstacle avoidance for redundant manipulators[J]. International Journal of Advanced Robotic Systems, 2018, 15(5): 1.
[6]" 浦玉學(xué), 舒鵬飛, 蔣祺, 等. 工業(yè)機(jī)器人時(shí)間-能量最優(yōu)軌跡規(guī)劃[J]. 計(jì)算機(jī)工程與應(yīng)用,2019, 55(22): 86.
[7]" 陸佳皓, 平雪良. 一種機(jī)械臂最優(yōu)時(shí)間-沖擊軌跡優(yōu)化算法[J]. 機(jī)械科學(xué)與技術(shù), 2019, 38(10): 1548.
[8]" 李小為, 胡立坤, 王琥. 速度約束下PSO的六自由度機(jī)械臂時(shí)間最優(yōu)軌跡規(guī)劃[J]. 智能系統(tǒng)學(xué)報(bào), 2015, 10(3): 393.
[9]" HU Y L, ZHANG Q S. Multi-robots path planning based on improved artificial potential field method[J]. Advanced Material Research, 2012, 1917(562/563/564): 937.
[10]" 于魯川. 汽車外覆蓋件沖壓生產(chǎn)線送料系統(tǒng)高速穩(wěn)定運(yùn)行理論及方法研究[D]. 濟(jì)南: 山東大學(xué), 2021: 11-15.
[11]" PELLICCIARI M, BERSELLI G, LEALI F, et al. A method for reducing the energy consumption of pick-and-place industrial robots[J]. Mechatronics, 2013, 23(3): 326.
[12]" 丁棟. 高速?zèng)_壓線自動(dòng)送料系統(tǒng)仿真技術(shù)研究[D]. 濟(jì)南: 山東大學(xué), 2015: 25-28.
[13]" WEN H, LI H, WANG Z, et al. Application of DDPG-based collision avoidance algorithm in air traffic control[C]//2019 12th International Symposium on Computational Intelligence and Design(ISCID), December 14-15, 2019, Hangzhou, China. New York: IEEE, 2019: 130.
(責(zé)任編輯:王" 耘)