• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于模糊強(qiáng)化學(xué)習(xí)的雙輪機(jī)器人姿態(tài)平衡控制

      2021-04-07 07:21:44董朝陽(yáng)何康輝
      關(guān)鍵詞:進(jìn)動(dòng)陀螺傾角

      閆 安, 陳 章, 董朝陽(yáng), 何康輝

      (1.北京航空航天大學(xué)航空科學(xué)與工程學(xué)院, 北京 100191;2.清華大學(xué)自動(dòng)化系, 北京 100084)

      0 引 言

      單軌雙輪機(jī)器人因其高度的平穩(wěn)性、較強(qiáng)的越障能力等性能在生活服務(wù)型機(jī)器人中表現(xiàn)出其強(qiáng)大的優(yōu)勢(shì),可以廣泛應(yīng)用于軍事、交通、安保、工業(yè)生產(chǎn)等領(lǐng)域。同時(shí),與倒立擺系統(tǒng)類似,雙輪機(jī)器人有多變量、非線性、強(qiáng)耦合、高階次、參數(shù)不確定性等動(dòng)力學(xué)特性,是自動(dòng)控制領(lǐng)域研究的重要對(duì)象[1-3]。目前,雙輪機(jī)器人的控制方法仍以傳統(tǒng)控制理論居多,最常見(jiàn)的方法是將建模得到的非線性系統(tǒng)做線性化處理,通過(guò)比例-積分-微分(簡(jiǎn)稱為PID)控制器或者狀態(tài)反饋控制器來(lái)實(shí)現(xiàn)控制[4-5]。由于機(jī)器人存在著固有的靜態(tài)不穩(wěn)定問(wèn)題,Keo等[6]提出了利用控制陀螺力矩來(lái)實(shí)現(xiàn)機(jī)器人的傾角穩(wěn)定;Lam等[7]在此基礎(chǔ)上通過(guò)比例微分控制器實(shí)現(xiàn)了傾角穩(wěn)定,具有較好的魯棒性和效率。He等[8]采用極點(diǎn)配置法設(shè)計(jì)狀態(tài)反饋控制器實(shí)現(xiàn)控制系統(tǒng)的穩(wěn)定,但極點(diǎn)位置和數(shù)目的設(shè)計(jì)對(duì)經(jīng)驗(yàn)的依賴較大。Hsieh等[9]采用模糊滑模控制器和陀螺平衡器,具有系統(tǒng)響應(yīng)快、抗干擾能力強(qiáng)等優(yōu)點(diǎn)。Jian等[10]提出了一種基于粒子群算法的自平衡控制方法,根據(jù)線性二次型調(diào)節(jié)器(linear quadratic regulator, LQR)控制方法對(duì)LQR控制器的參數(shù)矩陣進(jìn)行優(yōu)化,速度快,超調(diào)量小。然而,上述傳統(tǒng)算法均受到系統(tǒng)模型的制約,對(duì)于非線性、時(shí)變的、多變量復(fù)雜系統(tǒng)往往難以滿足控制要求,且多依賴于經(jīng)驗(yàn)。

      強(qiáng)化學(xué)習(xí)[11-12]是一種不需要先驗(yàn)知識(shí),與環(huán)境直接進(jìn)行交互試錯(cuò),通過(guò)反復(fù)迭代得到的反饋信息來(lái)獲取最優(yōu)策略的人工智能算法,因而被廣泛應(yīng)用于控制領(lǐng)域中[13-14]。強(qiáng)化學(xué)習(xí)根據(jù)求解方法不同可以分為策略迭代法和值函數(shù)迭代法。其中,策略迭代法[15]從一個(gè)初始化策略出發(fā),通過(guò)策略評(píng)估,迭代改進(jìn)直至收斂來(lái)得到最優(yōu)策略。但在離散空間問(wèn)題上不能很好地評(píng)估單個(gè)策略,容易陷于局部最小值,且該方法得到的隨機(jī)性策略在實(shí)際應(yīng)用中的可靠性難以保證。而值函數(shù)迭代法則是根據(jù)狀態(tài)選擇動(dòng)作,得到相應(yīng)策略。其中,Q-learning算法[16-17]是一種典型的與模型無(wú)關(guān)的強(qiáng)化學(xué)習(xí)算法,其狀態(tài)收斂與初值無(wú)關(guān),無(wú)需知道模型就可以保證收斂。在狀態(tài)空間不大的情況下能夠很好地構(gòu)建Q值表,得到最優(yōu)控制策略。

      傳統(tǒng)的Q-learning算法主要針對(duì)離散狀態(tài)和離散動(dòng)作,但實(shí)際問(wèn)題中存在很多連續(xù)變量,因此處理連續(xù)的動(dòng)作和狀態(tài)成為了此類強(qiáng)化學(xué)習(xí)研究的關(guān)鍵。文獻(xiàn)[18]提出了一種線性擬合方法,結(jié)合插值函數(shù)實(shí)現(xiàn)了連續(xù)動(dòng)作輸出。本文在以上研究的基礎(chǔ)上,針對(duì)傳統(tǒng)Q-learning在機(jī)器人控制方面的不足,引入模糊算法,提出了一種基于模糊強(qiáng)化學(xué)習(xí)(簡(jiǎn)稱為Fuzzy-Q)算法的雙輪機(jī)器人側(cè)傾控制方法,實(shí)現(xiàn)較大傾角下(0.15°)機(jī)器人的姿態(tài)控制,使機(jī)器人能夠抑制跌倒且快速恢復(fù)平衡狀態(tài)。本文的主要研究?jī)?nèi)容如下:①建立單軌雙輪機(jī)器人的非線性動(dòng)力學(xué)模型,確定系統(tǒng)的狀態(tài)轉(zhuǎn)移方程;②針對(duì)傳統(tǒng)Q-learning算法的不足,引入模糊推理方法泛化系統(tǒng)動(dòng)作空間,建立輸出連續(xù)的Fuzzy-Q算法;③基于雙輪機(jī)器人特性,設(shè)計(jì)算法的狀態(tài)空間和動(dòng)作空間,并結(jié)合機(jī)器人傾角動(dòng)態(tài)變化設(shè)計(jì)回報(bào)函數(shù),提高訓(xùn)練效率;④通過(guò)仿真實(shí)驗(yàn),對(duì)比分析傳統(tǒng)Q-learning和Fuzzy-Q的學(xué)習(xí)能力和控制精度,驗(yàn)證所設(shè)計(jì)算法的有效性和魯棒性。

      1 基于控制力矩陀螺的雙輪機(jī)器人動(dòng)力學(xué)模型

      1.1 控制力矩陀螺

      控制力矩陀螺(control moment gyro, CMG)廣泛應(yīng)用于航天器、船舶、自動(dòng)潛航器等裝置的姿態(tài)調(diào)整[19-20],也在機(jī)器人、單軌列車等領(lǐng)域有相關(guān)的學(xué)術(shù)性研究[21]。本文的CMG安裝右側(cè)視圖如圖1所示。其中,O-XYZ是慣性坐標(biāo)系,車體圍繞Y軸旋轉(zhuǎn),是一個(gè)近似的倒立擺,車身傾角為θ。Ob-xbybzb是固連在車體上的坐標(biāo)系。陀螺框架在CMG進(jìn)動(dòng)軸力矩τp的作用下圍繞xb軸進(jìn)動(dòng),進(jìn)動(dòng)角為γ。Og-xgygzg是固連在陀螺框架上的坐標(biāo)系。陀螺飛輪圍繞zg軸自轉(zhuǎn),角速度為Ω。其核心是一個(gè)高速旋轉(zhuǎn)的飛輪,飛輪安裝在陀螺框架上,框架繞與自轉(zhuǎn)軸垂直方向進(jìn)動(dòng)時(shí),飛輪的角動(dòng)量方向會(huì)隨之發(fā)生改變,由于系統(tǒng)滿足角動(dòng)量守恒定律,系統(tǒng)會(huì)產(chǎn)生一個(gè)與自轉(zhuǎn)軸和框架轉(zhuǎn)軸方向正交的反作用力矩。

      圖1 CMG右側(cè)視圖

      1.2 系統(tǒng)組成及平衡原理

      如圖2所示,本文設(shè)計(jì)的CMG機(jī)器人系統(tǒng)主要由兩個(gè)對(duì)稱安裝的CMG和平衡車架組成。

      圖2 基于CMG的機(jī)器人模型

      兩個(gè)CMG自轉(zhuǎn)速度大小相等、方向相反,靜止穩(wěn)定控制時(shí),進(jìn)動(dòng)角速度大小相等,方向相反。分析可知,當(dāng)機(jī)器人產(chǎn)生一定的傾斜角時(shí),進(jìn)動(dòng)電機(jī)施加扭矩使飛輪轉(zhuǎn)子在自轉(zhuǎn)的同時(shí)相對(duì)車體進(jìn)動(dòng)。根據(jù)陀螺力矩效應(yīng),陀螺進(jìn)動(dòng)過(guò)程中受到沿進(jìn)動(dòng)軸方向外力矩的同時(shí)會(huì)對(duì)車體產(chǎn)生一個(gè)反作用力矩τp來(lái)抵消重力矩分量以及外界干擾力矩。反作用力矩可表示為

      (1)

      1.3 系統(tǒng)動(dòng)力學(xué)模型

      雙輪機(jī)器人處于運(yùn)動(dòng)狀態(tài)時(shí),其運(yùn)動(dòng)速度與車身傾角和車把轉(zhuǎn)向角之間存在著非線性的耦合關(guān)系[22-24]。而在靜止?fàn)顟B(tài),雙輪機(jī)器人存在固有的靜態(tài)不穩(wěn)定問(wèn)題,需借助配重或車把來(lái)保持平衡。因此,本文通過(guò)CMG的方式來(lái)實(shí)現(xiàn)機(jī)器人的姿態(tài)平衡控制。

      在使用拉格朗日法建立系統(tǒng)的動(dòng)力學(xué)模型和控制模型前,先對(duì)系統(tǒng)作如下假設(shè)[25-26]:

      假設(shè)1雙輪機(jī)器人處于靜止?fàn)顟B(tài),即Y向速度為0;

      假設(shè)2陀螺框架、飛輪都是剛體,車身不考慮車把轉(zhuǎn)向,也是剛體;

      假設(shè)3輪胎與地面為點(diǎn)接觸,不考慮輪胎形變;

      假設(shè)4不考慮進(jìn)動(dòng)方向的摩擦。

      同時(shí),選取車身傾角θ,陀螺進(jìn)動(dòng)角γ為廣義坐標(biāo),系統(tǒng)動(dòng)能為

      (2)

      式中,mg、mb、mf分別表示陀螺框架質(zhì)量、車身質(zhì)量和飛輪質(zhì)量;Igx、Igy、Igz分別表示陀螺框架主軸慣量;Ifx、Ify、Ifz分別表示飛輪主軸慣量;hb、hf、hg分別表示車身質(zhì)心高度、飛輪質(zhì)心高度和陀螺框架質(zhì)心高度;Iby表示車身主軸慣量。

      系統(tǒng)勢(shì)能可表示為

      V=(2mghg+2mfhf+mbhb)gcosθ

      (3)

      根據(jù)拉格朗日方程:

      (4)

      得到系統(tǒng)的動(dòng)力學(xué)模型:

      (2mfhf+2mghg+mbhb)gsinθ-

      (5)

      (6)

      式中,τp作為系統(tǒng)的控制輸入,用來(lái)保持系統(tǒng)平衡。對(duì)于本文的單軌雙輪機(jī)器人,強(qiáng)化學(xué)習(xí)的目標(biāo)是通過(guò)大量的學(xué)習(xí)訓(xùn)練使機(jī)器人能在具有初始傾角的情況下根據(jù)經(jīng)驗(yàn)策略實(shí)現(xiàn)自主的靜止穩(wěn)定控制。

      2 強(qiáng)化學(xué)習(xí)與Fuzzy-Q算法

      2.1 Q-learning算法原理

      Q-learning算法是Watkings在1989年提出的一種與模型無(wú)關(guān)的離線學(xué)習(xí)算法[27]。Q-learning算法在建立Q值表的基礎(chǔ)上,通過(guò)機(jī)器和環(huán)境的交互,得到對(duì)應(yīng)的回報(bào)值,再通過(guò)不斷改進(jìn)Q值表,使得回報(bào)值越來(lái)越高[28-29],隨之機(jī)器人的動(dòng)作也趨于最優(yōu)。Q-learning算法的基本形式為

      Q(st,at)=α[rt+βmaxQ(st+1,at+1)]+

      (1-α)Q(st,at)

      (7)

      式中,α和β分別表示學(xué)習(xí)率和折扣因子;α越大則學(xué)習(xí)速率越快,但受到干擾后的影響越大,可能導(dǎo)致算法不收斂;β表示未來(lái)獎(jiǎng)勵(lì)對(duì)決策的影響程度,β越大系統(tǒng)更關(guān)注長(zhǎng)時(shí)間內(nèi)的決策,β越小則更關(guān)注最近的決策的影響;st為t時(shí)刻機(jī)器人的狀態(tài),控制器在機(jī)器人st狀態(tài)下輸出at,使其狀態(tài)更新為st+1,并得到獎(jiǎng)賞回報(bào)rt,表示機(jī)器人從st狀態(tài)到st+1狀態(tài)獲得的回報(bào)值;動(dòng)作at∈A,A為動(dòng)作空間;狀態(tài)st∈S,S為狀態(tài)空間。maxQ(st+1,at+1)表示控制器從動(dòng)作空間中選擇一個(gè)動(dòng)作at+1使得Q(st+1,at+1)的取值最大[30]。Q-learning通過(guò)式(7)進(jìn)行更新,經(jīng)過(guò)N次訓(xùn)練迭代,可得

      Q(st,at)=[1-(1-αn)](rt+βQ(st+1,at+1))+

      (1-α)Q(st,at)

      (8)

      由于0<α<1,故當(dāng)n→∞時(shí),Q(st,at)將收斂于最優(yōu)值rt+βQ(st+1,at+1)。Q-learning算法本質(zhì)上屬于一種時(shí)間差分(temporal difference, TD)算法。與一般TD算法不同,Q-learning的策略核心是狀態(tài)-動(dòng)作值函數(shù)Q(s,a),即Q-learning將每個(gè)狀態(tài)與動(dòng)作視為一個(gè)整體考慮其性能,并對(duì)狀態(tài)-動(dòng)作值函數(shù)Q(s,a)進(jìn)行增量式更新,針對(duì)Q值表中的值函數(shù)Q(s,a),動(dòng)作選擇通常采用ε貪心算法,策略表示為

      (9)

      即Q值表中最大的Q值對(duì)應(yīng)的動(dòng)作被選擇的概率最大,其他動(dòng)作被選擇的概率相同,以便盡可能地利用已知信息,并保證所有的狀態(tài)空間都有被探索的機(jī)會(huì)[31-32]。

      Q-learning的算法流程的最終目標(biāo)就是通過(guò)迭代、更新,使得Q值函數(shù)收斂[33]。使用Q-learning算法實(shí)現(xiàn)機(jī)器人的控制,可以直接分析每個(gè)狀態(tài)-動(dòng)作對(duì),在每個(gè)狀態(tài)下對(duì)所能采取的動(dòng)作進(jìn)行評(píng)價(jià),且Q-learning算法通過(guò)離散化的Q值表形式進(jìn)行了簡(jiǎn)化,適合作為實(shí)現(xiàn)機(jī)器人控制的強(qiáng)化學(xué)習(xí)方法探索。

      2.2 Fuzzy-Q算法設(shè)計(jì)及優(yōu)化

      在初步仿真中發(fā)現(xiàn)傳統(tǒng)的Q-learning算法由于動(dòng)作空間離散化,控制器的輸出存在高頻振蕩。實(shí)際執(zhí)行機(jī)構(gòu)難以輸出如此劇烈變化的量,且容易對(duì)CMG造成損害,同時(shí)機(jī)器人恢復(fù)平衡后的控制精度也有待提高。因此,本文考慮將模糊控制算法與Q-learning算法相結(jié)合,即當(dāng)控制器接收到當(dāng)前機(jī)器人的狀態(tài)向量之后,通過(guò)模糊推理選擇一種更合適的動(dòng)作執(zhí)行,使執(zhí)行機(jī)構(gòu)的輸出量更加平滑??紤]到模糊控制器的特點(diǎn),選擇以機(jī)器人傾角和傾角角速度作為模糊優(yōu)化的輸入量,模糊推理的輸出量為控制力矩。

      (10)

      式中,x為狀態(tài)空間變量;a、b為待定系數(shù),根據(jù)論域范圍和模糊空間劃分來(lái)確定。綜合考慮控制性能和模型特點(diǎn),模糊空間分割采取不等間距劃分。在橫向比較多種隸屬度函數(shù)后,本文選用效果最佳的三角形隸屬度函數(shù)進(jìn)行模糊化,如圖3所示。

      圖3 傾角隸屬度函數(shù)

      對(duì)于系統(tǒng)輸出的連續(xù)狀態(tài),在劃分狀態(tài)區(qū)間時(shí),通過(guò)隸屬度函數(shù)將區(qū)間模糊化并計(jì)算其隸屬度,此時(shí)每個(gè)狀態(tài)都以相應(yīng)的隸屬度劃分到兩個(gè)子狀態(tài)中。如T時(shí)刻機(jī)器人傾角為0.25 rad,則對(duì)應(yīng)以70%隸屬于第一狀態(tài),以30%隸屬于第二狀態(tài),傾角角速度的狀態(tài)區(qū)間劃分同理,則此時(shí)共有4種機(jī)器人狀態(tài)。這4種狀態(tài)均為強(qiáng)化學(xué)習(xí)的狀態(tài),且每個(gè)狀態(tài)的隸屬度為對(duì)應(yīng)兩項(xiàng)的隸屬度乘積。在每次迭代時(shí),選擇4種狀態(tài)中對(duì)應(yīng)最大的Q值進(jìn)行學(xué)習(xí)更新,并通過(guò)面積重心法對(duì)各個(gè)狀態(tài)的輸出進(jìn)行反模糊化,即

      (11)

      式中,μk為狀態(tài)xk對(duì)應(yīng)的隸屬度函數(shù);v0為各狀態(tài)的反模糊化輸出值。在更新Q值時(shí),選擇對(duì)隸屬度大于30%的狀態(tài)進(jìn)行更新,系統(tǒng)通過(guò)反模糊化后得到最終的控制器輸出。由于結(jié)合模糊理論后算法涉及的狀態(tài)空間更廣,運(yùn)算量更大,因此需要較長(zhǎng)的訓(xùn)練時(shí)間才能達(dá)到收斂,但學(xué)習(xí)效果和控制性能比傳統(tǒng)的強(qiáng)化學(xué)習(xí)更優(yōu),且抗干擾能力更好。

      3 基于強(qiáng)化學(xué)習(xí)的控制器設(shè)計(jì)

      3.1 狀態(tài)空間設(shè)計(jì)

      表1 傾角離散區(qū)間劃分

      表2 傾角角速度離散區(qū)間劃分

      這樣狀態(tài)空間中的每個(gè)元素都對(duì)應(yīng)以上10×10個(gè)狀態(tài),因此也就生成了100個(gè)強(qiáng)化學(xué)習(xí)狀態(tài)。

      3.2 動(dòng)作空間設(shè)計(jì)

      在整個(gè)控制過(guò)程中,機(jī)器人的傾角變化由控制器輸出的陀螺力矩決定,為避免動(dòng)作搜索空間過(guò)大,對(duì)控制器的輸出動(dòng)作進(jìn)行離散化。根據(jù)控制經(jīng)驗(yàn),具體的劃分如表3所示。

      表3 動(dòng)作離散區(qū)間劃分

      3.3 回報(bào)函數(shù)設(shè)計(jì)

      強(qiáng)化學(xué)習(xí)通過(guò)狀態(tài)轉(zhuǎn)移產(chǎn)生的回報(bào)函數(shù)來(lái)對(duì)選擇的動(dòng)作進(jìn)行評(píng)估,從而調(diào)整Q值表。即回報(bào)函數(shù)直接決定了Q-learning算法的控制效果和收斂效果,雙輪機(jī)器人控制的最終目的是使車身傾角θ趨于0,由此設(shè)計(jì)Q-learning算法回報(bào)函數(shù)為

      (12)

      式中,α1和α2表示回報(bào)系數(shù),其大小主要由回報(bào)評(píng)價(jià)項(xiàng)的重要性和相對(duì)值來(lái)決定。為優(yōu)化回報(bào)函數(shù),本文同時(shí)將機(jī)器人傾角和傾角角速度作為評(píng)價(jià)量,車身傾角越大,回報(bào)懲罰越大,平方項(xiàng)用來(lái)加快收斂速度。使得機(jī)器人傾角較大時(shí),以角度為回報(bào)函數(shù)的主要評(píng)價(jià)項(xiàng);當(dāng)傾角較小時(shí)(|φ|<5 rad),以傾角角速度為主要評(píng)價(jià)項(xiàng),保證機(jī)器人在傾角接近0 rad的時(shí)候減速,盡量保持在平衡點(diǎn)附近擺動(dòng)。

      3.4 算法流程設(shè)計(jì)

      Q-learning算法采用離散化的Q值表進(jìn)行值函數(shù)的迭代,通過(guò)將系統(tǒng)狀態(tài)和動(dòng)作人為分割為若干離散序列,從而把連續(xù)問(wèn)題轉(zhuǎn)化為離散的表格化問(wèn)題。算法的最終目標(biāo)是使得Q值表中的Q(si,ai)收斂于Q*(si,ai),智能體可根據(jù)Q值表做出正確的動(dòng)作。系統(tǒng)的結(jié)構(gòu)框圖如圖4所示。

      圖4 系統(tǒng)結(jié)構(gòu)框圖

      基于強(qiáng)化學(xué)習(xí)的單軌雙輪機(jī)器人控制算法流程圖如圖5所示。

      圖5 算法流程圖

      4 仿真結(jié)果

      本文的算法基于Matlab R2018a環(huán)境,訓(xùn)練在英偉達(dá) GeForce GTX 1080 GPU上完成,在訓(xùn)練開(kāi)始時(shí),任意狀態(tài)-動(dòng)作對(duì)的Q值初始化為0,且機(jī)器人的初始傾角10 rad,CMG的進(jìn)動(dòng)軸力矩大小由強(qiáng)化學(xué)習(xí)算法得到的動(dòng)作輸出獲得,當(dāng)機(jī)器人傾角大于30 rad,則整個(gè)環(huán)境進(jìn)行復(fù)位,重新學(xué)習(xí),直到傾角能夠保持在0 rad左右并維持一段時(shí)間。整個(gè)訓(xùn)練過(guò)程中,系統(tǒng)模型參數(shù)基于機(jī)器人實(shí)物如圖6所示,涉及的具體參數(shù)和數(shù)值如表4所示。

      圖6 機(jī)器人實(shí)物圖

      表4 機(jī)器人模型參數(shù)

      4.1 Q-learning算法下的姿態(tài)穩(wěn)定控制

      采用Q-learning算法實(shí)現(xiàn)機(jī)器人控制,在經(jīng)過(guò)約5分鐘的反復(fù)訓(xùn)練后,仿真結(jié)果如圖7所示。

      圖7 Q-learning算法下機(jī)器人控制仿真結(jié)果

      可以看到訓(xùn)練成功后,機(jī)器人的傾角在3 s左右就可以趨于收斂,控制精度為0.025 rad,同時(shí)傾角角速度的變化范圍為±0.2 rad/s,這主要是通過(guò)動(dòng)作空間中的大幅度動(dòng)作(±10N)配合小幅度調(diào)整動(dòng)作(±1 N)以及靜止動(dòng)作(0 N)來(lái)實(shí)現(xiàn)的。說(shuō)明在模型未知且無(wú)任何先驗(yàn)知識(shí)的條件下,控制器通過(guò)強(qiáng)化學(xué)習(xí)可以很快的控制平衡,且控制精度較高。

      圖8為訓(xùn)練過(guò)程中的回報(bào)函數(shù)值。可以看出,在訓(xùn)練初期,由于動(dòng)作的選擇處于探索階段,具有一定的隨機(jī)性,因此獲得的回報(bào)值較小。但在經(jīng)歷了1 000次左右的學(xué)習(xí)之后,Q值表逐漸得到完善,智能體獲得的獎(jiǎng)勵(lì)也越來(lái)越高,算法最終達(dá)到收斂。

      圖8 Q-learning算法的回報(bào)函數(shù)

      4.2 Fuzzy-Q算法下的姿態(tài)穩(wěn)定控制

      從仿真結(jié)果可以看到,由于Q-learning算法的離散化,控制器輸出振蕩幅度較大。為改善控制器輸出并提高控制精度,本文在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上改進(jìn)并設(shè)計(jì)了Fuzzy-Q算法,其仿真結(jié)果如圖9所示。

      圖9 Fuzzy-Q算法下機(jī)器人控制仿真結(jié)果

      圖9(c)是采用了Fuzzy-Q算法的控制器輸出,可以看到,在訓(xùn)練成功后的控制周期內(nèi),陀螺力矩的輸出值較為平滑,未發(fā)生劇烈的突變,整個(gè)控制過(guò)程較為平順。

      同時(shí),在采用了Fuzzy-Q算法之后,機(jī)器人的控制精度為±0.01 rad,且傾角角速度收斂于±0.2 rad/s。由此可以證明整個(gè)訓(xùn)練過(guò)程是成功的,機(jī)器人在此時(shí)已經(jīng)學(xué)習(xí)到了一個(gè)最優(yōu)策略,達(dá)到了較高的控制精度。同時(shí),控制器的輸出為連續(xù)信號(hào),比傳統(tǒng)強(qiáng)化學(xué)習(xí)的控制效果更好。證明了在傳統(tǒng)強(qiáng)化學(xué)習(xí)的基礎(chǔ)上引入模糊算法,可以將離散控制器轉(zhuǎn)化為連續(xù)控制器,控制效果上可以得到明顯改善。

      圖10為訓(xùn)練過(guò)程中的回報(bào)函數(shù)值變化曲線??梢钥吹?累積回報(bào)值在訓(xùn)練開(kāi)始時(shí)并不穩(wěn)定,隨著訓(xùn)練周期及次數(shù)增加,總體變化趨勢(shì)逐漸增大,即隨著訓(xùn)練次數(shù)的增加最終趨于穩(wěn)定值。證明算法實(shí)現(xiàn)收斂,且訓(xùn)練次數(shù)比Q-learning算法更短,學(xué)習(xí)能力更強(qiáng)。

      圖10 Fuzzy-Q算法的回報(bào)函數(shù)

      4.3 外加力矩干擾下的姿態(tài)穩(wěn)定控制

      為分析系統(tǒng)的抗干擾能力,在訓(xùn)練成功后,人為地加入擾動(dòng),具體做法為在21 s時(shí)對(duì)處于平衡狀態(tài)的機(jī)器人施加脈沖干擾力矩(9 N·m),傾角受到擾動(dòng)后恢復(fù)情形的仿真結(jié)果如圖11所示。

      圖11 受干擾時(shí)機(jī)器人控制仿真結(jié)果

      可以很明顯地看到,在加入干擾之后,車身傾角出現(xiàn)了輕微增加,偏離角度約為0.116 rad,同時(shí)控制器迅速做出反應(yīng)調(diào)整輸出,最終使機(jī)器人傾角平穩(wěn)地恢復(fù)到了平衡位置,整個(gè)過(guò)程花費(fèi)時(shí)間約為1 s,證明了Fuzzy-Q算法具有較強(qiáng)的魯棒性,在受到干擾后傾角偏離角度較小且恢復(fù)時(shí)間短。

      5 結(jié) 論

      本文設(shè)計(jì)了一種基于CMG和Q-learning算法的機(jī)器人側(cè)傾姿態(tài)穩(wěn)定控制方法,實(shí)現(xiàn)了[-0.01,0.01]rad控制精度內(nèi)的機(jī)器人靜止平衡控制。在傳統(tǒng)強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,結(jié)合模糊理論建立了Fuzzy-Q算法,以模糊輸出代替Q值函數(shù)輸出,解決了Q-learning算法存在的控制器輸出高頻振蕩的問(wèn)題,避免了在實(shí)際應(yīng)用中對(duì)執(zhí)行機(jī)構(gòu)造成損傷。同時(shí)基于機(jī)器人特性優(yōu)化回報(bào)函數(shù),提高了學(xué)習(xí)效率。結(jié)果表明,經(jīng)過(guò)訓(xùn)練后,本文所設(shè)計(jì)的Fuzzy-Q算法能夠快速平穩(wěn)地實(shí)現(xiàn)機(jī)器人的側(cè)傾穩(wěn)定控制。相較于傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法,Fuzzy-Q算法學(xué)習(xí)時(shí)間更短,控制精度更高且具有較強(qiáng)的抗干擾能力,能夠?qū)崿F(xiàn)單軌雙輪機(jī)器人側(cè)傾穩(wěn)定的控制目標(biāo)。

      猜你喜歡
      進(jìn)動(dòng)陀螺傾角
      地球軸傾角的改斜歸正
      激光傾角儀在CT引導(dǎo)下經(jīng)皮肺穿刺活檢中的應(yīng)用
      車輪外傾角和前束角匹配研究
      北京汽車(2021年3期)2021-07-17 08:25:42
      做個(gè)紙陀螺
      玩陀螺
      陀螺轉(zhuǎn)轉(zhuǎn)轉(zhuǎn)
      軍事文摘(2018年24期)2018-12-26 00:58:18
      我最喜歡的陀螺
      基于窄帶雷達(dá)網(wǎng)的彈道目標(biāo)三維進(jìn)動(dòng)特征提取
      進(jìn)動(dòng)錐體目標(biāo)平動(dòng)補(bǔ)償及微多普勒提取
      基于雷達(dá)距離像的錐體目標(biāo)進(jìn)動(dòng)參數(shù)估計(jì)方法
      茌平县| 惠来县| 吉木乃县| 镇宁| 宁城县| 中西区| 上饶市| 屏东县| 玉屏| 天水市| 河东区| 克什克腾旗| 蓝山县| 伊川县| 淮安市| 济宁市| 通许县| 河津市| 辉南县| 西乌珠穆沁旗| 伊川县| 宁强县| 临漳县| 牙克石市| 镇江市| 石家庄市| 丰台区| 朝阳区| 城步| 平谷区| 腾冲县| 揭阳市| 平阳县| 商丘市| 桑植县| 仁怀市| 全州县| 名山县| 隆昌县| 溆浦县| 嘉荫县|