鐘偉嵐
【摘要】? ? 近年來,人工智能研究領域中強化學習大受歡迎,它與監(jiān)督學習有異曲同工之妙,也有許多的不同點可以區(qū)分。首先,監(jiān)督學習需要在他人的督促下進行,而強化學習更多的依賴自身的管理。強化學習強調能夠不是先設置目標,從周圍數(shù)據中獲得有關動作的反饋信息,然后再利用這些信息來優(yōu)化模型數(shù)據。顯而易見,強化學習具有廣闊的前景。集多種環(huán)節(jié)于一體的復雜控制系統(tǒng),具有非常經典的復雜問題,以本次論文研究的倒立擺為例。自然界有很多無規(guī)律的不穩(wěn)定的物體,倒立擺系統(tǒng)可以通過控制手段,使不穩(wěn)定的物體變得穩(wěn)定,具有規(guī)律性。而在控制過程中,倒立擺系統(tǒng)也是一個驗證各種控制理論的很理想的模型之一。它可以反映例如可鎮(zhèn)定性,隨機能動性以及魯棒性一系列情況。近代以來,倒立擺系統(tǒng)廣泛應用于我們的生活當中。衛(wèi)星的運行、火箭的飛行都借助了倒立擺系統(tǒng)。因此,非常有必要對倒立擺系統(tǒng)進行研究,該系統(tǒng)具有無可取代的現(xiàn)實意義,以及深刻的工程意義。
【關鍵詞】? ? 強化學習? ? Q學習算法? ? 倒立擺系統(tǒng)
引言:
眾所周知,我們獲得新的知識的主要途徑之一就是學習,學習是人類聰明才智的體現(xiàn)。近年來人工智能領域在研究機器學習時,主要將研究的內容放在擬人化,目的是讓機器的行為舉止與人類無限接近,能夠像人類一樣主動吸收知識。機器學習比人類學習具有更多的優(yōu)點,首先機器是不會感到疲憊的,不需要大腦對信息進行整合,通過數(shù)字編碼就可以對信息進行儲存復制,具有學習時間長,學習效率高的優(yōu)點。[1]選擇機器學習,可以讓學習不會因為人類的壽命因素被影響,有利于知識的儲備。
強化學習[2]機器學習的研究模塊中,有一部分涉及到心理學理論和動物學習原理。首先從生物學的研究中構建反饋機制,借助該反饋機制采集周圍環(huán)境對動作產生的評價信息,利用反饋的信號對學習模型參數(shù)進行更新。強化學習是人工智能學習模塊中非常熱門的一個板塊,涉及到多個學科的內容[3]。
智能控制,人們希望通過對人工智能的研究,賦予機器人性化。詳細的說就是使僵硬的機器被賦予學習的功能,通過機器的運轉將信息儲存,從而達到擁有類似于生物的運動控制技能[4]。到目前來說也取得了不少成果,許多機器人構建的認知模型中,很少涉及到運動平衡控制問題,但實際上,機器人的運動與運動平衡控制具有十分緊密的聯(lián)系,所以本次論文研究將從運動平衡問題入手,結合相關認知問題進行探索[5]。在借閱許多學者前輩的研究材料發(fā)現(xiàn),對倒立擺的控制問題的研究,一直是智能領域中熱門板塊。
倒立擺系統(tǒng),該系統(tǒng)擁有非常多的特殊性,常見的有快速、多變量、嚴重非線性等。除此之外該系統(tǒng)是實驗室中研究自控理論時所必備的設備,同樣是經典的控制理論教學物理模型[6]。倒立擺采用線性設計,能夠使用線性控制理論,而且還與系統(tǒng)識別等多方面皆有所關聯(lián),在控制理論研究中極具挑戰(zhàn)性,一直被學者所關注。倒立擺系統(tǒng)在近代的許多科學領域都有應用,像直升飛機和衛(wèi)星的運行等等都與倒立擺系統(tǒng)穩(wěn)定控制有所聯(lián)系。所以倒立擺系統(tǒng)的研究對于我們生活中的許多的新興科技都具有十分重要的研究意義。筆者在對論文進行設計時,以運動平衡控制為出發(fā)點,將強化學習作為研究對象,倒立擺系統(tǒng)作為實驗模型。在這些的基礎上使用一種基于Q學習的強化學習系統(tǒng)以對倒立擺平衡控制展開深入探索,最終目的將學習能力賦予學習系統(tǒng),以期該學習系統(tǒng)在日常運行時,能夠自主學習新的知識,能夠做出行走、跳躍各種動作,從而在各個領域中進行應用。
一、強化學習原理
1.1 強化學習原理與模型
眾所周知,機器學習有許多的方向,強化學習是其中一種重要的方法。在我們的身邊的諸多領域都與強化學習有著不少聯(lián)系。在強化學習過程中,裝載強化學習系統(tǒng)的智能體與周圍的環(huán)境進行信息交流,再通過反饋信息不斷更新策略,直到最終獲得最優(yōu)決策。在訓練的過程中系統(tǒng)會通過不斷的嘗試并且在這個過程中得到相應環(huán)境反饋評價。系統(tǒng)會在這整個過程中不斷的積累經驗并且更新策略,最后可以使累積的獎懲值達到最大值。
很明顯由強化學習的原理與模型可知強化學習不等同于自適應控制技術和規(guī)劃技術。
強化學習也被認為是一種直接最適應最優(yōu)方法,擁有自適應控制技術的環(huán)境反饋機制。但是,自適應控制技術是要處理參數(shù)問題,系統(tǒng)也要求能夠在統(tǒng)計數(shù)據中獲得結果。但強化學習去除了這些限制因素。實際上,無論是強化學習還是規(guī)劃技術,他們二者之間在技術上是有明顯區(qū)別的。以狀態(tài)圖的規(guī)劃構造為例,如果一些復雜的狀態(tài)圖沒有提前進行設計,就無法進行規(guī)劃技術。但是強化學習只對環(huán)境的反饋信息進行記憶即可。除此之外,強化學習與規(guī)劃技術相比更加強調與環(huán)境的交互。也由此可見,強化學習擁有更廣闊的適用面。
1.2 強化學習系統(tǒng)的組成要素
強化學習的內容按要素分可以分為三類:策略、獎賞函數(shù)和值函數(shù)。在一般情況下智能體在給定的時間內產生相應的動作的方法就是策略(Policy)。 策略在強化學習中占據著舉足輕重的地位,是智能體的核心。在一般情況下策略會給予智能體特定的答案,告訴在智能體應該采取哪些動作。獎賞函數(shù)(Reward Function)在強化學習問題中有著舉足輕重的地位,一般表現(xiàn)在獎賞函數(shù)往往會對問題中的目標會起到決定性的作用。獎賞函數(shù)具有確定性和客觀性等性質,這些性質會給予智能體正確的動作選擇。最后再來介紹一下值函數(shù)(Value Function) ,從長遠的角度來看,直函數(shù)可以用來判斷狀態(tài)的優(yōu)劣,這種函數(shù)可以更有效的幫助學者研究強化學習的算法。
二、強化學習算法的應用
馬爾可夫決策問題在人類科技進步的過程中扮演著重要的角色,而動態(tài)規(guī)劃方法的提出可謂是馬爾可夫決策問題里具有代表性的成果之一,Q學習算法和SARSA學習算法可以通過值函數(shù)的逼近來尋求最優(yōu)策略,這兩種算法可以說把時間差分和動態(tài)規(guī)劃結合起來的典型。
2.1 SARSA算法
到現(xiàn)在,算法有了新的突破,理論研究也向前邁進一大步。Sarsa學習算法和Q學習算法可以算作是里面具有代表性的兩個。
Rummery在1994 年第一次提出了SARSA這種強化學習算法,我們可以把SARSA學習算法看作Q學習算法的一種改進過的在線的(Online)形式。
2.2 Q學習算法
整體的算法流程如下所示:
對Q(s,a)初始化,在每一個情節(jié)都會進行以下的操作:
初始化狀態(tài)s并且重復以下的操作一直到能夠到達終態(tài);
由貪心策略確定和執(zhí)行動作a,狀態(tài)得到轉移到s'并且能夠獲得獎賞r;
對Q(s,a)進行更新,令s←s'。
列式如下所示:
(1)
其中C為常數(shù),用高等代數(shù)的方法對該式子進行收斂判斷,如果在貪心策略的方法下式子是收斂的,就可以將該式子認為是強化學習中最有效的算法是Q學習。
2.3 程序運行結果
我們分別運行SARSA算法,Q學習算法的有模型和無模型三個程序,得到結果如圖1。
由圖1可知,三個程序都順利的驗證了不同的強化學習算法按照目標驗證了其在倒立擺平衡控制過程中有認知和學習的能力。
2.4? 仿真結果分析與結論
在本次畢業(yè)設計中,我們主要會對Q學習算法的倒立擺實驗進行波形的仿真與研究。在設置變量時,初始狀態(tài)的倒立擺是隨機數(shù),而這個隨機值常常被指定在一定的范圍內。
從圖2的仿真曲線中我們不難看出即使沒有儲備的知識條件,強化學習也可以讓倒立擺系統(tǒng)具備自我的學習能力和記憶聯(lián)想能力并且很快的得到控制。在圖2中,不難看出這是強化學習系統(tǒng)的學習曲線,我們可以觀察到的是平衡控制技能在強化學習系統(tǒng)的學習過程中在被逐漸掌握,直至最后強化學習系統(tǒng)成功的控制了倒立擺系統(tǒng)。接下來我們會通過不同的仿真波形探究在不同的條件下Q學習強化學習系統(tǒng)對于倒立擺系統(tǒng)平衡的掌握。
2.4.1? 不同初始角度的控制效果
我們先改變擺桿的初始角度,再去觀察系統(tǒng)控制性能是否會產生明顯的變化。我們觀察圖3不難看出擺桿的角度初始角度分別為-5與10,角度不同,但是強化學習系統(tǒng)在時間為三秒的時候,都幾乎達到直線狀態(tài),控制效果幾乎沒有變化。
2.4.2? 改變小車初始位置多次實驗
在其他條件一致的情況下,我們改變小車初始位置變量,進行重復實驗,探索系統(tǒng)的控制性能變化情況。我們從圖4不難看出即使小車處在不同的初始位置,倒立擺的控制精度仍然可以達到要求并在短時間內再次返回到平衡狀態(tài)。
2.4.3? 有外界擾動的控制效果
在我們加入幅值不同的脈沖干擾后強化學習系統(tǒng)仍然可以順利的完成對倒立擺的控制。在圖5中不難看出在控制過程中的脈沖干擾無法對但強化學習系統(tǒng)產生明顯的影響,證明了其具有良好的抗干擾能力。
三、結束語
強化學習采用了生物學習中的“行動——評價——改進”機制。這種評價機制的特點是將活動與環(huán)境相聯(lián)系,將活動置于環(huán)境下,接收環(huán)境對于活動的評價信息,從而利用評價信息更新模型數(shù)據,優(yōu)化決策行為。強化學習在目前已經成為了很多領域研究的熱點之一,是一個多學科交叉的研究方向。在本次實驗中,我們把倒立擺系統(tǒng)作為實驗的載體,對幾個強化學習算法做了研究與學習,并探究了強化學習在倒立擺系統(tǒng)中的控制和應用。
具體對整體的過程進行總結:1.通過查閱文獻的方式來分析總結強化學習研究的現(xiàn)狀。2.介紹分析本文中用到的相關強化學習的基礎概念以及模型。3.在 Python 語言開發(fā)環(huán)境下利用 Pycharm完成了強化學習 SARSA算法和Q學習算法在一級直線倒立擺平衡控制的實驗仿真,三種控制算法均可以完成訓練以達到一級直線倒立擺的平衡控制。4.對實驗仿真的波形進行提取分析,對實驗進行總結與展望。
總之強化學習已經在默默影響與改變我們的生活,在機器人規(guī)劃和控制和人工智能問題的求解等領域取得了成績,擁有值得期待的未來與前景。
參? 考? 文? 獻
[1]李京,劉道偉,安軍,李宗翰,楊紅英,趙高尚,楊少波,鄭恒峰.基于強化學習理論的靜態(tài)電壓穩(wěn)定裕度評估[J].中國電機工程學報,2020,40(16):5136-5148.
[2]萬里鵬,蘭旭光,張翰博,鄭南寧.深度強化學習理論及其應用綜述[J].模式識別與人工智能,2019,32(01):67-81.
[3]劉洋,崔穎,李鷗.認知無線電網絡中基于強化學習的智能信道選擇算法[J].信號處理,2014,30(03):253-260.
[4]閆友彪,陳元琰.機器學習的主要策略綜述[J].計算機應用研究,2004(07):4-10.
[5]張汝波,顧國昌,劉照德,王醒策.強化學習理論、算法及應用[J].控制理論與應用,2000(05):637-642.