?
未知環(huán)境中移動機器人導航控制研究的若干問題?
蔡自興1,賀漢根2,陳虹3
(1. 中南大學信息科學與工程學院,湖南長沙 410083;
2. 國防科技大學機電工程與自動化學院,湖南長沙 410073;
3. 吉林大學控制科學與工程系,吉林長春 130025)
摘編自《控制與決策》2012年第4期:385~390,464頁,圖、表、參考文獻已省略。
智能移動機器人是一類能夠通過傳感器感知環(huán)境和自身狀態(tài),實現(xiàn)在有障礙物的環(huán)境中面向目標的自主運動(稱為導航),從而完成一定作業(yè)功能的機器人系統(tǒng)。
隨著科學技術(shù)的發(fā)展,人類的研究和活動領(lǐng)域已由陸地擴展到海底和空間。利用移動機器人進行空間探測和開發(fā),已成為21世紀世界各主要科技發(fā)達國家開發(fā)空間資源的主要手段之一。研究和發(fā)展月球探測移動機器人技術(shù),對包括移動機器人導航控制在內(nèi)的相關(guān)前沿技術(shù)的研究將產(chǎn)生巨大的推動作用。移動機器人在月球和火星等外星球表面導航時,將面臨復雜的未知環(huán)境。未知環(huán)境中的移動機器人自主導航控制技術(shù)已成為空間探測機器人的一項關(guān)鍵技術(shù)。
在移動機器人導航控制理論和方法的研究中,確定性環(huán)境的導航控制方法已取得了大量的研究和應(yīng)用成果。對未知環(huán)境中的導航控制也開展了一些研究,并提出了若干方法,但尚未形成統(tǒng)一和完善的體系結(jié)構(gòu),還有許多關(guān)鍵理論和技術(shù)問題有待解決和完善。這些問題主要包括環(huán)境建模、定位、導航控制器的學習與優(yōu)化、故障診斷、在線運動規(guī)劃與控制等。未知環(huán)境中的移動機器人只具有較少的先驗知識,其導航控制方法涉及環(huán)境認知、優(yōu)化決策、知識表示與獲取等多項關(guān)鍵問題。對未知環(huán)境中的移動機器人導航控制理論和方法的研究,將推動認知科學、模式識別、非線性控制等前沿學科的研究,帶動航天、海洋、軍事、建筑、交通、工業(yè)和服務(wù)業(yè)等領(lǐng)域移動機器人導航控制系統(tǒng)的開發(fā)研究,為無人探察車、無人排險車和無人運輸車等用于航天、軍事、深海作業(yè)和核工業(yè)領(lǐng)域的移動機器人系統(tǒng)的應(yīng)用奠定理論和技術(shù)基礎(chǔ)。
適應(yīng)于未知環(huán)境的移動機器人導航系統(tǒng)應(yīng)具備環(huán)境認知、行為決策、運動控制等能力,可對系統(tǒng)自身狀態(tài)進行監(jiān)測并能有效容錯。該領(lǐng)域的研究內(nèi)容主要包括體系結(jié)構(gòu)、環(huán)境建模與定位、路徑規(guī)劃、運動控制、故障診斷與容錯控制等若干方面。
2.1 體系結(jié)構(gòu)
目前,移動機器人導航控制的體系結(jié)構(gòu)主要分為以下3種:
1)基于功能分解的體系結(jié)構(gòu),即按“感知-建模-規(guī)劃-行動”的模式實現(xiàn)移動機器人的導航控制。現(xiàn)已提出多種離線全局路徑規(guī)劃方法[1-3]。
2)基于行為的反應(yīng)式體系結(jié)構(gòu),最具代表性的是Brooks的包容式體系結(jié)構(gòu)[4]。如何構(gòu)造和優(yōu)化機器人行為控制器是其成功與否的關(guān)鍵。主要方法有基于模糊邏輯及神經(jīng)網(wǎng)絡(luò)的監(jiān)督學習方法及基于傳感器信息的局部運動規(guī)劃方法等。
3)上述二者結(jié)合的混合式體系結(jié)構(gòu)[5],以克服功能分解體系結(jié)構(gòu)在不確定和未知環(huán)境中的建模困難、實時性和適應(yīng)性差等缺點;同時實現(xiàn)對已有環(huán)境信息進行有效表示和利用,完成單一結(jié)構(gòu)無法實現(xiàn)的復雜導航任務(wù)。在混合式體系結(jié)構(gòu)的基礎(chǔ)上,有關(guān)學者針對具體移動機器人系統(tǒng)應(yīng)用的特點,提出了基于多智能體的體系結(jié)構(gòu)[6],強調(diào)系統(tǒng)功能的分布式計算和協(xié)調(diào)特性。
混合式體系結(jié)構(gòu)是移動機器人體系結(jié)構(gòu)研究的重要發(fā)展趨勢,并在未知環(huán)境下移動機器人導航中得到應(yīng)用。但在移動機器人體系結(jié)構(gòu)的研究方面,仍有許多問題需要進一步研究解決,主要有:
1)如何實現(xiàn)基本功能模塊的靈活組合,使得功能與知識都具有良好的擴展性;
2)如何實現(xiàn)基于符號的慎思式智能與基于行為的反應(yīng)式智能之間的合理協(xié)調(diào);
3)如何建立各層次間知識的交流機制,通過機器學習獲得新的知識。
2.2 環(huán)境建模與定位
移動機器人自定位與環(huán)境建模問題是緊密相關(guān)的。環(huán)境模型的準確性依賴于定位精度,而定位的實現(xiàn)又離不開環(huán)境模型。在環(huán)境建模技術(shù)研究方面,主要提出了基于傳感器的單元分解建模技術(shù)[7]、幾何建模技術(shù)和拓撲建模技術(shù)3類方法[8]?;趲缀巫鴺说姆椒ɡ肒alman濾波器在局部區(qū)域內(nèi)可獲得較高的精度,并且計算量小,但在廣域環(huán)境中卻難以維持精確的坐標信息?;谕負涞慕7椒ㄔ试S機器人在難以獲得精確定位信息的情形下,利用狀態(tài)部分可觀測馬爾可夫決策過程模型,依靠傳感器信息與環(huán)境特征信息的匹配來確定機器人的方位,但在非結(jié)構(gòu)化環(huán)境或環(huán)境特征不明顯的情況下,則難以進行可靠的導航控制。
現(xiàn)有移動機器人的定位方法主要包括:航跡推算、組合定位和感知定位[9]。航跡推算方法存在累積誤差問題,通常與基于感知的定位方法相結(jié)合,利用環(huán)境特征和路標識別來消除或減少累積定位誤差。組合式定位系統(tǒng)主要包括全球定位系統(tǒng)(GPS)、激光定位系統(tǒng)等。上述定位方法已成功地應(yīng)用于確定性結(jié)構(gòu)化環(huán)境中的移動機器人定位,但仍難以有效地解決在未知環(huán)境中的移動機器人定位問題。目前,基于概率模型和多傳感器融合的移動機器人定位與環(huán)境建模研究已取得了一些研究成果[10,11],但大多局限于室內(nèi)結(jié)構(gòu)化環(huán)境。
在復雜未知環(huán)境中,由于先驗知識的匱乏和環(huán)境的不確定性,使得并發(fā)的環(huán)境建模和定位方法成為亟待研究的課題,其中包括環(huán)境的不確定性表示,三維環(huán)境特征的提取,基于多傳感器融合的增量式建模方法等。此外,研究可創(chuàng)造主動環(huán)境、提高信息獲取效率的行為機制,將有助于實現(xiàn)可靠的復合定位與建模系統(tǒng)。
2.3 路徑規(guī)劃
移動機器人的路徑規(guī)劃可分為基于地圖的全局路徑規(guī)劃和基于傳感器的局部路徑規(guī)劃。對于環(huán)境已知條件下的離線全局路徑規(guī)劃方法,現(xiàn)已取得大量成果。近年來,學術(shù)界對環(huán)境部分已知和未知環(huán)境下的在線全局路徑規(guī)劃方法進行研究,其中包括基于進化算法[12]和廣義預測控制[13]的在線路徑規(guī)劃器等。
基于傳感器的局部路徑規(guī)劃是實現(xiàn)移動機器人在未知環(huán)境中導航的重要技術(shù)之一,例如增量式構(gòu)造當前可視區(qū)域路徑圖的規(guī)劃方法[14]和基于近似單元分解的局部路徑規(guī)劃[15]等。然而,上述方法未能對移動機器人的運動學和動力學特性約束進行有效處理,在優(yōu)化性能和對復雜環(huán)境的適應(yīng)性方面仍有待改進。
近年來,針對非完整約束條件下的移動機器人運動規(guī)劃問題開展了一些研究工作。其中,基于微分平坦系統(tǒng)理論的運動規(guī)劃方法引起了學術(shù)界的重視[16-18]?,F(xiàn)已證明,大部分移動機器人系統(tǒng)是平坦的,對于一個微分平坦系統(tǒng),運動規(guī)劃可簡化為確定一個光滑的平坦輸出函數(shù),它滿足初始和目標狀態(tài)的邊界條件,而期望的控制輸入和狀態(tài)軌跡則通過對該平坦函數(shù)求導來獲得。基于微分平坦理論的運動規(guī)劃方法為移動機器人實時運動規(guī)劃提供了一種有效方法。文獻[16]通過應(yīng)用基函數(shù)來參數(shù)化微分平坦輸出,將非線性控制理論、樣條理論和二次規(guī)劃結(jié)合起來,提出了新的實時軌跡生成算法。
研究表明,對于受約束的機械系統(tǒng),實時軌跡生成可通過在較低維空間即微分平坦空間中搜索軌跡曲線來實現(xiàn)。文獻[17]研究了將微分平坦理論與自適應(yīng)控制方法相結(jié)合的運動規(guī)劃和控制方法。進一步深入探討將微分平坦理論用于未知環(huán)境中移動機器人的規(guī)劃和控制問題,是本文的研究內(nèi)容之一。
2.4 運動控制
移動機器人的運動控制包括基于路徑規(guī)劃的移動機器人路徑跟蹤控制和基于傳感器-執(zhí)行器直接映射的運動控制,即反應(yīng)式導航控制。大量研究表明,反應(yīng)式導航方法是提高移動機器人在未知環(huán)境下的實時性和靈活性的重要手段。目前已提出多種移動機器人反應(yīng)式導航方法,如模糊邏輯方法、神經(jīng)網(wǎng)絡(luò)方法等。但已有方法往往要求較多的先驗知識,如何構(gòu)造和優(yōu)化移動機器人的反應(yīng)式導航控制器以及提高導航系統(tǒng)對未知環(huán)境的適應(yīng)性,是有待解決的關(guān)鍵問題。近年來,利用基于動態(tài)規(guī)劃的增強學習方法解決上述問題,已成為人工智能和機器人學領(lǐng)域的研究熱點。進一步的工作需要對增強學習梯度算法的局部極值以及算法的學習效率和泛化性能進行深入研究。
在路徑跟蹤控制問題方面,由于非完整控制系統(tǒng)在笛卡爾坐標系下不存在光滑的定常靜態(tài)狀態(tài)反饋律使得閉環(huán)系統(tǒng)的平衡點局部漸近穩(wěn)定[19,20],也不存在動態(tài)連續(xù)定常反饋控制器使得閉環(huán)系統(tǒng)漸近穩(wěn)定[21],因此在笛卡爾坐標系下不能應(yīng)用反饋線性化或光滑定常反饋的控制器設(shè)計方法漸近鎮(zhèn)定系統(tǒng)。目前,關(guān)于非完整控制系統(tǒng)的鎮(zhèn)定方法,如非連續(xù)定常鎮(zhèn)定化、時變鎮(zhèn)定化和混合方法,在輪式移動機器人控制中得到了應(yīng)用。文獻[22]針對帶有輸入約束的時變非線性系統(tǒng),采用模型預測控制(MPC)方法生成反饋控制律,允許反饋非連續(xù)且可在線處理約束。文獻[23]嘗試用非線性預測控制鎮(zhèn)定有控制量約束和運動學約束的移動機器人。文獻[24]則采用后退方法設(shè)計了具有全局漸近穩(wěn)定的跟蹤控制器。
盡管有關(guān)移動機器人運動規(guī)劃與控制的研究取得了許多有意義的結(jié)果,但仍有許多問題有待進一步研究,例如:1)考慮動力學特性時移動機器人系統(tǒng)的平坦性,平坦輸出與機械系統(tǒng)幾何位置的關(guān)系,以及在規(guī)劃運動軌跡時如何兼顧性能與穩(wěn)定性;2)存在控制量約束時能夠協(xié)調(diào)跟蹤性能與穩(wěn)定性的魯棒軌跡跟蹤方法等。由于構(gòu)造非線性控制方法在優(yōu)化性能時往往能提供更強的穩(wěn)定性和滿意的吸引域,并能避免不必要的高增益,減弱某些現(xiàn)存方法中所需的約束,因而有可能為實現(xiàn)高性能的移動機器人路徑跟蹤控制器提供一條有效的途徑。
2.5 故障診斷與容錯控制
在未知環(huán)境中獨立工作的移動機器人,往往處于十分惡劣的環(huán)境條件,如強輻射、大溫差、復雜地形,其機械部件和控制系統(tǒng)極易出現(xiàn)問題,對于深空探測機器人而言,幾乎不可能由人來修復故障。因此機器人系統(tǒng)應(yīng)能進行狀態(tài)監(jiān)測,識別傳感器和執(zhí)行器故障,并利用硬件冗余或控制律重構(gòu)等方式進行容錯控制,以保證系統(tǒng)安全可靠地運行。
現(xiàn)有故障檢測方法主要可劃分為基于知識、基于解析模型和基于信號處理3類方法。診斷決策方法主要有閾值法、模糊邏輯、貝葉斯分類、故障假設(shè)檢驗等?;诮馕瞿P偷姆椒ㄑ芯康帽容^系統(tǒng)深入,它適合于可建立準確被控過程數(shù)學模型的系統(tǒng),但實際應(yīng)用中通常很難建立這種定量模型。基于知識和輸入輸出信號的方法在這方面具有一定優(yōu)勢。
經(jīng)典容錯控制方法可分為被動容錯控制和主動容錯控制,但都需要系統(tǒng)具有關(guān)于模型不確定性和外界擾動的魯棒性[25],目前的研究對象主要是線性系統(tǒng),非線性、時滯系統(tǒng)的容錯控制研究還沒有重要的理論結(jié)果。目前,國內(nèi)外故障診斷和容錯控制研究大都停留在計算機仿真或?qū)嶒炿A段,成功應(yīng)用于實際的例子仍屬少數(shù)。國外有學者將擴展Kalman濾波器、基于模型的遞歸神經(jīng)網(wǎng)絡(luò)、遺傳算法等方法應(yīng)用于移動機器人的陀螺儀、視覺傳感器、驅(qū)動裝置[26-28]。國內(nèi)關(guān)于移動機器人的故障診斷和容錯控制研究的成果還很少。
由于機器人系統(tǒng)的復雜性和非線性,有必要在深入研究系統(tǒng)機理的基礎(chǔ)上,結(jié)合多種方法解決故障診斷問題。其容錯機制的設(shè)計與機器人硬件結(jié)構(gòu)、控制系統(tǒng)、傳感器信號融合、處理技術(shù)密切相關(guān),應(yīng)在移動機器人系統(tǒng)整體設(shè)計階段就將其作為一個重要環(huán)節(jié)加以考慮。
移動機器人要在未知環(huán)境中安全、可靠地完成指定任務(wù),除了應(yīng)具有上述建模、定位、規(guī)劃、運動等基本能力外,還應(yīng)能夠處理各種突發(fā)情況,逐漸適應(yīng)環(huán)境,提高工作效率。這就要求其導航控制系統(tǒng)具有靈活性和適應(yīng)性。近年來,機器學習已成為人工智能和機器人學的一個研究熱點,并且取得了不少突破性進展,其中包括增強學習理論和算法[29]研究,進化學習算法[30]和應(yīng)用研究,統(tǒng)計學習[31]特別是支持向量機(SVM)理論和算法研究等。上述機器學習理論和方法為復雜和未知環(huán)境中的信息提取、環(huán)境理解、任務(wù)規(guī)劃和行為決策提供了有效的解決途徑。
與已有的監(jiān)督學習和無監(jiān)督學習方法不同的是,增強學習和進化學習采用了動物學習心理學的“試錯法”原理,強調(diào)在與環(huán)境的交互中利用評價性反饋信號(稱為增強信號或進化算法的個體適應(yīng)度)進行學習,為實現(xiàn)具有在線自學習能力的智能系統(tǒng)提供了有效手段。應(yīng)用機器學習方法特別是增強學習和進化學習方法來實現(xiàn)未知環(huán)境中移動機器人導航控制器的設(shè)計和優(yōu)化,已成為近年來移動機器人導航控制技術(shù)的研究熱點[ 30,32,33]。
增強學習在移動機器人導航中的應(yīng)用主要集中于反應(yīng)式運動控制[34]。在增強學習算法和理論研究方面,由于包括移動機器人導航控制在內(nèi)的實際工程問題往往具有連續(xù)的狀態(tài)和行為空間,因而增強學習的泛化和學習效率的提高便成為增強學習研究的核心問題。在已有的增強學習泛化方法中,利用神經(jīng)網(wǎng)絡(luò)等值函數(shù)逼近器的增強學習方法得到普遍研究和應(yīng)用。早期的神經(jīng)網(wǎng)絡(luò)增強學習算法采用一種類似于TD學習的近似梯度算法,當采用一般的非線性函數(shù)逼近器時,理論上難以保證算法的收斂性[35]。文獻[36]對已有的近似梯度算法進行改進,但僅能保證有限條件下的收斂性,而且學習效率有待進一步驗證和改進。
近年來,基于核的增強學習受到有關(guān)學者的關(guān)注[37],該方法為解決連續(xù)空間馬氏決策中的局部收斂性問題提供了一條可行途經(jīng)。此外,由于移動機器人的傳感器感知能力的局部性,在許多情況下應(yīng)用增強學習方法需要解決部分可觀測馬氏決策的學習算法設(shè)計問題。文獻[38]提出的GPOMDP 算法能對部分可觀測馬氏決策問題的策略梯度進行估計,但存在學習效率較低的缺點。目前,有關(guān)部分可觀測馬氏決策問題增強學習算法的應(yīng)用研究成果還很少。文獻[39]對增強學習在移動機器人路徑跟蹤控制中的應(yīng)用進行研究,提出了基于增強學習的自適應(yīng)PID控制器。
移動機器人進化設(shè)計與學習是通過人工進化的自動化設(shè)計過程來開發(fā)機器人及其傳感-馬達控制系統(tǒng)的一種方法[40],它包括群體進化學習和個體發(fā)展學習。基于進化學習的機器人導航控制系統(tǒng)主要采用的控制結(jié)構(gòu)有人工神經(jīng)網(wǎng)絡(luò)、LISP程序、模糊規(guī)則集等,已應(yīng)用于各種類型移動機器人系統(tǒng)[41]。其主要優(yōu)點在于可以簡化設(shè)計過程,設(shè)計結(jié)果具有一定魯棒性,并可能產(chǎn)生突現(xiàn)行為,是實現(xiàn)低層反應(yīng)式控制和高層行為決策的有效途徑之一。但是進化學習在仿真設(shè)計、運行時間、評估性能指標等方面還沒有理論依據(jù),進化學習是否持續(xù)有效,進化結(jié)果是僅僅停留在傳感-馬達反應(yīng)式行為水平上還是進一步擴展到復雜行為等問題都值得深入探討。該方向的研究不僅可豐富機器人控制系統(tǒng)設(shè)計方法,而且將對生物系統(tǒng)認知過程的理解起到促進作用。
近年來,多示例學習作為一種新的學習框架受到機器學習理論界的關(guān)注,并在圖像檢索[42]、機器視覺[43]等領(lǐng)域取得了一些研究成果。在多示例學習問題中,系統(tǒng)通過對多個由示例組成的有概念標記的訓練包進行學習,盡可能正確地對訓練集以外的包的標記進行預測。但多示例學習在可學習性理論、包生成技術(shù)、學習方法方面還需要深入研究,目前還沒有實際應(yīng)用到機器人系統(tǒng)。在移動機器人導航過程中,常常難以對一系列行為中的單個行為進行評價,而只能對行為組合是否達到目標進行概念性標記。因此,設(shè)計有效的算法,在多示例學習框架下解決移動機器人導航中的全程進化問題,在理論和應(yīng)用兩方面都有重要意義。
移動機器人對環(huán)境特征的識別,是一個非常具有挑戰(zhàn)性的模式識別問題。尤其是在未知環(huán)境中,用傳統(tǒng)的基于特征提取的模式識別方法解決該問題會面臨極大的困難。這主要是因為未知環(huán)境中存在著許多不可知因素,并且很難對這些未知因素建模,從而難以進行有效的特征提取工作。支持向量機是一種基于統(tǒng)計學習理論的機器學習方法。它在進行模式分類時沒有顯式的特征提取過程,其特征提取隱含在支持向量的提取以及核函數(shù)的選取中。文獻[44,45]的工作在一定程度上顯示了該方法在理論基礎(chǔ)上的優(yōu)勢和在視覺感知與學習方面的應(yīng)用潛力。但是應(yīng)用SVM方法有效解決實際問題仍然存在不少難點,其中最為突出的有兩個:一是核函數(shù)的選取缺乏良好的準則,二是計算復雜度比較高。因此SVM中的核函數(shù)研究主要解決的問題是:如何針對給定數(shù)據(jù)并結(jié)合一定先驗知識選取核函數(shù)。另外,遞推算法的研究在SVM 的應(yīng)用中也有很大意義,但這方面的工作還剛剛開始展開??上驳氖牵瑖鴥?nèi)學者已取得了一定結(jié)果[46]。
深入開展機器學習理論和方法的研究,應(yīng)用機器學習方法提高移動機器人在未知環(huán)境中的導航性能和對環(huán)境的適應(yīng)性,是移動機器人導航控制領(lǐng)域的一個重要發(fā)展趨勢。
未知環(huán)境中的移動機器人導航控制理論和方法的研究,是機器人學和智能控制的一個重要研究領(lǐng)域。但目前已有的理論和方法并不能完全滿足未知環(huán)境中移動機器人自主導航的要求,在移動機器人體系結(jié)構(gòu)、路徑規(guī)劃、環(huán)境建模和定位等方面都有許多問題有待解決。這些問題并不是孤立的,各部分相互耦合,互為影響。如果不能把各部分有機地結(jié)合為一個整體,那么必將削弱或不能達到預期的系統(tǒng)性能。因此有必要針對未知環(huán)境中移動機器人導航控制的各種問題,全面深入地分析機器人系統(tǒng)與環(huán)境之間、系統(tǒng)各部分之間的交互關(guān)系,研究開發(fā)面向全局性能優(yōu)化的導航理論和技術(shù),以實現(xiàn)靈活、穩(wěn)定、可靠的移動機器人導航控制系統(tǒng)。