賴際舟,袁 誠,呂 品,劉建業(yè),何洪磊
(南京航空航天大學(xué)自動化學(xué)院,南京 210016)
無人系統(tǒng)作為社會智能化水平提升的典型代表,是一種可在復(fù)雜環(huán)境下工作且具有自主定位、自主運行、自主規(guī)劃能力的智能機器人,如無人車、無人機等。近年來,無人系統(tǒng)在越來越多的行業(yè)中發(fā)揮了重要作用,如工廠自動化、建筑、采礦、排險、服務(wù)、農(nóng)業(yè)、太空探測以及軍事應(yīng)用等領(lǐng)域,可有效保障社會公共安全、提高社會生產(chǎn)效率、優(yōu)化工業(yè)智能化水平。
近年來,無人系統(tǒng)的應(yīng)用及相關(guān)研究不斷深入,感知與導(dǎo)航作為其智能核心尤為受關(guān)注,美國國防部高級研究計劃局(Defense Advanced Resear-ch Projects Agency,DARPA)針對無人系統(tǒng)在環(huán)境感知和自主導(dǎo)航技術(shù)等方面投入了龐大的資金。2018年8月,美軍發(fā)布了《無人系統(tǒng)綜合路線圖(2017—2042)》,明確了無人系統(tǒng)需要著重提高感知及導(dǎo)航能力。同年,DARPA舉辦地下挑戰(zhàn)賽,在復(fù)雜無衛(wèi)星信號環(huán)境下探索無人系統(tǒng)的感知與導(dǎo)航能力,力求快速提升無人系統(tǒng)的智能化水平,DARPA希望上述計劃可以輔助美國在未來取得主導(dǎo)優(yōu)勢。國內(nèi)也十分重視此方面發(fā)展,2015年,國務(wù)院印發(fā)《中國制造2025》,要求提高無人系統(tǒng)的感知智能水平。2020年,中國科協(xié)[1]將“無人車如何實現(xiàn)在衛(wèi)星不可用條件下的高精度智能導(dǎo)航”列為十大工程技術(shù)難題之一。
隨著應(yīng)用需求的增加與細分,無人系統(tǒng)需要在一些室內(nèi)、地下、隧道、對抗干擾等復(fù)雜、隨機、多變的環(huán)境下進行自主作業(yè),由于衛(wèi)星導(dǎo)航系統(tǒng)信號被遮擋或屏蔽,視覺和激光雷達等自主傳感器成為該環(huán)境下常用的自主感知與導(dǎo)航手段。
視覺傳感器可以感知環(huán)境中豐富的信息,且由于其體積較小、成本較低,在小型化無人系統(tǒng)上得到了廣泛應(yīng)用。以蘇黎世大學(xué)機器人感知團隊(Robotics and Perception Group,RPG)、蘇黎世聯(lián)邦理工學(xué)院自主機器人團隊(Autonomous Systems Lab,ASL)、德國慕尼黑工業(yè)大學(xué)機器視覺團隊和香港科技大學(xué)空中機器人團隊為代表,提出了豐富的不依賴衛(wèi)星的視覺感知及導(dǎo)航算法,并在室內(nèi)小型無人車、小型無人機等無人系統(tǒng)上進行了驗證與應(yīng)用。
激光雷達雖體積、功耗較大,但可以感知高精度的測距信息且不依賴外部光源,同樣在無人系統(tǒng)上得到了廣泛應(yīng)用。芝加哥大學(xué)豐田技術(shù)研究所、百度Apollo和谷歌Waymo等研究機構(gòu)已經(jīng)將其應(yīng)用于不依賴衛(wèi)星的無人車等無人系統(tǒng)的自主感知及導(dǎo)航。同時,這些團隊發(fā)布了EuRoC MAV、TUM RGB-D、KITTI等一系列包括真實參考值的數(shù)據(jù)集,對無人系統(tǒng)不依賴衛(wèi)星的導(dǎo)航以及感知技術(shù)提供了可靠的驗證數(shù)據(jù)支持,降低了算法研究的硬件門檻,并為算法性能的比較提供了基準。
如圖1所示,無人系統(tǒng)的視覺/激光雷達環(huán)境感知與自主導(dǎo)航技術(shù)一般可以分為感知信息獲取、里程計位姿估計、地圖匹配位姿估計和地圖構(gòu)建等模塊,為無人系統(tǒng)在自主執(zhí)行任務(wù)的過程中提供豐富的環(huán)境感知信息與自身準確的位姿信息,各模塊包括不同的關(guān)鍵技術(shù)。
圖1 無人系統(tǒng)視覺/激光雷達感知與自主導(dǎo)航技術(shù)框架圖
本文以圖1框架圖為基礎(chǔ),分析了視覺/激光雷達感知與自主導(dǎo)航技術(shù)及其國內(nèi)外最新進展,對算法性能進行了評估和對比,并對其技術(shù)發(fā)展方向進行了分析和總結(jié)。
在無人系統(tǒng)自主執(zhí)行任務(wù)的過程中,通過感知環(huán)境中的信息,可以為其提供可靠的決策數(shù)據(jù)基礎(chǔ)。無人系統(tǒng)通過深度估計建立感知傳感器與真實世界的尺度模型,使得感知信息可用于無人系統(tǒng)在真實世界的參考。通過目標檢測技術(shù)可以獲得更豐富、高層次的環(huán)境語義信息,對環(huán)境信息進行理解,可以提高無人系統(tǒng)的智能化水平。通過上述技術(shù),可以確保無人系統(tǒng)自主、可靠的完成預(yù)定任務(wù)。
如圖2所示,本節(jié)將基于視覺、激光雷達以及融合感知情況下的深度估計與目標檢測技術(shù),具體闡述技術(shù)機理、優(yōu)缺點及應(yīng)用場景。
圖2 無人系統(tǒng)視覺/激光雷達感知技術(shù)框架圖
如圖3所示,深度信息在無人系統(tǒng)的感知中具有重要意義,機器人控制算法常使用深度信息來確定如何執(zhí)行任務(wù)。視覺傳感器與激光雷達都可以通過對深度進行估計獲得點云信息。基于感知點云信息,通過迭代最近點(Iterative Closest Point,ICP)算法比較感知點云與地圖點云,可以實現(xiàn)無人系統(tǒng)的位姿估計。點云信息也可用于同步定位與地圖構(gòu)建(Simultaneous Localization and Mapping, SLAM)技術(shù),通過融合多個不同位置的感知點云,實現(xiàn)對整個環(huán)境完整地圖的構(gòu)建。這些算法的性能很大程度上依賴于輸入點云的深度信息質(zhì)量。深度估計可以基于硬件測量、幾何算法與深度學(xué)習理論,其各有特點。
圖3 室外深度估計圖
? 基于視覺的深度估計技術(shù)
在視覺傳感器深度估計方面,深度信息早期主要通過結(jié)構(gòu)光、飛行時間法(Time of Flight,ToF)等硬件技術(shù)直接獲得。此種方式獲得的深度范圍有限,根據(jù)M. Hansard等[2]的分析,此類相機在5m內(nèi)可以獲得較為精確的深度信息,雖然不依賴外部光源,但在外界光照強度大于100 lm時,深度估計結(jié)果會產(chǎn)生較大誤差。同時,此類相機無法處理外觀上涉及光干擾的物體,即黑色、透明和反射物體,因此在室內(nèi)或者特定外部環(huán)境中應(yīng)用較多。
伴隨硬件計算水平的提升,利用多目視覺幾何算法進行深度估計成為近年來學(xué)者們研究的熱門課題。這種算法由于不依賴額外機械結(jié)構(gòu),可適用于室外光照良好、強烈等環(huán)境?;谝曈X幾何原理的深度感知算法,通過雙目或多目之間成像的視差對深度信息進行估計,可以分為局部和全局的立體視覺視差計算方法。
局部方法主要包括基于區(qū)域的立體匹配與基于窗口的立體匹配方法,僅計算給定區(qū)域內(nèi)的視差,具有低計算復(fù)雜度與實時運行的優(yōu)勢。為了進一步降低算法的計算量,L.D.Stefano等[3]在匹配過程中利用唯一性約束,對常用的絕對誤差和算法(Sum of Absolute Differences,SAD)進行改進,實現(xiàn)了快速實時可靠的區(qū)域深度估計。W.Lui等[4]在此基礎(chǔ)上實現(xiàn)了室外低算力機器人的自主深度感知。為了讓無人系統(tǒng)在多任務(wù)情況下能夠獲得更好的深度估計精度自適應(yīng)能力,S. Mattoccia等[5]建立了精度和實時性平衡策略,在算力限制的情況下可以獲得更優(yōu)的深度估計精度。
全局方法將視差計算視為最小化全局能量函數(shù)的問題,可以實現(xiàn)對全局像素更高精度的深度估計,但其計算量較大,不適用于實時系統(tǒng)。針對此問題,H.Hirschmuller等[6]提出了半全局匹配 (Semi-Global Matching,SGM) 方法,利用基于互信息和全局平滑度約束近似像素匹配的全局匹配方法,將深度精確至亞像素等級的同時,實現(xiàn)了實時計算,被廣泛應(yīng)用于低成本機器人的深度估計中。在相機深度估計硬件改進上,利用雙目算法與結(jié)構(gòu)光原理組合的深度相機也成為了目前深度感知傳感器之一。隨著圖形處理器(Graphics Processing Unit,GPU)的應(yīng)用與算力的進一步提升,利用深度學(xué)習技術(shù),可以通過雙目圖像甚至單目圖像實現(xiàn)實時全局深度估計。
? 基于激光雷達的深度估計技術(shù)
激光雷達傳感器通過主動發(fā)射激光計算返回信號,可以在室內(nèi)外場景對深度信息進行準確估計?,F(xiàn)有激光雷達傳感器的測距方法可以分為三角測距法與ToF。三角測距法通過激光器發(fā)射激光,照射到物體后產(chǎn)生反射,反射光由線性電荷耦合器件(Charge Coupled Device,CCD)接收。由于激光器與探測器間隔一定距離,反射光依照光學(xué)路徑,不同距離的物體將會成像在CCD上不同的位置,依據(jù)三角公式對不同位置進行計算,從而求出被測物體的深度信息。ToF則是通過激光器發(fā)射激光脈沖,由計時器記錄出射時間,回返激光脈沖經(jīng)接收器接收,并由計時器記錄返回時間。將出射時間與返回時間相減得到時間差,通過計算即可得到深度。
激光雷達目前存在點云較為稀疏的問題,二維激光雷達僅可以發(fā)射一束激光感知深度信息,三維激光雷達通過在豎直方向上排布多束激光,從而可以感知更豐富的深度信息。為了追求更豐富的深度信息,固態(tài)激光雷達依靠波的反射接收來探測目標特性,從而獲得更高密度的深度感知信息。
? 基于視覺/激光雷達融合的深度估計技術(shù)
僅依靠單一傳感器感知深度信息目前存在無法滿足無人系統(tǒng)對深度感知需求的問題,因此激光雷達傳感器常與視覺傳感器融合互補,應(yīng)用于無人系統(tǒng)的深度感知技術(shù)。例如百度Apollo無人車使用的Pandora[7]感知系統(tǒng),由1臺Pandar40激光雷達和5個環(huán)視攝像頭(4個黑白,1個彩色)組成的視覺感知模組組成,該感知系統(tǒng)通過硬件外部對齊,為無人系統(tǒng)提供可靠的深度信息;谷歌DeepLab在2020年提出的ViP[8]深度估計深度學(xué)習模型,利用視覺與激光雷達融合數(shù)據(jù),實現(xiàn)了目前在較多數(shù)據(jù)集上較高精度的深度估計。
本文以KITTI[9]Depth 2017數(shù)據(jù)集提供的視覺/激光雷達感知數(shù)據(jù)為基準,列出了目前較高精度的深度估計算法性能,如表1所示,主要以尺度不變對數(shù)誤差(Scale Invariant Log Error,SILE)的平方根進行排序,并通過相對平方誤差(Relative Square Error,RSE)、相對絕對誤差(Relative Absolute Error,RAE)和反深度的均方根誤差(Inverse Root Mean Square Error,IRMSE)進行全面對比。
表1 圖像深度估計方法性能對比(2021年1月)
可以看出,在深度估計方面,基于傳感器硬件深度估計如結(jié)構(gòu)光、ToF、三角法等,由于感知深度信息穩(wěn)定、可靠等特點,更廣泛用于工業(yè)生產(chǎn)。但基于目前技術(shù)的傳感器硬件深度估計由于功耗和體積受限,無法在深度感知密度與深度感知距離上得到較好的平衡。在基于軟件算法的深度估計上,利用深度學(xué)習方法進行深度信息估計,相較于傳統(tǒng)模型匹配方法估計精度存在明顯的優(yōu)勢,但此類方法需要依靠大量的數(shù)據(jù),且依賴較高的GPU計算能力,在復(fù)雜未知環(huán)境下的估計精度不太理想。
無人系統(tǒng)的目標檢測是對感知信息進行語義提取與場景理解。通過對場景中的車輛、人物、標志等物體以及背景的識別理解,可以輔助無人系統(tǒng)進行有目的的行動。除此之外,提取的高級語義特征相對于傳統(tǒng)灰度相關(guān)的底層特征,對于光照變化、視角變化甚至部分遮擋情況下的抗擾性大大增強,可以顯著提高無人系統(tǒng)的自主性。
? 基于人工特征的目標檢測技術(shù)
目標檢測技術(shù)的主要發(fā)展先后經(jīng)歷了人工特征檢測識別階段(2001年—2013年)和機器自主學(xué)習特征的目標檢測階段(2013年至今)。在前期,對于目標的檢測以及分析十分依賴人工特征的設(shè)計,研究人員致力于提出更全面的特征描述方法,包括尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)、快速的圖像匹配算法與定向二進制簡單描述符(Oriented FAST and Rotated BRIEF,ORB)等特征,使得目標檢測算法性能更為優(yōu)異。但由于算力限制,魯棒性與準確性有時無法滿足實際應(yīng)用的需求。
? 基于機器自主學(xué)習特征的目標檢測技術(shù)
隨著GPU硬件的推廣帶來的并行算力的提升,以G.E.Hinton等[15]在2012年提出的以Alex-Net為代表的深度學(xué)習卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN),實現(xiàn)了識別準確率以及魯棒性的大幅提升,將目標檢測帶入新階段。后人在此基礎(chǔ)上提出了更深層的神經(jīng)網(wǎng)絡(luò)以及訓(xùn)練速度更快、檢測正確率更高的R-CNN[16]、fast R-CNN[17]、faster R-CNN[18]和mask R-CNN[19]等算法,但此類算法為兩步法,先檢測目標在圖像中的位置,再對目標進行分類識別,還無法滿足無人系統(tǒng)的實時控制需求。以YOLO[20]算法為代表的一步法,把物體檢測問題作為回歸問題,用單個卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)了從輸入圖像直接預(yù)測物體位置和類別概率,大幅提高了檢測效率,使得無人系統(tǒng)實現(xiàn)了實時的目標檢測與場景理解。
隨著無人系統(tǒng)應(yīng)用場景的拓展與三維激光雷達傳感器技術(shù)的成熟,基于二維圖像的目標檢測有時無法滿足復(fù)雜環(huán)境下無人系統(tǒng)自主運行的需求,需要基于三維目標檢測的自主避障以及路徑規(guī)劃為無人系統(tǒng)提供更為可靠的輔助參考。但與二維圖像目標檢測相比,三維目標檢測需要更多參數(shù)描述檢測結(jié)果,更具挑戰(zhàn)性。三維目標檢測主要包含三種方式:基于二維圖像的識別、基于激光雷達點云的識別和基于相機/激光雷達融合信息的識別。基于二維圖像的目標檢測如圖4(a)所示,它在單目深度估計的基礎(chǔ)上,對場景中的目標輪廓進行估計?;诩す饫走_點云的檢測方法主要為基于網(wǎng)格的方法,以蘋果公司提出的VoxelNet[21]架構(gòu)為代表,將點云細分為體素,進行編碼以及特征提取與識別,輸出物體的類別概率以及外接邊框參數(shù)。基于相機/激光雷達融合信息的檢測如圖4(b)所示,基于多傳感器性能互補感知,利用二維圖像識別目標并利用三維點云估計輪廓,可以檢測出較遠距離的三維物體。
(a)圖像二維目標檢測
(b)視覺/激光雷達混合三維目標檢測圖4 目標檢測示意圖[22]
本文以KITTI[9]Object 2012數(shù)據(jù)集提供的二維目標檢測數(shù)據(jù)和KITTI Object 2017數(shù)據(jù)集提供的三維目標檢測庫為基準,分別列出了目前一些較高精度目標檢測算法的性能,如表2和表3所示。其中,汽車目標以70%的重疊率作為識別成功基準,行人目標則以50%的重疊率為基準。并且根據(jù)數(shù)據(jù)集中目標的大小以及遮擋程度,將檢測分為簡單、普通與困難等級,以普通作為排行標準。
表2 二維目標檢測方法性能對比(2021年1月)
表3 三維目標檢測方法性能對比(2021年1月)
可以看出,基于深度學(xué)習的目標識別方法已經(jīng)在社會中廣泛應(yīng)用。目前在多數(shù)場景下,基于二維圖像的目標檢測方法的準確率已高于95%,在安防監(jiān)控、犯罪追蹤和國防中得到了積極應(yīng)用。但三維目標檢測方法的準確率仍存在較大的提升空間,二維圖像的三維目標檢測,雖然成本較低,但精度上與其余方式仍存在一定差距。受限于激光雷達點云密度,激光雷達三維目標檢測方法對遠距離物體的檢測性能較差。從方法性能對比表中可以看出,采用視覺/激光雷達融合三維目標檢測方法,可能在多傳感器融合過程中引入新誤差,導(dǎo)致性能上略低于基于激光雷達點云的三維目標檢測方法。
對感知信息進行處理后,無人系統(tǒng)可利用處理后的信息進行導(dǎo)航解算,獲取自身的位姿,以執(zhí)行預(yù)定的操作。無人系統(tǒng)的視覺/激光雷達導(dǎo)航按應(yīng)用場景可分為合作或非合作場景。在合作場景下,可以通過提前儲存的數(shù)據(jù)或地圖進行導(dǎo)航解算,確保無人系統(tǒng)在已知的合作環(huán)境中保持較高的導(dǎo)航精度。在非合作場景下,無人系統(tǒng)則是自主地進行導(dǎo)航解算,典型的方案有視覺、激光雷達及多信息融合SLAM技術(shù)。如圖5所示,本節(jié)將按應(yīng)用場景及具體導(dǎo)航算法的不同,根據(jù)不同傳感器類型,分別介紹涉及的導(dǎo)航關(guān)鍵技術(shù)。
圖5 無人系統(tǒng)視覺/激光雷達自主導(dǎo)航技術(shù)框架圖
合作場景中,視覺、激光雷達導(dǎo)航系統(tǒng)可以通過提前已知的數(shù)據(jù)庫或地圖信息,在無人系統(tǒng)執(zhí)行任務(wù)的過程中作為導(dǎo)航系統(tǒng)參考用于解算導(dǎo)航信息。
? 基于數(shù)據(jù)庫匹配的自主導(dǎo)航方法
基于數(shù)據(jù)庫匹配的自主導(dǎo)航方式主要為景象匹配方法,景象匹配一般通過自身搭載的視覺、激光雷達傳感器對自身環(huán)境進行感知,通過匹配提前儲存的數(shù)據(jù)幀與當前感知的數(shù)據(jù)幀,利用相同點關(guān)系求解出無人系統(tǒng)的位姿。研究人員主要通過尋找更魯棒的特征以及更精確的位姿計算方法以提高精度。Y.Wang等[33]針對傳統(tǒng)特征點匹配性能穩(wěn)定性較差的問題,提出了基于最大類間方差算法的自適應(yīng)閾值匹配方法,提高了景象匹配中特征點的提取數(shù)量、穩(wěn)定性和最終匹配精度。
? 基于地圖匹配的自主導(dǎo)航方法
隨著先進駕駛輔助系統(tǒng)(Advanced Driver Assistance Systems,ADAS)技術(shù)的廣泛使用與更新迭代,對于導(dǎo)航定位精度的需求也在逐步增加,傳統(tǒng)的景象匹配方式已經(jīng)無法滿足厘米級的定位需求。如圖6所示,地圖匹配尤其是高精度地圖匹配成為了無人系統(tǒng)的導(dǎo)航方法之一。高精度地圖[34]預(yù)先由載波相位實時動態(tài)差分全球定位系統(tǒng) (Real-Time Kinematic Carrier Phase Differential Global Navigation Satellite System, RTK-GNSS)、激光雷達、視覺、里程計和慣性傳感器等組合構(gòu)建,精度一般優(yōu)于20cm,相對于傳統(tǒng)地圖有著更多維度的數(shù)據(jù),例如道路標志物、車道線、道路形狀、坡度、曲率和航向等。更多維的數(shù)據(jù)也對無人系統(tǒng)在匹配時的技術(shù)提出了新的挑戰(zhàn),為了提高高精度地圖定位的精度與可靠性,在匹配特征方面,S.Ratz等[35]提出了一種基于激光雷達單次掃描的全局匹配方法,并利用定制神經(jīng)網(wǎng)絡(luò)的激光雷達/視覺段描述符提高了匹配的準確性,定位誤差小于15cm。在位姿估計方面,R.Asghar等[36]將基于ICP的車道級地圖匹配和基于決策規(guī)則的拓撲地圖匹配相結(jié)合,實現(xiàn)了車輛速度60km/h下80cm的導(dǎo)航精度。多維數(shù)據(jù)也會帶來更大的存儲及搜索成本,為了提高在大范圍環(huán)境地圖中匹配的快速性,S.Garg等[37]基于視覺傳感器使用更短的代碼特征和相應(yīng)更長的候選匹配,提出了連續(xù)數(shù)據(jù)哈希和反索引融合列表,提高了大數(shù)據(jù)場景庫下的匹配速度與正確率。為了應(yīng)對環(huán)境隨季節(jié)變化帶來的匹配錯誤,H.Zhang等[38]提出了一種區(qū)分度匹配方法,將地標的空間關(guān)系與它們的外觀相結(jié)合,實現(xiàn)了季節(jié)變化環(huán)境外貌改變下的地圖可靠匹配。
圖6 視覺與激光雷達地圖匹配示意圖
目前,合作環(huán)境下導(dǎo)航的研究已經(jīng)取得了一定進展,在軍事、生產(chǎn)和運輸方面已經(jīng)得到了一定應(yīng)用,但需要提前構(gòu)建海量數(shù)據(jù)庫,在特征匹配方法、匹配速度及數(shù)據(jù)庫儲存技術(shù)上受到很多研究人員的關(guān)注。
非合作環(huán)境一般指無先驗信息的環(huán)境,隨著相機/激光雷達傳感器技術(shù)的成熟與硬件平臺計算能力的增長,利用此類傳感器可以在非合作場景下進行實時遞推導(dǎo)航。這類方法為無人系統(tǒng)的導(dǎo)航提供了全面的環(huán)境參考,支撐其更智能地自主執(zhí)行任務(wù)。此類方法可以分為里程計及地圖構(gòu)建技術(shù)。
視覺/激光雷達里程計技術(shù)通過連續(xù)感知無人系統(tǒng)周圍的環(huán)境信息,形成多幀數(shù)據(jù),并利用幀間的關(guān)聯(lián)性對載體的位姿進行遞推估計。此類技術(shù)可以分為視覺里程計、激光雷達里程計以及多信息融合里程計技術(shù)。按融合算法的不同可以分為基于濾波的里程計、基于優(yōu)化的里程計與基于深度學(xué)習的里程計技術(shù)。
? 視覺里程計自主導(dǎo)航技術(shù)
視覺里程計(Visual Odometry,VO)利用攝像頭作為傳感器進行感知獲得連續(xù)圖像數(shù)據(jù)幀,并通過匹配幀間像素關(guān)聯(lián)實現(xiàn)遞推導(dǎo)航,如圖7所示。VO按幀間的匹配方法不同可以分為間接法與直接法。間接法通過提取圖像內(nèi)具有一定不變性質(zhì)的特征點進行前后幀匹配,如加速分割檢測特征[39](Features from Accelerated Segment Test,F(xiàn)AST)、ORB[40]和加速魯棒特征[41](Speeded Up Robust Features,SURF)等,通過特征點計算描述子的相似度進行匹配;直接法則是利用圖像中的所有像素的梯度關(guān)系進行匹配。特征點法在特征豐富的情況下對光照變化等影響具有更好的魯棒性。直接法基于光照不變的假設(shè),利用圖像中更多的冗余信息,可以獲得更高精度的位姿估計精度,適用于特征較稀疏的環(huán)境,且由于無需計算描述子,實時性也更佳。
圖7 視覺匹配位姿求解示意圖
在VO技術(shù)框架方面,早期VO技術(shù)是以A.J.Davison等[42]提出的MonoSLAM為代表的基于KF架構(gòu)的VO,特點是利用單線程進行位姿估計以及地圖更新,但高維情況下復(fù)雜度較高,僅能在12個特征點數(shù)量左右實現(xiàn)實時跟蹤。目前的VO技術(shù)主要以G.Klein等[43]在并行跟蹤和構(gòu)圖(Parallel Tracking and Mapping,PTAM)中提出的位姿估計與構(gòu)圖并行雙線程優(yōu)化框架為代表,利用FAST作為特征點進行匹配求解,采用5點法和隨機采樣一致外點剔除方法估計本質(zhì)矩陣,實現(xiàn)單目攝像頭特征點的深度估計;同時利用非線性優(yōu)化算法進行實時導(dǎo)航解算,這讓基于離線運動恢復(fù)結(jié)構(gòu)(Structure from Motion,SfM)技術(shù)的光束平差法[44](Bundle Adjustment,BA)在VO中得到應(yīng)用,從而使精度得到了提升。J.Engel等[45]在此框架的基礎(chǔ)上提出了大范圍直接法單目SLAM(Large-Scale Direct Monocular SLAM,LSD-SLAM),利用圖像中的像素梯度信息與極線方向在稠密深度恢復(fù)中的角度關(guān)系,實現(xiàn)了移動端處理器上的實時位姿估計與半稠密場景構(gòu)建。R.Mur-Artal等[46]在此框架的基礎(chǔ)上,改用ORB特征點加強魯棒性,并改進深度初始化方法,無需場景平面假設(shè),同時加入了基于詞袋算法的回環(huán)檢測流程,提出了性能更好的ORB-SLAM算法。
但由于單目視覺成像過程中的深度信息丟失,且初始化的過程對載體的機動性要求較高,較難推廣用于無人系統(tǒng)的導(dǎo)航。為了減少此限制的影響,J.Engel等[47]提出了利用雙目視覺的直接法Stereo LSD SLAM,R.Mur-Artal等[48]提出了利用雙目、深度視覺的特征點法ORB-SLAM2,通過雙目或深度相機直接獲取深度信息,無需復(fù)雜的初始化過程,可實現(xiàn)無人系統(tǒng)在多種環(huán)境中的應(yīng)用。C.Campos等[49]提出的ORB-SLAM3算法,將ORB-SLAM2拓展至魚眼鏡頭,以利用更豐富的環(huán)境信息,并將初始化過程加入優(yōu)化函數(shù)中進行實時優(yōu)化;同時采用多子地圖算法,將累積遞推分割為多個子地圖,在場景重疊較多時進行無縫融合,在所有算法階段重用所有先前信息,進一步提高了導(dǎo)航解算精度。
深度學(xué)習也同樣被用于VO的位姿解算,B.Li等[50]利用場景中的文字語義信息輔助VO,將每個檢測到的文本視為一個平面特征與VO系統(tǒng)進行緊組合,提高了VO系統(tǒng)的魯棒性。S.Wang等[51]提出了一種基于遞歸卷積神經(jīng)網(wǎng)絡(luò)的單目視覺端到端框架DeepVO,直接從圖像數(shù)據(jù)學(xué)習位姿變化,不考慮相機模型誤差等一系列參數(shù),實現(xiàn)了自身位姿的遞推估計。N.Yang等[52]提出了一種單目VO深度學(xué)習框架,同時利用自監(jiān)督深度網(wǎng)絡(luò)估計深度、姿態(tài)和不確定性,將其與傳統(tǒng)VO系統(tǒng)框架進行緊組合,實現(xiàn)了較高的遞推精度。
? 激光雷達里程計自主導(dǎo)航技術(shù)
激光雷達測距誤差模型較為簡單穩(wěn)定,測距范圍較廣,如圖8所示。激光雷達里程計(LiDAR Odometry,LO)可以通過較為精確的測距點云進行點云匹配位姿解算,無需復(fù)雜的初始化尺度估計過程,目前在工業(yè)生產(chǎn)中得到了較為成熟的應(yīng)用,如掃地機器人、工業(yè)物流機器人等。
圖8 激光雷達點云匹配示意圖
LO可以分為基于二維激光雷達傳感器與三維激光雷達傳感器的導(dǎo)航技術(shù)。在二維激光雷達導(dǎo)航技術(shù)方面,在M.Montemerlo等[53]提出的Fast SLAM為代表的網(wǎng)格地圖基礎(chǔ)上,G.Grisettiyz等[54]提出了Gmapping是目前基于RB粒子濾波(Rao-Blackwellisation Partical Filter,RBPF)常用的算法,通過增加掃描匹配過程,提高了位姿估計精度。同樣基于掃描匹配過程,S.Kohlbrecher等[55]將其與慣性三維導(dǎo)航系統(tǒng)組合,提出了Hector SLAM,通過使用快速近似地圖梯度和多分辨率網(wǎng)格,提高了系統(tǒng)的魯棒性。為了進一步提升LO系統(tǒng)的精度,基于位姿圖非線性優(yōu)化的方法被提出,如Karto SLAM[56]、Lago SLAM[57]和Cartographer[58]等,Cartographer同時還加入了子圖構(gòu)建和回環(huán)檢測等環(huán)節(jié),提高了算法的整體魯棒性。
三維激光雷達導(dǎo)航技術(shù)方面,更豐富的感知點云數(shù)據(jù)為更高精度與魯棒性的導(dǎo)航算法奠定了基礎(chǔ),J.Zhang等[59]提出的LOAM將位姿遞推與優(yōu)化分為并行線程,遞推線程以高頻率但較低精度進行位姿遞推估計,以確保三維激光雷達的解算速度;優(yōu)化線程以較低的頻率運行,用于點云的精細匹配和配準,提高了定位性能。以LOAM為基礎(chǔ),T.Shan等[60]提出了LeGO-LOAM,增加了特征分割模塊,將地面進行分割作為單獨約束,在減少計算量的同時提高了動態(tài)環(huán)境下的穩(wěn)定性。為了提高LO系統(tǒng)的適應(yīng)性,J.E.Deschaud[61]提出了IMLS-SLAM,利用隱式移動最小二乘算法對環(huán)境地面區(qū)域進行提取,隨后對剩下點云聚類,并剔除小尺寸的聚類點,利用掃描點與模型進行匹配,實現(xiàn)了復(fù)雜城市環(huán)境下的高精度遞推導(dǎo)航,但由于地圖需要持續(xù)全局更新,實時性較差。
新類型的激光雷達傳感器也催生了不同的算法,J.Lin等[62]提出的Loam_livox針對固態(tài)激光雷達如Livox的小視場和不規(guī)則采樣的點云特性,設(shè)計了一種魯棒的實時導(dǎo)航算法。深度學(xué)習的方法也被應(yīng)用于LO系統(tǒng),如LO-net[63]、Deeppco[64]等,用于估計載體的位姿變化。
與視覺受限于無法給出可靠的尺度估計相同,激光雷達存在點云數(shù)量較少、頻率較低等問題,J.Zhang等[65]提出了V-LOAM,利用視覺較高頻率60Hz進行粗匹配,激光雷達1Hz進行精匹配,將像素與點云深度進行關(guān)聯(lián)以消除尺度不確定性,實現(xiàn)了無人系統(tǒng)上0.54%的導(dǎo)航精度。
多傳感器融合里程計技術(shù)由于可以利用異類傳感器進行優(yōu)勢互補,受到廣泛關(guān)注。T.Qin等[66]提出了VINS-Fusion,通過慣性傳感器感知估計視覺尺度,同時利用重力信息估計兩自由度姿態(tài)角,降低了后端估計消耗,同時慣性的高頻率性能也讓其可直接用于無人系統(tǒng)的控制輸入。慣性傳感器也可以提高激光雷達的魯棒性,C.Qin等[67]提出了LINS算法,通過迭代誤差狀態(tài)卡爾曼濾波器緊組合慣性與激光雷達數(shù)據(jù),使得無人系統(tǒng)在具有挑戰(zhàn)性的環(huán)境(如無特征場景)中實現(xiàn)魯棒和高效的導(dǎo)航。X.Ding等[68]將慣性和激光雷達強度信息整合到基于占用網(wǎng)格的激光雷達里程測量中,提出了環(huán)境變化檢測方法,通過對地圖的增量更新,實現(xiàn)了在動態(tài)變化的城市場景下的準確導(dǎo)航。
此外,多傳感器融合里程計技術(shù)使得無人系統(tǒng)可以在更惡劣的野外非結(jié)構(gòu)化環(huán)境中進行作業(yè),相比傳統(tǒng)結(jié)構(gòu)化環(huán)境中豐富的特征點以及明顯的幾何特征,野外非結(jié)構(gòu)化環(huán)境對無人系統(tǒng)環(huán)境感知能力提出了更嚴格的要求。Y.Yue等[69]提出了一種基于視覺/激光雷達多模態(tài)環(huán)境感知的動態(tài)協(xié)同映射方法,使得無人系統(tǒng)可以長期在包括日夜變化的野外非結(jié)構(gòu)化環(huán)境中進行魯棒定位。D.Wisth等[70]提出了一種多模態(tài)視覺/激光雷達/慣性緊組合導(dǎo)航方法,利用視覺像素信息與激光雷達深度信息融合感知,實現(xiàn)了在DARPA地下挑戰(zhàn)賽非結(jié)構(gòu)化洞穴環(huán)境內(nèi)的無人車魯棒自主導(dǎo)航。P.Burger等[71]提出了在非結(jié)構(gòu)化環(huán)境中基于B曲線的激光雷達道路分割方法,并利用無跡卡爾曼濾波進行預(yù)測跟蹤,通過將道路信息加入后端圖優(yōu)化框架進行位姿估計,實現(xiàn)了無人車在野外非結(jié)構(gòu)環(huán)境中的自主運行與道路建模。
本文以KITTI Odometry 2012數(shù)據(jù)集提供的慣性/視覺/激光雷達感知數(shù)據(jù)集為基準,列出了目前較高精度的里程計算法性能,如表4所示,主要以平移誤差進行排序,并通過旋轉(zhuǎn)誤差、感知手段和運行時間進行全面對比。
表4 里程計方法自主導(dǎo)航精度對比(2021年1月)
可以看出,以里程計技術(shù)為代表的非合作環(huán)境自主導(dǎo)航技術(shù)已經(jīng)取得了一定進展,學(xué)者們更關(guān)注在特定環(huán)境數(shù)據(jù)下通過改進特征提取方法、匹配方法或融合新類型傳感器等實現(xiàn)精度的提升,在對傳感器硬件與導(dǎo)航算法的兼容上研究較少。目前的算法在特定、小范圍、光照穩(wěn)定、環(huán)境特征豐富的環(huán)境下可以進行精確的導(dǎo)航,但是在隨機、大范圍、環(huán)境特征較為稀疏的情況下,仍存在較大的提升空間。同時,目前導(dǎo)航算法主要依賴高性能處理器才可達到實時處理,實時性仍有待加強。
? 地圖構(gòu)建技術(shù)
在通過里程計技術(shù)獲取精準位姿的基礎(chǔ)上,將感知信息處理后投影至統(tǒng)一坐標系,可以對環(huán)境進行建模,從而實現(xiàn)環(huán)境地圖的構(gòu)建。實際應(yīng)用中,根據(jù)無人系統(tǒng)不同的任務(wù)需求,可以構(gòu)建包括度量地圖、拓撲地圖及語義地圖在內(nèi)的不同類型的地圖。度量地圖的特點是可以通過精確的坐標唯一表示地圖中的所有物體,如視覺特征點圖和激光雷達占用柵格圖等,可以用于固定場景內(nèi)無人系統(tǒng)的精確導(dǎo)航與路徑規(guī)劃。拓撲地圖著重于兩地點間的連通性,通過帶節(jié)點和相關(guān)連接線用圖的方式表達環(huán)境,更適用于場景的快速探索。語義地圖則通過對場景的理解,對場景中的物體打上語義標簽,將場景中的道路或目標點以標簽的集合作為表示,可以顯著提高無人系統(tǒng)的智能性及自主性,但語義的提取需要較大的精確感知數(shù)據(jù)量且后續(xù)維護工作繁雜。
在實際使用時,結(jié)合多種地圖類型的特性,如圖9所示,自動駕駛的高精度地圖融合了多種地圖類型,包括度量及語義地圖。在規(guī)劃時利用拓撲地圖可以實現(xiàn)無人系統(tǒng)的高智能自主行駛,但其獲取高精度數(shù)據(jù)感知成本較高。為了降低獲取精確感知數(shù)據(jù)的成本,J.Zhang等[75]提出的LiStereo采用自我監(jiān)督的訓(xùn)練網(wǎng)絡(luò),將視覺與激光雷達數(shù)據(jù)融合,提高了獲取感知數(shù)據(jù)的分辨率與精度,并將其用于高分辨率地圖構(gòu)建。A.Parikh等[76]為了提高語義地圖的構(gòu)建效率,通過融合語義和幾何信息聯(lián)合構(gòu)圖,采用增量式對象分割和分類方法實時更新地圖,并引入信息論和啟發(fā)式度量算法,用于快速規(guī)劃載體的運動和降低地圖構(gòu)建的不確定性。M.Narayana等[77]針對地圖中動態(tài)物體變化和長時間下場景變化的問題,通過引入元語義映射層解決長時間情況語義不一致問題,并在語義發(fā)現(xiàn)層允許語義更新,從而實現(xiàn)了無人系統(tǒng)上的終身室內(nèi)地圖更新。
(a)激光雷達高精度地圖示意
可以看出,在地圖構(gòu)建上,單一的地圖表達方式已無法滿足無人系統(tǒng)的智能化需求,需要結(jié)合多地圖特性構(gòu)建更抽象、可靠、豐富的新型地圖表述方式,且地圖應(yīng)具備長時間甚至終身更新的能力,使得無人系統(tǒng)具備在運行過程中持續(xù)優(yōu)化導(dǎo)航精度的能力。
無人系統(tǒng)智能化水平的快速提升離不開感知與自主導(dǎo)航技術(shù)的飛速發(fā)展,依靠全球衛(wèi)星定位系統(tǒng)的高精度定位,已經(jīng)可以在室外開闊環(huán)境下實現(xiàn)自主運行。但在室內(nèi)、地下、隧道和對抗等衛(wèi)星信息被遮擋或屏蔽的環(huán)境下,目前還亟待對自主的高精度無人系統(tǒng)感知與導(dǎo)航技術(shù)進行研究和實現(xiàn)。
視覺傳感器由于缺少尺度信息及依靠外界光源,雙目與RGB-D傳感器無法感知遠距離尺度信息,且視覺傳感器感知信息存在映射過程,對傳感器模型建立精度要求較高,單純基于視覺的導(dǎo)航誤差目前仍然大于1%里程(Distance,D),因此需要在低動態(tài)、良好光照環(huán)境下應(yīng)用。
激光雷達利用深度感知原理,可以在結(jié)構(gòu)良好、特征豐富的環(huán)境下實現(xiàn)0.5%D的定位精度,但存在感知信息較為稀疏的問題,需要環(huán)境中存在較為明顯的特征結(jié)構(gòu)。
由于視覺與激光雷達傳感器感知信息量和信息特征差異較大,目前傳統(tǒng)融合估計方法仍然無法克服兩種傳感器的缺陷,融合框架多為視覺輔助激光雷達導(dǎo)航,導(dǎo)航精度仍與單一激光雷達傳感器定位精度相同?;谏疃葘W(xué)習的感知與導(dǎo)航算法雖然可以在限定的數(shù)據(jù)下取得較好的性能,但在存在動態(tài)變化的復(fù)雜環(huán)境,尤其是未知環(huán)境下,其導(dǎo)航與感知結(jié)果會出現(xiàn)較大的誤差,算法適用性較差;且深度學(xué)習的感知與導(dǎo)航算法需要較高的硬件計算能力與功耗。目前,不依賴衛(wèi)星的感知與自主導(dǎo)航技術(shù)仍然需要在小范圍、靜態(tài)、良好光照條件下應(yīng)用。
隨著研究的深入與應(yīng)用的拓展,未來無人系統(tǒng)的感知與自主導(dǎo)航技術(shù)存在著以下挑戰(zhàn)與機遇。
1)更大范圍的作業(yè)需求對無人系統(tǒng)多層次協(xié)同感知技術(shù)提出了挑戰(zhàn)。無人系統(tǒng)往往處于大范圍作業(yè)環(huán)境下,由于其自身體積有限,依靠單一信息源和單一觀測角度的感知方式將難以準確全面地進行環(huán)境感知。同時,更大范圍的作業(yè)場景也會帶來更大的尺度誤差與激光雷達的點云稀疏物體,需要結(jié)合視覺圖像與激光雷達點云的像素及深度多層次信息、空地協(xié)同多角度感知信息,對環(huán)境進行多角度多層次建模。因此,多傳感器的聯(lián)合感知及多無人系統(tǒng)間聯(lián)合感知是未來本領(lǐng)域的一個主要研究方向。
2)場景中的隨機、動態(tài)因素與無人系統(tǒng)自身的動態(tài)特性對感知與導(dǎo)航技術(shù)提出了新的挑戰(zhàn)?,F(xiàn)實中,巡檢、安防與運輸?shù)热蝿?wù)都要求無人系統(tǒng)具備長時間自主作業(yè)的能力,長期工作環(huán)境中不僅面臨作業(yè)人員、突發(fā)事件的短期隨機干擾,還伴隨著日夜交替、季節(jié)交替及物體交替的長期不穩(wěn)定變化,同時場景也會包括結(jié)構(gòu)化與非結(jié)構(gòu)化環(huán)境。此外,無人系統(tǒng)在不同任務(wù)下自身運動特性的不同也會對感知誤差模型造成影響。這要求無人系統(tǒng)不僅需要感知可靠的幾何特征,還需要具備多動態(tài)環(huán)境下準確穩(wěn)定的環(huán)境認知與重構(gòu)能力,對環(huán)境中的障礙物和適用于導(dǎo)航的物體進行語義識別與抽象儲存,實現(xiàn)對長期變化場景的穩(wěn)定不變理解與穩(wěn)定可靠導(dǎo)航。因此,傳感器動態(tài)感知模型的建立及動態(tài)場景的理解和更新也是未來本領(lǐng)域的一個主要研究方向。
3)長期作業(yè)的需求對無人系統(tǒng)的長航時環(huán)境導(dǎo)航自適應(yīng)技術(shù)提出了挑戰(zhàn)。未來無人系統(tǒng)環(huán)境要求具備終身作業(yè)能力,但環(huán)境中不僅存在動態(tài)物體的干擾,還存在長航時作業(yè)中由于作業(yè)目標場景改變,在自主前往新目標時途中出現(xiàn)的室內(nèi)/外交替帶來的感知信息源的變化。無人系統(tǒng)需要面對信息源變化對整體導(dǎo)航系統(tǒng)架構(gòu)帶來的干擾,在部分特殊場景,還會出現(xiàn)地面無人系統(tǒng)視角受限、導(dǎo)航解算參考信息不足,導(dǎo)致導(dǎo)航定位精度降低。因此,對無人系統(tǒng)的終身導(dǎo)航技術(shù)研究也是未來本領(lǐng)域的另一個主要研究方向。
除了技術(shù)上的挑戰(zhàn),在算法實際落地過程中,如何提高算法的計算效率,如何實現(xiàn)芯片級的運行,以及如何擺脫對特殊傳感器和高能耗計算平臺的依賴等關(guān)鍵問題,同樣也亟待解決和突破,最終使得無人系統(tǒng)真正步入自主、智能的全新時代。