裴漢林
摘要:自動駕駛車輛是由環(huán)境感知、定位導航、路徑規(guī)劃、運動控制等組成。充分考慮車路合一,協(xié)調(diào)規(guī)劃的車輛系統(tǒng)。自動駕駛的環(huán)境感知系統(tǒng)融合了超聲波傳感器、紅外線傳感器、激光雷達、毫米波雷達等多種傳感器的數(shù)據(jù)來獲取道路信息。為此,本文首先介紹了激光雷達在自動駕駛感知系統(tǒng)的應(yīng)用。然后對自動駕駛環(huán)境感知系統(tǒng)的關(guān)鍵技術(shù):目標檢測、跟蹤、場景分割分別進行研究。
關(guān)鍵詞:自動駕駛;環(huán)境感知;深度學習
1? 研究背景及意義
近年來,隨著人工智能和深度學習技術(shù)的不斷深入研究,自動駕駛技術(shù)被認為是最具有研發(fā)價值的領(lǐng)域之一。然而,將自動駕駛汽車應(yīng)用到實際復(fù)雜的道路交通場景,還存在著一定的差距。因此,環(huán)境感知系統(tǒng)是自動駕駛汽車的重要組成部分。主要的任務(wù)是識別和分類道路障礙、交通標志、信號燈、行人車輛等,能夠分析判斷出車輛所處環(huán)境的位置[1]。
環(huán)境感知系統(tǒng)是自動駕駛車輛的關(guān)鍵技術(shù)之一。它對于交通場景語義的準確理解以及車輛做出相應(yīng)的行為決策都是至關(guān)重要,是行車安全與智能化的一個重要保障?;谏疃葘W習的神經(jīng)網(wǎng)絡(luò)算法在人工智能領(lǐng)域的深入研究,促使了自動駕駛的變革。傳統(tǒng)的環(huán)境感知算法對于處理復(fù)雜的交通場景道路準確性和實時性達不到預(yù)期的效果。而基于深度學習的卷積神經(jīng)網(wǎng)絡(luò)算法可以很好的處理龐大的數(shù)據(jù)集訓練出理想的模型,可以很迅速的感知車輛前方的道路信息,可以及時的給車輛感知系統(tǒng)反饋,在實時性和準確率方面都有一定的提升。
2? 環(huán)境感知技術(shù)的國內(nèi)外研究現(xiàn)狀
許多政府機構(gòu)、學術(shù)界和工業(yè)界都在自動駕駛系統(tǒng)上投入了大量的資源,如CMU、Stanford、清華大學、Google、百度、阿里、華為等。在過去的十年里,人們對環(huán)境感知模塊進行了深入研究。對于道路信息的信息收集通常由多個傳感器采集,如相機、雷達、激光雷達和紅外傳感器。預(yù)處理后,提取環(huán)境中物體的各種特征,如道路、車道、交通標志、行人、車輛等。
在國內(nèi)主要的科研公司代表是百度阿波羅(Apollo)L4級別的自動駕駛車輛,2019年研發(fā)了一套完整的L4級別的視覺感知系統(tǒng)。該系統(tǒng)可支持對10路攝像頭,200fps數(shù)據(jù)量的同步處理,最高丟幀率在5%以下,可實現(xiàn)全方位360的道路場景感知,障礙物最遠檢測距離達240m。這套視覺感知方案最突出的地方是可不依賴高速機械旋轉(zhuǎn)的激光雷達探測信息,就可以實現(xiàn)在城市道路上實現(xiàn)端到端閉環(huán)的L4級別的自動駕駛。使得在一定程度上降低了自動駕駛車輛的成本費用,創(chuàng)造了更多的應(yīng)用價值。
在國外的自動駕駛環(huán)境感知眾多研究領(lǐng)域,其中美國的特斯拉(Tesla)公司在自動駕駛這一領(lǐng)域的研究有著領(lǐng)先水平,尤其在環(huán)境感知這一方面來講,其視覺系統(tǒng)是由超聲波雷達、攝像頭、GPS定位系統(tǒng)等構(gòu)成,偵測范圍可達250m,該系統(tǒng)的觀測視野遠比人眼更加廣闊,獲得交通道路信息更多。為解決激光雷達費用昂貴的問題,總部位于美國的Cepton公司研究出一款價格低于1000美元以下的激光雷達Vista-X90,檢測距離最遠可達200m,可實現(xiàn)高分辨率的空間三維成像。
通過國內(nèi)外的自動駕駛環(huán)境感知研究現(xiàn)狀的分析,車輛對周圍環(huán)境的實時感知和理解是十分關(guān)鍵。其面臨著需要處理來自多個傳感器的大量數(shù)據(jù)的挑戰(zhàn),如相機、無線電探測和測距(雷達)、光探測和測距(激光雷達)。因此對于自動駕駛環(huán)境感知系統(tǒng)的目標檢測、目標識別、目標跟蹤和駕駛員行為分析以及場景理解等關(guān)鍵技術(shù)的研究十分必要。
3? 環(huán)境感知技術(shù)的應(yīng)用
深度學習是機器學習為基礎(chǔ)的更深層次學習,通俗來理解為通過大量的數(shù)據(jù)標簽,總結(jié)出規(guī)律訓練出想要的模型,然后通過該規(guī)律將與新的數(shù)據(jù)智能分類和預(yù)測[2]。深度學習技術(shù)覆蓋范圍包括醫(yī)學圖像工程輔助診斷、人臉識別、自然語言處理、圖像處理等科學研究領(lǐng)域。
深度學習的卷積神經(jīng)網(wǎng)絡(luò)(CNN)的不斷研究,推動了自動駕駛在環(huán)境感知、運動控制、行為決策等多項關(guān)鍵技術(shù)的慢慢走向成熟。在自動駕駛領(lǐng)域,以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為基礎(chǔ),進一步開發(fā)的R—CNN、Fast R—CNN. SSD、YOLO等神經(jīng)網(wǎng)絡(luò)[3]。下面將介紹深度學習在自動駕駛環(huán)境感知技術(shù)應(yīng)用。
3.1 激光雷達的交通場景識別
自動駕駛的激光雷達是通過發(fā)射激光束來探測目標位置的雷達系統(tǒng),同時也可獲得車輛周圍的深度信息,可以準確的判斷出車輛周圍的障礙。如美國Velodyne公司的64線中的激光需達,它的機械式旋轉(zhuǎn)結(jié)構(gòu)能夠?qū)崟r地建立起周圍環(huán)境的3D場景圖。目前,激光雷達因其測量的高度可靠性、精確性,仍是自動駕駛系統(tǒng)中最重要的視覺傳感器之一。但是在開闊地帶,由于缺乏特征點,會存在點云過于稀疏,至丟失點的問題。最近幾年研究者開始使用卷積神經(jīng)網(wǎng)絡(luò)來對三維的點云聚類進行分類,在實際工程應(yīng)用中通過將采用激光雷達獲取目標的深度信息,并且通過攝像頭采集到的視頻信息,將其兩種數(shù)據(jù)融合基于CNN的各種目標檢測識別算法,來獲取交通道路場景獲取的目標位置及分類[4]。所以在實踐中通常采用多傳感器融合的方式,來獲取交通場景的周圍信息[5]。
3.2 目標檢測
在自動駕駛的環(huán)境感知系統(tǒng)中,對交通信號燈、行人和車輛、車道線以及可行駛區(qū)域、交通標志的識別檢測是一項關(guān)鍵的技術(shù)內(nèi)容。傳統(tǒng)的目標檢測算法主要是采用多尺度滑動窗口來獲取圖像,計算的數(shù)據(jù)量龐大,并且會產(chǎn)生冗余的窗口,魯棒性較差,目標信息的特征容易受外界環(huán)境影響,分類的精度較低,泛化能力差。
隨著深度學習算法的提出,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法的目標檢測技術(shù)慢慢的應(yīng)用到實際的工程應(yīng)用中。其中在深度學習的目標檢測算法又可分為:①基于two stage的車輛檢測方法:如R-CNN、FAST-R CNN、FASTER-R CNN等。這種算法主要分兩步進行:首先選取候選區(qū)域,再進行分類和回歸。②基于one stage的車輛檢測方法:以SSD、YOLO為基礎(chǔ)衍生的一些列檢測算法。該算法的特點是一種端到端的網(wǎng)絡(luò)結(jié)構(gòu),直接將目標檢測的問題轉(zhuǎn)化成回歸問題,不再需要選取候選區(qū)域。這兩者算法的綜合比較后者因為網(wǎng)絡(luò)結(jié)構(gòu)更加簡單,計算量以及訓練數(shù)據(jù)的相對減少,使得實時性更好,在環(huán)境感知系統(tǒng)中更適應(yīng)實際的交通道路場景。
為了更好的判斷目標檢測這些算法的優(yōu)劣,我們需要一系列的數(shù)據(jù)集。我們常用的數(shù)據(jù)集包PASCAL VOC數(shù)據(jù)集、COCO數(shù)據(jù)集、ImageNet數(shù)據(jù)集、MIT(行人數(shù)據(jù)集)、KITTI(車輛數(shù)據(jù)集)、CTSD(中國交通標志數(shù)據(jù)集)等。
3.3 目標跟蹤
自動駕駛車輛的感知系統(tǒng)中另外一項關(guān)鍵技術(shù)就是對車輛前方障礙物的目標跟蹤,其中對象包括車輛軌跡跟蹤、非機動車輛軌跡跟蹤、行人軌跡跟蹤等。目標跟蹤技術(shù)對行車安全至關(guān)重要,能夠有效的預(yù)測物體運動的軌跡,從而控制層可以提前做出碰撞預(yù)警以及變道處理等決策。
目標跟蹤的的應(yīng)用從目標數(shù)量上可分為單目標跟蹤(SOT)和多目標跟蹤(MOT),而在實際的交通場景更多的是MOT,考慮到多個車輛目標在實際運動中上一幀到下一幀的匹配關(guān)系。目標跟蹤算法大致可分為兩種:①生成式:均值漂移算法(Meanshift)、卡爾曼(Klaman)濾波算法等;②判別式:相關(guān)濾波算法、基于深度學習的跟蹤算法。兩種算法的比較下后者更具有魯棒性,應(yīng)用在自動駕駛車輛感知系統(tǒng)中。
為了評價各種目標跟蹤算法的實用性,這里將介紹通用的數(shù)據(jù)集與評價指標。常用的數(shù)據(jù)集有MOT數(shù)據(jù)集專門用于行人和車輛的跟蹤。目標跟蹤技術(shù)當今面臨的關(guān)鍵問題:①光照變化;②物體快速運動造成的圖像模糊;③視覺傳感器與周圍目標距離的變化,也稱尺度變化;④背景雜亂,相似的目標物體的每一幀的檢測過程中會造成匹配錯誤,從而丟失了跟蹤目標。
3.4 場景分割
自動駕駛系統(tǒng)中另一項核心技術(shù)就是交通道路場景語義分割,影響著車輛的自主導航與行為決策,它對于環(huán)境的理解和分析有著重要的意義。語義分割是在像素級別的標準,通過對目標進行分類,如行人、車輛、車道線、草地、建筑物等。場景的分割即是對圖片的語義分割,幫助自動駕駛的感知系統(tǒng),建立交通場景的語義實體模型以及對周圍環(huán)境理解,判斷出可行駛區(qū)域的重要工具。
將深度學習的方法應(yīng)用到場景分割是一項突破性的成果,提高了行車的安全性以及對交通場景分割的準確性和時效性。深度學習的語義分割的方法主要有:①基于空洞卷積的方法;②基于編解碼的方法;③基于特征融合的方法;④基于RNN的方法;⑤基于注意力機制的方法。
為評價場景分割的算法的實時性和性能,我們需要在特定的數(shù)據(jù)集上進行測試,常用的大型公共數(shù)據(jù)集按場景類可分為以下幾種:①室外場景:Stanford back-ground、siftflow數(shù)據(jù)集,特點是類別和分辨率低;②駕駛場景:KITTI-Ros、智能機器人和自動駕駛的常用數(shù)據(jù)集;③城市街道場景:Cityscaps利用車載攝像頭采集的歐洲街道場景;④復(fù)雜場景:ADE20K、MS COCO數(shù)據(jù)集場景類別較多,包含的樣本數(shù)量和類別較多。
4? 總結(jié)與展望
本文針對環(huán)境感知的目標檢測與跟蹤、場景分割三項關(guān)鍵技術(shù)進行深入理解,并且給出用來測試的數(shù)據(jù)集。但自動駕駛的環(huán)境感知技術(shù)的研究還需要在以下幾個方面進行完善:①環(huán)境感知系統(tǒng)應(yīng)適用于更加復(fù)雜的天氣情況包括夜間、霧天雨天;②激光雷達傳感器費用昂貴,可以考慮縮減成本,使用其他的高性能視覺傳感器;③加大力度投入計算機視覺領(lǐng)域研究,通過提升算法的性能,對處理圖像的準確率和時效性滿足現(xiàn)在交通場景的要求;④優(yōu)化視覺傳感器的抗干擾性能和數(shù)據(jù)處理速度。若是能夠充分考慮這些內(nèi)容進行改善,這將對自動駕駛汽車的舒適性、安全性、穩(wěn)定性有著巨大的影響。
參考文獻:
[1]高銘.基于深度學習的復(fù)雜交通環(huán)境下目標跟蹤與軌跡預(yù)測研究[D].吉林大學,2020.
[2]章軍輝,陳大鵬,李慶.自動駕駛技術(shù)研究現(xiàn)狀及發(fā)展趨勢[J].科學技術(shù)與工程,2020,20(09):3394-3403.
[3]李健明.基于深度學習的無人駕駛汽車環(huán)境感知與控制方法研究[D].長安大學,2019.
[4]陳兆一.基于三維激光點云的復(fù)雜場景人體目標識別[D].北京郵電大學,2019.
[5]宮銘錢,冀杰,種一帆,陳瓊紅.基于激光雷達和視覺信息融合的車輛識別與跟蹤[J/OL].汽車技術(shù):1-8[2020-09-28].