劉丹萍,汪 珺,葛文祥
(合肥學院 先進制造工程學院, 合肥 230000)
自動駕駛技術(shù)近年來發(fā)展迅速,相關(guān)的科學研究是助力自動駕駛快速發(fā)展的迫切需求。在自動駕駛開發(fā)流程中,視覺感知技術(shù)的研究占據(jù)重要位置。當前自動駕駛的研究在很多交通場景下展開,以目前的發(fā)展情況,慢速園區(qū)的自動駕駛產(chǎn)品成為核心力量。面向低速校園配送車輛的自動駕駛技術(shù),對基于攝像頭傳感器的校園交通場景中車道線檢測技術(shù)進行研究。高級駕駛輔助系統(tǒng)在自動駕駛概念成為全球關(guān)注熱點的今天越來越廣泛地被應(yīng)用到日常駕駛之中。相關(guān)學者開展的研究包括:車道檢測[1-3]、道路檢測[4-8]、前車碰撞警告[9-10]、交通標識檢測[11-12],交通道路發(fā)生擁堵工況的場景檢測[13-14],以及交通場景中道路上的交通標記和其他標記的檢測[15-16]。在以上的研究工作中,車道檢測是不可替代的研究工作,其在高級駕駛輔助和自動駕駛應(yīng)用中扮演著重要的角色。在面向車道線的檢測研究中,相關(guān)學者對霍夫變化算法進行了大量研究,楊喜寧等[17]對車道線的檢測工作提出了一種新穎的可以提升檢測效果的模型增強霍夫變換算法,劉富強等[18]提出了一種能同時適應(yīng)彎道和直道的車道線檢測算法,趙穎等[19]提出一種簡化引導的實時的公路車道線檢測算法,一些學者對實時性或魯棒性的問題高度關(guān)注,孫偉等[20]提出一種通過提升實時性和強化魯棒性來提升檢測效果的車道線檢測算法,交通場景中負責的背景圖像經(jīng)常會干擾車道線的識別和定位,Guo等[21]提出一種實時且計算效率高的車道檢測算法,該算法可以有效檢測并避免城市或者高速公路上復雜背景圖像對車道線檢測的干擾,車道線的邊緣檢測是檢測工作的核心,但由于車道線寬度較窄,一般的研究工作都是只檢測一條邊緣,Deng等[22]為了提升檢測車道線的精度,專門提出一種提取車道線雙邊緣的檢測方法,并通過驗證提升了檢測效果。
綜合分析國內(nèi)外學者的研究成果,發(fā)現(xiàn)當前對車道線的檢測在校園封閉場景的研究不足。當前車道線的檢測很少針對特定的交通場景進行研究,而實際上更多的研究是面向結(jié)構(gòu)化程度很高的高速公路或者良好的城市道路。在高結(jié)構(gòu)化交通場景中,車道線往往是要符合交通法規(guī)的,同時整個園區(qū)的車道線應(yīng)該按照同一標準繪制,最后所有的車道線都是清晰可見的。以中國常見的大學校園場景為例分析,此類場景沒有規(guī)范性的交通規(guī)則,甚至在同一園區(qū)內(nèi),不同年份繪制的車道線都不具有統(tǒng)一性的要求,很多老舊園區(qū)的車道線保養(yǎng)狀況更是殘次不齊,很多車道線的清晰程度很低。當前的檢測算法對于車道線不完整、車道線外形不統(tǒng)一的情況無法保證較高的檢測精度。
園區(qū)交通場景中的車道線存在不規(guī)范、不統(tǒng)一、不清晰的問題為車道線檢測帶來了很多干擾,針對不完整車道線難以檢測繪制等相關(guān)問題,融合遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和深度強化學習(DRL)算法提出局部定位車道線檢測方法,以求提升檢測的精度。局部檢測是針對研究存在的弱光照車道線辨別度低、殘缺車道線出現(xiàn)漏檢、標簽噪聲導致學習模型中數(shù)據(jù)圖片利用率低下、學習算法泛化能力差,提出基于遞歸神經(jīng)網(wǎng)絡(luò)和稀疏懲罰的學習檢測方法,首先通過圖形學的方法完成灰度處理和霍夫變換,其中對弱光照圖像進行灰度拉伸,改善弱光照場景下車道線辨別度低的問題,然后基于學習的方法,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)圖像進行處理,其中通過感興趣區(qū)域的RNN學習模型設(shè)計,自適應(yīng)檢測并補全殘缺的車道線,最后設(shè)計稀疏懲罰去除被噪聲污染的圖像標簽,提升數(shù)據(jù)的利用率;定位檢測是通過深度強化學習,對前述檢測結(jié)果——局部位置區(qū)域進行切割,在每一條橫向分割線上,通過馬爾可夫決策模型對車道線的交點進行定位,最終通過將多點進行連接和繪制完成車道線。
首先使用圖形學的方法對圖像進行預處理,對圖像進行灰度處理,將圖像有彩色的特征轉(zhuǎn)變?yōu)楹诎椎奶卣鳌?/p>
(1)
其中,ni為像素中灰度的數(shù)目;N為目標圖像總像素的數(shù)目;p(i)為目標圖像中灰度像素的百分比。
在車道線檢測中,車道線與道路以及其他環(huán)境物體的顏色差異性越大越好,為了將這種差異性進一步明確,在傳統(tǒng)灰度計算的基礎(chǔ)上,要進行灰度值的拉伸計算,其中拉伸算法采用三段法,如下:
(2)
在極坐標下進行霍夫變換,其中圖形的像素坐標系的橫坐標、縱坐標以及向量與坐標系的夾角分別用x、y、θ表示:
ρ=xcosθ+ysinθ
(3)
通過霍夫變換可以檢測到待測圖像中所有的共線的點,這些點會包含一些干擾物的邊緣,如樹木、路燈等。具體來說,設(shè)計遞歸神經(jīng)網(wǎng)絡(luò)模型,以車道線的梯度特征和幾何屬性作為參考,對訓練集數(shù)據(jù)圖像進行訓練,排除具有類似梯度分布的干擾物,并補全幾何形態(tài)相符,但梯度參數(shù)不全的殘缺車道線段落。遞歸神經(jīng)網(wǎng)絡(luò)模型設(shè)計如下,其中c為遺忘門,b為輸入門,α為{b,c,d}。
(4)
(5)
自定義數(shù)據(jù)集無法避免地存在一定比例的帶有被污染標簽的數(shù)據(jù)樣本。針對數(shù)據(jù)樣本標簽往往被污染的情況,應(yīng)用稀疏懲罰方法設(shè)計噪聲容忍的遞歸神經(jīng)網(wǎng)絡(luò)學習模型,以大大提升數(shù)據(jù)樣本的利用效率。針對目標數(shù)據(jù)標簽,基于稀疏懲罰模型最小化目標函數(shù)如下:
(6)
其中,F(xiàn)為標簽矩陣,V為最下層的輸出參數(shù),W為轉(zhuǎn)置矩陣,U為最上層的輸出參數(shù),RNN單元如圖1所示,Ct-1是對應(yīng)下標時間步的門參數(shù),ht是對應(yīng)下標時間步的狀態(tài),xt是對應(yīng)下標時間步的神經(jīng)元。
圖1 RNN單元結(jié)構(gòu)Fig.1 Unit structure of RNN
車道線檢測過程的第二步是使用DRL模型,在第一步遞歸神經(jīng)網(wǎng)絡(luò)檢測得到車道線所在的局部區(qū)域后,通過強化學習將6個車道線定位標識點進行準確定位,再基于這6個標識點完成車道線的檢測和繪制工作。本文的車道線檢測算法中強化學習的模型是目標點在感興趣區(qū)域的橫向分割線上從隨機定位開始進行隨機移動,以位置與車道線上的標簽點發(fā)生重合為完成任務(wù)的標準。通過設(shè)置獎勵函數(shù),目標點不斷地與車道線重合,最終完成最優(yōu)策略的學習。
通過強化學習算法模型尋找最優(yōu)策略,車道線定位和檢測中,將車道線局部區(qū)域用垂直方向6個等距線分割,每條分割線上的定位點就是智能體算法模型的控制對象,環(huán)境模型則是定位點在分割線上的水平移動,強化學習的目標是將定位點與車道線對齊。優(yōu)化函數(shù)如下:
(7)
其中,Q表示期望獎勵,s表示當前狀態(tài),s′表示下一步狀態(tài),a表示動作,r表示獎勵,α表示學習率,β表示衰減率。
在智能體與環(huán)境的交互中,定位點的動作有3種,第一種是定位錯誤,刪除定位點,第二種是定位點向車道線的方向移動,第二種是定位結(jié)束。
當定位點的位置偏差較大時,智能體會選擇刪除這一定位點,以提升定位的效率,刪除定位點這一動作的獎勵如下,其表示如果定位點刪除錯誤的話,給予智能體-10的懲罰:
RA(s,s′)=-10
(8)
定位點移動的目標是找到車道線位置,在水平分割線上移動時,定位點的移動要么向左要么向右,如果定位點的移動方向是正確的,移動的結(jié)果是縮短了定位點與車道線之間的距離,即給予+3的獎勵,反之,要給予-3的懲罰,如下:
(9)
定位結(jié)束后需要對定位點和車道線的距離進行判斷,判斷基準為6個像素的長度,如果定位點在移動結(jié)束后,距離車道線的距離小于6個像素,即給予+5的獎勵,繁殖,要給予-5的懲罰,如下:
(10)
在水平分割線上智能體通過與環(huán)境的自主交互完成定位點的精確定位,進而得到車道線的檢測結(jié)果。
基于大規(guī)模多樣化的車道線檢測數(shù)據(jù)集開展訓練工作,一共進行了350 000次時間步的迭代,這里每進行500個時間步的迭代進行一次記錄,一共記錄下700個數(shù)據(jù)點。網(wǎng)絡(luò)模型在訓練集和驗證集的損失函數(shù)變化如圖2所示。在經(jīng)過約200 000次時間步的迭代后,訓練集和測試集的損失不再發(fā)生大范圍的變化,網(wǎng)絡(luò)模型進入了權(quán)重微調(diào)的階段。經(jīng)過約300 000個時間步的迭代,算法結(jié)構(gòu)的損失變化區(qū)域穩(wěn)定。在訓練結(jié)束后,網(wǎng)絡(luò)模型的損失值分別為0.017 63和0.031 72。通過觀察確定驗證集的損失沒有隨著訓練集損失的減少而出現(xiàn)增加,這說明網(wǎng)絡(luò)模型的訓練沒有出現(xiàn)過擬合的問題。
(a) 訓練集
(b) 測試集圖2 RNN模型訓練中參數(shù)變化曲線Fig.2 Parameter change curve in RNN training
在遞歸神經(jīng)網(wǎng)絡(luò)訓練后,將網(wǎng)絡(luò)模型通過遞歸神經(jīng)網(wǎng)絡(luò)開展訓練,訓練中每20個時間步迭代驗證一次網(wǎng)絡(luò)模型的訓練結(jié)果。網(wǎng)絡(luò)模型的訓練和驗證如圖3所示。整個訓練過程一共開展了約18 000個時間步,隨著訓練過程的逐步展開,訓練集和驗證集的獎勵函數(shù)也逐步增加。因為訓練集是每20個時間步進行一次驗證,所以驗證獎勵一共有900個數(shù)據(jù)點。隨機噪聲的引入是網(wǎng)絡(luò)模型在訓練中整理獎勵水平較低和收斂過程出現(xiàn)大量抖動的原因。在網(wǎng)絡(luò)模型的驗證階段,沒有輸入隨機噪聲,所以驗證階段的獎勵水平出現(xiàn)了提升。經(jīng)過12 000個時間步的迭代,網(wǎng)絡(luò)模型的訓練開始收斂并進入到了權(quán)重系數(shù)微調(diào)的階段。
(b) 測試集圖3 DRL模型訓練中參數(shù)變化曲線Fig.3 Parameter variation curve in DRL training
在校園交通場景下采集車道線圖像,實驗設(shè)備包括:乘用車、單目攝像頭、計算機,數(shù)據(jù)采集實驗中,訓練和測試數(shù)據(jù)分別采集了3 612幅和2 273幅,涵蓋不同天氣、光照、時間等因素,具備大規(guī)模、多樣性、合理標注的特征,深度學習框架為Pytorch,訓練圖像像素尺寸為640×480,權(quán)重衰減參數(shù)設(shè)計為0.000 2,動量參數(shù)設(shè)置為0.8,數(shù)據(jù)集部分樣本圖像如圖4所示。
圖4 校園場景車道線圖像Fig.4 Images of campus scene lane lines
通過訓練,噪聲容忍的遞歸神經(jīng)網(wǎng)絡(luò)檢測算法模型在對測試圖像的檢測中,實時性、可靠性、魯棒性都滿足設(shè)計要求,得到結(jié)果參數(shù)為:準確性96.33,假陽性0.054 1,假陰性0.018 3,實驗結(jié)果較為理想。部分校園場景車道線檢測結(jié)果如圖5所示。
圖5 校園場景車道線檢測結(jié)果Fig.5 Detection results of campus scene lane lines
面向園區(qū)和校園的封閉自動駕駛實現(xiàn)是自動駕駛技術(shù)應(yīng)用的重要細分場景之一,目前國內(nèi)外研究中,對校園封閉場景下的車道線檢測有所不足,主要是在光照較弱的駕駛視野下,車道線辨別度低,識別準確度差,在沒有理想的大規(guī)模、多樣性以及準確標注的車道線場景圖像數(shù)據(jù)集的情況下,自建數(shù)據(jù)集中污染標注數(shù)據(jù)導致數(shù)據(jù)集利用率不高。
針對目前校園場景車道線檢測中存在的不足,本文設(shè)計了應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò)和深度強化學習的局部檢測方法。首先進行局部檢測,采用經(jīng)典圖形學和基于噪聲容忍的遞歸神經(jīng)網(wǎng)絡(luò)的學習模型相結(jié)合的方法,對目標車道線的灰度圖像進行霍夫變換和灰度拉伸,對算法模型訓練學習,以排除梯度信息相似的干擾物,并識別幾何屬性相關(guān)的不完整車道線形態(tài),進而完成補全工作,應(yīng)用稀疏懲罰,設(shè)計具有噪聲容忍的遞歸學習模型,最大效率地利用具有被污染數(shù)據(jù)標注的自建車道線圖像數(shù)據(jù)集;在前述檢測得到的車道線局部區(qū)域上進行定位檢測,應(yīng)用深度強化學習算法,通過6個定位點與車道線匹配的方法完成車道線的精確定位,進而得到車道線的檢測結(jié)果。
通過實驗得到的結(jié)果參數(shù)說明檢測的準確性、實時性、可靠性、魯棒性滿足研究要求。