李少青,朱洪林,黃海波,王海英,丁渭平
(1.西南交通大學(xué),成都 610031;2.通標(biāo)標(biāo)準(zhǔn)技術(shù)服務(wù)(天津)有限公司,天津 300457)
隨著深度學(xué)習(xí)的不斷發(fā)展,利用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建基于端到端自動(dòng)駕駛預(yù)測(cè)的方法得到越來(lái)越廣泛的關(guān)注和研究應(yīng)用[1]。2016年,BOJARSKI等[2-3]提出了PiloNet端到端網(wǎng)絡(luò)架構(gòu),根據(jù)前方道路圖像直接映射出轉(zhuǎn)向角度,能夠?qū)崿F(xiàn)在標(biāo)準(zhǔn)和非標(biāo)準(zhǔn)路面,以及高速公路等場(chǎng)景下的車道保持;CHOWDHURI等[4]根據(jù)跟車、換道、轉(zhuǎn)彎、停車等不同場(chǎng)景設(shè)計(jì)了不同的CNN網(wǎng)絡(luò),通過(guò)切換不同場(chǎng)景下的網(wǎng)絡(luò),使自動(dòng)駕駛在多場(chǎng)景下的方向盤(pán)轉(zhuǎn)角和車速均能得到較好的控制決策。Codevilla等[5]將CNN層與不同的全連接網(wǎng)絡(luò)分支結(jié)合,可以實(shí)現(xiàn)導(dǎo)航功能。但是上述CNN網(wǎng)絡(luò)的輸入為單幀圖片,未考慮到實(shí)際駕駛中前后圖像之間的時(shí)序關(guān)系。XU等[6]考慮到車輛運(yùn)動(dòng)的連續(xù)性,在全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)的基礎(chǔ)上引入具有記憶效應(yīng)的LSTM網(wǎng)絡(luò),同時(shí)加入語(yǔ)義分割作為輔助任務(wù)來(lái)提高算法性能增強(qiáng)了網(wǎng)絡(luò)對(duì)場(chǎng)景的理解能力,然而控制決策過(guò)程是將卷積層提取到的空間特征輸入給LSTM提取時(shí)序依賴特征,即提取到的僅僅是空間特征的時(shí)序依賴特征,對(duì)類人思維特征考慮欠缺。YANG等[6-8]受多模態(tài)學(xué)習(xí)及多任務(wù)學(xué)習(xí)的啟發(fā),提出一種多模態(tài)多任務(wù)的自動(dòng)駕駛控制決策網(wǎng)絡(luò),將歷史駕駛速度作為網(wǎng)絡(luò)的反饋輸入,與卷積網(wǎng)絡(luò)所提取到的空間特征進(jìn)行融合,實(shí)現(xiàn)對(duì)方向盤(pán)轉(zhuǎn)角及車速的決策控制,但是僅將速度作為反饋輸入不足以對(duì)速度和轉(zhuǎn)向角進(jìn)行很好的控制決策。趙祥模等[9]提出MM-STConv網(wǎng)絡(luò),該網(wǎng)絡(luò)基于時(shí)空卷積構(gòu)建多模態(tài)特征融合,提高了自動(dòng)駕駛行為控制決策的準(zhǔn)確率和穩(wěn)定性,但是其縱橫向權(quán)重系數(shù)是通過(guò)手動(dòng)調(diào)節(jié),所以該權(quán)重系數(shù)會(huì)伴隨整個(gè)網(wǎng)絡(luò)訓(xùn)練過(guò)程,無(wú)法做到與各任務(wù)學(xué)習(xí)速度的匹配,存在任務(wù)偏移的風(fēng)險(xiǎn),無(wú)法實(shí)現(xiàn)縱橫向控制參數(shù)都達(dá)到較好的學(xué)習(xí)效果。
以上研究均屬于基于行為克?。?0]的自動(dòng)駕駛方法,即克隆人類駕駛行為,而人類駕駛行為應(yīng)當(dāng)屬于一種“瞻前顧后”的行為,而上述研究對(duì)類人駕駛行為與思維特征模擬不足。因此,為充分模擬類人駕駛特征,從以下兩方面開(kāi)展研究:
(1)從人類駕駛行為和思維特征出發(fā),將前方道路視覺(jué)感知圖像時(shí)間序列,以及車輛歷史連續(xù)運(yùn)動(dòng)狀態(tài)序列作為網(wǎng)絡(luò)輸入,進(jìn)行縱橫向控制決策,將預(yù)測(cè)車輛連續(xù)未來(lái)狀態(tài)序列作為輔助任務(wù),從損失函數(shù)角度對(duì)預(yù)測(cè)當(dāng)前時(shí)刻方向盤(pán)轉(zhuǎn)角和車速的主任務(wù)進(jìn)行干預(yù)和監(jiān)督,以提高主任務(wù)的控制決策精度。
(2)為使縱橫向控制參數(shù)能均衡學(xué)習(xí),引入動(dòng)態(tài)加權(quán)平均方法[11],并加以改進(jìn),使縱橫向控制參數(shù)的Loss權(quán)重可根據(jù)各個(gè)任務(wù)的收斂速度以及學(xué)習(xí)難易程度進(jìn)行動(dòng)態(tài)調(diào)整,從而實(shí)現(xiàn)縱橫向控制參數(shù)的均衡學(xué)習(xí)。此外,提出一種綜合衡量縱橫向控制決策準(zhǔn)確性與學(xué)習(xí)均衡性的評(píng)價(jià)指標(biāo),并依此評(píng)價(jià)指標(biāo)指導(dǎo)網(wǎng)絡(luò)正確進(jìn)化學(xué)習(xí),以提高網(wǎng)絡(luò)的綜合性能。
自適應(yīng)均衡學(xué)習(xí)的端到端類人駕駛控制決策網(wǎng)絡(luò)架構(gòu)分為3個(gè)功能互補(bǔ)的子網(wǎng)絡(luò),分別是時(shí)空特征提取子網(wǎng)絡(luò)、歷史狀態(tài)特征提取子網(wǎng)絡(luò)和縱橫向控制決策子網(wǎng)絡(luò),整體網(wǎng)絡(luò)架構(gòu)如圖1所示。時(shí)空特征對(duì)序列圖像進(jìn)行時(shí)間和空間特征的綜合提??;歷史狀態(tài)特征提取子網(wǎng)絡(luò)對(duì)車輛的歷史狀態(tài)序列信息提取時(shí)間上的上下文特征;縱橫向控制決策子網(wǎng)絡(luò)通過(guò)融合時(shí)空特征及歷史狀態(tài)特征進(jìn)行車輛的方向盤(pán)轉(zhuǎn)角與速度的控制決策,利用增加輔助任務(wù)的手段,將預(yù)測(cè)未來(lái)序列任務(wù)學(xué)習(xí)到的特征作為未來(lái)特征,通過(guò)監(jiān)督主任務(wù)學(xué)習(xí)的方式提高主任務(wù)的學(xué)習(xí)效率。
圖1 自適應(yīng)均衡學(xué)習(xí)的端到端類人駕駛控制決策網(wǎng)絡(luò)架構(gòu)
特征指的是一個(gè)或一組客體所擁有的特性抽象出來(lái)的一種概念,神經(jīng)網(wǎng)絡(luò)的參數(shù)是在損失函數(shù)的監(jiān)督下進(jìn)行更新的,與損失函數(shù)直接相關(guān)的數(shù)據(jù)特性或關(guān)系便是神經(jīng)網(wǎng)絡(luò)提取到的特征。
人類駕駛車輛時(shí)首要考慮現(xiàn)在和過(guò)去的道路情況,具體表現(xiàn)在包含當(dāng)前和過(guò)去道路圖像的空間特征與時(shí)序依賴特征,這種新的特征變?yōu)闀r(shí)空特征,這種特征不是簡(jiǎn)單地將空間特征和時(shí)序依賴特征相加或者級(jí)聯(lián),而是通過(guò)特別設(shè)計(jì)的模塊使網(wǎng)絡(luò)在提取空間特征的同時(shí)提取連續(xù)數(shù)據(jù)之間的時(shí)序依賴特征。
人類駕駛車輛,不僅考慮了當(dāng)前及過(guò)去的道路情況,還綜合考慮了車輛的歷史狀態(tài)變化情況來(lái)控制決策,而歷史狀態(tài)特征指的是能夠影響端到端駕駛的車輛自車歷史狀態(tài)趨勢(shì)變化的特征。
人類駕駛車輛時(shí),影響控制決策的因素不僅有當(dāng)前時(shí)刻與過(guò)去時(shí)刻的道路情況,還有對(duì)前方道路情況的一種預(yù)判,而未來(lái)特征便指的是智能車端到端駕駛中的一種包含能夠?qū)ξ磥?lái)的控制決策量進(jìn)行預(yù)判的特征。
現(xiàn)有端到端網(wǎng)絡(luò)多采用單幀圖像作為輸入,利用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,此做法一方面缺乏圖像前后時(shí)間的時(shí)序關(guān)聯(lián)信息,不符合人類駕駛車輛時(shí)需要考慮前后圖像之間關(guān)聯(lián)的習(xí)慣,所以需要采用序列圖像輸入,利用Conv-LSTM[12]進(jìn)行時(shí)空特征綜合提?。涣硪环矫?,采用深度神經(jīng)網(wǎng)絡(luò),可以提取出高層的語(yǔ)義信息,但是隨著網(wǎng)絡(luò)深度的增加,不可避免地會(huì)丟失掉淺層的空間信息。因此,為補(bǔ)充高層語(yǔ)義特征對(duì)空間特征的丟失,需要采用多尺度的結(jié)構(gòu),融合低層的空間信息以及豐富的高層語(yǔ)義信息。
時(shí)空特征提取子網(wǎng)絡(luò)的具體參數(shù)見(jiàn)表1。
表1 時(shí)空特征提取子網(wǎng)絡(luò)參數(shù)
1.2.1 編碼器
編碼器為整個(gè)網(wǎng)絡(luò)當(dāng)中的主干網(wǎng)絡(luò),主要負(fù)責(zé)輸入圖像的特征提取及壓縮。編碼器部分總共包含5個(gè)子層,除第1層外,每個(gè)子層包含降采樣層或若干個(gè)改進(jìn)后的殘差單元,各子層的組成見(jiàn)表2。
表2 編碼器結(jié)構(gòu)
降采樣單元。此單元的目的在于減少特征圖尺寸,同時(shí)提高通道數(shù),從而擴(kuò)大感受野。降采樣單元是將特征圖分為兩個(gè)分支,一個(gè)分支為卷積核為3×3,步長(zhǎng)為2的卷積操作,另一個(gè)分支為卷積核大小2×2,步長(zhǎng)為2的池化操作,最后將這兩個(gè)分支進(jìn)行級(jí)聯(lián)。
改進(jìn)的殘差單元。假設(shè)卷積過(guò)程中,輸入特征圖的尺寸為Nin×hin×win,卷積核尺寸為Nout×Nin×kh×kw,輸出特征圖尺寸為Nout×hout×wout,則對(duì)于正常卷積而言,其計(jì)算量為:
而對(duì)于深度可分離卷積[13]而言,分組卷積計(jì)算量為Nin×kh×kw×hout×wout,逐點(diǎn)卷積運(yùn)算量為Nout×Nin×hout×wout,總計(jì)算量為:
所以深度可分離卷積與正常卷積的計(jì)算量之比為:
由此可知,利用深度可分離卷積,可以減少卷積網(wǎng)絡(luò)的計(jì)算量。由式(1)~(3)可知,如果要進(jìn)一步減少卷積網(wǎng)絡(luò)運(yùn)算量,需減少通道數(shù)和卷積核尺寸,因此,改進(jìn)的殘差單元如圖2所示。
圖2 改進(jìn)的殘差單元
首先將輸入進(jìn)行通道拆分,分為左右兩個(gè)分支,將原有殘差模塊中的兩個(gè)3×3卷積分別改為3×3深度可分離卷積[13],以及3×3的深度可分離空洞卷積[14],用于擴(kuò)大網(wǎng)絡(luò)感受野。最后將兩路卷積進(jìn)行級(jí)聯(lián),為保證通道間的交流,最后再進(jìn)行通道重組。假設(shè)輸入和輸出尺寸及通道相同,改進(jìn)前的殘差模塊計(jì)算量為:
而改進(jìn)后的殘差模塊計(jì)算量為:
改進(jìn)后將減少網(wǎng)絡(luò)參數(shù)量,可接受更大尺度的輸入,從而提高網(wǎng)絡(luò)精度。
1.2.2 時(shí)空特征提取模塊
受深度瓶頸結(jié)構(gòu)[15]的啟發(fā),為減少網(wǎng)絡(luò)參數(shù)量及加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練,采用3層卷積加1層Conv-LSTM組合的方式進(jìn)行,即提取到的空間特征序列,首先經(jīng)過(guò)1×1的卷積進(jìn)行降維,而后經(jīng)過(guò)Conv-LSTM進(jìn)行時(shí)空特征提取,提取到的特征后接3×3的卷積層進(jìn)行尺度縮小,最后經(jīng)過(guò)1×1的卷積進(jìn)行降維。
直接從圖像映射到方向盤(pán)轉(zhuǎn)角的成功證明了直接從前視攝像頭生成車輛直接控制指令的可行性,但其映射過(guò)程并不完全符合人類駕駛車輛的整個(gè)過(guò)程,即人類駕駛車輛的過(guò)程中不僅要根據(jù)前向視角觀察情況,做出駕駛意圖判斷,也需要考慮自車的歷史狀態(tài)情況。因此,需要提取自車歷史狀態(tài)特征對(duì)前文多提取到的時(shí)空特征做補(bǔ)充。
為捕捉車輛歷史狀態(tài)在時(shí)間序列上的變化特征,需引入LSTM網(wǎng)絡(luò),其具有強(qiáng)大的時(shí)序信息挖掘能力和深度表征能力,適用于處理時(shí)間序列數(shù)據(jù)[16]。
因此,對(duì)方向盤(pán)轉(zhuǎn)角及車速序列,先利用兩層一維卷積進(jìn)行特征提取,后接LSTM作時(shí)序特征提取,將提取到的歷史狀態(tài)特征與時(shí)空特征向量進(jìn)行融合。
1.4.1 縱橫向控制決策機(jī)理與具體架構(gòu)設(shè)計(jì)
在端到端自動(dòng)駕駛控制決策方法中,方向盤(pán)及車速控制決策屬于多任務(wù)學(xué)習(xí)。多任務(wù)學(xué)習(xí)屬于推薦任務(wù)的思想,是指通過(guò)在相關(guān)任務(wù)間共享表示信息,使網(wǎng)絡(luò)更好地概括初始任務(wù),改進(jìn)泛化能力[8]。受多任務(wù)學(xué)習(xí)思想的啟發(fā),又根據(jù)人類駕駛車輛的過(guò)程,提出的縱橫向控制決策子網(wǎng)絡(luò)中,橫向轉(zhuǎn)角及縱向車速既跟通過(guò)序列圖像所提取出來(lái)的時(shí)空特征相關(guān),又跟車輛歷史特征以及未來(lái)特征緊密相關(guān)。
因此使用參數(shù)共享的方式進(jìn)行多駕駛?cè)蝿?wù)學(xué)習(xí),將時(shí)空特征與歷史狀態(tài)特征相融合,作為駕駛控制決策共享層,從而輸出各自的駕駛?cè)蝿?wù)。提出的縱橫向控制決策子網(wǎng)絡(luò)如圖3所示。.
圖3 縱橫向控制決策子網(wǎng)絡(luò)
1.4.2 未來(lái)特征提取方法
人類駕駛車輛過(guò)程中不僅要考慮前向視角觀察情況、自車的歷史狀態(tài)情況,還需要對(duì)未來(lái)車輛動(dòng)作做出預(yù)期判斷。因此,需增加對(duì)未來(lái)序列的控制決策任務(wù)作為輔助任務(wù),從損失函數(shù)角度對(duì)網(wǎng)絡(luò)訓(xùn)練進(jìn)行合理監(jiān)督,迫使網(wǎng)絡(luò)學(xué)習(xí)到有用的特征。
對(duì)未來(lái)序列的方向盤(pán)轉(zhuǎn)角及車速學(xué)習(xí)過(guò)程中隱含的特征即為未來(lái)特征,具體實(shí)現(xiàn)如下。
單獨(dú)的子任務(wù)損失函數(shù)定義為:
式中:采用均方誤差MSE作為L(zhǎng)oss表達(dá)式。
則總的網(wǎng)絡(luò)訓(xùn)練損失函數(shù)為:
2.1.1 數(shù)據(jù)集描述
2019年,Comma.ai發(fā)布了Comma2k19數(shù)據(jù)集[17],該數(shù)據(jù)集包含在加利福尼亞州180高速路上駕駛覆蓋白天及黑夜各種天氣下的超過(guò)33 h的駕駛數(shù)據(jù)。Comma2k19數(shù)據(jù)集中部分?jǐn)z像頭采集到的圖像示例如圖4所示。
圖4 Comma2k19部分?jǐn)?shù)據(jù)集展示
2.1.2 數(shù)據(jù)集整理與預(yù)處理
Comma2k19數(shù)據(jù)集分為2 019個(gè)駕駛片段,每段駕駛時(shí)長(zhǎng)約為1 min,共選取100個(gè)片段數(shù)據(jù),其中,白天和夜晚駕駛數(shù)據(jù)各為50段,按照8∶1∶1的劃分原則,總共獲得包含95 951組訓(xùn)練集,11 998組驗(yàn)證集,以及12 012組測(cè)試集。
Comma2k19數(shù)據(jù)集所采集的原始駕駛圖像尺寸為1 164 pt×874 pt,為減少輸入圖像上非必要的干擾像素,選擇將圖像中的天空以及車輛發(fā)動(dòng)機(jī)蓋部分進(jìn)行裁剪,最終獲得800 pt×300 pt的駕駛圖像,裁剪后的圖像更接近人類駕駛所觀察到的有效視角,裁剪過(guò)程如圖5所示。
圖5 圖像裁剪示例
原始數(shù)據(jù)集中相機(jī)的采樣頻率為20 Hz,而通過(guò)CAN總線保存的方向盤(pán)轉(zhuǎn)角和車速信息采樣頻率為80 Hz,為確保圖像數(shù)據(jù)與車輛控制參數(shù)在時(shí)間戳上一一對(duì)應(yīng),故采用三次樣條算法對(duì)方向盤(pán)轉(zhuǎn)角與車速做插值處理。同時(shí),為將數(shù)據(jù)去量綱化,避免數(shù)值問(wèn)題,采取最大最小法將方向盤(pán)轉(zhuǎn)角和車速進(jìn)行歸一化前處理。
在多任務(wù)損失函數(shù)中損失函數(shù)的一般形式為:
在傳統(tǒng)的端到端自動(dòng)駕駛網(wǎng)絡(luò)中ωi的取值通常采用的是試湊法,通過(guò)試驗(yàn)獲得使網(wǎng)絡(luò)擬合效果較好的值作為ωi,但是該權(quán)重系數(shù)會(huì)以定值的形式伴隨整個(gè)訓(xùn)練過(guò)程,而在訓(xùn)練中梯度小的Loss在訓(xùn)練過(guò)程中被梯度大的Loss所影響,這個(gè)現(xiàn)象稱為梯度主宰。尤其在各個(gè)任務(wù)難易程度不同的情況下,簡(jiǎn)單的任務(wù)出現(xiàn)過(guò)擬合,復(fù)雜的任務(wù)還是欠擬合狀態(tài),為了減緩這種現(xiàn)象的影響,引入動(dòng)態(tài)加權(quán)平均方法[11],使縱橫向控制參數(shù)學(xué)習(xí)的Loss權(quán)重可根據(jù)各個(gè)任務(wù)的收斂速度以及學(xué)習(xí)難易程度進(jìn)行動(dòng)態(tài)調(diào)整,從而實(shí)現(xiàn)縱橫向控制參數(shù)的均衡學(xué)習(xí)。其具體表達(dá)式為:
式中:ri(t-1)為第i個(gè)任務(wù)的學(xué)習(xí)速度;N為任務(wù)數(shù)量。直觀來(lái)看,Loss縮小快的任務(wù),則權(quán)重會(huì)變小,反之權(quán)重會(huì)變大。
但是,動(dòng)態(tài)加權(quán)平均方法僅僅從學(xué)習(xí)速度上進(jìn)行考慮,沒(méi)有考慮到不同任務(wù)的Loss量級(jí),而在實(shí)際研究當(dāng)中,縱橫向控制參數(shù)Loss量級(jí)關(guān)系對(duì)于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)至關(guān)重要。因此,提出一種平衡Loss量級(jí)和學(xué)習(xí)速度的方法。其具體表達(dá)式為:
式中:表達(dá)式左邊為平衡不同任務(wù)Loss量級(jí)的關(guān)系式,即縱橫向控制參數(shù)自適應(yīng)學(xué)習(xí)中,Loss小的任務(wù)就需要大的權(quán)重,Loss大的任務(wù)需要分配小的權(quán)重;表達(dá)式右邊為平衡學(xué)習(xí)速度,即學(xué)習(xí)速度快的任務(wù),權(quán)重會(huì)變小,學(xué)習(xí)速度慢的任務(wù),權(quán)重會(huì)變大。此方法在下文將給出具體對(duì)比試驗(yàn)結(jié)果。
網(wǎng)絡(luò)訓(xùn)練在NVIDIA GeForce RTX2080Ti GPU上進(jìn)行,使用Pytorch深度學(xué)習(xí)框架構(gòu)建網(wǎng)絡(luò)訓(xùn)練。顯存位寬352 bit,顯存容量為11 GB,運(yùn)行內(nèi)存16 GB。操作系統(tǒng)為Ubuntu 16.04.7。
采用Poly優(yōu)化策略[18]對(duì)學(xué)習(xí)率進(jìn)行優(yōu)化調(diào)整。當(dāng)前時(shí)刻的學(xué)習(xí)率可表示為:
式中:lr為當(dāng)前學(xué)習(xí)率;lr0為初始學(xué)習(xí)率;iter為當(dāng)前訓(xùn)練步長(zhǎng);itermax為設(shè)置的訓(xùn)練迭代周期;p為衰減系數(shù),用于控制衰減曲線形狀。
在全連接層添加隨機(jī)丟棄(Dropout)以提高網(wǎng)絡(luò)泛化能力,連同其他超參數(shù),具體設(shè)置見(jiàn)表3。
表3 網(wǎng)絡(luò)訓(xùn)練超參數(shù)設(shè)置
3.1.1 準(zhǔn)確率Acc
為評(píng)判端到端自動(dòng)駕駛控制決策網(wǎng)絡(luò)所預(yù)測(cè)的方向盤(pán)轉(zhuǎn)角和車速的精確性,引入準(zhǔn)確率這一標(biāo)準(zhǔn)進(jìn)行衡量,與深度學(xué)習(xí)中的分類問(wèn)題不同,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)際數(shù)值預(yù)測(cè)學(xué)習(xí)屬于回歸問(wèn)題,當(dāng)預(yù)測(cè)值與真實(shí)值的誤差在一定的范圍之內(nèi)即可視為預(yù)測(cè)準(zhǔn)確。
因此,引入容差閾值[19](Steering_threhold、Speend_threhold),單個(gè)方向盤(pán)轉(zhuǎn)角和車速的預(yù)測(cè)準(zhǔn)確性可表示為:
網(wǎng)絡(luò)控制決策準(zhǔn)確率的計(jì)算公式為:
式中:n為控制決策值與真實(shí)值的誤差小于容差閾值的測(cè)試樣本數(shù)量;N為測(cè)試樣本總數(shù)量。
為確定方向盤(pán)和車速的準(zhǔn)確率容差閾值[20]。在網(wǎng)絡(luò)只有RGB圖像輸入的情況下,采用NVIDIA PiloNet網(wǎng)絡(luò)[2]作為基準(zhǔn)網(wǎng)絡(luò),將其單控制決策改為縱橫向控制決策,并且任務(wù)權(quán)重使用3.2小節(jié)提出的動(dòng)態(tài)權(quán)重法,分別對(duì)轉(zhuǎn)角和車速進(jìn)行控制決策。選取不同的容差閾值對(duì)網(wǎng)絡(luò)進(jìn)行8 000次步長(zhǎng)的訓(xùn)練,得到網(wǎng)絡(luò)控制決策值準(zhǔn)確率相對(duì)于容差閾值的變化趨勢(shì),如圖6所示。
圖6 PiloNet網(wǎng)絡(luò)控制決策精確度與容差閾值變化趨勢(shì)
由圖可知,當(dāng)方向盤(pán)轉(zhuǎn)角容差閾值大于1.93°,車速容差閾值大于1.55 m/s時(shí),網(wǎng)絡(luò)控制決策的準(zhǔn)確率已達(dá)到0.6左右。為將PiloNet作為后續(xù)試驗(yàn)的對(duì)比基礎(chǔ)網(wǎng)絡(luò),選擇Steeringthrehold=1.93°,Speedthrehold=1.55 m/s,作為評(píng)價(jià)網(wǎng)絡(luò)準(zhǔn)確率的容差閾值。
3.1.2 網(wǎng)絡(luò)精確度綜合評(píng)價(jià)指標(biāo)Score
在3.1.1節(jié)中已經(jīng)定義了方向盤(pán)轉(zhuǎn)角與車速控制決策準(zhǔn)確率的評(píng)價(jià)方法,但在縱橫向控制參數(shù)學(xué)習(xí)中,為全面評(píng)判網(wǎng)絡(luò)性能,須定義一個(gè)評(píng)價(jià)指標(biāo)來(lái)衡量網(wǎng)絡(luò)控制決策的綜合性能,該指標(biāo)一方面必須能代表縱橫向控制決策的準(zhǔn)確性,另一方面也應(yīng)能代表縱橫向控制決策的均衡性。因此,提出一個(gè)新的評(píng)價(jià)指標(biāo),將其命名為Score,具體表達(dá)式為:
Score的大小范圍為[0,1],值越大,表明網(wǎng)絡(luò)效果控制決策越佳,并將Score作為評(píng)判最佳網(wǎng)絡(luò)的指標(biāo)。
采用自適應(yīng)均衡學(xué)習(xí)的端到端類人駕駛控制決策網(wǎng)絡(luò)對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,得到最佳網(wǎng)絡(luò),測(cè)試集表現(xiàn)如圖7所示。
圖7 自適應(yīng)均衡學(xué)習(xí)的端到端類人駕駛控制決策網(wǎng)絡(luò)在Comma2k19數(shù)據(jù)集中連續(xù)4 000幀圖像上的方向盤(pán)轉(zhuǎn)角及車速預(yù)測(cè)曲線
由圖可知,自適應(yīng)均衡學(xué)習(xí)的端到端類人駕駛控制決策網(wǎng)絡(luò)所預(yù)測(cè)的方向盤(pán)轉(zhuǎn)角及車速與各自的真實(shí)值曲線基本吻合,且預(yù)測(cè)曲線較為平穩(wěn),可保證車輛行駛的安全性和舒適性。
圖8為自適應(yīng)均衡學(xué)習(xí)的端到端類人駕駛控制決策網(wǎng)絡(luò)在部分Commai2k19測(cè)試集的預(yù)測(cè)可視化效果圖。其中:藍(lán)色標(biāo)線為真實(shí)的方向盤(pán)轉(zhuǎn)角線,紅色為預(yù)測(cè)的方向盤(pán)轉(zhuǎn)角線;車速的真實(shí)值與預(yù)測(cè)值以文字形式展示在圖例下方。由圖8可知,網(wǎng)絡(luò)預(yù)測(cè)的方向盤(pán)轉(zhuǎn)角及車速基本接近真實(shí)值,且預(yù)測(cè)值與真實(shí)值的誤差均在方向盤(pán)轉(zhuǎn)角和車速的容差閾值范圍之內(nèi),可保證行車過(guò)程中的安全性和舒適性。
圖8 自適應(yīng)均衡學(xué)習(xí)的端到端類人駕駛控制決策網(wǎng)絡(luò)在Comma2k19數(shù)據(jù)集預(yù)測(cè)可視化效果
表4為所構(gòu)建的控制決策網(wǎng)絡(luò)分別在訓(xùn)練集、驗(yàn)證集及測(cè)試集上的測(cè)試結(jié)果,在訓(xùn)練集的測(cè)試結(jié)果稍高,而驗(yàn)證集和測(cè)試集的結(jié)果相差不大,表明所構(gòu)建的網(wǎng)絡(luò)具有良好的泛化性。
表4 訓(xùn)練集、驗(yàn)證集、測(cè)試集對(duì)比結(jié)果
為驗(yàn)證對(duì)比自適應(yīng)均衡學(xué)習(xí)的端到端類人駕駛控制決策網(wǎng)絡(luò)與其他同類型網(wǎng)絡(luò)的性能,選擇3種網(wǎng)絡(luò)進(jìn)行對(duì)比,分別為PiloNet[2]、CgNet[21]和STLSTM Network[22],測(cè)試對(duì)比結(jié)果見(jiàn)表5,加粗為各項(xiàng)指標(biāo)的最佳結(jié)果。
由表5可知,自適應(yīng)均衡學(xué)習(xí)的端到端類人駕駛控制決策網(wǎng)絡(luò),相較于PiloNet、CgNet和STLSTM Network,綜合性能分別提升45%、42%、28%,可較好地提升端到端自動(dòng)駕駛縱橫向控制決策精度,提高駕駛安全性。
表5 同類網(wǎng)絡(luò)對(duì)比結(jié)果
此外,網(wǎng)絡(luò)在NVIDIA GeForce RTX2080Ti GPU上的控制決策速度為43 fps,文獻(xiàn)[23]指出,人類開(kāi)車反應(yīng)時(shí)間為0.5 s左右,可滿足無(wú)人駕駛系統(tǒng)運(yùn)行過(guò)程中的實(shí)時(shí)性要求,在更高算力的GPU下實(shí)時(shí)性會(huì)更佳。
為加速試驗(yàn)進(jìn)行,利用PiloNet網(wǎng)絡(luò)進(jìn)行試驗(yàn),采用不同的任務(wù)損失函數(shù)權(quán)重,利用3.1.2提出的評(píng)價(jià)指標(biāo)選擇最佳網(wǎng)絡(luò),在測(cè)試集上試驗(yàn)結(jié)果見(jiàn)表6,加粗字體為各項(xiàng)指標(biāo)最佳結(jié)果。
表6中,1~10組為手動(dòng)調(diào)節(jié)權(quán)重取得的試驗(yàn)結(jié)果,只有第2組取得了較好的訓(xùn)練精度;11組為3.2節(jié)提出的縱橫向控制參數(shù)自適應(yīng)權(quán)重取得的試驗(yàn)結(jié)果,其綜合性能優(yōu)于以上所有結(jié)果。由此可知,在縱橫向控制參數(shù)學(xué)習(xí)當(dāng)中,動(dòng)態(tài)優(yōu)化算法是優(yōu)于手動(dòng)調(diào)節(jié)權(quán)重參數(shù)的,不僅整體訓(xùn)練效果優(yōu)秀,且省去了多次試驗(yàn)的成本。
表6 縱橫向控制參數(shù)Loss權(quán)重試驗(yàn)結(jié)果
為驗(yàn)證自適應(yīng)均衡學(xué)習(xí)的端到端類人駕駛控制決策網(wǎng)絡(luò)各部分模塊對(duì)于整體網(wǎng)絡(luò)的性能影響,分別設(shè)計(jì)7種不同網(wǎng)絡(luò),在Comma2k19數(shù)據(jù)集上進(jìn)行訓(xùn)練及測(cè)試,測(cè)試結(jié)果見(jiàn)表7,加粗字體為各項(xiàng)指標(biāo)的最佳結(jié)果。
表7 消融試驗(yàn)結(jié)果
表7中,(1)1、2組對(duì)照試驗(yàn)表明在相同網(wǎng)絡(luò)輸入下,更深層次的網(wǎng)絡(luò)的性能更佳、表現(xiàn)更優(yōu),較PiloNet性能提升2.6%;(2)2、3對(duì)照組試驗(yàn)結(jié)果表明,序列圖像輸入相較于單幀圖像輸入有著更好的性能,第3組較PiloNet性能提升10.1%,且其控制決策方式也更加符合人類駕駛經(jīng)驗(yàn),符合預(yù)期效果;(3)3、4組對(duì)照試驗(yàn)結(jié)果表明,利用多尺度網(wǎng)絡(luò)結(jié)構(gòu)可在一定程度上補(bǔ)充到可利用的淺層信息,提高網(wǎng)絡(luò)性能,第4組網(wǎng)絡(luò)較PiloNet性能提升12%;(4)4、5組對(duì)照試驗(yàn)結(jié)果表明,將控制決策未來(lái)時(shí)序的駕駛動(dòng)作作為輔助任務(wù),可以促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)到更有用的特征信息,從而提高網(wǎng)絡(luò)上限,第5組網(wǎng)絡(luò)較PiloNet性能提升16.8%;(5)5、6組對(duì)照試驗(yàn)結(jié)果表明,與人類駕駛經(jīng)驗(yàn)相類似,神經(jīng)網(wǎng)絡(luò)在考慮到歷史狀態(tài)信息之后,所控制決策到的駕駛動(dòng)作更加準(zhǔn)確,第6組網(wǎng)絡(luò)較PiloNet性能提升25.3%;(6)6、7組對(duì)照試驗(yàn)為驗(yàn)證所改進(jìn)的殘差結(jié)構(gòu)在更大尺寸的輸入下,是否對(duì)網(wǎng)絡(luò)性能有提升效果,結(jié)果表明,更大尺寸圖像,意味著更豐富的信息輸入,在輕量級(jí)網(wǎng)絡(luò)的加持下,可以表現(xiàn)出較好的性能,較PiloNet性能提升45.2%。
通過(guò)以上7組對(duì)照試驗(yàn),表明本文所構(gòu)建的控制決策網(wǎng)絡(luò)各模塊對(duì)于整體網(wǎng)絡(luò)性能有著更好的提升,同時(shí)在一定程度上增加了網(wǎng)絡(luò)的可解釋性。
為驗(yàn)證所提關(guān)鍵特征的參數(shù)對(duì)于網(wǎng)絡(luò)的整體效果影響情況,分別設(shè)計(jì)7組試驗(yàn)進(jìn)行對(duì)比,試驗(yàn)結(jié)果見(jiàn)表8,加粗字體為最佳結(jié)果。
表8 關(guān)鍵特征調(diào)參試驗(yàn)結(jié)果
1、2、3、4組試驗(yàn)表明,輸入步長(zhǎng)越長(zhǎng)時(shí),網(wǎng)絡(luò)實(shí)時(shí)性會(huì)變差,且當(dāng)輸入步長(zhǎng)為5時(shí)網(wǎng)絡(luò)整體性能最佳,因此,選擇步長(zhǎng)5作為網(wǎng)絡(luò)的輸入步長(zhǎng);3、5、6、7組試驗(yàn)表明,輸出步長(zhǎng)的大小幾乎不影響網(wǎng)絡(luò)的實(shí)時(shí)性,且當(dāng)輸出步長(zhǎng)為5時(shí),網(wǎng)絡(luò)整體性能最佳,因此,選擇步長(zhǎng)5作為網(wǎng)絡(luò)的輸出步長(zhǎng)。
以研究智能駕駛端到端控制決策技術(shù)為目的,從類人駕駛行為特征出發(fā),設(shè)計(jì)了一種包含時(shí)空特征、歷史狀態(tài)特征、未來(lái)特征的端到端自動(dòng)駕駛控制決策網(wǎng)絡(luò),通過(guò)設(shè)計(jì)合理的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),得到方向盤(pán)轉(zhuǎn)角及車速的控制決策量??紤]到縱橫向控制參數(shù)學(xué)習(xí)中的損失函數(shù)難以確定問(wèn)題,引入動(dòng)態(tài)優(yōu)化權(quán)重的方法并加以改進(jìn),使網(wǎng)絡(luò)訓(xùn)練可以同時(shí)兼顧縱橫向控制參數(shù)損失的量級(jí)與學(xué)習(xí)速度之間的協(xié)調(diào)關(guān)系。提出一種量化評(píng)價(jià)縱橫向控制參數(shù)控制決策準(zhǔn)確率及學(xué)習(xí)均衡性的指標(biāo),經(jīng)試驗(yàn)驗(yàn)證,得出以下主要結(jié)論:
(1)從類人駕駛行為和思維特征出發(fā)構(gòu)建的控制決策網(wǎng)絡(luò),較現(xiàn)有其他圖像輸入的端到端控制決策方法,在控制決策精度上有所提升,增加了網(wǎng)絡(luò)的可解釋性,保證了行車過(guò)程中的安全性和舒適性。
(2)所構(gòu)建的縱橫向耦合學(xué)習(xí)權(quán)重方法優(yōu)于手動(dòng)調(diào)節(jié)損失函數(shù)權(quán)重的方法,且能夠?qū)崿F(xiàn)縱橫向控制參數(shù)的自適應(yīng)均衡學(xué)習(xí),保證學(xué)習(xí)過(guò)程兼顧縱橫向耦合關(guān)系,增加網(wǎng)絡(luò)均衡耦合學(xué)習(xí)的可解釋性,從而確保安全性和舒適性。