趙振東,邵振洲,謝劼欣,施智平,關(guān) 永
1(首都師范大學(xué) 信息工程學(xué)院,北京 100048)2(首都師范大學(xué) 輕型工業(yè)機(jī)器人與安全驗(yàn)證北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048)3(成像技術(shù)北京市高精尖創(chuàng)新中心,北京 100048)
E-mail:zshao@cnu.edu.cn
作為自動(dòng)駕駛環(huán)境感知的關(guān)鍵任務(wù)之一,車道線檢測(cè)引起了越來(lái)越多專家和學(xué)者的關(guān)注,已成為科研院所和相關(guān)企業(yè)的研究熱點(diǎn).目前,基于攝像頭的車道檢測(cè)是環(huán)境感知的重要方法之一,它在確保車輛在車道內(nèi)正確行駛的同時(shí),對(duì)后續(xù)的車道變換或軌跡規(guī)劃也至關(guān)重要,主要應(yīng)用于車輛車道偏離預(yù)警、導(dǎo)航等.因此,基于視覺(jué)的車道檢測(cè)是實(shí)現(xiàn)完全自動(dòng)駕駛的關(guān)鍵驅(qū)動(dòng)因素.
近年來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得突破性發(fā)展,越來(lái)越多的基于深度學(xué)習(xí)的車道線檢測(cè)方法被提出.Huval等人[1]基于OverFeat框架[2]設(shè)計(jì)了一個(gè)端到端的目標(biāo)檢測(cè)網(wǎng)絡(luò)DriveNet,用于處理高速公路這類簡(jiǎn)單場(chǎng)景下的車道線檢測(cè),但當(dāng)車道線數(shù)量變化時(shí),網(wǎng)絡(luò)檢測(cè)性能不佳.Neven等人[3]將LaneNet與H-Net兩個(gè)網(wǎng)絡(luò)配合使用,來(lái)處理道路場(chǎng)景中車道線數(shù)量不固定的情況,但難以識(shí)別車道線被遮擋的情況.Pan等人[6]對(duì)CNN網(wǎng)絡(luò)的最高隱藏層特征設(shè)計(jì)了SCNN架構(gòu),通過(guò)對(duì)特征圖按特定方向進(jìn)行更新,賦予模型提取目標(biāo)空間信息的能力,以應(yīng)對(duì)車道線被遮擋的情況.但是,這一方法[6]需要搭配專門(mén)的小型網(wǎng)絡(luò)來(lái)接收模型輸出的概率圖并給出最終結(jié)果,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且難以訓(xùn)練.Lee等人[4]在文獻(xiàn)[2]和文獻(xiàn)[5]的基礎(chǔ)上提出了端到端的多任務(wù)網(wǎng)絡(luò)模型VPGNet,通過(guò)在模型中加入消失點(diǎn)預(yù)測(cè)子任務(wù),來(lái)提取場(chǎng)景的空間上下文信息,用以同時(shí)處理復(fù)雜場(chǎng)景下的車道線檢測(cè)和類型識(shí)別.但隨著子任務(wù)的增加,網(wǎng)絡(luò)訓(xùn)練的難度也增大,此外還需要對(duì)數(shù)據(jù)進(jìn)行額外的消失點(diǎn)標(biāo)注.盡管以上方法嘗試去提取和利用車道線的空間信息,但是當(dāng)場(chǎng)景中存在多條車道線時(shí),處于場(chǎng)景兩側(cè)位置的車道線因易受光照變化等影響變得模糊,使得網(wǎng)絡(luò)難以識(shí)別甚至出現(xiàn)誤檢測(cè),如圖1所示.
圖1 真實(shí)標(biāo)簽與現(xiàn)有方法車道線檢測(cè)對(duì)比Fig.1 Comparison between ground truth and network output of the state-of-the-art method
為解決上述問(wèn)題,本文提出一個(gè)端到端的空間特征編碼多任務(wù)神經(jīng)網(wǎng)絡(luò)LDNet-SFE(Lane Detection Network with Spatial Feature Encoding),如圖2所示,它由目標(biāo)檢測(cè)和邊框回歸兩個(gè)子網(wǎng)絡(luò)協(xié)同處理車道線的檢測(cè)任務(wù).這既利用了多任務(wù)網(wǎng)絡(luò)的優(yōu)勢(shì),又不增加訓(xùn)練難度和額外工作.為處理兩側(cè)車道線模糊導(dǎo)致檢測(cè)準(zhǔn)確性差的問(wèn)題,本文設(shè)計(jì)了空間特征編碼模塊,通過(guò)對(duì)三維特征張量進(jìn)行橫向切分,借鑒傳統(tǒng)的卷積網(wǎng)絡(luò)中卷積層到卷積層的連接形式,將切分后的每一片視為新的卷積層,并進(jìn)行縱向連接,以此來(lái)提取豐富的空間信息,使網(wǎng)絡(luò)更好地捕獲車道線的空間連續(xù)性的特征,增強(qiáng)網(wǎng)絡(luò)對(duì)像素空間信息的利用,提高場(chǎng)景兩側(cè)車道線的檢測(cè)精度.我們對(duì)多任務(wù)網(wǎng)絡(luò)的特征提取器進(jìn)行改進(jìn),通過(guò)設(shè)計(jì)更小的卷積核尺寸,更短的步長(zhǎng),使其學(xué)習(xí)并保留更多的淺層特征.由于淺層的卷積層能學(xué)習(xí)到物理輪廓、邊緣和紋理等特征,對(duì)多任務(wù)網(wǎng)絡(luò)而言,更好地淺層特征能為子網(wǎng)絡(luò)帶來(lái)更豐富的空間信息,提高模型的檢測(cè)性能.
圖2 網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.2 Overall network structure
傳統(tǒng)的車道檢測(cè)方法依靠專業(yè)化的手動(dòng)設(shè)計(jì)的特征來(lái)檢測(cè)目標(biāo)的形狀,然后擬合車道線[7-13].這些手動(dòng)設(shè)計(jì)的方法[14,15,17,19]可以與霍夫變換[20,22]或者卡爾曼濾波器[24,25]相結(jié)合,當(dāng)識(shí)別出車道線之后,利用后處理技術(shù)過(guò)濾掉誤檢和成組分割在一起的情況以得到最終車道線.Naftel等人[18]通過(guò)分析由目標(biāo)追蹤系統(tǒng)獲得的車輛運(yùn)動(dòng)軌跡,來(lái)檢測(cè)車道線并進(jìn)行分類.Wu等人[16,21]設(shè)計(jì)自適應(yīng)方法,用以識(shí)別不同寬度的車道,以及加速車道線檢測(cè).Tao等人[23]通過(guò)提取多個(gè)感興趣區(qū)域作為MSER[26],再由HOG[27]特征為道路標(biāo)記建模.雖然這些傳統(tǒng)方法在簡(jiǎn)單場(chǎng)景下表現(xiàn)良好,但是它們很容易由于道路場(chǎng)景變化而導(dǎo)致魯棒性下降.
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域得到越來(lái)越多的應(yīng)用[36],研究人員嘗試用深度網(wǎng)絡(luò)取代傳統(tǒng)的手工標(biāo)記,通過(guò)構(gòu)建特征檢測(cè)器進(jìn)行車道線的預(yù)測(cè).Gopalan等人[28]使用像素級(jí)特征描述符來(lái)建模,并且使用增強(qiáng)算法來(lái)選擇用于檢測(cè)車道標(biāo)記的相關(guān)特征.Kim和Lee[29]將卷積神經(jīng)網(wǎng)絡(luò)(CNN)與RANSAC算法結(jié)合起來(lái)以檢測(cè)車道線.其中CNN主要用于圖像增強(qiáng),并且僅當(dāng)在道路場(chǎng)景復(fù)雜時(shí)才會(huì)使用.He等人[30]提出了DVCNN框架,將前視圖和俯視圖作為網(wǎng)絡(luò)輸入,來(lái)提高車道線的檢測(cè)和識(shí)別能力.Huval等人[1]對(duì)OverFeat框架[2]進(jìn)行改進(jìn),設(shè)計(jì)了邊框回歸和目標(biāo)掩碼與滑動(dòng)窗口進(jìn)行結(jié)合的檢測(cè)模塊,來(lái)解決多目標(biāo)檢測(cè)時(shí)的歧義性問(wèn)題,模型最終用于高速公路駕駛,以執(zhí)行端到端的車道線檢測(cè).考慮到車道線的外形細(xì)長(zhǎng),單條車道線在空間上具有連續(xù)性這一特點(diǎn).Li等人[31]使用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò),用來(lái)尋找車道線的幾何屬性,然后再通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)檢測(cè)車道線.Pan等人[6]提出空間CNN網(wǎng)絡(luò)模型,通過(guò)對(duì)網(wǎng)絡(luò)的最高隱藏層進(jìn)行特定方向的特征更新,使網(wǎng)絡(luò)來(lái)處理車道線被遮擋時(shí)的檢測(cè).此外,傳統(tǒng)的像素級(jí)標(biāo)注的車道線數(shù)據(jù)比較窄,在網(wǎng)絡(luò)的特征提取階段,經(jīng)過(guò)卷積和池化操作后易造成特征信息損失甚至消失.為了增加車道線的特征,Lee等人對(duì)像素級(jí)標(biāo)注的車道線數(shù)據(jù)進(jìn)行了網(wǎng)格化處理.隨后,Lee在TSDC[5]多任務(wù)模型的基礎(chǔ)上設(shè)計(jì)了VPGNet[4],通過(guò)添加消失點(diǎn)預(yù)測(cè)(VPP)[32]子任務(wù)來(lái)提供全局幾何上下文信息,使得多任務(wù)網(wǎng)絡(luò)能夠在具有挑戰(zhàn)的環(huán)境下同時(shí)檢測(cè)車道線和識(shí)別其類型.上述的車道線檢測(cè)模型有的需要添加額外的子任務(wù),有的則需要搭配專門(mén)的小型網(wǎng)絡(luò)來(lái)提取車道線的空間特征并對(duì)車道線進(jìn)行檢測(cè),這樣的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且難以訓(xùn)練.此外,需要注意的是,在面對(duì)位于道路場(chǎng)景兩側(cè)位置的車道線時(shí),由于這類車道線之間的距離更近,且更易受光照變化等影響變得模糊,使得現(xiàn)有的網(wǎng)絡(luò)難以準(zhǔn)確檢測(cè)甚至出現(xiàn)誤檢測(cè),這對(duì)自動(dòng)駕駛的安全造成重大隱患.
LDNet-SFE由主干網(wǎng)絡(luò)和兩個(gè)分支網(wǎng)絡(luò)構(gòu)成,如圖2所示.主干網(wǎng)絡(luò)通過(guò)前向傳播來(lái)提取共享特征.兩個(gè)分支網(wǎng)絡(luò)為邊框回歸網(wǎng)絡(luò)和目標(biāo)檢測(cè)網(wǎng)絡(luò),分別用于處理車道線定位和檢測(cè)任務(wù).LDNet-SFE采用OverFeat框架,這使得我們的網(wǎng)絡(luò)在處理定位、檢測(cè)任務(wù)聯(lián)合訓(xùn)練學(xué)習(xí)時(shí)是經(jīng)濟(jì)且有效的[2].同時(shí)LDNet-SFE為全卷積結(jié)構(gòu)[33],這有助于網(wǎng)絡(luò)提取特征的空間信息.在此結(jié)構(gòu)上,我們對(duì)邊框回歸的最高隱藏層進(jìn)行空間特征編碼,以此來(lái)探索圖像在豎直方向上的空間特征,使網(wǎng)絡(luò)更適用于檢測(cè)車道線這類有著較強(qiáng)空間信息的目標(biāo),從而提升網(wǎng)絡(luò)對(duì)道路兩側(cè)位置處的車道線的檢測(cè)性能.
多任務(wù)學(xué)習(xí)是對(duì)特征提取器捕獲的特征進(jìn)行共享,檢測(cè)器的性能很大程度上依賴于特征提取器的性能[34],即更好的主干網(wǎng)絡(luò)可以帶來(lái)更好的檢測(cè)性能.LDNet-SFE的主干網(wǎng)絡(luò)的首層卷積層的步長(zhǎng)為2,并采用7×7的卷積核尺寸,通過(guò)設(shè)計(jì)更小的步長(zhǎng)和卷積核尺寸來(lái)學(xué)習(xí)更多的淺層特征[35];第二層卷積層的步長(zhǎng)為2,使模型滿足網(wǎng)絡(luò)輸出所需要的大??;為了進(jìn)一步精簡(jiǎn)網(wǎng)絡(luò),我們的主干網(wǎng)絡(luò)沒(méi)有局部響應(yīng)歸一化操作.不含空間特征編碼的多任務(wù)網(wǎng)絡(luò)的參數(shù)如表1所示.
表1 不含空間特征編碼的多任務(wù)網(wǎng)絡(luò)的結(jié)構(gòu)Table 1 Structure of multi-task network without spatial feature encoding
本文采用網(wǎng)格級(jí)標(biāo)注對(duì)原始標(biāo)注的數(shù)據(jù)進(jìn)行預(yù)處理,將車道線的點(diǎn)標(biāo)注轉(zhuǎn)換成網(wǎng)格標(biāo)注.其原理為,將車道線用一系列的8×8的網(wǎng)格覆蓋,當(dāng)網(wǎng)格中的任意一個(gè)像素位于某類車道線的標(biāo)注框內(nèi)時(shí),則整個(gè)網(wǎng)格都會(huì)被標(biāo)記為該類.這樣的標(biāo)注方法增加車道線的特征信息的同時(shí),也將車道線與其他物體檢測(cè)統(tǒng)一,為以后網(wǎng)絡(luò)的擴(kuò)展提供可能.本文的網(wǎng)絡(luò)輸入為640×480,網(wǎng)絡(luò)輸出為160×120,縮放系數(shù)為1/4.
圖3 網(wǎng)格級(jí)掩碼Fig.3 Grid-level mask
邊框回歸任務(wù)指在使單個(gè)框匹配特定的對(duì)象,但車道線這種細(xì)長(zhǎng)的目標(biāo)不能用單個(gè)框表示.受VPGNet啟發(fā),我們使用了一種利用網(wǎng)格級(jí)掩碼的替代回歸方法[4],如圖3所示,通過(guò)使用高效“滑動(dòng)窗口”檢測(cè)器與掩碼檢測(cè)器結(jié)合,生成對(duì)象掩碼并執(zhí)行邊界框回歸,網(wǎng)格上的點(diǎn)回歸到最近的網(wǎng)格單元,將相鄰的網(wǎng)格回歸成一個(gè)目標(biāo).
目標(biāo)檢測(cè)任務(wù)是利用4×4的“滑動(dòng)窗口”滑過(guò)整張圖片,窗口內(nèi)部看作一個(gè)物體的中心區(qū)域.該模塊定義了網(wǎng)絡(luò)分辨的最小區(qū)域.回歸時(shí)不用逐點(diǎn)回歸,而是對(duì)4×4大小的網(wǎng)格進(jìn)行回歸.其輸出的每個(gè)結(jié)果表示輸入圖像中的某個(gè)4×4像素區(qū)域包含車道線的概率.
訓(xùn)練時(shí)總的損失函數(shù)由兩個(gè)子任務(wù)各自的損失函數(shù)加權(quán)組成,其表示為式(1):
Loss=W1Lreg+W2Lob
(1)
其中,Lreg表示邊框回歸網(wǎng)絡(luò)的L1損失,Lob表示目標(biāo)檢測(cè)網(wǎng)絡(luò)的交叉熵?fù)p失.我們通過(guò)修改W1和W2的數(shù)值,來(lái)平衡兩個(gè)子任務(wù)的訓(xùn)練.開(kāi)始時(shí)將W1和W2分別取值為3和1,在訓(xùn)練過(guò)程中,當(dāng)子任務(wù)對(duì)應(yīng)的損失值相差較大時(shí),暫停訓(xùn)練,手動(dòng)取各自損失值的倒數(shù)作為其新的權(quán)值,然后繼續(xù)訓(xùn)練,直至網(wǎng)絡(luò)收斂.
車道線的外形細(xì)長(zhǎng),單條車道線在空間上有一定的連續(xù)性.不同區(qū)域的道路場(chǎng)景差異性大,當(dāng)場(chǎng)景中存在多條車道線時(shí),現(xiàn)有的網(wǎng)絡(luò)模型難以應(yīng)對(duì)位于道路兩側(cè)的車道線檢測(cè).如何去對(duì)多任務(wù)網(wǎng)絡(luò)的空間關(guān)系進(jìn)行建模,以賦予模型充分探索空間連續(xù)性的特征,增強(qiáng)網(wǎng)絡(luò)對(duì)圖像上像素在空間信息的利用,這對(duì)于網(wǎng)絡(luò)模型能否更好地檢測(cè)邊緣位置的車道線至關(guān)重要.
LDNet-SFE網(wǎng)絡(luò)的車道線檢測(cè)任務(wù)由邊框回歸和目標(biāo)檢測(cè)協(xié)同完成,其中邊框回歸對(duì)車道線的位置檢測(cè)最為重要;同時(shí),由于最高隱藏層含有豐富的語(yǔ)義特征信息,我們僅對(duì)邊框回歸的最高隱藏層進(jìn)行空間特征編碼,將特征圖的每一行視作新的卷積層,使用卷積加非線性激活,把逐層卷積操作的原理應(yīng)用到逐行卷積中,從而實(shí)現(xiàn)在同一行中的像素信息能在行之間按特定方向進(jìn)行消息傳遞.
具體操作如圖4所示,以尺寸C×H×W的三維張量為例,其中C、H和W分別表示信道、行數(shù)和列數(shù).將其按行數(shù)H進(jìn)行橫向切分,得到H個(gè)片.然后將第一個(gè)片發(fā)送到尺寸為C×w的卷積核中進(jìn)行卷積操作,這里w是卷積核寬度.經(jīng)過(guò)卷積和ReLU操作之后,將輸出的結(jié)果和第二個(gè)片的對(duì)應(yīng)元素進(jìn)行求和操作,來(lái)更新第二個(gè)片.此時(shí)第二個(gè)片已經(jīng)獲得來(lái)自第一個(gè)片的特征信息.然后將更新后的第二個(gè)片發(fā)送到下一個(gè)卷積核,重復(fù)上述過(guò)程,直到最后一個(gè)片被更新,從上向下方向的空間信息傳遞全部結(jié)束.
第H個(gè)片包含之前H-1個(gè)片的從上往下逐層傳遞的空間信息,將其作為初始位置,進(jìn)行從下向上方向的更新,重復(fù)之前的連接和更新過(guò)程,直到第一個(gè)片被更新.
最后,將更新后的H個(gè)片輸入到concat層,在維度為高度的方向進(jìn)行拼接,得到更新后三維張量.經(jīng)過(guò)上述操作,任意第N個(gè)片,包含前N-1個(gè)片從上向下傳遞來(lái)的信息,同時(shí),也含有H-N個(gè)片從下向上傳遞來(lái)的信息.假設(shè)指定的一個(gè)三維張量K,信息傳遞可由式(2)計(jì)算:
(2)
其中Ki,j,k記為最后一片中通道i的元素和當(dāng)前的片中通道j的元素之間的權(quán)重,這兩個(gè)元素之間偏移為k列.同樣的將Xi,j,k記錄為張量X的元素,其中i,j,k分別指代通道、行、列.f是非線性激活函數(shù)ReLU.X′表示更新后的值,所有的片共享一組卷積核.
圖4 空間特征編碼Fig.4 Spatial feature encoding
本部分主要驗(yàn)證本文提出的LDNet-SFE的車道線檢測(cè)的性能.首先,我們分析新主干網(wǎng)絡(luò)和空間特征編碼對(duì)模型性能的影響,通過(guò)對(duì)比傳統(tǒng)方法、DriveNet、VPG和僅更新主干網(wǎng)絡(luò)的模型,來(lái)驗(yàn)證更好地學(xué)習(xí)和保留淺層特征對(duì)檢測(cè)性能帶來(lái)的提升;通過(guò)對(duì)比LDNet-SFE與其他不含空間特征編碼的模型,來(lái)驗(yàn)證空間特征編碼對(duì)空間特征的捕獲以及對(duì)檢測(cè)性能的提升.然后,我們?cè)O(shè)置不同核寬度的空間特征編碼,來(lái)分析其對(duì)空間信息的利用.
實(shí)驗(yàn)使用加州理工學(xué)院車道線公開(kāi)數(shù)據(jù)集,其包括在一天中的不同時(shí)間在加利福尼亞州帕薩迪納附近的街道上拍攝的四個(gè)剪輯.我們選用其中的Cordova1和Washington1兩個(gè)子數(shù)據(jù)集[1,4].網(wǎng)絡(luò)采用隨機(jī)梯度下降法的訓(xùn)練策略,初始學(xué)習(xí)速率為0.01,動(dòng)量項(xiàng)為0.9,網(wǎng)絡(luò)的輸入大小為640×480,訓(xùn)練時(shí)采用批處理的大小為24,采用的最大迭代次數(shù)為5萬(wàn)次.網(wǎng)絡(luò)的運(yùn)行環(huán)境和相關(guān)的訓(xùn)練參數(shù)如表2所示.
表2 網(wǎng)絡(luò)運(yùn)行環(huán)境和參數(shù)Table 2 Network operating environment and parameters
本文研究的車道線檢測(cè)算法屬于檢測(cè)和定位任務(wù)的結(jié)合,F(xiàn)1分?jǐn)?shù)作為準(zhǔn)確率和召回率的調(diào)和平均數(shù),可以用來(lái)評(píng)價(jià)模型的綜合性能.本文采用的網(wǎng)格級(jí)車道線標(biāo)注,其標(biāo)注的形式為(xmin,ymin,xmax,ymax,class),考慮到車道線初始由點(diǎn)標(biāo)注,因此采用基于距離判定的方式計(jì)算檢測(cè)結(jié)果.任意預(yù)測(cè)點(diǎn)(x,y),只要與標(biāo)簽點(diǎn)組成的網(wǎng)格中心坐標(biāo)距離在一定范圍之內(nèi)即判定檢測(cè)結(jié)果正確,TP加 1.
(3)
上式中,中心點(diǎn)坐標(biāo)為起始點(diǎn)加上邊長(zhǎng)的一半,由于正方形網(wǎng)格邊長(zhǎng)為8,故取4.N值等于車道線的平均寬度的一半,根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),本文設(shè)置為20.為了使評(píng)價(jià)指標(biāo)更加一般化,本文分別計(jì)算測(cè)試集上每一張圖片的各個(gè)指標(biāo),最后求出平均值.
本文對(duì)主干網(wǎng)絡(luò)的前兩層卷積層進(jìn)行修改,更新后的多任務(wù)模型取名為L(zhǎng)DNet-No-SFE.分別在Cordova1和Washington1數(shù)據(jù)集下進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表3所示.
表中的LDNet-SFE為在LDNet-No-SFE基礎(chǔ)上對(duì)邊框回歸進(jìn)行空間特征編碼后的網(wǎng)絡(luò)模型.通過(guò)表3可知,基于深度學(xué)習(xí)的車道線檢測(cè)算法性能遠(yuǎn)高于基于傳統(tǒng)方法的車道線檢測(cè)算法,其F1分?jǐn)?shù)比傳統(tǒng)方法高10%左右.在基于深度學(xué)習(xí)的方法之中,與DriveNet和VPG-2task進(jìn)行對(duì)比,我們的LDNet-No-SFE的F1分?jǐn)?shù)提高了0.8%.對(duì)比VPG-3task,我們的網(wǎng)絡(luò)在不添加額外子任務(wù)的前提下,F(xiàn)1分?jǐn)?shù)依然提高了0.5%.這表明首層卷積層提取到的淺層特征能有效提高網(wǎng)絡(luò)的性能,更小的卷積核與步長(zhǎng)可以使特征提取器學(xué)習(xí)并保留更多的淺層特征,從而提高檢測(cè)任務(wù)的性能.
表3 在Cordova1數(shù)據(jù)集下各個(gè)模型的F1分?jǐn)?shù)Table 3 F1 scores of each model in Cordova1
對(duì)比LDNet-SFE和LDNet-No-SFE,前者的F1分?jǐn)?shù)比后者提高了0.3%.這表明通過(guò)對(duì)邊框回歸的最高隱藏層處進(jìn)行空間特征編碼,能使模型學(xué)習(xí)到更多在豎直方向的空間連續(xù)性特征,這對(duì)于網(wǎng)絡(luò)檢測(cè)車道線的位置,提高整體檢測(cè)性能尤為重要.
表4 在Washington1數(shù)據(jù)集下各個(gè)模型的F1分?jǐn)?shù)Table 4 F1 scores of each model in Washington1
表4為在Washington1數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn)的F1分?jǐn)?shù)對(duì)比,表中LDNet-No-SFE比VPG-3task性能提升了0.8%,略低于VPG-2task,值得注意的是VPG-3task比VPG-2task性能下降了1.3%,這表明對(duì)多任務(wù)網(wǎng)絡(luò)來(lái)說(shuō),更多的子任務(wù)不一定帶來(lái)性能的提升,在面對(duì)復(fù)雜場(chǎng)景時(shí)模型的魯棒性較差.值得注意的是,本文提出的LDNet-SFE的在Washington1和Cordova1數(shù)據(jù)集下均表現(xiàn)良好,取得最佳F1分?jǐn)?shù).
卷積核寬度表示像素可以接收其他像素的信息數(shù)量,卷積核寬度的大小影響著空間信息的提取.為了進(jìn)一步測(cè)試空間特征編碼對(duì)模型性能的影響,本文在LDNet-SFE模型的基礎(chǔ)上,選取核寬度為1、3、5、7、9的模型,分別在Cordova1和Washington1數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn).
圖5 網(wǎng)絡(luò)輸出對(duì)比Fig.5 Comparison with the network output
表5中LDNet-SFE-S1表示空間特征編碼的卷積核寬度為1,以此類推.由表5可知,在Cordova1數(shù)據(jù)集下,當(dāng)卷積核寬度為3時(shí),模型的F1分?jǐn)?shù)最高,達(dá)到了0.878.隨著卷積核寬度的增加,模型的檢測(cè)性能出現(xiàn)了稍許下降,對(duì)比最優(yōu)的LDNet-SFE-S3模型,性能下降0.1%到0.2%之間.這是由于Cordova1數(shù)據(jù)集中道路環(huán)境相對(duì)簡(jiǎn)單,核寬度較小的空間特征編碼能有效提升空間信息利用.
表5 在Cordova1數(shù)據(jù)集下,不同核寬度的F1分?jǐn)?shù)Table 5 F1 scores of different kernel width in Cordova1
表6 在Washington1數(shù)據(jù)集下,不同核寬度的F1分?jǐn)?shù)Table 6 F1 scores of different kernel width in Washington1
由表6可知,在Washington1數(shù)據(jù)集下,當(dāng)卷積核寬度為7時(shí),模型的F1分?jǐn)?shù)最高,達(dá)到了0.867.而當(dāng)卷積核寬度為3時(shí),模型的F1分?jǐn)?shù)為0.863,對(duì)比最優(yōu)的LDNet-SFE-S7模型,性能下降了0.4%.這是由于Washington1數(shù)據(jù)集中復(fù)雜場(chǎng)景的路況較多,需要像素接收來(lái)自遠(yuǎn)端的像素的信息,提取和利用更多的空間特征,已達(dá)到模型性能的提升.
以上兩組實(shí)驗(yàn)表明,不同的卷積核寬度在面對(duì)不同的數(shù)據(jù)集時(shí),會(huì)對(duì)網(wǎng)絡(luò)的檢測(cè)性能造成一定的影響.值得注意的是,LDNet-SFE-S5模型在Washington1數(shù)據(jù)集下的F1分?jǐn)?shù)為0.866,僅比最優(yōu)的LDNet-SFE-S7模型低0.1%.同樣,在Cordova1數(shù)據(jù)集下,LDNet-SFE-S5模型比性能最優(yōu)的LDNet-SFE-S3模型低0.1%,其F1分?jǐn)?shù)為0.877.基于上述實(shí)驗(yàn)結(jié)果,最終本文決定采用LDNet-SFE-S5模型作為我們網(wǎng)絡(luò)的最終模型LDNet-SFE.
網(wǎng)絡(luò)推理時(shí)間是衡量網(wǎng)絡(luò)模型性能的重要指標(biāo)之一,我們?cè)贜VIDIATeslaK40C顯卡下測(cè)試不同模型的推理時(shí)間,我們分別計(jì)算測(cè)試集上每一張圖片的推理時(shí)間,最后求出平均值,對(duì)比結(jié)果如表7所示.
表7 不同模型的推理時(shí)間對(duì)比Table 7 Comparison of inference time of different models
由表7可知,LDNet-SFE的網(wǎng)絡(luò)推理時(shí)間達(dá)到了45.6毫秒,比LDNet-No-SFE網(wǎng)絡(luò)推理時(shí)間增加了4.1毫秒,但是對(duì)比DriveNet和VPG-3task,LDNet-SFE的網(wǎng)絡(luò)推理時(shí)間分別縮短了1.6毫秒和4.5毫秒.與現(xiàn)有方法的對(duì)比表明,我們的LDNet-SFE能在提高檢測(cè)性能的同時(shí),使網(wǎng)絡(luò)推理時(shí)間進(jìn)一步縮短.
圖5為VPG-2Task、LDNet-No-SFE、LDNet-SFE三個(gè)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)輸出同真實(shí)標(biāo)簽的對(duì)比,對(duì)比第一行圖片,LDNet-SFE在面對(duì)位于道路兩側(cè)位置的車道線時(shí),可以提取到更豐富的車道線特征.對(duì)比第二行圖片,當(dāng)?shù)缆穬蓚?cè)位置的兩條車道線距離較近時(shí),我們的LDNet-SFE在保留更多車道特征的同時(shí),可有效避免車道線之間的誤檢測(cè).對(duì)比第三到第五行的圖片可知,處于道路邊緣位置的車道線更易受光照變化等影響,VPG-2Task和LDNet-No-SFE在應(yīng)對(duì)這樣的道路環(huán)境時(shí),容易將兩側(cè)的道路誤檢為車道線,而我們的LDNet-SFE可以有效進(jìn)行區(qū)分.
本文針對(duì)道路兩側(cè)位置的車道線易受光照變化等影響而變得模糊,導(dǎo)致其難以被檢測(cè)的問(wèn)題,提出了一個(gè)端到端的基于空間特征編碼的多任務(wù)網(wǎng)絡(luò)LDNet-SFE,我們對(duì)邊框回歸任務(wù)設(shè)計(jì)了空間特征編碼,對(duì)深層特征圖進(jìn)行特定方向的切分與更新,賦予網(wǎng)絡(luò)更好的學(xué)習(xí)空間信息的能力.此外,通過(guò)為模型設(shè)計(jì)新的特征提取器,使其能學(xué)習(xí)并保留更多淺層特征.在Cordova1和Washington1數(shù)據(jù)集上實(shí)驗(yàn)表明,LDNet-SFE可以學(xué)習(xí)到車道線的空間信息并完成對(duì)其位置的檢測(cè),值得注意的是,在面對(duì)處于道路兩側(cè)位置的車道線時(shí),LDNet-SFE可以有效檢測(cè)車道線的同時(shí),避免誤檢測(cè).