姚善化, 趙帥
(1.安徽理工大學(xué)電氣與信息工程學(xué)院, 淮南 232001; 2.安徽理工大學(xué)電氣與信息工程學(xué)院, 淮南 232001)
近年來(lái),無(wú)人駕駛技術(shù)已引起了世界各國(guó)以及社會(huì)各界的廣泛關(guān)注,并成為眾多學(xué)者探討的焦點(diǎn)。車道線檢測(cè)屬于無(wú)人駕駛系統(tǒng)的感知模塊,通過(guò)檢測(cè)車道線的位置實(shí)現(xiàn)行駛車輛定位和車道偏離預(yù)警等功能,這對(duì)后續(xù)軌跡規(guī)劃和控制決策起至關(guān)重要的作用。
已有車道線檢測(cè)的方法大致分為3種:基于車道特征的方法、基于車道模型的方法和基于深度學(xué)習(xí)的方法?;谲嚨捞卣鞯姆椒ㄖ饕抢密嚨谰€與道路環(huán)境的紋理、邊緣和灰度值等差異進(jìn)行后續(xù)圖像的分割與處理,提取車道線特征,從而實(shí)現(xiàn)車道線的檢測(cè)。付利軍等[1]通過(guò)細(xì)化圖像中關(guān)于車道線的感興趣區(qū)域來(lái)降低無(wú)關(guān)的背景影響,然后利用改進(jìn)hough變換檢測(cè)車道線,該算法對(duì)感興趣區(qū)域的選取比較苛刻,在遮擋的情況下不能有效確定圖像中的感興趣區(qū)域。王智宇等[2]提出了一種改進(jìn)RANSAC(random sample consensus)的車道線識(shí)別方法,該算法易受道路環(huán)境的干擾,對(duì)噪聲比較敏感,魯棒性較差。黃艷國(guó)等[3]通過(guò)自適應(yīng)透視變換和特征融合解決了攝像頭抖動(dòng)導(dǎo)致車道線識(shí)別率低的問(wèn)題,該算法在彎道和整體路況下具有較好的魯棒性和識(shí)別率,但實(shí)時(shí)性仍需進(jìn)一步提高。
基于車道模型的方法主要是通過(guò)霍夫變換和最小二乘等方法求解車道線數(shù)學(xué)模型參數(shù)來(lái)擬合對(duì)應(yīng)的車道線,常見(jiàn)車道線模型有直線模型、拋物線模型和樣條曲線模型等。洪偉等[4]通過(guò)減少圖像形變,根據(jù)顏色和幾何特征,使用DBSCAN(density-based spatial clustering of applications with noise)空間聚類算法對(duì)車道線特征點(diǎn)進(jìn)行分類,然后利用拋物線模型對(duì)不同類別的車道線特征點(diǎn)進(jìn)行擬合,從而實(shí)現(xiàn)車道線檢測(cè)。韓浩等[5]提出了一種混合貝塞爾曲線的車道線檢測(cè)方法,該算法具有較高的實(shí)時(shí)性,提高了在陰影和光照變化場(chǎng)景下的魯棒性,但局限性較強(qiáng),難以適應(yīng)城市中復(fù)雜的道路環(huán)境和各種路況。
隨著硬件設(shè)備的不斷升級(jí),深度學(xué)習(xí)在圖像處理領(lǐng)域的應(yīng)用中具有顯著的效果,基于深度學(xué)習(xí)的方法是使用大量的數(shù)據(jù)訓(xùn)練一個(gè)深層的神經(jīng)網(wǎng)絡(luò)模型,通過(guò)提取車道線的特征信息來(lái)調(diào)整網(wǎng)絡(luò)的權(quán)重參數(shù),進(jìn)而實(shí)現(xiàn)車道線的檢測(cè)。Pan等[6]為了更好地檢測(cè)出車道線這類細(xì)長(zhǎng)型目標(biāo),提出了一種新的空間卷積方法(spatial convolutional neural network,SCNN),該方法對(duì)特征圖的行和列進(jìn)行切片,然后從4個(gè)方向上用逐片段卷積代替普通卷積,該方式改善了無(wú)視覺(jué)提示的問(wèn)題,增強(qiáng)了相鄰像素之間的消息傳遞,但由于串行序列式的信息聚合方式,導(dǎo)致計(jì)算效率低且成本高。Zheng等[7]在SCNN的基礎(chǔ)上做了改進(jìn),提出了循環(huán)特征偏移聚合器模塊(recurrent feature-shift aggregator,RESA),該模塊通過(guò)增加不同方向切片卷積次數(shù)和擴(kuò)大切片間消息傳遞的間隔來(lái)擴(kuò)大感受野,其并行的計(jì)算方式令計(jì)算效率得以提高,但這種逐行的像素預(yù)測(cè)并未將特征通道視為一個(gè)整體。Hou等[8]提出了一種基于注意力圖的知識(shí)蒸餾(self attention distillation,SAD)方式,在不增加新的標(biāo)簽和監(jiān)督需求的條件下,提高車道線檢測(cè)網(wǎng)絡(luò)的訓(xùn)練效果,并且只在訓(xùn)練時(shí)采用,推理時(shí)間并未增加。Qin等[9]提出了一種基于行范式的車道線檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)把車道線檢測(cè)過(guò)程看作基于全局特征的行選擇問(wèn)題,有效解決了計(jì)算成本高和無(wú)視覺(jué)線索的問(wèn)題。Zheng等[10]提出跨層優(yōu)化網(wǎng)絡(luò)(cross layer refinement network,CLRNet)用來(lái)獲取車道的低級(jí)和高級(jí)特征,再引入感興趣區(qū)域聚合(region of interest gather,ROIGather)解決車道線的無(wú)視覺(jué)線索問(wèn)題,最后通過(guò)建立車道特征與整個(gè)特征圖之間的關(guān)系來(lái)捕獲更多的全局上下文信息,從而實(shí)現(xiàn)車道線檢測(cè)。
ResNet(residual neural network)網(wǎng)絡(luò)結(jié)構(gòu)由He等[11]提出,主要解決了深層網(wǎng)絡(luò)中梯度消失、梯度爆炸和網(wǎng)絡(luò)不收斂等問(wèn)題,被廣泛應(yīng)用于各種計(jì)算機(jī)視覺(jué)任務(wù)中。針對(duì)目前的車道線檢測(cè)問(wèn)題,現(xiàn)首先提出循環(huán)多特征信息融合(recurrent multi-feature information aggregator,RMFA)方法,該方法不僅利用特征圖上下文的空間信息,還將特征通道視為一個(gè)整體,充分利用相鄰?fù)ǖ赖奶卣餍畔?有效地增強(qiáng)像素點(diǎn)的全局信息;然后基于ResNet神經(jīng)網(wǎng)絡(luò),搭建ResNet-RMFA車道識(shí)別網(wǎng)絡(luò),把車道線檢測(cè)視為基于行選擇單元格的分類問(wèn)題,有效地降低網(wǎng)絡(luò)的前向推理時(shí)間。最后在Tusimple和CULane[6]車道線公共數(shù)據(jù)集上對(duì)所提方法和網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)驗(yàn)證,并與多種基于深度學(xué)習(xí)的車道線檢測(cè)算法進(jìn)行對(duì)比和分析。
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)使用卷積核對(duì)輸入圖片直接做卷積處理,該方法雖然可以通過(guò)增加卷積核的數(shù)量提取圖像中的低級(jí)和高級(jí)特征,但針對(duì)性不強(qiáng),對(duì)于這種稀疏且具有細(xì)長(zhǎng)外觀形態(tài)的車道線,其特征提取效果并不理想,并未充分利用特征圖中行和列的空間關(guān)系以及通道之間的特征關(guān)系。
循環(huán)多特征信息融合方法(recurrent multi-feature information aggregator,RMFA)由循環(huán)行特征信息融合模塊、循環(huán)列特征信息融合模塊和循環(huán)通道特征信息融合模塊組成。前兩個(gè)模塊主要負(fù)責(zé)用于捕獲像素之間行和列的空間關(guān)系,增強(qiáng)像素點(diǎn)的全局信息;循環(huán)通道特征信息融合模塊將特征通道視為一個(gè)整體,負(fù)責(zé)低級(jí)和高級(jí)特征之間的信息融合,增強(qiáng)特征中部分和整體關(guān)系,以及像素?cái)y帶的信息量。
圖1表示循環(huán)行特征信息融合模塊,其中圖1(a)和圖1(b)分別代表以從上到下和從下到上的方向進(jìn)行切片間的消息傳遞;iter為該模塊的一個(gè)超參數(shù)(iter設(shè)置不超過(guò)log2W),表示在每個(gè)方向上卷積的次數(shù),即每個(gè)方向要進(jìn)行信息聚合的次數(shù),增大iter可以擴(kuò)大消息間傳遞的間隔;old feature map表示進(jìn)行信息融合之前的特征圖;new feature map表示信息融合之后的特征圖。如圖1所示,高為H、寬為W、通道數(shù)為C的特征圖進(jìn)入循環(huán)行特征信息融合模塊前會(huì)被分為H個(gè)尺寸為W×C的行特征切片,然后使用C個(gè)寬度為1×w1的一維卷積核對(duì)行特征切片進(jìn)行卷積,提取行特征信息,最后對(duì)特征圖中任意第h行的切片,以Srow為步長(zhǎng)向下(上)做行特征信息傳遞,即第h行的切片特征信息會(huì)傳遞給第hdown(hup)行切片。行間消息傳遞的步長(zhǎng)Srow為
H為輸入特征圖高度;W為輸入特征圖寬度;C為通道總數(shù)量;old feature map為循環(huán)行特征信息融合模塊的輸入;new feature map為循環(huán)行特征信息融合模塊的輸出;iter為不同方向上信息聚合的次數(shù)圖1 循環(huán)行特征信息融合模塊Fig.1 Recurrentrow feature information fusion module
(1)
圖1(a)消息傳遞接收行的切片位置hdown和圖1(b)消息傳遞接收行的切片位置hup分別為
(2)
(3)
式中:h為特征圖中第h行的切片位置;Srow為行間消息傳遞步長(zhǎng)。
水平前向傳播的方式和行信息聚合的殘差連接操作的定義為
(4)
(5)
為實(shí)現(xiàn)特征圖中特征在列與列之間融合,循環(huán)列特征信息融合模塊進(jìn)行了相似的設(shè)計(jì),其中圖2(a)和圖2(b)分別代表以從左到右和從右到左的方向進(jìn)行切片間的消息傳遞。如圖2所示,高為H、寬為W、通道數(shù)為C的特征圖進(jìn)入循環(huán)列特征信息融合模塊前會(huì)被分為W個(gè)尺寸為H×C的列特征切片,然后使用C個(gè)寬度為w2×1的一維卷積核對(duì)列特征切片進(jìn)行卷積,提取列特征信息,最后對(duì)特征圖中任意第w列的切片卷積后,以Scolumn為步長(zhǎng)向右(左)做列特征信息傳遞,即第w列的切片特征信息會(huì)傳遞給第wright(wleft)列切片。列間消息傳遞的步長(zhǎng)Scolumn為
H為輸入特征圖高度;W為輸入特征圖寬度;C為通道總數(shù)量;old feature map為循環(huán)列特征信息融合模塊的輸入;new feature map為循環(huán)列特征信息融合模塊的輸出;iter為不同方向上信息聚合的次數(shù)圖2 循環(huán)列特征信息融合模塊Fig.2 Recurrentcolumn feature information fusion module
(6)
圖2(a)消息傳遞接收列的切片位置wright和圖2(b)消息傳遞接收列的切片位置wleft的定義為
(7)
(8)
式中:w為特征圖中第w列的切片位置;Scolumn為列間消息傳遞步長(zhǎng);W為輸入特征圖寬度。
式(9)定義了垂直前向傳播的方式,式(10)定義了列信息聚合的殘差連接操作。其中一維卷積核F的大小為w2×1,m為一維卷積核的高度索引,取值范圍為1~w2,n為一維卷積核的寬度索引,取值范圍為1。
(9)
(10)
圖3為循環(huán)通道特征信息融合模塊,該模塊將特征圖視為一個(gè)整體,通過(guò)聚合特征圖中通道之間的特征信息,來(lái)增加像素所攜帶的特征信息量,在沒(méi)有增加特征圖維度的同時(shí)還有益于最終的單元格分類。如圖3所示,該模塊對(duì)通道特征進(jìn)行融合時(shí),會(huì)加上該通道相鄰單位的通道特征,其中第一列切片會(huì)聚合最后一列切片的信息,最后一列切片會(huì)聚合第一列切片信息。對(duì)圖3中old feature map任意第c個(gè)通道進(jìn)行特征信息融合,融合式為
old feature map為循環(huán)通道特征信息融合模塊的輸入;new feature map為循環(huán)通道特征信息融合模塊的輸出圖3 循環(huán)通道特征信息融合模塊Fig.3 Recurrent channel feature information fusion module
(11)
式(11)中:X′為經(jīng)過(guò)特征融合后的輸出;其中c、i和j分別為通道、行和列的索引;X為循環(huán)通道特征信息融合模塊的輸入。
經(jīng)過(guò)循環(huán)多特征信息融合方法處理后,每個(gè)像素可以捕獲行和列之間的空間信息,從而增加像素所攜帶的低級(jí)和高級(jí)特征信息。這種增強(qiáng)的特征信息更有利于車道線檢測(cè)。因此將特征提取方法RMFA和特征提取網(wǎng)絡(luò)ResNet結(jié)合,進(jìn)一步提出了ResNet-RMFA車道線檢測(cè)網(wǎng)絡(luò)。
ResNet-RMFA網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,它由特征提取網(wǎng)絡(luò)ResNet、循環(huán)多特征信息融合模塊RMFA、車道線單元格預(yù)測(cè)分支、車道線數(shù)目預(yù)測(cè)分支和車道線分割分支組成。本文研究主要使用深度為18和34的ResNet作為特征提取網(wǎng)絡(luò),該網(wǎng)絡(luò)主要由4層layer組成,每經(jīng)過(guò)一層layer,高和寬會(huì)縮減至原來(lái)的一半,通道會(huì)增加至原來(lái)的一倍,其深度代表ResNet網(wǎng)絡(luò)總的卷積次數(shù)。該網(wǎng)絡(luò)的輸入為288×800的RGB道路圖像,經(jīng)過(guò)ResNet特征網(wǎng)絡(luò)提取后輸出為512×9×25的特征圖,為了降低計(jì)算量,將該特征圖經(jīng)過(guò)1×1卷積做降維處理,最終獲得128×9×25的特征圖,該特征圖即為RMFA模塊的輸入,這里將輸入至RMFA模塊的特征圖稱為頂層特征[12]。頂層特征首先輸入至方向?yàn)閺纳系较碌难h(huán)行特征信息融合模塊(RMFA_DOWN),該模塊會(huì)對(duì)頂層特征做從上到下的行特征信息融合,融合完成后的特征圖輸入至循環(huán)通道特征信息融合模塊聚合像素點(diǎn)各通道間的特征信息,聚合完成后生成的頂層特征將作為下一個(gè)方向上信息聚合的輸入,至此完成了一個(gè)方向上的信息聚合。該步驟還會(huì)依次執(zhí)行3次,方向分別為從下到上的循環(huán)行特征信息融合模塊(RMFA_UP)、從左到右的循環(huán)列特征信息融合模塊(RMFA_RIGHT)和從右到左的循環(huán)列特征信息融合模塊(RMFA_LEFT),每個(gè)模塊后面均跟有循環(huán)通道特征信息融合模塊。完成上述4個(gè)方向上的信息聚合后生成的新頂層特征圖進(jìn)入車道線單元格預(yù)測(cè)分支,該分支用于預(yù)測(cè)當(dāng)前輸入的圖像中不同行中的單元格屬于第i條車道線的概率(其中i=1、2、3和4,最多只檢測(cè)4條車道線)。需要說(shuō)明的是車道線數(shù)目預(yù)測(cè)分支和車道線分割分支作為ResNet-RMFA車道線檢測(cè)網(wǎng)絡(luò)的輔助分支,該分支只用于訓(xùn)練階段,不用于測(cè)試階段。其中車道線數(shù)目預(yù)測(cè)分支用于預(yù)測(cè)當(dāng)前輸入的圖像中存在車道線的個(gè)數(shù),且最多只能預(yù)測(cè)出4條,因此該分支的輸出為1×4的一維向量;車道線分割分支的主要作用是為了進(jìn)一步增強(qiáng)ResNet網(wǎng)絡(luò)對(duì)輸入圖片的特征提取能力。
RMFA_ROW_DOWN為方向從上到下的循環(huán)行特征信息融合模塊;RMFA_ROW_UP為方向從下到上的循環(huán)行特征信息融合模塊;RMFA_COLUMN_RIGHT為方向從右到左的循環(huán)列特征信息融合模塊;RMFA_ COLUMN _LEFT為方向從左到右的循環(huán)列特征信息融合模塊;RMFA_CHANNEL為循環(huán)通道特征信息融合模塊;Convlution為卷積;BN為批歸一化;Rulu為激活函數(shù);Downsampling為下采樣;Upsampling為上采樣;Fully connected為全連接;Softmax為Softmax邏輯回歸圖4 ResNet-RMFAFig.4 ResNet-RMFA
本次實(shí)驗(yàn)采用Tusimple數(shù)據(jù)集和CULane數(shù)據(jù)集[6]來(lái)驗(yàn)證網(wǎng)絡(luò)模型性能。Tusimple數(shù)據(jù)集是在高速公路的穩(wěn)定照明條件下收集的,包含多種天氣和交通狀況,其中圖像注釋采用 JSON 文件格式,每張圖片的標(biāo)簽值均含有3個(gè)字段,分別表示圖像的路徑地址和車道線的橫、縱坐標(biāo)。CULane數(shù)據(jù)集由香港中文大學(xué)提出,該數(shù)據(jù)集具有一定的挑戰(zhàn)性,由九種不同的場(chǎng)景組成,包括正常場(chǎng)景、人群擁擠場(chǎng)景、夜間場(chǎng)景、無(wú)車道線場(chǎng)景、陰影場(chǎng)景、曲線場(chǎng)景、十字路口場(chǎng)景、高光場(chǎng)景和城市區(qū)域中有箭頭的場(chǎng)景,有關(guān)數(shù)據(jù)集的詳細(xì)信息如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental datasets
兩個(gè)數(shù)據(jù)集的官方評(píng)估指標(biāo)不同,對(duì)于Tusimple數(shù)據(jù)集,主要的評(píng)估指標(biāo)為官方提供的準(zhǔn)確度,計(jì)算公式為
(12)
式(12)中:Cclip為第cilp張經(jīng)過(guò)裁剪的測(cè)試圖片中正確預(yù)測(cè)車道點(diǎn)的數(shù)量;Sclip為第cilp張經(jīng)過(guò)裁剪的測(cè)試圖片中真實(shí)有效的車道點(diǎn)數(shù)量,其中clip的取值范圍涵蓋了Tusimple測(cè)試集的所有圖片,因此clip的最大取值為2 782。
對(duì)于CULane數(shù)據(jù)集,每條車道被視為一條30像素寬的線,然后計(jì)算真實(shí)值和預(yù)測(cè)值之間的交集(intersection over union,IoU),并將IoU>0.5的預(yù)測(cè)視為真陽(yáng)性(true positive,TP),最終用F1得分值作為評(píng)估度量,公式為
(13)
式(13)中:精確度=TP/(TP+FP);召回率=TP/(TP+FN);其中TP為真陽(yáng)性,FP為假陽(yáng)性(false positive),FN為假陰性(false negative)。
除了精確度和F1得分值之外,評(píng)估指標(biāo)還包括模型的運(yùn)行時(shí)間和FPS。
實(shí)驗(yàn)環(huán)境為Ubuntu操作系統(tǒng),CPU(central processing unit)為15核 Intel(R) Xeon(R) Platinum 8358P CPU@ 2.60 GHz,訓(xùn)練和測(cè)試網(wǎng)絡(luò)模型使用的GPU(graphics processing unit)為NVIDIA RTX A5000,測(cè)試網(wǎng)絡(luò)運(yùn)行時(shí)間時(shí)使用的GPU為NVIDIA GTX 1080Ti,CUDA為11.3版本,深度學(xué)習(xí)框架采用PyTorch[13]。
在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,輸入圖像大小調(diào)整為288×800,由于車道線的固有結(jié)構(gòu),基于分類的網(wǎng)絡(luò)很容易過(guò)度擬合訓(xùn)練集,因此使用了旋轉(zhuǎn)、平移等方法防止這種現(xiàn)象,提高模型的泛化能力。訓(xùn)練參數(shù)設(shè)置具體如下:在Tusimple數(shù)據(jù)集上訓(xùn)練次數(shù)設(shè)置為500,批處理大小設(shè)置為32,網(wǎng)絡(luò)訓(xùn)練的迭代次數(shù)為57 000次,采用AdamW優(yōu)化器[14],初始學(xué)習(xí)率為1×10-3,權(quán)重衰減因子設(shè)置為1×10-4,學(xué)習(xí)率衰減使用余弦退火策略[15]。在CULane數(shù)據(jù)集上訓(xùn)練次數(shù)設(shè)置為100,批處理大小設(shè)置為32,網(wǎng)絡(luò)訓(xùn)練的迭代次數(shù)為277 800次,學(xué)習(xí)率為6×10-4,其他和上述設(shè)置一致。
為了選取合適的超參數(shù)w1和w2,設(shè)計(jì)了w1和w2在不同取值時(shí)的對(duì)比試驗(yàn)。該對(duì)比試驗(yàn)使用相同參數(shù)設(shè)置的Res18-RMFA模型在Tusimple數(shù)據(jù)集下進(jìn)行準(zhǔn)確度評(píng)估。
如表2所示,當(dāng)w1=5和w2=3時(shí)模型的表現(xiàn)最好,原因在于:頂層特征圖的W較大,當(dāng)w1太小時(shí),不足以獲取行切片相近像素點(diǎn)的特征信息;而頂層特征圖的H又較小,當(dāng)w2太大時(shí),雖然有利于聚合較遠(yuǎn)像素點(diǎn)的特征信息,但同時(shí)也可能帶來(lái)干擾信息。因此后文實(shí)驗(yàn)中,w1和w2分別設(shè)置為5和3。
表2 w1和w2不同取值時(shí)在Tusimple數(shù)據(jù)集上的準(zhǔn)確度對(duì)比Table 2 Accuracy comparison on the tusimple dataset when w1 and w2 have different values
本節(jié)中展示了ResNet-RMFA車道線識(shí)別網(wǎng)絡(luò)在Tusimple和CULane兩個(gè)車道線數(shù)據(jù)集的評(píng)估結(jié)果,并選用ResNet-18和ResNet-34作為該模型的特征提取網(wǎng)絡(luò)。
對(duì)于Tusimple數(shù)據(jù)集,使用了7種先進(jìn)的方法與ResNet-RMFA進(jìn)行比較,包括SCNN[6]、SAD[8]、EL-GAN[16]、PolyLNet[17]、UFAST[9]、CondLNet[18]和BezierLN[19],對(duì)比內(nèi)容包含Tusimple評(píng)估的準(zhǔn)確性和運(yùn)行時(shí)間,其中運(yùn)行時(shí)間取1 000次的平均運(yùn)行時(shí)間。如表3所示,使用ResNet-18特征提取網(wǎng)絡(luò)時(shí),ResNet-RMFA的準(zhǔn)確度達(dá)到了96.04%,優(yōu)于PolyLNet、BezierLNet-18、CondLNet-S、UFSAT-18和EL-GAN模型3.2%、0.63%、0.56%、0.22%和1.14%。使用ResNet34特征提取網(wǎng)絡(luò)時(shí),ResNet-RMFA的準(zhǔn)確度達(dá)到了96.07%,優(yōu)于CondLNet-M 和UFSAT-34模型0.7%和0.21%。雖然SCNN、CondLNet-L和SAD模型的準(zhǔn)確度要優(yōu)于ResNet-RMFA,但在速度方面,本文所提模型更為優(yōu)秀,最快僅用4.8 ms,比SCNN快27.8倍。綜上所述,本文模型在檢測(cè)精度和速度方面展現(xiàn)了更為綜合的優(yōu)勢(shì)。
表3 不同算法在Tusimple數(shù)據(jù)集上的對(duì)比Table 3 Comparison of different algorithms on the tusimple
在CULane數(shù)據(jù)集上使用了4種不同的算法與ResNet-RMFA進(jìn)行比較,并對(duì)比了它們?cè)贗oU閾值為0.5的F1得分值方面的表現(xiàn)。如表4所示,在正常、擁擠、夜晚和強(qiáng)光環(huán)境下,本文提出的算法要優(yōu)于Baseline[6]模型、Res50-Seg模型和FD-50模型。在無(wú)車道線和箭頭環(huán)境下,ResNet-RMFA要優(yōu)于Base-line模型和Res50-Seg模型,與FD-50模型表現(xiàn)相近,略低于SCNN模型。在陰影和彎道環(huán)境下,ResNet-RMFA的F1得分值總體略低,檢測(cè)性能較差,還有待進(jìn)一步改進(jìn)。
表4 不同算法在Culane數(shù)據(jù)集上的F1得分值(IoU=0.5)對(duì)比Table 4 Comparison of F1 scores (IoU=0.5) of different algorithms on the culane dataset
為了探討RMFA模塊中卷積迭代次數(shù)對(duì)結(jié)果的影響,使用Resnet-18和Resnet-34作為特征提取網(wǎng)絡(luò),用4.3節(jié)所述相同的參數(shù)設(shè)置,將迭代次數(shù)(iter)分別設(shè)置為1、2、3進(jìn)行比較,結(jié)果如表5所示。
表5 RMFA模塊中卷積次數(shù)對(duì)結(jié)果及運(yùn)行時(shí)間的影響Table 5 The effect of convolution times on results and running time in the RMFA module
理論上,隨著迭代次數(shù)的增加,特征圖切片可以聚合更多的信息,因此檢測(cè)效果應(yīng)該更好。但實(shí)際上,在不同數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果并不完全相同,原因在于隨著迭代次數(shù)的增加,特征圖切片之間消息傳遞的間隔變大,聚合較遠(yuǎn)像素點(diǎn)的特征信息反而會(huì)帶來(lái)干擾,特別是當(dāng)特征圖的尺寸較小時(shí)更為明顯。雖然可以增大特征圖的尺寸來(lái)緩解這種情況,但這也會(huì)相應(yīng)地增加模型的計(jì)算量,為了在不改變模型大小的前提下提升模型性能,可以使用數(shù)據(jù)增強(qiáng)的方法或者在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,在CULane數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)證明了這一點(diǎn)。
為驗(yàn)證ResNet-RMFA車道識(shí)別網(wǎng)絡(luò)的效果,在Tusimple和CULane車道識(shí)別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。Tusimple數(shù)據(jù)集的可視化效果展示如圖5所示。由第1行和第3行可以看出在車道直線和存在汽車遮擋環(huán)境時(shí),原圖中藍(lán)色和紅色虛線擬合度較高;由第2行可以看出存在彎曲的車道線時(shí),近端曲率較低的車道線擬合度較高,而遠(yuǎn)端曲率較高的車道線預(yù)測(cè)效果有待提高。
藍(lán)色虛線為車道標(biāo)注線,紅色虛線為ResNet-RMFA方法的車道預(yù)測(cè)線;在標(biāo)簽圖和預(yù)測(cè)圖中,黃色、藍(lán)色、綠色和紅色虛線分別為4條從左到右的不同車道線圖5 Tusimple數(shù)據(jù)集上的可視化效果Fig.5 Visualization on the tusimple dataset
圖6為CULane數(shù)據(jù)集的可視化效果展示,該數(shù)據(jù)集包含了多種車道線場(chǎng)景。圖6中第1~7行說(shuō)明本文方法能夠?qū)崿F(xiàn)陰影、高光、遮擋等各種復(fù)雜環(huán)境下的車道線檢測(cè),第8行顯示即使沒(méi)有車道線標(biāo)注,該方法也能較好地識(shí)別出夜晚場(chǎng)景下的車道。以上證明了ResNet-RMFA車道識(shí)別方法在各種車道環(huán)境下均具有良好的檢測(cè)效果。
藍(lán)色虛線為車道標(biāo)注線;紅色虛線為本文所提方法的車道預(yù)測(cè)線圖6 CULane數(shù)據(jù)集上的可視化效果Fig.6 Visualization on the culane dataset
(1)車道線檢測(cè)在無(wú)人駕駛汽車領(lǐng)域中有著至關(guān)重要的作用。本文新穎之處在于:①提出了一種循環(huán)多特征信息融合(RMFA)方法,該方法通過(guò)對(duì)特征圖進(jìn)行上、下、左、右4個(gè)方向的信息融合及相鄰?fù)ǖ乐g的特征融合,以提高特征之間的相關(guān)性和增強(qiáng)像素點(diǎn)全局信息;②根據(jù)輸入至RMFA模塊的特征圖尺寸大小,設(shè)計(jì)了不同方向卷積的一維卷積核長(zhǎng)度和切片間的信息傳遞步長(zhǎng);③基于ResNet神經(jīng)網(wǎng)絡(luò),結(jié)合循環(huán)多特征信息融合方法,提出了ResNet-RMFA車道線識(shí)別網(wǎng)絡(luò),同時(shí)加入1×1的卷積核實(shí)現(xiàn)特征圖通道數(shù)的降維,提高網(wǎng)絡(luò)的實(shí)時(shí)性,最后將車道線檢測(cè)問(wèn)題視為基于行選擇單元格的分類問(wèn)題,進(jìn)一步提高了網(wǎng)絡(luò)的前向推理效率;④引入車道線數(shù)目預(yù)測(cè)分支和車道線分割分支作為ResNet-RMFA車道線檢測(cè)網(wǎng)絡(luò)的輔助分支,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)對(duì)輸入圖片的特征提取能力。實(shí)驗(yàn)結(jié)果表明,本文提出的算法在Tusimple數(shù)據(jù)集上的精確度為96.07%,在CULane數(shù)據(jù)集上的F1(IoU=0.5)評(píng)分為69.3%,單幀圖像的推理時(shí)間可達(dá)4.8 ms,能夠適應(yīng)各種不同環(huán)境下的車道線檢測(cè),具有良好的檢測(cè)精度和泛化能力。
(2)雖然所提網(wǎng)絡(luò)模型在車道線檢測(cè)上整體表現(xiàn)不錯(cuò),但對(duì)曲率較大的車道線檢測(cè)效果較差,未來(lái)的工作可以從以下3個(gè)方面來(lái)提高車道線識(shí)別網(wǎng)絡(luò)的性能:①使用更加輕量級(jí)的特征提取網(wǎng)絡(luò),進(jìn)一步降低推理時(shí)間,提高網(wǎng)絡(luò)的整體運(yùn)行效率;②將transformer[22]引入車道線檢測(cè),增加像素之間的關(guān)聯(lián)性,提高具有拓?fù)浣Y(jié)構(gòu)的車道線檢測(cè)精度;③根據(jù)車道線在短時(shí)間內(nèi)不會(huì)發(fā)生劇烈突變的情況,可以加強(qiáng)相鄰圖片中車道線之間的關(guān)聯(lián)性,進(jìn)而修正當(dāng)前圖片的車道線檢測(cè),提高車道線的檢測(cè)精度。