王子豪 李向軍
摘? 要:鑒于車道線檢測在自動駕駛中占據(jù)重要地位,文章提出一種基于遷移學習的車道線檢測方法,用Darknet53替代原DeepLabv3+的特征提取網(wǎng)絡。針對圖片中車道線類與背景類分布極不平衡的問題,使用Focal Loss函數(shù)替代CE Loss函數(shù)。實驗結(jié)果表明,該方法的檢測效果比原網(wǎng)絡好,平均交并比達到76.95%,具有良好的準確性。
關(guān)鍵詞:車道線檢測;遷移學習;DeepLabv3+
中圖分類號:TP391.4? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)20-0082-05
A Lane Line Detection Method Based on Transfer Learning
WANG Zihao, LI Xiangjun
(Dalian Ocean University, Dalian? 116023, China)
Abstract: Since lane line detection plays an important role in automatic driving, this paper proposes a lane line detection method based on transfer learning, replacing the original DeepLabv3+s feature extraction network with Darknet53. To solve the problem that the distribution of lane line class and background class in the picture is extremely unbalanced, the Focal Loss function is used to replace the CE Loss function. The experimental results show that the detection effect of the method is better than that of the original network, and the average cross-merge ratio reaches 76.95%, which has good accuracy.
Keywords: lane line detection; transfer learning; DeepLabv3+
0? 引? 言
環(huán)境感知是實現(xiàn)自動駕駛的重要因素之一,而車道線檢測又是環(huán)境感知中的重點事項,可以廣泛應用于車道偏離預警,路徑規(guī)劃等領(lǐng)域。
車道線檢測方法主要分為兩類,一類是利用傳統(tǒng)方法檢測,另一類是利用深度學習方法檢測。傳統(tǒng)的車道線檢測方法又分為基于模型的檢測方法和基于特征的檢測方法兩類,基于模型的檢測方法將所提取的特征與已定義的模型相匹配,將車道線識別轉(zhuǎn)變?yōu)閰?shù)計算問題;基于特征的檢測方法即通過提取寬度、邊緣梯度、顏色和強度等特征將圖像的像素點標為車道線與非車道線的點,從而完成車道線檢測。隋靚[1]等結(jié)合Hough變換及二次曲線模型提出一種針對高速公路的車道線識別方法;MA Chao[2]等利用顏色聚類、最小二乘法描述曲線參數(shù),提出一種基于CIELab的車道線檢測方法;楊金鑫等[3]根據(jù)逆透視變換(IPM)及大津法(OSTU)結(jié)合K-means聚類提出一種基于動態(tài)搜索框的三車道線檢測方法。這些方法雖然實時性很好,但都是相對某一特定行車場景需要結(jié)合經(jīng)驗手動調(diào)整參數(shù),很容易受環(huán)境場景(強光、雨雪、大霧、夜晚等)的影響。
深度學習的發(fā)展,為解決不同場景下的車道線檢測提供了新思路。Pizzati Fabio[4]等基于ROS框架采用CNN訓練實現(xiàn)街道場景中的車道線檢測,且在獲取車道線信息的同時,不會因為檢測空白部分的失準而導致車道線信息扭曲。丁冰[5]等基于FCN提出一種多任務多場景下的車道線檢測方法,并開發(fā)出一種ELM(極限學習機),用于識別整條車道的車道線標記。 LEE Seokju[6]等提出了基于順序遷移學習的端到端車道線檢測網(wǎng)絡,使用全卷積層代替全連接層,將點檢測問題重新定義為區(qū)域分割問題。綜上所述,用深度學習的方法進行車道線檢測,比傳統(tǒng)方法的適應能力更強,穩(wěn)定性更好,但是提取特征的能力不盡人意,遠未達到理想狀態(tài)。為此本文提出一種基于遷移學習的車道線檢測方法,結(jié)合高性能的特征提取網(wǎng)絡和語義分割模型進行車道線檢測。
本文中語義分割模型選擇的是DeepLabv3+,它是目前最先進的語義分割模型之一,具有編碼器-解碼器的網(wǎng)絡結(jié)構(gòu),分割能力較強。而Darknet53是一種Resnet風格的網(wǎng)絡,在imageNet上可以實現(xiàn)77.2%的top1精度和93.8%的top5精度[7]。其結(jié)果與ResNet-152的結(jié)果接近,但僅有53層,比ResNet-152的計算量更小。因此,本文提出將Darknet53作為DeepLabv3+的特征提取網(wǎng)絡,結(jié)合他們各自的優(yōu)勢,提取多尺度高級特征并獲得更高的準確率。
1? Dark-DeepLabv3+
首先簡要介紹Darknet53及DeepLabv3+,然后詳細介紹如何借助遷移學習將Darknet53應用于DeepLabv3+,并將其命名為Dark-DeepLabv3+。最后簡要說明Focal Loss損失函數(shù)。
1.1? Darknet53網(wǎng)絡模型
Darknet53用于yolov3的特征提取,將其作為yolov3網(wǎng)絡的主干。其架構(gòu)非常簡單,如表1所示,共含有53個卷積層,主要由五層卷積和五個殘差模塊組成。Conv1到Conv5除Conv1多一個步長為1的3×3卷積外,其余均為步長為2的3×3卷積。每個殘差模塊分別由(1、2、8、8、4)個重復的殘差組件構(gòu)成,每個殘差組件則由一個1×1卷積、一個3×3卷積和一個快捷鏈路(short cut)組成,以防止網(wǎng)絡加深導致訓練錯誤的增加。而且Darknet53中每個卷積的后面都有一個BN層和一個LeakyReLU激活函數(shù)。
1.2? DeepLabv3+模型
DeepLabv3+由一個解碼器-編碼器組成。其編碼器由一個特征提取器和空洞空間金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模塊構(gòu)成。首先,經(jīng)過特征提取器提取出下采樣16倍的特征。將其下采樣4倍的特征傳入編碼器,作為編碼器的低級特征。同時將下采樣16倍的特征傳入ASPP結(jié)構(gòu),利用空洞率為6、12、18的空洞卷積獲得多尺度特征,并將他們拼接起來得到最終特征。解碼器將ASPP傳入的特征進行4倍上采樣,與低級特征進行融合拼接。拼接之后,為了細化特征,使用3×3卷積進行通道轉(zhuǎn)換,再使用softmax分類器獲得低分辨率結(jié)果。最后將低分辨率結(jié)果上采樣4倍,從而獲得與輸入分辨率大小相同的預測。解碼器結(jié)構(gòu)如表2所示。
1.3? 遷移后的網(wǎng)絡
前面介紹了Darknet53及DeepLabv3+,現(xiàn)將其進行遷移融合。如表1所示,Darknet53共進行了五次下采樣操作(每個1×1卷積步長為2),最終下采樣32倍,然而DeepLabv3+的骨干提取特征僅將樣本下采樣16倍。因此在遷移設計中,將Conv5的步長改為1,同時為了保證Res5卷積核的感受野不受影響,將Res5的普通卷積全部由空洞率為2的空洞卷積代替,這樣就可以使Darknet53完美替換DeepLabv3+的初始骨干網(wǎng)絡。
在ASPP結(jié)構(gòu)中,每個卷積核輸出通道都是256,平均池化層的卷積核大小是輸入特征尺寸的1/8,并且它的步長等于內(nèi)核大小,所以平均池化層的輸出為8×8。平均池化層后連接一個256通道的1×1卷積。在級聯(lián)之前,1×1卷積的輸出將上采樣到平均值之前的大小。在解碼部分,我們將Res2的輸出作為低級特征,并且在與ASPP輸出特征連接之前將其通過通道數(shù)為48的1×1卷積,然后與ASPP輸出的特征進行級聯(lián)。最后為了細化特征加入一個個輸出通道為256的3×3卷積。遷移學習后的網(wǎng)絡圖如圖1所示。
1.4? Focal Loss函數(shù)
Focal Loss函數(shù)主要解決目標檢測中背景與前景之間極端不平衡的問題。車道線檢測只包含車道線和背景這兩類,且車道線的占比相對于背景來說特別少,大部分損失均與背景類相關(guān),語義分割任務主要是對每個像素進行分類,因此像素之間的數(shù)量比例很大,比較難挖掘特征。因此使用FocalLoss函數(shù),如式(1)所示。
其中,γ和λ為超參數(shù),pt為ground-truth的概率。當γ為0時,F(xiàn)ocal Loss函數(shù)可以視為標準的交叉熵損失函數(shù)。因此式(1)也可以看作一個加權(quán)交叉熵損失函數(shù),權(quán)重(λ-pt)γ隨pt的增加而減小,表明它隨著真實預測值的變化而變化,因此困難的負樣本會比簡單的負樣本具有更大的權(quán)重。與交叉熵損失函數(shù)相比,困難的負樣本對損失的貢獻更大,恰好對應著車道線檢測的實際情況。
2? 實驗
2.1? 實驗環(huán)境
本實驗算法的所選框架是pytorch,并在一塊Nvdia GTX 3080(內(nèi)存為10 GB)上運行了所提出的網(wǎng)絡,所用服務器CPU為Inteli7-11700K,3.6 kHz,Windows系統(tǒng)。所有的卷積后都跟一個BatchNorm和LeakReLu激活函數(shù)(斜率為0.1)。由于受GPU內(nèi)存的限制,將每次輸入圖片批次設置為4,裁剪大小為468×468。網(wǎng)絡訓練采用隨機梯度下降法,使用SGD網(wǎng)絡模型優(yōu)化器,動量為0.9,權(quán)重衰減為0.000 1,總Epoch為200。學習率為0.01乘以,其中,power為0.9,iter_num表示當前迭代數(shù),max_iter表示最大迭代數(shù)140 000。本實驗選取Tusimple數(shù)據(jù)集訓練了我們的模型,Tusimple數(shù)據(jù)集共包含3 626張精細注釋的圖像,是一個專門做車道線檢測的數(shù)據(jù)集。將實驗參數(shù)及預處理后的圖像輸入網(wǎng)絡進行訓練。圖2為損失值變化圖,在20 000次左右時開始趨于平衡。
我們的準確性結(jié)果是使用語義分割常用的指標MIoU進行評測的。MIoU表達式為:
其中k為預測的類,TP為真正(預測正確,預測結(jié)果是正類),F(xiàn)N為假正(預測錯誤,預測結(jié)果是正類),F(xiàn)P為假負(預測錯誤,預測結(jié)果為負類)。
2.2? 實驗結(jié)果
2.2.1? Darknet-DeepLabv3+
我們采用不同特征提取網(wǎng)絡的DeepLabv3+在TuSimple數(shù)據(jù)集上進行了大量實驗,結(jié)果對比如表3所示。
由表3可以看出,隨著特征提取網(wǎng)絡提取能力的提升,最終應用于DeepLabv3+的分割能力也隨之提高。同時,這個表也證明了,遷移特征提取能力強的網(wǎng)絡,可以使語義分割得到更好的效果。圖3是Darknet-DeepLabv3+檢測車道線的效果圖。
從圖2中可以看出,使用Dark-DeepLabv3+進行車道線檢測,無論是直線情況還是彎道情況,檢測效果都非常好,充分證明了本文提出的遷移學習車道線檢測方法的可行性。
2.2.2? Focal loss函數(shù)
我們采用八組不同的λ和γ應用到網(wǎng)絡訓練中,從而找出最佳的結(jié)果,如表4所示。
在λ=2和γ=0.5的情況下,可以得到最好的結(jié)果,無論λ是1還是2,隨著γ的增加,結(jié)果會越來越差,還可以看出λ=2時的結(jié)果普遍好于λ=1時的結(jié)果,這證明了保留簡單例子的權(quán)重和擴大困難負樣本更有利于車道線檢測。γ=0相當于交叉熵損失函數(shù),可以證明在車道線檢測中,F(xiàn)ocal Loss函數(shù)比CE Loss函數(shù)更適合,可以有效解決車道線類和背景類不平衡的問題。
3? 結(jié)? 論
本文提出一種基于遷移學習的車道線檢測方法,將Darknet53遷移到DeepLabv3+中,形成Darknet-DeepLabv3+網(wǎng)絡。新網(wǎng)絡在車道線檢測中效果良好,具有很好的準確性和魯棒性。同時使用Focal Loss函數(shù)替代CE Loss函數(shù),比較適用于分割車道線這種類別不平衡的情況。但本文尚未針對檢測速度對網(wǎng)絡加以改進,在日后的工作中,我們將在保證準確性的前提下提高車道線檢測的實時性。
參考文獻:
[1] 隋靚,黨建武,王陽萍.基于分段切換模型的快速車道線檢測 [J].計算機應用與軟件,2017,34(8):201-205.
[2] MA C,XIE M.A method for lane detection based on color clustering [C]//2010 Third International Conference on Knowledge Discovery and Data Mining. Phuket:IEEE,2010:200-203.
[3] 楊金鑫,范英,樊祺超,等.基于動態(tài)區(qū)域搜索框及K-means聚類的三車道檢測算法[J].科學技術(shù)與工程,2019,19(27):253-257.
[4] PIZZATI F,GARC?A F. Enhanced free space detection in multiple lanes based on single CNN with scene identification [C]//2019 IEEE Intelligent Vehicles Symposium (IV). Paris:IEEE,2019:2536-2541.
[5] 丁冰,楊祖莨,丁潔,等.基于改進YOLOv3的高速公路隧道內(nèi)停車檢測方法 [J].計算機工程與應用,2021,57(23):234-239.
[6] LEE S,KIM J,YOON J S,et al. Vpgnet:Vanishing point guided network for lane and road marking detection and recognition [C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:IEEE,2017:1965-1973.
[7] Deng J,DONG W,SOCHER R,et al. ImageNet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway:IEEE,2009:248–255.
作者簡介:王子豪(1996—),男,漢族,遼寧葫蘆島人,碩士研究生在讀,研究方向:控制科學與控制理論、計算機視覺;
李向軍(1963—)女,漢族,遼寧大連人,教授,碩士生導師,博士,研究方向:控制科學與控制理論。