雷嘉豪 李 江 劉 波
(陜西工業(yè)職業(yè)技術(shù)學(xué)院汽車工程學(xué)院 陜西 咸陽 712000)
逐漸趨于飽和的公路通行容量已成為了制約道路交通的主要因素之一。在保持相同速度水平的情況下,減小車輛輔助駕駛系統(tǒng)在巡航控制行駛時的跟車間距可以有效地增加道路容量,緩解交通壓力。而要減小車輛行駛的間隔,就對基于機(jī)器視覺的前方車輛目標(biāo)檢測提出了更高的要求。
目標(biāo)檢測是大部分機(jī)器視覺應(yīng)用的基本流程,如文本識別、行人檢測、人臉識別等,同時也廣泛地應(yīng)用于輔助駕駛系統(tǒng)[1]和自動駕駛系統(tǒng)[2]中,它不僅可以對目標(biāo)類別進(jìn)行識別,還可以通過一個包圍框預(yù)測每個目標(biāo)的位置,所以在車輛處于輔助駕駛巡航狀態(tài)時,目標(biāo)檢測的準(zhǔn)確性、效率和低系統(tǒng)內(nèi)存消耗等受到了相關(guān)研究者的廣泛關(guān)注。與此同時,語義分割在該領(lǐng)域的微觀層面也扮演著重要角色,其目標(biāo)是預(yù)測像素級分類器,為每個像素指定特定的類別標(biāo)簽,從而提供更豐富的圖像信息。通過語義分割,可以使行駛中的車輛通過機(jī)器視覺識別圖像中哪些區(qū)域可以安全駕駛,哪些路徑有障礙物等。因為車輛處于間距較小的自適應(yīng)巡航狀態(tài)時必須能夠更準(zhǔn)確高效地感知和理解路況環(huán)境(包括其他車輛、建筑物,行人和障礙物),以便為車輛的上層控制器提供決策信息,應(yīng)對相應(yīng)情況,從而達(dá)到在安全行駛的基礎(chǔ)上提高通行效率的目的。
而實例分割任務(wù)既可以檢測出路況上的目標(biāo)實例的所屬類別,又具備語義分割的特性,實現(xiàn)了像素層面上的分類,能夠較強(qiáng)地理解圖像的語義線索和空間信息,即實例分割結(jié)合了目標(biāo)檢測任務(wù)和語義分割任務(wù)的優(yōu)勢。此外,路況實例分割任務(wù)能為車輛駕駛輔助系統(tǒng)提供元數(shù)據(jù),為汽車巡航控制提供更好的安全性和舒適體驗,而安全舒適高效就是當(dāng)前L2 至L3 或更高級別的先進(jìn)輔助駕駛系統(tǒng)的需求和發(fā)展方向。但與此同時,這種任務(wù)屬性也決定了實例分割任務(wù)比上述兩種任務(wù)更具有挑戰(zhàn)性和復(fù)雜性。綜上所述,在車輛處于駕駛輔助系統(tǒng)或無人駕駛系統(tǒng)的控制時,在機(jī)器視覺中實現(xiàn)更高精度的定位結(jié)果和分割結(jié)果有利于提升車輛在跟車巡航狀態(tài)下的安全性,從而可以盡可能地縮小跟車間距,增大道路的交通容量,緩解交通擁堵。在高速巡航時減小跟車間距還能夠降低車輛氣動阻力,將燃油消耗和排放進(jìn)一步降低。
當(dāng)前的自適應(yīng)巡航控制系統(tǒng)主要通過毫米波雷達(dá)和視覺傳感器二者結(jié)合來實現(xiàn)。毫米波雷達(dá)主要用于測量與前車距離,視覺傳感器用于進(jìn)行車輛啟停或行駛中的前方目標(biāo)確認(rèn)。由于毫米波雷達(dá)只能提供單一的距離信息,故在復(fù)雜路況的跟車行駛時就需要視覺傳感器提供更多更高效的前方路況信息,具體技術(shù)路線如圖1 所示,其中核心技術(shù)是檢測模塊。
近年來基于視覺的目標(biāo)分割任務(wù)取得了很大的進(jìn)步,部分原因就是利用了目標(biāo)檢測領(lǐng)域的成熟技術(shù)。
早期通過人工設(shè)計的特征來檢測圖像中物體的解決方案包括顏色直方圖、幾何特征和小波變換等。之后出現(xiàn)了大量基于關(guān)鍵點的方法,其中,color-SIFT、PCA-SIFT 和SUFR 都可以有效地實現(xiàn)目標(biāo)檢測任務(wù)。另一組人工算法試圖使用基于增強(qiáng)的方法來實現(xiàn)目標(biāo)檢測,通過使用級聯(lián)策略和Haar 特征來檢測對象,以通過積分圖像有效地計算Haar 類特征。通過聚合信道特征算法[3],可以從圖像中提取不同通道的特征,然后利用決策樹和AdaBoost 檢測目標(biāo)對象。此外,一種基于HOG+SVM 框架的方法[4]可以首先對每個圖像塊生成基于邊緣的特征,即定向梯度直方圖,然后利用支持向量機(jī)對這些特征進(jìn)行分類。
計算機(jī)視覺相關(guān)技術(shù)的發(fā)展在近年來主要依托于人工智能和深度學(xué)習(xí)。同時,相對于傳統(tǒng)方法,基于深度學(xué)習(xí)的圖像檢測分割方法取得了顯著進(jìn)展。如今,它被用于頻分析、物體識別、圖像分類[5]以及機(jī)器人和自動駕駛系統(tǒng)的圖像處理等應(yīng)用領(lǐng)域。
在車輛處于高級輔助駕駛或無人駕駛時,基于機(jī)器視覺的目標(biāo)檢測任務(wù)需要對圖像進(jìn)行智能分割,使計算機(jī)能夠理解圖像中的特定信息,同時可以讓每個模塊更加易于分析。通過基于機(jī)器視覺的深度學(xué)習(xí)模型來理解圖像中的每個像素所顯示的具體含義,與傳統(tǒng)的固定檢測模型有著本質(zhì)的區(qū)別。
在學(xué)習(xí)視覺輸入的模式后,深度學(xué)習(xí)模型可以預(yù)測構(gòu)成圖像的對象類別。技術(shù)處理使用多層結(jié)構(gòu),逐級將初始的“低層”特征提取出來,再使其轉(zhuǎn)化為“高層”特征表示,用“簡單模型”即可完成較為復(fù)雜的圖象分割、檢測、分類等學(xué)習(xí)任務(wù)[6]。
用于圖像處理的主流深度學(xué)習(xí)框架是卷積神經(jīng)網(wǎng)絡(luò)(CNN),或是依托于此的特定CNN 框架,如ResNet、Inception、VGG 以及AlexNet[7]。深度學(xué)習(xí)模型一般會在專用的圖形處理器(GPU)上進(jìn)行訓(xùn)練和執(zhí)行,用來減少大量計算所耗費的時間。
目前,主流的基于深度學(xué)習(xí)的目標(biāo)分割主導(dǎo)框架仍然是兩階段方法的Mask R-CNN[8],它將目標(biāo)分割變成了兩階段的檢測和分割任務(wù)。首先使用一個物體檢測器Faster R-CNN 來預(yù)測每個實例的邊界框,然后對于每個實例,使用ROI 對齊操作從網(wǎng)絡(luò)的特征地圖中裁剪出感興趣的區(qū)域。為了預(yù)測每個實例的最終掩碼,在這些候選區(qū)域中使用一個緊湊的全卷積網(wǎng)絡(luò)(FCN)來進(jìn)行前景/背景分割。
多尺度物體檢測問題的處理一般通過特征金字塔來實現(xiàn)。但由于在深度學(xué)習(xí)的過程中,制定檢測算法需要考慮到計算量和內(nèi)存限制的因素,所以大部分都會盡可能地將特征金字塔排除在外。為了應(yīng)對并解決此問題,F(xiàn)PN(Feature Pyramid Network)利用深度卷積網(wǎng)絡(luò)本身固有的多尺度、層次結(jié)構(gòu)來構(gòu)造特征金字塔,從而達(dá)到了極小的額外消耗。為了構(gòu)建不同尺度下的高層語義特征,F(xiàn)PN 采用自上向下、帶有側(cè)向連接的分層結(jié)構(gòu),它可以作為一種通用的特征提取器,在多個任務(wù)上帶來顯著的性能提升。
圖3 FPN 網(wǎng)絡(luò)架構(gòu)
在FPN 網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合深度監(jiān)督以及特征融合。提出一種應(yīng)用于ADAS 系統(tǒng)中基于深度監(jiān)督特征融合的車輛目標(biāo)分割算法,該方法具備兩個創(chuàng)新點:
1)利用多級特征跳躍融合策略,有效彌補(bǔ)網(wǎng)絡(luò)編碼階段多次下采樣帶來的信息損失;
2)利用深度監(jiān)督策略提高隱藏層學(xué)習(xí)過程中特征提取的辨別力以及穩(wěn)健性。通過在公開車輛數(shù)據(jù)集上的實驗結(jié)果分析證明了基于深度監(jiān)督特征融合的車輛目標(biāo)檢測算法的有效性。
基于FPN 的改進(jìn)車輛目標(biāo)檢測網(wǎng)絡(luò)主要包括三個部分,共享的底層卷積層,區(qū)域建議網(wǎng)絡(luò)(RPN)和基于區(qū)域感興趣(ROI)的分類器。
首先,將輸入圖像表示為由共享的底層卷積層生成的卷積特征圖?;谠撎卣饔成洌琑PN 生成候選對象建議,使用ROI-pooling 獲得特征向量,然后ROI 分類器從這些特征向量中預(yù)測類別標(biāo)簽。訓(xùn)練損失包括RPN 損失和ROI 分類器損失。與多數(shù)網(wǎng)絡(luò)一樣,在編碼階段提取特征,重復(fù)的下采樣操作是不可避免的。但在使用多個下采樣操作的過程中會損失部分圖像的細(xì)節(jié)信息,為了解決此問題,將深度監(jiān)督策略和特征融合策略加入到檢測網(wǎng)絡(luò)中來。網(wǎng)絡(luò)模型如圖4 所示,具體策略實施過程如下。
圖4 本文網(wǎng)絡(luò)模型框架
大多網(wǎng)絡(luò)框架的設(shè)計在編碼器的下采樣過程中缺少空間信息,以及非相鄰層的特征之間缺乏足夠的連接。為了彌補(bǔ)來自上層缺失的空間信息以及充分利用不相鄰層的特征信息,一般方法是利用模型強(qiáng)大的特征提取能力,融合前不同層提取到的特征信息,輸出至網(wǎng)絡(luò)下一層。但是,由于來自不同層次的特征具有不同的尺度和維數(shù),簡單地使用拼接的特征融合效果較差。因此本文提出一種雙融合策略,一方面,網(wǎng)絡(luò)融合編碼層特征繼續(xù)完成解碼階段;另一方面,網(wǎng)絡(luò)也融合同一級別特征信息,之后經(jīng)過1×1 卷積操作,將最終特征圖用于RPN 中,以生成分類信息。具體操作為:
式中:Ci代表編碼階段層序,ui代表解碼階段層序,⊕表示element-wise addition 操作,conv表示卷積操作。此處的編碼階段與解碼階段層序相反,這一操作可以有效彌補(bǔ)編碼階段多次下采樣帶來的信息損失問題,也可以為獲得分類信息的RPN 模型提供更具代表性的特征信息,進(jìn)而獲得更具增益性的分割定位結(jié)果。
圖5 為該網(wǎng)絡(luò)特征學(xué)習(xí)過程中的網(wǎng)絡(luò)特征圖結(jié)果展示,從圖5b、c 可以看出,提取的細(xì)節(jié)特征會隨著網(wǎng)絡(luò)層數(shù)的增加而變得越來越明顯,高層語義信息也隨之抽象和豐富,如圖5d 所示。而從圖5e 中可以看出,融合后的特征圖更能代表圖像的完整信息。
圖5 網(wǎng)絡(luò)特征輸出結(jié)果
在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中,深度監(jiān)督可以有助于減少過擬合問題,提取到更有意義的特征,促進(jìn)網(wǎng)絡(luò)收斂,解決梯度消失的問題。過程中通常利用深層框架的中層特征,因為更深層次的網(wǎng)絡(luò)可以編碼更高層次的功能。在解碼器的各個階段都去采用深度監(jiān)督,可以利用每個中間階段的輸出進(jìn)行監(jiān)督。在該策略中,通過利用三層特征(L2,L3,L4)的誤差來實現(xiàn)網(wǎng)絡(luò)的深度監(jiān)督,具體操作是:
式中:l 為誤差,up 代表上采樣操作,sm 代表Softmax操作,用于導(dǎo)出概率結(jié)果。通過上采樣,每個解碼器的輸出可以調(diào)整到與最終輸出的分割圖具有相同的尺寸。這些中間階段的輸出被合并到最終的輸出分割圖中,利用標(biāo)簽(Ground truth)和Softmax 函數(shù)輸出來計算誤差。這樣,中間階段和最終輸出將潛在地包含損耗和梯度反向傳播,中間階段的輸出也將逐漸接近標(biāo)簽。
實驗主要在包含車輛的圖像數(shù)據(jù)集D2-City 上進(jìn)行實驗,D2-City 的數(shù)據(jù)采集自多個城市,具體包含了不同的交通路況、道路情況以及天氣變化,在此基礎(chǔ)上還特別增加了較為復(fù)雜多變的交通場景,如表1 所示。
表1 常用車輛數(shù)據(jù)集
數(shù)據(jù)集共包含:訓(xùn)練集6 785 張,驗證集1 823張,測試集1 500 張。實驗中使用單張NVIDIA GeForce RTX3090 24GB GPU 進(jìn)行了200 次訓(xùn)練。在訓(xùn)練模型時,使用了具有自調(diào)整學(xué)習(xí)率的Adam 優(yōu)化方法。設(shè)定學(xué)習(xí)率衰減因子10-5,初始的學(xué)習(xí)率10-4。此外,文中使用mAP 指標(biāo)來定量分析,驗證所提出方法的性能。
為了驗證所提出方法的可行性,給出三種對比方法來與所提出方法進(jìn)行對比實驗,三種對比方法分別為Mask R-CNN、Faster R-CNN 和PointRend,圖6 所示為幾種方法的實時分割結(jié)果和定位結(jié)果。其中圖6a~c 依 次 為Mask R-CNN、Faster R-CNN 和PointRend 三種對比方法,圖6d 為本文所提出的方法??梢钥闯鰩追N對比方法都能將目標(biāo)區(qū)域大致分割出來,而本文所提出方法的視覺效果更為顯著;且對于車輛目標(biāo),所提出方法的置信度指標(biāo)較對比方法均有所提升。
圖6 四種方法實驗結(jié)果對比
為了進(jìn)一步說明本文算法的優(yōu)越性,在表2 中給出了本文方法和對比方法的mAP(平均精度)值。在目標(biāo)檢測問題中,mAP 是最常用的性能評測指標(biāo),它能夠?qū)Χㄎ荒P?、目?biāo)檢測模型和分割模型進(jìn)行有效的評價。四種方法的mAP 指標(biāo)和均值對比圖如表2 和圖7 所示。
表2 本文方法及對比方法的mAP 指標(biāo)
圖7 AP 均值對比圖
通過對比可以看出基于深度監(jiān)督特征融合的ADAS 目標(biāo)檢測算法相較于其他三種方法擁有更高的mAP 指標(biāo),體現(xiàn)出了該方法在車輛圖像實例分割中的準(zhǔn)確性和高效性。
本文在總結(jié)了車輛輔助駕駛系統(tǒng)中基于機(jī)器視覺目標(biāo)檢測算法的基礎(chǔ)上,詳細(xì)分析了相關(guān)方法,并在此基礎(chǔ)上,提出了一種基于深度監(jiān)督特征融合的ADAS 目標(biāo)檢測算法。該方法利用兩種策略在車輛目標(biāo)檢測過程中有效彌補(bǔ)了網(wǎng)絡(luò)編碼階段多次下采樣帶來的信息損失,同時有助于在網(wǎng)絡(luò)中減少過擬合問題,進(jìn)而提取到了更有意義的圖像特征。最后,通過原理分析和實驗結(jié)果證明了此方法相較于其他現(xiàn)有方法在車輛圖像數(shù)據(jù)集上的優(yōu)越性。
當(dāng)前的車輛高級輔助駕駛系統(tǒng)和自動駕駛系統(tǒng)仍然無法在高速巡航或復(fù)雜路況下同時兼顧通行容量與安全性,但隨著基于機(jī)器視覺的目標(biāo)分割檢測網(wǎng)絡(luò)的不斷完善,課題的后續(xù)工作中將結(jié)合車輛巡航控制系統(tǒng)的相關(guān)性能指標(biāo),探索實際交通路況環(huán)境下車輛自適應(yīng)巡航所能達(dá)到的最小安全間距。
要強(qiáng)化研究型大學(xué)建設(shè)同國家戰(zhàn)略目標(biāo)、戰(zhàn)略任務(wù)的對接,加強(qiáng)基礎(chǔ)前沿探索和關(guān)鍵技術(shù)突破,努力構(gòu)建中國特色、中國風(fēng)格、中國氣派的學(xué)科體系、學(xué)術(shù)體系、話語體系,為培養(yǎng)更多杰出人才作出貢獻(xiàn)。
——習(xí)近平總書記在中國科學(xué)院第二十次院士大會、中國工程院第十五次院士大會、中國科協(xié)第十次全國代表大會上的講話