王 鴿,楊睿華,惠 維,趙季中
(西安交通大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710049)
智慧交通指利用先進(jìn)的信息技術(shù)、物聯(lián)網(wǎng)技術(shù)、人工智能以及計(jì)算機(jī)視覺(jué)等技術(shù)手段,實(shí)現(xiàn)交通系統(tǒng)的高效和智能化管理,以提升道路通行能力,減少交通擁堵,降低能源消耗,保障道路交通安全和改善出行體驗(yàn),對(duì)城市的可持續(xù)發(fā)展具有重要意義。
現(xiàn)有的智慧城市交通系統(tǒng)采用圖像感知方法來(lái)檢測(cè)目標(biāo),以滿足車(chē)輛行駛情況估計(jì)和交通流量檢測(cè)等實(shí)際需求。然而,圖像感知方案難以估計(jì)車(chē)輛三維距離,給探測(cè)引入一定誤差。為解決該問(wèn)題,針對(duì)圖像的深度補(bǔ)全技術(shù)得到了廣泛重視。使用深度補(bǔ)全技術(shù)可填補(bǔ)深度圖像中的缺失部分或不準(zhǔn)確部分,從而提高路面深度估計(jì)的準(zhǔn)確性。但基于圖像的深度補(bǔ)全仍存在一定挑戰(zhàn):1)深度圖可能受到天氣、光照、遮擋和反射等多種干擾和影響,攝像機(jī)和毫米波雷達(dá)獲取的深度圖可能包含缺失或不準(zhǔn)確部分,無(wú)法保證深度圖的質(zhì)量和完整性;2)路面上存在的障礙物使深度估計(jì)可能受到一定干擾。為解決以上問(wèn)題,基于多源異構(gòu)數(shù)據(jù)融合和深度學(xué)習(xí)的深度補(bǔ)全等技術(shù)應(yīng)運(yùn)而生。
深度補(bǔ)全是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向之一,目的是利用稀疏的深度數(shù)據(jù)(例如毫米波雷達(dá)采集的數(shù)據(jù))來(lái)生成高質(zhì)量和高分辨率的深度圖。深度補(bǔ)全不僅需處理深度圖中的噪聲、遮擋和反射等干擾因素,還需解決不同傳感器之間的數(shù)據(jù)對(duì)齊問(wèn)題。因此,單一數(shù)據(jù)源難以滿足深度補(bǔ)全的需求,需要結(jié)合多種數(shù)據(jù)源來(lái)提高深度補(bǔ)全的準(zhǔn)確性。多源異構(gòu)數(shù)據(jù)融合在深度補(bǔ)全任務(wù)中具有重要作用,可充分利用多種數(shù)據(jù)源的信息來(lái)提高深度補(bǔ)全的精度和效率。同時(shí),不同數(shù)據(jù)源之間的關(guān)聯(lián)性和規(guī)律性不僅可以提高數(shù)據(jù)的知識(shí)含量和價(jià)值,還可以通過(guò)降低單一數(shù)據(jù)源的噪聲和偏差來(lái)提高數(shù)據(jù)的穩(wěn)定性和可操作性。
目前,室外場(chǎng)景的深度補(bǔ)全由激光雷達(dá)、立體相機(jī)和單目相機(jī)技術(shù)主導(dǎo)。視頻和激光雷達(dá)數(shù)據(jù)的融合可使密集深度圖的預(yù)測(cè)越來(lái)越精準(zhǔn)。與此同時(shí),毫米波雷達(dá)已降級(jí)到用于車(chē)輛高級(jí)駕駛輔助系統(tǒng)的目標(biāo)檢測(cè)任務(wù)。然而,相控陣汽車(chē)?yán)走_(dá)技術(shù)在精度和鑒別方面一直在進(jìn)步。本文調(diào)查了在不使用激光雷達(dá)的情況下,使用毫米波雷達(dá)進(jìn)行密集深度補(bǔ)全任務(wù)的可行性。與激光雷達(dá)相比,毫米波雷達(dá)已普遍安裝于自動(dòng)駕駛車(chē)輛上,用于碰撞檢測(cè)以及其他類(lèi)似任務(wù)。若能成功地使用圖像和毫米波雷達(dá)進(jìn)行三維場(chǎng)景建模和感知任務(wù),將有效降低成本。但毫米波雷達(dá)同樣具有點(diǎn)云稀疏、分辨率低等缺點(diǎn),將給深度補(bǔ)全引入誤差。
為解決上述問(wèn)題,本文提出了一種基于多源數(shù)據(jù)關(guān)聯(lián)融合的深度補(bǔ)全技術(shù),利用多源異構(gòu)數(shù)據(jù)融合算法和深度學(xué)習(xí)方法對(duì)不完整或缺失的深度信息進(jìn)行恢復(fù),從而生成質(zhì)量更高的深度圖。該技術(shù)通過(guò)融合毫米波雷達(dá)數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行深度補(bǔ)全,在不使用激光雷達(dá)數(shù)據(jù)(成本高昂且易受環(huán)境干擾)的情況下,實(shí)現(xiàn)低成本、高普適性以及高性能的深度補(bǔ)全技術(shù)。首先,將圖像與毫米波雷達(dá)點(diǎn)云數(shù)據(jù)進(jìn)行逐點(diǎn)關(guān)聯(lián),生成多通道置信度增強(qiáng)深度圖。再將處理后的深度圖輸入基于數(shù)據(jù)層逐點(diǎn)關(guān)聯(lián)網(wǎng)絡(luò)中進(jìn)行深度補(bǔ)全,從而生成高質(zhì)量深度圖。
本文在公開(kāi)的nuScenes[1]數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提方法的有效性,并與其他相關(guān)方法進(jìn)行了對(duì)比分析,展示了本文所提方法的優(yōu)勢(shì)之處。相較于KITTI[2]、Waymo[3]和ArgoVerse[4]等數(shù)據(jù)集,nuScenes數(shù)據(jù)集是一個(gè)包含毫米波雷達(dá)數(shù)據(jù)、圖像、激光雷達(dá)數(shù)據(jù)以及每個(gè)場(chǎng)景的標(biāo)注信息的數(shù)據(jù)集,適用范圍較廣。本文結(jié)合多源異構(gòu)數(shù)據(jù)融合算法和深度神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)低成本、高普適性以及高性能的深度補(bǔ)全技術(shù),為多源異構(gòu)數(shù)據(jù)融合以及深度補(bǔ)全技術(shù)的研究提供了新的思路和方法。
在智慧交通系統(tǒng)中,自動(dòng)駕駛汽車(chē)的毫米波雷達(dá)一般通過(guò)天線單行掃描發(fā)射調(diào)頻連續(xù)波信號(hào)(Chirp)。該毫米波雷達(dá)點(diǎn)投影模型可以建立在一個(gè)平行于地面的水平面上[5]。雖然調(diào)頻連續(xù)波雷達(dá)點(diǎn)云在深度測(cè)量方面比較準(zhǔn)確,但當(dāng)投影到相機(jī)坐標(biāo)系中時(shí),得到的深度值不正確。這是因?yàn)榧词购撩撞ɡ走_(dá)點(diǎn)投影到了被測(cè)目標(biāo)的周?chē)鷧^(qū)域,但在圖像上的位置與實(shí)際位置也有可能完全不符。另外,在建立毫米波雷達(dá)點(diǎn)和相機(jī)投影模型之前,毫米波雷達(dá)點(diǎn)云相較激光雷達(dá)的點(diǎn)云稀疏較多。通常毫米波雷達(dá)掃描結(jié)果只有1行回波,而激光雷達(dá)最多可以達(dá)到128行回波,毫米波雷達(dá)的稀疏性增加了深度補(bǔ)全任務(wù)的難度。對(duì)此,本文提出將在一定時(shí)間間隔內(nèi)將毫米波雷達(dá)點(diǎn)云進(jìn)行累積,并使用汽車(chē)自身運(yùn)動(dòng)和徑向速度來(lái)對(duì)應(yīng)其空間位置。然而,這種累積會(huì)額外引入像素關(guān)聯(lián)錯(cuò)誤和更多的投影點(diǎn)遮擋誤差。
將毫米波雷達(dá)點(diǎn)進(jìn)行多幀累積時(shí),距離雷達(dá)較近的目標(biāo)可能會(huì)遮擋一些投影點(diǎn),因此生成的深度圖會(huì)有較嚴(yán)重誤差。由于nuScenes數(shù)據(jù)集中沒(méi)有可用的立體圖像來(lái)過(guò)濾掉被遮擋的點(diǎn),本文根據(jù)光學(xué)場(chǎng)景流一致性檢測(cè)來(lái)移除被遮擋的毫米波雷達(dá)點(diǎn)。
毫米波雷達(dá)點(diǎn)的場(chǎng)景流被稱為毫米波雷達(dá)流。在移動(dòng)物體上,點(diǎn)的位置隨物體的運(yùn)動(dòng)進(jìn)行變化。在靜態(tài)可見(jiàn)物體上,毫米波雷達(dá)流等于圖像光流,而在被遮擋的物體表面上,其通常與同一像素處的光流不同。因此,本文首先計(jì)算毫米波雷達(dá)流和圖像光流之間的L2范數(shù),然后比較它們之間的差值是否大于一定閾值(該閾值為實(shí)驗(yàn)選定值),若大于該閾值,則該點(diǎn)視為被遮擋點(diǎn),進(jìn)行濾除,否則將該點(diǎn)保留下來(lái)。本文計(jì)算光流圖的方法基于RAFT(Recurrent All-Pairs Field Transforms)模型[6]。
在兩種特殊情況下,基于光流一致性的被遮擋點(diǎn)濾除可能會(huì)失效。第1種情況是被測(cè)目標(biāo)距離毫米波雷達(dá)和相機(jī)較遠(yuǎn)或與測(cè)量者的運(yùn)動(dòng)方向一致時(shí),測(cè)得的兩幀之間會(huì)由于視差較小,導(dǎo)致圖像光流和毫米波雷達(dá)流都會(huì)偏小,它們的差異不可測(cè)量。第2種情況是移動(dòng)物體上的毫米波雷達(dá)流與其背后被遮擋的毫米波雷達(dá)流相同。在這兩種情況下,光流一致性不足以從最終的深度補(bǔ)全中濾除被遮擋的點(diǎn)。為解決該問(wèn)題,本文結(jié)合使用3D邊界框和語(yǔ)義分割技術(shù)來(lái)移除出現(xiàn)在被測(cè)目標(biāo)頂部的雷達(dá)遮擋點(diǎn)。首先將被測(cè)目標(biāo)的準(zhǔn)確像素區(qū)域由3D邊界框投影和語(yǔ)義分割的交集確定。邊界框4個(gè)角的最大深度用于決定落在被測(cè)目標(biāo)上的毫米波雷達(dá)點(diǎn)是落在物體上還是在物體后面。落在3D邊界框投影和語(yǔ)義分割交集內(nèi)的點(diǎn)以及比最大深度更近的點(diǎn)會(huì)被保留下來(lái),而其他點(diǎn)作為被遮擋的點(diǎn)將被濾除。本文使用在CityScape數(shù)據(jù)集[7]上進(jìn)行過(guò)訓(xùn)練的語(yǔ)義分割模型Panoptic-DeepLab[8]來(lái)分割被測(cè)目標(biāo)以及濾除遮擋點(diǎn)。
在將毫米波雷達(dá)投影點(diǎn)與圖像像素進(jìn)行數(shù)據(jù)層逐點(diǎn)關(guān)聯(lián)時(shí),確定投影到相機(jī)坐標(biāo)系下的毫米波雷達(dá)點(diǎn)在圖像中對(duì)應(yīng)的像素點(diǎn)是一個(gè)需要解決的問(wèn)題,這也是進(jìn)行數(shù)據(jù)層關(guān)聯(lián)時(shí)普遍面臨的一個(gè)難題。
對(duì)于該難題,本文提出一種數(shù)據(jù)層的逐點(diǎn)關(guān)聯(lián)方法,可將上述難題轉(zhuǎn)換為投影到相機(jī)坐標(biāo)系下的毫米波雷達(dá)點(diǎn)附近具有與該雷達(dá)點(diǎn)相同深度值的點(diǎn)。數(shù)據(jù)層逐點(diǎn)關(guān)聯(lián)方法的目的是找到毫米波雷達(dá)投影點(diǎn)與圖像像素之間的對(duì)應(yīng)關(guān)系,即哪些像素與雷達(dá)像素有相同的深度。這樣能夠解決毫米波雷達(dá)投影到相機(jī)平面時(shí)的不確定性和遮擋問(wèn)題,也可增加毫米波雷達(dá)深度圖的密度,從而提高深度補(bǔ)全的準(zhǔn)確性。該方法的基本思想是對(duì)每個(gè)毫米波雷達(dá)投影點(diǎn),學(xué)習(xí)一個(gè)概率分布,表示其鄰域內(nèi)的像素與其有相同深度的可能性。這個(gè)概率分布稱為關(guān)聯(lián)置信度,用深度神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)。
圖1為毫米波雷達(dá)點(diǎn)云和圖像的目標(biāo)檢測(cè)模型。圖1表明毫米波雷達(dá)點(diǎn)的投影建模在平行于地面的水平面上(如圖1中虛線所示),毫米波雷達(dá)的真實(shí)回波(角標(biāo)為“真實(shí)”的標(biāo)注點(diǎn))可能落在該平面之外。圖2展示了將平面內(nèi)的毫米波雷達(dá)點(diǎn)投影到相機(jī)坐標(biāo)系上。在相機(jī)視角平面中,毫米波雷達(dá)點(diǎn)的投影為角標(biāo)為“投影”的標(biāo)注點(diǎn)。圖2展示了圖1中每一個(gè)毫米波雷達(dá)投影點(diǎn)的鄰域內(nèi)與圖像像素逐點(diǎn)關(guān)聯(lián)的情況。其中α投影和β投影可見(jiàn),γ投影被廣告牌支柱擋住,不可見(jiàn)。
圖1 毫米波雷達(dá)和相機(jī)目標(biāo)檢測(cè)模型Figure 1. Millimeter wave radar and camera target detection model
圖2 毫米波雷達(dá)和相機(jī)目標(biāo)關(guān)聯(lián)模型Figure 2. Millimeter wave radar and camera target association model
數(shù)據(jù)層逐點(diǎn)關(guān)聯(lián)置信度給出了測(cè)得的毫米波雷達(dá)投影點(diǎn)與其N(xiāo)-鄰域內(nèi)像素具有相同深度的概率,然后可將預(yù)測(cè)的置信度轉(zhuǎn)換為一種增強(qiáng)的毫米波雷達(dá)深度表示,即生成多通道置信度增強(qiáng)深度圖。該深度圖將每個(gè)關(guān)聯(lián)置信度矩陣中高于置信度閾值的像素賦予雷達(dá)投影點(diǎn)深度值,從而得到一個(gè)增強(qiáng)的深度圖像。多通道置信度增強(qiáng)深度圖可以與圖像和毫米波雷達(dá)稀疏深度圖一起作為數(shù)據(jù)關(guān)聯(lián)引導(dǎo)的深度補(bǔ)全網(wǎng)絡(luò)的輸入,以生成密集的深度圖。
圖3為多個(gè)毫米波雷達(dá)投影點(diǎn)的樣例。其中,圖3(a)表示相機(jī)坐標(biāo)系下的毫米波雷達(dá)投影點(diǎn),圖3(b)表示對(duì)于每一個(gè)毫米波雷達(dá)投影點(diǎn)。計(jì)算N-鄰域內(nèi)像素的逐點(diǎn)關(guān)聯(lián)置信度,用陰影輪廓表示,不同顏色代表不同閾值下的深度值。圖3(c)表示毫米波雷達(dá)投影點(diǎn)深度擴(kuò)展到鄰域內(nèi)像素以此創(chuàng)建多通道置信度增強(qiáng)深度圖。在每一種情況下,與毫米波雷達(dá)投影點(diǎn)具有相似深度的鄰域圖像像素可被賦予高置信度的毫米波雷達(dá)深度值,而其余鄰域像素被賦予低置信度,并且它們的深度值在多通道置信度增強(qiáng)深度圖的通道上單獨(dú)指定。優(yōu)點(diǎn)是高置信度通道可以提供最好的預(yù)測(cè)信息,但低置信度通道也可能提供有用數(shù)據(jù),使網(wǎng)絡(luò)可以學(xué)習(xí)到每個(gè)通道的特征,繼而進(jìn)行高質(zhì)量的深度補(bǔ)全任務(wù)。
圖3 多通道置信度增強(qiáng)深度圖(a)毫米波雷達(dá)投影點(diǎn) (b)投影點(diǎn)對(duì)應(yīng)鄰域 (c)增強(qiáng)深度圖Figure 3. Multichannel confidence enhanced depth map(a)Projection points of mm wave (b)Neighborhood of projected points (c)Enhanced depth map
為實(shí)現(xiàn)彩色圖像、語(yǔ)義圖像、毫米波雷達(dá)深度特征和多通道置信度增強(qiáng)深度圖之間的自適應(yīng)融合,本文提出了一種在級(jí)聯(lián)沙漏網(wǎng)絡(luò)模型中對(duì)彩色圖像、語(yǔ)義圖像、毫米波雷達(dá)深度特征和多通道置信度增強(qiáng)深度圖應(yīng)用基于注意力的融合模型[9],如圖4所示。該模型幫助網(wǎng)絡(luò)捕捉顯著的特征圖,同時(shí)抑制不必要的特征圖,可進(jìn)一步細(xì)化不同模態(tài)特征圖之間的連接。
圖4 數(shù)據(jù)關(guān)聯(lián)引導(dǎo)的深度補(bǔ)全網(wǎng)絡(luò)Figure 4. Deep completion network guided by data association
在3種不同設(shè)置中應(yīng)用注意力融合模型。首先將其應(yīng)用于融合彩色圖像和語(yǔ)義引導(dǎo)模塊的中間特征圖;然后對(duì)于毫米波雷達(dá)深度圖引導(dǎo)模塊,將前面兩個(gè)分支的特征圖以及雷達(dá)稀疏深度圖進(jìn)行融合;最后對(duì)于多通道置信度增強(qiáng)深度圖引導(dǎo)模塊,將前面所有的中間特征圖進(jìn)行融合。
圖像編碼器是一個(gè)單一的收縮網(wǎng)絡(luò),包含多層下采樣卷積層,用于編碼彩色圖像的多尺度特征,然后與不同尺度的深度特征進(jìn)行協(xié)調(diào)。其可以有效處理彩色圖像中的細(xì)節(jié)和語(yǔ)義信息,不需要手動(dòng)地對(duì)圖像進(jìn)行下采樣。圖像編碼器網(wǎng)絡(luò)是由4個(gè)不同尺度的卷積塊和ReLU激活函數(shù)組成的。輸入原始圖像,輸出4種不同尺度的特征圖像,對(duì)應(yīng)的分辨率分別為320×180、160×90、80×45以及40×22。
深度補(bǔ)全網(wǎng)絡(luò)中的每一個(gè)模塊包含4個(gè)不同尺度的編-解碼器,分別接收1/8、1/4、1/2和全分辨率的稀疏深度圖作為輸入。圖像編碼器的輸出Feature1、Feature2、Feature3和Feature4先分別與深度網(wǎng)絡(luò)的編碼器Encoder1、Encoder2、Encoder3和Encoder4進(jìn)行相加操作,然后再與深度網(wǎng)絡(luò)的解碼器Decoder1、Decoder2、Decoder3和Decoder4進(jìn)行結(jié)合,以融合多尺度圖像和深度特征。不同F(xiàn)eature和Encoder輸出結(jié)果的不同之處在于:1)Feature包含了彩色圖像中的細(xì)節(jié)和語(yǔ)義信息;2)而Encoder輸出結(jié)果中包含了稀疏深度圖中的結(jié)構(gòu)和語(yǔ)義信息。Feature可幫助深度網(wǎng)絡(luò)處理一些難以從深度圖中推斷的場(chǎng)景,例如光滑、明亮、透明和遠(yuǎn)處的表面,而Encoder輸出結(jié)果可以幫助深度網(wǎng)絡(luò)保持稀疏深度圖中的觀測(cè)值和約束。Feature特征和Encoder輸出結(jié)果相加可以壓縮特征通道的長(zhǎng)度,減少計(jì)算復(fù)雜度以及提高深度補(bǔ)全的質(zhì)量和穩(wěn)定性。
彩色圖像輸入模塊的目的是學(xué)習(xí)對(duì)密集深度補(bǔ)全任務(wù)有用的顏色特征。它將彩色圖像和對(duì)齊的稀疏深度圖進(jìn)行連接,輸入到網(wǎng)絡(luò)第1個(gè)模塊中,并輸出一個(gè)深度圖和置信度矩陣。其中,將對(duì)齊的稀疏深度圖與彩色圖像連接起來(lái),有助于預(yù)測(cè)密集深度[10]。彩色圖像輸入模塊仍是編碼器和解碼器網(wǎng)絡(luò)結(jié)構(gòu),具有跳躍連接。
語(yǔ)義分割模塊不僅有助于去除遮擋點(diǎn),還可幫助網(wǎng)絡(luò)理解圖像場(chǎng)景。僅靠彩色圖像的引導(dǎo)還不足以學(xué)習(xí)到語(yǔ)義特征,因此本文在深度補(bǔ)全網(wǎng)絡(luò)中提出加入語(yǔ)義分割圖像模塊來(lái)學(xué)習(xí)有效的語(yǔ)義特征。語(yǔ)義分割圖像模塊的輸入為彩色圖像模塊生成的深度圖、語(yǔ)義分割圖像和毫米波雷達(dá)稀疏深度圖的連接,并輸出一個(gè)包含顏色和語(yǔ)義線索的稀疏深度圖和置信度矩陣。nuScenes數(shù)據(jù)集未提供圖像的語(yǔ)義分割圖,因此本文利用預(yù)訓(xùn)練的Panoptic-DeepLab模型[8]在nuScenes數(shù)據(jù)集上進(jìn)行圖像的語(yǔ)義分割。本文將彩色圖像模塊的解碼器特征融合到語(yǔ)義分割圖像模塊的相應(yīng)編碼器特征中。
毫米波雷達(dá)深度圖模塊的目的是學(xué)習(xí)深度值主導(dǎo)的特征,有助于生成準(zhǔn)確的稀疏深度圖。它將彩色圖像模塊的輸出、語(yǔ)義分割圖像模塊的輸出和毫米波雷達(dá)深度圖的連接作為輸入,并輸出一個(gè)準(zhǔn)確的稀疏深度圖和置信度矩陣。與彩色圖像和語(yǔ)義分割圖像模塊的特征融合方法類(lèi)似,該模塊將前兩個(gè)模塊的解碼器特征融合到毫米波雷達(dá)深度圖模塊的相應(yīng)編碼器特征中,融合起來(lái)的特征圖包含了來(lái)自前兩個(gè)模塊的有用信息,指導(dǎo)毫米波雷達(dá)深度圖模塊學(xué)習(xí)有效的深度特征表示。
多通道置信度增強(qiáng)深度圖融合模塊將置信度預(yù)測(cè)網(wǎng)絡(luò)輸出的置信度分為多個(gè)維度,作為多個(gè)通道輸入到網(wǎng)絡(luò)中。對(duì)于置信度屬于區(qū)間(0.50、0.60、0.70、0.80、0.90、0.95)的毫米波雷達(dá)深度增強(qiáng)圖,組成一個(gè)6通道的深度圖,然后輸入到多通道置信度增強(qiáng)深度圖融合模塊中。該操作的目的是利用多個(gè)預(yù)測(cè)深度值的不同置信度信息來(lái)主導(dǎo)深度的訓(xùn)練,從而在訓(xùn)練過(guò)程中提高網(wǎng)絡(luò)對(duì)于高置信度預(yù)測(cè)的關(guān)注度,將置信度信息與預(yù)測(cè)的深度值相結(jié)合,為每個(gè)像素生成一個(gè)加權(quán)的深度值,可通過(guò)對(duì)預(yù)測(cè)深度值和置信度信息進(jìn)行逐元素相乘來(lái)實(shí)現(xiàn),以此來(lái)改善網(wǎng)絡(luò)在深度補(bǔ)全任務(wù)中的性能表現(xiàn)。與前面模塊類(lèi)似,將毫米波雷達(dá)深度的輸出和毫米波雷達(dá)深度的連接進(jìn)行融合,并得到最終的密集深度圖。為防止過(guò)擬合,在損失函數(shù)的計(jì)算過(guò)程中進(jìn)行正則化。在整個(gè)訓(xùn)練中同時(shí)加入權(quán)重的衰減因子(L2正則化),有助于網(wǎng)絡(luò)在測(cè)試數(shù)據(jù)上實(shí)現(xiàn)更好的泛化性能。
因?yàn)楸疚木W(wǎng)絡(luò)的各個(gè)模塊的輸入不同,所以需要對(duì)每個(gè)模塊單獨(dú)計(jì)算損失,最后再計(jì)算各個(gè)模塊損失的加權(quán)和,以優(yōu)化網(wǎng)絡(luò)訓(xùn)練。損失函數(shù)采用Focal Loss,該函數(shù)最初是為解決目標(biāo)檢測(cè)任務(wù)中的類(lèi)別不平衡問(wèn)題。在本文所使用的場(chǎng)景中,由于需要進(jìn)行深度檢測(cè)的類(lèi)別并不均衡,所以該函數(shù)也可以被用于深度補(bǔ)全任務(wù),對(duì)于復(fù)雜模型來(lái)說(shuō),其效果顯著,衡量了模型預(yù)測(cè)值和實(shí)際值之間的均方誤差。為了將Focal Loss整合到深度補(bǔ)全任務(wù)中,可以按照如下步驟進(jìn)行:
步驟1定義一個(gè)基本的回歸損失函數(shù),本文計(jì)算真實(shí)值與預(yù)測(cè)值的均方誤差(Mean Squared Error,MSE)L(D真實(shí)-D預(yù)測(cè))。然后,將損失函數(shù)轉(zhuǎn)換為一個(gè)概率分布,即將MSE損失歸一化到[0,1]范圍內(nèi)
(1)
式中,L最大表示損失的最大值。
步驟2將歸一化的損失值Pt帶入Focal Loss計(jì)算式中,同時(shí)引入調(diào)節(jié)參數(shù)γ和權(quán)重系數(shù)α,使用得到的Focal Loss作為網(wǎng)絡(luò)中每個(gè)模塊的損失函數(shù)進(jìn)行訓(xùn)練
Focal Loss(Pt)=-α×(1-Pt)γ×log(Pt)
(2)
式中,α是平滑不同深度值區(qū)間的損失權(quán)重,解決不平衡問(wèn)題;γ是一個(gè)可調(diào)節(jié)參數(shù),用于控制損失函數(shù)對(duì)簡(jiǎn)單樣本和困難樣本的關(guān)注程度。
彩色圖像模塊Loss顏色的計(jì)算使用Focal Loss,計(jì)算式為
(3)
式中,顏色代表彩色圖像模塊預(yù)測(cè)深度;真實(shí)代表激光雷達(dá)真實(shí)深度。
語(yǔ)義分割圖像模塊的損失函數(shù)Loss語(yǔ)義、毫米波雷達(dá)深度圖模塊的損失函數(shù)Loss雷達(dá)以及多通道置信度增強(qiáng)深度圖融合模塊的損失函數(shù)Loss融合計(jì)算以相同的方式計(jì)算Focal Loss。網(wǎng)絡(luò)的訓(xùn)練Loss整體是由彩色圖像模塊、語(yǔ)義分割圖像模塊、毫米波雷達(dá)深度圖模塊和多通道置信度增強(qiáng)深度圖模塊訓(xùn)練損失函數(shù)的加權(quán)總和,計(jì)算式為
Loss整體=
μ×Loss顏色+?×Loss語(yǔ)義+φ×Loss雷達(dá)+Loss融合
(4)
式中,μ、?和φ分別是彩色圖像模塊、語(yǔ)義分割圖像模塊和毫米波雷達(dá)深度圖模塊的權(quán)重系數(shù)。該系數(shù)為超參數(shù),通過(guò)觀察多次實(shí)驗(yàn)結(jié)果選取,若采用其他數(shù)據(jù)集,則需要進(jìn)行重新選取。
本文使用nuScenes公開(kāi)數(shù)據(jù)集,在進(jìn)行數(shù)據(jù)集劃分時(shí),將其劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,占比分別為70%、15%和15%。為便于進(jìn)行光流圖計(jì)算,提取晴天下所有移動(dòng)場(chǎng)景的樣本(不保存頭兩幀、最后兩幀和當(dāng)前關(guān)鍵幀4鄰域內(nèi)位移過(guò)小的幀)。訓(xùn)練集和測(cè)試集的最大深度閾值設(shè)置為60 m。本文使用32射線激光雷達(dá),并累積前后共26幀的激光雷達(dá)點(diǎn)云數(shù)據(jù)作為深度值真實(shí)標(biāo)簽,毫米波雷達(dá)幀融合前后總共9幀的點(diǎn)云數(shù)據(jù)。本文的硬件包括Intel Core i7-11700k CPU,RTX 3060 12G顯卡,內(nèi)存為128 GB。
方法設(shè)計(jì)部分的毫米波雷達(dá)投影點(diǎn)鄰域N的選取是150個(gè)像素點(diǎn),其中高度h為30,寬度w為5?;A(chǔ)的實(shí)驗(yàn)配置見(jiàn)前文所述。本文網(wǎng)絡(luò)訓(xùn)練使用PyTorch框架,優(yōu)化器使用Adam,其中和權(quán)重衰減10-6,batch為4,初始學(xué)習(xí)率5×10-5。此外對(duì)于訓(xùn)練中損失函數(shù)的系數(shù)初始分別設(shè)置為0.2、0.3和0.4。
本文在訓(xùn)練過(guò)程中采取多階段方案。首先將4個(gè)模塊訓(xùn)練20個(gè)epoch。然后,將前3個(gè)模塊的損失權(quán)重系數(shù)都降到0.1,再訓(xùn)練20個(gè)epoch。最后將前3個(gè)模塊的損失權(quán)重系數(shù)都降到0,只訓(xùn)練最后一個(gè)子模塊,訓(xùn)練20個(gè)epoch??墒姑總€(gè)子模塊都能充分地學(xué)習(xí)到對(duì)應(yīng)尺度的特征和深度補(bǔ)全圖。
對(duì)于本文所提方法,評(píng)估性能主要使用深度補(bǔ)全任務(wù)主流文獻(xiàn)[11~14]所使用的指標(biāo)進(jìn)行評(píng)估,包括平均絕對(duì)誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Squared Error,RMSE)。其中,MAE主要衡量預(yù)測(cè)誤差的平均大小,數(shù)值越小,預(yù)測(cè)結(jié)果越準(zhǔn)確;RMSE對(duì)較大誤差的懲罰更嚴(yán)重,因此其更關(guān)注較大的誤差。
3.4.1 網(wǎng)絡(luò)整體性能
將本文提出的注意力引導(dǎo)的多尺度級(jí)聯(lián)深度補(bǔ)全網(wǎng)絡(luò)的性能與文獻(xiàn)[15]和文獻(xiàn)[16]中的結(jié)果進(jìn)行了對(duì)比。不同分辨率會(huì)對(duì)評(píng)估指標(biāo)有影響,本文所用分辨率為320×180,故在進(jìn)行定性比較時(shí),將文獻(xiàn)[15]和文獻(xiàn)[16]網(wǎng)絡(luò)模型更改為與本文所提方法的圖像相匹配的分辨率,評(píng)估指標(biāo)得到的結(jié)果與原文獻(xiàn)等價(jià)。結(jié)果表明,本文的網(wǎng)絡(luò)模型在性能上優(yōu)于先前的工作。如表1所示,在nuScenes數(shù)據(jù)集上,本文所提方法與其他先進(jìn)方法相比,RMSE低0.345 m,MAE低0.330 m,為現(xiàn)有最優(yōu)結(jié)果。
表1 前期工作對(duì)比結(jié)果Table 1. Comparison with prior works
從圖5來(lái)看,本文提出的基于注意力的多尺度級(jí)聯(lián)深度補(bǔ)全網(wǎng)絡(luò)生成的密集深度圖不僅能看出物體的具體深度狀況,還具有更明顯的邊界。由圖5第2行可看出,不同車(chē)輛的深度值不同,可明顯地看出有3輛車(chē),主要得益于多通道置信度增強(qiáng)深度圖的特征提取。由圖5第3行能看出來(lái)卡車(chē)的車(chē)身和車(chē)頭的深度值明顯不同,主要得益于彩色圖像的特征提取,將顏色信息帶入到網(wǎng)絡(luò)訓(xùn)練中。由圖5第4行能看出來(lái)路標(biāo)牌的深度值明顯不同于墻壁的深度值,主要得益于語(yǔ)義分割圖像的特征提取[17-18]。
圖5 網(wǎng)絡(luò)輸出定性結(jié)果(a)彩色圖像 (b)雷達(dá)投影點(diǎn) (c)深度誤差 (d)本文結(jié)果Figure 5. Qualitative result(a)RGB image (b)Projection points of radar (c)Depth errors (d)Results of this study
3.4.2 不同級(jí)聯(lián)沙漏網(wǎng)絡(luò)結(jié)構(gòu)實(shí)驗(yàn)
表2展示了不同級(jí)聯(lián)沙漏網(wǎng)絡(luò)結(jié)構(gòu)的性能比較。通過(guò)結(jié)果可知,替換當(dāng)前網(wǎng)絡(luò)模塊的任何部分都會(huì)造成網(wǎng)絡(luò)性能下降,證明本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)能夠有效地提取不同模態(tài)中的特征,生成高質(zhì)量的密集深度圖,并且降低了計(jì)算復(fù)雜度。
表2 不同級(jí)聯(lián)沙漏網(wǎng)絡(luò)結(jié)構(gòu)性能比較Table 2. Comparison of different cascading modules
3.5.1 多模態(tài)模塊消融實(shí)驗(yàn)
消融實(shí)驗(yàn)設(shè)計(jì)的目的是通過(guò)增刪每一個(gè)模塊來(lái)測(cè)試網(wǎng)絡(luò)性能的變化。如表3所示,語(yǔ)義分割圖像模塊的刪除對(duì)網(wǎng)絡(luò)性能影響最大,其次是多通道置信度增強(qiáng)深度圖模塊的刪除。因?yàn)榇嬖趫D像編碼器模塊,所以彩色圖像的輸入對(duì)網(wǎng)絡(luò)性能的影響較小。同時(shí),因?yàn)榫W(wǎng)絡(luò)模型級(jí)聯(lián)的輸出直接輸入到下一個(gè)模塊中,所以毫米波雷達(dá)稀疏深度圖的輸入對(duì)網(wǎng)絡(luò)的影響最小。結(jié)果證明,本文提出的基于注意力的多尺度級(jí)聯(lián)深度補(bǔ)全網(wǎng)絡(luò)的性能最好,RMSE達(dá)到了2.834 m,MAE達(dá)到了1.142 m。
表3 不同模塊對(duì)網(wǎng)絡(luò)性能的影響Table 3. Comparison with different modules
3.5.2 注意力融合模塊消融實(shí)驗(yàn)
對(duì)于本文提出的注意力融合模型,需進(jìn)行消融實(shí)驗(yàn)驗(yàn)證其有效性。表4列出了本文注意力融合方法的性能比較。可看出在使用注意力融合模型的網(wǎng)絡(luò)中,RMSE顯著提高了0.16 m,因此注意力融合方法優(yōu)于樸素的融合方法是一種更好的融合策略。
表4 不同融合方法比較Table 4. Comparison with different fusion method
本文針對(duì)交通圖像,本文提出了基于多源數(shù)據(jù)融合的深度補(bǔ)全網(wǎng)絡(luò)。該網(wǎng)絡(luò)綜合了注意力機(jī)制、多尺度信息、多模態(tài)特征引導(dǎo)策略和級(jí)聯(lián)結(jié)構(gòu),以提高深度補(bǔ)全任務(wù)的質(zhì)量。通過(guò)多尺度級(jí)聯(lián)沙漏結(jié)構(gòu),捕捉到多個(gè)模態(tài)的特征信息,逐步優(yōu)化和細(xì)化深度預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的注意力引導(dǎo)的多尺度級(jí)聯(lián)深度補(bǔ)全網(wǎng)絡(luò)在公開(kāi)數(shù)據(jù)集上進(jìn)行的深度補(bǔ)全測(cè)試驗(yàn)證中達(dá)到了高于基準(zhǔn)線的性能。