范康,鐘銘恩,譚佳威,詹澤輝,馮妍
(1.廈門(mén)理工學(xué)院 福建省客車(chē)先進(jìn)設(shè)計(jì)與制造重點(diǎn)實(shí)驗(yàn)室,福建 廈門(mén) 361024;2.廈門(mén)大學(xué) 航空航天學(xué)院,福建 廈門(mén) 361102)
語(yǔ)義分割和深度估計(jì)是交通場(chǎng)景感知極為重要的2 個(gè)視覺(jué)任務(wù).前者對(duì)圖像進(jìn)行像素級(jí)語(yǔ)義分類(lèi),精確定位道路、障礙物和行人等關(guān)鍵區(qū)域,實(shí)現(xiàn)場(chǎng)景語(yǔ)義解析;后者推理圖像中每個(gè)像素相對(duì)于拍攝源的距離,描述場(chǎng)景中物體的空間幾何位置關(guān)系.兩者分別從2 個(gè)不同的層次對(duì)交通場(chǎng)景進(jìn)行理解,2 種任務(wù)感知信息的結(jié)合可以為車(chē)輛自動(dòng)駕駛的路徑規(guī)劃和行車(chē)安全性提供豐富可靠的數(shù)據(jù)支撐.因此,研究高效、精確的交通場(chǎng)景語(yǔ)義分割和深度估計(jì)算法有著重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值.
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,學(xué)者針對(duì)交通場(chǎng)景語(yǔ)義分割[1-3]和單目深度估計(jì)[4-6]開(kāi)展的研究取得了一定成果.傳統(tǒng)上,研究人員側(cè)重于先提升單任務(wù)算法的性能,再進(jìn)行任務(wù)級(jí)聯(lián)感知.這不但容易出現(xiàn)龐大的內(nèi)存占用和推理延遲,而且忽視了場(chǎng)景語(yǔ)義信息和幾何位置信息的相關(guān)性[7],導(dǎo)致算法性能受限.多任務(wù)學(xué)習(xí)[8-9]因此成為更具吸引力的解決方案,它具有更高效的內(nèi)存優(yōu)勢(shì)和計(jì)算結(jié)構(gòu),還可以利用任務(wù)間的顯式或隱式相關(guān)性來(lái)提高模型性能[10].
現(xiàn)有多任務(wù)網(wǎng)絡(luò)模型主要采用編碼器-解碼器架構(gòu),任務(wù)解碼器共享編碼器,并在解碼過(guò)程中設(shè)計(jì)特定模塊學(xué)習(xí)特定任務(wù)特征和引導(dǎo)跨任務(wù)特征交互.例如:PAD-Net[11]引入多任務(wù)信息蒸餾模塊來(lái)從各任務(wù)中提取多模態(tài)信息,再將提取的信息作為殘差添加到任務(wù)解碼分支中,實(shí)現(xiàn)跨任務(wù)信息融合;MTI-Net[12]采用多尺度多模態(tài)蒸餾策略擴(kuò)展PAD-Net,通過(guò)明確建模每個(gè)單獨(dú)尺度上獨(dú)特的任務(wù)信息交互,提升了語(yǔ)義分割和深度估計(jì)的性能;Zhou 等[13]提出以親和力模式為指導(dǎo)的多任務(wù)交互學(xué)習(xí)網(wǎng)絡(luò),利用全局空間注意力來(lái)增強(qiáng)各分支任務(wù)的特定表示,并基于注意力權(quán)重構(gòu)建任務(wù)間的親和力模式矩陣,引導(dǎo)跨任務(wù)交互信息提取和融合.這些模型在網(wǎng)絡(luò)搭建過(guò)程中大量采用卷積運(yùn)算,受到卷積局部感受野的限制,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法對(duì)全局信息建模能力不足,跨任務(wù)信息交互能力存在局限性,因此模型性能難以進(jìn)一步提升.受益于Transformer[14]特有的全局和動(dòng)態(tài)建模能力,越來(lái)越多的研究人員將Transformer結(jié)構(gòu)引入多任務(wù)網(wǎng)絡(luò),彌補(bǔ)了CNN 方法在長(zhǎng)程依賴(lài)關(guān)系和跨任務(wù)相關(guān)性建模方面的不足.例如:VPT[15]采用基于自注意力機(jī)制的跨任務(wù)特征交互模塊,實(shí)現(xiàn)了更深層次的跨任務(wù)信息傳播,有效增強(qiáng)了網(wǎng)絡(luò)的特征抽取能力.Ye 等[10]將Transformer作為主干結(jié)構(gòu)引入多任務(wù)密集預(yù)測(cè)網(wǎng)絡(luò),實(shí)現(xiàn)同時(shí)建??臻g和跨任務(wù)全局上下文關(guān)系,大幅提高了多任務(wù)密集預(yù)測(cè)網(wǎng)絡(luò)的整體性能.這些方法都在不同程度上實(shí)現(xiàn)了全局模式下的跨任務(wù)信息交互,但任務(wù)間的相關(guān)性建模仍不夠明確.這可能會(huì)導(dǎo)致任務(wù)間傳遞的語(yǔ)義信息無(wú)法達(dá)到期望,嚴(yán)重時(shí)甚至給任務(wù)表示本身帶來(lái)不必要的噪聲.
針對(duì)上述問(wèn)題,本研究提出新的多任務(wù)環(huán)境感知算法SDFormer,用于實(shí)現(xiàn)交通環(huán)境語(yǔ)義分割和深度估計(jì)的聯(lián)合感知.主要工作包括:1)利用Transformer 編碼器提取輸入圖像的通用多尺度特征.2)基于交叉注意力機(jī)制提出雙向跨任務(wù)注意力模塊,用來(lái)明確建模特定任務(wù)表示之間的全局相關(guān)性,引導(dǎo)任務(wù)間互補(bǔ)模式信息自適應(yīng)提取和傳輸,達(dá)到充分利用語(yǔ)義信息和深度信息的模式相關(guān)性來(lái)提高網(wǎng)絡(luò)整體性能的目的.3)結(jié)合重采樣操作構(gòu)建多任務(wù)Transformer,以較低的計(jì)算成本增強(qiáng)網(wǎng)絡(luò)對(duì)各任務(wù)全局語(yǔ)義信息的關(guān)注;隱式建??缛蝿?wù)全局相關(guān)性,進(jìn)一步促進(jìn)任務(wù)間互補(bǔ)信息的交互融合.4)設(shè)計(jì)編-解碼融合上采樣模塊,逐步生成精細(xì)的高分辨率特定任務(wù)特征用于最終預(yù)測(cè);在公開(kāi)數(shù)據(jù)集Cityscapes 上開(kāi)展所提算法的性能驗(yàn)證實(shí)驗(yàn).
如圖1 所示為SDFormer 的總體框架,該網(wǎng)絡(luò)由任務(wù)特征編碼網(wǎng)絡(luò)和2 個(gè)特定的任務(wù)解碼器組成,特征的傳播和推理通過(guò)逐層解碼以及跨任務(wù)交互式學(xué)習(xí)的方式實(shí)現(xiàn).任務(wù)特征編碼網(wǎng)絡(luò)用于提取語(yǔ)義分割和深度估計(jì)分支的特定任務(wù)特征,并將提取的特定任務(wù)特征傳遞給對(duì)應(yīng)的任務(wù)分支解碼器.2 個(gè)特定任務(wù)解碼器結(jié)構(gòu)相似,都由雙向跨任務(wù)注意力模塊(bidirectional cross-task attention,BCTA)、多任務(wù)Transformer 模塊(multi-task Transformer,MT-T) 和編-解碼融合上采樣模塊(encoder-decoder fusion upsampling,EDFU)組成.該解碼器的工作原理:1)通過(guò)BCTA 挖掘特定任務(wù)特征的互補(bǔ)模式信息,優(yōu)化特征本身的信息層次結(jié)構(gòu);2)利用MT-T 增強(qiáng)各特定任務(wù)特征的全局上下文信息,并進(jìn)行特征之間的隱式交互;3)利用EDFU 對(duì)解碼過(guò)程中傳遞的特定任務(wù)特征進(jìn)行上采樣,并通過(guò)跳躍連接融合編碼階段的空間細(xì)節(jié)信息,生成高分辨率的細(xì)粒度特定任務(wù)特征;4)將這些高分辨率特征傳入各任務(wù)分支的解碼頭,進(jìn)行深度估計(jì)和語(yǔ)義分割的任務(wù)推理.
圖1 SDFormer 的整體結(jié)構(gòu)Fig.1 Overall structure of SDFormer
通過(guò)自注意力機(jī)制Transformer 可以有效建模圖像像素之間的長(zhǎng)距離依賴(lài)關(guān)系,捕獲輸入圖像的全局上下文信息,減少細(xì)節(jié)特征的丟失.Liu等[16]提出具有層級(jí)結(jié)構(gòu)的通用視覺(jué)骨干Swin-Transformer,將自注意力計(jì)算限制在不重疊的局部窗口中,并進(jìn)行跨窗口連接,使算法復(fù)雜度僅與圖像大小線性相關(guān)并具備全局感受野.本研究將Swin-Transformer 作為編碼器來(lái)提取輸入圖像的通用多尺度特征,以保留輸入場(chǎng)景的粗略和精細(xì)細(xì)節(jié).各任務(wù)分支的卷積塊由3×3 卷積、批歸一化層(BN)和ReLU 層組成,作用是進(jìn)一步解析編碼器的輸出特征來(lái)生成特定任務(wù)特征.單一尺度的編碼器輸出特征包含的信息結(jié)構(gòu)缺乏多樣性,如果直接輸入各任務(wù)分支卷積層將難以產(chǎn)生具有任務(wù)感知的特定任務(wù)特征.為此,采用多尺度特征聚合生成信息結(jié)構(gòu)豐富的融合特征,以增強(qiáng)特定任務(wù)特征信息豐富度,提高后續(xù)任務(wù)特征交互過(guò)程中信息傳導(dǎo)質(zhì)量.為了盡可能承載不同尺度特征細(xì)節(jié)信息,并避免高分辨率的特征在網(wǎng)絡(luò)解碼過(guò)程中直接傳遞而增加網(wǎng)絡(luò)計(jì)算復(fù)雜度,以輸入圖像分辨率的1/16 作為多尺度特征聚合的輸出分辨率.通過(guò)特征聚合網(wǎng)絡(luò)(path aggregation networks,PAN)結(jié)構(gòu)將1/4 和1/8 尺度的淺層特征空間細(xì)節(jié)信息匯聚到1/16 尺度特征.與此同時(shí),將包含高級(jí)語(yǔ)義信息的1/32 尺度的最小分辨率特征通過(guò)雙線性插值進(jìn)行2 倍上采樣,然后與信息匯聚后的1/16 尺度特征沿通道維度進(jìn)行拼接,再經(jīng)過(guò)卷積層生成融合空間細(xì)節(jié)信息和語(yǔ)義信息的特征F.將F傳入各任務(wù)分支卷積塊,生成信息結(jié)構(gòu)豐富的初始特定任務(wù)特征{Fs,Fd}∈RH×W×C,其中H、W分別為1/16 尺度特征圖的高度和寬度,C為特征的通道數(shù).
深度估計(jì)和語(yǔ)義分割都屬于逐像素密集預(yù)測(cè)任務(wù),在幾何和語(yǔ)義上具有強(qiáng)相關(guān)性[7].在語(yǔ)義分割任務(wù)中,引入深度信息可以幫助區(qū)分紋理相似但位于不同深度的區(qū)域,減少錯(cuò)誤分類(lèi).同理,在深度估計(jì)任務(wù)中,語(yǔ)義類(lèi)別信息可以改善相似深度但屬于不同物體處的邊界模糊情況.這2 個(gè)類(lèi)別任務(wù)聯(lián)合訓(xùn)練可以相互提供指導(dǎo)信息和互補(bǔ)信息[17].本研究提出的BCTA 能夠有效地甄別任務(wù)間的有利信息來(lái)進(jìn)行指導(dǎo)和優(yōu)化,通過(guò)明確地建模語(yǔ)義分割和深度估計(jì)任務(wù)間的全局相關(guān)性,引導(dǎo)任務(wù)間互補(bǔ)模式信息的自適應(yīng)提取和融合.BCTA 的內(nèi)部結(jié)構(gòu)如圖2 所示.
圖2 雙向跨任務(wù)注意力模塊的結(jié)構(gòu)圖Fig.2 Overall structure of bidirectional cross-task attention module
以語(yǔ)義分割分支為例,進(jìn)行BCTA 的工作原理闡述.語(yǔ)義分割分支的目標(biāo)是在分割特征空間下,利用深度估計(jì)和語(yǔ)義分割任務(wù)之間的相關(guān)性矩陣,從分割特征中挖掘有利于深度估計(jì)任務(wù)的模態(tài)信息.采用多頭交叉注意力機(jī)制搭建任務(wù)間信息傳播的橋梁,以建??缛蝿?wù)全局相關(guān)性.具體而言,對(duì)于語(yǔ)義分割和深度估計(jì)分支的輸入特征Fs、Fd,分別沿空間維度進(jìn)行展平變形為RN×C,其中N=H×W;經(jīng)過(guò)LayerNorm 層(LN)和線性投影層處理后,生成各任務(wù)分支交叉注意力操作所需的矩陣[Qs,Ks,Vs]和[Qd,Kd,Vd],并據(jù)此計(jì)算空間全局相關(guān)性權(quán)重矩陣Ws→d∈RN×N,表達(dá)式為
深度估計(jì)分支以對(duì)稱(chēng)和雙向的方式實(shí)施跨任務(wù)互補(bǔ)特征提取步驟,同樣能夠從深度特征中捕獲向語(yǔ)義分割分支傳遞的有利信息特征Xd→s∈RN×C,將任務(wù)之間傳遞的有利信息特征作為殘差與原始特定任務(wù)特征進(jìn)行疊加融合,并通過(guò)多層感知機(jī)進(jìn)行信息整合,得到各任務(wù)分支交互融合后的輸出特征,表達(dá)式分別為
式中:MLP()為多層感知機(jī).BCTA 通過(guò)交叉注意力機(jī)制表征特定任務(wù)表示之間的關(guān)聯(lián)屬性,使得網(wǎng)絡(luò)在特征交互過(guò)程中能夠高效合理地提取任務(wù)之間互補(bǔ)模式信息,減少噪聲和冗余信息的干擾,緩解任務(wù)優(yōu)化目標(biāo)沖突引起的性能下降情況.
如圖3 所示,MT-T 利用自注意力機(jī)制增強(qiáng)各特定任務(wù)特征的空間全局上下文表征能力,并隱式建模跨任務(wù)全局相關(guān)性,以促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)任務(wù)之間互補(bǔ)模式信息.圖中,Porj 為線性投影.MT-T的輸入為經(jīng)過(guò)模型總體框架中第1 個(gè)EDFU 上采樣后的高分辨特定任務(wù)特征{Fs1,Fd1}∈R2H×2W×C.將Fs1、Fd1從空間維度上展平并拼接形成多任務(wù)特征序列Fc∈R8N×C;再利用LN 對(duì)Fc進(jìn)行歸一化,作為后續(xù)自注意力機(jī)制計(jì)算的輸入.
圖3 多任務(wù)Transformer 模塊的結(jié)構(gòu)圖Fig.3 Overall structure of multi-task Transformer module
在標(biāo)準(zhǔn)多頭自注意力機(jī)制(multi-head selfattention,MHSA)中,計(jì)算復(fù)雜度與輸入特征序列長(zhǎng)度成平方倍關(guān)系.利用高分辨率多任務(wù)特征序列計(jì)算全局自注意力,內(nèi)存占用和計(jì)算開(kāi)銷(xiāo)非常大.為此,借鑒InvPT[10]中MHSA 的計(jì)算方法,MT-T 通過(guò)降低查詢(xún)矩陣Q、鍵矩陣K和值矩陣V的特定維度來(lái)減少M(fèi)HSA 的計(jì)算復(fù)雜度.具體來(lái)說(shuō):將Fc拆分并重構(gòu)成對(duì)應(yīng)任務(wù)的空間特征圖R2H×2W×C;利用卷積對(duì)每個(gè)任務(wù)特征圖的Q進(jìn)行降維,利用均值池化降低K、V的維度.以Wq、Wk、Wv表示圖3 中3 個(gè)線性投影層的參數(shù)矩陣,則
式中:Conv()為核大小為3、步距為2 的下采樣卷積;Pool() 為核大小為4 的下采樣均值池化;Flat()為將下采樣后的任務(wù)特征圖在空間維度上展平并拼接,以重新形成多任務(wù)特征序列.據(jù)此,可以得到注意力特征Am∈R(8N/4)×C,表達(dá)式為
Am不僅能夠捕獲各特定任務(wù)特征本身的全局上下文信息,還融合了特征間隱式交互所產(chǎn)生的互補(bǔ)模式信息.為了與Fc執(zhí)行殘差連接,須恢復(fù)Am空間尺度與Fc對(duì)齊.將Am拆分并重塑為對(duì)應(yīng)任務(wù)空間特征圖RH×W×C;再執(zhí)行雙線性插值,將分辨率擴(kuò)大2 倍;最后將對(duì)應(yīng)任務(wù)空間特征圖展平并連接,形成尺度恢復(fù)后的注意力特征Am′∈R8N×C.將Am′和Fc進(jìn)行逐元素相加,再通過(guò)LN 和MLP 層進(jìn)一步處理,得到細(xì)化后的多任務(wù)特征Fc′∈R8N×C.將Fc′拆分并重塑為對(duì)應(yīng)任務(wù)空間特征圖R2H×2W×C,得到MT-T 各任務(wù)分支輸出特征.
為了產(chǎn)生精細(xì)的高分辨率特定任務(wù)特征,增強(qiáng)不同任務(wù)對(duì)于物體邊界和小物體的信息處理能力,結(jié)合編碼部分的淺層細(xì)節(jié)特征構(gòu)建EDFU,其具體結(jié)構(gòu)如圖4 所示.
圖4 編-解碼融合上采樣模塊的結(jié)構(gòu)圖Fig.4 Overall structure of encoder-decoder fusion upsampling module
EDFU 的輸入由2 個(gè)部分組成:1)網(wǎng)絡(luò)模型編碼器中對(duì)應(yīng)尺度的空間細(xì)節(jié)特征Fe,2)待上采樣的特定任務(wù)特征Ft.將Fe經(jīng)過(guò)3×3 卷積和BN 處理,得到空間細(xì)節(jié)信息被強(qiáng)化的特征對(duì)Ft利用雙線性插值方法進(jìn)行2 倍上采樣,再分為2 個(gè)分支進(jìn)行處理:1)通過(guò)1×1 卷積、BN 和激活函數(shù)Sigmoid 產(chǎn)生任務(wù)感知語(yǔ)義權(quán)重Iatt,2)通過(guò)1×1卷積、BN 生成信息重構(gòu)后的特定任務(wù)特征以上3 個(gè)分支的輸出具有相同的特征維度大小,通道數(shù)被調(diào)整為輸入特定任務(wù)特征Ft的一半.最終,通過(guò)Fe′和Iatt逐像素相乘使得編碼器空間細(xì)節(jié)信息注入特定任務(wù)特征當(dāng)中,將乘積與Ft′進(jìn)行逐像素相加,得到包含空間細(xì)節(jié)信息的特定任務(wù)特征Z,表達(dá)式為
EDFU 在對(duì)特定任務(wù)特征進(jìn)行上采樣的同時(shí),能夠有效地融合編碼部分空間細(xì)節(jié)信息,增強(qiáng)特定任務(wù)特征精細(xì)程度,提高網(wǎng)絡(luò)模型語(yǔ)義分割和深度估計(jì)精確度.
針對(duì)語(yǔ)義分割任務(wù),采用交叉熵作為網(wǎng)絡(luò)訓(xùn)練損失函數(shù).針對(duì)深度估計(jì)任務(wù),采用berHu[18]作為網(wǎng)絡(luò)訓(xùn)練損失函數(shù),計(jì)算式為
式中:di為像素i處的預(yù)測(cè)深度和真實(shí)深度的差值,δ=0.2max(|di|).將網(wǎng)絡(luò)模型的總損失定義為深度估計(jì)損失Ls和語(yǔ)義分割損失Ld的加權(quán)和,計(jì)算式為
式中:α 為平衡2 種任務(wù)損失對(duì)網(wǎng)絡(luò)影響的權(quán)重參數(shù).在實(shí)驗(yàn)中,當(dāng) α=50 時(shí),能夠最大程度地平衡任務(wù)損失量級(jí),使網(wǎng)絡(luò)取得較好的整體性能.
實(shí)驗(yàn)采用廣泛使用于交通場(chǎng)景理解的大規(guī)模數(shù)據(jù)集Cityscapes[19].該數(shù)據(jù)集收集自50 多個(gè)不同城市的街道場(chǎng)景,分別有2 975、500 和1 525 張精細(xì)標(biāo)注的圖像用于訓(xùn)練、驗(yàn)證和測(cè)試.Cityscapes共標(biāo)注19 個(gè)語(yǔ)義類(lèi)別用于語(yǔ)義分割任務(wù),提供與RGB 圖像相對(duì)應(yīng)的視差值標(biāo)簽用于深度估計(jì)任務(wù).由于Cityscapes 并未公開(kāi)測(cè)試集部分的真實(shí)標(biāo)簽,不利于不同算法之間的性能對(duì)比,本研究涉及的消融和對(duì)比實(shí)驗(yàn)都在Cityscapes 的驗(yàn)證集上完成.
實(shí)驗(yàn)主機(jī)的操作系統(tǒng)為64 位 Windows10,硬件采用Intel(R) Core(TM) i7-10700K CPU 和NVIDIA GeForce RTX 3090 顯卡.算法開(kāi)發(fā)環(huán)境采用Python 3.7 和 PyTorch 深度學(xué)習(xí)框架.模型訓(xùn)練,使用在ImageNet-22 上預(yù)訓(xùn)練的Swin-Transformer權(quán)重對(duì)模型編碼器進(jìn)行參數(shù)初始化,特定任務(wù)特征通道數(shù)初值設(shè)置為512.采用Adam 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為4.0×10-5,權(quán)重衰減率設(shè)置為1.0×10-6,學(xué)習(xí)率衰減策略選擇指數(shù)衰減.不同對(duì)比模型都在數(shù)據(jù)集上進(jìn)行45 000 次迭代訓(xùn)練,批處理大小設(shè)置為4.數(shù)據(jù)加載和預(yù)處理時(shí),將圖像的像素大小從2 048×1 024 調(diào)整為1 024×512,并通過(guò)隨機(jī)縮放、翻轉(zhuǎn)、扭曲等操作對(duì)數(shù)據(jù)集進(jìn)行幾何增強(qiáng),以及隨機(jī)調(diào)整圖片的飽和度、亮度進(jìn)行光照增強(qiáng).
選擇平均交并比MIoU 作為分割性能的評(píng)價(jià)指標(biāo),計(jì)算式為
式中:n為類(lèi)別總數(shù),tij為將第i類(lèi)真實(shí)類(lèi)別預(yù)測(cè)為第j類(lèi)的像素?cái)?shù)量.選擇平均平方根誤差RMSE和絕對(duì)相對(duì)誤差A(yù)RE 作為深度估計(jì)性能的評(píng)價(jià)指標(biāo),計(jì)算式分別為
式中:N為圖像像素總數(shù),yi、分別為在像素i處的真實(shí)深度值和預(yù)測(cè)深度值.選取參數(shù)量Np和每秒浮點(diǎn)運(yùn)算數(shù)GFLOPs 衡量模型的內(nèi)存占用程度和計(jì)算復(fù)雜度,采用每秒傳輸幀數(shù)f衡量模型的推理速度.
為了分析所提模塊對(duì)SDFormer 的性能影響,進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)?zāi)P途幋a器均使用Swin-S,結(jié)果如表1 所示.表中,STL-Seg 和STL-Depth 分別表示關(guān)于2 個(gè)任務(wù)的單任務(wù)基線模型,由編碼器和多尺度特征聚合解碼器[20]組成;MTL 表示任務(wù)特征編碼網(wǎng)絡(luò)和2 個(gè)任務(wù)特定解碼頭組成的多任務(wù)基線模型;其余實(shí)驗(yàn)?zāi)P途硎驹贛TL 上逐步添加對(duì)應(yīng)模塊.可以看出:1)相較于基線模型MTL,添加BCTA 后,語(yǔ)義分割的MIoU 明顯提升,且深度估計(jì)的RMSE 和ARE 均大幅下降.這表明BCTA 能夠充分建模任務(wù)相關(guān)性來(lái)挖掘和利用任務(wù)間的互補(bǔ)模式信息,增強(qiáng)網(wǎng)絡(luò)對(duì)任務(wù)特定信息的感知能力.2)在BCTA 基礎(chǔ)上添加MT-T 后,MIoU 增加1.2 個(gè)百分點(diǎn),RMSE 和ARE 分別降低0.134 和0.025.這表明MT-T 能夠促進(jìn)網(wǎng)絡(luò)學(xué)習(xí)任務(wù)間的互補(bǔ)模式信息,強(qiáng)化各特定任務(wù)特征的全局語(yǔ)義信息表征能力.3)進(jìn)一步添加EDFU 后,模型各任務(wù)性能指標(biāo)都達(dá)到最優(yōu)值.這表明EDFU可以有效地融合空間細(xì)節(jié)信息和任務(wù)語(yǔ)義上下文信息,提高不同任務(wù)中對(duì)物體細(xì)節(jié)的表達(dá)能力.綜上可知,相較于基線模型MTL,SDFormer 的語(yǔ)義分割MIoU 從73.2% 提升到77.6%,深度估計(jì)RMSE 和ARE 分別從5.355 和0.227 下降到4.781 和0.156.這證明所提算法可以充分挖掘和利用任務(wù)之間相關(guān)信息,達(dá)到任務(wù)之間相互補(bǔ)充和相互約束的目的,顯著提高各任務(wù)性能.相比單任務(wù)基線模型STL-Seg 和STL-Depth,SDFormer 表現(xiàn)出明顯的性能優(yōu)勢(shì),參數(shù)量和計(jì)算量分別增加48%和21%.符合多任務(wù)模型在降低內(nèi)存占用和不顯著增加計(jì)算復(fù)雜度的情況下,依然保持較優(yōu)的整體性能的預(yù)期目標(biāo).
表1 SDFormer 消融實(shí)驗(yàn)結(jié)果Tab.1 Results of SDFormer ablation experiments
如圖5 所示為MTL 和SDFormer 關(guān)于語(yǔ)義分割任務(wù)的推理結(jié)果對(duì)比.可以看出,與MTL 相比,SDFormer 的分割結(jié)果更平滑,對(duì)小尺度物體的分割精度更高,物體細(xì)節(jié)信息的展現(xiàn)能力更強(qiáng).以第3 行場(chǎng)景中虛線框標(biāo)注為例,MTL 對(duì)細(xì)長(zhǎng)類(lèi)路牌桿的分割有明顯缺損,而SDFormer 的分割結(jié)果更精確.如圖6 所示為MTL 和SDFormer 關(guān)于深度估計(jì)任務(wù)的推理結(jié)果對(duì)比.與MTL 相比,SDFormer預(yù)測(cè)的深度圖細(xì)節(jié)更清晰,可以更好地恢復(fù)物體的輪廓邊界.以第3 行場(chǎng)景中虛線框標(biāo)注為例,MTL 能夠大致地估計(jì)出該區(qū)域內(nèi)的深度邊界,但較為模糊;SDFormer 的視覺(jué)效果更好,能夠較為清晰地恢復(fù)自行車(chē)的輪廓細(xì)節(jié).綜合分析可知,通過(guò)利用任務(wù)之間的潛在關(guān)系,可以使網(wǎng)絡(luò)模型各任務(wù)分支提取到更具判別性的特征,獲得更精細(xì)的分割結(jié)果和深度估計(jì)結(jié)果.
圖5 MTL 與SDFormer 的語(yǔ)義分割效果對(duì)比Fig.5 Comparison of semantic segmentation effects between MTL and SDFormer
圖6 MTL 與SDFormer 的深度估計(jì)效果對(duì)比Fig.6 Comparison of depth estimation effects between MTL and SDFormer
為了進(jìn)一步驗(yàn)證BCTA 的有效性,將BCTA從SDFormer 中移除,替換為Zhang 等[15]提出的特征轉(zhuǎn)換模塊(feature pattern transformation,FPT)和結(jié)構(gòu)轉(zhuǎn)換模塊(structure pattern transformation,SPT)作為對(duì)照組進(jìn)行模塊性能對(duì)比.這2 種特征交互模塊在引導(dǎo)跨任務(wù)信息交互的相關(guān)性建模上與BCTA 存在較大的差異,其中FPT 利用自注意力機(jī)制挖掘任務(wù)內(nèi)重要模式信息進(jìn)行跨任務(wù)傳播,SPT 利用表征任務(wù)內(nèi)重要模式信息的自注意力權(quán)重構(gòu)建任務(wù)間親和力模式矩陣,引導(dǎo)跨任務(wù)信息交互.實(shí)驗(yàn)結(jié)果如表2 所示.可以看出,相比FPT 和SPT,使用BCTA 的SDFormer 在2 個(gè)任務(wù)上都取得了更好的性能,原因是BCTA 在不同任務(wù)特征模式下都可以更明確地建模任務(wù)間的全局相關(guān)性,使得在跨任務(wù)特征交互過(guò)程中,任務(wù)之間能夠傳播更豐富、更有意義的信息流,減少噪聲和冗余信息帶來(lái)的干擾,實(shí)現(xiàn)更高的預(yù)測(cè)置信度.
表2 不同雙向跨任務(wù)特征交互模塊的性能對(duì)比Tab.2 Performance comparison of different bidirectional cross-task feature interaction modules
為了驗(yàn)證MT-T 的合理性和有效性,進(jìn)行模塊拆解和實(shí)驗(yàn)對(duì)比.SDFormer-noT 為從SDFormer中去除MT-T 的模型;SDFormer-s 為采用普通Transformer 替換MT-T 的模型,為了盡可能與SDFormer 進(jìn)行公平比較,替換的Transformer 層參照PVT[21]的下采樣倍率設(shè)置,并利用池化層對(duì)鍵、值矩陣進(jìn)行降維處理以減少自注意力計(jì)算復(fù)雜度;SDFormer-noD 為取消了MT-T 內(nèi)部重采樣降維處理操作的SDFormer,對(duì)比實(shí)驗(yàn)結(jié)果如表3 所示.由表可知:1)在各任務(wù)分支中添加Transformer 層后,模型各任務(wù)性能均獲得提升.這表明Transformer層可以有效捕獲全局語(yǔ)義信息,增強(qiáng)網(wǎng)絡(luò)特定任務(wù)特征的信息表達(dá)能力.2)使用MT-T 的SDFormer能夠取得更加優(yōu)異的整體性能.原因是該模塊可以同時(shí)建模全局空間依賴(lài)性和跨任務(wù)相關(guān)性,在捕捉全局語(yǔ)義信息的同時(shí),還能實(shí)現(xiàn)跨任務(wù)特征交互,融合任務(wù)之間互補(bǔ)模式信息,實(shí)現(xiàn)更好的性能提升效果.3)當(dāng)MT-T 不含重采樣降維處理時(shí),對(duì)模型整體性能提升效果不明顯,卻大幅提高了計(jì)算復(fù)雜度,使模型推理速度變慢;相比之下,采用重采樣降維處理的MT-T 不僅能夠有效地提升模型的推理速度,還能維持模型中各任務(wù)預(yù)測(cè)精度.
表3 多任務(wù)Transformer 模塊消融實(shí)驗(yàn)結(jié)果Tab.3 Results of multi-task Transformer module ablation experiments
為了探究不同類(lèi)型編碼器對(duì)模型性能的影響,分別將含有不同參數(shù)量的ResNet[22]和Swin-Transformer 作為本研究算法的編碼器,進(jìn)行編碼器的性能對(duì)比實(shí)驗(yàn),結(jié)果如表4 所示.結(jié)果表明:使用Swin-S 和使用ResNet101 的模型參數(shù)量相差不大,使用Swin-S 的模型在2 個(gè)任務(wù)上的預(yù)測(cè)性能均優(yōu)于使用ReNet-101.主要原因是Transformer 結(jié)構(gòu)擁有全局感受野,使得模型擁有更充分的全局上下文信息和更充沛的空間信息,在任務(wù)之間交互促進(jìn)過(guò)程中,可以結(jié)合全局語(yǔ)義信息傳播更有意義的信息流.此外,同系列中參數(shù)量越大的編碼器特征提取能力越強(qiáng),獲得的性能提升效果越明顯.
表4 不同編碼器的性能對(duì)比實(shí)驗(yàn)結(jié)果Tab.4 Experimental results of performance comparison for different encoders
通常情況下,相比使用多個(gè)單一任務(wù)網(wǎng)絡(luò)級(jí)聯(lián)工作,使用多任務(wù)網(wǎng)絡(luò)能夠大幅降低參數(shù)規(guī)模和計(jì)算量,但多數(shù)情況下后者在各個(gè)任務(wù)上取得的性能指標(biāo)不如前者.為了探明SDFormer 與現(xiàn)有主流單任務(wù)模型的性能差異,分別在各個(gè)任務(wù)上開(kāi)展對(duì)比實(shí)驗(yàn).在語(yǔ)義分割任務(wù)中,主要對(duì)比對(duì)象為PSPNet[23]、SETR[24]、SegFormer[20]和Mask2Former[25],結(jié)果如表5 所示.在單目深度估計(jì)任務(wù)中,選擇Lap-Depth[5]、DepthFormer[6]和pixelFormer[26]作為對(duì)比,結(jié)果如表6 所示.可以看出:1)相比于更具針對(duì)性的單任務(wù)網(wǎng)絡(luò)模型,SDFormer 同時(shí)推理語(yǔ)義分割和深度估計(jì)2 個(gè)任務(wù),導(dǎo)致任務(wù)間存在資源競(jìng)爭(zhēng),因此在語(yǔ)義分割任務(wù)和深度估計(jì)任務(wù)各性能指標(biāo)上僅處于中等水平,不具備明顯優(yōu)勢(shì).不過(guò),得益于不同任務(wù)間互補(bǔ)模式信息的交互融合,任務(wù)之間可以進(jìn)行相互指導(dǎo)和優(yōu)化,因此綜合性能仍具有較好的競(jìng)爭(zhēng)力,尤其是在深度估計(jì)任務(wù)上的RMSE 指標(biāo)與當(dāng)前性能最優(yōu)的pixelFormer 相比僅高出0.227.2)SDFormer 僅進(jìn)行一次推理即可實(shí)現(xiàn)2 個(gè)單任務(wù)網(wǎng)絡(luò)協(xié)同工作才能完成的感知目標(biāo),耗用的總計(jì)算資源大幅減小.
表5 SDFormer 與單任務(wù)算法的語(yǔ)義分割性能對(duì)比Tab.5 Comparison of semantic segmentation performance between SDFormer and single-task algorithms
表6 SDFormer 與單任務(wù)算法的深度估計(jì)性能對(duì)比Tab.6 Comparison of depth estimation performance between SDFormer and single-task algorithms
為了進(jìn)一步驗(yàn)證SDFormer 的綜合性能,進(jìn)行多任務(wù)網(wǎng)絡(luò)性能實(shí)驗(yàn)對(duì)比.對(duì)比的經(jīng)典多任務(wù)網(wǎng)絡(luò)包括采用CNN 架構(gòu)的MTAN[27]、PAD-Net[11]、PSD-Net[13]、MTI-Net[12]和采用Transformer 架構(gòu)的當(dāng)前性能較優(yōu)的InvPT,結(jié)果如表7 所示.可以看出:SDFormer 在語(yǔ)義分割和深度估計(jì)任務(wù)的性能指標(biāo)上均優(yōu)于基于CNN 架構(gòu)網(wǎng)絡(luò)模型,特別是對(duì)于深度估計(jì)任務(wù),性能獲得大幅提升,與CNN 架構(gòu)體系中較優(yōu)的MTI-Net 相比RMSE 和ARE 分別降低12.6%和32.0%.與將Transformer 架構(gòu)引入多任務(wù)密集預(yù)測(cè)領(lǐng)域的InvPT 相比,SDFormer 的語(yǔ)義分割MIoU 提高了1.4 個(gè)百分點(diǎn),深度估計(jì)RMSE 和ARE 分別降低3.7%和14.2%,且在使用相同編碼器的情況下參數(shù)量和計(jì)算量分別減少了14.7%和42.7%.結(jié)果表明,SDFormer 在聯(lián)合學(xué)習(xí)語(yǔ)義分割和深度估計(jì)2 個(gè)任務(wù)上相比現(xiàn)有算法有更為先進(jìn)的整體性能.
表7 不同多任務(wù)算法的性能對(duì)比結(jié)果Tab.7 Performance comparison results of different multi-task algorithms
如圖7 所示為SDFormer 與次優(yōu)算法InvPT 在語(yǔ)義分割任務(wù)上的推理結(jié)果差異.在虛線框指示的易混淆類(lèi)別區(qū)域中,InvPT 將地形類(lèi)別大面積地錯(cuò)判為植被類(lèi)別,將自行車(chē)類(lèi)別錯(cuò)判為摩托車(chē)類(lèi)別,將人行道類(lèi)別錯(cuò)判為植被類(lèi)別.相比而言,SDFormer 關(guān)于地形類(lèi)別的錯(cuò)判面積大幅減小,且對(duì)于自行車(chē)類(lèi)別和人行道類(lèi)別不存在錯(cuò)判.如圖8所示為SDFormer 與InvPT 在深度估計(jì)任務(wù)上的推理結(jié)果差異.可以看出,SDFormer 能夠保留更多的細(xì)節(jié)信息,使得場(chǎng)景中較遠(yuǎn)處物體的輪廓更加清晰和完整.以圖中第1 行虛線框指示區(qū)域內(nèi)的電線桿為例,InvPT 推理出的深度信息出現(xiàn)明顯的缺損,SDFormer 推理出的深度信息則更加完整和連續(xù).
圖7 SDFormer 與InvPT 的語(yǔ)義分割效果對(duì)比Fig.7 Comparison of semantic segmentation effects between SDFormer and InvPT
圖8 SDFormer 與InvPT 的深度估計(jì)效果對(duì)比Fig.8 Comparison of depth estimation effects between SDFormer and InvPT
為了更加直觀地驗(yàn)證所提算法對(duì)交通場(chǎng)景深度估計(jì)的有效性和適應(yīng)能力,從驗(yàn)證集中隨機(jī)抽樣100 張圖像,針對(duì)圖像中5 類(lèi)主要的交通參與者,分別計(jì)算各類(lèi)別目標(biāo)真實(shí)距離與預(yù)測(cè)距離之間的平均相對(duì)誤差.考慮到同一目標(biāo)物體的各部分到車(chē)輛的真實(shí)距離一般存在差異,出于碰撞安全考慮,僅針對(duì)該目標(biāo)物體中距離攝像機(jī)較近的20%部分的像素進(jìn)行統(tǒng)計(jì)分析,取平均值作為該目標(biāo)與攝像機(jī)的距離.根據(jù)雙目成像原理,像素所表示的距離計(jì)算式為
式中:b為雙目相機(jī)的瞳距,f為相機(jī)焦距,d為視差值.由式(14)可分別計(jì)算出第i個(gè)目標(biāo)與攝像頭的真實(shí)距離Di(c) 和模型預(yù)測(cè)距離(c),其中c為目標(biāo)的類(lèi)別,各類(lèi)別目標(biāo)距離估計(jì)平均相對(duì)誤差計(jì)算式為
式中:Nc為第c類(lèi)目標(biāo)的樣本總數(shù).如表8 所示為各對(duì)比模型對(duì)5 種主要類(lèi)別的MRE,其中mMRE 為各類(lèi)別MRE 總和的平均值.可以看出,SDFormer 針對(duì)5 個(gè)典型類(lèi)別的交通參與者的綜合距離估計(jì)取得了最小相對(duì)誤差,為6.1%,優(yōu)于現(xiàn)有主流多任務(wù)算法.除car 類(lèi)別的MRE 指標(biāo)取得次小值外,其余類(lèi)別均取得最小值,表明所提算法對(duì)交通場(chǎng)景中典型交通參與者的深度估計(jì)具備優(yōu)越性和有效性.
表8 不同多任務(wù)算法的距離估計(jì)誤差對(duì)比結(jié)果Tab.8 Comparison of distance estimation errors of different multi-task algorithms
如表9 所示為SDFormer 針對(duì)這5 類(lèi)典型交通參與者處在不同距離范圍時(shí)的距離估計(jì)誤差.結(jié)果顯示,當(dāng)目標(biāo)距離不同時(shí),算法針對(duì)5 類(lèi)典型交通參與者距離估計(jì)誤差有所不同.當(dāng)目標(biāo)處于小于20 m 的近距離時(shí),mMRE 取得最小值,為4.1%;當(dāng)目標(biāo)處于20~50 m 的中距離時(shí),mMRE=5.3%;當(dāng)目標(biāo)處于大于50 m 的遠(yuǎn)距離時(shí),mMRE 取得最大值,為10.8%.這說(shuō)明,目標(biāo)距離攝像頭越近,算法的距離估計(jì)誤差越小.
表9 SDFormer 在不同距離范圍的距離估計(jì)誤差Tab.9 Distance estimation errors of SDFormer in different distance ranges
可視化列舉展示SDFormer 針對(duì)不同距離范圍的5 類(lèi)典型交通參與者的距離預(yù)測(cè)效果如圖9所示,其中上、下數(shù)據(jù)標(biāo)簽分別表示真實(shí)距離值和預(yù)測(cè)距離值.由圖中數(shù)據(jù)可以看出,所提算法對(duì)處在不同距離范圍內(nèi)的目標(biāo)都具有良好的距離預(yù)測(cè)能力.
圖9 SDFormer 在不同距離范圍的距離預(yù)測(cè)效果展示Fig.9 Display of distance prediction effects of SDFormer in different distance ranges
本研究提出基于Transformer 的多任務(wù)環(huán)境感知算法SDFormer,用于聯(lián)合執(zhí)行交通場(chǎng)景語(yǔ)義分割和深度估計(jì),旨在充分利用任務(wù)之間的相關(guān)性來(lái)提高多任務(wù)模型整體性能.SDFormer 利用Swin-Transformer 編碼器提取輸入圖像的多尺度特征,采用多尺度特征聚合策略增強(qiáng)深層特征表示,促進(jìn)了初始特定任務(wù)特征的有效提取.在任務(wù)解碼過(guò)程中,提出雙向跨任務(wù)注意力機(jī)制BCTA 來(lái)顯示建模任務(wù)間的全局相關(guān)性,引導(dǎo)任務(wù)之間有效地挖掘并利用互補(bǔ)模式信息,達(dá)到相互指導(dǎo)和優(yōu)化的目的;構(gòu)建多任務(wù)Transformer 模塊MT-T 來(lái)增強(qiáng)特定任務(wù)特征的空間全局表示,隱式建??缛蝿?wù)全局上下文關(guān)系,進(jìn)一步促進(jìn)了任務(wù)之間交互信息融合;設(shè)計(jì)編-解碼融合上采樣模塊EDFU來(lái)實(shí)現(xiàn)對(duì)特定任務(wù)特征進(jìn)行上采樣的同時(shí)有效融合空間細(xì)節(jié)信息,獲得了更精細(xì)的輪廓分割結(jié)果和深度估計(jì)結(jié)果.在Cityscapes 數(shù)據(jù)集上開(kāi)展的大量實(shí)驗(yàn)表明:與現(xiàn)有多任務(wù)算法相比,所提算法在2 個(gè)視覺(jué)任務(wù):交通場(chǎng)景語(yǔ)義分割和深度估計(jì)上都取得了更先進(jìn)的性能.未來(lái)的研究?jī)?nèi)容考慮將目標(biāo)檢測(cè)任務(wù)融入多任務(wù)模型中,實(shí)現(xiàn)對(duì)交通場(chǎng)景更加全面的信息感知.