臧 倩,楊大偉,毛 琳
(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116605)
單目3D目標(biāo)檢測(cè)技術(shù)多應(yīng)用于自動(dòng)駕駛、機(jī)器人等領(lǐng)域,可識(shí)別目標(biāo)的物體類別,輸出其在三維空間中長寬高和旋轉(zhuǎn)角等參數(shù)[1]。相較于激光雷達(dá)[2-4]檢測(cè)技術(shù),單目3D目標(biāo)檢測(cè)領(lǐng)域的目標(biāo)深度特征表達(dá)能力有待提升[5]。單目3D目標(biāo)檢測(cè)大多通過3D深度預(yù)測(cè)分支實(shí)現(xiàn)對(duì)深度特征的提取,如M3D-RPN[6]在進(jìn)行深度估計(jì)時(shí),提出3D區(qū)域建議網(wǎng)絡(luò),通過深度感知卷積[7]感知3D參數(shù)估計(jì),使網(wǎng)絡(luò)學(xué)習(xí)更多的空間級(jí)高階特征[8],網(wǎng)絡(luò)中2D分支和3D分支共享錨點(diǎn)[9]和分類目標(biāo),使3D分支能夠有效地獲取2D空間中目標(biāo)的位置信息,提高深度預(yù)測(cè)準(zhǔn)確性。
為準(zhǔn)確提取目標(biāo)特征,捕獲全局信息,Wang等[10]提出非局部神經(jīng)網(wǎng)絡(luò)(Non-local Neural Networks,NLN),用于捕獲圖像全局的上下文信息,建立圖像中兩個(gè)目標(biāo)之間的像素聯(lián)系,使用非局部計(jì)算獲取長時(shí)記憶,提高神經(jīng)網(wǎng)絡(luò)的性能。在此基礎(chǔ)上,Zhu等[11]將非局部神經(jīng)網(wǎng)絡(luò)應(yīng)用于語義分割,提出非對(duì)稱非局部神經(jīng)網(wǎng)絡(luò)(Asymmetric non-local neural networks,ANN),此網(wǎng)絡(luò)由兩部分組成,基于長距離依賴關(guān)系,通過融合不同層次的特征,構(gòu)成非對(duì)稱融合非局部模塊(Asymmetric Fusion Non-local Block,AFNB),AFNB將不同層級(jí)的特征圖分別作為輸入,融合高頻特征圖和低頻特征圖以獲取豐富的語義信息,較大程度提高了網(wǎng)絡(luò)的性能。將金字塔采樣結(jié)構(gòu)嵌入非局部神經(jīng)模塊,組成非對(duì)稱非局部金字塔結(jié)構(gòu)(Asymmetric Pyramid Non-local Block,APNB),使用金字塔平均池化可以減少計(jì)算量提高網(wǎng)絡(luò)的性能,但在對(duì)特征進(jìn)行池化操作時(shí),低頻特征被高頻特征覆蓋,造成細(xì)節(jié)特征丟失,不利于下游任務(wù)中對(duì)目標(biāo)深度特征的提取。Cao等[12]在特征金字塔中添加注意力機(jī)制,構(gòu)成上下文特征金字塔網(wǎng)絡(luò)(Attention-guided context feature pyramid network,AC-FPN)。網(wǎng)絡(luò)由兩個(gè)模塊構(gòu)成:背景提取模塊(Context Extraction Module,CEM)通過提取多路感受野特征獲取背景信息;注意力引導(dǎo)模塊(Attention-guided Module,AM)利用注意力機(jī)制自適應(yīng)地提取顯著目標(biāo)周圍的關(guān)鍵特征。金字塔中多層感受野特征圖采用自上而下的路徑合并,多層特征之間沒有語義聯(lián)系,不利于語義特征的表達(dá)。Luo等[13]提出單目3D單級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)(Monocular 3D Single Stage Object Detector,M3DSSD),使用非對(duì)稱非局部注意塊(Asymmetric Non-local Attention Block,ANAB)提取多尺度特征增強(qiáng)特征學(xué)習(xí)。對(duì)于不同分辨率的特征圖,采用多種尺寸感受野提取目標(biāo)特征[14],利用注意力機(jī)制提取每個(gè)分辨率特征圖的關(guān)鍵信息。M3DSSD實(shí)現(xiàn)了對(duì)多層特征中顯著信息的利用,使網(wǎng)絡(luò)獲取更精準(zhǔn)的3D空間目標(biāo)位置信息,但由于對(duì)多層特征使用注意力機(jī)制,網(wǎng)絡(luò)也存在計(jì)算復(fù)雜度偏高的問題。
本文在M3DSSD算法及注意力機(jī)制[15]的啟發(fā)下,針對(duì)歷史特征提取不準(zhǔn)確的問題,提出注意圖特征提取網(wǎng)絡(luò)(Attention map feature extraction network,AFENet)。AFENet使用語義卷積得到目標(biāo)特征的注意圖,獲取歷史特征中的全局信息。注意力機(jī)制從更加準(zhǔn)確的注意圖中增強(qiáng)當(dāng)前和歷史中顯著的目標(biāo)特征,提高深度特征提取的準(zhǔn)確性和完整性。
以往解決目標(biāo)深度預(yù)測(cè)不準(zhǔn)確問題時(shí),可在特征提取階段采用注意力機(jī)制獲取深度特征。注意圖中的特征不準(zhǔn)確會(huì)影響網(wǎng)絡(luò)對(duì)3D空間中目標(biāo)位置信息的預(yù)測(cè)。在注意圖特征提取網(wǎng)絡(luò)中忽略對(duì)歷史特征中的上下文信息捕捉。本文提出采用卷積單元加強(qiáng)網(wǎng)絡(luò)對(duì)歷史特征的提取能力,將特征通過注意圖網(wǎng)絡(luò),提取全局特征信息,捕獲長時(shí)記憶關(guān)系。AFENet網(wǎng)絡(luò)邏輯結(jié)構(gòu)圖如圖1。
圖1 AFENet網(wǎng)絡(luò)邏輯結(jié)構(gòu)圖
主干模塊通過卷積和上采樣全連接等操作對(duì)輸入圖像進(jìn)行處理;圖像配準(zhǔn)模塊根據(jù)特征圖的尺寸調(diào)整感受野的大?。蛔鴺?biāo)配準(zhǔn)模塊通過將卷積采樣中心集中到目標(biāo)的坐標(biāo)中心,獲得更精準(zhǔn)的3D空間位置信息;注意圖特征提取模塊提取深度特征,生成包含準(zhǔn)確信息的注意圖,完成對(duì)目標(biāo)的深度預(yù)測(cè)。
定義1:經(jīng)過坐標(biāo)配準(zhǔn)處理的特征輸入注意圖特征提取網(wǎng)絡(luò),經(jīng)過查詢(query)矩陣和歷史(key)矩陣處理,建立查詢矩陣和歷史矩陣關(guān)聯(lián),得到二者之間的相似矩陣。相似矩陣計(jì)算過程:
(1)
HK∈RL×C;
(2)
HQ∈RN×C。
(3)
式中:HS表示相似矩陣;HQ表示查詢矩陣;HK表示歷史矩陣。通過計(jì)算相似矩陣得到查詢特征和歷史特征之間的相似度。
定義2:相似矩陣的輸出維度通過Softmax函數(shù)進(jìn)行歸一化,并將其與值(value)矩陣相乘。歸一化計(jì)算過程:
HF=Softmax(HS)×HV;
(4)
HV∈RL×C。
(5)
式中:HV表示值(value)矩陣;HF表示注意圖特征提取網(wǎng)絡(luò)的輸出矩陣。
定義3:HK為歷史矩陣,通過歷史語義矩陣和歷史特征矩陣相乘得到,計(jì)算過程:
Hk=HC×HJ;
(6)
HC∈RC×1×1;
(7)
HJ∈RC×1×1。
(8)
式中:HC為語義矩陣;HJ表示特征矩陣。1×1表示卷積核的尺寸,通過HC矩陣提取語義特征,通過HJ提取額外的歷史全局信息。
注意圖特征提取網(wǎng)絡(luò)通過采用歷史矩陣計(jì)算豐富的歷史特征,提高歷史特征和查詢特征的相似度。加強(qiáng)查詢特征和歷史特征之間的聯(lián)系,解決深度特征提取不充分的問題,增強(qiáng)網(wǎng)絡(luò)長時(shí)記憶能力。
在對(duì)原始特征進(jìn)行處理時(shí),在保持原特征完整性的基礎(chǔ)上,通過殘差結(jié)構(gòu)加強(qiáng)網(wǎng)絡(luò)對(duì)深度特征的提取。采用查詢矩陣和歷史矩陣生成特征注意圖,使用歷史矩陣增強(qiáng)對(duì)歷史特征的提取能力,生成的注意圖包含精確的查詢特征和歷史特征。
注意圖特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2。
圖2 注意圖特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖
AFENet算法的基本思想是通過主干網(wǎng)絡(luò)DLA-102[16]處理輸入圖像,連接層中采用的卷積均為可變形卷積(Deformable Conv,DCN)[17],通過變化感受野尺寸,增強(qiáng)特征的表達(dá)能力。采用注意力特征提取網(wǎng)絡(luò)加強(qiáng)對(duì)深度信息的預(yù)測(cè)。
定義4:輸入圖像到目標(biāo)檢測(cè)主干網(wǎng)絡(luò)的特征:
Y=G(X)。
(9)
式中:X表示輸入特征量;G表示DLA-102主干網(wǎng)絡(luò)中可變形卷積和下采樣操作;Y表示主干網(wǎng)絡(luò)輸出的特征圖。通過可變形卷積操作,可以自適應(yīng)改變感受野的大小,增強(qiáng)特征學(xué)習(xí)能力。AFENet網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3。
圖3 AFENet網(wǎng)絡(luò)結(jié)構(gòu)圖
主干DLA-102網(wǎng)絡(luò)對(duì)輸入圖像處理;圖像配準(zhǔn)模塊調(diào)整特征圖和感受野的尺寸,實(shí)現(xiàn)特征尺寸對(duì)齊;P Conv卷積塊由2D卷積構(gòu)成,計(jì)算坐標(biāo)配準(zhǔn)后的特征R2,輸出目標(biāo)在三維空間中的坐標(biāo)信息Xd和Yd;注意力特征提取網(wǎng)絡(luò)從輸入R1特征中提取深度特征,通過卷積單元獲取歷史全局信息;PA2特征金字塔結(jié)構(gòu)[13]包括不同分辨率的多層特征,使用平均池化操作收集多層特征中的關(guān)鍵信息;Sigmoid函數(shù)調(diào)整權(quán)重,對(duì)與目標(biāo)相關(guān)的關(guān)鍵特征信息分配更大權(quán)重。
在注意圖特征提取網(wǎng)絡(luò)中,加強(qiáng)歷史特征的額外提取能力,實(shí)現(xiàn)全局信息并建立長時(shí)記憶關(guān)系。解決深度特征提取不準(zhǔn)確的問題,提高網(wǎng)絡(luò)在3D空間中對(duì)目標(biāo)的定位能力。
實(shí)驗(yàn)運(yùn)行環(huán)境硬件配置為NVIDIA-GeForce 1080Ti顯卡,Ubuntu16.04軟件系統(tǒng),使用Pytorch0.4.1作為深度學(xué)習(xí)框架。訓(xùn)練使用KITTI數(shù)據(jù)集[18],其中包括7 481張帶有標(biāo)簽的訓(xùn)練圖像和7 518張測(cè)試圖像,包含汽車、行人和騎行者等目標(biāo)類別。
AFENet算法使用交并比(Intersection over Union,IoU)和平均精確度(3D mean Average Precision,3D mAP)作為評(píng)估目標(biāo)檢測(cè)精度的指標(biāo)。實(shí)驗(yàn)將汽車類別的IoU閾值設(shè)為0.7,行人和騎行者的IoU閾值設(shè)為0.5,AP丨R11表示召回率設(shè)置為11,與KITTI官方標(biāo)準(zhǔn)設(shè)置相同。mAP越大,表示像素預(yù)測(cè)值和真實(shí)值的交集越大,目標(biāo)檢測(cè)越精準(zhǔn)。根據(jù)圖像被遮擋的程度以及目標(biāo)尺寸的大小,劃分簡單、中等和困難三個(gè)指標(biāo)下的目標(biāo)檢測(cè)精度。
在KITTI數(shù)據(jù)集下,將批尺寸設(shè)置為4,初始學(xué)習(xí)率為0.004,使用余弦退火(Cosine annealing)函數(shù)將學(xué)習(xí)率降為4×10-8。訓(xùn)練周期為70,和M3DSSD算法相比,設(shè)置相同的超參數(shù)[13]進(jìn)行訓(xùn)練。訓(xùn)練階段,將圖像的尺寸調(diào)整到384×1 280,使用隨機(jī)平移、水平鏡像翻轉(zhuǎn)和隨機(jī)縮放的常規(guī)圖像處理操作防止過擬合現(xiàn)象的產(chǎn)生。KITTI數(shù)據(jù)集汽車類別測(cè)試結(jié)果對(duì)比見表1。
表1 KITTI數(shù)據(jù)集汽車類別測(cè)試結(jié)果對(duì)比 %
在KITTI數(shù)據(jù)集上的結(jié)果表明,AFENet算法在檢測(cè)難度為中等和困難情況下,檢測(cè)指標(biāo)3D mAP分別高于M3DSSD算法0.8%和0.4%。AFENet算法能夠有效提高檢測(cè)精度,尤其在車輛類別檢測(cè)效果有提高,可以應(yīng)用于無人駕駛、智能機(jī)器人以及視頻監(jiān)控等領(lǐng)域。KITTI數(shù)據(jù)集行人和騎行者類別測(cè)試結(jié)果對(duì)比見表2。
表2 KITTI數(shù)據(jù)集行人和騎行者類別測(cè)試結(jié)果對(duì)比 %
與汽車相比,行人和騎行者在檢測(cè)難度上更有挑戰(zhàn)性,因?yàn)轵T行者和行人等目標(biāo)尺寸較小,形狀變化較大。AFENet算法在KITTI數(shù)據(jù)集上對(duì)行人和騎行者類別的檢測(cè),相較于M3DSSD算法能夠輸出精確度更高的目標(biāo)檢測(cè)。
為證明歷史語義卷積在特征提取上的有效性,探究語義卷積連接方式是否影響提取歷史全局信息的準(zhǔn)確度問題,測(cè)試不同卷積結(jié)構(gòu)對(duì)目標(biāo)檢測(cè)精度的影響。實(shí)驗(yàn)分為三組,使用不同卷積結(jié)構(gòu),消融實(shí)驗(yàn)的邏輯結(jié)構(gòu)圖如圖4。
a)網(wǎng)絡(luò)深度影響 b)查詢特征相關(guān)性 c)網(wǎng)絡(luò)寬度影響 圖4 消融實(shí)驗(yàn)結(jié)構(gòu)圖
圖4a為探究通過卷積復(fù)用加深網(wǎng)絡(luò)對(duì)特征提取性能影響進(jìn)行消融實(shí)驗(yàn)。查詢(query)矩陣和歷史(key)矩陣、鍵(value)矩陣使用相同的卷積連接結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明對(duì)查詢特征使用兩層卷積處理的方式,導(dǎo)致查詢特征在計(jì)算過程中細(xì)節(jié)信息丟失,不能保持原特征的完整性,進(jìn)而導(dǎo)致查詢特征和歷史特征的相似度下降,網(wǎng)絡(luò)記憶能力下降。圖4b為探究語義卷積對(duì)查詢特征和歷史特征在原始性保持上的影響。值語義卷積為歷史特征進(jìn)行加權(quán),兩者之間存在關(guān)聯(lián)性。因此只為查詢特征減少卷積層數(shù)量,探究語義卷積是否造成部分查詢特征丟失。圖4c為探究在網(wǎng)絡(luò)深度適宜的基礎(chǔ)上,增加網(wǎng)絡(luò)寬度對(duì)歷史特征提取是否有效。實(shí)驗(yàn)增加同一卷積層中卷積核的個(gè)數(shù),提取額外歷史全局特征,實(shí)現(xiàn)較好的特征提取效果,對(duì)目標(biāo)的分類定位更加有效。
注意圖特征提取網(wǎng)絡(luò)中卷積核的大小不局限于1×1,可擴(kuò)展應(yīng)用不同大小的卷積,該原理依然有效。使用三組不同的卷積連接方式進(jìn)行消融實(shí)驗(yàn),發(fā)現(xiàn)網(wǎng)絡(luò)的深度和寬度影響深度特征的提取能力,進(jìn)而影響3D空間中目標(biāo)檢測(cè)能力。三組消融實(shí)驗(yàn)在KITTI數(shù)據(jù)集上汽車類別下的3D mAP指標(biāo)見表3。
表3 不同卷積連接方式在KITTI數(shù)據(jù)集汽車類別仿真結(jié)果 %
表3中數(shù)據(jù)證明了AFENet網(wǎng)絡(luò)中使用歷史卷積對(duì)提取歷史全局信息的有效性。通過使用不同卷積結(jié)構(gòu)處理當(dāng)前特征和歷史特征,有效提高了AFENet算法對(duì)歷史特征提取的準(zhǔn)確性,增強(qiáng)查詢特征和歷史特征之間的相似性,網(wǎng)絡(luò)記憶能力提升。
M3DSSD算法和AFENet算法在KITTI數(shù)據(jù)集上的可視化結(jié)果如圖5。在街道實(shí)景中,存在多位行人,目標(biāo)密集、重疊度較高。AFENet算法能夠準(zhǔn)確檢測(cè)行人,在目標(biāo)尺寸較小的情況下檢測(cè)依然有效,并且對(duì)車輛在3D空間中的長寬高位置定位相較于M3DSSD算法更加精準(zhǔn)。
a)M3DSSD檢測(cè)結(jié)果 b)AFENet檢測(cè)結(jié)果圖5 KITTI數(shù)據(jù)集檢測(cè)可視化結(jié)果
AFENet算法在KITTI數(shù)據(jù)集低光照度場景下的目標(biāo)檢測(cè)結(jié)果如圖6。在前景目標(biāo)和背景區(qū)域較為模糊的情況下,依然能對(duì)車輛中心位置和尺寸方向檢測(cè)定位。AFENet算法增強(qiáng)對(duì)深度特征中歷史信息的捕獲,提高特征提取的準(zhǔn)確性,對(duì)目標(biāo)在3D空間中的坐標(biāo)定位更加精準(zhǔn),實(shí)現(xiàn)了較好的3D目標(biāo)檢測(cè)效果。
圖6 AFENet算法低光照?qǐng)鼍皺z測(cè)結(jié)果
本文針對(duì)M3DSSD目標(biāo)檢測(cè)算法深度估計(jì)過程中存在的深度特征提取不充分問題,提出注意圖特征提取網(wǎng)絡(luò),提取更加準(zhǔn)確的深度特征注意圖,加強(qiáng)對(duì)歷史全局特征中上下文信息的關(guān)注。與M3DSSD算法相比,AFENet算法改善了深度特征提取不充分的問題,實(shí)現(xiàn)較好的目標(biāo)檢測(cè)效果,對(duì)3D空間目標(biāo)的檢測(cè)分類能力有較大提升,適應(yīng)于無人駕駛以及智能機(jī)器人等應(yīng)用場景。后續(xù)工作中,將進(jìn)一步提高小目標(biāo)和目標(biāo)遮擋等復(fù)雜場景下的目標(biāo)檢測(cè)能力。
大連民族大學(xué)學(xué)報(bào)2022年5期