賈飛,何家樂,李鶴鵬
重慶交通大學機電與車輛工程學院,重慶 400074
目標檢測作為視覺感知的重要分支,被廣泛應用于無人駕駛、機器人等環(huán)境感知方面[1]。隨著這些領域的發(fā)展,目標檢測技術在惡劣環(huán)境,尤其是霧天條件下的需求日益增加,因為在這樣的環(huán)境中準確感知周圍環(huán)境至關重要。
在霧天天氣中,可見光圖像的采集面臨著目標邊緣模糊、低對比度和顏色失真等問題[2],這極大地挑戰(zhàn)了目標檢測算法的性能。因此,如何在霧天環(huán)境下高效而準確地檢測目標成為計算機視覺領域的一個重要研究方向。
隨著深度學習的興起,涌現(xiàn)出了多種目標檢測算法。這些算法基于不同的架構(gòu)可分為單階段和雙階段目標檢測算法。單階段算法,如以YOLOv5[3]為代表,因其輕量和快速檢測的優(yōu)勢,在邊緣計算設備上得到廣泛應用。Dynamic-RCNN[4]作為雙階段檢測算法的代表,將輸入圖像先經(jīng)過候選框生成網(wǎng)格,再經(jīng)過分類網(wǎng)絡對候選框的內(nèi)容進行分類,在訓練過程中不斷調(diào)整交并比閾值的大小以提高候選框的質(zhì)量,相比單階段算法,其速度較慢,但檢測精度更高。
這些方法在解決目標檢測中的惡劣天氣環(huán)境(如霧天)仍然存在一些缺陷。為了應對這些挑戰(zhàn),研究人員進行了深入研究。LI C 等[5]進行了針對不同去霧天氣圖片與已使用多種去霧方法優(yōu)化過的照片之間的比較試驗,在預訓練完成的Faster R-CNN 網(wǎng)絡中進行檢測。LI B 等[6]設計了端到端的AOD-Net,可以被整合進其他的目標檢測框架里,例如Faster R-CNN,以改進有霧圖像目標檢測的高級任務。吳桐等[7]提出一種基于改進GCANet 除霧網(wǎng)絡和CenterNet 檢測網(wǎng)絡相結(jié)合、有效進行霧天行人識別的聯(lián)合檢測方法。這些方法均采用了先去霧再檢測的思想,使檢測精度有所提升,但增加了模型難度和復雜性,去霧網(wǎng)絡的加入也會破壞圖像原有的特征關系。
本文針對自動駕駛車輛在霧天場景下因可見光圖像清晰度低以及噪聲干擾等導致行人、車輛等目標檢測精度降低的問題,提出一種基于擴散模型下結(jié)合全卷積掩碼自編碼器的霧天目標檢測方法(HDDiffusionDet),有效提高了模型在霧天的目標檢測精度。
本文方法采用擴散檢測模型[8]作為主要架構(gòu),總體網(wǎng)絡結(jié)構(gòu)如圖1 所示。
1.1.1 高斯噪聲檢測框的建模與生成
根據(jù)擴散模型,由方差得到的高斯噪聲被添加到目標真實框以獲得噪聲框。
1.1.2 圖像編碼
采用ConvNeXt v2[9]作為主干網(wǎng)絡結(jié)構(gòu),用于圖像編碼器的工作。該編碼器將原始圖像接收并提取高級特征,利用全卷積掩碼自編碼器的訓練策略進行訓練。
1.1.3 特征金字塔
特征金字塔網(wǎng)絡用于為圖像編碼生成多尺度特征圖,以保證網(wǎng)絡的多尺度檢測能力。
1.1.4 檢測解碼
在多尺度特征圖中,通過高斯噪聲框裁剪RoI 特征,然后將其輸入檢測解碼器,實現(xiàn)目標邊界框的回歸和分類。
為了提高模型在霧天圖像中的抗擾性和泛化能力,引入了擴散模型到目標檢測框架中。這種擴散模型是根據(jù)非平衡熱力學的原理,逐步向原始樣本數(shù)據(jù)注入噪聲,從而確立了馬爾可夫擴散前向鏈的定義。前向噪聲過程被描述為:
式中,t表示前向過程的時間;Z0表示原始數(shù)據(jù)樣本;Zt表示噪聲樣本;N (* ,*I)表示從 N(0,I)的標準分布中進行采樣;表示一小正數(shù),在0~1 之間。
通過向原始數(shù)據(jù)樣本Z0添加噪聲來將Z0變換為t∈{1,2,…,T}的潛在噪聲樣本Zt。
式中,βs表示噪聲隨時間t變化的方差表。
在訓練期間,高斯噪聲被添加到真實邊界框以獲得噪聲框,通過最小化二范數(shù)損失來訓練神經(jīng)網(wǎng)絡fθ(Zt,t),以從Zt預測Z0,訓練損失函數(shù)如式(3):
式中,fθ(*)表示所訓練的目標神經(jīng)網(wǎng)絡;Ltrain表示訓練損失函數(shù)。
為了增強圖像編碼器對霧天圖像的特征提取,采用了全卷積掩碼自編碼器(FCMAE)的訓練方法。這一策略通過在輸入圖像上隨機遮擋一些區(qū)域,迫使編碼器試圖恢復被遮擋的部分,從而促使模型學習全局和局部特征,以提升其特征提取能力。
圖像編碼器采用ConvNeXt v2 架構(gòu),該架構(gòu)通過堆疊塊組成,配置參數(shù)如表1 所示。stem 為降采樣塊,其余為殘差塊(res),在殘差塊引入全局響應歸一化層(Global Response Normalization,GRN)。該層通過以下3 個關鍵步驟實現(xiàn):全局特征聚合、特征歸一化和特征校準。首先,在全局特征聚合階段,利用二范數(shù)對每個通道上的特征圖進行聚合,得到一個整體聚合向量;然后,在特征歸一化步驟中,采用標準除法歸一化函數(shù)對聚合后的向量進行歸一化處理;最后,在特征校準步驟中,使用歸一化后的向量對原始的特征圖進行校準。這一過程實現(xiàn)了對每個通道上特征圖的歸一化處理,強化了通道之間的特征競爭,有效提升了模型的性能。
表1 殘差塊配置參數(shù)
主干網(wǎng)絡的殘差塊結(jié)構(gòu)如圖2 所示。
所提基于擴散模型下結(jié)合全卷積掩碼自編碼器的霧天目標檢測方法流程如圖3 所示。
具體步驟如下:
(1)將霧天目標檢測數(shù)據(jù)集分別進行劃分,包括訓練、驗證以及測試集;
(2)通過使用隨機裁剪和旋轉(zhuǎn)等數(shù)據(jù)增強技術,對劃分好的訓練集和驗證集進行了數(shù)據(jù)擴充,從而提升了樣本的容量;
(3)構(gòu)建HD-DiffusionDet 霧天目標檢測網(wǎng)絡并初始化,將訓練集數(shù)據(jù)以批量的方式輸入到網(wǎng)絡中;
(4)通過圖像編碼器提取霧天圖像特征,基于擴散模型為真實目標框生成高斯噪聲框;
(5)通過生成的噪聲框?qū)幋a器所提取的特征進行裁剪出RoI 區(qū)域,將裁剪出的RoI 區(qū)域輸入檢測解碼器,預測目標類別與邊界框;
(6)調(diào)用訓練完成的最終模型,將測試數(shù)據(jù)輸入,得到最終檢測對象的類別與位置。
本次實驗采用RESIDE 霧天真實場景下的目標檢測數(shù)據(jù)集RTTS[10],其中訓練集3 512 張,驗證集436 張,測試集490 張,數(shù)據(jù)標注示例如圖4 所示。
為了全面評估網(wǎng)絡模型的檢測性能,聯(lián)合考慮了準確率和召回率,并以準確率為Y 軸,召回率為X 軸,作出準確率-召回率曲線(P-R 曲線);通過計算各個檢測類別P-R 曲線下的面積,得到了平均精度(Average Precision,AP);最后,以各類別平均精度的均值,即平均精度均值(Mean Average Precision,mAP)來綜合表示網(wǎng)絡的性能。
式中,r表示召回率;p(r)表示準確率與召回率的P-R曲線。
式中,C表示檢測類別數(shù)。
實驗環(huán)境:Ubuntu18.04 操作系統(tǒng);Nvidia 1080Ti(11 GB)顯卡;基于Pytorch 的神經(jīng)網(wǎng)絡框架。
超參數(shù)設置:迭代次數(shù)為45 000 次;批處理大小為8;優(yōu)化器選擇為AdamW;初始學習率為2.5×10-5。
為驗證所提方法的優(yōu)勢以及有效性,分別將所提方法與現(xiàn)有目標檢測方法,如Dynamic R-CNN、YOLOv5、DiffusionDet 以及針對霧天目標檢測的方法[6]等進行比較,平均檢測精度對比結(jié)果如表2 所示。
表2 平均檢測精度結(jié)果對比
可視化檢測結(jié)果如圖5 所示。如紅色虛線框所示,漏檢與誤檢均不同程度地出現(xiàn)在對比算法中。Dynamic R-CNN 使用普通的卷積層進行圖像特征的提取,未能解決在細節(jié)模糊以及噪聲干擾下的霧天目標檢測問題,出現(xiàn)了大量的誤檢,表明普通卷積核的特征提取方式無法在霧天圖像中提取到高表征特征;YOLOv5 采用了Focus 結(jié)構(gòu)來對圖像特征進行初提取,出現(xiàn)了較少的誤檢與漏檢,表明Focus 結(jié)構(gòu)的引入對于缺乏細節(jié)信息的霧天圖像來說提高了細節(jié)信息的利用程度,增強了霧天圖像的特征表示,從而提高了檢測精度。
文獻[6]方法是去霧網(wǎng)絡與目標檢測網(wǎng)絡Faster R-CNN 的融合,霧天圖像進入檢測網(wǎng)絡后會先進行圖像的去霧處理,然后再對其進行特征提取與目標檢測,但這種方法仍然存在誤檢和漏檢,對圖像進行去霧處理的確能夠?qū)€原圖像有促進作用,但也破壞了特征之間的原有關系,去霧過程中也會帶來不確定性,從而進一步增加了檢測階段的不確定性。DiffusionDet 基于擴散模型,通過給真實標注框添加高斯噪聲,從而對編碼器所編碼特征進行RoI 區(qū)域的裁剪,進而將目標檢測問題轉(zhuǎn)換成邊界框的去噪過程(如圖5 所示),這種方式對于提高噪聲干擾下的圖像目標檢測有提升效果,但仍存在漏檢。
本文提出的方法通過直接提取霧天圖像特征,在圖像編碼階段采用ConvNeXt v2 結(jié)構(gòu),并借助全卷積掩碼自編碼器的訓練策略對霧天圖像特征進行編碼,通過特征金字塔生成不同尺度的特征;然后根據(jù)高斯噪聲框?qū)@些特征進行RoI 區(qū)域的裁剪;最終將裁剪后的特征送入檢測解碼器進行特征解碼,輸出目標的類別與邊界框。如圖5 所示,所提出的方法在真實霧天環(huán)境中能夠保持較高的檢測精度,且沒有出現(xiàn)漏檢和誤檢的情況。
本文針對自動駕駛車輛在霧天場景下因可見光圖像清晰度低以及噪聲干擾等因素,導致行人、車輛等目標檢測精度降低的問題,提出一種基于擴散模型下結(jié)合全卷積掩碼自編碼器的霧天目標檢測方法(HDDiffusionDet)。通過在真實霧天數(shù)據(jù)集RTTS 上進行實驗,所提方法的平均檢測精度均高于其余方法,mAP 值達到77.3%,降低了霧天場景下行人、車輛等漏檢和誤檢情況,證明了所提方法的可行性與有效性,為自動駕駛等技術領域的環(huán)境感知應用提供了一定的借鑒。