引言
近年來,隨著深度學(xué)習(xí)在計算機(jī)視覺中的快速發(fā)展,圖像去霧任務(wù)取得了顯著進(jìn)展。特別是基于卷積神經(jīng)網(wǎng)絡(luò)和Transformer的模型不斷刷新性能指標(biāo)。然而,這類方法的實際效果在很大程度上依賴于訓(xùn)練與評估數(shù)據(jù)集的質(zhì)量。現(xiàn)有霧霾圖像數(shù)據(jù)集主要分為兩類:一類來源于真實場景拍攝,受限于設(shè)備、氣象和場景,難以大規(guī)模獲?。涣硪活愅ㄟ^物理模型對清晰圖像進(jìn)行合成,雖具可擴(kuò)展性,但在光學(xué)、色彩、結(jié)構(gòu)等方面與真實霧霾存在差距,影響算法泛化能力。
此外,當(dāng)前對去霧算法的評估多集中于像素級指標(biāo),如峰值信噪比和結(jié)構(gòu)相似性,雖具參考價值,卻難以反映去霧處理對下游視覺任務(wù)的影響。目標(biāo)檢測任務(wù)對圖像對比度和色彩一致性有更高要求,單純優(yōu)化圖像質(zhì)量指標(biāo)并不能確保良好檢測性能。為此,本文提出一種面向跨域目標(biāo)檢測的物理驅(qū)動霧霾數(shù)據(jù)集合成算法,基于COCO構(gòu)建跨域檢測數(shù)據(jù)集COCO-Haze。主要貢獻(xiàn)包括:
(1)可擴(kuò)展的數(shù)據(jù)構(gòu)建流程。設(shè)計自動化合成流程,支持任意規(guī)模數(shù)據(jù)集,降低小樣本過擬合問題。
(2)邊緣感知的深度估計優(yōu)化。引入基于Transformer的單目深度預(yù)測,緩解深度圖偽影與噪聲,并通過非線性映射增強(qiáng)近景霧濃度,提高邊緣對齊精度。
(3)物理驅(qū)動的大氣光校正策略。通過多通道亮度分析估計大氣光,引入顏色平衡約束以抑制色偏,并結(jié)合光學(xué)視程約束關(guān)鍵參數(shù),保障物理一致性。
(4)任務(wù)驅(qū)動的評估框架:綜合傳統(tǒng)圖像復(fù)原指標(biāo)和目標(biāo)檢測性能,全面評估去霧算法性能及其對下游檢測任務(wù)的影響。
1.物理驅(qū)動霧霾數(shù)據(jù)集構(gòu)建的必要性
現(xiàn)有霧霾數(shù)據(jù)集主要包括兩類:真實霧霾數(shù)據(jù)集、合成霧霾數(shù)據(jù)集。真實霧霾數(shù)據(jù)集具備較高物理真實性,通常通過在相同場景和相似氣象條件下分時段采集有/無霧圖像對,用于監(jiān)督去霧模型訓(xùn)練與評估。典型代表如Dense-Haze、BeDDE2]。此類數(shù)據(jù)集雖真實還原霧霾退化過程,但普遍存在規(guī)模小、場景單一、光照變化少、配準(zhǔn)困難、樣本成本高、缺乏物理標(biāo)簽等問題,難以滿足深度學(xué)習(xí)對大規(guī)模多樣性樣本和完整物理信息的需求。合成霧霾數(shù)據(jù)集則基于大氣散射模型生成,具備數(shù)據(jù)量大、參數(shù)可控、易擴(kuò)展等優(yōu)點,廣泛用于模型訓(xùn)練。典型代表包括FoggyCityscapes3、FRIDA[4。然而,其建模簡化常忽略光照偏色與傳輸圖合理性,深度圖亦存在邊緣誤差和噪聲偽影,導(dǎo)致合成圖像邊緣失真、色彩不自然,影響真實感和泛化性能。
綜上,真實數(shù)據(jù)集物理可靠但受限明顯,合成數(shù)據(jù)集靈活可控但失真問題突出。因此,基于物理驅(qū)動的霧霾圖像合成算法,構(gòu)建COCO-Haze數(shù)據(jù)集迫在眉睫,旨在融合物理一致性與任務(wù)支持能力,提升數(shù)據(jù)質(zhì)量與實用價值。
2.物理驅(qū)動霧霾數(shù)據(jù)集構(gòu)建的方法
本文提出一種物理驅(qū)動的霧霾合成算法,提升結(jié)構(gòu)保真度與目標(biāo)檢測跨域泛化能力。以COCO數(shù)據(jù)集為基礎(chǔ),構(gòu)建了COCO-Haze數(shù)據(jù)集,全面驗證方法有效性。霧霾條件下的成像過程由公式描述如下:
I(x)=J(x)?t(x)+A?(1-t(x)) (1)
jx)表示點x的無霧圖像輻射, A 為大氣光, t(x) 為點x的傳輸值。大氣散射模型認(rèn)為大氣霧霾中的氣溶膠的散射吸收服從指數(shù)衰減:
β 是散射系數(shù),與氣溶膠密度正相關(guān); d(x) 是目標(biāo)到成像系統(tǒng)的距離。本文通過系統(tǒng)地調(diào)控β、 d(x) 和A三個物理參數(shù),實現(xiàn)符合物理模型的霧霾圖像合成,為數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)去霧算法提供物理可解釋、場景多樣的訓(xùn)練數(shù)據(jù)。
2.1單目深度估計與非線性映射
為構(gòu)建霧化模型,需獲取圖像深度信息。本文使用基于Transformer的深度估計網(wǎng)絡(luò)MiDaSv3.1對COCO數(shù)據(jù)集圖像/x)進(jìn)行單目深度估計,生成相對深度圖 |D(x) 為增強(qiáng)近景霧濃度和霧霾梯度,引入非線性映射:
d(x)=er(d(x)-1)( 3)
其中e為自然底數(shù), γ 為霧化增強(qiáng)系數(shù), d(x) 為映射以后深度圖。該映射可在保留深度排序的同時壓縮值域至[e γx(d(x)-1),1] 使前景保持基礎(chǔ)霧效,中遠(yuǎn)景差異被放大,從而提升網(wǎng)絡(luò)對空間層次與過渡區(qū)域的建模能力,避免近景大面積無霧問題,提高數(shù)據(jù)利用率?;诖髿馍⑸淠P?,傳輸圖計算如下:
為既能展現(xiàn)大氣衰減特性,又在最低能見度區(qū)域保留必要紋理,需要為散射系數(shù) β 依據(jù)氣象光學(xué)視程V設(shè)置合理邊界。參照國家標(biāo)準(zhǔn)《地面氣象觀測規(guī)范氣象能見度》(GB/T35223—2017),氣象光學(xué)視程定義為光通量衰減至初始值 5% 時的最大傳播距離,即目標(biāo)完全喪失可辨識性。在 d=1 處有:
對于下界,輕霧對應(yīng)的氣象光學(xué)視程VE[1000,10000](單位: m ,根據(jù)公式:
(6)
當(dāng) V=1000 ,理論上 β=0.0003 考慮深度估計網(wǎng)絡(luò)輸出為相對深度 10∈[0,1] ,且假設(shè)最大相對深度對應(yīng)真實距離 1000m ,則按比例放大1000倍,得到 時最淡霧區(qū)域的傳輸圖的值約為:
因此本文設(shè)置 β∈[0.3,3 隨機(jī)采樣,以覆蓋從輕霧到濃霧的完整范圍,既保證了物理一致性,又提供了足夠的霧化多樣性。
2.2顏色均衡約束與霧霾圖像生成
在傳統(tǒng)方法中,大氣光常取圖像最亮像素值,易受高光干擾且忽視多通道差異。由于不同波長的光線會具備不同的傳輸值,本文基于通道分離提取每個通道最亮前像素的均值,計算大氣光分量:
其中S表示通道c的排序值, 為無霧圖像, k 表示最大的前 1% 值, A 表示計算得到的大氣光分量。考慮真實霧霾通常近似白色或輕度偏色,本文引入顏色均衡約束:
其中A為三通道均值,為顏色平衡系數(shù),設(shè)置為0.8, Ac' 為顏色平衡約束計算后的大氣光分量, A 為三通道合并后的大氣光。這種設(shè)計增強(qiáng)了霧霾模擬過程中的隨機(jī)性,有助于提升神經(jīng)網(wǎng)絡(luò)模型的泛化能力?;诖髿馍⑸淠P停罱K霧霾圖像表I(x) 達(dá)式如下:
I(x)=J(x)?t(x)+A'?(1-t(x))
其中 J(x) 為原始無霧清晰圖像, t(x) 為傳輸圖。
3.實驗設(shè)計與分析
3.1跨方法基準(zhǔn)測試
為了驗證各類主流去霧算法在COCO-Haze數(shù)據(jù)集上的性能以其對下游目標(biāo)檢測的提升,本節(jié)從圖像質(zhì)量和檢測精度兩方面展開對比實驗。所選算法包括:暗通道先驗(darkchannel prior,DCP)、AOD-Net[8] 、FFA-Net和 DehazeFormer[0]。
3.2傳統(tǒng)圖像質(zhì)量指標(biāo)對比
在驗證集上,測量各算法輸出與對應(yīng)無霧圖像間的峰值信噪比(PSNR,dB)和結(jié)構(gòu)相似性(SSIM),結(jié)果見表1。其中,傳統(tǒng)方法DCP表現(xiàn)最好。在深度學(xué)習(xí)方法中,DehazeFormer表現(xiàn)最佳,其他深度學(xué)習(xí)方法雖優(yōu)于原始霧霾圖像,但與DCP和DehazeFormer存在一定差距,反映其跨域泛化能力有限??傮w而言,這些結(jié)果表明深度學(xué)習(xí)去霧算法高度依賴訓(xùn)練數(shù)據(jù)質(zhì)量與分布,即使在跨域條件下可實現(xiàn)像素級恢復(fù),要進(jìn)一步提升效果仍需更高質(zhì)量且分布匹配的霧霾數(shù)據(jù)集。
3.3下游目標(biāo)檢測性能對比
實驗中采用在COCO無霧圖像上預(yù)訓(xùn)練的YOLOv8模型,對原始霧霾圖像、無霧圖像以及各去霧算法處理后的圖像進(jìn)行了目標(biāo)檢測評估,統(tǒng)計了精確率、召回率、mAP50和mAP50-95四項指標(biāo),見表2。
由表2可知,DCP、AOD-Net、FFA-Net、DehazeFormer四種去霧方法,DCP在mAP50和mAP50-95上表現(xiàn)最佳,驗證了非學(xué)習(xí)型方法在跨域自標(biāo)檢測中的魯棒性。相比之下,多數(shù)深度學(xué)習(xí)去霧算法在mAP指標(biāo)上不及原始霧霾圖像,盡管在像素級恢復(fù)指標(biāo)上表現(xiàn)良好。此現(xiàn)象表明,像素級圖像質(zhì)量提升并不必然提高下游檢測性能,凸顯了評估去霧算法時引入任務(wù)驅(qū)動指標(biāo)的必要性,以指導(dǎo)未來算法向更能促進(jìn)高級視覺任務(wù)的方向優(yōu)化。
圖1中所示的去霧結(jié)果表明,各算法在去霧強(qiáng)度與細(xì)節(jié)保留上差異顯著。DCP在整體對比度提升方面穩(wěn)定,但在深度突變處仍易殘留霧霾;AOD-Net對淺霧效果有限,深霧區(qū)域去除不足;FFA-Net恢復(fù)結(jié)果波動較大,偶見色彩飽和度異常和偽影。相比之下,DehazeFormer引入Transformer結(jié)構(gòu),有效抑制偽影,在霧霾殘留與細(xì)節(jié)保真之間取得較好平衡。綜上,傳統(tǒng)非學(xué)習(xí)方法無須大規(guī)模數(shù)據(jù)即可提供可靠的去霧效果,并在目標(biāo)檢測任務(wù)中表現(xiàn)優(yōu)異,而基于深度學(xué)習(xí)的去霧算法仍依賴高質(zhì)量且多樣化的訓(xùn)練數(shù)據(jù)集,才能在下游高級視覺任務(wù)中充分發(fā)揮潛力。
結(jié)語
針對合成霧霾數(shù)據(jù)集物理真實性與規(guī)??蓴U(kuò)展難題,本文提出一種面向跨域目標(biāo)檢測的物理驅(qū)動霧霾數(shù)據(jù)集合成算法,并基于COCO構(gòu)建跨域檢測數(shù)據(jù)集COCO-Haze。綜合評估顯示,經(jīng)典傳統(tǒng)去霧方法在目標(biāo)檢測中依然穩(wěn)健,而深度學(xué)習(xí)方法跨域泛化能力依賴于數(shù)據(jù)質(zhì)量;且像素級恢復(fù)指標(biāo)與檢測性能并非嚴(yán)格正相關(guān),凸顯應(yīng)引入任務(wù)驅(qū)動的聯(lián)合評估指標(biāo)。由此可見,所提數(shù)據(jù)集合成流程在提升合成質(zhì)量、豐富場景多樣性和支持下游視覺任務(wù)方面具有顯著優(yōu)勢,為霧霾圖像復(fù)原與跨域檢測研究提供了有力支撐。后續(xù)工作計劃將考慮物理驅(qū)動框架拓展至視頻流,以研究時序一致性霧霾建模與恢復(fù)。
參考文獻(xiàn):
[1]Ancuti CO,Ancuti C,Sbert M,et al.Dense-haze:A benchmark for image dehazing with dense-haze and hazefreeimages[C]//2019 IEEE international conference on image processing (ICIP). IEEE,2019:1014-1018.
LasingerK,HafnerD,etal.Towardsrobust monocular depth estimation:Mixing datasets for zero-shot cross-dataset transfer[J].IEEE transactions on pattern analysisand machine int elligence,2020,44(3):1623-1637.
[2]Zhao SY,Zhang L,Huang SY,et al.Dehazing evaluation:Realworldbenchmarkdatasets,criteria,and baselines[J].IEEE Transactions on Image Processing,2020,29:6947-6962.
[3]Sakaridis C,Dai DX,Van Gool
[6]中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局,中國國家標(biāo)準(zhǔn)化管理委員會.地面氣象觀測規(guī)范氣象能見度:GB/T35223—2017[S].北京:中國標(biāo)準(zhǔn)出版社,2017:2-6.
[7]He K,Sun J,Tang XO.Single image hazeremoval using dark channel prior[J].IEEE transactions on pattern analysis and machine intelligence,2010,33(12):2341-2353.
[8]LiBY,Peng XL,Wang ZY,et al.Aod-net:All-in-one dehazing network[C]//Proceedingsof the IEEE international conference on computer vision(ICCV).2017:4770-4778.
L.Semantic foggy scene understanding withsynthetic data[J].International Journal of Computer Vision,2018,126:973-992.
[4]Cokbas M,BologninoJ,Konrad J,etal.Frida:Fisheye reidentification dataset with annotations[C]//2022 18th IEEE International Conferenceon Advanced Video and Signal Based Surveillance (AVSS). IEEE,2022:1-8.
[9]ChengR,Zeng H,Zhang B,et al.FFANet:fast feature aggregation network for 3D point cloud segmentation[J].Machine Vision and Applications,2023,34(5):80.
[10]Song Y,He Z,Qian H,et al.Vision transformers for single image dehazingJ].IEEE Transactions on Image Processing,2023,32:1927-1941.
[5]RanftlR,
作者簡介:章理登,碩士研究生,助教,zld0330@zjitc.edu.cn,研究方向:計算機(jī)視覺與深度學(xué)習(xí)。張恪萊,碩士研究生,講師,研究方向:計算機(jī)視覺與深度學(xué)習(xí)。邱儒,碩士研究生,講師,研究方向:計算機(jī)視覺與深度學(xué)習(xí)。
基金項目:2023年度浙江工貿(mào)職業(yè)技術(shù)學(xué)院校級課題——基于Transformer框架的圖像增強(qiáng)算法研究(編號:縱20230007);2024年度浙江省教育廳科技類課題———基于Transformer的霧霾場景海域目標(biāo)識別技術(shù)研究(編號:Y202456013);2024年度浙江工貿(mào)職業(yè)技術(shù)學(xué)院校級課題———基于Detection Transformer的無人機(jī)水域圖像目標(biāo)檢測深度學(xué)習(xí)模型研究(編號:縱20240027)。