鄔開(kāi)俊,丁元
(蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070)
工業(yè)發(fā)展給環(huán)境造成了影響,大氣中的懸浮顆粒也逐漸增加,導(dǎo)致霧霾天氣的發(fā)生,并且使得日常生活中得到的圖像產(chǎn)生模糊、對(duì)比度下降等問(wèn)題,因此對(duì)這類圖像進(jìn)行目標(biāo)檢測(cè)、目標(biāo)識(shí)別、跟蹤和分割等計(jì)算機(jī)視覺(jué)任務(wù)會(huì)變得更為復(fù)雜.以上情況使得計(jì)算機(jī)視覺(jué)的自動(dòng)化和遠(yuǎn)程監(jiān)控系統(tǒng)等應(yīng)用無(wú)法正常發(fā)揮作用,因此如何提高均勻和非均勻霧霾圖像的清晰度、對(duì)比度以及突出場(chǎng)景細(xì)節(jié)等問(wèn)題具有重要的研究意義.
傳統(tǒng)的圖像去霧算法包括經(jīng)典的圖像增強(qiáng)算法,如直方圖均衡化、Retinex 算法[1]等,這類算法主要通過(guò)增強(qiáng)霧霾圖像的飽和度以及對(duì)比度來(lái)提高降質(zhì)圖像的質(zhì)量,但實(shí)質(zhì)并沒(méi)有從霧霾產(chǎn)生的條件出發(fā).另一類傳統(tǒng)的圖像去霧算法基于大氣散射模型[2],包括基于暗通道去霧算法[3]、變分模型去霧算法[4]、自適應(yīng)霧度衰減去霧算法[5]、顏色衰減去霧算法[6]等,這類算法通過(guò)先驗(yàn)知識(shí)估算大氣散射模型參數(shù),然后通過(guò)反演得到去霧圖像,這類算法受先驗(yàn)知識(shí)的約束,導(dǎo)致魯棒性較差.
計(jì)算機(jī)硬件包括圖形處理器(Graphics Process?ing Unit,GPU)和張量處理器(Tensor Processing Unit,TPU)的發(fā)展,加速了計(jì)算機(jī)視覺(jué)任務(wù)的處理速度,出現(xiàn)了許多圖像處理方面的新型算法.近年來(lái),基于深度學(xué)習(xí)的圖像去霧算法對(duì)比傳統(tǒng)去霧算法,效果得到了很大的提升,但是仍然存在顏色退化、紋理消失和光暈失真等問(wèn)題.在真實(shí)世界中,圖像場(chǎng)景的霧霾分布并非均勻,所以圖像場(chǎng)景中物體的退化程度也有較大差異.對(duì)于這種非均勻霧霾圖像,在去霧模型的設(shè)計(jì)中應(yīng)該加入相應(yīng)模塊,注重處理不同空間的不同霧霾濃度和不同景深的不同色彩退化問(wèn)題.以上問(wèn)題可以采用多尺度模型和注意力機(jī)制來(lái)解決,例如文獻(xiàn)[7]中采用多UNet 網(wǎng)絡(luò)分別輸出不同尺度特征再進(jìn)行合并的方式實(shí)現(xiàn)多尺度特征提取,雖然該模型通過(guò)對(duì)圖像不同空間尺度特征的分層整合來(lái)實(shí)現(xiàn)高級(jí)和低級(jí)特征的學(xué)習(xí),但是使用這種方法采用大量的下采樣和上采樣操作,模型規(guī)模大,訓(xùn)練和運(yùn)行時(shí)間較長(zhǎng).
綜上,本文采用了一種新的深度學(xué)習(xí)體系結(jié)構(gòu),該體系結(jié)構(gòu)采用了雙層視覺(jué)特征提取及多尺度注意力特征融合.該模型采用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[8]架構(gòu),采用UNet3+[9]和金字塔特征融合模塊構(gòu)成生成器來(lái)提取復(fù)雜的霧霾特征,文獻(xiàn)[9]中證明在保障相同的編碼結(jié)構(gòu)的前提下,UNet3+的參數(shù)量相比UNet 更少,并且UNet3+網(wǎng)絡(luò)結(jié)合了多尺度特征,采用新的跳躍連接方式,并利用多尺度的深度監(jiān)督,可以在更少的參數(shù)條件下,產(chǎn)生更有效的特征圖.融合自注意力多尺度金字塔特征融合模塊可以有效利用UNet3+網(wǎng)絡(luò)所提取的不同尺度的空間信息,并提出了一種自注意力機(jī)制(Self Attention,SA)的改進(jìn)方法,降低像素內(nèi)部的高相關(guān)性在學(xué)習(xí)中的相互干擾,加大注意力特征圖對(duì)總體特征分析的影響.
本篇論文研究圖像去霧方法,單幅圖像去霧是一個(gè)不適定問(wèn)題,因?yàn)闇y(cè)試數(shù)據(jù)不足,不能很好地學(xué)習(xí)霧霾圖像的特征,不能較好地訓(xùn)練模型,而且去霧模型對(duì)于圖像噪聲十分敏感.根據(jù)大氣散射模型,霧霾圖像是由大氣光、場(chǎng)景中物體的反照率和霧霾介質(zhì)的透射圖來(lái)確定.去霧過(guò)程中必須預(yù)測(cè)未知的透射圖和大氣光值,在過(guò)去,已經(jīng)提出了許多方法來(lái)完成這一預(yù)測(cè).這種方法可分為兩類,即基于先驗(yàn)的方法和基于學(xué)習(xí)的方法.基于先驗(yàn)的方法依賴從圖像中人工獲取先驗(yàn)知識(shí),利用額外的數(shù)學(xué)補(bǔ)償來(lái)構(gòu)建去霧的信息;基于學(xué)習(xí)的方法則利用神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)無(wú)霧圖像和霧霾圖像之間的映射關(guān)系,實(shí)現(xiàn)端到端的輸出.
Tan[10]在算法中加入馬爾可夫隨機(jī)場(chǎng)來(lái)最大化霧霾圖像的局部對(duì)比度實(shí)現(xiàn)去霧.He 等人[3]提出了利用暗通道先驗(yàn)估計(jì)來(lái)預(yù)測(cè)大氣散射模型透射圖的方式實(shí)現(xiàn)去霧,之后改進(jìn)暗通道的去霧技術(shù)不斷出現(xiàn),比如吳迪等人[11]提出的基于暗通道的快速圖像去霧方法研究,肖進(jìn)勝等人[12]提出的基于天空約束暗通道先驗(yàn)的圖像去霧以及楊紅等人[13]提出的基于暗通道的遙感圖像云檢測(cè)算法,等等.Fattal[14]基于對(duì)圖像塊在RGB 顏色通道中通常呈現(xiàn)的一維分布,提出了一種色線法.雖然傳統(tǒng)算法在去霧方面取得了不錯(cuò)的效果,但還是存在局限性較大、魯棒性較差的問(wèn)題.
Cai 等人[15]提出去霧模型DehazeNet,首次利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)圖像去霧算法.Zhang 等人[16]提出利用深層網(wǎng)絡(luò)結(jié)構(gòu)估計(jì)大氣散射模型中的傳輸圖以及大氣光值,進(jìn)而得到無(wú)霧圖像.Ren 等人[17]提出了采用多尺度卷積神經(jīng)網(wǎng)絡(luò)的去霧算法(MSCNN),可以通過(guò)不同尺度的特征融合,提高去霧后圖像的質(zhì)量.Yu 等人[18]提出的基于馬爾可夫判別器的圖像去霧算法,可以通過(guò)在判別器中對(duì)比有霧圖像和去霧圖像的局部一致性,提高整體一致性.Qu 等人[19]提出了增強(qiáng)的Pix2Pix 模型,該模型之前廣泛應(yīng)用于圖像風(fēng)格遷移領(lǐng)域,該方法采用了一個(gè)帶有增強(qiáng)器模塊的GAN,以獲得更有質(zhì)量的生成圖像,同時(shí)減少模型復(fù)雜度.近年來(lái),基于學(xué)習(xí)的方法在圖像去霧領(lǐng)域取得了重大的發(fā)展,本文算法實(shí)現(xiàn)的是一種基于學(xué)習(xí)的端到端去霧,網(wǎng)絡(luò)模型直接生成去霧圖像而省去了預(yù)測(cè)透射圖和大氣光值的步驟,并且提高了去霧后圖像的質(zhì)量.
算法生成器結(jié)構(gòu)如圖1 所示,由雙層UNet3+網(wǎng)絡(luò)模塊以及融合自注意力機(jī)制[20]多尺度金字塔特征融合模塊組成,下面介紹不同模塊細(xì)節(jié).
圖1 生成器結(jié)構(gòu)Fig.1 Generator structure
2.1.1 雙層UNet3+網(wǎng)絡(luò)模塊
模塊由兩個(gè)級(jí)聯(lián)的UNet3+網(wǎng)絡(luò)單元組成,上一個(gè)網(wǎng)絡(luò)單元的輸出作為下一個(gè)網(wǎng)絡(luò)單元的輸入.兩個(gè)UNet3+網(wǎng)絡(luò)單元的輸出合并起來(lái)提供一個(gè)320 個(gè)通道的特征圖,下面的公式(1)、公式(2)描述該模塊的工作方式:
式中:I1、I2分別為第1、2 個(gè)UNet 單元的輸出;Ihaze為輸入的YCbCr 空間霧霾圖像.整個(gè)模塊的輸出為I,可描述為公式(3),其中⊕為按位求和.
模型將原始UNet3+網(wǎng)絡(luò)的5 層結(jié)構(gòu)增加為7層,關(guān)于UNet3+網(wǎng)絡(luò)單元個(gè)數(shù)的選擇會(huì)在之后的消融實(shí)驗(yàn)中介紹.下面討論采用串聯(lián)2 個(gè)7 層UNet3+網(wǎng)絡(luò)的需求.
在圖像特征分割的過(guò)程中,不同尺度的特征圖展現(xiàn)不同的信息,低層次特征圖捕捉豐富的空間信息,能夠突出霧霾圖像中內(nèi)容的邊界;而高級(jí)語(yǔ)義特征圖則體現(xiàn)了內(nèi)容所在的位置信息.在提取特征的過(guò)程中隨著下采樣和上采樣操作,圖像特征的傳遞會(huì)逐漸消減,而UNet3+網(wǎng)絡(luò)充分利用多尺度特征,引入全尺度的跳躍連接(Skip Connection,SC)[9]結(jié)合了來(lái)自全尺度特征圖的低級(jí)語(yǔ)義和高級(jí)語(yǔ)義,參數(shù)更少,并且進(jìn)行深度監(jiān)督(Deep Supervisions,Sup)[9],增加神經(jīng)網(wǎng)絡(luò)的深度和表征能力的同時(shí),避免梯度消失和梯度爆炸等現(xiàn)象.深度監(jiān)督分支還能夠起到判斷特征圖質(zhì)量好壞的作用,從全面的聚合特征圖中學(xué)習(xí)層次表示.為了實(shí)現(xiàn)深度監(jiān)督,網(wǎng)絡(luò)中每一個(gè)解碼器的輸出先送入3×3 的卷積層,然后經(jīng)過(guò)雙線性上采樣,目的是將第2、3、4、5、6、7 層得到的特征圖上采樣為全分辨率特征圖,保證與第1 層相同,實(shí)現(xiàn)全尺寸監(jiān)督,最后接一個(gè)Sigmoid 函數(shù).相比采用4~5 個(gè)UNet 網(wǎng)絡(luò)串聯(lián)操作,或是UNet++網(wǎng)絡(luò),UNet3+網(wǎng)絡(luò)在減少網(wǎng)絡(luò)參數(shù)的同時(shí)也提高了計(jì)算和訓(xùn)練速度,還可以在特征提取的過(guò)程中產(chǎn)生更加具有層次和邊界效應(yīng)的特征圖.
為了使UNet3+網(wǎng)絡(luò)更加精確地提取圖像的局部和全局信息,本算法將原始UNet3+網(wǎng)絡(luò)的5 層結(jié)構(gòu)增加為7 層,如圖2 所示,圖中E 代表編碼、D 代表解碼,7 層拼接融合形成224(7×32)通道的特征圖.更多的層次可以帶來(lái)更多不同尺度的特征信息.實(shí)際測(cè)試中,單獨(dú)7 層UNet3+網(wǎng)絡(luò)也可以得到不錯(cuò)的去霧效果,然而對(duì)于復(fù)雜的霧霾圖像和不均勻霧霾圖像,可能無(wú)法提取復(fù)雜的特征信息并生成相應(yīng)的輸出.為了解決這一問(wèn)題,本算法采用的方法是增加UNet3+網(wǎng)絡(luò)的個(gè)數(shù)進(jìn)行級(jí)聯(lián),以便學(xué)習(xí)更加復(fù)雜的特征信息.隨著層數(shù)的輸入,單純采用單網(wǎng)絡(luò)架構(gòu)會(huì)造成大量空間信息的丟失,而采用級(jí)聯(lián)多個(gè)UNet3+網(wǎng)絡(luò)的方式則可以減小這一問(wèn)題帶來(lái)的影響.每個(gè)UNet3+網(wǎng)絡(luò)編碼器下采樣得到特征,解碼器端將這些特征上采樣到相同的高寬通道,多個(gè)生成器的組合有助于學(xué)習(xí)和保留更加復(fù)雜的空間信息.
圖2 7層UNet3+網(wǎng)絡(luò)Fig.2 7-layer UNet3+network
2.1.2 融合自注意力機(jī)制多尺度金字塔特征融合模塊
由于經(jīng)過(guò)級(jí)聯(lián)UNet3+模塊的特征圖缺乏不同大小圖像Patch的結(jié)構(gòu)信息,所以在UNet3+模塊之后加入多尺度金字塔特征融合模塊.早期的金字塔結(jié)構(gòu)被用來(lái)提取全局結(jié)構(gòu)信息[21],本文則利用金字塔結(jié)構(gòu)解決不同尺度結(jié)構(gòu)信息不能直接用于生成預(yù)測(cè)圖像的問(wèn)題,具體原理如圖3所示.
圖3 特征融合示意圖Fig.3 Feature fusion diagram
首先采用多個(gè)不同卷積核大小的卷積層得到對(duì)應(yīng)不同空間尺度的結(jié)構(gòu)信息,從而生成不同的輸出映射.在模型中,不同卷積核的大小設(shè)為3、5、7、11、17、25、35、45,采用奇數(shù)卷積核可以使得輸出像素周圍的特征具有對(duì)稱性,避免圖像失真,并且采用零填充來(lái)避免邊緣特征丟失.之后將金字塔卷積得到的不同尺度的特征經(jīng)過(guò)SA 進(jìn)入特征融合編碼器進(jìn)行特征融合,進(jìn)一步將底層的語(yǔ)義信息和高層的語(yǔ)義信息進(jìn)行結(jié)合,使得網(wǎng)絡(luò)可以學(xué)習(xí)霧霾圖像更加豐富的特征信息.經(jīng)過(guò)特征編碼器的特征圖直接送入解碼器,將特征解碼為圖像,得到輸出圖像.通過(guò)這種方式,局部和全局的信息都可以用于最終的圖像重構(gòu).
使用多尺度金字塔特征融合模塊的效果如圖4所示,圖中的矩形框選中不同大小卷積核所生成的圖像部分特征,分別是3、11、25 卷積核,以展示輸出特征圖的細(xì)節(jié)特征.在下方的圖中顯示的是特征圖映射為圖像后的細(xì)節(jié)對(duì)比,通過(guò)多層金字塔卷積學(xué)習(xí)保留多尺度的空間信息.實(shí)驗(yàn)部分通過(guò)消融實(shí)驗(yàn),證明該模塊的有效性.
圖4 3×3、11×11和25×25卷積層的特征映射Fig.4 Feature mapping of 3 × 3,11 × 11 and 25 × 25 convolution layers
對(duì)于單一霧霾圖像去霧,圖像內(nèi)部的信息非常重要,所以本算法采用的方法是利用SA,減少對(duì)外部信息的依賴.由于傳統(tǒng)的特征提取網(wǎng)絡(luò)的感受野依賴卷積核的大小,所以在特征提取過(guò)程中會(huì)缺乏全局信息,丟失間隔較遠(yuǎn)像素之間的關(guān)聯(lián),而采用SA 則可以很好地解決這一問(wèn)題.RGB 空間R、G、B 色之間存在高相關(guān)性,像素內(nèi)部的高相關(guān)性會(huì)在學(xué)習(xí)中相互干擾,阻礙圖像細(xì)節(jié)恢復(fù).針對(duì)以上霧霾圖像特征提取存在的問(wèn)題,使用YCbCr 空間代替RGB 空間,減少高相關(guān)性的影響,增強(qiáng)注意力特征圖對(duì)總體特征分析的影響,并提出改進(jìn)的SA,提高對(duì)霧霾圖像特征提取的有效性,具體改進(jìn)方法如下:
1)為了降低像素內(nèi)部的高相關(guān)性,增加圖像細(xì)節(jié)恢復(fù),數(shù)據(jù)處理階段采用YCbCr 空間代替RGB 空間,YCbCr 顏色空間可以分割在RGB 顏色空間中難以分離的對(duì)象,進(jìn)一步增強(qiáng)紋理細(xì)節(jié)恢復(fù),具體方式為:
2)為了增強(qiáng)對(duì)霧霾圖像不同霧度區(qū)域的特征捕獲能力,在SA 模塊中加入softmax 結(jié)構(gòu)和expend 結(jié)構(gòu),通過(guò)增加模型寬度豐富細(xì)節(jié)信息,以達(dá)到對(duì)注意力模塊的加強(qiáng).
3)在經(jīng)過(guò)以上兩個(gè)操作之后,將改進(jìn)的SA 模塊加入模型,在降低像素內(nèi)部的高相關(guān)性的同時(shí),增強(qiáng)對(duì)霧霾圖像不同霧度區(qū)域的特征捕獲能力,具體改進(jìn)后SA的結(jié)構(gòu)如圖5所示.
圖5 改進(jìn)自注意力機(jī)制結(jié)構(gòu)圖Fig.5 Improved self-attention mechanism structure diagram
判別器采用馬爾可夫判別器,整體完全由可以學(xué)習(xí)的卷積層構(gòu)成,通過(guò)對(duì)最后輸出矩陣取均值輸出.輸出矩陣的每一位代表原圖像的一個(gè)感受野,這樣對(duì)于圖像清晰化有一定的高細(xì)節(jié)保持.判別器整體采用4×4 的卷積核,每一個(gè)整體由一個(gè)Spectral?norm 層、一個(gè)4×4 的卷積層和一個(gè)LeakyReLU 激活層組成,而最后一塊加入SA,通過(guò)Sigmoid 函數(shù)得到輸出映射,具體結(jié)構(gòu)如圖6所示.
圖6 判別器結(jié)構(gòu)Fig.6 Discriminator structure
在損失函數(shù)的選擇上,采用可以在功能上接近人類感知的損失函數(shù),包括對(duì)抗損失函數(shù)[22]、L2 損失函數(shù)[23]、感知損失函數(shù)[24]以及結(jié)構(gòu)相似損失函數(shù)[7],通過(guò)多損失函數(shù)的組合更好地對(duì)模型進(jìn)行約束.生成對(duì)抗網(wǎng)絡(luò)損失可以描述為:
式中:D為判別器;G為生成器;x為輸入的霧霾圖像;y為與霧霾圖像對(duì)應(yīng)的清晰圖像;E為計(jì)算所得到的數(shù)學(xué)期望.
L2損失函數(shù)體現(xiàn)了清晰圖像與預(yù)測(cè)圖像之間的差值平方和,可描述為:
式中:IGT為清晰圖像;Ipred為預(yù)測(cè)圖像.
感知損失函數(shù)設(shè)計(jì)基于VGG-19 網(wǎng)絡(luò),將真實(shí)的清晰圖像卷積得到的特征與生成器生成的圖像卷積得到的特征進(jìn)行比較,使得圖像的全局結(jié)構(gòu)更加接近,生成的圖像和目標(biāo)圖像通過(guò)不可訓(xùn)練的VGG網(wǎng)絡(luò)傳遞,可描述如下:
式中:C、W、H分別為輸出的通道、寬度和高度;V為非線性CNN 變換,由VGG 網(wǎng)絡(luò)執(zhí)行,對(duì)于Pool-4 層的輸出,可以近似為1e-5;這一損失函數(shù)本質(zhì)就是使用F2 范數(shù)計(jì)算清晰圖像和預(yù)測(cè)圖像通過(guò)VGG 網(wǎng)絡(luò)處理后的平方加標(biāo)準(zhǔn)化.
結(jié)構(gòu)相似性(SSIM)損失函數(shù)對(duì)應(yīng)預(yù)測(cè)圖像與清晰圖像之間的結(jié)構(gòu)差異,可描述如下:
式中:SSIM 為清晰圖像與預(yù)測(cè)圖像之間的結(jié)構(gòu)相似性指數(shù).
以上損失函數(shù)中,L2 損失和感知損失具有同樣的形式,但是感知損失的計(jì)算空間轉(zhuǎn)換到了特征空間.L2 損失和結(jié)構(gòu)相似損失都是對(duì)預(yù)測(cè)圖像和清晰圖像的直接比較,L2損失對(duì)結(jié)構(gòu)細(xì)節(jié)并不敏感,而結(jié)構(gòu)相似損失重點(diǎn)對(duì)比圖像的結(jié)構(gòu)內(nèi)容,所以擁有互補(bǔ)的性質(zhì).
最后將所有的損失函數(shù)加權(quán)組合,生成器和判別器的損失分別如下所示:
式中:A、B為變量權(quán)重,其值分別設(shè)置為A1=0.7、A2=0.5、A3=1.0、A4=1.0、B1=1.0.
為了避免其他去霧文獻(xiàn)中只采用人工合成霧霾圖像且只存在均勻霧霾的情況,本文基于VOC 數(shù)據(jù)集,采用引導(dǎo)濾波生成大量的不均勻霧霾數(shù)據(jù),加入NTIRE-(2020+2021)非均勻去霧挑戰(zhàn)數(shù)據(jù)集[25-26]、NTIRE 2018 圖像去霧室外數(shù)據(jù)集(O-Haze)[27]和Dense-Haze濃厚霧霾數(shù)據(jù)集[28]進(jìn)行訓(xùn)練和測(cè)試.
O-Haze 數(shù)據(jù)集包含35 張圖像用于訓(xùn)練,5 張圖像用于測(cè)試;NTIRE-(2020+2021)數(shù)據(jù)集包含45 張圖像用于訓(xùn)練,15 張圖像用于測(cè)試;人工基于VOC數(shù)據(jù)集合成數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含2 000 張圖像,用于預(yù)訓(xùn)練網(wǎng)絡(luò)權(quán)值,圖7 展示了部分合成的不均勻霧霾圖像.Dense-Haze 數(shù)據(jù)集是其中最具有挑戰(zhàn)性的,很多先進(jìn)的去霧算法在這個(gè)數(shù)據(jù)集中的表現(xiàn)都欠佳,雖然本算法在該數(shù)據(jù)集上的性能相比其他數(shù)據(jù)集而言較差,但是定量比較指數(shù)優(yōu)于所對(duì)比的先進(jìn)算法,從定性的比較可以看出,由于Dense-Haze數(shù)據(jù)集場(chǎng)景的霧霾十分稠密,所以很多方法幾乎不能有效生成清晰圖像,但本算法可以實(shí)現(xiàn)有效去霧,表現(xiàn)出場(chǎng)景中的細(xì)節(jié),但是仍然存在一定的色差問(wèn)題,與實(shí)際清晰圖像存在一定的差異.人工合成數(shù)據(jù)集主要用于遷移學(xué)習(xí)中對(duì)網(wǎng)絡(luò)的參數(shù)進(jìn)行預(yù)訓(xùn)練,其他標(biāo)準(zhǔn)數(shù)據(jù)集均在訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,在測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試.由于標(biāo)準(zhǔn)數(shù)據(jù)集中的圖像數(shù)量較少,因此在訓(xùn)練過(guò)程中采用了隨機(jī)角度翻轉(zhuǎn)、隨機(jī)裁剪、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方法.
圖7 部分合成不均勻霧霾圖像Fig.7 Partially synthesized uneven hazy images
訓(xùn)練使用Adam優(yōu)化器[29],初始的生成器和判別器學(xué)習(xí)率均為0.000 1.采用人工合成數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,在對(duì)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行訓(xùn)練之前,采用遷移學(xué)習(xí)的方式將預(yù)訓(xùn)練權(quán)重載入網(wǎng)絡(luò)模型.標(biāo)準(zhǔn)數(shù)據(jù)集中圖像大小為1 600×1 200×3,導(dǎo)致訓(xùn)練出現(xiàn)GPU 顯存不足,因此采用雙三次插值算法將圖像大小調(diào)整為512×512×3.而文獻(xiàn)[30]提出,霧霾圖像在YCrCb 空間相較于RGB 空間對(duì)去霧過(guò)程的影響更小,特別是對(duì)于Cr、Cb 兩個(gè)色度通道,因此將圖像由RGB 空間轉(zhuǎn)換到Y(jié)CbCr 空間進(jìn)行訓(xùn)練,提高色彩恢復(fù)效果.通過(guò)實(shí)驗(yàn)測(cè)試,最終確定預(yù)訓(xùn)練過(guò)程一共進(jìn)行20 輪,標(biāo)準(zhǔn)數(shù)據(jù)集訓(xùn)練一共進(jìn)行500 輪,500 輪之后損失不再有明顯降低.其中前300 輪采用初始學(xué)習(xí)率,后200輪每100輪生成器學(xué)習(xí)率降為原來(lái)的一半,提高網(wǎng)絡(luò)收斂性.
本小節(jié)對(duì)本論文模型和引用文獻(xiàn)中其他算法模型的結(jié)果進(jìn)行比較,將所有測(cè)試圖像的大小轉(zhuǎn)換為512×512×3,定量的評(píng)價(jià)采用峰值信噪比(PSNR)[31]和結(jié)構(gòu)相似性(SSIM)[32]進(jìn)行度量.測(cè)試以人工合成數(shù)據(jù)集、O-Haze 數(shù)據(jù)集、NTIRE-(2020+2021)數(shù)據(jù)集以及Dense-Haze 數(shù)據(jù)集的測(cè)試集為標(biāo)準(zhǔn),對(duì)比算法的介紹如表1所示.
表1 對(duì)比算法詳情Tab.1 Comparison algorithm details
3.3.1 人工合成數(shù)據(jù)集測(cè)試
為了驗(yàn)證提出算法模型去霧的有效性,該測(cè)試環(huán)節(jié)選用CVPR’16[4]、BPPNET[7]、CVPRW’18[21]、CGAN[33]進(jìn)行對(duì)比實(shí)驗(yàn).從表2 的定量比較中可以看出模型平均PSNR 和SSIM 分別為30.31、0.958,且均優(yōu)于所對(duì)比的先進(jìn)算法.對(duì)測(cè)試數(shù)據(jù)的定性比較如圖8 所示,可以看出本文模型去霧之后的結(jié)果更加符合人眼的視覺(jué)體驗(yàn),包括燈光、物品細(xì)節(jié)以及清晰度,而其他算法在去霧效果上明顯存在缺陷,無(wú)論是燈光的觀感還是細(xì)節(jié)的恢復(fù).但由于人工合成數(shù)據(jù)集主要作用是遷移學(xué)習(xí)而預(yù)訓(xùn)練網(wǎng)絡(luò)權(quán)重,因此其對(duì)比試驗(yàn)不是本次實(shí)驗(yàn)的重點(diǎn).
表2 測(cè)試集上進(jìn)行的定量分析結(jié)果Tab.2 Quantitative analysis results on test datasets
圖8 人工合成數(shù)據(jù)集上,將各種模型與本文模型進(jìn)行定性比較Fig.8 Qualitative comparison of various models with this model on synthetic dataset
3.3.2 標(biāo)準(zhǔn)數(shù)據(jù)集測(cè)試
標(biāo)準(zhǔn)數(shù)據(jù)集測(cè)試主要針對(duì)O-Haze 數(shù)據(jù)集、NTIRE-(2020+2021)數(shù)據(jù)集以及Dense-Haze數(shù)據(jù)集的測(cè)試集.選用傳統(tǒng)方法DCP[3]、CVPR’16[4]、MSRCR[34]和基于深度學(xué)習(xí)的方法BPPNET[7]、CVPRW’18[21]、文獻(xiàn)[35]方法、Grid DN[36]網(wǎng)絡(luò)模型進(jìn)行對(duì)比.
O-Haze:本文模型在測(cè)試數(shù)據(jù)集上的平均PSNR和SSIM 分別為27.83、0.916.從表2可以看出本模型的PSNR 和SSIM 指數(shù)優(yōu)于其他對(duì)比的先進(jìn)算法.由于I-Haze 數(shù)據(jù)集屬于室內(nèi)霧氣圖像且難度低于O-Haze 數(shù)據(jù)集,因此本次測(cè)試沒(méi)有進(jìn)行該數(shù)據(jù)集的測(cè)試.實(shí)驗(yàn)在O-Haze 數(shù)據(jù)集上的定性比較如圖9所示.
NTIRE-(2020+2021):本文模型在測(cè)試數(shù)據(jù)集上的平均PSNR 和SSIM 分別為20.82、0.902,從表2可以看出本文模型在PSNR 和SSIM 指數(shù)方面優(yōu)于對(duì)比的其他先進(jìn)算法.實(shí)驗(yàn)在該數(shù)據(jù)集上的定性比較如圖9所示.
圖9 NTIRE-(2020+2021)數(shù)據(jù)集和O-Haze數(shù)據(jù)集上,將各種模型與本文模型進(jìn)行定性比較Fig.9 Qualitative comparison of various models with this model on NTIRE-(2020+2021)dataset and O-Haze datasets
Dense-Haze:該數(shù)據(jù)是所測(cè)試數(shù)據(jù)集中最具有挑戰(zhàn)性的,與O-Haze 數(shù)據(jù)集和NTIRE-(2020+2021)數(shù)據(jù)集相比,由于不均勻稠密霧霾導(dǎo)致大多數(shù)先進(jìn)的去霧方法在這個(gè)數(shù)據(jù)上的表現(xiàn)都不盡如人意,有的效果甚至很糟糕.本文方法在該數(shù)據(jù)集上表現(xiàn)雖然弱于O-Haze 數(shù)據(jù)集和NTIRE-(2020+2021)數(shù)據(jù)集,但是從表2 可以看出,PSNR 和SSIM 平均值仍然優(yōu)于所對(duì)比的其他先進(jìn)算法.實(shí)驗(yàn)在該數(shù)據(jù)集上的定性比較如圖10 所示,增強(qiáng)之后圖像的細(xì)節(jié)清晰度低于O-Haze 數(shù)據(jù)集和NTIRE-(2020+2021)數(shù)據(jù)集,但相比于其他算法,只有文獻(xiàn)[35]網(wǎng)絡(luò)的結(jié)果與本算法接近,但是從圖像中的細(xì)節(jié)表現(xiàn)可以看出,本算法在一些場(chǎng)景的細(xì)節(jié)以及色差控制方面要好于文獻(xiàn)[35]網(wǎng)絡(luò).
圖10 Dense-Haze數(shù)據(jù)集上,將各種模型與本文模型進(jìn)行定性比較Fig.10 Qualitative comparison of various models with this model on Dense-Haze dataset
為了驗(yàn)證模型中不同模塊在實(shí)際去霧表現(xiàn)中的有效性,使用NTIRE 和O-Haze 數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn).通過(guò)以下不同模型進(jìn)行消融實(shí)驗(yàn):1)首先考慮不同UNet3+網(wǎng)絡(luò)模塊對(duì)于去霧結(jié)果的影響,模型A 表示采用一個(gè)UNet3+網(wǎng)絡(luò),模型B 表示采用三個(gè)UNet3+網(wǎng)絡(luò);2)考慮融合自注意力機(jī)制多尺度金字塔卷積特征融合模塊的存在對(duì)于模型結(jié)果的影響,模型C 表示去除該模塊;3)考慮預(yù)訓(xùn)練數(shù)據(jù)集對(duì)于模型結(jié)果的影響,模型D 表示取消加載預(yù)訓(xùn)練權(quán)重;4)考慮改進(jìn)SA 對(duì)模型結(jié)果的影響,模型E 表示采用原始SA 方法;5)考慮使用YCbCr 空間進(jìn)行訓(xùn)練對(duì)結(jié)果的影響,模型F表示采用RGB 空間訓(xùn)練網(wǎng)絡(luò).定量比較、定性比較結(jié)果如表3和圖11所示.
圖11 消融實(shí)驗(yàn)定性比較Fig.11 Qualitative comparison of ablation experiments
表3 消融實(shí)驗(yàn)的定量分析結(jié)果Tab.3 Quantitative analysis results of ablation experiment
從結(jié)果對(duì)比可以很明顯看到:1)減少UNet3+模塊的數(shù)量會(huì)降低性能,而增加模塊數(shù)量并不能帶來(lái)較大的性能提升,所以2 個(gè)UNet3+模塊是最終的選擇;2)刪除金字塔卷積特征融合模塊會(huì)使性能嚴(yán)重降低,圖像產(chǎn)生模糊不清的情況,細(xì)節(jié)恢復(fù)較差;3)從定量比較中可以看出預(yù)訓(xùn)練權(quán)值能有效提高網(wǎng)絡(luò)的PSNR 指數(shù)和SSIM 指數(shù),從定性比較中也可以看出不加載預(yù)訓(xùn)練權(quán)重的情況下也出現(xiàn)了色差問(wèn)題;4)采用原始SA 得到的結(jié)果與改進(jìn)SA 在視覺(jué)效果上十分接近,但從定量比較仍然可以看出改進(jìn)SA 所得到的評(píng)價(jià)參數(shù)值更高;5)采用RGB空間訓(xùn)練網(wǎng)絡(luò),在NTIRE 數(shù)據(jù)集上,SSIM 指數(shù)與采用YCrCb 空間訓(xùn)練網(wǎng)絡(luò)的結(jié)果持平,但PSNR 指數(shù)相較于YCrCb空間訓(xùn)練網(wǎng)絡(luò)在測(cè)試數(shù)據(jù)集上都有明顯的下降,定性比較中可以看出采用RGB空間所得到的清晰圖像色彩更為深沉,視覺(jué)效果差距不大.上述消融實(shí)驗(yàn)表明,網(wǎng)絡(luò)設(shè)計(jì)過(guò)程中考慮的每個(gè)因素在網(wǎng)絡(luò)最終性能中都起著至關(guān)重要的作用.
本文所提出的基于雙層視覺(jué)及多尺度注意力融合的圖像去霧算法,可以實(shí)現(xiàn)端到端的去霧,并且通過(guò)實(shí)驗(yàn)證明了算法在去霧任務(wù)中的強(qiáng)大能力,適用于室內(nèi)、室外、密集和不均勻霧霾圖像去霧等多種情況.算法針對(duì)霧霾圖像的特點(diǎn)改進(jìn)了自注意力機(jī)制結(jié)構(gòu),證明了改進(jìn)的有效性.實(shí)驗(yàn)中采用的標(biāo)準(zhǔn)數(shù)據(jù)集規(guī)模較小,但仍取得了良好的效果,證明算法在小規(guī)模數(shù)據(jù)集上的顯著優(yōu)勢(shì).通過(guò)測(cè)試可以看出算法在所測(cè)試的數(shù)據(jù)集中的表現(xiàn)都超過(guò)了所對(duì)比的其他先進(jìn)算法,在Dense-Haze 數(shù)據(jù)集上的峰值信噪比和結(jié)構(gòu)相似性指數(shù)分別達(dá)到24.82 和0.769.實(shí)驗(yàn)還采用了大規(guī)模數(shù)據(jù)集來(lái)預(yù)訓(xùn)練網(wǎng)絡(luò)權(quán)重,證明了預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)在圖像去霧領(lǐng)域的有效性.算法存在的不足主要體現(xiàn)在稠密霧霾圖像去霧后存在的色差問(wèn)題,未來(lái)可以加入色彩恢復(fù)相關(guān)損失函數(shù)或者歸一化方法來(lái)提高模型對(duì)于色差的控制力度,來(lái)達(dá)到更好的效果.