王博 魏偉波 張為棟 潘振寬 李明 李金函
摘要:針對傳統(tǒng)去霧算法在配對數據集上訓練時產生過擬合的問題,基于密度和深度分解的非配對圖像去霧網絡模型,改進了自增強縮放網絡。引入Transformer機制,將其與深度卷積神經網絡模塊深度融合,提出了一種使用未配對數據集訓練的基于循環(huán)生成對抗網絡和Transformer的CT-Nets圖像去霧算法;提取輸入圖像的深度信息和散射系數特征值,利用大氣散射模型盡可能恢復不同場景下真實霧的濃度信息,以提高去霧圖像主觀視覺質量;基于Swin-Transformer設計自增強精化層,以獲得精細的細粒度信息,提高模型泛化能力和最終預測圖像真實性。實驗結果表明,相較于基于密度和深度分解的非配對圖像去霧網絡模型,CT-Nets圖像去霧算法的峰值信噪比和結構相似性分別提升4%和4.1%。
關鍵詞:深度學習;單幅圖像去霧;自監(jiān)督網絡;循環(huán)生成對抗網絡
中圖分類號:TP391.41
文獻標志碼:A
光照經過不同介質時會發(fā)生漫散射,在有霧的特殊天氣條件下,成像設備在獲取數字圖像時受到大氣懸浮物的正透射光線影響會出現各種成像缺陷,如:動態(tài)范圍縮小、對比度與飽和度降低、細節(jié)信息丟失和顏色偏移等,不僅影響圖像的觀賞價值,還會嚴重干擾視覺處理任務的輸入、處理和輸出。傳統(tǒng)的去霧算法通?;趫D像復原和圖像增強理論,從統(tǒng)計分析或觀察中發(fā)現無霧圖像的先驗,其中,暗通道先驗理論[1]認為,在自然無霧圖像中,紅綠藍(Red-Green-Blue,RGB)三通道原色的局部最低強度都應接近于零,通過捕捉有霧圖像的暗通道圖譜,結合先驗的結果復原出無霧圖像。由于在有霧場景下捕獲的圖像通常對比度較低,且伴隨有限的場景可見性,二階變分模型的圖像去霧算法提出圖像中有霧區(qū)域的值在RGB空間中主要呈一維線性分布,因此利用線與原點的偏移量并根據“馬爾可夫隨機場模型”,在給定噪聲和散射的情況下,產生完整的正則化傳輸圖可以達到去霧目的[2]。隨著卷積神經網絡(Convolutional Neural Network,CNN)的普及和大規(guī)模合成數據集的發(fā)展,基于深度學習的監(jiān)督方法突破了手工制作先驗的局限性并占據了主導地位。多尺度卷積網絡去霧算法通過預測從粗到細的傳輸圖,將先驗信息融入到卷積層中,從而提取出有霧圖像的特征[3]。粗尺度卷積神經網絡輸出粗略的透射率圖,并作為細尺度卷積神經網絡的輸入。但在估計透射光和大氣光時,可能會出現累積誤差。為此,AOD-Net重新制定了大氣散射模型公式,同時估計透射圖和大氣光[4]。盡管監(jiān)督學習方法在合成數據集上展現出了優(yōu)越的性能,但在訓練時很容易產生過擬合問題,且不能很好地推廣到其他有霧圖像中,特別是處理真實環(huán)境霧氣時。隨著無監(jiān)督學習方法的引入,適用于未配對數據集的學習模型中用于去霧的生成對抗網絡[5]也可以達到一定的去霧效果。Dehaze-GAN算法[6]是利用對抗神經網絡進行去霧的無監(jiān)督學習算法,其利用基于U-net[7]體系結構的端到端生成式對抗網絡訓練方案,采用有霧圖像的暗通道圖提取和縮放的形式與模型中的特征融合,更好的保留圖像細節(jié)。此后提出了循環(huán)生成對抗網絡(Cycle-GAN),并快速應用于去霧算法的研究中[8]。Cycle-dehaze算法采用兩組生成器和判別器來保持循環(huán)一致性,應用拉普拉斯金字塔網絡處理高分辨率的圖像時,通過增加循環(huán)感知一致性損失增強網絡結構穩(wěn)定性,從而訓練得到生成器、全局或局部測試鑒別器等,最終預測去霧圖像[9]。該模型沒有引入大氣散射模型,在生成有霧圖像時,通常忽略深度和密度信息的多樣性,導致生成的有霧圖像失真,最終預測結果缺乏真實感。為解決過擬合和預測圖像失真問題,本文提出一種圖像去霧算法CT-Nets,采用未配對的數據集進行訓練,在網絡結構上采用基于Cycle-GAN的自監(jiān)督學習網絡;通過引入大氣散射模型估計輸入圖像的散射系數和深度等物理量化信息;構建出深度捕獲層、去霧層、自增強精化層3個獨立的子網絡并分別進行訓練,相互配合,達到去霧目的。
1 圖像去霧和Transformer機制相關研究
1.1 大氣散射模型
根據寇氏定律[10],將霧圖成像的物理模型轉換為可解釋的大氣散射模型
Ix=Jxtx+A1-tx(1)
其中,Ix為捕獲系統(tǒng)得到的真實有霧圖像,Jx為無霧清晰圖像,tx為透射率函數,A為全局大氣光參數。細化各參數后,引入大氣的散射系數β(λ)以及距離信息參數dx,得到傳輸函數tx=e-β(λ)d(x),從圖像中估計傳輸函數tx或大氣光函數A(x,λ)即可反推出無霧清晰圖像Rx,λ[11]
Ix,λ=e-β(λ)d(x)Rx,λ+L∞1-e-β(λ)d(x)(2)
1.2 基于密度和深度分解的神經網絡
基于密度和深度分解的非配對圖像去霧(Dehazing via Decomposing Transmission Map into Density and Depth,D4)模型是基于Cycle-GAN的無監(jiān)督學習中較為先進的網絡模型之一,模型中雙循環(huán)“增霧—去霧,去霧—增霧”網絡見圖1[12]。
D4網絡模型具有獨立分層結構:深度捕獲層、去霧層和精化層。將大氣散射模型加入去霧網絡層和深度捕獲層,通過去霧網絡得到針對密度系數的散射因子β;通過深度捕獲層得到dx,然后通過傳輸函數tx反推出散射因子β;得到β的閾值,分別代入式(2),篩選出更接近于真實圖像的預測圖像。精化網絡作為一個圖像縮放網絡,是以Efficientnet[13]為主體構建的CNN網絡,作用是將初步預測出的小尺度有霧圖像還原到與準確數據(GroundTruth)相同的尺度上。
1.3 Transformer機制
Transformer機制是深度學習常用的架構之一,最初應用于自然語言處理、語音識別等單一向量維度的學習算法中,替代處理序列數據常用的循環(huán)神經網絡(RNN),后與CNN相結合使其適用于數字圖像處理等領域[14],特點是通過自注意力機制和位置編碼來捕捉輸入序列中的長距離依賴關系。Transformer不受序列長度限制,在處理長序列數據時具有更高的效率和準確性,并能通過多頭自注意力機制和前饋神經網絡來提高模型的表達能力。
卷積神經網絡構建于輸入的局部連接上,通過不斷迭代,逐漸擴大感受野,而Transformer則具備全局交互機制,其有效感受野能夠迅速擴大[15]。對比DeepLabv3+和SegFormer的有效感受野[16]可以看出,相比于卷積神經網絡,Transformer網絡的有效感受野范圍具備明顯優(yōu)勢。雖然卷積核的尺寸可以設置為全圖大小,但會顯著增加參數的量,在圖像數據處理中的應用價值不大。DeepLabv3+和SegFormer在有效感受野上的可視化對比見圖2。
Transformer與CNN在連接范圍、權重動態(tài)性和位置表示能力等方面存在區(qū)別與聯系。CNN在處理長距離依賴關系時可能會受到限制,使其在復雜霧氣場景下的性能下降。Transformer模型以自注意力機制為基礎,能夠捕獲輸入序列中的全局依賴關系,在長距離依賴建模方面表現優(yōu)異。因此,Transformer所具備的長距離建模能力和并行計算能力可以應用于圖像去霧領域[17]。利用Swin-Transformer[18]將兩者相互融合,可以取長補短,充分發(fā)揮各自優(yōu)勢,該架構能將注意力限制在局部窗口內,進行顯式交互,并引入局部特征學習[19]以建模局部關系,可作為深度神經網絡的通用主干。
2 CT-Nets算法描述
CT-Nets在網絡框架的設計上采用類D4網絡模型,引入基于Swin-Transformer紋理深度還原機制的自增強精化(Self-Reinforced Refine,SR)層,替代D4中以Efficientnet為主體搭建的CNN網絡。該層網絡還融合了基于Swin-Transformer的適應性網絡框架,最終得到的SR層為接近真實無霧圖像預測并輸出的關鍵,發(fā)揮了視覺Transformer在特征學習、結果產生和真值分配等方面的優(yōu)勢。下面從模型描述、訓練過程和損失函數等方面詳細闡述CT-Nets算法。
2.1 模型描述
CT-Nets框架流程主體的網絡模型框架由D4網絡模型改進而成,屬于典型的類Cycle-GAN架構(圖3)。網絡可分為3個主要模塊:去霧層(Nd)、深度捕獲層(Ng)和自增強精化層(Nr)。所使用的數據集含真實無霧圖集合(Rc):A(x,β)∈Rc和真實有霧圖集合(Rh):B(z,β)∈Rh。
真實無霧循環(huán)分支如圖4所示,將真實無霧圖像Ax輸入深度捕獲層Ng,捕獲當前場景中的深度信息
AxNgA[dx,β-](3)
通過式(3)捕獲到當前輸入真實無霧圖像深度信息d,而β-為非固定閾值,通過調整β-值生成不同濃度的霧,結合均勻分布隨機采樣的散射因子,通過傳輸函數(公式(4))可以得到對應圖像的密度信息
tx=e-β-d(x)(4)
β-的取值是“增霧”關鍵參數,需要通過訓練得到,引入至式(5)得到偽增霧圖像(圖3(a)“FAKE HAZY”層),根據大氣散射模型(式(2)),令A-x=L∞1-et(x),得到完整增霧公式
Cx=Ax-A-tx+A-(5)
圖3(b)為“去霧—增霧”分支,該分支只調整了3個子網絡的排列順序,首先將真實霧像輸入到去霧層(Nd),得到初步去霧圖像,再將結果輸入深度捕獲層(Ng),捕獲當前偽無霧圖像場景中的密度和傳輸函數信息
Bx,βNgBtx︿,β-Bdx︿,β-(6)
通過式(6)得到當前偽無霧圖像密度和傳輸函數(β,-tx︿)參數信息后,同樣根據大氣散射模型(式(2))得到當前深度信息模型
dx︿=ln [tx︿]-β-(7)
結合式(6)、(7)得到當前圖像的深度圖,再結合訓練得到的散射因子β-,通過式(8)得到偽無霧圖像(圖3(b)“FAKE CLEAN”層),從而達到“去霧—增霧”的效果
Bx=CF-CLEANx︿e-β-d(x︿)+A1-e-β-d(x︿)(8)
圖5為基于Transformer的SR層,即提取密度和濃度信息后,分別通過去霧網絡層和深度捕獲層網絡得到初步處理后的圖像,SR層是處理后圖像進行超分的網絡,是得到接近真實圖像的重要步驟,因此采用基于Transformer精化層以及可學習的紋理提取器[20]。
在單圖像超分辨率[21]任務中,利用參考圖像進行超分辨率重建算法具有較高的泛化性,該算法中必須提取參考圖像的紋理,因為準確和適當的紋理信息有助于超分辨率圖像生成,并且參數將在端到端的訓練過程中更新,而不是使用通過預先訓練的分類模型提取的語義特征,從而得以捕獲更精確的紋理特征。紋理特征Q(query)、K(key)和V(value)表示Transformer內部注意力機制的3個基本元素:Qi=EqiXLR↑,Ki=EkiXRef,Vi=EviXRef。其中,XLR↑、LR↑和Ref分別表示輸入圖像、4倍“雙三次”上采樣輸入圖像和參考圖像,XLR↑代表先上采樣再提取特征,XRef代表參考圖像的像素信息。由于Ref圖像和LR圖像之間包含互補的尺度信息,將輸入圖像上采樣到參考圖像當中,可彌補Ref圖像和LR圖像之間的分辨率差距,保證輸入的小尺寸圖像和參考圖像尺度對應紋理關系穩(wěn)定匹配。CT-Nets算法利用數據集中初始的高分辨率干凈無霧輸入圖像作為此精化層中的參考圖像,不需要單獨訓練此網絡層的數據集。
為解決參考圖像中交換相關的紋理特征時出現匹配不當的問題,在訓練中引入對應匹配和相似性感知紋理傳遞(圖6)。首先將Qi和Ki分成若干patch,再計算兩個patch間的相似度,找到Ki中和Qi的塊最相似的位置。將Ref中對應位置的紋理特征遷移到LR中,并計算標注值,根據紋理特征對應關系大小分別賦予大或小的標注值,從而避免錯誤匹配對性能的影響。Alpi表示與對應第l個patch中特征量pi相關的注意力函數,ski表示從Ref圖像中獲取的Ki個紋理的權重系數,△pki表示第l個patch的Ki中對應的空間特征信息pki與pi的差值,pj表示對應patch中可學習的偏移量,mj表示對應patch中可學習掩碼,累加運算,得
Alpi=∑Kk=1ski∑Jj=1Vlpi+△pki+pjmj(9)
2.2 訓練過程和損失函數
訓練過程中,CT-Nets 3個網絡一起執(zhí)行“去霧—增霧”或“增霧—去霧”循環(huán)。采用循環(huán)一致性損失和對抗性訓練損失中的正則化懲罰項防止產生過擬合,通過偽散射系數監(jiān)督損失強化對密度和深度兩組物理特性的學習。循環(huán)一致性損失使兩組特性相互影響,相互利用。A、B分別表示去霧和加霧映射函數,x、x分別示有霧和無霧圖像的樣本信息,循環(huán)生成對抗周期穩(wěn)定性損失定義為
Lcyc=‖BAx-x‖+‖AB(x)-x‖(10)
針對去霧層(Nd),采取對抗性學習損失評估生成器所生成的圖像是否達到要求的真實度。該層引入最小二乘法生成對抗網絡[22](Least Squares Generative Adversarial Network,LS-GAN),利用其良好的穩(wěn)定性保證了預測結果的圖像質量。Ldisc表示判別器的損失函數;Lsac表示偽散射系數監(jiān)督損失,用以約束β-FH-r(在增霧—去霧循環(huán)分支中產生模糊的隨機抽樣散射系數)和β-FH(從生成的有霧圖像中估計的散射系數)的差值:Ladvdisc=[Dx-1]2+[Dx]2,Lsac=(β-FH-β-FH-r)2。
針對深度捕獲層(Ng),由于訓練集Bx中真實有霧圖像沒有直接輸入到深度捕獲層(Ng),導致無法直接獲取真實有霧圖像中地面真實散射系數。因此,采用交替隨機抽樣的散射系數和相應生成的模糊圖像來訓練所提出的去霧網絡:偽深度監(jiān)督損失,即采用從增霧后圖像預測的深度圖dx作為偽地面真實值,深度捕獲層(Ng)從離散的圖像Bx︿中估計深度圖dx︿對抗性損失定義為:Ldepth=‖dx︿-dx‖。
針對SR層,生成器生成的低分辨率增霧或去霧后圖像與初始輸入原始圖像作為訓練的數據集,與原始圖像的紋理分布一致,進而生成更加清晰、真實的紋理。采用重建損失函數:Lr=1CHW‖IHR-ISR‖,CHW分別表示高分辨率圖像的通道數、高、寬的尺度信息,IHR和ISR分別表示作為Groundtruth的高分辨率圖像和網絡生成的“偽高分辨率”圖像。利用λcyc、λadv和λsac平衡不同項的權重,可以得到:Ltotal=λcycLcyc+λadvLadv+λsacLsac。默認設置參數值分別為λcyc=λsac=1,λadv=0.2。
3 實驗驗證
3.1 真實場景下的對比實驗
實驗在Ubuntu18.04操作系統(tǒng)下運行,硬件為Intel(R)Core(TM) i7-8750H、16GB RAM、NVIDIA GTX1080 GPU,使用的編程語言和深度學習框架分別為python和pytorch。
考慮數據集的可采集性和嚴格配對性,通常采用室內數據集或室內、室外共同使用的數據集。但為還原出趨近于真實的圖像,并且在實際應用中,室內出現霧的可能性極低,比較室內人工合成霧圖像的去霧效果意義不大,因此所有的實驗均采用Google提供的戶外數據集SOT-outdoor。
對比算法有:FFA-Net[23]、HardGAN[24]、Cycle-dehaze[9]、D4[12]。Cycle-dehaze算法利用循環(huán)感知一致性損失思想和拉普拉斯金字塔模型改進和優(yōu)化了Cycle-GAN的基礎網絡模型,在端到端的去霧算法中具有較高的參考價值;D4網絡繼承了Cycle-dehaze的優(yōu)良特性并引入大氣光散射模型,通過對圖像進行霧濃度密度和像素深度分解,原出最接近真實場景下的參數信息,從而提升去霧能力(圖7)。
可知,Cycle-dehaze網絡未采用基于大氣散射模型的設計,預測結果中忽略了真實場景下的深度信息,導致出現對比度過高,顏色失真,預測結果與GroundTruth之間偏離比較大,細節(jié)損失較多的問題。藍色矩形框標注處,CT-Nets算法在細節(jié)上的去霧效果比其他算法更徹底、還原度更接近真實場景?;谄骄鵓SNR數值最高的3個算法各自預測結果折線見圖8。可以看出,CT-Nets算法預測圖像的PSNR值相對穩(wěn)定,在顏色還原、細節(jié)恢復等方面體現出了優(yōu)勢。
使用PSNR、結構相似性(SSIM)和色差公式[25](CIEDE2000)作為去霧算法的定量評估指標(表1)。PSNR和SSIM的數值越大表明去霧圖像的質量越高,CIEDE2000數值越小代表復原圖像的顏色失真程度越小。
相比于CNN模型生成的對抗網絡,CT-Nets算法得益于對有霧圖像和無霧圖像的深度及密度信息的有效提取,以及加入感受野較大的Transformer機制,圖像最終預測生成時,顏色、細節(jié)還原較好,在去霧效果的穩(wěn)定度和真實性上優(yōu)于以上其他去霧模型。
3.2 基于自建數據集的對比實驗
模型訓練時,基于監(jiān)督學習的去霧算法需要大量精密的配對數據集,目前通常在室內進行人工“增霧”,或者對室外無霧圖像進行霧氣合成。這樣雖然解決了數據集的規(guī)?;瘑栴},但與真實場景下的有霧、無霧圖像還有明顯差距,而通過3D引擎自帶的天氣系統(tǒng)構建配對數據是一種有效的解決方法。在預測階段的對比實驗中,采用了基于“AnvilNext3.5”3D引擎制作的大尺度高清配對數據集,有霧圖像通過最新的大規(guī)模場景渲染下3D引擎自帶天氣系統(tǒng)生成。
由于CT-Nets算法主要基于D4網絡中三大網絡層的基本框架結構,并在D4網絡的基礎上進行了優(yōu)化和改進,因此,選取其他4種具有代表性的無監(jiān)督算法進行效果對比。圖9中,CT-Nets算法可以有效消除對于帶有天空部分霧圖的預測缺陷。可以看出,D4網絡模型的預測結果中出現大量天空中不自然的涂抹痕跡,導致直觀感受較差。選取對比實驗中預測效果最好的3種算法的PSNR和SSIM繪制出對應對比曲線(圖10),可以看出CT-Nets算法在測試集的PSNR和SSIM量化結果上能保持較高的去霧能力和預測結果平穩(wěn)度。
3.3 消融實驗
為充分比較引入基于Swin-Transformer的SR層之后對于模型帶來的優(yōu)化效果,設計兩組對比實驗。
首先,在訓練過程中采用完全相同的數據集和硬件平臺,設置相同的參數:β1=0.9、β2=0.999、學習率Learning rate=0.001、迭代次數=1 500 000,記錄各自模型訓練的擬合時間。經實驗對比后,D4模型訓練時間為153.35 h,CT-Nets模型訓練時間為148.66 h,雖然理論上Transformer模型通常比EfficientNet更復雜,但從實驗結果中可知:模型在優(yōu)化之后,在訓練時間上和D4算法相比提高了近3.1%?;贑NN的網絡結構在處理視覺任務時需要在整個圖像上使用卷積操作,較深的網絡結構會影響計算效率。Swin-Transformer自身的分層結構和逐層的局部注意力機制使其更適用于需要全局信息的視覺任務,可以更好適應大規(guī)模數據集的訓練,在處理低分辨率圖像縮放的任務時,具備更好的拓展性。
在控制相同變量的條件下,兩種算法各自從去霧網絡輸出小尺度的初步去霧圖像后,分別輸入基于EfficientNet的CNN精化層網絡和基于Swin-Transformer的SR層的尺度效果對比(表2)??芍?,通過生成器合成的同尺度霧圖像和真實場景下的GroundTruth作損失比較,預測結果優(yōu)于原CNN模型。Swin-Transformer機制將圖像劃分為若干非重疊的塊,并在每個塊內執(zhí)行自注意力操作,該機制有別于需要較深網絡設計的CNN模型,能夠更高效地理解圖像中的局部和全局特征,提取多尺度信息。Swin-Transformer機制能夠更好地構建圖像各層級特征提取的準確度,有效避免輸入的小尺度圖像中噪聲影響。因此,得益于Swin-Transformer機制的全局性優(yōu)勢,CT-Nets在與EfficientNet模型接近的計算復雜度下,提升了圖像縮放效果。
4 結論
CT-Nets算法在D4網絡模型的基礎上改進了自增強不成對圖像去霧框架,利用大氣散射模型,提取每幅圖像的深度信息和散射系數特征值,盡可能多的還原不同場景下的真實霧厚度信息,在保證去霧后圖像觀賞性的同時還原更多的細粒度信息。將Transformer機制與CNN網絡融合后,不僅可以保證基于大規(guī)模數據集訓練的效率,也確保了預測圖像的真實感。相關實驗證明CT-Nets算法優(yōu)于其它相關去霧方法。后續(xù)可考慮進一步研究云霧分離和天空中云彩細節(jié)恢復困難問題。
參考文獻
[1]HE K, SUN J, TANG X. Single image haze removal using dark channel prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33(12): 2341-2353.
[2]FATTAL R. Dehazing using color-lines[J]. ACM Transactions on Graphics, 2014, 34(1): 1-14.
[3]REN W Q, LIU S, ZHANG H, et al. Single image dehazing via multi-scale convolutional neural networks[C]// 14th European Conference on Computer Vision. Amsterdam: Springer, 2016: 154-169.
[4]LI B, PENG X, WANG Z, et al. An all-in-one network for dehazing and beyond[DB/OL]. [2023-12-15]. https://arxiv.org/abs/1707.06543.
[5]劉萬軍, 程裕茜, 曲海成. 基于生成對抗網絡的圖像自增強去霧算法[J/OL]. 系統(tǒng)仿真學報: 1-14[2023-12-15]. https://doi.org/10.16182/j.issn1004731x.joss.22-1551.
[6]REN W, ZHOU L, CHEN J. Unsupervised single image dehazing with generative adversarial network[J]. Multimedia Systems, 2023, 29(5): 2923-2933.
[7]RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[8]ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]// IEEE International Conference on Computer Vision. Venice, 2017: 2223-2232.
[9]ENGIN D, GENC A, EKENEL H K. Cycle-dehaze: Enhanced cycleGAN for single image dehazing[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops. Salt Lake City, 2018: 938-946.
[10] KOSCHMIEDER H. Theorie der horizontalen Sichtweite[J]. Beitrage zur Physik der freien Atmosphare, 1924: 33-53.
[11] 王滿利, 陳冰冰, 張長森. 基于擴展大氣散射模型的低光照圖像增強算法[J]. 光子學報, 2023, 52(6): 226-243.
[12] YANG Y, WANG C Y, LIU R S, et al. Self-augmented unpaired image dehazing via density and depth decomposition[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, 2022: 2037-2046.
[13] TAN M, LE Q. Efficientnet: Rethinking model scaling for convolutional neural networks[DB/OL] [2023-12-15]. https://arxiv.org/abs/1905.11946
[14] 洪季芳. Transformer研究現狀綜述[J]. 信息系統(tǒng)工程, 2022(2): 125-128.
[15] KHAN S, NASEER M, HAYAT M, et al. Transformers in vision: A survey[J]. ACM Computing Surveys, 2022, 54(10s): 1-41.
[16] XIE E Z, WANG W H, YU Z D, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers[C]// 35th Conference on Neural Information Processing Systems (NeurIPS). Electr Network, 2021: 12077-12090.
[17] 張凱麗, 王安志, 熊婭維, 等. 基于Transformer的單幅圖像去霧算法綜述[J/OL]. 計算機科學與探索: 1-19[2023-12-15]. http://kns.cnki.net/kcms/detail/11.5602.TP.20231102.0938.002.html.
[18] LIANG J Y, CAO J Z, SUN G, et al. Swinir: Image restoration using swin transformer[C]// 18th IEEE/CVF International Conference on Computer Vision. Electr Network, 2021: 1833-1844.
[19] CAO J Z, LIANG J Y, ZHANG K, et al. Reference-based image super-resolution with deformable attention transformer[C]// 17th European Conference on Computer Vision. Tel Aviv, 2022: 325-342.
[20] YANG F Z, YANG H, FU J L, et al. Learning texture transformer network for image super-resolution[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, 2020: 5791-5800.
[21] LU Z S, LI J C, LIU H, et al. Efficient transformer for single image super-resolution[DB/OL] [2023-12-15]. https://arxiv.org/abs/2108.11084.
[22] MAO X D, LI Q, XIE H R, et al. Least squares generative adversarial networks[C]// IEEE International Conference on Computer Vision, 2017: 2794-2802.
[23] QIN X, WANG Z L, BAI Y C, et al. FFA-Net: Feature fusion attention network for single image dehazing[C]// 10th AAAI Conference on Artificial Intelligence. New York, 2020: 11908-11915.
[24] DENG Q L, HUANG Z L, TSAI C C, et al. Hardgan: A haze-aware representation distillation GAN for single image dehazing[C]// European Conference on Computer Vision. Cham: Springer, 2020: 722-738.
[25] SHARMA G, WU W C, DALAL E N. The CIEDE2000 color-difference formula: Implementation notes, supplementary test data, and mathematical observations[J]. Color Research & Application, 2010, 30(1): 21-30.
[26] QU Y Y, CHEN Y Z, HUANG J, et al. Enhanced pixzpix dehazing network[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 8160-8168.
[27] CHEN Z Y, WANG Y C, YANG Y, et al. PSD: Principled synthetic-to-real dehazing guided by physical priors[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Electr Network, 2021: 7180-7189.
[28] YANG X T, XU Z, LUO J B. Towards perceptual image dehazing by physics-based disentanglement and adversarial training[C]// 32nd AAAI Conference on Artificial Intelligence. New Orleans, 2018: 7485-7492.
[29] LI B Y, GOU Y B, GU S H, et al. You only look yourself: Unsupervised and untrained single image dehazing neural network[J]. International Journal of Computer Vision, 2021, 129: 1754-1767.
[30] ZHAO S Y, ZHANG L, SHEN Y, et al. RefineDNet: A weakly supervised refinement framework for single image dehazing[J]. IEEE Transactions on Image Processing, 2021, 30: 3391-3404.
Single Image Dehazing Algorithm Based on Cycle Generative Adversarial Networks and Transformer
WANG Bo1, WEI Wei-bo1, ZHANG Wei-dong1, PAN Zhen-kuan1, LI Ming2, LI Jin-han1
(1. College of Computer Science and Technology, Qingdao University, Qingdao 266071, China;
2. College of Computer Science and Technology, Ocean University of China, Qingdao 266100, China)
Abstract:
Aiming at the problem of overfitting in traditional dehazing algorithms trained on paired datasets, a non-paired image dehazing network model based on density and depth decomposition was improved with a self-enhancing scaling network. Introducing the Transformer mechanism and deeply integrating it with deep convolutional neural networks for network module deep fusion, a CT-Nets image dehazing algorithm based on cycle generative adversarial networks and Transformers trained on unpaired datasets was proposed. The depth information and scattering coefficient eigenvalues of the input image were extracted, and the atmospheric scattering model was used to restore the real fog concentration information in different scenes as much as possible to improve the subjective visual quality of the defogged image. Based on Swin-Transformer, a self-enhancing refinement layer to obtain finer-grained information was designed to improve the generalization ability of the model and the authenticity of the final predicted image. The experimental results show that compared to the dehazing via decomposing transmission map into density and depth network model, the peak signal-to-noise ratio and structural similarity of the CT-Nets image dehazing algorithm are improved by 4% and 4.1%, respectively.
Keywords:
deep learning; single image dehazing; self-supervised network; cycle generative adversarial