劉斌,方思嚴
基于不可分提升小波的雙U-Former圖像去雨網(wǎng)絡
劉斌,方思嚴*
(湖北大學 計算機與信息工程學院,武漢 430062)( ? 通信作者電子郵箱 fangsiyanfsy@163.com)
針對基于張量積小波的去雨方法無法捕獲所有方向的高頻雨紋的問題,提出基于不可分提升小波的雙U-Former網(wǎng)絡(DUFN)。首先,利用各向同性的不可分提升小波捕捉各個方向的高頻雨紋,相較于哈爾小波等張量積小波只能捕捉3個方向的高頻雨紋,DUFN能獲得更全面的雨紋信息;其次,在各尺度上串聯(lián)兩個由Transformer Block(TB)構成的U-Net,將淺層解碼器的語義特征傳遞到深層階段,并更徹底地去除雨紋;同時,使用尺度引導編碼器通過淺層各尺度信息引導編碼階段,并利用基于CBAM(Convolutional Block Attention Module)的門控融合模塊(GFM)使融合過程更專注于有雨區(qū)域。實驗結果表明,相較于先進方法SPDNet(Structure-Preserving Deraining Network),在Rain200H、Rain200L、Rain1200和Rain12這4個合成數(shù)據(jù)集上,DUFN的結構相似度(SSIM)平均提高了0.009 7,在Rain200H、Rain200L和Rain12這3個合成數(shù)據(jù)集上,DUFN的峰值信噪比(PSNR)平均提高了0.657 dB;在真實世界數(shù)據(jù)集SPA-Data上,相較于先進方法ECNetLL(Embedding Consistency Network+Layered Long short-term memory),DUFN的PSNR和SSIM分別提高了0.976 dB和0.003 1。驗證了DUFN可以通過增強捕捉高頻信息的能力提升去雨性能。
圖像去雨;不可分提升小波;多尺度;Transformer;尺度引導
雨天等惡劣天氣會造成圖像和視頻質量退化,尤其是常見的雨紋會影響計算機視覺處理算法的性能,造成目標檢測、語義分割等算法的可靠度和精確性下降。因此,研究圖像去雨網(wǎng)絡具有十分重要的意義。
現(xiàn)有的去雨方法主要分為基于視頻的方法[1-2]和基于圖像的方法?;谝曨l的方法[1-2]根據(jù)相鄰幀圖像之間的差異提取并去除雨紋,但是圖像去雨任務缺乏時空信息,只包含某一時刻的雨紋分布情況,去雨難度很大。
傳統(tǒng)的雨天模型由雨紋和背景組成,數(shù)學上可表示為:
其中:代表雨天圖像;代表干凈的背景圖像;代表雨紋圖像。
傳統(tǒng)的去雨方法主要通過探索先驗知識,利用雨紋的物理特征恢復無雨圖像。Kang等[3]通過稀疏編碼從高頻層中分離雨紋;Li等[4]利用高斯混合模型將雨紋從背景層中分離;Chen等[5]提出基于低秩表示的方法,通過利用低秩模型去除雨紋。
近年,許多基于深度學習的方法通過從人工合成的大量數(shù)據(jù)中學習復雜的模型用于去雨。如Fu等[6]較早地將深度學習用于圖像去雨,將雨天圖像通過導向濾波分解為低頻和高頻,對高頻部分使用卷積神經(jīng)網(wǎng)絡訓練;Fu等[7]又提出基于深度殘差結構的網(wǎng)絡,通過減少從輸入到輸出的映射范圍,使學習過程更容易;Li等[8]引入“雨嵌入一致性”思想,通過提高理想雨嵌入與編碼器導出雨嵌入之間的一致性提高去雨性能;Chen等[9]使用在大型數(shù)據(jù)集lmageNet上預訓練的Transformer恢復干凈圖像。
由于不同雨紋在形狀、尺寸和密度上各不相同,一些方法通過多尺度策略利用不同層次特征的信息提取雨紋。Li等[10]通過循環(huán)利用具有擴張因子的卷積核和擠壓激勵模塊消除密集雨紋。Jiang等[11]根據(jù)金字塔架構提出了一種多尺度漸進融合網(wǎng)絡,并使用注意力機制指導不同尺度信息的融合。Wang等[12]探索跨尺度方式和內部尺度融合方法,實現(xiàn)去雨目標。Wang等[13]用尺度引導方式探索了不同尺度之間的相關性。然而,目前大部分多尺度方法采用具有不同內核大小和步幅的池化操作獲取多尺度特征,這種方法雖然簡單但容易丟失信息。
小波多尺度分析在圖像處理領域被認為是較好的多尺度策略。SPDNet(Structure-Preserving Deraining Network)[14]等方法通過哈爾小波獲取多尺度特征,有助于減少采樣期間信息丟失并保留更多紋理細節(jié);但是哈爾小波等由一維小波形成的張量積小波只強調水平、垂直和對角線方向上的高頻,不具有各向同性。在真實場景中,雨紋在風或其他外力的作用下呈現(xiàn)的方向是隨機的,張量積小波只能捕獲3個方向上的高頻雨紋,忽略了其他方向的雨紋。具有各項同性的不可分提升小波[15]能捕捉各個方向的高頻雨紋。本文通過不可分提升小波實現(xiàn)多尺度策略,既有助于避免采樣過程中信息丟失的問題,還能捕獲各個方向的高頻雨紋。
U-Net[16]是目前廣泛使用的多尺度架構,已成功應用于語義分割等多個領域。較近的MCW-Net(Multi-level Connection and Wide regional non-local block Network)[17]、A2Net(Adjacent Aggregation Network)[18]等方法采用基于U-Net的主干架構去雨;但是傳統(tǒng)單U-Net的編碼?解碼模型和普通卷積模塊在處理復雜雨天圖像時容易遇到瓶頸,難以捕捉與背景相似的雨紋。DoubleU-Net[19]疊加組合兩個U-Net,在分割任務中取得了不錯效果。Uformer[20]將具有長距離依賴功能的Transformer嵌入U-Net,實現(xiàn)了高效圖像復原。因此,本文結合DoubleU-Net和Uformer的優(yōu)勢提出雙U-Former網(wǎng)絡(Dual U-Former Network, DUFN),多尺度串聯(lián)兩個由Transformer Block(TB)[21]構成的U-Net,在捕獲遠距離雨紋的同時讓淺層階段各尺度特征傳遞到深層階段,增強特征復用能力。DUFN利用基于CBAM(Convolutional Block Attention Module)[22]的門控融合模塊(Gated Fusion Module, GFM),在引導和融合階段根據(jù)特征的重要程度靈活調整來自不同特征圖的貢獻,使網(wǎng)絡專注于有雨區(qū)域,提高雨紋捕捉能力。此外,由于淺層階段含有豐富雨紋細節(jié)信息,受文獻[13]啟發(fā),本文設計了尺度引導編碼器,利用淺層編碼階段多尺度信息指導去雨,使淺層豐富的雨紋細節(jié)更容易被捕獲。本文在合成數(shù)據(jù)集、真實雨天數(shù)據(jù)集和聯(lián)合目標檢測任務中進行了廣泛實驗,結果表明DUFN優(yōu)于目前先進的方法。
二維不可分小波通過按行列同時進行的方式處理圖像,具有各向同性的特點,因此去雨時它能捕獲各個方向的雨紋,但是基于傅里葉變換理論和卷積運算構造的二維不可分小波計算量大。為節(jié)省計算資源,本文使用它的提升方式,即二維不可分提升小波,實現(xiàn)多尺度策略。它既可以較好地保留各向同性的特點,又能提高運算速度。同時,二維不可分提升小波在處理圖像時首先對像素點分類以實現(xiàn)分裂,其次把二維預測算子、更新算子或提升分解后的多相位矩陣作用于分裂后的子圖像,而不對圖像進行抽樣和插值,因此可以避免信息的丟失。
圖1 有理數(shù)濾波器組
圖2 預測算子和更新算子
傳統(tǒng)的第一代小波先使用設計的低通濾波器和高通濾波器對圖像卷積,再進行下2抽樣得到分解子圖;而重構算法是先對圖像上2插值,再使用低通濾波器和高通濾波器卷積?;诙嘞辔痪仃嚨奶嵘桨?,通過對分裂后的子集分別使用左下三角矩陣和右上三角矩陣進行連續(xù)作用,得到圖像的低頻和高頻部分,實現(xiàn)分解。該提升方案提高了圖像分解和重構的速度,節(jié)省了運算量。通過上述多相位矩陣對圖像分解和重構的過程如圖3所示,具體步驟如下。
其中和分別表示像素點的橫、縱坐標。
圖3 圖像的不可分提升小波分解與重構過程
圖4 不可分提升小波和哈爾小波的分解效果
如圖5所示,DUFN由兩個基于TB構成的U-Net通過多尺度串聯(lián)而成,主要分為淺層階段和深層階段。淺層階段負責去除圖像中簡單的雨紋,由尺度引導編碼器和淺層解碼器組成,尺度引導編碼器通過利用淺層多尺度信息引導編碼過程,使雨紋更容易被捕獲并保留細節(jié)特征;深層階段由串聯(lián)引導編碼器和深層解碼器組成,旨在利用淺層解碼器中豐富的語義信息去除結構更復雜的殘留雨紋。TB憑借遠程像素交互能力,可以捕捉更全面的雨紋信息。網(wǎng)絡中所有融合過程均使用門控融合模塊,以保留更多重要信息。
圖5 雙U-Former網(wǎng)絡
多尺度策略由如圖6所示的小波上下采樣實現(xiàn),不可分提升小波作為尺度變換的核心工具,可在減少信息丟失的同時捕獲各種方向的雨紋。
圖6 小波上采樣和小波下采樣
由于利用尺度的相關性引導去雨能取得更好的效果[13],且淺層網(wǎng)絡含有豐富的細節(jié)信息,因此本文設計了尺度引導編碼器,利用淺層多尺度信息以初步提取雨紋特征并保留更多細節(jié)信息。尺度引導編碼器由尺度引導分支和編碼分支組成。尺度引導分支先對圖像進行不可分提升小波變換(Non-separable Lifting Wavelet Transform, NLWT),再將得到的子圖拼接后通過卷積調整通道數(shù),以實現(xiàn)緊湊表示。該過程可表示為如下形式:
Transformer憑借出色的性能在眾多視覺任務中取得杰出表現(xiàn)。Zamir等[21]提出用于圖像恢復的Transformer Block,能在高分辨率圖像中捕獲遠程雨紋像素進行交互。如圖7所示,Transformer Block由多深度卷積(Depth-wise Convolution, DConv)頭部轉置注意力(Multi-Dconv head Transposed Attention, MDTA)模塊和門控Dconv前饋網(wǎng)絡(Gated-Dconv Feed-forward Network, GDFN)組成。MDTA通過聚合局部和非局部像素交互,能夠有效處理高分辨圖像;GDFN通過抑制無用信息,允許有用信息通過,使網(wǎng)絡更關注雨紋區(qū)域,產(chǎn)生高質量輸出。
其中:表示3×3深度卷積;GELU表示高斯誤差線性單元(Gaussian Error Linear Unit);LN表示層歸一化;表示逐元素乘法。
由于雨天圖像的不同通道所含信息量不同,不同像素上的雨紋分布也并不均勻,受文獻[24]啟發(fā),設計了基于CBAM[22]的門控融合模塊(GFM)。GFM使用通道注意力給不同通道分配不同權重,利用空間注意力根據(jù)像素的重要程度靈活調整相應貢獻,如圖8所示。
圖8 門控融合模塊
均方誤差(Mean Square Error, MSE)是圖像去雨任務中廣泛使用的損失函數(shù),但它沒有考慮邊緣、亮度等圖像局部特征,通常導致高頻細節(jié)模糊,而結構相似度(Structure SIMilarity, SSIM)損失[25]能很好地保留高頻細節(jié)。為保持全局結構的完整性和每個像素的相似性,本文采用MSE和SSIM作為損失函數(shù)。兩個損失函數(shù)用公式可以表示為:
通過結合均方誤差損失函數(shù)和SSIM損失函數(shù),本文總體損失函數(shù)可定義為:
1)合成數(shù)據(jù)集。本文在Rain200H[26]、Rain200L[26]、Rain1200[27]和Rain12[4]這4種廣泛使用的合成數(shù)據(jù)集上評估DUFN的性能。其中:Rain200H是合成大雨的數(shù)據(jù)集,Rain200L是合成小雨的數(shù)據(jù)集,Rain200H和Rain200L均包含1 800個用于訓練的圖像對和200個用于測試的圖像對;Rain1200由不同密度的雨天圖像組成,包含12 000張訓練對和1 200張測試對;Rain12包含12個圖像對,樣本數(shù)少不適合單獨訓練,本文使用在Rain200H上訓練的模型評估Rain12。消融實驗均在Rain200H數(shù)據(jù)集上進行。
2)真實世界數(shù)據(jù)集。本文使用兩個真實世界數(shù)據(jù)集評估DUFN的性能。SPA-Data[28]包含638 492張用于訓練的圖像對和1 000張用于測試的圖像對;Internet-Data[29]包含147張雨天圖像但缺乏干凈背景圖像。本文使用在Rain200H上訓練的權重值定性評估。
3)評估標準。本文使用兩個廣泛使用的指標:峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)[30]和結構相似度(SSIM)[25]作為合成數(shù)據(jù)集和真實世界SPA-Data的評估指標。由于Internet-Data的雨天圖像沒有相應的無雨背景圖,本文僅比較視覺效果。
3.3.1在合成數(shù)據(jù)集上的結果
本文與9種先進方法在4個合成數(shù)據(jù)集上進行比較,對比方法分別為RESCAN(REcurrent Squeeze-and-excitation Context Aggregation Net)[10]、PReNet(Progressive Recurrent Networks)[32]、SPANet(Spatial Attentive Network)[28]、BRN(Bilateral Recurrent Network)[33]、DCSFN(Deep Cross-Scale Fusion Network)[12]、RCDNet(Rain Convolutional Dictionary Network)[34]、EfDeRain (Efficient-Derain)[35]、SPDNet[14]、SSID-KD(Semi-Supervised Image Deraining using Knowledge Distillation)[36]。
表1展示了定量比較結果。在Rain200H、Rain200L和Rain12數(shù)據(jù)集上,DUFN的PSNR均優(yōu)于SPDNet,平均提升了0.657 dB;在Rain1200數(shù)據(jù)集上,略低于SPDNet,可能的原因是PSNR是基于像素點間誤差的評價指標,SPDNet所使用的殘差通道先驗會影響網(wǎng)絡的PSNR表現(xiàn),它在不同場景中的效果不同,能在Rain1200數(shù)據(jù)集中發(fā)揮出較好效果,但未能有效提升網(wǎng)絡的SSIM表現(xiàn);在4個數(shù)據(jù)集上,DUFN的SSIM均高于SPDNet,平均提升了0.009 7。綜合4個數(shù)據(jù)集上的結果,DUFN展現(xiàn)了最佳的去雨性能,表明DUFN能適應不同降雨條件,具有更好的魯棒性和去雨效果。
表1 不同方法在合成數(shù)據(jù)集上的定量比較結果
注:粗體表示性能最好,下劃線表示性能次優(yōu)。
圖9展示了在合成數(shù)據(jù)集上去雨的主觀效果,可以看出,使用RESCAN、PReNet、SPANet去雨后的圖像殘留了過多雨紋;EfDeRain在恢復高頻細節(jié)時容易導致過平滑現(xiàn)象;RCDNet、SPDNet、DCSFN容易殘留與背景相似的雨紋;SSID-KD和BRN難以恢復高頻邊緣部分,而DUFN能更充分地去除雨紋并恢復出更清晰的細節(jié)信息。
3.3.2在真實雨天的結果
為了驗證DUFN適用于真實雨天場景,與6種先進方法RESCAN、SPANet、RCDNet、EfDeRain、SPDNet和ECNetLL (Embedding Consistency Network+Layered Long short-term memory)[8]在SPA-Date上訓練后進行了定量和定性比較。結果如表2所示,DUFN的PSNR和SSIM比ECNetLL分別提高了0.976 dB和0.003 1,兩項指標仍然優(yōu)于其他對比方法,在真實雨天數(shù)據(jù)集中維持了最佳性能。
圖10展示了不同方法在SPA-Date上的視覺效果,可以觀察到,相較于其他對比方法,DUFN能更充分地去除雨紋并保留更完整的背景信息。
由于Internet-Data中沒有對應的干凈圖像,本文與9種先進方法使用在Rain200H上訓練的模型進行定性分析。如圖11所示,DCSFN和EfDeRain的去雨結果殘留了較多雨霧,RESCAN、PReNet、SPANet、BRN、RCDNet、SPDNet和SSID-KD雖然能有效去除雨紋,但容易造成背景模糊和高頻細節(jié)部分丟失,DUFN能在有效去除雨紋的同時恢復出更精細的高頻細節(jié)。
圖9 不同方法在合成數(shù)據(jù)集上的定性比較
表2 不同方法在真實雨天數(shù)據(jù)集SPA-Data上的定量比較
圖10 不同方法在真實雨天數(shù)據(jù)集SPA-Data上的定性比較
圖11 不同方法在真實雨天數(shù)據(jù)集Internet-Date上的定性比較
3.4.1多尺度策略的消融實驗
為驗證不可分提升小波實現(xiàn)多尺度策略能減少信息丟失并保留更多細節(jié),本文對比了其他兩種不同的多尺度策略。實驗1~3的設置和在Rain200H上的結果如表3所示。
視覺效果如圖12所示:采用不可分提升小波實現(xiàn)多尺度的采樣方式(實驗1)取得了最佳性能;實驗2恢復高頻時使局部泛黃,實驗3嚴重破壞了原有結構;而實驗1通過不可分提升小波進行采樣能減少信息丟失,保留更多細節(jié)。
表3 多尺度策略的消融實驗結果
注:DWT和IDWT分別表示使用哈爾小波作為基函數(shù)的離散小波變換(Discrete Wavelet Transform)及其逆變換。
3.4.2各模塊的消融實驗
本文將不同模塊進行多種組合,驗證網(wǎng)絡中所使用門控融合模塊、尺度引導和多尺度串聯(lián)的有效性。實驗4~7的設置和在Rain200H上的實驗結果如表4所示,其中,實驗7中使用1×1卷積和LeakyReLU(0.2)激活函數(shù)代替門控融合模塊。
表4 不同模塊的消融實驗結果
從表4可以看出,本文方法所用的每個子模塊都有助于提升網(wǎng)絡的性能,本文方法實現(xiàn)了最佳性能。視覺效果如圖12所示,實驗5恢復的圖像在高頻邊緣部分變得模糊并丟失了紋理細節(jié),實驗6~7出現(xiàn)了色彩失真,而本文方法不僅能有效去除雨紋,還能恢復更詳細的紋理細節(jié)。
圖12 消融實驗的視覺效果
為了驗證所提方法能增強高級視覺算法在雨天應用的性能,本文使用在Rain200H數(shù)據(jù)集上訓練的模型對COCO350數(shù)據(jù)集[11]進行去雨處理,再使用YOLOv5s[37]進行目標檢測。
表5展示了目標檢測性能的定量結果,其中mAP50表示交并比(Intersection over Union, IoU)取值為0.5時的平均精度均值(mean Average Percision, mAP),值越高,效果越好。由表5可以看出,DUFN展現(xiàn)了最佳的去雨性能,大幅提升了檢測準確度。視覺比較結果如圖13所示,雨紋大幅降低了目標檢測的準確度。本文方法生成的無雨圖像能恢復更多清晰場景和細節(jié)內容,使目標檢測算法識別出更多摩托車和行人目標,增強了目標檢測的性能。
表5 不同方法在COCO350數(shù)據(jù)集上聯(lián)合圖像去雨和目標檢測的比較結果 單位:%
圖13 不同方法在COCO350數(shù)據(jù)集上聯(lián)合圖像去雨和目標檢測的視覺效果
本文提出的雙U-Former網(wǎng)絡(DUFN)使用不可分提升小波變換實現(xiàn)多尺度策略,在避免信息丟失的同時捕獲各方向的雨紋。DUFN利用TB作為基本模塊增強網(wǎng)絡捕獲遠距離雨紋的能力。兩個基于TB構造的U-Net在各尺度進行串聯(lián),使淺層解碼器的語義信息充分傳遞到深層階段,加強對不同尺度雨紋的提取能力。其中尺度引導編碼器利用淺層各尺度特征對編碼過程進行引導,使捕獲到的雨紋位置更加準確。網(wǎng)絡中所有特征融合過程均使用基于CBAM的門控融合模塊進行,通過靈活調整不同特征的貢獻程度對各像素和通道進行加權強化。定量和定性實驗結果證明,本文方法在合成數(shù)據(jù)集和真實世界數(shù)據(jù)集以及應用于目標檢測的結果都優(yōu)于其他先進方法。本文方法的代碼地址為https://github.com/fashyon/DUFN。
由于不同頻域信息具有不同特點,即低頻包含更多背景結構和顏色信息,高頻包含更多細節(jié)信息,且雨紋更多存在于高頻中,如果U-Net能在不同頻域內學習,則能將圖像去雨任務分解為在多個頻域段進行的子任務,從而提高去雨效率。未來將結合頻域知識設計自監(jiān)督分頻網(wǎng)絡,在提高網(wǎng)絡性能的同時節(jié)省收集數(shù)據(jù)集的人工成本。
[1] LIU J, YANG W, YANG S, et al. Erase or fill? deep joint recurrent rain removal and reconstruction in videos[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 3233-3242.
[2] YANG W, LIU J, FENG J. Frame-consistent recurrent video deraining with dual-level flow[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 1661-1670.
[3] KANG L W, LIN C W, FU Y H. Automatic single-image-based rain streaks removal via image decomposition[J]. IEEE Transactions on Image Processing, 2012, 21(4): 1742-1755.
[4] LI Y, TAN R T, GUO X, et al. Rain streak removal using layer priors[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2736-2744.
[5] CHEN Y L, HSU C T. A generalized low-rank appearance model for spatio-temporally correlated rain streaks[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2013: 1968-1975.
[6] FU X, HUANG J, DING X, et al. Clearing the skies: a deep network architecture for single-image rain removal[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2944-2956.
[7] FU X, HUANG J, ZENG D, et al. Removing rain from single images via a deep detail network[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1715-1723.
[8] LI Y, MONNO Y, OKUTOMI M. Single image deraining network with rain embedding consistency and layered LSTM[C]// Proceedings of the 2022 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2022: 3957-3966.
[9] CHEN H, WANG Y, GUO T, et al. Pre-trained image processing transformer[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 12294-12305.
[10] LI X, WU J, LIN Z, et al. Recurrent squeeze-and-excitation context aggregation net for single image deraining[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 262-277.
[11] JIANG K, WANG Z, YI P, et al. Multi-scale progressive fusion network for single image deraining[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 8343-8352.
[12] WANG C, XING X, WU Y, et al. DCSFN: deep cross-scale fusion network for single image rain removal[C]// Proceedings of the 28th ACM International Conference on Multimedia. New York: ACM, 2020: 1643-1651.
[13] WANG C, ZHU H, FAN W, et al. Single image rain removal using recurrent scale-guide networks[J]. Neurocomputing, 2022, 467: 242-255.
[14] YI Q, LI J, DAI Q, et al. Structure-preserving deraining with residue channel prior guidance[C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2021: 4218-4227.
[15] LIU B, LIU W. The lifting factorization of 2D 4-channel nonseparable wavelet transforms[J]. Information Sciences, 2018, 456: 113-130.
[16] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Cham: Springer, 2015: 234-241.
[17] PARK Y, JEON M, LEE J, et al. MCW-Net: single image deraining with multi-level connections and wide regional non-local blocks[J]. Signal Processing: Image Communication, 2022, 105: No.116701.
[18] LIN H, JING C, HUANG Y, et al. A2Net: adjacent aggregation networks for image raindrop removal[J]. IEEE Access, 2020, 8: 60769-60779.
[19] JHA D, RIEGLER M A, JOHANSEN D, et al. DoubleU-Net: a deep convolutional neural network for medical image segmentation[C]// Proceedings of the IEEE 33rd International Symposium on Computer-Based Medical Systems. Piscataway: IEEE, 2020: 558-564.
[20] WANG Z, CUN X, BAO J, et al. Uformer: a general U-shaped Transformer for image restoration[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 17662-17672.
[21] ZAMIR S W, ARORA A, KHAN S, et al. Restormer: efficient Transformer for high-resolution image restoration[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 5718-5729.
[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[23] 劉斌,彭嘉雄. 基于四通道不可分加性小波的多光譜圖像融合[J]. 計算機學報, 2009, 32(2): 350-356.(LIU B, PENG J X. Fusion method of multi-spectral image and panchromatic image based on four channels non-sperable additive wavelets[J]. Chinese Journal of Computers, 2009, 32(2): 350-356.)
[24] QIN X, WANG Z, BAI Y, et al. FFA-Net: feature fusion attention network for single image dehazing[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 11908-11915.
[25] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[26] YANG W, TAN R T, FENG J, et al. Deep joint rain detection and removal from a single image[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1685-1694.
[27] ZHANG H, PATEL V M. Density-aware single image de-raining using a multi-stream dense network[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 695-704.
[28] WANG T, YANG X, XU K, et al. Spatial attentive single-image deraining with a high quality real rain dataset[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 12262-12271.
[29] WEI W, MENG D, ZHAO Q, et al. Semi-supervised transfer learning for image rain removal[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3872-3881.
[30] HUYNH-THU Q, GHANBARI M. Scope of validity of PSNR in image/video quality assessment[J]. Electronics Letters, 2008, 44(13): 800-801.
[31] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30) [2022-05-15].https://arxiv.org/pdf/1412.6980.pdf.
[32] REN D, ZUO W, HU Q, et al. Progressive image deraining networks: a better and simpler baseline[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3932-3941.
[33] REN D, SHANG W, ZHU P, et al. Single image deraining using bilateral recurrent network[J]. IEEE Transactions on Image Processing, 2020, 29: 6852-6863.
[34] WANG H, XIE Q, ZHAO Q, et al. A model-driven deep neural network for single image rain removal[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 3100-3109.
[35] GUO Q, SUN J, JUEFEI-XU F, et al. EfficientDeRain: learning pixel-wise dilation filtering for high-efficiency single-image deraining[C]// Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 1487-1495.
[36] CUI X, WANG C, REN D, et al. Semi-supervised image deraining using knowledge distillation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(12): 8327-8341.
[37] Ultralytics. YOLOv5[EB/OL]. [2022-04-25].https://github.com/ultralytics/yolov5.
Dual U-Former image deraining network based on non-separable lifting wavelet
LIU Bin, FANG Siyan*
(,,430062,)
Aiming at the problem that the deraining methods based on tensor product wavelet cannot capture high-frequency rain streaks in all directions, a Dual U-Former Network (DUFN) based on non-separable lifting wavelet was proposed. Firstly, the isotropic non-separable lifting wavelet was used to capture high-frequency rain streaks in all directions. In this way, compared with tensor product wavelets such as Haar wavelet, which can only capture high-frequency rain streaks in three directions, DUFN was able to obtain more comprehensive rain streak information. Secondly, two U-Nets composed of Transformer Blocks (TBs) were connected in series at various scales, so that the semantic features of the shallow decoder were transferred to the deep stage, and the rain streaks were removed more thoroughly. At the same time, the scale-guide encoder was used to guide the coding stage by using the information of various scales in the shallow layer, and Gated Fusion Module (GFM) based on CBAM (Convolutional Block Attention Module) was used to make the fusion process put more focus on the rain area. Experimental results on Rain200H, Rain200L, Rain1200 and Rain12 synthetic datasets show that the Structure SIMilarity (SSIM) of DUFN is improved by 0.009 7 on average compared to that of the advanced method SPDNet (Structure-Preserving Deraining Network). And on Rain200H, Rain200L and Rain12 synthetic datasets, the Peak Signal-to-Noise Ratio (PSNR) of DUFN is improved by 0.657 dB averagely. On real-world dataset SPA-Data, PSNR and SSIM of DUFN are improved by 0.976 dB and 0.003 1 respectively compared with those of the advanced method ECNetLL (Embedding Consistency Network+Layered Long short-term memory). The above verifies that DUFN can improve the rain removal performance by enhancing the ability to capture high-frequency information.
image deraining; non-separable lifting wavelet; multi-scale; Transformer; scale-guide
This work is partially supported by National Natural Science Foundation of China (61471160).
LIU Bin, born in 1963, Ph. D., professor. His research interests include image processing, deep learning, wavelet analysis and application.
FANG Siyan, born in 1998, M. S. candidate. His research interests include image deraining, computer vision, wavelet analysis.
1001-9081(2023)10-3251-09
10.11772/j.issn.1001-9081.2022091422
2022?09?26;
2023?01?06;
國家自然科學基金資助項目(61471160)。
劉斌(1963—),男,湖北紅安人,教授,博士,主要研究方向:圖像處理、深度學習、小波分析與應用; 方思嚴(1998—),男,湖北潛江人,碩士研究生,CCF會員,主要研究方向:圖像去雨、計算機視覺、小波分析。
TP391.4
A
2023?01?11。