牛玉貞 林曉鋒 許煌標 李悅洲 陳羽中
在極弱光、背光等環(huán)境下,拍攝圖像往往呈現(xiàn)低質(zhì)量,大幅降低如目標檢測、圖像分割等高層視覺任務(wù)的性能[1].因此,學(xué)者們提出低照度圖像增強技術(shù),旨在解決圖像存在的亮度不足、圖像噪聲、顏色偏差、細節(jié)模糊等問題[2],提升低照度圖像的可視性與質(zhì)量,一方面更符合人類視覺感知特性,另一方面為下游任務(wù)提供更有效的信息.然而,低照度圖像存在不同粒度的各類信息,而這些粒度往往內(nèi)嵌于不同尺度中難以獲得,因此低照度圖像增強仍極具挑戰(zhàn)性.
早期對低照度圖像增強的研究主要基于直方圖均衡化的方法[3-6]和基于Retinex理論的方法[7-10].基于直方圖均衡化的方法擴大圖像像素的動態(tài)范圍,提高圖像對比度,而基于Retinex理論的方法將低照度圖像分解成反射圖和光照圖,并對它們進行加權(quán)合成,提高圖像質(zhì)量.這兩類傳統(tǒng)方法主要依賴手工設(shè)計的映射函數(shù)、光照圖操作以及參數(shù)調(diào)整,研究往往受限于人工經(jīng)驗,缺乏數(shù)據(jù)驅(qū)動.
近年來,學(xué)者們提出許多基于深度學(xué)習(xí)方法.一些方法[11-12]將Retinex理論與深度學(xué)習(xí)結(jié)合,通過兩個子神經(jīng)網(wǎng)絡(luò)增強反射圖和光照圖.此類方法有效提高圖像亮度,但容易產(chǎn)生細節(jié)丟失、顏色不真實等問題.另一些方法[13-16]注重網(wǎng)絡(luò)架構(gòu)設(shè)計,設(shè)計生成器和判別器、神經(jīng)架構(gòu)搜索、特定曲線估計等各領(lǐng)域主流架構(gòu),實現(xiàn)低照度圖像增強,但缺乏對低照度圖像增強任務(wù)的特定應(yīng)用研究.
另外,學(xué)者們提出其它一些應(yīng)用于低照度圖像增強任務(wù)的基于Transformer的方法[17-18].這些方法將Transformer嵌入網(wǎng)絡(luò)架構(gòu)中,與網(wǎng)絡(luò)其它部分使用相同的針對低照度圖像單一任務(wù)的數(shù)據(jù)集進行訓(xùn)練,卻無法利用其它相關(guān)圖像復(fù)原和增強任務(wù),也無法有效提取多退化類型的失真特征.
相比以往的工作,本文發(fā)現(xiàn)低照度圖像中存在復(fù)雜的多尺度信息,如具有不同尺度大小的亮度、顏色、細節(jié)等信息塊,若使用單一尺度,則無法結(jié)合多個尺度的特征,不能全面提升圖像的亮度、顏色和細節(jié),而現(xiàn)有方法缺乏對多尺度信息的有效利用.Guo等[15]提出Zero-DCE(Zero-Reference Deep Curve Estimation),跳層連接高層特征和低層特征,這種隱式構(gòu)建多尺度特征的方式本質(zhì)上是拼接同一尺度下的多個層次特征.Zhang等[12]提出KinD(Kindling the Darkness),學(xué)習(xí)不同尺度的特征,但缺乏對各尺度的明確約束,限制高層特征或低層特征的有效利用,也帶來更大的模型訓(xùn)練難度.此外,低照度問題中往往存在復(fù)雜的多退化類型(如噪聲明顯、細節(jié)丟失、顏色退化、光照不足等),現(xiàn)有基于Transformer的方法僅針對圖像亮度和顏色進行提升,卻受限于單一任務(wù)特性和數(shù)據(jù)集規(guī)模較小,導(dǎo)致其網(wǎng)絡(luò)模型對多退化類型的復(fù)原能力較差.
因此,本文旨在對各尺度信息進行有效提取與融合,結(jié)合低照度圖像多尺度中的高層語義信息和低層細節(jié)信息,提高圖像增強質(zhì)量.具體來說,各層級特征都存在不同尺度大小的信息塊,并且這些多尺度信息塊之間往往存在聯(lián)系,如圖像整體場景由多個局部場景組成,全局信息可以對其各局部塊提供指導(dǎo).此外,為了應(yīng)對低照度圖像的多退化類型,本文設(shè)計基于Transformer的多任務(wù)綜合增強,旨在利用圖像全局信息進行初步整體優(yōu)化.
根據(jù)低照度圖像各層次特征對尺度的需求,本文提出結(jié)合全局和局部多尺度特征的低照度圖像增強架構(gòu),稱為基于Transformer的多尺度優(yōu)化低照度圖像增強網(wǎng)絡(luò)(Transformer-Based Multi-scale Optimiza-tion Network for Low-Light Image Enhancement, TMO).首先,對輸入的低照度圖像引入基于多任務(wù)預(yù)訓(xùn)練的Transformer,利用Transformer 的全局信息建模能力進行多任務(wù)增強,初步綜合解決低照度圖像的多退化類型問題.然后,通過多尺度卷積神經(jīng)網(wǎng)絡(luò),在三個不同尺度上提取和增強低照度圖像的各層級特征.尺度間設(shè)計多尺度特征融合模塊(Multi-scale Feature Fusion Module, MFFM),學(xué)習(xí)豐富的層級信息,便于不同尺度特征之間建立聯(lián)系.每個尺度中均通過自適應(yīng)增強模塊,自適應(yīng)地增強亮度和顏色并消除噪聲等干擾.
TMO能有效提升圖像質(zhì)量.在6個公共數(shù)據(jù)集上的實驗表明,TMO在客觀評價指標上表現(xiàn)較優(yōu),并且在不成對數(shù)據(jù)集上的實驗結(jié)果表明TMO具有較優(yōu)的泛化能力.此外,可視化增強結(jié)果圖像顯示TMO能夠較好地解決低照度圖像存在的多退化類型問題.
傳統(tǒng)的低照度圖像增強方法主要包括基于直方圖均衡化的方法和基于Retinex理論的方法.基于直方圖均衡化的方法通過擴展圖像的動態(tài)范圍以提高圖像對比度和亮度,達到改善圖像質(zhì)量的目的[19-20].Xu等[5]綜合對比度增強和白平衡,提出一個廣義均衡模型,性能良好.Lee等[21]利用2D直方圖的分層差異表示,擴大相鄰像素之間的灰度差異.基于Retinex理論的方法將圖像表示為反映物體本質(zhì)特征的反射分量R和取決于環(huán)境光特性的光照分量I的乘積.經(jīng)典算法有SSR(Single-Scale Retinex)[22]和MSR(Multiscale Retinex)[23].它們假設(shè)光照圖像是平滑的,這種情況下圖像在亮度變化大的邊緣會形成光暈.
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,一些方法[11-12,24]將Retinex理論與深度學(xué)習(xí)結(jié)合.歐嘉敏等[24]在估計光照圖和反射圖中添加去噪損失和顏色損失以進行優(yōu)化.此類方法假設(shè)反射圖為增強結(jié)果,可能導(dǎo)致細節(jié)丟失、色差嚴重的不真實的增強.其它一些基于深度學(xué)習(xí)的方法關(guān)注網(wǎng)絡(luò)架構(gòu)的設(shè)計.江澤濤等[25]采用生成對抗網(wǎng)絡(luò)學(xué)習(xí)從低照度圖像到正常照度圖像的特征映射.尚曉可等[26]使用多重注意力機制分階段增強圖像.這類方法直接將其它領(lǐng)域的主流模型運用到低照度任務(wù),缺乏對低照度圖像特性的關(guān)注.
之后,學(xué)者們陸續(xù)提出一些針對低照度圖像多退化類型問題的解決方法.1)用于顏色增強的方法.該類方法通過神經(jīng)網(wǎng)絡(luò)提取圖像的顏色特征,在實現(xiàn)低照度增強的同時重建圖像顏色.Kim等[27]提出RCTNet(Representative Color Transform Network),通過卷積神經(jīng)網(wǎng)絡(luò)提取全局和局部的代表顏色并轉(zhuǎn)換.Zhang等[28]提出DCC-Net,將低照度圖像分解成灰度圖和顏色直方圖分別處理.此類方法對圖像顏色重建具有較好效果,但對圖像其余特征缺乏關(guān)注,容易產(chǎn)生偽影和放大噪聲.2)用于噪聲去除的方法.江澤濤等[29]通過細節(jié)重構(gòu)模塊權(quán)衡去噪和去模糊.Wang等[30]設(shè)計兩個逐點式卷積神經(jīng)網(wǎng)絡(luò),分別模擬環(huán)境光和圖像噪聲的統(tǒng)計規(guī)律.這些方法通常加入高斯、泊松等噪聲合成數(shù)據(jù),去除噪聲時造成細節(jié)信息丟失,在特定數(shù)據(jù)集上效果良好,但現(xiàn)實世界中圖像噪聲各異,不滿足特定分布,模型泛化性較差.
盡管上述方法都能通過深層和淺層的網(wǎng)絡(luò)提取到低照度圖像的高層語義特征和低層細節(jié)特征,解決低照度圖像的常見問題,但由于單一尺度和感受野的限制,無法結(jié)合全局總覽和局部精細,不能從多角度處理各類問題.為此,本文提出TMO,能以多種感受野處理高低層特征,更全面地解決低照度圖像存在的多退化類型問題.
近年來,Transformer在自然語言處理領(lǐng)域的優(yōu)秀表現(xiàn)也引發(fā)學(xué)者將其用于計算機視覺任務(wù)的研究.Transformer本質(zhì)是一個編碼解碼器結(jié)構(gòu),用于計算機視覺任務(wù)時,要對原始圖像進行切塊,展平成序列,輸入編碼器處理后將結(jié)果輸入解碼器部分.Dosovitskiy等[31]提出ViT(Vision Transformer),展現(xiàn)Transformer在圖像處理上有效代替標準卷積的良好效果.隨后,Ji等[32]面向圖像描述任務(wù),提出考慮全局信息的GET(Global Enhanced Transformer).Carion等[33]提出DETR(Detection Transformer),首次使用Transformer處理目標檢測問題.Transformer在語義分割[34]和生成模型[35]上的應(yīng)用也顯示Transformer在多任務(wù)學(xué)習(xí)上的表現(xiàn)能力.
本文在使用基于圖像恢復(fù)和增強任務(wù)進行訓(xùn)練得到的預(yù)訓(xùn)練模型的基礎(chǔ)上,使用低照度圖像數(shù)據(jù)集進行遷移學(xué)習(xí),將得到的模型用于全局特征增強,初步解決低照度圖像的多場景問題.
注意力機制有助于網(wǎng)絡(luò)保留有用的信息特征,抑制價值低的信息特征,獲得更精確的結(jié)果.Hu等[36]提出SE(Squeeze-and-Excitation)Block,顯式建模通道之間的相互依賴關(guān)系,自適應(yīng)地調(diào)整對各通道的關(guān)注程度.Hou等[37]提出一種輕量級注意力機制,將通道注意力分解為沿著兩個不同方向聚合特征的一維特征編碼過程.Woo等[38]設(shè)計單路串行的CBAM(Convolutional Block Attention Module),串行連接通道注意力和空間注意力.陳曉雷等[39]加權(quán)融合平均池化和最大池化,簡化注意力模塊CBAM.
在圖像增強、圖像恢復(fù)等底層計算機視覺任務(wù)上,Hui等[40]針對圖像超分任務(wù),提出對比度感知的注意力算法.Li等[41]提出LPNet(Luminance-Aware Pyramid Network),在SE Block[2]中加入標準差計算,恢復(fù)低照度圖像的對比度.Lü等計算兩個注意力圖,分別指導(dǎo)低照度圖像的光照增強和去噪任務(wù).
與以往工作不同,本文提出雙路并行注意力模塊,結(jié)合批歸一化和空間注意力,減輕局部位置亮度或顏色的增強的不足或過度增強,并結(jié)合層歸一化和通道注意力,恢復(fù)顏色分布.
多尺度信息學(xué)習(xí)在計算機視覺中已得到廣泛應(yīng)用,由于能捕捉到細粒度的局部信息和粗粒度的全局信息,故表現(xiàn)出良好性能.Denton等[42]提出LAP-GAN(Laplacian Generative Adversarial Networks),將生成過程分為四個尺度逐步細化.Weng等[43]設(shè)計CDAN(Cascaded Deep Auto-Encoder Networks),用于人臉對齊,可實現(xiàn)較好的實時對齊功能.Li等[41]提出LPNet,采取從粗到細的策略,將網(wǎng)絡(luò)分為兩個粗粒度特征提取分支和一個細化分支.江澤濤等[29]使用尺度逐級減小的編碼器進行特征概率分別捕獲,應(yīng)用尺度逐級增大的解碼器進行全局重構(gòu),并采用大尺度的多個模塊進行細節(jié)重構(gòu).
相比以往工作,本文提出的多尺度架構(gòu)在全局分支和局部多尺度分支中設(shè)計不同的網(wǎng)絡(luò)架構(gòu),實現(xiàn)相應(yīng)的優(yōu)化.在全局分支中利用基于Transformer的多任務(wù)增強模塊,初步解決低照度圖像的多退化類型問題,在局部多尺度分支中,利用自適應(yīng)增強模塊,逐步優(yōu)化不同尺度的層級特征,并設(shè)計多尺度特征融合模塊,促進不同尺度的信息交換.
為了增強低照度圖像中不同尺度的顏色、光照、細節(jié)等高低層特征,本文根據(jù)各層次特征對尺度的需求,提出基于Transformer的多尺度優(yōu)化低照度圖像增強網(wǎng)絡(luò)(TMO).網(wǎng)絡(luò)整體架構(gòu)如圖1所示,由4個分支組成,包括全局分支B1和局部多尺度分支B2~B4.
圖1 TMO結(jié)構(gòu)圖Fig.1 Structure of TMO
首先,在全局和局部多尺度分支間設(shè)計多尺度特征融合模塊(MFFM),促進不同尺度之間的特征交換和信息交流.然后,在全局分支B1中設(shè)計基于Transformer的多任務(wù)增強模塊(Transformer-Based Multi-task Enhancement Module, TMEM),初步解決低照度圖像的多退化類型問題.在局部多尺度分支B2~B4中設(shè)計自適應(yīng)增強模塊,由小尺度到大尺度逐層進行增強,自適應(yīng)增強模塊由雙路并行注意力模塊(Two-Way Parallel Attention Module, TPAM)和LCCS(Local Color Correction Structure)[44]組成.全局分支處理的信息可以對各局部塊進行指導(dǎo):將全局分支處理后的特征逐層傳遞到各局部多尺度分支,具有全局信息的特征與當(dāng)前局部分支的特征拼接后,進入自適應(yīng)增強模塊進一步處理,再將處理后含有全局信息的特征傳至下一個分支.
本文設(shè)計TPAM,在每個尺度增強特征的表征能力,并配合LCCS自適應(yīng)校正顏色和光照強度,進一步去除噪聲.
(1)
其中,fBi(·)表示第Bi分支的操作,fB1(·)表示為TMEM,fBi(·),i=2,3,4表示自適應(yīng)增強模塊.
感受野在神經(jīng)網(wǎng)絡(luò)的設(shè)計中十分重要.一個大的感受野不僅能提供豐富的語義信息,而且能學(xué)習(xí)像素之間的遠程關(guān)系,小的感受野則更注重圖像的精細特征.為了同時提取低照度圖像的不同尺度的層級特征,本文采用多尺度感受野策略,兼具大感受野和小感受野的優(yōu)勢.然而,固定尺度特征的輸出與其它尺度特征的輸入幾乎沒有相關(guān)性,這阻礙每個尺度之間的信息流動,并削弱特征表示.
其中Conv1(·)表示步長為1的1×1卷積.
然后,由于融合前后特征的尺度不同,所以需要通過上采樣操作或步長為2的卷積操作t(Fi1,i2)將特征圖從第i1分支的尺度轉(zhuǎn)換成第i2分支的尺度,即
其中:Upsample2i2-i1(·)表示上采樣層,把特征圖的大小擴大2i2-i1倍;(Conv3)i1-i2(·)表示i1-i2個步長為2的3×3卷積.
對于低照度圖像增強存在的亮度不足、噪聲明顯、顏色偏差、細節(jié)模糊等多種退化問題綜合處理的難點在于:現(xiàn)有真實低照度圖像訓(xùn)練集的規(guī)模和多樣性無法令人滿意,并且不存在對特定問題的指向性[1].隨著深度學(xué)習(xí)的不斷發(fā)展,在多任務(wù)數(shù)據(jù)集上預(yù)訓(xùn)練得到的模型已顯示出比傳統(tǒng)方法更有效的特點[47].多任務(wù)預(yù)訓(xùn)練可以使用多領(lǐng)域數(shù)據(jù)集,不受真實低照度規(guī)模較小、多樣性較低的限制,表現(xiàn)出多方面的優(yōu)秀性能.近年來,這一巨大進步主要得益于Transformer及其變體架構(gòu)的特征表示能力.因此,本文使用基于Transformer在圖像恢復(fù)和增強等相關(guān)任務(wù)中得到的基于多任務(wù)學(xué)習(xí)的預(yù)訓(xùn)練模型——IPT(Image Processing Transformer)[17],并在其基礎(chǔ)上使用真實的低照度圖像數(shù)據(jù)集進行遷移學(xué)習(xí),得到一個特定于低照度圖像增強任務(wù)的基于Transformer的多任務(wù)增強模塊(TMEM).該模塊可同時具有調(diào)整亮度、色差、細節(jié)和去除噪聲等能力.TMEM結(jié)構(gòu)圖如圖2所示.
圖2 TMEM結(jié)構(gòu)圖Fig.2 Structure of TMEM
IPT由多頭結(jié)構(gòu)Hi(i=1,2,…,n)、身體部分B和尾部結(jié)構(gòu)Ei(i=1,2,…,n)組成,其中多頭結(jié)構(gòu)和多尾結(jié)構(gòu)為了適應(yīng)不同的任務(wù),任務(wù)和任務(wù)之間共享身體部分的參數(shù),不共享頭部和尾部的參數(shù).IPT只能接受特定尺寸的輸入圖像,即48×48,需將原始圖像裁切成若干個尺寸為48×48的圖像塊,依次輸入模型增強后進行拼接.IPT處理的任務(wù)包括去噪、去雨、超分辨率,相比這些任務(wù),本文研究的低照度圖像增強模型對不同圖像塊之間的相互關(guān)系的依賴性更強,不適合分塊的處理方式.因此,本文在最小尺度的特征上應(yīng)用TMEM,充分發(fā)揮Transformer在全局建模能力上的優(yōu)勢.
在IPT的基礎(chǔ)上,本文使用真實低照度圖像數(shù)據(jù)集對其進行遷移學(xué)習(xí),以便更適合于解決低照度圖像存在的多退化類型問題.首先,增加低照度圖像增強頭部Hl、低照度圖像增強尾部El,使用原身體部分的參數(shù),組成完整模型.低照度圖像經(jīng)過頭部提取圖像特征、身體部分恢復(fù)丟失信息、尾部特征映射后,得到增強圖像.由于模型身體部分能夠?qū)W習(xí)到圖像恢復(fù)和增強任務(wù)中普遍存在的圖像失真特征,而結(jié)合使用不同的去噪、去雨、超分辨率等多頭結(jié)構(gòu),能夠有效去除對應(yīng)的圖像失真信息,如在使用去噪對應(yīng)的頭結(jié)構(gòu)得到的結(jié)果圖像中噪聲被有效去除,因此將IPT的身體部分作為TMEM.
在全局分支B1上,經(jīng)過TMEM處理后,已初步解決低照度圖像的多退化類型問題.接下來,在局部多尺度分支B2~B4中設(shè)計自適應(yīng)增強模塊,由小尺度到大尺度逐層進行增強.自適應(yīng)增強模塊由雙路并行注意力模塊(TPAM)和LCCS[44]組成.TPAM在每個尺度增強特征的表征能力,并配合LCCS自適應(yīng)校正顏色和光照強度,進一步去除噪聲.
2.4.1 雙路并行注意力模塊
注意力機制和歸一化方法被廣泛應(yīng)用于計算機視覺任務(wù)中.注意力機制用于加強對不同通道或空間像素點的關(guān)注程度,歸一化方法用于減輕內(nèi)部協(xié)變量偏移[48],增大學(xué)習(xí)率,加快收斂速度.由于低照度圖像各局部位置往往亮度、顏色、噪聲等需要被處理的程度不同,無法使用統(tǒng)一的增強方式,因此需要使用空間注意力合理分配局部位置像素點的權(quán)重,實現(xiàn)自適應(yīng)增強.例如,對于亮度,同一幅圖像中某些區(qū)域的像素需要調(diào)亮,某些區(qū)域需要抑制,而某些區(qū)域需要維持.同時,低照度這種退化類型容易造成顏色分布的改變,而挖掘通道間的稀疏性和依賴關(guān)系對顏色表示學(xué)習(xí)很重要[49],因此需要使用通道注意力學(xué)習(xí)關(guān)鍵通道的信息以幫助顏色恢復(fù).本文提出雙路并行注意力模塊(TPAM),結(jié)合層歸一化和通道注意力,同時結(jié)合批歸一化和空間注意力,用于解決上述問題.TPAM結(jié)構(gòu)如圖3所示.輸入特征圖為當(dāng)前分支Bi(i=2,3,4)與上一分支Bi-1(i=2,3,4)的特征圖經(jīng)過式(1)的拼接操作和一個3×3卷積后得到的特征圖,記為Fatt.
圖3 TPAM結(jié)構(gòu)圖Fig.3 Structure of TPAM
層歸一化是對同一樣本內(nèi)的所有特征進行歸一化,層歸一化操作后,依舊保持樣本內(nèi)所有特征的依賴關(guān)系.本文結(jié)合層歸一化和通道注意力,一方面通過層歸一化保持特征間的依賴關(guān)系,另一方面通過通道注意力增大通道間的稀疏性,關(guān)注通道中的關(guān)鍵信息.具體地,首先依次經(jīng)過3×3卷積、層歸一化、ReLU激活函數(shù)、3×3卷積、層歸一化,得到特征圖F1.再使用全局平均池化和全局最大池化,得到具有通道特征平均水平和最高水平的兩個向量.由于低照度圖像增強是一種低層級計算機視覺任務(wù),可處理精細信息,更注重像素級的權(quán)重關(guān)注,因此,將特征圖F1分別與兩個向量相乘,將原本的一維向量擴充到三維,同時保證特征信息的保留和像素級別的關(guān)注.然后,使用1×1卷積、ReLU激活函數(shù)進行通道壓縮,經(jīng)過1×1卷積恢復(fù)通道維度,將特征圖相加,得到的特征圖具備通道特征的稀疏性和依賴關(guān)系.最后,使用sigmoid函數(shù)校準每個通道的權(quán)重,與輸入的特征圖Fatt相乘,得到具有通道關(guān)注的特征圖Fc.
批歸一化是對同個批次不同樣本的同個通道間進行歸一化,本文結(jié)合批歸一化和空間注意力,一方面通過空間注意力對空間中的每個像素點分配不同的學(xué)習(xí)權(quán)重,對低照度圖像不同位置的亮度、顏色、噪聲等給予不同的關(guān)注,減輕局部位置的不足或過度增強,另一方面通過批歸一化加速訓(xùn)練.具體地,首先依次經(jīng)過3×3卷積、批歸一化、ReLU激活函數(shù)、3×3卷積、批歸一化,得到特征圖F2.再使用通道維度的平均池化和最大池化,分別計算空間像素的平均水平和最高水平,得到兩個二維特征圖,將特征圖F2分別與兩個二維特征圖相乘,將二維擴充到三維,得到更適合低照度圖像增強這種精細任務(wù)的像素級別關(guān)注.然后,把兩個特征圖沿通道維度拼接,得到空間位置的像素權(quán)重.最后,使用1×1卷積恢復(fù)通道維度,使用sigmoid函數(shù)校準空間像素的權(quán)重,與輸入的特征圖Fatt相乘,得到具有空間關(guān)注的特征圖Fs.
Oatt=Fatt+Conv3(Concat(Fc,Fs))
,
其中,Fatt表示TPAM的輸入特征圖,Fc表示由通道注意力得到的特征圖,Fs為由空間注意力得到的特征圖.
2.4.2 局部校正模塊
本文采用LCCS[44]實現(xiàn)對特征圖中特征的調(diào)整.LCCS結(jié)構(gòu)如圖4所示.輸入特征圖為TPAM的輸出特征圖Oatt經(jīng)過1×1卷積和LeakyReLU激活函數(shù)后得到的特征圖.
圖4 LCCS結(jié)構(gòu)圖Fig.4 Structure of LCCS
首先,通過2×2的平均池化層降低特征圖的寬高尺度,使用2個1×1卷積、ReLU激活函數(shù)提取特征.
然后,利用1個1×1卷積進行通道壓縮,通過上采樣層達到與輸入特征圖相同的寬高尺度后,與輸入特征圖進行通道維度的拼接.
最后,使用SE Block[36]調(diào)整提取的特征圖.在LCCS之后,經(jīng)過殘差連接和1×1卷積,得到自適應(yīng)增強模塊的輸出特征圖.
低照度圖像增強的最終目標是要使網(wǎng)絡(luò)最終的增強結(jié)果Iout和標簽圖像G盡可能接近.本文使用多個尺度增強結(jié)果的加權(quán)損失,對每個分支的增強圖像與對應(yīng)尺度的標簽圖像G計算L1損失,同時從高低尺度逼近正常照度圖像,在有效利用特征的同時加速訓(xùn)練.損失函數(shù)如下:
Let U be the signal subspace matrix of covariance matrixSimilarly,there is a unique non-singularmatrix T,which satisfies
由于對3個分支的約束同等重要,因此本文沒有對λ1、λ2、λ3進行窮舉,默認3個權(quán)重均設(shè)為1時結(jié)果較好.
本文在成對公共數(shù)據(jù)集LOL[11]、SID[50]、SMID[51]上評估網(wǎng)絡(luò)的有效性,在不成對公共數(shù)據(jù)集MEF[52]、LIME[9]、VV(https://sites.google.com/
site/vonikakis/datasets)上驗證網(wǎng)絡(luò)的泛化能力.
LOL數(shù)據(jù)集為真實場景中拍攝的成對低照度圖像數(shù)據(jù)集,共500對低照度與對應(yīng)的正常照度圖像,包括485對訓(xùn)練圖像和15對測試圖像,每幅圖像大小均為400×600.SID數(shù)據(jù)集包含Sony和Fujifilm拍攝的5 094對RAW格式的低照度圖像和對應(yīng)的正常照度圖像,一幅正常照度圖像與多幅低照度圖像對應(yīng).本文使用Sony相機拍攝的子集,根據(jù)文獻[50]方法將RAW格式轉(zhuǎn)換為RGB格式,并劃分訓(xùn)練集和測試集.SMID數(shù)據(jù)集包含35 800對RAW格式的極弱光和其對應(yīng)的正常照度圖像,包括不同光照條件下的運動車輛和行人,本文同樣把它從RAW格式轉(zhuǎn)換為RGB格式,并按照文獻[53]劃分訓(xùn)練集和測試集.其中,SID、SMID數(shù)據(jù)集上圖像由于在極弱光條件下拍攝,噪聲比較嚴重,因此可以驗證本文網(wǎng)絡(luò)的去噪能力.
MEF、LIME、VV數(shù)據(jù)集為低照度圖像增強任務(wù)中常用的用于檢測泛化能力的不成對數(shù)據(jù)集.為了便于與以往工作對比,本文按照文獻[28]的做法,將3個數(shù)據(jù)集的圖像均調(diào)整為512×512.
在TMEM的遷移學(xué)習(xí)中,本文使用LSRW數(shù)據(jù)集[54].該數(shù)據(jù)集包含5 650對真實低照度圖像與其對應(yīng)的正常照度圖像.
本文實驗基于Pytorch框架,設(shè)置初始學(xué)習(xí)率為10-4,在P100 GPU上使用Adam(Adaptive Moment Estimation)優(yōu)化器訓(xùn)練模型,設(shè)置迭代次數(shù)為500.在訓(xùn)練中,對每幅低照度圖像進行3次隨機裁剪,裁剪成384×384,批次大小為4,并對訓(xùn)練數(shù)據(jù)進行水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、旋轉(zhuǎn)的數(shù)據(jù)增強以提高網(wǎng)絡(luò)的泛化能力.
為了客觀評估網(wǎng)絡(luò)的性能,在成對數(shù)據(jù)集LOL、SID、SMID中使用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)、結(jié)構(gòu)相似度(Structure Similarity Index Measure, SSIM)衡量增強結(jié)果和對應(yīng)的正常照度圖像之間內(nèi)容和結(jié)構(gòu)的相似度.較高的PSNR值表示網(wǎng)絡(luò)能夠抑制低照度圖像的噪聲并較好地調(diào)整光照.較高的SSIM值表示網(wǎng)絡(luò)較好地保留場景中物體的結(jié)構(gòu)和細節(jié).在MEF、LIME、VV這3個不成對數(shù)據(jù)集上使用NIQE(Natural Image Quality Evaluator)衡量增強結(jié)果的自然度,越低的NIQE值表示增強結(jié)果越真實.
為了評估網(wǎng)絡(luò)結(jié)構(gòu)各部分的有效性,在本節(jié)中,以TMO作為基線對多尺度結(jié)構(gòu)、核心模塊進行一系列消融實驗.
3.3.1 基于Transformer的多任務(wù)增強模塊有效性評估
基于Transformer的多任務(wù)增強模塊(TMEM)在TMO中是對全局特征進行初步增強的模塊,綜合地對亮度、細節(jié)進行增強.表1給出去掉TMEM和沒有使用低照度圖像數(shù)據(jù)集進行遷移學(xué)習(xí)的情況,可以看到,相比TMO,兩種情況下PSNR值分別下降0.874 dB,0.764 dB,SSIM值分別下降0.021,0.025.
表1 有無TMEM的消融實驗結(jié)果Table 1 Results of ablation experiment with or without TMEM
相應(yīng)地,圖5給出不同網(wǎng)絡(luò)結(jié)構(gòu)的增強效果對比.由圖可以觀察到,去掉TMEM的增強效果中明顯出現(xiàn)很多噪聲和偽影,也有較明顯的色差,而使用TMEM后增強結(jié)果中亮度、噪聲、細節(jié)方面明顯更優(yōu),這說明TMEM具備綜合增強低照度圖像的能力.
(a)不使用TPAM (b)TMO(a)Without TPAM
(c)不使用TMEM (d)TMO(c)Without TMEM
(e)不使用MFFM (f)TMO(e)Without MFFM圖5 不同網(wǎng)絡(luò)結(jié)構(gòu)的增強效果對比Fig.5 Enhancement result comparison of different network structures
為了進一步驗證本文使用TMEM的合理性,進行對比實驗,結(jié)果如表2所示.IPT[17]中的任務(wù)包括去噪、去雨和超分辨率重建,本文研究的低照度圖像增強與這些任務(wù)相比,對不同圖像塊之間相互關(guān)系的依賴性更強,如相同語義的區(qū)域通??缍鄠€48×48的圖像塊,不適合采取分塊的處理方式.因此TMO的輸入為整幅低照度圖像,先通過ResNet提取多尺度特征,然后在最小尺度的特征上應(yīng)用TMEM,充分發(fā)揮Transformer在全局建模能力上的優(yōu)勢.相比僅采用TMEM和圖像分塊輸入,TMO在保留全局分支B1和去除局部多尺度分支B2~B4時,PSNR和SSIM值分別提高4.710 dB和0.073.
表2 TMEM的消融實驗結(jié)果Table 2 Results of ablation experiments for TMEM
3.3.2 雙路并行注意力模塊有效性評估
為了驗證雙路并行注意力模塊(TPAM)的有效性,分別使用如下網(wǎng)絡(luò).
1)網(wǎng)絡(luò)1.不使用TPAM.
2)網(wǎng)絡(luò)2.TPAM替換為通道注意力和空間注意力單路串行(保持通道注意力和層歸一化、空間注意力和批歸一化配合使用).
3)網(wǎng)絡(luò)3.空間注意力和通道注意力都與層歸一化配合使用.
4)網(wǎng)絡(luò)4.空間注意力和通道注意力都與批歸一化配合使用.
4種結(jié)構(gòu)的消融實驗結(jié)果如表3所示.從表中可以看到,相比TMO,4種網(wǎng)絡(luò)的PSNR和SSIM值都有所下降,但網(wǎng)絡(luò)2的效果優(yōu)于網(wǎng)絡(luò)3和網(wǎng)絡(luò)4,這從客觀評估指標上說明通道注意力和層歸一化、空間注意力和批歸一化配合使用的有效性.因為通道注意力增大通道間的稀疏性,層歸一化保持每個通道內(nèi)特征間的依賴關(guān)系,而挖掘通道間的稀疏性和特征間的依賴關(guān)系對顏色表示學(xué)習(xí)很重要[48].空間注意力可以根據(jù)低照度圖像局部位置亮度、顏色、噪聲需要被處理的程度合理分配局部像素點的權(quán)重,而批歸一化基于同一批次內(nèi)特征的統(tǒng)計數(shù)據(jù)進行歸一化,使數(shù)據(jù)的分布更加穩(wěn)定.
表3 各網(wǎng)絡(luò)的消融實驗結(jié)果Table 3 Results of ablation experiment of different networks
從圖5可以看到,在不使用TPAM的情況下,對不同空間位置的光照和顏色采用同樣的增強力度,導(dǎo)致圖像中部分區(qū)域的偽影和曝光不足或過度曝光,同時也不能較好地處理噪聲,而TMO能較好地解決上述問題.
B4分支中不同模塊的輸出特征圖如圖6所示.
(a)低照度圖像 (b)增強圖像(a)Low-light image (b)Enhanced image
(c)標簽圖像 (d)MFFM輸出特征圖(c)Label image (d)Output feature map of MFFM
(e)TPAM輸出特征圖 (f)LCCS輸出特征圖(e)Output feature map of TPAM(f)Output feature map of LCCS圖6 B4分支中不同模塊的輸出特征圖Fig.6 Output feature maps of different modules in branch B4
由圖6也可以直觀地看到,TPAM的輸出特征圖明顯增強特征的表征能力,對每個像素點采用不同的關(guān)注程度,引入的LCCS可以進一步地對已得到的具有強表征能力的特征圖進行不同程度的顏色和亮度增強.這從主觀視覺效果中證實TPAM的批歸一化與空間注意力結(jié)合、層歸一化與通道注意力結(jié)合成為雙路并行注意力的有效性.
3.3.3 多尺度框架有效性評估
為了評估結(jié)合全局和局部多尺度架構(gòu)的有效性,本節(jié)構(gòu)建不同的多尺度框架,結(jié)果如表4(組合1~組合3、組合5)所示.
表4 不同分支數(shù)多尺度框架增強效果的客觀評價指標對比Table 4 Comparison of objective evaluation indicators of multi-scale framework enhancement result with different branch numbers
由表4可見,組合1網(wǎng)絡(luò)只保留全局分支B1,即經(jīng)過多尺度特征融合模塊(MFFM)和基于Transformer的多任務(wù)增強模塊(TMEM)處理后,直接經(jīng)過三次反卷積得到增強圖像,相比TMO,PSNR和SSIM值分別下降1.692 dB和0.095.組合2網(wǎng)絡(luò)只保留3個局部分支B2、B3、B4,相比TMO,PSNR和SSIM值分別下降0.699 dB和0.095.組合1網(wǎng)絡(luò)和組合2網(wǎng)絡(luò)與TMO的對比實驗說明,全局分支和局部多尺度分支對于低照度圖像增強都是必要的,二者能夠取得互補的作用.組合3網(wǎng)絡(luò)保留一個全局分支B1和一個局部分支B4,可以看到,雖然相比TMO,PSNR和SSIM值分別下降0.566 dB和0.007,但是相比組合1網(wǎng)絡(luò)和組合2網(wǎng)絡(luò)這種只保留全局分支或局部分支的結(jié)構(gòu),指標值均有所提升,進一步說明結(jié)合全局和局部多尺度架構(gòu)的有效性.
為了更直觀地說明本文提出的全局分支的初步增強效果和三個局部分支的逐步精細增強效果,給出4個分支的增強圖像,如圖7所示.由圖可以看到,全局分支的增強圖像已初步恢復(fù)光照、顏色、細節(jié)等信息,三個局部分支的細節(jié)紋理逐步清晰,顏色、亮度逐步協(xié)調(diào).B4分支增強圖像的光照、顏色、細節(jié)、紋理都達到最優(yōu)效果.
(a)B1 (b)B2
(c)B3 (d)B4圖7 四個分支的增強圖像Fig.7 Enhanced images of four branches
為了更好地平衡網(wǎng)絡(luò)性能和參數(shù),進一步構(gòu)建并實驗具有全局分支B1和不同局部分支數(shù)的多尺度框架,結(jié)果如表4(組合3~組合5)所示.組合4網(wǎng)絡(luò)保留全局分支B1和兩個局部分支B3、B4,相比組合3網(wǎng)絡(luò)保留全局分支B1和一個局部分支B4的結(jié)構(gòu),PSNR和SSIM值分別提升0.353 dB和0.003.組合5網(wǎng)絡(luò)(TMO)保留全局分支B1和三個局部分支B2、B3、B4,相比組合4網(wǎng)絡(luò),雖然性能進一步提升,但提升幅度減小.由于本文使用的主干網(wǎng)絡(luò)ResNet的特征提取部分包含4個尺度,這4個尺度在本文架構(gòu)中已全部使用,因此本文未嘗試繼續(xù)增加尺度數(shù)量.
總之,綜合考慮網(wǎng)絡(luò)性能、復(fù)雜度及主干網(wǎng)絡(luò)特點,本文選擇采用一個全局分支B1和三個局部分支B2、B3、B4的結(jié)構(gòu).
為了進一步探究三個局部分支的重要性,分析損失函數(shù)權(quán)重參數(shù)λ1、λ2、λ3的取值.首先,由于每個分支使用的損失函數(shù)相同,并且對每個分支的約束都很重要,因此本文沒有進行窮舉,默認λ1、λ2和λ3均設(shè)為1時結(jié)果較優(yōu).其次,也嘗試增大某一分支損失的權(quán)重,如表5所示,發(fā)現(xiàn)實際效果并不理想,這也驗證本文損失函數(shù)權(quán)重設(shè)置的合理性.
表5 損失函數(shù)權(quán)重參數(shù)取值不同時指標值對比Table 5 Indicator values comparison with different weighting parameters of loss function
本節(jié)進行對比實驗,選擇如下對比網(wǎng)絡(luò):Retinex-Net[11]、KinD[12]、RUAS(Retinex-Inspired Un-rolling with Architecture Search)[13]、EnlightenGAN[14]、Zero-DCE[15]、Zero-DCE++[16]、RCTNet[27]、DCC-Net[28]、文獻[30]網(wǎng)絡(luò)、LPNet[41]、文獻[50]網(wǎng)絡(luò)、MIRNet[55]、DRBN(Deep Recursive Band Network)[56]、KinD++[57]以及兩種最近針對低層計算機視覺任務(wù)提出的Transformer結(jié)構(gòu)(IPT[17]、Uformer[18]).
所有深度學(xué)習(xí)算法都使用推薦的參數(shù)設(shè)置和實現(xiàn)細節(jié)進行訓(xùn)練和測試,以便進行公平對比.
3.4.1 客觀評價指標
TMO和常見的低照度增強網(wǎng)絡(luò)在LOL、SID、SMID數(shù)據(jù)集上的客觀評價指標如表6和表7所示,表中給出的PSNR、SSIM指標都是在測試集上的平均值,黑體數(shù)字表示最優(yōu)值,斜體數(shù)字表示次優(yōu)值.
表6 不同網(wǎng)絡(luò)在LOL數(shù)據(jù)集上的客觀評價指標Table 6 Objective evaluation indicators of different networks on LOL dataset
表7 不同網(wǎng)絡(luò)在SID、SMID數(shù)據(jù)集上的客觀評價指標Table 7 Objective evaluation indicators of different networks on SID and SMID datasets
從表6和表7可以看到,TMO的PSNR值最高,說明在對比網(wǎng)絡(luò)中,TMO得到的增強圖像與標簽圖像最接近.TMO的SSIM值也最高,說明TMO得到的增強圖像能最好地恢復(fù)低照度圖像的整體結(jié)構(gòu).具體來說,相比表6和表7中次優(yōu)網(wǎng)絡(luò),TMO在LOL、SID、SMID測試集上的PSNR值分別獲得0.90 dB、0.75 dB、0.68 dB的提升,SSIM值分別獲得0.004、0.092、0.018的提升.因此,TMO在LOL、SID、SMID數(shù)據(jù)集上取得良好性能,并且優(yōu)于對比網(wǎng)絡(luò).
本節(jié)還在MEF、LIME、VV不成對數(shù)據(jù)集的不成對真實低照度圖像上驗證網(wǎng)絡(luò)的泛化能力.各網(wǎng)絡(luò)在MEF、LIME、VV數(shù)據(jù)集上的NIQE指標如表8所示,較低的NIQE值表示較優(yōu)的感知效果,表中黑體數(shù)字表示最優(yōu)值,斜體數(shù)字表示次優(yōu)值.由表可以看到,TMO在MEF、LIME、VV真實數(shù)據(jù)集上取得最好或具有競爭力的結(jié)果,說明TMO增強的結(jié)果具有較優(yōu)的感知效果.
表8 不同網(wǎng)絡(luò)在MEF,LIME,VV數(shù)據(jù)集上的NIQE指標Table 8 NIQE of different networks on MEF, LIME, and VV datasets
3.4.2 主觀視覺效果對比
首先,在LOL數(shù)據(jù)集上對比各網(wǎng)絡(luò)的視覺效果,具體如圖8所示.相比輸入圖像,所有網(wǎng)絡(luò)的增強結(jié)果都顯著提高對比度與亮度.具體而言,DRBN增強結(jié)果整體的自然度較好,但顏色飽和度整體較低,不能較好地恢復(fù)圖像的顏色.Retinex-Net增強結(jié)果在全圖中有明顯噪聲,尤其在玻璃上.KinD++較好地處理噪聲,但對整體的顏色和光照處理一致,導(dǎo)致部分區(qū)域欠曝,在燈牌處更明顯.IPT的增強結(jié)果中亮度恢復(fù)較好,但出現(xiàn)許多偽影.Uformer的增強結(jié)果中細節(jié)恢復(fù)較好,不存在偽影,但出現(xiàn)過度曝光的問題.
(a)低照度圖像(a)Low-light images
(b)標簽圖像(b)Label images
(c)DRBN
(d)KinD++
(e)Retinex-Net
(f)IPT
(g)Uformer
(h)TMO圖8 各網(wǎng)絡(luò)在LOL數(shù)據(jù)集上的視覺效果對比Fig.8 Visual effect comparison of different networks on LOL dataset
各網(wǎng)絡(luò)在SID、SMID數(shù)據(jù)集上視覺效果對比如圖9和圖10所示.由圖可以看到,Zero-DCE++的增強結(jié)果明顯放大低照度圖像的噪聲,KinD++存在明顯的色差,而TMO與標簽圖像更接近.相比其它網(wǎng)絡(luò),TMO綜合提升圖像質(zhì)量并校正色差、去除噪聲、保留豐富的細節(jié).
(a)低照度圖像(a)Low-light images
(b)標簽圖像(b)Label images
(c)KinD
(d)Zero-DCE++
(e)TMO圖9 各網(wǎng)絡(luò)在SID數(shù)據(jù)集上的視覺效果對比Fig.9 Visual effect comparison of different networks on SID dataset
(a)低照度圖像(a)Low-light images
(b)標簽圖像(b)Label images
(c)KinD
(d)Zero-DCE++
(e)TMO圖10 各網(wǎng)絡(luò)在SMID數(shù)據(jù)集上的視覺效果對比Fig.10 Visual effect comparison of different networks on SMID datasets
各網(wǎng)絡(luò)在MEF、LIME、VV不成對數(shù)據(jù)集上的視覺效果如圖11所示,相比輸入圖像,所有網(wǎng)絡(luò)均提高圖像的亮度.
(a)低照度圖像(a)Low-light images
(b)Retinex-Net
(c)KinD++
(d)Zero-DCE++
(e)EnlightenGAN
(f)TMO圖11 各網(wǎng)絡(luò)在不同數(shù)據(jù)集上的視覺效果對比Fig.11 Visual effect comparison of different networks on different datasets
具體而言,Zero-DCE++增強結(jié)果較為真實自然,但帶來過度曝光,從而失去很多細節(jié).Retinex-Net
和現(xiàn)實場景存在明顯的色差,導(dǎo)致不真實的增強.KinD++和EnlightenGAN較好地處理噪聲,但在整體上缺乏自然度和協(xié)調(diào)性.TMO進行真實的增強,增強結(jié)果中具備細節(jié)信息,成功恢復(fù)顏色并去除噪聲,由此驗證TMO的泛化能力.
本文提出基于Transformer的多尺度優(yōu)化低照度圖像增強網(wǎng)絡(luò)(TMO),針對現(xiàn)有方法僅采用單一尺度特征,無法提取和融合低照度圖像中多粒度層級信息的問題,設(shè)計結(jié)合全局和局部多尺度的低照度圖像增強網(wǎng)絡(luò).在全局特征上利用基于Trans-former的多任務(wù)增強模塊(TMEM)初步解決低照度圖像的多退化類型問題,在局部多尺度架構(gòu)中利用自適應(yīng)增強模塊在不同尺度中實現(xiàn)逐步優(yōu)化的高低層特征增強.此外,設(shè)計多尺度特征融合模塊(MFFM),進行尺度間的信息交互,融合不同尺度分支輸入特征的感受野.在成對和非成對數(shù)據(jù)集上的廣泛實驗驗證TMO的有效性和泛化能力.
本文使用的預(yù)訓(xùn)練Transformer在整體優(yōu)化全局信息的同時,也帶來較多的參數(shù)量.今后將考慮輕量化的結(jié)合Transformer和多尺度結(jié)構(gòu)的低照度圖像增強網(wǎng)絡(luò),在發(fā)揮兩者優(yōu)勢的同時避免耗費更多的資源.今后也將嘗試使用無監(jiān)督的訓(xùn)練策略,減少對成對訓(xùn)練數(shù)據(jù)集的需求,進一步提升網(wǎng)絡(luò)的泛化能力.