楊瑞君,秦晉京,程燕
(1.上海應(yīng)用技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,上海 201418;2.華東政法大學(xué)刑事法學(xué)院, 上海 201620)
圖像低照度增強(qiáng)(LLIE)一直是計(jì)算機(jī)底層視覺領(lǐng)域備受關(guān)注且具有挑戰(zhàn)性的研究課題之一。低照度圖像通常在弱光、夜間、逆光等照明不佳的場(chǎng)景下拍攝,相比于正常照度的圖像,它們普遍存在特征退化現(xiàn)象,不僅影響美學(xué)觀感,而且難以保證物體識(shí)別檢測(cè)、語義分割等視覺任務(wù)的精度。LLIE 技術(shù)可以通過對(duì)圖像質(zhì)量的改善來有效解決這些問題,因此,該技術(shù)在手機(jī)攝影、智能監(jiān)控、自動(dòng)駕駛等領(lǐng)域具有廣闊的應(yīng)用前景。
近年來,隨著深度學(xué)習(xí)理論的逐漸成熟,相關(guān)模型在LLIE 領(lǐng)域也開始占據(jù)主流?;谏疃葘W(xué)習(xí)的模型按照不同的學(xué)習(xí)策略主要分為4 類,即有監(jiān)督、半監(jiān)督、無監(jiān)督和零樣本學(xué)習(xí)。不同學(xué)習(xí)策略的劃分取決于模型損失函數(shù)對(duì)正常照度參考圖像的依賴程度。
基于有監(jiān)督學(xué)習(xí)的模型在訓(xùn)練過程中往往需要低照度輸入圖像和正常照度參考圖像之間完全配對(duì)的訓(xùn)練數(shù)據(jù)集,通過約束模型輸出與參考圖像間的特征距離來引導(dǎo)模型訓(xùn)練。在基于有監(jiān)督學(xué)習(xí)的相關(guān)工作中:LLNet[1]利用對(duì)稀疏去噪編碼器的疊加實(shí)現(xiàn)了端到端的增強(qiáng);MBLLEN[2]通過將網(wǎng)絡(luò)分解為特征提取、特征增強(qiáng)和特征融合模塊,實(shí)現(xiàn)了更好的增強(qiáng)性能;Retinex-Net[3]結(jié)合了傳統(tǒng)Retinex 理論[4],學(xué)習(xí)低照度圖像與正常光照?qǐng)D像之間反射分量和照明分量的對(duì)應(yīng)關(guān)系并以此對(duì)低照度圖像進(jìn)行重構(gòu);KinD[5]充分考慮不同程度和形式的退化問題,將模型分為圖層分解、反射率恢復(fù)和光照度調(diào)整3 個(gè)子網(wǎng)絡(luò),并且允許用戶自定義地設(shè)置光照增強(qiáng)程度??傮w而言,有監(jiān)督學(xué)習(xí)的模型設(shè)計(jì)難度較低,且訓(xùn)練過程較為穩(wěn)定。
然而,由于當(dāng)前針對(duì)LLIE 的完全配對(duì)數(shù)據(jù)集獲取難度較大,樣本數(shù)量往往不多或嚴(yán)重依賴于人工合成,因此它們對(duì)于現(xiàn)實(shí)世界很難有較為客觀的反映,對(duì)有監(jiān)督學(xué)習(xí)模型的實(shí)際訓(xùn)練效果形成了制約。為了解決這一問題,越來越多的無監(jiān)督和零樣本學(xué)習(xí)模型被提出。與有監(jiān)督學(xué)習(xí)相比,基于無監(jiān)督學(xué)習(xí)的模型在訓(xùn)練過程中只需要隨機(jī)非配對(duì)的正常照度參考圖像,如EnlightenGAN[6]利用生成對(duì)抗網(wǎng)絡(luò)(GAN)產(chǎn)生對(duì)抗損失來實(shí)現(xiàn)無監(jiān)督學(xué)習(xí)過程,同時(shí)利用自正則化注意力機(jī)制給圖像中的較暗區(qū)域賦予更高權(quán)值,進(jìn)一步提高了增強(qiáng)效果?;诹銟颖緦W(xué)習(xí)的模型在訓(xùn)練過程中則不需要任何參考圖像,如Zero-DCE[7]提出一個(gè)無參考的綜合性損失函數(shù),并將學(xué)習(xí)過程簡(jiǎn)化為估計(jì)圖像的高階亮度曲線。隨后,Zero-DCE++[8]利用深度可分離卷積和優(yōu)化的曲線學(xué)習(xí)過程,使得模型更加快速和輕量化。RUAS[9]受到Retinex 理論的啟發(fā),提出一種合作的雙層搜索策略,在無參考條件下發(fā)現(xiàn)低照度增強(qiáng)任務(wù)所需的光照估計(jì)和噪聲去除架構(gòu)。URetinex-Net[10]隱式學(xué)習(xí)低照度圖像的先驗(yàn)知識(shí),然后擬合先驗(yàn)知識(shí)的展開優(yōu)化模塊,同時(shí)實(shí)現(xiàn)了噪聲抑制和照度增強(qiáng)。總體而言,無監(jiān)督和零樣本學(xué)習(xí)的模型訓(xùn)練過程較為靈活,不容易受到數(shù)據(jù)集的制約,普遍具有更強(qiáng)的遷移泛化能力。
除此之外,也有研究人員同時(shí)利用有監(jiān)督和無監(jiān)督學(xué)習(xí)的優(yōu)勢(shì),提出基于半監(jiān)督學(xué)習(xí)的增強(qiáng)模型,如DRBN[11]首先在有監(jiān)督學(xué)習(xí)下恢復(fù)增強(qiáng)圖像的線性波段表示,然后基于無監(jiān)督對(duì)抗學(xué)習(xí)的方式對(duì)這些波段進(jìn)行重組,獲得了改進(jìn)的波段從而實(shí)現(xiàn)了增強(qiáng)圖像的高保真。然而,該模型依然依賴于配對(duì)數(shù)據(jù)集。
雖然上述研究普遍取得了有效的增強(qiáng)效果,但是仍有以下不足:1)自然場(chǎng)景下的低照度圖像包括夜景、逆光等多種不同形式,現(xiàn)有模型往往欠缺對(duì)這一問題的綜合考量;2)圖像的光照特征容易與圖像的紋理色彩等特征產(chǎn)生糾纏,現(xiàn)有模型在增強(qiáng)的過程中往往不可避免地造成了圖像原有特征的丟失或扭曲,同時(shí)還容易引入額外的噪聲。
本文利用無監(jiān)督學(xué)習(xí)的策略,基于生成對(duì)抗網(wǎng)絡(luò),提出一種移位窗口自注意力機(jī)制和卷積相結(jié)合的低照度增強(qiáng)模型LSC-GAN。在生成器網(wǎng)絡(luò)中,利用光照一致性損失構(gòu)建全局-局部照明學(xué)習(xí)(GLIE)模塊,專注于對(duì)光照有關(guān)特征的學(xué)習(xí)。通過原圖特征保留塊(OFR-Block)將GLIE 的輸出特征與原圖的淺層特征相融合并進(jìn)行通道注意力加強(qiáng),以更好地兼顧光照增強(qiáng)和原圖特征保留,同時(shí)抑制噪聲。在GLIE 內(nèi)部通過引入移位窗口自注意力機(jī)制和多尺度空洞卷積,加強(qiáng)對(duì)全局特征的場(chǎng)景級(jí)學(xué)習(xí)同時(shí)保證光照的局部平滑特性。此外,引入對(duì)抗損失實(shí)現(xiàn)對(duì)照度增強(qiáng)效果的監(jiān)督,引入感知損失和像素?fù)p失實(shí)現(xiàn)對(duì)原圖特征保留的監(jiān)督。
生成對(duì)抗網(wǎng)絡(luò)[12]是一個(gè)強(qiáng)大的模型范式,廣泛應(yīng)用于圖像增強(qiáng)和生成類任務(wù)。具體而言,生成對(duì)抗網(wǎng)絡(luò)是通過生成器和判別器相互博弈的過程,促使生成器的生成結(jié)果越來越接近真實(shí)圖片的分布,最終使得判別器無法辨別生成器生成的假圖片和真實(shí)圖片。生成對(duì)抗網(wǎng)絡(luò)優(yōu)化過程的目標(biāo)函數(shù)為:
其中:V表示生成器G和判別器D的最終優(yōu)化目標(biāo);E 表示數(shù)學(xué)期望;x表示真實(shí)數(shù)據(jù)來源;z表示生成器網(wǎng)絡(luò)的輸入;G(z)表示經(jīng)過生成器G得到的生成數(shù)據(jù);D表示判別器產(chǎn)生的對(duì)抗損失。
生成對(duì)抗網(wǎng)絡(luò)在低照度增強(qiáng)及其聯(lián)合任務(wù)中應(yīng)用十分多樣化,除上文提到的EnlightenGAN[6]采用生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)無監(jiān)督學(xué)習(xí)外,還有如ARD-GAN[13]利用DnCNN 去噪網(wǎng)絡(luò)構(gòu)建判別器,實(shí)現(xiàn)了圖像的降噪功能。一種基于局部生成對(duì)抗網(wǎng)絡(luò)的水下低照度增強(qiáng)模型[14]利用局部判別器,同時(shí)計(jì)算生成器輸出圖像與正常照度圖像之間的回歸損失和分類損失,促進(jìn)生成器生成局部更加真實(shí)的圖像。與EnlightenGAN類似,本文提出的LSC-GAN 也是通過生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)無監(jiān)督學(xué)習(xí),同時(shí)在模型結(jié)構(gòu)和損失函數(shù)上進(jìn)行改進(jìn),以實(shí)現(xiàn)更好的原圖特征保留效果。
移位窗口自注意力機(jī)制(Swin Transformer)[15]是一種用于計(jì)算機(jī)視覺領(lǐng)域的Transformer技術(shù),其基本結(jié)構(gòu)是一個(gè)集成化的模塊,通過將圖像劃分為不同的窗口來分別計(jì)算自注意力,然后利用移位策略實(shí)現(xiàn)不同窗口的特征交互,可以在有限的計(jì)算成本下實(shí)現(xiàn)對(duì)圖像全局信息的建模。
如圖1 所示,Swin Transformer 模塊由正則化層(LN)、窗口多頭自注意力(W-MSA)、移位窗口多頭自注意力(SW-MSA)、多層感知機(jī)(MLP)和殘差連接組成。其中,LN 的主要作用是進(jìn)行批量正則化,對(duì)輸入數(shù)據(jù)進(jìn)行歸一化處理,從而保證輸入層數(shù)據(jù)分布的規(guī)則性。W-MSA 和SW-MSA 分別在原窗口和移位窗口內(nèi)進(jìn)行自注意力計(jì)算,該計(jì)算可表示為:
圖1 移位窗口自注意力塊的基本結(jié)構(gòu)Fig.1 Basic structure of Swin Transformer block
其中:Q代表查詢矩陣;K代表鍵矩陣;V代表值矩陣;d代表查詢矩陣或鍵矩陣的維度;B代表位置矩陣;Softmax 表示激活函數(shù)。通過自注意力的計(jì)算,可以得到參與運(yùn)算的每個(gè)像素之間的相互關(guān)系,從而實(shí)現(xiàn)全局感知。此外,查詢矩陣Q還可以做線性變換,得到多個(gè)查詢以捕獲多頭自注意力,從而使得圖像特征提取更加多樣。在本文提出的LSC-GAN 中利用該機(jī)制實(shí)現(xiàn)GLIE 中的全局場(chǎng)景級(jí)特征學(xué)習(xí)。
LSC-GAN 整體由生成器和判別器部分構(gòu)成,其中:生成器網(wǎng)絡(luò)主要由淺層特征提取、GLIE 和OFRBlock 構(gòu)成,在測(cè)試階段獨(dú)立完成低照度增強(qiáng)任務(wù);判別器網(wǎng)絡(luò)引入基于全局和局部特征提取的相對(duì)判別器[7],在訓(xùn)練階段通過非配對(duì)的正常照度參考圖像產(chǎn)生對(duì)抗損失從而指導(dǎo)生成器學(xué)習(xí),以構(gòu)建無監(jiān)督學(xué)習(xí)過程。
根據(jù)Retinex 理論,圖像由照明分量和反射分量組成,其中反射分量反映物體的固有屬性,不隨照明條件的變化而變化,人眼對(duì)于圖片的觀察效果取決于照明分量和反射分量之積,這個(gè)過程可表示為:
其中:I(x,y)表示原圖;R(x,y)表示反射分量;L(x,y)表示照明分量。
在低照度圖像中L(x,y)較小,從而導(dǎo)致圖像整體觀感不佳,該理論側(cè)面反映了光照特征的相對(duì)獨(dú)立性,因此,低照度增強(qiáng)任務(wù)在理想狀態(tài)下無須對(duì)光照無關(guān)特征進(jìn)行學(xué)習(xí),然而,如何區(qū)分光照有關(guān)特征和無關(guān)特征是一個(gè)具有挑戰(zhàn)性的難題。為解決這一問題并提高對(duì)抗訓(xùn)練的穩(wěn)定性,本文模型采用類似于在線蒸餾思想[16]中學(xué)生網(wǎng)絡(luò)通過教師網(wǎng)絡(luò)的輸出信息進(jìn)行優(yōu)化的方式。在在線蒸餾中,較為輕量的學(xué)生網(wǎng)絡(luò)通過與體量較大的教師網(wǎng)絡(luò)之間建立損失函數(shù)的約束,進(jìn)而由教師網(wǎng)絡(luò)指導(dǎo)學(xué)生網(wǎng)絡(luò)優(yōu)化自身權(quán)值,達(dá)到訓(xùn)練學(xué)生網(wǎng)絡(luò)的目的,最終,采用輕量的學(xué)生網(wǎng)絡(luò)代替教師網(wǎng)絡(luò)從而實(shí)現(xiàn)模型壓縮的效果。在本文模型中,如圖2 所示,先將原始低照度圖像通過標(biāo)準(zhǔn)3×3 卷積進(jìn)行淺層特征提取,其中一條分支進(jìn)入GLIE,得到照明輸出圖,通過損失函數(shù)約束照明輸出圖和生成器最終輸出圖之間灰度圖像素值的一致性,將該損失函數(shù)命名為光照一致性損失。光照一致性損失使得GLIE 更加專注于對(duì)光照有關(guān)特征的學(xué)習(xí),而與光照增強(qiáng)無關(guān)的特征則通過跨層連接繞過GLIE,從而更好地平衡照度增強(qiáng)和原圖特征保留之間的關(guān)系。與在線蒸餾不同的是,由于GLIE獨(dú)立照明輸出的主要目的在于光照特征分離而不是模型壓縮,其本身的特征提取并不完整,因此,不作為一個(gè)獨(dú)立的學(xué)生網(wǎng)絡(luò),而是將輸出的特征層與光照增強(qiáng)無關(guān)的淺層特征層在OFR-Block 中進(jìn)行融合加強(qiáng),得到生成器的最終輸出。對(duì)光照無關(guān)淺層特征直接融合的優(yōu)勢(shì)在于:一方面降低生成器最終輸出對(duì)自然圖像的擬合難度,同時(shí)減少對(duì)GLIE 的過度依賴,提高對(duì)抗學(xué)習(xí)的穩(wěn)定性;另一方面不對(duì)GLIE的輸出進(jìn)行像素級(jí)的嚴(yán)格約束,可以提高GLIE 訓(xùn)練的靈活性,減少潛在的過擬合風(fēng)險(xiǎn)。
圖2 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Generator network structure
如圖2 所示,GLIE 的主體分別由全局特征提取網(wǎng)絡(luò)(GIE-Net)和局部特征聚合塊(LIE-Block)組成,為有效利用平均池化和最大池化在提取全局和局部特征方面的優(yōu)勢(shì),同時(shí)提高模型的抗過擬合能力,分別在GIE-Net 和LIE-Block 之前進(jìn)行一次自適應(yīng)平均池化和最大池化。自適應(yīng)過程可以將不同輸入尺寸的圖像變換到固定尺寸,對(duì)于移位窗口自注意力塊而言,固定的輸入尺寸是有必要的。在此之后,通過GIE-Net 和LIE-Block 完成特征提取并對(duì)兩者進(jìn)行相加,經(jīng)自適應(yīng)上采樣后恢復(fù)到原圖像尺寸,最后通過卷積層特征提取后得到GLIE 的輸出。
2.2.1 全局特征提取網(wǎng)絡(luò)GIE-Net
低照度增強(qiáng)任務(wù)通常需要應(yīng)對(duì)不同的低照度場(chǎng)景,因此,基于全局感受野的場(chǎng)景級(jí)學(xué)習(xí)至關(guān)重要。GIE-Net 通過改進(jìn)的基于移位窗口自注意力的U 形網(wǎng)絡(luò)(Swin-Unet)[17]來實(shí)現(xiàn)場(chǎng)景級(jí)學(xué)習(xí),采用級(jí)聯(lián)的移位窗口自注意力塊(STB)代替?zhèn)鹘y(tǒng)U-Net 中的卷積結(jié)構(gòu),在每次下采樣和上采樣之前提取全局特征。
如圖3 所示,首先利用Embedding 將圖像劃分為非重疊窗口(Patch),并轉(zhuǎn)化為一維嵌入式向量,經(jīng)過級(jí)聯(lián)STB 實(shí)現(xiàn)不同窗口的交互以提取全局特征,然后通過Patch Marging[15]的方式進(jìn)行下采樣。每下采樣一次,特征圖的尺寸大小即變?yōu)樵瓉淼?/2,同時(shí)通道數(shù)變?yōu)樵瓉淼? 倍。經(jīng)過數(shù)次下采樣后到達(dá)瓶頸層,此時(shí)圖片的尺寸最小,通道數(shù)最豐富,能夠提取到更多類型的深層特征。在上采樣階段,與同尺寸的下采樣特征層建立連接,以恢復(fù)丟失的淺層特征,在最后一次上采樣后將Patch 恢復(fù)為與輸入分辨率相同的二維特征圖,得到GIE-Net 的輸出。為平衡計(jì)算代價(jià)和模型性能,將下采樣的次數(shù)設(shè)為3,每次移位窗口自注意力塊的級(jí)聯(lián)個(gè)數(shù)設(shè)為2,每個(gè)自注意力塊中的自注意力頭數(shù)設(shè)為2。為減少原始Swin-Unet 中Expanding 上采樣[17]容易導(dǎo)致的棋盤偽影問題,用PS(PixelShuffle)[18]和雙三次插值(Bicubic)的雙分支結(jié)構(gòu)(如圖4 所示)來代替Expanding 上采樣,以保持更自然的增強(qiáng)效果。
圖3 GIE-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 GIE-Net network structure
圖4 雙線性上采樣結(jié)構(gòu)Fig.4 Bilinear upsampling structure
2.2.2 局部特征聚合塊LIE-Block
GIE-Net 側(cè)重于對(duì)全局特征的提取,其對(duì)局部特征的提取不足,不能很好地保持光照特征的局部平滑特性。為了與全局信息實(shí)現(xiàn)互補(bǔ),受廣泛應(yīng)用于圖像分割任務(wù)的ASPP[19]的啟發(fā),本文構(gòu)建較輕量的LIE-Block 以有效提取各個(gè)尺度的局部信息。如圖5所示,首先將輸入特征按照通道進(jìn)行平均分配,形成不同的并行分支,每個(gè)分支分別利用擴(kuò)張率不同的空洞卷積(在本文模型中擴(kuò)張率分別為1、2、4、8)提取不同尺度下的局部特征,利用LReLU 激活函數(shù)增強(qiáng)非線性特征擬合能力,隨后對(duì)不同的分支特征按通道進(jìn)行拼接,恢復(fù)輸入特征圖的通道數(shù),通過標(biāo)準(zhǔn)3×3 卷積進(jìn)一步進(jìn)行特征融合,最后與GIE-Net 相連,實(shí)現(xiàn)對(duì)光照平滑信息的補(bǔ)充。
圖5 LIE-Block 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 LIE-Block network structure
如圖6 所示,在OFR-Block 內(nèi)部首先對(duì)淺層特征圖與照明調(diào)整之后的特征圖按通道進(jìn)行拼接,由于下采樣的緣故,照明學(xué)習(xí)模塊的輸出特征圖有潛在的細(xì)節(jié)損失問題,因此,對(duì)拼接后的特征圖通過普通的殘差塊(Res Block)進(jìn)行初步的特征提取,然后利用通道注意力機(jī)制進(jìn)行加強(qiáng)。從廣泛的去噪任務(wù)中得到啟發(fā),本文通道注意力采用與SE 模塊[20]相同的方式,首先使用全局平均池化(GAP),將空間特征壓縮為一個(gè)全局特征值,然后利用2 層全連接層(FC)建立所有通道間的特征關(guān)系,得到不同通道的重要性權(quán)值,使用Sigmoid 激活函數(shù)將權(quán)值歸一化到0~1的區(qū)間,最后進(jìn)行Scale 操作將該值與原圖中相應(yīng)通道的每個(gè)像素進(jìn)行相乘,使得重要的通道權(quán)值得到增強(qiáng),含有不良特征的通道權(quán)值得到減弱,從而起到抑制噪聲的作用。
圖6 OFR-Block 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 OFR-Block network structure
本文模型的損失函數(shù)由判別器部分和生成器部分構(gòu)成,為了對(duì)圖像的亮度增強(qiáng)和特征保留過程進(jìn)行有效監(jiān)督,判別器采用簡(jiǎn)單對(duì)抗損失,生成器則采用聯(lián)合損失函數(shù),該聯(lián)合損失表示為:
其中:w0、w1、w2和w3分別為各個(gè)組成部分的權(quán)值。各個(gè)損失函數(shù)具體構(gòu)成分別如下:
1)光照一致性損失。該損失保持GLIE 模塊輸出圖和生成器最終輸出圖之間的光照差異,引導(dǎo)GLIE 專注于光照有關(guān)特征的學(xué)習(xí),計(jì)算公式為:
其中:LGray表示GLIE 模塊照明輸出圖的像素灰度均值;GGray表示生成器輸出圖的像素灰度均值。
2)對(duì)抗損失。該損失利用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行對(duì)抗學(xué)習(xí),以引導(dǎo)生成器實(shí)現(xiàn)光照增強(qiáng),其中的判別器損失計(jì)算公式為:
其中:E 表示數(shù)學(xué)期望;DRa表示相對(duì)判別器產(chǎn)生的損失;D表示最小二乘GAN[21]產(chǎn)生的損失;xr、xf分別表示從真實(shí)圖片和生成圖片中的采樣,在本文實(shí)驗(yàn)中,分別從真實(shí)圖片(Preal)、生成圖片(Pfake)、真實(shí)圖片切片(Prealpatches)和生成圖片切片(Pfakepatches)中計(jì)算累加損失,以更好地兼顧全局和局部光照強(qiáng)度的一致性。
與判別器損失形式類似,生成器對(duì)抗損失計(jì)算公式為:
3)感知損失。該損失利用VGG 模型[22]特征提取過程對(duì)像素強(qiáng)度的不敏感性,對(duì)低照度原圖和增強(qiáng)圖像進(jìn)行建模,從而在不影響照度增強(qiáng)過程的情況下監(jiān)督兩者之間的特征距離以實(shí)現(xiàn)增強(qiáng)圖像對(duì)原圖特征的保留。感知損失計(jì)算公式為:
其中:IL表示原始的低照度圖像;G(IL)表示生成器增強(qiáng)后的輸出圖像;Φ表示預(yù)訓(xùn)練的VGG 模型特征圖;i表示第i個(gè)池化層;j表示第i個(gè)池化層后的第j個(gè)卷積層;W和H表示特征圖的維數(shù)。
4)像素?fù)p失。為彌補(bǔ)感知損失對(duì)細(xì)節(jié)監(jiān)督的不足,同時(shí)保證照度增強(qiáng)的強(qiáng)度,以較小的權(quán)值限制低照度原圖和增強(qiáng)圖像之間的像素距離,抑制圖像在照度增強(qiáng)過程中噪聲偽影的擴(kuò)大。像素?fù)p失計(jì)算公式為:
其中:T表示像素的總個(gè)數(shù);表示原始低照度圖像的像素點(diǎn);表示生成器輸出圖像的像素點(diǎn)。
3.1.1 訓(xùn)練數(shù)據(jù)集
本文模型對(duì)文獻(xiàn)[6]的訓(xùn)練數(shù)據(jù)集進(jìn)行微調(diào),最終使用914 張低光照和1 016 張正常光照?qǐng)D像,這些圖像既有人工合成也有真實(shí)拍攝的,且沒有任何的配對(duì),在訓(xùn)練過程中對(duì)低照度圖像和正常光照?qǐng)D像進(jìn)行隨機(jī)組合,并分別輸入生成器和判別器中產(chǎn)生對(duì)抗損失來引導(dǎo)模型訓(xùn)練。
3.1.2 測(cè)試數(shù)據(jù)集
本文選擇DICM[23]、LIME[24]、MEF[25]和NPE[26]等4 個(gè)無參考自然低照度圖像數(shù)據(jù)集,共99 張,并分?jǐn)?shù)據(jù)集進(jìn)行測(cè)試,其中包含各種分辨率下的夜景、逆光等增強(qiáng)難度較大的低照度圖像,以此來充分驗(yàn)證本文模型在不同自然環(huán)境下的泛化性。
3.1.3 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
本次實(shí)驗(yàn)所使用的操作系統(tǒng)為Ubuntu18.04,GPU 配置為Nvidia RTX 3060(6 GB),使用PyTorch深度學(xué)習(xí)框架構(gòu)建網(wǎng)絡(luò)模型并進(jìn)行訓(xùn)練。在網(wǎng)絡(luò)訓(xùn)練過程中,將訓(xùn)練圖像的大小統(tǒng)一裁剪為512×512 像素,epoch 個(gè)數(shù)設(shè)為120,batch size 設(shè)為2,初始學(xué)習(xí)率設(shè)為0.000 1,在前60 個(gè)epoch 學(xué)習(xí)率保持不變,然后隨著epoch 的增加學(xué)習(xí)率線性衰減到0,在訓(xùn)練全程使用Adam 優(yōu)化器進(jìn)行網(wǎng)絡(luò)參數(shù)優(yōu)化。本文模型的損失函數(shù)參數(shù)設(shè)置如表1 所示。
表1 損失函數(shù)的參數(shù)設(shè)置Table 1 Parameter settings of loss function
為充分驗(yàn)證本文所提LSC-GAN(LG)的先進(jìn)性,將其與當(dāng)前主流模型Retinex-Net(RN)[3]、EnlightenGAN(EG)[6]、Zero-DCE++(ZD)[8]、RUAS(RU)[9]、URetinex-Net(UN)[10]分別進(jìn)行定性比較和定量比較。其中,除了Retinex-Net 是有監(jiān)督模型外,其余都是無監(jiān)督或零樣本學(xué)習(xí)模型(包括本文模型)。為保證對(duì)比實(shí)驗(yàn)的公平性,各個(gè)模型都遵照原論文提供的訓(xùn)練流程和參數(shù)設(shè)置,并使用相同規(guī)模的訓(xùn)練數(shù)據(jù)集和完全統(tǒng)一的測(cè)試數(shù)據(jù)集,其余實(shí)驗(yàn)條件也保持一致。
3.2.1 評(píng)估指標(biāo)
由于本次實(shí)驗(yàn)使用的測(cè)試數(shù)據(jù)集沒有配對(duì)的正常光照?qǐng)D像作為參考,因此采用基于無參考的圖像質(zhì)量評(píng)估指標(biāo),具體如下:
1)自然圖像質(zhì)量評(píng)估指標(biāo)(NIQE)[27]。NIQE 是一個(gè)完全無參考的圖像質(zhì)量評(píng)估指標(biāo),其原理是提取測(cè)試圖像的多元高斯特征模型,然后統(tǒng)計(jì)其與指定高質(zhì)量自然圖像中提取到的特征模型之間的距離,從而得到對(duì)測(cè)試圖像的質(zhì)量評(píng)估。NIQE 計(jì)算公式如下:
其中:v1、v2和Σ1、Σ2分別表示自然圖像和增強(qiáng)圖像高斯分布模型的均值向量和協(xié)方差矩陣。當(dāng)NIQE指標(biāo)越小時(shí),表明測(cè)試圖像越接近指定的高質(zhì)量自然圖像。
由于正常光照?qǐng)D像理論上可以呈現(xiàn)更加豐富的信息,從而擁有更高的自然質(zhì)量,因此NIQE 指標(biāo)可以作為圖像照明恢復(fù)強(qiáng)度和自然保持度的有效參考。
2)亮度順序誤差(LOE)[28]。NIQE 缺乏對(duì)低照度原圖的參考和光照增強(qiáng)正確性的衡量,因此,引入LOE 指標(biāo)。LOE 通過對(duì)原始低照度圖像和增強(qiáng)圖像中的亮度順序進(jìn)行統(tǒng)計(jì)比較,可以有效反映圖像增強(qiáng)過程中存在的局部亮度異常和噪聲偽影放大等問題,該指標(biāo)越小,表明對(duì)低照度原圖的光照順序保留度越好。LOE 計(jì)算公式如下:
其中:m和n分別表示圖像的高和寬;RD 表示相對(duì)亮度階差。RD 表達(dá)式為:
其中:L和Le分別表示低照度原圖和增強(qiáng)圖像中RGB 顏色通道的最大值;xor 表示異或運(yùn)算。
3.2.2 定性比較
從測(cè)試數(shù)據(jù)集中選取9 張較為典型的低照度圖像,將其大體上分為逆光、夜景和高頻信息豐富3 類圖像,并以此分別進(jìn)行主觀對(duì)比。從圖7~圖9 可以看出(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版):RU 和UN 由于光照增強(qiáng)相對(duì)不正確導(dǎo)致原圖特征發(fā)生較大偏移,在所有的逆光場(chǎng)景[(1)行~(6)行]中都出現(xiàn)了天空過曝的現(xiàn)象,其中RU 在夜景[(8)行]和高頻信息豐富[(9)行]中也存在同樣問題;ZD 的色溫與原圖有顯著差異,整體存在泛白現(xiàn)象,在夜景[(8)行]中尤為明顯;EG 容易出現(xiàn)局部異常色彩和噪點(diǎn)現(xiàn)象,例如在逆光場(chǎng)景[(2)行和(3)行]中,天空分別出現(xiàn)了異常的紫色色塊和綠色色斑,在夜景[(7)行、(8)行]的夜空中出現(xiàn)大量噪點(diǎn),在高頻信息豐富的場(chǎng)景[(9)行]中樹葉出現(xiàn)了泛黃現(xiàn)象;RN 整體存在紋理失真和色彩飽和度過高的問題,此外在逆光場(chǎng)景[(1)行、(4)行]和夜景[(8)行]中還出現(xiàn)了嚴(yán)重的偏色問題;本文提出的LG 模型整體增強(qiáng)效果比較真實(shí)自然,在不同場(chǎng)景中的亮度增強(qiáng)和原特征保留上都能達(dá)到較為良好的水平,沒有出現(xiàn)顯著的紋理失真和色彩偏移現(xiàn)象。
圖7 逆光場(chǎng)景下的實(shí)驗(yàn)效果Fig.7 Experimental effects under backlit scenes
為了更全面地評(píng)估各模型的綜合性能,從上述圖像中隨機(jī)選取一些特征復(fù)雜的區(qū)域放大裁剪進(jìn)行細(xì)節(jié)對(duì)比,并將裁剪區(qū)域在低照度原圖中框出。由于RU 模型整體效果不佳,因此在細(xì)節(jié)對(duì)比實(shí)驗(yàn)中將其剔除。如圖10 所示,本文模型在有效實(shí)現(xiàn)照度增強(qiáng)的同時(shí),對(duì)原圖的細(xì)節(jié)保留和噪聲抑制效果也較好,并且在不同低照度場(chǎng)景下都可以獲得觀感較為舒適的增強(qiáng)效果。
圖10 細(xì)節(jié)對(duì)比實(shí)驗(yàn)結(jié)果Fig.10 Details comparison experiment results
3.2.3 定量比較
為了更進(jìn)一步地量化評(píng)估模型性能,在所有測(cè)試數(shù)據(jù)集上對(duì)不同模型分別通過NIQE 和LOE 指標(biāo)進(jìn)行客觀對(duì)比,結(jié)果如表2 所示,其中每個(gè)數(shù)據(jù)集中2 個(gè)指標(biāo)的前3 名分別用加粗、斜體和下劃線表示。由于不同數(shù)據(jù)集圖像數(shù)量不同,因此用ALL 表示全部測(cè)試數(shù)據(jù)的加權(quán)平均值。
從表2 可以看出,本文LG 模型的2 個(gè)指標(biāo)在所有數(shù)據(jù)集中都取得了前3 名的水平。具體地,從數(shù)據(jù)集來看,LG 在NPE 上優(yōu)勢(shì)更加明顯,2 個(gè)指標(biāo)均優(yōu)于對(duì)比模型;從評(píng)價(jià)指標(biāo)來看,LG 模型則在LOE上優(yōu)勢(shì)更加明顯,在LIME、MEF、NPE 這3 個(gè)數(shù)據(jù)集上相比其他對(duì)比模型都取得了更好的結(jié)果。
3.2.4 綜合分析
由于基于NIQE 的盲圖像質(zhì)量評(píng)估結(jié)果與實(shí)際觀感存在一定差異,且不完全符合低照度增強(qiáng)的任務(wù)目標(biāo),因此NIQE 僅作大致參考。如表2 所示,本文LG 模型和ZD 模型、EG 模型在該指標(biāo)上表現(xiàn)相對(duì)較好。然而,結(jié)合定性比較結(jié)果可知,ZD 和EG對(duì)原圖的保留效果都不佳,其中,ZD 的色溫相比原圖偏移明顯,尤其是在缺乏自然光照的夜景圖像中,EG 則容易出現(xiàn)局部色彩異常和顯著噪點(diǎn)偽影現(xiàn)象。此外,由于ZD 和EG 都沒有考慮噪聲抑制因素,因此LOE 指標(biāo)明顯較差,相反,本文LG 模型與UN 模型則在該指標(biāo)上優(yōu)勢(shì)明顯。然而,在定性比較中,UN 在部分場(chǎng)景中有顯著的整體過曝問題,實(shí)際觀感較差。綜上,本文提出的LG 模型主觀效果真實(shí)自然,可在不同場(chǎng)景中有效實(shí)現(xiàn)照度增強(qiáng),且對(duì)低照度原圖的特征保留度高,2 個(gè)評(píng)估指標(biāo)結(jié)果在不同測(cè)試數(shù)據(jù)集上也較為穩(wěn)健,具有較強(qiáng)的實(shí)用性。
為了驗(yàn)證本文模型主要組成部分的有效性,對(duì)模型進(jìn)行消融實(shí)驗(yàn),具體地,分別減去光照一致性損失函數(shù)(LEXP)、全局特征提取網(wǎng)絡(luò)(GIE-Net)和局部特征聚合塊(LIE-Block),對(duì)模型進(jìn)行重新測(cè)試,其他實(shí)驗(yàn)條件和參數(shù)設(shè)置保持不變。圖11 所示為隨機(jī)一張測(cè)試圖像分別在輸入圖、無LEXP、無LIE-Block、無GIE-Net 和完整模型下的結(jié)果。由圖11 可見:無LEXP會(huì)導(dǎo)致模型難以兼顧照度增強(qiáng)和原圖特征保留,照度提升明顯不足;無LIE-Block會(huì)導(dǎo)致模型維持局部光照平滑性的能力不足,造成方塊狀的處理邊界,不符合對(duì)原圖特征的保留原則和客觀物理規(guī)律;無GIE-Net 會(huì)導(dǎo)致模型缺乏對(duì)場(chǎng)景級(jí)別的感知,圖像容易出現(xiàn)局部過度增強(qiáng)的現(xiàn)象。
圖11 消融實(shí)驗(yàn)結(jié)果Fig.11 Results of ablation experiment
為了進(jìn)一步驗(yàn)證模型各個(gè)部分對(duì)整體性能的影響,對(duì)消融后的模型進(jìn)行定量比較。從表3 可以看出:對(duì)于NIQE 指標(biāo)而言,在缺少任意組成部分后該指標(biāo)均出現(xiàn)下滑,證明本文模型結(jié)構(gòu)的完整性對(duì)維持圖像自然質(zhì)量有顯著作用;對(duì)于LOE 指標(biāo)而言,無LIE-Block、無GIE-Net 都會(huì)導(dǎo)致該指標(biāo)出現(xiàn)下滑,雖然無LEXP的情況會(huì)導(dǎo)致LOE 出現(xiàn)小幅提升,但是此時(shí)照明學(xué)習(xí)模塊(GLIE)未能得到有效訓(xùn)練,所產(chǎn)生的圖像與原圖過度相似,顯然與低照度增強(qiáng)的任務(wù)目標(biāo)不符。相比之下,完整模型兼具更好的增強(qiáng)效果和更高的自然圖像質(zhì)量。
表3 消融后的模型對(duì)比結(jié)果Table 3 Comparison results of models after ablation
當(dāng)前基于深度學(xué)習(xí)的低照度增強(qiáng)方法在自然場(chǎng)景下無法很好地兼顧照度增強(qiáng)和原圖特征保留效果,且對(duì)多場(chǎng)景的適應(yīng)性通常不佳,為此,本文提出一種基于生成對(duì)抗網(wǎng)絡(luò)的低照度增強(qiáng)模型LSCGAN。通過光照一致性損失構(gòu)建照明學(xué)習(xí)模塊,更好地實(shí)現(xiàn)照度增強(qiáng)和原圖特征保留;在照明學(xué)習(xí)模塊內(nèi)部結(jié)合全局特征提取網(wǎng)絡(luò)和局部特征聚合塊,同時(shí)實(shí)現(xiàn)場(chǎng)景級(jí)學(xué)習(xí)和光照平滑保持;通過原圖特征保留塊進(jìn)行特征融合和通道注意力加強(qiáng),實(shí)現(xiàn)噪聲抑制效果;利用聯(lián)合損失函數(shù)實(shí)現(xiàn)對(duì)上述學(xué)習(xí)過程的有效監(jiān)督。實(shí)驗(yàn)結(jié)果表明,LSC-GAN 模型在有效實(shí)現(xiàn)照度增強(qiáng)的同時(shí),對(duì)低照度原圖的特征保留效果也較好,與當(dāng)前主流模型相比具有一定的優(yōu)勢(shì)。下一步將著力于簡(jiǎn)化模型結(jié)構(gòu),同時(shí)探索更加有效的自然低照度圖像增強(qiáng)評(píng)估方式,從而更全面地量化增強(qiáng)效果。