馬天 李凡卉 席潤(rùn)韜 安金鵬 楊嘉怡 張杰慧
摘 要:針對(duì)成對(duì)數(shù)據(jù)集獲取成本較高、光照分布不均衡圖像增強(qiáng)效果欠佳以及增強(qiáng)結(jié)果易產(chǎn)生十字形偽影的問(wèn)題,提出了一種基于生成對(duì)抗網(wǎng)絡(luò)結(jié)合Transformer的半監(jiān)督圖像增強(qiáng)方法。首先,采用Transformer網(wǎng)絡(luò)架構(gòu)作為生成對(duì)抗網(wǎng)絡(luò)中生成器的主干網(wǎng)絡(luò),提取不同像素塊間的依賴關(guān)系以獲取全局特征,并通過(guò)非成對(duì)數(shù)據(jù)集進(jìn)行半監(jiān)督學(xué)習(xí);其次,使用灰度圖作為生成器網(wǎng)絡(luò)的光照注意力圖,以平衡增強(qiáng)結(jié)果在不同區(qū)域的曝光水平;最后,在生成器和鑒別器網(wǎng)絡(luò)中交叉使用均等裁剪策略和滑動(dòng)窗口裁剪策略,增強(qiáng)網(wǎng)絡(luò)提取特征的能力并解決十字形偽影問(wèn)題,并引入重建損失來(lái)提高生成器對(duì)圖像細(xì)節(jié)的感知能力。結(jié)果表明:提出方法取得了更好的光照和色彩平衡效果,自然圖像質(zhì)量評(píng)估指標(biāo)平均提升了2.37%;在圖像修飾任務(wù)中,圖像峰值信噪比、相似結(jié)構(gòu)度和感知損失同時(shí)達(dá)到了最優(yōu);在低光照增強(qiáng)任務(wù)中,圖像峰值信噪比提升了13.46%;充分驗(yàn)證了提出方法在圖像增強(qiáng)2個(gè)子任務(wù)上的有效性。關(guān)鍵詞:半監(jiān)督;圖像增強(qiáng);生成對(duì)抗網(wǎng)絡(luò);Transformer;光照注意力中圖分類號(hào):TD 391
文獻(xiàn)標(biāo)志碼:
A
文章編號(hào):1672-9315(2023)06-1207
-12
DOI:10.13800/j.cnki.xakjdxxb.2023.0619開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Semi-supervised image enhancement method based on
generative adversarial network combined with transformer
MA Tian1,LI Fanhui1,XI Runtao2,3,AN Jinpeng1,YANGJiayi1,ZHANG Jiehui1
(1.College of Computer Science and Engineering,Xian University of Science and Technology,Xian 710054,China;
2.CCTEG Changzhou Research Institute,Changzhou 213015,China;
3.Tiandi(Changzhou)Automation Co.,Ltd.,Changzhou 213015,China)
Abstract:To address the issues of high cost in acquiring paired datasets,inadequate enhancement effects due to uneven lighting distributions,and the occurrence of cross-shaped artifacts in the enhanced results,a semi-supervised image enhancement method based on the combination of generative adversarial network and Transformer was proposed.Firstly,the Transformer network architecture was employed as the backbone network of the generator in the GAN to extract the dependency relationships between different pixel blocks for obtaining global features,and semi-supervised learning was performed using non-paired datasets.Secondly,a grayscale image was used as the illumination attention map for the generator network to balance the exposure levels of the enhanced results in different regions.Finally,equal cropping strategy and sliding window cropping strategy were cross-used in the generator and discriminator networks to enhance the feature extraction capability of the network and solve the problem of cross-shaped artifacts.Additionally,a reconstruction loss was introduced to improve the generators perception capability of image details.The results demonstrate that the proposed method has achieved better lighting and color balance effects,with an average improvement of 2.37% in the evaluation of natural image quality.In the image modification task,the peak signal-to-noise ratio,structural similarity,and perceptual loss simultaneously reach their optimum values.In the low-light enhancement task,the peak signal-to-noise ratio is improved by 13.46%.These results fully validate the effectiveness of the proposed method in the two subtasks of image enhancement.Key words:semi-supervised;image enhancement;generate adversarial network;Transformer;light attention
0 引 言
圖像是人類獲取信息的重要途徑,但是由于光照條件和設(shè)備性能等的限制,會(huì)導(dǎo)致所拍攝圖像存在過(guò)暗、細(xì)節(jié)不清晰、顏色失真等問(wèn)題,因此需要采用圖像增強(qiáng)技術(shù)進(jìn)行修復(fù)。文中以圖像增強(qiáng)領(lǐng)域的2個(gè)子問(wèn)題:圖像修飾和低光照?qǐng)D像增強(qiáng)為研究對(duì)象。圖像修飾的目的在于對(duì)圖像的曝光、色彩、飽和度等進(jìn)行綜合調(diào)整;而低光照?qǐng)D像增強(qiáng)則旨在提升光線不足場(chǎng)景下獲得圖像的視覺(jué)感知質(zhì)量,以得到更多有效信息。圖像增強(qiáng)自提出以來(lái)已經(jīng)歷了幾十年的發(fā)展。傳統(tǒng)方法通常采用直方圖均衡化[1]、伽馬校正[2]或是利用圖像在頻域上的特性[3]進(jìn)行圖像增強(qiáng)。此外,還有學(xué)者應(yīng)用Retinex理論[4]對(duì)圖像亮度和顏色信息進(jìn)行調(diào)整,以增強(qiáng)圖像的細(xì)節(jié)和對(duì)比度。盡管這些方法在處理具有單一問(wèn)題的圖像時(shí)表現(xiàn)出色,但它們?nèi)狈?duì)圖像整體或局部特征的關(guān)注,在處理一些綜合多種問(wèn)題的復(fù)雜場(chǎng)景時(shí)存在局限性。近年來(lái),基于深度學(xué)習(xí)的圖像增強(qiáng)方法受到了廣泛關(guān)注。目前,大多數(shù)基于CNN的圖像增強(qiáng)方法都依賴于成對(duì)數(shù)據(jù)集進(jìn)行全監(jiān)督訓(xùn)練。LORE等首次提出一種稱為L(zhǎng)ow-Light Net(LLNet)的深度自編碼器,以增強(qiáng)圖像亮度、對(duì)比度和降低噪聲[5]。隨后,很多基于成對(duì)數(shù)據(jù)集的全監(jiān)督方法被提出。然而這些方法的增強(qiáng)性能很大程度上依賴于數(shù)據(jù)集,這容易導(dǎo)致模型過(guò)擬合和缺乏泛化性。為了解決這一問(wèn)題,一些方法開(kāi)始在沒(méi)有成對(duì)數(shù)據(jù)集的情況下進(jìn)行訓(xùn)練。 基于此,EnlightenGAN[6]作為一種基于無(wú)監(jiān)督學(xué)習(xí)的方法被提出,該模型采用了條件生成器和全局-局部鑒別器的設(shè)計(jì),能夠在不需要配對(duì)監(jiān)督數(shù)據(jù)的情況下實(shí)現(xiàn)高質(zhì)量的低光照?qǐng)D像增強(qiáng)。但由于該方法采用了2個(gè)生成器和2個(gè)鑒別器的結(jié)構(gòu),計(jì)算成本較高。此外,HU等提出了一個(gè)White-Box照片后處理框架,該框架通過(guò)學(xué)習(xí)根據(jù)圖像的當(dāng)前狀態(tài)做出決策來(lái)改進(jìn)照片后處理的效果[7];CHEN等采用強(qiáng)化學(xué)習(xí)進(jìn)行圖像修飾,并提出了一種改進(jìn)的雙向生成對(duì)抗網(wǎng)絡(luò)(GAN),以非配對(duì)學(xué)習(xí)的方式進(jìn)行訓(xùn)練[8]。然而,當(dāng)輸入圖像
較暗或包含噪聲時(shí),該模型可能會(huì)放大噪聲的問(wèn)題。
另一方面,在圖像增強(qiáng)任務(wù)中,成對(duì)數(shù)據(jù)集可以提供監(jiān)督信號(hào),即對(duì)于每個(gè)輸入都有一個(gè)對(duì)應(yīng)的輸出。這種監(jiān)督信號(hào)可以幫助深度學(xué)習(xí)模型更快地學(xué)習(xí)和調(diào)整參數(shù),從而提高模型的準(zhǔn)確性。然而,獲取和準(zhǔn)備成對(duì)數(shù)據(jù)集的成本較高。為了獲得成對(duì)數(shù)據(jù)集,通常需要專家修圖人員手動(dòng)修復(fù)低質(zhì)量圖像或者人為破壞高質(zhì)量圖像。因此,獲取成對(duì)圖像需要耗費(fèi)大量的時(shí)間和人力。針對(duì)以上問(wèn)題,文中提出了一種基于生成對(duì)抗網(wǎng)絡(luò)結(jié)合Transformer的半監(jiān)督圖像增強(qiáng)方法(Semi-supervised Trans GAN Image Enhancement,STGIE)。STGIE的整體架構(gòu)采用GAN的架構(gòu),生成器主要由 Transformer編碼器和曲線調(diào)整工具構(gòu)成,鑒別器則由全注意力特征編碼器和多層感知機(jī)作為主要結(jié)構(gòu)。為了解決增強(qiáng)結(jié)果曝光不均衡的問(wèn)題,STGIE采用了光照注意力圖來(lái)輔助生成器進(jìn)行光照調(diào)整;同時(shí),在生成器和鑒別器中采用了不同的圖像裁剪策略,有效地消除了十字形偽影問(wèn)題。此外,STGIE使用非成對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,以避免因訓(xùn)練數(shù)據(jù)有限導(dǎo)致的模型過(guò)擬合問(wèn)題。通過(guò)低光照?qǐng)D像增強(qiáng)和圖像修飾的對(duì)比試驗(yàn),證明了其在性能上相較于其他方法更為優(yōu)越。STGIE不僅能夠有效地調(diào)整不同區(qū)域的光照分布,還在整體對(duì)比度和色彩飽和度方面表示出色。
1 相關(guān)研究理論概述
1.1 生成對(duì)抗網(wǎng)絡(luò)近年來(lái),生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)已廣泛應(yīng)用于圖像增強(qiáng)任務(wù)中。GAN利用生成器網(wǎng)絡(luò)生成更真實(shí)、更清晰的圖像,并通過(guò)鑒別器網(wǎng)絡(luò)對(duì)生成的圖像進(jìn)行評(píng)估,從而不斷優(yōu)化生成器網(wǎng)絡(luò),使其生成的圖像更真實(shí)、更接近實(shí)際圖像。ZHANG等提出HarmonicGAN方法,通過(guò)在訓(xùn)練數(shù)據(jù)上引入一個(gè)平滑項(xiàng)來(lái)加強(qiáng)源域和目標(biāo)域之間的平滑一致性,來(lái)學(xué)習(xí)源域和目標(biāo)域之間的雙向轉(zhuǎn)換[9]。JIANG等提出了EnlightenGAN方法,該模型包含一個(gè)自正則注意力引導(dǎo)的U-Net生成器和一個(gè)全局-局部鑒別器。研究者還提出了基于局部和全局的自我特征保留損失函數(shù),可以更加精確地保留圖像的細(xì)節(jié)和紋理信息,從而生成高質(zhì)量的增強(qiáng)圖像。CHEN等采用雙向GAN架構(gòu)結(jié)合自適應(yīng)加權(quán)方案,提高了訓(xùn)練穩(wěn)定性。DPE能夠感知高質(zhì)量圖像特征,并利用這些特征對(duì)低質(zhì)量圖像進(jìn)行增強(qiáng)。KOSUGI等提出的UIE方法可在不需要成對(duì)數(shù)據(jù)集的情況下,通過(guò)單個(gè)強(qiáng)化學(xué)習(xí)智能體來(lái)控制圖像編輯軟件,學(xué)習(xí)如何調(diào)整編輯軟件的參數(shù),以達(dá)到更好地圖像增強(qiáng)效果[10]。
1.2 Transformer由于卷積操作的局限性,導(dǎo)致CNN和GAN在處理大尺寸圖像時(shí)需要大量的計(jì)算資源和時(shí)間。相比之下,Transformer通過(guò)自注意力機(jī)制能夠更好地處理大尺寸圖像,并學(xué)習(xí)到全局的圖像特征。最初被應(yīng)用于自然語(yǔ)言處理領(lǐng)域的Transformer,近幾年也被廣泛應(yīng)用于圖像分類、語(yǔ)義分割、圖像增強(qiáng)等圖像處理領(lǐng)域。DOSOVITSKIY等提出Vision Transformer(ViT)模型將圖片劃分為多個(gè)不重疊的區(qū)域,然后將自然語(yǔ)言處理中使用的標(biāo)準(zhǔn) Transformer編碼器應(yīng)用在圖像識(shí)別任務(wù)中,取得了優(yōu)于CNN架構(gòu)的效果[11]。隨后,ZHENG等提出了一種基于Transformer的序列到序列語(yǔ)義分割方法[12]。該方法將圖像分割成若干個(gè)小塊,并通過(guò) Transformer模型進(jìn)行處理,輸出每個(gè)像素的分類結(jié)果,從而實(shí)現(xiàn)對(duì)圖像語(yǔ)義的準(zhǔn)確劃分。LIU等提出的Swin Transformer成為計(jì)算機(jī)視覺(jué)領(lǐng)域的主干網(wǎng)絡(luò),在多種任務(wù)中取得SOTA水平[13];ESSER等提出了一種基于Transformer的高分辨率圖像合成模型[14];JIANG等將Transformer與GAN相結(jié)合,提出了TransGAN方法,該方法利用2個(gè)Transformer網(wǎng)絡(luò)完成高分辨率圖像生成任務(wù)[15];ZHANG等提出了一種稱為STAR的Transformer架構(gòu),通過(guò)捕獲圖像之間的長(zhǎng)期依賴關(guān)系和不同區(qū)域的結(jié)構(gòu)關(guān)系以實(shí)時(shí)進(jìn)行圖像增強(qiáng),但該方法在圖像亮度和色彩調(diào)整之間難以取得平衡[16]。
xout和xtarget分別為生成的圖像和非成對(duì)的真實(shí)圖像。3 試驗(yàn)分析根據(jù)不同的任務(wù)需求,使用不同的數(shù)據(jù)集進(jìn)行訓(xùn)練。對(duì)于圖像修飾任務(wù),采用FiveK數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含5 000張由不同攝影師拍攝的照片,涵蓋了各種場(chǎng)景、主題和照明條件;對(duì)于低光照?qǐng)D像增強(qiáng)任務(wù),為了擴(kuò)展訓(xùn)練數(shù)據(jù)的動(dòng)態(tài)范圍,使用LOL數(shù)據(jù)集和SCIE數(shù)據(jù)集進(jìn)行訓(xùn)練。LOL數(shù)據(jù)集包含500對(duì)不同場(chǎng)景和不同攝像機(jī)拍攝的低光照和正常光照?qǐng)D像。SCIE數(shù)據(jù)集包含5 389張圖像,它們是通過(guò)相機(jī)使用不同曝光時(shí)間拍攝的,每個(gè)場(chǎng)景都包含低曝光、正常曝光和過(guò)曝光圖像。需要說(shuō)明的是,非成對(duì)訓(xùn)練是指在生成對(duì)抗網(wǎng)絡(luò)中使用不成對(duì)的訓(xùn)練數(shù)據(jù)。盡管FiveK和LOL數(shù)據(jù)集均為成對(duì)數(shù)據(jù)集,但在試驗(yàn)過(guò)程中,將數(shù)據(jù)集進(jìn)行了打亂,形成低質(zhì)量圖像和非成對(duì)的高質(zhì)量圖像作為成對(duì)數(shù)據(jù)輸入模型,進(jìn)行半監(jiān)督圖像增強(qiáng)。試驗(yàn)過(guò)程采用Adam優(yōu)化器,批大小設(shè)置為8,Epoch設(shè)置為20 000,生成器和鑒別器學(xué)習(xí)率均設(shè)置為0.000 3。為了保證STGIE在不同分辨率圖像上增強(qiáng)效果的穩(wěn)定性,在輸入模型前圖像會(huì)被壓縮至224×224的固定分辨率。同時(shí),通過(guò)對(duì)圖像隨機(jī)裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)操作進(jìn)行數(shù)據(jù)增廣。整個(gè)訓(xùn)練過(guò)程在Nvidia 3090 GPU上不超過(guò)半個(gè)小時(shí)(Epoch訓(xùn)練8 000次左右),模型即可達(dá)到收斂。為了客觀評(píng)估試驗(yàn)結(jié)果,使用全參考評(píng)價(jià)指標(biāo)和無(wú)參考評(píng)價(jià)指標(biāo)進(jìn)行定性和定量分析。全參考圖像質(zhì)量評(píng)價(jià)是一種廣泛應(yīng)用于增強(qiáng)算法評(píng)估的評(píng)價(jià)體系,需要全面考慮生成圖像和全參考圖像的信息。使用到的指標(biāo)包括:峰值信噪比(PSNR)、結(jié)構(gòu)相似度(SSIM)和感知損失(LPIPS)。其中,PSNR用于衡量生成圖像與參考圖像像素點(diǎn)的相似度,數(shù)值越高表示2幅圖像越相似。SSIM用于評(píng)估生成圖像與參考圖像的相似性,綜合考慮了亮度、對(duì)比度和結(jié)構(gòu)等因素,提供了更全面的相似性度量。LPIPS是一種基于感知學(xué)習(xí)方法的指標(biāo),用于評(píng)估圖像增強(qiáng)質(zhì)量,它綜合考慮了像素值之間的差異以及人眼對(duì)圖像的感知,更好地模擬了人類對(duì)圖像質(zhì)量的感知。無(wú)參考圖像質(zhì)量評(píng)價(jià)是一種不依賴參考圖像的評(píng)價(jià)體系,常用的評(píng)價(jià)指標(biāo)為自然圖像質(zhì)量評(píng)估器評(píng)價(jià)(Natural Image Quality Evaluator,NIQE)。NIQE是一種基于自然圖像統(tǒng)計(jì)規(guī)律的無(wú)參考圖像質(zhì)量評(píng)估方法。它通過(guò)計(jì)算輸入圖像的自然度、銳度和噪聲等特征,綜合評(píng)估圖像質(zhì)量,其值越小代表圖像質(zhì)量越高。
3.1 消融試驗(yàn)
3.1.1 光照注意力圖消融試驗(yàn) 為了增強(qiáng)模型對(duì)光照變化的適應(yīng)能力,STGIE采用光照注意力圖對(duì)圖像不同區(qū)域進(jìn)行加權(quán)處理。這種方法能夠更好地區(qū)分不同區(qū)域的光照強(qiáng)度,并實(shí)現(xiàn)曝光補(bǔ)償和減弱。為了驗(yàn)證光照注意力圖對(duì)圖像增強(qiáng)結(jié)果的影響,在保持其他條件不變的情況下,比較了使用三通道(RGB)圖像和四通道(RGB、Gray)圖像作為輸入的增強(qiáng)效果。圖4展示了在LOL數(shù)據(jù)集下的增強(qiáng)結(jié)果。
為更清晰地比較2組試驗(yàn)在背光區(qū)域處理上的差異,將紅色框內(nèi)的場(chǎng)景放大并置于原圖下方。
總體來(lái)看,2組試驗(yàn)結(jié)果在圖像亮度、整體色彩和細(xì)節(jié)方面均有明顯的提升。在圖像亮度方面,加入光照注意力圖的試驗(yàn)結(jié)果亮度提升更加明顯,也更加接近目標(biāo)圖像。此外,2組試驗(yàn)在背光區(qū)域表現(xiàn)出了明顯差異。紅色框內(nèi)的場(chǎng)景,例如柜子內(nèi)的物品、保齡球和看臺(tái)下方,均為背光區(qū)域,需要進(jìn)行額外的曝光補(bǔ)償。在未加入光照注意力圖的情況下,該區(qū)域的增強(qiáng)結(jié)果仍存在光照不足的問(wèn)題。同時(shí),加入光照注意力圖的試驗(yàn)結(jié)果中,該區(qū)域的光照提升較為顯著,對(duì)該區(qū)域細(xì)節(jié)信息有較好的再現(xiàn),并且整張圖像上沒(méi)有出現(xiàn)過(guò)曝光問(wèn)題。這主要得益于光照注意力圖在增強(qiáng)局部對(duì)比度和調(diào)整光照方面的有效性。
3.1.2 重建損失消融試驗(yàn)為驗(yàn)證重建損失對(duì)生成器的作用,在保持其他條件不變的情況下,對(duì)比去除重建損失前后的增強(qiáng)效果,并通過(guò)對(duì)比VGG網(wǎng)絡(luò)不同卷積層作為特征提取器產(chǎn)生的增強(qiáng)效果,探究不同卷積層對(duì)重建損失的影響。在FiveK數(shù)據(jù)集下試驗(yàn)結(jié)果見(jiàn)表1。
從表1可以看出,只使用對(duì)抗損失的增強(qiáng)效果最差。對(duì)抗損失只通過(guò)訓(xùn)練生成器來(lái)欺騙鑒別器,而不約束生成圖像的質(zhì)量,這可能導(dǎo)致真實(shí)圖像缺乏重要特征。而僅使用VGG網(wǎng)絡(luò)第1層卷積計(jì)算重建損失的效果最好。因?yàn)樯善魇褂肨ransformer模型進(jìn)行特征提取,它更關(guān)注圖像的高級(jí)特征,而淺卷積層更有可能捕獲紋理和邊緣等低級(jí)特征。這些自下而上的特征有效地反映圖像的細(xì)節(jié),從而更好地彌補(bǔ)了生成器對(duì)底層特征的忽略。
3.1.3 滑動(dòng)窗口分割消融試驗(yàn)為了驗(yàn)證不同圖像裁剪方法對(duì)增強(qiáng)效果的影響,在保證其他條件不變的情況下,分別對(duì)生成器和鑒別器使用不同的裁剪策略,在FiveK數(shù)據(jù)集下進(jìn)行定性和定量對(duì)比見(jiàn)表2。其中,Average代表使用ViT的均等裁剪策略,Sliding代表使用滑動(dòng)窗口裁剪策略。
從表2數(shù)據(jù)可以得出,交叉使用2種裁剪策略的情況下,增強(qiáng)結(jié)果在SSIM和LPIPS上的表現(xiàn)相對(duì)較好。此外,當(dāng)生成器使用均等裁剪策略,鑒別器使用滑動(dòng)窗口策略時(shí),具有更好的增強(qiáng)效果。不同圖像裁剪策略下生成器和鑒別器的增強(qiáng)結(jié)果如圖5所示,使用紅色框?qū)D像中容易出現(xiàn)偽影的區(qū)域進(jìn)行標(biāo)注。
試驗(yàn)結(jié)果表明,生成器和鑒別器使用相同的裁剪策略容易導(dǎo)致圖像出現(xiàn)十字形偽影。這是因?yàn)橄嗤牟眉舨呗詴?huì)產(chǎn)生相同的分割邊界,使得編碼器難以獲取分割邊界兩側(cè)像素點(diǎn)之間的依賴關(guān)系,導(dǎo)致增強(qiáng)效果較差。另外,這些分割邊界也可能沿著圖像的紋理和形狀邊緣形成十字形偽影。通過(guò)采用生成器使用均等裁剪而鑒別器使用滑動(dòng)窗口裁剪策略,可以有效緩解十字形偽影問(wèn)題。這種策略改善了圖像的色彩調(diào)整能力,并減少了偽影的出現(xiàn)。
3.2 試驗(yàn)結(jié)果定量分析
3.2.1 圖像修飾定量分析為了驗(yàn)證所提出方法在圖像修飾任務(wù)中的有效性,使用FiveK數(shù)據(jù)集,在分辨率為512×341下對(duì)比了STGIE和EnlightenGAN、DPE、Zero-DCE[17]、RUAS[18]、 3DLUT[19]方法的增強(qiáng)效果,這些方法均無(wú)需成對(duì)數(shù)據(jù)集,使用PSNR、SSIM、LPIPS指標(biāo)對(duì)上述方法進(jìn)行評(píng)估,結(jié)果見(jiàn)表3。
試驗(yàn)結(jié)果表明,相較于其他使用非成對(duì)數(shù)據(jù)集的方法,STGIE在PSNR、SSIM和LPIPS這3項(xiàng)指標(biāo)中均表現(xiàn)最佳。其中,在SSIM方面,STGIE的提升得益于Transformer中多頭注意力機(jī)制的全局特征提取,使其更好地調(diào)整圖像的整體結(jié)構(gòu)。在LPIPS方面,STGIE也具有顯著優(yōu)勢(shì)。這說(shuō)明使用STGIE增強(qiáng)的結(jié)果在圖像整體結(jié)構(gòu)方面更接近原始圖像,并證明STGIE對(duì)高級(jí)語(yǔ)義信息更加敏感。
3.2.2 低光照增強(qiáng)定量分析為了評(píng)估STGIE 在低光照增強(qiáng)任務(wù)中的有效性,從2個(gè)方面進(jìn)行驗(yàn)證。首先使用LOL數(shù)據(jù)集,對(duì)比STGIE與EnlightenGAN、Zero-DCE、RetinexNet、RUAS、LIME[20]、MBLLEN[21]、KinD++[22]、FIDE[23]、NeurOp[24]在PSNR、SSIM、LPIPS方面的表現(xiàn),結(jié)果見(jiàn)表4。
從試驗(yàn)結(jié)果可以看出,STGIE在3個(gè)全監(jiān)督評(píng)價(jià)指標(biāo)上表現(xiàn)比較均衡,并優(yōu)于大多數(shù)算法。其PSNR成績(jī)優(yōu)異的原因在于,采用基于曲線調(diào)整函數(shù)進(jìn)行逐像素調(diào)整,能夠更好擬合目標(biāo)圖像的像素值分布情況。在SSIM方面,F(xiàn)IDE方法取得了最優(yōu)結(jié)果,這得益于其獨(dú)特的網(wǎng)絡(luò)結(jié)果設(shè)計(jì)。在LPIPS方面,RUAS表現(xiàn)最好,這得益于其通過(guò)結(jié)構(gòu)搜索方法設(shè)計(jì)了一個(gè)高效的特征提取網(wǎng)絡(luò),能更好地提取圖像全局特征,具有更好的增強(qiáng)效果。
另一方面,為評(píng)估STGIE 作為半監(jiān)督圖像增強(qiáng)方法的泛化能力和處理光照不均衡圖像能力,在4個(gè)非成對(duì)數(shù)據(jù)集MEF、LIME、NPE和DICM 上進(jìn)行了增強(qiáng)效果測(cè)試,這4個(gè)數(shù)據(jù)集涵蓋了各種曝光條件下的圖像。由于缺乏參考圖像,半監(jiān)督圖像增強(qiáng)方法難以直接評(píng)估圖像增強(qiáng)的效果,因此采用NIQE作為評(píng)價(jià)指標(biāo)。試驗(yàn)比較了STGIE和其他8種方法的性能差異,結(jié)果見(jiàn)表5。
從表5可以看出,STGIE在MEF和NPE這2個(gè)數(shù)據(jù)集上表現(xiàn)最優(yōu),LIME和RUAS分別在LIME數(shù)據(jù)集和DICM數(shù)據(jù)集上表現(xiàn)最優(yōu)。STGIE在4個(gè)數(shù)據(jù)集上的NIQE平均值均為最優(yōu),這是由于加入光照注意力圖,使得STGIE能更好處理光照不均衡的圖像,因此,在這類數(shù)據(jù)集中具有較好的表現(xiàn)。值得注意的是,相比于同樣采用GAN架構(gòu)的EnlightenGAN方法,STGIE的性能有著顯著的提升,STGIE方法具有良好的泛化性能。
3.3 試驗(yàn)結(jié)果定性分析
3.3.1 圖像修飾定性分析使用FiveK數(shù)據(jù)集,以512×341的分辨率為基準(zhǔn),對(duì)比了STGIE與其他同時(shí)代方法的增強(qiáng)效果。選取了代表性結(jié)果進(jìn)行定性分析,結(jié)果如圖6圖像修飾對(duì)比試驗(yàn)定性分析所示。為了更清晰地觀察圖像中差異明顯的區(qū)域,將紅色和綠色框內(nèi)場(chǎng)景進(jìn)行放大,并將其顯示在圖像空曠區(qū)域或圖像右側(cè)。
相較于其他方法,STGIE在整體亮度方面調(diào)整得更為合適,它充分考慮到了背光區(qū)域和曝光區(qū)域,并對(duì)光照不平衡區(qū)域進(jìn)行了曝光補(bǔ)償,使得整體亮度與目標(biāo)圖像較為接近,這得益于光照注意力圖的設(shè)計(jì)。在顏色和細(xì)節(jié)方面,STGIE具有更加鮮艷的視覺(jué)效果,在色彩還原度方面表現(xiàn)優(yōu)異,并且整體的色彩分布也較為接近目標(biāo)圖像結(jié)果。
3.3.2 低照度增強(qiáng)定性分析在常規(guī)低光照?qǐng)D像數(shù)據(jù)集LOL以及具有挑戰(zhàn)性的低光照數(shù)據(jù)集MEF、LIME、NPE和DICM下,對(duì)低光照?qǐng)D像增強(qiáng)方法性能進(jìn)行評(píng)估。其中,LOL數(shù)據(jù)集包含成對(duì)數(shù)據(jù),而其余4個(gè)數(shù)據(jù)集僅包含待增強(qiáng)的低光照?qǐng)D像。由于這些數(shù)據(jù)集光照極不平衡、色彩分布差異較大,在低光照?qǐng)D像增強(qiáng)領(lǐng)域被認(rèn)為是具有挑戰(zhàn)性的數(shù)據(jù)集。
在LOL數(shù)據(jù)下,對(duì)STGIE及其他7種低光照增強(qiáng)模型進(jìn)行比較。圖7為不同方法的增強(qiáng)結(jié)果。STGIE在局部區(qū)域會(huì)產(chǎn)生色彩偏差,這是基于GAN生成方法難以避免的問(wèn)題,例如編制飾品的顏色發(fā)生偏差。不過(guò),圖像的整體色彩分布仍然接近目標(biāo)圖像,符合人的視覺(jué)感知。在圖像亮度方面,STGIE的增強(qiáng)結(jié)果最接近目標(biāo)圖像。在紋理細(xì)節(jié)方面,STGIE的增強(qiáng)結(jié)果在整體調(diào)整和細(xì)節(jié)保留方面表現(xiàn)良好,物體邊緣和細(xì)節(jié)更接近目標(biāo)圖像。綜上所述,STGIE在低光照增強(qiáng)方面表現(xiàn)出色,優(yōu)于其他模型。
另一方面,為了驗(yàn)證STGIE處理光照分布極不均衡圖像的能力,在MEF、LIME、NPE和DICM這4種數(shù)據(jù)集上對(duì)比了STGIE和其他8種不同方法的表現(xiàn),結(jié)果如圖8所示。STGIE方法能夠合理地調(diào)整不同區(qū)域的光照分布,同時(shí)在整體對(duì)比度和色彩飽和度方面表現(xiàn)出色。這可能歸因于光照注意力圖的設(shè)計(jì),使得模型對(duì)光照分布更加敏感,能夠根據(jù)不同區(qū)域光照的差異進(jìn)行不同處理。
綜上所述,在成對(duì)數(shù)據(jù)集和非成對(duì)數(shù)據(jù)集下的定性試驗(yàn)結(jié)果表明,STGIE方法在處理低光照?qǐng)D像和挑戰(zhàn)性較強(qiáng)的圖像方面均表現(xiàn)出較好的效果。該方法能夠合理地調(diào)整圖像的色彩和光照,并且在多個(gè)數(shù)據(jù)集下均有較好表現(xiàn),進(jìn)一步證明了STGIE方法的泛化性能和魯棒性。
3.4 模型輕量化和實(shí)時(shí)性對(duì)比為了比較不同方法在模型參數(shù)量和實(shí)時(shí)性方面的差異,對(duì)RetinexNet、EnlightenGAN、Zero-DCE、RUAS和3DLUT與STGIE方法進(jìn)行了對(duì)比。采用增強(qiáng)圖像的每秒幀數(shù)(FPS)作為衡量模型實(shí)時(shí)性的指標(biāo),并計(jì)算在處理FiveK數(shù)據(jù)集500張圖像時(shí)的平均速度,結(jié)果見(jiàn)表6。STGIE方法在模型參數(shù)量和增強(qiáng)效率方面具有一定優(yōu)勢(shì)。其參數(shù)大小為0.311 MB,比RetinexNet、Zero-DCE等方法更為輕量化,更適合在計(jì)算資源有限的環(huán)境下使用。同時(shí),STGIE方法的處理速度較快,能夠以每秒89幀的速度進(jìn)行圖像增強(qiáng),優(yōu)于RetinexNet和EnlightenGAN。綜上所述,STGIE方法具有輕量級(jí)模型和高效率的優(yōu)點(diǎn),能夠在實(shí)際應(yīng)用中提供更好的性能和用戶體驗(yàn)。
4 結(jié) 論
1)從顏色調(diào)整的角度出發(fā),STGIE使用Transformer網(wǎng)絡(luò)架構(gòu)作為生成器主干網(wǎng)絡(luò)解決了全監(jiān)督和半監(jiān)督下的圖像增強(qiáng)問(wèn)題。與其他深度學(xué)習(xí)方法相比,STGIE使用非成對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,可以充分利用數(shù)據(jù)集易于獲取的優(yōu)勢(shì),提升模型的泛化能力。2)設(shè)計(jì)了光照注意力圖和滑動(dòng)窗口裁剪策略。通過(guò)灰度圖,STGIE可以引導(dǎo)光照調(diào)整,實(shí)現(xiàn)了對(duì)光照不同區(qū)域的不同調(diào)整。采用滑動(dòng)窗口裁剪策略來(lái)增強(qiáng)鑒別器對(duì)裁剪區(qū)域的特征提取能力,有效避免了圖像出現(xiàn)十字形偽影。
3)通過(guò)試驗(yàn)驗(yàn)證了STGIE在圖像增強(qiáng)2個(gè)子任務(wù)上的有效性。在圖像修飾任務(wù)中,圖像峰值
信噪比、相似結(jié)構(gòu)度和感知損失分別達(dá)到22.97,
0.902和0.089 dB;在低光照增強(qiáng)任務(wù)中,圖像峰值信噪比提升了13.46%。此外,在無(wú)監(jiān)督評(píng)價(jià)指標(biāo)NIQE表現(xiàn)顯著提升,平均參數(shù)提升了
2.37%。4)針對(duì)半監(jiān)督方法在處理色彩豐富的圖像時(shí)出現(xiàn)的色差和色彩飽和度不足等問(wèn)題,雖然STGIE相較于其他方法有顯著改善,但仍存在一定的局限性。未來(lái)的研究可以嘗試從多種色彩空間對(duì)圖像顏色調(diào)整進(jìn)行約束,以平衡色彩和光線的調(diào)整,解決半監(jiān)督圖像增強(qiáng)中色彩飽和度不足的問(wèn)題。
參考文獻(xiàn)(References):
[1]
丁暢,董麗麗,許文海.“直方圖”均衡化圖像增強(qiáng)技術(shù)研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(23):12-17.DING Chang,DONG Lili,XU Wenhai.Review on histogram equalization image enhancement techniques[J].Computer Engineering and Applications,2017,53(23):12-17.[2]RAHMAN S,RAHMAN M M,ABDULLAH M,et al.An adaptive gamma correction for image enhancement[J].EURASIP Journal on Image and Video Processing,2016,35:1-13.[3]KINGSBURY N.Image processing with complex wavelets[J].Philosophical Transactions of the Royal Society of London.Series A:Mathematical,Physical and Engineering Sciences,1999,357(1760):2543-2560.
[4]LAND E H,MCCANN J.Lightness and retinex theory[J].Journal of the Optical Society of America,1971,61(1):1-11.
[5]LORE K G,AKINTAYO A,SARKAR S.LLNet:A deep autoencoder approach to natural low-light image enhancement[J].Pattern Recognition,2017,61:650-662.[6]JIANG Y,GONG X,LIU D,et al.Enlightengan:Deep light enhancement without paired supervision[J].IEEE Transactions on Image Processing,2021,30:2340-2349.[7]HU Y,HE H,XU C,et al.Exposure:A white-box photo postprocessing framework[J].ACM Transactions on Graphics,2018,37(2):1-17.
[8]CHEN Y S,WANG Y C,KAO M H,et al.Deep photo enhancer:Unpaired learning for image enhancement from photographs with gans[C]//Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2018:6306 6314.[9]ZHANG R,PFISTER T,LI J.Harmonic unpaired image-to-image translation[C]//International Conference on Learning Representations,Washington DC:ICLR,May6-9,2019.
[10]KOSUGI S,YAMASAKI T.Unpaired image enhancement featuring reinforcement-learning controlled image editing software[C]//Proceedings of the AAAI conference on artificial intelligence.Menlo Park:AAAI,2020,34(7):11296 11303.[11]DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16×16 words:Transformers for image recognition at scale[C]//International Conference on Learning Representations.Washington DC:ICLR,May3-7,2021.[12]ZHENG S,LU J,ZHAO H,et al.Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.Piscataway,NJ:IEEE,2021:6881-6890.[13]LIU Z,LIN Y,CAO Y,et al.Swin transformer:Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF international conference on computer vision.Piscataway,NJ:IEEE,2021:10012-10022.[14]ESSER P,ROMBACH R,OMMER B.Taming transformers for high-resolution image synthesis[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.Piscataway,NJ:IEEE,2021:12873-12883.[15]JIANG Y,CHANG S,WANG Z.Transgan:Two pure transformers can make one strong gan,and that can scale up[J].Advances in Neural Information Processing Systems,2021,34:14745-14758.[16]ZHANG Z,JIANG Y,JJIANG J,et al.STAR:A structure-aware lightweight transformer for real-time image enhancement[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE,2021:4106-4115.[17]GUO C,LI C,GUO J,et al.Zero-reference deep curve estimation for low-light image enhancement[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.Piscataway,NJ:IEEE,2020:1780-1789.[18]LIU R,MA L,ZHANG J,et al.Retinex-inspired unrolling with cooperative prior architecture search for low-light image enhancement[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.Piscataway,NJ:IEEE,2021:10561-10570.[19]ZENG H,CAI J,LI L,et al.Learning image-adaptive 3d lookup tables for high performance photo enhancement in real-time[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,44(4):2058-2073.[20]GUO X,LI Y,LING H.LIME:Low-light image enhancement via illumination map estimation[J].IEEE Transactions on image processing,2016,26(2):982-993.[21]LYU F,LU F,WU J,et al.MBLLEN:Low-light image/video enhancement using CNNs[C]//British Machine Vision Conference.UK:BMVA,2018,220(1):4.[22]ZHANG Y,GUO X,MA J,et al.Beyond brightening low-light images[J].International Journal of Computer Vision,2021,129:1013-1037.[23]XU K,YANG X,YIN B,et al.Learning to restore low-light images via decomposition-and enhancement[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.Piscataway,NJ:IEEE,2020:2281-2290.
[24]WANG Y,LI X,XU K,et al.Neural color operators for sequential image retouching[C]//European Conference on Computer Vision.Berlin:Springer,2022:38-55.[25]王媛彬,李媛媛,齊景鋒,等.基于引導(dǎo)濾波的多尺度自適應(yīng)礦井低質(zhì)圖像增強(qiáng)方法[J].西安科技大學(xué)學(xué)報(bào),2022,42(6):1214-1223.WANG Yuanbin,LI Yuanyuan,QI Jingfeng,et al.Multi-scale adaptive mine image enhancement method based on guided filtering[J].Journal of Xian University of Science and Technology,2022,42(6):1214-1223.
[26]WANG Y,WAN R,YANG W,et al.Low-light image enhancement with normalizing flow[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Menlo Park:AAAI,2022,36(3):2604-2612.[27]LI M,LIU J,YANG W,et al.Structure-revealing low-light image enhancement Via robust retinex model[J].IEEE Transactions on Image Processing,2018,27(6):2828-2841.
[28]邵小強(qiáng),楊濤,衛(wèi)晉陽(yáng),等.改進(jìn)同態(tài)濾波的礦井監(jiān)控視頻圖像增強(qiáng)算法[J].西安科技大學(xué)學(xué)報(bào),2022,42(6):1205-1213.SHAO Xiaoqiang,YANG Tao,WEI Jinyang,et al.Mine surveillance video image enhancement algorithm with improved homomorphic filter[J].Journal of Xian University of Science and Technology,2022,42(6):1205-1213.
(責(zé)任編輯:劉潔)