臧升睿 陳敏 艾振華 于騰 遲潔茹 楊國為
摘要:針對(duì)圖像修復(fù)算法存在的語義不連貫、紋理不清晰等問題,提出一種基于生成對(duì)抗網(wǎng)絡(luò)的新型級(jí)聯(lián)密集生成網(wǎng)絡(luò)CDGAN(Cascade Densely Generative Adversarial Network),采用encoder-decoder作為生成器主干,利用下采樣提取圖像特征;為使網(wǎng)絡(luò)關(guān)注修復(fù)圖像的高頻紋理和顏色保真度等有效信息,引入級(jí)聯(lián)的注意力模塊,并加入密集特征融合模塊擴(kuò)大網(wǎng)絡(luò)的整體感受野,充分學(xué)習(xí)圖像特征,提高編碼器提取特征的利用率,最后將處理后的圖像特征進(jìn)行上采樣重建。在Celeb A和Places2數(shù)據(jù)集的測(cè)試結(jié)果表明,CDGAN在語義連貫性、紋理清晰度等方面都有所提升。
關(guān)鍵詞:生成對(duì)抗網(wǎng)絡(luò);圖像修復(fù);注意力機(jī)制
中圖分類號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1006-1037(2023)02-0030-06
doi:10.3969/j.issn.1006-1037.2023.02.06
基金項(xiàng)目:
國家自然科學(xué)基金(批準(zhǔn)號(hào):62172229)資助。
通信作者:
于騰,男,博士,副教授,主要研究方向?yàn)槿斯ぶ悄芘c計(jì)算機(jī)視覺,圖像增強(qiáng),去霧去噪,目標(biāo)檢測(cè)等。
圖像修復(fù)技術(shù)最早是Bertalmio等[1]受文物修復(fù)的啟發(fā)在SIGGRAPH國際學(xué)術(shù)會(huì)議上提出的概念,現(xiàn)已成為計(jì)算機(jī)視覺領(lǐng)域的重要研究課題之一,主要利用缺失區(qū)域周邊或者外部的輔助數(shù)據(jù)對(duì)受損圖像區(qū)域推理和修復(fù)?,F(xiàn)有的修復(fù)方法主要分為傳統(tǒng)修復(fù)方法和基于深度學(xué)習(xí)的修復(fù)方法。傳統(tǒng)圖像修復(fù)方法主要有基于像素插值、擴(kuò)散和補(bǔ)丁匹配等方法,但如果給定的圖像是唯一的或非重復(fù)的,如人臉和景觀等,這些方法大多會(huì)產(chǎn)生偽影、結(jié)構(gòu)缺失等問題。近來,基于深度學(xué)習(xí)的圖像修復(fù)方法取得了重大發(fā)展,以出色的圖像生成能力而聞名的生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[2]被廣泛應(yīng)用于圖像處理領(lǐng)域。上下文編碼器采用深度生成模型,使用重建和對(duì)抗性損失根據(jù)缺失區(qū)域周圍信息預(yù)測(cè)場(chǎng)景的缺失區(qū)域,第一次將生成對(duì)抗網(wǎng)絡(luò)思想應(yīng)用到圖像修復(fù)上[2]?;贕AN的圖像修復(fù)算法使用多鑒別器修復(fù)圖像[3];基于全卷積網(wǎng)絡(luò)改進(jìn)的U-Net結(jié)構(gòu)使用跳躍連接融合不同尺度的圖像特征[4];Shift-Net將U-Net結(jié)構(gòu)[5]中的全連接層替換為Shift Connection層,將圖像缺失區(qū)域周圍的信息特征進(jìn)行轉(zhuǎn)移[6];語義注意力模塊(Contextual Attention Module, CAM)可以實(shí)現(xiàn)對(duì)圖像語義特征信息的生成重建[7];TransFill通過引用與目標(biāo)圖像共享場(chǎng)景內(nèi)容的另一個(gè)源圖像來填充缺失區(qū)域[8];MISF將圖像修復(fù)視為過濾任務(wù),以此實(shí)現(xiàn)高保真修復(fù)[9]。然而,這些方法修復(fù)的圖像依舊存在模糊偽影,因?yàn)閷W⒂谏梢曈X上結(jié)構(gòu)一致,而忽略了修復(fù)結(jié)果的紋理和穩(wěn)定性。針對(duì)目前圖像修復(fù)中存在語義不連貫、紋理不清晰的現(xiàn)象,CBAM(Convolutional Block Attention Module)[10]可以序列化地在特征圖通道和空間兩個(gè)維度產(chǎn)生注意力信息,極大地提升了網(wǎng)絡(luò)整體的魯棒性。膨脹卷積[11]可以增大網(wǎng)絡(luò)的整體感受野,增加修復(fù)圖像局部細(xì)節(jié)。本文構(gòu)建了一個(gè)以encoder-decoder為基礎(chǔ)的級(jí)聯(lián)密集生成對(duì)抗模型CDGAN(Cascade Densely Generative Adversarial Network),加入跳躍連接層,并添加了改進(jìn)的通道注意力與像素注意力相級(jí)聯(lián)的級(jí)聯(lián)注意力模塊和由不同膨脹率的膨脹卷積層組成的密集特征融合模塊,獲得了具有高級(jí)語義和清晰紋理的修復(fù)圖像。
1 方法
1.1 整體網(wǎng)絡(luò)框架
整體網(wǎng)絡(luò)采用encoder-decoder作為框架,編碼器通過下采樣的卷積層和池化層提取圖像特征,解碼器將提取的圖像特征進(jìn)行解碼重建,生成新的特征圖。為保留圖像的細(xì)節(jié)特征,模型下采樣前的卷積層和相應(yīng)的反卷積層之間添加跳躍連接,避免計(jì)算成本的快速增加[12]。模型下采樣與上采樣之間加入級(jí)聯(lián)注意力以及密集融合模塊,下采樣后的特征圖需更精細(xì)的處理。整體的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。
1.2 級(jí)聯(lián)注意力模塊
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像修復(fù)算法大多對(duì)圖像的通道和像素特征處理方式相同,但由于受損圖像的不同通道以及不同像素上的關(guān)鍵信息分布不均勻,圖像中與缺失區(qū)域相關(guān)的信息和無關(guān)信息的權(quán)重有顯著差異。一些像素在至少一種顏色(RGB)通道中具有非常低的強(qiáng)度,說明不同的通道特征具有完全不同的加權(quán)信息[13]。如果平等地處理這些信息,網(wǎng)絡(luò)將缺乏覆蓋所有像素和通道的能力,而且將極大地限制網(wǎng)絡(luò)的表征能力。
通道注意力機(jī)制可以自適應(yīng)的預(yù)測(cè)通道中潛在的關(guān)鍵特征,計(jì)算出輸入圖像各個(gè)通道的權(quán)重,使網(wǎng)絡(luò)模型將關(guān)注力更多放在信息量最大的通道特征上,阻抑信息量小的通道特征。級(jí)聯(lián)注意力模塊將通道注意力和像素注意力在通道級(jí)和像素級(jí)特征上結(jié)合,獲得自適應(yīng)學(xué)習(xí)權(quán)重并與輸入特征相乘得到關(guān)鍵特征,使網(wǎng)絡(luò)更多地關(guān)注高頻紋理和顏色保真度等有效信息。
如圖1所示,提取的特征圖通過全局平均池化壓縮通道方面的全局空間信息,得到一維矢量Pc
其中,Xc(i,j)表示在c通道Xc在位置(i,j)時(shí)的值,Hp表示全局平均池化,特征圖尺寸由C×H×W變成C×1×1。為了得到不同通道的權(quán)重CAc,特征經(jīng)過卷積層、ReLu激活函數(shù)、sigmoid激活層
其中,σ表示sigmoid激活函數(shù),δ表示ReLu函數(shù)。
輸入特征圖Fc和通道CAc權(quán)重逐元素相乘得到通道注意力的輸出F*c
F*c作為像素注意力的輸入,經(jīng)過卷積層、ReLu激活函數(shù)、sigmoid激活層,得到像素注意力權(quán)重PA
輸入F*c和PA逐元素相乘得到像素注意力的輸出,F(xiàn)all是整個(gè)級(jí)聯(lián)注意力模塊的輸出
1.3 密集特征融合模塊
特征融合在神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中應(yīng)用廣泛,利用不同層的特征來提高性能。圖像修復(fù)時(shí),盡可能大的感受野有利于修復(fù)破損區(qū)域。膨脹卷積通常被用來實(shí)現(xiàn)擴(kuò)大感受野,既增加了可作為輸入的區(qū)域,又不增加可學(xué)習(xí)權(quán)重的數(shù)量。然而,膨脹卷積的卷積核是稀疏的,應(yīng)用在計(jì)算過程中跳過了許多像素。雖然應(yīng)用大卷積核可以解決這一問題,但是引入了大量的模型參數(shù),加大計(jì)算成本。為了擴(kuò)大感受野的同時(shí)確保密集的卷積核,本文采用密集特征融合模塊,如圖3所示。
密集特征融合模塊首先使用卷積核為3的卷積層將輸入特征的通道數(shù)從256個(gè)減少到64個(gè),以減少網(wǎng)絡(luò)中冗余的參數(shù);這些加工過的特征被送到4個(gè)帶有不同膨脹率的膨脹卷積分支以提取多尺度特征,分別表示為fi(i=1,2,3,4)。除f1外,其余fi都有一個(gè)對(duì)應(yīng)的卷積核為3的卷積層,用Qi()表示。通過累積相加法,可以從各種稀疏多尺度特征的組合中得到密集的多尺度特征。Fi表示Qi()的輸出
文中使用1×1卷積融合各尺度特征。實(shí)驗(yàn)證明,密集特征融合模塊擴(kuò)大了一般擴(kuò)張卷積的感受野,并沒有增加網(wǎng)絡(luò)的參數(shù)量。
1.4 損失函數(shù)
為了更好地恢復(fù)缺失圖像中的語義和真實(shí)細(xì)節(jié),將像素重建損失、對(duì)抗損失、感知損失、風(fēng)格損失相結(jié)合共同訓(xùn)練CDGAN模型。像素重建損失表示為
其中,E(*)為分布函數(shù)的期望值,D和G分別為判別器和生成器,G(z)為輸入為z時(shí)生成器G生成的虛假樣本,pdata(x)是真實(shí)圖像的分布,z~pz(z)是破損圖像的分布。
為提高修復(fù)結(jié)果的整體一致性,本文添加風(fēng)格損失
其中,Gi(X)是根據(jù)σ的激活而構(gòu)造的大小為Ci×Ci的Gram矩陣,Ci為通道數(shù),X′表示預(yù)測(cè)圖像。
總的損失函數(shù)為
其中,ω1,ω2,ω3分別表示平衡不同損失項(xiàng)貢獻(xiàn)的超參數(shù),分別設(shè)置為1,0.1,250。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 數(shù)據(jù)集及環(huán)境配置
驗(yàn)證實(shí)驗(yàn)在Celeb A[14]人臉數(shù)據(jù)集和Places2[15]場(chǎng)景數(shù)據(jù)集上開展。實(shí)驗(yàn)設(shè)備的顯卡NVIDIA GeForce RTX 2080Ti GPU,操作系統(tǒng)Ubuntu 18.04,運(yùn)行環(huán)境為Pytorch框架,搭配Python的多個(gè)庫。模型訓(xùn)練選擇Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化,初始學(xué)習(xí)率設(shè)置為2×10-4。輸入任意尺寸的圖像,通過預(yù)處理將圖像尺寸裁剪為256×256大小。
2.2 評(píng)價(jià)指標(biāo)
為驗(yàn)證CDGAN模型的性能,采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似性指數(shù)(Structural Similarity, SSIM)[16]這兩個(gè)標(biāo)準(zhǔn)指標(biāo)對(duì)其定量評(píng)估。PSNR和SSIM可以反映模型重構(gòu)原始圖像內(nèi)容的能力
其中,h、w和p分別代表生成圖像的高度、寬度和顏色通道,μX、μX′、σXX′分別是X、X′的局部均值、標(biāo)準(zhǔn)差和互協(xié)方差。C1、C2是正則化常數(shù),為了避免在局部均值或標(biāo)準(zhǔn)差接近零時(shí)出現(xiàn)不穩(wěn)定的情況,C1、C2 通常取值為0.012,0.032。
2.3 對(duì)比實(shí)驗(yàn)與消融實(shí)驗(yàn)
為了直觀的展示本文模型CDGAN的有效性,將其與 MEDFE[17]、RFR[18]、PIC[19]、GMCNN[20]、DSI[21]算法的修復(fù)結(jié)果做了比較。圖4為CDGAN與以上方法在CelebA-HQ數(shù)據(jù)集上對(duì)中心規(guī)則掩碼修復(fù)的結(jié)果對(duì)比圖,輸入的圖像如圖4(a)所示,圖4(g)表示真實(shí)圖像。MEDFE的結(jié)果中包含扭曲的結(jié)構(gòu)和不和諧的面孔,RFR和PIC對(duì)圖像紋理的修復(fù)效果不理想而且存在明顯的偽影,GMCNN的修復(fù)結(jié)果對(duì)人臉進(jìn)行美顏磨皮,使圖像紋理失去真實(shí)性。CDGAN得到了更合理、自然和逼真的圖像。
表1為在CelebA-HQ人臉數(shù)據(jù)集和Places2場(chǎng)景數(shù)據(jù)集上,利用評(píng)價(jià)指標(biāo)對(duì)中心掩碼的圖像修復(fù)結(jié)果進(jìn)行定量分析,可以看出,CDGAN要優(yōu)于其他算法模型。
2.4 消融實(shí)驗(yàn)
為了驗(yàn)證密集特征融合模塊的表征能力,將不同膨脹率的4個(gè)膨脹卷積(4個(gè)膨脹卷積和組合操作)統(tǒng)一替換為膨脹率為2的3×3膨脹卷積(見表2和圖5)??芍?,帶有普通的膨脹卷積的網(wǎng)絡(luò)模型對(duì)破損區(qū)域結(jié)構(gòu)的色彩修復(fù)存在較多偽影,帶有密集特征融合模塊的模型預(yù)測(cè)得更合理,偽影更少,表明大而致密的感受野有利于完成大孔洞的圖像修復(fù)。
為證明級(jí)聯(lián)注意力模塊在CDGAN中的影響,比較了有/沒有級(jí)聯(lián)注意力模塊的結(jié)果,如圖6和表3所示。未加級(jí)聯(lián)注意力模塊的網(wǎng)絡(luò)模型得到的結(jié)果,對(duì)于眉毛的修復(fù)雜亂無章,眼睛也修復(fù)得無神,加有級(jí)聯(lián)注意力模塊的確實(shí)可以使網(wǎng)絡(luò)修復(fù)到更多關(guān)于缺失區(qū)域的紋理細(xì)節(jié)。
3 結(jié)論
本文提出的對(duì)破損圖像進(jìn)行紋理精細(xì)修復(fù)的CDGAN模型,以生成對(duì)抗網(wǎng)絡(luò)作為基礎(chǔ)框架,生成器采用encoder-decoder,加入改進(jìn)的級(jí)聯(lián)注意力模塊,調(diào)整通道特征,重定特征權(quán)重;添加密集特征融合模塊,借助于密集擴(kuò)張卷積增大網(wǎng)絡(luò)感受野,同時(shí)未增加網(wǎng)絡(luò)參數(shù),提升了網(wǎng)絡(luò)的整體性能;并在網(wǎng)絡(luò)的整體損失函數(shù)優(yōu)化上增加了風(fēng)格損失函數(shù),加強(qiáng)破損圖像的已知區(qū)域與破損區(qū)域之間的約束關(guān)系。CDGAN模型在不同場(chǎng)景圖像的修復(fù)中,能夠生成紋理清晰, 語義連貫的圖像,且在定性指標(biāo)PSNR、SSIM上表現(xiàn)良好。
參考文獻(xiàn)
[1]BERTALMIO M, SAPIRO G, CASELLES V, et al. Image inpainting[C]// 27th Annual Conference on Computer Graphics and Interactive Techniques. New York, 2000: 417-424.
[2]GOODFELLOW I, P0UGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
[3]PATHAK D, KRHENBHL P, DONAHUE J, et al. Context encoders: feature learning by inpainting[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Seattle, 2016: 2536-2544.
[4]IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Globally and locally consistent image completion[J]. ACM Transactions on Graphics, 2017, 36(4):107.
[5]RONNEBERGER O, PHILIPP F, THOMAS B. U-net: Convolutional networks for biomedical image segmentation[C]// 18th International Conference on Medical Image Computing and Computer-assisted Intervention. Springer, 2015: 234-241.
[6]YAN Z Y, LI X M, LI M, et al. Shift-net: Image inpainting via deep feature rearrangement[C]// 15th European Conference on Computer vision(ECCV). Munich, 2018: 1-17.
[7]YU J H, LIN Z, YANG J M, et al. Generative image inpainting with contextual attention[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 5505-5514.
[8]ZHOU Y Q, BARNES C, SHECHTMAN E, et al. TransFill: Reference-guided image inpainting by merging multiple color and spatial transformations[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition.Electr Network, 2021: 2266-2276.
[9]LI X G, GUO Q, LIN D, et al. MISF: Multi-level interactive siamese filtering for high-fidelity image inpainting[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition.New Orleans, 2022: 1859-1868.
[10] WOO S H, PARK J, LEE J Y, et al. Cbam: Convolutional block attention module[C]// 15th European Conference on Computer Vision.Munich, 2018: 3-19.
[11] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[C]// International Conference on Learning Representations (ICLR).PuertoRico, 2016: 28-36.
[12] 王豫峰. 基于殘差網(wǎng)絡(luò)的圖像缺失修復(fù)研究[J]. 現(xiàn)代計(jì)算機(jī), 2022, 28(12):69-74.
[13] HE K M, SUN J, TANG X O. Single image haze removal using dark channel prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(12): 2341-2353.
[14] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Seattle, 2016: 770-778.
[15] ZHOU B, KHOSLA A, LAPEDRIZA G, et al. Places: An image database for deep scene understanding[J]. Journal of Vision, 2017, 17(10): 296-296.
[16] HORE A, ZIOU D. Image quality metrics: PSNR vs. SSIM[C]//2010 20th International conference on pattern recognition. Istanbul, 2010:23-26.
[17] LIU H Y, JIANG B, SONG Y B, et al. Rethinking image inpainting via a mutual encoder-decoder with feature equalizations[C]// 16th European Conference on Computer Vision. Glasgow, 2020: 23-28.
[18] LI J, WANG N, ZHANG L, et al. Recurrent feature reasoning for image inpainting[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Seattle, 2020: 7757-7765.
[19] ZHENG C X, CHAM T J, CAI J F. Pluralistic image completion[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 1438-1447.
[20] WANG Y, TAO X, QI X J, et al. Image inpainting via generative multi-column convolutional neural networks[C]// 32nd International Conference on Neural Information Processing Systems. Vancouver, 2018: 329-338.
[21] PENG J L, LIU D, XU S C, et al. Generating diverse structure for image inpainting with hierarchical VQ-VAE[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021: 10770-10779.