張家駿,廉敬,*,劉冀釗,董子龍,張懷堃
(1.蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730000;2.蘭州大學(xué) 信息科學(xué)與工程學(xué)院,甘肅 蘭州 730000)
圖像修復(fù)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)重要任務(wù),旨在修復(fù)損壞、褪色和含噪圖像。以合理逼真的內(nèi)容和正確的上下文語(yǔ)意填充圖像的孔洞區(qū)域,使之全景還原,提升畫(huà)面質(zhì)感。除此之外,圖像修復(fù)技術(shù)還可用作圖像編輯工具,如:移除圖像中不需要的目標(biāo)。
圖像修復(fù)的早期方法可分為基于擴(kuò)散的方法和基于塊的方法?;跀U(kuò)散的方法是利用圖像中已知的像素信息來(lái)推斷未知區(qū)域的像素值。這種方法在處理較大的缺失區(qū)域或復(fù)雜的圖像結(jié)構(gòu)時(shí)無(wú)法準(zhǔn)確地恢復(fù)缺失的細(xì)節(jié)信息?;趬K的方法是將圖像分割成塊,首先從待修補(bǔ)區(qū)域的邊界上選取一個(gè)像素點(diǎn),同時(shí)以該點(diǎn)為中心,根據(jù)圖像的紋理特征,選取大小合適的紋理塊,然后在待修補(bǔ)區(qū)域的周圍尋找與之最相近的紋理匹配塊來(lái)替代該紋理塊。然而,當(dāng)關(guān)鍵區(qū)域和重要結(jié)構(gòu)缺損時(shí)這種方法面臨挑戰(zhàn)。
上述兩種方法因無(wú)法處理結(jié)構(gòu)復(fù)雜的圖像,常常需要結(jié)合深度學(xué)習(xí)的方法包括基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[1]、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[2]、注意力機(jī)制和變分自編碼器(Variational Autoencoders,VAE)[3]修復(fù)方法等來(lái)提高處理結(jié)構(gòu)復(fù)雜圖像的能力。現(xiàn)有的基于結(jié)構(gòu)特征的圖像修復(fù)方法大致分為兩類:非結(jié)構(gòu)指導(dǎo)修復(fù)方法[4-8]和結(jié)構(gòu)指導(dǎo)修復(fù)方法。非結(jié)構(gòu)指導(dǎo)修復(fù)方法包括單階段修復(fù)網(wǎng)絡(luò)和多階段修復(fù)網(wǎng)絡(luò)。這類方法通常包含多個(gè)修復(fù)階段或子網(wǎng)絡(luò),網(wǎng)絡(luò)在訓(xùn)練時(shí)需要按照特定的順序執(zhí)行。使用這類修復(fù)方法必然會(huì)增加整個(gè)網(wǎng)絡(luò)的復(fù)雜度和訓(xùn)練難度,也限制了網(wǎng)絡(luò)的靈活性和適應(yīng)性。在實(shí)際應(yīng)用中,多階段網(wǎng)絡(luò)也會(huì)導(dǎo)致錯(cuò)誤的累積和傳播,影響最終的修復(fù)結(jié)果。結(jié)構(gòu)指導(dǎo)修復(fù)方法[9-12]主要是通過(guò)圖像的抽象結(jié)構(gòu)特征指導(dǎo)圖像修復(fù)。這類方法大多選擇先修復(fù)圖像的結(jié)構(gòu),再依靠完整的結(jié)構(gòu)特征修復(fù)圖像。網(wǎng)絡(luò)設(shè)計(jì)為單方向單路結(jié)構(gòu),這樣的設(shè)計(jì)導(dǎo)致了圖像的修復(fù)效果過(guò)于依賴結(jié)構(gòu)信息。如果圖像的結(jié)構(gòu)存在噪聲或邊緣不明顯,這類方法就無(wú)法準(zhǔn)確地修復(fù)缺失的區(qū)域。
本文基于深度學(xué)習(xí),提出一種圖像平滑結(jié)構(gòu)指導(dǎo)圖像修復(fù)的網(wǎng)絡(luò),網(wǎng)絡(luò)由圖像平滑結(jié)構(gòu)提取網(wǎng)絡(luò)Ns和圖像修復(fù)網(wǎng)絡(luò)Ninp并行組成。其中Ns網(wǎng)絡(luò)由膨脹卷積組成,Ninp網(wǎng)絡(luò)由殘差門卷積組成。相比于高分辨率的復(fù)雜原始圖像,圖像的不規(guī)則平滑結(jié)構(gòu)更容易修復(fù),我們用容易修復(fù)的平滑結(jié)構(gòu)圖像指導(dǎo)修復(fù)困難的高分辨率圖像,無(wú)疑會(huì)降低整個(gè)圖像修復(fù)的復(fù)雜程度。Ns網(wǎng)絡(luò)對(duì)Ninp網(wǎng)絡(luò)的指導(dǎo)功能通過(guò)我們提出的多尺度特征指導(dǎo)(Multi-Scale Features Guidance,MFG)模塊實(shí)現(xiàn),Ninp網(wǎng)絡(luò)的解碼層利用MFG 模塊特征均衡后的指導(dǎo)信息進(jìn)行圖像重建。MFG 模塊的設(shè)計(jì)融入transformer,利用transformer 在局部和全局上下文之間強(qiáng)大的建模能力,使網(wǎng)絡(luò)能夠?qū)W習(xí)到圖像中不同區(qū)域之間的依賴關(guān)系。本文提出的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地避免網(wǎng)絡(luò)中錯(cuò)誤信息的累加和傳播,MFG 的指導(dǎo)信息能夠自動(dòng)檢驗(yàn)并及時(shí)糾正錯(cuò)誤的填充內(nèi)容,保證修復(fù)結(jié)果的準(zhǔn)確性。除此以外,我們的方法不同于之前結(jié)構(gòu)指導(dǎo)修復(fù)的方法。之前的方法大多是先重建出圖像的結(jié)構(gòu),然后在圖像結(jié)構(gòu)的基礎(chǔ)上重建出完整圖像。而在我們的方法中,結(jié)構(gòu)重建和圖像重建是同步進(jìn)行的,圖像的結(jié)構(gòu)信息不作為次級(jí)階段網(wǎng)絡(luò)的輸入。這種設(shè)計(jì)提高了圖像修復(fù)的準(zhǔn)確性,圖像修復(fù)結(jié)果與結(jié)構(gòu)指導(dǎo)信息之間的依賴性較低,圖像修復(fù)結(jié)果不會(huì)因?yàn)閳D像結(jié)構(gòu)中存在噪聲或模糊而受到影響。
傳統(tǒng)的修復(fù)方法主要包括基于擴(kuò)散的方法和基于塊的方法。傳統(tǒng)方法更加依賴于對(duì)圖像的先驗(yàn)假設(shè),導(dǎo)致對(duì)于復(fù)雜結(jié)構(gòu)的圖像處理存在一定的局限性。
基于擴(kuò)散的方法是一種基于局部信息的修復(fù)方法,最早由Bartalmio 等人[13]引入到圖像處理中,利用待修補(bǔ)區(qū)域的邊緣信息,采用一種由粗到精的方法來(lái)估計(jì)等照度線的方向,利用傳播機(jī)制將信息傳播到待修補(bǔ)的區(qū)域內(nèi)。在基于擴(kuò)散的圖像修復(fù)方法中,最著名的方法是各向異性擴(kuò)散[14],該方法的基本原理是根據(jù)圖像中像素的梯度信息和鄰域像素差異計(jì)算擴(kuò)散系數(shù),調(diào)整各向異性擴(kuò)散的強(qiáng)度和方向。除此之外,全變分方法[15]通過(guò)對(duì)歐拉-拉格朗日偏微分方程求解來(lái)迭代傳播信息,但視覺(jué)連貫性較差。隨后,Chan 等人[16]又提出一種曲率驅(qū)動(dòng)擴(kuò)散模型并將其運(yùn)用在古壁畫(huà)修復(fù)中,該模型彌補(bǔ)了全變分模型修復(fù)視覺(jué)不連貫的缺陷。這類方法本質(zhì)上都是基于偏微分方程和變分法的修復(fù)算法,只能處理較小孔洞的修復(fù),無(wú)法修補(bǔ)缺失區(qū)域的合理結(jié)構(gòu)。
基于塊的方法是利用圖像塊的紋理合成技術(shù)填充缺失區(qū)域。該方法的核心思想是:將圖像分成許多小的塊,在缺失區(qū)域的周圍尋找與之相近的紋理塊來(lái)匹配缺失區(qū)域,借此恢復(fù)整個(gè)圖像。基于塊的方法主要有基于塊匹配的修復(fù)方法、基于塊內(nèi)插的修復(fù)方法和基于塊稀疏表示的修復(fù)方法[17]。Irani 等人[18]最早提出一種多尺度圖像匹配算法被廣泛的應(yīng)用在圖像修復(fù)任務(wù)中。隨后Criminisi 等人[19]提出一種區(qū)域順序填充方法,根據(jù)邊緣像素點(diǎn)的填充優(yōu)先級(jí),在剩余區(qū)域查找與優(yōu)先級(jí)最高的像素點(diǎn)相似的像素塊,對(duì)缺失孔洞進(jìn)行填充,但這種方法使用信息有限,在高頻時(shí)效果較差。Barnes 等人[20]提出一種塊匹配算法,利用圖像的局部相關(guān)性實(shí)現(xiàn)快速的相鄰塊匹配。Huang 等人[21]利用圖像中間的平行結(jié)構(gòu),提出了一種塊填充的自動(dòng)補(bǔ)全算法。這類方法在面對(duì)大面積缺損且紋理結(jié)構(gòu)復(fù)雜的圖像時(shí),無(wú)法對(duì)圖像深層的語(yǔ)義信息進(jìn)行分析。
在基于深度學(xué)習(xí)的方法中,Pathak等人[22]早期提出一種無(wú)監(jiān)督的視覺(jué)特征學(xué)習(xí)方法,提出的架構(gòu)通過(guò)逐像素重建損失和對(duì)抗損失來(lái)訓(xùn)練網(wǎng)絡(luò)。但自動(dòng)編碼器網(wǎng)絡(luò)的生成能力欠缺,導(dǎo)致了結(jié)果的不可信。Yang等人[23]提出了一種殘差學(xué)習(xí)方法,該方法旨在學(xué)習(xí)缺失區(qū)域的丟失信息,當(dāng)關(guān)鍵結(jié)構(gòu)缺失,全局圖像和局部不一致時(shí),該方法無(wú)法實(shí)現(xiàn)有效恢復(fù)。為此,Iizuka等人[4]引入了全局和局部上下文判別器來(lái)訓(xùn)練全卷積修復(fù)網(wǎng)絡(luò)。在Iizuka工作基礎(chǔ)上,Demir等人[5]進(jìn)一步提出了結(jié)合全局GAN和新型PatchGAN鑒別器,以達(dá)到全局結(jié)構(gòu)一致性和更好的紋理細(xì)節(jié)。以感受野為關(guān)鍵點(diǎn),Chen等人[24]結(jié)合了全局和局部判別器,提高了圖像全局一致性和特征利用率。同樣,Quan等人[25]以不同感受野為基礎(chǔ),提出了一種局部和全局細(xì)化的三階段修復(fù)網(wǎng)絡(luò)。Zhang等人[26]基于全局和局部判別器,加入了感知操作,以感知損失引導(dǎo)編碼特征接近真實(shí)值。在之前全局和局部判別器基礎(chǔ)上,Yu等人[7]提出了一種利用訓(xùn)練獲取周圍圖像特征的方法,比GLCIC模型[4]收斂更快,但是無(wú)法判斷修復(fù)位置與整個(gè)區(qū)域的相互關(guān)系。Liu等人[27]關(guān)注到不規(guī)則孔洞圖像填充問(wèn)題,提出了部分卷積,通過(guò)過(guò)濾有效像素,解決了修復(fù)圖像產(chǎn)生的顏色差異和模糊的偽影問(wèn)題。隨后,針對(duì)部分卷積,Yu等人[6]提出了門卷積,門卷積的動(dòng)態(tài)特征選擇機(jī)制彌補(bǔ)了部分卷積的不足,顯著提高了圖像的顏色一致性和修復(fù)質(zhì)量。Xie等人[28]提出一種可學(xué)習(xí)的注意力圖模塊,用于端到端的特征重歸一化和掩碼更新學(xué)習(xí),能夠有效地適應(yīng)不規(guī)則孔洞和卷積層的傳播?,F(xiàn)有的圖像修復(fù)技術(shù)可以生成合理的結(jié)果和語(yǔ)義上的有效輸出,但是每種掩膜圖像只能生成一個(gè)合理結(jié)果。Zheng等人[29]開(kāi)創(chuàng)性的提出了一種多元圖像修復(fù)方法。類似的,Zhao等人[30]通過(guò)將實(shí)例圖像空間和修復(fù)圖像空間映射到低維多樣性空間的方式實(shí)現(xiàn)了多結(jié)果修復(fù)。GAN網(wǎng)絡(luò)在訓(xùn)練中常出現(xiàn)梯度消失或梯度爆炸問(wèn)題,Xu 等人[31]提出一種重構(gòu)采樣和多粒度生成的對(duì)抗策略,優(yōu)化了GAN 的訓(xùn)練過(guò)程。在圖像超分辨率重建任務(wù)中,Yi 等人[8]提出了一個(gè)上下文殘差聚合機(jī)制,可實(shí)現(xiàn)對(duì)2K 圖像的修復(fù)。在結(jié)合圖像結(jié)構(gòu)實(shí)現(xiàn)重建的工作中,Peng 等人[32]受 到VQ-VAE[33]的啟發(fā),通過(guò)VQ-VAE 中的矢量量化對(duì)結(jié)構(gòu)信息的離散分布進(jìn)行自回歸建模,從分布中采樣生成多樣的高質(zhì)量結(jié)構(gòu)。Ren 等人[11]提出了一種結(jié)構(gòu)和紋理生成器組合修復(fù)圖像的網(wǎng)絡(luò),將邊緣平滑處理后的圖像作為結(jié)構(gòu)表示引導(dǎo)圖像修復(fù)。Yang 等人[34]提出一種由粗到細(xì)的殘差修復(fù)網(wǎng)絡(luò),先修復(fù)圖像的低頻粗糙輪廓,再將細(xì)節(jié)作為殘差添加到粗糙輪廓中。除了深度學(xué)習(xí)外,我們發(fā)現(xiàn)基于脈沖耦合神經(jīng)網(wǎng)絡(luò)的類腦算法[35-36]在圖像修復(fù)領(lǐng)域也具有較大潛力。
本文提出的圖像修復(fù)方法由兩個(gè)并行網(wǎng)絡(luò)組成:圖像結(jié)構(gòu)修復(fù)網(wǎng)絡(luò)Ns和圖像全文修復(fù)網(wǎng)絡(luò)Ninp,如圖1 所示。Ns網(wǎng)絡(luò)的目標(biāo)是重建受損圖像的平滑結(jié)構(gòu)。Ninp網(wǎng)絡(luò)的目標(biāo)是修復(fù)受損圖像的全文信息。為了匹配圖像的結(jié)構(gòu)和紋理,我們提出多尺度特征指導(dǎo)(MFG)模塊,利用MFG 模塊特征均衡后的信息指導(dǎo)Ninp網(wǎng)絡(luò)完成受損圖像的重建。和孔洞內(nèi)的無(wú)效像素區(qū)域組成。Ns網(wǎng)絡(luò)和Ninp網(wǎng)絡(luò)的特征處理層由殘差門卷積[6,37]和膨脹卷積[38]組成,如圖1 所示??紤]到傳統(tǒng)卷積和其他采樣方式[39]在訓(xùn)練中會(huì)出現(xiàn)填充內(nèi)容模糊和顏色差異等問(wèn)題,因此在設(shè)計(jì)網(wǎng)絡(luò)時(shí),我們使用門卷積來(lái)消除掩碼區(qū)域偽影,實(shí)現(xiàn)填充內(nèi)容與圖像原有內(nèi)容的連貫。在圖像生成任務(wù)中,膨脹卷積被用來(lái)擴(kuò)大感受野,使網(wǎng)絡(luò)能夠有效地捕捉更大范圍的上下文信息。此外,為了穩(wěn)定訓(xùn)練過(guò)程,防止梯度消失或梯度爆炸,我們?cè)贜inp網(wǎng)絡(luò)的每個(gè)卷積層中引入了光譜歸一化方法[40],通過(guò)限制權(quán)重矩陣的變化范圍,使判別器滿足Lipschitz 條件,提高模型的魯棒性。
圖1 本文方法的總架構(gòu)Fig.1 Overall architecture of the proposed method in this paper
在對(duì)受損圖像重建的過(guò)程中,Ns網(wǎng)絡(luò)主要對(duì)圖像做全變分平滑處理,提取圖像的結(jié)構(gòu)信息。平滑結(jié)構(gòu)圖像包含了原圖像中的多元信息,如圖像的邊緣、紋理、形狀、顏色和亮度。不同于邊緣結(jié)構(gòu),平滑結(jié)構(gòu)主要用于表現(xiàn)圖像中的變化程度。在訓(xùn)練過(guò)程中,Ns網(wǎng)絡(luò)對(duì)Ninp網(wǎng)絡(luò)的指導(dǎo)通過(guò)MFG 模塊實(shí)現(xiàn),MFG 模塊的輸入包含三個(gè)不同維度的多特征空間,特征空間尺寸分別為32×32,64×64 和128×128。特征空間由Ns網(wǎng)絡(luò)解碼層的完整平滑結(jié)構(gòu)圖像特征和Ninp網(wǎng)絡(luò)編碼層的受損圖像特征融合而成。平滑結(jié)構(gòu)圖像經(jīng)過(guò)平滑、濾波和細(xì)節(jié)模糊處理后更易于分析,比起原始受損圖像也更容易修復(fù)。因此,我們將相同尺寸的完整結(jié)構(gòu)圖像和缺損圖像進(jìn)行匹配,通過(guò)MFG 模塊對(duì)兩種特征信息進(jìn)行建模,建立聯(lián)系。特征均衡后的信息根據(jù)不同卷積層尺度傳播到Ninp網(wǎng)絡(luò)的解碼層,指導(dǎo)信息即為圖1 中的結(jié)構(gòu)特征指導(dǎo)(Structural Features Guidance,SFG)層。在深度學(xué)習(xí)中,不同感受野可以捕捉不同尺度的特征信息。其中,較小的感受野適合捕捉局部細(xì)節(jié)信息,較大的感受野能夠捕捉范圍更廣的上下文信息。不同感受野的設(shè)置有助于模型全面地理解數(shù)據(jù)特征,保證重建后的圖像上下文語(yǔ)義一致,Quan 等人[25]已證明不同感受野在圖像修復(fù)中的有效性。因此,我們?cè)贜inp網(wǎng)絡(luò)中設(shè)置了三個(gè)不同感受野使網(wǎng)絡(luò)充分感知圖像中的紋理細(xì)節(jié),建立上下文之間的聯(lián)系。
其中:i表示對(duì)應(yīng)圖像的三個(gè)尺度,分別是32×32,64×64 和256×256。Igs(i)表示原始完整圖像的平滑結(jié)構(gòu),ISou(ti)表示Ns網(wǎng)絡(luò)的生成結(jié)果。M表示二進(jìn)制掩碼(mask=1)。LShole表示孔洞區(qū)域的圖像重建損失,LSvalid表示非缺損區(qū)域的圖像重建損失。表示Ns網(wǎng)絡(luò)的重建總損失,λrec為平衡因子。
圖像全文修復(fù)網(wǎng)絡(luò)Ninp的目標(biāo)是生成上下文語(yǔ)義一致,色彩紋理完整的圖像。Ninp網(wǎng)絡(luò)的損失函數(shù)設(shè)置包括重建損失、對(duì)抗損失、風(fēng)格損失和感知損失。重建損失設(shè)置與Ns網(wǎng)絡(luò)相類似,如下式所示:
在重建圖像和真實(shí)值之間的計(jì)算中,我們分別計(jì)算三個(gè)尺度的重建損失,然后對(duì)不同尺寸的損失值累加求和,如圖2 所示。多尺度重建損失能夠使模型在不同尺度上更好的捕捉圖像的細(xì)節(jié)和結(jié)構(gòu),也能更好地理解圖像的全局和局部特征,從而生成具有更多細(xì)節(jié)的圖像。
圖2 Ninp網(wǎng)絡(luò)中解碼層與真實(shí)值之間不同尺度的重建損失Fig.2 Reconstruction losses of different scales between the decoding layer and ground truth values in the network
對(duì)抗損失的設(shè)置采用LSGAN方法[41]。與傳統(tǒng)GAN 的對(duì)抗損失相比,這種方法可以使生成器產(chǎn)生更真實(shí)的結(jié)果,降低了梯度消失或梯度爆炸的風(fēng)險(xiǎn),從而提高模型的穩(wěn)定性和生成效果。對(duì)抗損失定義如下:
其中:LD為判別器對(duì)抗損失,LG為生成器對(duì)抗損失。受諸多圖像修復(fù)工作[9,27-28,42]啟發(fā),我們還設(shè)置了感知損失[43]和風(fēng)格損失[44]。我們使用訓(xùn)練好的VGG-16 網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,在空間特征中計(jì)算兩者的損失。通過(guò)對(duì)圖像語(yǔ)義信息和紋理特征的比較,感知損失能夠有效的衡量生成圖像和真實(shí)值之間的差異,進(jìn)而優(yōu)化生成模型。上述的風(fēng)格損失中使用格萊姆矩陣捕捉圖像的風(fēng)格特征,計(jì)算圖像之間的風(fēng)格差異。格萊姆矩陣是基于特征圖的空間信息進(jìn)行計(jì)算的,它可以將特征圖通道之間的相關(guān)性轉(zhuǎn)化為矩陣的形式。這種相關(guān)性可以反映出圖像的紋理和結(jié)構(gòu)信息。感知損失和風(fēng)格損失定義如下:
其中:Fi表示預(yù)先訓(xùn)練好的VGG-16 網(wǎng)絡(luò)中第i 層特征圖。Gi表示格萊姆矩陣,代表了特征之間的協(xié)方差矩陣以及每種特征之間的相關(guān)性。綜合上述,圖像全文修復(fù)網(wǎng)絡(luò)Ninp的總損失為:
其中,λg和λp都為平衡因子。
圖像修復(fù)任務(wù)的難點(diǎn)在于面對(duì)復(fù)雜的紋理和結(jié)構(gòu)時(shí),網(wǎng)絡(luò)模型難以重建出語(yǔ)義合理,內(nèi)容連貫的圖像。圖像結(jié)構(gòu)的指導(dǎo)能夠在修復(fù)過(guò)程中準(zhǔn)確的定位圖像受損區(qū)域,然后根據(jù)結(jié)構(gòu)信息與受損圖像之間的匹配關(guān)系進(jìn)行修復(fù)。為了建立結(jié)構(gòu)特征和受損圖像特征之間的聯(lián)系,我們提出MFG 模塊對(duì)圖像關(guān)系進(jìn)行建模,并對(duì)Ninp網(wǎng)絡(luò)的解碼層進(jìn)行指導(dǎo)。如圖3 所示,MFG 模塊的輸入為三個(gè)不同尺寸的特征空間。不同特征空間的注意力映射矩陣采用transformer encoder 計(jì)算。Transformer 方法可以將圖像所有像素展平進(jìn)行位置編碼,有利于網(wǎng)絡(luò)捕捉全局上下文的信息,建立圖像中不同位置之間的依賴關(guān)系。不同于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)需要逐層逐通道計(jì)算,transformer 可以并行處理輸入序列,擁有更高的計(jì)算效率和處理速度。特征空間的注意力映射計(jì)算如下所示:
圖3 MFG 模塊結(jié)構(gòu)圖Fig.3 MFG module architecture
其中:Wq和Wk是1×1 卷積濾波器。fi和fj分別表示特征空間中第i個(gè)位置和第j個(gè)位置的特征。AMij表示對(duì)應(yīng)特征空間的注意力映射。βk,j,i表示第k個(gè)特征空間在合成第j個(gè)區(qū)域時(shí),模型對(duì)第i個(gè)位置的關(guān)注程度。最后MFG 的輸出為O,通過(guò)不同的尺度變換分別對(duì)Ninp網(wǎng)絡(luò)的解碼層進(jìn)行指導(dǎo),計(jì)算公式如下所示:
其中:γ,α和δ分別為平衡權(quán)重的可學(xué)習(xí)尺度參數(shù),初始值設(shè)置為0。F1,F(xiàn)2和F3分別對(duì)應(yīng)32×32,64×64 和256×256 的特征空間。
本節(jié)闡述了實(shí)驗(yàn)中選用的數(shù)據(jù)集、對(duì)比方法和詳細(xì)的參數(shù)設(shè)計(jì)。通過(guò)對(duì)比實(shí)驗(yàn),驗(yàn)證本文方法的優(yōu)越性。最后,通過(guò)消融實(shí)驗(yàn)驗(yàn)證了本文利用結(jié)構(gòu)特征對(duì)修復(fù)網(wǎng)絡(luò)指導(dǎo)的有效性。
本文采用了五種廣泛使用的圖像質(zhì)量評(píng)估指標(biāo):平均絕對(duì)誤差(Mean Absolute Error,MAE)、學(xué)習(xí)感知圖像塊相似性(Learned Perceptual Image Patch Similarity,LPIPS)、弗雷歇初始距離(Frechet Inception Distance,F(xiàn)ID)、結(jié)構(gòu)相似性(Structure Similarity Index,SSIM)和峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)。不同的評(píng)價(jià)指標(biāo)可以從不同方面反應(yīng)圖像的重建質(zhì)量[49],這五個(gè)常用指標(biāo)都用于度量圖像之間的相似性和失真度。實(shí)驗(yàn)中測(cè)試掩碼使用Liu 等人[27]公布的大型掩碼數(shù)據(jù)集,該數(shù)據(jù)集共有12 000 張不規(guī)則掩碼圖像,專門用于圖像修復(fù)任務(wù)。根據(jù)掩碼大小,依次選取了1%~10%,10%~20%,20%~30%,30%~40%,40%~50% 和50%~60%六張掩碼圖像用于測(cè)試,如圖4 所示。每張測(cè)試圖像的分辨率為256×256。表1~表3列出了使用不同比例掩碼圖像測(cè)試下,本文方法與其他五種先進(jìn)算法之間的測(cè)試數(shù)據(jù)對(duì)比。通過(guò)定量分析發(fā)現(xiàn),我們的方法雖然沒(méi)有在每項(xiàng)指標(biāo)中都得到最好的結(jié)果,但從整體數(shù)據(jù)來(lái)看存在明顯的優(yōu)勢(shì)。
表1 使用CelebA-HQ 數(shù)據(jù)集測(cè)試Tab.1 Tested on the CelebA-HQ dataset
表3 使用Places2 數(shù)據(jù)集測(cè)試Tab.3 Tested on the Places2 dataset
圖4 定量比較中所選取的6 種掩碼圖像Fig.4 Six mask images selected for quantitative comparison
我們用本文方法與其他五種圖像修復(fù)方法在CelebA-HQ,Paris Street View 和Places2 數(shù)據(jù)集上做相同掩碼區(qū)域的測(cè)試,如圖5 所示。比較方法包括GC,PIC,MEDFE,RFR 和MADF。首先,在CelebA-HQ 數(shù)據(jù)集上,本文方法修復(fù)出的圖像更加準(zhǔn)確細(xì)膩,可以完整地恢復(fù)出人物面部特征,并且沒(méi)有產(chǎn)生模糊和偽影。其他方法的修復(fù)結(jié)果則出現(xiàn)了偽影、像素模糊和語(yǔ)義不合理等一些問(wèn)題且重建內(nèi)容不符合人眼的視覺(jué)特性。其次,在Paris Street View 數(shù)據(jù)集測(cè)試中,PIC 方法存在明顯的噪聲(第三排和第四排的第六張圖像),受損圖像的填充紋理出現(xiàn)語(yǔ)義錯(cuò)誤。最后,在Places2 數(shù)據(jù)集測(cè)試中,RFR 和GC 方法的測(cè)試結(jié)果較為模糊(第五排的第五張和第七張圖像),其中RFR 測(cè)試結(jié)果的不同信息(山脈和天空)發(fā)生混疊且邊緣不明顯。MADF 和RFR 方法得到的結(jié)果雖然合理,但是出現(xiàn)了明顯的較大像素塊(第六排的第三張和第五張圖像),像素塊區(qū)域分辨率低,導(dǎo)致圖像整體銜接不自然。在實(shí)際圖像測(cè)試中,本文方法的測(cè)試結(jié)果完全符合上下文語(yǔ)意,并且修復(fù)后的圖像沒(méi)有模糊的紋理塊和偽影。
圖5 本文方法與其他方法在三種數(shù)據(jù)集上的定性比較。前兩排為CelebA-HQ 數(shù)據(jù)集圖像,第三和第四排為Paris Street-View 數(shù)據(jù)集圖像,最后三排為Places2 數(shù)據(jù)集圖像。每組圖像都使用不同的掩碼進(jìn)行測(cè)試。GT 表示圖像真實(shí)值。Fig.5 Qualitative comparison between the proposed method and other methods on three datasets.The first two rows display images from the CelebA-HQ dataset,the third and fourth rows show images from the Paris StreetView dataset,and the last three rows present images from the Places2 dataset.Different masks were used for testing in each image set.GT represents the ground truth.
為了驗(yàn)證Ns網(wǎng)絡(luò)和Ninp網(wǎng)絡(luò)拼接后的特征空間通過(guò)MFG 模塊指導(dǎo)圖像修復(fù)的有效性,我們將MFG 模塊換為簡(jiǎn)單的特征融合模塊進(jìn)行訓(xùn)練,將訓(xùn)練后的網(wǎng)絡(luò)與原網(wǎng)絡(luò)進(jìn)行比較,比較結(jié)果如圖6 所示。第一組圖像中,沒(méi)有MFG 模塊的網(wǎng)絡(luò)無(wú)法合理的修復(fù)出人物的眼睛特征。修復(fù)結(jié)果和結(jié)構(gòu)指導(dǎo)圖像中的人物眼睛一大一小,無(wú)法合理的修復(fù)出圖像。圖6 中的第二組圖像也是如此。沒(méi)有MFG 模塊網(wǎng)絡(luò)的修復(fù)結(jié)果中,人物的嘴部結(jié)構(gòu)變形且對(duì)應(yīng)的結(jié)構(gòu)指導(dǎo)信息沒(méi)有這一區(qū)域的結(jié)構(gòu)特征。
圖6 有MFG 模塊網(wǎng)絡(luò)與無(wú)MFG 模塊網(wǎng)絡(luò)的修復(fù)結(jié)果比較Fig.6 Comparison of inpainting results between networks with MFG module and networks without MFG module
除了定性分析,還對(duì)測(cè)試結(jié)果進(jìn)行了定量比較,如表4 所示。無(wú)MFG 模塊的網(wǎng)絡(luò)修復(fù)結(jié)果在五種客觀指標(biāo)下都低于有MFG 模塊的網(wǎng)絡(luò)。通過(guò)實(shí)驗(yàn),證明了只將結(jié)構(gòu)指導(dǎo)特征融合,無(wú)法有效的指導(dǎo)網(wǎng)絡(luò)解碼出語(yǔ)義合理的完整圖像。MFG 模塊對(duì)圖像修復(fù)任務(wù)的貢獻(xiàn)在于建立了受損圖像和圖像結(jié)構(gòu)之間的聯(lián)系,使修復(fù)結(jié)果內(nèi)容合理且滿足上下文語(yǔ)義的一致。
表4 消融實(shí)驗(yàn)定量分析Tab.4 Quantitative analysis of ablation experiments
為了驗(yàn)證所提出的網(wǎng)絡(luò)結(jié)構(gòu)和MFG 模塊的有效性,選擇了MEDFE[9]和BGCI[50]網(wǎng)絡(luò)與本文方法進(jìn)行置信度比較,這兩種網(wǎng)絡(luò)的設(shè)計(jì)方式和功能組成模塊與本文類似,適合與本文方法進(jìn)行橫向?qū)Ρ葘?shí)驗(yàn)。MEDFE 網(wǎng)絡(luò)是通過(guò)結(jié)構(gòu)和紋理的特征均衡對(duì)解碼器進(jìn)行指導(dǎo),與本文方法的平滑結(jié)構(gòu)特征指導(dǎo)修復(fù)類似。BGCI 網(wǎng)絡(luò)是基于transformer 進(jìn)行的圖像修復(fù),與本文方法中基于transformer 的MFG 模塊類似。在圖像修復(fù)中,置信度是指網(wǎng)絡(luò)對(duì)修復(fù)結(jié)果的可信度,一般表示修復(fù)結(jié)果的可靠性和質(zhì)量。在實(shí)驗(yàn)中,依次對(duì)MEDFE 網(wǎng)絡(luò)中接受指導(dǎo)信息的解碼器部分、BGCI 網(wǎng)絡(luò)中transformer 后的解碼器部分和本文網(wǎng)絡(luò)中MFG 模塊后的解碼器部分進(jìn)行了置信度分析。為了便于觀察,將置信度分布的像素矩陣可視化為256×256 的圖像,如圖7 所示。
圖7 置信度分布可視化圖示Fig.7 Visualization of the confidence level distribution
從置信度分布的可視化結(jié)果來(lái)看,顏色越暗的區(qū)域表示預(yù)測(cè)的生成結(jié)果區(qū)域與圖像真實(shí)值越接近,顏色越亮的區(qū)域表示預(yù)測(cè)的生成結(jié)果區(qū)域與圖像真實(shí)值越不一致。第一組人臉圖像測(cè)試中,BGCI 方法在人物五官的重建能力方面明顯不如MEDFE 和本文方法。而MEDFE 方法的總體置信度分布低于本文方法。第二組街景圖像測(cè)試中,本文方法在整體修復(fù)和細(xì)節(jié)修復(fù)方面都勝于其他兩種方法。通過(guò)與本文方法類似結(jié)構(gòu)和類似模塊的橫向?qū)Ρ葘?shí)驗(yàn)發(fā)現(xiàn),本文網(wǎng)絡(luò)中的指導(dǎo)設(shè)計(jì)和MFG 模塊對(duì)圖像修復(fù)任務(wù)具有較好的效果。
目標(biāo)移除就是去除圖像中不需要或不想要的對(duì)象,以改善圖像的外觀或滿足特定的需求。為了驗(yàn)證我們的方法可以有效地移除圖像中不需要的目標(biāo),在Places2 和Paris Street View 數(shù)據(jù)集上進(jìn)行了測(cè)試并做出定性分析。定性分析如圖8 所示。MADF 方法的測(cè)試結(jié)果中存在掩碼區(qū)域的輪廓偽影,并且目標(biāo)移除后的區(qū)域存在模糊的紋理塊,該方法的目標(biāo)移除效果并不理想。GC 方法雖然可以在Paris Street View 數(shù)據(jù)集上完美地移除圖像中的目標(biāo),但是在Places2 數(shù)據(jù)集上目標(biāo)移除后的圖像出現(xiàn)了偽影和模糊的紋理塊。本文方法可以成功地將圖像中的目標(biāo)人物移除。目標(biāo)移除后的圖像在視覺(jué)上實(shí)現(xiàn)了逼真的效果,且圖像的掩碼區(qū)域沒(méi)有產(chǎn)生模糊和偽影。
圖8 不同場(chǎng)景下我們方法與其他兩種方法的目標(biāo)移除效果對(duì)比(GT 表示圖像真實(shí)值,Mask 表示掩碼圖像)Fig.8 Comparison of object removal effect between our method and other two methods in different scenarios(GT represents the ground truth,and Mask represents the mask image)
本文設(shè)計(jì)了一個(gè)由圖像平滑結(jié)構(gòu)指導(dǎo)圖像修復(fù)的并行網(wǎng)絡(luò)結(jié)構(gòu),使用多尺度特征指導(dǎo)模塊對(duì)網(wǎng)絡(luò)的圖像重建進(jìn)行指導(dǎo)和約束。圖像結(jié)構(gòu)指導(dǎo)圖像修復(fù)的設(shè)計(jì)與操作,避免了錯(cuò)誤特征的傳播,降低了結(jié)構(gòu)對(duì)圖像生成能力的依賴,極大提高了網(wǎng)絡(luò)的魯棒性。本文最后給出的定量與定性對(duì)比實(shí)驗(yàn)數(shù)據(jù)表明,本文方法不僅在圖像修復(fù)效果上具有優(yōu)越性,還可作為具有目標(biāo)移除功能的圖像編輯工具。