李 碩, 劉 斌, 劉昱萌, 張娟娟
(陜西科技大學(xué) 電子信息與人工智能學(xué)院, 陜西 西安 710021)
圖像修復(fù)作為計(jì)算機(jī)視覺領(lǐng)域和圖像處理領(lǐng)域的一個(gè)重要研究分支,目前廣泛應(yīng)用于老照片修復(fù)、生物醫(yī)學(xué)影像、航空航天、軍事科學(xué)等多個(gè)領(lǐng)域[1].
傳統(tǒng)方法[2-4]例如基于偏微分方程、基于紋理合成的圖像修復(fù)方法無(wú)法對(duì)存在大面積缺損區(qū)域的缺損圖像進(jìn)行有效還原.隨著卷積神經(jīng)網(wǎng)絡(luò)[5](CNNs)和生成對(duì)抗網(wǎng)絡(luò)[6](GANs)的飛速發(fā)展,使得解決復(fù)雜圖像復(fù)原和存在大面積缺損區(qū)域的圖像復(fù)原問(wèn)題成為了可能.
基于生成對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)算法是近年圖像處理領(lǐng)域的研究熱點(diǎn).Raymond等[7]于2017年提出一種語(yǔ)義圖像修復(fù)算法,該算法以DCGAN網(wǎng)絡(luò)作為基礎(chǔ)并通過(guò)內(nèi)容和感知損失尋找最優(yōu)生成圖,進(jìn)而完成圖像修復(fù)工作.Pathak等[8]于2016年提出一種上下文編碼器(Context Encoders,CE)算法,該算法通過(guò)構(gòu)建一個(gè)編-解碼器完成缺損圖像的編解碼工作并添加判別損失完成圖像的精細(xì)修復(fù);Iizuka等[9]于2017年提出一種添加局部判別器的雙判別器模型,利用局部判別器判別局部缺損區(qū)域信息,從全局和局部?jī)蓚€(gè)角度約束生成器,進(jìn)而完成更精細(xì)的圖像修復(fù)工作;劉波寧等[10]于2018年提出一種結(jié)合雙判別器模型和相似塊搜索算法改進(jìn)雙判別器模型;Wang等[11]于2019年提出一種多尺度上下文注意力模型,使得模型在圖像修復(fù)過(guò)程中可以更好地利用背景信息提高修復(fù)精度;Yan等[12]于2018年提出一種Shift-Net模型,該模型主體為GAN網(wǎng)絡(luò),結(jié)合基于CNN的圖像合成方法的優(yōu)點(diǎn)提升了圖像修復(fù)準(zhǔn)確率;Nazeri等[13]于2019年提出一種Edge-Connection模型,通過(guò)設(shè)計(jì)額外的輔助網(wǎng)絡(luò),從而利用缺損區(qū)域邊緣信息輔助圖像修復(fù)過(guò)程;Liu等[14]于2018年提出使用部分卷積替代基礎(chǔ)卷積提升圖像修復(fù)效果,部分卷積只在圖像有效區(qū)域進(jìn)行卷積操作;Yu等[15]于2019年提出Gated卷積層替代傳統(tǒng)卷積層,解決傳統(tǒng)卷積層將圖像所有像素視為有效像素的缺點(diǎn);Yu等[16]于2018年提出一種語(yǔ)境注意力圖像修復(fù)模型,該模型分為粗修復(fù)和精修復(fù)兩部分.
上述方法雖取得了優(yōu)異的圖像修復(fù)效果,但從修復(fù)結(jié)果圖可以看到,圖像的部分精細(xì)特征無(wú)法被還原,模型不存在更多的指示性函數(shù)指導(dǎo)生成器生成內(nèi)容、細(xì)節(jié)等屬性特征更接近于原始圖像的修復(fù)結(jié)果圖.同時(shí),不同通道的特征包含不同的加權(quán)信息且圖像上的各個(gè)像素的關(guān)聯(lián)關(guān)系不同,若平等對(duì)圖像的各個(gè)特征賦予相同的權(quán)重,便會(huì)導(dǎo)致模型在恢復(fù)過(guò)程中無(wú)法有效利用重要特征,進(jìn)而影響模型的修復(fù)性能.為此,本文提出對(duì)雙判別器模型引入通道、像素注意力機(jī)制,保證模型可以自適應(yīng)學(xué)習(xí)圖像的特征權(quán)重;再者,通過(guò)增設(shè)Vgg16特征提取模型向原始生成器損失函數(shù)中添加內(nèi)容、風(fēng)格損失項(xiàng),進(jìn)而共同協(xié)助生成器完成更優(yōu)的圖像修復(fù)效果.
生成對(duì)抗網(wǎng)絡(luò)[17]是一種引入對(duì)抗訓(xùn)練的生成模型,由生成器和判別器組成,如圖1所示.
圖1 GANs模型結(jié)構(gòu)示意圖
生成器以隨機(jī)向量作為輸入,通過(guò)對(duì)隨機(jī)向量層層解碼,輸出生成樣本.判別器以生成樣本和真實(shí)樣本作為輸入,對(duì)真實(shí)樣本和生成樣本進(jìn)行層層編碼,輸出真(1)假(0)之間的概率值.每次迭代完成,使用公式(1)計(jì)算模型的輸出損失值,將模型輸出的損失值回傳用于生成器和判別器的各層網(wǎng)絡(luò)層的參數(shù)更新.GANs的目標(biāo)函數(shù)如式(1)所示:
Ez-pz(z)[log(1-D(G(z)))]
(1)
式(1)中:E表示期望,pz(z)表示一組隨機(jī)向量集合,pdata(x)表示一組真實(shí)樣本集合.
本文模型以帶有二進(jìn)制掩模的缺損圖像作為輸入.缺損圖由二進(jìn)制掩模與原始真實(shí)圖像進(jìn)行一系列矩陣乘法構(gòu)造而成.二進(jìn)制掩模M由公式(2)所示:
(2)
式(2)中:xij為原始像素值,σ為圖像的缺損區(qū)域,Mij為掩碼值.缺損圖像xw的構(gòu)造過(guò)程如圖2和公式(3)所示.
圖2 缺損圖像構(gòu)造過(guò)程
xw=xeM+(1-M)×255
(3)
式(3)中:e為Hadamard積.
本文提出一種融合通道、像素注意力機(jī)制和Vgg16特征提取模型的MLAGAN(Multi-Loss and Attention GAN)圖像修復(fù)模型.MLAGAN模型由生成器模塊、雙判別器模塊和Vgg16特征提取模型模塊三部分組成.MLAGAN模型如圖3所示.
圖3 MLAGAN模型結(jié)構(gòu)
2.2.1 生成器
生成器為編-解碼器結(jié)構(gòu),以缺損圖像作為輸入、輸出修復(fù)結(jié)果圖.生成器分別由卷積塊、空洞卷積塊、反卷積塊、通道注意力塊(Channel Attention Block,CAB)和像素注意力塊(Pixel Attention Block,PAB)構(gòu)成.卷積塊負(fù)責(zé)缺損圖像的特征提取過(guò)程,由卷積層、歸一化層和Relu激活層構(gòu)成,共12塊設(shè)計(jì);空洞卷積塊用于擴(kuò)大卷積層提取圖像特征過(guò)程中的感受野范圍,捕獲圖像上的多尺度信息,由空洞卷積層、歸一化層和Relu激活層構(gòu)成,共4塊設(shè)計(jì);反卷積塊的原理和卷積塊是相反的,用于將卷積層輸出的特征圖進(jìn)行還原,將特征向量還原至原始尺寸,由反卷積層、歸一化層和Leaky_Relu激活層構(gòu)成,共2塊設(shè)計(jì);通道、像素注意力塊如2.2.3和2.2.4節(jié)所述.同時(shí),對(duì)編碼過(guò)程和解碼過(guò)程中輸出特征圖尺寸相同的卷積塊和反卷積塊進(jìn)行跳躍連接,完成解碼過(guò)程與編碼過(guò)程中的多尺度信息融合,以提升最終的修復(fù)效果.使用L2損失、風(fēng)格損失、內(nèi)容損失和判別損失完成生成器的參數(shù)更新工作.其中L2損失如公式(4)所示:
(4)
式(4)中:O表示原始圖像,C表示修復(fù)結(jié)果圖,L2損失用于衡量修復(fù)結(jié)果圖與真實(shí)圖像的差值平方和.
2.2.2 判別器
判別器為編碼器結(jié)構(gòu),用于判別真實(shí)樣本和生成樣本的真假程度.真實(shí)樣本和生成樣本作為一組數(shù)據(jù)對(duì)輸入至全局判別器中,局部真實(shí)樣本和局部生成樣本作為一組數(shù)據(jù)對(duì)輸入至局部判別器中,將全局判別器在全連接層的輸出和局部判別器在全連接層的輸出進(jìn)行拼接進(jìn)而得到輸入圖像的真假判別分?jǐn)?shù).判別器由卷積塊和全連接層構(gòu)成,卷積塊由卷積層、歸一化層和Leaky_Relu激活層構(gòu)成.
全局判別輸入圖像尺寸為64*64,局部判別器輸入尺寸為32*32,全局判別器由4塊卷積塊和全連接層構(gòu)成,局部判別器由3塊卷積塊和全連接層構(gòu)成.在模型訓(xùn)練過(guò)程中,判別器輸出的判別損失值作為梯度信息來(lái)更新判別器和生成器的各層網(wǎng)絡(luò)層的參數(shù)矩陣和偏置項(xiàng).
2.2.3 通道注意力塊
在圖像恢復(fù)過(guò)程中,與缺損區(qū)域關(guān)聯(lián)性較大的像素或特征信息往往是需要關(guān)注的重點(diǎn),這些像素信息與特征信息和缺損區(qū)域類似,有助于提升模型的恢復(fù)效果.注意力機(jī)制的主要工作在于提取圖像特征時(shí),對(duì)不同的圖像特征給予不同的權(quán)重,增大關(guān)聯(lián)性強(qiáng)的特征的輔助作用,抑制關(guān)聯(lián)性弱的特征對(duì)圖像修復(fù)的影響,進(jìn)而擴(kuò)展了普通卷積層的能力,是普通卷積的補(bǔ)充[18].
通道注意力塊的主要工作在于輔助網(wǎng)絡(luò)重點(diǎn)關(guān)注高關(guān)聯(lián)的通道信息,也就是與缺損區(qū)域關(guān)聯(lián)性強(qiáng)的高頻特征,同時(shí)抑制低關(guān)聯(lián)的通道信息對(duì)圖像修復(fù)的影響.首先使用全局平均池化將前層網(wǎng)絡(luò)層輸出的特征圖的全局空間信息轉(zhuǎn)化為通道描述塊,也就是將特征圖的維度從H×W×C轉(zhuǎn)換為1×1×C,由式(5)所示:
(5)
CAl=S(Conv(Relu(Conv(gl))))
(6)
最后,將未經(jīng)處理的前層網(wǎng)絡(luò)輸出的特征圖與經(jīng)過(guò)通道注意力處理后輸出按元素進(jìn)行乘積,由式(7)所示:
COl=CAl?Fl
(7)
式(7)中:COl為經(jīng)過(guò)通道注意力的輸出.通道注意力塊的模型結(jié)構(gòu)如圖4所示.其中k1s1表示卷積層卷積核的尺寸為1×1,步長(zhǎng)為1.
圖4 通道注意力塊
2.2.4 像素注意力塊
像素注意力機(jī)制是基于像素級(jí)別的,未缺損區(qū)域的各個(gè)位置的像素信息與缺損區(qū)域的像素信息的關(guān)聯(lián)強(qiáng)弱不同,關(guān)聯(lián)性強(qiáng)的像素信息對(duì)于圖像的恢復(fù)過(guò)程貢獻(xiàn)程度高,因此需要給予其更大的權(quán)重.像素注意力機(jī)制的主要工作在于使得網(wǎng)絡(luò)更加關(guān)注關(guān)聯(lián)性強(qiáng)的未缺損區(qū)域的信息特征,比如與缺損區(qū)域相似的高頻區(qū)域.像素注意力塊的輸入為通道注意力塊的輸出,首先將通道注意力塊的輸出經(jīng)由兩層卷積提取特征,并使用Relu和Sigmoid函數(shù)激活,此時(shí)特征圖尺寸從H×W×C轉(zhuǎn)化為H×W×1,該過(guò)程如公式(8)所示:
PAl=S(Conv(Relu(Conv(COl))))
(8)
最后,將通道注意力塊的輸出與經(jīng)過(guò)像素注意力塊處理后輸出按元素進(jìn)行乘積,由式(9)所示:
POl=PAl?COl
(9)
式(9)中:POl為經(jīng)由像素注意力塊的輸出.像素注意力塊的模型結(jié)構(gòu)如圖5所示.其中k1s1表示卷積層卷積核的尺寸為1×1,步長(zhǎng)為1.
圖5 像素注意力塊
2.2.5 Vgg16特征提取模型
Vgg16特征提取模型用于協(xié)助生成器生成內(nèi)容、風(fēng)格和細(xì)節(jié)屬性更貼近于真實(shí)樣本的圖像.Vgg16特征提取模型由卷積層、Relu激活層、池化層和全連接層構(gòu)成.Vgg16特征提取模型如圖6所示.其中,Conv3_64表示卷積層卷積核尺寸為3*3,輸出通道數(shù)為64.其中Conv1_1代表標(biāo)號(hào)為1_1的卷積層.
圖6 Vgg16特征提取模型
在模型訓(xùn)練過(guò)程中,Vgg16特征提取模型參數(shù)不再更新,直接將Vgg16模型與生成器網(wǎng)絡(luò)進(jìn)行拼接,實(shí)現(xiàn)生成器提取圖像內(nèi)容特征和風(fēng)格特征的能力.將修復(fù)結(jié)果圖和真實(shí)圖像輸入至Vgg16特征提取模型中,獲得兩者在Conv1_2卷積層所輸出的特征圖,通過(guò)對(duì)比兩者特征圖間的相似度可以得到該次訓(xùn)練的內(nèi)容損失值.內(nèi)容損失函數(shù)如公式(10)所示:
(10)
式(10)中:O為原始圖像,C為修復(fù)結(jié)果圖.
通過(guò)求取圖像經(jīng)由某一個(gè)卷積層所獲得的所有特征圖間的Gram矩陣,可以大致獲得該張圖像的整體風(fēng)格信息,主要體現(xiàn)在圖像的顏色、亮度等細(xì)節(jié)屬性上[19].Gram矩陣上每一個(gè)位置值都表示了兩個(gè)特征間的相關(guān)性.為此,通過(guò)比較兩幅圖像在某一卷積層所獲得的Gram矩陣,便可以求取兩幅圖像的風(fēng)格差異.Gram矩陣的計(jì)算公式如式(11)所示:
(11)
(12)
式(12)中:Ol,Cl分別表示原始圖像和修復(fù)結(jié)果圖在第l卷積層輸出的特征圖.
2.2.6 生成器總損失函數(shù)
為了保證生成器可以輸出從內(nèi)容、風(fēng)格和真實(shí)感等角度更接近于原始圖像的修復(fù)結(jié)果圖,將初始生成器目標(biāo)函數(shù)修改為由L2損失、內(nèi)容損失、風(fēng)格損失和判別損失的多損失融合函數(shù),由公式(13)所示:
Lall=λ1L2+λ2Lcontent+λ3Lstyle+λ4Ladv
(13)
式(13)中:Lall為生成器總損失目標(biāo)函數(shù),λ1、λ2、λ3、λ4為平衡不同損失的超參數(shù).
為了驗(yàn)證本文算法的有效性,所采用的實(shí)驗(yàn)數(shù)據(jù)主要為CelebA人臉數(shù)據(jù)集和SVHN(Street View House Number)[20]街景門牌號(hào)碼數(shù)據(jù)集,同時(shí)與DCGAN、CE(Context Encoders)和雙判別器算法DD(Dual Discriminator)進(jìn)行比較.CelebA數(shù)據(jù)集包含202 599張尺寸為178*218的三通道人臉圖像,每張圖像都做好了特征標(biāo)記,隨機(jī)挑選50 000張用作訓(xùn)練集,1 000張用作測(cè)試集.由于本次實(shí)驗(yàn)的主要目的是恢復(fù)人臉特征,因此去除CelebA人臉數(shù)據(jù)集中影響恢復(fù)效果的背景信息,使用PIL庫(kù)和OpenCV庫(kù)對(duì)圖像進(jìn)行尺寸調(diào)整,調(diào)整為模型要求尺寸64*64.SVHN官網(wǎng)中的格式1數(shù)據(jù)集中的各個(gè)圖像尺寸不相同,每張圖像存在大量背景信息,無(wú)法滿足模型只恢復(fù)數(shù)字特征的要求.因此,本文對(duì)數(shù)據(jù)集進(jìn)行了預(yù)處理工作,共處理34 000張圖像用作訓(xùn)練集,1 000張用作測(cè)試集.具體調(diào)整過(guò)程如圖7所示.
圖7 圖像預(yù)處理
對(duì)CelebA人臉數(shù)據(jù)集和SVHN數(shù)據(jù)集的調(diào)整結(jié)果使用二進(jìn)制掩模進(jìn)行破壞處理,作為算法要求的缺損圖,進(jìn)而訓(xùn)練本次實(shí)驗(yàn)所使用的4種算法.對(duì)于本文的提出的MLAGAN模型,在模型訓(xùn)練階段,對(duì)于生成器的多損失目標(biāo)函數(shù)的各個(gè)參數(shù)設(shè)置不同的參數(shù)值驗(yàn)證模型性能,最終設(shè)置λ1=25、λ2=0.05、λ3=100、λ4=0.3,因?yàn)閺臏y(cè)試結(jié)果看,此時(shí)模型的修復(fù)準(zhǔn)確率較高,修復(fù)效果最好.同時(shí),對(duì)于DCGAN、CE、DD和本文算法在CelebA人臉數(shù)據(jù)集上的訓(xùn)練參數(shù)設(shè)置表如表1所示.
表1 算法參數(shù)設(shè)置表
在SVHN數(shù)據(jù)集的訓(xùn)練參數(shù)設(shè)置上,各個(gè)算法除了批樣本數(shù)設(shè)置為75外,其余參數(shù)與訓(xùn)練CelebA時(shí)設(shè)置的參數(shù)相同.最后,使用Adam隨機(jī)梯度下降法求取各個(gè)模型的最優(yōu)解.需要注意的是,DCGAN模型存在兩個(gè)階段,模型預(yù)訓(xùn)練和圖像修復(fù).模型預(yù)訓(xùn)練如上述所示,對(duì)于圖像修復(fù)階段,通過(guò)最小化感知損失和內(nèi)容損失尋找模型最優(yōu)輸出結(jié)果,設(shè)置訓(xùn)練次數(shù)為1 500且利用Adam函數(shù)尋找最優(yōu)生成圖.使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similarity,SSIM)定量評(píng)估四種模型的修復(fù)結(jié)果.其中PSNR常用于評(píng)估重建圖像的質(zhì)量,PSNR值越大,就代表圖像的失真越少,可以用于評(píng)估模型的修復(fù)結(jié)果圖與真實(shí)圖像對(duì)應(yīng)像素點(diǎn)間的誤差.PSNR的公式定義如式(14)所示:
(14)
式(14)中:MSE為均方值誤差(Mean Squared Error).對(duì)于一對(duì)修復(fù)結(jié)果圖和真實(shí)圖像,如果修復(fù)結(jié)果圖是真實(shí)圖像的近似,那么兩者間的像素差異可以用MSE衡量,MSE定義公式如式(15)所示:
(15)
式(15)中:m,n表示尺寸為m×n的圖像,O和C分別代表原始圖像和修復(fù)結(jié)果圖.i,j分別代表圖像上第i行第j列像素.
其中SSIM用于衡量修復(fù)結(jié)果圖與真實(shí)圖像是否在亮度、對(duì)比度和結(jié)構(gòu)上相似,是一種衡量?jī)煞鶊D像相似度的指標(biāo).SSIM定義公式如式(16)所示:
(16)
式(16)中:u和σ分別代表均值和標(biāo)準(zhǔn)差,c1和c2代表常數(shù).SSIM指標(biāo)值越大,代表兩幅圖像的差距越小,即修復(fù)結(jié)果圖質(zhì)量越好.
本次實(shí)驗(yàn)的設(shè)備條件為一臺(tái)裝有Nvidia GeForce RTX2080 Ti GPU,顯存為20GB的工作站.使用深度學(xué)習(xí)工具包TensorFlow實(shí)現(xiàn)4種模型的搭建,Python版本為3.6.6,并使用Numpy、PIL和OpenCV等工具庫(kù)處理數(shù)據(jù).
為了驗(yàn)證模型的有效性,將本文提出的算法與DCGAN、CE和DD在CelebA數(shù)據(jù)集上進(jìn)行修復(fù)效果對(duì)比.圖8給出了各種算法的修復(fù)效果.同時(shí)表2給出了不同算法的定量指標(biāo)值.
圖8 不同算法在CelebA上修復(fù)效果對(duì)比
從圖8可以看到,DCGAN模型由于預(yù)訓(xùn)練階段生成效果較不理想,導(dǎo)致模型修復(fù)階段的修復(fù)結(jié)果較差,部分細(xì)節(jié)和紋理信息無(wú)法被還原,部分特征與原始圖像不一致;CE算法整體存在模糊問(wèn)題,如圖8(c)第3張,雖然恢復(fù)出眼鏡特征,但修復(fù)區(qū)域較為模糊;DD算法對(duì)圖像的整體內(nèi)容信息還原效果較為不錯(cuò),但其修復(fù)結(jié)果存在模糊且部分圖像的結(jié)構(gòu)和細(xì)節(jié)信息無(wú)法被還原,如圖8(d)的第1張圖像中的眼鏡細(xì)節(jié)、圖8(d)的第3張圖像的眼鏡細(xì)節(jié);本文提出的算法從整體上對(duì)圖像的內(nèi)容和細(xì)節(jié)進(jìn)行了還原,從圖8(e)的第1、3張圖像中可以看出,圖像的細(xì)節(jié)信息如眼鏡細(xì)節(jié)信息被有效還原.雖然修復(fù)結(jié)果圖仍然存在部分噪點(diǎn),但圖像不存在模糊問(wèn)題,本文算法從整體和細(xì)節(jié)上均優(yōu)于其余三種算法.
表2 不同算法在CelebA上修復(fù)效果對(duì)比
在SVHN數(shù)據(jù)集上驗(yàn)證4種算法的修復(fù)效果.圖9給出了4種算法在SVHN數(shù)據(jù)集上的修復(fù)結(jié)果.同時(shí),表3給出了4種算法在SVHN數(shù)據(jù)集上的修復(fù)效果的定量表示.
圖9 不同算法在SVHN上修復(fù)效果對(duì)比
從圖9可以看到,DCGAN算法修復(fù)效果較差,部分圖像如圖9(b)第3張圖像出現(xiàn)錯(cuò)誤結(jié)果,其余圖像存在偽影等問(wèn)題;CE算法的修復(fù)結(jié)果從整體上表征出原始圖像的內(nèi)容,但存在圖像模糊問(wèn)題,部分圖像出現(xiàn)錯(cuò)誤信息,如圖9(c)第3張圖像;DD算法的修復(fù)結(jié)果從整體上表征出原始圖像的內(nèi)容信息,整體修復(fù)結(jié)果不存在錯(cuò)誤,但修復(fù)結(jié)果存在模糊問(wèn)題;本文提出算法對(duì)缺損圖信息進(jìn)行了有效還原,雖然也存在部分細(xì)節(jié)信息還原不充分,但從整體的修復(fù)效果上看優(yōu)于其余三種算法,與原始圖像更為接近.
表3 不同算法在SVHN上修復(fù)效果對(duì)比
為在CelebA數(shù)據(jù)集上驗(yàn)證注意力機(jī)制的有效性,本文設(shè)計(jì)不添加通道、像素注意力塊的模型No_A(No Attention),只添加通道注意力塊的模型CAM(Channel Attention Model),只添加像素注意力塊的模型PAM(Pixel Attention Model)和添加通道、像素注意力塊的模型Add_A(Add Attention)四種模型.四種模型除注意力模塊的添加不同外,其余參數(shù)設(shè)置與3.1節(jié)相同,使用50000張圖像作為模型訓(xùn)練數(shù)據(jù),每個(gè)模型訓(xùn)練200個(gè)epoch后保存模型參數(shù).注意力機(jī)制實(shí)驗(yàn)設(shè)置表如表4所示.
表4 注意力機(jī)制實(shí)驗(yàn)設(shè)置表
圖10給出了四種模型的修復(fù)效果對(duì)比.可以看到,No_A模型出現(xiàn)部分特征還原錯(cuò)誤問(wèn)題,如圖10(b)第1、3張圖像,圖像的眼鏡特征沒有被正確還原,如圖10(b)第4、5張圖像,圖像的細(xì)節(jié)特征還原較差,原因是模型無(wú)法獲取缺損區(qū)域像素與未缺損區(qū)域像素的關(guān)聯(lián)強(qiáng)弱,未有效使用關(guān)聯(lián)性強(qiáng)的未缺損區(qū)域像素;CAM模型與PAM模型修復(fù)效果優(yōu)于模型No_A,較于模型No_A,對(duì)于圖像部分特征進(jìn)行了有效還原,如圖10(c)第1、3張圖像,人臉上的部分眼鏡特征被正確還原,但也存在部分特征還原不足問(wèn)題;模型Add_A修復(fù)效果優(yōu)于上述三種模型,對(duì)受損圖的大部分細(xì)節(jié)進(jìn)行了有效還原,原因在于通道注意力機(jī)制用于獲取每個(gè)通道特征圖的權(quán)重,而像素注意力機(jī)制用于獲取通道特征圖上的像素權(quán)重,兩種注意力機(jī)制從不同層面為卷積層輸出的特征圖打分,以獲取未缺損區(qū)域上關(guān)聯(lián)性最強(qiáng)的像素信息,進(jìn)而完成圖像修復(fù)工作.
圖10 注意力機(jī)制修復(fù)效果對(duì)比
同時(shí),表5給出了四種模型在CelebA數(shù)據(jù)集上的修復(fù)效果的定量表示.
表5 注意力機(jī)制修復(fù)效果對(duì)比
針對(duì)基于生成式對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)模型存在的圖像修復(fù)結(jié)果還原性較差問(wèn)題,提出一種融合通道、像素注意力機(jī)制的多損失生成對(duì)抗網(wǎng)絡(luò).向生成器添加注意力機(jī)制以提升生成捕獲圖像上相距較遠(yuǎn)特征間的信息相關(guān)能力,并向生成器的損失函數(shù)中添加內(nèi)容和風(fēng)格損失項(xiàng)以多損失融合的方式協(xié)助生成器的修復(fù)結(jié)果在內(nèi)容和風(fēng)格屬性上更接近于原始圖像.通過(guò)與三種主流算法進(jìn)行比較,本文算法從整體上還原出缺損圖像的內(nèi)容信息,有效提升了修復(fù)準(zhǔn)確率,在修復(fù)效果上優(yōu)于其余三種算法.