楊 有,邊雅琳
1(重慶國家應(yīng)用數(shù)學(xué)中心,重慶 401331)
2(重慶師范大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 401331)
人臉圖像修復(fù)是計(jì)算機(jī)視覺的一項(xiàng)重要技術(shù).它不僅在諸如照片美化、刑偵勘察、歷史人物重塑、古壁畫修復(fù)和電影娛樂等生活方面廣泛應(yīng)用;而且作為一項(xiàng)計(jì)算機(jī)視覺底層任務(wù),還有助于人臉圖像識(shí)別、人臉圖像采集和對(duì)象檢測等中高層任務(wù)的發(fā)展.
近年來,深度學(xué)習(xí)極大地推進(jìn)了圖像修復(fù)的發(fā)展.與通過從已知區(qū)域中搜索最相似像素塊來逐漸填充缺失區(qū)域的傳統(tǒng)方法相比,基于深度學(xué)習(xí)的方法能捕獲更多的高級(jí)語義,生成具有豐富紋理和合理結(jié)構(gòu)的修復(fù)內(nèi)容.在現(xiàn)有的深度學(xué)習(xí)圖像修復(fù)方法中,編碼器-解碼器結(jié)構(gòu)被多次使用.然而,直接使用這種簡單的端對(duì)端結(jié)構(gòu)進(jìn)行訓(xùn)練,可能會(huì)產(chǎn)生失真的結(jié)構(gòu)和模糊的紋理.這是由于掩碼覆蓋區(qū)域是完全缺失的,導(dǎo)致在生成過程中缺少圖像空間上的引導(dǎo),以致無法重建整個(gè)缺失內(nèi)容.為此,研究人員嘗試?yán)媒Y(jié)構(gòu)先驗(yàn)進(jìn)行指導(dǎo)的多階段編解碼結(jié)構(gòu),用于圖像修復(fù)任務(wù).但是,這些方法只是將紋理與結(jié)構(gòu)信息分別在單一特征空間內(nèi)編碼,忽略了圖像重構(gòu)時(shí)涉及到不同層次特征的事實(shí).而在利用結(jié)構(gòu)先驗(yàn)進(jìn)行指導(dǎo)時(shí),只是將結(jié)構(gòu)特征與紋理特征進(jìn)行簡單的融合,缺少了捕獲空間上下文特征相關(guān)性的能力,容易產(chǎn)生不一致的結(jié)構(gòu)和紋理.在實(shí)際應(yīng)用中,圖像的結(jié)構(gòu)和紋理是相互關(guān)聯(lián)的;上下文特征之間存在密切的相關(guān)性.如果不考慮這兩點(diǎn),修復(fù)結(jié)果會(huì)產(chǎn)生不一致的結(jié)構(gòu)或偽影.
針對(duì)修復(fù)圖像難以保持結(jié)構(gòu)完整以及難以捕獲遠(yuǎn)距離特征間相關(guān)性的問題,本研究提出了一種紋理和結(jié)構(gòu)深度融合的人臉修復(fù)模型(U-Net+GAN with two features and twice fusions,UG_2F2F).“UG”表示利用U-Net結(jié)構(gòu)采集紋理和結(jié)構(gòu)特征,利用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)訓(xùn)練模型;兩個(gè)“2F”分別代表紋理和結(jié)構(gòu)兩種特征、兩次融合.為了實(shí)現(xiàn)紋理和結(jié)構(gòu)的深度融合,在多尺度填充紋理結(jié)構(gòu)特征的之后,設(shè)計(jì)了“注意力_結(jié)構(gòu)紋理融合再融合”模塊(Attention obtained after twice fusions of structure and texture,Att-ST2),其作用是增加紋理和結(jié)構(gòu)的耦合性,提高捕獲破損圖像中遠(yuǎn)距離特征間的信息相關(guān)性能力,使得解碼端輸出圖像的結(jié)構(gòu)完整、紋理豐富.
研究工作的主要貢獻(xiàn)體現(xiàn)在如下兩個(gè)方面:1)提出了一種多特征門控注意力特征融合(Gated Attention Feature Fusion,GAFF),GAFF不僅關(guān)注破損區(qū)域的上下文之間的關(guān)系,而且關(guān)注CNN局部和全局特征一致性的關(guān)系;2)定義了修正的重構(gòu)損失函數(shù).度量內(nèi)容不僅包含輸出圖像和真實(shí)圖像之間的差異,而且包含紋理圖像、結(jié)構(gòu)圖像和真實(shí)圖像之間的差異;在其實(shí)現(xiàn)時(shí),采用L1距離作為度量準(zhǔn)則.
得益于GAN的快速發(fā)展,利用結(jié)構(gòu)先驗(yàn)指導(dǎo)圖像修復(fù)的工作取得了創(chuàng)新性發(fā)展.文獻(xiàn)[1]通過利用圖像的原始結(jié)構(gòu)信息指導(dǎo)修復(fù),能修復(fù)出清晰的邊緣,有效地提高了修復(fù)的效果.文獻(xiàn)[2]通過在粗網(wǎng)絡(luò)中提取到的圖像邊緣信息,來指導(dǎo)細(xì)網(wǎng)絡(luò)的孔洞填充.文獻(xiàn)[3]使用RTV平滑技術(shù)預(yù)先處理圖像,得到圖像的平滑邊緣.再將其作為圖像的全局結(jié)構(gòu)輸入到模型中進(jìn)行指導(dǎo)訓(xùn)練.雖然上述方法取得了進(jìn)展性的修復(fù)結(jié)果,但是都缺少對(duì)結(jié)構(gòu)與紋理相關(guān)性的深度利用,不易保證修復(fù)出符合結(jié)構(gòu)邊緣的精細(xì)紋理.文獻(xiàn)[4]提出的先驗(yàn)可學(xué)習(xí)人臉修復(fù)模型LSK-FNet,通過基于GAN生成可學(xué)習(xí)的先驗(yàn)知識(shí),用于指導(dǎo)修復(fù).盡管該模型的先驗(yàn)信息有效指導(dǎo)了破損區(qū)域的填充,但在保持邊緣的同時(shí)沒有很好兼顧紋理.
得益于CNN的廣泛應(yīng)用,多特征融合進(jìn)行圖像修復(fù)也日益盛行.文獻(xiàn)[5]提出了一種特征均衡方法,用來保持結(jié)構(gòu)特征和紋理特征之間的一致性.文獻(xiàn)[6]提出了一種上下文感知的圖像修復(fù)模型,該模型將全局語義和局部特征自適應(yīng)地集成到統(tǒng)一的生成網(wǎng)絡(luò)中,得到了具有競爭性的結(jié)果.但是這些網(wǎng)絡(luò)通常只嘗試在同一尺度上對(duì)紋理與結(jié)構(gòu)進(jìn)行簡單的線性操作,包括求和、串聯(lián),致使特征表達(dá)不充分,融合后的指導(dǎo)信息在解碼端不能充分發(fā)揮作用.文獻(xiàn)[7]提出的視覺感知人臉修復(fù)模型,利用多列門控卷積提取多元圖像特征,修復(fù)結(jié)果能很好地保持結(jié)構(gòu),但由于缺乏結(jié)構(gòu)和紋理的深度交融,在大空洞缺失的情況下,容易產(chǎn)生與結(jié)構(gòu)不一致的紋理.
得益于深度學(xué)習(xí)的發(fā)展,基于上下文位置關(guān)系的空間注意力模型被廣泛應(yīng)用于圖像修復(fù)任務(wù)中.文獻(xiàn)[8]提出了一種上下文注意層,其工作原理是通過在空間上搜索與圖像缺失區(qū)域相似度最高的背景塊集合來完成修復(fù)任務(wù).文獻(xiàn)[9]在上下文注意力層的工作基礎(chǔ)上,提出一種連貫語義注意力層,通過對(duì)空間特征的相關(guān)性建模,減少修復(fù)結(jié)果出現(xiàn)色彩斷層或者線條斷層的情況.文獻(xiàn)[10]提出一種通道注意力DMSCA模塊,利用擴(kuò)張卷積與多尺度操作將編碼器中的低級(jí)特征傳遞到解碼器,生成更為豐富的紋理.文獻(xiàn)[11]提出了一種多尺度注意力,通過共享注意力得分和提取補(bǔ)丁塊的矩陣乘法進(jìn)行多尺度特征的長程遷移,用以提高圖像上下文的相關(guān)性.但是這些注意力模型只關(guān)注破損區(qū)域局部的上下文之間的關(guān)系,忽略了CNN局部和全局特征具有一致性的思想,導(dǎo)致捕獲破損圖像遠(yuǎn)距離特征間相關(guān)性的能力存在不足.
UG_2F2F的總體框架如圖1所示,以 “U-Net + GAN”為基線,融入兩個(gè)模塊:多尺度特征重組與填充模塊、特征融合再融合模塊,前者在圖1中用TE和ST表示,后者在圖1中用Att_ST2表示.兩個(gè)模塊共同實(shí)現(xiàn)紋理與結(jié)構(gòu)特征的深度耦合,確保修復(fù)圖像結(jié)構(gòu)完整時(shí)紋理豐富.
圖1 UG_2F2F的網(wǎng)絡(luò)框架圖Fig.1 Network frame diagram of UG_2F2F
在UG_2F2F的基線網(wǎng)絡(luò)中,下采樣的編碼器和上采樣的解碼器各有6個(gè)卷積層,使用門控卷積[12]替換原有的普通卷積.因?yàn)殚T控卷積不僅以未損壞的像素為條件進(jìn)行輸入處理,而且可以從數(shù)據(jù)中自動(dòng)更新掩碼,為不同的有效像素分配不同的權(quán)重,有利于不規(guī)則破損圖像修復(fù).在編碼階段,前3層門控卷積重點(diǎn)關(guān)注紋理特征,主要填充圖像的局部細(xì)節(jié),因此前3層門控卷積經(jīng)過TE模塊處理之后,得到一個(gè)具有豐富紋理的彩色圖像Ite.后3層門控卷積重點(diǎn)關(guān)注結(jié)構(gòu)特征,用來填充圖像的全局信息,因此后3層經(jīng)過ST模塊處理之后,得到一個(gè)結(jié)構(gòu)填充完整的彩色圖像Ist.將Ite與Ist經(jīng)過 Att_ST2模塊進(jìn)行兩次融合得到特征圖F.
在解碼階段,使用跳躍連接和逐元素相加將特征圖F作為指導(dǎo)信息補(bǔ)充到解碼端,這樣能在多個(gè)尺度上更好地將低級(jí)和高級(jí)特征組合在一起,使得生成的結(jié)構(gòu)和紋理能相互關(guān)聯(lián),保持一致.并且在上采樣過程中,使用了門控卷積層,有利于模型在修復(fù)不規(guī)則缺失區(qū)域時(shí),獲得更佳性能.
TE/ST模塊如圖2所示,包含兩個(gè)部分:CNN特征重組和多尺度特征填充.根據(jù)文獻(xiàn)[5],繪制了如圖2所示的TE/ST網(wǎng)絡(luò)結(jié)構(gòu).由于在下采樣過程中,每層輸出的特征圖大小不一,因此設(shè)計(jì)特征重組模塊將前3層和后3層的特征圖分別轉(zhuǎn)換成相同大小,并將其用一層卷積層連接起來.重組后得到的特征輸入到3×3、5×5和7×7的3個(gè)并行通道上進(jìn)行多尺度填充.用不同大小的卷積核進(jìn)行特征填充,能增加網(wǎng)絡(luò)的感受野,有利于捕捉到局部與全局信息.
圖2 TE/ST模塊結(jié)構(gòu)Fig.2 Structure of TE/ST module
由于TE/ST兩個(gè)模塊是獨(dú)立學(xué)習(xí),Ite和Ist在訓(xùn)練中沒有進(jìn)行特征交互,所以這兩者存在不一致的特征表示,不能直接反映修復(fù)后的紋理和結(jié)構(gòu),并且這種不一致性可能會(huì)導(dǎo)致缺失區(qū)域內(nèi)部和缺失周圍出現(xiàn)模糊紋理或偽影.因此設(shè)計(jì)了Att-ST2模塊.Att-ST2包含雙向門控特征融合(Bi-directional Gated Feature Fusion,Bi-GFF)和GAFF兩個(gè)部分.Bi-GFF是文獻(xiàn)[13]提出的一種雙向門控特征融合方法,用來交換和重組結(jié)構(gòu)和紋理信息,同時(shí)利用軟門控控制兩種信息集成的速率,有助于特征被細(xì)化.
GAFF是UG_2F2F模型中的門控注意特征融合模塊,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.GAFF的輸入是來自Bi-GFF的輸出(圖3中的FBi-GFF);GAFF的輸出是經(jīng)過細(xì)化的特征圖(圖3中的F),被用來指導(dǎo)解碼端的輸出.GAFF包含親和學(xué)習(xí)(Affinity Learning,AL)和多尺度空間注意力(Multi-Scale Gated Spatial Attention,MS-GSA)兩個(gè)部分,親和學(xué)習(xí)使用3×3固定大小的卷積模板進(jìn)行特征學(xué)習(xí),增強(qiáng)了圖像局部特征之間的相關(guān)性.不同于CA[8]使用固定3×3尺度的補(bǔ)丁匹配方案,MS-GSA采用了3個(gè)不同尺度進(jìn)行特征提取與聚合,增強(qiáng)局部與全局信息的相關(guān)性;不同于CFA[13]使用普通卷積,MS-GSA采用了門控卷積進(jìn)行特征融合,在多個(gè)尺度上編碼出豐富的語義特征,同時(shí)在不規(guī)則修復(fù)中得到更佳的效果.
圖3 GAFF模塊結(jié)構(gòu)Fig.3 Structure of GAFF module
GAFF模塊的計(jì)算過程描述如下.給定一個(gè)特征圖FBi-GFF,首先用一個(gè)3×3大小的卷積核做卷積操作,用來提取背景與前景中的特征塊.為了將前景特征塊fi與背景特征塊fj進(jìn)行匹配,使用歸一化內(nèi)積進(jìn)行度量:
(1)
將公式(1)得到的值應(yīng)用基于通道的softmax操作,以獲得每個(gè)特征塊fi的注意力分?jǐn)?shù):
(2)
隨后,根據(jù)公式(2)計(jì)算出來的注意力分?jǐn)?shù),將提取到的像素塊fi進(jìn)行特征塊的重構(gòu):
(3)
在重構(gòu)特征塊的過程中,使用3組具有不同尺度的門控卷積來捕獲多尺度的語義特征:
(4)
其中Gatek(·)表示卷積核尺寸為k的門控卷積操作,k∈{3,5,7}.門控卷積自動(dòng)學(xué)習(xí)掩碼更新策略,并為生成的像素分配權(quán)重,實(shí)現(xiàn)對(duì)圖像中損壞區(qū)域和未損壞區(qū)域的區(qū)別對(duì)待.其公式定義如下:
(5)
其中,σ表示sigmoid函數(shù),輸出門控值在0和1之間.Φ可以是任何具有激活功能的函數(shù),公式(5)里用的是LeakyReLU激活函數(shù).Wg和Wf表示兩個(gè)不同的卷積濾波器,可以通過有效像素和圖像特征的元素乘法來提取有意義的信息.在門控卷積中,圖像和掩碼的訓(xùn)練是同步的,而不是按恒定規(guī)則轉(zhuǎn)換掩碼,因此能在不規(guī)則掩碼中獲得更有效的性能.
針對(duì)多列門控卷積提取出來的多尺度語義特征,引入了一種像素級(jí)權(quán)重生成器PW,更好地聚合多尺度語義特征.在公式(6)中,PW由兩個(gè)門控卷積層組成,卷積核大小分別為3和1.在每個(gè)卷積操作后采用非線性ReLU激活函數(shù),PW的輸出通道數(shù)設(shè)置為3.像素級(jí)權(quán)重圖計(jì)算如下:
G=Softmax(PW(F2))
(6)
G3,G5,G7=Slice(G)
(7)
(8)
UG_2F2F采用聯(lián)合損失進(jìn)行訓(xùn)練,包括修正的像素重建損失、感知損失、風(fēng)格損失和相對(duì)平均對(duì)抗損失.設(shè)G為生成器,D為鑒別器.Igt表示真實(shí)圖像,Egt表示完整結(jié)構(gòu)圖,Iin表示輸入的破損圖像,表示為Iin=Igt⊙Min.Min為初始二值掩碼,有效像素區(qū)域值為1,無效為像素區(qū)域值0.Iout表示網(wǎng)絡(luò)最終預(yù)測輸出的圖像.
定義了一種修正的重建損失l′re,其計(jì)算公式如下:
l′re=λre‖Iout-Igt‖1+λt‖Ite-Igt‖1+λs‖Ist-Iedge‖1
(9)
公式(9)中的3個(gè)損失項(xiàng)分別代表重建像素?fù)p失項(xiàng)、紋理損失項(xiàng)和結(jié)構(gòu)損失項(xiàng).Ite代表TE模塊的輸出,Ist代表ST模塊的輸出,Iedge代表通過Canny邊緣檢測器[2]提取到的完整邊緣信息.‖Iout-Igt‖1是最終預(yù)測輸出圖像Iout和真實(shí)圖像Igt之間的L1度量.λre、λt、λs表示各項(xiàng)的權(quán)重因子.
修正的重建損失l′re與感知損失Lperc[14]、風(fēng)格損失Lstyle[15]和相對(duì)平均對(duì)抗損失Ladv[5]相結(jié)合.定義UG_2F2F的聯(lián)合損失Ltotal為:
Ltotal=l′re+λpLperc+λsLstyle+λadvLadv
(10)
其中λp、λs、λadv表示對(duì)應(yīng)損失項(xiàng)的權(quán)重參數(shù).
采用CelebA-HQ公共人臉圖像數(shù)據(jù)集來評(píng)估UG_2F2F的性能.該數(shù)據(jù)集共有30000張圖片,選取了29000張進(jìn)行訓(xùn)練、1000張進(jìn)行測試.使用兩種不同種類的掩碼進(jìn)行了定性和定量比較.其中規(guī)則中心方形掩碼是一張覆蓋圖像中心,且覆蓋大小為128×128的圖像.不規(guī)則掩碼選取破損比例為10%~50%的任意形狀掩碼數(shù)據(jù)集[16],根據(jù)其空洞大小,被明確劃分成4個(gè)區(qū)間,分別為10%~20%,20%~30%,30%~40%和40%~50%,觀察每個(gè)區(qū)間內(nèi)的掩碼圖像修復(fù)結(jié)果.實(shí)驗(yàn)中用于訓(xùn)練、測試的圖像和掩碼均先預(yù)處理為256×256大小,其中掩碼圖像同時(shí)處理為單通道圖像.
UG_2F2F模型在PyTorch框架中實(shí)現(xiàn).計(jì)算硬件使用了Intel CPU I9-10920X(3.50 GHz)和NVIDIA RTX 3080Ti GPU(12GB).BatchSize設(shè)置為1,使用Adam優(yōu)化器[17].初始學(xué)習(xí)率設(shè)置為2×10-4.損失函數(shù)的權(quán)重參數(shù)λp、λs、λadv分別設(shè)置為0.1、250、0.2.
為了驗(yàn)證UG_2F2F模型在解決產(chǎn)生失真結(jié)構(gòu)或模糊紋理問題上是有效的,將其與代表性模型進(jìn)行比較,這些模型包括CA[8]、EdgeConnect[2]、RFR[18]、MED[5]和CTSDG[13].
UG_2F2F與代表性模型的視覺效果對(duì)比如圖4所示.前3行表示規(guī)則中心方形掩碼下的定性結(jié)果,后5行表示在不規(guī)則掩碼下的定性結(jié)果.可以看出,基于注意力的經(jīng)典模型CA在處理較大的中心缺失時(shí),產(chǎn)生了扭曲的結(jié)構(gòu)和大面積的偽影.基于結(jié)構(gòu)先驗(yàn)指導(dǎo)的兩階段模型EC能夠通過使用邊緣先驗(yàn)來生成正確的結(jié)構(gòu),但可能會(huì)生成混合的邊緣,導(dǎo)致很難生成正確的紋理,圖4中第2行的EC修復(fù)結(jié)果產(chǎn)生了兩對(duì)眉毛的輪廓.RFR使用循環(huán)特征推理模塊,在缺失區(qū)域比較大的情況產(chǎn)生了具有競爭力的結(jié)果,但其在小區(qū)域破損時(shí),修復(fù)結(jié)果會(huì)出現(xiàn)破損陰影,如圖4中RFR修復(fù)圖的第4行里存在修復(fù)偽影.MED利用平滑圖像作為額外的監(jiān)督來增強(qiáng)破損圖片的結(jié)構(gòu)修復(fù),但在大區(qū)域破損時(shí)修復(fù)結(jié)果會(huì)出現(xiàn)陰影.圖4中MED修復(fù)圖的第6行、第7行.CTSDG采用紋理與結(jié)構(gòu)雙編碼器結(jié)構(gòu)進(jìn)行修復(fù),產(chǎn)生了具有競爭力的結(jié)果.但其在10%~20%小區(qū)域破損區(qū)域的修復(fù)細(xì)節(jié)不夠豐富,如圖4中第5行修復(fù)對(duì)比圖中所示,CTSDG的修復(fù)結(jié)果中臉頰部分存在明顯模糊紋理的問題,并且男人的眼鏡被過度平滑,丟失細(xì)節(jié).與這些方法相比,本研究的修復(fù)結(jié)果在較小缺失圖像(10%~30%)中能修復(fù)出完整的結(jié)構(gòu)和豐富的細(xì)節(jié);在較大缺失圖像(40%~50%)中,能修復(fù)出較完整的結(jié)構(gòu),并且產(chǎn)生的模糊紋理較少.
圖4 CelebA-HQ數(shù)據(jù)集上不同方法的修復(fù)結(jié)果Fig.4 Inpainting results of different methods on CelebA-HQ dataset
采用失真度量和感知質(zhì)量度量來定量評(píng)估模型性能.失真度量用于測量結(jié)果的失真程度,包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、結(jié)構(gòu)相似指數(shù)(Structure Similarity Index Metric,SSIM),這兩個(gè)指標(biāo)預(yù)先假設(shè)理想的修復(fù)結(jié)果與目標(biāo)圖像完全相同,再分別計(jì)算它們之間的距離或差距.感知質(zhì)量度量用于表示結(jié)果的感知質(zhì)量,代表一幅圖像的主觀感知質(zhì)量.這里選擇了Fréchet初始距離(Fréchet Inception Distance,FID).
表1表示不同方法與UG_2F2F模型在CelebA-HQ數(shù)據(jù)集分別在規(guī)則中心掩碼和不同比例的不規(guī)則掩碼(10~50%)下修復(fù)結(jié)果的客觀性能對(duì)比.表中符號(hào)“↓”表示越低越好,“↑”表示越高越好.表中數(shù)據(jù)表明,所得結(jié)果的PSNR、SSIM和FID均超越了對(duì)比項(xiàng),而且在FID指標(biāo)上最大下降了28.1%,表明主觀感知質(zhì)量得到顯著提升.
表1 CelebA-HQ數(shù)據(jù)集上不同方法的客觀性能對(duì)比Table 1 Objective performance comparison of different methods on CelebA-HQ dataset
為了驗(yàn)證GAFF模塊的有效性,設(shè)計(jì)了兩種對(duì)比驗(yàn)證:1)直接去掉GAFF模塊,對(duì)應(yīng)表2中的w/o GAFF;2)用常規(guī)卷積替換GAFF中的門控卷積,在模型中融入衍生模塊CAFF進(jìn)行訓(xùn)練,對(duì)應(yīng)表2中的w/CAFF.實(shí)驗(yàn)結(jié)果表明,使用帶門空卷積的特征融合模塊GAFF的客觀性能指標(biāo)最優(yōu).同時(shí),從主觀表現(xiàn)來看,不使用GAFF時(shí),修復(fù)圖像存在以下困難:難以產(chǎn)生合理的結(jié)構(gòu)與紋理,人臉輪廓存在明顯的偽影,眼睛周圍紋理模糊等.
表2 特征融合模塊的消融定量評(píng)估Table 2 Quantitative evaluation of ablation with feature fusion module
為了驗(yàn)證不同邊緣信息在模型中發(fā)揮的作用,分別用Canny算子[2]、HED算法[19]、RTV平滑技術(shù)[20]3種方法提取CelebA-HQ數(shù)據(jù)集的結(jié)構(gòu)信息,通過實(shí)驗(yàn)對(duì)比分析它們?cè)赨G_2F2F模型中的表現(xiàn).Canny算子提取出的邊緣圖為一個(gè)二進(jìn)制掩碼,邊緣像素寬度固定為1像素.HED算法產(chǎn)生的邊緣具有不同的厚度,像素強(qiáng)度在0~1之間.RTV平滑技術(shù)產(chǎn)生的圖像信息同時(shí)具有結(jié)構(gòu)和紋理單元.實(shí)驗(yàn)結(jié)果如表3所示,使用Canny算子提取圖像邊緣并作為先驗(yàn)信息指導(dǎo)圖像修復(fù),其PSNR和SSIM值達(dá)到最大,具有性能優(yōu)勢.
表3 結(jié)構(gòu)先驗(yàn)定量評(píng)估,w/表示使用HED/RTV/CannyTable 3 Quantitative evaluation of structural prior,w/means using HED/RTV/Canny
提出了一種多特征深度融合的人臉圖像修復(fù)模型UG_2F2F,能夠在修復(fù)過程中將生成的結(jié)構(gòu)和紋理動(dòng)態(tài)地融合在一起.此外,為了克服輸入特征之間語義和尺度不一致的問題,提出了一種門控注意特征融合方法GAFF.同時(shí),使用一種修正的重建損失.在紋理重建和結(jié)構(gòu)重建過程中,添加約束.在規(guī)則中心掩碼和不規(guī)則掩碼上進(jìn)行的實(shí)驗(yàn)表明,UG_2F2F的性能與代表性模型相比具有競爭力.雖然將門控卷積運(yùn)用在基線U-Net網(wǎng)絡(luò)和GAFF模塊上,提高了不規(guī)則掩碼的修復(fù)效果,但它也增加了網(wǎng)絡(luò)的參數(shù),增加了訓(xùn)練的難度.因此,需要優(yōu)化門控卷積的參數(shù),使其保持輕量化,同時(shí)保持相對(duì)較高的性能.