• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    結(jié)合語(yǔ)義先驗(yàn)和深度注意力殘差的圖像修復(fù)

    2023-10-29 04:20:56陳曉雷梁其鐸
    計(jì)算機(jī)與生活 2023年10期
    關(guān)鍵詞:掩碼先驗(yàn)編碼器

    陳曉雷,楊 佳,梁其鐸

    蘭州理工大學(xué) 電氣工程與信息工程學(xué)院,蘭州 730000

    圖像修復(fù)指基于圖像背景信息對(duì)破損區(qū)域進(jìn)行重建的技術(shù)。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[1]利用生成模型與判別方法的相互博弈,并考慮全局信息,對(duì)樣本進(jìn)行特征提取和圖像生成,具有生成目標(biāo)時(shí)間短、速度快的特點(diǎn),能有效地解決圖像修復(fù)問題。基于GAN的雙階段圖像修復(fù)網(wǎng)絡(luò)也是該方向的代表性方法,第一階段重建缺失結(jié)構(gòu),第二階段利用第一階段預(yù)測(cè)得到的結(jié)構(gòu)信息指導(dǎo)紋理的生成。例如Nazeri 等人[2]提出的邊緣連接網(wǎng)絡(luò)(EdgeConnect),首先利用邊緣生成器生成缺失圖像的邊緣,再利用邊緣作為先驗(yàn)來(lái)補(bǔ)全圖像的缺失區(qū)域。Xiong 等人[3]將模型分為兩部分,首先預(yù)測(cè)前景輪廓,然后根據(jù)預(yù)測(cè)到的前景輪廓進(jìn)行區(qū)域修復(fù)。李海燕等人[4]在第一階段用一種基于可視化幾何組網(wǎng)絡(luò)模型的輕量型雙向級(jí)聯(lián)邊緣檢測(cè)網(wǎng)絡(luò)(bidirectional cascade network,BDCN)提取圖像邊緣,然后基于U-Net[5]架構(gòu)來(lái)還原缺失邊緣。胡凱等人[6]采用邊緣結(jié)構(gòu)生成器對(duì)輸入圖像的邊緣和色彩平滑信息進(jìn)行特征學(xué)習(xí),生成缺失區(qū)域的結(jié)構(gòu)內(nèi)容,以引導(dǎo)精細(xì)網(wǎng)絡(luò)重構(gòu)高質(zhì)量的語(yǔ)義圖像。

    然而兩階段修復(fù)方法的性能在很大程度上依賴于第一階段的重建結(jié)構(gòu),導(dǎo)致邊緣或輪廓的不可靠性增加,不利于第二階段的圖像生成。針對(duì)這一缺陷,Li等人[7]提出了單階段視覺結(jié)構(gòu)漸進(jìn)重建(progressive reconstruction of visual structure,PRVS)網(wǎng)絡(luò),在編碼器-解碼器中分別部署兩個(gè)視覺結(jié)構(gòu)重建層,以生成不同尺度的結(jié)構(gòu)信息,通過將結(jié)構(gòu)信息逐步融合到特征中,基于GAN 輸出合理的結(jié)構(gòu)。但是PRVS 傾向于生成棋盤狀紋理,修復(fù)結(jié)果紋理不真實(shí)。Song 等人[8]提出利用語(yǔ)義分割信息對(duì)圖像缺失區(qū)域進(jìn)行補(bǔ)繪的分割預(yù)測(cè)和指導(dǎo)修復(fù)網(wǎng)絡(luò)(segmentation prediction and guidance network,SPG-Net),該算法首先提取并重建圖像分割圖,再利用圖像分割圖對(duì)圖像進(jìn)行引導(dǎo)。由于分割圖中包含了有用的語(yǔ)義信息,SPG-Net相比那些沒有語(yǔ)義分割圖的方法能夠有效地提高嵌入性能。但是,不同語(yǔ)義的先驗(yàn)分布不同,不同語(yǔ)義區(qū)域?qū)θ笔^(qū)域像素的貢獻(xiàn)也不同,因此以SPG-Net為代表的基于上下文的方法將不同語(yǔ)義統(tǒng)一進(jìn)行映射往往會(huì)導(dǎo)致語(yǔ)義內(nèi)容不真實(shí)。為了解決這一問題,本文引入多尺度語(yǔ)義先驗(yàn),首先利用編碼器和語(yǔ)義先驗(yàn)網(wǎng)絡(luò)分別提取多尺度的底層圖像特征和學(xué)習(xí)高級(jí)語(yǔ)義先驗(yàn),得到全局上下文表示,然后將學(xué)習(xí)到的語(yǔ)義先驗(yàn)空間注入到圖像特征中,從而利用語(yǔ)義先驗(yàn)指導(dǎo)圖像缺失區(qū)域生成。除此之外,引入多尺度交叉熵?fù)p失來(lái)約束所有尺度上像素的預(yù)測(cè)類分布與目標(biāo)類分布之間的距離,幫助圖像補(bǔ)全。

    現(xiàn)有的圖像修復(fù)網(wǎng)絡(luò)很多都設(shè)計(jì)了復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提高圖像修復(fù)性能,如Liu 等人[9]設(shè)計(jì)了兩階段的U-Net 作為主干網(wǎng)絡(luò)并提出了一個(gè)連貫語(yǔ)義注意層來(lái)建立缺失部分特征之間的關(guān)聯(lián)模型以對(duì)圖像缺失部分進(jìn)行預(yù)測(cè);Liu等人[10]提出的DeFLOCNet通過一個(gè)深度編碼器-解碼器在空白區(qū)域上生成結(jié)構(gòu)和紋理;Zhang 等人[11-12]提出了一種殘差通道注意力網(wǎng)絡(luò)和殘差非局部注意力網(wǎng)絡(luò)用于高質(zhì)量的圖像恢復(fù)。本文在這些工作基礎(chǔ)上,為了能加深網(wǎng)絡(luò)并且使網(wǎng)絡(luò)更加關(guān)注于圖像缺失區(qū)域,提出利用殘差注意力和殘差塊構(gòu)建雙重殘差,繼而構(gòu)成深度注意力殘差組,不僅可以構(gòu)造更深的網(wǎng)絡(luò),還可以利用注意力對(duì)通道信息進(jìn)行自適應(yīng)提取。

    圖像修復(fù)任務(wù)中經(jīng)典的編碼器-解碼器結(jié)構(gòu)在編碼壓縮過程中會(huì)丟失大量細(xì)節(jié)信息。為了獲取更多信息,Mao 等人[13]在一組對(duì)稱的編碼器-解碼器組中引入了密集的跳躍連接,以最大化語(yǔ)義提取。楊文霞等人[14]則提出基于密集連接塊的U-Net 結(jié)構(gòu)的端到端圖像修復(fù)模型,以實(shí)現(xiàn)對(duì)任意模板的語(yǔ)義人臉圖像的修復(fù)。這些方法通過增加跳躍連接的方式將編碼器的每一層特征與解碼器的相應(yīng)層特征連接起來(lái),但是跳躍連接結(jié)構(gòu)缺乏從全尺度探索足夠信息的能力。因此本文提出全尺度跳躍連接,該連接結(jié)合了來(lái)自全尺度特征的低級(jí)語(yǔ)義信息與高級(jí)語(yǔ)義信息,從而有效地將低層次特征圖與高層次特征圖結(jié)合起來(lái)對(duì)缺失圖像進(jìn)行補(bǔ)全。

    本文的主要貢獻(xiàn)如下:

    (1)提出了語(yǔ)義先驗(yàn)網(wǎng)絡(luò),一種在多尺度上既能考慮局部紋理一致性又能考慮全局語(yǔ)義一致性的上下文圖像修復(fù)模型,通過語(yǔ)義先驗(yàn)指導(dǎo)圖像特征,并利用交叉熵?fù)p失約束像素的預(yù)測(cè)類分布與目標(biāo)類分布之間的距離,從而提升圖像恢復(fù)性能。

    (2)提出深度注意力殘差組使網(wǎng)絡(luò)能自適應(yīng)地學(xué)習(xí)較深網(wǎng)絡(luò)中不同通道中的特征,不僅具有跨通道的學(xué)習(xí)能力,而且能夠適應(yīng)更深層的網(wǎng)絡(luò)結(jié)構(gòu)。

    (3)采用全尺度跳躍連接將不同尺度特征圖的低級(jí)細(xì)節(jié)與高級(jí)語(yǔ)義結(jié)合起來(lái),從而提供多層次多尺度的語(yǔ)義信息。

    1 本文方法

    1.1 網(wǎng)絡(luò)總體結(jié)構(gòu)及工作原理

    本文提出的結(jié)合語(yǔ)義先驗(yàn)和深度注意力殘差的圖像修復(fù)網(wǎng)絡(luò)總體結(jié)構(gòu)如圖1所示,由生成器與判別器組成,其中生成器由編碼器(encoder)、語(yǔ)義先驗(yàn)網(wǎng)絡(luò)(semantic priors network,SPN)、深度注意力殘差組(deep attention residual group,DARG)、解碼器(decoder)和全尺度跳躍連接(full-scale skip connection,F(xiàn)SSC)五個(gè)模塊組成。本文的圖像修復(fù)網(wǎng)絡(luò)工作流程如下:首先輸入缺失圖像,編碼器提取多尺度圖像特征,同時(shí)語(yǔ)義先驗(yàn)網(wǎng)絡(luò)提取多尺度圖像語(yǔ)義先驗(yàn),多尺度圖像特征和多尺度語(yǔ)義先驗(yàn)融合得到合成語(yǔ)義信息下的圖像特征;然后將得到的圖像特征送入深度注意力殘差組進(jìn)一步增強(qiáng)缺失區(qū)域及各個(gè)通道的特征;接著將增強(qiáng)后的圖像特征送入解碼器進(jìn)行圖像生成;最后將生成的圖像送入譜歸一化[15]馬爾科夫鑒別器[16]用于生成器對(duì)抗訓(xùn)練,以確定輸入鑒別器的是真實(shí)樣本還是生成器生成的假樣本。

    圖1 本文提出的圖像修復(fù)網(wǎng)絡(luò)Fig.1 Image inpainting network presented in this paper

    本文重點(diǎn)研究了影響生成器總體性能的語(yǔ)義先驗(yàn)網(wǎng)絡(luò)、深度注意力殘差組、全尺度跳躍連接和約束語(yǔ)義先驗(yàn)網(wǎng)絡(luò)的多尺度交叉熵?fù)p失,這四個(gè)模塊的構(gòu)成及工作原理詳述如下。

    1.2 語(yǔ)義先驗(yàn)網(wǎng)絡(luò)

    圖像修復(fù)任務(wù)的目標(biāo)在于對(duì)缺失區(qū)域的補(bǔ)全,為了使網(wǎng)絡(luò)的修復(fù)結(jié)果更具有真實(shí)性并且充分地利用未缺失區(qū)域的信息內(nèi)容,本文提出語(yǔ)義先驗(yàn)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以在預(yù)先訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)的監(jiān)督下,學(xué)習(xí)缺失區(qū)域視覺元素的完整語(yǔ)義先驗(yàn)信息,更好地提取到圖像特征,并從圖像的未缺失區(qū)域中學(xué)習(xí)語(yǔ)義信息,利用學(xué)習(xí)到的語(yǔ)義信息對(duì)缺失區(qū)域進(jìn)行補(bǔ)全。由于不同語(yǔ)義的先驗(yàn)分布不同,不同語(yǔ)義區(qū)域?qū)θ笔^(qū)域像素的貢獻(xiàn)也不同,采用多尺度的語(yǔ)義先驗(yàn)來(lái)獲得不同語(yǔ)義的先驗(yàn)分布和不同語(yǔ)義區(qū)域?qū)θ笔^(qū)域像素的貢獻(xiàn)。首先,通過語(yǔ)義先驗(yàn)網(wǎng)絡(luò)得到多尺度語(yǔ)義先驗(yàn),通過編碼器得到多尺度圖像特征;然后,將得到的多尺度語(yǔ)義先驗(yàn)和多尺度圖像特征對(duì)應(yīng)相同尺度下的語(yǔ)義先驗(yàn)和圖像特征進(jìn)行融合;最后,將各個(gè)尺度下融合到的特征進(jìn)行相融后送入深度注意力殘差組進(jìn)行圖像恢復(fù)。

    編碼器的輸入為帶有缺失區(qū)域的圖像Im,其作用為學(xué)習(xí)圖像未缺失區(qū)域的圖像特征Fm。在語(yǔ)義先驗(yàn)網(wǎng)絡(luò)階段,為了保留更多的局部結(jié)構(gòu),先對(duì)帶有缺失區(qū)域的圖像Im和缺失圖像相應(yīng)的掩碼M進(jìn)行上采樣得到Ime和Me,將Ime和Me通道合并后的圖像特征Fim作為語(yǔ)義先驗(yàn)網(wǎng)絡(luò)的輸入,語(yǔ)義先驗(yàn)網(wǎng)絡(luò)學(xué)習(xí)輸入特征Fim的語(yǔ)義先驗(yàn)Fs。因此通過編碼器可以學(xué)習(xí)到多尺度圖像特征Fms、Fml,通過語(yǔ)義先驗(yàn)網(wǎng)絡(luò)可以學(xué)習(xí)到多尺度語(yǔ)義先驗(yàn)Fss、Fsl。具體計(jì)算方法如下:

    在語(yǔ)義先驗(yàn)網(wǎng)絡(luò)階段,為了保留更多的局部結(jié)構(gòu),先對(duì)帶有缺失區(qū)域的圖像Im和缺失圖像相應(yīng)的掩碼M進(jìn)行上采樣,將上采樣后圖像和掩碼的通道合并后的圖像特征Fim作為語(yǔ)義先驗(yàn)網(wǎng)絡(luò)的輸入,語(yǔ)義先驗(yàn)網(wǎng)絡(luò)學(xué)習(xí)輸入特征Fim的語(yǔ)義先驗(yàn)Fs。

    其中,Im∈R3×H×W,M∈R1×H×W,Ups代表上采樣,Concat代表通道合并,Ime∈R3×2H×2W,Me∈R1×2H×2W,F(xiàn)im∈R4×2H×2W,E(?)代表網(wǎng)絡(luò)編碼階段,S(?)代表網(wǎng)絡(luò)語(yǔ)義先驗(yàn)階段,則Fms,Fss∈R2c×H/4×W/4,F(xiàn)ml,Fsl∈Rc×H×W。統(tǒng)稱學(xué)習(xí)到的語(yǔ)義先驗(yàn)為Fs,圖像特征為Fm。

    理論上利用學(xué)習(xí)到的語(yǔ)義先驗(yàn)Fs可以幫助圖像特征Fm進(jìn)行圖像恢復(fù),但是經(jīng)過編碼階段得到的圖像特征Fm和經(jīng)過語(yǔ)義先驗(yàn)階段學(xué)習(xí)得到的語(yǔ)義先驗(yàn)Fs關(guān)注到的是圖像內(nèi)容的不同方面,直接對(duì)圖像特征Fm和語(yǔ)義先驗(yàn)Fs進(jìn)行特征融合會(huì)影響編碼器的學(xué)習(xí)過程并且干擾未缺失區(qū)域的局部紋理??臻g自適應(yīng)歸一化模塊(spatially-adaptive normalization,Spade)[17]可以根據(jù)輸入圖像和語(yǔ)義圖指導(dǎo)合成語(yǔ)義信息下的圖像,因此,本文采用空間自適應(yīng)歸一化模塊Spade 根據(jù)學(xué)習(xí)到的語(yǔ)義先驗(yàn)來(lái)指導(dǎo)圖像特征Fm合成語(yǔ)義信息下的圖像,對(duì)圖像缺失區(qū)域進(jìn)行生成,從而幫助恢復(fù)全局和局部的內(nèi)容。具體來(lái)說(shuō),Spade首先用非參數(shù)實(shí)例歸一化IN[18]對(duì)輸入圖像特征Fm進(jìn)行歸一化,然后從語(yǔ)義先驗(yàn)Fs中學(xué)習(xí)兩組不同的參數(shù),對(duì)圖像特征Fm執(zhí)行空間像素仿射變換,計(jì)算方法如下:

    其中,Spade為空間自適應(yīng)歸一化模塊,γ和β為從語(yǔ)義先驗(yàn)Fs中學(xué)習(xí)到的兩組參數(shù),IN代表實(shí)例歸一化。

    將多尺度圖像特征Fms、Fml和多尺度語(yǔ)義先驗(yàn)Fss、Fsl通過式(3)和式(4)融合后可得多尺度語(yǔ)義信息下的圖像特征

    為了對(duì)多尺度語(yǔ)義先驗(yàn)階段所有尺度上像素的預(yù)測(cè)類分布與目標(biāo)類分布之間的距離進(jìn)行約束,引入多尺度交叉熵?fù)p失,并通過各個(gè)損失項(xiàng)不同的加權(quán)得到網(wǎng)絡(luò)的總損失,具體細(xì)節(jié)見1.5節(jié)。

    語(yǔ)義先驗(yàn)網(wǎng)絡(luò)工作流程如下所示:

    輸入:缺失圖像Im與掩碼M。

    輸出:語(yǔ)義先驗(yàn)與編碼器的融合特征Fm′。

    1.3 深度注意力殘差組

    對(duì)于圖像修復(fù)網(wǎng)絡(luò)來(lái)說(shuō),深層殘差網(wǎng)絡(luò)能更好地利用通道特征,靈活地處理缺失區(qū)域與未缺失區(qū)域的信息。注意力機(jī)制可以告訴模型需要更關(guān)注哪些內(nèi)容和哪些位置,從而加強(qiáng)模型的性能,其中通道注意力可以通過考慮通道之間的相互依賴性來(lái)自適應(yīng)地重新調(diào)整特征。協(xié)調(diào)注意力(coordinate attention)[19]作為一種新型通道注意力不僅能捕獲通道間的信息,還能捕獲方向感知和位置感知的信息,幫助模型更加精準(zhǔn)地定位和識(shí)別感興趣的目標(biāo)。因此本文引入深度注意力殘差組,使生成器網(wǎng)絡(luò)不僅能更加關(guān)注到圖像的缺失區(qū)域,而且能自適應(yīng)地學(xué)習(xí)各個(gè)通道的特征,專注于更有用的通道特征并構(gòu)建更深層的網(wǎng)絡(luò)。

    圖2 深度注意力殘差組Fig.2 Deep attention residual group

    其中,RB為殘差塊,HDCRB為膨脹卷積殘差塊,HCA為協(xié)調(diào)注意力塊,HCARB為注意力殘差塊,HConv為3×3卷積,HDARG為深度注意力殘差組。

    實(shí)驗(yàn)發(fā)現(xiàn)在深度注意力殘差組中引入太多的殘差塊會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定,因此本文在殘差塊相加前引入一個(gè)卷積來(lái)使網(wǎng)絡(luò)訓(xùn)練更加穩(wěn)定。

    利用注意力殘差塊和深度注意力殘差組構(gòu)成殘差中的殘差,能夠使網(wǎng)絡(luò)適應(yīng)更深層的結(jié)構(gòu)。深度注意力殘差組內(nèi)部的長(zhǎng)連接和注意力殘差塊內(nèi)部的短連接都可以將豐富的信息通過恒等映射向后傳播,保證了網(wǎng)絡(luò)中信息的流動(dòng)。

    1.4 全尺度跳躍連接

    為了使網(wǎng)絡(luò)可以更好地利用網(wǎng)絡(luò)空間不同階段的圖像特征信息,減少編碼部分下采樣過程中所造成的部分信息丟失,并結(jié)合未缺失區(qū)域進(jìn)一步提取缺失部分的信息,本文在編碼器-解碼器部分增加了全尺度跳躍連接,該連接結(jié)合了來(lái)自全尺度特征的低級(jí)語(yǔ)義信息與高級(jí)語(yǔ)義信息,從而將低層次特征圖(包含圖像的邊界)與高層次特征圖(包含圖像的紋理與細(xì)節(jié))結(jié)合起來(lái)對(duì)圖像缺失區(qū)域進(jìn)行修復(fù)。

    全尺度指解碼器的每一層都融合了來(lái)自編碼器的較小和相同尺度的特征圖以及來(lái)自解碼器的較大尺度的特征圖。將編碼器各個(gè)尺度卷積后的圖像特征分別設(shè)為Fel、Fem和Fes,解碼器各個(gè)尺度的圖像特征分別設(shè)為Fdl、Fdm和Fds,則經(jīng)過全尺度連接后解碼器各個(gè)尺度的圖像特征可利用以下公式計(jì)算得到。

    引入全尺度跳躍連接后網(wǎng)絡(luò)能捕獲全尺度下的細(xì)粒度細(xì)節(jié)和粗粒度語(yǔ)義,從而能獲取更多的上下文信息對(duì)圖像的缺失區(qū)域進(jìn)行修復(fù)。

    1.5 損失函數(shù)

    損失函數(shù)包括用于圖像缺失區(qū)域修復(fù)和語(yǔ)義先驗(yàn)的損失項(xiàng)。本文利用重建和對(duì)抗性損失來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò)模型,利用多尺度交叉熵?fù)p失來(lái)約束語(yǔ)義先驗(yàn)。輸入缺失圖像經(jīng)過修復(fù)網(wǎng)絡(luò)模型修復(fù)后的圖像為Imer:

    其中,Ipre為經(jīng)過生成器得到的預(yù)測(cè)圖像,Igt為真實(shí)圖像,M為二值掩碼,⊙代表Hadamard乘積。Imer為將經(jīng)過修復(fù)網(wǎng)絡(luò)的預(yù)測(cè)圖像與真實(shí)圖像相結(jié)合生成的圖像。

    (1)重建損失。對(duì)于重建損失Limg,本文對(duì)重建圖像使用L1損失,以更關(guān)注缺失區(qū)域的內(nèi)容:

    其中,n、i、j均為256。

    (2)對(duì)抗性損失。利用對(duì)抗性損失Ladv來(lái)訓(xùn)練網(wǎng)絡(luò)以生成更可信的局部細(xì)節(jié):

    其中,D代表判別器。

    (3)多尺度交叉熵?fù)p失。對(duì)于語(yǔ)義先驗(yàn),采用多尺度交叉熵?fù)p失來(lái)約束所有尺度上像素的預(yù)測(cè)類分布與目標(biāo)類分布之間的距離,用來(lái)懲罰每個(gè)尺度上的像素每個(gè)位置的偏差:

    其中,Lss(Ss,Sss)為在Sss,Ss∈R2c×H/4×W/4下經(jīng)過上采樣得到的交叉熵?fù)p失,Lsl(Sl,Ssl)為在Ssl,Sl∈Rc×H/2×W/2下經(jīng)過上采樣得到的交叉熵?fù)p失,Ups代表上采樣,i表示語(yǔ)義先驗(yàn)圖Ss、Sl中的每個(gè)像素。

    (4)總損失。語(yǔ)義先驗(yàn)的總損失為交叉熵?fù)p失在多個(gè)尺度上的加權(quán)和:

    其中,α1和α2均為0.5。

    (5)網(wǎng)絡(luò)總損失。網(wǎng)絡(luò)的總損失被定義為上述多尺度重建損失、對(duì)抗性損失和多尺度交叉熵?fù)p失的加權(quán)和:

    其中,λ1、λ2和λ3分別為重建損失、對(duì)抗性損失和多尺度交叉熵?fù)p失的權(quán)重,通過實(shí)驗(yàn)確定λ1=1.0,λ2=0.1,λ3=0.1。

    2 實(shí)驗(yàn)結(jié)果及分析

    2.1 模型實(shí)現(xiàn)

    本文使用Pytorch 來(lái)實(shí)現(xiàn)所提出的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)訓(xùn)練集總數(shù)的1/2 采用水平翻轉(zhuǎn)來(lái)增強(qiáng)數(shù)據(jù)。使用10個(gè)epoch訓(xùn)練網(wǎng)絡(luò),batchsize等于2,并使用動(dòng)量參數(shù)為0.9 和初始學(xué)習(xí)率為0.001 的Adam 優(yōu)化器。本文實(shí)驗(yàn)是在一臺(tái)裝載AMD R5 CPU 和RTX 3060 Laptop GPU的計(jì)算機(jī)上完成的。

    2.2 訓(xùn)練與測(cè)試

    本文采用CelebA-HQ 數(shù)據(jù)集與Paris Street View數(shù)據(jù)集來(lái)評(píng)估本文模型,數(shù)據(jù)集信息如下:

    CelebA-HQ數(shù)據(jù)集[20]:CelebA-HQ總共包含30 000張圖像,每張圖像都包括了臉部特征點(diǎn)(landmark)、人臉屬性(attribute)等信息,每張圖像的分辨率都是1 024×1 024,本文使用27 000張用于網(wǎng)絡(luò)訓(xùn)練,3 000張用于網(wǎng)絡(luò)測(cè)試。

    Paris Street View數(shù)據(jù)集[21]:巴黎街景數(shù)據(jù)集包含了足夠的結(jié)構(gòu)信息,比如窗戶、門和一些巴黎風(fēng)格的建筑,圖像分辨率為936×537。巴黎街景數(shù)據(jù)集由15 000 張圖像組成,本文使用14 900 張進(jìn)行網(wǎng)絡(luò)訓(xùn)練,100張圖像進(jìn)行測(cè)試。

    對(duì)于來(lái)自CelebA-HQ 數(shù)據(jù)集和Paris Street View數(shù)據(jù)集的圖像,本文將其分辨率統(tǒng)一調(diào)整為256×256。掩碼部分采用的像素規(guī)格為中心區(qū)域?yàn)?28×128 的白色掩碼和掩碼比率為10%~20%、20%~30%和30%~40%的白色隨機(jī)掩碼。

    為了驗(yàn)證本文算法的有效性,本文對(duì)Paris Street View 數(shù)據(jù)集采用中心掩碼,對(duì)CelebA-HQ 數(shù)據(jù)集采用中心掩碼和隨機(jī)掩碼,選用峰值信噪比(peak signal-to-noise ratio,PSNR)、結(jié)構(gòu)相似性(structural similarity,SSIM)和L1 Loss作為評(píng)價(jià)指標(biāo)進(jìn)行定量比較。

    PSNR是基于對(duì)應(yīng)像素點(diǎn)間的誤差,即基于誤差敏感的圖像質(zhì)量評(píng)價(jià);SSIM 是一種全參考的圖像質(zhì)量評(píng)價(jià)指標(biāo),它分別從亮度、對(duì)比度、結(jié)構(gòu)三方面度量圖像相似性;L1 Loss 是為了確保像素級(jí)的重建精度,可以保留顏色和亮度。PSNR和SSIM值越高,表示網(wǎng)絡(luò)性能越好,L1 Loss值越低,則表示網(wǎng)絡(luò)性能越好。

    2.3 實(shí)驗(yàn)結(jié)果與對(duì)比分析

    本文方法對(duì)CelebA-HQ數(shù)據(jù)集與Paris Street View數(shù)據(jù)集在中心掩碼上對(duì)PSNR、SSIM 和L1 Loss 值進(jìn)行了比較。對(duì)CelebA-HQ數(shù)據(jù)集在不同比例掩碼上對(duì)PSNR、SSIM 和L1 Loss 值進(jìn)行了比較。本文將提出的方法與圖像修復(fù)領(lǐng)域先進(jìn)的PRVS(progressive reconstruction of visual structure)、DSNet(dynamic selection network)[22]、RFR(recurrent feature reasoning)[23]和RN(region normalization)[24]算法進(jìn)行了客觀指標(biāo)比較與主觀修復(fù)結(jié)果比較,其中PRVS、DSNet 和RN均為基于GAN的修復(fù)方法,RFR為基于CNN的修復(fù)方法。不同修復(fù)方法在CelebA-HQ 和Paris Street View數(shù)據(jù)集的客觀指標(biāo)實(shí)驗(yàn)結(jié)果見表1和表2,不同方法在CelebA-HQ和Paris Street View數(shù)據(jù)集的主觀修復(fù)結(jié)果見圖3~圖5。

    表1 不同數(shù)據(jù)集上中心掩碼修復(fù)結(jié)果對(duì)比Table 1 Comparison of center mask inpainting results on different datasets

    表2 不同數(shù)據(jù)集上隨機(jī)掩碼修復(fù)結(jié)果對(duì)比Table 2 Comparison of random mask inpainting results on different datasets

    圖3 CelebA-HQ數(shù)據(jù)集上中心掩碼修復(fù)結(jié)果Fig.3 Inpainting results of center mask on CelebA-HQ dataset

    2.3.1 客觀實(shí)驗(yàn)結(jié)果及對(duì)比分析

    從表1結(jié)果可見,在CelebA-HQ數(shù)據(jù)集上,PRVS、DSNet、RFR 和RN 四種方法中PRVS 的PSNR 和SSIM 最高,L1 Loss 最低。本文方法相較于PRVS 在CelebA-HQ 數(shù)據(jù)集上PSNR 和SSIM 分別提高0.493和1.2%,L1 Loss 減少0.09%。在Paris Street View 數(shù)據(jù)集上,PRVS、DSNet、RFR 和RN 四種方法中RN 的PSNR 和SSIM 最高,L1 Loss 最低,本文方法相較于RN 在Paris Street View 數(shù)據(jù)集上PSNR 和SSIM 分別提高0.545和0.8%,L1 Loss減少0.1%。

    表2 中10%~20%、20%~30%、30%~40%分別代表隨機(jī)掩碼比率。如表2 所示,在掩碼比率為10%~20%時(shí),不同方法的實(shí)驗(yàn)結(jié)果相差較大,隨著掩碼比率的增大,不同方法的實(shí)驗(yàn)結(jié)果差距逐漸縮小。在隨機(jī)掩碼修復(fù)實(shí)驗(yàn)中PRVS、DSNet、RFR 和RN 四種方法中RN 的PSNR 和SSIM 最高,L1 Loss 最低。本文方法相較于RN 在CelebA-HQ 數(shù)據(jù)集上在隨機(jī)掩碼為10%~20%時(shí)PSNR 和SSIM 分別提高0.889 和0.8%,L1 Loss 減少0.07%;在隨機(jī)掩碼為20%~30%時(shí)PSNR 和SSIM 分別提高0.742 和1.0%,L1 Loss 減少0.1%;在隨機(jī)掩碼為30%~40%時(shí)PSNR和SSIM分別提高0.797和1.6%,L1 Loss減少0.18%。

    2.3.2 主觀實(shí)驗(yàn)結(jié)果及對(duì)比分析

    不同方法的修復(fù)結(jié)果在CelebA-HQ 數(shù)據(jù)集上采用中心掩碼的主觀視覺比較如圖3所示。其中(a)gt為真實(shí)圖像,(b)input 為缺失圖像,(c)PRVS、(d)DSNet、(e)RFR 和(f)RN 分別代表不同方法的修復(fù)結(jié)果,(g)Ours 為本文方法的修復(fù)結(jié)果。可以看到PRVS、RFR 及RN 的修復(fù)結(jié)果都有不同程度上的模糊,本文方法相比這些方法更加清晰。DSNet與本文方法的修復(fù)結(jié)果視覺差異較小,將在圖6進(jìn)行局部放大后再進(jìn)行深入對(duì)比和分析。

    不同方法的修復(fù)結(jié)果在Paris Street View數(shù)據(jù)集上采用中心掩碼的主觀視覺比較如圖4 所示??梢钥闯觯疚乃惴ǖ男迯?fù)結(jié)果在被遮擋的窗戶部分相比其他算法可以明顯看到窗戶的輪廓,其他方法的修復(fù)結(jié)果窗戶的輪廓相對(duì)不清晰。

    圖4 Paris Street View數(shù)據(jù)集上中心掩碼修復(fù)結(jié)果Fig.4 Inpainting results of center mask on Paris Street View dataset

    不同方法的修復(fù)結(jié)果在CelebA-HQ 數(shù)據(jù)集上采用隨機(jī)掩碼的主觀視覺比較如圖5所示,從上到下的三行掩碼比率分別為10%~20%、20%~30%和30%~40%。在掩碼比率為10%~20%時(shí),所有方法都可以對(duì)缺失區(qū)域進(jìn)行較好的補(bǔ)全。在掩碼比率為20%~30%時(shí),其他方法對(duì)人物臉部的右下方區(qū)域的補(bǔ)全都有若干的缺失與模糊,本文方法能對(duì)人物臉部的右下方區(qū)域進(jìn)行較完整的補(bǔ)全。在掩碼比率為30%~40%時(shí),PRVS、RFR和RN能明顯地看到未補(bǔ)全區(qū)域,本文方法與DSNet修復(fù)結(jié)果相比無(wú)明顯的差異。

    2.3.3 主觀實(shí)驗(yàn)結(jié)果局部對(duì)比分析

    從圖3~圖5 主觀實(shí)驗(yàn)結(jié)果及對(duì)比分析中可以看到,本文方法相比PRVS、RFR及RN的主觀修復(fù)結(jié)果有較明顯的改善與提升,但是與DSNet的修復(fù)結(jié)果視覺差異較小,因此本文將DSNet與本文方法的實(shí)驗(yàn)結(jié)果進(jìn)行了局部放大對(duì)比,如圖6所示。

    圖6中(a)gt、(b)gt(local)、(c)DSNet(local)和(d)Ours(local)分別為整體真實(shí)圖像、局部真實(shí)圖像、局部真實(shí)圖像的DSNet 修改結(jié)果和本文方法修復(fù)結(jié)果。其中綠色框部分表示真實(shí)圖像的缺失部分,藍(lán)色框表示真實(shí)圖像與DSNet 和本文方法修復(fù)結(jié)果的差異部分。第一行實(shí)驗(yàn)結(jié)果,本文方法的修復(fù)結(jié)果整體上比較模糊,DSNet 整體上比較清晰,但是和原始圖像相比,本文方法在關(guān)鍵細(xì)節(jié)的修復(fù)上更加接近原圖,比如對(duì)人物鼻梁、鼻孔和右側(cè)咬肌的修復(fù)。第二行實(shí)驗(yàn)結(jié)果,DSNet修復(fù)結(jié)果整體上依然比本文方法清晰,但是DSNet 出現(xiàn)了原圖沒有的線條和紋理,且沒有修復(fù)出字母A。第三行實(shí)驗(yàn)結(jié)果,兩種方法的修復(fù)結(jié)果主觀視覺無(wú)明顯差異。第四行實(shí)驗(yàn)結(jié)果,人物右側(cè)臉頰上的紋理,本文修復(fù)結(jié)果好于DSNet,其余區(qū)域兩種方法的修復(fù)結(jié)果主觀視覺無(wú)明顯差異。第五行實(shí)驗(yàn)結(jié)果,兩種方法的修復(fù)結(jié)果主觀視覺無(wú)明顯差異??傮w而言,本文方法修復(fù)結(jié)果好于DSNet修復(fù)結(jié)果。

    2.4 模型訓(xùn)練

    2.4.1 訓(xùn)練過程損失曲線

    訓(xùn)練過程中G_L1_Loss 和G_Loss 曲線如圖7 與圖8 所示。其中Paris-center、CelebA-HQ-30~40、CelebA-HQ-20~30、CelebA-HQ-10~20和CelebA-HQcenter 分別代表Paris Street View 數(shù)據(jù)集使用中心掩碼訓(xùn)練網(wǎng)絡(luò)、CelebA-HQ數(shù)據(jù)集使用30%~40%、20%~30%、10%~20%的隨機(jī)掩碼比率和中心掩碼訓(xùn)練網(wǎng)絡(luò)。本文對(duì)網(wǎng)絡(luò)訓(xùn)練了10 個(gè)epoch,取每個(gè)epoch 的平均損失作為當(dāng)前epoch 的損失值,由圖7 和圖8 可以看到,隨著網(wǎng)絡(luò)訓(xùn)練的epoch 數(shù)增加,網(wǎng)絡(luò)的G_L1_Loss和G_Loss逐漸降低并趨于收斂。

    圖7 訓(xùn)練過程G_L1_Loss曲線Fig.7 G_L1_Loss curve in training process

    圖8 訓(xùn)練過程G_Loss曲線Fig.8 G_Loss curve in training process

    2.4.2 相關(guān)技術(shù)指標(biāo)迭代曲線

    本文采用CelebA-HQ 數(shù)據(jù)集中的3 000 張圖像對(duì)每個(gè)epoch 保存的模型進(jìn)行驗(yàn)證從而得到每個(gè)epoch的PSNR、SSIM和L1 Loss迭代曲線,如圖9~圖11所示。可見隨著epoch數(shù)量的增加,PSNR和SSIM逐漸增加并趨于收斂,L1 Loss逐漸降低并趨于收斂。

    圖9 PSNR迭代曲線Fig.9 PSNR iteration curve

    圖11 L1 Loss迭代曲線Fig.11 L1 Loss iteration curve

    2.5 消融實(shí)驗(yàn)

    2.5.1 各個(gè)模塊的消融實(shí)驗(yàn)

    本文在CelebA-HQ和Paris Street View數(shù)據(jù)集上使用中心掩碼進(jìn)行消融實(shí)驗(yàn),以編碼器-解碼器組成的生成器為基礎(chǔ)網(wǎng)絡(luò)(Baseline),分別在基礎(chǔ)網(wǎng)絡(luò)上添加不同的模塊來(lái)驗(yàn)證各個(gè)模塊的有效性,√表示使用該模塊,×表示不使用該模塊。實(shí)驗(yàn)結(jié)果如表3所示,實(shí)驗(yàn)結(jié)果增幅如表4 所示,其中SPN 代表語(yǔ)義先驗(yàn),Muloss 代表多尺度交叉熵?fù)p失,DARG 代表深度注意力殘差組,F(xiàn)SSC代表全尺度跳躍連接。

    表3 兩個(gè)數(shù)據(jù)集上各個(gè)模塊的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of each module on two datasets

    表4 兩個(gè)數(shù)據(jù)集上各個(gè)模塊的實(shí)驗(yàn)結(jié)果增幅Table 4 Increase of experimental results of each module on two datasets

    從表4可以看到,在基礎(chǔ)網(wǎng)絡(luò)中加入每個(gè)模塊后PSNR和SSIM都有所增加,L1 loss都有所減少,證明了在基礎(chǔ)網(wǎng)絡(luò)上增加各個(gè)每個(gè)模塊對(duì)網(wǎng)絡(luò)都有所提升,證明了每個(gè)模塊的有效性。

    2.5.2 語(yǔ)義先驗(yàn)與編碼器多尺度融合消融實(shí)驗(yàn)

    為了驗(yàn)證語(yǔ)義先驗(yàn)與編碼器多尺度融合的有效性,在CelebA-HQ 數(shù)據(jù)集上采用中心掩碼進(jìn)行消融實(shí)驗(yàn)。在編碼器-解碼器組成的生成器中加入深度注意力殘差組(DARG)和全尺度跳躍連接(FSSC)作為基礎(chǔ)網(wǎng)絡(luò),對(duì)語(yǔ)義先驗(yàn)與編碼器融合后的兩個(gè)尺度圖像特征分為三種情況進(jìn)行消融實(shí)驗(yàn),分別為和表示將兩個(gè)不同尺度的圖像特征融合到同一尺度。實(shí)驗(yàn)結(jié)果如表5所示。

    表5 語(yǔ)義先驗(yàn)與編碼器多尺度融合的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of multi-scale fusion of semantic priors and encoder

    從表5的實(shí)驗(yàn)結(jié)果可以看到,在基礎(chǔ)網(wǎng)絡(luò)上加入語(yǔ)義先驗(yàn)與編碼器融合后的圖像特征后網(wǎng)絡(luò)的PSNR減少0.014,SSIM增加0.003,L1 Loss沒有改變;加入語(yǔ)義先驗(yàn)與編碼器融合后的圖像特征后網(wǎng)絡(luò)的PSNR 減少0.064,SSIM 沒有改變,L1 Loss 增加0.000 3;在基礎(chǔ)網(wǎng)絡(luò)上加入語(yǔ)義先驗(yàn)與編碼器多尺度融合后的圖像特征后PSNR 和SSIM 分別增加0.052 和0.003,L1 Loss 降低0.000 1。證明了語(yǔ)義先驗(yàn)與編碼器多尺度融合對(duì)圖像修復(fù)網(wǎng)絡(luò)更有效,對(duì)圖像修復(fù)后的結(jié)果更好。

    2.5.3 全尺度跳躍連接與跳躍連接的消融實(shí)驗(yàn)

    為了驗(yàn)證全尺度跳躍連接的有效性,在CelebAHQ數(shù)據(jù)集上采用中心掩碼對(duì)全尺度跳躍連接(FSSC)與跳躍連接(SC)進(jìn)行消融實(shí)驗(yàn),跳躍連接是指直接將編碼器-解碼器的相應(yīng)尺度進(jìn)行連接。以編碼器-解碼器組成的生成器為基礎(chǔ)網(wǎng)絡(luò),在基礎(chǔ)網(wǎng)絡(luò)上分別添加全尺度跳躍連接與跳躍連接進(jìn)行消融實(shí)驗(yàn);并在基礎(chǔ)網(wǎng)絡(luò)上加入由語(yǔ)義先驗(yàn)、多尺度交叉熵?fù)p失和深度注意力殘差組組成的DSM分別與全尺度跳躍連接和跳躍連接進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。

    表6 全尺度跳躍連接與跳躍連接的實(shí)驗(yàn)結(jié)果Table 6 Experimental results of full-scale skip connection and skip connection

    從表6的實(shí)驗(yàn)結(jié)果可以看到,在基礎(chǔ)網(wǎng)絡(luò)上加入全尺度跳躍連接后PSNR 和SSIM 分別增加0.134 和0.003,L1 Loss 減少0.000 3;在基礎(chǔ)網(wǎng)絡(luò)上加入跳躍連接后相比基礎(chǔ)網(wǎng)絡(luò)PSNR 反而減少0.053,SSIM 沒有改變,L1 Loss 反而增加了0.000 1;基礎(chǔ)網(wǎng)絡(luò)上加入語(yǔ)義先驗(yàn)、多尺度交叉熵?fù)p失、深度注意力殘差組和跳躍連接后PSNR 和SSIM 分別增加0.404 和0.008,L1 Loss 降低0.000 7;基礎(chǔ)網(wǎng)絡(luò)上加入語(yǔ)義先驗(yàn)、多尺度交叉熵?fù)p失、深度注意力殘差組和全尺度跳躍連接的PSNR 和SSIM 分別增加0.471 和0.009,L1 Loss 降低0.001。由實(shí)驗(yàn)結(jié)果可知全尺度跳躍連接比跳躍連接的PSNR 和SSIM 更高,L1 Loss 更低,證明了加入全尺度跳躍連接比跳躍連接對(duì)圖像修復(fù)網(wǎng)絡(luò)更有效。

    3 結(jié)束語(yǔ)

    本文提出了結(jié)合語(yǔ)義先驗(yàn)和深度注意力殘差組的圖像修復(fù)網(wǎng)絡(luò)。通過語(yǔ)義先驗(yàn)網(wǎng)絡(luò)學(xué)習(xí)缺失區(qū)域視覺元素的完整語(yǔ)義先驗(yàn)信息,更好提取圖像特征,并從圖像的未缺失區(qū)域中學(xué)習(xí)語(yǔ)義信息;深度注意力殘差組使網(wǎng)絡(luò)專注于更有用的通道特征并構(gòu)建更深層的網(wǎng)絡(luò);全尺度跳躍連接可以更好利用網(wǎng)絡(luò)空間不同階段的圖像特征信息,從而對(duì)缺失區(qū)域補(bǔ)全。實(shí)驗(yàn)表明,該網(wǎng)絡(luò)模型在主觀和客觀上的實(shí)驗(yàn)結(jié)果都優(yōu)于目前代表性先進(jìn)方法的修復(fù)結(jié)果,得到的修復(fù)圖像更具真實(shí)性,并且與真實(shí)圖像更加相似。后續(xù)工作將進(jìn)一步優(yōu)化圖像修復(fù)網(wǎng)絡(luò)模型,使網(wǎng)絡(luò)模型更加輕量化,重建速度更快。

    猜你喜歡
    掩碼先驗(yàn)編碼器
    基于無(wú)噪圖像塊先驗(yàn)的MRI低秩分解去噪算法研究
    低面積復(fù)雜度AES低熵掩碼方案的研究
    基于FPGA的同步機(jī)軸角編碼器
    基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
    基于自適應(yīng)塊組割先驗(yàn)的噪聲圖像超分辨率重建
    基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
    JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
    電子器件(2015年5期)2015-12-29 08:42:24
    基于平滑先驗(yàn)法的被動(dòng)聲信號(hào)趨勢(shì)項(xiàng)消除
    先驗(yàn)的廢話與功能的進(jìn)路
    基于掩碼的區(qū)域增長(zhǎng)相位解纏方法
    土默特右旗| 贵德县| 呼伦贝尔市| 陈巴尔虎旗| 庆元县| 汝阳县| 定襄县| 嘉鱼县| 贺兰县| 沧州市| 雷山县| 晋中市| 孟村| 凌云县| 清徐县| 离岛区| 瑞金市| 隆回县| 建瓯市| 于田县| 澄江县| 安岳县| 根河市| 多伦县| 垣曲县| 沂南县| 腾冲县| 白水县| 高尔夫| 花莲县| 天长市| 山东省| 临武县| 仙游县| 玉林市| 抚顺县| 盐山县| 榕江县| 丽江市| 曲水县| 宁晋县|