• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于推理注意力機制的二階段網(wǎng)絡圖像修復*

    2022-12-07 03:29:26譚駿珊李雅芳秦姣華
    電訊技術(shù) 2022年11期
    關鍵詞:掩模鑒別器邊緣

    譚駿珊,李雅芳,秦姣華

    (中南林業(yè)科技大學 計算機與信息工程學院,長沙 410004)

    0 引 言

    圖像修復最根本的目的是實現(xiàn)對圖像中損壞區(qū)域的修復,其核心挑戰(zhàn)在于利用缺失區(qū)域周圍的像素合成視覺逼真、語義合理的結(jié)構(gòu)。早期研究[1-2]通過解決紋理合成的問題,在一幅圖像內(nèi)進行塊匹配[3],尋找與缺失區(qū)域內(nèi)容相似的區(qū)域并進行填充,這些方法通常使用輸入圖像[4]內(nèi)的數(shù)據(jù)信息,或使用來自大型圖像數(shù)據(jù)集[5]的數(shù)據(jù)信息,因此無法在缺失區(qū)域中恢復有意義的結(jié)構(gòu)或計算量過大[6],且無法適用于大面積區(qū)域缺失的圖像中[7],在此背景下深度卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)和生成對抗網(wǎng)絡(Generation Adversarial Network,GAN)[8]得到了快速發(fā)展。最早出現(xiàn)的方法是上下文編碼器[9],但由于全連接層中的信息瓶頸,使得輸出圖像存在視覺偽影。為了解決這個問題,Liu等人[10]提出部分卷積,使用自動更新的二進制掩模(即用選定的形狀對圖像進行遮擋)來確定當前像素是否有效。為獲得逼真的視覺效果,Yeh等人[11]采用反向傳播進行1 500次迭代,但反向傳播使得計算的過程很緩慢。為節(jié)省計算時間并增強輔助信息的作用,Nazeri等人[12]提出一種新的學習模型,證明了邊緣信息在修復中具有重要的作用。

    注意力機制的使用使得背景區(qū)域的特征得到了很好的使用。上下文注意力[13]可以通過細化網(wǎng)絡提高清晰度,但文本注意力使用固定大小的補丁,使得任意形狀的缺失區(qū)域得不到很好的處理。為了提高補丁交換時的精確度,Wang等人[14]設計了一個多尺度注意模塊,使用多種補丁對注意分數(shù)分別進行計算。這些方法往往都沒有考慮到像素之間的連續(xù)性,從而導致色彩的斷層或者線條的斷層。因此,Liu等人[15]設計了一個連貫的語義注意層來表示交換特征之間的相似性和相關性;Xie等人[16]設計了雙向注意力機制,進一步提高修復的圖像質(zhì)量,并且該方法能夠適應不規(guī)則的孔洞修復;Li等人[17]提出遞歸特征推理模塊,考慮不同或者重復特征之間的關系,保證補丁交換過程中的一致性,使得結(jié)果更完美。

    盡管上述方法在圖像修復方面取得了優(yōu)秀的性能,但仍然存在以下問題:對于大面積缺失區(qū)域的圖像而言,很多圖像修復方法并不能保證修復結(jié)果在視覺上做到一致性和連續(xù)性,并且對于高度紋理化的區(qū)域也不能精確修復。因此,針對這些問題,本文提出了一種基于推理注意力機制的二階段網(wǎng)絡圖像修復方法,首先由邊緣生成網(wǎng)絡對損壞圖像預測缺失區(qū)域邊緣并融合已有背景邊緣生成完整邊緣,之后將該邊緣信息和損壞的圖像同時輸入到第二階段的圖像補全網(wǎng)絡中進行最終的修復任務。為了對大面積損壞區(qū)域的圖像生成更逼真的效果,在圖像補全階段引入推理注意力模塊,確保修復結(jié)果中產(chǎn)生較少的色彩斷層或者線條斷層,確保生成的修復圖像在邊緣、紋理結(jié)構(gòu)上達到高度逼真的視覺效果。

    1 相關工作

    1.1 生成對抗網(wǎng)絡

    生成對抗網(wǎng)絡一般由生成器和鑒別器組成,其中生成器學習訓練集的特征,并在鑒別器的引導下生成與訓練集相似的特征,而鑒別器則區(qū)分輸入的數(shù)據(jù)是真實的還是生成的數(shù)據(jù),并將結(jié)果反饋給生成器。

    生成器和鑒別器交替訓練,直到生成的數(shù)據(jù)在鑒別器中可以被認定為真數(shù)據(jù)。GAN在訓練時將訓練集數(shù)據(jù)和生成的數(shù)據(jù)一起送入鑒別器中進行訓練,在計算損失時讓鑒別器對訓練集數(shù)據(jù)的判別趨于真,對生成數(shù)據(jù)的判別趨于假,此過程中只更新鑒別器不更新生成器的參數(shù)。之后在生成器中加入噪聲進行干擾,并將生成的數(shù)據(jù)標記為真送入鑒別器中,在計算損失時讓鑒別器對生成數(shù)據(jù)的判別趨于真,此過程只更新生成器參數(shù)。

    1.2 二階段網(wǎng)絡圖像修復模型

    現(xiàn)階段的多數(shù)圖像修復網(wǎng)絡都是基于二階段網(wǎng)絡,其網(wǎng)絡模型由生成對抗網(wǎng)絡組成。將損壞的圖像作為第一階段的輸入,經(jīng)過生成器首先得到粗略的生成,同時將生成的數(shù)據(jù)輸入到鑒別器中進行判別,并將結(jié)果返回到生成器中,再將該粗略結(jié)果輸入到第二階段中以生成更精確的結(jié)果。粗網(wǎng)絡使用重建損失進行訓練,而細網(wǎng)絡則使用GAN損失對圖像進行重建,如圖1所示。

    圖1 二階段網(wǎng)絡結(jié)構(gòu)圖

    針對不同的修復場景,也可以使用卷積神經(jīng)網(wǎng)絡或U-Net等網(wǎng)絡模型替換生成對抗網(wǎng)絡。

    1.3 注意力機制

    注意力機制與人的注意機制類似,即在某一時刻主要關注某些數(shù)據(jù)而忽略其他數(shù)據(jù),合理分配關注度,減少計算量的同時也節(jié)約了成本。隨著深度學習領域的快速發(fā)展,注意力機制也得到了廣泛的應用,在圖像處理、自然語言處理及語音識別方向都取得了不錯的效果。

    卷積神經(jīng)網(wǎng)絡逐層處理時具有局部卷積的圖像特征,而使得借用的較遠空間位置的特征無效。為了克服這種局限性,Yu等人[13]提出使用上下文注意力機制。該注意力機制可以從已知的背景區(qū)域中借用或者復制特征信息的位置,以生成缺失的信息。但是這種從遠處空間借用信息的方法會增加很多計算的成本,并且不能保證借用的特征是完全有效的,因此對于大面積區(qū)域缺失的圖像而言其效果并不是特別明顯。為了解決這個問題,同時考慮不同或者重復特征之間的關系,本文引入了推理注意力機制,以解決像素之間的不連續(xù)產(chǎn)生的色彩斷層問題,期望在大面積區(qū)域缺失的情況下得到更好的修復效果。

    2 基于推理注意力機制的二階段網(wǎng)絡圖像修復模型

    為了獲得更好的修復效果,本文提出的修復模型以端到端的方式進行訓練。該模型由兩階段組成:第一階段結(jié)合掩模信息和灰度圖生成完整的幻覺邊緣;第二階段使用該幻覺邊緣作為輔助信息對圖像進行重建。每階段均由生成器和鑒別器組成。令G1、D1和G2、D2分別為兩階段的生成器和判別器。生成器的前端為編碼器結(jié)構(gòu),對圖像進行兩次下采樣,經(jīng)過8個殘差塊后輸入到解碼器中進行上采樣回到原始大小。為了生成更有效的信息,使用擴張因子為2的擴張卷積代替殘差塊中的規(guī)則卷積。而網(wǎng)絡鑒別器則使用70×70的PatchGAN體系結(jié)構(gòu)[18],該結(jié)構(gòu)確定大小為70×70的重疊圖像塊是否真實。

    為了在最終的修復結(jié)果中不讓色彩斷層或線條斷層問題而產(chǎn)生視覺上的偏差,在第二階段引入推理注意力機制,提高修復圖像的質(zhì)量。模型結(jié)構(gòu)圖如圖2所示。

    圖2 基于推理注意力機制的圖像修復模型圖

    2.1 二階段修復網(wǎng)絡

    2.1.1 邊緣生成網(wǎng)絡

    使用Igt表示未被損壞的真值圖像,其對應的邊緣圖和灰度圖分別用Cgt和Igr表示。M作為圖像掩模,缺失區(qū)域標記為1,否則標記為0。

    (1)

    將Cgt和Cp作為鑒別器的輸入,以預測生成的邊緣是否真實,并聯(lián)合特征匹配損失和對抗損失對網(wǎng)絡進行訓練。

    對抗損失定義為

    Ladv,1=E[lnD1(Cgt,Igr)]+E{ln[1-D1(Cp,Igr)]}。

    (2)

    式中:E(·)表示求均方誤差;D1表示鑒別器的激活。

    特征匹配損失定義為

    (3)

    因此,該階段的總體損失函數(shù)定義為

    (4)

    式中:λadv,1和λFM為正則化參數(shù)。

    2.1.2 圖像補全網(wǎng)絡

    在邊緣生成階段生成缺失區(qū)域的預測邊緣Cp后,將其與背景區(qū)域的邊緣如進行融合生成完整的邊緣圖Cc,表示為

    Cc=Cgt⊙(1-M)+Cp⊙M。

    (5)

    (6)

    式中:G2表示生成器的激活。

    在該階段中,聯(lián)合l1聯(lián)合相對損失、對抗損失、感知損失和風格損失函數(shù)函數(shù)進行訓練。分析如下:

    l1相對損失定義為

    Ll1=λholeLhole+λvalidLvalid。

    (7)

    式中:Lhole和Lvalid分別計算了未損壞區(qū)域和損壞區(qū)域上的l1損失的差值;λhole和λvalid為正則化參數(shù)。

    對抗損失的定義同公式(2)一致,但由于該對抗損失位于第二階段的圖像補全網(wǎng)絡中,因此表示方式如下:

    Ladv,2=E[lnD2(Igt,Cc)]+E{ln[1-D2(Ip,Cc)]} 。

    (8)

    式中:D2表示鑒別器的激活。

    感知損失通過定義預訓練網(wǎng)絡的各激活圖之間的距離度量來懲罰與標簽在感知上不相似的結(jié)果,因此感知損失定義為

    (9)

    式中:φi為預訓練網(wǎng)絡第i層的激活圖,這些激活圖還用于計算風格損失。因此風格損失函數(shù)定義為

    (10)

    因此,第二階段整體的聯(lián)合損失函數(shù)表示為

    LG2=λl1Ll1+λadv,2Ladv,2+λpLperc+λsLstyle。

    (11)

    式中:λl1、λadv,2、λp、λs均為正則化參數(shù)。

    2.2 推理注意力機制

    在填充圖像中的缺失區(qū)域的內(nèi)容時,圖像的未知區(qū)域即損壞區(qū)域被已知區(qū)域的內(nèi)容包圍,在特征合成階段會產(chǎn)生限制,使得修復圖像的內(nèi)容由相連的像素圍成,而不是被相關的像素直接包圍,因此如何使用背景區(qū)域的有效信息就成了亟待解決的問題。為了更合理地利用背景區(qū)域中的紋理信息,在很多情況下都會考慮使用注意力機制模塊進行輔助。但現(xiàn)有的注意力模塊存在的一個問題就是,在不同的遞歸過程中,重復特征在合并時會產(chǎn)生不可控制的差異。為了解決這個問題,本方案在圖像補全階段中引入推理注意力模塊[17],注意力模塊如圖3所示。

    圖3 推理注意力模塊

    為了說明推理注意力機制的工作方式,在第i次遞歸循環(huán)中進行定義解釋。

    首先,在第i次遞歸循環(huán)中使用歸一化內(nèi)積(余弦相似度)進行相似度計算測量:

    (12)

    式中:cosi(A,B)表示在第i次迭代循環(huán)中前景位置A(x1,y1)和背景位置B(x2,y2)之間的相似性。

    之后對相似性進行平均,再沿著(x,y)的位置使用softmax生成注意力分數(shù),并將該分數(shù)記為score。為了計算最終的注意力分數(shù),給定計算方式為:給定一對有效像素A(x1,y1)和B(x2,y2),在第i次迭代中的最終注意力分數(shù)為當前迭代注意力分數(shù)與上一次迭代分數(shù)的比例累積之和,整體表示為

    scorei(A,B)=αscorei′(A,B)+(1-α)scorei-1(A,B)。

    (13)

    式中:scorei(A,B)表示在當前第i次迭代中計算的最終注意力數(shù);scorei′(A,B)為當前第i次迭代中計算的注意力數(shù);scorei-1(A,B)為上一輪第i次迭代中計算的注意力分數(shù);α為正則化參數(shù)。

    但如果給定像素表示為無效像素,即當前score=0,那么不會對該像素進行計算,即當前迭代中的最終注意力分數(shù)即為上一次迭代的注意力分數(shù),表示為

    scorei(A,B)=αscorei′(A,B) 。

    (14)

    最后利用生成的注意力分數(shù)對特征進行重建工作,對前景位置A(x1,y1)處計算的新特征表示為

    Fi(A)=∑x′∈1,2,…,W,y′∈1,2,…,Hscorei(A,B)Fi(B)。

    (15)

    式中:Fi(A)表示重建的新特征;Fi(B)表示背景位置B(x2,y2)的特征;H和W分別表示圖像的高度和寬度。

    3 實驗與結(jié)果分析

    3.1 數(shù)據(jù)集與實驗設置

    本文使用三個常用圖像修復公共數(shù)據(jù)集和兩種類型的圖像掩模數(shù)據(jù)集對模型進行驗證。

    CelebA數(shù)據(jù)集[19]:包含10 177個名人身份的202 599張圖片,在此數(shù)據(jù)集上對模型進行訓練可以完成面孔的編輯任務。

    Places2數(shù)據(jù)集[20]:由MIT(Massachusetts Institute of Technology)發(fā)布的數(shù)據(jù)集,包含超過1 000萬張圖片和400多個不同類型的場景環(huán)境。

    ParisStreetView數(shù)據(jù)集[21]:這個數(shù)據(jù)集主要集中在城市建筑,包含14 900張訓練圖像和100張測試圖像。

    兩種類型的圖像掩模數(shù)據(jù)集:規(guī)則掩模和不規(guī)則掩模。規(guī)則掩模為固定大小的方形掩模,中心位于圖像的隨機位置。不規(guī)則掩模則使用劉等人[10]的工作。

    本文提出的網(wǎng)絡基于公共的pytorch框架實現(xiàn),訓練和測試系統(tǒng)均采用Intel(R) Core(TM) i7-3750H CPU @ 2.30 GHz,8.00 GB RAM和Nvidia GeForce GTX 1050 GPU。該網(wǎng)絡使用256×256圖像進行訓練,使用Adam優(yōu)化器[22]對模型進行優(yōu)化。兩階段生成器以學習率為10-4進行訓練,當損失趨向平穩(wěn)時將學習率降到10-5,直至生成器收斂,最后以學習率為10-6對生成器進行微調(diào)。測試時,只需要加載訓練的模型對圖像進行測試。

    3.2 實驗分析

    圖像修復質(zhì)量好壞的評價標準是多方面的,為了充分評估圖像修復方法的效果,本小節(jié)將本文中的模型與其他幾種模型分別進行了定性和定量的比較,同時根據(jù)掩模大小對修復的影響進行了分析,從各實驗結(jié)果對比來看,該方法在圖像修復上表現(xiàn)出了良好的效果。

    3.2.1 定性比較

    圖4~6分別是CA[13]、EC[12]、RFR[17]、DeepFill[23]以及本文提出的方法分別在Places2、CelebA和ParisStreetView數(shù)據(jù)集上的修復結(jié)果展示。在大多數(shù)情況下,本文提出的方法細節(jié)修復效果更好。例如,圖4中各方法在修復結(jié)果上均會產(chǎn)生不同程度的偽影結(jié)構(gòu),但相較于其他方案,本文方案修復的結(jié)果中其連續(xù)性更好。在圖5中的人臉修復效果中,可以看出方法CA[13]產(chǎn)生的結(jié)果其修復區(qū)域與周圍區(qū)域的連續(xù)性較差,面部結(jié)構(gòu)不會出現(xiàn)在正確的位置;方法EC[12]和DeepFill[23]在修復結(jié)果中會產(chǎn)生不同程度的扭曲結(jié)果,而RFR[17]通常存在的問題是過度平滑使得結(jié)果模糊。本文指出修復方法能夠良好地補充紋理信息和結(jié)構(gòu)信息,對于大部分大區(qū)域破損的圖像具有較好的修復效果。但是從結(jié)果中可以觀察到,部分修復結(jié)果還會存在偽影結(jié)構(gòu)。

    圖4 不同方法在Places2數(shù)據(jù)集的修復效果展示

    圖5 不同方法在CelebA數(shù)據(jù)集的修復效果展示

    圖6 不同方法在Paris StreetView數(shù)據(jù)集的修復效果展示

    3.2.2 定量比較

    使用l1相對損失、結(jié)構(gòu)相似性(Structural Similarity,SSIM)指數(shù)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、弗雷謝特起始距離(Frechet Inception Distance,FID)進行定量比較。表1~3分別列出了三個數(shù)據(jù)集在不規(guī)則掩模的不同比例下的各指標對比結(jié)果,*表示指標數(shù)值越低效果越好,+表示指標數(shù)值越高效果越好。由表1~3的數(shù)據(jù)可知,本文提出的方法在Places2、CelebA和Paris StreetView數(shù)據(jù)集中均具有較好的優(yōu)勢。

    對比表1的實驗結(jié)果,在Places2數(shù)據(jù)集進行測試,當掩模大小為20%~30%時本文提出的方法中SSIM的值達到0.889,相較于方法EC來說提高了3%左右,而對于指標PSNR來說,本文提出的方法達到了25.56 dB,相較于方法EC來說提升了1.3 dB左右。對于l1相對損失,在掩模大小為40%~50%時,相較于方法EC[17]而言,本文方法降低了1%左右。

    表1 不同方法在Places2數(shù)據(jù)集的修復性能比較

    表2 不同方法在CelebA數(shù)據(jù)集的修復性能比較

    表3 不同方法在Paris StreetView數(shù)據(jù)集的修復性能比較

    同時,本文也采用雙向強迫選擇(2 Alternative Forced Choice,2AFC)和最小可覺差(Just Noticeable Differences,JND)兩個評價指標在Places2數(shù)據(jù)集上對模型進行評估。2AFC指標指每個樣本包含3張圖片或1張原圖和2張不同失真的圖片,在這之間判斷哪一張圖片和原圖更接近。JND指標則要求從成對的真實和生成圖像中選擇改變最小的圖像。每類掩模和測試圖像各選擇400張,每個圖像總共顯示15次,最終結(jié)果記錄在表4中。從表中信息可知,在掩模大小為20%~30%時本文方法的JND達到42.78%,相較于方法EC來說指標提高約為5%,而2AFC的結(jié)果達到82.65%,相較于方法EC來說指標提高約為4%。

    表4 不同方法在Places2上的修復性能比較

    3.2.3 破損區(qū)域大小對修復的影響

    如圖7所示,本文在同一張圖片中逐漸增加破損區(qū)域的面積,以研究破損區(qū)域大小對修復效果的影響,對比的方法為CA[13]。第1~5行中,缺失區(qū)域占比范圍依次為[0,10%]、[10%,20%]、[20%,30%]、[30%,40%]、[40%,50%]。由結(jié)果可以看出,在方法CA[13]中,隨著有效區(qū)域面積的減少,該方法從有效區(qū)域中獲得的有用信息也逐漸減少,生成的圖像中包含的偽影信息更多,而本文中的模型性能效果更好,生成的視覺偽影更少。

    圖7 破損區(qū)域大小對修復效果的影響

    為了說明推理注意力機制模塊對圖像修復的有效性,在Places2數(shù)據(jù)集上進行了實驗。以EC為基本的模型,分析了在網(wǎng)絡補全階段加入文本注意力機制和推理注意力機制時不同注意力機制加入對圖像修復性能的影響。表5給出了在網(wǎng)絡補全階段測試加入不同的注意力機制時各模型性能的比較,*表示指標數(shù)值越低效果越好,+表示指標數(shù)值越高效果越好。

    表5 加入不同注意力機制的方法在Places2數(shù)據(jù)集上的修復性能比較

    本文也將推理注意力模塊加入到邊緣生成網(wǎng)絡中,并將加入和未加入推理注意力模塊的生成邊緣以及兩種情況下的修復結(jié)果進行對比,實驗結(jié)果如圖8所示。該實驗中的整體網(wǎng)絡模型為本文中引用的二階段圖像修復網(wǎng)絡模型。根據(jù)對比實驗的結(jié)果可以發(fā)現(xiàn),加入推理注意力模塊的邊緣生成網(wǎng)絡在細節(jié)位置能夠生成更準確的邊緣,并且去掉無用的邊緣信息。

    圖8 推理注意力模塊對生成邊緣的影響

    4 結(jié)束語

    本文提出了一種基于推理注意力機制的二階段網(wǎng)絡圖像修復方法,首先由邊緣生成網(wǎng)絡對殘缺圖像生成完整的幻覺邊緣,再利用生成的邊緣信息輔助圖像的重建工作。為了解決像素的不連續(xù)性而產(chǎn)生的線條斷層或者色彩斷層問題,在圖像補全階段引入推理注意力機制模塊,進而控制合成特征的不一致性,保證在遞歸中信息交換的統(tǒng)一,約束孔中心并加強像素之間的相關性。分別在CelebA、Places2和Paris StreetView三個數(shù)據(jù)集上進行了實驗,由實驗結(jié)果可以看出,在同一掩模尺寸的大小下,本文提出的方法具有較優(yōu)的修復性能;同時也可以看出,當掩模尺寸逐漸增大時圖像的修復性能會隨之降低。這是因為當殘缺區(qū)域增大時,背景區(qū)域可用的信息會隨之減少,從而對孔中心像素相關性的約束也會隨之降低。

    通過實驗發(fā)現(xiàn),在處理相鄰像素時,當缺失區(qū)域增大時容易得到不連續(xù)點,并且會生成較多的冗余邊緣信息,從而產(chǎn)生修復結(jié)果視覺上的偏差,因此未來的工作時是改進邊緣生成算法,為圖像修復任務提供更可靠的輔助信息。

    猜你喜歡
    掩模鑒別器邊緣
    基于多鑒別器生成對抗網(wǎng)絡的時間序列生成模型
    通信學報(2022年10期)2023-01-09 12:33:40
    衛(wèi)星導航信號無模糊抗多徑碼相關參考波形設計技術(shù)*
    基于直寫技術(shù)的微納掩模制作技術(shù)研究進展*
    掩模圖像生成時閾值取值的合理性探討
    一張圖看懂邊緣計算
    掩模位置誤差對光刻投影物鏡畸變的影響
    陣列天線DOA跟蹤環(huán)路鑒別器性能分析
    Cr光柵掩模對金屬平板超透鏡成像質(zhì)量的影響
    一種新的BOC調(diào)制無模糊跟蹤鑒別器設計
    在邊緣尋找自我
    雕塑(1999年2期)1999-06-28 05:01:42
    邹平县| 正阳县| 谢通门县| 巧家县| 南投市| 尼勒克县| 玉山县| 社会| 东山县| 子洲县| 淮北市| 甘洛县| 巴里| 河北区| 苗栗市| 台州市| 甘南县| 灵寿县| 太仆寺旗| 大港区| 汤原县| 克拉玛依市| 博兴县| 舞钢市| 耒阳市| 凉城县| 青田县| 黄山市| 达州市| 温州市| 微博| 夏津县| 黑河市| 连江县| 新密市| 郸城县| 从化市| 永新县| 呼玛县| 永善县| 建瓯市|