歐 靜,文志誠,鄧文貴,張姝婷
湖南工業(yè)大學 計算機學院,湖南 株洲 412000
圖像修復是圖像處理領域的重要研究方向,它為圖像語義信息缺失、物體遮擋和內容損壞等問題提供了解決思路和方法。對于數(shù)字圖像的修復任務,通過對缺失區(qū)域周圍有效像素及特征信息的提取和學習或從外部數(shù)據(jù)庫中搜索相匹配的語義數(shù)據(jù),修復算法可以生成與原始圖像內容近似的填充信息[1-3]。圖像修復在現(xiàn)實生活中的廣泛應用體現(xiàn)了相關技術的重要研究意義,例如老照片裂紋修復、色彩重建[4]、圖像水印去除等。在專業(yè)領域常用于刑偵安全[5]、航空衛(wèi)星軌道圖像繪制[6]和老電影補幀[7]等。在醫(yī)學研究領域可利用真實的解剖信息生成腫瘤圖像[8]。
圖像修復工作發(fā)展至今經(jīng)歷了從傳統(tǒng)機器學習算法到運用深度神經(jīng)網(wǎng)絡推理的發(fā)展和優(yōu)化,在修復能力和效果上均取得了突破性進展。近年來,基于變分自編碼器結構和生成對抗網(wǎng)絡(generative adversarial network,GAN)的深度學習算法解決了傳統(tǒng)機器學習無法在低級圖像信息和高級語義之間建立緊密聯(lián)系的問題,但修復后的紋理容易出現(xiàn)過度平滑和模糊的紋理特征。為解決上述問題,本文提出一種基于邊緣條件的多特征融合圖像修復方法——MEGAN。
MEGAN 遵循先結構再細節(jié)的修復思路,在Nazeri等人[9]提出的EdgeConnect算法基礎上進行了改進。針對邊緣修復階段,MEGAN 引入門控卷積[10-11]以動態(tài)地學習輸入圖像中有效像素和掩碼之間的關系。門控的使用使網(wǎng)絡在修復缺損邊緣信息時可以有效避免因受無效像素影響而引入的結構歧義,提高邊緣信息生成的準確度。
在細節(jié)紋理生成網(wǎng)絡的特征提取階段,MEGAN結合門控和阿特勞斯空間金字塔池(ASPP)[12-13]思想,提出帶門控的多擴張卷積模塊——GMBlock。在GMBlock中并行工作的多擴張率空洞卷積既不會丟失特征圖譜中的有效像素信息,也可以在擴大網(wǎng)絡感受野的同時從多個尺度上進行特征提取和融合。GMBlock 中的門控機制使細節(jié)紋理網(wǎng)絡更加有效地利用邊緣信息指導結構紋理的生成,同時,門控卷積能夠在網(wǎng)絡深層保留當前像素的相對位置信息。
最后,MEGAN使用在不同圖像尺度上共同工作的譜歸一化[14]馬爾可夫判別器結構[15-16],多尺度判別器結構可以在穩(wěn)定訓練的過程中生成更準確清晰的紋理信息和全局一致性的語義結構。
傳統(tǒng)的圖像修復方法多為基于概率統(tǒng)計的機器學習算法,主要為基于擴散或基于紋理塊匹配的方法。
基于擴散的修復方法利用傳播機制,從有效區(qū)域邊界向缺失區(qū)域中心對像素值逐步進行計算。該方法主要包括基于偏微分的合成算法和基于集合圖模型的變分修復技術,典型算法有BSCB 算法(Bertalmio Sapiro-Caselles Ballester)[17]、全變分修復模型[18]和基于曲率擴散強度的CDD(curvature-driven diffusions)模型[19]等。
基于紋理塊匹配的修復思想認為,缺失區(qū)域的內容可用已知的紋理樣本進行填充。Criminisi 等人[20]提出的基于示例的圖像修復算法通過迭代地進行計算待補全區(qū)域邊界像素的補全的優(yōu)先度、填充像素中的紋理結構信息、更新置信度值來修復圖像的缺損區(qū)域。然而,迭代次數(shù)的增加使置信度水平和優(yōu)先度計算結果的有效性降低,最終形成錯誤的紋理填充順序,造成圖像結構混亂。
Darabi 等人[21]則通過計算補丁之間的相似度分數(shù)在輸入圖像的有效區(qū)域中搜索與缺失部分匹配度最高的紋理補丁進行填補修復。當缺損區(qū)域中含有獨立個體或非結構化的局部損傷時,該方法修復的結果中會生成不符合邏輯的語義內容。
為避免上述情況,Hays等人[22]采用數(shù)據(jù)驅動思想在百萬級數(shù)據(jù)庫中搜索與目標最相似圖像,并在搜索結果的對應區(qū)域提取紋理信息進行修補。該方法可以在圖像中存在大面積缺失時生成合理的紋理內容,但算法本身受外部數(shù)據(jù)資源限制,計算量巨大。
自2014 年以來,基于卷積神經(jīng)網(wǎng)絡的編碼器結構和生成對抗網(wǎng)絡的迅速發(fā)展為圖像修復工作提供了新的解決思路和方法?;诰矸e的編碼-解碼網(wǎng)絡不僅擁有捕獲全局結構和上下文信息的能力,而且可以通過在大規(guī)模數(shù)據(jù)集上訓練以獲得對圖像信息的動態(tài)學習推理能力。
Pathak 等人[23]首次提出一個基于GAN 思想的無監(jiān)督特征學習算法——上下文編碼器算法(contextencode,CE)。CE 算法以生成對抗網(wǎng)絡為基礎結構,采用自編碼器結構作為圖像生成器。上下文編碼器可以在一定程度上理解圖像的語義信息并根據(jù)孔洞周圍信息預測生成內容。但該算法對遠距離信息的感知提取能力較弱,在處理存在大面積缺失的圖像時的修復時存在結構信息丟失和紋理模糊的現(xiàn)象。
為獲取圖像中的全局信息,Iizuka 等人[24]使用4 層堆疊排放的擴張卷積(dilated convolution)來擴大網(wǎng)絡感受野,實驗證明,該網(wǎng)絡的感受野范圍只能達到307×307個像素,面對大尺度損失和復雜結構紋理合成時依舊受到限制。Yu 等人[25]在傳統(tǒng)兩階段網(wǎng)絡中添加注意力機制獲取待填補區(qū)域和圖像較遠區(qū)域之間的信息聯(lián)系。Zeng 等人[26]提出的金字塔式上下文編碼器方案(pyramid-context encoder network,PENnet)摒棄了龐大的傳統(tǒng)兩階段式網(wǎng)絡體系結構,在單階段GAN 生成網(wǎng)絡上運用注意力機制,使得生成圖像質量的提高不再單純依靠GAN 網(wǎng)絡數(shù)量的疊加,而歸結為對多尺度特征的充分利用。
針對修復結果中容易出現(xiàn)紋理過度平滑模糊和結構信息丟失的現(xiàn)象,EdgeConnect 算法開創(chuàng)性地利用先驗邊緣信息對缺失區(qū)域進行精確的紋理信息推理。近年來,各種基于該算法思想的模型變體在人臉修復[27-29]等領域的廣泛應用充分說明了EdgeConnect模型的有效性。MEGAN網(wǎng)絡模型在EdgeConnect網(wǎng)絡優(yōu)越的結構合成能力上引入了多特征融合思想,可以有效促進生成圖像與真實圖像間的紋理一致性與連續(xù)性。
現(xiàn)有的主流圖像修補方法往往難以兼顧修復結果在語義結構上的一致性和細節(jié)紋理層面的高清晰度。為更好地處理上述問題,本文提出一種結合邊緣條件和多特征融合圖像修復模型——MEGAN。
整體修復網(wǎng)絡由邊緣生成網(wǎng)絡和紋理細節(jié)生成網(wǎng)絡兩部分組成,兩個網(wǎng)絡各包括一組生成器和判別器。在生成器結構中堆疊排放的多擴張卷積塊(GM Block)可以使圖像能夠在生成過程中擁有多尺度感受野,從而捕獲更多遠距離下的上下文有效信息和不同感受野下的圖像特征。在兩種尺度上工作的譜歸一化馬爾可夫判別器可以有效鑒別尺寸大小為70×70 的生成圖像塊是否接近真實圖像,并且通過迭代對抗博弈訓練進一步優(yōu)化網(wǎng)絡內部參數(shù)。
圖像生成任務包含三個階段。
(1)對缺損圖像進行預處理。首先,將帶有缺損的RGB 輸入圖像Iin轉化為通道數(shù)為1 的灰度圖Igray,再用Canny檢測算法提取圖像的邊緣信息,得到帶有缺損的邊緣圖像Ede。
(2)生成完整邊緣圖像。將含有缺損的灰度圖Igray,邊緣圖像Ede和二進制掩碼圖像M(缺損區(qū)域像素值為1,有效像素值為0)在通道維度上進行拼接得到Einput。如公式(1)所示,Einput將作為邊緣生成器Gedg的聯(lián)合輸入。
如公式(2)所示,經(jīng)過與邊緣判別器Dedg的對抗性訓練后,邊緣生成器輸出圖像的完整邊緣信息Eco。
(3)紋理細節(jié)生成網(wǎng)絡生成最終的修復圖像。如公式(3)所示,表示輸入到紋理細節(jié)生成網(wǎng)絡中的完整邊緣圖像。中缺損區(qū)域的邊緣信息為第一階段的邊緣生成結果,有效區(qū)域將保持原圖中的邊緣信息。如公式(4)所示,紋理細節(jié)生成器Gim的輸入由缺損圖像和邊緣圖像共同組成,記作Iinput。
如公式(5)所示,當多尺度判別器Dim-1,Dim-2無法有效區(qū)分真實圖像和經(jīng)過紋理細節(jié)生成器Gim修復的圖像時,判定紋理細節(jié)生成器可以生成具有合理的結構和色彩紋理修復結果Ifin。圖像補全網(wǎng)絡最終輸出的修復結果用表示,保留了原圖中未缺損區(qū)域的有效信息以及修復結果Ifin中缺損區(qū)域的圖像信息,表達式如公式(6)所示:
網(wǎng)絡整體結構如圖1所示,兩個生成器由一層歸一化層、兩層下采樣、8個特征提取層和兩層上采樣組成。歸一化層中使用了64 個大小為7×7 的卷積濾波核對輸入圖像進行處理以防止訓練過程中發(fā)生梯度爆炸。兩層下采樣中分別包含有128和256個大小為4×4的卷積核,在降低輸入圖像特征維度的同時保留有效信息,增大卷積感受野。
圖1 MEGAN網(wǎng)絡結構Fig.1 Network structure of MEGAN
同時,MEGAN模型在邊緣生成網(wǎng)絡的特征提取階段設置8 層連續(xù)的門控殘差結構。在紋理細節(jié)生成網(wǎng)絡的特征提取階段,用帶門控的多擴張卷積塊GM Block 代替原網(wǎng)絡中的傳統(tǒng)殘差結構。生成器的最后3 層包括2 層上采樣層和1 層圖像輸出層。2 層上采樣層分別使用128 和64 個大小為4×4 的卷積核進行轉置卷積操作,將特征圖的分辨率恢復到初始大小。最后使用7×7 的卷積核對經(jīng)過上采樣后的特征圖像進行卷積并輸出具有相應通道數(shù)的輸出圖像。在兩個生成網(wǎng)絡的生成器結構中均使用譜歸一化和實例歸一化兩種歸一化方式。
通過對抗地訓練紋理細節(jié)生成網(wǎng)絡的生成器和判別器可以促進生成器生成合理的像素信息對缺失區(qū)域進行填充。當網(wǎng)絡中僅設置一個全局判別器時,生成的圖像雖然具備一定的全局一致性,但生成的圖像像素信息非常模糊,在錯誤邊緣信息的影響下甚至會出現(xiàn)結構模糊混亂的現(xiàn)象。
為促進缺失區(qū)域圖像的細節(jié)處理能力,Iizuka 等人在判別器結構中增加了一個局部判別器以監(jiān)控生成圖像的準確率。但傳統(tǒng)的局部鑒別器卻具有嚴格的作用區(qū)域和大小限制,例如僅在以填充區(qū)域為中心的原圖像四分之一大小區(qū)域上觀測,因此這種設置在處理含有不規(guī)則缺損的圖像時效果并不理想。
為解決以上問題,紋理細節(jié)生成網(wǎng)絡的判別器結構采用了2 個具有相同網(wǎng)絡結構且在不同尺度上運行的馬爾可夫判別器結構,分別用Dim-1和Dim-2表示。由真實圖像和修復的輸出圖像共同組成的圖像對在模型中進行2倍下采樣,經(jīng)過下采樣后的修復圖像和原分辨率修復圖像共同形成一個含有2 個尺度比例的圖像金字塔。在最小圖像尺寸上運行的馬爾可夫判別器具有最大的感受野,即具有更具全局性的圖像視圖,可以指導生成器生成全局一致的圖像。同樣,在最大圖像尺寸上運行的判別器可以指導生成器產生更精細的紋理細節(jié),整幅圖像的修復效果在視覺上更加合理。
多尺度判別器在不同分辨率的圖像上進行訓練從而區(qū)分真實圖像和合成圖像,因此,補全網(wǎng)絡的訓練過程在結合多尺度判別器思想后可以轉化為一個多任務的學習問題,如公式(7)所示:
判別器的網(wǎng)絡結構由五個卷積層構成,其中卷積核尺寸均為4×4,各層包含的卷積核數(shù)目分別為64,128,256,512 和1。同時,譜歸一化可以按各自最大奇異值縮小權重矩陣進而有效地將網(wǎng)絡的Lipschitz 常數(shù)限制為1,從而進一步穩(wěn)定生成對抗網(wǎng)絡的訓練。因此,網(wǎng)絡將譜歸一化設置在判別器除最后一層外的每一層卷積之后,通過抑制參數(shù)和梯度值的變化來使訓練過程更加穩(wěn)定。
為了生成具有結構一致性的修復結果,以往方法常將具有同一擴張率的擴張卷積按照序列化的方式進行堆疊以獲取更大的感受野,以此來獲取遠距離下的上下文信息,如圖2所示。但序列化的擴張卷積在獲得高級語義特征的同時也會受到“網(wǎng)格化”影響。
圖2 堆疊擴張卷積感受野分析Fig.2 Receptive field analysis of stacked dilated convolutions
例如擴張率為2且尺寸為3×3的擴張卷積核等效于一個5×5大小的普通卷積,在執(zhí)行3次卷積操作后的感受野可以達到15×15。因此,采用擴張卷積可以在不增加卷積核參數(shù)的同時有效達到擴大感受野的效果。但這種排列方式會避免在特征提取時丟棄大部分有效像素信息。如圖2所示,圖中綠色和黃色的點表示在操作過程中實際參與運算的像素,其排列呈現(xiàn)出明顯的“棋盤”特征。且當擴張率為2時被丟棄的像素點在整體圖像中的占比大于75%。因此,通過堆疊單擴張卷積來擴大感受野的方式會導致細節(jié)信息缺失以及獲取的遠距離信息與當前位置信息可能并不相關,從而破壞像素排列的連續(xù)性和局部信息的一致性,弱化修復網(wǎng)絡對圖像細節(jié)紋理的學習和推理。
為避免像素丟失和“網(wǎng)格化”問題,MEGAN網(wǎng)絡模型采用一種結合空間金字塔池和門控卷積的多尺度特征提取模塊,即帶門控的多擴張卷積塊(gated multiextension convolution block,GM Block)。模塊結構如圖3 所示。受阿特勞斯空間金字塔池(ASPP)思想影響,采用多種擴張率卷積核[30-31]對給定特征層進行采樣等同于用多個不同尺寸的卷積核提取原始圖像特征,以此來獲得來自不同感受野下的像素信息。ASPP結構圖如圖4所示。同時,GM Block中增加的擴張率為1的擴張卷積可以彌補擴張卷積存在的像素信息丟失的問題。
圖3 GM Block模塊結構圖Fig.3 GM Block module structure diagram
圖4 ASPP空間金字塔池結構圖Fig.4 ASPP spatial pyramid pool structure diagram
GM Block在通道維度上將卷積核拆分為5個子內核,每個子內核對應的擴張率分別為1、2、4、8和16。經(jīng)LeakyReLU函數(shù)激活后,來自不同感受野的特征信息在通道維度上聚合并通過標準卷積進行特征融合。由于使用較大的膨脹率可以讓子內核捕捉到圖像的更大區(qū)域的信息特征,而較小的擴張率的子內核會專注于較小感受野的局部紋理,因此,GM Block可以使網(wǎng)絡能夠以多個視角聚合圖像遠距離上下文的特征,增強網(wǎng)絡進行上下文推理的能力且不會引入過多的模型參數(shù)和計算成本。
原EdgeConnect修復算法使用普通卷積進行特征提取,普通卷積的滑動窗口在計算時默認當前視野中的所有元素有效,在處理非規(guī)則掩膜時會干擾對掩膜外有效像素的學習進而對圖像生成結果的準確率產生消極影響。為避免以上原因造成的修復結果模糊,顏色不一致等問題,部分卷積[32]提出使用一種掩膜更新的方法使無效像素在網(wǎng)絡深層結構中會隨著圖像的修復逐漸被轉化為有效像素,其工作原理如圖5(a)所示,具體實現(xiàn)如公式(8)所示:
圖5 (a)部分卷積示意圖Fig.5 (a)Illustration of partial convolution
圖5 (b)門控卷積示意圖Fig.5 (b)Illustration of gated convolution
其中,M是二進制掩碼圖像Mask,⊙表示兩矩陣逐元素相乘。部分卷積操作每執(zhí)行一次會更新一次掩碼值,并以此為根據(jù)使濾波器僅對有效像素區(qū)域進行卷積,掩碼更新規(guī)則為:
對于邊緣引導的圖像修復任務而言,部分卷積存在以下弊端,首先,網(wǎng)絡無法真正發(fā)揮邊緣信息的指導作用。由于掩碼更新規(guī)則只用0 或1 區(qū)分像素,網(wǎng)絡無法對第一階段產生的邊緣像素進行有效區(qū)分(判斷邊緣信息所在位置為缺損區(qū)域以外或以內),因而難以正確更新下一層的掩碼信息。其次,隨著網(wǎng)絡層數(shù)的深入,掩碼中的所有像素全部更新為1 使深層網(wǎng)絡無法獲取當前區(qū)域像素的原始信息(是否位于缺損區(qū)域),從而弱化網(wǎng)絡的學習推理能力。
為避免部分卷積帶來的邊緣信息利用率不高和網(wǎng)絡深層缺乏相對位置信息的問題,門控卷積為所有層中的每個空間位置的每個通道提供一個可學習的動態(tài)特征選擇機制來泛化部分卷積,如圖5(b)所示。門控卷積允許網(wǎng)絡自動學習到最佳的掩碼形態(tài)。即使經(jīng)過多次特征提取和掩碼更新,網(wǎng)絡依舊可以根據(jù)邊緣草圖信息及當前像素在特征圖像中是否位于掩碼區(qū)域為每個空間位置分配不同的軟掩碼值。實現(xiàn)方法如公式(9)所示,其中,Ifm表示在網(wǎng)絡中下采樣后的特征圖輸入。
具體而言,網(wǎng)絡首先根據(jù)公式g=σ(Gy,x)計算輸入特征圖的門控值g。σ(·)為sigmoid 激活函數(shù),輸出介于0 和1 之間的門控值,Wg作為用于計算門控值的卷積濾波器為可學習的參數(shù),Wm為對輸入圖像進行特征提取的多擴張卷積核。?(·)為LeakyReLU激活函數(shù),門控卷積結構最終輸出特征圖像Fy,x和門控值的乘積。經(jīng)實驗驗證,在GM Block中運用門控卷積可以增強生成網(wǎng)絡對輸入圖像中有效元素和邊緣像素的利用,提高對缺失區(qū)域圖像的推理合成能力。
2.4.1 邊緣生成網(wǎng)絡損失函數(shù)
在邊緣生成網(wǎng)絡中采用由L1 損失、特征匹配損失和生成網(wǎng)絡的鉸鏈損失組成的聯(lián)合損失函數(shù)規(guī)范網(wǎng)絡權值的訓練更新過程。聯(lián)合損失函數(shù)如公式(10)所示:
其中,λG-edg、λfm和λ1為加權超參數(shù)。L1損失函數(shù)代表最小絕對值誤差,用于衡量真實圖像和生成圖像間的像素級差異。公式(11)定義了邊緣生成器損失LG-edg,邊緣判別器損失定義如公式(12)所示:
其中,Eco表示生成器輸出的邊緣修復結果。由于邊緣圖像的像素分布十分稀疏,判別器在判斷生成圖像是否接近于真實圖像時能利用的有效像素信息較少,若僅僅將邊緣數(shù)據(jù)輸入判別器會使對抗性損失的優(yōu)化難度增加甚至導致訓練失敗。因此,輪廓鑒別器的輸入被調整為真實圖像灰度圖和邊緣圖像對,用真實圖像灰度圖作為判別器的附加條件不僅可以促進生成器生成與真實邊緣相似的條件信息,也使判別器能夠獲得足夠的先驗信息對圖像進行區(qū)分。
公式(10)中的Lfm為特征匹配損失。通過取判別器中間層的特征圖和來自預訓練VGG網(wǎng)絡中對應的中間層的特征圖對比得到損失值,再反向傳播回生成網(wǎng)絡以促進生成器生成與真實圖像在感知上相接近的邊緣結果,其定義如公式(13)所示:
其中,Ni是第i層特征圖中的元素數(shù),是鑒別器中第i層的特征圖。
2.4.2 紋理細節(jié)生成網(wǎng)絡損失函數(shù)
針對紋理細節(jié)生成網(wǎng)絡,采用在兩個尺度上共同工作的馬爾可夫判別器(Dim-1和Dim-2)指導生成器生成清晰且與有效區(qū)域信息具有高度一致性的圖像紋理。由于網(wǎng)絡最終的輸出圖像中包含大量語義結構及色彩紋理信息,因此,聯(lián)合損失函數(shù)中引入了感知損失函數(shù)Lperc和風格損失函數(shù)Lstyle提高圖像感知重建的準確性和合理性。以上兩種損失函數(shù)在圖像修復和風格遷移上的有效性已經(jīng)得到廣泛驗證,感知損失旨在最小化修復圖像和真實圖像的激活映射之間的L1 距離,其定義如公式(14)所示:
其中,?i是預訓練網(wǎng)絡VGG_19第i層的激活圖,Ni是第i層的激活圖中的元素個數(shù)。
與感知損失相似,風格損失用于衡量生成圖像和真實圖像第i層深度特征的Gram矩陣間的L1距離。假定第i層特征圖尺寸為Ci×Hi×Wi,(·)是由特征圖像?j構造的尺寸為Cj×Cj的Gram矩陣,風格損失函數(shù)的定義如公式(15)所示:
公式(16)定義了邊緣生成器損失LG-edg,邊緣判別器損失定義如公式(17)所示:
紋理細節(jié)生成網(wǎng)絡的整體聯(lián)合損失函數(shù)表達式如公式(18)所示:
在紋理細節(jié)生成網(wǎng)絡的聯(lián)合損失中,對抗損失可以提高生成圖像在紋理色彩上的保真度,風格損失和感知損失用于提高生成圖像在視覺感官上的整體一致性,最后,L1損失確保圖像間的像素級重建精度。
實驗硬件設施為15核AMD EPYC 7543處理器及一塊NVIDIA RTX 3090顯卡,在Ubuntu18.04.5系統(tǒng)下搭配python3.8.10,cuda11.1和Pytorch 1.8.1深度學習框架運行。實驗分別在Places2(small images with easy directory structure 版本)和CelebA(CelebFaces attribute)數(shù)據(jù)集上對MEGAN 網(wǎng)絡模型的有效性進行驗證。圖6展示了實驗所用數(shù)據(jù)集的部分樣本。
圖6 (a)Places2及CelebA數(shù)據(jù)集示例Fig.6 (a)Examples of Places2 and CelebA datasets
圖6 (b)不規(guī)則掩碼數(shù)據(jù)集示例Fig.6 (b)Examples of irregular mask dataset
CelebA 是由香港中文大學開放提供的人臉數(shù)據(jù)集,其中包含有202 599 張人臉照片。由于官方數(shù)據(jù)集中沒有訓練集和測試集劃分,實驗選擇數(shù)據(jù)集中的前190 000 張片人臉圖像作為訓練數(shù)據(jù)集,剩余12 599 張圖像用于測試。Places2 數(shù)據(jù)集中包含有來自365 個場景的180萬張圖像,實驗按照官方默認訓練集和測試集進行訓練。
掩碼數(shù)據(jù)集采用由Liu等人[32]貢獻的不規(guī)則掩碼數(shù)據(jù)集。不規(guī)則數(shù)據(jù)集中包括6 組,共12 000 張掩碼圖像,掩碼區(qū)域占比從10%到60%以10%的增量遞增。為增加掩碼數(shù)量,提高MEGAN網(wǎng)絡模型的泛化能力避免過擬合,實驗過程中將每個掩碼隨機旋轉0°、90°、180°或270°并在垂直或水平方向隨機翻轉來達到數(shù)據(jù)增強的目的。實驗中使用到的三種數(shù)據(jù)集樣本如圖6所示。
所有圖像包括相對應的掩碼圖像在輸入進網(wǎng)絡之前統(tǒng)一將尺寸大小調整為256×256,經(jīng)過對實驗效果的對比最終將Batchsize 設置為4。網(wǎng)絡學習率在訓練初始階段設置為10-4,當趨于收斂時將學習率調整為10-5。網(wǎng)絡在優(yōu)化訓練過程時使用Adam 優(yōu)化器,根據(jù)經(jīng)驗值將一階動量β1 和二階動量β2 分別設置為0.5和0.9。在設置聯(lián)合損失函數(shù)的平衡參數(shù)時,首先借鑒EdgeConnect 網(wǎng)絡參數(shù)及經(jīng)驗值進行初始參數(shù)值設置,經(jīng)過多次實驗調參后確定邊緣損失網(wǎng)絡的損失函數(shù)參數(shù)為λG-edg=1,λ1=1,λfm=10。對于紋理細節(jié)生成網(wǎng)絡中的加權超參數(shù)則分別賦值為λl1=1,λperc=0.1,λstyle=250,λG-im=0.1。
實驗將Pconv、EdgeConnect、Contextual Attention(CA)和本文算法進行對比測試,并就各自修復結果進行定量和定性分析比較。其中,CA模型是由Yu等人提出的經(jīng)典兩階段修復網(wǎng)絡,網(wǎng)絡在第二階段引入基于缺失區(qū)域的上下文注意力模塊,用于同遠距離有效像素之間建立相關性。Pconv模型是由Liu等人首次針對非規(guī)則缺損區(qū)域修復提出的解決方案,用帶有自動掩膜更新步驟的部分卷積層替代普通卷積。
3.2.1 定量分析
實驗在Places2測試集中對四種修復方法進行定量分析比較。測試時將隨機抽樣的樣本圖像調整大小至256×256,在五組不規(guī)則掩碼和一組大小為128×128 的固定矩形掩碼下對圖像的修復結果進行統(tǒng)計對比。為了測試的公平性,實驗使用在Places2 測試集中隨機抽樣10 000張圖片進行修復測試,對不同的算法在測試時均使用相同的圖像掩碼對。定量分析采用的統(tǒng)計指標分別為峰值信噪比(peak signal-to-noise ratio,PSNR)、L1損失、結構相似度(structural similarity,SSIM)和FID距離(fréchet inception distance,F(xiàn)ID)。其中,峰值信噪比通過圖像之間最大可能像素值Z和均方誤差MSE來定義,測量了真實圖像Igt和修復圖像Ifin之間的相似度。一般而言,峰值信噪比數(shù)值越大,重建圖像失真越小,重建效果越好。L1 損失展現(xiàn)了模型在像素級別下對圖像的重建能力。SSIM 通過估計亮度,對比度和結構信息的感知變化可以更準確地表示人的主觀感受。FID計算真實圖像和生成圖像之間特征分布的距離,分值越低即兩張圖像在感知上更加接近。定量比較結果如表1和表2所示。
表1 在Places2上各修復算法對應結果的PSNR/SSIM值Table 1 PSNR/SSIM values of inpainting results of each inpainting method on Places2 dataset
表2 在Places2上各修復算法對應結果的L1/FID值Table 2 L1/FID values of inpainting resultsof each inpainting method on Places2 dataset
根據(jù)數(shù)據(jù)分析顯示,MEGAN在復原準確度和視覺舒適度上都取得了最優(yōu)的效果。MEGAN 的修復結果相較于原始EdgeConnect算法在FID衡量指標上平均降低0.96,尤其當修復區(qū)域占比大于30%時效果更明顯。其原因主要在于門控卷積的引入減少了在邊緣修復時不合理邊緣信息的產生,從而表現(xiàn)出更為真實的修復效果。當缺損區(qū)域小于10%時,各算法都能表現(xiàn)出較高的結構相似性和峰值信噪比。但當待修復區(qū)域的面積增大時,相較于EdgeConnect 算法,EMEGAN 算法在峰值信噪比上平均提高4.8%。同時,MEGAN 修復的圖像在感官上表現(xiàn)出更合理的語義結構和清晰的紋理特征,尤其當修復區(qū)域占比為20%~50%時表現(xiàn)出最優(yōu)的修復效果。
綜上所述,PSNR、SSIM 指標的增加及FID 指標的降低說明MEGAN網(wǎng)絡的修復結果更接近于真實圖像,表現(xiàn)更加自然。L1 損失的降低說明MEGAN 可在像素級別上輸出更加準確的色彩信息。
3.2.2 定性分析
圖7 展示了MEGAN 網(wǎng)絡模型和對比算法在Places2 數(shù)據(jù)集中的修復結果。圖中第一列為原圖,第二列為添加了隨機掩碼的輸入圖像,第三列為部分卷積算法的修復結果,第四列和第五列分別為EdgeConnect和CA算法的修復結果,第六列為MEGAN的修復結果。
圖7 各算法結果對比Fig.7 Comparison of results of each algorithm
根據(jù)對比圖可以看出本文提出的方法在結構表現(xiàn)上更加明顯,紋理更加符合視覺觀感。由于MEGAN網(wǎng)絡模型及其基本模型EdgeConnect都基于邊緣條件修復思想,因此第一階段的邊緣修復結果對第二階段的修復起著決定性作用?;灸P椭煌ㄟ^序列化地堆疊具有單一擴張率的擴張卷積實現(xiàn)特征提取且沒有使用門控卷積處理非規(guī)則掩碼,因此存在丟失大量有效信息的情況。同時,無效像素在訓練過程中產生的歧義會影響正確邊緣信息的生成,產生不合理甚至雜亂的邊緣信息。因此,EdgeConnect 網(wǎng)絡在最終的補全結果中會出現(xiàn)明顯的視覺偽影、方塊狀紋理和元素丟失,在掩碼邊緣也會產生顏色差異和模糊的紋理信息,如圖7 和圖8 第四列所示。
圖8 128×128矩形遮擋下的修復結果Fig.8 Inpainting result under 128×128 rectangle occlusion
部分卷積算法采用的硬掩碼更新的方法雖然在一定程度上減少了掩碼對修復結果影響,但在迭代后期算法會將所有掩碼區(qū)域都視為有效像素,因此越靠近掩碼中心的區(qū)域就越會丟失結構特征進而產生模糊平滑的紋理信息,如圖7 第三列所示。為緩解以上問題,MEGAN 在兩個階段中都使用門控卷積代替原本的單擴張卷積,旨在最大程度上弱化無效像素對生成結果的影響。如圖7 第五列所示,CA 算法由于利用上下文注意力機制從有效的區(qū)域中選擇出與缺損區(qū)域匹配度最高的紋理塊進行填充,因此修復結果中顯示出明顯的紋理重復特征。
圖8展示了以上4種修復算法及金字塔上下文編碼器[24](PENnet)在128×128 固定矩形掩碼下的修復結果??梢钥闯鯩EGAN 的修復結果在窗子和墻壁之間的結構處理上表現(xiàn)出色,PENnet、EdgeConnect 和Pconv生成了扭曲失真的結構和紋理。CA算法生成了在視覺上看似合理的紋理特征,但缺失了重要的結構特征。
為驗證MEGAN 在人臉重建上的表現(xiàn)力,模型在CelebA 數(shù)據(jù)集上進行了訓練和測試,修復結果如圖9所示。與真實圖像相比,MEGAN 可以產生與原圖基本一致的修復效果。當圖像中有大面積缺失或缺少有效邊緣信息的情況下,MEGAN 生成的面部圖像雖然與實際情況有所差距,但依舊可以根據(jù)有限的像素信息推理出結構合理,紋理清晰的面部特征。圖10 列舉部分大面積面部信息缺失的修復實例,第一,二行中人物面部表情和細節(jié)特征產生了明顯變化,第三行圖中女士發(fā)型修復結果明顯受到邊緣信息的影響。在處理第四行的圖像時,由于邊緣修復網(wǎng)絡忽略了“貝雷帽”的結構信息,因此在最終的修復結果中沒有體現(xiàn)這一特征。
圖9 在CelebA數(shù)據(jù)集上的修復結果示例Fig.9 Examples of inpainting results on CelebA dataset
本文提出一種基于邊緣條件的多特征融合圖像修復方法——MEGAN。通過邊緣信息的指導,MEGAN網(wǎng)絡模型中的多尺度特征提取方法可以有效捕捉圖像中的上下文結構信息。門控殘差結構使網(wǎng)絡模型動態(tài)地學習有效區(qū)域與掩碼區(qū)域之間的關系,尤其當缺失區(qū)域較小時可以有效提高紋理修復質量減少邊緣模糊,解決了圖像修復時面臨的對圖像損失區(qū)域內部深層結構的合理性推理問題。由于在處理不規(guī)則掩碼或大面積掩碼時局部判別器的作用受到限制,MEGAN使用的雙譜歸一化馬爾可夫判別器結構可以幫助網(wǎng)絡生成更具全局一致性的語義結構和更加準確清晰的紋理信息。
在CelebA和Places2數(shù)據(jù)集上的訓練和測試結果證明,MEGAN在重建圖像結構合理性和細節(jié)清晰度方面具有優(yōu)秀的表現(xiàn)能力。由于邊緣信息推理的完整度和合理性嚴重影響了第二階段的圖像修復效果,且邊緣信息具有的稀疏性特點使其在補全方法上與圖像紋理有所不同,MEGAN的后續(xù)工作將針對圖像邊緣的生成能力做進一步研究,以及對判別器結構做出進一步優(yōu)化,提高圖像修復精度和高分辨率表示。