趙然
摘 要:圖像修復(fù)是近年來的研究熱點(diǎn),根據(jù)已獲得的圖像內(nèi)容恢復(fù)丟失的圖像內(nèi)容,在傳統(tǒng)文化作品修復(fù)、圖像編輯等領(lǐng)域應(yīng)用廣泛。本文對(duì)近年來該領(lǐng)域相關(guān)研究進(jìn)行綜述,首先從傳統(tǒng)圖像修復(fù)方法出發(fā),分析其存在的問題,重點(diǎn)對(duì)基于深度學(xué)習(xí)的圖像修復(fù)方法進(jìn)行概述,包括基于卷積神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像修復(fù)方法,介紹各種方法的原理與結(jié)構(gòu),總結(jié)基于深度學(xué)習(xí)的各類方法的適用范圍及優(yōu)缺點(diǎn),最后對(duì)未來的研究方向及重點(diǎn)提出展望。
關(guān)鍵詞:深度學(xué)習(xí);圖像修復(fù);卷積神經(jīng)網(wǎng)絡(luò);生成式對(duì)抗網(wǎng)絡(luò);循環(huán)神經(jīng)網(wǎng)絡(luò)
一、緒論
通過已知區(qū)域修復(fù)丟損區(qū)域的圖像修復(fù)方法起源于手工匠對(duì)損壞藝術(shù)品的修復(fù)技術(shù),即以局部信息為基礎(chǔ)進(jìn)行擴(kuò)散修復(fù),研究者們也由此提出了基于偏微分方程的早期圖像修復(fù)算法,偏微分方程算法采用的是擴(kuò)散的思想,將圖像傳輸過程中丟失區(qū)域附近的數(shù)據(jù)通過擴(kuò)散到來修復(fù)丟損區(qū)域,比如Bertalmio等人提出BSCB模型,將受損區(qū)域周圍的有效信息平整擴(kuò)展到受損區(qū)域;再如Chan等人提出TV模型、CDD模型等,TV模型雖然考慮到自然圖像的平滑性,但是沒有考慮到圖像的幾何特征,所以Chan等人又在其中加入曲率,提出CDD模型,一定程度上解決了TV模型不能滿足視覺連通的缺點(diǎn)?;谄⒎址匠痰膱D像修復(fù)方法,可以對(duì)小范圍破損的圖像進(jìn)行很好的修復(fù),還能同時(shí)修復(fù)多個(gè)破損領(lǐng)域,但是對(duì)于大范圍信息缺失的圖像,修復(fù)結(jié)果卻不能讓人滿意,隨著圖像修復(fù)在生物醫(yī)學(xué)、人臉圖像修復(fù)等新領(lǐng)域的應(yīng)用,對(duì)修復(fù)圖像的質(zhì)量要求也越來越高,研究者提出了動(dòng)態(tài)加權(quán)匹配的圖像修復(fù)算法,更好得利用了圖像的已知信息,提高了圖像修復(fù)質(zhì)量,利用局部平均灰度熵快速圖像修復(fù)算法[1]來加快計(jì)算機(jī)執(zhí)行修復(fù)的速度結(jié)構(gòu)信息、連接邊緣,之后再修復(fù)紋理成分,可提高圖像結(jié)構(gòu)、紋理等的一致性。除此之外,Criminisi等人也提出一種基于塊的修復(fù)技術(shù),算法速度得到了很大提升。
二、基于深度學(xué)習(xí)的圖像修復(fù)方法
隨著深度學(xué)習(xí)算法的逐步完善和發(fā)展,研究者開始將深度學(xué)習(xí)算法應(yīng)用于圖像修復(fù)領(lǐng)域。1998年的經(jīng)典網(wǎng)絡(luò)LeNet的提出被認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)的起始,由于計(jì)算機(jī)計(jì)算能力有限,LeNet在圖像修復(fù)領(lǐng)域未被廣泛應(yīng)用,此后研究者們相繼提出AlexNet、VGG-NET、ResNet等卷積神經(jīng)網(wǎng)絡(luò),基于深度學(xué)習(xí)的圖像修復(fù)模型最初多以上述結(jié)構(gòu)為基礎(chǔ),利用卷積神經(jīng)網(wǎng)絡(luò)來訓(xùn)練數(shù)據(jù),高效預(yù)測(cè)圖像的結(jié)構(gòu),但在圖像修復(fù)的紋理細(xì)節(jié)方面不盡人意??紤]到卷積神經(jīng)網(wǎng)絡(luò)存在的局限性,有研究者將生成式對(duì)抗網(wǎng)絡(luò)應(yīng)用于圖像修復(fù)領(lǐng)域:Goodfellow于2014年提出生成對(duì)抗網(wǎng)絡(luò),由生成器和判別器構(gòu)成,生成器從給定噪聲中合成數(shù)據(jù),判別器分辨合成數(shù)據(jù)和真實(shí)數(shù)據(jù)的相似程度,如果計(jì)算生成的樣本圖像與待修復(fù)區(qū)域圖像足夠相似,即可達(dá)到圖像修復(fù)的目的。隨著深度學(xué)習(xí)在圖像修復(fù)領(lǐng)域工作的開展,循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)在對(duì)無標(biāo)志圖像自動(dòng)生成中得到應(yīng)用,將其和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合用于圖像修復(fù)的研究也取得了進(jìn)一步的研究成果。
(一)基于卷積神經(jīng)網(wǎng)絡(luò)的圖像修復(fù)模型
1.卷積神經(jīng)網(wǎng)絡(luò)概述以及原理
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural NetWork,CNN)作為最早的二維圖像識(shí)別傳感器,采用監(jiān)督學(xué)習(xí)的方式,每一層是由多個(gè)獨(dú)立神經(jīng)元組成的二維平面,如經(jīng)典的LeNet-5結(jié)構(gòu),數(shù)據(jù)依次通過輸入層、卷積層1、池化層1、卷積層2、池化層2、全連接層1、激活函數(shù)層、全連接層2、輸出層,此類結(jié)構(gòu)可以層層提取特征,最后利用全連接層完成若干個(gè)分類任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)的部分同層神經(jīng)元到下一層的權(quán)值設(shè)置相同,即權(quán)值共享,在訓(xùn)練數(shù)據(jù)時(shí)會(huì)降低模型復(fù)雜性,把龐大的圖像修復(fù)問題降維處理。
2.基于卷積自編碼的圖像修復(fù)方法
CNN進(jìn)行圖像修復(fù)存在監(jiān)督學(xué)習(xí)的困難,Masci提出的卷積自編碼則有效解決了該問題,Pathak等人命名提出Context Encoder網(wǎng)絡(luò),編碼器逐漸增加圖像的尺度,解碼器則是一個(gè)逆過程,學(xué)習(xí)全局圖像特征和推斷損失部分,利用L2損失和對(duì)抗損失來修復(fù)圖像,但是在對(duì)抗損失訓(xùn)練時(shí)考慮的是預(yù)測(cè)值和實(shí)際像素值之間的歐式距離,得到的圖像缺少完整的紋理細(xì)節(jié),在圖像修補(bǔ)邊緣可以看到明顯的痕跡,進(jìn)一步研究人員將Encoder-Decoder網(wǎng)絡(luò)結(jié)構(gòu)中的對(duì)抗損失稱作局部對(duì)抗損失,又增加一項(xiàng)對(duì)抗損失:全局對(duì)抗損失。此外,優(yōu)化方案的提出也解決了很多問題:結(jié)合圖像內(nèi)容與紋理的多尺度CNN匹配方法,整體架構(gòu)分為內(nèi)容網(wǎng)絡(luò)和結(jié)構(gòu)網(wǎng)絡(luò)[2];在上下文編碼器中加入Global context discriminator和Local context discriminator,從全局一致性和在局部一致性來判別生成效果的好壞,并利用快速匹配方法融入全圖。
(二)基于生成式對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)模型
1.生成式對(duì)抗網(wǎng)絡(luò)概述以及原理
生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)受零和博弈啟發(fā),包括生成模型G和判別模型D,其結(jié)構(gòu)如圖2,生成模型G將輸入的信息經(jīng)過極大似然估計(jì)的參數(shù)轉(zhuǎn)化成指定樣本,而判別模型D用來判斷G中的圖像數(shù)據(jù)是否為真實(shí)數(shù)據(jù),通過交替訓(xùn)練讓這兩個(gè)模型同時(shí)得到增強(qiáng),使生成器產(chǎn)生的數(shù)據(jù)逼近真實(shí)數(shù)據(jù)分布,由于判別器的存在,最終會(huì)達(dá)到納什均衡。
2.基于生成式對(duì)抗網(wǎng)絡(luò)圖像修復(fù)方法
基于GAN圖像修復(fù)方法訓(xùn)練過程不穩(wěn)定,為了提高訓(xùn)練的穩(wěn)定性,Mirza提出了CGAN,通過把無監(jiān)督的GAN變成半監(jiān)督或者有監(jiān)督的模型,增加網(wǎng)絡(luò)結(jié)構(gòu)的約束性,引入另一個(gè)條件變量y,和GAN原有的輸入合并為一個(gè)向量,訓(xùn)練過程的穩(wěn)定性得到了極大程度的提高。研究人員在無監(jiān)督學(xué)習(xí)領(lǐng)域仍然對(duì)GAN模型提出改進(jìn):2015年Radford等人提出DCGAN,深度卷積生成對(duì)抗網(wǎng)絡(luò)仍由生成模型G和判別模型D構(gòu)成[2],在卷積特征上消除全連接層,利用轉(zhuǎn)置卷積網(wǎng)絡(luò)實(shí)現(xiàn)低維度噪聲得到高緯度圖像的目的。近年來研究者們針對(duì)GAN在圖像修復(fù)方面的研究又提出一種基于生成對(duì)抗網(wǎng)絡(luò)的圖像分布補(bǔ)全算法[3]:預(yù)補(bǔ)全模型對(duì)圖像初步補(bǔ)全、還原低維結(jié)構(gòu)信息,增強(qiáng)補(bǔ)全模型還原高維紋理結(jié)構(gòu)信息。
(三)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像修復(fù)模型
1.循環(huán)神經(jīng)網(wǎng)絡(luò)概述以及原理
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型比較:傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型層與層之間是全連接的,每層之間的節(jié)點(diǎn)是無連接的,而RNN的每一個(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān),RNN會(huì)對(duì)前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計(jì)算中。
2.基于循環(huán)神經(jīng)網(wǎng)絡(luò)圖像修復(fù)方法
基于RNN的這種網(wǎng)絡(luò)結(jié)構(gòu),可以將時(shí)間序列對(duì)應(yīng)到圖像的像素分布,補(bǔ)全缺失區(qū)域時(shí)可以按照兩個(gè)空間維度來預(yù)測(cè)像素信息,下一個(gè)像素點(diǎn)的預(yù)測(cè)是基于之前所生成的像素點(diǎn)。谷歌提出Pixel RNN模型用于圖像修復(fù)[5],其由12個(gè)二維LSTM組成,用卷積一次性計(jì)算數(shù)據(jù)在一個(gè)空間維度的狀態(tài)。傳統(tǒng)LSTM在每一行做卷積,Diagonal BiLSTM在圖像的對(duì)角做卷積,同時(shí)引入了殘差連接,幫助12層的LSTM深度訓(xùn)練。由于RNN網(wǎng)絡(luò)計(jì)算的復(fù)雜性,因此基于循環(huán)神經(jīng)網(wǎng)絡(luò)圖像修復(fù)方法較少,對(duì)于基于RNN的圖像修復(fù)方法需要設(shè)計(jì)更為合理的網(wǎng)絡(luò)模型來實(shí)現(xiàn)。
三、總結(jié)與展望
本文通過對(duì)基于深度學(xué)習(xí)的幾種圖像修復(fù)模型進(jìn)行總結(jié),概括出基于深度學(xué)習(xí)的三種圖像修復(fù)方法的特點(diǎn):CNN研究較為廣泛,但是對(duì)于紋理修復(fù)卻存在不足;GAN可應(yīng)用于缺失大量數(shù)據(jù)的圖像修復(fù),但是GAN的訓(xùn)練階段的不穩(wěn)定性問題需要更加深入的研究來解決;RNN處理序列數(shù)據(jù)方面有著較為優(yōu)異的表現(xiàn),但是對(duì)于大樣本數(shù)據(jù)的處理卻不太出色?;趯?duì)現(xiàn)有方法討論總結(jié),可以看出深度學(xué)習(xí)在圖像修復(fù)領(lǐng)域得到應(yīng)用,本文對(duì)基于深度學(xué)習(xí)的圖像修復(fù)方法研究提出了以下展望:在基于深度學(xué)習(xí)的圖像修復(fù)方法中,深度學(xué)習(xí)網(wǎng)絡(luò)的設(shè)計(jì)和訓(xùn)練過程中的損失函數(shù)的選擇是其重要的內(nèi)容,選擇合適的損失函數(shù)在提高圖像修復(fù)質(zhì)量的同時(shí)也會(huì)加快深度學(xué)習(xí)的訓(xùn)練速度,圖像修復(fù)質(zhì)量的提高還可以通過減少噪聲模型深度來解決,因此在未來工作中設(shè)計(jì)出更加完善的去噪模型也尤為重要,如何設(shè)計(jì)具有普適性的修復(fù)網(wǎng)絡(luò),提高修復(fù)結(jié)果的準(zhǔn)確性,還需要更加深入的研究。
參考文獻(xiàn):
[1]張晴,林家駿,劉云翔.基于局部平均灰度熵的快速圖像修復(fù)算法[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(10):206-208+223.
[2]李天成,何嘉.一種基于生成對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)算法[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(12):195-200+267.
[3]王一鳴.基于生成對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)算法研究[D].北京交通大學(xué),2019.
[4]王鑫磊.基于深度卷積生成對(duì)抗網(wǎng)絡(luò)的圖像修復(fù)研究與應(yīng)用[D].重慶大學(xué),2018.
[5]強(qiáng)振平,何麗波,陳旭,徐丹.深度學(xué)習(xí)圖像修復(fù)方法綜述[J].中國(guó)圖象圖形學(xué)報(bào),2019,24(03):447-463.
作者簡(jiǎn)介:趙然(1999-),男,漢族,安徽滁州人,本科大三在讀,研究方向:深度學(xué)習(xí)、計(jì)算機(jī)視覺。